第一章 数学基础

这篇具有很好参考价值的文章主要介绍了第一章 数学基础。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、线性代数

  1. 理解范数概念
  2. 区分向量的内积 a ⋅ b \mathbf{a} \cdot \mathbf{b} ab 与外积 a × b \mathbf{a} \times \mathbf{b} a×b
  3. 区分矩阵的乘法 A ⊗ B \mathbf{A} \otimes \mathbf{B} AB、内积 A B \mathbf{A} \mathbf{B} AB 、哈达玛积 A ⊙ B \mathbf{A} \odot \mathbf{B} AB

向量

向量是一组标量排列而成的,只有一个轴,沿着行或者列的方向。通常表示成:
s = [ s 1 s 2 ⋯ s n ]   或   s = [ s 1 s 2 ⋮ s n ] s= \begin{bmatrix} s_1 &s_2 &\cdots &s_n \end{bmatrix}\ \ 或\ \ s = \begin{bmatrix} s_1\\ s_2\\ \vdots\\ s_n \end{bmatrix} s=[s1s2sn]    s= s1s2sn 向量的模与范数

向量的长度:表示向量的维度,即向量有几个元素,比如 n 维向量 a = ( a 1 , a 2 , ⋯   , a n ) a=(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) 的长度为 n,有 n 个元素。

向量的模长:简称为向量的模(Norm),表示向量在空间中的长度(欧式距离)。假设有 n 维向量 a = ( a 1 , a 2 , ⋯   , a n ) a=(a_1,a_2,\cdots,a_n) a=(a1,a2,,an),其模长 ∥ a ∥ \left \| a \right \| a 等于 a 1 2 + a 2 2 + ⋯ + a n 2 \sqrt{a_1^2 + a_2^2 + \cdots + a_n^2} a12+a22++an2

向量的范数: ∥ x ∥ = ( ∑ i ∣ x i ∣ p ) 1 p \left \| x \right \| = (\sum_i |x_i|^p)^{\frac{1}{p}} x=(ixip)p1,其中 p ∈ R , p ≥ 1 p \in R, p \ge 1 pR,p1。通常存在 L 2 L_2 L2 范数或者 L 1 L_1 L1 范数,其中 1 1 1 2 2 2 对应公式中的 p p p 值。向量的模长就为 L 2 L_2 L2 范数。

单位向量

单位向量:即模长为 1 的向量,通常用于表示向量在空间中的方向,而不是长度(长度为模)。

假设有 n 维向量 a = ( a 1 , a 2 , ⋯   , a n ) a=(a_1,a_2,\cdots,a_n) a=(a1,a2,,an),其单位向量为 1 a 1 2 + a 2 2 + ⋯ + a n 2 ( a 1 , a 2 , ⋯   , a n ) \frac{1}{\sqrt{a_1^2 + a_2^2 + \cdots + a_n^2}}(a_1,a_2,\cdots,a_n) a12+a22++an2 1(a1,a2,,an)向量的内积

向量的内积(Inner Product):也成为点乘、点积,是向量对应位置元素相加再相乘,结果为一个标量

假设有向量 a = ( a 1 , a 2 , ⋯   , a n ) \mathbf{a} =(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) b = ( b 1 , b 2 , ⋯   , b n ) \mathbf{b}=(b_1,b_2,\cdots,b_n) b=(b1,b2,,bn),那么其内积 c \mathbf{c} c 为: c = a ⋅ b = ∑ i = 1 n a i ⋅ b i \begin{aligned} \mathbf{c} &= \mathbf{a} \cdot \mathbf{b}\\ &=\sum_{i=1}^n a_i \cdot b_i \end{aligned} c=ab=i=1naibi向量内积的几何意义:能够表示出两个向量之间的线性相关程度,假设两个向量 a = ( a 1 , a 2 , ⋯   , a n ) \mathbf{a} =(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) b = ( b 1 , b 2 , ⋯   , b n ) \mathbf{b}=(b_1,b_2,\cdots,b_n) b=(b1,b2,,bn),那么其夹角 θ \theta θ 余弦值 cos ⁡ θ \cos \theta cosθ 就为: cos ⁡ θ = a ⋅ b ∥ a ∥ ∥ b ∥ \cos \theta = \frac{\mathbf{a} \cdot \mathbf{b}}{\left \| a \right \| \left \| b \right \|} cosθ=abab cos ⁡ θ = 0 \cos \theta = 0 cosθ=0,表示两个向量空间垂直,即向量无关;当 cos ⁡ θ = 1 \cos \theta = 1 cosθ=1,表示两个向量空间方向相同,即线性高度相关。

第一章 数学基础

向量的外积

外积(Outer Product):也称为向量叉积、叉乘,其计算结果是一个向量,其方向垂直于两个向量组成的平面。

假设有两个向量 a = ( a 1 , a 2 , ⋯   , a n ) \mathbf{a} =(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) b = ( b 1 , b 2 , ⋯   , b n ) \mathbf{b}=(b_1,b_2,\cdots,b_n) b=(b1,b2,,bn),那么向量外积 c \mathbf{c} c 表示为 c = a × b \mathbf{c} = \mathbf{a} \times \mathbf{b} c=a×b,其大小为: ∣ c ∣ = ∣ a ∣ ∣ b ∣ sin ⁡ ( a , b ) \left | c \right | = \left | a \right | \left | b \right | \sin(\mathbf{a}, \mathbf{b}) c=absin(a,b)

第一章 数学基础

矩阵

矩阵是由多个元素组成的表格,是一种二维结构,每个数字在矩阵中对应一个行号与列号。矩阵表示如下: A = [ A 1 , 1 A 1 , 2 ⋯ A 1 , n A 2 , 1 A 2 , 2 ⋯ A 2 , n ⋮ ⋮ ⋮ A m , 1 A m , 2 ⋯ A m , n ] A=\begin{bmatrix} A_{1,1} & A_{1,2}& \cdots& A_{1,n}\\ A_{2,1} & A_{2,2}& \cdots& A_{2,n}\\ \vdots & \vdots& & \vdots \\ A_{m,1} & A_{m,2}& \cdots& A_{m,n}\\ \end{bmatrix} A= A1,1A2,1Am,1A1,2A2,2Am,2A1,nA2,nAm,n 矩阵的转置

矩阵的转置(Transpose)是将矩阵以主对角线为轴,进行镜像翻转, ( A ) m , n T = A n , m (A)^T_{m,n} = A_{n, m} (A)m,nT=An,m

矩阵乘法

假设有矩阵 A m , k A_{m, k} Am,k 和矩阵 B k , n B_{k, n} Bk,n,那么矩阵乘法表示为: C = A ⊗ B = A B    ⇒    C m , n = ∑ k A m , k B k , n C = A \otimes B = AB\ \ \Rightarrow\ \ C_{m, n} = \sum_k A_{m, k} B_{k,n} C=AB=AB    Cm,n=kAm,kBk,n

矩阵乘法能操作的前提是:矩阵 A A A 的列数必须与矩阵 B B B 的行数相同!

矩阵内积

矩阵内积表示将两个矩阵对应元素直接相乘再相加,结果为一个标量 c = ∑ i = 1 m ∑ j = 1 n A i , j B i , j c = \sum_{i=1}^{m} \sum_{j=1}^n A_{i, j} B_{i, j} c=i=1mj=1nAi,jBi,j

矩阵哈达玛积

矩阵的哈达玛积(Hadamard product)表示将两个矩阵对应元素相乘,其结果是一个矩阵 C = A ⊙ B    ⇒    C = [ A 1 , 1 B 1 , 1 A 1 , 2 B 1 , 2 ⋯ A 1 , n B 1 , n A 2 , 1 B 2 , 1 A 2 , 2 B 2 , 2 ⋯ A 2 , n B 2 , n ⋮ ⋮ ⋮ A 4 , 1 B 4 , 1 A 4 , 2 B 4 , 2 ⋯ A 4 , n B 4 , n ] \mathbf{C} = \mathbf{A} \odot \mathbf{B} \ \ \Rightarrow \ \ \mathbf{C} = \begin{bmatrix} A_{1,1}B_{1,1} & A_{1,2}B_{1,2}& \cdots& A_{1,n}B_{1,n}\\ A_{2,1}B_{2,1} & A_{2,2}B_{2,2}& \cdots& A_{2,n}B_{2,n}\\ \vdots &\vdots & &\vdots \\ A_{4,1}B_{4,1} & A_{4,2}B_{4,2}& \cdots& A_{4,n}B_{4,n}\\ \end{bmatrix} C=AB    C= A1,1B1,1A2,1B2,1A4,1B4,1A1,2B1,2A2,2B2,2A4,2B4,2A1,nB1,nA2,nB2,nA4,nB4,n 张量

张量(Tensor)是多维数组的抽象概括,可以看作是向量和矩阵的扩展,这也是 Pytorch 中最基本的数据结构。

二、微积分

梯度

梯度是一个包含所有偏导数的向量,用符号 ∇ \nabla 表示。

比如有函数 z = f ( x , y ) = x 2 + y 2 z = f(x,y) = x^2 + y^2 z=f(x,y)=x2+y2,其梯度向量为: ∇ f ( x , y ) = ( 2 x , 2 y ) \nabla f(x,y) = (2x, 2y) f(x,y)=(2x,2y)

在梯度下降算法中,参数的更新公式为: θ t + 1 = θ t − η ∇ θ J ( θ t ) \theta_{t+1} = \theta_t - \eta \nabla_{\theta}J(\theta_t) θt+1=θtηθJ(θt)

方向导数与梯度的关系,方向导数表示某一个点处沿各个方向的斜率,是一个标量。而梯度是一个向量,其方向上的方向导数最大,其大小正好是此最大方向导数。

三、概率

贝叶斯定理

贝叶斯定理公式: P ( A   ∣   B ) = P ( A ) P ( B   ∣   A ) P ( B ) P(A \ | \ B) = P(A)\frac{P(B\ | \ A)}{P(B)} P(A  B)=P(A)P(B)P(B  A)

英国数学家托马斯·贝叶斯(Thomas Bayes)在 1763 年发表的一篇论文中,首先提出了该定理。

该论文表示贝叶斯为了解决一个 ”逆概率” 问题,而提出了贝叶斯定理。在贝叶斯写这篇论文前,人们已经能够计算 “正向概率” 问题了。

正向概率问题就比如从箱子中摸球的问题,假设箱子中有 2 个白球、2 个黑球,你从箱子中摸一次且只拿一个球,那么抽到白球的概率是多少?这种从 已知信息 到 未知信息 的问题就是正概率问题。

逆概率问题就比如上面摸球问题,在之前并不知道箱子里面有什么颜色的球,而是摸出一个球,观察这个球的颜色,进而预测这个箱子里面有什么颜色的球,这种从 未知信息 到已知信息 的问题就是逆概率问题。

在平时生活中,大部分问题都是 “逆概率” 问题。因为绝大多数决策面临的信息都是不完整的,我们手中只有有限的信息。既然无法得到完整的信息,就只能在有限信息的条件下,尽可能做出一个好的预测。

而对于贝叶斯公式可以这么理解,比如一个例子:我喜欢吃冰淇淋,然后偶然在抖音上刷到有人推荐肯德基的冰淇淋很好吃,那么现在我想知道肯德基的冰淇淋到底好不好吃。

那么现在有:

  • 要求解的问题(未知信息):肯德基的冰淇淋是否好吃,记为事件 A;
  • 已知条件:抖音上有人推荐肯德基的冰淇淋好吃,记为事件 B;

所以 P ( A   ∣   B ) P(A \ | \ B) P(A  B) 就表示在抖音上有人推荐肯德基的冰淇淋好吃的事件发生后,肯德基的冰淇淋好吃的概率。那么有贝叶斯公式: P ( A   ∣   B ) = P ( A ) P ( B   ∣   A ) P ( B ) P(A \ | \ B) = P(A)\frac{P(B\ | \ A)}{P(B)} P(A  B)=P(A)P(B)P(B  A)对公式可以这样看:

  • P ( A   ∣   B ) P(A \ | \ B) P(A  B):后验概率
  • P ( A ) P(A) P(A):先验概率(Prior Probability),表示在不知道事件 B 的前提之下,我们认为对事件 A 的一个主观判断。
  • P ( B   ∣   A ) P ( B ) \frac{P(B\ | \ A)}{P(B)} P(B)P(B  A):可能性函数(Likelyhood),它是一个调整因子,即为新信息 B 带来的调整,其作用是将先验概率(之前做的主观判断)调整到更接近真是的概率。
    • P ( B   ∣   A ) P ( B ) > 1 \frac{P(B\ | \ A)}{P(B)} > 1 P(B)P(B  A)>1 表示先验概率被增强,事件 A 发生的概率变大;
    • P ( B   ∣   A ) P ( B ) < 1 \frac{P(B\ | \ A)}{P(B)} < 1 P(B)P(B  A)<1 表示先验概率被削弱,事件 A 发生的概率变小;
    • P ( B   ∣   A ) P ( B ) = 1 \frac{P(B\ | \ A)}{P(B)} = 1 P(B)P(B  A)=1 表示事件 B 无助于判断事件 A 的可能性。

极大似然估计

概率:在特定环境下某件事情发生的可能性,即在结果没有产生之前,根据环境中的参数,来预测某件事情发生的概率。比如抛硬币,在没有抛之前,我们并不知道结果会是硬币的那一面朝上。但是根据硬币的性质,可以推测得出任何一面朝上的概率都是 0.5。而这里的概率 0.5,只有在抛硬币之前是有意义的。因为硬币抛完了之后,结果就确定了。

似然:基于已经确定的结果,来推测产生这个结果的可能环境,或者说是推测环境中的某些参数。比如抛硬币,假设随机抛出硬币 10000 次,结果 8000 次人像在上,2000 次数字在上,就可以推测出该硬币可能比较特殊,进而可得该硬币的具体参数,即人像的概率为 0.8,数字的概率为 0.2。这种根据结果判断事情本身性质的过程就是似然。

假设 θ \theta θ 表示环境对应的参数,而 x x x 表示事件发生的结果,就有

  • 概率表示为 P ( x   ∣   θ ) P(x\ | \ \theta) P(x  θ),在环境参数为 θ \theta θ 的前提下,事件 x x x 发生的概率,其中 P P P 是关于 x x x 的函数。
  • 似然表示为 L ( θ   ∣   x ) L(\theta \ | \ x) L(θ  x),在已知观察结果为 x x x 的前提下,来推断 θ \theta θ,其中 L L L 是关于 θ \theta θ 的函数。

极大似然估计(Maximum Likelihood Estimate):也称为最大似然估计,利用已知的样本标记结果,反推最具有可能,或者说是最大概率导致这些样本结果出现的模型参数。极大似然估计是一种已知观察数据来推断模型参数的过程。

利用抛硬币的例子,假设 P ( 人像朝上 ) = θ P(人像朝上) = \theta P(人像朝上)=θ P ( 数字朝上 ) = 1 − θ P(数字朝上) = 1-\theta P(数字朝上)=1θ θ \theta θ 存在但是具体未知。

为了获取 θ \theta θ,进行抛硬币实验并记录抛出的结果序列。假设在这个序列中,有 7 次是人像朝上,3 次是数字朝上,那么就有 θ \theta θ 的似然函数 L ( θ ) = θ 7 ( 1 − θ ) 3 L(\theta) = \theta^7 (1-\theta)^3 L(θ)=θ7(1θ)3其函数图像如下:

第一章 数学基础

最大似然估计就是求解当 θ \theta θ 取值为多少的时候,似然函数 L ( θ ) L(\theta) L(θ) 取得最大值,即 10 次实验最可能发生 7 次是人像朝上,3 次是数字朝上。

为了获取更准确的参数,可以增加试验次数。文章来源地址https://www.toymoban.com/news/detail-455733.html

到了这里,关于第一章 数学基础的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习的数学基础:从线性代数到梯度下降

    机器学习是人工智能的一个重要分支,它涉及到计算机程序自动化地学习或者预测事物的行为。机器学习的核心是算法,算法需要数学来支持。在本文中,我们将从线性代数到梯度下降的数学基础来讨论机器学习算法的核心。 机器学习的数学基础包括线性代数、微积分、概率

    2024年02月21日
    浏览(30)
  • 自动编码器的数学基础:概率论与线性代数

    自动编码器(Autoencoders)是一种深度学习模型,它通过学习压缩输入数据的低维表示,然后再将其重新解码为原始数据形式。自动编码器的主要目的是学习数据的特征表示,从而可以用于降维、生成新数据、数据压缩等应用。在这篇文章中,我们将讨论自动编码器的数学基础,

    2024年02月20日
    浏览(38)
  • 人工智能中数学基础:线性代数,解析几何和微积分

    在人工智能领域,线性代数、解析几何和微积分是最基础的数学知识。这些数学知识不仅在人工智能领域中被广泛应用,也是其他领域的重要基础。本文将介绍人工智能中的线性代数、解析几何和微积分的基础知识和应用。

    2024年02月16日
    浏览(34)
  • AI人工智能中的数学基础原理与Python实战: 线性代数基础概述

    随着人工智能技术的不断发展,人工智能已经成为了许多行业的核心技术之一。在人工智能领域中,数学是一个非常重要的基础。线性代数是数学中的一个重要分支,它在人工智能中发挥着至关重要的作用。本文将介绍线性代数的基本概念、算法原理、具体操作步骤以及数学

    2024年04月12日
    浏览(35)
  • 计算机科学cs/电子信息ei面试准备——数学基础/线性代数复习

    目录 1. 中值定理 2. 梯度和散度 方向导数和梯度 通量与散度 3. 泰勒公式是为了解决什么问题的? 4. 矩阵的秩是什么,矩阵的秩物理意义? 矩阵的秩 矩阵秩的物理意义 5. 特征值和特征向量的概念 5.1 传统方法 例题 5.2 雅可比迭代法 6. 什么是线性相关以及线性相关的性质?

    2024年02月16日
    浏览(33)
  • 线性代数(基础篇):第一章:行列式 、第二章:矩阵

    1. A可逆 ⇦⇨①|A|≠0 ⇦⇨②r(A)=n,A满秩 ⇦⇨③A的列向量 α₁,α₂,…α n 线性无关 ⇦⇨④Ax=0仅有零解 (系数矩阵的秩 = 列数,列满秩) ⇦⇨⑤ A的特征值均不为0 【17年5.】 2.  A不可逆 ⇦⇨①|A|=0 ⇦⇨②r(A)n,A不满秩 ⇦⇨③A的列向量 α₁,α₂,…α n 线性相关 ⇦⇨④Ax=0有非

    2024年02月16日
    浏览(36)
  • 线性代数(魏福义)——第一章:向量与线性空间

    坐标系中可使用向量处理几何与运动学的问题,一般使用到二维或者三维有序数组,如(x,y)、(x,y,z),这样的数组称作 向量, 实际问题会用到更多维的向量。 1.1.1向量 以有序数组表示向量。n个数排成的有序数组就是n维向量。 α=(a1,a2,a3...,an)称为 行向量 ;将其

    2024年03月21日
    浏览(36)
  • 线性代数 第一章 行列式

    一、概念 不同行不同列元素乘积的代数和(共n!项) 二、性质 经转置行列式的值不变,即 ; 某行有公因数k,可把k提到行列式外。特别地,某行元素全为0,则行列式的值为0; 两行互换行列式变号,特别地,两行相等行列式值为0,两行成比例行列式值为0; 某行所有元素都

    2024年02月06日
    浏览(36)
  • 【线性代数及其应用 —— 第一章 线性代数中的线性方程组】-1.线性方程组

    所有笔记请看: 博客学习目录_Howe_xixi的博客-CSDN博客 https://blog.csdn.net/weixin_44362628/article/details/126020573?spm=1001.2014.3001.5502 思维导图如下:  内容笔记如下:

    2024年02月06日
    浏览(45)
  • 线性代数中涉及到的matlab命令-第一章:行列式

    目录 1,逆序数  2,行列式定义和性质 2.1,常用特性及命令  2.2,求行列式 2.3,行列式的性质  2,行列式按行(列)展开  3,范德蒙德行列式   在学习线性代数过程中,发现同步使用MATLAB进行计算验证可以加深对概念的理解,并能掌握MATLAB的命令和使用方法; 使用的线性

    2024年02月04日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包