第一章 数学基础

这篇具有很好参考价值的文章主要介绍了第一章 数学基础。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、线性代数

  1. 理解范数概念
  2. 区分向量的内积 a ⋅ b \mathbf{a} \cdot \mathbf{b} ab 与外积 a × b \mathbf{a} \times \mathbf{b} a×b
  3. 区分矩阵的乘法 A ⊗ B \mathbf{A} \otimes \mathbf{B} AB、内积 A B \mathbf{A} \mathbf{B} AB 、哈达玛积 A ⊙ B \mathbf{A} \odot \mathbf{B} AB

向量

向量是一组标量排列而成的,只有一个轴,沿着行或者列的方向。通常表示成:
s = [ s 1 s 2 ⋯ s n ]   或   s = [ s 1 s 2 ⋮ s n ] s= \begin{bmatrix} s_1 &s_2 &\cdots &s_n \end{bmatrix}\ \ 或\ \ s = \begin{bmatrix} s_1\\ s_2\\ \vdots\\ s_n \end{bmatrix} s=[s1s2sn]    s= s1s2sn 向量的模与范数

向量的长度:表示向量的维度,即向量有几个元素,比如 n 维向量 a = ( a 1 , a 2 , ⋯   , a n ) a=(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) 的长度为 n,有 n 个元素。

向量的模长:简称为向量的模(Norm),表示向量在空间中的长度(欧式距离)。假设有 n 维向量 a = ( a 1 , a 2 , ⋯   , a n ) a=(a_1,a_2,\cdots,a_n) a=(a1,a2,,an),其模长 ∥ a ∥ \left \| a \right \| a 等于 a 1 2 + a 2 2 + ⋯ + a n 2 \sqrt{a_1^2 + a_2^2 + \cdots + a_n^2} a12+a22++an2

向量的范数: ∥ x ∥ = ( ∑ i ∣ x i ∣ p ) 1 p \left \| x \right \| = (\sum_i |x_i|^p)^{\frac{1}{p}} x=(ixip)p1,其中 p ∈ R , p ≥ 1 p \in R, p \ge 1 pR,p1。通常存在 L 2 L_2 L2 范数或者 L 1 L_1 L1 范数,其中 1 1 1 2 2 2 对应公式中的 p p p 值。向量的模长就为 L 2 L_2 L2 范数。

单位向量

单位向量:即模长为 1 的向量,通常用于表示向量在空间中的方向,而不是长度(长度为模)。

假设有 n 维向量 a = ( a 1 , a 2 , ⋯   , a n ) a=(a_1,a_2,\cdots,a_n) a=(a1,a2,,an),其单位向量为 1 a 1 2 + a 2 2 + ⋯ + a n 2 ( a 1 , a 2 , ⋯   , a n ) \frac{1}{\sqrt{a_1^2 + a_2^2 + \cdots + a_n^2}}(a_1,a_2,\cdots,a_n) a12+a22++an2 1(a1,a2,,an)向量的内积

向量的内积(Inner Product):也成为点乘、点积,是向量对应位置元素相加再相乘,结果为一个标量

假设有向量 a = ( a 1 , a 2 , ⋯   , a n ) \mathbf{a} =(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) b = ( b 1 , b 2 , ⋯   , b n ) \mathbf{b}=(b_1,b_2,\cdots,b_n) b=(b1,b2,,bn),那么其内积 c \mathbf{c} c 为: c = a ⋅ b = ∑ i = 1 n a i ⋅ b i \begin{aligned} \mathbf{c} &= \mathbf{a} \cdot \mathbf{b}\\ &=\sum_{i=1}^n a_i \cdot b_i \end{aligned} c=ab=i=1naibi向量内积的几何意义:能够表示出两个向量之间的线性相关程度,假设两个向量 a = ( a 1 , a 2 , ⋯   , a n ) \mathbf{a} =(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) b = ( b 1 , b 2 , ⋯   , b n ) \mathbf{b}=(b_1,b_2,\cdots,b_n) b=(b1,b2,,bn),那么其夹角 θ \theta θ 余弦值 cos ⁡ θ \cos \theta cosθ 就为: cos ⁡ θ = a ⋅ b ∥ a ∥ ∥ b ∥ \cos \theta = \frac{\mathbf{a} \cdot \mathbf{b}}{\left \| a \right \| \left \| b \right \|} cosθ=abab cos ⁡ θ = 0 \cos \theta = 0 cosθ=0,表示两个向量空间垂直,即向量无关;当 cos ⁡ θ = 1 \cos \theta = 1 cosθ=1,表示两个向量空间方向相同,即线性高度相关。

第一章 数学基础

向量的外积

外积(Outer Product):也称为向量叉积、叉乘,其计算结果是一个向量,其方向垂直于两个向量组成的平面。

假设有两个向量 a = ( a 1 , a 2 , ⋯   , a n ) \mathbf{a} =(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) b = ( b 1 , b 2 , ⋯   , b n ) \mathbf{b}=(b_1,b_2,\cdots,b_n) b=(b1,b2,,bn),那么向量外积 c \mathbf{c} c 表示为 c = a × b \mathbf{c} = \mathbf{a} \times \mathbf{b} c=a×b,其大小为: ∣ c ∣ = ∣ a ∣ ∣ b ∣ sin ⁡ ( a , b ) \left | c \right | = \left | a \right | \left | b \right | \sin(\mathbf{a}, \mathbf{b}) c=absin(a,b)

第一章 数学基础

矩阵

矩阵是由多个元素组成的表格,是一种二维结构,每个数字在矩阵中对应一个行号与列号。矩阵表示如下: A = [ A 1 , 1 A 1 , 2 ⋯ A 1 , n A 2 , 1 A 2 , 2 ⋯ A 2 , n ⋮ ⋮ ⋮ A m , 1 A m , 2 ⋯ A m , n ] A=\begin{bmatrix} A_{1,1} & A_{1,2}& \cdots& A_{1,n}\\ A_{2,1} & A_{2,2}& \cdots& A_{2,n}\\ \vdots & \vdots& & \vdots \\ A_{m,1} & A_{m,2}& \cdots& A_{m,n}\\ \end{bmatrix} A= A1,1A2,1Am,1A1,2A2,2Am,2A1,nA2,nAm,n 矩阵的转置

矩阵的转置(Transpose)是将矩阵以主对角线为轴,进行镜像翻转, ( A ) m , n T = A n , m (A)^T_{m,n} = A_{n, m} (A)m,nT=An,m

矩阵乘法

假设有矩阵 A m , k A_{m, k} Am,k 和矩阵 B k , n B_{k, n} Bk,n,那么矩阵乘法表示为: C = A ⊗ B = A B    ⇒    C m , n = ∑ k A m , k B k , n C = A \otimes B = AB\ \ \Rightarrow\ \ C_{m, n} = \sum_k A_{m, k} B_{k,n} C=AB=AB    Cm,n=kAm,kBk,n

矩阵乘法能操作的前提是:矩阵 A A A 的列数必须与矩阵 B B B 的行数相同!

矩阵内积

矩阵内积表示将两个矩阵对应元素直接相乘再相加,结果为一个标量 c = ∑ i = 1 m ∑ j = 1 n A i , j B i , j c = \sum_{i=1}^{m} \sum_{j=1}^n A_{i, j} B_{i, j} c=i=1mj=1nAi,jBi,j

矩阵哈达玛积

矩阵的哈达玛积(Hadamard product)表示将两个矩阵对应元素相乘,其结果是一个矩阵 C = A ⊙ B    ⇒    C = [ A 1 , 1 B 1 , 1 A 1 , 2 B 1 , 2 ⋯ A 1 , n B 1 , n A 2 , 1 B 2 , 1 A 2 , 2 B 2 , 2 ⋯ A 2 , n B 2 , n ⋮ ⋮ ⋮ A 4 , 1 B 4 , 1 A 4 , 2 B 4 , 2 ⋯ A 4 , n B 4 , n ] \mathbf{C} = \mathbf{A} \odot \mathbf{B} \ \ \Rightarrow \ \ \mathbf{C} = \begin{bmatrix} A_{1,1}B_{1,1} & A_{1,2}B_{1,2}& \cdots& A_{1,n}B_{1,n}\\ A_{2,1}B_{2,1} & A_{2,2}B_{2,2}& \cdots& A_{2,n}B_{2,n}\\ \vdots &\vdots & &\vdots \\ A_{4,1}B_{4,1} & A_{4,2}B_{4,2}& \cdots& A_{4,n}B_{4,n}\\ \end{bmatrix} C=AB    C= A1,1B1,1A2,1B2,1A4,1B4,1A1,2B1,2A2,2B2,2A4,2B4,2A1,nB1,nA2,nB2,nA4,nB4,n 张量

张量(Tensor)是多维数组的抽象概括,可以看作是向量和矩阵的扩展,这也是 Pytorch 中最基本的数据结构。

二、微积分

梯度

梯度是一个包含所有偏导数的向量,用符号 ∇ \nabla 表示。

比如有函数 z = f ( x , y ) = x 2 + y 2 z = f(x,y) = x^2 + y^2 z=f(x,y)=x2+y2,其梯度向量为: ∇ f ( x , y ) = ( 2 x , 2 y ) \nabla f(x,y) = (2x, 2y) f(x,y)=(2x,2y)

在梯度下降算法中,参数的更新公式为: θ t + 1 = θ t − η ∇ θ J ( θ t ) \theta_{t+1} = \theta_t - \eta \nabla_{\theta}J(\theta_t) θt+1=θtηθJ(θt)

方向导数与梯度的关系,方向导数表示某一个点处沿各个方向的斜率,是一个标量。而梯度是一个向量,其方向上的方向导数最大,其大小正好是此最大方向导数。

三、概率

贝叶斯定理

贝叶斯定理公式: P ( A   ∣   B ) = P ( A ) P ( B   ∣   A ) P ( B ) P(A \ | \ B) = P(A)\frac{P(B\ | \ A)}{P(B)} P(A  B)=P(A)P(B)P(B  A)

英国数学家托马斯·贝叶斯(Thomas Bayes)在 1763 年发表的一篇论文中,首先提出了该定理。

该论文表示贝叶斯为了解决一个 ”逆概率” 问题,而提出了贝叶斯定理。在贝叶斯写这篇论文前,人们已经能够计算 “正向概率” 问题了。

正向概率问题就比如从箱子中摸球的问题,假设箱子中有 2 个白球、2 个黑球,你从箱子中摸一次且只拿一个球,那么抽到白球的概率是多少?这种从 已知信息 到 未知信息 的问题就是正概率问题。

逆概率问题就比如上面摸球问题,在之前并不知道箱子里面有什么颜色的球,而是摸出一个球,观察这个球的颜色,进而预测这个箱子里面有什么颜色的球,这种从 未知信息 到已知信息 的问题就是逆概率问题。

在平时生活中,大部分问题都是 “逆概率” 问题。因为绝大多数决策面临的信息都是不完整的,我们手中只有有限的信息。既然无法得到完整的信息,就只能在有限信息的条件下,尽可能做出一个好的预测。

而对于贝叶斯公式可以这么理解,比如一个例子:我喜欢吃冰淇淋,然后偶然在抖音上刷到有人推荐肯德基的冰淇淋很好吃,那么现在我想知道肯德基的冰淇淋到底好不好吃。

那么现在有:

  • 要求解的问题(未知信息):肯德基的冰淇淋是否好吃,记为事件 A;
  • 已知条件:抖音上有人推荐肯德基的冰淇淋好吃,记为事件 B;

所以 P ( A   ∣   B ) P(A \ | \ B) P(A  B) 就表示在抖音上有人推荐肯德基的冰淇淋好吃的事件发生后,肯德基的冰淇淋好吃的概率。那么有贝叶斯公式: P ( A   ∣   B ) = P ( A ) P ( B   ∣   A ) P ( B ) P(A \ | \ B) = P(A)\frac{P(B\ | \ A)}{P(B)} P(A  B)=P(A)P(B)P(B  A)对公式可以这样看:

  • P ( A   ∣   B ) P(A \ | \ B) P(A  B):后验概率
  • P ( A ) P(A) P(A):先验概率(Prior Probability),表示在不知道事件 B 的前提之下,我们认为对事件 A 的一个主观判断。
  • P ( B   ∣   A ) P ( B ) \frac{P(B\ | \ A)}{P(B)} P(B)P(B  A):可能性函数(Likelyhood),它是一个调整因子,即为新信息 B 带来的调整,其作用是将先验概率(之前做的主观判断)调整到更接近真是的概率。
    • P ( B   ∣   A ) P ( B ) > 1 \frac{P(B\ | \ A)}{P(B)} > 1 P(B)P(B  A)>1 表示先验概率被增强,事件 A 发生的概率变大;
    • P ( B   ∣   A ) P ( B ) < 1 \frac{P(B\ | \ A)}{P(B)} < 1 P(B)P(B  A)<1 表示先验概率被削弱,事件 A 发生的概率变小;
    • P ( B   ∣   A ) P ( B ) = 1 \frac{P(B\ | \ A)}{P(B)} = 1 P(B)P(B  A)=1 表示事件 B 无助于判断事件 A 的可能性。

极大似然估计

概率:在特定环境下某件事情发生的可能性,即在结果没有产生之前,根据环境中的参数,来预测某件事情发生的概率。比如抛硬币,在没有抛之前,我们并不知道结果会是硬币的那一面朝上。但是根据硬币的性质,可以推测得出任何一面朝上的概率都是 0.5。而这里的概率 0.5,只有在抛硬币之前是有意义的。因为硬币抛完了之后,结果就确定了。

似然:基于已经确定的结果,来推测产生这个结果的可能环境,或者说是推测环境中的某些参数。比如抛硬币,假设随机抛出硬币 10000 次,结果 8000 次人像在上,2000 次数字在上,就可以推测出该硬币可能比较特殊,进而可得该硬币的具体参数,即人像的概率为 0.8,数字的概率为 0.2。这种根据结果判断事情本身性质的过程就是似然。

假设 θ \theta θ 表示环境对应的参数,而 x x x 表示事件发生的结果,就有

  • 概率表示为 P ( x   ∣   θ ) P(x\ | \ \theta) P(x  θ),在环境参数为 θ \theta θ 的前提下,事件 x x x 发生的概率,其中 P P P 是关于 x x x 的函数。
  • 似然表示为 L ( θ   ∣   x ) L(\theta \ | \ x) L(θ  x),在已知观察结果为 x x x 的前提下,来推断 θ \theta θ,其中 L L L 是关于 θ \theta θ 的函数。

极大似然估计(Maximum Likelihood Estimate):也称为最大似然估计,利用已知的样本标记结果,反推最具有可能,或者说是最大概率导致这些样本结果出现的模型参数。极大似然估计是一种已知观察数据来推断模型参数的过程。

利用抛硬币的例子,假设 P ( 人像朝上 ) = θ P(人像朝上) = \theta P(人像朝上)=θ P ( 数字朝上 ) = 1 − θ P(数字朝上) = 1-\theta P(数字朝上)=1θ θ \theta θ 存在但是具体未知。

为了获取 θ \theta θ,进行抛硬币实验并记录抛出的结果序列。假设在这个序列中,有 7 次是人像朝上,3 次是数字朝上,那么就有 θ \theta θ 的似然函数 L ( θ ) = θ 7 ( 1 − θ ) 3 L(\theta) = \theta^7 (1-\theta)^3 L(θ)=θ7(1θ)3其函数图像如下:

第一章 数学基础

最大似然估计就是求解当 θ \theta θ 取值为多少的时候,似然函数 L ( θ ) L(\theta) L(θ) 取得最大值,即 10 次实验最可能发生 7 次是人像朝上,3 次是数字朝上。

为了获取更准确的参数,可以增加试验次数。文章来源地址https://www.toymoban.com/news/detail-455733.html

到了这里,关于第一章 数学基础的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习的数学基础:从线性代数到随机过程

    深度学习是人工智能领域的一个重要分支,它主要通过模拟人类大脑中的神经网络来进行数据处理和学习。深度学习的核心技术是神经网络,神经网络由多个节点组成,这些节点之间有权重和偏置的连接。通过对这些节点进行训练,我们可以使神经网络具有学习和推理的能力

    2024年03月18日
    浏览(91)
  • 自动编码器的数学基础:概率论与线性代数

    自动编码器(Autoencoders)是一种深度学习模型,它通过学习压缩输入数据的低维表示,然后再将其重新解码为原始数据形式。自动编码器的主要目的是学习数据的特征表示,从而可以用于降维、生成新数据、数据压缩等应用。在这篇文章中,我们将讨论自动编码器的数学基础,

    2024年02月20日
    浏览(48)
  • 人工智能中数学基础:线性代数,解析几何和微积分

    在人工智能领域,线性代数、解析几何和微积分是最基础的数学知识。这些数学知识不仅在人工智能领域中被广泛应用,也是其他领域的重要基础。本文将介绍人工智能中的线性代数、解析几何和微积分的基础知识和应用。

    2024年02月16日
    浏览(51)
  • AI人工智能中的数学基础原理与Python实战: 线性代数基础概述

    随着人工智能技术的不断发展,人工智能已经成为了许多行业的核心技术之一。在人工智能领域中,数学是一个非常重要的基础。线性代数是数学中的一个重要分支,它在人工智能中发挥着至关重要的作用。本文将介绍线性代数的基本概念、算法原理、具体操作步骤以及数学

    2024年04月12日
    浏览(66)
  • 计算机科学cs/电子信息ei面试准备——数学基础/线性代数复习

    目录 1. 中值定理 2. 梯度和散度 方向导数和梯度 通量与散度 3. 泰勒公式是为了解决什么问题的? 4. 矩阵的秩是什么,矩阵的秩物理意义? 矩阵的秩 矩阵秩的物理意义 5. 特征值和特征向量的概念 5.1 传统方法 例题 5.2 雅可比迭代法 6. 什么是线性相关以及线性相关的性质?

    2024年02月16日
    浏览(45)
  • 线性代数(基础篇):第一章:行列式 、第二章:矩阵

    1. A可逆 ⇦⇨①|A|≠0 ⇦⇨②r(A)=n,A满秩 ⇦⇨③A的列向量 α₁,α₂,…α n 线性无关 ⇦⇨④Ax=0仅有零解 (系数矩阵的秩 = 列数,列满秩) ⇦⇨⑤ A的特征值均不为0 【17年5.】 2.  A不可逆 ⇦⇨①|A|=0 ⇦⇨②r(A)n,A不满秩 ⇦⇨③A的列向量 α₁,α₂,…α n 线性相关 ⇦⇨④Ax=0有非

    2024年02月16日
    浏览(53)
  • 线性代数(魏福义)——第一章:向量与线性空间

    坐标系中可使用向量处理几何与运动学的问题,一般使用到二维或者三维有序数组,如(x,y)、(x,y,z),这样的数组称作 向量, 实际问题会用到更多维的向量。 1.1.1向量 以有序数组表示向量。n个数排成的有序数组就是n维向量。 α=(a1,a2,a3...,an)称为 行向量 ;将其

    2024年03月21日
    浏览(52)
  • 线性代数 第一章 行列式

    一、概念 不同行不同列元素乘积的代数和(共n!项) 二、性质 经转置行列式的值不变,即 ; 某行有公因数k,可把k提到行列式外。特别地,某行元素全为0,则行列式的值为0; 两行互换行列式变号,特别地,两行相等行列式值为0,两行成比例行列式值为0; 某行所有元素都

    2024年02月06日
    浏览(51)
  • 【线性代数及其应用 —— 第一章 线性代数中的线性方程组】-1.线性方程组

    所有笔记请看: 博客学习目录_Howe_xixi的博客-CSDN博客 https://blog.csdn.net/weixin_44362628/article/details/126020573?spm=1001.2014.3001.5502 思维导图如下:  内容笔记如下:

    2024年02月06日
    浏览(66)
  • 线性代数中涉及到的matlab命令-第一章:行列式

    目录 1,逆序数  2,行列式定义和性质 2.1,常用特性及命令  2.2,求行列式 2.3,行列式的性质  2,行列式按行(列)展开  3,范德蒙德行列式   在学习线性代数过程中,发现同步使用MATLAB进行计算验证可以加深对概念的理解,并能掌握MATLAB的命令和使用方法; 使用的线性

    2024年02月04日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包