向量内积的几何解释
再看西瓜书中的线性判别分析 LDA,注意到了 w ⊺ x \bm{w}^\intercal \bm{x} w⊺x,说是 “直线上的投影”,于是扒一扒,向量内积怎么就是投影了?
给定两个向量
a
\bm{a}
a 和
b
\bm{b}
b,我们已经熟练地知道可以求:
(
1
)
(1)
(1) 两者之间的夹角余弦
(
相似度
)
(相似度)
(相似度)
c
o
s
⟨
a
,
b
⟩
=
a
⊺
b
∣
a
∣
⋅
∣
b
∣
cos \langle \bm{a}, \bm{b} \rangle = \frac{\bm{a}^\intercal \bm{b}}{|\bm{a}| \cdot |\bm{b}|}
cos⟨a,b⟩=∣a∣⋅∣b∣a⊺b
(
2
)
(2)
(2) 求
a
\bm{a}
a 到
b
\bm{b}
b 方向的投影长度
∣
a
∣
c
o
s
⟨
a
,
b
⟩
=
∣
a
∣
a
⊺
b
∣
a
∣
⋅
∣
b
∣
=
a
⊺
b
∣
b
∣
=
a
⊺
b
∣
b
∣
\begin{aligned} |\bm{a}| cos \langle \bm{a}, \bm{b} \rangle &= |\bm{a}| \frac{\bm{a}^\intercal \bm{b}}{|\bm{a}| \cdot |\bm{b}|} \\ &= \frac{\bm{a}^\intercal \bm{b}}{|\bm{b}|} \\ &= \bm{a}^\intercal \frac{ \bm{b}}{|\bm{b}|} \end{aligned}
∣a∣cos⟨a,b⟩=∣a∣∣a∣⋅∣b∣a⊺b=∣b∣a⊺b=a⊺∣b∣b 但是这里面的内积
a
⊺
b
\bm{a}^\intercal \bm{b}
a⊺b 究竟是个啥?直觉的几何意义是什么?也许我们从上述两个用途看出向量内积的几何意义:可代表向量之间的夹角,可代表一个向量到另一个向量方向上的投影,但为什么是这样呢?夹角余弦为什么是这么算的?下面我们从向量内积计算的角度(对应位相乘累加)解释这是怎么回事。
先从最简单的二维看看。上图中有两个单位向量
a
=
(
x
,
y
)
\bm{a} = (x,y)
a=(x,y) 和
b
=
(
c
o
s
β
,
s
i
n
β
)
\bm{b} = (cos\beta, sin\beta)
b=(cosβ,sinβ),其中
β
\beta
β 是向量
b
\bm{b}
b 与
x
x
x 轴的夹角。那么计算内积
a
⊺
b
=
x
∗
c
o
s
β
+
y
∗
s
i
n
β
\bm{a}^\intercal \bm{b} = x*cos\beta + y * sin\beta
a⊺b=x∗cosβ+y∗sinβ 拆开这个式子的两项看看。
O
C
=
x
OC = x
OC=x,
C
E
⊥
O
E
CE \perp OE
CE⊥OE,
O
C
OC
OC 在
O
B
OB
OB 方向的投影长度(红色的线段):
O
E
=
O
C
∗
c
o
s
β
=
x
∗
c
o
s
β
OE = OC * cos\beta = x * cos\beta
OE=OC∗cosβ=x∗cosβ 又
A
C
=
y
AC = y
AC=y,
E
F
=
C
G
=
y
∗
s
i
n
β
EF = CG = y * sin\beta
EF=CG=y∗sinβ,则向量
a
\bm{a}
a 到
b
\bm{b}
b 方向的投影长度(黄色线段)
O
F
=
O
E
+
E
F
=
x
∗
c
o
s
β
+
y
∗
s
i
n
β
\begin{aligned}OF &= OE + EF\\ &= x*cos\beta + y * sin\beta \end{aligned}
OF=OE+EF=x∗cosβ+y∗sinβ 这就从几何上直观地解释了为什么向量内积是向量投影长度。注意到
s
i
n
β
=
c
o
s
(
π
2
−
β
)
sin\beta = cos(\frac{\pi}{2} - \beta)
sinβ=cos(2π−β),那么
O
F
=
x
∗
c
o
s
β
+
y
∗
c
o
s
(
π
2
−
β
)
OF = x*cos\beta + y * cos(\frac{\pi}{2} - \beta)
OF=x∗cosβ+y∗cos(2π−β) 拆开来看,
x
∗
c
o
s
β
x*cos\beta
x∗cosβ 是
a
\bm{a}
a 的
x
x
x 分量在
b
\bm{b}
b 方向上的投影长度,而
y
∗
c
o
s
(
π
2
−
β
)
y * cos(\frac{\pi}{2} - \beta)
y∗cos(2π−β) 是
y
y
y 分量在
b
\bm{b}
b 方向上的投影长度,整个内积就是整个向量的投影长度。也就是说,计算向量内积时,对应分量相乘,其实就是分量投影而已。
【注】分量就是向量在各个坐标轴上的投影长度。也可以这么说,向量
a
\bm{a}
a 先投影到各坐标轴,再从坐标轴投影到向量
b
\bm{b}
b,再累加。
很明显,更高维的情况也是一样的,各个分量在所投方向的投影累加。至于非单位向量,向量模就是个系数罢了,况且真到实际应用,单位化(normalize)的情况居多。
回过头来说夹角余弦为什么是这么算的?现在假设 b \bm{b} b 不是单位向量了,那么 b ∣ b ∣ \frac{\bm{b}}{|\bm{b}|} ∣b∣b 是单位向量, a \bm{a} a 在 b \bm{b} b 方向上的投影长度是 a ⊺ b ∣ b ∣ \frac{\bm{a}^\intercal \bm{b}}{|\bm{b}|} ∣b∣a⊺b,那么夹角余弦为 c o s ⟨ a , b ⟩ = a ⊺ b ∣ b ∣ ∣ a ∣ = a ⊺ b ∣ a ∣ ∣ b ∣ cos\langle\bm{a},\bm{b}\rangle = \frac{\frac{\bm{a}^\intercal \bm{b}}{|\bm{b}|}}{|\bm{a}|} = \frac{\bm{a}^\intercal \bm{b}}{|\bm{a}||\bm{b}|} cos⟨a,b⟩=∣a∣∣b∣a⊺b=∣a∣∣b∣a⊺b。
----------【更新】begin----------
从向量内积的分配律角度分析
在上面,我们解释道:“ x ∗ c o s β x*cos\beta x∗cosβ 是 a \bm{a} a 的 x x x 分量在 b \bm{b} b 方向上的投影长度,而 y ∗ c o s ( π 2 − β ) y * cos(\frac{\pi}{2} - \beta) y∗cos(2π−β) 是 y y y 分量在 b \bm{b} b 方向上的投影长度,整个内积就是整个向量的投影长度。也就是说,计算向量内积时,对应分量相乘,其实就是分量投影而已。” 这绕了一个圈,即使是在图上,依然需要作辅助线才能更直观地理解 “向量内积中的分量相乘的投影意义”。现在我们从向量内积的分配律角度更直观地解释向量内积的本质。
向量内积分配律为什么成立?知乎《向量点积分配律a(b+c)=ab+ac如何证明?》中有很多精彩回答,用户“拟核码”最为直观简洁。
现在,向量 a = ( x , y ) = ( x , 0 ) + ( 0 , y ) = O C → + C A → \begin{aligned} \bm{a} = (x, y) = (x, 0) + (0, y) = \overrightarrow{OC} + \overrightarrow{CA} \end{aligned} a=(x,y)=(x,0)+(0,y)=OC+CA 把 C A → \overrightarrow{CA} CA 沿着 C E → \overrightarrow{CE} CE 滑动至 E A ′ → \overrightarrow{EA^{'}} EA′。我们把向量 a \bm{a} a 分解了,分成了两个方向 O C → + E A ′ → \overrightarrow{OC} + \overrightarrow{EA^{'}} OC+EA′。再看 O C → ⋅ b = ( x , 0 ) ⋅ ( c o s β , c o s ( π 2 − β ) ) = x ∗ c o s β C A → ⋅ b = ( 0 , y ) ⋅ ( c o s β , c o s ( π 2 − β ) ) = y ∗ c o s ( π 2 − β ) a ⋅ b = ( O C → + C A → ) ⋅ b = x ∗ c o s β + y ∗ c o s ( π 2 − β ) = O C → ⋅ b + C A → ⋅ b \begin{aligned} \overrightarrow{OC} \cdot \bm{b} &= (x, 0) \cdot (cos\beta, cos(\frac{\pi}{2} - \beta)) = x * cos\beta \\ \overrightarrow{CA} \cdot \bm{b} &= (0, y) \cdot (cos\beta, cos(\frac{\pi}{2} - \beta)) = y * cos(\frac{\pi}{2} - \beta) \\ \bm{a} \cdot \bm{b} = (\overrightarrow{OC} + \overrightarrow{CA})\cdot \bm{b} &= x*cos\beta + y * cos(\frac{\pi}{2} - \beta) \\ &= \overrightarrow{OC} \cdot \bm{b} + \overrightarrow{CA} \cdot \bm{b} \end{aligned} OC⋅bCA⋅ba⋅b=(OC+CA)⋅b=(x,0)⋅(cosβ,cos(2π−β))=x∗cosβ=(0,y)⋅(cosβ,cos(2π−β))=y∗cos(2π−β)=x∗cosβ+y∗cos(2π−β)=OC⋅b+CA⋅b 这就我们熟悉的向量点乘分配律。同时也解释了向量内积对应位相乘就是分量投影,整个加起来就是整个向量的投影。
上面的向量分解方法是顺着各坐标轴方向分的,比较好理解,如果随意分呢?还成立吗?
上面是为了方便解释“分量投影”本质。事实上,回看知乎,回答们已经解释得很清楚,分配律很直观地成立。
另外,我们已经知道 ( O C → + C A → ) ⋅ b = O C → ⋅ b + C A → ⋅ b (\overrightarrow{OC} + \overrightarrow{CA})\cdot \bm{b} = \overrightarrow{OC} \cdot \bm{b} + \overrightarrow{CA} \cdot \bm{b} (OC+CA)⋅b=OC⋅b+CA⋅b 表示向量分解后投影到另一个向量上等于分别投影后再相加,那么 ( O C → + C A → ) ⋅ b = O C → ⋅ b + C A → ⋅ b = b ⋅ O C → + b ⋅ C A → = b ⋅ ( O C → + C A → ) (\overrightarrow{OC} + \overrightarrow{CA})\cdot \bm{b} = \overrightarrow{OC} \cdot \bm{b} + \overrightarrow{CA} \cdot \bm{b} = \bm{b} \cdot \overrightarrow{OC} + \bm{b} \cdot \overrightarrow{CA} = \bm{b} \cdot (\overrightarrow{OC} + \overrightarrow{CA}) (OC+CA)⋅b=OC⋅b+CA⋅b=b⋅OC+b⋅CA=b⋅(OC+CA) 就表示向量投影到被分解的分支向量上再相加等于投影到合起来的向量。只是这不太直观,因为不只要看在分量方向上的投影长度,还要考虑各分量长度不一致,也就是“基”的长度不一致,而基之间的关系也不直观,故分解被投影者是不够直观的。
向量是特征
讲到这,我甚至突然发现,其实向量就代表了某种特征,它可以是复合的,也可以是单纯的。例如我们有向量 x = ( x 1 , x 2 , . . . , x i , . . . , x n ) \bm{x} = (x_1, x_2, ..., x_i, ..., x_n) x=(x1,x2,...,xi,...,xn),每个 x i x_i xi 代表着一种属性(如西瓜的颜色深浅度)。
所谓单纯的,就是平时我们讲的向量的某一分量 ( 0 , 0 , . . . , 0 , 1 , 0 , . . . , 0 , 0 ) (0, 0, ..., 0, 1, 0, ..., 0, 0) (0,0,...,0,1,0,...,0,0),它不考虑其他属性,我们也可以叫它 “基向量”,一个向量 x \bm{x} x 在此基上的投影为 x ⊺ ( 0 , 0 , . . . , 0 , 1 , 0 , . . . , 0 , 0 ) = x i \bm{x}^\intercal (0, 0, ..., 0, 1, 0, ..., 0, 0) = x_i x⊺(0,0,...,0,1,0,...,0,0)=xi,表示了该 x \bm{x} x 在此属性上的强度。当两个向量 x , y \bm{x}, \bm{y} x,y 在同一基上的投影 x i = y i x_i = y_i xi=yi,我们说两者在此属性(特征)上相同,又或者 x i ≈ y i x_i \approx y_i xi≈yi,我们说两者在此属性(特征)上相似。
又,所谓向量 x = ( x 1 , x 2 , . . . , x i , . . . , x n ) \bm{x} = (x_1, x_2, ..., x_i, ..., x_n) x=(x1,x2,...,xi,...,xn),其实是在标准正交基 E = ( e 1 , e 2 , . . . , e i , . . . , e n ) E = (\bm{e}_1, \bm{e}_2, ..., \bm{e}_i, ..., \bm{e}_n) E=(e1,e2,...,ei,...,en) 下的坐标: x = E ( x 1 , x 2 , . . . , x i , . . . , x n ) ⊺ = ∑ i n x i e i \bm{x} = E(x_1, x_2, ..., x_i, ..., x_n)^\intercal = \sum_i^nx_i\bm{e}_i x=E(x1,x2,...,xi,...,xn)⊺=∑inxiei,这也是分解了 x \bm{x} x,当计算 y \bm{y} y 在 x \bm{x} x 上的投影时,可计算 y ⊺ ( ∑ i n x i e i ) = ∑ i n x i y ⊺ e i \bm{y}^\intercal (\sum_i^nx_i\bm{e}_i) = \sum_i^n x_i \bm{y}^\intercal \bm{e}_i y⊺(∑inxiei)=∑inxiy⊺ei。
那么, x \bm{x} x 投影到 y \bm{y} y 就是分解 x \bm{x} x,其中一个方向就是 y \bm{y} y 的方向, x ⊺ y ∣ y ∣ \bm{x}^\intercal\frac{\bm{y}}{|\bm{y}|} x⊺∣y∣y 就是在该方向上的强度,另一个方向与 y \bm{y} y 垂直(无关)。所以 x \bm{x} x “含有” 几个 y \bm{y} y 呢? x ⊺ y ∣ y ∣ 2 \frac{\bm{x}^\intercal\bm{y}}{|\bm{y}|^2} ∣y∣2x⊺y。即,如果把 y \bm{y} y 看作一个特征,那对于该 x \bm{x} x 来说,此特征上的强度是 x ⊺ y ∣ y ∣ 2 \frac{\bm{x}^\intercal\bm{y}}{|\bm{y}|^2} ∣y∣2x⊺y。
非正交基下向量内积是咋回事?
一拍脑袋,难道只有分解到正交基才有实际意义?分解 x = α a + β b \bm{x} = \alpha\bm{a} + \beta\bm{b} x=αa+βb 就没有意义吗?我们能不能把 a \bm{a} a 和 b \bm{b} b 也看做某种属性,或者说某种复合特征,而 α , β \alpha, \beta α,β 分别是 x \bm{x} x 在这两个特征上的强度,即,在 “基” a , b {\bm{a}, \bm{b}} a,b 下, x = ( α , β ) \bm{x} = (\alpha, \beta) x=(α,β)。重点,但我想了几天,始终弄不明白此坐标系下的“内积”的意义是什么,在此只能给出一些暂时得出的结论。
设随意的长度为 1 1 1 的 2 2 2 维单位向量 a , b \bm{a}, \bm{b} a,b 为坐标系的基,两者夹角 ⟨ a , b ⟩ = θ \langle \bm{a}, \bm{b} \rangle = \theta ⟨a,b⟩=θ,现有 x = ( x 1 , x 2 ) = x 1 a + x 2 b \bm{x} = (x_1, x_2) = x_1\bm{a} + x_2\bm{b} x=(x1,x2)=x1a+x2b y = ( y 1 , y 2 ) = y 1 a + y 2 b \bm{y} = (y_1, y_2) = y_1\bm{a} + y_2\bm{b} y=(y1,y2)=y1a+y2b 那么他们的真正内积应该是 ⟨ x , y ⟩ = ( x 1 a + x 2 b ) ( y 1 a + y 2 b ) = x 1 y 1 a ⊺ a + x 1 y 2 a ⊺ b + x 2 y 1 b ⊺ a + x 2 y 2 b ⊺ b = x 1 y 1 + ( x 1 y 2 + x 2 y 1 ) c o s θ + x 2 y 2 \begin{aligned} \langle \bm{x}, \bm{y} \rangle &= (x_1\bm{a} + x_2\bm{b})(y_1\bm{a} + y_2\bm{b}) \\ &= x_1y_1\bm{a}^\intercal\bm{a} + x_1y_2\bm{a}^\intercal\bm{b} + x_2y_1\bm{b}^\intercal\bm{a} + x_2y_2\bm{b}^\intercal\bm{b} \\ &= x_1y_1 + (x_1y_2 + x_2y_1)cos\theta + x_2y_2 \end{aligned} ⟨x,y⟩=(x1a+x2b)(y1a+y2b)=x1y1a⊺a+x1y2a⊺b+x2y1b⊺a+x2y2b⊺b=x1y1+(x1y2+x2y1)cosθ+x2y2 ???,我们平时计算的内积是这样啊: x ⊺ y = x 1 y 1 + x 2 y 2 \bm{x}^\intercal \bm{y} = x_1y_1 + x_2y_2 x⊺y=x1y1+x2y2,没错,如果是正交基的话, c o s θ = 0 cos\theta = 0 cosθ=0,就一致了。事实上,上面已经说过标准正交基下向量内积的计算 y ⊺ ( ∑ i n x i e i ) = ∑ i n x i y ⊺ e i \bm{y}^\intercal (\sum_i^nx_i\bm{e}_i) = \sum_i^n x_i \bm{y}^\intercal \bm{e}_i y⊺(∑inxiei)=∑inxiy⊺ei,其中 x = E ( x 1 , x 2 , . . . , x n ) ⊺ = ∑ i n x i e i \bm{x} = E(x_1, x_2, ..., x_n)^\intercal = \sum_i^nx_i\bm{e}_i x=E(x1,x2,...,xn)⊺=∑inxiei,如果换一个坐标系 P = ( α 1 , α 2 , ⋯ , α n ) P = (\bm{\alpha}_1, \bm{\alpha}_2, \cdots, \bm{\alpha}_n) P=(α1,α2,⋯,αn),那么 x = P ( x 1 , x 2 , . . . , x n ) ⊺ = ∑ i n x i α i \bm{x} = P(x_1, x_2, ..., x_n)^\intercal = \sum_i^nx_i\bm{\alpha_i} x=P(x1,x2,...,xn)⊺=∑inxiαi,再有 y = P ( y 1 , y 2 , . . . , y n ) ⊺ = ∑ i n y i α i \bm{y} = P(y_1, y_2, ..., y_n)^\intercal = \sum_i^ny_i\bm{\alpha}_i y=P(y1,y2,...,yn)⊺=∑inyiαi,那么 ⟨ x , y ⟩ = ( ∑ i n x i α i ) ⊺ ( ∑ i n y i α i ) = [ x 1 , x 2 , ⋯ , x n ] P ⊺ P [ y 1 y 2 ⋮ y n ] = [ x 1 , x 2 , ⋯ , x n ] [ α 1 ⊺ α 1 α 1 ⊺ α 2 ⋯ α 1 ⊺ α n α 2 ⊺ α 1 α 2 ⊺ α 2 ⋯ α 2 ⊺ α n ⋮ ⋮ ⋱ ⋮ α n ⊺ α 1 α n ⊺ α 2 ⋯ α n ⊺ α n ] [ y 1 y 2 ⋮ y n ] \begin{aligned} \langle \bm{x}, \bm{y} \rangle &= (\sum_i^nx_i\bm{\alpha}_i)^\intercal(\sum_i^ny_i\bm{\alpha}_i) \\ &=\begin{bmatrix} x_1, x_2, \cdots, x_n\end{bmatrix} P^\intercal P\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n\end{bmatrix} \\ &= \begin{bmatrix} x_1, x_2, \cdots, x_n\end{bmatrix} \begin{bmatrix} \bm{\alpha_1}^\intercal \bm{\alpha_1} & \bm{\alpha_1}^\intercal \bm{\alpha_2} & \cdots & \bm{\alpha_1}^\intercal \bm{\alpha_n} \\ \bm{\alpha_2}^\intercal \bm{\alpha_1} & \bm{\alpha_2}^\intercal \bm{\alpha_2} & \cdots & \bm{\alpha_2}^\intercal \bm{\alpha_n} \\ \vdots & \vdots & \ddots & \vdots \\ \bm{\alpha_n}^\intercal \bm{\alpha_1} & \bm{\alpha_n}^\intercal \bm{\alpha_2} & \cdots & \bm{\alpha_n}^\intercal \bm{\alpha_n} \end{bmatrix} \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n\end{bmatrix} \end{aligned} ⟨x,y⟩=(i∑nxiαi)⊺(i∑nyiαi)=[x1,x2,⋯,xn]P⊺P y1y2⋮yn =[x1,x2,⋯,xn] α1⊺α1α2⊺α1⋮αn⊺α1α1⊺α2α2⊺α2⋮αn⊺α2⋯⋯⋱⋯α1⊺αnα2⊺αn⋮αn⊺αn y1y2⋮yn 只不过,在标准规范正交基下 [ α 1 ⊺ α 1 α 1 ⊺ α 2 ⋯ α 1 ⊺ α n α 2 ⊺ α 1 α 2 ⊺ α 2 ⋯ α 2 ⊺ α n ⋮ ⋮ ⋱ ⋮ α n ⊺ α 1 α n ⊺ α 2 ⋯ α n ⊺ α n ] = [ 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ] = E \begin{bmatrix} \bm{\alpha_1}^\intercal \bm{\alpha_1} & \bm{\alpha_1}^\intercal \bm{\alpha_2} & \cdots & \bm{\alpha_1}^\intercal \bm{\alpha_n} \\ \bm{\alpha_2}^\intercal \bm{\alpha_1} & \bm{\alpha_2}^\intercal \bm{\alpha_2} & \cdots & \bm{\alpha_2}^\intercal \bm{\alpha_n} \\ \vdots & \vdots & \ddots & \vdots \\ \bm{\alpha_n}^\intercal \bm{\alpha_1} & \bm{\alpha_n}^\intercal \bm{\alpha_2} & \cdots & \bm{\alpha_n}^\intercal \bm{\alpha_n} \end{bmatrix} = \begin{bmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \end{bmatrix} = E α1⊺α1α2⊺α1⋮αn⊺α1α1⊺α2α2⊺α2⋮αn⊺α2⋯⋯⋱⋯α1⊺αnα2⊺αn⋮αn⊺αn = 10⋮001⋮0⋯⋯⋱⋯00⋮1 =E 才使得 ⟨ x , y ⟩ = x ⊺ y = ∑ i n x i y i \langle \bm{x}, \bm{y} \rangle = \bm{x}^\intercal \bm{y} = \sum_{i}^n x_iy_i ⟨x,y⟩=x⊺y=∑inxiyi。
于是乎,真正的向量内积应该是 ⟨ x , y ⟩ = x ⊺ P ⊺ P y = x ⊺ A y \langle \bm{x}, \bm{y} \rangle = \bm{x}^\intercal P^\intercal P\bm{y} = \bm{x}^\intercal A \bm{y} ⟨x,y⟩=x⊺P⊺Py=x⊺Ay,中间的这个对称矩阵 A A A 就代表了坐标轴之间的投影关系,听说他叫 “度量矩阵”,原因在于 D i s t a n c e ( x , y ) = ( x − y ) ⊺ A ( x − y ) Distance(\bm{x},\bm{y}) = \sqrt[]{(\bm{x}-\bm{y})^\intercal A (\bm{x}-\bm{y})} Distance(x,y)=(x−y)⊺A(x−y)。
问题来了,我们已经了解到, x i y i x_i y_i xiyi 是对应坐标分量的投影,它实质上是 x i e i ⊺ e i y i x_i \bm{e_i}^\intercal \bm{e_i} y_i xiei⊺eiyi,那么 x i e i ⊺ e j y j ( i ≠ j ) x_i \bm{e_i}^\intercal \bm{e_j} y_j (i \ne j) xiei⊺ejyj(i=j) 代表什么?它也是的,只不过投向了不同的坐标轴,结果发现是垂直的,那就是 0 0 0 吧。哎!换了非正交坐标系,它就不是 0 0 0。
事情是这个样子的,在基 P = ( α 1 , α 2 ) P=(\bm{\alpha}_1, \bm{\alpha}_2) P=(α1,α2) 下, x = ( x 1 , x 2 ) ; y = ( y 1 , y 2 ) \bm{x} = (x_1, x_2); \ \bm{y} = (y_1, y_2) x=(x1,x2); y=(y1,y2),计算内积 ⟨ x , y ⟩ = ( x 1 α 1 + x 2 α 2 ) ⊺ ( y 1 α 1 + y 2 α 2 ) = ( x 1 α 1 ) ⊺ ( y 1 α 1 ) + ( x 1 α 1 ) ⊺ ( y 2 α 2 ) + ( x 2 α 2 ) ⊺ ( y 1 α 1 ) + ( x 2 α 2 ) ⊺ ( y 2 α 2 ) \begin{aligned} \langle \bm{x}, \bm{y} \rangle &= (x_1 \bm{\alpha}_1 + x_2 \bm{\alpha}_2)^\intercal (y_1 \bm{\alpha}_1 + y_2 \bm{\alpha}_2) \\ &= (x_1\bm{\alpha}_1)^\intercal (y_1\bm{\alpha}_1) + (x_1\bm{\alpha}_1)^\intercal (y_2\bm{\alpha}_2) + (x_2\bm{\alpha}_2)^\intercal (y_1\bm{\alpha}_1) + (x_2\bm{\alpha}_2)^\intercal (y_2\bm{\alpha}_2) \end{aligned} ⟨x,y⟩=(x1α1+x2α2)⊺(y1α1+y2α2)=(x1α1)⊺(y1α1)+(x1α1)⊺(y2α2)+(x2α2)⊺(y1α1)+(x2α2)⊺(y2α2) 来看一看这四项都是些什么。如上图, x \bm{x} x 被分解为 ( x 1 α 1 + x 2 α 2 ) (x_1 \bm{\alpha}_1 + x_2 \bm{\alpha}_2) (x1α1+x2α2), y \bm{y} y 被分解为 ( y 1 α 1 + y 2 α 2 ) (y_1 \bm{\alpha}_1 + y_2 \bm{\alpha}_2) (y1α1+y2α2),现计算内积,我们假设 x \bm{x} x 投向 y \bm{y} y,根据前面得到的结论,就是 x 1 α 1 , x 2 α 2 x_1 \bm{\alpha}_1, x_2 \bm{\alpha}_2 x1α1,x2α2 分别投到 y \bm{y} y 后再相加;再看 x 1 α 1 x_1\bm{\alpha}_1 x1α1 投向 y \bm{y} y,就是 x 1 α 1 x_1 \bm{\alpha}_1 x1α1 分别投到 y 1 α 1 , y 2 α 2 y_1 \bm{\alpha}_1, y_2 \bm{\alpha}_2 y1α1,y2α2 后再相加;过程已经很清楚了,就不说了。
弄了半天,原来内积就是投影,还是直直地投影,计算的时候还要把坐标系带上,由于我们平时都是在标准规范基下计算,就省略了它。
能不能不带坐标系?
前面说了那么多,本质上还都是建立在垂直投影的基础上,也就是说基之间的内积
α
i
⊺
α
j
\bm{\alpha}_i^\intercal \bm{\alpha}_j
αi⊺αj 也是按垂直投影算的,
α
i
,
α
j
\bm{\alpha}_i, \bm{\alpha}_j
αi,αj之间如果不垂直,那么其内积
α
i
⊺
α
j
≠
0
\bm{\alpha}_i^\intercal \bm{\alpha}_j \ne 0
αi⊺αj=0,如上图的
α
1
⊺
α
2
≠
0
\bm{\alpha}_1^\intercal \bm{\alpha}_2 \ne 0
α1⊺α2=0。
现在,我们尝试脱离垂直投影,建立一种新的投影:令坐标系之间的内积为 0 0 0,即 α i ⊺ α j = 0 ( i ≠ j ) \bm{\alpha}_i^\intercal \bm{\alpha}_j = 0 (i \ne j) αi⊺αj=0(i=j)。先从上图看一个最简单的: α 1 = ( 1 , 0 ) ; α 2 = ( 0 , 1 ) \bm{\alpha}_1 = (1, 0); \ \bm{\alpha}_2 = (0, 1) α1=(1,0); α2=(0,1),对!我们完全脱离标准直角坐标系,那么 α 1 ⊺ α 2 = 1 ∗ 0 + 0 ∗ 1 = 0 \bm{\alpha}_1^\intercal \bm{\alpha}_2 = 1 * 0 + 0 * 1 = 0 α1⊺α2=1∗0+0∗1=0 再如 x = ( x 1 , x 2 ) \bm{x} = (x_1, x_2) x=(x1,x2),计算 x ⊺ α 1 = x 1 ∗ 1 + x 2 ∗ 0 = x 1 x ⊺ α 2 = x 1 ∗ 0 + x 2 ∗ 1 = x 2 \bm{x}^\intercal \bm{\alpha}_1 = x_1 * 1 + x_2 * 0 = x_1 \\ \bm{x}^\intercal \bm{\alpha}_2 = x_1 * 0 + x_2 * 1 = x_2 x⊺α1=x1∗1+x2∗0=x1x⊺α2=x1∗0+x2∗1=x2 ???,这是什么操作? α 1 ⊺ α 2 = 0 \bm{\alpha}_1^\intercal \bm{\alpha}_2 = 0 α1⊺α2=0 了?它代表了 α 1 \bm{\alpha}_1 α1 到 α 2 \bm{\alpha}_2 α2 的投影,现在却是 0 0 0,仔细看看,我沿着 α 1 \bm{\alpha}_1 α1 自身的方向投向 α 2 \bm{\alpha}_2 α2,不就是 0 0 0 了。反过来也一样, α 2 \bm{\alpha}_2 α2 沿着自身的方向投向 α 1 \bm{\alpha}_1 α1,投影也是 0 0 0。 x ⊺ α 1 \bm{x}^\intercal \bm{\alpha}_1 x⊺α1 是沿着 α 2 \bm{\alpha}_2 α2 的方向投向 α 1 \bm{\alpha}_1 α1,投影是 x 1 x_1 x1; x ⊺ α 2 \bm{x}^\intercal \bm{\alpha}_2 x⊺α2 是沿着 α 1 \bm{\alpha}_1 α1 的方向投向 α 2 \bm{\alpha}_2 α2,投影是 x 2 x_2 x2。可以看到,在规定了 α i ⊺ α j = 0 ( i ≠ j ) \bm{\alpha}_i^\intercal \bm{\alpha}_j = 0 (i \ne j) αi⊺αj=0(i=j) 后,甚至 x ⊺ y = ( x 1 α 1 + x 2 α 2 ) ⊺ ( y 1 α 1 + y 2 α 2 ) = x 1 y 1 α 1 ⊺ α 1 + x 1 y 2 α 1 ⊺ α 2 + x 2 y 1 α 2 ⊺ α 1 + x 2 y 2 α 2 ⊺ α 2 = x 1 y 1 + x 2 y 2 \begin{aligned} \bm{x}^\intercal \bm{y} &= (x_1\bm{\alpha}_1 + x_2\bm{\alpha}_2)^\intercal (y_1\bm{\alpha}_1 + y_2\bm{\alpha}_2) \\ &= x_1y_1\bm{\alpha}_1^\intercal \bm{\alpha}_1 + x_1y_2\bm{\alpha}_1^\intercal \bm{\alpha}_2 + x_2y_1\bm{\alpha}_2^\intercal \bm{\alpha}_1 + x_2y_2\bm{\alpha}_2^\intercal \bm{\alpha}_2 \\ &= x_1y_1 + x_2y_2 \end{aligned} x⊺y=(x1α1+x2α2)⊺(y1α1+y2α2)=x1y1α1⊺α1+x1y2α1⊺α2+x2y1α2⊺α1+x2y2α2⊺α2=x1y1+x2y2 这似乎符合我们平时计算内积的习惯?呃!他本来就是直角坐标系,只不过现在咱把这个不是直角的东西强行当作直角,也可以说把直角坐标系挤扁了。
接下来,我们寻找
x
⊺
y
=
x
1
y
1
+
x
2
y
2
\bm{x}^\intercal \bm{y} = x_1y_1 + x_2y_2
x⊺y=x1y1+x2y2 的物理意义,是否还是某个投影长度?回顾上面的投影
α
1
⊺
α
2
,
x
⊺
α
1
,
x
⊺
α
2
\bm{\alpha}_1^\intercal \bm{\alpha}_2,\ \bm{x}^\intercal \bm{\alpha}_1 ,\ \bm{x}^\intercal \bm{\alpha}_2
α1⊺α2, x⊺α1, x⊺α2,都是沿着与投影目的向量方向成
θ
\theta
θ 角的方向投,现在,咱把
x
\bm{x}
x 沿着与
y
\bm{y}
y 方向成
θ
\theta
θ 角的方向投,如上图所示。这么投的原因是直观的:这个方向上的向量在
y
\bm{y}
y 上的投影是
0
0
0,相当于把
x
\bm{x}
x 分解到这个方向上,且使余下的向量与
y
\bm{y}
y 平行,那它岂不是在
y
\bm{y}
y 上的投影?现在验证图中的
a
a
a 是否是
x
⊺
y
∣
y
∣
=
x
1
y
1
+
x
2
y
2
∣
y
∣
\frac{\bm{x}^\intercal \bm{y}}{|\bm{y}|} = \frac{x_1y_1 + x_2y_2}{|\bm{y}|}
∣y∣x⊺y=∣y∣x1y1+x2y2,如果是的话,我们就找到了
x
⊺
y
=
x
1
y
1
+
x
2
y
2
\bm{x}^\intercal \bm{y} = x_1y_1 + x_2y_2
x⊺y=x1y1+x2y2 的物理意义。
x
\bm{x}
x 的物理长度的平方为(标准坐标系下
α
1
⊺
α
2
=
α
2
⊺
α
1
=
c
o
s
θ
\bm{\alpha}_1^\intercal \bm{\alpha}_2 = \bm{\alpha}_2^\intercal \bm{\alpha}_1 = cos\theta
α1⊺α2=α2⊺α1=cosθ)
∣
x
∣
2
=
(
x
1
α
1
+
x
2
α
2
)
⊺
(
x
1
α
1
+
x
2
α
2
)
=
x
1
2
+
x
2
2
+
2
x
1
x
2
c
o
s
θ
(
a
+
b
)
2
=
[
(
x
1
α
1
+
x
2
α
2
)
⊺
(
y
1
α
1
+
y
2
α
2
)
]
2
(
y
1
α
1
+
y
2
α
2
)
⊺
(
y
1
α
1
+
y
2
α
2
)
c
2
=
∣
x
∣
2
−
(
a
+
b
)
2
=
(
x
1
2
+
x
2
2
+
2
x
1
x
2
c
o
s
θ
)
(
y
1
2
+
y
2
2
+
2
y
1
y
2
c
o
s
θ
)
−
(
x
1
y
1
+
x
2
y
2
+
(
x
1
y
2
+
x
2
y
1
)
c
o
s
θ
)
2
∣
y
∣
2
=
(
x
1
y
2
−
x
2
y
1
)
2
s
i
n
2
θ
∣
y
∣
2
b
2
=
c
2
t
a
n
2
θ
=
(
x
1
y
2
−
x
2
y
1
)
2
s
i
n
2
θ
∣
y
∣
2
c
o
s
2
θ
s
i
n
2
θ
=
(
x
1
y
2
−
x
2
y
1
)
2
c
o
s
2
θ
∣
y
∣
2
b
=
∣
(
x
1
y
2
−
x
2
y
1
)
c
o
s
θ
∣
∣
y
∣
\begin{aligned} |\bm{x}|^2 &= (x_1\bm{\alpha}_1 + x_2\bm{\alpha}_2)^\intercal (x_1\bm{\alpha}_1 + x_2\bm{\alpha}_2) \\ &= x_1^2 + x_2^2 + 2x_1x_2cos\theta \\ (a+b)^2 &= \frac{[(x_1\bm{\alpha}_1 + x_2\bm{\alpha}_2)^\intercal (y_1\bm{\alpha}_1 + y_2\bm{\alpha}_2)]^2}{(y_1\bm{\alpha}_1 + y_2\bm{\alpha}_2)^\intercal (y_1\bm{\alpha}_1 + y_2\bm{\alpha}_2)} \\ c^2 &= |\bm{x}|^2 - (a+b)^2 \\ &= \frac{ (x_1^2 + x_2^2 + 2x_1x_2cos\theta)(y_1^2 + y_2^2 + 2y_1y_2cos\theta) - (x_1y_1 + x_2y_2 + (x_1y_2 + x_2y_1)cos\theta)^2 }{|\bm{y}|^2} \\ &= \frac{(x_1y_2 - x_2y_1)^2sin^2\theta}{|\bm{y}|^2} \\ b^2 &= \frac{c^2}{tan^2\theta} \\ &= \frac{(x_1y_2 - x_2y_1)^2sin^2\theta}{|\bm{y}|^2} \frac{cos^2\theta}{sin^2\theta} \\ &= \frac{(x_1y_2 - x_2y_1)^2cos^2\theta}{|\bm{y}|^2} \\ b &= \frac{|(x_1y_2 - x_2y_1)cos\theta|}{|\bm{y}|} \end{aligned}
∣x∣2(a+b)2c2b2b=(x1α1+x2α2)⊺(x1α1+x2α2)=x12+x22+2x1x2cosθ=(y1α1+y2α2)⊺(y1α1+y2α2)[(x1α1+x2α2)⊺(y1α1+y2α2)]2=∣x∣2−(a+b)2=∣y∣2(x12+x22+2x1x2cosθ)(y12+y22+2y1y2cosθ)−(x1y1+x2y2+(x1y2+x2y1)cosθ)2=∣y∣2(x1y2−x2y1)2sin2θ=tan2θc2=∣y∣2(x1y2−x2y1)2sin2θsin2θcos2θ=∣y∣2(x1y2−x2y1)2cos2θ=∣y∣∣(x1y2−x2y1)cosθ∣
发现。。。。。。
a
≠
x
1
y
1
+
x
2
y
2
∣
y
∣
a \ne \frac{x_1y_1 + x_2y_2}{|\bm{y}|}
a=∣y∣x1y1+x2y2 至此,研究结束,失败了!究其原因,我们终究无法脱离标准坐标系谈长度的概念。这种压扁了的坐标系,是不便于探究投影的,或许这里的
x
1
y
1
+
x
2
y
2
x_1y_1 + x_2y_2
x1y1+x2y2 就没什么意义。有谁知道的话欢迎留言赐教。
最后,关于非正交坐标系和度量矩阵 A A A 那个东西,暂时想到一个方面:现实世界中,我们拿到一条数据 x = ( x 1 , x 2 , ⋯ , x n ) ⊺ \bm{x} = (x_1, x_2, \cdots, x_n)^\intercal x=(x1,x2,⋯,xn)⊺, x i , x j x_i, x_j xi,xj 对应的属性之间可能是相关的,即非正交。这意味着 x \bm{x} x 实际是非标准正交系下的点,则计算距离 D i s t a n c e ( x , y ) = ( x − y ) ⊺ ( x − y ) Distance(\bm{x}, \bm{y}) = \sqrt[]{(\bm{x} - \bm{y})^\intercal (\bm{x} - \bm{y})} Distance(x,y)=(x−y)⊺(x−y) 就会有偏差。引入度量矩阵 D i s t a n c e ( x , y ) = ( x − y ) ⊺ A ( x − y ) Distance(\bm{x}, \bm{y}) = \sqrt[]{(\bm{x} - \bm{y})^\intercal A (\bm{x} - \bm{y})} Distance(x,y)=(x−y)⊺A(x−y) 进行纠正可能会有效。
---------- 更新 end -------------
超平面是在法向量方向上投影相同的点集
我们经常看到超平面的方程是
w
⊺
x
+
b
=
0
\bm{w}^\intercal \bm{x} + b = 0
w⊺x+b=0 下面我们就用向量内积的几何解释来看看超平面的是怎么一回事。
先从简单的二维平面上的直线开始,
w
\bm{w}
w 是直线的法向量,垂直于直线,很明显,直线上的任意一点
x
\bm{x}
x 投影到法向量上后
w
⊺
x
\bm{w}^\intercal \bm{x}
w⊺x 都相等,设为
b
b
b,当
b
=
0
b = 0
b=0 时,直线过原点。三维空间平面也是一样:
w
\bm{w}
w 是平面的法向量,垂直于平面,很明显,平面上的任意一点
x
\bm{x}
x 投影到法向量上后
w
⊺
x
\bm{w}^\intercal \bm{x}
w⊺x 都相等,设为
b
b
b,当
b
=
0
b = 0
b=0 时,平面过原点。文章来源:https://www.toymoban.com/news/detail-429177.html
【注】有时我们考虑用向量内积表达相似度,又为了便于计算,干脆不考虑模
那么当
c
o
s
⟨
O
A
→
,
O
C
→
⟩
=
c
o
s
⟨
O
B
→
,
O
C
→
⟩
cos\langle \overrightarrow{OA}, \overrightarrow{OC}\rangle = cos\langle \overrightarrow{OB}, \overrightarrow{OC}\rangle
cos⟨OA,OC⟩=cos⟨OB,OC⟩ 时,其实夹角并不相等,然而这可能依然有效,这作何解释呢?猜测可能是
A
A
A 和
B
B
B 依然有 “在同一平面” 这一共性。文章来源地址https://www.toymoban.com/news/detail-429177.html
到了这里,关于向量内积的几何解释的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!