神经网络如何入门？-Toy模板网

这篇具有很好参考价值的文章主要介绍了神经网络如何入门？。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

推荐《Python神经网络编程》这本入门书。豆瓣评分9.2。

神经网络如何入门？

如果你可以进行加、减、乘、除运算，那么你就可以制作自己的神经网络。我们使用的最困难运算是梯度演算（gradient calculus），但是，我们会对这一概念加以说明，使尽可能多的读者能够理解这个概念。

在这本书中，我们将扬帆起航，制作神经网络，识别手写数字。

我们将从非常简单的预测神经元开始，然后逐步改进它们，直到达到它们的极限。顺着这条路，我们将做一些短暂的停留，学习一些数学概念。我们需要这些数学概念来理解神经网络如何学习和预测问题的解。

我们将浏览一些数学思想，如函数、简单的线性分类器、迭代细化、矩阵乘法、梯度演算、通过梯度下降进行优化，甚至是几何旋转。但是，所有这些数学概念将会以一种非常优雅清晰的方式进行解释，并且除了简单的中学数学知识以外，读者完全不需要任何前提知识或专业技术。

一旦我们成功制作了第一个神经网络，我们将带着这种思想，在各个方面使用这种思想。例如，我们无需诉诸额外的训练数据，就可以使用图像处理来改善机器学习。我们将一窥神经网络的思想，看看它是否揭示了任何深刻的见解——很多书籍并没有向你展示神经网络的工作机制。

当我们循序渐进制作神经网络时，我们还将学习一种非常简单、有用和流行的编程语言Python。同样，你不需要有任何先前的编程经验。

本书揭示神经网络背后的概念，并介绍如何通过Python实现神经网络。全书分为3章和两个附录。第1章介绍了神经网络中所用到的数学思想。第2章介绍使用Python实现神经网络，识别手写数字，并测试神经网络的性能。第3章带领读者进一步了解简单的神经网络，观察已受训练的神经网络内部，尝试进一步改善神经网络的性能，并加深对相关知识的理解。附录分别介绍了所需的微积分知识和树莓派知识。

本书适合想要从事神经网络研究和探索的读者学习参考，也适合对人工智能、机器学习和深度学习等相关领域感兴趣的读者阅读。

《Python神经网络编程》数学知识：微积分简介

A.1　一条平直的线

首先，让我们从一个非常简单的场景开始。

想象一下，汽车以30英里每小时的速度匀速前进。不快也不慢，就是时速30英里。

下表中显示了汽车在各个时间点的速度，每半分钟测量一次。

时间/分	速度（英里/小时）
0	30
0.5	30
1.0	30
1.5	30
2.0	30
2.5	30
3.0	30

下图可视化了在这几个时间点的速度。

神经网络如何入门？

可以看到，速度并不随时间而改变，因此这是一条水平直线。这条直线不向上倾斜（加速），也不向下倾斜（减速），汽车就保持在30英里每小时。

速度的数学表达式，我们称之为s：

神经网络如何入门？

现在，如果有人询问速度如何随时间变化，我们会说速度不随时间变化。变化率为0。换句话说，速度不取决于时间，相关性为0。

我们刚刚就完成了微积分计算！

微积分探讨的是，建立关系以表示一种事物如何随着其他事物的变化而变化。此处，我们思考的是速度如何随时间变化而变化。

我们有一个数学方式来表达这种关系。

神经网络如何入门？

这些是什么符号？可以将这个符号的意思视为“当时间改变时，速度如何变化”或“s如何与t相关”。

因此，这个表达式说的是速度不随时间变化，这是数学家使用的一种简洁的方式。或者换一种说法，随着时间的推移，速度不受影响。速度对时间的依赖性为0。这就是表达式中0所表示的意思。它们完全是不相关的。

事实上，当你再次观察速度的表达式s=30时，你可以发现这种不相关性。在这个表示式中，一点都没提到时间。也就是说，在这个表达式中，没有隐藏的时间t。因此，我们不需要做任何复杂的微积分来计算出∂s / ∂t = 0，只要简单地观察表达式就可以得出这个结论。数学家称之为“观察法”。

如∂s / ∂t的表达式，解释了变化率，称为导数。就我们的目的而言，我们不需要知道这点，然而你可能会在其他地方遇到这个词。

现在，如果我们踩下油门，让我们看看会发生什么。这真是太令人兴奋了！

A.2　一条斜线

试想一下，相同的汽车以30英里每小时的速度前进。我们轻轻踩下油门，车子加速。我们一直踩住油门，观察仪表盘上的标度，每30秒记录一次速度。

在30秒后，汽车以35英里每小时的速度前进。在1分钟后，汽车以40英里每小时的速度前进。在90秒后，汽车以45英里每小时的速度前进。在2分钟后，汽车的速度达到了50英里每小时。汽车的加速度为每分10英里每小时。

下表总结了相同的信息。

时间/分	速度（英里/小时）
0.0	30
0.5	35
1.0	40
1.5	45
2.0	50
2.5	55
3.0	60

让我们再次将其可视化。

神经网络如何入门？

你可以看到，汽车的速度以恒定速率从30英里每小时一路攀升到60英里每小时。由于每半分的速度增量是相同的，因此速度随时间变化的图像是一条直线，可以看到这一速率。

什么是速度的表达式？在时间0，速度为30。在此之后，速度每分钟增加10英里每小时。因此，速度的表示式如下所示。

神经网络如何入门？

或者使用符号表示如下：

神经网络如何入门？

在这里，可以看到常数30。而且还可以看到（10×t），这意味着每分钟增加10英里每小时。你很快就会意识到，10是我们所绘制直线的斜率。请记住，直线的一般形式为y = ax + b，其中a是斜率或梯度。

那么，速度随时间变化的表达式是什么样的呢？嗯，我们已经讨论到这个问题了，速度每分钟增加10英里每小时。

神经网络如何入门？

这个表达式说的是，由于∂s / ∂t不为0，速度和时间之间的确存在着相关性。

请记住，直线y = ax + b的斜率是a，我们通过“观察法”，可以知道s = 30 +10t的斜率为10。

做得好！我们已经讨论了微积分的许多基础知识，这些知识一点也不难。现在，让我们加大油门！

A.3　一条曲线

想象一下，我从静止起动了汽车，用力踩下油门，不松开油门。由于我们一开始没有移动，因此起动速度为0。

试想一下，我们非常用力地踩下油门，汽车不以恒定的速率增加速度。相反，汽车更快地提高速度。这意味着，它每分钟不是提高10英里每小时，而是随着踩下油门时间增加，汽车加速度本身也增加了。

对于这个例子，想象一下，我们每分钟测量一次速度，如下表所列。

时间/分	速度（英里/小时）
0	0
1	1
2	4
3	9
4	16
5	25
6	36
7	49
8	64

如果你仔细观察可以发现，我选择让速度为时间（分钟）的平方。即，在时间为2分钟时，速度为22 = 4；在时间为3分钟时，速度为32=9；在时间为4分钟时，速度为42 = 16；依此类推。

现在，这个表达式也很容易写出来了。

神经网络如何入门？

虽然我知道示例的汽车速度是有意为之的，但是这非常好地阐述我们如何进行微积分计算。

让我们将这个表达式可视化，这样，我们就可以感觉到，速度如何随时间的变化而变化。

神经网络如何入门？

可以看到速度的变化越来越快。当前，这幅图已经不是一条直线了。可以想象一下，速度爆炸式地快速增加到非常大的数字。在20分钟时，速度将达到400英里每小时；在100分钟时，速度将达到10000英里每小时！

一个有趣的问题是——相对于时间，速度的变化率是什么样的？也就是说，速度如何随时间的变化而变化？

这与在特定时间点实际速度是多少的问题不一样。我们已经有了表达式s = t2，因此已经知道这个值了。

我们要问的是——在任何时间点，速度的变化率是多少？在这个示例中，这句话的意思是图线向何处弯曲？

如果回想一下前面的两个例子，可以发现，变化率是速度关于时间的曲线的斜率。当汽车以恒定30英里每小时的速度前进时，速度并未改变，因此变化率为0。当汽车稳步加快时，速度的变化率是每分钟10英里每小时。在任何时间点，每分钟10英里每小时都是正确的。在时间2分钟的时候，变化率为每分钟10英里每小时。在4分钟时，在100分钟时，这都是正确的。

在曲线图中，我们可以应用相同的思路吗？当然可以——但是，此处，让我们慢慢理解这一点。

A.4　手绘微积分

让我们仔细看看，在时间等于3分钟时，发生了什么。

在3分钟时，速度为9英里每小时。我们知道，在3分钟后速度将变得更快。让我们将这与6分钟时发生的事情相比。在第6分钟，速度为36英里每小时。在6分钟后，速度会变得更快。

但是，我们也知道，在6分钟后的那一瞬间，速度增加的速率比3分钟后的那一瞬间大。这是发生在3分钟和6分钟处事情的真正区别。

让我们将这种对比可视化，如下图所示。

神经网络如何入门？

可以看到，在6分钟处的斜率比在3分钟处的斜率要大。斜率就是我们希望得到的变化率。这是一个重要的体会，让我们再说一遍。在曲线任何点处的变化率，就是曲线在该点的斜率。

但是，如何测量曲线的斜率呢？对于直线而言，测量斜率非常容易，对于曲线而言，可以画出称为切线的直线，切线要尽可能与曲线中某一点处的斜率相同，这样就可以根据切线的斜率估计出曲线在这一点的斜率。事实上，在其他测量方法出现之前，这就是人们测量曲线斜率的方式。

为了让读者体会一下这种做法，我们就试试这个粗略的方法。下图显示了速度曲线图，在6分钟时，我们得到了与速度曲线仅有一个交点的切线。

神经网络如何入门？

从中学数学中我们知道，要计算出斜率或梯度，需要将斜面的高度除以宽度。在上图中，高度（速度）为Δs，宽度（时间）为Δt。符号Δ称为“增量”，也就是一个微小的变化。因此Δt就是t的一个小变化。

斜率为Δs/Δt。对于斜面，可以选择任何尺寸的三角形，用尺子测量高度和宽度。根据我的测量结果，恰好得到了一个Δs为9.6、Δt为0.8的三角形。因此，所得的斜率如下：

神经网络如何入门？

我们得到了一个重要的结果！在6分钟时，速度变化率为每分钟12.0英里每小时。

你应该明白，靠着一把尺子，尽其所能，甚至尝试用手画切线，结果也不会特别准确。因此，让我们把事情变得稍微复杂一点。

A.5　非手绘微积分

仔细观察下图，这幅图中有一条新的标记直线。这条直线与曲线相交于两点上，因此不是一条切线。但是，这条直线看起来以某种方式围绕着时间点3分钟这个中心。

神经网络如何入门？

事实上，这条直线与时间点3分钟有联系。我们所选择的时间点是，我们所感兴趣的时间点t = 3分钟的上下几分。此处，我们选择了在t = 3分钟时间点的上下2分钟处，也就是，t = 1分钟和t = 5分钟。

使用数学符号表示，我们可以说Δx为2分钟。我们选择的时间点为 x-Δx和x+Δx。请记住，符号Δ只是意味着一个“小小的改变”，因此Δx是在x坐标上的小小改变。

为什么这样做呢？读者很快就会明白了，我们先吊吊读者的胃口。

如果观察在时间点x-Δx 和x+Δx处的速度，在这两点之间画一条直线，那么就会得到一条直线，其斜率大致与中间点x切线的斜率相同。再次观察上图，看看那条直线。当然，这条直线与在x处切线的真正斜率不是完全相同，但是我们会修正这一点的。

让我们计算出这条直线的梯度（斜率）。与之前使用的方法一样，我们将斜面的高度除以宽度得到梯度。下图更清晰显示了斜面的高度和宽度。

神经网络如何入门？

高度是在x-Δx和x +Δx两点处速度的差，也即是在1分钟和5分钟时两个速度之间的差。我们知道，在这两点处，速度分别为12 = 1和52 = 25英里每小时，因此速度的差值为24。宽度非常容易计算，就是x-Δx 和 x+Δx之间的距离，也就是1和5之间的距离，即4。因此，我们得到：

神经网络如何入门？

直线的梯度与在t = 3分处切线的梯度近似，为每分钟6英里每小时。

让我们暂停一下，回顾一下已经完成的事情。首先，我们试图使用手绘切线，计算出曲线的斜率。这种方法永远不会准确，由于我们是人类，会厌倦、无聊和犯错误，因此不能一再使用这种方法。下一种方法不需要手绘切线，而是要按照某种方法创建一条不同的直线，这条直线的斜率与正确的斜率大致相同。第二种方法可以使用计算机自动完成，由于不需要人的工作，因而可以多次进行，并且速度非常快。

这已经很不错了，但是还是不够好！

第二种方法只得到一个近似值。如何改进这个值，使其变得准确呢？我们的目标是按照精确数学的方式，计算出事情如何改变，得到梯度值。

这是发生神奇事情的地方！数学家已经发展了一种非常轻巧犀利的工具，并且从这个工具中获得了许多乐趣。

如果将宽度变小，会发生什么情况？用另一种方式来表达，也就是，如果让Δx变小，会发生什么情况？下图详细说明了当Δx逐渐变小时，所得到的若干逼近线或坡度线。

神经网络如何入门？

我们已经绘制出了Δx = 2.0、Δx = 1.0、Δx = 0.5 和Δx = 0.1的直线。你可以看到，直线越来越接近我们所感兴趣的点，3分钟处的点。你可以想象一下，当我们不断减小Δx的值，直线将越来越接近3分钟处的真正切线。

当Δx变得无限小时，直线无限接近真实的切线。这真是太酷啦！

通过让偏差变得越来越小，改进近似值，逼近解，这种想法简直太强大了。数学家曲径通幽，求解出难以正面求解的问题。这有点像从侧面悄悄逼近，而不是从正面进攻。

A.6　无需绘制图表的微积分

我们前面说过，微积分探讨的是以精确的数学方式，理解事物如何变化。让我们来看看，我们是否能够将这种逐步缩小Δx的想法应用到定义这些事物的数学表达式中——如汽车速度曲线。

我们知道速度是时间的函数，即s = t2。我们希望知道作为时间的函数，速度是如何变化的。当绘制关于t的曲线时，我们已经看到这是s的斜率。

变化率∂s / ∂t等于我们所构造直线的高度除以宽度，但是，其中Δx无限小。

高度是什么？正如我们先前看到的，这是(t + Δx)2-(t -Δx)2。也就是根据公式s = t2，其中t为所感兴趣的点上下偏移Δx，算出对应的s，相减得到。

宽度是什么？正如我们先前所看到的，简单说来，这只是(t + Δx)和(t - Δx)之间的距离，也就是2Δx。

我们就快到达目标了，

神经网络如何入门？

让我们展开并简化表达式

神经网络如何入门？

实际上，我们很幸运，代数本身已经简化得非常灵巧了。

我们已经到达目标了！在数学上，精确的变化率为∂s / ∂t = 2t。这意味着，对于任何时间t，我们知道速度的变化率为∂s / ∂t = 2t。

在t = 3分钟处，我们有∂s / ∂t = 2t = 6。在使用近似方法之前，我们事实上确认过这个值。在t = 6分钟处，∂s / ∂t = 2t = 12，这非常准确地符合了我们之前发现的值。

在t= 100分钟处，这个值是多少呢？∂s / ∂t = 2t = 每分钟200英里每小时。这意味着，在100分钟后，汽车的加速度达到每分钟200英里每小时。

让我们花点时间，思考一下，刚才做的事情有多么的重要，多么的酷炫！我们得到了一个数学表达式，这个表达式允许我们精确地知道，在任何一个时间点汽车速度的变化率。根据先前的讨论，我们可以发现变化率确实随着时间而定。

我们很幸运，代数简化得很精巧，但是简单的s = t2并没有给我们一个尝试的机会，让我们能够有目的地缩小Δx。因此，试一试另一个示例，在这个示例中，汽车的速度有点复杂。

神经网络如何入门？

现在，高度是什么呢？这是在t+Δx处和t-Δx处所计算得到的s的差。

即，高度为（t +Δx）2+ 2（t +Δx）-（t -Δx）2 - 2（t -Δx）。

宽度是什么？这就是（t +Δx）和（t -Δx）之间的距离，依然为2Δx。

神经网络如何入门？

展开并简化表达式

神经网络如何入门？

这是一个重要的结果！可悲的是，代数再次将其简化得有一点太过容易了。这里有一个稍后将谈到的模式，因此，我们不费吹灰之力就得到了结果。

让我们尝试另一个示例，这个示例不会太过复杂。我们将汽车的速度设置为时间的三次方。

神经网络如何入门？

展开并简化表达式

神经网络如何入门？

现在，事情变得更有趣了！我们得到了一个结果，这个结果中包含了Δx，而在之前，表达式中的Δx都互相抵消了。

那么，请记住，只有Δx越来越小，变得无限小时，梯度值才正确。

这是最酷炫的地方！当Δx越来越小的时候，在表达式∂s / ∂t = 3t2 + Δx2 中的Δx会发生什么事情呢？它消失了！如果这听起来令你吃惊，那么请将Δx想象为非常小非常小的一个值。你可以尝试想到一个较小的一个值，然后是一个更小的值……你可以一直这样找下去，使得Δx越来越接近于0。因此，就让我们直接将它当为0，避免这所有的麻烦。

这就得到了一直在寻找的数学上的精确答案：

神经网络如何入门？

这是一个奇妙的结果，这次，我们使用强大的数学工具来进行微积分，并且这一点都不困难。

A.7　模式

我们使用deltas值（如Δx），将deltas值越变越小时，观察发生的事情，计算导数，而乐在其中的是我们可以直接计算导数而无需进行所有这些工作。

看看计算得到的导数，是否能够观察到任何模式：

神经网络如何入门？

可以看到，t的函数的导数，除了t的幂减少了1，其余是相同的。因此t4变为了t3，t7成为t6，以此类推。这相当容易！t就是t1，因此，t的导数为t0即为1。

由于常数，如3，4，5（常数变量，我们可能称之为a，b，c），都没有变化率，因此常数就简单地消失了。这就是称它们为常量的原因。

但是，等等，请注意，t2成为2t而不是t，t3成为3t2不是t2。这里还有一步，在幂指数减小之前，幂指数被用作了乘数。因此，在2t5的幂指数减1之前，幂指数5要作为乘数，从而5 × 2t4 = 10t4。

下面总结了在进行微积分运算时，使用的这种幂规则。

神经网络如何入门？

让我们在更多的例子中尝试，实践这一新技术。

神经网络如何入门？

因此，这条规则允许进行大量的微分运算，对于大多数用途而言，这就是我们所需的微分。这条规则只适用于多项式，也就是使用各种变量的幂次方组成的表达式，如y = ax3+ bx2 + cx + d，但是不包括sinx或cosx这样的式子。由于使用幂规则进行微积分运算有着大量的用途，因此这不算是一个很大的缺陷。

然而，对于神经网络而言，我们确实需要一个额外的工具，我们将在下一节中讨论这个工具。

A.8　函数的函数

想象一下，一个函数

神经网络如何入门？

其中y本身也是函数

神经网络如何入门？

如果我们愿意，我们也可以写为f =（x 3 + x）2。

f如何随着y的改变而改变？也就是，∂f / ∂y是什么？只要应用刚刚得到的幂规则，乘上幂指数，幂指数减1，那么这个计算就很容易了，可以得到∂f / ∂y= 2y。

还有一个有趣的问题——f如何随着x的变化而变化呢？可以展开表达式f =（x3 + x）2，然后应用相同的规则。不能不加思索地硬套规则，将（x3 + x）2变为2（x3 + x）。

如果像以前一样，采用逐渐减小的delta方式，通过漫长艰难的道路，解出了这个表达式，我们会意外发现这里存在着另一组模式。让我们直接跳到答案吧。

这个模式是这样的：

神经网络如何入门？

这是一个非常重要的结果，我们称之为链式法则。

可以看到，这个模式允许我们逐层计算出导数，就像剥洋葱，将复合的层一层一层解开。为了计算∂f / ∂x，我们可能发现，先计算出∂f / ∂y，然后再计算出∂y / ∂x，这会比较容易一些。如果这些都比较容易，那么我们就可以对看起来不可能的表达式进行微积分运算。链式法则允许我们打破问题，将问题分割为较小、较容易的问题。

再次观察这个示例，应用链式法则：

神经网络如何入门？