视频教程学习链接: https://www.icourse163.org/learn/XUST-1206363802?tid=1467124640#/learn/content?type=detail&id=1248319353&cid=1275090253
原始数据的形式是多种多样的,除了数字之外,还可能是文字、图像、视频、音频等,下面,就以图像识别为例,来了解深度学习在计算机视觉领域中的应用。
图像识别就是指利用计算机对图像进行处理和分析,使机器能够理解图像中的内容。
在计算机中,灰度图像表示为二维张量的形式,例如这个手写数字 5 ,
就被保存为一个 28 x 28 的二维张量。
其中的每一个元素都对应着图像中的一个像素点的灰度信息。
而彩色图像,则可以表示为一个三维张量,增加的这个维度是 RGB 三个色彩通道,
这个图比较大,我们取其中的一小块显示出其对应的张量 。
数据表是计算机看到的图片,可以发现,图像对人来说,很容易理解,而对计算机来说,却非常困难。
因此,
图像特征
1、颜色特征
颜色往往和图像中包含的物体或场景十分相关,因此,颜色特征在图像检索和分类中应用非常广泛,最简单的颜色特征,是颜色直方图。
颜色直方图描述了图像中每种颜色的统计信息,例如,下图所示的图像中的颜色直方图都是近似的。
但是仅仅使用颜色直方图这一个特征去识别图像,是远远不够的。例如,下图所示图像中的颜色直方图也是近似的,但却不是我们要找的图像。
这是因为颜色直方图只是描述了不同色彩在整幅图中所占的比例,但是并没有描述图像中颜色的局部分布,以及每种颜色所处的空间位置。
因此,颜色特征需要和其他特征配合使用。
2、形状特征和纹理特征
形状特征可以提取出图像中景物的轮廓,或者形状轮廓。纹理特征描述了图像或图像区域中景物的表面性质。
通过这些视觉特征的组合应用,能够更加准确的描述出图像。
例如,苹果的三个特征如下。
而橘子,
在深度学习成为主流之前,解决视觉问题首先需要依靠特征工程,设计出一种最适合当前任务的特征,在过去的 20 年中,出现了很多优秀的图像特征,例如,
特征工程不仅需要大量的专业知识和经验,而且和具体的任务密切相关,对于不同的视觉任务,需要设计出适合这个任务的特征,例如识别图像中的行人,
往往采用 Hog 特征。
而识别人脸,则常常采用 haar 特征。
我们很难设计出应对多种识别任务的特征,而且即使通过精心设计过的视觉特征,计算机对图像的理解仍然可能和人类存在很大的差异。
例如,下图中的两个图像的视觉特征非常相似,
但是,他们的高层语义却完全不同,一个是人,一个是狗。
这种现象,被称为语义鸿沟。
可以看到,下图中的两组图片,也有着相同的问题,即
另外,还有些图像虽然表达同样的语义概念,视觉特征却相差很大。这可能由于光照、拍摄视角、尺寸、形变、背景干扰或者遮挡等原因导致。也可能同类的语义本身就种类繁多,外观差异很大。
语义鸿沟的存在给图像识别带来很大的困扰。例如,下图中都是猫的图像,我们可以轻松的识别它们,但是它们的视觉特征却相差很大,对于计算机来说,是一项极具挑战性的任务。
近年来,随着数据、算法、计算能力的快速发展,深度学习在计算机视觉领域得到了成功的应用。深度学习采用端到端的学习方法,避免了特征工程这项令人头痛的工作。
例如,一个区分猫和狗的程序,只需要把各种猫和狗的照片送入神经网络中,
然后根据图片的标签去训练这个网络,当网络收敛时,神经网络的隐含层就从这些图片中自动的学习到了猫和狗的特征。
现在,输入没有标签的图像,神经网络就能正确的判断出它是猫还是狗。
至于隐含层提取出的特征究竟是什么,我们并不知道,也不需要关心。
这个过程和我们人类的学习过程非常的相似。当我们教小孩子识别猫和狗时,只要让他们看到各种猫和狗的照片,同时告诉他这是猫还是狗,并且与实际的猫和狗进行对照,经过一段时间之后,他基本上就可以认识了,这就是端到端的学习方法。文章来源:https://www.toymoban.com/news/detail-453160.html
我们并不用给他详细的描述猫和狗在外观上的区别,只需要告诉他这是猫还是狗,一开始,也许会认错,但是只要立刻纠正,告诉他正确的答案,经过一段时间的训练之后,它的正确率就会越来越高了。
深度神经网络可以看成是对人脑分层机制的模仿,它通过多层隐含层不断组合低层隐含层特征,从而形成更加抽象的高层特征,神经网络中的隐含层越多,提取出的特征就更加抽象,表达能力也就越好。文章来源地址https://www.toymoban.com/news/detail-453160.html
到了这里,关于卷积神经网络 —— 图像识别与深度学习的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!