读AI3.0笔记04_视觉识别

这篇具有很好参考价值的文章主要介绍了读AI3.0笔记04_视觉识别。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

读AI3.0笔记04_视觉识别文章来源地址https://www.toymoban.com/news/detail-817372.html

1. 两次飞跃

1.1. ConvNets是当今计算机视觉领域深度学习革命的驱动力

1.1.1. 20世纪80年代便由法国计算机科学家杨立昆提出,而他则是受到了福岛·邦彦提出的神经认知机(Neocognitron)的启发

1.2. ImageNet竞赛被看作计算机视觉和人工智能进步的关键标志

1.2.1. 普林斯顿大学年轻的计算机视觉教授李飞飞尤其关注这一目标。李飞飞有一个新的想法——根据词网(WordNet)中的名词构建一个图像数据库,使其中每个名词都与大量包含该名词所表示事物的图像相关联,因此ImageNet的构想诞生了

1.2.1.1. 目标识别任务本身

2. 看与做

2.1. 人类几乎可以在瞬间完成大量信息的处理

2.1.1. 我们很少会意识到我们正在做这些信息处理以及我们是如何做到的

2.1.2. 除非一个人先天失明,否则视觉处理会在各种抽象层面上支配大脑

2.1.3. 以这种方式来描述照片、视频或照相机中的实时视频流中内容的能力,也是我们要求通用的、人类水平的人工智能所首先要具备的素质之一

2.2. 兼具观看和观察的视觉,原来是所有“容易”的事情里最难的

2.2.1. 始终是“看”起来容易“做”起来难

2.3. 自20世纪50年代以来,人工智能领域的研究者一直致力于使计算机能够理解视觉数据

2.4. 1966年,极力推广符号人工智能的麻省理工学院教授明斯基和佩珀特提出了“夏季视觉项目”

2.4.1. “构建视觉系统的重要组成部分”的课题研究

2.5. 目标识别(object recognition)

2.5.1. 目标识别对我们人类来说是可以非常迅速和轻而易举就能完成的事情

2.5.2. 它看起来对计算机来说也不应该会是一个特别困难的问题,直到人工智能研究者真正试图让计算机去完成它,才发现事实恰恰相反

2.5.3. 如果输入的只是图像的像素,程序首先要弄清楚哪些是“狗”的像素,哪些是“非狗”的像素(如背景、阴影、其他物体等

2.5.3.1. 狗的像素组可能看起来会很像猫或其他动物的像素组

2.5.3.2. 在某些光照条件下,天空中的一朵云甚至都可能看起来非常像一条狗

2.5.4. 识别目标对象之“不变特征”的专用图像处理算法,仍然是计算机视觉研究人员的一项主要的研究工作

2.5.4.1. 即便是有了复杂的图像处理算法,目标识别程序的相关能力仍然远不及人类

3. 深度学习

3.1. 由于深度学习领域的进展,机器对图像和视频中物体的识别能力在21世纪第一个10年经历了一次质的飞跃

3.2. 深度学习简单来说是指用于训练DNN的算法,这里的DNN就是深度神经网络,指的是具有不止一个隐藏层的神经网络

3.3. 一个“深度”网络则有不止一个隐藏层

3.3.1. 深度学习中的“深度”并不是指神经网络所学习内容的复杂性,而仅仅是指网络本身的层数

3.3.2. 不是复杂性,而是层深

3.4. 最成功的DNN是那些模仿了大脑的视觉系统结构的网络

3.4.1. 主导深度学习的DNN则是直接根据神经科学中关于大脑的相关研究发现进行建模的

3.5. 深度学习在近年来的成功与其说是人工智能的新突破,不如说要归功于互联网时代极易获得的海量数据和并行计算机硬件的快速处理能力

4. 卷积神经网络

4.1. ConvNets是当今计算机视觉领域正在进行的深度学习革命的驱动力,当然在其他领域也是如此

4.2. ConvNets的设计基于胡贝尔和威塞尔在20世纪五六十年代发现的与大脑视觉系统相关的几个关键信息

4.2.1. 层次结构中不同层的神经元是响应视觉场景中出现的渐增复杂特征的“检测器”

4.2.2. 视皮层中也会有自顶向下或反向的信息流,也就是信息从较高层向较低层传递

4.2.3. 让网络学会对输入图像所属的正确类别输出高置信度,对其他类别输出低置信度

4.2.4. 激活特征图(activation maps),它受到了大脑视觉系统中类似的“映射”的启发

4.2.5. 在大量真实的图像数据集上进行训练时,ConvNets似乎确实演化出了一种类似于胡贝尔和威塞尔在大脑视觉系统中所发现的检测器的分层结构

4.3. 在20世纪80年代由法国计算机科学家杨立昆提出,而他则是受到了福岛提出的神经认知机的启发

4.3.1. 杨立昆是ConvNets之父,纽约大学终身教授,深度学习三巨头之一,杨立昆是他给自己起的中文名字

4.4. 20世纪八九十年代在贝尔实验室工作期间,杨立昆转向对自动识别手写数字和字母的研究

4.4.1. 创建了“LeNet”,即最早的ConvNets之一

4.4.2. LeNet凭借手写数字识别功能在商业上获得了成功,从20世纪90年代到21世纪初,LeNet被美国邮政局用于自动识别邮政编码,并被银行业用于自动读取支票上的手写数字

4.5. ConvNets中的单元是重要视觉特征的探测器,每个单元会在视野的特定部分寻找其指定特征

4.5.1. “边缘”指的是两个对比明显的图像区域之间的边界

4.5.2. 这个区域被称为该神经元的感受野receptive field

4.6. 要使ConvNets工作得更好,仍需结合人类的聪明才智

4.6.1. 不断从训练样本中学习,而非预先内置正确答案

4.6.2. 网络会在某个点上“收敛”,即权重从一个周期迭代到下一个周期时不再变化了

4.6.2.1. 此时网络已经非常擅长识别训练集图像中的狗和猫了

4.6.2.2. 我们并不能确定该网络是否真正擅长完成这项任务,除非它能将识别图像过程中学到的知识应用到训练集之外的图像上

4.7. 最高卷积层的激活特征图被输入到一个传统的神经网络(分类模块),该网络输出其对已知的对象类别的置信度

4.7.1. 具有最高置信度的对象类别被输出为网络对于该图像的分类

4.8. ConvNets可通过使用ImageNet中的图像进行预训练来学习通用的视觉特征

4.9. 以一套技术解决一个又一个问题

4.9.1. 在大量标记数据上训练过的DNN,其在语音识别领域的表现比该领域正在使用的其他技术更优

4.9.2. ConvNets甚至能够根据医学图像诊断乳腺癌和皮肤癌,确定糖尿病性视网膜病变的阶段,并协助医生制定前列腺癌的治疗方案

4.9.3. Twitter开发了一个过滤器,可以筛除推文中的不合规图片

4.9.4. 谷歌、微软等公司所提供的图片搜索引擎均能极大地改进其“查找相似图片”的技术

5. ImageNet

5.1. 普林斯顿大学年轻的计算机视觉教授李飞飞

5.1.1. 创建一个英语单词数据库(WordNet),将单词按同义词分组,并从最具体到最一般化的等级进行层次结构排序

5.1.2. 根据WordNet中的名词构建一个图像数据库,使其中每个名词都与大量包含该名词示例的图像相关联

5.1.2.1. ImageNet的构想诞生了

5.1.3. 李飞飞和她的合作者很快就开始使用WordNet中的名词作为图片搜索引擎(如Flickr和谷歌图片搜索)的查询词以收集海量的图片

5.1.3.1. 判定一张照片是否与某个特定名词相关,其本质就是目标识别任务本身

5.2. “亚马逊土耳其机器人”(Amazon Mechanical Turk)

5.2.1. 一个需要人类智慧的工作市场

5.2.1.1. 人类被雇用来执行目前对计算机来说仍然很难的“简单”任务

5.2.1.2. 这项服务被人工智能研究者广泛地用于创建数据集,人工智能领域的学术资助提案也往往会包括一个土耳其机器人的专属条目

5.2.2. 请求者是指那些需要完成某项难以由计算机完成的任务的人

5.2.3. 工人是指那些仅收取少量费用(例如,标注图像中的物体,每张照片的报酬是10美分)就愿意将其智慧用于完成请求者所要求的任务的人

5.3. 2005—2010年,这类年度比赛中最令人瞩目的是PASCAL视觉目标类别竞赛

5.3.1. 计算机视觉程序能够将图像作为输入(在看不到人工创建的标签的情况下),然后用20种类别作为输出,来判定某一种类别的对象是否出现在图像中

5.4. ImageNet竞赛涉及1 000种可能的类别,远远多于PASCAL的20个输出类别

5.4.1. 参赛程序的任务是对每张图像输出正确的类别

5.5. “top-5”准确率衡量标准

5.5.1. 对每个图像至多猜测5个类别,如果正确类别在输出之列,我们就说该程序对这张图像的识别是正确的

5.6. 2010年得分最高的程序使用了所谓的“支持向量机”算法

5.6.1. 在15万张测试图像上的正确率为72%

5.7. 直到2012年,ConvNets在一个名为ImageNet的图像识别数据库上赢得了计算机视觉竞赛,由ConvNets研究人员传递的这只火炬突然照亮了计算机视觉研究的世界

5.7.1. 获奖程序top-5准确率达到了惊人的85%,这种准确率的飞跃实在是令人震惊的进步

5.7.2. 这个独特的ConvNets名为AlexNet,以其主要开发者亚历克斯·克里泽夫斯基(Alex Krizhevsky)的名字命名

5.7.3. AlexNet包含8层,约有6 000万个权重,这些权重通过在上百万张训练图像上进行反向传播来学习

5.8. 在2017年举办的竞赛中,获胜程序的top-5准确率为98%

5.9. 定位挑战赛

5.9.1. 可以要求机器不仅输出图像中的对象类别,同时还要学会在目标对象周围画一个方框,这样我们就知道机器确实“看到”了目标

5.9.1.1. 如果我们真的希望机器描述它所“看到”的内容,它们将需要使用语言

5.9.1.2. 视觉智能与其他的智能并不是那么容易分得开,尤其是通用知识、抽象概念和语言等与大脑的视皮层有许多反馈联系的相关智能

5.9.2. 虽然ConvNets在定位方面表现得很好,但与其在分类任务上的表现相比,就差得多了

6. 超越人类?

6.1. 这一论断是基于人类的错误率约为5%,而机器的错误率接近2%的一个声明

6.1.1. 人类指被试名叫安德烈·卡帕西(Andrej Karpathy),他当时是一名在斯坦福大学研究深度学习的研究生

6.2. 当你读到“一台机器正确地识别了目标”时,你会认为,给定一张篮球的图像,机器会输出“篮球”这一结果

6.3. 在ImageNet竞赛中,正确地识别仅意味着正确类别出现在机器给出的前5个输出类别当中

6.3.1. 如果给机器输入一张篮球的图像,机器按顺序输出的是门球、比基尼、疣猪、篮球和搬家货车,即可被判定是正确识别

6.4. 相比于2017年ImageNet竞赛中98%的top-5准确率,最高的top-1准确率只有82%

6.4.1. top-1准确率指的是测试图像中所含内容的正确类别位于输出结果列表顶端的概率

6.5. 对于计算机已在ImageNet竞赛中击败人类这一说法,需要在很大程度上持保留意见

到了这里,关于读AI3.0笔记04_视觉识别的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 读AI3.0笔记06_新机器人三定律

    8.1.1.1. “逃跑”的故事 8.1.1.1.1. 如果一个机器人遵循第二定律向危险物质移动 8.1.1.1.2. 这时第三定律将会生效,机器人随即远离该物质 8.1.1.1.3. 此时第二定律又重新开始生效 8.1.1.1.4. 于是,机器人将被困在一个无尽的循环中,最终对机器人的人类主人造成了灾难性的后果

    2024年01月25日
    浏览(28)
  • 【计算机视觉】YOLOv9:物体检测技术的飞跃发展

    YOLOv9 引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 等开创性技术,标志着实时目标检测领域的重大进步。该模型在效率、准确性和适应性方面都有显著提高,在 MS COCO 数据集上树立了新的标杆。YOLOv9 项目虽然是由一个独立的开源团队开发的,但它建立在以下机构

    2024年04月17日
    浏览(40)
  • cs50ai3

    cs50ai3-------Optimization 基础知识 课后题目 代码实践 学习链接 总结 这节课主要讲了一些优化问题对应的算法求解,其实具体使用时还是需要具体分析,看哪些问题能够转化为我们学习的算法能够求解的形式 local search与hill climbing与linear programming这三种算法都比较直观简单,这里

    2024年02月08日
    浏览(29)
  • 【城南】如何识别AI生成图?视觉AIGC伪造检测技术综述

    图片无法加载可参考阅读:知乎文章 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ry2Qw8uO-1685675351028)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MWFkNzMyZjcyYTE4YzJkM2MxYzVlMTQ1MzQzNDAxNTZfc01xTFVyMks3SnJFTFNWVFd1WHB2dmFIblpuT2o3ZWxfVG9rZW46RDZtaGJDRXpob2d

    2024年02月12日
    浏览(51)
  • 读十堂极简人工智能课笔记04_计算机视觉

    3.2.3.1. 应该发现真正的边缘,而尽量避免错报 3.2.4.1. 应该正确地找出边缘的确切位置 3.2.5.1. 每条实际的边缘应该检测为一条边缘,而不是多条边缘 4.7.5.1. 有数以百万计的几乎任何种类的图像例子 4.7.7.1. 神经网络自己就能完成这一切

    2024年02月19日
    浏览(46)
  • AI大模型日报#04-08:多模态医疗视觉、复现OpenAI RLHF、Mistral Large引入Amazon

    导读: 欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。 标题: 超10秒高分辨率,北大Open Sora视频生成更强了,还支持华为芯片   摘要:  北大团队与兔展联合发起的Open Sora Plan旨在通过开源社区复现OpenAI的Sora视频

    2024年04月17日
    浏览(64)
  • AI实战营第二期 第九节 《底层视觉与MMEditing》——笔记10

    本节内容 : 图像超分辨率 Super Resolution 基于卷积网络的模型 SRCNN 与 FSRCNN 损失函数 对抗生成网络 GAN 简介 基于 GAN 的模型 SRGAN 与 ESRGAN 视频超分辨率介绍 实践 MMEditing 1 图像超分辨率 : 根据从低分辨率图像重构高分辨率图像 。 将图像放大,变清晰 提高图像的分辨率 高分图像

    2024年02月09日
    浏览(32)
  • 论文阅读——Deformable ConvNets v2

    论文:https://arxiv.org/pdf/1811.11168.pdf 代码:https://github.com/chengdazhi/Deformable-Convolution-V2-PyTorch 可变形卷积能够很好地学习到发生形变的物体,但是论文观察到当尽管比普通卷积网络能够更适应物体形变,可变形卷积网络却可能扩展到感兴趣区域之外从而使得不相关的区域影响网

    2024年02月04日
    浏览(27)
  • 读天才与算法:人脑与AI的数学思维笔记04_算法

    1.2.2.1. 在欧几里得的算法中,任何阶段都不存在歧义 1.3.4.1. 算法的执行时间与问题的规模成正比,数字越大,耗时越长 1.9.2.1. 这就是DeepMind团队所使用的新算法,这个算法使机器在围棋领域中战胜了人类,开创了机器学习的新纪元 2.4.2.1. 为了防止这种情况出现,他们决定

    2024年04月22日
    浏览(36)
  • 【大厂AI课学习笔记NO.51】2.3深度学习开发任务实例(4)计算机视觉实际应用的特点

    今天考试通过腾讯云人工智能从业者TCA级别的认证了! 还是很开心的,也看不到什么更好的方向,把一切能利用的时间用来学习,总是对的。 我把自己考试通过的学习笔记,都分享到这里了,另外还有一个比较全的思维脑图,我导出为JPG文件了。下载地址在这里:https://do

    2024年03月14日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包