计算机视觉 – Computer Vision | CV

这篇具有很好参考价值的文章主要介绍了计算机视觉 – Computer Vision | CV。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

计算机视觉为什么重要?

人的大脑皮层, 有差不多 70% 都是在处理视觉信息。 是人类获取信息最主要的渠道,没有之一。

在网络世界,照片和视频(图像的集合)也正在发生爆炸式的增长!

下图是网络上新增数据的占比趋势图。灰色是结构化数据,蓝色是非结构化数据(大部分都是图像和视频)。可以很明显的发现,图片和视频正在以指数级的速度在增长。

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

而在计算机视觉出现之前,图像对于计算机来说是黑盒的状态。

一张图片对于机器只是一个文件。机器并不知道图片里的内容到底是什么,只知道这张图片是什么尺寸,多少MB,什么格式的。

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

 

如果计算机、人工智能想要在现实世界发挥重要作用,就必须看懂图片!这就是计算机视觉要解决的问题。

什么是计算机视觉 – CV?

计算机视觉是人工智能的一个重要分支,它要解决的问题就是:看懂图像里的内容

比如:

  • 图片里的宠物是猫还是狗?
  • 图片里的人是老张还是老王?
  • 这张照片里,桌子上放了哪些物品?

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

 

计算机视觉的原理是什么?

目前主流的基于深度学习的机器视觉方法,其原理跟人类大脑工作的原理比较相似。

人类的视觉原理如下:从原始信号摄入开始(瞳孔摄入像素 Pixels),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定,眼前的物体的形状,是圆形的),然后进一步抽象(大脑进一步判定该物体是只气球)。

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

机器的方法也是类似:构造多层的神经网络,较低层的识别初级的图像特征,若干底层特征组成更上一层特征,最终通过多个层级的组合,最终在顶层做出分类。

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

 

计算机视觉的2大挑战

对于人类来说看懂图片是一件很简单的事情,但是对于机器来说这是一个非常难的事情,说 2 个典型的难点:

特征难以提取

同一只猫在不同的角度,不同的光线,不同的动作下。像素差异是非常大的。就算是同一张照片,旋转90度后,其像素差异也非常大!

所以图片里的内容相似甚至相同,但是在像素层面,其变化会非常大。这对于特征提取是一大挑战。

需要计算的数据量巨大

手机上随便拍一张照片就是1000*2000像素的。每个像素 RGB 3个参数,一共有1000 X 2000 X 3=6,000,000。随便一张照片就要处理 600万 个参数,再算算现在越来越流行的 4K 视频。就知道这个计算量级有多恐怖了。

CNN  解决了上面的两大难题

CNN 属于深度学习的范畴,它很好的解决了上面所说的2大难点:

  1. CNN 可以有效的提取图像里的特征
  2. CNN 可以将海量的数据(不影响特征提取的前提下)进行有效的降维,大大减少了对算力的要求

计算机视觉的 8 大任务

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

 

图像分类

图像分类是计算机视觉中重要的基础问题。后面提到的其他任务也是以它为基础的。

举几个典型的例子:人脸识别、图片鉴黄、相册根据人物自动分类等。

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

目标检测

目标检测任务的目标是给定一张图像或是一个视频帧,让计算机找出其中所有目标的位置,并给出每个目标的具体类别。

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

语义分割

它将整个图像分成像素组,然后对像素组进行标记和分类。语义分割试图在语义上理解图像中每个像素是什么(人、车、狗、树…)。

如下图,除了识别人、道路、汽车、树木等之外,我们还必须确定每个物体的边界。

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

实例分割

除了语义分割之外,实例分割将不同类型的实例进行分类,比如用 5 种不同颜色来标记 5 辆汽车。我们会看到多个重叠物体和不同背景的复杂景象,我们不仅需要将这些不同的对象进行分类,而且还要确定对象的边界、差异和彼此之间的关系!

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

视频分类

与图像分类不同的是,分类的对象不再是静止的图像,而是一个由多帧图像构成的、包含语音数据、包含运动信息等的视频对象,因此理解视频需要获得更多的上下文信息,不仅要理解每帧图像是什么、包含什么,还需要结合不同帧,知道上下文的关联信息。

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

人体关键点检测

体关键点检测,通过人体关键节点的组合和追踪来识别人的运动和行为,对于描述人体姿态,预测人体行为至关重要。

在 Xbox 中就有利用到这个技术。

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

场景文字识别

很多照片中都有一些文字信息,这对理解图像有重要的作用。

场景文字识别是在图像背景复杂、分辨率低下、字体多样、分布随意等情况下,将图像信息转化为文字序列的过程。

停车场、收费站的车牌识别就是典型的应用场景。

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

目标跟踪

目标跟踪,是指在特定场景跟踪某一个或多个特定感兴趣对象的过程。传统的应用就是视频和真实世界的交互,在检测到初始对象之后进行观察。

无人驾驶里就会用到这个技术。

计算机视觉 – Computer Vision | CV,2023 AI,计算机视觉,人工智能

CV 在日常生活中的应用场景

计算机视觉的应用场景非常广泛,下面列举几个生活中常见的应用场景。

  1. 门禁、支付宝上的人脸识别
  2. 停车场、收费站的车牌识别
  3. 上传图片或视频到网站时的风险识别
  4. 抖音上的各种道具(需要先识别出人脸的位置)

这里需要说明一下,条形码和二维码的扫描不算是计算机视觉。

这种对图像的识别,还是基于固定规则的,并不需要处理复杂的图像,完全用不到 AI 技术。

计算机视觉

是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所 指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提 取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

计算机视觉是一个跨学科的科学领域,涉及如何制作计算机以从数字图像或视频中获得高层次的理解。从工程的角度来看,它寻求自动化人类视觉系统可以完成的任务。

计算机视觉任务包括用于获取,处理,分析和理解数字图像的方法,以及从现实世界中提取高维数据以便例如以决策的形式产生数字或符号信息。

在这种情况下理解意味着将视觉图像(视网膜的输入)转换为可以与其他思维过程交互并引出适当行动的世界描述。这种图像理解可以看作是利用几何学,物理学,统计学和学习理论构建的模型从图像数据中解开符号信息。

作为一门科学学科,计算机视觉关注从图像中提取信息的人工系统背后的理论。图像数据可以采用多种形式,例如视频序列,来自多个相机的视图或来自医学扫描仪的多维数据。作为一门技术学科,计算机视觉试图将其理论和模型应用于计算机视觉系统的构建。 计算机视觉的子域包括场景重建,事件检测,视频跟踪,对象识别,3D姿态估计,学习,索引,运动估计和图像恢复。文章来源地址https://www.toymoban.com/news/detail-677224.html

到了这里,关于计算机视觉 – Computer Vision | CV的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【AI视野·今日CV 计算机视觉论文速览 第262期】Fri, 6 Oct 2023

    AI视野 ·今日CS.CV 计算机视觉论文速览 Fri, 6 Oct 2023 Totally 73 papers 👉 上期速览 ✈更多精彩请移步主页 Improved Baselines with Visual Instruction Tuning Authors Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee 大型多模态模型 LMM 最近在视觉指令调整方面取得了令人鼓舞的进展。在这篇文章中,我们展

    2024年02月07日
    浏览(33)
  • 【计算机视觉】ICCV2023放榜!一起看看CV最新热门研究方向!

    最近吃过晚饭看到新闻的时候,属实有点惊讶: ICCV 2023 近日也开奖了!看了一下,总共收录了2160篇论文,创了历史新高。作为计算机视觉三大顶级会议之一,ICCV 收录的论文自然也都具有非常高的研究价值,建议有需求的同学多关注多关注,说不定下一篇中稿的论文ideal就在

    2024年02月07日
    浏览(38)
  • AI浅谈:计算机视觉(CV)技术的优势和挑战

    目录 一、计算机视觉技术的优势 1.效率和精度提高 2.提高安全性 3.促进自动化 4.促进科学研究 5.促进商业发展 二、计算机视觉技术的挑战 1.环境变化 2.精度问题 3.隐私和安全问题 4.数据质量 5.系统复杂度 1.自动驾驶汽车 2.人脸识别 3.农业领域 4.医学图像分析 5.安防和监控

    2024年01月25日
    浏览(41)
  • 从计算机视觉(Computer Vision)的角度出发,从传统机器学习的特征工程、分类器设计和优化,到深度学习的CNN架构设计、训练优化、模型压缩与推理部署,详细阐述了图像识别领域最新的技术发展方向

    作者:禅与计算机程序设计艺术 在现代信息技术的快速发展过程中,图像识别技术越来越重要。早期的人工智能算法主要侧重于特征提取、分类或回归任务。近几年,随着神经网络(Neural Networks)在图像识别领域的不断突破,很多研究人员将目光投向了深度学习(Deep Learni

    2024年02月10日
    浏览(33)
  • 【计算机视觉】Vision Transformer (ViT)详细解析

    论文地址:An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale code地址:github.com/google-research/vision_transformer Transformer 最早提出是针对NLP领域的,并且在NLP领域引起了强烈的轰动。 提出ViT模型的这篇文章题名为 《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》

    2024年02月04日
    浏览(34)
  • 使用Google Vision API进行计算机视觉图像创意分析

    介绍 计算机视觉可以用来从图像、视频和音频中提取有用的信息。它允许计算机看到并理解从视觉输入中可以收集到什么信息。在接收到视觉输入后,它可以在图像中收集有价值的信息,并确定必须采取的下一步。 Google Vision API是一种Google云服务,它允许使用计算机视觉从图

    2024年02月06日
    浏览(38)
  • 将Apple Vision Pro和visionOS与计算机视觉结合使用

    在2023年6月5日的WWDC大会上,苹果宣布推出多年来最大规模的硬件和软件组合产品。今年的“One more thing”(“还有一件事”)发布是苹果视觉专业版(Apple Vision Pro),这是一款集成了苹果生态系统的新型空间计算头戴式设备。 苹果视觉专业版是一个垂直整合的硬件和软件平

    2024年02月08日
    浏览(32)
  • 计算机视觉(CV)技术的优势

    计算机视觉(CV)技术的优势: 1. 自动化任务:计算机视觉技术可以自动执行一系列视觉任务,如图像分类、目标检测和识别等,从而实现任务的自动化。 2. 高速处理:计算机视觉技术可以在短时间内处理大量的图像和视频数据,实现快速的分析和决策。 3. 准确性:相对于

    2024年01月22日
    浏览(48)
  • 动手学CV-Pytorch计算机视觉 天池计算机视觉入门赛SVHN数据集实战

    这里我们以datawhale和天池合作的天池计算机视觉入门赛为例,通过案例实战来进一步巩固本章所介绍的图像分类知识。 该比赛以SVHN街道字符为赛题数据,数据集报名后可见并可下载,该数据来

    2024年02月04日
    浏览(35)
  • 计算机视觉(CV)技术的优势和挑战

    目录 计算机视觉(CV)技术的优势和挑战 优势: 挑战: 计算机视觉(CV)技术是一种利用计算机和算法来实现对图像和视频的分析、处理和理解的技术。为了应对图像多样性,计算机视觉技术可以采用数据增强、迁移学习、复杂模型、多尺度处理、领域自适应和合成数据等

    2024年02月09日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包