【论文笔记】基于深度学习的视觉检测及抓取方法

这篇具有很好参考价值的文章主要介绍了【论文笔记】基于深度学习的视觉检测及抓取方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

摘要

工作 内容 效果
提升复杂环境中目标检测的效果 采用通道注意力机制对 YOLO-V3 进行改进,增强网络对图像特征提取的能力 平均识别率较改进前增加 0.32%
针对目前姿态估计角度存在离散性的问题 提出一种基于 VGG-16 主干网络嵌入最小面积外接矩形(MABR)算法,进行抓取位姿估计和角度优化 改进后的抓取角度与目标实际角度平均误差小于 2.47°
搭建了一套视觉抓取系统 利用 UR5 机械臂、气动两指机械手、Realsense D435 相机及 ATI-Mini45 六维力传感器等设备 对不同物体进行抓取分类操作、对硬件的要求较低、并且将有害扭矩降低约 75%

关键词

  1. 深度学习;
  2. 神经网络;
  3. 目标检测;
  4. 姿态估计;
  5. 机器人抓取;
学者 工作
Mallick 等 通过深层卷积网络语义分割法实现物体的检测和定位,利用机械臂完成物体的分拣工作。
白成超 通过改进的 YOLO(You Only Look Once)算法实现目标检测,实现机械臂的抓取动作。
黄怡蒙 对 Tiny-YOLOV3 目标检测的结果进行三角函数转换,并控制机械臂完成物体抓取。

缺点:没有获取物体有效抓取点的位姿,抓取具有一定的局限性

学者 工作
Jiang 通过两步走模型框架,使用支持向量机排序算法预测物体的抓取点和角度
Chu 通过 ResNet-50 主干网络结合抓取建议框图实现物体抓取位姿预测。
夏浩宇 基于 Keypoit RCNN 改进模型的抓取检测算法,实现对管纱的有效抓取
提高了抓取成功率,但是存在预测抓取角度离散的问题,导致机械手容易与物体产生偏角,在抓取过程中容易改变物体当前状态甚至造成物体损坏,具有一定的干扰性

缺点:提高了抓取成功率,但是存在预测抓取角度离散的问题,导致机械手容易与物体产生偏角,在抓取过程中容易改变物体当前状态甚至造成物体损坏,具有一定的干扰性
【论文笔记】基于深度学习的视觉检测及抓取方法

  1. 准备阶段,首先利用张正友标定法获取相机的内部参数,接着通过探针法设置两指机械手末端中心,然后通过手眼标定获取机械臂和相机的坐标转换关系矩阵;
  2. 图像处理阶段,计算机首先对目标图像进行预处理,接着将处理后的数据传入到两个通道中:通道一采用通道注意力模块改进的 YOLO-V3 对物体进行目标检测;通道二采用 VGG-16 主干网络和最小面积外接矩形MABR算法对物体的抓取位姿进行预测和抓取角度连续化矫正
  3. 控制阶段,PC 端与控制柜建立通信,并发送抓取点坐标和机械手偏转角度信息,进行抓取分类动作;

1 目标检测

自 2014 年 Girshick 等提出基于区域的卷积神经网络(Region proposals Convolutional Neural Networks, R-CNN)以来,该方向的目标检测算法不断地被改进,出现了以Fast R-CNNFaster R-CNN为代表的先通过区域推荐再进行目标分类的两步走目标检测算法、以及以YOLO为代表的采用一个网络直接进行预测输出的目标检测算法等。

1.1 YOLO-V3 模型

YOLO 模型:

  1. 结合了候选区域调整网络预测结果优化两个步骤
  2. 端到端的网络结构特性
  3. 具有输入一张图像直接输出预测结果的功能
  4. 最大特点是整个网络的运行速度很快

YOLO-V3 模型:

  1. 多尺度预测模块,对象分类器由以前 softmax 函数改为 logistic 函数
  2. 借鉴特征金字塔网络(Feature Pyramid Network, FPN)的思想来对小、中、大物体预测
  3. Draknet-53 使用残差网络对图像特征进行更深层地提取

【论文笔记】基于深度学习的视觉检测及抓取方法

1.2 算法优化

通过对 YOLO-V3 检测模型加入通道注意力机制模块来增强网络提取特征
的效果,改善相机拍摄目标多尺度图像场景复杂情况下的目标检测识别度和准确率,通道注意力机制模块如图。
【论文笔记】基于深度学习的视觉检测及抓取方法
利用权重矩阵对原网络结构中提取的目标特征进行重构,对有利特征信息进行加分无关特征进行减分处理,从而提升目标检测的效果。

2 抓取位姿估计

2.1 五维抓取框

种类 特点
3DOF 目标抓取点的平面坐标 ( x , y ) (x, y) (x,y)和偏转角度 θ θ θ
6DOF 目标抓取点的空间坐标 ( x , y , z ) (x, y, z) (x,y,z)和旋转向量 ( r x , r y , r z ) (rx, ry, rz) (rx,ry,rz)组成
区别 多以工作台上的物体抓取为主,与空间位姿相比,平面的位姿估计方法更加高效、实用

2.2 抓取位姿估计模型

目前基于深度学习的抓取位姿估计算法,本质是对 RGB 或 RGD 图像进行回归预测和分类预测。
【论文笔记】基于深度学习的视觉检测及抓取方法

  1. 对单个目标进行位姿估计的单层网络
  2. 使用 VGG-16 网络替换 ResNet-50 进行特征提取
    相比于由 49 个卷积层和 1 个全连接层组成 ResNet-50 网络,VGG-16 由 13 个卷积层和 3 个全连接层组成,网络结构深度不足 ResNet-50 的 1/3
  3. 单层的 VGG-16 网络结构满足对单个不同目标的准确预测且估计速度得到提升

网络总损失函数 L g c r L_{gcr} Lgcr抓取角度分类预测损失四维边框预测损失组成
L g c r ( { ( p l , β l ) } c = 0 C ) = ∑ c L g c r − c l s ( p t ) + λ ∑ c l c ≠ 0 L g c r − r e g ( β c , β c ∗ ) L_{gcr}(\{ (p_{l},\beta_{l}) \}^{C}_{c=0})=\sum\limits_{c}L_{gcr-cls(p_{t})}+\lambda\sum\limits_{c}l_{c \neq 0}L_{gcr-reg(\beta_{c},\beta_{c}^{\ast})} Lgcr({(pl,βl)}c=0C)=cLgcrcls(pt)+λclc=0Lgcrreg(βc,βc)

参数 意义
C C C R R R+1,取值19
p l p_{l} pl 经过 Softmax 归一化指数函数层输出第 l l l 个角度的分类概率
β l / β c , β ∗ β_{l}/β_{c},β_{\ast} βl/βc,β 预测的抓取框和真实的抓取框
L_{gcr-cls} 抓取角度分类的交叉熵损失
L_{gcr-reg} 边界框预测的回归损失

2.3 角度优化

机械手与物体存在较大角度偏差
对工作台上容易移动的物体抓取影响较小,因为物体滑动会消除角度误差;
对工作台上通过夹具固定而不易移动物体的抓取影响较大,角度偏差会导致机械手在抓取物体过程中产生一个有害扭矩,导致抓取失败,也容易改变物体当前状态造成再装配困难;

位姿估计中还引入 MABR 算法。

  1. 对图像进行阈值分割;然后,进行腐蚀、膨胀、开运算和闭运算等操作对二值图像进
    行去干扰处理;最后,利用最小面积外接矩形包围物体,输出矩形四个顶点坐标。
  2. 求出矩形任意相邻两条边的长度 a a a b b b
  3. 对边长 a a a b b b 值进行大小判断,确定矩形框的长 h h h 和宽 w w w
  4. 根据公式求出角度
    α = a r c t a n ∣ y 3 − y 0 x 3 − x 0 ∣ × 180 ° π β = a r c t a n ∣ y 3 − y 0 x 3 − x 0 ∣ × 180 ° π + 90 ° \alpha = \mathbf{arctan}|\frac{y_{3}-y_{0}}{x_{3}-x_{0}}|\times\frac{180\degree}{\pi} \\ \beta = \mathbf{arctan}|\frac{y_{3}-y_{0}}{x_{3}-x_{0}}|\times\frac{180\degree}{\pi}+90\degree α=arctanx3x0y3y0×π180°β=arctanx3x0y3y0×π180°+90°

3 实验结果与分析

系统采用 linux 下基于 Visual Studio Code 编译软件进行开发,确保系统和编译环境的统一性,便于图像处理与机械臂运动控制间的数据传输。

3.1 目标检测

由于主干特征提取网络具有特征通用性,因此也采用冻结训练方法二次加快模型训练的速度。

解冻前 解冻后
学习率 l r lr lr 0.001 0.0001
批量大小 b a r t c h _ s i z e bartch\_size bartch_size 8 4
初始迭代 I n i t _ e p o c h Init\_epoch Init_epoch 0 50
冻结/解冻迭代 F r e e z e / U n f r e e z e e p o c h Freeze/Unfreeze_epoch Freeze/Unfreezeepoch 50 100
  1. 相比于改进前,加入注意力机制模型的检测网络平均识别准确率 m A P mAP mAP由 92.33%增加到 92.65%,提升 0.32%。
  2. 在网络置信度不变的情况下,降低模型在杂乱环境下了漏检的可能,检测效果更加突出,证明了改进模型的实际意义。

3.2 抓取位姿估计

抓取位姿估计采用 cornell 数据集制作模型训练所需的数据样本

从对比结果能够得出,对于单个物体的抓取位姿估计,双层结构更深层 ResNet-50 网络在估计准确率上并没有突出的表现,反而单层结构 VGG-16 的方法在运行时间上有明显的优势。

相比于改进前,改进后位姿估计的抓取角度连续化,更加趋于物体的偏转角度。
通过实验测量,计算出改进后的预测抓取角度与目标的实际偏转角度平均误差小于2.47°。

3.3 机械臂抓取实验

抓取对象通过胶水固定在亚克力板上,硅胶起传导作用力和避免较大扭矩损坏设备的作用。

抓取系统的坐标转换流程如下。

  1. 相机首先获取图像的二维像素坐标,通过相机的深度信息内参数据将图像像素坐标转换到基于相机坐标系下三维坐标;
  2. 利用手眼标定的关系矩阵,将相机坐标系下的坐标转换成机械臂基座坐标系下的三维坐标,最终实现了抓取目标到机械臂基座坐标系下的坐标转换。

【论文笔记】基于深度学习的视觉检测及抓取方法
【论文笔记】基于深度学习的视觉检测及抓取方法文章来源地址https://www.toymoban.com/news/detail-419954.html

  1. 设置 UR5 机械臂抓取拍照等待位姿,坐标为 ( x 0 , y 0 , z 0 ) (x_{0}, y_{0}, z_{0}) (x0,y0,z0),两指机械手偏转角度为 0°;
  2. 相机获取目标图像,计算机处理数据,输出目标抓取点的坐标 ( x , y , z ) (x, y, z) (x,y,z)和偏转角度 θ θ θ 信息;
  3. 控制两指机械手偏转 θ 角度,机械臂由等待位 ( x 0 , y 0 , z 0 ) (x_{0}, y_{0}, z_{0}) (x0,y0,z0)移到抓取位 ( x , y , z ) (x, y, z) (x,y,z),准备抓取;
  4. 气动控制两指机械手闭合,完成物体抓取,然后机械臂根据目标检测结果进行相应分类
    放置;
  5. 完成放置操作后,机械臂回到初始拍照等待位置;
  6. 如果继续抓取,则返回步骤 1;否则,抓取任务结束。

4 结论

到了这里,关于【论文笔记】基于深度学习的视觉检测及抓取方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • k210-arduino深度学习视觉机械臂抓取

    一、arduino对机械臂的基础控制        1、首先实现arduino对机械臂的控制(点动和自动),六个轴分别定义为xyzjkl。 点动:点动方式为按一下对应按键使对应轴正转或反转3度,此方式能够使机械臂快速移动到目标位置,到达目标位置可以在串口输入“o”返回当前各轴角度

    2023年04月27日
    浏览(27)
  • 基于计算机视觉的坑洼道路检测和识别-MathorCup A(深度学习版本)

    赛道 A:基于计算机视觉的坑洼道路检测和识别 使用深度学习模型,pytorch版本进行图像训练和预测,使用ResNet50模型 因为给定的是所有图片都在一个文件夹里面,所以需要先进行处理,核心代码: 移动后的图片所在文件夹显示 每个文件夹里面包含属于这一类的图片 输入层

    2024年02月07日
    浏览(33)
  • 基于深度学习的计算机视觉:应用于智能检测和识别的新技术

    作者:禅与计算机程序设计艺术 目前,深度学习技术在图像处理、目标检测、对象识别等领域已经取得了显著的进步。随着大数据的产生、深度神经网络的不断提升,计算机视觉领域也成为自然界图像理解的一项热门研究方向。近年来,基于深度学习的卷积神经网络(CNN)在

    2024年02月06日
    浏览(39)
  • 【论文阅读】基于深度学习的时序异常检测——Anomaly Transformer

    系列文章链接 数据解读参考:数据基础:多维时序数据集简介 论文一:2022 Anomaly Transformer:异常分数预测 论文二:2022 TransAD:异常分数预测 论文三:2023 TimesNet:基于卷积的多任务模型 论文链接:Anomaly Transformer.pdf 代码链接:https://github.com/thuml/Anomaly-Transformer 视频讲解(原

    2024年02月14日
    浏览(26)
  • 【计算机视觉面经四】基于深度学习的目标检测算法面试必备(RCNN~YOLOv5)

    目标检测算法主要包括:【两阶段】目标检测算法、【多阶段】目标检测算法、【单阶段】目标检测算法。 什么是两阶段目标检测算法,与单阶段目标检测有什么区别? 两阶段目标检测算法因需要进行两阶段的处理:1)候选区域的获取,2)候选区域分类和回归,也称为基于

    2024年03月27日
    浏览(42)
  • 毕业设计:基于深度学习的绝缘子缺陷检测系统 人工智能 YOLO 计算机视觉

    目录 前言 一、课题背景与意义 二、设计思路 2.1.多尺度特征融合 2.2 绝缘子缺陷检测 三、模型训练 3.1 实验环境 3.2 结果分析 最后 前言  📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各

    2024年01月18日
    浏览(42)
  • 论文笔记:基于并行注意力 UNet的裂缝检测方法

    论文:基于并行注意力 UNet的裂缝检测方法(Parallel Attention Based UNet for Crack Detection); 发表:2021年发表在《计算机研究与发展》上。 问题:裂缝图像中存在噪声、光线、阴影等因素干扰; 解决方法:比较流行的解决方案是嵌入注意力机制以抑制各种干扰; 缺点:现有的注

    2023年04月23日
    浏览(29)
  • 毕业设计:基于深度学习的危险驾驶(抽烟、打电话)检测系统 人工智能 python 计算机视觉

    目录 前言 一、课题背景与意义 二、算法理论技术 2.1 双路金字塔网络 2.2 算法实现 三、模型训练 3.1 实验环境 3.2 结果分析 最后  📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要

    2024年04月09日
    浏览(57)
  • 毕设项目分享 基于机器视觉opencv的手势检测 手势识别 算法 - 深度学习 卷积神经网络 opencv python

    今天学长向大家介绍一个机器视觉项目 基于机器视觉opencv的手势检测 手势识别 算法 普通机器视觉手势检测的基本流程如下: 其中轮廓的提取,多边形拟合曲线的求法,凸包集和凹陷集的求法都是采用opencv中自带的函数。手势数字的识别是利用凸包点以及凹陷点和手部中心

    2024年02月03日
    浏览(52)
  • 使用OpenCV工具包成功实现人脸检测与人脸识别,包括传统视觉和深度学习方法(附完整代码,模型下载......)

    要实现人脸识别功能,首先要进行人脸检测,判断出图片中人脸的位置,才能进行下一步的操作。 参考链接: 1、OpenCV人脸检测 2、【OpenCV-Python】32.OpenCV的人脸检测和识别——人脸检测 3、【youcans 的图像处理学习课】23. 人脸检测:Haar 级联检测器 4、OpenCV实战5:LBP级联分类器

    2024年02月08日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包