Facebook AI团队的DETR模型代码复现

这篇具有很好参考价值的文章主要介绍了Facebook AI团队的DETR模型代码复现。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

DETR复现: 复现了 Facebook AI 团队在2020年发表的论文《 End to End Object Detection with Transformers》,简称DETR模型,官方源码只提供训练评估源码,在此基础上我加入了预测代码,现完整代码已跑通,开源使用,仅供学习。

上面是所有的代码,大家可自取。

1.首先下载好官方的源码,加上我上面链接 Gitte 里的几个.py 文件, 在pycharm里打开。

 2.配置自己的环境,包括 cuda,包等等,具体见文件 requirement,需要注意有两个 加载 Coco 数据集的包一般不好装,我将包放在了 Gitte 上面的链接里面,终端里面运行 setup.py 就可以

3.下载coco数据集,下载完成之后可以下载 subset.py 生成自己下采样 coco数据集用于训练(原数据集太大,推荐 1% 采样),或者用labelme制作自己的数据集。

4.修改权重,先在官方 github 下载 resnet50 模型,然后下载我 Gitte 里 weight.py,只需修改两个参数 一个 resnet50 的.pth 文件,一个自己数据集类别数,若是下采样则就写 92。然后生成自己的权重文件.pth

 5.开始训练,Facebook AI 团队训练了 300 个 epoch,这里推荐修改 为 100,修改自己数据集位置 train2017 和 val2017 以及标注文件的路径,修改自己权重文件路径,开始训练, 训练完成之后会在output生成自己的训练模型 check 什么文件,记住他的路径。

 5.将predict.py文件放入主文件里,调整自己下采样的coco数据集路径,训练模型路径,预测图像路径,保存图像路径,我写的预测文件可批处理图像。

这个是我手机上编辑的,所以没放图片,代码里面需要修改的地方我都加了注释,参考文章里面也都有,大差不差,下面有我训练完成的录屏,大家有问题可以评论区讨论以及私信,看见就会回复。

 

参考文章:

DETR训练自己的数据集-CSDN博客

【DETR】训练自己的数据集-实践笔记_detr训练量_暮已深的博客-CSDN博客

windows10复现DEtection TRansformers(DETR)并实现自己的数据集_detr复现-CSDN博客

DERT 模型复现视频文章来源地址https://www.toymoban.com/news/detail-776550.html

到了这里,关于Facebook AI团队的DETR模型代码复现的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI绘画能力的起源:从VAE、扩散模型DDPM、DETR到ViT/MAE/Swin transformer

    2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN 2015 Fast R-CNN、Faster R-CNN 2016 YOLO、SSD 2017 Mask R-CNN、YOLOv2 2018 YOLOv3 随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End

    2024年02月08日
    浏览(48)
  • AI绘画与CV多模态能力的起源:从VAE、扩散模型DDPM、DETR到ViT/MAE/Swin transformer

    2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN 2015 Fast R-CNN、Faster R-CNN 2016 YOLO、SSD 2017 Mask R-CNN、YOLOv2 2018 YOLOv3 随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End

    2024年02月11日
    浏览(41)
  • 目标检测——detr源码复现【 End-to-End Object Detection with Transformers】

    detr源码地址 detr论文地址 自定义coco数据集 在github上面下载 链接:https://pan.baidu.com/s/1fmOYAOZ4yYx_rYquOS6Ycw 提取码:74l5 生成自己所需要的权重文件 main.py 相应位置根据下图更改 model 目录下面的 detr.py 文件相应位置更改类别 num_classes detr的测试对于小物体的检测不是很好,相比来

    2024年02月16日
    浏览(47)
  • 从代码角度理解DETR

    一个cnn的backbone, 提图像的feature, 比如, H W C. 同时对这个feature做position_embedding. 然后二者相加 (在Transformer里面就是二者相加) 输入encoder, 输入decoder (这里有object queries.) 然后接Prediction Heads, 比如分类和回归. 下面的代码参考自: https://github.com/facebookresearch/detr commit-id: 3af9fa8 可以看

    2024年02月06日
    浏览(36)
  • 一文带你读懂DETR模型

    论文地址: End-to-End Object Detection with Transformers  Detr是Facebook提出来的一种目标检测结构,使用了一种基于transformer的全新网络结构,在没有使用以往的诸如yolo之类的算法的情况下就能取得相当不错的表现,再次印证了transformer的优越性能。 目录 Introduction Set Prediction DETR arch

    2024年02月05日
    浏览(52)
  • 利用DETR模型实现Gaze Tracking

    近年来,计算机视觉领域取得了许多令人瞩目的突破,其中一个重要的研究方向是注视追踪(Gaze Tracking)。注视追踪是指监测和预测人眼的注视点位置,能够为人机交互、认知研究和智能驾驶等领域提供有价值的信息。在本文中,我们将探讨如何利用DETR(Detection Transformer)

    2024年02月12日
    浏览(38)
  • DETR3D代码阅读

    本文主要是自己在阅读DETR3D的源码时的一个记录,如有错误或者问题,欢迎指正 在projectsmmdet3d_pluginmodelsdetectorsdetr3d.py的forward_train()中,首先通过res50和FPN来进行图片特征的提取 提取到的img_feats为 [num_level,bs,6,c,h,w] 然后调用self.forward_pts_train,进入到self.forward_pts_train中,首

    2024年02月07日
    浏览(38)
  • DETR代码学习(五)之匈牙利匹配

    匈牙利匹配先前在损失函数那块已经介绍过,但讲述了并不清晰,而且准确来说,匈牙利匹配所用的cost值与损失函数并没有关系,因此今天我们来看一下匈牙利匹配这块的代码与其原理。 前面已经说过,DETR将目标检测看作集合预测问题,在最后的预测值与真实值匹配过程,

    2024年02月09日
    浏览(42)
  • 【vision transformer】DETR原理及代码详解(一)

      论文: https://arxiv.org/pdf/2005.12872.pdf 代码: https://github.com/facebookresearch/detr (pytorch) https://github.com/BR-IDL/PaddleViT/tree/develop/object_detection/DETR(PaddlePaddle) DETR 是vision transformer 中目标检测的开山之作,是 Facebook 团队于 2020 年提出的基于 Transformer 的端到端目标检测,克服了传

    2024年02月08日
    浏览(45)
  • 计算模型的GFLOPs和参数量 & 举例VGG16和DETR

    近期忙于写论文,分享一下论文中表格数据的计算方法。 目录 一、FLOPS、FLOPs和GFLOPs的概念 二、计算VGG16的GFLOPs和参数量 三、计算DETR的GFLOPs和参数量 四、整理数据表格 FLOPS: 注意S是大写,是  “每秒所执行的浮点运算次数” (floating-point operations per second)的缩写。它常被

    2023年04月09日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包