ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

这篇具有很好参考价值的文章主要介绍了ICLR 2023 | 达摩院开源轻量人脸检测DamoFD。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

团队模型、论文、博文、直播合集,点击此处浏览

一、论文

        本文介绍我们被机器学习顶级国际会议ICLR 2023接收的论文 “DamoFD: Digging into Backbone Design on Face Detection"

论文链接:https://openreview.net/pdf?id=NkJOhtNKX91

开源代码(欢迎点赞、收藏、转发三连啊~~~):https://github.com/ly19965/EasyFace/tree/master/face_project/face_detection/DamoFD

二、背景

1. 人脸检测问题定义

        人脸检测算法是在一幅图片或者视频序列中检测出来人脸的位置,给出人脸的具体坐标,一般是矩形坐标,它是人脸关键点、属性、编辑、风格化、识别等模块的基础。学术界用来衡量人脸检测器性能的benchmark是[WiderFace](WIDER FACE: A Face Detection Benchmark),该数据集主要明确了人脸检测器面对的一些挑战,包括scale,pose,occlusion等。本文的研究问题是如何自动搜索轻量级人脸检测器的backbone?

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

图片来自Wider Face 官网

2. 轻量人脸检测器发展

  • Manual 轻量级人脸检测器设计: 早期的轻量级人脸检测器(FaceBoxes & BlazeFace)均采用Single-stage目标检测器的结构(SSD),并替换为自己手工设计的backbone模块(e.g., Faceboxes引入了Crelu,BlazeFace 引入了DW Conv )。这些方法的共同弊端是无法随着算力约束的变化而自动调整人脸检测器结构,限制了其应用场景。
ICLR 2023 | 达摩院开源轻量人脸检测DamoFD
图片来自FaceBoxes 论文
  • Nas-Based 轻量级人脸检测器: 随着Neural Architecture Search(NAS)技术的兴起,研究人员开始利用Nas来自动化设计人脸检测器的结构, e.g., SPNas in BFBox, DARTS in ASFD,RegNet in SCRFD。SCRFD借鉴了RegNet的思想确定了检测器的搜索空间,并打造了sota性能的轻量级人脸检测器。下图为SCRFD得到的在backbone上的最优算力分配区间
ICLR 2023 | 达摩院开源轻量人脸检测DamoFD
图片来自SCRFD论文

三、方法

1. Motivation

        目前的Nas方法主要由两个模块组成,网络生成器和精度预测器。其中网络生成器用于生成候选的backbone结构,精度预测器用来对采样的backbone结构预测精度。由于检测和分类的任务目标不一致,前者更重视backbone stage-level (c2-c5)的表征,而后者更重视high-level(c5)的表征,这就导致了用于分类任务上的精度预测器擅长预测high-level的表征能力而无法预测stage-level的表征能力。因此,在人脸检测任务上,我们需要一个可以预测stage-level表征能力的精度预测器来更好的搜索face detection-friendly backbone。

2. Preliminaries

        首先我们介绍下与我们方法相关的背景知识:

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

3. Method

        针对如何设计可以预测stage-level表征能力的精度预测器,我们从刻画network expressivity的角度出发,创新性地提出了SAR-score来无偏的刻画stage-wise network expressivity,同时基于数据集gt的先验分布,来确定不同stage的重要性,进一步提出了DDSAR-score 来刻画detection backbone的精度。

3.1 Adopt Theorem2 to charaterize stage-level network expressivity

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

3.2 Two issues ocuur

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

3.3 Stage-aware Expressivity Score

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

                      设计准则:

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

3.4 Filter Sensitivity Score

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

3.5 SAR-Score and DDSAR-Score

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

3.6 Serch Space and Evolutionary Architecture Search

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

四、结果

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

五、展望与应用

  • 减少对超参敏感性:我们在实验的过程中发现DDSAR搜索轻量级(500m)的检测结构时对超参不太敏感,很快就会得到不错的结构,但是搜2.5G, 10G和34G Flops下的检测结构时对超参比较敏感,需要对\alpha以及搜索空间进行调整。可能原因是我们的filter sensitity score 为了加速计算过程,只能近似反应对filter size的敏感性,后续可以从其他角度优化下上述的暴力枚举过程。
  • 增强方法在不同检测任务上的普适性: 我们的DDSAR-score是用来刻画检测器表达能力的score,理论上应该在不同检测任务上都应该做的很好。我们目前只考虑了数据集gt的分布,但是不同检测数据集还有数据质量,数据集规模的差异,可以围绕data-centric的思想来对数据集的质量, 数据增强等维度来进一步建立数据集和精度预测器之间的关系,从而实现在不同检测任务上都很有效。
  • 更精准的计算网络linear region的数量: 通过linear region的数量来刻画网络的表达能力在ML领域发表了很多paper,可以尝试下更精准的bound或者exact number fo linear region。

 文章来源地址https://www.toymoban.com/news/detail-413907.html

到了这里,关于ICLR 2023 | 达摩院开源轻量人脸检测DamoFD的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 测试开源C#人脸识别模块ViewFaceCore(6:视频活体检测)

      之前的文章介绍ViewFaceCore模块的FaceAntiSpoofing类支持单帧活体检测(AntiSpoofing函数)及视频活体检测(AntiSpoofingVideo函数),视频活体检测时从摄像头中抓取一帧图片进行检测,当检测结果状态为Detecting时,继续从摄像头中抓取图片,直至检测结果不为Detecting。本文中主要

    2024年01月22日
    浏览(41)
  • 自研算法提升文本图像篡改检测精度,抖音技术团队获 ICDAR2023 分类赛道冠军...

    动手点关注 干货不迷路 近日,抖音 CV 技术团队在 ICDAR 2023 的“Detecting Tampered Text in Images”比赛中,利用自研的“CAS”算法从 1267 个参赛队伍中脱颖而出,获得分类赛道的第一名。 ICDAR(International Conference on Document Analysis and Recognition),是国际文档图像分析和识别领域公认的

    2024年02月15日
    浏览(36)
  • 【达摩院OpenVI】开源CVPR快速实例分割FasInst模型

    论文:https://arxiv.org/abs/2303.08594 模型代码:https://modelscope.cn/models/damo/cv_resnet50_fast-instance-segmentation_coco/summary         实例分割旨在分割图像中所有感兴趣的物体。传统的以mask rcnn [1]为代表的双阶段实例分割方案遵循先检测后分割的理念,尽管简单直观,但那些方法会生成

    2024年02月12日
    浏览(38)
  • 达摩院开源多模态对话大模型mPLUG-Owl

    miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。 论文链接:https://arxiv.org/abs/2304.14178 项目链接:https://github.com/X-PLUG/mPLUG-Owl 在线demo:https://m

    2024年02月04日
    浏览(38)
  • 【达摩院OpenVI】基于流感知的视频目标检测网络LongShortNet

    论文链接:[arxiv] 代码应用: 开源代码:[github code] 开源应用:[modelscope] 传统视频目标检测(Video Object Detection, VOD)任务以一段视频作为输入,利用视频的时序信息进行目标检测,并最终输出每一帧视频帧的检测结果。其相比图像目标检测(Image Object Detection, IOD)任务,优势

    2024年02月04日
    浏览(54)
  • CVPR 2023 | 达摩院REALY头部重建榜单冠军模型HRN解读

              高保真 3D 头部重建在许多场景中都有广泛的应用,例如 AR/VR、医疗、电影制作等。尽管大量的工作已经使用 LightStage 等专业硬件实现了出色的重建效果,从单一或稀疏视角的单目图像估计高精细的面部模型仍然是一个具有挑战性的任务。 本文中,我们将介绍来

    2024年02月05日
    浏览(59)
  • 【ICLR 2023】详细解读DiffEdit:基于扩散模型的图像编辑革命性成果

    Diffusion Models专栏文章汇总:入门与实战 前言: ICLR 2023的第一轮rebuttal已经放榜,这次的ICLR出现了非常多的diffusion models论文,很多工作都非常有创意,值得详细解读。这篇要介绍的是DiffEdit,这个工作取得了所有审稿人的accept肯定,无论是论文还是实验效果都非常优秀,能够

    2024年02月11日
    浏览(96)
  • ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

    ©PaperWeekly 原创 · 作者 |  叶振辉 单位 |  浙江大学博士生 研究方向 |  语音合成、说话人视频合成 语音驱动的说话人视频合成(Audio-driven Talking Face Generation)是虚拟人领域的一个热门话题,它旨在根据一段输入的语音,合成对应的目标人脸说话视频。高质量的说话人视频需

    2024年02月11日
    浏览(54)
  • 《论文阅读》具有特殊Token和轮级注意力的层级对话理解 ICLR 2023

    前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后感到失望? 小白如何从零读懂论文?和我一起来探索吧! 今天为大家带来的是《HIERARCHICAL DIALOGUE UNDERSTANDING WITH SPECIAL TOKENS AND TURN-LEVEL ATTENTION》 出版:ICLR 时间ÿ

    2024年02月15日
    浏览(48)
  • [ICLR 2023] LPT: Long-tailed Prompt Tuning for Image Classification

    作者提出 Long-tailed Prompt Tuning (LPT) ,通过 prompt learning 来解决长尾问题,包括 (1) 使用 shared prompt 学习 general features 并将预训练模型 adapt 到 target domain;(2) 使用 group-specific prompts 学习 group-specific features 来提高模型的 fine-grained discriminative ability 作者首先通过对比 VPT (Visual Prom

    2024年02月11日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包