迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出

这篇具有很好参考价值的文章主要介绍了迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

PAPER CODE
https://arxiv.org/pdf/2311.02782.pdf https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection

迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理

        图1 GPT-4V在多模态多任务异常检测中的综合评估 在这项研究中,我们在多模态异常检测的背景下对GPT-4V进行了全面评估。我们考虑了四种模式:图像、视频、点云和时间序列,并探索了九个具体任务,包括工业图像异常检测/定位、点云异常检测、医学图像异常检测/定位、逻辑异常检测、行人异常检测、交通异常检测和时间序列异常检测。我们的评估包括 15 个数据集。

摘要

        异常检测是跨不同域和数据类型的关键任务。但是,现有的异常检测模型通常是针对特定域和模式设计的。本研究探讨了如何使用强大的视觉语言模型 GPT-4V(ision) 以通用方式处理异常检测任务。我们研究了 GPT-4V 在多模态、多域异常检测任务中的应用,包括图像、视频、点云和时间序列数据,涉及多个应用领域,例如工业、医疗、逻辑、视频、3D 异常检测和定位任务。为了提高 GPT-4V 的性能,我们结合了不同类型的附加提示,例如类信息、人类专业知识和参考图像作为提示。根据我们的实验,GPT-4V 被证明在零/单次异常检测中检测和解释全局和细粒度语义模式方面非常有效。这样可以准确区分正常和异常实例。尽管我们在这项研究中进行了广泛的评估,但仍有未来的评估空间,可以从不同方面进一步挖掘 GPT-4V 的通用异常检测能力。其中包括探索定量指标、扩展评估基准、纳入多轮互动以及纳入人类反馈循环。尽管如此,GPT-4V 在通用异常检测和理解方面表现出可喜的性能,从而为异常检测开辟了一条新途径。所有评估示例(包括图像和文本提示)都将在 GPT4V-for-Generic-Anomaly-Detection https://github.com/caoyunkang/ 提供。

动机和概述

        异常检测技术已广泛应用于不同的领域,如工业检测[29,98]、医疗对角线[107]、视频监控[84]、欺诈检测[30]以及许多其他识别异常情况至关重要的领域。尽管存在许多用于异常检测的技术[14,3,69,41,38,79,110,16,103],但许多现有方法主要依赖于描述正态数据分布的方法。他们经常忽视高层次的感知,主要将其视为低层次的任务。但是,异常检测的实际应用通常需要对数据有更全面、更高级的理解。要实现这种理解,至少需要三个关键步骤:

  1. 了解数据类型和类别: 第一步涉及对数据集中存在的数据类型和类别的透彻理解。数据可以采取多种形式,包括图像、视频、点云、时间序列数据等。每种数据类型都可能需要特定的异常检测方法和注意事项。此外,不同的类别可能对正常状态有不同的定义。
  2. 确定正态的标准:在获得数据类型和类别后,可以进一步推理正态态的标准,这需要对数据有较高的了解。
  3. 评估数据一致性:最后一步是评估提供的数据是否符合既定的正态性标准。任何偏离这些标准的行为都可以归类为异常。

我们的方法

提示 GPT-4V 进行异常检测

  1. 任务信息提示:为了有效提示 GPT-4V 进行异常检测,必须提供清晰的任务信息。本研究将提示表述如下:“请确定图像是否包含异常点或异常点。
  2. 类信息提示:对数据类型和类别的理解至关重要。如果 GPT-4V 可能难以识别数据类,可能会提供显式类信息。例如,“请确定与 {CLS} 相关的图像是否包含异常或缺陷。
  3. 正常标准提示:GPT-4V在回答与确定正常标准相关的问题时可能会遇到困难,有时如果没有人类专业知识,甚至无法检查标准。因此,本研究也明确提供了正常标准。例如,MVTec-LOCO [7] 中早餐盒的正常标准可以表示如下:“1.它应该包含两个橙子、一个桃子和一些谷物、坚果和香蕉片;2.水果应该在饭盒的左边,麦片在右上方,坚果和香蕉片在饭盒的右下方。
  4. 参考图像提示:为确保正常标准和图像之间更好地对齐,在语言提示旁边提供了普通参考图像。例如,“第一张图片是正常的。请确定第二张图像是否包含异常或缺陷。

基于GPT-4V的异常检测评估的局限性

  1. 定性结果的优势:分析主要依赖于定性评估,缺乏定量指标,无法更客观地评估模型在异常检测方面的性能。纳入量化措施将为评估提供更有力的基础。
  2. 评估案例的范围:评估仅限于有限的案例或场景范围。这种狭隘的焦点可能无法完全捕捉到实际异常检测任务中遇到的各种挑战。扩大评估案例的范围将更全面地了解模型的功能。
  3. 单次互动评估:该研究主要集中在单轮对话上。相比之下,正如GPT-4V的上下文学习能力所观察到的那样[101],多轮对话可以激发更深层次的互动。单轮对话方法限制了交互的深度,并可能限制模型的理解力及其在响应异常检测任务方面的有效性。探索多轮交互可以揭示模型性能的更细致入微的观点。

实验

        本研究进行了广泛的评估,以评估 GPT-4V 在异常检测方面的能力,如图 1 所示。从模态的角度来看,我们评估了图像(第 3、4、6、7、8 节)、点云(第 5 节)、视频(第 9、10 节)和时间序列(第 11 节)。从领域的角度,对工业检查(第3、4、6、5节)、医疗诊断(第7、8节)和视频监控(第9、10节)进行评估。据我们所知,这是第一项调查如此广泛的异常检测模式和领域的研究。

工业图像异常检测

  • 不同的提示 [ 101, 56 ] 可能会导致 GPT-4V 的不同响应。我们旨在研究不同信息对提示 GPT-4V 进行工业异常检测的影响。在前面讨论的问题之后,本研究进一步发展了三个提示,a)类别信息:所需检测产品的名称,如“瓶子”和“蜡烛”,b)人类专业知识:正常外观和潜在的异常状态,并用语言表达它们,例如,“通常,给出的图像应该显示干净且结构良好的印刷电路板(PCB),并带有清晰的痕迹, 焊接组件和不同的标签。它可能存在引脚弯曲、冷焊点、元件缺失或标签污迹等缺陷“, c) 参考图像:正常参考图像,以使 GPT-4V 更好地了解正态性。我们建议在零样本设置(仅带有语言提示)或单样本设置(与语言提示一起提供一张参考图像)中评估 GPT-4V。对于每个设置,我们测试了三种不同的变体:a) 幼稚的提示,例如“请确定图像是否包含异常或缺陷”,b) 带有类信息,以及 c) 具有人类专业知识。

  • 突出显示给定的类信息以及正常和异常状态描述。绿色、红色和蓝色突出显示 GPT-4V 输出的正确、不正确和附加信息。

迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理
迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理

迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理
迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理

工业图像异常定位

迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理

点云异常检测

迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理

逻辑异常检测

迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理

医学图像异常检测

迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理

行人异常检测

迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理

流量异常检测

迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理

时间序列异常检测

迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出,深度学习,语言模型,人工智能,自然语言处理文章来源地址https://www.toymoban.com/news/detail-768061.html

到了这里,关于迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人脸识别场景下Faiss大规模向量检测性能测试评估分析

    在前面的两篇博文中,主要是考虑基于之前以往的人脸识别项目经历结合最近使用到的faiss来构建更加高效的检索系统,感兴趣的话可以自行移步阅读即可: 《基于facenet+faiss开发构建人脸识别系统》 《基于arcFace+faiss开发构建人脸识别系统》 在前面两篇博文中整体的计算流程

    2024年02月13日
    浏览(51)
  • 【二等奖方案】大规模金融图数据中异常风险行为模式挖掘赛题「Aries」解题思路

    第十届CCF大数据与计算智能大赛(2022 CCF BDCI)已圆满结束, 大赛官方竞赛平台DataFountain (简称DF平台)正在陆续释出各赛题获奖队伍的方案思路,欢迎广大数据科学家交流讨论。 本方案为 【大规模金融图数据中异常风险行为模式挖掘】 赛题的 二等奖 获奖方案,赛题地址:

    2024年02月10日
    浏览(42)
  • 【一等奖方案】大规模金融图数据中异常风险行为模式挖掘赛题「NUFE」解题思路

    第十届CCF大数据与计算智能大赛(2022 CCF BDCI)已圆满结束, 大赛官方竞赛平台DataFountain (简称DF平台)正在陆续释出各赛题获奖队伍的方案思路,欢迎广大数据科学家交流讨论。 本方案为 【大规模金融图数据中异常风险行为模式挖掘】 赛题的 一等奖 获奖方案,赛题地址:

    2024年02月10日
    浏览(47)
  • 【天衍系列 01】深入理解Flink的 FileSource 组件:实现大规模数据文件处理

    Apache Flink 是一个流式处理框架,被广泛应用于大数据领域的实时数据处理和分析任务中。在 Flink 中,FileSource 是一个重要的组件,用于从文件系统中读取数据并将其转换为 Flink 的数据流。本文将深入探讨 FileSource 的工作原理、用法以及与其他数据源的比较。 FileSource 是 Fli

    2024年02月21日
    浏览(53)
  • 【音频分类与检测】PANNs:用于音频模式识别的大规模预训练音频神经网络

    音频模式识别是机器学习领域的一个重要研究课题,它包括 音频标注、声音场景分类、音乐分类、语音情感分类和声音事件检测 等任务。近年来,神经网络已被应用于解决音频模式识别问题。然而,以前的系统是建立在特定数据集上的,数据集时长有限。 最近,在计算机视

    2024年02月02日
    浏览(44)
  • 阿里云通义千问开源第二波!大规模视觉语言模型Qwen-VL上线魔搭社区

    通义千问开源第二波!8月25日消息,阿里云推出大规模视觉语言模型Qwen-VL,一步到位、直接开源。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规

    2024年02月11日
    浏览(45)
  • 无人机支持的空中无蜂窝大规模MIMO系统中上行链路分布式检测

    在无人机(UAV)支持的空中蜂窝自由大规模多输入多输出(mMIMO)系统中,上行链路分布式检测涉及以下几个关键概念和步骤: “无蜂窝”意味着系统不是围绕传统的蜂窝结构组织的,而是通过分散的多个基站协作提供覆盖和容量,而不是单个固定的基站。 “上行链路”(

    2024年02月22日
    浏览(50)
  • BFT最前线丨浙江大学和蚂蚁集团合作,成立智能视觉实验室;ChatGPT 对亚洲节点大规模封号;谷歌CEO称将推出Bard升级版

    文 | BFT机器人 浙江大学和蚂蚁集团合作,成立智能视觉实验室 据消息,浙江大学和蚂蚁集团达成合作成立「智能视觉联合实验室」,旨在推进智能视觉的技术创新和产业应用,重点攻坚包括机器视觉、三维重建、视觉内容生成等人工智能及计算机视觉在内的核心智能视觉技

    2024年02月09日
    浏览(56)
  • 大规模语言模型--LLaMA 家族

    LLaMA 模型集合由 Meta AI 于 2023 年 2 月推出, 包括四种尺寸(7B 、13B 、30B 和 65B)。由于 LLaMA 的 开放性和有效性, 自从 LLaMA 一经发布, 就受到了研究界和工业界的广泛关注。LLaMA 模型在开放基准的各 种方面都取得了非常出色的表现, 已成为迄今为止最流行的开放语言模型。大

    2024年04月25日
    浏览(43)
  • LLaMA(大规模机器学习和分析)

    LLaMA(大规模机器学习和分析)是一个先进的软件平台,是Meta 推出 AI 语言模型 LLaMA,一个有着 上百亿数量级参数的大语言模型用于大规模部署和管理机器学习模型。借助LLaMA,组织可以高效地在大型数据集上训练和部署模型,缩短投放市场的时间,并提高预测模型的准确性。

    2024年02月11日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包