数据标注赋能机器学习进行内容审核

这篇具有很好参考价值的文章主要介绍了数据标注赋能机器学习进行内容审核。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据标注一直以来都是人工智能的基础,是机器学习得以训练的不可或缺的步骤。随着互联网的兴起,如何创建和维护一个健康的网络环境将成为互联网平台不断解决的问题,但对于与日俱增的用户增长和铺天盖地的网络信息,人工审核内容变得不切实际,企业纷纷转向机器学习的研发以便高效进行内容审核。

数据标注赋能机器学习进行内容审核,训练数据,人工智能与机器学习,NLP自然语言处理,机器学习,人工智能,训练数据

机器学习如何优化内容审核

互联网用户已经超过 45 亿,这个数字还在成指数增长。这些用户每天产生数十亿张图像、视频、消息、帖子和其他内容类型。必须以某种方式对这些内容进行把控,因为大多数互联网用户都希望在访问自己喜欢的社交媒体平台或在线零售商时获得安全、积极的体验。内容审核是针对这一目的的解决方案:它会删除所有隐私、粗话或毁谤、伪造、欺诈、有害或对企业不友好的数据。 传统意义上,各公司依靠人工来完成必要的内容审核,但随着使用量和内容的增长,这种方法不再经济有效。许多企业改为投资机器学习 策略,以创建可自动审核内容的算法。 借助人工智能进行内容审核,在线企业可以更快地扩展规模,并以对用户而言更为一致的方式优化内容审核。这并不能消除对人工审核员(人机协同)的需求,人工审核员仍能提供真实监控,在确保准确性的同时处理更多前后相关的更细微内容问题。但这的确减少了审核员需审阅的内容量,这是积极的一面:过多接触有害内容会对心理健康产生不利影响。将这项艰巨的任务交由机器完成,对公司、员工和用户都有好处。

内容审核在现实世界中的应用

各公司将基于机器学习的内容审核用于各种数字媒体的使用场景,从视频游戏到聊天机器人和聊天室。但是,常见的两大应用是社交媒体和在线零售。

社交媒体

社交媒体存在内容问题。仅 Facebook 就有超过 20 亿用户,他们平均每天观看 1 亿小时的视频并上传 3.5 亿张照片。要手动检查如此庞大的流量产生的内容量,需要雇佣足够多的人员,不但成本高昂,而且很耗时。AI 可以自动检查文本、用户名、图像和视频中是否包含仇恨言论、网络霸凌、隐私或有害内容、虚假新闻和垃圾邮件。然后,算法可以删除不符合公司条款和条件的内容或用户。

在线零售

内容审核不仅限于社交平台。在线零售商也会使用内容审核工具只向消费者显示高质量、对企业友好的内容。例如,酒店预订网站可以利用 AI 扫描所有酒店房间图像,并删除任何违反网站规则的图像(例如照片中不能出现任何人)。零售商还利用多种机器学习技术的组合来定制业务需求。

内容审核如何运作?

基于机器学习的审阅系统的内容队列和上报规则因公司而异,但通常会在第一步、第二步或两者中包括 AI 审核:

  1. 预审。AI 对用户内容进行审核后再发布。然后,将归类为无害的内容设置为对用户可见。被视为很可能有害或对企业不友好的内容会被删除。如果 AI 模型对其预测缺乏信心,则会标记该内容以进行人工审阅。
  2. 审核后。用户报告不良内容,然后由 AI 或人工进行审阅。如果由 AI 进行审阅,它将遵循第一步中所述工作流程,并自动删除任何被视为不良的内容。

根据媒体类型的不同,AI 将使用各种机器学习技术进行内容预测。

文本

应对不同场景进行文本数据标注,标记后的数据将应用于训练机器模型以便识别不同类型的文本内容。

  • 自然语言处理 (NLP):为了理解人类语言,计算机要依赖 NLP。它们可能会使用关键字过滤等技术识别不恰当的语言以进行删除。
  • 情感分析:互联网上的上下文很重要,情感分析可以帮助计算机识别讽刺或愤怒等语气。
  • 知识库:依靠已知信息数据库,计算机可以预测哪些文章可能是假新闻或识别常见骗局。

图像和视频

应对不同场景进行图像视频数据标注,标记后的数据将应用于训练机器模型以便识别不同类型的图像和视频内容。

  • 物体检测:图像分析可以识别图像和视频中不符合平台标准的目标对象,例如裸体。
  • 场景理解:计算机将学习理解场景中所发生情况的背景,从而推动更准确的决策。

所有数据类型

无论数据类型如何,各公司都可以使用用户信誉技术识别哪些内容可以信任。计算机会将曾经发布过垃圾邮件或露骨内容的用户归类为“不可信”,并对他们将来发布的任何内容进行更严格的审查。信誉技术还可以打击虚假新闻:计算机更有可能将来自不可靠新闻来源的内容标记为虚假内容。 幸运的是,内容审核不断产生新的训练数据。如果计算机将内容发送给人工审阅员,审阅员会将内容标记为有害或无害,然后将标注数据反馈给算法以提高将来的准确性。

克服内容审核的挑战

内容审核为 AI 模型带来了许多挑战。庞大的内容量需要在不牺牲准确性的前提下创建快速模型。开发准确模型的难点在于数据。数字平台内容的公共数据集数量有限,因为大多数数据是收集该数据的公司的保留财产。 还有语言问题。互联网是全球性的,这意味着内容审核 AI 必须识别数种不同的语言,以及使用这些语言的各种文化的社会背景。语言会随时间变化,因此定期使用新数据更新模型至关重要。 定义之间也存在不一致之处。网络霸凌是什么意思?裸体雕像应该被视为艺术还是露骨?在平台内保持这些定义的一致性很重要,这样才能使用户对审核流程保持信任。用户富有创造力,不断改进方法来发现审核中的漏洞。为解决这个问题,都必须不断重新训练模型,以解决骗局或虚假新闻等问题。 最后,要注意内容审核中的偏见。如果内容涉及语言或用户特征,则可能发生歧视。使训练数据多元化并教会模型了解背景对于减少偏见至关重要。 所有这些挑战似乎是打造有效内容审核平台不可逾越的障碍。但成功是可能的:许多组织都向第三方供应商求助,这些供应商可以提供足够的训练数据,还可以提供全球范围内大量讲各种语言的个人来标注这些数据。第三方合作伙伴还带来机器学习赋能内容审核数据标注工具所需的专业知识,可提供可扩展的高效模型。

澳鹏内容审核专家贾斯汀·亚当 (Justin Adam) 的观点

澳鹏依靠自身的专家团队帮助您构建先进的模型,确保您能够进行成功的内容审核、提供优质的客户体验并提高业务投资回报率。项目经理贾斯汀·亚当 (Justin Adam) 是我们团队的资深专家之一,他负责多个内容审核相关项目,确保客户在通过机器学习实施和改进内容审核时取得成功。贾斯汀对成功的内容审核项目的三大见解:文章来源地址https://www.toymoban.com/news/detail-708634.html

  • 根据现实世界的要求更新政策:每个内容审核决策都应遵循既定的政策;但是,政策必须迅速发展以弥补出现的空白、灰色地带或边缘案例,尤其是对于敏感话题。监控特定市场的内容趋势,发现政策空白,提供建议并部署政策变更,以确保所提供的数据是基于审阅员根据实时、全面的政策指南做出的决策。
  • 管理人口统计学偏见:当审阅员代表的是所审核市场中的一般人群时,内容审核有效、可靠也值得信赖。重要的是要定义所需的人口统计学信息,并处理多样性来源的各个方面,以使输入到模型中的数据不会受到人口统计学偏见的影响。
  • 通过质量管理策略和专家资源来提供支持:在当今的政治环境中,内容审核决策容易受审查的影响。有效识别和纠正错误,且重要的是防范错误需要全面的策略。我们通常会根据客户的具体需求建议并帮助实施适当的策略,包括组建一支由训练有素的政策主题专家组成的完整团队、建立质量控制审阅层次结构以及量身定制的质量分析和报告。

到了这里,关于数据标注赋能机器学习进行内容审核的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • OpenCV与AI深度学习 | 实战 | YOLOv8自定义数据集训练实现手势识别 (标注+训练+预测 保姆级教程)

    本文来源公众号 “OpenCV与AI深度学习” ,仅用于学术分享,侵权删,干货满满。 原文链接:实战 | YOLOv8自定义数据集训练实现手势识别 (标注+训练+预测 保姆级教程)     本文将手把手教你用YoloV8训练自己的数据集并实现手势识别。 【1】安装torch, torchvision对应版本,这里先

    2024年04月23日
    浏览(89)
  • 使用 Databricks+Mlflow 进行机器学习模型的训练和部署

    机器学习工作流中存在诸多痛点: 首先,很难对机器学习的实验进行追踪。机器学习算法中有大量可配置参数,在做机器学习实验时,很难追踪到哪些参数、哪个版本的代码以及哪个版本的数据会产生特定的结果。 其次,机器学习实验的结果难以复现。没有标准的方式来打

    2024年02月02日
    浏览(66)
  • 机器学习01 -Hello World(对鸢尾花(Iris Flower)进行训练及测试)

    机器学习是一种人工智能(AI)的子领域,它探索和开发计算机系统,使其能够从数据中学习和改进,并在没有明确编程指令的情况下做出决策或完成任务。 传统的程序需要程序员明确编写指令来告诉计算机如何执行特定任务。但是,机器学习采用不同的方法。它允许计算机

    2024年02月15日
    浏览(50)
  • ML+LLMs:利用LLMs大语言模型赋能或者结合ML机器学习算法进行具体应用的简介、具体案例之详细攻略

    ML+LLMs:利用LLMs大语言模型赋能或者结合ML机器学习算法进行具体应用的简介、具体案例之详细攻略 目录 利用LLMs赋能或者结合ML算法进行具体应用的简介

    2024年02月09日
    浏览(51)
  • 用合成数据训练托盘检测模型【机器学习】

    想象一下,你是一名机器人或机器学习 (ML) 工程师,负责开发一个模型来检测托盘,以便叉车可以操纵它们。 ‌你熟悉传统的深度学习流程,已经整理了手动标注的数据集,并且已经训练了成功的模型。 推荐:用 NSDT设计器 快速搭建可编程3D场景。 你已准备好迎接下一个挑

    2024年02月14日
    浏览(42)
  • 机器学习中训练数据的重要性

    人工智能技术发展至今,训练数据的重要性已经是我们老生常谈的问题。在重声训练数据为什么重要之前,我们先重新回顾下AI技术大爆炸的三大初始概念:机器学习是什么?人工智能是什么?训练数据又是什么? 简单来说,机器学习包含人工智能,人工智能属于机器学习的

    2024年02月13日
    浏览(57)
  • 机器学习公开训练数据集有哪些

            机器学习公开训练数据集是供研究人员、学生和开发者使用的数据集,用于构建和评估机器学习模型。这些数据集通常由研究机构、大学或公司创建,并且在合适的许可下向公众开放。它们可以涵盖各种领域和任务,如图像分类、目标检测、自然语言处理、语音识

    2024年02月12日
    浏览(39)
  • Azure 机器学习 - 使用自动化机器学习训练计算机视觉模型的数据架构

    了解如何设置Azure Machine Learning JSONL 文件格式,以便在训练和推理期间在计算机视觉任务的自动化 ML 实验中使用数据。 关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的

    2024年02月05日
    浏览(52)
  • 机器学习数据集----训练集、测试集以及验证集

    1、训练集 用来构建模型,通过训练拟合一些参数 建立分类器 。 2、验证集 用于确定网络结构以及调整模型的超参数。 使用验证集的目的就是为了快速 调参 (如网络层数、网络节点数、迭代次数等等),从而获得当前最优模型。 验证集是在训练集中划分出的一部分。 验证

    2024年02月01日
    浏览(41)
  • YOLOv5训练自己的数据集(含数据采集、数据标注、数据预处理、借助colab训练)

    YOLOv5 github:GitHub - ultralytics/yolov5: YOLOv5 🚀 in PyTorch ONNX CoreML TFLite 先从github下载源码到本地,用pycharm打开工程   本次采集数据采用的方式是录取视频,然后用python截取视频帧当做图片,这是处理代码:   可以使用labelimg工具、make sense(Make Sense)在线标注,注意数据集需要与

    2024年02月05日
    浏览(92)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包