专利解析|多维建模结合AI识别商品特征的方法

这篇具有很好参考价值的文章主要介绍了专利解析|多维建模结合AI识别商品特征的方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

企业采购数字化转型的背景

国家“十四五”规划纲要提出要推进产业数字化转型,在供给侧结构性改革大背景下,国家出台了《企业数字化采购实施指南》,大大促进了企业采购电商化的发展。企业电商化采购能提高企业的采购效率、加快物流速度、降低物流成本、提高采购透明度。未来企业电商化采购场景会不断扩大,将由标准化采购向非标准化采购、定制化采购方向拓展。

在企业采购数字化转型的浪潮中,越来越多的企业建立了企业内部电子采购平台,不仅对接很多大型的渠道商,也引进和入驻了很多独立供货商,企业通过电商平台在企业的经营活动中上沉淀了大量的商品数据,如何分析这些商品数据,挖掘商品数据背后的价值,洞察市场发展,是企业经营者非常关心的一个课题。

文末免费申领相关资料~

商品特征标准化需求及其价值

商品主数据通常由商品名称和商品的特征值构成,在企业的商品采购系统中,商品数据具有一套内部的标准体系,但是企业商城中入驻的供应商的商品数据和企业内部标准商品主数据往往标准不统一,因此在商品采购系统中非常重要的需求就是需要将供应商的商品数据映射到商品标准主数据,不同供应商的商品数据与标准商品主数据需要对齐,其中包括商品分类、商品标准名称、商品标准特征等信息的对齐,其需求的本质是商品的特征标准化以及商品特征的识别技术。

商品特征识别的一个有价值的应用场景是同类商品的比价,大型的电商平台上有很多供应商在售卖自家的商品,每家供应商的商品都有自己的商品分类和商品编码体系,通常商家在上架商品的时候,为了让自家的商品能被更多的搜索到,会将商品的很多特征信息一起包含在名称里,比如:

HP惠普P1106黑白激光打印机小型迷你学生家庭作业家用A4办公凭证纸打印P1108 1020plus打印机

对于电商平台来说,如何在众多的不同供应商的商品描述中识别出不同商家上架的商品其实为同一件商品,从而实现在同种商品之间比价、智能报价等企业经营需求,实现数据的增值服务。

商品特征标准化的挑战

商品信息如商品名称和商品特征如何标准化,是实现商品特征识别的基础,商品特征识别技术就是识别出商品的标准名称及其相关特征的技术,这是目前很多企业面临的难题,商品特征识别的难度在于商品数据中存在一些识别难度较高的信息,如何从一段无固定形式的文字描述中识别出究竟是什么商品,并且这个商品具有什么特征对于电商平台来说是一件很具有挑战的事情,比如这一段商品的描述信息:

联想ThinkPad X13 2022 12代酷睿i5 英特尔Evo平台 13.3英寸轻薄笔记本电脑(i5-1240P 16G 512G WiFi6)4G版

因为商品的描述是以一种不规范的格式存在,即便是同一种商品,因为供应商的不同,其商品的描述差异很大,体现在商品描述中的关键字的位置顺序不同、关键词汇不同、描述的内容也千差万别,因为这些数据没有太强的正则特征,很难采用正则表达式进行识别,我们探索了人工智能在商品特征识别上的应用,研究结果表明,以深度学习为代表的人工智能技术,可以在很大程度上提高商品主数据标准化的效率以及商品特征识别效果。

应用AI进行商品特征识别

采购系统在对接大量供应商的时候,在供应商商品上架的时候采用AI技术对商品的描述信息进行识别,从中提取出商品的标准名称以及商品的特征,通过商品名称以及特征的比对识别出相同的商品,相比较采用其他方式识别方法而言具有更高的准确性、可行性和经济性。

典型的供应商经营的商品数据存在这几样特点:

商品分类不同、分类的粗细粒度不同,分类层级不同

商品的描述差异很大,体现在关键字的位置顺序不同、关键词汇不一

商品的属性规格非结构化,存在很大的差异性和随意性

根据以上商品数据的几样特点,我们介绍一种基于商品主数据的多维建模方法结合AI技术的商品特征识别方法,此方法首先利用主数据的多维建模能力建立商品主数据模型,在商品数据的采集过程中,利用人工智能识别出商品名称,并抽取其特征数据,分析出商品的各种特征,并将清洗后的数据沉淀在标准的商品数据库中,通过在经营活动中不断反馈和完善标准的商品数据,再进行机器学习,不断的提高商品识别效果。

包装特征信息智能判别模型,数据驱动,AI,人工智能,大数据,采购数字化,云计算(图一:品名识别流程图)

详细的步骤如下:

1、 建立标准的品名
品名就是商品的标准名称,是经过规范化形成的名称。

比如这一段商品描述:

“HP惠普P1106黑白激光打印机小型迷你学生家庭作业家用A4办公凭证纸打印P11081020plus打印机” ,通过专家的判断,这里可提取出来的品名是打印机,那如何定义品名,可以由两种方法结合起来定义:

由行业专家定义

基于文本识别技术的AI 技术

包装特征信息智能判别模型,数据驱动,AI,人工智能,大数据,采购数字化,云计算(图二:品名流程图)

从商品描述中识别出标准规范的品名,需要利用AI技术对文本数据的处理能力,这在人工智能领域里属于一个非常大的领域:自然语言处理(Natural Language Processing)NLP。利用现有少量品名标注数据,进行模型的训练,形成的识别模型,可以对新的商品数据进行品名的识别。

在一个典型的电商平台中,末级分类可能非常多,品名可理解为比分类更进一步的细化,这样品名有可能会达到上万甚至几十万的量级,这对文本分类是非常有挑战的;我们考虑建模作为一个文本序列标注的问题,举例来说“得力S910/HB原木铅笔盒装学生六角形 学生铅笔12支”,模型要做的就是把其中的“原木铅笔”四个关键字标注出来,作为推荐的品名。品名识别的算法可以建模为序列标注,也可以建模为语义问答匹配。前者多采用LSTM-CRF模型,但是对于标签数过大的场景,速度和效果都会受到极大制约。因此,考虑后一种建模方式,利用目前最先进的深度自然语言模型BERT,可以将品名识别问题建模为语义匹配模型,从候选品名列表中匹配到相应品名是比较合适的方案。同时,为了解决某些开放场景,使用分词+textrank的启发式算法可以增强品名列表之外的识别能力。

2、建立特征库
特征属性是对于一个产品的技术特征和其它特征的描述,用以区别一种产品与另一种产品。产品生命周期不同阶段,对属性的需求不一样,属性的描述和定义可以不断增加,特征数据是采集的大量数据的积累,从中提取出来的规范化数据,同时也存在很多符合国家标准、行业标准规定的数据,比如:

包装特征信息智能判别模型,数据驱动,AI,人工智能,大数据,采购数字化,云计算(图三:特征库示例)

建立特征库的目的是为了将商品数据结构化,为了辅助机器学习,数据清洗,通过不断的学习和监督反馈沉淀出能真实的反应出商品特征的数据。

3、通过多维建模建立品名的特征库
品名和描述该品名不同用途的特征,构成“品名特征表”;这里最大的问题在于不同的品名可能具有不同的特征属性的,一台电脑笔记本和一台打印机肯定具有不同的特征属性的。

包装特征信息智能判别模型,数据驱动,AI,人工智能,大数据,采购数字化,云计算

在描述品名的所有特征中,可选择能唯一性标识该商品的一些特征,

比如在下述的商品描述中

“HP惠普P1106黑白激光打印机小型迷你学生家庭作业家用A4办公凭证纸打印P11081020plus打印机”

其表现出来的特征如下:

包装特征信息智能判别模型,数据驱动,AI,人工智能,大数据,采购数字化,云计算(图四:品名特征表)

针对此种打印机,其中特征品牌+型号基本可唯一确定具体的商品,则品牌+型号两个特征属性可称为唯一性特征属性,而其他的属性都属于非唯一性特征属性。唯一性特征属性是判断商品唯一性的重要标志,确定唯一性特征的需要结合人工和行业专家的判断。

基于品名特征表构建和积累的品名和特征数据我们称为标准产品。

4、选择合适的AI算法
我们提出了一种基于深度学习+迭代模型的多渠道商品清洗和智能检索的方法,本方法从多维度构建商品特征库,根据用户输入的文字,智能识别出商品以及商品的分类,集数据清洗和特征匹配于一体,在少量专家标注数据的情况下,利用监督学习和迭代学习技术,使得商品主数据的特征识别可以达到比较好的效果和效率。

为了准确识别上述关键信息,我们使用不同的深度模型进行训练

1) 品名模型:给定商品描述信息,从上万的品名库中匹配最佳品名,逐个匹配的时间成本很高,需要使用召回+精排的两阶段模型策略,提高匹配效果和效率。使用召回+排序的两阶段模型。召回阶段使用Tfidf/句向量召回候选品名。使用BERT模型对候选品名的语义相似度进行打分,返回得分排名前k的品名,作为最终结果返回。

2) 特征模型:特征属性提取的场景非常复杂,涉及到相对开放的语义场景,对算法设计的要求非常高。特征模型用于提取商品名称中的特征属性,比如“HP惠普P1108黑白激光打印机 小型迷你 学生家庭作业家用A4办公凭证纸打印P1108 1020plus打印机”中的”型号”是“P1108”,“支持幅面”是”A4”,”颜色”是“黑白”。传统方式使用命名实体识别算法(NER),将句子中的相应位置标记为“型号”和“支持幅面”,但是对于实体数量巨大而且实体类型比较开放的情况,NER的训练很慢且泛化能力较弱。我们设计了结合规则、词典树,以及李飞飞博士提出的注意力机制和序列标注的开放命名实体识别算法OpenTag,可以极大减少人工标注量,并提高识别的精度。

3) 系统迭代:监督训练迭代过程中,系统会利用算法判断数据价值,选择推送高价值数据供业务人员标注,标注完成再推送进入商品标准库,由触发条件推送到算法调度器,再进行监督训练,通过商品特征模型的迭代训练,可以逐步提高整个主数据系统匹配的精度。

总 结

元年多维建模具有很灵活的建模能力,其结合AI技术可将非结构化的商品描述数据转换为结构化、特征化、标准化的商品数据,通过此方法来识别商品的唯一性,能大大的提供商品识别的效率和准确率,同时对识别的商品信息进行统一的编码,具有相同品名以及唯一性特征的数据将被统一编码,这些标准而规范的商品数据不断的被沉淀下来为企业决策和经营活动提供数据支持。

【参考文献】

  1. Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” arXiv preprint arXiv:1810.04805 (2018).

  2. Zheng, Guineng, et al. “Opentag: Open attribute value extraction from product profiles.” Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.文章来源地址https://www.toymoban.com/news/detail-780947.html

到了这里,关于专利解析|多维建模结合AI识别商品特征的方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 十一、结合数字孪生与时间技术进行多维分析设计与实施

            大数据可视化中心以主题为分析对象,选择业务分类下的某个主题,可以在数据面板中展示其二维图表,在地图中标记其空间分布,并叠加其相应的二维或三维图层。 1、界面设计     其主界面设计详上图,各部分功能介绍如下: 1.1、主题与图层面板,从上到下

    2024年02月13日
    浏览(42)
  • IPwe区块链智能池利用AI来处理专利分析

    发表时间:2022年3月17日 信息来源:coingeek.com IPwe正在使用区块链和人工智能(AI)来改进专利行业。通过使用人工智能处理专利分析,IPwe找到了一种降低成本、提高专利获取效率的方法。通过将专利转变为NFT,并允许NFT专利在基于区块链的市场上进行交易,IPwe正在为专利行

    2023年04月09日
    浏览(63)
  • kaggle新赛:Bengali.AI 语音识别大赛赛题解析

    赛题名称: Bengali.AI Speech Recognition 赛题链接: https://www.kaggle.com/competitions/bengaliai-speech 竞赛主办方 Bengali.AI 致力于加速孟加拉语(当地称为孟加拉语)的语言技术研究。Bengali.AI 通过社区驱动的收集活动众包大规模数据集,并通过研究竞赛为其数据集提供众包解决方案。孟加

    2024年02月16日
    浏览(51)
  • 【2023年MathorCup高校数学建模挑战赛-大数据竞赛】赛道A:基于计算机视觉的坑洼道路检测和识别 python 代码解析

    坑洼道路检测和识别是一种计算机视觉任务,旨在通过数字图像(通常是地表坑洼图像)识别出存在坑洼的道路。这对于地.质勘探、航天科学和自然灾害等领域的研究和应用具有重要意义。例如,它可以帮助在地球轨道上识别坑洼,以及分析和模拟地球表面的形态。 在坑洼

    2024年02月06日
    浏览(54)
  • 多维时序 | MATLAB实现BP、SVM、LSSVM多变量时间序列预测(考虑历史特征的影响,多指标、多图输出)

    预测效果 基本介绍 多维时序 | MATLAB实现BP、SVM、LSSVM多变量时间序列负荷预测(考虑历史特征的影响,多指标、多图输出)。 1.Matlab实现BP、SVM、LSSVM多变量时间序列预测; 2.运行环境为Matlab2018b; 3.输入多个特征,输出单个变量,考虑历史特征的影响,多变量时间序列预测;

    2024年02月02日
    浏览(52)
  • AI大模型应用入门实战与进阶:图像识别与大模型:ViT解析

    随着深度学习技术的不断发展,大模型在图像识别领域取得了显著的成功。ViT(Vision Transformer)是Google Brain团队2020年推出的一种新颖的图像识别方法,它将传统的卷积神经网络(CNN)替换为Transformer架构,实现了在图像识别任务中的显著性能提升。 本文将从以下几个方面进行深入

    2024年02月20日
    浏览(49)
  • 利用深度学习技术实现手机类目商品图像特征提取与分类

    感谢您提供如此详细的任务描述和要求。作为一位世界级的人工智能专家、程序员和软件架构师,我将全力以赴,以专业的技术语言和深入的洞见,为您撰写这篇题为\\\"利用深度学习技术实现手机类目商品图像特征提取与分类\\\"的技术博客文章。 让我们开始吧。 在电子商务日益兴盛

    2024年04月13日
    浏览(42)
  • 【AI聊天丨 ChatGPT应用案例一】— 仅用30分钟,ChatGPT帮你完成专利交底书!

        Hi,大家好,我是零点壹客,今天主要也是想和大家一起唠唠ChatGPT, 尤其这两个月,ChatGPT出奇的火,想必各位圈友们或多或少的都已经有些了解。     ChatGPT的出现很大程度上已经改变了我们的工作方式,尤其作为一名技术人员,如果还没有使用上ChatGPT,确实有点Ou

    2024年02月06日
    浏览(46)
  • CoTracker 环境配置&与ORB 特征点提取结合实现视频特征点追踪

    Meta 新开源 CoTracker :跟踪任意长视频中的任意多个点,并且可以随时添加新的点进行跟踪!并且性能上直接超越了谷歌的 OmniMotion 。 我所做的项目是对相机捕获的图像进行实时追踪。当时没有研究过这个网络,所以想着配一下环境,看看后续可不可以应用在相机上。 但是:

    2024年02月03日
    浏览(44)
  • SpringBoot 结合RabbitMQ与Redis实现商品的并发下单【SpringBoot系列12】

    SpringCloud 大型系列课程正在制作中,欢迎大家关注与提意见。 程序员每天的CV 与 板砖,也要知其所以然,本系列课程可以帮助初学者学习 SpringBooot 项目开发 与 SpringCloud 微服务系列项目开发 1 项目准备 SpringBoot 整合 RabbitMQ 消息队列【SpringBoot系列11】本文章 基于这个项目来开

    2023年04月19日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包