【合合TextIn】AI构建新质生产力,合合信息Embedding模型助力专业知识应用

这篇具有很好参考价值的文章主要介绍了【合合TextIn】AI构建新质生产力,合合信息Embedding模型助力专业知识应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、合合信息acge模型获MTEB中文榜单第一

二、MTEB与C-MTEB

三、Embedding模型的意义

四、合合信息acge模型

(一)acge模型特点

(二)acge模型功能

(三)acge模型优势

五、公司介绍


一、合合信息acge模型获MTEB中文榜单第一

现阶段,大语言模型的飞速发展吸引着社会各界的目光,背后支撑大型语言模型应用落地的Embedding模型也成为业内关注的焦点。近期,合合信息发布了文本向量化模型acge_text_embedding(简称“acge模型”),获得MTEB中文榜单(C-MTEB)第一的成绩。

c-mteb榜单,embedding,语言模型,人工智能,ocr

图1:C-MTEB榜单结果

二、MTEB与C-MTEB

MTEB(Massive Text Embedding Benchmark)是衡量文本嵌入模型(Embedding模型)的评估指标的合集,是目前业内评测文本向量模型性能的重要参考。对应的C-MTEB则是专门针对中文文本向量的评测基准。

C-MTEB被公认为是目前业界最全面、最权威的中文语义向量评测基准之一,涵盖了分类、聚类、检索、排序、文本相似度、STS等6个经典任务,共计35个数据集,为深度测试中文语义向量的全面性和可靠性提供了可靠的实验平台。

三、Embedding模型的意义

互联网时代中,随着信息量急剧膨胀,人们接触信息的渠道不断拓展,大量无关的信息已成为信息检索的干扰项。Embedding模型通过理解查询的深层含义和上下文,能够显著提高搜索和问答的质量、效率和准确性,让搜索和问答引擎不再只是匹配文字,而是可以真正理解人的意图。

c-mteb榜单,embedding,语言模型,人工智能,ocr

Embedding模型能够将单词、句子或图像特征等高维的离散数据转换为低维的连续向量,捕捉到数据的语义特征和关系,被广泛应用于搜索、推荐、问答、检索增强生成、数据挖掘等领域。

“假设你需要了解如何在家中自制咖啡,可能会在搜索引擎中输入‘家庭咖啡制作方法’。如果没有Embedding模型,传统的引擎会简单地匹配包含关键词的文章,提供一些表面相关的内容而非实用的指南。”团队成员提到,借助Embedding模型,引擎便能更准确地理解用户意图,从而提供包括但不限于选择咖啡豆、磨豆技巧、不同的冲泡方法等更专业的内容。”

c-mteb榜单,embedding,语言模型,人工智能,ocr

图2:embedding模型原理示意图

四、合合信息acge模型

Embedding模型在当前大模型实际落地应用过程中扮演着至关重要的角色。为了更好地发挥大模型在应用过程中的价值,合合信息技术团队重点从数据集、训练策略等方面针对Embedding模型进行了优化,打造了acge模型。技术人员构造了大量的数据集,保证训练的质量与场景覆盖面;在模型训练方面,团队也引入多种有效的模型调优技术。

(一)acge模型特点

据合合信息技术团队成员介绍,相比于传统的预训练或微调垂直领域模型,acge模型支持在不同场景下构建通用分类模型、提升长文档信息抽取精度,且应用成本相对较低,可帮助大模型在多个行业中快速创造价值,推动科技创新和产业升级,为构建新质生产力提供强有力的技术支持。

(二)acge模型功能

具体实践上,为做好不同任务的针对性学习,团队使用策略学习训练方式,显著提升了检索、聚类、排序等任务上的性能;引入持续学习训练方式,克服了神经网络存在灾难性遗忘的问题,使模型训练迭代能够达到相对优秀的收敛空间;运用MRL技术,实现一次训练,获取不同维度的表征。

(三)acge模型优势

与目前C-MTEB榜单上排名前五的开源模型相比,合合信息本次发布的acge模型较小,占用资源少;模型输入文本长度为1024,满足绝大部分场景的需求。此外,acge模型还支持可变输出维度,让企业能够根据具体场景去合理分配资源。

c-mteb榜单,embedding,语言模型,人工智能,ocr

五、公司介绍

合合信息是一家人工智能及大数据科技企业,基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。公开资料显示,公司的C端产品覆盖了全球百余个国家和地区的亿级用户,B端服务覆盖了近30个行业的企业客户。《财富》杂志2022年发布的世界500强公司名单中,公司客户已覆盖超过125家。文章来源地址https://www.toymoban.com/news/detail-845076.html

到了这里,关于【合合TextIn】AI构建新质生产力,合合信息Embedding模型助力专业知识应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【技术人生】工程师面对新质生产力的思考和选择

    本文参考了正和岛采访米磊的一篇文章“未来30年大变局,讲透国运与人运”。对被周期控制的技术发展与软件工程师该进行怎样的选择有思考的意义。 原文链接:正和岛 https://mp.weixin.qq.com/s/x3DIZDD1r6ZTipJBSs2XGQ 康波周期(Kondratiev Wave),又称为长波理论或库兹涅茨周期,是由

    2024年03月13日
    浏览(23)
  • AI 时代,提示词便是生产力

    作者 :明明如月学长, CSDN 博客专家,蚂蚁集团高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《EffectiveJava》独家解析》专栏作者。 热门文章推荐 : (1)《人工智能时代,软件工程师们将会被取代?》 (2)

    2023年04月16日
    浏览(20)
  • AI,新时代的生产力工具

    以后每个人在每个领域都会有自己的智能AI助理 AI就是新时代的生产力工具,用得好就能上火星,用不好也能到月球,不用的话你只能停留在地球 有写文的AI,你给个框架、设定,帮你成文 有画画的AI,你给个描述、场景,帮你成画 … ChatGPT就是最明显的代表 ,用来改论文、

    2024年02月13日
    浏览(22)
  • AI对话+AI绘画,提高你的生产力

    使用 Nestjs 和 Vue3 搭建的 AIGC 生态社区 当前特色支持功能 GPT3/4模型支持与控制 联网对话支持 思维导图生成支持 openai DALL-E2绘画支持 Midjourney绘画支持 全套卡密系统支持 在线支付支持 完善的后台管理系统支持 源码购买或者托管运营站点请联系WX:17610096728 用户端部分截图 引导

    2024年02月14日
    浏览(20)
  • AIGC - 生产力新工具 Bito AI

    Bito AI是继Github Copilot、Cursor、CodeWhisperer等AI智能编程产品之后发了一大AI编程工具 。 Bito是一款建立在OpenAI和ChatGPT模型之上的人工智能编程辅助软件,Bito AI可以帮助开发人员大幅提升工作效率。 以下是Bito AI 编程助手可以辅助我们完成的一些能力。 生成代码:向Bito提出任何

    2024年02月09日
    浏览(15)
  • AI重新定义音视频生产力“新范式”

      //   编者按:AIGC无疑是当下的热门话题和场景。面对AI带来的技术变革和算力挑战,该如何应对?LiveVideoStackCon 2023上海站邀请到了网心科技副总裁武磊为我们分享网心在面对AI应用场景和业务需求下的实践经验。 文/武磊 编辑/LiveVideoStack 大家好,我今天分享的主题是AI重新

    2024年02月12日
    浏览(18)
  • Microsoft 365 Copilot:下一代 AI 生产力技术

    微软已经向部分商业用户开放 Microsoft 365 Copilot,这是一个基于大语言模型的 AI 生产力技术,由 OpenAI 的 GPT-4 技术驱动。Copilot 可以在 Microsoft 365 应用中辅助用户生成文档、电子邮件、演示文稿等。它出现在 Microsoft 365 应用的侧边栏,像一个聊天机器人,让用户可以随时召唤它

    2024年02月08日
    浏览(18)
  • AI视频教程下载:ChatGPT个人生产力提升指南

    在本课程中,您将学习如何成功地将ChatGPT融入您的工作和生活,以优化您的社交媒体内容并扩展您的业务。 您将学习如何使用ChatGPT自动创建、校对、总结和翻译文本,以及如何与机器人沟通以实现您的目标。 您还将学习如何创建jQuery代码、编程HTML、编写Excel宏,以及如何将

    2024年04月29日
    浏览(18)
  • 解放程序员生产力的AI代码助手重磅来袭

    您好,我是码农飞哥(wei158556),感谢您阅读本文,欢迎一键三连哦 。 💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精通 😁 2. 毕业设计专栏,毕业季咱们不慌忙,几百款毕业设计等你选。 ❤️ 3. Python爬虫专栏,系统性的学习

    2024年02月09日
    浏览(21)
  • GPT-4+New Bing+Copilot!我的AI生产力工具组合

    作为AIGC和AGI爆火的第一年,以ChatGPT为代表的通用AI助手开始成为每一位职场人的必备工具。不管你承不承认,由OpenAI和ChatGPT引领的这一波通用人工智能浪潮正在掀起一场新的科技革命。 浪潮之下,我们每个人能做的就是积极拥抱变化,不断学习和尝试新的工具,将其转化为

    2024年02月11日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包