大模型必备 - 中文最佳向量模型 acge_text_embedding

这篇具有很好参考价值的文章主要介绍了大模型必备 - 中文最佳向量模型 acge_text_embedding。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

近期,上海合合信息科技股份有限公司发布的文本向量化模型 acge_text_embedding 在中文文本向量化领域取得了重大突破,荣获 Massive Text Embedding Benchmark (MTEB) 中文榜单(C-MTEB)第一名的成绩。这一成就标志着该模型将在大模型领域的应用中发挥更加迅速和广泛的影响。

大模型必备 - 中文最佳向量模型 acge_text_embedding

MTEB概述

假设你需要了解如何在家中自制咖啡,可能会在搜索引擎中输入‘家庭咖啡制作方法’。如果没有Embedding模型,传统的引擎会简单地匹配包含关键词的文章,提供一些表面相关的内容而非实用的指南。”团队成员提到,借助Embedding模型,引擎便能更准确地理解用户意图,从而提供包括但不限于选择咖啡豆、磨豆技巧、不同的冲泡方法等更专业的内容。

大模型必备 - 中文最佳向量模型 acge_text_embedding

Text Embeddings 文本嵌入是一种将文本转化为包含语义信息的向量表示,因为机器处理信息需要数值输入,因此文本嵌入在许多自然语言处理(NLP)应用中起着至关重要的作用。例如,谷歌就利用文本嵌入来提升其搜索引擎的效能。此外,文本嵌入也可以用于通过聚类发现大量文本中的模式,或作为文本分类模型的输入。然而,文本嵌入的质量高度依赖于所使用的嵌入模型。

为此,Massive Text Embedding Benchmark(MTEB)旨在帮助用户在多种任务中找到最佳的嵌入模型。

大模型必备 - 中文最佳向量模型 acge_text_embedding

MTEB具备以下特点:

  • 🐋 广泛性:MTEB包含8个任务领域的56个数据集,并在排行榜上总结了超过2000个结果。
  • 🌎 多语言支持:MTEB涵盖高达112种不同语言,并对多种多语言模型进行了比特挖掘、分类和语义文本相似度(STS)任务的基准测试。
  • 🦚 可扩展性:无论是新增任务、数据集、评价指标还是排行榜更新,MTEB都非常欢迎任何贡献。

MTEB榜单

在MTEB的初步基准测试中,关注了以下特点。

  • 🏎 最高速度:如Glove这类模型提供高速处理能力,但由于缺乏上下文意识,通常在MTEB上的平均得分较低。
  • ⚖️ 速度与性能平衡:虽然速度略慢,但性能明显更强,如 all-mpnet-base-v2 或 all-MiniLM-L6-v2,它们在速度和性能之间提供了良好的平衡。
  • 💪 最高性能:多亿参数模型如 ST5-XXL、GTR-XXL 或 SGPT-5.8B-msmarco 在MTEB上表现卓越。这些模型往往也会产生较大的嵌入向量,例如SGPT-5.8B-msmarco 生成的4096维嵌入向量需要更多的存储空间!

大模型必备 - 中文最佳向量模型 acge_text_embedding

大模型必备 - 中文最佳向量模型 acge_text_embedding

C-MTEB榜单

大模型必备 - 中文最佳向量模型 acge_text_embedding
当前最全面的中文语义向量评测基准C-MTEB 开源,涵盖6大类评测任务(检索、排序、句子相似度、推理、分类、聚类),涉及31个相关数据集。
大模型必备 - 中文最佳向量模型 acge_text_embedding
C-MTEB 是当前最大规模、最为全面的中文语义向量评测基准,为可靠、全面的测试中文语义向量的综合表征能力提供了实验基础。
大模型必备 - 中文最佳向量模型 acge_text_embedding

合合信息acge_text_embedding排名C-MTEB榜单第一

acge模型来自于合合信息技术团队,对外技术试用平台TextIn.com。合合信息是行业领先的人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。

大模型必备 - 中文最佳向量模型 acge_text_embedding

acge是一个通用的文本编码模型,是一个可变长度的向量化模型,使用了Matryoshka Representation Learning,如图所示:

测试的时候因为数据的随机性、显卡、推理的数据类型导致每次推理的结果不一致,总共测试了4次,不同的显卡(A10 A100),不同的数据类型,测试结果放在了result文件夹中,选取了一个精度最低的测试作为最终的精度测试。 根据infgrad的建议,选取不用的输入的长度作为测试,Sequence Length为512时测试最佳。

大模型必备 - 中文最佳向量模型 acge_text_embedding

相比于传统的预训练或微调垂直领域模型,acge模型支持在不同场景下构建通用分类模型、提升长文档信息抽取精度,且应用成本相对较低,可帮助大模型在多个行业中快速创造价值,推动科技创新和产业升级,为构建新质生产力提供强有力的技术支持。

具体实践上,为做好不同任务的针对性学习,团队使用策略学习训练方式,显著提升了检索、聚类、排序等任务上的性能;引入持续学习训练方式,克服了神经网络存在灾难性遗忘的问题,使模型训练迭代能够达到相对优秀的收敛空间;运用MRL技术,实现一次训练,获取不同维度的表征。

与目前C-MTEB榜单上排名前五的开源模型相比,合合信息本次发布的acge模型较小,占用资源少;模型输入文本长度为1024,满足绝大部分场景的需求。此外,acge模型还支持可变输出维度,让企业能够根据具体场景去合理分配资源。

合合信息acge_text_embedding集成实战

在sentence-transformer库中的使用方法:

from sentence_transformers import SentenceTransformer

sentences = ["数据1", "数据2"]
model = SentenceTransformer('acge_text_embedding')
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

合合信息TextIn.com

如果对该模型或智能文档处理等技术感兴趣,请访问textin.com。

OCR服务大降价,单次调用仅需0.025元!合合TextIn平台全线推出OCR云服务优惠活动,享单次最低0.025元!包括文字识别、表格识别、证照识别、票据识别及验真、PDF转WORD及图像处理等服务全线下调价格。详情请电脑端进入textin.com市场中查看。

大模型必备 - 中文最佳向量模型 acge_text_embedding

如有帮助,请多关注
TeahLead KrisChang,10+年的互联网和人工智能从业经验,10年+技术和业务团队管理经验,同济软件工程本科,复旦工程管理硕士,阿里云认证云服务资深架构师,上亿营收AI产品业务负责人。文章来源地址https://www.toymoban.com/news/detail-857595.html

到了这里,关于大模型必备 - 中文最佳向量模型 acge_text_embedding的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Mac代码编辑器sublime text 4中文注册版下载

    Sublime Text 4 for Mac简单实用功能强大,是程序员敲代码必备的代码编辑器,sublime text 4中文注册版支持多种编程语言,包括C++、Java、Python、Ruby等,可以帮助程序员快速编写代码。Sublime Text的界面简洁、美观,支持多窗口编辑和分屏显示,可以让程序员更加高效地工作。 Sublim

    2024年02月15日
    浏览(40)
  • [Eigen中文文档] 矩阵与向量运算

    专栏总目录 英文原文(Matrix and vector arithmetic) 本文章旨在提供有关如何使用 Eigen 在矩阵、向量和标量之间执行算术操作的概述和一些详细信息。 介绍 Eigen 通过重载常见的 C++ 算术运算符(如 + 、 - 、 * )或通过特殊方法(如 dot() 、 cross() 等)提供矩阵/向量算术运算。对于

    2024年01月24日
    浏览(36)
  • Ubuntu小白必备:如何在Ubuntu上设置中文输入法?

    1.1. 本文意义 本文旨在帮助Ubuntu Linux系统中的新手用户了解如何在Ubuntu系统中安装和配置中文输入法,以便提高他们的工作效率。在本文中,我们将介绍Ubuntu系统中常见的中文输入法,并提供详细的步骤和说明,帮助读者安装和配置中文输入法,并解决遇到的问题。本文的意

    2024年04月27日
    浏览(32)
  • Mac电脑矢量编辑必备:Sketch 最新中文 for mac

    Sketch是一款专门为Mac设计的矢量图形绘制软件,广泛应用于UI/UX设计领域。它拥有丰富的设计工具和功能,使得设计师可以轻松创建高质量的界面设计和交互原型。Sketch基于矢量图形,可以无损放大和缩小,保证设计的清晰度和质量。它还支持多层式填充绘制,渐变绘制,噪

    2024年02月08日
    浏览(26)
  • Benchmarking Chinese Text Recognition: Datasets, Baselines| OCR 中文数据集【论文翻译】

    https://arxiv.org/pdf/2112.15093.pdf https://github.com/FudanVI/benchmarking-chinese-text-recognition 深度学习蓬勃发展的局面见证了近年来文本识别领域的迅速发展。然而,现有的文本识别方法主要针对英文文本。作为另一种广泛使用的语言,中文文本识别在各个领域都有广泛的应用市场。根据我

    2024年02月10日
    浏览(30)
  • zblog仿站必看!附加zblog所有必备标签调用规则和中文说明

    Z-Blog是一个开源的PHP博客程序,具有轻量、简洁、易用等特点,非常适合新手搭建个人博客。以下是Z-Blog仿站教程,包含了基本的代码示例。 1. 下载Z-Blog程序并安装 首先,需要到官网下载Z-Blog程序,解压缩后上传到服务器,并按照提示完成安装。 2. 选择适合自己的主题 Z-

    2024年02月03日
    浏览(28)
  • 解决文件下载中文文件名乱码的最佳实践

    如果下载的文件名包含中文,有时浏览器可能无法正确显示文件名,而会显示乱码或者一串数字和字母。这个问题可以通过设置 Content-Disposition 响应头的 filename 参数来解决,该参数可以指定要下载的文件名,并且支持URL编码。 下面是一个示例代码,演示了如何在Java Web中设置

    2024年02月08日
    浏览(32)
  • T5模型: Transfer Text-to-Text Transformer(谷歌)

    🔥 T5由谷歌发表于2019,《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》,最终版本发布在:JMLR。 一句话总结T5: 大一统模型,seq2seq形式完成各类nlp任务,大数据集预训练,大量实验,财大气粗,诚意满满,给nlp预训练模型领域提供了一个通用框架,提供了

    2024年02月17日
    浏览(27)
  • 深入理解深度学习——BERT派生模型:T5(Text to Text Transfer Transformer)

    分类目录:《深入理解深度学习》总目录 T5的全称为Text to Text Transfer Transformer,是谷歌提出的预训练语言模型领域的通用模型,该模型将所有自然语言问题都转化成文本到文本的形式,并用一个统一的模型解决。为了得到大一统的高质量预训练语言模型,T5不可避免地走上了

    2024年02月10日
    浏览(31)
  • 【大模型 向量库】从向量搜索到向量数据库

      向量伴随着 AI 模型的发展而发展。 向量:AI 理解世界的通用数据形式,是多模态数据的压缩。 比如大模型输入输出都是文字文本,但模型实际接触和学习数据是向量化文本。 这个步骤叫 Embedding(嵌入),将文字文本转化为保留语义关系的向量文本。 embedding 模型对自然语

    2024年02月20日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包