中科院开源多语言大模型Bayling【百聆】：性能媲美GPT-3.5

这篇具有很好参考价值的文章主要介绍了中科院开源多语言大模型Bayling【百聆】：性能媲美GPT-3.5。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

欢迎关注公众号 - 【AICV与前沿】，一起学习最新技术吧

开源地址：https://github.com/ictnlp/BayLing
文章：https://arxiv.org/pdf/2306.10968.pdf

写在前面

大型语言模型(llm)在语言理解和生成方面表现出了非凡的能力。从基础llm到后续llm，指令调整在使llm与人类偏好保持一致方面起着至关重要的作用。

然而，现有的llm通常专注于英语，导致非英语语言的表现较差。为了提高非英语语言的性能，需要为基础llm收集特定语言的训练数据，并构建特定语言的指令进行指令调优，这两者都是繁重的工作。为了最大限度地减少人工工作量，我们建议通过交互式翻译任务将语言生成和指令遵循的能力从英语转移到其他语言。

我们利用LLaMA作为基础LLM，自动构建交互式翻译指令来指导调优，开发了指令跟随LLM BayLing。广泛的评估表明，尽管使用了相当小的参数尺寸，只有130亿，但百灵实现了与gpt -3.5 turbo相当的性能。翻译任务实验结果表明，与GPT-4自动评估相比，BayLing的单轮翻译能力达到95%，与gpt -3.5 turbo人工评估相比，交互式翻译能力达到96%。为了评估一般任务的性能，我们创建了一个多回合指令测试集BayLing-80。在BayLing-80上的实验结果表明，与gpt -3.5 turbo相比，BayLing的性能提高了89%。在中国高考和英语SAT的知识评估中也表现出色，在众多遵循教学的llm中仅次于gpt -3.5 turbo。

测评媲美GPT3.5

为了进行人工评价，首先选择了60个句子，其中包括30个汉语句子和30个英语句子作为源句子进行翻译。然后，邀请了5位英语专业的注释者，与BayLing-13B、BayLing-7B、ChatGPT17、vicana - 13b和ChatGLM-6B这5个系统进行了4次交互，对这60个翻译句子进行了4次交互。系统标识是隐藏的，并且是随机排列的，以确保注释者不知道他们正在与之交互的系统。在互动过程中，要求注释者一半用中文，另一半用英语，以保证教学语言的多样性。此外，我们在60个案例中设计了五个不同的互动类别:词汇，语法，风格，建议和创作(即每个类别由12个案例组成)，当面对不同类型的需求时，能够分析系统的性能。

测评发现百聆的交互翻译能力与其他开源大模型相比具有明显优势，13B 参数量的百聆在这一任务上的性能甚至能与 175B 参数量的 ChatGPT 相媲美。
中科院开源多语言大模型Bayling【百聆】：性能媲美GPT-3.5,深度学习,计算机视觉,gpt-3,多模态大模型,人工智能

从翻译能力、指令跟随能力和多回合交互能力三个方面分别给出了人的评价。

(a)翻译:评估llm的整体翻译水平。

(b)指令遵循:评估llm能否成功完成指令并满足人类要求的程度。

对于每个案例，要求注释者同时评估五个系统的交互过程，并从翻译质量、指令遵循和多回合交互性能三个方面(每个方面1分)给出1到10分的分数。此外，要求注释者从这三个方面分别给出5个系统的1到5级。最后将五个注释者的分数和排名取平均值，作为五个系统的最终分数和排名。
中科院开源多语言大模型Bayling【百聆】：性能媲美GPT-3.5,深度学习,计算机视觉,gpt-3,多模态大模型,人工智能文章来源地址https://www.toymoban.com/news/detail-543286.html