LLM-Blender：大语言模型也可以进行集成学习

1年前作者：deephub分类：Toy博客阅读(11)违法举报

这篇具有很好参考价值的文章主要介绍了LLM-Blender：大语言模型也可以进行集成学习。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

最近在看arxiv的时候发现了一个有意思的框架：LLM-Blender，它可以使用Ensemble 的方法来对大语言模型进行集成。

官方介绍如下：LLM-Blender是一个集成框架，可以通过利用多个开源大型语言模型(llm)的不同优势来获得始终如一的卓越性能。

LLM集成

我们都知道集成学习是一种机器学习方法，旨在提高预测模型的性能和鲁棒性。它通过将多个不同的学习器（如决策树、神经网络等）结合成一个整体，来取得比单个学习器更好的预测效果。比如最常见的Kaggle比赛中就广泛的使用了这种方法。

那么大语言模型有必要进行集成吗

LLM-Blender：大语言模型也可以进行集成学习,人工智能,深度学习,语言模型,集成学习

论文给出了以下观点：

由于数据、架构和超参数的变化，LLM表现出不同的优势和劣势，使它们互补。并且目前不存在一个开源LLM在所有例子中都占主导地位。可以集成LLM的输出(基于输入、任务和领域)，以便在不同的示例中提供一致的卓越性能。结合他们独特的贡献;可以减轻个别LLM的偏差、误差和不确定性，从而使产出与人类偏好保持一致。

LLM-Blender

所以论文就给出了一个框架LLM-Blender

LLM-Blender：大语言模型也可以进行集成学习,人工智能,深度学习,语言模型,集成学习

LLM-Blender有两个模块:PairRanker和GenFuser。PairRanker比较多个模型的输出，给出排名最高的输出。然后GenFuser将前几个排名靠前的输出融合在一起，生成最终输出。

1、PairRanker是如何工作的

PairRanker模块用于有效地识别候选模型输出之间的细微差异，并根据它们的质量对它们进行排名。收集N个模型的输出，并以总共N(N-1)/2种方式进行配对(从总共N个项目中选择2个项目的组合次数)。然后根据以下条件对结果进行评估:给定输入提示，哪个候选人的输出更好。

在推理过程中，计算一个包含表示两两比较结果的对数的矩阵。给定该矩阵确定并选择排名前k的输出用于GenFuser模块。

2、GenFuser是如何工作的

GenFuser模块使用PairRanker模块排名靠前的输出，为最终用户生成潜在的改进输出。该模块融合了排名前n位的结果中的前K位，并产生了改进的输出，利用他们的优势和减轻他们的弱点。

基准测试

论文介绍了一个名为mixdirective的新数据集，用于对llm在指令跟随任务中的集成模型进行基准测试。该数据集拥有来自Alpaca-GPT4、Dolly-15K、GPT4-ALL-LAION和ShareGPT的大规模指令示例集。有10万例用于训练，5万例用于验证，5万例用于测试。

使用N = 11个流行的开源LLM进行测试。候选的输出使用ChatGPT对所有候选对进行评估。对于每一对，ChatGPT被要求判断那个是更好的。

LLM-Blender：大语言模型也可以进行集成学习,人工智能,深度学习,语言模型,集成学习

可以看到各个LLM有不同的优势和劣势。顶尖的LLM在测试中并不总是最优的。PairRanker优于其他LLM。LLM-Blender组合比其他任何单个模型更好。

限制

最主要的还是效率，因为对PairRanker中top-K输出进行排序的过程需要调用模型O(n²)次才能获得最佳性能。解决这个问题的一种方法是使用多轮气泡排序方法来减少所需的推断数量。另一种提高时间效率的方法是并行执行PairRanker的推理，因为它们是独立的，也就是多个模型同时推理。

目前论文使用的是在ChatGPT帮助下的自动评估。虽然自动评估是一个很好的选择，但人工评价可以提供更可靠、更全面的评价结果。

这时一个很有意思的项目，有兴趣的可以看看他的论文还有源代码：

https://avoid.overfit.cn/post/29adfb00f1b44adabe43f6a5cd47c53b文章来源地址https://www.toymoban.com/news/detail-604479.html

到了这里，关于LLM-Blender：大语言模型也可以进行集成学习的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

一起学习：大型语言模型（LLM）中的QKV（Query, Key, Value）和多头注意力机制
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未
2024年02月05日
浏览(8)
Genoss GPT简介：使用 Genoss 模型网关实现多个LLM模型的快速切换与集成
生成式人工智能领域的发展继续加速，大型语言模型 (LLM) 的用途范围不断扩大。这些用途跨越不同的领域，包括个人助理、文档检索以及图像和文本生成。ChatGPT 等突破性应用程序为公司进入该领域并开始使用这项技术进行构建铺平了道路。大公司正在构建自己的模型，例如
2024年02月12日
浏览(9)
【架构实战】如何通过 langchain 把LLM大模型能力集成到企业应用中？
本文为您提供关于如何通过 langchain 把 LLM 大模型能力集成到企业应用中的详细实践指南。在本文中，我将简要介绍 LLM 模型及其能力，并提供一种基于 langchain 的解决方案，以便企业可以将 LLM 模型集成到其应用程序中。 LLM（Language Model）是一种基于深度学习的语言模型，它可
2024年02月07日
浏览(7)
R语言---使用runway进行机器学习模型性能的比较
R语言—使用runway进行机器学习模型性能的比较
2024年02月10日
浏览(12)
【大语言模型LLM】-基础语言模型和指令微调的语言模型
🔥 博客主页：西瓜WiFi 🎥 系列专栏：《大语言模型》很多非常有趣的模型，值得收藏，满足大家的收集癖！如果觉得有用，请三连👍⭐❤️，谢谢！长期不定时更新，欢迎watch和fork！❤️❤️❤️ ❤️ 感谢大家点赞👍 收藏⭐ 评论⭐ 🎥 大语言模型LLM基础-系列文章
2024年04月28日
浏览(17)
微调实操三:人类反馈对语言模型进行强化学习(RLHF)
1、前言前面我们在《微调实操一: 增量预训练(Pretraining)》和《微调实操二: 有监督微调(Supervised Finetuning)》实操的两个章节，学习了PT(Continue PreTraining)增量预训练和SFT(Supervised Fine-tuning)有监督微调过程,，今天我们进入第三阶段的微调, 第三阶段微调主流分成2种做法: 1.1 RLHF(
2024年02月22日
浏览(12)
大语言模型LLM
LLM训练方法 LLM高效训练/省内存 LLM与知识图谱（KGs）结合 LLM开源项目 LLM训练集及评估语言模型（Language Model，LM）目标是建模自然语言的概率分布，具体目标是构建词序列w1,w2,...,wm的概率分布，即计算给定的词序列作为一个句子出现可能的大小P(w1w2...wm)。但联合概率P的参数
2024年02月15日
浏览(10)
大语言模型(LLM)综述(五)：使用大型语言模型的主要方法
随着人工智能和机器学习领域的迅速发展，语言模型已经从简单的词袋模型（Bag-of-Words）和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中，大型语言模型（LLM）尤为引人注目，它们不仅在自然语言处理（NLP）任务中表现出色，而且在各种跨领域应用中也展示
2024年02月06日
浏览(10)
大型语言模型 (LLM)全解读
大型语言模型是一种深度学习算法，可以执行各种自然语言处理 (NLP) 任务。大型语言模型底层使用多个转换器模型，底层转换器是一组神经网络。大型语言模型是使用海量数据集进行训练的超大型深度学习模型。这也是它们能够识别、翻译、预测或生成文本或其他
2024年01月23日
浏览(18)
什么是LLM大语言模型？
什么是LLM大语言模型？大语言模型（英文：Large Language Model，缩写LLM），也称大型语言模型，是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿
2024年02月12日
浏览(9)