微软 | 把local小模型当作大语言模型的插件？-Toy模板网

这篇具有很好参考价值的文章主要介绍了微软 | 把local小模型当作大语言模型的插件？。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、概述

title：Small Models are Valuable Plug-ins for Large Language Models

论文地址：https://arxiv.org/abs/2305.08848

代码：https://github.com/JetRunner/SuperICL

1.1 Motivation

大语言模型想GPT-3和GPT-4权重没有开放出来，他们的参数量级太大没法部署到通用的硬件上面，导致在大规模的监督数据上做tuning非常具有挑战性。
因为上下长度的限制，导致In-Context Learning（ICL）只能利用一小部分监督样本数据。

1.2 Methods

本文提出了Super In-Context Learning（SuperICL），能够让黑盒的LLMs和本地的fine-tuned小模型一起结合，在监督任务中取得优越的性能。

1.3 Conclusion

本文提出了SuperICL方法，可以融合llm api和本地的fine-tuned插件模型。
SuperICL可以提高性能，超过最先进的微调模型，同时解决上下文学习的不稳定性问题。
SuperICL可以增强小型模型的功能，例如多语言和可解释性。

1.4 limitation

时间和成本：时间是两个模型的和，同时调用llm api的成本也比较高。
本地plug-in模型对抗攻击的能力比较弱，也会被SuperICL继承下来，如果插件模型受到攻击，整个系统的效果可能也会低于ICL。
只评估了文本分类的效果，没在摘要，QA，semantic parsing任务上做评估。

二、详细内容

1. ICL与SuperICL对比【实现方案】

workflow of ICL

微软 | 把local小模型当作大语言模型的插件？

算法过程

微软 | 把local小模型当作大语言模型的插件？

SuperICL步骤：

随机sampling训练样本，并且利用plug-in models预测label和置信度
测试样本也通过plug-in models预测结果，然后拼接到上述context的后面
最后LLM模型预测最终的结果（如果最终结果和plug-in 模型的结果不一致，可以要求大模型进行解析）

2. 构造的样本举例

微软 | 把local小模型当作大语言模型的插件？

基于本地监督数据训练一个插件的模型（见过本地很多监督数据）
融合本地插件模型的结果进行预测

3. 在GLUE数据集上的结果

微软 | 把local小模型当作大语言模型的插件？

大模型LLM的平均分数为81.32，本地fine-tuning后模型的效果是88.68，最终SuperICL模型的结果是89.90

4. 结合跨语言插件模型在跨语言上的效果

微软 | 把local小模型当作大语言模型的插件？

、

结合专门为跨语言模型设计的XML-V模型，大部分任务相对于GPT-3.5 ICL提升不错
token的限制，导致部分语言效果比较差

5. 消融实验

微软 | 把local小模型当作大语言模型的插件？

Ctxt：上下文example
Conf：插件模型的置信度分数
Ref：是否在测试集中利用插件模型预测结果

6. 改写比例和正确率

微软 | 把local小模型当作大语言模型的插件？

MNLI，SST-2：改写率较低，准确率高
MRPC：改写率较高，准确率偏低
上述结论可能和插件模型的结果强相关

7. 改写比例和插件执行度的关系

微软 | 把local小模型当作大语言模型的插件？文章来源地址https://www.toymoban.com/news/detail-450067.html

置信度比较低的时候，被改写的比例高

到了这里，关于微软 | 把local小模型当作大语言模型的插件？的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

微软 | 把local小模型当作大语言模型的插件？

一、概述

二、详细内容

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2