通义千问AI挑战赛赛后反思-Toy模板网

这篇具有很好参考价值的文章主要介绍了通义千问AI挑战赛赛后反思。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

个人理解：

初赛阶段主要聚焦在如何通过 SFT 提升基础模型的代码能力，需要选手基于最新开源的 Qwen 1.8 模型作为基础模型，上分的关键主要通过收集高质量的代码数据提升模型的在Python, JavaScript, Java, Go, C++, Rust六种编程语言的代码生成能力。

比赛要求采用通义千文模型，因此选手能做的只有微调和数据处理。
微调部分，无非是采用各种tune技术，如prefix-tune,prompt-tune，lora等；数据处理部分则是搜集网络上尽可能相关的数据集，在其上进行finetune。

个人方案

通义千问AI挑战赛赛后反思,人工智能

采用了XXXXX数据集，将其从alpha格式改造成了多轮对话模式。
缺点：没有针对性的挑选或改造数据集，没有针对评测数据的特点进行深入研究。举例来说，评测方案里有代码修复的任务，但是自己找的数据集里并没有相关的

第一名方案

初赛：
针对代码修复任务：（构造修复案例，加上改错入口）
通过写prompt让gpt辅助生产数据，主要是对leetcode-rosetta.jsonl、Evol-Instruction-66k、code_alpaca等公开数据集中相关语言的数据进行改造；

每种语言会单独写几个prompt example（覆盖不同的改错类型），给定题目和正确答案，让其把正确答案改为错误，作为fixtests的数据。

同时每条数据会生成对应的declaration、test、entry_point等，并在数据中加上f’Fix bugs in entry_point’的字样，使得构造的数据格式和预测框架更为一致。

针对代码生成任务：（拼接与测试集格式相同的信息）
使用原始数据中content/explanation/instruction等信息生成测试集格式的instruction、prompt、declaration。然后把这些字段信息拼接在一起作为synthesize的sft数据；这样也保证了构造数据的格式和测试集的格式一致

复赛：主要工作还是收集各种相关数据进行清洗和改造
借鉴点：SFT数据对与测试集相似的数据进行过采样；对于英文数据集，可以写prompt让gpt进行翻译

第二名方案

通义千问AI挑战赛赛后反思,人工智能

初赛：现在自然语言注释、文本、相关代码的数据集上进行预训练，再在编程训练数据集上进行微调。
利用OSS-INSTRUCT数据进行预训练。OSS-INSTRUCT如何得到的？使用大型语言模型生成，从来开源代码文档，生成符合预先设定的prompt代码数据。【从80K个代码文档中收集了80K个初始种子片段，其中包括40K的Python，以及C++，Java，TypeScript，Shell，C#，Rust，PHP，和Swift各5K。然后，每个收集到的种子代码片段被应用到图2所示的提示模板，一个教师模型将其作为输入，并输出一个代码问题及其解决方案。】

复赛:
收集LeetCode相关的Python语言开源数据，收集LeetCode相关解题思路，用于代码解释

心得：
1.第一步，先研究清楚测试数据是怎么样的

第三名方案

https://tianchi.aliyun.com/forum/post/659773
对数据、模型、框架的讲解都很仔细
初赛：主要还是收集数据，过滤去重，解决了任务不平衡和任务异质性的问题。文章来源地址https://www.toymoban.com/news/detail-812838.html

到了这里，关于通义千问AI挑战赛赛后反思的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！