生成式 AI 应用落地小结：高估的模型能力，低估的工程实施-Toy模板网

这篇具有很好参考价值的文章主要介绍了生成式 AI 应用落地小结：高估的模型能力，低估的工程实施。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

虽然 ChatGPT 已经诞生了一周年，但是大量的人依旧对于生成式 AI 没有足够的认识。在研发领域，Thoughtworks 一直在与不同的大型企业合作，保持开放性的探索。

在我负责的 Thoughtworks 开源社区，我们与外部的几家大型企业一起探索和构建了 Unit Mesh 的诸多开源项目，作为开源 AI 研发体系的一部分。

生成式 AI 应用落地小结：高估的模型能力，低估的工程实施,人工智能

与生成式 AI 在其它领域落地不同的是，有大量的企业已经由小作坊的开发方式，转变为规范化、标准化的开发方式。在具备规范化的项目开发流程与验收流程，生成式 AI 可以更好地提升整体的效能。

而从我们观察的情况来看，人们总希望：微调后的模型能一次解决的所有问题。但是，这几乎是不可能的，不论是生成文本还是生成代码，都需要依赖于模型的能力与体验的设计。

2023 年年初，我们开始构建 AutoDev 这个插件时，由于响应速度是我们的主要弱项，毕竟 GitHub Copilot 可以做到 ~300ms 内的响应速度。所以，我们更多的探索是在：如何通过其他项来弥补模型的差距？

根据我们的算力，以及不同的模型场景，我们所能提供的也是不同的。

生成式 AI 应用落地小结：高估的模型能力，低估的工程实施,人工智能

在缺乏足够 GPU 资源的情况下，即在你不能提供足够快的模型响应速度，我们探索的一些合适的模式：

强相关上下文，生成高质量代码。通过构建强相关的上下文，生成质量更高的上下文。Copilot 采用的是相似式搜索的上下文，因此在生成构建函数、测试等场景效果不好。于是 AutoDev 采用了静态代码分析的相关上下文，构建更好质量的上下文，以生成更高质量的代码和测试等。
高价值点探索与赋能。如结合 CoUnit 作为扩展服务器，将内部的文档作为知识的一部分，与当前代码相关联。诸如可以生成特定内部框架下的代码。
自定义 AI 动作与交互。IDE 中自带代码相关的上下文，以在团队认为的高价值场景上，借助 AI 来提效，诸如各类数据转换、遗留系统迁移等。

为此，我们相信在 IDE 中的体验可以带到其他软件研发场景，诸如于需求编写、测试用例等等。

生成式 AI 应用落地小结：高估的模型能力，低估的工程实施,人工智能

在经过了 RLHF 之后，各个主要的模型，在写作这一件事上，并没有特别大的差异，只是 50 分和 100 分的区别。不过受限于语料的原因，有些模型写出来的内容还是一言难尽。所以在 Studio B3 中，我们探索的是，如何从零打造 AI 原生的工具：

AI 增强人类的交互体验。即探索人们是如何完成日常工作的，再结合 AI 来增强人类，让人类来做主要的决策。
集成日常活动。诸如于资料检查、互联网搜索，工具集成。
准一线、二线模型的探索。在 AI 应用开发上，我的观点一直是：优先使用最好的大模型探索可行性，再考虑结合开源模型运行微调。在有足够的数据、算力和人力时，可以结合已有语料进行基于基础模型的训练。

我们计划将 Studio B3 作为日常文档、需求文档、测试用例的编辑器，所以考虑的几乎是与 AutoDev 相似的背景下。