聊一聊近段时间大火的ChatGPT，它真的能代替程序员导致失业潮来袭吗？-Toy模板网

这篇具有很好参考价值的文章主要介绍了聊一聊近段时间大火的ChatGPT，它真的能代替程序员导致失业潮来袭吗？。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

OpenAI又火了！近期许多人的朋友圈里都混进了一个让人既爱又怕的狠角色，以至于StackOverflow不得不急忙下架。

近日，OpenAI发布了聊天AI ChatGPT，短短几天，其用户量直冲百万级，甚至服务器一度被注册用户挤爆了。

这种被网友惊叹“超越谷歌搜索”的神器究竟怎么做到的？到底靠谱吗？

事件回顾

OpenAI公司日前发布了ChatGPT，这是另一个基于旗舰GPT系列的大型语言模型(LLM)，是一个专门用于对话交互的模型。用户可以下载该公司的免费演示版本。

与发布的大多数大型语言模型(LLM)一样，ChatGPT的发布也引发了一些争议。在发布之后的短短几个小时内，这个新的语言模型就在Twitter上引起了轰动，用户纷纷上传ChatGPT令人印象深刻的成就或者遭遇灾难性失败的截图。

然而，从大型语言模型的广泛角度来看，ChatGPT反映了该领域短暂而丰富的历史，代表了在短短几年内取得了多大的进展，以及还有哪些基本问题有待解决。

无监督学习的梦想

无监督学习仍然是人工智能社区追求的目标之一，而互联网上有大量宝贵的知识和信息。但直到最近，其中大部分的信息都无法用于机器学习系统。大多数机器学习和深度学习应用程序都是被监督的，这意味着人类必须采集大量数据样本并对每个样本进行注释，以训练机器学习系统。

随着Transformer架构（大型语言模型的关键组件）的出现，这种情况发生了变化。可以使用大量的无标记文本语料库来训练Transformer模型。它们随机屏蔽文本的部分，并试图预测缺失的部分。通过反复执行这一操作，Transformer调整其参数，以表示大序列中不同单词之间的关系。

这已被证明是一种非常有效和可扩展的策略。不需要人工标记，就可以收集非常大的训练语料库，从而允许创建和训练越来越大的Transformer模型。研究和实验表明，随着Transformer模型和大型语言模型（LLM）的规模增大，它们可以生成更长的连贯文本序列。大型语言模型（LLM）还展示了大规模的应急能力。

回归监督学习?

大型语言模型（LLM）通常只有文本，这意味着它们缺乏试图模仿的人类丰富的多感官体验。尽管GPT-3等大型语言模型（LLM）取得了令人印象深刻的成果，但它们存在一些基本缺陷，使得它们在需要常识、逻辑、规划、推理和其他知识的任务中无法预测，而这些知识通常在文本中被省略。大型语言模型（LLM）以产生幻觉反应、生成连贯但事实上虚假的文本以及经常误解用户提示的明显意图而闻名。

通过加大模型及其训练语料库的规模，科学家们已经能够减少大型语言模型中明显错误的频率。但根本的问题并没有消失，即使是最大的大型语言模型（LLM）也会在很小的推动下犯愚蠢的错误。

如果大型语言模型（LLM）只在科学研究实验室中用于跟踪基准测试的表现，这可能不会是一个大问题。然而，随着人们对在现实应用中使用大型语言模型（LLM）越来越感兴趣，解决这些问题和其他问题变得更加重要。工程师必须确保他们的机器学习模型在不同的条件下保持健壮，并满足用户的需求和要求。

为了解决这一问题，OpenAI使用了来自人类反馈强化学习(RLHF)技术，该技术此前开发用于优化强化学习模型。人类反馈强化学习(RLHF)不是让强化学习模型随机探索其环境和行为，而是使用来自人类主管的偶尔反馈来引导代理朝正确的方向前进。人类反馈的强化学习(RLHF)的好处是，它能够以极小的人为反馈改善强化学习代理的训练。

OpenAI后来将人类反馈强化学习(RLHF)应用于InstructGPT，这是一个大型语言模型(LLM)系列，旨在更好地理解和响应用户提示中的指令。InstructGPT是一个GPT-3模型，它根据人类反馈进行了微调。

这显然是一种权衡。人工注释可能成为可扩展训练过程中的瓶颈。但通过在无监督学习和有监督学习之间找到正确的平衡，OpenAI能够获得重要的好处，包括更好地响应指令、减少有害输出和资源优化。根据OpenAI的研究结果，13亿个参数的InstructionGPT在指令跟随方面通常优于1750亿个参数GPT-3模型。

聊一聊近段时间大火的ChatGPT，它真的能代替程序员导致失业潮来袭吗？

ChatGPT的训练过程

ChatGPT建立在从InstructGPT模型中获得的经验之上。人工注释器创建一组示例对话，其中包括用户提示和模型响应。这些数据用于微调构建ChatGPT所基于的GPT-3.5模型。在下一步中，将为经过微调的模型提供新的提示，并为其提供若干响应。标注人员对这些反应进行排名。然后，从这些交互中生成的数据被用于训练奖励模型，这有助于在强化学习管道中进一步微调大型语言模型(LLM)。

OpenAI尚未披露强化学习过程的全部细节，但人们很想知道这个过程的“不可扩展的成本”，也就是需要多少人力。