国内大模型领域进入乱战时代-Toy模板网

这篇具有很好参考价值的文章主要介绍了国内大模型领域进入乱战时代。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

国内大模型领域进入乱战时代

2023.4.12
版权声明：本文为博主chszs的原创文章，未经博主允许不得转载。

什么是大模型

大模型，又称为预训练模型、基础模型等，是指模型参数数量很大，需要大量计算资源才能训练的深度学习模型。这些模型通常包括数千万甚至数百亿、数千亿个参数，其中常见的大模型包括BERT、GPT、ResNet等。

大模型的优点在于它们可以更好地学习数据中的复杂特征，从而提高模型的准确性和泛化能力。然而，由于这些模型需要大量计算资源来训练，因此它们的训练时间往往非常长，需要使用大量的计算资源，如GPU或TPU。

为了训练大模型，需要使用高性能计算机或云计算平台。这些平台可以提供大量的计算资源，从而加速训练过程。此外，还需要使用优化算法和技术，如分布式训练、混合精度训练、梯度累积等，以提高训练效率和准确性。

国内大模型的现状

截止2023年4月上旬，国内已有很多家公司发布/或预发布大模型。我搜集了大部分数据，根据宣布时间排序，大致情况如下：

OpenAI的GPT-3.5/4（国外）
Google的Bard（国外）
百度的文心一言
华为的大模型盘古
清华大学发布大模型ChatGLM，开启内侧
阿里发布大模型通义千问
- 阿里达摩院上线“文本生成视频大模型”：目前仅支持英文输入，已开放试玩
- 蚂蚁集团与清华大学签署合作协议，将合作研究“安全通用大模型”和“下一代互联网应用安全技术”
商汤科技发布多模态多任务通用大模型“书生2.5”，迈向AGI通用人工智能
360宣布：基于360GPT大模型开发的人工智能产品矩阵“360智脑”率先落地搜索场景，将面向企业用户开放内测
科大讯飞：将于5月6日发布“1+N认知智能大模型”及应用产品
毫末智行推出全球首个自动驾驶认知大模型DriveGPT，4月公布最新进展
商汤科技推出“日日新SenseNova”大模型体系，发布自研中文语言大模型应用平台“商量SenseChat”
昆仑万维：即将发布国产大语言模型“天工”3.5，将于4月17日启动邀请测试
有赞上线大模型驱动AI产品“加我智能”，支持图文推广和活动策划两大场景
腾讯混元系列AI大模型还在研发中
字节跳动组建大模型团队：朱文佳带队，搜索、智创两部门牵头。
搜狗创始人王小川宣布开启人工智能大模型领域创业：成立新公司“百川智能”，已获得5000万美元启动资金
京东陆续发布了10亿级的K-plug模型、百亿级的Vega模型等一系列领先的大模型，并拟于今年发布千亿级的言犀大模型。
达观数据研发“曹植”大语言模型，致力于国产GPT模型
澜舟科技完成数亿元融资，推出孟子MChat可控大模型
复旦大学研发MOSS大模型，拟4月中旬开源
中科院自动化研发紫东太初大模型，能够实现视觉、文本、语音三个模态间的高效协同，性能全球领先。
北京智源人工智能研究院发布万亿参数的超大规模智能模型“悟道2.0”