【大模型】二、大语言模型的基础知识-Toy模板网

这篇具有很好参考价值的文章主要介绍了【大模型】二、大语言模型的基础知识。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大型语言模型

大型语言模型是近年来机器学习和自然语言处理领域的一个重要发展趋势。以GPT模型为例，阐述其发展

GPT系列基于Transformer架构，进行构建，旨在理解和生成人类语言。它们通常通过在大量文本数据上进行预训练，学习到语言的各种模式和结构，然后可以进行微调，以适应各种具体的任务，如文本分类、情感分析、问答系统等。这些模型在理解复杂的语义关系、处理长距离依赖等方面表现出了显著的能力，推动了自然语言处理技术的发展。

GPT-1：发布于2018年，GPT-1是OpenAI的第一个使用Transformer架构的语言模型，有1.17亿的参数。它被训练用于生成流畅且连贯的语言，并在各种语言处理任务中表现出色，但在处理超出其训练数据范围的提示或长篇文本时，可能会产生重复的文本。

GPT-2：发布于2019年，GPT-2有15亿的参数，比GPT-1大得多。它在一些自然语言处理任务上有了明显的改进，能够生成更连贯、真实的文本序列，但在处理需要更复杂推理和理解上下文的任务上还有所挑战。

GPT-3：发布于2020年，GPT-3有1750亿的参数，比GPT-1大了100多倍，比GPT-2大了10倍以上。GPT-3在一系列的自然语言处理任务上生成了复杂的响应，甚至无需提供任何先前的示例数据。然而，GPT-3仍然存在一些问题，例如返回有偏见、不准确或不适当的回答，或者生成与提示完全无关的文本，表明该模型在理解上下文和背景知识方面仍然存在困难。

GPT-4：发布于2023年3月14日，GPT-4在GPT-3的基础上有了显著的提升。尽管模型的训练数据和架构的具体细节尚未公布，但可以肯定的是，GPT-4在GPT-3的优点上进行了建设，并克服了其中的一些限制。文章来源地址https://www.toymoban.com/news/detail-664051.html

国内外大语言模型

大模型列表

序号	公司	大模型	省市	类别	官网	说明
1	百度	文心一言,灵医Bot	北京	通用	✔	试用需账号,有APP
2	阿里云	通义千问,Qwen-7B	浙江杭州	通用	✔	试用需账号,开源通义千问7B模型Qwen-7B,Qwen-7B-Chat
3	科大讯飞	星火	安徽合肥	通用	✔	试用需账号,有APP
4	达观数据	曹植	上海	金融、工业	✔	试用需账号
5	复旦大学	MOSS	上海	科研	✔	试用需账号
6	清华大学	ChatGLM,NowcastNet	北京	科研	✔	开源6B，ChatGLM2-6B, 智谱AI,气象,临近预报大模型
7	华为	盘古,盘古气象,盘古-Σ	广东深圳	工业	✔	华为+鹏城,华为云盘古
8	智源人工智能研究院	悟道·天鹰,悟道·EMU	北京	通用	✔	悟道3.0,视界视觉，AQUILA天鹰座，Aquila-7B,AquilaChat-7B,AquilaCode-7B-NV,AquilaCode-7B-TS,HuggingFace,EMU基于LLaMA
9	浙江大学	启真,PromptProtein,TableGPT	浙江杭州	垂直	✔	医学大模型提供基于LLaMA-7B、CaMA-13B和ChatGLM-6B 三个版本,用于PromptProtein的模型
10	百川智能	百川,baichuan-7B,Baichuan-13B	北京	通用	✔	模型下载：Baichuan-13B-Base,Baichuan-13B-Chat,Baichuan-7B,开源可商用
11	上海人工智能实验室	书生·浦语, OpenMEDLab浦医	上海	通用&垂直	✔	技术报告,开源的InternLM-7B,HuggingFace下载模型权重
12	贝壳	BELLE	北京	垂直	✔	基于BLOOMZ或LLaMA的多个模型
13	哈尔滨工业大学	本草,活字	黑龙江哈尔滨	医学	✔	医学，本草基于LLaMA；另有基于 ChatGLM 的Med-ChatGLM，活字基于BLOOM-7B
14	云知声	山海	北京	医学	✔
15	OpenBMB	CPM,CPM-Bee	北京	通用	✔	面壁智能,CPM-Bee-10B
16	港中文深圳	华佗，凤凰	广东深圳	医学	✔	香港中文大学（深圳）和深圳市大数据研究院，医学,Demo,华佗和凤凰都基于BLOOMZ
17	元象科技	XVERSE-13B	广东深圳	通用	✔	模型下载
18	虎博科技	TigerBot	上海	金融	✔	基于BLOOM
19	东北大学	TechGPT,PICA	辽宁沈阳	科研	✔	TechGPT->BELLE->LLaMA，图谱构建和阅读理解问答;PICA->ChatGLM2-6B情感大模型
20	上海交通大学	K2,白玉兰	上海	K2:地球科学，白玉兰:科学	✔	Demo，GeoLLaMA，基于LLaMA，HuggingFace
21	IDEA研究院	封神榜MindBot	广东深圳	通用	✔	姜子牙系列模型
22	度小满	轩辕	北京	金融	✔	基于BLOOM
23	360	智脑,一见	北京	通用	✔
24	艾写科技	Anima	浙江杭州	营销	✔	基于Guanaco->基于LLaMA，使用QLoRA
25	北京大学信息工程学院	ChatLaw	北京	法律	✔	ChatLaw-13B基于Ziya-LLaMA-13B-v1->LLaMA,ChatLaw-33B基于Anima33B->Guanaco->LLaMA
26	中国科学院自动化研究所	紫东·太初	北京	通用	✔	紫东太初2.0号称100B参数，全模态
27	中国科学院计算技术研究所	百聆	北京	科研	✔	基于 LLaMA，权重Diff下载7B和13B,demo
28	中国科学院成都计算机应用研究所	聚宝盆	四川成都	金融	✔	基于LLaMA的金融大模型
29	晓多科技+国家超算成都中心	晓模型XPT	四川成都	客服	✔	试用申请
30	网易有道	子曰	北京	教育	✔	推荐有道速读,读论文的利器
31	北京语言大学	桃李	北京	教育	✔	基于LLaMA,北语+清华+东北、北京交大
32	华南理工大学	扁鹊,灵心SoulChat	广东广州	医学	✔
33	商汤科技	日日新	上海	通用	✔
34	国家超级计算天津中心	天河天元	天津	通用	✘
35	北京交通大学	致远	北京	交通	✔	TransGPT・致远，基于LLaMA-7B
36	恒生电子	LightGPT	浙江杭州	金融	✘
37	稀宇科技	MiniMax	上海	通用	✔	GLOW虚拟社交
38	左手医生	左医GPT	北京	医学	✔	医疗，试用需Key
39	上海科技大学	DoctorGLM	上海	医学	✔	医学大模型，论文
40	华东师范大学	EmoGPT,EduChat	上海	教育	✘	EmoGPT是上海市心理健康与危机干预重点实验室与镜象科技公司合作完成, 教学教育大模型EduChat基于BELLE（BELLE基于LLaMA）
41	星环科技	无涯、求索	上海	金融	✘	无涯——金融；求索——大数据分析
42	澳门理工大学	XrayGLM,IvyGPT	澳门	医疗	✔	IvyGPT基于ChatGLM2，XrayGLM基于VisualGLM-6B
43	数慧时空	长城	北京	地球科学	✘	自然资源，遥感
44	中工互联	智工	北京	工业	✘	与复旦NLP实验室联合，工业领域
45	创业黑马	天启	北京	创投	✘	创业黑马与360合作,科创服务行业
46	追一科技	博文Bowen	广东深圳	客服	✘
47	智慧眼	砭石	湖南长沙	医学	✘	医疗领域
48	香港科技大学	罗宾Robin	香港	科研	✔	基于LLaMA,港科大开源LMFlow
49	昆仑万维	天工	北京	客服	✔	与奇点智源联合研发
50	智媒开源研究院	智媒	广东深圳	媒体	✔	基于LLaMA，面向自媒体
51	医疗算网	Uni-talk	上海	医学	✘	上海联通+华山医院+上海超算中心+华为
52	蚂蚁集团	贞仪	浙江杭州	金融	✘	据传语言和多模态两个
53	硅基智能	炎帝	江苏南京	文旅	✘
54	西湖心辰	西湖	浙江杭州	科研	✔
55	拓尔思	拓天	北京	媒体	✘	TRSGPT
56	好未来	MathGPT	北京	教育	✘	学而思
57	清博智能	先问	北京	农业	✘	基于结构化数据
58	智子引擎	元乘象	江苏南京	客服	✔
59	拓世科技	拓世	江西南昌	金融	✘
60	循环智能	盘古	北京	客服	✔	循环智能,清华大学,华为
61	慧言科技+天津大学	海河·谛听	天津	科研	✘
62	第四范式	式说	北京	客服	✔
63	字节跳动	Grace	北京	通用	✘	内部代号
64	出门问问	序列猴子	北京	营销	✔
65	数说故事	SocialGPT	广东广州	社交	✘
66	云从科技	从容	广东广州	政务	✔
67	浪潮信息	源	山东济南	通用	✘	源
68	中国农业银行	小数ChatABC	北京	金融	✘
69	麒麟合盛	天燕AiLMe	北京	运维	✔
70	台智云	福尔摩斯FFM	台湾	工业	✔	华硕子公司
71	医联科技	medGPT	四川成都	医学	✘
72	电信智科	星河	北京	通信	✘	通用视觉，中国电信
73	深思考人工智能	Dongni	北京	媒体	✔
74	文因互联	文因	安徽合肥	金融	✘	金融大模型
75	印象笔记	大象GPT	北京	媒体	✘
76	中科闻歌	雅意	北京	媒体	✘
77	澜舟科技	孟子	北京	金融	✔
78	京东	言犀	北京	商业	✘
79	智臻智能	华藏	上海	客服	✘	小i机器人
80	新华三H3C	百业灵犀	浙江杭州	工业	✘
81	鹏城实验室	鹏城·脑海	广东深圳	科研	✘	Peng Cheng Mind
82	宇视科技	梧桐	浙江杭州	运维	✘	AIoT行业
83	理想科技	大道Dao	北京	运维	✘	运维大模型
84	美亚柏科	天擎	福建厦门	安全	✘	公共安全
85	赛灵力科技	达尔文	广东广州	医学	✘	赛灵力,清华珠三角研究院,赛业生物,大湾区科技创新服务中心
86	实在智能	塔斯	浙江杭州	客服	✘	TARS
87	佳都科技	佳都知行	广东广州	交通	✘	交通领域
88	知乎	知海图	北京	媒体	✘	知乎和面壁科技合作
89	网易伏羲	玉言	广东广州	通用	✘
90	清睿智能	ArynGPT	江苏苏州	教育	✘
91	微盟	WAI	上海	商业	✔
92	西北工业大学+华为	秦岭·翱翔	陕西西安	工业	✘	流体力学大模型,湍流+流场
93	奇点智源	天工智力	北京	通用	✔	瑶光和天枢
94	联汇科技	欧姆	浙江杭州	通用	✔	OmModel欧姆多模态（视觉语言）大模型
95	中国联通	鸿湖	北京	通信	✘
96	思必驰	DFM-2	江苏苏州	工业	✘
97	中科创达	魔方Rubik	北京	工业	✘
98	电科太极	小可	北京	政务	✘	党政企行业应用
99	中国移动	九天	北京	通信	✘
100	中国电信	TeleChat	北京	通信	✘
101	容联云	赤兔	北京	客服	✘	客服，营销
102	云天励飞	天书	广东深圳	政务	✘
103	乐言科技	乐言	上海	客服	✘
104	沪渝人工智能研究院	兆言	重庆	科研	✘	也称：上海交通大学重庆人工智能研究院
105	中央广播电视总台	央视听	北京	媒体	✘	央视听媒体大模型CMG Media GPT
106	超对称技术公司	乾元	北京	金融	✔
107	蜜度	文修	上海	媒体	✘	智能校对
108	中国电子云	星智	湖北武汉	政务	✘	政务大模型
109	理想汽车	MindGPT	北京	工业	✘
110	阅文集团	妙笔	上海	文旅	✘	网文大模型
111	携程	问道	上海	文旅	✘	旅游行业大模型
112	腾讯	混元	广东深圳	通用	✘
113	瑞泊	VIDYA	北京	工业	✔
114	有连云	麒麟	上海	金融	✘
115	维智科技	CityGPT	上海	公共服务	✘	城市大模型
116	用友	YonGPT	北京	企业服务	✘
117	天云数据	Elpis	北京	金融	✘	证券法律法规
118	孩子王	KidsGPT	江苏南京	教育	✘
119	企查查	知彼阿尔法	江苏苏州	商业	✘
120	今立方	12333	福建厦门	政务	✘	人社领域
121	阳光保险集团	正言	广东深圳	金融	✘
122	电科数字	智弈	上海	水利	✘
123	聆心智能	CharacterGLM	北京	游戏	✘
124	大经中医	岐黄问道	江苏南京	医疗	✘
125	蒙牛	MENGNIU.GPT	内蒙古呼和浩特	食品	✘
126	快商通	汉朝	福建厦门	营销	✘
127	众合科技	UniChat	浙江杭州	交通	✘
128	金蝶	苍穹	广东深圳	企业服务	✘
129	云问科技	云中问道	江苏南京	营销	✘	与西安未来AI计算中心联合发布
130	天壤智能	小白	上海	通用	✘
131	小米	MiLM-6B	北京	商业	✘
132	长虹	长虹超脑	四川绵阳	媒体	✘

国外大模型

公司	大模型	说明
OpenAI	ChatGPT
微软	Bing Chat
Google	PaLM2,Bard,Gemini	Bard支持图片
Anthropic	Claude	Claude 2,支持读入pdf、txt、csv等文件进行分析、总结和问答等
Meta	LLaMA,LLaMA-2
Stability AI	StableLM
Amazon	Titan
Bloomberg	BloombergGPT
MosaicML	MPT
Intel	Aurora genAI
UC Berkeley, Microsoft Research	Gorilla
inflection.ai	Inflection-1
xAI		从OpenAI 到xAI
cohere	Cohere
Scale AI	Scale
character ai	Character
Colossal-AI	ColossalChat