开源中文NLP大模型及项目集合
自然语言处理领域存在很多开源模型和项目,这也使得自然语言处理的相关研究进展飞快。本文旨在对现有的一些开源项目和模型做一个调研,可能不是很全,有不在其中的欢迎评论区告知,不甚感谢。
哈工大开源模型和项目
哈工大智能技术与自然语言处理研究室(Intelligent Technology & Natural Language Processing Lab,ITNLP Lab)是国内较早从事自然语言处理研究的科研团体之一。自八十年代初期以来,先后开展了俄汉机器翻译、固定段落问答、自动文摘、文本纠错、汉字智能输入、语音识别与合成、语料库多级加工、语言模型、信息检索、问答系统等多项研究。
其和科大讯飞联合开源了多个自然语言处理模型:roberta、pert、macbert、xlnet等。
其github地址为 https://github.com/ymcui
huggingface地址为 https://huggingface.co/hfl
IDEA-CCNL 封神榜模型和项目
2021年11月22日,IDEA研究院创院理事长沈向洋在IDEA大会上正式宣布启动 “封神榜”大模型开源计划。目前,已经开源了6个系列共10个模型,包含4种模型结构,模型参数最大达到35亿。
其中比较有名的有:二郎神系列模型、余元系列模型等。
其github地址为 https://github.com/IDEA-CCNL/Fengshenbang-LM
huggingface地址为 https://huggingface.co/IDEA-CCNL
知乎地址为 https://www.zhihu.com/people/feng-shen-kong-jian
Fudan NLP开源模型
复旦大学自然语言处理实验室,是由复旦大学首席教授吴立德先生创建,是我国最早开展自然语言处理和信息检索研究的实验室之一。经过40余年发展,在自然语言处理底层分析、文本检索、自动问答、社会媒体分析等方面取得了一系列的研究成果。实验室多年在国家自然科学基金、国家863/973/重点研发计划、省部委基金的支持下,发表了大量高水平国际期刊和会议论文,其中包括中国计算机学会推荐的A/B类国际会议和期刊论文(ACL,SIGIR,IJCAI,AAAI,NIPS,ICML等)论文150余篇;参加多项国内外评测,如在自动问答国际评测TREC/QA中获得第3名,在文本蕴涵评测RITE和阅读理解评测SQUAD都位居前列;发布了国内首家中文自然语言开源系统FudanNLP,被包括联合国教科文组织在内的国内外多家研发机构采用。
其github地址为 https://huggingface.co/fnlp
paddle NLP开源模型和项目
飞桨自然语言处理核心开发库,拥有覆盖多场景的模型库、简洁易用的全流程API与动静统一的高性能分布式训练能力,旨在为飞桨开发者提升文本领域建模效率,并提供基于PaddlePaddle 2.0的NLP领域最佳实践。
其github地址为 https://github.com/PaddlePaddle/PaddleNLP
EasyNLP
随着 BERT、Megatron、GPT-3 等预训练模型在NLP领域取得瞩目的成果,越来越多团队投身到超大规模训练中,这使得训练模型的规模从亿级别发展到了千亿甚至万亿的规模。然而,这类超大规模的模型运用于实际场景中仍然有一些挑战。首先,模型参数量过大使得训练和推理速度过慢且部署成本极高;其次在很多实际场景中数据量不足的问题仍然制约着大模型在小样本场景中的应用,提高预训练模型在小样本场景的泛化性依然存在挑战。为了应对以上问题,PAI 团队推出了 EasyNLP 中文 NLP 算法框架,助力大模型快速且高效的落地。
其github地址为 https://github.com/alibaba/EasyNLP
OpenBMB
OpenBMB全称为Open Lab for Big Model Base,旨在打造大规模预训练语言模型库与相关工具,加速百亿级以上大模型的训练、微调与推理,降低大模型使用门槛,与国内外开发者共同努力形成大模型开源社区,推动大模型生态发展,实现大模型的标准化、普及化和实用化,让大模型飞入千家万户。
OpenBMB将努力建设大模型开源社区,团结广大开发者不断完善大模型从训练、微调、推理到应用的全流程配套工具。基于贡献者团队前期工作,OpenBMB设计了大模型全流程研发框架,并初步开发了相关工具,这些工具各司其职、相互协作,共同实现大模型从训练、微调到推理的全流程高效计算。
其github地址为 https://github.com/OpenBMB
huggingface地址为 https://huggingface.co/openbmb
CPM - Tsinghua AI
CPM (Chinese Pre-trained Language Model,中文预训练语言模型)是一个基于transformer的自回归语言模型,拥有26亿个参数和100GB中文训练数据。据我们所知,CPM是最大的中文预训练语言模型,它可以促进汉语NLP的下游任务,如对话、论文生成、完形填空和语言理解。
其github地址为 https://github.com/TsinghuaAI
huggingface地址为 https://huggingface.co/TsinghuaAI
澜舟科技开源模型
澜舟科技是一家认知智能公司,针对商业场景数字化转型、以自然语言处理为基础提供商业洞见类产品。 主要产品包括基于预训练模型的功能引擎(包括搜索、生成、翻译、对话等)和针对垂直行业场景的 SaaS 产品。
其中比较有名的有:孟子模型。
huggingface地址为 https://huggingface.co/Langboat
文章来源:https://www.toymoban.com/news/detail-423708.html
参考文献
哈尔滨工业大学智能技术与自然语言处理研究室 https://baike.baidu.com/item/哈尔滨工业大学智能技术与自然语言处理研究室/4752297
“封神榜”大模型开源计划 https://www.idea.edu.cn/fengshenbang-lm.html
复旦大学自然语言处理实验室 https://nlp.fudan.edu.cn/main.htm文章来源地址https://www.toymoban.com/news/detail-423708.html
到了这里,关于【NLP相关】开源中文NLP大模型及项目集合的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!