【NLP相关】开源中文NLP大模型及项目集合

这篇具有很好参考价值的文章主要介绍了【NLP相关】开源中文NLP大模型及项目集合。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️

👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈

开源中文NLP大模型及项目集合

自然语言处理领域存在很多开源模型和项目,这也使得自然语言处理的相关研究进展飞快。本文旨在对现有的一些开源项目和模型做一个调研,可能不是很全,有不在其中的欢迎评论区告知,不甚感谢。

哈工大开源模型和项目

哈工大智能技术与自然语言处理研究室(Intelligent Technology & Natural Language Processing Lab,ITNLP Lab)是国内较早从事自然语言处理研究的科研团体之一。自八十年代初期以来,先后开展了俄汉机器翻译、固定段落问答、自动文摘、文本纠错、汉字智能输入、语音识别与合成、语料库多级加工、语言模型、信息检索、问答系统等多项研究。
其和科大讯飞联合开源了多个自然语言处理模型:roberta、pert、macbert、xlnet等。
其github地址为 https://github.com/ymcui
huggingface地址为 https://huggingface.co/hfl
【NLP相关】开源中文NLP大模型及项目集合

IDEA-CCNL 封神榜模型和项目

2021年11月22日,IDEA研究院创院理事长沈向洋在IDEA大会上正式宣布启动 “封神榜”大模型开源计划。目前,已经开源了6个系列共10个模型,包含4种模型结构,模型参数最大达到35亿。
其中比较有名的有:二郎神系列模型、余元系列模型等。
其github地址为 https://github.com/IDEA-CCNL/Fengshenbang-LM
huggingface地址为 https://huggingface.co/IDEA-CCNL
知乎地址为 https://www.zhihu.com/people/feng-shen-kong-jian

【NLP相关】开源中文NLP大模型及项目集合

Fudan NLP开源模型

复旦大学自然语言处理实验室,是由复旦大学首席教授吴立德先生创建,是我国最早开展自然语言处理和信息检索研究的实验室之一。经过40余年发展,在自然语言处理底层分析、文本检索、自动问答、社会媒体分析等方面取得了一系列的研究成果。实验室多年在国家自然科学基金、国家863/973/重点研发计划、省部委基金的支持下,发表了大量高水平国际期刊和会议论文,其中包括中国计算机学会推荐的A/B类国际会议和期刊论文(ACL,SIGIR,IJCAI,AAAI,NIPS,ICML等)论文150余篇;参加多项国内外评测,如在自动问答国际评测TREC/QA中获得第3名,在文本蕴涵评测RITE和阅读理解评测SQUAD都位居前列;发布了国内首家中文自然语言开源系统FudanNLP,被包括联合国教科文组织在内的国内外多家研发机构采用。
其github地址为 https://huggingface.co/fnlp

【NLP相关】开源中文NLP大模型及项目集合

paddle NLP开源模型和项目

飞桨自然语言处理核心开发库,拥有覆盖多场景的模型库、简洁易用的全流程API与动静统一的高性能分布式训练能力,旨在为飞桨开发者提升文本领域建模效率,并提供基于PaddlePaddle 2.0的NLP领域最佳实践。
其github地址为 https://github.com/PaddlePaddle/PaddleNLP
【NLP相关】开源中文NLP大模型及项目集合

EasyNLP

随着 BERT、Megatron、GPT-3 等预训练模型在NLP领域取得瞩目的成果,越来越多团队投身到超大规模训练中,这使得训练模型的规模从亿级别发展到了千亿甚至万亿的规模。然而,这类超大规模的模型运用于实际场景中仍然有一些挑战。首先,模型参数量过大使得训练和推理速度过慢且部署成本极高;其次在很多实际场景中数据量不足的问题仍然制约着大模型在小样本场景中的应用,提高预训练模型在小样本场景的泛化性依然存在挑战。为了应对以上问题,PAI 团队推出了 EasyNLP 中文 NLP 算法框架,助力大模型快速且高效的落地。
其github地址为 https://github.com/alibaba/EasyNLP
【NLP相关】开源中文NLP大模型及项目集合

OpenBMB

OpenBMB全称为Open Lab for Big Model Base,旨在打造大规模预训练语言模型库与相关工具,加速百亿级以上大模型的训练、微调与推理,降低大模型使用门槛,与国内外开发者共同努力形成大模型开源社区,推动大模型生态发展,实现大模型的标准化、普及化和实用化,让大模型飞入千家万户。

OpenBMB将努力建设大模型开源社区,团结广大开发者不断完善大模型从训练、微调、推理到应用的全流程配套工具。基于贡献者团队前期工作,OpenBMB设计了大模型全流程研发框架,并初步开发了相关工具,这些工具各司其职、相互协作,共同实现大模型从训练、微调到推理的全流程高效计算。

其github地址为 https://github.com/OpenBMB
huggingface地址为 https://huggingface.co/openbmb

【NLP相关】开源中文NLP大模型及项目集合

CPM - Tsinghua AI

CPM (Chinese Pre-trained Language Model,中文预训练语言模型)是一个基于transformer的自回归语言模型,拥有26亿个参数和100GB中文训练数据。据我们所知,CPM是最大的中文预训练语言模型,它可以促进汉语NLP的下游任务,如对话、论文生成、完形填空和语言理解。
其github地址为 https://github.com/TsinghuaAI
huggingface地址为 https://huggingface.co/TsinghuaAI

【NLP相关】开源中文NLP大模型及项目集合

澜舟科技开源模型

澜舟科技是一家认知智能公司,针对商业场景数字化转型、以自然语言处理为基础提供商业洞见类产品。 主要产品包括基于预训练模型的功能引擎(包括搜索、生成、翻译、对话等)和针对垂直行业场景的 SaaS 产品。
其中比较有名的有:孟子模型。
huggingface地址为 https://huggingface.co/Langboat

【NLP相关】开源中文NLP大模型及项目集合

参考文献

哈尔滨工业大学智能技术与自然语言处理研究室 https://baike.baidu.com/item/哈尔滨工业大学智能技术与自然语言处理研究室/4752297
“封神榜”大模型开源计划 https://www.idea.edu.cn/fengshenbang-lm.html
复旦大学自然语言处理实验室 https://nlp.fudan.edu.cn/main.htm文章来源地址https://www.toymoban.com/news/detail-423708.html


❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️

👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈

到了这里,关于【NLP相关】开源中文NLP大模型及项目集合的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 7个顶级开源数据集来训练自然语言处理(NLP)和文本模型

    推荐:使用 NSDT场景编辑器快速助你搭建可二次编辑的3D应用场景 NLP现在是一个令人兴奋的领域,特别是在像AutoNLP这样的用例中,但很难掌握。开始使用NLP的主要问题是缺乏适当的指导和该领域的过度广度。很容易迷失在各种论文和代码中,试图吸收所有内容。 要意识到的是

    2024年02月13日
    浏览(56)
  • 全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!

    目标 :基于 pytorch 、 transformers 做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案; 数据 : 从开源社区,整理了海量的训练数据,帮助用户可以快速上手; 同时也开放训练数据模版,可以快

    2024年02月11日
    浏览(38)
  • 开源模型bloomz可以做哪些中文任务?

            Chatgpt很强大,开源的bloomz可以做些什么呢?效果如何?下面使用其70亿参数的模型测试一下效果。         运行环境:腾讯云P40(24G),deepspeed,transformers         使用模型:bigscience/bloomz-7b1-mt,支持中文         推理时GPU占用:14G+ 1.情感分类-结果是

    2024年02月11日
    浏览(36)
  • 已经开源的中文大模型对比,支持更新

    大模型对比网站:大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner) 大模型下载:互链高科 ClueAI/PromptCLUE-base-v1-5 at main (huggingface.co) 支持多任务生成,支持中文,不支持多轮对话,体验:ClueAI (cluebenchmarks.com) 基于promptclue-base进一步训

    2024年02月12日
    浏览(53)
  • NLP-分词器:SentencePiece【参考Chinese-LLaMA-Alpaca在通用中文语料上训练的20K中文词表并与原版LLaMA模型的32K词表进行合并的代码】

    随着ChatGPT迅速出圈,最近几个月开源的大模型也是遍地开花。目前,开源的大语言模型主要有三大类:ChatGLM衍生的大模型(wenda、ChatSQL等)、LLaMA衍生的大模型(Alpaca、Vicuna、BELLE、Phoenix、Chimera等)、Bloom衍生的大模型(Bloomz、BELLE、Phoenix等)。其中,ChatGLM-6B主要以中英双

    2024年02月11日
    浏览(57)
  • 中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 & 针对中文语料进行高效编码

    欢迎关注『CVHub』官方微信公众号! Title: Efficient and Effective Text Encoding for Chinese Llama and Alpaca PDF: https://arxiv.org/pdf/2304.08177v1.pdf Code: https://github.com/ymcui/Chinese-LLaMA-Alpaca 大型语言模型 LLM ,如ChatGPT和GPT-4,已经彻底改变了自然语言处理研究。然而, LLMs 的昂贵训练和部署对于透明

    2024年02月09日
    浏览(59)
  • 首个中文Stable Diffusion模型开源,玩转“中文-图片”的跨模态生成任务

    前言: 文本描述图片生成模型stable diffusion models大火的第4个月,首个中文stable diffusion models正式开源!基于0.2亿筛选过的中文图文对训练,能够轻松实现“中文-图片”的跨模态生成,感兴趣的小伙伴快来一起玩一玩吧! 目录 模型信息 震撼效果 体验地址 使用方法

    2023年04月17日
    浏览(43)
  • AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊

    一周SOTA:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊 最近UC伯克利主导的LMSYS Org发布了大语言模型排位赛,刷新了大家对当下比较出名的开源和「闭源」聊天机器人的认识。 传送门:UC伯克利LLM排行榜再更新!GPT-4稳居第一,Vicuna-33B登顶开源模型第一

    2024年02月12日
    浏览(43)
  • 最新开源!更擅长推理的LLaMA大模型,支持中文

    ©PaperWeekly 原创 · 作者 |  李忠利 研究方向 |  自然语言处理 跟大家介绍一下自己最近训练的 LLaMA 模型——BiLLa: A Bilingual LLaMA with Enhanced Reasoning Ability. Github 地址:  https://github.com/Neutralzz/BiLLa  HuggingFace 模型:   https://huggingface.co/Neutralzz/BiLLa-7B-LLM(语言模型 BiLLa-7B-LLM) 

    2024年02月09日
    浏览(45)
  • 昆仑天工SkyWork:更懂中文的AIGC开源模型

    昆仑天工SkyWork系列AIGC开源模型,由奇点智源公司研发,在2022年12月发布,覆盖图像、文本、编程等多模态内容生成能力,包括绘画、文章续写、对话、中英翻译、推理、诗词对联、菜谱撰写、合同起草、代码补全等。 昆仑天工SkyWork系列模型,已全部在GitHub上开源! 性能澎

    2024年02月09日
    浏览(84)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包