2023年4月中旬值得关注的几个AI模型:Dollly2、MiniGPT-4、LLaVA、DINOv2

这篇具有很好参考价值的文章主要介绍了2023年4月中旬值得关注的几个AI模型:Dollly2、MiniGPT-4、LLaVA、DINOv2。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

AI模型的发展速度令人惊讶,几乎每天都会有新的模型发布。而2023年4月中旬也有很多新的模型发布,我们挑出几个重点给大家介绍一下。

2023年4月中旬值得关注的几个AI模型:Dollly2、MiniGPT-4、LLaVA、DINOv2,人工智能,深度学习,机器学习

  • Dolly-v2

  • MiniGPT-4

  • LLaVA

  • DINOv2

Dolly-v2

Dolly是EleutherAI开源的一系列大语言模型,EleutherAI认为大语言模型应该被所有人共享,并为大多数人提供服务,因此他们开启了大语言模型开源计划。Dolly系列就是他们开源的成果。Dolly 1.0在2023年3月24日发布,而过了还不到一个月时间,Dolly 2.0就发布了。

Dolly 2.0是一个基于Pythia微调的语言模型,Pythia是EleutherAI开源的语言模型,共8个版本,最大的参数120亿(Pythia模型卡信息:https://www.datalearner.com/ai-models/pretrained-models/Pythia )。而Dolly 2.0就是在120亿参数版本上微调得到的。

需要注意的是,Dolly 2.0专门在一个新的高质量人类生成的指令跟踪数据集上进行微调(即databricks-dolly-15k,它包含了15,000个高质量的人类生成的提示/响应对,专门用于调整大型语言模型的指令。),这些数据集是由Databricks员工众包生成的。因此,它在理解人类意图上表现很好。

Dolly 1.0是基于斯坦福Alpaca进行微调的,训练成本为30美元。但是因为Alpaca禁止商业使用,所有Dolly2.0改成了Pythia基础上进行微调,而pythia允许商业使用。

我们认为Dolly 2.0最大的贡献是允许商业使用!它的代码到模型到数据集均开源!

  Dolly 1.0模型卡地址:

https://www.datalearner.com/ai/pretrained-models/Dolly

  Dolly 2.0模型卡地址:

https://www.datalearner.com/ai/pretrained-models/dolly-v2

MiniGPT-4

MiniGPT-4是一个低成本的多模态预训练模型,用了4个A100,10个小时左右训练完成的。基于前段时间开源的Vacuna模型和BLIP-2结合得到。先用500万个文本-图像数据训练,然后再用3500个高质量的数据微调,一下就让语言模型有了理解图像的能力。

2023年4月中旬值得关注的几个AI模型:Dollly2、MiniGPT-4、LLaVA、DINOv2,人工智能,深度学习,机器学习

从测试结果看,MiniGPT-4在理解图像上有着很不错的效果。而这种低成本的将语言模型能力扩展到对图像的理解,十分值得继续关注。

研究发现,MiniGPT-4具有许多与GPT-4类似的功能,比如生成详细的图像描述和从手写草稿创建网站。MiniGPT-4还有其他新兴功能,包括根据给定的图像撰写故事和诗歌,提供解决图像中显示的问题的方法,以及基于食品照片教用户如何烹饪等。

  MiniGPT-4模型卡地址:

https://www.datalearner.com/ai/pretrained-models/MiniGPT-4

LLaVA

LLaVA全称Large Language and Vision Assistant,是由微软与威斯康星大学麦迪逊分校教授一起提出的一个多模态大模型。

LLaVA将预训练的CLIP VIT-L/14作为encoder,然后和MetaAI开源的LLaMA连接。

与MiniGPT-4不同的是,这个模型主要是把instruction-tuning放到了多模态模型上,这是将指令调整扩展到多模态空间的第一次尝试,使用ChatGPT/GPT-4将图像-文本对转换为适当的指令跟随格式。将CLIP视觉编码器与语言解码器LLaMA连接起来,并进行端到端微调。最终效果也是很不错。

2023年4月中旬值得关注的几个AI模型:Dollly2、MiniGPT-4、LLaVA、DINOv2,人工智能,深度学习,机器学习

将instruction-tuning能力运用到语言模型的图像理解上是一个值得关注的思路,可能是多模态模型的一个重要的微调方向。

  LLaVA模型卡地址:

https://www.datalearner.com/ai-models/pretrained-models/LLaVA

DINOv2

DINOv2是MetaAI最新开源的计算机视觉领域的预训练大模型。相比较DINO的第一个版本,作者做了很多的修改,使得v2版本的DINO模型性能更加强大。

2021年4月30日,MetaAI公开了DINO算法,DINO的核心思想是在无需标注数据的情况下,学习图像的有意义表示。通过自监督学习,DINO可以从大量未标注的图像中提取视觉特征,这些特征对于各种下游计算机视觉任务非常有用,例如图像分类、物体检测和语义分割。时隔一年后的2022年4月8日,MetaAI开源了DINO的实现代码和预训练结果。

一年之后的2023年4月17日,MetaAI开源DINOv2版本。相比较原始的DINO模型,DINOv2能够对视频进行处理,生成比原始DINO方法更高质量的分割结果。DINOv2能够呈现出非凡的特性,例如对物体部分的强大理解,以及对图像的鲁棒语义和低级理解。

2023年4月中旬值得关注的几个AI模型:Dollly2、MiniGPT-4、LLaVA、DINOv2,人工智能,深度学习,机器学习

相比较之前的模型,它的性能更好,而且比基于text-image的预训练模型也好很多,不过因为是纯CV领域的预训练结果(1.40亿图像数据集),它主要抽取的是基础特征。但是可以用这个特征做图片分类、图像分割、深度估计等,模型开源,11亿参数版本也就4.2G。

  DINOv2模型卡地址:

https://www.datalearner.com/ai-models/pretrained-models/DINOv2文章来源地址https://www.toymoban.com/news/detail-575790.html

到了这里,关于2023年4月中旬值得关注的几个AI模型:Dollly2、MiniGPT-4、LLaVA、DINOv2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • After Effects 2023发布,有哪些值得关注的新功能?

    After Effects 2023 (版本 23.4) 发布 有哪些值得关注的新功能?AE2023改进了用户请求的工作流程并进行了重要修复,用户可在 After Effects 中更高效地工作,在不影响创意构想的情况下设计更加优质的细节。 AE2023 for Mac AE2023 新增功能如下: 文本和形状图层的“属性”面板 可在易于

    2024年02月09日
    浏览(40)
  • AI Agent 这二十个最值得关注

    当我们谈论AI Agent时,我们讨论的常常是抽象概念。但实际上,AI Agent即将进入我们的日常生活,将会在我们工作、学习中扮演着越来越重要的角色。 对于AI Agent来说,2023年是重要的一年。3月份,Agents成为主流。在Github上,相关项目短短一个月内就收获50,000颗星。 “2024年将

    2024年02月02日
    浏览(32)
  • 值得收藏的几个postman特色功能帮你事半功倍!

    为什么选择postman? 目前市面上提供了以下几种接口测试工具: Apifox apifox的官方的定位是:Apifox = Postman + Swagger + Mock + JMeter 有桌面版和web版本: 优点:功能强大,提供了很多机构的openapi,官方客服支持好,有问题会直接一对一 教你。 缺点:比较而言,功能的强大牺牲了一

    2023年04月09日
    浏览(25)
  • Web3中文|2023年,最值得关注的5个ZK赛道项目

    零知识技术及其赛道的发展随着以太坊L2 ZK Rollup的出现,受到众多关注。 2023年初始,谈论ZK(零知识)赛道过去的进程,和预测ZK赛道未来的发展,成为Web3或加密圈内一件很重要的事。 因为无论是建立在以太坊之上的L2 ZK Rollup,还是自带ZK属性从头开始建构的公链项目Aleo,

    2024年02月14日
    浏览(31)
  • 百度文心一言宣布向全社会开放,同时还有全新重构的 AI 原生应用,哪些信息值得关注?...

    以下是值得关注的信息: 1. 百度文心一言向全社会开放:这意味着任何个人、组织或开发者都可以使用百度文心一言,而不仅限于百度内部使用。这将为更多人提供使用和开发百度文心一言的机会,可能带来更多创新和应用。 2. 全新重构的 AI 原生应用:百度文心一言可能经

    2024年02月09日
    浏览(35)
  • 2023年内网穿透常用的几个工具

    作为一名开发者,先给大家普及一下什么是内网,什么是外网。 所谓内网就是内部建立的局域网络或办公网络。 比如 一家公司或一个家庭有多台计算机,他们利用不同网络布局将这一台或多台计算机或其它设备连接起来构成一个局部的办公或者资源共享网络,我们就称它为

    2024年02月06日
    浏览(29)
  • IO的几个模型

    说到I/O模型,都会牵扯到同步、异步、阻塞、非阻塞这几个词,以下讲解这几个词的概念。 阻塞和非阻塞 阻塞和非阻塞指的是一直等还是可以去做其他事。 阻塞(一直等水烧开)(blocking): 调用结果返回之前,调用者被挂起(当前线程进入非可执行状态,在这个状态,CPU不

    2024年02月12日
    浏览(29)
  • Deepface使用时需要的几个模型下载地址

    使用deepface进行人脸属性识别时,需要用到以下模型 https://github.com/serengil/deepface_models/releases/download/v1.0/vgg_face_weights.h5 https://github.com/serengil/deepface_models/releases/download/v1.0/facial_expression_model_weights.h5 https://github.com/serengil/deepface_models/releases/download/v1.0/age_model_weights.h5 https://github

    2024年02月15日
    浏览(26)
  • TECHnalysis Research:关于生成式AI的几个意外发现

    TECHnalysis Research是一家美国的独立市场调查公司,该调查公司于2023年5月份对于全美10个行业的1000家企业IT决策负责人进行了调研,调研围绕生成式AI及其对于企业业务的影响。就在全球持续升温的生成式AI热度中,TECHnalysis Research的调研结果却显示了几个令人惊讶的意外发现,

    2024年02月12日
    浏览(33)
  • VSCode 中使用 AI智能编程工具的几个小妙招

    可能你已经在IDE中安装了CodeGeeX,也了解到CodeGeeX能够帮助你编写代码、调试问题、创建文档,生成单元测试等。 但是总有些“Wow!”时刻,还在等你发现。今天就介绍几个CodeGeeX插件在VSCode中的使用技巧和小窍门。 一、侧边栏放右边,效率倍增 默认情况下,CodeGeeX插件在V

    2024年02月05日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包