阿里云通义千问开源第二波!大规模视觉语言模型Qwen-VL上线魔搭社区

这篇具有很好参考价值的文章主要介绍了阿里云通义千问开源第二波!大规模视觉语言模型Qwen-VL上线魔搭社区。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

通义千问开源第二波!8月25日消息,阿里云推出大规模视觉语言模型Qwen-VL,一步到位、直接开源。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规模通用模型的表现。

Qwen-VL是支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。

阿里云通义千问开源第二波!大规模视觉语言模型Qwen-VL上线魔搭社区,阿里云,语言模型,云计算

多模态是通用人工智能的重要技术演进方向之一。业界普遍认为,从单一感官的、仅支持文本输入的语言模型,到“五官全开”的,支持文本、图像、音频等多种信息输入的多模态模型,蕴含着大模型智能跃升的巨大可能。多模态能够提升大模型对世界的理解程度,充分拓展大模型的使用场景。

视觉是人类的第一感官能力,也是研究者首先想赋予大模型的多模态能力。继此前推出M6、OFA系列多模态模型之后,阿里云通义千问团队又开源了基于Qwen-7B的大规模视觉语言模型(Large Vision Language Model, LVLM)Qwen-VL。Qwen-VL及其视觉AI助手Qwen-VL-Chat均已上线ModelScope魔搭社区,开源、免费、可商用。

用户可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问调用Qwen-VL和Qwen-VL-Chat,阿里云为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。

阿里云通义千问开源第二波!大规模视觉语言模型Qwen-VL上线魔搭社区,阿里云,语言模型,云计算

Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。

比如,一位不懂中文的外国游客到医院看病,不知怎么去往对应科室,他拍下楼层导览图问Qwen-VL“骨科在哪层”“耳鼻喉科去哪层”,Qwen-VL会根据图片信息给出文字回复,这是图像问答能力;再比如,输入一张上海外滩的照片,让Qwen-VL找出东方明珠,Qwen-VL能用检测框准确圈出对应建筑,这是视觉定位能力。

Qwen-VL是业界首个支持中文开放域定位的通用模型,开放域视觉定位能力决定了大模型“视力”的精准度,也即,能否在画面中精准地找出想找的事物,这对于VL模型在机器人操控等真实应用场景的落地至关重要。

阿里云通义千问开源第二波!大规模视觉语言模型Qwen-VL上线魔搭社区,阿里云,语言模型,云计算

阿里云通义千问开源第二波!大规模视觉语言模型Qwen-VL上线魔搭社区,阿里云,语言模型,云计算

Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,并通过设计训练过程,让模型具备对视觉信号的细粒度感知和理解能力。Qwen-VL支持的图像输入分辨率为448,此前开源的LVLM模型通常仅支持224分辨率。在Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。

在四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)的标准英文测评中,Qwen-VL取得了同等尺寸开源LVLM的最好效果。为了测试模型的多模态对话能力,通义千问团队构建了一套基于GPT-4打分机制的测试集“试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。

8月初,阿里云开源通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat,成为国内首个加入大模型开源行列的大型科技企业。通义千问开源模型刚一上线就广受关注,当周冲上HuggingFace趋势榜单,不到一个月在GitHub收获3400多星,模型累计下载量已突破40万。

开源地址:

ModelScope魔搭社区:

Qwen-VL    通义千问-VL-预训练

Qwen-VL-Chat    通义千问-VL-Chat

模型体验:通义千问-多模态对话-Demo

HuggingFace

Qwen-VL   Qwen/Qwen-VL · Hugging Face

Qwen-VL-Chat   Qwen/Qwen-VL-Chat · Hugging Face

GitHub

GitHub - QwenLM/Qwen-VL: The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud.

技术论文地址:

https://arxiv.org/abs/2308.12966文章来源地址https://www.toymoban.com/news/detail-672481.html

到了这里,关于阿里云通义千问开源第二波!大规模视觉语言模型Qwen-VL上线魔搭社区的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • LightFM:一款开源推荐系统框架,可以轻松实现大规模矩阵分解,快速、高效地处理大型矩阵

    作者:禅与计算机程序设计艺术 LightFM 是由 Yelp 开发的一款开源推荐系统框架,可以轻松实现大规模矩阵分解。该项目基于 TensorFlow 和 Keras 框架,可以快速、高效地处理大型矩阵。它具有以下特点: 提供了一种简单的方法来训练矩阵分解模型,即通过定义项间的交互矩阵和用

    2024年02月10日
    浏览(48)
  • 阿里云“通义千问”开源,可免费商用

    我是卢松松,点点上面的头像,欢迎关注我哦! 阿里云成为国内首个加入大模型开源行列的大型科技企业。就在昨天,阿里云公开表态,把自家的通义千问大模型开源。 阿里云把通用70亿参数模型,包括Qwen-7B和对话模型Qwen-7B-Chat这两款大模型产品给开源了。需要注意的是,

    2024年02月13日
    浏览(44)
  • 本地构建自己的chatgpt已成为可能,国外团队从GPT3.5提取大规模数据完成本地机器人训练,并开源项目源码和模型支持普通在笔记上运行chatgpt

    国外团队从GPT3.5提取大规模数据完成本地机器人训练,并开源项目源码和模型支持,普通在笔记上运行chatgpt。下面是他们分享的:收集到的数据、数据管理程序、训练代码和最终模型,以促进开放研究和可重复性。 在 2023 年 3 月 20 日至 2023 年 3 月 26 日期间,该团队使用 GPT

    2023年04月21日
    浏览(67)
  • 解读 | 阿里通义千问模型全尺寸开源 “诚意满满“背后的名与利

    大家好,我是极智视界,欢迎关注我的公众号,获取我的更多前沿科技分享 邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码和资源下载,链接:https://t.zsxq.com/0aiNxERDq 12 月 1 日阿里开源了 72B 和 18B 大模型以及音频大模型 Qwen-Audio,再加上之前八月份、

    2024年02月03日
    浏览(55)
  • 大规模语言模型--LLaMA 家族

    LLaMA 模型集合由 Meta AI 于 2023 年 2 月推出, 包括四种尺寸(7B 、13B 、30B 和 65B)。由于 LLaMA 的 开放性和有效性, 自从 LLaMA 一经发布, 就受到了研究界和工业界的广泛关注。LLaMA 模型在开放基准的各 种方面都取得了非常出色的表现, 已成为迄今为止最流行的开放语言模型。大

    2024年04月25日
    浏览(42)
  • 基于Spark的大规模日志分析

    摘要: 本篇文章将从一个实际项目出发,分享如何使用 Spark 进行大规模日志分析,并通过代码演示加深读者的理解。 本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】》,作者:上进小菜猪。 随着互联网的普及和应用范围的扩

    2024年02月09日
    浏览(53)
  • LLaMA(大规模机器学习和分析)

    LLaMA(大规模机器学习和分析)是一个先进的软件平台,是Meta 推出 AI 语言模型 LLaMA,一个有着 上百亿数量级参数的大语言模型用于大规模部署和管理机器学习模型。借助LLaMA,组织可以高效地在大型数据集上训练和部署模型,缩短投放市场的时间,并提高预测模型的准确性。

    2024年02月11日
    浏览(53)
  • 利用Python进行大规模数据处理

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 随着数据量的不断增长,大规模数据处理变得越来越重要。在这个领域,Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语

    2024年04月24日
    浏览(39)
  • 服务器单机大规模数据存储方案

    大规模数据存储都需要解决三个核心问题: 1.数据存储容量的问题,既然大数据要解决的是数据 PB 计的数据计算问题,而一般的服务器磁盘容量通常 1~2TB,那么如何存储这么大规模的数据呢? 2.数据读写速度的问题,一般磁盘的连续读写速度为几十 MB,以这样的速度,几十

    2024年02月11日
    浏览(54)
  • 云计算:如何访问和分析大规模数据

    作者:禅与计算机程序设计艺术 随着云计算平台的不断发展,越来越多的企业将他们的数据、应用和服务部署在云端,希望借助云计算的能力来提升效率、降低成本、提高竞争力。但是同时也带来了数据安全、隐私保护、数据可靠性等方面的挑战。对于企业而言,如何更好地

    2024年02月15日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包