首个大规模图文多模态数据集LAION-400M介绍

这篇具有很好参考价值的文章主要介绍了首个大规模图文多模态数据集LAION-400M介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

openAI的图文多模态模型CLIP证明了图文多模态在多个领域都具有着巨大潜力,随之而来掀起了一股图文对比学习的风潮。

就在前几天(2022年12月),连Kaiming都入手这一领域,将MAE的思路与CLIP的思路结合,推出了FLIP,有兴趣可戳(https://arxiv.org/abs/2212.00794)。对于迷茫的CV研究生,如果你找不到研究方向,just follow Kaiming绝对不会出错。


LAION

今天要介绍的是一个优秀的图文多模态数据集LAION,跟CLIP原始训练数据集就有相当体量,即400个million

我第一次接触OpenAI的CLIP工作的时候,完全被其zero-shot能力所震惊。不过这么优秀的工作,有两个让followers抱微词之处:1. 该工作并未开源数据集;2. 该工作未开源训练代码(只是在论文中以伪代码的形式给出)。

而CLIP做得不够的地方,由LAION团队补全了。LAION-400M下载原图和文本对的话,大概有10T左右,所以想用这个数据集的朋友可以大概掂量一下。

闲话不多说,给出项目链接和论文链接:
项目链接:htttps://laion.ai/blog/laion-400-open-dataset/
论文标题:LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs
论文链接:https://arxiv.org/abs/2111.02114

多模态语言-视觉模型通常是数亿个图文对(image-text pair)上训练出来的,比如CLIP、DALL-E。对于绝大部分研究者而言,要收集这样一个级别的数据集还是有相当难度的。这也是LAION团队收集并开源LAION-400M的原因。而且LAION-400M是用CLIP进行过滤的,所以理论上这个数据集质量会高于CLIP团队所用的400million的数据。

LAION-400M不仅给了这么大数量的图文对,还用CLIP把数据都推理了一遍,并且保存了embedding和kNN索引,咱们可以对这个大数据集高效索引。

索引网站:https://rom1504.github.io/clip-retrieval/

因为所有的图片都保存了embedding,所以当你输入文本的时候,能够迅速算出similarity,从而实现实时retrieval的效果。以下就是我输入的结果:
首个大规模图文多模态数据集LAION-400M介绍

数据集overview

• 400 million pairs of image URL and the corresponding metadata
• 400 million pairs of CLIP image embedding and the corresponding text
• Several sets of kNN indices that enable quick search in the dataset
img2dataset library that enables efficient crawling and processing of hundreds of millions of images and their metadata from a list of URLs with minimal resources
• Web demo of image-text search on LAION-400M。

LAION-400M的概述如上。4亿个图片-文本对,并且附带4亿个URL和4亿个图片嵌入表示。一些kNN索引来支持快速搜索,以及一个数据处理库。

LAION-400M在收集数据时,做了一些过滤设定:

  1. 将文本短于5个字母或者图像小于5kb的图文对丢弃;
  2. 去重操作;
  3. 用CLIP计算图文相似性,抛弃掉相似性低于0.3的图文对;(重要)
  4. 筛除一些不合法的图文对,比如adult/violence/insulting等等。(love and peace化)

PS: 我在做实验的过程中,发现第三点尤为重要,之前团队收集过400M的某专用领域数据,一直训不到好结果。但用similarity 0.3过滤以后,哪怕数据量只有之前的1/10,训练效果却能达到非常好。

最后看一下数据size的分布:
首个大规模图文多模态数据集LAION-400M介绍

实验结果

首个大规模图文多模态数据集LAION-400M介绍
作者用DALL-E做了实验,基于LAION-400M可以有很好的收敛效果。后续作者还在CLIP上做了实验,虽然没有公布在这篇论文里,但开源了代码,感兴趣的可以去github搜索open-CLIP,在ImageNet上的zero-shot效果比原声CLIP强一点。文章来源地址https://www.toymoban.com/news/detail-489557.html

到了这里,关于首个大规模图文多模态数据集LAION-400M介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据关联分析:云计算与大规模数据处理

    数据关联分析是一种常见的数据挖掘技术,它主要用于发现两个数据集之间的关联关系。随着数据规模的不断增加,传统的关联分析方法已经无法满足大规模数据处理的需求。云计算技术在这里发挥了重要作用,它可以提供高性能的计算资源,以满足大规模数据处理的需求。

    2024年04月23日
    浏览(32)
  • Apache Doris大规模数据使用指南

    目录 一、发展历史 二、架构介绍 弹性MPP架构-极简架构 逻辑架构 基本访问架构 三、Doris的数据分布

    2024年02月12日
    浏览(37)
  • 数据挖掘的云计算与大规模数据处理

    数据挖掘是指从大量数据中发现新的、有价值的信息和知识的过程。随着互联网和人工智能技术的发展,数据量不断增加,这使得数据挖掘变得越来越重要。云计算和大规模数据处理技术为数据挖掘提供了强大的支持,使得数据挖掘能够在更短的时间内获得更好的结果。 本文

    2024年04月14日
    浏览(40)
  • 大数据处理:利用Spark进行大规模数据处理

    大数据处理是指对大规模、高速、多源、多样化的数据进行处理、分析和挖掘的过程。随着互联网、人工智能、物联网等领域的发展,大数据处理技术已经成为当今科技的核心技术之一。Apache Spark是一个开源的大数据处理框架,它可以处理批量数据和流式数据,并提供了一系

    2024年03月22日
    浏览(38)
  • 高效数据湖构建与数据仓库融合:大规模数据架构最佳实践

    🎉欢迎来到云计算技术应用专栏~高效数据湖构建与数据仓库融合:大规模数据架构最佳实践 ☆* o(≧▽≦)o *☆嗨~我是IT·陈寒🍹 ✨博客主页:IT·陈寒的博客 🎈该系列文章专栏:云计算技术应用 📜其他专栏:Java学习路线 Java面试技巧 Java实战项目 AIGC人工智能 数据结构学习

    2024年02月09日
    浏览(32)
  • Python cudf库详解:加速大规模数据处理

    📚 个人网站:ipengtao.com 随着数据规模的不断增大,高效处理大规模数据成为数据科学和机器学习中的一个重要挑战。 cudf 库作为GPU加速的DataFrame库,为Python用户提供了在处理大数据集时显著提升性能的可能性。本文将深入介绍 cudf 库的使用方法,涵盖其基本概念、常用功能

    2024年02月21日
    浏览(44)
  • 大规模数据爬取 - 增量和分布式爬虫架构实战

    嗨,亲爱的爬虫开发者们!在当今的数据驱动时代,大规模数据的爬取对于许多领域的研究和应用至关重要在本文中,我将与你分享大规模数据爬取的实战经验,重点介绍增量和分布式爬虫架构的应用,帮助你高效地处理海量数据。 1.增量爬虫 增量爬虫是指只爬取新增或更新

    2024年02月10日
    浏览(39)
  • 大规模数据量下ES如何实现高性能检索?

    ElasticSearch,是基于Lucene库的搜索引擎。它提供了一个分布式、多租户的全文搜索引擎,具有HTTP web接口和无模式JSON文档。根据DB引擎排名,Elasticsearch是最受欢迎的企业搜索引擎。ES的特点是分布式、高扩展以及近实时。那么,大规模数据量下ES是如何实现高性能检索的呢? 说

    2024年02月16日
    浏览(87)
  • 【003】-Cesium中加载大规模数据稳定流畅之性能优化思路

    使用数据流技术:Cesium支持使用数据流技术,即按需加载和卸载数据,以最小化数据传输量和加载时间。 在 Cesium 中, Cesium3DTileset#maximumMemoryUsage 属性的作用是控制 3D Tiles 的最大内存使用量,从而在保证数据流畅的前提下尽可能减小内存占用。 实现原理大致如下: Cesium 会根

    2024年01月20日
    浏览(31)
  • 论文《面向大规模日志数据分析的自动化日志解析》翻译

    论文《Towards Automated Log Parsing for Large-Scale Log Data Analysis》翻译 面向大规模日志数据分析的自动化日志解析翻译

    2024年02月10日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包