参考:
https://github.com/facebookresearch/ImageBind
ImageBind learns a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data
ImageBind 多个模态共享同一个空间Embedding,这样可以通过一个模态检索相似其他模态,相比CLIP文本图像两个模态,向外扩展了很多
文章来源:https://www.toymoban.com/news/detail-438008.html
代码测试
1、这边windows上测试的,由于audio相关库没装好,所以只测试了文本与图形相关模态的相似度召回计算;使用尽量还是linux机器文章来源地址https://www.toymoban.com/news/detail-438008.html
import data
import torch
from models i
到了这里,关于ImageBind 多模态文本、图像、音频 Embedding同一个共享空间的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!