向量数据库可以做哪些事情
- 存储和索引向量
- 检索相似向量,还具有过滤功能
- 自动将文档转变成向量,所以会自动化分词、向量化、索引等操作
目前存在的向量数据库:
名称 | github | 开源协议 |
---|---|---|
chroma | https://github.com/chroma-core/chroma | Apache 2.0 |
Milvus | https://github.com/milvus-io/milvus | Apache 2.0 |
Pinecone | 未开源 | / |
weaviate | https://github.com/weaviate/weaviate | BSD-3-Clause license |
qdrant | https://github.com/qdrant/qdrant | Apache 2.0 |
vespa | https://github.com/vespa-engine/vespa | Apache 2.0 |
zilliz | 基于Milvus的商业版向量数据库 | / |
其他跟向量数据库相关,严格来说不算向量数据库
- Faiss 是一个提供高维向量相似性搜索和聚类的算法库,不算向量数据库,向量数据库的相似性检索可以使用到Faiss中的算法。
- ScaNN 是google开源的相似向量搜索方法
- vald 是一个可扩展的向量搜索引擎
- pgvector 为Postgres 提供向量相似度搜索的库
- typesense 可替代ElasticSearch, 也有向量搜索功能
对于文本,如何挑选向量类型,可参考比较基准:MTEB: Massive Text Embedding Benchmark文章来源:https://www.toymoban.com/news/detail-464223.html
参考资料文章来源地址https://www.toymoban.com/news/detail-464223.html
- https://towardsdatascience.com/milvus-pinecone-vespa-weaviate-vald-gsi-what-unites-these-buzz-words-and-what-makes-each-9c65a3bd0696
- https://byby.dev/vector-databases
- https://platform.openai.com/docs/guides/embeddings/what-are-embeddings
到了这里,关于向量数据库的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!