quilt data 安装数据包框架-Toy模板网

这篇具有很好参考价值的文章主要介绍了quilt data 安装数据包框架。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

安装

Quilt 有两个用户可见的组件：

一个 Python 客户端
一个 Web 目录

Python 客户端
需要 Python 3.7 或更高版本。

$ pip install 'quilt3[pyarrow]'

Mental Model

Quilt 数据包的思维模型

Quilt 将数据集表示为数据包。一个数据包是一个不可变的相关文件集合，具有形式为 AUTHOR/DESCRIPTION 的句柄，一个用于唯一标识包内容的密码学顶级哈希（或哈希链），以及一个后备清单。

清单被序列化为一个包含条目的文件。清单条目是以下形式的元组：

(LOGICAL_KEY, PHYSICAL_KEYS, HASH, METADATA)

LOGICAL_KEY逻辑键是用户可见的友好名称，比如 “README.md”。
PHYSICAL_KEYS物理键是指磁盘上的字节或S3中的字节的完全限定路径。
Hash哈希是物理键内容的摘要，通常是 SHA-256。
METADATA元数据是一个字典，可以包含用户定义的元数据键，如边界框、标签或溯源信息（例如，{"algorithm_version": "4.4.1"} 表示给定文件的创建方式）。

数据包清单存储在注册表中。Quilt 支持本地磁盘和 Amazon S3 存储桶作为注册表。**注册表既可以存储清单，也可以存储主要数据。**选择 S3 是因为它被广泛采用，具有一流的版本控制支持，以及成本/性能配置。Quilt 的路线图中包括将来支持更多的存储格式（如 GCP、Azure、NAS 等）的计划。
下面是 COCO 机器学习数据集的数据包清单的示例:

{
"logical_key": "annotations/captions_train2017.json",
"physical_keys":
["s3://quilt-ml-data/data/raw/annotations/captions_train2017.json?versionId=UtzkAN8FP4irtroeN9bfYP1yKzX7ko3G"],
"size": 91865115,
"hash": {
"type": "SHA256",
"value":
"4b62086319480e0739ef390d04084515defb9c213ff13605a036061e33314317"},
"meta": {}
}