quilt data 安装 数据包 框架

这篇具有很好参考价值的文章主要介绍了quilt data 安装 数据包 框架。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

安装

Quilt 有两个用户可见的组件:

  • 一个 Python 客户端
  • 一个 Web 目录

Python 客户端
需要 Python 3.7 或更高版本。

$ pip install 'quilt3[pyarrow]'

Mental Model

Quilt 数据包的思维模型

Quilt 将数据集表示为数据包。一个数据包是一个不可变的相关文件集合,具有形式为 AUTHOR/DESCRIPTION 的句柄,一个用于唯一标识包内容的密码学顶级哈希(或哈希链),以及一个后备清单。

清单被序列化为一个包含条目的文件。清单条目是以下形式的元组:

(LOGICAL_KEY, PHYSICAL_KEYS, HASH, METADATA)
  • LOGICAL_KEY逻辑键是用户可见的友好名称,比如 “README.md”。
  • PHYSICAL_KEYS物理键是指磁盘上的字节或S3中的字节的完全限定路径。
  • Hash哈希是物理键内容的摘要,通常是 SHA-256。
  • METADATA元数据是一个字典,可以包含用户定义的元数据键,如边界框、标签或溯源信息(例如,{"algorithm_version": "4.4.1"} 表示给定文件的创建方式)。

数据包清单存储在注册表中。Quilt 支持本地磁盘和 Amazon S3 存储桶作为注册表。**注册表既可以存储清单,也可以存储主要数据。**选择 S3 是因为它被广泛采用,具有一流的版本控制支持,以及成本/性能配置。Quilt 的路线图中包括将来支持更多的存储格式(如 GCP、Azure、NAS 等)的计划。
下面是 COCO 机器学习数据集的数据包清单的示例:

{
"logical_key": "annotations/captions_train2017.json",
"physical_keys":
["s3://quilt-ml-data/data/raw/annotations/captions_train2017.json?versionId=UtzkAN8FP4irtroeN9bfYP1yKzX7ko3G"],
"size": 91865115,
"hash": {
"type": "SHA256",
"value":
"4b62086319480e0739ef390d04084515defb9c213ff13605a036061e33314317"},
"meta": {}
}

存储桶就是分支

在 Quilt 中,S3 存储桶类似于 git 中的分支。每个存储桶都是一个独立的注册表,用于存储一个或多个数据包。随着数据和模式的改进,您可以将一个数据包推广到新的存储桶,表示其数据质量提高。
对于数据生命周期,我们通常建议至少使用三个存储桶:

  • 原始(Raw)
  • 阶段(Stage)
  • 生产(Production)

架构

Quilt 数据包统一了数据和元数据

Quilt 数据包是可复现、可发现和可信任的数据集,存储在 Blob 存储中。

数据包清单包括元数据和主要数据的物理键。

所有数据包的元数据和数据都存储在您的 S3 存储桶中。一部分数据包级别的元数据和 S3 对象内容被发送到由 Quilt 管理的 ElasticSearch 集群中。所有 Quilt 数据包清单都可以通过 AWS Athena 使用 SQL 进行访问。

quilt data 安装 数据包 框架,quilt data,大数据,人工智能文章来源地址https://www.toymoban.com/news/detail-522001.html

到了这里,关于quilt data 安装 数据包 框架的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能的伦理标准与法律框架

    作者:禅与计算机程序设计艺术 当前随着人工智能技术的日益成熟和应用,人工智能带来的危害也越来越多。深刻的影响和法律上的责任使得人工智能领域成为一个重要的法律议题。近年来,关于“人工智能”的法律问题也越来越多,围绕人工智能的法律问题也越来越复杂。

    2024年02月08日
    浏览(69)
  • TensorFlow人工智能开源深度学习框架简单认识

    TensorFlow是一个使用数据流图进行数值计算的开源深度学习框架。它由Google Brain团队开发,并于2015年开源发布。TensorFlow的核心概念是使用图表示计算任务,其中节点表示操作,边表示数据流动。 TensorFlow被广泛用于机器学习和深度学习任务。它的特点包括: 强大的计算能力:

    2024年01月21日
    浏览(54)
  • 【Python/人工智能】TensorFlow 框架原理及使用教程

    TensorFlow 是一款由 Google 开源的人工智能框架,是目前应用最广泛的深度学习框架之一。它可以在各种硬件平台上运行,包括单个 CPU、CPU 集群、GPU,甚至是分布式环境下的 CPU 和 GPU 组合。 除了深度学习领域,TensorFlow 还支持其他机器学习算法和模型,如 决策树 、 SVM 、 k-m

    2024年04月28日
    浏览(48)
  • Java语言开发在线小说推荐网 小说推荐系统 基于用户、物品的协同过滤推荐算法 SSM(Spring+SpringMVC+Mybatis)开发框架 大数据、人工智能、机器学习开发

    1、开发工具和使用技术 MyEclipse10/Eclipse/IDEA,jdk1.8,mysql5.5/mysql8,navicat数据库管理工具,tomcat,SSM(spring+springmvc+mybatis)开发框架,jsp页面,javascript脚本,jquery脚本,bootstrap前端框架(用户端),layui前端框架(管理员端),layer弹窗组件等。 2、实现功能 前台用户包含:注

    2023年04月26日
    浏览(84)
  • 多Agent框架之-CrewAI-人工智能代理团队的未来

    CrewAI- a role playing AI Agents git地址:https://github.com/joaomdmoura/crewai#why-crewai langchain地址:CrewAI Unleashed: Future of AI Agent Teams Agent具有与另一个Agent联系的能力,以委派工作或提出问题。 任务可以使用特定的代理工具覆盖,这些工具应该被使用,同时还可以指定特定的代理来处理它们

    2024年02月03日
    浏览(68)
  • 每个AI/ML工程师必须了解的人工智能框架和工具

    每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未

    2024年01月21日
    浏览(49)
  • 人工智能在教育上的应用1-基于pytorch框架下模型训练,用于数学题目图形的智能分类

    大家好,今天给大家介绍一下人工智能在教育上的应用1-基于pytorch框架下模型训练,用于数学题目图形的智能分类,本文将利用CNN算法对数学题目中的图形进行自动分类和识别。这种应用可以帮助学生更好地理解和解决与数学相关的问题。基于CNN的数学题目图形智能分类功能

    2024年02月16日
    浏览(48)
  • 人工智能 框架 paddlepaddle 飞桨 使用指南& 使用例子 线性回归模型demo 1

    安装过程使用指南线性回归模型 使用例子 本来预想 是安装 到 conda 版本的 11.7的 但是电脑没有gpu 所以 安装过程稍有变动,下面简单讲下  由于想安装11.7版本 py 是3.9 所以虚拟环境名称也是 paddle_env117 检查环境即可 本文档为您介绍 conda 安装方式

    2024年04月15日
    浏览(54)
  • 人工智能_CPU安装运行ChatGLM大模型_安装清华开源人工智能AI大模型ChatGlm-6B_004---人工智能工作笔记0099

    上一节003节我们安装到最后,本来大模型都可以回答问题了,结果, 5分钟后给出提示,需要GPU,我去..继续看官网,如何配置CPU运行  没办法继续看: 这里是官网可以看到  需要gcc的版本是11.3.0,这里我们先没有去安装,直接试试再说 yum install epel-release yum install gcc-11.3.0 安装的话执行这

    2024年02月21日
    浏览(66)
  • 人工智能深度学习100种网络模型,精心整理,全网最全,PyTorch框架逐一搭建

    大家好,我是微学AI,今天给大家介绍一下人工智能深度学习100种网络模型,这些模型可以用PyTorch深度学习框架搭建。模型按照个人学习顺序进行排序: 深度学习模型 ANN (Artificial Neural Network) - 人工神经网络:基本的神经网络结构,包括输入层、隐藏层和输出层。 学习点击地

    2024年02月14日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包