如何下载SRA存放在AWS的原始数据

这篇具有很好参考价值的文章主要介绍了如何下载SRA存放在AWS的原始数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

通常,我们都是利用prefetch从NCBI上获取数据,然后用fasterp-dump/fastq-dump 转成fastq。但遗憾的SRA的数据是原数据的有损压缩,比如说我19年参与发表的文章里单细胞数据上传的是3个文件,但是当时的faster-dump/fastq-dump只能拆出2份(目前可以顺利拆出三份)。

但在https://trace.ncbi.nlm.nih.gov/Traces/index.html?view=run_browser&display=metadata 搜索SRR8485805是可以看到我上传的三个原始数据。

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

然而这些数据存放位置以S3开头,无法直接下载,必须需要通过Cloud Data Delivery的方式进行获取。

为什么,我们需要下载原始数据呢?

  • 一些比对后的BAM,转成SRA后,可能就只能得到单端测序,而不是原来的双端
  • PacBio HiFi测序输出的bam包含的编号信息,是纠错是必须的,不能损失
  • 一些10x数据可能从sra解压缩成fastq后会出现问题

因此,有些时候,我们就需要获取最原始的作者的上传文件了。

创建Amazon的AWS账号

为了使用Cloud Data Deliver,我们你需要创建一个账号:https://aws.amazon.com/cn/cli/ 【需要一张信用卡用于支付账单】。在注册时候时候选择语音播报,我发现短信发送太慢了。

注:Amazon 的AWS如果90天不用,账号就会被停用,然后你就得重新创建账号。

最后一步,选择基本支持-免费(能省就省)

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

在AWS的控制台中(console.aws.amazon.com),选择存储的S3服务。

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

之后,我们创建一个存储桶。

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

大部分参数都保持默认,只需要修改两个配置,存桶的名称必须唯一,地区必须是美国的N. Virginia 。

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

创建成功后,就可以回到NCBI这一边。

NCBI创建数据传输请求

通过https://www.ncbi.nlm.nih.gov/Traces/cloud-delivery/访问NCBI的云数据传递服务(这个服务是需要你登录NCBI)。

然后,我们需要选择我们需要获取的数据,通过https://www.ncbi.nlm.nih.gov/Traces/study/ 可以检索你需要的数据,例如SRR8485805。勾选需要传输的数据后,点击Deliver Data。

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

接着是关键的第二部,我们需要输入Bucket name,让NCBI给我们生成一个策略。

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

拿到这个策略后,我们需要访问https://s3.console.aws.amazon.com/s3/buckets,选择我们之前创建的桶

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

选择权限,并点击存储桶策略的编辑

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

然后将粘贴NCBI上复制的语句,并保存更改即可。

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

最后勾选,你需要获取的数据,点击Deliver data。

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

需要注意的是AWS的存储服务时收费的,它的定价页面见https://aws.amazon.com/cn/s3/pricing/

数据发起请求和请求完成,你都会在你登录账号对应的邮箱中收到邮件。

数据下载

获取数据之后,就可以从S3上下载数据了。

在此之前,我们需要先创建一个安全凭证。

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

之后从https://docs.amazonaws.cn/cli/latest/userguide/getting-started-install.html获取你对应平台的软件

例如Linux的安装方式如下(以非root权限安装)

curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip" -o "awscliv2.zip"
unzip awscliv2.zip
./aws/install -u -i ~/.local -b ~/.local/bin
# 安装成功的提示信息
You can now run: /home/xzg/.local/bin/aws --version

用密钥配置aws,

aws configure

后续,就可以上传和下载数据了,例如把数据传到aws

aws s3 cp app.R s3://xzg-aws-ncbi
# upload: ./app.R to s3://xzg-aws-ncbi/app.R
# 查看档期数据
aws s3 ls s3://xzg-aws-ncbi
2023-07-15 10:39:29     521416 app.R

运行数据获取命令

# 命令形式如下
aws s3 cp --recursive s3://<bucket>/<folder> <local_folder>
# copy我从NCBI后去数据
aws s3 cp --recursive s3://xzg-aws-ncbi/SRR17027125  SRR17027125

当然,你也可以选择在AWS的S3网页端进行下载。

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

下载速度基本上不受限,只跟你家里的带宽有关。

如何下载SRA存放在AWS的原始数据,aws,云计算,生物信息

可能的问题: An error occurred (RequestTimeTooSkewed) when calling the PutObject operation: The difference between the request time and the current time is too large

这可能是服务器的上时间偏差太大了 ,用chronyd矫正下(root权限)

chronyd -q 'server 0.pool.ntp.org iburst'

费用

分为两个部分:

  • 存储上,标准的S3是每个月,前50T每 GB 0.023 USD,差不多是2毛钱1G

传输上:

  • 传入不要钱
  • 每月前 100GB 传出至互联网的数据,所有 AWS 服务和区域加总计算(中国和 GovCloud 区域除外)。
  • 前10TB 每 GB 0.09 USD, 差不多是7毛钱1G

假设,你传了200G,不考虑免费额度,在带宽上花费140,然后存储是每天一块多(不需要的数据赶紧删,省钱)。

最后,如果你不想为数据下载花自己钱的话,可以添加微信, biosxy,备注:AWS数据下载, 我可以按照 5元/G 的费用协助下载,以公司的测序费进行结算。文章来源地址https://www.toymoban.com/news/detail-583235.html

到了这里,关于如何下载SRA存放在AWS的原始数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [ 云计算 | AWS 实践 ] Java 如何重命名 Amazon S3 中的文件和文件夹

    本文收录于【#云计算入门与实践 - AWS】专栏中,收录 AWS 入门与实践相关博文。 本文同步于个人公众号:【 云计算洞察 】 更多关于云计算技术内容敬请关注:CSDN【#云计算入门与实践 - AWS】专栏。 本系列已更新博文: [ 云计算 | AWS 实践 ] Java 应用中使用 Amazon S3 进行存储桶

    2024年02月08日
    浏览(57)
  • 向量数据库X云计算驱动大模型落地电商行业,Zilliz联合AWS探索并贡献成熟解决方案

    近日,由Zilliz 联合亚马逊云科技举办的【向量数据库 X 云计算 驱动大模型落地电商行业】活动在上海落幕,获得业内专业人士的广泛好评。 众所周知,大模型技术的发展正加速对千行万业的改革和重塑,向量数据库作为大模型的海量记忆体、云计算作为大模型的大算力平台

    2024年02月08日
    浏览(40)
  • [ 云计算 | AWS 实践 ] 使用 Java 列出存储桶中的所有 AWS S3 对象

    本文收录于【#云计算入门与实践 - AWS】专栏中,收录 AWS 入门与实践相关博文。 本文同步于个人公众号:【 云计算洞察 】 更多关于云计算技术内容敬请关注:CSDN【#云计算入门与实践 - AWS】专栏。 本系列已更新博文: [ 云计算 | AWS 实践 ] Java 应用中使用 Amazon S3 进行存储桶

    2024年02月06日
    浏览(49)
  • AWS第一个云计算服务—S3

    传统方式处理静态内容(图片、视频、CSS、纯HTML页面等)是将其放到磁盘里,随着访问量增大,磁盘压力就会增大,磁盘压力大可能就会坏掉,所以我们需要一个 海量、高并发、可靠的存储 ,这就是 AWS提供的第一个云计算服务——S3 。 S3(Simple Storage Service)是一个存储服

    2024年02月11日
    浏览(53)
  • 【AWS】API Gateway创建Rest API--从S3下载文件

     一、背景 在不给AK,SK的前提下,用户查看s3上文件(从s3下载文件) 二、创建API 1、打开API Gateway,点击创建API,选择REST API REST API和HTTP API区别:(来自AWS官网) REST API 和 HTTP API 都是 RESTful API 产品。REST API 支持的功能比 HTTP API 多,而 HTTP API 在设计时功能就极少,因此能够

    2024年02月11日
    浏览(48)
  • AWS云计算技术架构探索系列之五-网络

         当我们有了计算和存储资源,但是要真正把应用程序运行起来并提供互联网服务,那还需要使用AWS的网络,本章节就一起了解AWS的网络及其相关的组件基础知识和架构,其中包括: 区域(Region),可用区(AZ) VPC相关,包括子网,互联网网关 ,NAT,网络ACL,安全组等 负载均

    2023年04月08日
    浏览(46)
  • AWS云计算知识检查模块2习题(含答案)

    1、对于某些服务(例如Amazon Elastic Compute Cloud (Amazon EC2)和Amazon Relational Database Service (Amazon RDS)),您可以投资预留容量。以下哪些选项适用于预留实例?(请选择三项。)AURI、NURI、PURI 2、客户在哪里能详细了解3个月前发生的Amazon Elastic Compute Cloud(Amazon EC2)账单活动?Aws Cost Explorer 3、

    2024年02月04日
    浏览(99)
  • AWS云计算技术架构探索系列之七-DevOps

          通过这些年不断的布道和探索,DevOps理念已经深入人心,打破了开发和运维天然隔离,大大提升了效率。    AWS通过提供一系列的工具和框架,实现了对DevIOps的全面支持。如下图所示: 下面我们逐一介绍。      CodeCommit是AWS提供了代码托管服务,它其实就是一个GIT的

    2024年01月22日
    浏览(49)
  • 云计算基础:理解AWS、Azure和Google Cloud

    云计算已经成为现代科技领域的重要驱动力之一。它为企业提供了灵活性、可伸缩性和成本效益,以满足日益增长的计算和存储需求。本文将深入探讨三个主要的云计算提供商:Amazon Web Services (AWS)、Microsoft Azure 和 Google Cloud,帮助您更好地理解这些平台的基础知识和功能。

    2024年02月08日
    浏览(34)
  • Amazon云计算AWS之[1]基础存储架构Dynamo

    面向服务的Amazon平台基本架构 为了保证其稳定性,Amazon的系统采用 完全的分布式、去中心化的架构 作为底层存储架构的Dynamo也同样 采用无中心的模式 Dynamo只 支持简单的键/值(key/value)方式的数据存储 ,不支持复杂的查询 Dynamo中 存储的是数据值的原始形式 ,即按位存储

    2024年04月26日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包