TCGA下载和表达矩阵整理:最适合初学者的教程

这篇具有很好参考价值的文章主要介绍了TCGA下载和表达矩阵整理:最适合初学者的教程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文首发于公众号:医学和生信笔记

医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。

这篇推文适合初学者看,大佬酌情阅读!

从打开网址开始教你一步一步的下载TCGA的数据,图文并茂,真的是详细的不能再详细了!

如果你看完了这篇还不会下载TCGA的数据,那不是你疯就是我疯!

为什么我说最适合初学者,因为使用这个方法下载数据后,只需要2行代码即可完成表达矩阵的整理,同时包含counts/fpkm/tpm,自带gene symbol,而且自带和表达矩阵完全对应的详细临床信息,无需另外下载!

在下载TCGA数据之前,你可能需要一些背景知识,比如TCGA的33癌症简称和英文名,拷贝数变异、单核苷酸多态性、甲基化等的英文,建议自己百度下哦~

下面正式开始:

首先你要到这个网址:https://portal.gdc.cancer.gov/,进入下面这个界面,如果你打不开这个页面,那你的下载大概率也会有问题的,因为这个对网络有要求!

TCGA下载和表达矩阵整理:最适合初学者的教程

打开这个页面后,你需要选择你想要下载的东西,这个数据库下载东西逻辑是很清晰的,比如你想要下载TCGA的直肠癌的常规转录组的mRNA数据,首先你要点击Repository,下面箭头指的两个地方,任意点一个就行,都是一样的:

TCGA下载和表达矩阵整理:最适合初学者的教程

点完了之后会进入到这个界面:

TCGA下载和表达矩阵整理:最适合初学者的教程

这里你只要关注左侧这一栏的东西就好了,你现在的需求是下载TCGA的直肠癌的常规转录组的mRNA数据,所以你需要先找到TCGA的直肠癌,点击Cases

重点来了!!!这里是决定你能不能用2行代码整理表达矩阵的关键!!

有的教程会让你在Primary Site中找到直肠癌,勾选它,像下图这样,但我建议你直接跳过这一步!!!

TCGA下载和表达矩阵整理:最适合初学者的教程
TCGA下载和表达矩阵整理:最适合初学者的教程

但是我建议你直接跳过上面这一步!!直接在Project里面选中TCGA-READ即可,不要在Primary Site中勾选任何东西!!

TCGA下载和表达矩阵整理:最适合初学者的教程

这样Cases这边的选项就选好了,其他东西就不用选了,比如Disease Type/Gender/Age at Diagnosis等等

下一步就是到Files里面选择数据类型,你想要的转录组的的mRNA数据,所以先点击Files,然后在下面的Data Category里面选择transcriptome profiling,在Data Type里面选择Gene Expression Quantification

TCGA下载和表达矩阵整理:最适合初学者的教程

OK,到这里你就选择好你想要的数据了:TCGA的直肠癌的常规转录组的mRNA数据,其他的都不用选了,你可以看到一共177个文件!

下一步,把你的所有数据添加到购物车,也就是点击右侧Add All Files to Cart,点完之后你的右上角购物车会出现数字,就像下面这样:

TCGA下载和表达矩阵整理:最适合初学者的教程

加入购物车之后,点击Cart,进入下面的下载界面,这个界面内容很多,比如167个cases,177个files,747.58M,还有各种下载选项,都给你标出来了。

TCGA下载和表达矩阵整理:最适合初学者的教程

此时,你点击Download,下面会出现Manifest和Cart的选项。

你如果选择Cart,会下载一个压缩包,里面就是你选择好的177个文件。点击Cart会下载下图中标号1的文件,解压后得到标号2的文件,把2继续解压,就得到标号为3的文件夹:TCGA下载和表达矩阵整理:最适合初学者的教程

打开这个文件夹,里面就是你的178个文件,因为多了一个Manifest文件。

TCGA下载和表达矩阵整理:最适合初学者的教程

如果你的网络不错,直接下载Cart其实是非常简单的方法,比如我这里177个文件,700多M,不到10分钟就下载完了!:smile:下载完成后你如果需要整理成表达矩阵,那你还需要点击Metadata,下载一个metadata文件!

TCGA下载和表达矩阵整理:最适合初学者的教程

这个metadata是json格式的,里面记录着文件名和样本名的对应关系,整理成表达矩阵需要这个文件。

如果你选择了Manifest,那么会下载一个manifest文件(这个文件内容和上面通过cart方式下载得到的MANIFEST文件内容完全一样):

TCGA下载和表达矩阵整理:最适合初学者的教程

这个文件里面包含了你选择好的177个文件的信息,有了它,你就可以用GDC官方推荐的gdc client工具下载了,后面我们会说怎么用这个文件进行下载。如果你要整理成表达矩阵,那你还需要点击Metadata,下载一个metadata文件!

除此之外,你还可以在这个界面下载临床信息,点击Clinical,下载TSV格式的临床数据。

TCGA下载和表达矩阵整理:最适合初学者的教程

其他的数据用处不大,可以不用下载。

下面说说如何用GDC官方推荐的gdc client工具进行下载。

首先,需要到gdc client的下载地址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool,下载这个软件,往下拉即可看到各个平台的版本:

TCGA下载和表达矩阵整理:最适合初学者的教程

左边的是命令行版本,右边是图形化界面,可以用鼠标点点点的那种!

我先给大家演示下点点点的版本,适合不会写代码的人!根据你的系统,下载合适的版本,比如我是Windows,我就下载了下面这个:

TCGA下载和表达矩阵整理:最适合初学者的教程

然后解压它,安装它,打开它,就会出现下面这个界面:

TCGA下载和表达矩阵整理:最适合初学者的教程

点击那个Select Manifest File,会让你选择你的manifest文件,也就是上一步下载的那个,选好之后会出现下面的界面:

TCGA下载和表达矩阵整理:最适合初学者的教程

稍等片刻,如果你的网络没问题就会变成下面这个界面,然后你点击右下角的Download就可以下载了(下载前你可以先设置下,见下一张图),下载过程会告诉你一共多少几个,下载中几个,失败几个,停止几个,完成几个等,非常清晰明了:

TCGA下载和表达矩阵整理:最适合初学者的教程

下载前可以先进行一些设置:比如更改你的保存路径,每次下载的大小,自动重连的次数等等,改好之后记得点击Save Settings

TCGA下载和表达矩阵整理:最适合初学者的教程

都设置好之后,点击Download即可愉快的下载了!

如果有失败的,会在下面显示,直接选中继续下载即可:

TCGA下载和表达矩阵整理:最适合初学者的教程

下载完之后也是177个文件:

TCGA下载和表达矩阵整理:最适合初学者的教程
image-20220912190839901

这个方法本质上和命令行版本的gdc client没有区别!

这个点点点的图形化界面真的太香了,这不比命令行版本的gdc client香多了么!还要命令行那么复杂的东西干啥??

根据这个教程下载后,可以无缝衔接另一篇教程:只要2行代码即可整理成表达矩阵!

TCGA傻瓜版下载教程未完待续,下一次说说怎么用gdc client的命令行进行下载,后面还会介绍如何整理成表达矩阵!

万里长城第一步,这才开始!

本文由 mdnice 多平台发布文章来源地址https://www.toymoban.com/news/detail-400700.html

到了这里,关于TCGA下载和表达矩阵整理:最适合初学者的教程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 有哪些适合初学者的编程语言?

    那为什么我还要教你C语言呢?因为我想要让你成为一个更好、更强大的程序员。如果你要变得更好,C语言是一个极佳的选择,其原因有二。首先,C语言缺乏任何现代的安全功能,这意味着你必须更为警惕,时刻了解真正发生的事情。如果你能写出安全、健壮的C代码,那你就

    2024年02月09日
    浏览(66)
  • 【001-Java基础练习】-适合初学者的练习

    用于巩固java基础知识,初学者多练多敲,熟悉代码,熟悉语法就ok。 练习1、从控制台获取Java、ps、HTML三门课程的成绩,计算总分和平均分(平均分保留2位小数,要求四舍五入),输出总分和平均分 练习2、控制台输入学生信息,学号 姓名 性别 年龄,控制台展示学生信息如

    2024年02月01日
    浏览(47)
  • CentOS 7安装全解析:适合初学者的指导

    目录 前言 一.centos安装 1.下载镜像文件 2.安装   二.远程连接,换源 1.下载并且使用MobaXtermMobaXterm free Xserver and tabbed SSH client for Windows (mobatek.net)https://mobaxterm.mobatek.net/ 远程连接 2.换源 在当今的信息化时代,服务器操作系统扮演着至关重要的角色。无论是搭建个人网站、部署

    2024年01月23日
    浏览(60)
  • 适合初学者的 7 个有趣的区块链项目创意

    许多人认为区块链是为比特币提供动力的技术,但它的范围远不止于此。 简单来说,它是一个分布式数据库,维护着所有已执行交易的记录,并在参与方之间共享。在这里,在本文中,我们将讨论一些可以在区块链中实现的最有趣的项目想法。但在此之前,让我们先了解一下

    2024年02月02日
    浏览(49)
  • “C“浒传——初识C语言(更适合初学者体质哦!)

    第一章  “C“浒传——初识C语言(更适合初学者体质哦!) 目录 系列文章目录    前言  一、什么是C语言 二、第一个C语言程序  三、数据类型 四、变量,常量 4.1 定义变量的方法 4.1.1 变量的命名 4.2 变量的分类 4.3 变量的使用 4.4 变量的作用域和生命周期 4.4.1 作用域

    2024年02月07日
    浏览(58)
  • 2023 年 7 个适合初学者的 Vue.js 教程

    这个精心挑选的列表将帮助 Vue 初学者找到七个很棒的资源来开始学习 Vue。 我相信你来这里是为了寻找一些资源来开始学习 Vue.js 框架的奇妙旅程,无论是作为第一个工具还是你熟悉的其他框架的附加工具。不管怎样,你很幸运,因为这就是我们将在这篇文章中介绍的内容。

    2024年02月12日
    浏览(58)
  • 7 个适合初学者的项目,可帮助您开始使用 ChatGPT

    推荐:使用 NSDT场景编辑器快速搭建3D应用场景 从自动化日常任务到预测复杂模式,人工智能正在重塑行业并重新定义可能性。 当我们站在这场人工智能革命中时, 我们必须了解它的潜力并将其整合到我们的日常工作流程中。 然而。。。我知道开始使用这些新技术可能会让

    2024年02月09日
    浏览(77)
  • 【MySQL】MySQL事务保姆级教程(适合MySQL初学者学习)

    🧑‍💻作者名称:DaenCode 🎤作者简介:啥技术都喜欢捣鼓捣鼓,喜欢分享技术、经验、生活。 😎人生感悟:尝尽人生百味,方知世间冷暖。 📖所属专栏:重温MySQL 无论是在校招、社招,亦或者大学计算机专业、软件工程等相关面试或者考试中,MySQL事务的相关知识都是必

    2024年02月16日
    浏览(78)
  • python爬虫——爬取豆瓣top250电影数据(适合初学者)

    爬取豆瓣top250其实是初学者用于练习和熟悉爬虫技能知识的简单实战项目,通过这个项目,可以让小白对爬虫有一个初步认识,因此,如果你已经接触过爬虫有些时间了,可以跳过该项目,选择更有挑战性的实战项目来提升技能。当然,如果你是小白,这个项目就再适合不过

    2024年02月07日
    浏览(76)
  • 适合初学者的机器学习开源项目合集(已加入Github加速计划)

    AI时代已经来临,机器学习成为了当今的热潮。但是,很多人在面对机器学习时却不知道如何开始学习。 今天,我为大家推荐几个适合初学者的机器学习开源项目,帮助大家更好地了解和掌握机器学习的知识。这些项目都是开源的,且已经加入了 Github加速计划 ,可以 快速下

    2024年01月18日
    浏览(65)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包