新版TCGA表达矩阵1行代码提取2.0版

这篇具有很好参考价值的文章主要介绍了新版TCGA表达矩阵1行代码提取2.0版。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

配合视频教程使用更佳:【1行代码提取6种TCGA表达矩阵和临床信息】 https://www.bilibili.com/video/BV12R4y197Ne/?share_source=copy_web&vd_source=abc21f68a9e2a784892483fd768dbafa

之前写了一个脚本,可以让大家1行代码提取6种类型的表达矩阵以及对应的临床信息。但是很多人完全看不见注意事项或者根本看不懂,所以我决定改动一下。

上一版的脚本主要报错是这个:

Error in GDCprepare(query, save = T, save.filename = "tcga_read.rdata") : 
  I couldn't find all the files from the query. Please check if the directory parameter is right or `GDCdownload` downloaded the samples.

原因无非就是3种可能:

  • TCGAbiolinks的版本不是2.25.1以上
  • 路径不对
  • 下载的方式不正确

首先解决R包版本的问题

你可以用以下代码检查自己的TCGAbiolinks包的版本:

packageVersion("TCGAbiolinks")
## [1] '2.25.2'

如果是在2.25.1以下,需要安装开发版本的TCGAbiolinks包,安装方法如下:

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("BioinformaticsFMRP/TCGAbiolinksGUI.data")
BiocManager::install("BioinformaticsFMRP/TCGAbiolinks")

安装完成后,重新使用packageVersion("TCGAbiolinks")查看版本。

如果你用上面的安装代码报错,那么你的R语言基础可能不过关,你需要参考以下教程:可能是最好用的R包安装教程!

然后是路径问题

**路径必须要正确,你位置都搞错了,代码找不到你放文件的位置,那肯定是报错!**路径设置可以参考这篇推文:手动下载的TCGA也是可以用TCGAbiolinks整理的。

我在里面说的非常清楚,你的文件路径必须是在GDCdata\TCGA-COAD\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification这个路径下,而且脚本getTCGAexpr.r必须和GDCdata在同一个文件夹下!!!!

新版TCGA表达矩阵1行代码提取2.0版

下载方式问题

如果你是直接用TCGAbiolinks下载的数据,那么路径一般不会有大问题,只要你把脚本和GDCdata放在同一个文件夹下就行了。

如果你是在官网下载的,或者用gdc_clinet下载的,就必须按照这篇推文介绍的方法进行选择:可能是最适合初学者的TCGA数据下载教程,**命令行或者图形界面都可以,关键是选择的时候一定要选对!!**如果没选对,就会出现开头所示的报错!!


以上3个问题,我在脚本使用注意里都明确说明了,实在是不懂为什么还有那么多问题!!!

2.0版本

我觉得有一部分是我的原因,作为一个已经学会的人,我已经忘记了自己不会的时候是什么样子,现在也无法理解初学者为什么会遇到那么多报错。

所以我改了一下脚本,1行代码下载并整理6种类型的TCGA表达矩阵和临床信息!!

主要是以下改进:

  • 在任何位置都可以运行,不需要构建路径!
  • 会自动下载数据,不需要手动下载

2.0版本的脚本我也放在了QQ群里,需要的加群下载即可。

使用方法和之前一模一样!!

但我还是建议你先看一下使用注意!!

  • 需要良好的网络
  • TCGAbiolinks包的版本必须要在2.25.1以上

下面是使用方法:

加载需要的R包:

library(TCGAbiolinks)
library(SummarizedExperiment)
library(tidyverse)

加载脚本"getTCGAexpr.r":

source("getTCGAexpr.r")

使用函数,需要提供TCGA的癌症简称,比如:TCGA-LUSC。

getTCGAexpr(project = "TCGA-LUSC")

这个脚本会自动从GDC官网下载最新的数据,所以需要联网,如果你的网络不好,可以手动下载,按照这篇推文自己构建合适的路径:xxxxxxx,它也可以成功!

完成后会在当前目录多出一个output_expr文件夹,里面就是6个表达矩阵和临床信息

新版TCGA表达矩阵1行代码提取2.0版文章来源地址https://www.toymoban.com/news/detail-429781.html

  • TCGA-LUSC_expr.rdata:原始的se对象,所有信息都是从这里面提取的;
  • TCGA-LUSC_clinical.rdata:TCGA-LUSC的临床信息;
  • TCGA-LUSC_lncRNA_expr_counts.rdata:lncRNA的counts矩阵;
  • TCGA-LUSC_lncRNA_expr_fpkm.rdata:lncRNA的fpkm矩阵;
  • TCGA-LUSC_lncRNA_expr_tpm.rdata:lncRNA的tpm矩阵;
  • TCGA-LUSC_mRNA_expr_counts.rdata:mRNA的counts矩阵;
  • TCGA-LUSC_mRNA_expr_fpkm.rdata:mRNA的fpkm矩阵;
  • TCGA-LUSC_mRNA_expr_tpm.rdata:mRNA的tpm矩阵;

到了这里,关于新版TCGA表达矩阵1行代码提取2.0版的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

    使用场景 1.已经确定研究的基因,但是想探索他潜在的功能,可以通过跟这个基因表达最相关的基因来反推他的功能,这种方法在英语中称为 guilt of association,协同犯罪 。 2.我们的注释方法依赖于TCGA大样本,既然他可以注释基因,那么任何跟肿瘤相关的基因都可以被注释,

    2024年02月01日
    浏览(60)
  • 标准DH坐标系,改进DH坐标系转换矩阵matlab函数代码2.0

    1.标准DH坐标系(Standard DH) 2.改进DH坐标(modified DH)

    2024年02月13日
    浏览(34)
  • 【ANSYS APDL】提取结构刚度矩阵完整过程--附Python代码实现

    在这里简要回顾一下结构力学知识,可参考朱慈勉老师的《结构力学》 结构刚度矩阵来源于 矩阵位移法 ,其中包括单元刚度矩阵,总刚度矩阵,结构刚度矩阵。在二维问题求解过程中,依次计算三者,最后求解可得到所有的节点位移 U 。该过程也称为 直接刚度法 ,分析步

    2024年01月25日
    浏览(84)
  • 提取视频中的音频 Python只需要三行代码!

    身处数据爆炸增长的信息时代,各种各样的数据都飞速增长,视频数据也不例外。我们可以使用 python 来提取视频中的音频,而这 仅仅需要安装一个体量很小的 python 库,然后执行三行代码! 语音数据在数据分析领域极为重要。比如可以分析语义、口音、根据人的情绪等等。

    2023年04月09日
    浏览(39)
  • 【图像处理】海森矩阵(Hessian Matrix)及用例(基于Steger的中心提取_含代码)

    Hess矩阵是一个多元函数的二阶偏导数构成的方阵,描述了函数的 局部曲率 。Hess矩阵经常用在牛顿法中求多元函数的极值问题,将目标函数在某点领域内进行二阶泰勒展开,其中的二阶导数就是Hess矩阵。 应用在图像中,将图像中在某点领域内进行泰勒展开:   F ( x 1 + Δ x

    2023年04月08日
    浏览(43)
  • 如何快速下载GEO数据并获取其表达矩阵与临床信息 | 附完整代码 + 注释

    GEO数据库可以说是大家使用频率贼高的数据库啦!那它里面的数据怎么下载大家知道嘛!今天给大家展示一种快速获取它的表达矩阵和临床信息的方法! 话不多说!咱们直接开始! 在GEO数据库中,你找到了你需要的数据,接下来怎么办嘞!下载它!处理它! 比如,咱们今天

    2024年04月08日
    浏览(94)
  • notepad++配合正则表达式分组模式处理文本转化为sql语句

    一、正则分组知识点补充 正则分组和捕获 ():用于分组和捕获子表达式。 大白话就是()匹配到的数据,通过美元符号加下标可以获取该数据,例如$1、$2, 下标从1开始。 下面的案例就采用该模式处理文本数据 二、使用正则的需求背景 有一份报表的数据,需要把数据入库到m

    2024年02月07日
    浏览(60)
  • vm虚拟机 加密密码 破解术(亲测可用!)(2.0更新版)

    有些时候虚拟机被加密了,就让人很烦,所以这篇博文讲讲怎么破解  首先要用到一个软件叫pyvmx-cracker-master(github可以下载的) 由于很多人私信我要软件,所以为了方便大家,我把百度链接给大家 链接:https://pan.baidu.com/s/1QE13Vjzxhlc86tBZedNv6g?pwd=ybww 提取码:ybww --来自百度网盘超

    2024年02月05日
    浏览(44)
  • 2023最新版uni-push2.0推送开发php调用

    使用 uni-push 2.0,服务端不支持用个推 api 推送,只能用 dcloud 提供的 服务端(云函数)推送。这就意味着网上很多集成个推sdk的形式已经不使用了。 文档详细记录了unipush2.0配置到最后云函数url化调用的全过程。 需要HBuilderX 3.5.1 及其以上版本支持 unipush基本介绍:https://www.

    2024年02月01日
    浏览(109)
  • 短视频seo源码矩阵系统开源---代码php分享

      1. 研究:通过分析目标观众和相关竞争对手,确定适合的。这有助于提高视频的搜索可见性。 2. 视频标题:使用含有目标的吸引人的标题。确保标题简洁明了,能够准确描述视频内容。 3. 视频描述:在描述中使用,同时提供有关视频内容和相关

    2024年02月10日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包