如何快速下载GEO数据并获取其表达矩阵与临床信息

这篇具有很好参考价值的文章主要介绍了如何快速下载GEO数据并获取其表达矩阵与临床信息 | 附完整代码 + 注释。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

GEO数据库可以说是大家使用频率贼高的数据库啦！那它里面的数据怎么下载大家知道嘛！今天给大家展示一种快速获取它的表达矩阵和临床信息的方法！

话不多说！咱们直接开始！

GEO编号获取

在GEO数据库中，你找到了你需要的数据，接下来怎么办嘞！下载它！处理它！

比如，咱们今天需要的数据是这个：

如何快速下载GEO数据并获取其表达矩阵与临床信息 | 附完整代码 + 注释,数据挖掘,数据挖掘,r语言,学习,数据库,数据可视化

GEO编号这不就有咯！咱们开始下载！噢对，提前吱一声，芯片数据和非芯片数据进行ID转换的时候方法不太一样，大家要注意噢！我今天会都给大家演示一下！

GEO数据库今天咱就不介绍了哈！我后面再专门出一期超级详细地介绍它！迫切的小伙伴可以在后台或群里催我哈哈哈哈哈哈哈哈！

另外注意：不是所有的GEO数据集都可以使用这种方法下载。不过通常来说，大部分的GEO数据集都可以通过getGEO函数进行下载，但也有一些例外情况，特别是单细胞数据[无奈脸]！多数情况下，应该是数据集可能不是以类似的格式存储，或者有的作者上传格式不对等等，所以就需要找其他办法或者手动下载啦！

建议就是先试试这种方法，要是里面是空的，就去手动或者其他！

数据下载

芯片数据

#################### GEO数据下载及表达矩阵与临床信息获取 #######################

# 加载包，没有安装的记得安装一下哟！
library(tidyverse)
library(GEOquery)
library(tinyarray)

# 芯片数据

# GEO编号，替换成你自己的就好啦！
geo_number = "GSE66360"

# 这一步啊，看运气！网络时好时坏，是个玄学！一次不行不要慌！咱多跑几次！总会成功的！
geo_data <- getGEO(geo_number, destdir = './', getGPL = F) # 自己设置想保存的路径
geo_data0 <- geo_data[[1]]

数据长这样！

如何快速下载GEO数据并获取其表达矩阵与临床信息 | 附完整代码 + 注释,数据挖掘,数据挖掘,r语言,学习,数据库,数据可视化

# 提取表达矩阵
exp <- exprs(geo_data0)
dim(exp)
# [1] 54675    99

exp[1:4, 1:4]
#           GSM1620819 GSM1620820 GSM1620821 GSM1620822
# 1007_s_at   5.866378   4.948736   5.148384   5.064419
# 1053_at     8.225790   7.525865   7.764637   7.198461
# 117_at      6.179732   6.628137   5.859151   5.974135
# 121_at      6.179478   6.582889   6.602135   6.545905

# 可以看到这里还是探针ID，咱们后给它面转换为基因symbol！

# 可以自行判断是否需要log
exp <- log2(exp + 0.01)

# 接下来我们进行ID转换

# 探针注释获取
gpl_number <- geo_data0@annotation
ids <- AnnoProbe::idmap(gpl_number)
head(ids)
#         probe_id symbol
# 193731   1053_at   RFC2
# 193732    117_at  HSPA6
# 193733    121_at   PAX8
# 193734 1255_g_at GUCA1A
# 193735   1316_at   THRA
# 193736   1320_at PTPN21

# ID转换
exp <- as.data.frame(exp)
exp$probe_id <- rownames(exp)
exp <- inner_join(ids, exp, by = "probe_id")
exp <- exp[!duplicated(exp$symbol), ] # 关于重复基因去重的问题，咱们后面专门出一期介绍！这里先用最大道至简的方法！
rownames(exp) <- exp$symbol
exp <- exp[ , -c(1,2)]
head(exp)[1:4, 1:4]
#        GSM1620819 GSM1620820 GSM1620821 GSM1620822
# RFC2     3.041907   2.913773   2.958775   2.849691
# HSPA6    2.629877   2.730778   2.553152   2.581143
# PAX8     2.629818   2.720911   2.725116   2.712795
# GUCA1A   1.486482   1.436010   1.373053   1.444733

# 提取临床信息
cli <- pData(geo_data0)
head(cli)[1:4, 1:6]
#                               title geo_accession                status submission_date last_update_date type
# GSM1620819 Muse_1_DISCOVERY_Control    GSM1620819 Public on Feb 28 2015     Feb 27 2015      Feb 28 2015  RNA
# GSM1620820 Muse_2_DISCOVERY_Control    GSM1620820 Public on Feb 28 2015     Feb 27 2015      Feb 28 2015  RNA
# GSM1620821 Muse_3_DISCOVERY_Control    GSM1620821 Public on Feb 28 2015     Feb 27 2015      Feb 28 2015  RNA
# GSM1620822 Muse_4_DISCOVERY_Control    GSM1620822 Public on Feb 28 2015     Feb 27 2015      Feb 28 2015  RNA

# 为了后续分析，咱还可以给它进一步调整，使表达矩阵列名和临床信息的行名完全一致
p <- identical(rownames(cli), colnames(exp))
p
# [1] TRUE

# 噢啦！

# 噢不！还没结束！那万一不是芯片数据怎么办呢！咱们再演示一个！

非芯片数据

# 非芯片数据

# 比如这个GEO数据集
geo_number = "GSE16561"

# 这一步啊，看运气！网络时好时坏，是个玄学！一次不行不要慌！咱多跑几次！总会成功的！
geo_data <- getGEO(geo_number, destdir = './', getGPL = F)
geo_data0 <- geo_data[[1]]

# 提取表达矩阵
exp <- exprs(geo_data0)
dim(exp)
# [1] 54675    99

exp[1:4, 1:4]
#                GSM416528  GSM416529  GSM416530   GSM416531
# ILMN_1343291  0.22550488  0.7348099  0.7431908  0.63261986
# ILMN_1651209 -0.03326082  0.5184302  0.5990343  0.25144434
# ILMN_1651228 -0.20895290 -0.9036322 -0.3511963 -0.06179523
# ILMN_1651229  0.18835354  0.3693209  0.3938241  0.14767408

# # 可以自行判断是否需要log
# exp <- log2(exp + 1)

# 大家可以看到这玩意儿不是探针，那咱们怎么办呢！

接下来我们进行非芯片数据的ID转换！

在你的GEO数据集的主页，可以看见下面这个红框框的地方！这里代表测序平台（咱们后面会在超详细介绍GEO数据库的时候给大家进行介绍这部分内容），直接点进去就好！

如何快速下载GEO数据并获取其表达矩阵与临床信息 | 附完整代码 + 注释,数据挖掘,数据挖掘,r语言,学习,数据库,数据可视化

长这样！别急！往下滑滑！

如何快速下载GEO数据并获取其表达矩阵与临床信息 | 附完整代码 + 注释,数据挖掘,数据挖掘,r语言,学习,数据库,数据可视化

哎对！就是这里！点红框框的地方！下载下来！

来！咱们继续看看怎么搞！

# 文件下载地址：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL6883
ids <- data.table::fread("./GPL6883-11606.txt")

# ID转换
exp <- as.data.frame(exp)
exp$ID <- rownames(exp)
ids <- ids[ , c(1,12)] # 注意：这里选择的是与表达矩阵行名相匹配的列和基因symbol列
exp <- inner_join(ids, exp, by = "ID")
exp <- exp[!duplicated(exp$Symbol), ]
exp <- as.data.frame(exp)
rownames(exp) <- exp$Symbol
exp <- exp[ , -c(1,2)]
head(exp)[1:4 ,1:4]
#              GSM416528  GSM416529   GSM416530  GSM416531
# JMJD1A    -0.401840200 -0.2110777 -0.42790460 -0.4261866
# NCOA3      0.296299930 -0.3155098 -0.01228809  0.5331011
# LOC389834 -0.001213074  0.5300436  0.55930424  0.2009177
# SPIRE2     0.127047540  0.5759945  0.45181800  0.4050984

# 噢啦！

# 老步骤！

# 提取临床信息
cli <- pData(geo_data0)
head(cli)[1:4, 1:6]
#                    title geo_accession                status submission_date last_update_date type
# GSM416528 3100083_Stroke     GSM416528 Public on Jun 01 2010     Jun 11 2009      Jun 11 2009  RNA
# GSM416529 3100191_Stroke     GSM416529 Public on Jun 01 2010     Jun 11 2009      Jun 11 2009  RNA
# GSM416530 3100068_Stroke     GSM416530 Public on Jun 01 2010     Jun 11 2009      Jun 11 2009  RNA
# GSM416531 3100060_Stroke     GSM416531 Public on Jun 01 2010     Jun 11 2009      Jun 11 2009  RNA

# 为了后续分析，咱还可以给它进一步调整，使表达矩阵列名和临床信息的行名完全一致
p <- identical(rownames(cli), colnames(exp))
p
# [1] TRUE