GEO数据挖掘(一)基础介绍

这篇具有很好参考价值的文章主要介绍了GEO数据挖掘(一)基础介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

生信技能树学徒学习第二周

一、GEO数据库简介

       GEO全称Gene Expression Omnibus data base,由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库(通过NCBI首页,All Databases下拉框中选择GEO DataSets)。收录了世界各国研究机构提交的高通量基因表达数据。2000年开始建立的时候,主要是表达芯片数据,但是之后随着数据库的流行,逐渐扩展业务到许多其它的高通量数据,比如:甲基化(genome methylation),染色质结构(chromatinstructure),基因组-蛋白交互作用(genome-protein interaction)等。

geo数据库,数据挖掘,数据分析,人工智能

我们寻找数据集时注意以下三个信息:

GEO Series (GSE):研究项目的ID,我们可以通过搜索研究的id号来找到相关的基因数据集

GEO Sample (GSM) :样本ID号,同一个数据集中每个样品ID是不同的,在后续分析中我们也可以获取到不同样品的处理方式和基本信息

GEOPlatform (GPL) 芯片平台:不同芯片平台的基因注释是有差异的,正确的基因平台注释我有助于下游分析的成功

基因芯片是通过基因探针与序列的结合来,来确定基因的表达

二、GEO数据挖掘的分析思路

1.实验数据设计

实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学的现象

通过实验组与对照组的比较→找出差异基因→找差异基因的功能/找差异基因之间的关联→解释差异

2.数据分析思路

geo数据库,数据挖掘,数据分析,人工智能

三、图表介绍

1.热图

        热图通过将数据矩阵中的各个值按一定规律映射为颜色展示,利用颜色变化来可视化比较数据。当应用于数值矩阵时,热图中每个单元格的颜色展示的是行变量和列变量交叉处的数据值的大小;若行为基因,列为样品,则是对应基因在对应样品的表达值;若行和列都为样品,展示的可能是对应的两个样品之间的相关性;同样的,若行名和列名都为基因,也可以展示两个对应基因之间的相关性。当然,行列之间也不必须是这二类。

       不同样品组代表性基因的表达差异、不同样品组代表性化合物的含量差异、不同样品之间的两两相似性。实际上,任何一个表格数据都可以转换为热图展示。
 

geo数据库,数据挖掘,数据分析,人工智能

热图输入的数据,需要是数据库或者数值型矩阵

颜色变化表示数值大小

2.散点图和箱式图

箱式图是将散点图更居像的一种表现,用于表现单基因在不同样品之间的表达量差异

geo数据库,数据挖掘,数据分析,人工智能

要理解箱式图的几个要素,以及离群点的出现

3.火山图

       用于多基因表达量的组间差异分析

       通过规定Foldchange值和P value值来规定火山图的阈值,来帮助我们找到差异基因

       其中 Foldchange(FC):处理组平均值/对照组平均值 logFoldchange(logFC):Foldchange取log2

       Foldchange>0,treat>control,差异基因表达量上调

       Foldchange<0,treat<control,差异基因表达量下调

geo数据库,数据挖掘,数据分析,人工智能

4.主成分分析

       运用降维思想,将多指标转换为少数几个综合指标(即主成分)

       PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。

根据这些对主成分进行聚类,代表样本的点在坐标轴上越远,说明样本差异越大。

geo数据库,数据挖掘,数据分析,人工智能

       如本图,一个样本有四个特征,也就是数据往往是多维的,我们采用降维的思想,将样本最大的特征保留下来,以便观察他们的差异geo数据库,数据挖掘,数据分析,人工智能                  图上点代表样本,点与点之间的距离代表样本与样本之间的差异

PCA主要用于“预实验”简单查看组间是否有差别

同一分组形成一簇(反映组内差异)

中心点之间距离(反映组间差别)文章来源地址https://www.toymoban.com/news/detail-539456.html

到了这里,关于GEO数据挖掘(一)基础介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [架构之路-174]-《软考-系统分析师》-5-数据库系统-7-数据仓库技术与数据挖掘技术

    数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。近年来,人们对数据仓库技术的关注程度越来越尚,其原因是过去的几十年中 ,建设了无数的应用系统,积累了大量的数据,但这些数据没有得到很好的利用,有时反而成为企

    2023年04月23日
    浏览(66)
  • Elasticsearch 对比传统数据库:深入挖掘 Elasticsearch 的优势

    当你为项目选择数据库或搜索引擎时,了解每个选项的细微差别至关重要。 今天,我们将深入探讨 Elasticsearch 的优势,并探讨它与传统 SQL 和 NoSQL 数据库的比较。 Elasticsearch 以强大的 Apache Lucene 库为基础,是一个分布式搜索和分析引擎。 它以其速度、可扩展性以及快速索引

    2024年02月10日
    浏览(44)
  • 【数据挖掘】国科大苏桂平老师数据库新技术课程作业 —— 第四次作业

    云计算与云数据库背景 云计算(cloud computing)是 IT 技术发展的最新趋势,正受到业界和学术界的广泛关注。云计算是在分布式处理、并行处理和网格计算等技术的基础上发展起来的,是一种新兴的共享基础架构的方法。它可以自我维护和管理庞大的虚拟计算资源(包括计算

    2024年02月04日
    浏览(50)
  • Redis GEO功能详细介绍与实战

    Redis的Geo功能主要用于存储地理位置信息,并对其进行操作。该功能在Redis 3.2版本新增。Redis Geo操作方法包括: geoadd:添加地理位置的坐标; geopos:获取地理位置的坐标; geodist:计算两个位置之间的距离; georadius:根据用户给定的经纬度坐标来获取指定范围内的地理位置集

    2024年02月07日
    浏览(36)
  • 基本介绍——数据挖掘

    1.数据挖掘的定义 数据挖掘是采用数学的、统计的、人工智能和神经网络等领域的科学方法,如记忆推理、聚类分析、关联分析、决策树、神经网络、基因算法等技术,从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建

    2024年02月10日
    浏览(49)
  • 信息检索与数据挖掘 |(一)介绍

    信息检索是从 大规模非结构化数据 (通常是文本)的集合(通常保存在计算机上)中找出 满足用户信息需求的资料 (通常是文档)的过程。 结构化数据 倾向于引用“表格”中的信息,通常允许数值范围和精确匹配查询。 非结构化数据 通常引用自由文本,指的是那些没有

    2024年02月09日
    浏览(39)
  • 【数据挖掘竞赛】零基础入门数据挖掘-二手汽车价格预测

    目录 一、导入数据  二、数据查看 可视化缺失值占比  绘制所有变量的柱形图,查看数据 查看各特征与目标变量price的相关性 三、数据处理  处理异常值 查看seller,offerType的取值 查看特征 notRepairedDamage   异常值截断  填充缺失值   删除取值无变化的特征 查看目标变量p

    2023年04月27日
    浏览(57)
  • 泰迪大数据挖掘建模平台功能特色介绍

    大数据挖掘建模平台面相 高校、企业级别用户快速进行数据处理的建模工具 。   大数据挖掘建模平台介绍      平台底层算法基于R语言、Python、Spark等引擎,使用JAVA语言开发,采用   B/S 结构,用户无需下载客户端,可直接通过浏览器进行访问;且在没有编程基础的情况下

    2024年02月12日
    浏览(60)
  • 数据采集:数据挖掘的基础

    ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者: 秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们 点赞👍🏻、收藏

    2024年02月08日
    浏览(42)
  • GEO数据下载方法

    GEO(GENE EXPRESSION OMNIBUS),https://www.ncbi.nlm.nih.gov/geo/,由美国国立生物技术信息中心NCBI创建维护的,是个公开的基因数据库,包含了测序和芯片数据。在前面,我们介绍过利用GEO数据库进行芯片数据检索,今天我们再进一步细化,如何利用GEO数据库下载信息。GEO数据包括五种

    2024年02月15日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包