【python】数据预处理:分位数归一化 Quantile Normalization + INSCODE AI创作助手测试

这篇具有很好参考价值的文章主要介绍了【python】数据预处理:分位数归一化 Quantile Normalization + INSCODE AI创作助手测试。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

写在前面

这里主要了解一下分位数归一化(Quantile Normalization, QN。如无特殊说明时,本文中的QN作为分位数归一化的缩写。

Quantile Normalization 直接翻译是 分位数归一化,但也有翻译为分位数标准化。笔者理解是按直译叫分位数归一化,但是按数据的处理方式,应该叫分位数标准化,按英文的话就一种:Quantile Normalization。之所以有标准化和归一化两种说法,是因为它们是两种不同的处理方式。

本文暂统一名称叫分位数归一化(QN)。

Quantile Normalization 定义来自如下文献:
分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI

标准化/归一化

标准化(standardization)、归一化(normalization)两者总是被混着叫,实际是在做什么处理呢?

先看下Python库中的关于预处理的一些包:
分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI
其中包括了:scaling(缩放), centering(中心化), normalization(归一化), binarization(二值化)。

对于标准化和归一化对应的常用的模块:

  • 标准化 standardization:py模块 StandardScaler 是常用的标准化数据处理,对应z-score标准化公式: z = x − μ s z=\frac{x-\mu}{s} z=sxμ(其中, μ \mu μ是训练样本的均值, s s s是训练样本的标准差)。将原始数据转换为均值为0,方差为1的新数据,也是把数据缩放(scaling)到特定区间上。该处理从公式计算上解读为:当前数据比总体均值多了几个标准差;从数据整体上解读为:把原数据标准化缩放为服从标准正态分布的数据。

  • 归一化 normalization:py模块 MinMaxScaler是比较常用的归一化方法:min-max归一化, x ∗ = x i − x m i n x m a x − x m i n x^*=\frac{x_i− x_{min}}{x_{max} − x_{min}} x=xmaxxminxixmin

z-score标准化示例

# sklear包中的zscore
from sklearn.preprocessing import StandardScaler
data = [[0, 0], [0, 0], [1, 1], [1, 1]]
scaler = StandardScaler()
print(scaler.fit(data))
scaler.fit_transform(data)

使用scipy包中的zscore,对dataframe数据直接进行zscore标准,好处是标准化后的index/columns还在,而使用sklear的标准化处理后,返回的是数组array。[chatGPT]:

import pandas as pd
from scipy.stats import zscore

# 创建训练数据的示例DataFrame
train_data = {'A': [1, 2, 3, 4, 5],
              'B': [10, 20, 30, 40, 50],
              'C': [100, 200, 300, 400, 500]}
train_df = pd.DataFrame(train_data)

# 创建测试数据的示例DataFrame
test_data = {'A': [6, 7, 8, 9, 10],
             'B': [60, 70, 80, 90, 100],
             'C': [600, 700, 800, 900, 1000]}
test_df = pd.DataFrame(test_data)

# 对训练数据进行Z-score标准化
train_df_standardized = train_df.apply(zscore)

# 使用训练数据的均值和标准差对测试数据进行标准化(注意使用训练数据的统计量)
test_df_standardized = (test_df - train_df.mean()) / train_df.std()

print("训练数据标准化结果:")
print(train_df_standardized)
print("\n测试数据标准化结果:")
print(test_df_standardized)

python模块qnorm实现分位数归一化

仔细看Python的sklearn库中(# 标准化/归一化 部分的截图),会发现这里没有分位数归一化的包。是的,sklearn里没有QN。需要先安装qnorm(qnorm安装包官网),安装命令为:pip install qnorm。使用示例如下:

import pandas as pd
import qnorm

df = pd.DataFrame({'C1': {'A': 5, 'B': 2, 'C': 3, 'D': 4},
                   'C2': {'A': 4, 'B': 1, 'C': 4, 'D': 2},
                   'C3': {'A': 3, 'B': 4, 'C': 6, 'D': 8}})

print(qnorm.quantile_normalize(df, axis=1))

执行后可得到:
分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI

R代码实现分位数归一化

最初测试使用了R代码,在“INSCODE AI创作助手”助手的默认实现方式中也使用了R。(做分位数归一化处理可能用R的比较多)

代码中使用到R包preprocessCore

df <- data.frame(one=c(5,2,3,4),
                 two=c(4,1,4,2),
                 three=c(3,4,6,8)
)
rownames(df) <- c('f1', 'f2', 'f3', 'f4')

df

preprocessCore::normalize.quantiles(x=as.matrix(df))

执行后得到:
分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI

分位数归一化 - NSCODE AI创作助手的回答

上面的代码直接执行就能得到相应的数据,下面是通过“NSCODE AI创作助手”了解更多分位数归一化相关的知识。

想了解一个概念最好的方式,就是通过提问并回答这个3W1H:Waht/Why/When/How … the “A”?

  1. 什么是分位数归一化(What)
  2. 为什么要做分位数归一化(Why)
  3. 什么时候做分位数归一化(When)
  4. 怎么做分位数归一化(How)

试试“INSCODE AI创作助手”给出的一些解答:

提问示例:
分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI

来自 InsCode AI创作助手 的回答:(结果还是挺出乎意料的)

Q1:Quantile Normalization是什么?

Quantile normalization是一种用于处理高通量基因表达数据的方法。它通过对所有样本的数据进行排序,并将排序后的数据进行归一化,从而消除任何来自各个样本之间的数据不一致性的影响。基本思路是将每个样本的数据值按照从小到大的顺序进行排列,然后将排列后的数据值替换为对应分位数(例如,对于一个样本,将第10个最小值替换为第10个最小分位数)。这个过程使得每个样本的数据分布相同,从而可以进行更好的比较和综合分析。

Q2-1: 什么时候用Quantile normalization?

Quantile normalization是一种数据预处理方法,通常在基因表达数据中使用。当数据集中存在分布不均的情况时,使用Quantile normalization可以将数据集中的样本在数值分布上进行对齐,以消除由于样本差异而带来的数据偏差。因此,当你想要在基因表达数据分析中对不同样本的基因表达数据进行比较时,可能需要使用Quantile normalization来消除样本之间的差异,以确保数据的准确性和可靠性。

Q2-2: 什么时候做Quantile normalization?

Quantile normalization通常在对基因表达数据进行比较分析时使用。具体地说,当你有多个实验组(每组都包含多个样本)且你想比较它们之间的基因表达水平时,通常会使用Quantile normalization进行数据标准化,以消除混杂因素(例如实验批次,RNA提取和扫描阅读器)对实验结果的影响。这样可以使得样本之间的差异仅仅是由于生物学的差异,而不是技术方面的差异所引起的。因此,Quantile normalization 常被用于微阵列和RNA测序数据分析,以减少技术方面的差异对于样本之间的比较所带来的影响。

Q3:为什么要做Quantile Normalization?

Quantile normalization是一种数据标准化方法,它的目的是通过调整数据的排名顺序来消除实验中不同样本之间的技术差异,使得数据能够更好地比较和分析。
在高通量基因表达研究中,由于实验过程、实验条件等因素的不同,不同样本之间的基因表达量数据往往存在一定的不一致性。如果直接进行差异分析或聚类分析等,可能会将这些技术差异误认为是生物差异,导致分析结果出现偏差。因此,需要对数据进行标准化处理,消除这些技术差异。
Quantile normalization的做法是将不同样本中基因表达量的排名顺序进行统一,使得各个样本的数据分布在相同的位置上。这样可以消除技术差异,让不同样本之间成为可比较的数据,提高了分析结果的可信度和稳定性。

Q3问题重新生成:(得到类似但不同的结果)
Quantile normalization是一种常用的数据标准化方法,主要应用于高通量基因表达数据分析中。做Quantile normalization的目的是消除样本之间的技术变异(如批次效应、不同实验处理等)与生物变异对基因表达量的影响,使得样本间的基因表达值具有可比性。
Quantile normalization的具体步骤是将每个样本的基因表达值按照从小到大的顺序排列,然后将排名相同的基因表达值分配给相应的样本,从而使得每个基因在不同样本中的表达值的分布均匀,且每个样本的基因表达量分布保持不变。
通过Quantile normalization,我们可以快速、有效地比较不同样本之间的基因表达量差异,从而有助于进一步发现基因调控机制、诊断疾病等方面的研究。

Q4-1: 如何做Quantile normalization?

Quantile normalization是一种数据标准化方法,用于将不同样本之间的数据分布进行比较和统一。以下是基于R语言的实现方法:

  1. 导入需要进行标准化处理的数据集。
  2. 对数据集进行排序。
data_sorted <- apply(data, 2, sort)
  1. 计算每一行的分位数。
quantiles <- apply(data_sorted, 1, quantile, probs = seq(0, 1, length = nrow(data) + 1))
  1. 对数据集进行标准化。
data_norm <- apply(data, 2, function(x) {
  rank <- order(x)
  quantiles[rank]
})
  1. 对标准化后的数据进行检查。
summary(apply(data_norm, 2, quantile, probs = seq(0, 1, length = nrow(data) + 1)))

以上就是Quantile Normalization的基本实现方法。

对Q4问题竟然直接给出代码的示例还是有些惊喜的,代码是直接实现的,我以为会直接调用归一化处理的R包:preprocessCore,至于代码准确性还有待测试。我还是希望用Python给出答案,就发出提问:

Q4-2: 如何用python做Quantile Normalization?

Quantile normalization是一种常见的数据预处理技术,用于将不同样本或实验的数据进行标准化,使得它们具有相同的分布。下面是一个用Python实现Quantile Normalization的示例代码:

import numpy as np
from scipy.stats import rankdata

def quantile_normalize(data):
    # 对每一列数据进行排序
    sorted_data = np.sort(data, axis=0)

    # 计算每一行的分位数
    row_quantiles = np.mean(sorted_data, axis=1)

    # 对每一列数据进行排序,并将其映射到对应的分位数
    rank_data = rankdata(data, axis=0)
    mapped_data = np.zeros_like(data)
    for i in range(data.shape[1]):
        mapped_data[:, i] = row_quantiles[rank_data[:, i]-1]

    return mapped_data

使用示例:

# 生成随机数据
data = np.random.rand(10, 5)

# 将数据进行Quantile Normalization
normalized_data = quantile_normalize(data)

该函数输入一个矩阵数据,输出一个Quantile Normalization后的矩阵。函数首先对矩阵的每一列进行排序,然后计算每一行的分位数。接着,对于每一列的数据,映射到对应的分位数。最后,输出Quantile Normalization后的矩阵。

python代码比较意外的是还添加了中文注释,不禁有些感叹自己也不一定能短时间写出这些代码。与R脚本相同,并没有使用包,而是根据QN的原理直接实现,至于代码准确性还是需要细节上的修改:
分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI
报错应该是在映射对应的分位数时错误,报错原因是根据索引获取元素时,索引应该是整数,这里rankdata输出的值是浮点型。

根据报错调整代码:

import numpy as np
from scipy.stats import rankdata

def quantile_normalize(data):
    # 对每一列数据进行排序
    sorted_data = np.sort(data, axis=0)

    # 计算每一行的分位数
    row_quantiles = np.mean(sorted_data, axis=1)
    
    # 对每一列数据进行排序,并将其映射到对应的分位数
    rank_data = rankdata(data, axis=0)
    mapped_data = np.zeros_like(data, dtype=float)  #【修改】初始化指定数据类型为浮点型
    for i in range(data.shape[1]):
        # mapped_data[:, i] = row_quantiles[rank_data[:, i]-1]
        mapped_data[:, i] = row_quantiles[[int(i) for i in rank_data[:, i]-1]]  # 【修改】索引为整型
        
    return mapped_data

注意:代码中,当一列(某样本)出现相同值(基因表达值相同)时的排位问题,直接按计算排位均值后下取整数来获取对应值。具体来说:某列有n个相同数值,应排位为并列第m个,此时rankdata对这n个数的排位都是: m + ( m + 1 ) + . . . + ( m + n − 1 ) n \frac{m+(m+1)+...+(m+n-1)}{n} nm+(m+1)+...+(m+n1),比如,有2个数都排位第3个,则在rankdata排位为: 3 + 4 2 = 3.5 \frac{3+4}{2}=3.5 23+4=3.5,代码中取整(int是下取整),则为3;若有3个数都排位第3个,则在rankdata排位为: 3 + 4 + 5 2 = 3 \frac{3+4+5}{2}=3 23+4+5=3,代码中取整,则为排位取3。

但是, 实际排位中,对于相同的值,使用的是排位后对应值的均值(而不是排位的均值)。也就是上面代码还需要进一步完善:对相同值的排位问题

上面调整后的代码执行结果:

分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI

可视化分位数归一化处理前后发生的变化

先直观得看几个示例QN前后的结果,输入数据:

import pandas as pd
import qnorm
df1 = pd.DataFrame({'C1': {'A': 5, 'B': 2, 'C': 3, 'D': 4},
                   'C2': {'A': 6, 'B': 1, 'C': 7, 'D': 9},
                   'C3': {'A': 3, 'B': 4, 'C': 6, 'D': 8}})
dfn1 = qnorm.quantile_normalize(df1, axis=1)

df2 = pd.DataFrame({'C1': {'A': 5, 'B': 2, 'C': 3, 'D': 4},
                   'C2': {'A': 4, 'B': 1, 'C': 4, 'D': 2},
                   'C3': {'A': 3, 'B': 4, 'C': 6, 'D': 8}})
dfn2 = qnorm.quantile_normalize(df2, axis=1)

df3 = pd.DataFrame({'C1': {'A': 5, 'B': 2, 'C': 3, 'D': 4},
                   'C2': {'A': 4, 'B': 1, 'C': 4, 'D': 4},
                   'C3': {'A': 3, 'B': 4, 'C': 6, 'D': 8}})

dfn3 = qnorm.quantile_normalize(df3, axis=1)

分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI
可视化QN前后的数据:

import matplotlib.pyplot as plt

fig, axs = plt.subplots(3, 2)
plt.rcParams.update({'font.size':5})
i = 0
for df, dfn in zip([df1, df2, df3], [dfn1, dfn2, dfn3]):
    axs[i, 0].scatter(range(len(df.T['A'])), df.T['A'], label='A')
    axs[i, 0].scatter(range(len(df.T['B'])), df.T['B'], label='B')
    axs[i, 0].scatter(range(len(df.T['C'])), df.T['C'], label='C')
    axs[i, 0].scatter(range(len(df.T['D'])), df.T['D'], label='D')
    axs[i, 0].legend(loc='upper left', shadow=True)
    axs[i, 0].set_xticks([0, 1, 2], [1, 2, 3])

    axs[i, 1].scatter(range(len(dfn.T['A'])), dfn.T['A'])
    axs[i, 1].scatter(range(len(dfn.T['B'])), dfn.T['B'])
    axs[i, 1].scatter(range(len(dfn.T['C'])), dfn.T['C'])
    axs[i, 1].scatter(range(len(dfn.T['D'])), dfn.T['D'])
    axs[i, 1].set_xticks([0, 1, 2], [1, 2, 3])
    i += 1
    
fig.tight_layout()
plt.show()

图分两列,左侧一列为原始数据,右侧一列分位数归一化(QN)后的数据。从原始数据到QN后的数据,可以发现,右侧图中每个样本(一列)的4个数据的排列顺序没有发生变化。(注意:有的看起来是<4个数据,是因为原始数据有相同的值,点重叠了)

分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI
手动推算一遍会更理解分位数归一化的基本思路:将每个样本的数据值按照从小到大的顺序进行排列,然后将排列后的数据值替换为对应分位数。

分位数归一化方法:http://bmbolstad.com/stuff/qnorm.pdf

step1: 每个样本的feature按从小到大排序;
step2: 与原始数据对应,获取排位后的序号(rank i/ii/iii/iv);
step3: 计算从小到大排序之后每个featrue的算术平均数;
step4: 将step2中数据排位替换为step3中排位对应的算术平均数;

分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI

什么时候该用/不该用分位数归一化

(参考:http://www.bio-info-trainee.com/2043.html)

虽然前面对“INSCODE AI创作助手”的提问也有类似什么时候用QN,但是概况性回答了一些QN应用场景,没有很具体或专业的表述。有一篇文献中专门研究了什么时候使用分位数归一化:文献pdf

分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI
该文献中给出了QN的使用策略:

分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI

【翻译】:(没有仔细研读文献,翻译谨慎参考)

  1. 组内方差小、组间方差小(变异小)→ 技术变化小,无全局变化 → 可使用QN(但是没有必要)
  2. 组内方差大、组间方差小(变异小)→ 技术变化大或组内批次效应,无全局变化 → 使用QN
  3. 组内方差小、组间方差大(变异大)→ 【只用原始数据不能检测到差异】→ 将 检测技术 和 生物变异 导致的全局差异
    1)组间全局技术差异或批次效应 → 使用QN
    2)组间全局生物学差异 → 不使用QN

文献中开发了quantro包:

R包quantro是:提出了一个数据驱动的方法来测试全局标准化方法的假设。证明了文献方法(quantro)的效用,通过将其应用到多个基因的表达和DNA甲基化,并显示全局标准化方法时的例子是不合适的。

其他ChatGPT测试

ChatGPT:https://chat2.jinshutuan.com/

分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI

  • ps: Q1问题输入错误:“使用"->“时候”。但是回答中提到“QN可能过分平滑数据”,又追问了一个问题。
  • 修改Q1问题后,结果答复也不相同:
    分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI
  • 同样提问如何用python实现,答复中海介绍QN的大致步骤,再给出代码示例:(待测试)
    分位数归一化,python,bioinfo,R,python,bioninfo,标准化,归一化,INSCODE AI

【2023-05-31】初版;
【2023-06-05】测试其他ChatGPT回答。文章来源地址https://www.toymoban.com/news/detail-584446.html

到了这里,关于【python】数据预处理:分位数归一化 Quantile Normalization + INSCODE AI创作助手测试的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python数据预处理

    输出结果如下: 观察可知,【销量】存在一个缺失值,本例将缺失值所在行进行删除处理 输出结果如下: 输出结果如下: 观察可知,箱线图上下边缘存在异常值,本例通过四分位法对异常值进行处理,即:超出上边缘的异常值让其落在上边缘,低于下边缘的异常值让其落在

    2024年02月13日
    浏览(30)
  • Python中对CSV数据预处理

    CSV(Comma Separated Values)是一种常用的数据格式,它是以逗号作为分隔符的纯文本文件,通常用于存储大量的数据。在数据分析和机器学习领域,CSV数据预处理是一个必不可少的步骤。在本篇博客中,我们将介绍Python中对CSV数据预处理的所有步骤。 在Python中,我们可以使用

    2024年02月10日
    浏览(29)
  • 【Python机器学习】SVM——预处理数据

    为了解决特征特征数量级差异过大,导致的模型过拟合问题,有一种方法就是对每个特征进行缩放,使其大致处于同一范围。核SVM常用的缩放方法是将所有的特征缩放到0和1之间。 “人工”处理方法: 可以看到,最终的结果上训练集和测试集的精度都非常好,但还没有接近

    2024年01月17日
    浏览(29)
  • 【Python实战】数据预处理(数据清理、集成、变换、归约)

    因疫情原因,距上次写博客已过许久 这次回看以前的书籍,发现数据预处理这块在业务中极其重要 业务中,数据的准确率对业务的影响至关重要 好的数据往往百利而无一害,相对的,不好的数据会带来无法预期的损失 管理好数据,就能管理好业务,环环相扣,生生不息 所

    2024年02月08日
    浏览(35)
  • 数据挖掘学习——数据预处理方法代码汇总(python)

    目录 一、归一化处理方法 (1)min-max方法(离散归一化) (2)零-均值规范化方法 (3)小数定标规范化 二、插值法 (1)拉格朗日插值法 三、相关性分析 (1)pearson相关性系数 (2)spearman相关性系数 四、主成分分析(PCA) 归一化常用方法有: (1)min-max方法(离散归一化

    2024年02月08日
    浏览(48)
  • Python数据分析之特征处理笔记三——特征预处理(特征选择)

    书接上文,进行数据清洗过程后,我们得到了没有空值、异常值、错误值的数据,但想要用海量的数据来建立我们所需要的算法模型,仅仅是数据清洗的过程是不够的,因为有的数据类型是数值,有的是字符,怎样将不同类型的数据联系起来?以及在保证最大化信息量的前提

    2024年02月02日
    浏览(36)
  • python数据预处理—数据清洗、数据集成、数据变换、数据归约

    进行数据分析时,需要预先把进入模型算法的数据进行数据预处理。一般我们接收到的数据很多都是“脏数据”,里面可能包含缺失值、异常值、重复值等;同时有效标签或者特征需要进一步筛选,得到有效数据,最终把原始数据处理成符合相关模型算法的输入标准,从而进

    2024年02月02日
    浏览(36)
  • Python图像归一化:提升图像处理效果的利器

    图像归一化是图像处理中的重要步骤,能够帮助我们提升图像处理的效果。本文将介绍如何使用Python编程语言进行图像归一化,以及归一化的原理和常见的应用场景。 在图像处理中,我们经常需要对图像进行归一化处理,以便更好地进行后续处理或分析。Python是一种流行的编

    2024年02月13日
    浏览(37)
  • MATLAB——数据归一化处理(normalize函数)

    数据归一化: 数据的归一化是特征缩放(feature scaling)的方法,是数据预处理的关键步骤。不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化处理,以解决数据指标之间的可比性。原始数据

    2024年02月22日
    浏览(27)
  • Spark中数据预处理和清洗的方法(python)

    在Spark中进行数据分析,数据预处理和清洗是必不可少的步骤,以下是一些常用的方法: 去除重复行 去除空值 替换空值 更改数据类型 分割列 合并列 过滤行 去除重复行可以使用DataFrame的 dropDuplicates() 方法,例如: 去除空值可以使用DataFrame的 dropna() 方法,例如: 可以通过指

    2024年02月11日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包