7+共病思路。WGCNA+多机器学习+实验简单验证，易操作

这篇具有很好参考价值的文章主要介绍了7+共病思路。WGCNA+多机器学习+实验简单验证，易操作。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

今天给同学们分享一篇共病+WGCNA+多机器学习+实验的生信文章“Shared diagnostic genes and potential mechanism between PCOS and recurrent implantation failure revealed by integrated transcriptomic analysis and machine learning”，这篇文章于2023年5月16日发表在Front Immunol期刊上，影响因子为7.3。

多囊卵巢综合征（PCOS）是一种复杂的内分泌代谢紊乱疾病，影响着5-10%的生育年龄妇女。PCOS患者的子宫内膜存在改变的免疫细胞，导致慢性低度炎症，这是反复植入失败（RIF）的原因之一。

图1 整个设计的流程图

1. GEO信息

根据作者的纳入标准，共选择了四个数据集进行发现性分析：GSE10946、GSE34526、GSE103465和GSE111974。其中，GSE10946和GSE34526被用作PCOS的发现队列，而GSE103465和GSE111974被视为RIF的发现队列。此外，GSE80432和GSE26787分别是PCOS和RIF的验证队列。在本研究中，作者简称这两个疾病组为PCOS和RIF。

2. 差异基因的鉴定

在进行生物信息分析之前，作者测试了收集的数据集的批次效应，并发现两种疾病的批次效应明显（图2A，E）。使用“sva”软件包，作者去除了PCOS（图2B）和RIF组（图2F）的批次效应，以获得可靠的分析结果。然后使用LIMMA软件包对两组之间的差异表达基因（DEGs）进行表征。对于PCOS，获得了201个DEGs（P<0.05，|log2 FC|>0.585），其中101个上调基因和100个下调基因。对于RIF，有253个DEGs（adj. P<0.05，|log2 FC|>1），其中167个上调基因和86个下调基因。火山图显示了PCOS（图2C）和RIF（图2G）组的所有DEGs。总体而言，通过热图（图2D，H）可视化了这两组中包含的DEGs。与PCOS和RIF相关的DEGs可能在它们的发生和发展中起到一定作用。

图2 去除批次效应并在PCOS和RIF中识别差异表达基因（DEGs）

3. 通过WGCNA筛选关键模块

为了调查疾病和关键基因是否相关，作者除了分析两组之间的差异表达外，还进行了WGCNA。使用软阈值方法，本研究构建了一个共表达网络。这个参数β对于共表达网络保持无标度拓扑结构至关重要。基于基因表达数据的生物网络很可能是无标度的。因此，在PCOS组中，拟合指数大于0.85被认为是无标度拓扑结构，β被设定为9（图3A）。通过使用邻接函数，生成了邻接矩阵。如图3B所示，使用TOM差异度量构建了层次聚类。作者总共确定了20个共表达模块。P<0.05的模块被视为关键模块。如图3C所示，antiquewhite4模块具有最强的正相关性，其中包含180个基因。同样，WGCNA也应用于RIF组，β=10是软功率的最佳值（图3D）。作者总共确定了19个模块，其中深灰色、深绿色和皇家蓝显示出强烈的正相关性，而绿黄色、鲑鱼色、深青色和浅黄色模块显示出强烈的负相关性（图3E，F）。在RIF组的这7个关键模块中的基因中，作者进一步选择了334个具有|MM| > 0.8和|GS| > 0.5的基因。这些来自两组关键模块的基因可能被用作候选的细胞特异性标记物。

图3 加权基因共表达网络分析（WGCNA）在多囊卵巢综合征（PCOS）和反复植入失败（RIF）中的应用

4. 共享基因的分析和功能富集

为了探索多囊卵巢综合征（PCOS）和反复流产（RIF）的共同发病机制，作者分别取上述差异表达基因（DEGs）和WGCNA筛选的基因的交集。图4A显示了PCOS和RIF的DEGs之间的交集，共有11个基因（CHST11，FAM150B，GLIPR1，SLC16A6，MAMLD1，SLC46A2，ENPP3，HAPLN1，PLCXD3，FAM110C，GAS1）。WGCNA分析的基因中只有一个与之交集（CCND2，图4B）。作者推测这12个基因可能与PCOS和RIF的发病机制有关，并且存在共同关系（图4C）。通过对这些基因进行功能注释和富集分析（图4D，E），作者试图研究PCOS和RIF之间的潜在生物学变化。共享基因的GO分析显示它们在早期胚胎器官形态发生相关通路中过度表达。值得注意的是，在所有富集的GO术语中，作者注意到有几个显著富集的生物过程通路，例如调节T细胞凋亡过程、肥大细胞激活和白细胞稳态，这表明免疫细胞的激活和凋亡可能对PCOS和RIF的共同发病机制有着重要贡献。此外，KEGG富集结果与GO分析一致。另外，作者还注意到几个与卵泡发育相关的通路富集，例如p53信号通路、FOXO信号通路、Hippo信号通路和PI3K-Akt信号通路。

图4 PCOS和RIF之间的共享基因签名和功能富集

5. 基于机器学习算法，识别潜在的共享诊断基因

为了进一步选择具有显著特征值以区分疾病组和对照组的最佳诊断基因靶点，作者基于上述12个共享基因应用了三种不同的算法（LASSO、SVM-RFE和随机森林）。在PCOS组中，根据LASSO系数曲线和最佳调参选择图，将λ设定为0.06851194（PCOS）（图5A）。随后，找到了8个具有非零系数的基因。然后，作者将上述12个基因输入RF分类器，并在重要性尺度上显示了前10个基因。作者选择了0.9作为重要性筛选阈值，并确定了一组包含9个基因的集合（图5B）。此外，SVM算法确定了5个具有最低5点交叉验证误差和最佳5点交叉验证准确性的基因（图5C）。通过将这三种算法重叠，作者确定了5个共享生物标志物（CHST11、GLIPR1、SLC16A6、MAMLD1、HAPLN1、GAS1）用于PCOS组（图5D，I）。

图5 使用三种机器学习算法筛选候选的PCOS和RIF诊断基因

同样地，当使用LASSO算法将λ设置为0.03001025时，作者得到了7个特征基因，用于RIF组（图5E）。图5F显示了重要性排名前10的基因，作者选择了9个基因（重要性>0.9）作为RM结果。接下来，使用SVM-REF算法确定了10个中心基因子集（图5G）。然后，通过三种算法获得的7个共同基因标志物重叠（图5H，I）。

6. 诊断中心生物标志物的诊断价值和验证

为了更准确地了解多囊卵巢综合征（PCOS）和反复植入失败（RIF）之间的关系，作者对PCOS和RIF群体的机器学习结果进行了交集分析，并得到了2个共享的诊断基因，GLIPR1和MAMLD1（图6A）。通过分析这两个基因的表达模式，评估了共享诊断基因的预测和鉴别能力。此外，还进行了受试者工作特征曲线（ROC曲线）的分析。

图6 选择和验证两个共享的诊断基因

首先，作者分析了两个发现队列中PCOS和RIF的表达水平。图6B显示GLIRP1在RIF组中较低（P<0.01），在PCOS组中较高（P<0.01）。MAMLD1在PCOS组（P<0.01）和RIF组（P<0.0001）中均表达较低（图6F）。

接下来，为了测试这两个目标基因在两种疾病诊断中的特异性和敏感性，作者进行了ROC分析。在多囊卵巢综合征生物标志物方面，这两个基因的结果是有利的：GLIPR1（AUC=0.812）和MAMLD1（AUC=0.774）。RIF组也经过了相同的ROC分析。每个生物标志物的预测性能都很强：GLIPR1（AUC=0.723）和MAMLD1（AUC=0.879）（图6C，G）。

此外，作者通过进行外部验证，确认了GLIPR1和MAMLD1作为多囊卵巢综合征（PCOS）和反复流产（RIF）的核心诊断基因的可靠性。在两个验证组中，这两个关键基因的表达水平与发现组相匹配。GLIPR1在RIF组中降低（P<0.05），在PCOS组中增加（P<0.05）（图6D）。MAMLD1在PCOS组（P<0.01）和RIF组（P<0.05）中均减少（图6H）。图6E显示，GLIPR1在PCOS验证队列中具有出色的诊断准确性（AUC=1.000），在RIF验证队列中也具有良好的诊断准确性（AUC=0.920）。同样，MAMLD1也能正确诊断PCOS（AUC=1.000）和RIF（AUC=0.840）（图6I）。因此，结果证实了它们作为PCOS和RIF的关键鉴别分子的能力。

7. 诊断基因的单基因GSEA

随后，作者分别在PCOS和RIF数据集中使用单基因GSEA分析了这两个生物标志物，并使用“GSEA”软件包可视化了前5个上调和下调的通路。图7显示，在这两个疾病组中，这两个基因都参与了代谢通路，如甘氨酸、丝氨酸、苏氨酸代谢、α-亚麻酸代谢和丙酸代谢。此外，这两个基因还富集在与炎症相关的通路中，将PCOS和RIF联系在一起。

图7 单个诊断基因的GSEA（A，B）

8. 免疫浸润分析

考虑到多囊卵巢综合征（PCOS）和反复植入失败（RIF）都具有高免疫反应的特点。作者使用CIBERSORT分析了不同组别中免疫细胞的丰度。在每个组别中，22种免疫细胞的比例以条形图的形式展示。总体而言，条形图清楚地显示了PCOS（图8A）和RIF（图8E）之间T细胞、巨噬细胞和NK细胞群体百分比之间的显著差异。与对照样本相比，PCOS样本中的活化树突状细胞增加了（图8B）。而在RIF样本中，休息的NK细胞、巨噬细胞M0增加，γδT细胞和活化树突状细胞减少（图8F）。

图8 PCOS和RIF免疫细胞组成

9. 在人体组织中通过RT-PCR验证GLIPRand MAMLD的有效性

对正常女性和多囊卵巢综合征（PCOS）患者的卵泡液颗粒细胞以及健康和反复流产（RIF）女性的子宫内膜组织进行了RT-PCR检测。这证实了两个诊断生物标志物GLIPR1和MAMLD1的基因表达水平。与数据分析一致，作者的结果显示，PCOS患者的颗粒细胞中GLIPR1的表达上调，而MAMLD1的表达下调（图9A），而RIF患者的子宫内膜组织中GLIPR1和MAMLD1的表达均减少（图9B）。