GSEA

Posted on 2020-01-30 Edited on 2021-10-24

基因集富集分析 Gene Set Enrichment Analysis（GSEA）通过关注基因集（即具有共同生物学功能，染色体位置或调节作用的基因组）来解释基因表达数据。

背景

DNA芯片的全基因组表达分析已成为基因组学研究的主要内容，根据基因在两种类别之间（比如癌组织和癌旁组织）的差异表达，可以将这些基因按差异表达进行排序形成列表L。我们希望从该列表中提取含义。

一种常见的方法涉及着眼于L顶部和底部的少数基因（即那些显示最大差异的基因），以分辨出明显的生物学线索。这种方法有一些主要限制。
（i）在校正了多个假设检验之后，没有单个基因可以达到统计学显着性的阈值，因为相关的生物学差异相对于微阵列技术固有的噪声而言是中等的。
（ii）或者，可以留下一长串具有统计意义的基因，而没有任何统一的生物学主题。解释可能是艰巨而临时的，具体取决于生物学家的专业领域。
（iii）单基因分析可能会错过对途径的重要影响。细胞过程通常会影响协调一致的基因组。编码代谢途径成员的所有基因中20％的增加可能会极大地改变通过该途径的通量，并且可能比单个基因的20倍增加更为重要。
（iv）当不同的群体研究相同的生物系统时，两项研究中具有统计意义的重要基因列表可能会显示出极少的重叠。

为了克服单个基因分析的难题，GSEA采用对基因集进行分析。基于先前的生物学知识（例如，关于先前实验中的生化途径或共表达的公开信息）来定义基因集。GSEA的目标是确定基因集S的成员是否倾向于出现在列表L的顶部（或底部），于是可以分析基因集与表型类别的相关性。

Broad Institute of Massachusetts Institute of Technology and Harvard 创建了一个名为GSEA-P的软件包和一个初步的基因组清单（分子签名数据库，MSigDB），这两个软件包均可免费获得。https://www.gsea-msigdb.org/gsea/msigdb/index.jsp

GSEA概述

准备：Ranked gene list & Gene sets

GSEA考虑了使用属于两个类别（标记为1或2）的样品进行全基因组表达谱实验的方法。通过使用任何合适的度量标准，基于基因表达与类别区别之间的相关性对基因进行排名(A)。

（A）通过与表型相关性排序的表达数据集，相应的热图，基因标签，即来自排序列表中的集合S的基因的位置（见Gene set S）。（B）数据集中S的运行总和的图，包括最大富集得分（ES）和前沿子集的位置。

给定先验定义的基因集S（例如，编码代谢途径中产物，位于相同细胞遗传学带或共有相同GO类别的基因），GSEA的目标是确定S的成员是否随机分布整个L或主要位于顶部或底部。我们期望与表型区别相关的集合将倾向于显示后者的分布。

GSEA三步

步骤1：计算富集得分。我们计算了一个富集分数（Enrichment Score, ES），该分数反映了在整个已排序列表L的顶部或底部上集合S被过度代表的程度。该得分是通过沿着列表L向下移动来增加的，计算总和。当我们遇到一个在S中的基因时得分增加，而在遇到一个不在S中的基因时得分减少。递增的幅度取决于基因与表型的相关性。富集得分是随机游走中与零的最大偏差；它对应于加权的类似Kolmogorov-Smirnov统计量。

步骤2：估算ES的显著性水平。我们通过使用基于经验表型的置换测试程序来估计ES的统计显著性（P值），该程序保留了基因表达数据的复杂相关结构。具体来说，我们置换表型标签，并针对置换后的数据重新计算基因集的ES，这会为ES生成空分布。然后相对于该零分布计算观察到的ES的经验名义P值。重要的是，类别标记的排列保留了基因与基因的相关性，因此，与通过排列基因获得的意义相比，提供了生物学上更合理的重要性评估。

步骤3：针对多假设检验进行调整。当评估基因组的整个数据库时，我们用多重假设检验调整估计的显著性水平。我们首先将每个基因集的ES标准化以说明集合的大小，从而得出标准化的富集得分（NES）。然后，我们通过计算对应于每个NES的错误发现率（FDR）以控制假阳性的比例。 FDR可估计NES假阳性的概率；它是通过比较NES的观测分布和零分布的尾部计算得出的。

数学描述

GSEA的输入

基因表达数据，个基因，个样品。
产生基因排序列表。包括相关性（或其他排名度量标准）和感兴趣的表型。我们每个基因仅使用一个探针以防止高估富集统计量。
指数控制每一步的权重。
包含了个基因的基因集，如通路，细胞遗传带或GO.

富集分数（Enrichment Score, ES（S））

根据与表型的相关性给中的个基因排序得到列表，相关性，以及表型.
（这里或许有个随机游走的概念待指正）评估S中的基因比例（“hits”），按其相关性加权；不存在于S中的基因比例（“ misses”），直到L在给定位置i为止。
，其中

ES是从零开始的最大偏差。对于随机分布的S，ES（S）相对较小，但是如果它集中在列表的顶部或底部，或者以其他方式非随机分布，则ES（S）将相应较高。当时，ES（S）简化为标准的Kolmogorov–Smirnov统计量；当时，我们将它们与表型C的相关性作为权重，除以S中所有基因的相关性之和进行归一化。

显著性估计

我们通过将观察到的ES与通过随机分配的表型计算的分数进行比较来评估观察到的ES的重要性。

将原始表型标签随机分配给样品，重新排序基因并重新计算ES（S）。
对1,000个排列重复步骤1，并创建对应的富集得分的直方图。
通过使用ES（S）的符号相对应的分布的正或负部分，从估计S的P值。

多重假设检验

为集合或数据库中的每个基因集确定ES（S）。
对于表型标记的每个S和1000个固定排列，对L中的基因重新排序并确定ES（S，）。
根据基因集的大小，对ES（S，）和观察到的ES（S）进行归一化，通过用ES（S，）的平均值分别除以正分和负分，以得出归一化分数NES（S，）和NES（ S）。
计算FDR。控制NES（S，）和NES（ S）的阳性中假阳性在总基因集的比例达到相应标准。

在原始实现中，运行总和统计在每个步骤使用相等的权重，这为聚类在排名列表中间的集合产生了高分，这些集合不代表与表型的生物学相关性。我们通过根据每个基因与表型的相关性加权步骤来解决此问题。我们注意到，在更多的基因与两种表型之一相关的情况下，使用加权步骤可能会导致观察到的ES分数分布不对称。因此，我们通过分别考虑正面和负面得分的基因集来估计显著性水平。

原始富集得分。来自C2功能集合的三个基因集在男性/女性淋巴母细胞样细胞系实例的基因列表中的分布，按其与性别的相关性进行排序：S1，一组X染色体失活基因； S2，描述维生素C进入神经元的途径； S3，与T辅助细胞表达的趋化因子受体有关。显示的是三个基因集的运行总和图：S1如预期的那样在雌性中显着富集，S2随机分布且得分很低，S3不在列表顶部富集，但不是随机的，因此得分很高。箭头显示最大富集得分的位置以及相关性（信噪比）过零的点。

表通过使用原始方法和新方法比较了S1，S2和S3的P值。新方法降低了像S3这样的集合的重要性。

前沿子集

可以使用多种方法来定义基因集，但是并非基因集的所有成员通常都会参与生物过程。通常，提取有助于ES的高得分基因集的核心成员非常有用。我们将前沿子集定义为基因集S中出现在排序总和L中的总和从零开始达到其最大偏差的点处的那些基因（图1 B）。前沿子集可以解释为解释富集信号的基因集的核心。

对前沿亚群的检查可以揭示基因集内生物学上重要的亚群，正如我们在分析癌细胞系中P53状态时所显示的那样。这种方法对于手动策划的基因集尤其有用，它可能代表相互作用过程的融合，可能是关键调控因子。

该图显示了与P53相关的ras，ngf和igf1基因集，并用深蓝色表示的前沿子集进行了聚类。深色的垂直条纹为三者前沿子集的重叠部分，展现了一个常见的基因亚组，由MAP2K1，PIK3CA，ELK1和RAF1组成，代表MAPK途径的一个子部分。

高得分的基因集可以根据它们共享的基因的前沿子集进行分组。这样的分组可以揭示那些基因集中的哪个对应于相同的生物学过程，哪些代表不同的过程。

GSEA-P软件包包括用于检查和聚集前沿子集的工具。

references:

Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles https://www.pnas.org/content/102/43/15545
https://www.gsea-msigdb.org/gsea/msigdb/index.jsp