GSEA

基因集富集分析 Gene Set Enrichment Analysis(GSEA)通过关注基因集(即具有共同生物学功能,染色体位置或调节作用的基因组)来解释基因表达数据。

背景

DNA芯片的全基因组表达分析已成为基因组学研究的主要内容,根据基因在两种类别之间(比如癌组织和癌旁组织)的差异表达,可以将这些基因按差异表达进行排序形成列表L。我们希望从该列表中提取含义。

一种常见的方法涉及着眼于L顶部和底部的少数基因(即那些显示最大差异的基因),以分辨出明显的生物学线索。这种方法有一些主要限制。
(i)在校正了多个假设检验之后,没有单个基因可以达到统计学显着性的阈值,因为相关的生物学差异相对于微阵列技术固有的噪声而言是中等的。
(ii)或者,可以留下一长串具有统计意义的基因,而没有任何统一的生物学主题。解释可能是艰巨而临时的,具体取决于生物学家的专业领域。
(iii)单基因分析可能会错过对途径的重要影响。细胞过程通常会影响协调一致的基因组。编码代谢途径成员的所有基因中20%的增加可能会极大地改变通过该途径的通量,并且可能比单个基因的20倍增加更为重要。
(iv)当不同的群体研究相同的生物系统时,两项研究中具有统计意义的重要基因列表可能会显示出极少的重叠。

为了克服单个基因分析的难题,GSEA采用对基因集进行分析。基于先前的生物学知识(例如,关于先前实验中的生化途径或共表达的公开信息)来定义基因集。GSEA的目标是确定基因集S的成员是否倾向于出现在列表L的顶部(或底部),于是可以分析基因集与表型类别的相关性。

Broad Institute of Massachusetts Institute of Technology and Harvard 创建了一个名为GSEA-P的软件包和一个初步的基因组清单(分子签名数据库,MSigDB),这两个软件包均可免费获得。https://www.gsea-msigdb.org/gsea/msigdb/index.jsp

GSEA概述

  • 准备:Ranked gene list & Gene sets

GSEA考虑了使用属于两个类别(标记为1或2)的样品进行全基因组表达谱实验的方法。通过使用任何合适的度量标准,基于基因表达与类别区别之间的相关性对基因进行排名(A)。

(A)通过与表型相关性排序的表达数据集,相应的热图,基因标签,即来自排序列表中的集合S的基因的位置(见Gene set S)。 (B)数据集中S的运行总和的图,包括最大富集得分(ES)和前沿子集的位置。

给定先验定义的基因集S(例如,编码代谢途径中产物,位于相同细胞遗传学带或共有相同GO类别的基因),GSEA的目标是确定S的成员是否随机分布整个L或主要位于顶部或底部。我们期望与表型区别相关的集合将倾向于显示后者的分布。

  • GSEA三步

步骤1:计算富集得分。我们计算了一个富集分数(Enrichment Score, ES),该分数反映了在整个已排序列表L的顶部或底部上集合S被过度代表的程度。该得分是通过沿着列表L向下移动来增加的,计算总和。当我们遇到一个在S中的基因时得分增加,而在遇到一个不在S中的基因时得分减少。递增的幅度取决于基因与表型的相关性。富集得分是随机游走中与零的最大偏差;它对应于加权的类似Kolmogorov-Smirnov统计量。

步骤2:估算ES的显著性水平。我们通过使用基于经验表型的置换测试程序来估计ES的统计显著性(P值),该程序保留了基因表达数据的复杂相关结构。具体来说,我们置换表型标签,并针对置换后的数据重新计算基因集的ES,这会为ES生成空分布。然后相对于该零分布计算观察到的ES的经验名义P值。重要的是,类别标记的排列保留了基因与基因的相关性,因此,与通过排列基因获得的意义相比,提供了生物学上更合理的重要性评估。

步骤3:针对多假设检验进行调整。当评估基因组的整个数据库时,我们用多重假设检验调整估计的显著性水平。我们首先将每个基因集的ES标准化以说明集合的大小,从而得出标准化的富集得分(NES)。然后,我们通过计算对应于每个NES的错误发现率(FDR)以控制假阳性的比例。 FDR可估计NES假阳性的概率;它是通过比较NES的观测分布和零分布的尾部计算得出的。


  • 数学描述

GSEA的输入

  1. 基因表达数据个基因,个样品。
  2. 产生基因排序列表。包括相关性(或其他排名度量标准)和感兴趣的表型。我们每个基因仅使用一个探针以防止高估富集统计量。
  3. 指数控制每一步的权重。
  4. 包含了个基因的基因集,如通路,细胞遗传带或GO.

富集分数(Enrichment Score, ES(S))

  1. 根据与表型的相关性给中的个基因排序得到列表,相关性,以及表型.
  2. (这里或许有个随机游走的概念待指正)评估S中的基因比例(“hits”),按其相关性加权;不存在于S中的基因比例(“ misses”),直到L在给定位置i为止。
    ,其中

ES是从零开始的最大偏差。 对于随机分布的S,ES(S)相对较小,但是如果它集中在列表的顶部或底部,或者以其他方式非随机分布,则ES(S)将相应较高。 当时,ES(S)简化为标准的Kolmogorov–Smirnov统计量;当时,我们将它们与表型C的相关性作为权重,除以S中所有基因的相关性之和进行归一化。

显著性估计

我们通过将观察到的ES与通过随机分配的表型计算的分数进行比较来评估观察到的ES的重要性。

  1. 将原始表型标签随机分配给样品,重新排序基因并重新计算ES(S)。
  2. 对1,000个排列重复步骤1,并创建对应的富集得分的直方图。
  3. 通过使用ES(S)的符号相对应的分布的正或负部分,从估计S的P值。

多重假设检验

  1. 为集合或数据库中的每个基因集确定ES(S)。
  2. 对于表型标记的每个S和1000个固定排列,对L中的基因重新排序并确定ES(S,)。
  3. 根据基因集的大小,对ES(S,)和观察到的ES(S)进行归一化,通过用ES(S,)的平均值分别除以正分和负分,以得出归一化分数NES(S,)和NES( S)。
  4. 计算FDR。控制NES(S,)和NES( S)的阳性中假阳性在总基因集的比例达到相应标准。

在原始实现中,运行总和统计在每个步骤使用相等的权重,这为聚类在排名列表中间的集合产生了高分, 这些集合不代表与表型的生物学相关性。 我们通过根据每个基因与表型的相关性加权步骤来解决此问题。 我们注意到,在更多的基因与两种表型之一相关的情况下,使用加权步骤可能会导致观察到的ES分数分布不对称。 因此,我们通过分别考虑正面和负面得分的基因集来估计显著性水平。

原始富集得分。 来自C2功能集合的三个基因集在男性/女性淋巴母细胞样细胞系实例的基因列表中的分布,按其与性别的相关性进行排序:S1,一组X染色体失活基因; S2,描述维生素C进入神经元的途径; S3,与T辅助细胞表达的趋化因子受体有关。 显示的是三个基因集的运行总和图:S1如预期的那样在雌性中显着富集,S2随机分布且得分很低,S3不在列表顶部富集,但不是随机的,因此得分很高。 箭头显示最大富集得分的位置以及相关性(信噪比)过零的点。

表通过使用原始方法和新方法比较了S1,S2和S3的P值。 新方法降低了像S3这样的集合的重要性。

前沿子集

可以使用多种方法来定义基因集,但是并非基因集的所有成员通常都会参与生物过程。通常,提取有助于ES的高得分基因集的核心成员非常有用。我们将前沿子集定义为基因集S中出现在排序总和L中的总和从零开始达到其最大偏差的点处的那些基因(图1 B)。前沿子集可以解释为解释富集信号的基因集的核心。

对前沿亚群的检查可以揭示基因集内生物学上重要的亚群,正如我们在分析癌细胞系中P53状态时所显示的那样。这种方法对于手动策划的基因集尤其有用,它可能代表相互作用过程的融合,可能是关键调控因子。

该图显示了与P53相关的ras,ngf和igf1基因集,并用深蓝色表示的前沿子集进行了聚类。 深色的垂直条纹为三者前沿子集的重叠部分,展现了一个常见的基因亚组,由MAP2K1,PIK3CA,ELK1和RAF1组成,代表MAPK途径的一个子部分。

高得分的基因集可以根据它们共享的基因的前沿子集进行分组。这样的分组可以揭示那些基因集中的哪个对应于相同的生物学过程,哪些代表不同的过程。

GSEA-P软件包包括用于检查和聚集前沿子集的工具。

references:

  1. Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles https://www.pnas.org/content/102/43/15545
  2. https://www.gsea-msigdb.org/gsea/msigdb/index.jsp