GSEA分析及可视化
小伙伴们,大家好,欢迎来到小洋专栏!不知道上期的山峦图大家学会了嘛?这一期,小洋将向大家介绍如何利用仙桃学术工具来进行GSEA分析及可视化。
基本概念
基因集富集分析(Gene Set Enrichment Analysis,GSEA):
用一个预先定义的基因集中的基因来评估在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。这个与表型相关度排序可以是 logFC 值。
应用场景
想要知道进行了差异分析的两组有什么功能和通路的差别,手上有大部分的功能分子以及对应的值,这个值可以是 logFC。可以用这个 logFC作为分子的排序,从而来评估在预先定义的基因集中是否显著富集。预先定义的基因集来自MSigDB 数据库(https://www.gsea-msigdb.org/gsea/msigdb/index.jsp),这些预先定义的基因集中的分子主要以功能基因为主,如果手上只有非功能基因(比如 miRNA、lncRNA、circRNA),那么将由于缺少基因集而无法进行 GSEA 分析。
结果解读
GSEA分析结果
ID:基因集的名字,以下划线作为分隔,最前面代表来自哪个数据库,比如KEGG_xxxxx,就说明来自 KEGG 的基因集。
Description:基因集的名字。
setSize:基因集中定义的分子数量。
enrichmentScore:富集得分。ES 反映基因集中的基因(S)在排序列表基因(L)的两端富集的程度。计算方式是,从基因集 L 的第一个基因开始,计算一个累计统计值。当遇到一个落在 D 里面的基因,则增加统计值。遇到一个不在 S 里面的基因,则降低统计值。每一步统计值增加或减少的幅度与基因的表达变化程度(更严格的是与基因和表型的关联度,可能是 fold-change,也可能是 pearson corelation 值)是相关的(可以是线性相关,也可以是指数相关)。富集得分 ES 最后定义为最大的峰值。正值 ES 表示基因集在列表的顶部富集,负值 ES 表示基因集在列表的底部富集。
NES(normalize enrichment score):校正后归一化的富集得分。富集评分的标准化考虑了基因集个数和大小。
pvalue: 统计检验的 p 值,也称为 NOM p-val。通过基于表型而不改变基因之间关系的排列检验 (permutation test)计算观察到的富集得分(ES)出现的可能性。若样品量少,也可基于基因集做排列检验 (permutation test),计算p-value。
p.adjust: 通过 p 值校正方法得到的校正后的 p 值。
qvalue: 通过 p 值校正方法得到的校正后的 q 值,也称为 FDR。
rank:当 ES 值最大时,对应基因在排序好的基因列表 L 中的位置。
Leading-edge subset,对富集得分贡献最大的基因成员,即核心基因集,也是对 ES 影响较大的基因;该处有3个统计值,tags 表示核心基因集占该基因集 S中基因总数的百分比;list 表示核心基因集占基因列表 L 中基因总数的百分比;signal,将前两项统计数据结合在一起计算出的富集信 强度。
core_enrichment: 核心富集的分子,即对应的基因集中核心的分子。
这里得到的表格即说明(假设是由两组分析后得到的 logFC 作为分子的值)对应的基因集在两组内有差异,当 ES 或者 NES 为正时,说明该基因集在高表达组(头部)富集;当 ES 或者 NES 为负时,说明该基因集在低表达组(尾部)富集。结果这里一般只需要关注满足阈值(p.adj
可视化结果
典型结果图由上、中、下三个部分组成:
上:为富集评分的情况,如果 NES 为正,则峰出现在左侧(头部富集)(高表达组富集)基因集中核心分子主要集中在左侧高表达组中;如果 NES 为负(如上图),则尾部会出现谷(尾部富集)(低表达组富集),基因集中核心分子主要集中在右侧低表达组中。
中:每一根竖线代表基因集中一个分子,上传数据的分子根据给定的值进行排序,排序后单独提取当前基因集中的定义的分子,分子的位置情况即为中间部分的所示。
下:把上传数据分子给定的值进行归一化后的值进行可视化。下部分的结果可以不用怎么关注。
以上就是有关GSEA的背景介绍,如果想要进一步掌握GSEA的相关内容,还可以登录解螺旋官方 站进行深入的学习和探索!
实战演练
下面让我们来看一篇2021年1月发表在“Translational Andrology and Urology”(IF= 3.15)杂志上的一篇文章。题名为“LncRNA SNHG9 is a prognostic biomarker and correlated with immune infiltrates in prostate cancer”。
期刊简介
使用工具
仙桃学术(https://www.xiantao.love)
图形复现
复现过程
进入仙桃学术,点击【生信工具】
【高级版】 【立即使用】
【功能聚类(圈)】 【GSEA富集】 【GSEA分析】 上传数据
我们参考文献中的GSEA可视化图,模拟一份数据,然后进行分析:
上面的数据是模拟数据,所以并不会和文献中的图片完全一致。不过复现我们主要掌握方法即可,不需要完全复现。上传数据后,点击“确定”进行分析,并保存结果。
分析结束后,点击【功能聚类(圈)】 【GSEA富集】 【GSEA可视化】 选择刚刚已经分析好的GSEA富集分析结果确认
保存结果:
好啦,本期有关GSEA分析及可视化的相关内容就介绍到这里,希望对大家的科研工作有所帮助。我是小洋,我们下期再见~
小洋的单图复现系列传送门
欢迎大家关注解螺旋生信频道-挑圈联靠公 ~
—END—
撰文丨小 洋
排版丨四金兄
主编丨小雪球
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!