从数据整理到软件使用,GSEA实操分享

之前在《如何完成GO富集分析并绘制柱状图?》 《如何完成KEGG pathway分析并绘制气泡图?》 两篇文章中介绍了如何复现文献中的GO、KEGG富集分析结果。接下来,我继续演示复现文献中的GSEA结果。

数据准备

首先是GSEA软件的下载安装,GSEA的官 首页如下。

官方 站:

http://www.gsea-msigdb.org/gsea/index.jsp

点击Downloads选项,在相应的页面中找到对应系统的软件版本,我这里选择下载Windows版本。

另外,为了便于重现分析结果且让分析速度快一点,我这里选择将gene sets下载到本地。在Molecular Signature Database选项页面选择下载所需的基因集。依照文献,我这里下载H:hallmark gene sets(包含50个gene sets)、KEGG subset of CP两个基因集,点击Gene Symbols,下载基因ID为Symbol 的gmt格式文件,如下。

KEGG subset of CP包含186个基因集,包含于C2: curated gene sets中,下载方法相同。

然后是分组文件(也称为表型文件)的准备。第1行包含3个数值,必须用空格分隔,其中第1个数值为样本数,第2个数值为分组数,第3个数值必须为1。第2行为比较组标签,第1个标签必须与表达量文件第1个样本相对应,也必须用空格分隔。第3行与表达量文件的样本顺序相对应,会出现在GSEA结果中的图表中,用制表符分隔。最后,将分组文件的拓展名改为“cls”。

软件使用

完成数据准备后打开GSEA软件,在Load data选项,点击Browse for files,一次性可将表达量文件、分组文件和两个基因集文件导入到软件中,在Object cache窗口中可查看导入后的数据。

当然,也可以右键文件路径,预览上传的数据。

如果数据的格式没问题,是可以直接用GSEA软件预览的,如下图,可见我准备的表达量文件没问题。

接下来点击Run GSEA选项,选择表达量文件和基因集文件,如下图,基因集文件选择本地文件。

接下来的是比较组的“方向”选择,类似于差异分析,这里选择Patient_versus_Control,即当采用默认的gene list降序排列时,Patient(“NOFH”)在绘图结果中位于左侧(positively correlated),而Control(“CONTROL”)位于右侧(negatively correlated)。计算Signal2Noise= (μ A -μ B )/(σ A +σ B )或log 2 FC= log2 ( μA / μB )时,Patient对应A组, Control对应B组。

其他的选项如下,Collapse/Remap to gene symbols选择No_Collapse;Permutation type设置为gene_set。

其他选项主要是分析名称、分析结果保存路径、图片格式和绘图数量的设置,这里选择生成SVG格式的矢量图,并在结果文件中生成30个显著富集的基因集图表。最后,点击Run按钮运行任务,当Status显示为Success时任务完成。

结果整理

在事先设置好的输出路径中,如下图,可查看分析 告和绘图结果(也可直接点击Success预览分析 告)。

随意选择一个基因集的富集分析图表进行查看,当然,可以将svg格式的压缩文件解压,svg格式的图片会更清晰。

当然,也可以使用Ps(Photoshop)软件,对得到的富集分析图片进行拼图,如下图,使用文字工具添加NES 和 Pvalue值。

这里挑选与文献完全一样的gene sets富集分析图表进行组合,最终得到的组合效果如下。

好啦,本次的分享到这里啦!

*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。

基迪奥生物|专业定制测序服务

联系方式:020-39341079;service@genedenovo.com

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年10月27日
下一篇 2022年10月27日

相关推荐