geo差异表达分析_GEO2R差异表达分析软件

前两天我们对GEO数据库来了一个大致的介绍。我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果。所有的表达芯片做的差异表达分析都是基于limma的算法来的。我们今天介绍的这个GEO2R也只是把这个算法更加方便使用了而已。

PS:GEO2R只是适用于表达谱芯片。对于二代测序是不适用的,我们下面说到的数据类型都是表达谱芯片来进行阐述的。

1 所谓差异分析

我们在进行科学研究的时候,同样也是需要比较才能得到结果的。通常我们研究一个疾病的时候,其实都会有一个隐藏的目标伴随着来进行研究的。例如我们要研究TP53是否和胃癌的发生相关,那我们收集的数据除了胃癌患者当中的TP53的基因表达水平,也要收集正常对照人群的表达变化,通过两者的对比来确定TP53的表达变化是否和胃癌有关。

对于表达谱芯片而言,我们会得到上万的基因的表达量变化,但是这上万的基因不一定都参与疾病的发生。我们进行差异分析的目的也是要得到和疾病相关的那些变化基因。毕竟这些基因才是符合我们研究目的的。

软件的整体操作还是很简单的,我们需要做的就是

2.1 制定数据分组

前面提到,我们需要两组或者多组之间比较才能得到差异的结果,所以我们第一步需要做的就是来制定我们想要的分组。这里我们可以基于自己想要的分组名称来填写即可。

需要注意的是,如果是两组的话,我们要先选择对照组;再选择处理组。如果这里输入反了,就导致我们结果是反的。

2.3 进行差异表达分析

我们把界面往下拉,有一个TOP250/Save All Results的地方。这个地方就是我们用来查看结果的地方。

在这个结果当中,包括了:芯片当中探针ID 、差异分析的P值和logFC值,以及相对应的基因名。我们点击ID下面每一个探针前面的??,就可以看到这个数据集里面相对应的样本在不同分组的表达量变化了。

具体结果的筛选标准我们后面再说。Save All Results则会弹出另外一个界面。这里面包括芯片当中作用的数据的差异表达结果。每一列的内容和之前的TOP250是一样的

关于logFC

logFC,全称是log2 foldchange。foldchange可以代表变化倍数,如果处理组的表达均值是8;对照组的表达均值是2,那么foldchange就是4。而log2 fold change就是2。所以我们默认的logFC > 1,则代表两组之前差异在2倍以上的为有意义。

logFC的绝对值, 由于相较于对照组,基因的变化并不一定是升高的。也有降低的。所以logFC会有一个方向性,如果为 负则代表,相较于对照组是低表达的,如果为 正 则代表是高表达。

由于表达是有方向性的,所以再次抢到在输入分组命名的时候先输入对照组的名字。不然的话,按照系统的分析方法,我们得到的结果有可能方向就完全是相反的了。

相关资源:Yalefree雅乐简谱打谱软件_打谱软件-WindowsServer工具类资源…

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年11月28日
下一篇 2020年11月28日

相关推荐