edgeR是一个研究重复计数数据差异表达的Bioconductor软件包。方法:基于负二项分布的统计方法,包括经验贝叶斯估计、精确检验、广义线性模型和准似然检验。应用:与RNA-seq一样,edgeR包也可用于其他测序数据,包括ChIP-seq、ATAC-seq、亚硫酸氢盐seq、SAGE和CAGE。
1.读入数据到DGEList对象
2. 标准化
3. 过滤count数低的基因
经验设置为cpm=1位为cutoff点。但是,这并不是最精准。因为随着测序深度增加,例如20million(2 千万),cpm=1 意味着 counts=20。阈值可能会有点高。测序深度低的话,例如2million(2百万),cpm=1 意味着counts=1。阈值可能会太低。此时可以使用自动过滤,或者根据cut.off.cpm=10/来计算。
4. 转录组数据聚类可视化
5. 建立分组矩阵
6.模型拟合
edgrR涉及到差异表达分析的函数有很多: exactTest、glmFit、glmLRT、glmQLFit、glmQLFTest。 qCML估计离散度需要搭配 exact test 进行差异表达分析,对应 exactTest 函数。 而其他四个glm*都是与GLM模型搭配使用的函数。其中,glmFit 和 glmLRT 函数是配对使用的,用于 likelihood ratio test (似然比检验),而 glmQLFit和 glmQLFTest则配对用于 quasi-likelihood F test (拟极大似然F检验)。 有两个方法和,在两个检验方法中,首选QLFit,因为它反映了估计每个基因的离散度时的不确定性。当重复次数较少时,它提供了更强大和可靠的错误率控制
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!