RNA-seq 上游实战&排坑记录

RNA-seq 上游实战&排坑记录

一.流程总览

(每个流程几乎包括参数详解,代码,结果, 错,注意)
01.安装conda
02.安装软件
03.数据下载
04.sra to fastq
05.fastqc质控
06.Trim(除去低质量碱基和接头)
07.Hisat2 Mapping
08.sam to bam(格式转换,排序,建立索引,查看reads比对情况)
09.bam to featurecounts

二.环境/文件

1.阿里云2核16G型云服务器,300G高效云盘;
2.Hisat2官 人类基因组索引文件
3.基因组注释文件
4.PRJNA497524,人骨肉瘤细胞中某个基因缺失与野生型各两个样本的转录组测序数据。

三.实战步骤, 错,处理,结果

01.安装conda

安装流程 详见技能树连接,踩雷率较低,按照流程一步步来即可。https://www.jianshu.com/p/a84cd44bac67
参数详解 https://www.jianshu.com/p/ce8af4e7869d

02.安装软件

安装流程 代码参见https://www.jianshu.com/p/a84cd44bac67但本次实战橘色标出的软件未用到,且tophat安装出现 错

Aspera安装 步骤详见https://blog.csdn.net/weixin_44879403/article/details/106489201
参数详解 其重要参数如“-I,-P等”详见 https://www.jianshu.com/p/dc2252fab020

错及解决:

    06.Trim(除去低质量碱基和接头)

    软件 Trim Galore
    参数详解 参数详解参见 https://www.cnblogs.com/emanlee/p/10298054.html

    运行代码及结果

  1. Nohup(将程序挂在后台即便用户注销也不阻碍)使用也容易出错,其使用方法详见
    https://www.cnblogs.com/klb561/p/10153834.html
    出现: appending output to nohup.out或者nohup: ignoring input and redirecting stderr to stdout都不用紧张,都是正常的,但是为了避免出错,最好在Filezilla中实时观察“待输出的文件”的大小变化(不断点刷新),或者下载nohup.out文件查看有无ERROR。

07.Hisat2 比对到基因组
运行代码及结果

  1. hisat2 –help正常,但是运行显示参数的command not found,参照技能树的批量比对代码,详见https://www.jianshu.com/p/a84cd44bac67

  2. -x参数的基因组索引文件可以从hisat官 下载(最好用迅雷会员下,人类的4.3G)
    或者从NCBI/Ensebmle数据库下载genome.fna 文件用hisat2-build 构建索引。
    这里也需要一点软连接的知识。

  3. 建立索引(index命令)

  4. 查看reads比对情况(flagstat命令)

    RNA-seq 上游实战&排坑记录
    得到最终featureCounts文件!

    四.感悟总结:

    1. 最重要的一点,处理人类基因组数据一定要先选择好服务器的配置,最初配置是2和4G,40G存储,后来在hisat2比对的过程中逐渐升级到340G,内存16G,2核。费用为300+一个月,没能抢到技能树推出的64线程256G服务器一年700+的名额,希望能赶上下次活动。高配可以避免一些不重要的 错。

    2. Nohup命令挂载后台真香,尤其是中午晚上睡觉前挂上。

    3. 每个软件的参数如果—help英文难理解,在百度上直接搜索中文的参数详解会容易点,参数一定要心细的去看。

    4. 不同数据的存放路径,以及是否能成功读取(每个文件的权限)也是程序能否跑成的一关键点。

    5. Filezilla中查看“待生成的文件”的变化,以及nohup的内容可以更一步确认脚本运行的情况。

    6. Root和非root用户对于挂载了云盘的目录的执行权限(移动,或读写)也是不同的。

    7. 出现问题或者遇到看不懂的,可以自己设计小实验去找一下原因看一下结果,也可以百度搜索一下(大部分的坑是别人出现过的),也可以在生信技能树的扣扣群里求助1800多位学友。

    8. 每一步骤的结果解读,每个步骤有什么用,也都可以百度或者谷歌有助于真正的了解行业背景,而不是运行个结果完事儿。

    9. 在运行前预感到哪个参数不太确定,或者哪里可能出现问题,千万不能偷懒放过,不然跑出来会心累,还要重搞。

    声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年7月16日
下一篇 2020年7月16日

相关推荐