首先,你需要准备好两件事情:1.Linux环境,实验室有服务器或者自己有个配置比较好的电脑;2.能根据 上教程,自学些生信基础知识(文件管理,软件安装,R语言基本命令,后面要画图)。比如有个PCR仪和自学PCR引物设计原理。不要害怕,不会让你从头造一个PCR仪,也不会让你自己合成引物。熟悉一个新的操作系统和软件使用,并不是一个可怕的事情,但是学习也从来不是一个轻松的过程。好了,我们开始吧。
我们第一周目标有三个:
熟悉Linux环境
登录服务器
Linux基本命令
PATH的意义
学习conda管理环境
如何在conda中添加channel
如何用conda安装和卸载软件
如何创建新的环境和切换环境
数据准备
参考序列
注释信息
测序数据
首先,对于Linux环境,能有服务器最好。实在不行Windows10用户可以安装WSL,MacOS请在应用程序中搜索终端,参照下面链接进行配置:
Windows10配置
WSL: https://linux.cn/article-9545-1.html
MacOS的环境配置:
https://blog.csdn.net/orangleliu/article/details/47357339
然后,你需要学一些基础的Linux的命令操作,如下是鸟哥的Linux私房菜的对应链接
目录管理:
http://linux.vbird.org/linux_basic/0210filepermission.php
vim使用说明:
http://linux.vbird.org/linux_basic/0310vi.php
shell基础:
http://linux.vbird.org/linux_basic/0320bash.php 中的10.1,10.2,10.3和10.4
再接着你需要用conda安装如下软件
sra-tools: 数据下载
fastqc: 查看数据质量
cutadapt, trimmomatic: 数据质控
star, hisat2: 数据比对
samtools: SAM/BAM文件处理
subread, htseq: 基因计数
conda的教程推荐看https://www.jianshu.com/p/edaa744ea47d
学有余力: 整理 络上关于这些软件的资源
接着你得下载如下数据:
参考基因组序列: 在 http://www.ensembl.org/ 上下载 GRCh38的参考基因组序列
注释文件:在 http://www.ensembl.org/ 上下载 GRCh38 对应的注释GFF文件
SRR数据:编 为 SRR4820707,SRR4820708, SRR4820709,SRR4820710, SRR4820727, SRR4820728, SRR4820729, SRR4820730 (我上传了微云,链接:https://share.weiyun.com/5lFLZzL)
以上就是第一周的内容了,按照链接自学为主,做好准备工作。
这里是用的人类的基因组数据,而不是小麦的,根据我的经验,任何基因组的分析,不要上来就用小麦基因组,手中常备拟南芥、水稻、人类基因组。先用小的基因组,确保能跑通流程了再来小麦基因组。要不然,三周或者一个月后,你才发现某个参数可能需要调整,多来几遍,可能都快要毕业了,软件还没跑完。
附原文链接:https://mp.weixin.qq.com/s/P5Rw_WQw1Wz7Tb2pXgcnHQ
SRA数据的下载以及在线blast–或许与你了解的不一样
SRA快速转fastq—即多核版fastq-dump——另外找一枚小麦育种方面的童鞋
(伪)从零开始学转录组:读文章拿到测序数据
(伪)从零开始学转录组:了解参考基因组及基因注释
转录组入门(3):了解fastq测序数据
(伪)从零开始学转录组:软件安装
(伪)从零开始学转录组(5) 序列比对
评估salmon和kallisto在小麦RNA-seq定量中的异同
使用salmon和sleuth进行小麦RNA-seq差异表达分析
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!