第一次基因数据处理从集群到数据处理结果—构建菌群物种丰度的图谱

文章目录

  • 关于宏基因组分析
    • 什么是宏基因组分析测序/li>
  • 准备—–宏基因组集群上需要用到的环境和工具(在服务器对测序数据进行组装和质控,排除宿主的DNA,根据OTU获取菌落的丰度的表,或者进行基因功能注释。)
    • Anaconda——类似于虚拟机,能够快速构建环境,傻瓜式–即conda命令
    • snakemake (v5.14.0)—-流程控制软件,调控软件合作运行
    • python3 (v3.6.10), pandas—–生物信息分析软件底层支持
    • bowtie2 (v2.3.5.1)—-序列比对软件–主要用于去除宿主的序列
    • samtools (v1.9)—-一款对于bam格式文件进行赛选,排序,操作的软件,可以转换文件类型。为metaphlan3做好数据准备
    • metaphlan3 (v3.0)—根据质控数据获取物种丰度
    • seqkit (v0.12.1)
  • **==__关于集群__==**
    • 关于节点篇
        • qstat命令内容展示
        • tail命令
        • awk命令
      • xargs
      • sort 排序命令
      • tr 替换命令
      • 考虑到服务器存在可能有无下载节点,即是否有 络节点,如果需要 络则要跳转至下载节点
    • 投递计算任务
    • 查看文件大小
      • du命令查看看要处理恶的文件的大小
    • 下载任务—scp或是使用xftp其他软件
  • 微生物宏基因组分析
    • ==profile==是什么/li>
    • 微生物宏基因组分析数据的获取
    • **实际操作**
      • 构建snakemake流程进行生物信息分析
    • 构建流程—-非snakemake 的并运行,模仿snakemake的运行模式
    • 通常来说会使用多种方法对数据进行处理,得到不同的结果,通过对比几个方案的不同数据,来获取最佳的数据进行后续处理同时也是一个证明数据,为你自己所选择的方法进行作证。
  • 总结

宏基因组分析第一次分析,我也想成为大佬加油,今年实习一定很傻
今天我又意外听到了hadoops和sge框架的处理系统概念,暂时还没有去弄不过这个snakemake是sge框架下使用的一种调节的工具就可以控制资源这样就可以用同样的资源跑几个任务。

关于宏基因组分析

什么是宏基因组分析测序/h2>

以特定的环境中的整个微生物群落,作为研究对象,不需要对环境中微生物进行分离培养利用高通量测序平台进行测序,可进行微生物的组成及种类进行鉴定,系统功能注释,样品间的物种或基因培养以及物种间的代谢 络分析。
##宏基因组技术路线
样品—提取基因组DNA—基因组DNA片段话—illumina测序–数据质控–高质量数据—生物信息分析
注意宏基因组测序特点为测序不进行PCR,PCR扩增容易引起碱基偏向性,使得菌落的物种DNA比例无法反应真实的环境的变换,所以很费钱。

准备—–宏基因组集群上需要用到的环境和工具(在服务器对测序数据进行组装和质控,排除宿主的DNA,根据OTU获取菌落的丰度的表,或者进行基因功能注释。)

Anaconda——类似于虚拟机,能够快速构建环境,傻瓜式–即conda命令

snakemake (v5.14.0)—-流程控制软件,调控软件合作运行

python3 (v3.6.10), pandas—–生物信息分析软件底层支持

bowtie2 (v2.3.5.1)—-序列比对软件–主要用于去除宿主的序列


Bowtie2 是将测序reads与长参考序列比对工具 (适用于将长度大约为50到100或1000字符的reads与相对较长的基因组, 如哺乳动物,进行比对)。
通常是比较基因组学(包括识别变体(variation calling),ChIP-seq,RNA-seq,BS-seq)管道的第一步。
可以处理非常长的读数(即10s或100s的千字节),但它针对近期测序仪产生的读数长度和误差模式进行了优化,如Illumina HiSeq 2000,Roche 454和Ion Torrent仪器。
Bowtie2使用FM索引(基于Burrows-Wheeler Transform 或 BWT)对基因组进行索引,以此来保持其占用较小内存。对于人类基因组来说,内存占用在3.2G左右。Bowtie2 支持间隔,局部和双端对齐模式。可以同时使用多个处理器来极大的提升比对速度。

https://blog.csdn.net/u011262253/article/details/79833969


samtools (v1.9)—-一款对于bam格式文件进行赛选,排序,操作的软件,可以转换文件类型。为metaphlan3做好数据准备

将sam文件转换成bam文件;然后对bam文件进行各种操作,比如数据的排序(不属于本命令的功能)和提取(这些操作是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作);最后将排序或提取得到的数据输出为bam或sam(默认的)格式。
https://blog.csdn.net/weixin_30457465/article/details/96721961

metaphlan3 (v3.0)—根据质控数据获取物种丰度

MetaPhlAn 是一种计算工具,用于分析微生物群落(细菌、阿奇亚和真核生物)的组成,这些微生物群落的组成来自使用 StrainPhlAn 的元基因组猎枪测序数据,具有物种水平和应变级分辨率。
https://www.ershicimi.com/p/09b30cf1460901b17a153205d0573a94

seqkit (v0.12.1)

FASTA和FASTQ是用于存储核苷酸和蛋白质序列的基本且普遍存在的格式。FASTA / Q文件的常见操作包括转换,搜索,过滤,重复数据删除,拆分,混排和采样。现有工具仅实现这些操作中的某些操作,而并非特别有效,并且某些仅适用于某些操作系统。此外,所需软件包和运行环境的复杂安装过程会使这些程序的用户友好性降低。
该项目描述了用于FASTA / Q处理的跨平台超快速综合工具包。SeqKit为所有主要操作系统(包括Windows,Linux和Mac OS X)提供可执行的二进制文件,并且可以直接使用而无需任何依赖项或预先配置。与类似工具相比,SeqKit展示了在执行时间和内存使用方面的竞争性能。SeqKit的效率和可用性使研究人员能够快速完成常见的FASTA / Q文件操作。
https://github.com/shenwei356/seqkit

关于集群

将测序出来的数据构建一个prifile

关于节点篇

一般的服务器集群都会分为登录节点和计算节点,为了能够选择到计算节点首先了解节点的情况
使用SSH切换到计算节点

qstat命令内容展示

通过查看文件大小和数据的多少,来调节提交任务的时的参数

下载任务—scp或是使用xftp其他软件



微生物宏基因组分析

profile是什么/h2>

微生物宏基因组分析数据的获取

流程解析:

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月11日
下一篇 2021年1月11日

相关推荐