生信软件 | STAR（测序序列与参考序列比对）

零、介绍

STAR （Spliced Transcripts Alignment to a Reference），用于将测序的 Read 对齐到参考基因组的比对软件，常用于 RNAseq。
因其具有较高的准确率，映射速度较其他比对软件高 50 多倍，因此作为 ENCODE 项目的御用 pipeline 工具。
它需要占用大量内存，对计算资源有较高的要求。
STAR 的默认参数针对哺乳动物基因组进行了优化

参数：

参数：

STAR 的默认参数针对哺乳动物基因组进行了优化。**其他物种可能需要对某些对齐参数进行重大修改，尤其具有较小内含子的生物，必须减小最大和最小内含子大小

STAR 的比对算法需要两步：

种子搜索

STAR 先搜索与参考基因组上，一个或多个位置完全匹配的最长序列。这些最长的匹配序列称为最大可映射前缀 (*Maximal Mappable Prefix，*MMP)：

这种 Read 顺序搜索是 STAR 算法效率的基础。

STAR 使用未压缩的后缀数组 (Suffix Array，SA) 来有效搜索 MMP，这允许针对最大的参考基因组进行快速搜索。其他较慢的比对软件使用的算法通常在拆分 Read 和执行比对之前搜索整个 Read 序列。

意外情况是：

基于与一组‘anchor’种子或非多重映射种子的接近程度将种子聚集在一起，将单独的种子聚集在一起以创建完整的读取。

然后根据读取的最佳对齐方式将种子拼接在一起（基于不匹配、插入缺失、间隙等进行评分）。

https://github.com/alexdobin/STAR

https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf

https://academic.oup.com/bioinformatics/article/29/1/15/272537

https://hbctraining.github.io/Intro-to-rnaseq-hpc-O2/lessons/03_alignment.html

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！