【Bash】用本地 NCBI Blast 寻找FASTA的物种分类

目录/Table of Content

    • 1. 安裝基因数据库 (本地版)
    • 2. `blastn` 对每个FASTA文件进行搜索
    • Reference/参考资料:

大家好,我是一个喜欢研究算法、机械学习和生物计算的小青年,我的CSDN博客是:一骑代码走天涯
如果您喜欢我的笔记,那么请点一下关注、点赞和收藏。如果內容有錯或者有改进的空间,也可以在评论让我知道。??

在这里使用了 BLAST+ (v2.10.1)


1. 安裝基因数据库 (本地版)

假设工作目录已经有了所有的FASTA 文件。

在工作目录建立 nt 文件夾,以储存 nt 数据库资料:

下载 nt 数据库:

[在] 如有需要可以把数据库变成 fasta 格式:(时间颇长)


2. 对每个FASTA文件进行搜索

这里,我们只显示每条核酸序列的最大可能的物种名称 。举个栗子,在这里尝试设定:
-num_threads 6 (用6个线程计算)
-query test.fasta (输入的FASTA文件名称)
-out test_blastn.txt (Blastn之后的输出文件名称)
-outfmt “6 stitle” (用第款 (Tabluar) 输出格式; 增加表格栏 (对应物种名称) )
-db nt/nt (选择本地nt数据库,就是刚下载的那个?)
-dust no (不启用 DUST来过滤序列)
-max_target_seqs 1 (每个搜索最多返回 1个 结果)
-perc_identity 90 (至少要 90% 配对率)
-evalue 0.0001 (E-value 至少 0.0001)
-min_raw_gapped_score 105 (设定 105 为 Minimum raw gapped score)

关于怎麽设定表格栏options,可以参考以下表格:

Option Description
qseqid query (e.g., unknown gene) sequence id
sseqid subject (e.g., reference genome) sequence id
pident percentage of identical matches
length alignment length (sequence overlap)
mismatch number of mismatches
gapopen number of gap openings
qstart start of alignment in query
qend end of alignment in query
sstart start of alignment in subject
send end of alignment in subject
evalue expect value
bitscore bit score

Reference/参考资料:

http://www.metagenomics.wiki/tools/blast/blastn-output-format-6
https://www.ncbi.nlm.nih.gov/books/NBK537770/

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年10月15日
下一篇 2020年10月15日

相关推荐