目录/Table of Content
-
- 1. 安裝基因数据库 (本地版)
- 2. `blastn` 对每个FASTA文件进行搜索
- Reference/参考资料:
大家好,我是一个喜欢研究算法、机械学习和生物计算的小青年,我的CSDN博客是:一骑代码走天涯
如果您喜欢我的笔记,那么请点一下关注、点赞和收藏。如果內容有錯或者有改进的空间,也可以在评论让我知道。??
在这里使用了 BLAST+ (v2.10.1)
1. 安裝基因数据库 (本地版)
假设工作目录已经有了所有的FASTA 文件。
在工作目录建立 nt 文件夾,以储存 nt 数据库资料:
下载 nt 数据库:
[在] 如有需要可以把数据库变成 fasta 格式:(时间颇长)
2. 对每个FASTA文件进行搜索
这里,我们只显示每条核酸序列的最大可能的物种名称 。举个栗子,在这里尝试设定:
-num_threads 6 (用6个线程计算)
-query test.fasta (输入的FASTA文件名称)
-out test_blastn.txt (Blastn之后的输出文件名称)
-outfmt “6 stitle” (用第款 (Tabluar) 输出格式; 增加表格栏 (对应物种名称) )
-db nt/nt (选择本地nt数据库,就是刚下载的那个?)
-dust no (不启用 DUST来过滤序列)
-max_target_seqs 1 (每个搜索最多返回 1个 结果)
-perc_identity 90 (至少要 90% 配对率)
-evalue 0.0001 (E-value 至少 0.0001)
-min_raw_gapped_score 105 (设定 105 为 Minimum raw gapped score)
关于怎麽设定表格栏options,可以参考以下表格:
Option | Description |
---|---|
qseqid | query (e.g., unknown gene) sequence id |
sseqid | subject (e.g., reference genome) sequence id |
pident | percentage of identical matches |
length | alignment length (sequence overlap) |
mismatch | number of mismatches |
gapopen | number of gap openings |
qstart | start of alignment in query |
qend | end of alignment in query |
sstart | start of alignment in subject |
send | end of alignment in subject |
evalue | expect value |
bitscore | bit score |
Reference/参考资料:
http://www.metagenomics.wiki/tools/blast/blastn-output-format-6
https://www.ncbi.nlm.nih.gov/books/NBK537770/
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!