BUSCO是Benchmarking Universal Single-Copy Orthologs(通用单拷贝同源基因基准)的缩写,基于基因进化(有参比对)评估基因组组装和注释完整性的开源python软件。其对接结果的评估与 quast 不同,它并不追求基因组拼接的长度,而关注的是是否将一些单拷贝直系同源基因拼接出来。在相近的物种之间总有一些保守的序列,而 BUSCO 就是使用这些保守序列与组装的结果进行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分或者不包含等等情况来给出结果。
BUSCO 评估的原理:
软件根据 OrthoDB 数据库,构建了几个大的进化分支的单拷贝基因集。使用hmmsearch进行比对,将拼接结果预测得到的基因集与该基因集进行比较,根据比对上的比例、完整性,来评价拼接结果的准确性和完整性。也就是比对上已知基因集的基因越多,说明拼接的结果越好。
使用hmmsearch进行比对时:
根据得分判断单拷贝蛋白质是否存在:
expected score’ cut-off is defined as 90% of the minimum bitscore from an HMM search of all of a BUSCO group’s members against its own HMM profile
根据长度判断是否完整:
这里长度根据该单拷贝基因家族的长度分布,query的长度必须落在平均长度的±2σ 之间即为完整,当BUSCO中的蛋白在query蛋白集中比对到多个,则被认为是多拷贝。
二.下载数据库文件
软件安装完毕之后,就开始下载数据库文件了,根据组装的物种来选择对应的数据库文件。以节肢动物数据库下载为例
https://busco-data.ezlab.org/v5/data/lineages/
三.参数设置
公司给建议:
busco –config config.ini -i genome.fa -r -o sample_name –out_path ./ -l arthropoda_odb10 -m geno -c 32 -f
我的运行命令:
busco -i /path/to/canu_removedup.fa -r -o canu_remdup –out_path /path/to/busco –lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f –offline
这行命令依赖metaeuk寻找可能的编码区,还可以通过augustus进行:
busco -i /path/to/canu_removedup.fa -r -o canu_remdup_augus –out_path / path/to /busco –lineage_dataset / path/to /arthropoda_odb10 -m geno -c 32 -f –offline –augustus
–augustus: Use augustus gene predictor for eukaryote runs
最主要的结果在short_summary…2018.txt中,

C:多少个BUSCO测试基因被覆盖,C=S+D;
S:多少个基因经过比对发现是单拷贝;
D:多少个基因经过比对发现包含多拷贝;
F:多少个基因经过比对覆盖不完全,只是部分比对上;
M:没有得到比对结果的基因数;
Total:总共测试的基因条目数,Total=C+F+M。
此外,还可以进行多物种的busco结果的比较,这个就先不展示了。
五.参考:
https://www.sohu.com/a/213046854_464200
https://busco.ezlab.org/
https://www.jianshu.com/p/0ed311feaffa
文献引用:
The novelties introduced in BUSCO v4 and v5 and the new BUSCO datasets (*_odb10) are described here.If you’ve used these versions the correct citation would be:
Mosè Manni, Matthew R Berkeley, Mathieu Seppey, Felipe A Sim, Evgeny M Zdobnov, BUSCO Update: Novel and Streamlined Workflows along with Broader and Deeper Phylogenetic Coverage for Scoring of Eukaryotic, Prokaryotic, and Viral Genomes. Molecular Biology and Evolution, Volume 38, Issue 10, October 2021, Pages 4647–4654
Additional protocols and applications are described in: Manni, M., Berkeley, M. R., Seppey, M., & Zdobnov, E. M. (2021). BUSCO: Assessing genomic data quality and beyond. Current Protocols, 1, e323. doi: 10.1002/cpz1.323
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览209479 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!