使用NCBI rpsblast寻找蛋白序列具有的保守Domain (本地版CD-search)

在生信研究中经常需要寻找蛋白序列的Domain，蛋白序列的Domain对于蛋白质来说是最重要的一部分，一般来说会有发挥功能的区域，结合其它物质的区域，二聚化区域等等。现在的蛋白质数据库已经很多了，但寻找Domain可以直接考虑NCBI的CD-search功能，其中包含了NCBI自带的CDD库(link)，PRK库(link)，以及外部的Pfam数据库(link)，COG库(link)，SMART库(link)，TIGRFAM库(link)等。查询起来可以说是很方便！页查询地址为：https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

此处介绍本地版查找Domain的方法，数据仍旧是NCBI上的数据，只不过是下载后使用而已。进行本地版rpsblast依赖本地BLAST工具即可，BLAST+安装包已包含此功能，不需要额外安装其它工具。

文章目录

- 数据下载
- 建立数据库
- rpsblast
- 叮

数据下载

下载地址为：https://ftp.ncbi.nih.gov/pub/mmdb/cdd/cdd.tar.gz

这个文件是包含了NCBI 页版的各个库的，即CDD、COG、SMART、TIGR、PRK等。若是只想使用某个库，也可以只下载某个库对应的文件。地址是：https://ftp.ncbi.nih.gov/pub/mmdb/cdd/little_endian/

此处介绍下载完整文件的版本。下载的文件解压后是包含了各个结构域对应的矩阵文件(即smp文件)，这些矩阵文件储存的是Domain的特征。此外还有以pn为后缀名的文件，是用于存放某数据库的所有矩阵名的文件，例如Tigr.pn存放了TIGR00001.smp、TIGR00002.smp等矩阵名。这些矩阵名存放在pn文件中是为了后续制作db准备的。

建立数据库

如同其它blast一样，rpsblast也需要建立数据库即db，制作db的命令是makeprofiledb。

使用方式:

根据自己的需求设置自己数据库的内容，需要多种数据库的话可以自己将对应的smp文件名都读取之后存入某个文件(文本类文件即可)，也可以按照CDD、COG、SMART、TIGR等分类分别进行建库。

例：

当想找的Domain包含在TIGR00001.smp、TIGR00002.smp中，那么将这两个名字放在test.txt件中。

使用如下命令即可建立名为test的库。进行rpsblast时直接调用此文件夹下的test数据库即可。

rpsblast

进行rpsblast的步骤与blast类似，其输出结果也同blast类似。

根据自己建好的数据库，rpsblast的命令如下：

本地rpsblast的结果与页CD-search的结果有所不同，是因为页blast设置了一些参数，若是想要获取到同页CD-search一样的结果，那么可以按照readme文件中的指引设置一下(readme文件链接在参考中)。

叮

参考：https://blog.csdn.net/weixin_43364556/article/details/102968436

参考：ftp://ftp.ncbi.nih.gov/pub/mmdb/cdd/README

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

使用NCBI rpsblast寻找蛋白序列具有的保守Domain (本地版CD-search)

文章目录

数据下载

建立数据库

rpsblast

叮

相关推荐