
在生信研究中经常需要寻找蛋白序列的Domain,蛋白序列的Domain对于蛋白质来说是最重要的一部分,一般来说会有发挥功能的区域,结合其它物质的区域,二聚化区域等等。现在的蛋白质数据库已经很多了,但寻找Domain可以直接考虑NCBI的CD-search功能,其中包含了NCBI自带的CDD库(link),PRK库(link),以及外部的Pfam数据库(link),COG库(link),SMART库(link),TIGRFAM库(link)等。查询起来可以说是很方便! 页查询地址为:https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
此处介绍本地版查找Domain的方法,数据仍旧是NCBI上的数据,只不过是下载后使用而已。进行本地版rpsblast依赖本地BLAST工具即可,BLAST+安装包已包含此功能,不需要额外安装其它工具。
文章目录
-
- 数据下载
- 建立数据库
- rpsblast
- 叮
数据下载
下载地址为:https://ftp.ncbi.nih.gov/pub/mmdb/cdd/cdd.tar.gz
这个文件是包含了NCBI 页版的各个库的,即CDD、COG、SMART、TIGR、PRK等。若是只想使用某个库,也可以只下载某个库对应的文件。地址是:https://ftp.ncbi.nih.gov/pub/mmdb/cdd/little_endian/
此处介绍下载完整文件的版本。下载的文件解压后是包含了各个结构域对应的矩阵文件(即smp文件),这些矩阵文件储存的是Domain的特征。此外还有以pn为后缀名的文件,是用于存放某数据库的所有矩阵名的文件,例如Tigr.pn存放了TIGR00001.smp、TIGR00002.smp等矩阵名。这些矩阵名存放在pn文件中是为了后续制作db准备的。
建立数据库
如同其它blast一样,rpsblast也需要建立数据库即db,制作db的命令是makeprofiledb。
使用方式:
根据自己的需求设置自己数据库的内容,需要多种数据库的话可以自己将对应的smp文件名都读取之后存入某个文件(文本类文件即可),也可以按照CDD、COG、SMART、TIGR等分类分别进行建库。
例:
当想找的Domain包含在TIGR00001.smp、TIGR00002.smp中,那么将这两个名字放在test.txt件中。
使用如下命令即可建立名为test的库。进行rpsblast时直接调用此文件夹下的test数据库即可。
rpsblast
进行rpsblast的步骤与blast类似,其输出结果也同blast类似。
根据自己建好的数据库,rpsblast的命令如下:
本地rpsblast的结果与 页CD-search的结果有所不同,是因为 页blast设置了一些参数,若是想要获取到同 页CD-search一样的结果,那么可以按照readme文件中的指引设置一下(readme文件链接在 参考 中)。
叮
参考:https://blog.csdn.net/weixin_43364556/article/details/102968436
参考:ftp://ftp.ncbi.nih.gov/pub/mmdb/cdd/README
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!