NCBI下载SRA数据的4种方法

作为生命科学的从事者,不论是老师或者学生都应该用过NCBI((National Center for Biotechnology Information Search database,一个综合性的生命科学资源 站)。那么作为一个生命科学中的一员,如果你们没用过NCBI 站,这就好像是在说“知 是啥”。希望提到这个 站的事情,你的表情不会是下面这个样子,哈哈哈。。。

不管你是否了解NCBI 站,这都不重要,重要的是如果哪一天你需要用到了(比如要从NCBI上面下载个原始数据,这个需求比较合理吧!),你会不会呢然不会也没有关系了,因为这篇就是教你如何下载数据的!哈哈。。。

下面言归正传,来说一说NCBI下载数据的几种方式:

  1. NCBI官方的 SRA Toolkit 进行下载
  2. wget, curl 命令直接下载
  3. aspera 工具下载
  4. grabseqs 工具下载

1、SRA Toolkit 下载数据

第一种方法就是使用NCBI官方提供的软件来下来,这个也是相当的方便可行,只要到官 下载SRA Toolkit软件(该软件是二进制的格式,如下截图,选中对应本版下载到本地解压就可以使用,相当方便),然后就可以下载数据了。

软件准备好了,下面就可以下载数据了:

那么如果想批量下载一个项目的很多数据呢先得找到数据的SRR ,随便选中一个SRR 在“SRA”数据库中搜索,会得到如下截图:

然后点击“All runs”,会得到如下截图:

接着选中你想下载的数据,点击”Accession list”,会下载一个包含选中数据SRR 的文件(SRR_Acc_List.txt),如下所示:

最后就可以批量下载了:

2、wget, curl 下载数据

第二种下载方式,wget, curl 命令直接下载。用这种方式下载数据需要知道数据的下载链接,如何获取数据链接呢取数据链接也有两种方式,一是通过NCBI 页,二是通过SRA toolkit。
先说通过 页如何获取,当我们在“SRA”数据库中搜索SRR后,点击下面表格中的SRR 如“SRR1482463”,会跳转到页面如下:

切换到‘Data access’界面,就找到数据链接了,如下截图:

通过SRA toolkit获得数据链接就更省事了,到SRA toolkit软件的bin目录下找到srapath软件,一行命令就可以了:

找到链接就可以用wget来下载数据了:

3、aspera下载数据

第三种下载方式,就是使用aspera软件来下载数据:

4、grabseqs下载数据

第四种下载方式是使用grabseqs软件来下载数据,该软件是比较新的软件,可以将下载的sra数据直接转换为fastq文件,相比于上面三种省略了sra -> fastq的转换步骤,可谓是一步到位。因为该软件会调用fastq-dump直接将sra拆分成fastq,所以你得提前安装好fastq-dump。该软件是基于python3,可使用pip安装相当方便。安装和使用方法如下:

sra转化为fastq

当我们拿到了sra数据并不能直接使用,需要将其转为fastq文件。数据都拿到了,转化格式当然是很简单的事了,就是跑一行命令的事情。使用SRA Toolskit中的fastq-dump软件即可。值得注意地是如果数据是pair-end的格式最好加参数–split-3,这样对于一方有而另一方没有的reads就会单独放在一个文件里。

四种方式你学会了,其实方式不重要,选择一个适合自己的方式即可,重要是能够获取到自己想要的数据,毕竟科研的本质是要数据来支持自己的研究。

文章知识点与官方知识档案匹配,可进一步学习相关知识MySQL入门技能树数据库组成31314 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年9月3日
下一篇 2021年9月3日

相关推荐