软件面临“卡脖子”?国内有生物信息学软件可以替代SnapGene或Benchling吗?

在基础工业软件领域,我国仍处于萌芽状态,有被美国卡脖子的巨大风险。哈工大被禁止使用MATLAB后,该校的一名研究生在 上哀叹:“国内工业软件和国外差距至少在30年以上”。

近日,笔者了解到国内有自主研发生物信息学软件InSequence。说实话,笔者是非常高兴的,如果鹰谷能解决生物软件问题,弥补国内在生物信息学工业软件的短板,笔者是非常乐见其成的。因为对于生物从业者来说,不再受制于国外软件、不再把数据放在国外,是非常有意义的事。

1.0版本覆盖了如下功能点:

序列处理:fasta或genbank序列文件导入、坐标生成、序列注释、序列大小写切换、序列翻转、序列合并、互补链计算、开放阅读框计算、翻译为蛋白质、序列比对、查看酶切位点;

蛋白质生化特性计算:等电点、蛋白分子量、氨基酸疏水性、蛋白质不稳定系统、氨基酸消光系数等的计算;氨基酸组成分析,氨基酸单字母三字母表达切换;

抗体设计:抗体编 、互补决定区(CDR)注释以及CRISPR设计、引物设计、引物性质分析、序列查找与定位等。

现在,随笔者的调研,一起看看InSequence1.0的功能细节吧!

01

从序列导入开始

序列处理是生物科研人员的基本工作。InSequence支持通过多种方式导入序列:fasta、genbank等或者直接输入序列。序列导入之后,能够对序列进行自动化处理。目前系统支持生成序列坐标、序列合并、切换序列大小写、添加注释、序列翻转等操作。这些操作都是基于表格来完成的,使用、修改起来都很方便,表格的一些使用技巧(如复制、粘贴等)也能够在处理序列的时候使用,相当于在Excel中实现了序列的数据处理。

图1 插入序列坐标和注释

02

DNA序列分析

把DNA序列导入之后,我们接着就能够对DNA进行分析,以便进行接下来的操作。首先我们可能需要自动匹配互补链。我们从 站上下载的序列可能常常都是单链的,系统能够自动补充互补链,构建双链DNA。接着,计算DNA基础性质,比如像Tm值、GC比以及序列长度等。不同用途对Tm值等、GC比等要求可能是不同的。

InSequence还可以支持通过多种格式复制DNA序列,复制正链、反链,或者复制成对应RNA、蛋白质的正链和反链,不再需要我们手动计算相应的对应关系。

图2 DNA的性质和翻译

如果序列是可以翻译的,我们还需要标注开放阅读框,并把序列翻译成蛋白质。InSequence支持识别多种起始密码子,支持双向查找开放阅读框。可以把找到的开放阅读框标记成显著的颜色,并把序列翻译成氨基酸序列,进行相关研究。

图3 自动计算开放阅读框

如果我们需要进行序列剪切,那需要查找酶切位点。我们可以直接通过InSequence表格的查找功能(Ctrl F)来一个个找,这样虽然能够找到,但也难免费时费力,在面对大量序列的时候将难以操作。InSequence支持自动把一段序列的所有酶切位点找到并列出来,这确实能快速帮助我们完成序列剪切和替换的工作。

图4 查找酶切位点

图5 环状DNA图

03

蛋白质序列分析

InSequence支持对蛋白质序列进行分析,从序列的角度来研究蛋白质的性质与功能。序列可能是单字母显示的,这样有时候看起来不那么舒服。InSequence能够自动进行氨基酸的单字母和三字母写法相互切换,找到最适合的显示方法。

图6 切换氨基酸表示方式

氨基酸链是蛋白质的一级结构,我们常常需要从蛋白质的组成上来研究其性质。InSequence能够自动分析蛋白质的氨基酸组分,列出每种氨基酸的占比多少。此外,也可以根基氨基酸的亲疏水性质进行归类,找到那些可能是跨膜区域的疏水基团。进而也可以分析蛋白质的等电点、分子量、消光系数、不稳定性等参数,从总体上研究蛋白质性质。

目前抗体药是一个比较热的研究领域,抗体序列常常需要进行编 ,帮助我们区分不同的功能区域。InSequence支持通过IMGT,Kabat,Chothia,Martin,AHo五种方法对多种动物进行编 。完成编 之后,能够对相应区域进行注释。

图7 蛋白质基础性质

04

分子生物学工具

除了这些常规的序列分析功能外,InSequence还有一些分子生物学相关的工具,能够更好地帮助研究员完成实验。

首先是序列比对功能。在进行分子生物学实验中,我们难免需要对序列进行比对,找到两两序列之间的亲疏关系,或者通过比对数据库,预测未知序列可能的功能。InSequence支持对DNA或者蛋白质进行双序列比对。比对参数可以自己调节,通过修改匹配、错配、空缺的分数来控制结果的显示。序列比对的结果能够以直观方式展示出来,匹配、错配和空缺都一目了然。除了双序列比对之外,如果需要用到blast数据库资源,InSequence支持一键跳转,使用NCBI数据库进行分析。

然后是引物设计功能。引物设计常常困扰着很多研究员,自己的引物究竟合不合适,Tm值是多少才行,太长了或者太短了有没有影响等等问题。InSequence能够在序列的基础上添加引物,引物就在对应的DNA上方。在现有序列基础上添加引物之后还可以手动修改其中的序列,或者查看引物的性质,检查引物是否符合要求。当然,如果需要进行更加严格的分析,可以通过primer3分析。

图8 插入引物

图9 crispr设计

基于表格的序列操作也使得序列查找得以更好地实现。系统支持查找重复序列,可以设置重复序列的长度进行筛选;也可以通过逻辑符 进行模式查找,或者通过坐标精准查找。

05

结语

随着分子生物学的发展,生物信息学软件工具已经广泛应用于抗体的改造、基因药物设计、合成生物学等等。据 道,涉及分子生物学的行业领域市场价值大于 10万亿美元。因此,优秀的生物信息学工具,是与CAD、EDA、MATLAB等具备同等重要性,也是国之重器,希望引起有关领导的重视。

InSequence1.0在各种便民功能整合上,显得一气呵成。但是,在很多方面,还是有明显的不足,比如质粒的图形展示界面还比较粗糙,还不具备引物优劣判断功能。笔者真诚希望国产软件能加速发展,助力中国的生物科研,让我国的生物医药真正具备独立自主的研发实力。据悉,上海鹰谷正在研发InSequence2.0,将更新生物信息相关的功能,引入更加方便的用户交互系统。

InSequence是否会成为国内首个替代Benchling或SnapGene的生物软件呢?笔者对此十分期待。

— END —

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年4月12日
下一篇 2022年4月12日

相关推荐