「尽管较之以前的工具,CRISPR很赞,但它并不总是管用。」加州大学伯克利分校创新基因组的科学主任Jacob Corn说:「我们感到很费解,」但那也是软件流行起来的原因。开发新算法可以帮助研究人员设计出更容易取得成功的CRISPR。
CRISPR系统配有两个主要特征:1)一个可编程的基因代码短链(向导RNA);2)一个充当分子剪刀的蛋白质(通常是被称作Cas9的酶)。一旦复合物被导入细胞,向导RNA会把Cas9带到生物体DNA序列(或基因组)内的准确位置,像魔术贴一样粘在上面,并让Cas9剪断该DNA。接下来,细胞自身机制会修护切口,在这一过程中,毁坏或者添加一些DNA,破坏基因。研究人员也可以有意将新的基因代码导入这个位置。
向导RNA通过寻找带有分子互补代码的DNA片段,来发现自己在生物体基因组内的目标。这些分子被称为碱基,并用字母A(腺嘌呤),T(胸腺嘧啶),G(鸟嘌呤),和C(胞嘧啶)表示。
向导RNA把CRISPR复合体带到DNA里的互补位点,亦即酶寻找被称为「protospacer相邻基序」(缩写为PAM)地标的地方。如果复合体同时找到匹配的DNA和PAM,它将剪断DNA链,打乱基因的序列或者在相同的地方创造新的DNA。
由Cas9酶查找的地标叫做「protospacer相邻基序」(缩写为PAM)。「PAM」在基因组里很容易找到:就像在一本书里找「the」字。任何一个在「PAM」旁边,以20组为单位的互补碱基都可以作为目标点位。
不过,想要确保这20组互补碱基的独特性很难。对于只有四个变量的基因代码来说,大多数生物的基因组有几百到数十亿组的碱基对,模式经常重复。向导RNA会被诱饵片段(decoy segments),叫做脱靶位点(off-target sites),分散注意力,而且可能最终让错误的基因发生突变。与目标片段存在几个碱基差异的片段能妨碍到工具工作。「你能用眼扫描整个基因组,找出(脱靶位点),但要花很长时间。」负责开发CRISPR软件Protospacer工作台,来自巴黎巴斯德研究所的数据学家Cameron Ross McPherson说。
在过去的两年内,有数十个这样的软件工具问世,大多数都是免费的。也有些公司,比如来自旧金山的Benchling,提供比免费公开版本更好用的用户界面。但没有一个脱颖而出的软件系统,开发CRISPR的软件E-CRISP,来自位于海德堡,德国癌症研究中心的Michael Boutros说。Boutros表示还有大量工作需要完成。拥有一个有55个理论上可能有用的向导RNA的清单是一个有益的起点,但是,留给研究人员的任务是必须以试错的方式判断出那个最管用。人们需要能确定预测某个特别向导RNA将会有用的算法。
为此,生物统计学家开始整理试验数据,寻找成功向导RNA的普遍特征,用来指导基于机器学习的预测系统。但是,大部分数据都分散在小型的个人研究里。「把所有数据都放在一起将形成非常强大的资源,这是电脑工程师的机遇。」加州伯克利的Jacob Corn说。不过,现阶段也存在一些大型数据集。来自马萨诸塞州剑桥Broad研究所的一组研究人员近期在人类和老鼠细胞上测试了近2,000组向导RNA,并且发表了一组改进算法的规定。
与此同时,科学家正在试图改造Cas9和其它用来切割的蛋白质,试图为CRISPR用户提供更多的操作选择。这其中的一些蛋白质可以提高向导RNA的准确度。如果他们成功了,对预测精准度软件的需求可能会消失,或者更新。「如果可以完全消除脱靶的可能性,那很好。」Corn说:「但是我们做到了吗?还没有。」
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!