【论文阅读|cryoET】Isotropic reconstruction for electrontomography with deep learning (解决缺失楔问题&降噪）

论文题目

Isotropic reconstruction（各向同性重建）for electron tomography with deep learning

Abstract

低温电子断层扫描（cryoET）允许原位细胞结构的可视化。然而由固有的缺失楔问题引起的各向异性分辨率给断层成像的可视化和解释性带来了重大挑战。

因此，IsoNet 克服了 cryoET的两个基本限制，使得其功能解释无需子断层平均。它在高分辨率细胞断层扫描中的应用也会有助于识别子断层平均中的同一类型的不同取向的复合物。

introduction

（选介绍了一些cryoEM以及限制性，又介绍了cryoET和存在的问题。主要是缺失楔问题和低信噪比问题。然后介绍了在缺失楔问题上的现有工作和存在的限制性。）

对于缺失楔问题，现有的方法一般通过先验假设（例如正密度和溶剂平整度，都是binary的）来约束重建断层图像中的结构特征。但是，这样的二元假设具有有限的信息内容，可能不总是正确，考虑到生物系统的复杂性（比如细胞空间的某些区域可能包含非膜-有界的物质，而不是平坦的溶剂）。

另外，双轴断层成像（dual-axis tomography）依赖于用两个垂直的倾斜轴对同一样本进行成像，将两个缺失楔减少到两个缺失的锥体，因此它有可能减轻断层扫描中产生的伪影。然而，双轴倾斜序列的获取和校准比单轴倾斜序列的获取和校准要复杂得多，而且可能会浪费用于倾斜序列获取的本已有限的电子剂量。因此，虽然在高端仪器中实现，双轴断层扫描实际上吸引力不大。事实上，目前用双轴断层扫描获得的结构还没有超过纳米分辨率。

深度神经络被认为可以学习非线性或高维复杂数据的关系。在计算机视觉中，卷积神经络CNN已经被用于各种任务，如目标检测、图像分割和分类等，通常取得了很高的性能。在cryoEM领域，基于CNN的神经络被应用于颗粒挑选任务，其性能优于传统方法，如拉普拉斯高斯方法。在cryoET领域，深度学习被用于去噪、颗粒挑选、分类和分割，加速断层图像的解释和分析。其中 DeepFinder 和EMAN2 可以在不考虑缺失楔伪影的情况下生成大分子的分割掩码。基于深度学习的方法也用于无监督的子层析图分类，利用在监督分类任务中学习到的特征空间进行分类。

这些方法中的不需要无噪声的真值，只对噪声的独立性和零均值统计做假设。然而尽管用来填补缺失楔，但它无法恢复像扁平的膜等可靠的大规模信息；其他的包都没有处理cryoET中的缺失楔问题。所以，CNN是否能恢复cryoET重建的缺失楔可靠信息还没有被探索。

从IsoNet获得的具有各向同性分辨率的层析图像将有助于直接解释和分割细胞中的3D结构，并为未来的高分辨率cryoET研究三维选择数十万子断层图像颗粒。

Results

Workflow of IsoNet

尽管是各向异性的分辨率，cryoET重建生成的断层图像包含丰富的结构特征信息，如质膜、细胞器和蛋白复合物。通过合并同一层析图像中不同方向上的相似特征来恢复缺失信息是可能的。一个填补这种缺失信息的例子是通过子断层平均，它对粒子的结构进行对齐和平均，这些粒子在层析图中被识别为相同的、但在不同的方向上。IsoNet旨在扩展这一技术，通过训练神经络以不同旋转方向的子断层为目标，重建规则和多态结构的缺失信息。

IsoNet 流程包含五个步骤。其中三个是主要且必须的：,,；另两个是可选的：,。

其中 , 需要GPU加速。输入是一个或多个tomogram，输入多个可能会生成更可靠的结果但处理时间也更长。实际应用中一般为1~5个。扫描断层可以用加权背投影（WBP）或者迭代的算法（比如SIRT）进行重建。

反卷积CTF 步骤有两个目的:

增强低分辨率信息；
补偿在某些欠焦条件下获得的断层图像中的对比传递函数(CTF)。由于在CTF中存在零，我们使用Wiener滤波进行CTF补偿，就像在Warp中的实现。

Generate Mask 步骤 使用统计方法来检测断层扫描中的“空”区域 (包括样品上方和下方的真空以及那些只含有冰或碳的区域)，这些区域将被排除在后续分析之外。这两种步骤都可以提高神经络训练的性能和效率。

Extract 步骤 允许在原始层析图像或masks定义的断层图像的感兴趣区域中随机裁剪子断层图像。子断层扫描的最大尺寸取决于GPU内存。可以将提取的子断层图随机分成两半来独立训练神经络(图1a)，允许用户执行3D金标准FSC来确定IsoNet重建的断层图在不同角度方向上的分辨率，特别是在z轴上。

在IsoNet的Refine步骤中还实现了一个基于噪声输入策略的去噪模块。当启用这个可选的去噪模块时，在每次迭代中，通过背投影算法从一组仅包含高斯噪声的2D图像重建出3D噪声体积。**这些3D噪声体积被添加到“输入”子断层图像中，而“目标”子断层图像保持不变。**通过这种策略，神经络可以用这些噪声较大的“输入”子断层图像进行鲁棒性训练，以消除附加噪声并提高最终各向同性重建的信噪比。

IsoNet包含了一些防止神经络“发明”分子特征的措施。

用随机数初始化神经络，所有信息都来自原始断层图像，没有先验知识；
在神经络中引入了0.5的dropout factor，使得在剩余50%的随机选择神经元的情况下，络仍然可以重现结果。
可以将提取的用于训练的子断层图像随机分成两半，基于金标准的3D FSC进行分辨率估计。另一种缓解过拟合的方法是添加更多样化的数据集用于络训练，尽管时间消耗随着子断层的数量成比例地增加。

Refine step的结果是一个经过训练的络，将用于全断层图像，并在Predict步骤中产生各向同性重建(图1a)。用于 Predict 步骤的断层图像通常是用于训练络的断层图像的相同或子集。尽管如此，用户可以将训练后的络应用于其他类似样本的断层扫描。（使用4个Nvidia-1080Ti gpu，对于1000 × 1000 × 300像素的断层扫描，Predict步骤的时间消耗约为5分钟。）

Benchmarking with simulated data

首先使用公开的原子模型对模拟的子断层进行IsoNet重建。脱铁蛋白作为第一个检测，因为它已被广泛用作高分辨率冷冻电镜的benchmark；核糖体由于其形状不对称，作为第二次检测。对于两个测试，我们使用Chimera中的从原子模型模拟密度图，并将其过滤至8 ? (图1d, e)。然后在10个随机方向旋转模拟图，并在傅里叶空间中添加缺失楔形，从而产生带有楔形缺失伪影的模拟子断层图(图1d, e中最左边的列)。

在两次模拟子断层扫描的测试中，由于缺失楔形伪影，垂直于z方向的α螺旋等特征在这些模拟子断层扫描中被抹掉了。然后使用IsoNet处理这些模拟的子断层图像。在迭代细化过程中，缺失的信息得到了恢复(Fig.1d, e)。经过7次迭代，所有的alpha螺旋都是可见的，并且与第一次测试中的ground truth结构相同。尽管我们在IsoNet处理过程中没有强制要求对称，但脱铁蛋白的立方对称性逐渐出现。在Refine步骤中，核糖体形状的扭曲减少，RNA的大小凹槽变得可分辨(图1e)。这些结果表明，IsoNet在模拟圆/对称蛋白复合体以及同时包含蛋白质和核酸的非对称蛋白复合体方面表现良好。

IsoNet对核糖体数据集的楔形伪影进行了修正。

然后用 IsoNet 处理 HIV 断层扫描。IsoNet 校正的 HIV 断层扫描中的金珠看起来是球形的(图3a)，它们应该是球形的，而不是由于缺失楔问题而形成的“X”形。值得注意的是，现在可以在 IsoNet 生成的断层图中观察到 HIV 颗粒的顶部和底部。当在傅里叶空间检查时，XZ切片上缺失的楔形区域被填充的值与原始断层的傅里叶变换相比(图3a)。为了量化填充信息的分辨率，我们将提取的子断层图像分成两个随机子集，分别使用这两个子集训练两个神经络，然后进行3D FSC计算。XY平面的分辨率高于其他平面(图3b)， XY轴的分辨率达到奈奎斯特分辨率，显示我们的络保留了原始层析图像的高分辨率信息。各向同性分辨率的z轴分辨率约为30 ? (Fig.3b)，在各个方向上都是分辨率最低的。这一结果表明，我们的各向同性重建可以在30 ?分辨率下真实地重建缺失的楔形信息。

重要的是，我们的各向同性三维重建显示，在低分辨率下结构的质量在所有方向上都是相似的，这使得生物结构可以得到充分的解释(图3c和补充视频1)。我们解析了这些破碎的病毒沿断层图像的顶部和底部平面剪切(图3c和补充视频2)，表明空气-水界面导致衣壳变形，这在冷冻电镜领域中得到了很好的识别。Gag蛋白-衣壳的亚单位，在空气-水界面上大多没有特征(图3c)。完全嵌入冰中的球形病毒由六边形晶格构成(图3c)，而未观察到五边形亚单位，这与未成熟HIV颗粒的子层析图平均结果一致。

对 cellular organelles 断层数据的应用

接下来，我们用IsoNet处理了Try-panosoma Brucei的lagella层析图，测试了 IsoNet 对细胞器内部结构的解析性能。缺失楔恢复层析图在所有三个维度上都显示出相对均匀或各向同性的结构(图4a, b)。整体对比度优于原始层析图，部分原因是络去噪。一个值得注意的缺失楔假象是在横断面视图(即图4a中的XZ视图)中很难识别已经确定的9(外部双态)+ 2(中心对单态)微管排列。SIRT算法重建的原始层析图中，XZ和YZ面微管破碎、呈椭圆形，伪影严重，也反映了缺失楔效应(图4a)。在IsoNet生成的层析成像中，微管变得完整且呈圆形，并有一些可见的微管蛋白亚基。与微管结合后，外部(图4b中红色箭头)和内部(图4b中蓝色箭头)臂动力蛋白阵列在isonet生成的层析图中可以清晰区分。在所有三个正交切片中都可以区分连接外部双偶和中心对的径向辐条(图4a, b)。

【论文阅读|cryoET】Isotropic reconstruction for electrontomography with deep learning (解决缺失楔问题&降噪）

The performance of IsoNet for low SNR cellular tomograms.

Discussion

我们开发了一个基于深度学习的软件包IsoNet，以克服当前所有cryoET方法存在的缺失楔问题和低信噪比限制。为了证明其鲁棒性，我们应用IsoNet处理了三种具有代表性的cryoET数据，代表了三种复杂度水平。IsoNet显著改善了所有这些情况下的结构可解释性。在由此产生的层析成像中，原位蛋白特征呈现各向同性，具有高质量，有时与子层析成像平均得到的结果相匹配。对于层析图中的非晶结构，如膜，IsoNet允许络从层析图中的许多其他类似结构中学习特征表示，并恢复丢失的信息。因此，IsoNet通过克服其固有的缺失楔问题，扩展了cryoET的实用性，实现了对细胞中复杂结构(图5、图6)或患者组织断层扫描中罕见结构的3D可视化。值得注意的是，IsoNet在处理缺失楔问题上优于ICON和MBIR。

IsoNet 从哪里恢复丢失的信息些问题涉及到深度学习的基本原理，可以被认为与信息在空间中的非局部性有关。通过从原始层析图中分散的具有重复形状结构的信息中学习，IsoNet巧妙地消除了扭曲或缺失的信息。IsoNet方法的最大优点是，在不需要人工干预的情况下，可以在不同维度上自动发现和“平均”相似的特征。**这些特征可能与三个笛卡尔维度的平移和旋转方式有关，如晶体PFR亚基和轴突微管(图4)；它们也可以通过对称联系起来**，比如格蛋白笼的五边形和六边形(图6)；它们可能有生物学上的联系，比如蛋白质只由20个氨基酸和四种碱基的核酸组成，两者在几何上都被限制为线性分子；最终，它们也可能与自然信的组成有关，例如水平取向的碳膜可以分解为共同的特征，包括点、线、面(图2)。IsoNet在同一层析图中或跨多个层析图中学习它们之间的关系，并自动重建这些特征。IsoNet 和子层析平均在本质上是通过同样的原理来补偿缺失楔问题的。

尽管在处理有噪声的数据时应该考虑过拟合，如cryoET数据。IsoNet 原则上不会在相似的分子之间混淆而导致过拟合。这是因为在IsoNet神经络中，缺失信息的恢复是跨多个尺度执行的，它从非常局部的区域开始检测到非常大的区域。相似分子之间即使是最细微的差异也会在小范围内占主导地位。在这个范围内，IsoNet算法将惩罚人为地向分子中添加小成分。

抛开信息恢复的细节不提，IsoNet 在 map 可解释性方面的实质性改进现在允许可视化结构进行功能解释，而不需要繁琐和耗时的子层析图平均，这通常涉及先验特征识别和手动颗粒挑选。通过IsoNet在细胞断层扫描中可视化这些结构，还将改善定位和随后对数十万个类似结构拷贝的子断层扫描平均，从而在其原生细胞环境中实现细胞复合物的原位原子分辨结构。

Methods

软件实现

Linux command line & GUI

数据准备

用户应该准备一个包含所有断层扫描（一般1~5个tomograms）的文件夹。推荐将断层扫描分成大约10 ?的像素大小。可以是WBP或SIRT的重建结果。
采用的数据和处理流程文件格式是和Relion中相似的STAR文件。

Deconvolve CTF

对于没有电压相位板(VPP)的倾斜序列，正弦CTF在某些频率上抑制甚至反转了信息。为了增强层析图像的对比度，促进信息检索，在此步骤中，将类似于Warp软件中实现的CTF反卷积应用于层析图像。

IsoNet使用类似维纳滤波器的CTF反卷积，并根据经验设置频谱信噪比(SSNR)。

生成 mask

训练用的子层析成像最好包含丰富的信息，而不是只有冰、空气或碳的空白区域。在可选的掩码生成步骤中，IsoNet 使用统计方法来检测不会从中提取子层析图的空区域。可以应用两种不同的掩码：像素强度掩模(排除密度低的区域)和标准差掩模(排除低标准差的区域)。

像素强度掩模将首先用高斯滤波器抑制噪声，然后对对比度倒置的层析图(即白色密度和黑色背景)应用滑动窗口最大滤波器。过滤后的层析图中密度值相对较小的区域将被视为空白区域。参数“density_percentage”定义了密度掩码在层析成像中保留的区域的百分比。

标准差掩模是通过计算以每个评估体素为中心的小立方体积内体素的标准差来实现的。标准偏差相对较低的体素将被排除。

IsoNet使用这两个掩码的交集来排除空白区域。掩码生成的参数可以调整为覆盖感兴趣的区域，但排除空白区域。除了这两种类型的掩码，IsoNet允许通过“z_crop”参数排除断层扫描的顶部和底部，这通常是空白区域。

Extract subtomograms

在每个层析图中，在整个层析图或掩码所定义的感兴趣区域内随机生成指定数量的种子。然后，以生成的种子为中心的立方体积被框出并保存为子层析图。提取的子层析图像应该足够大，以覆盖层析图像中的典型特征，如膜片或囊泡。

Refine

这个过程迭代地训练神经络来填补缺失的楔形信息，使用同样的断层扫描，其缺失楔伪影被添加到其他方向。去噪模块也可以加在这一步骤中，使络能够降低噪声和恢复缺失的楔形。对每次迭代得到的子断层图像和神经络模型进行保存。
STEP 1: 训练数据集生成
STEP 2：加噪声
STEP 3：络训练
STEP 4： subtomogram 预测

Predict

可视化

IMOD 可视化二维断层切片图像
UCSF ChimeraX 可视化生成的三维 tomogramswas
利用UCSF ChimeraX中的体积示踪器和颜色区对密度图进行分割和表面绘制。使用UCSF ChimeraX中的“fitinmap”工具将核糖体的原子模型拟合到断层扫描图上。

小结

具体地，在每一个循环中，第一步旋转断层数据并去除其一部分信息从而和旋转数据产生数据对；第二步通过神经络训练获得补全人为去除的信息；第三步使用络恢复原始数据的部分信息，并把恢复的部分加到原数据中。通过不断的生成数据，训练络，补全数据，断层成像的缺失信息会一步步的补全。

同时，在IsoNet算法的流程中，可以加入降噪过程，把输入数据加上噪音项，使得一个络可以同时进行缺失信息补全和降噪处理。因此IsoNet算法不仅可以很好的补齐缺失信息，而且能够达到降噪效果。

Reference
【科技前沿】Nat Commun | 毕国强/周正洪合作开发基于深度学习的cryoET数据处理算法和软件IsoNet

$A u t h o r : C h i e r$

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树首页概览212576 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！