2020-12-05 论文阅读

Predicting survival from colorectal cancer histology slides using deep learning: A retrospective multicenter study

2018年发表于PLOS MEDICINE,中科院分区一区10+分,论文传送门

摘要

背景

??几乎所有结直肠癌(CRC)患者都有可用的苏木精伊红染色(HE染色)的病理组织切片。这些图片蕴含丰富的定量信息,但是却鲜有研究利用这些图像提取预后标志物。本研究则利用卷积神经 络(CNNs)直接从这些图像中提取预后因子。

方法与结果

??本研究人工标注了86张CRC组织切片,共计产生100,000个图像块(patch),使用这些patch进行迁移学习训练一个CNN模型,该模型在另外一个由25张CRC组织切片所产生的7,180个patch的独立数据集上达到了94%的9分类准确率。使用这个模型,我们对来自TCGA数据库500名stage I-IV的CRC患者的862张HE染色CRC组织切片进行了特征提取。基于CNN模型输出神经元的激活值,本研究计算得到一种”deep stroma score”。使用多变量Cox比例风险模型进行分析,发现该分数是CRC总体生存的独立预后因子(HR 1.99 [1.27-3.12], p=0.0028)。但是同样使用该数据,人工对基质区域进行量化的特征以及肿瘤相关成纤维细胞的基因表达特征仅可作为特定stage CRC的预后因子。本研究还使用409名来自DACHS的stage I-IV CRC患者构成的独立数据集进行验证,结果再次发现,”deep stroma score”可以被作为CRC-OS的独立预后因子(HR 1.63 [1.14-2.33], p=0.008),CRC-specific OS的独立预后因子(HR 2.29 [1.5-3.48], p=0.0004),RFS的独立预后因子(HR 1.92 [1.34-2.76], p=0.0004)。当然将该预后因子用于临床还需要前瞻性研究作为验证。

结论

??本回顾性研究表明CNN能够评估人类肿瘤微环境,并且能够准确地利用病理组织图像预测肿瘤预后。

  • CRC很常见,且疾病进程各异,因此有必要准确预测单个CRC患者的结局。
  • 几乎每名CRC患者都有可用的组织病理切片。
  • 深度学习能够从复杂的图像中提取信息,我们假设深度学习能够直接从CRC病理图像预测结局。

2.研究做了什么发现了什么/p>

  • 研究训练了CNN模型对CRC病理图像中的不同组织类型进行分类。
  • 研究发现CNN模型能够分解出病理组织中的不同组织成分,然后将这些成分整合为一个预后得分。
  • 利用两个独立数据集进行验证,研究发现利用deep stroma score对生存预测的效果超过了目前最优的UICC分级系统。

3.研究结果有何意义/p>

  • 深度学习技术可被作为一种廉价的工具用于预测CRC患者的疾病进程。
  • 需要前瞻性的验证来确立该标志物在临床中的应用可行性。

前言

??精准医疗依赖于按照基因型,表型或者临床结局将肿瘤患者分为不同的组别。尽管由受过专业培训的病理专家对病理组织切片进行主观的评估是肿瘤诊断和分期的金标准,但是定量标志物的获取仍然通过目前主流的分子和基因检测。

??多年来,通过数字病理技术以及经典的机器学习方法,人们已经能够将病理切片中蕴含的丰富信息进行量化。然而,临床中却没有相关的数字病理图像标志物,部分原因是技术限制,比如复杂的图像分析算法。之前已经有研究使用计算机图像分析方法对数字病理图像进行分析,用于细胞识别和分类,组织分类,细胞核有丝分裂检测,微血管分割以及免疫组化评分等。机器学习方法能够从此类图像中提取出预后因子,并且已经在放射学影像中提取预后因子。

??放眼医学领域之外,CNN已经革新了图像分析领域。它能够从训练数据中提取出可用于复杂图像分类任务的特征。其应用非常广泛,从语音识别,人脸识别,交通标志分类到阿尔法狗。回到医学领域,CNNs已经被用于医学图像的分类,病理图像中癌组织的识别,实体瘤组织微阵列(TMAs)中预后因子的提取,以及肿瘤细胞核的分类等。

??这些研究绝大多数集中于肿瘤细胞,但肿瘤间质成分(肿瘤组织中除了肿瘤细胞外的其他成分的统称)正在走进肿瘤研究者的视野。在诸如CRC的实体瘤中,淋巴细胞和成纤维细胞为主的成分构成了肿瘤微环境,对于肿瘤的结局有着重要的影响。有研究已经使用经典的图像分析方法和深度学习方法对肿瘤浸润淋巴细胞进行了量化,对于某些类型的肿瘤,这些量化指标与转录组数据相关。

??然而,从病理图像中提取出预后因子目前面临着两大难题。其一,研究缺乏大量有标注的数据用于训练CNNs模型;其二,缺乏大量来自不同机构的有变异性的HE染色切片用于方法的外部验证。

??本研究旨在结直肠癌的背景下,尽可能解决这些问题。研究使用来自两个机构的组织切片评估CNNs预测预后的能力。

方法

前瞻性研究计划

??在研究开始之前,本研究人员计划训练CNN模型用于CRC病理组织图像的多组织类型分类;然后使用训练好的CNN模型对TCGA数据库的CRC病理图像进行预测,得到输出神经元的激活值并建立一种预测得分。接下来,利用收集到的来自DACHS数据集的外部数据验证这一预测因子。

患者队列以及数据

??本研究使用了来自4个队列的HE染色组织切片。由组织切片得到的patch大小为 224 × 224 224times224 224×224像素,并且经过了Macenko方法进行标准化。使用这种标准化方法是因为原始图像中的红蓝色调存在微小差异,这种差异会影响分类结果。

??首先,使用来自NCT biobank和UMM pathology archive的86张组织切片所产生的100,000个patch创建训练集(NCT-CRC-HE-100K,无随访数据,下载链接)。图1展示了一些patch。

图2 按照UICC分期得到的OS曲线

TCGA的这些切片来自于全世界的多个结构。缺少结局信息的数据被剔除。
??最后,研究收集DACHS队列的409名患者的409张HE染色组织切片连同随访信息作为独立的测试集数据用以验证deep stroma score。主要结局指标为OS,次要结局指标为DSS和RFS。样本量的大小以可用的样本为准。该数据集的患者信息见分类变量和连续变量。

神经 络的训练和测试

??研究使用了多种不同的CNNs结构,权重均经ImageNet数据集训练迁移而来。研究将替换 络的分类层并使用带动量的随机梯度下降进行模型训练。研究评估了五种不同CNNs结构的表现,分别是:VGG19、AlexNet、SqueezeNet version 1.1、GoogLeNet以及ResNet50。为了衡量这些模型的表现,研究将NCT-CRC-HE-100K的数据划分为三部分,其中70%为训练集,15%为验证集,另外15%被用作测试集。使用两张NVIDIA P6000 GPU进行训练,batch size为360,学习率为0.0003,迭代次数为8次。研究发现除了SqueezeNet以外,其他四种CNNs的分类准确率均大于97%,其中VGG19的准确率最高(98.7%),训练时间适中(见下图)。

??使用TCGA数据得到每个患者的每一类的激活值得分之后,研究把每一类的激活值得分作为一个自变量,使用单变量Cox比例风险模型评估每一类激活值对于OS的影响。对于这9类组织类型(脂肪组织,背景,碎屑,淋巴细胞,黏液组织,平滑肌组织,正常结肠粘膜组织,肿瘤间质以及结肠癌上皮组织)的激活值,分别对应的HR为1.150, 0.015, 5.967, 1.226, 0.488, 3.761, 0.909, 1.154和0.475。然后,使用ROC分析选取每一类激活值预测生存(yes/no)的阈值,选取准则是使得Youden指数最大的点的阈值,于是得到每一类对应的阈值分别为0.00056, 0.00227, 0.03151, 0.00121, 0.01123, 0.02359, 0.06405, 0.00122和0.99961。接下来,将HR>1的组织类型激活值按照下面的步骤整合为一个得分: 计数HR>1的组织类型激活值共有5类,加上一项none,分别用0-5的整数来表示(参照的论文源码);使用每一类对应的HR作为权重对激活值进行加权求和,加权的目的是给予那些和预后密切相关的特征更多的权重,这个HR权重是通过单变量Cox模型获得的。因为该得分是多种非肿瘤成分(间质)信息综合得到的,于是将其称为”deep stroma score”。需要注意的是,间质是除肿瘤细胞外的所有成分的统称,它包括多种组织类型,比如:增生基质,淋巴细胞以及脂肪组织。在TCGA数据集中,该得分的中位数为8.347,后续使用该值将患者分为高得分组和低得分组。对于DACHS数据集,研究使用同样的方式进行分析,其中34%的患者被划分为高得分组,66%的患者被划分为低得分组。使用这些二分法得到的值,在调整了UICC分期(连续型变量, 1, 2, 3 or 4),性别(male or female)和年龄的情况下,进行多变量Cox分析,以估计HR以及对应的95%置信区间。

??研究比较了不同类型的评分的预后能力,包括本研究提出的deep stroma score,CAF得分以及病理专家标注评估得分。阈值的划分标准为:deep stroma score采用中位数为阈值;CAF得分以及病理专家评估得分采用Youden指数最大点阈值为划分阈值。然后均在调整了分期,年龄和性别的情况下分别对三种得分进行多变量Cox分析。

过程总结

??总的来说,研究通过迁移学习的方式在100,000个patch上对5种不同的CNNs结构进行了比较,并利用100,000数据集中划分出的内部测试集和一个外部数据集作为测试,选出了VGG19为最佳的模型。然后利用训练得到的VGG19模型从标注好的病理图像中提取组织特征并将其整合为”deep stroma score”。使用了来自两个队列的909名患者对该分数的预后能力进行了验证。

软件

??所有的统计学分析都是使用R(version 3.4.0)完成的,用到的R包有: survminer, survival, ggfortify, ggplot2, OptimalCutpoints。p为有统计学显著性。使用JASP0.8.5.1进行统计学描述。使用Matlab R2018a进行模型训练,源码见链接。

结果

CNNs能够从病理图像中学习到形态学特征

??研究使用来自NCT-HE-100K的100,000个patch图像进行迁移学习训练得到VGG19模型,并在来自CRC-VAL-HE-7K的7,180个patch图像上进行了验证。9类分类准确率在内部测试集上达到了99%,在外部测试集上达到了94.3%。从B图可以看出错误分类主要发生在平滑肌和间质以及淋巴细胞和碎屑(坏死),这种错分是在意料之内的,因为平滑肌组织和间质都是纤维结构,坏死通常伴有淋巴细胞的浸润。在一项类似的多分类研究中,其分类准确率尚未达到90%。

在另一个独立数据集上评估Deep stroma score的效果

??已经证实了deep stroma score携带有预后信息,于是本研究在另外一个独立数据集上进行验证。通常标志物在外部数据集上验证的效果不好,部分原因是组织样本的变异性大。研究使用来自DACHS的409名CRC患者的石蜡包埋HE染色切片进行验证。计算得到这些患者的deep stroma score,划分deep stroma score所使用的阈值仍旧使用TCGA数据集得到的中位数阈值。分别做了OS, DSS以及RFS的多变量Cox分析。结果发现,deep stroma score在三种生存时间上都为预后因子,HR分别为:1.63 [1.14-2.33], p=0.008;2.29 [1.5-3.48], p=0.0004;1.92 [1.34-2.76], p=0.0004.这些结果都是在调整了分期,性别和年龄协变量的基础上得到的。考虑肿瘤的不同分期,可以发现,deep stroma score的预后作用在I期和II期是不显著的,但是在III期和IV期是显著的。结果再次表明,deep stroma score是CRC的独立预后因子,具有一定的预后作用,尤其对于晚期肿瘤患者。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年11月20日
下一篇 2020年11月20日

相关推荐