医疗大数据在学习型健康医疗系统中的应用
柴扬帆1,2, 孔桂兰1, 张路霞1
1 北京大学健康医疗大数据国家研究院,北京 100191
2 北京大学公共卫生学院,北京 100191
摘要:将医疗大数据应用于旨在加快知识生成和临床转化应用的学习型健康医疗系统(LHS)中,满足患者和医疗决策者的知识需求,有助于推动精准医学的发展。在系统阐述医疗大数据与LHS发展现状的基础上,结合LHS的典型应用案例,重点分析医疗大数据在LHS中的应用特点及面临的挑战。最后总结了我国发展LHS面临的挑战,并对未来进行了展望。
关键词: 医疗大数据 ; 学习型健康医疗系统 ; 医疗决策
1 引言
2007年,Etheredge L M提出了学习型健康医疗系统(learning health system,LHS)的概念。随后,美国医学研究所(Institute of Medicine,IOM)提出了应用集成的交互式系统建设LHS,以持续改善医疗实践的战略构想。LHS是依赖于计算机 络、医疗大数据以及决策建模技术建立起来的快速学习系统,该系统旨在通过快速学习健康医疗数据、及时生成医学知识,并将其实时应用到医疗实践来辅助各类医学决策,从而提高医疗服务水平。
在LHS的构建与运行过程中,充分合理地利用医疗大数据,不仅能够有效地提高医疗资源的利用率,还能在服务患者的过程中调整与优化医疗流程,并改善医疗服务质量,达到提高 会整体健康水平的目标。在美国,LHS的建设首先是从单病种开始的,如旨在为乳腺癌病人提供个性化治疗建议的Athena乳腺健康 络(the Athena breast health network)、辅助糖尿病人进行胰岛素治疗方案选择的即时临床试验(point-of-care clinical trial),均是在LHS的理念下进行系统开发和实践的。
1.1 医疗大数据的现状
所有与医疗及健康相关的海量数据均可被称为医疗大数据。
医疗大数据是持续、高增长的复杂数据,蕴涵着巨大价值,在辅助临床决策、医疗质量监管、疾病发展及预后预测、临床药物研发、个性化治疗等领域发挥着巨大作用。利用大数据技术对医疗数据进行分析挖掘,可以从中提取重要信息,发现有效临床途径,从而帮助医生做出最合理的诊断,选择最佳的治疗方案,提供最佳的诊疗建议。例如Ko K D等人利用大数据技术预测运动神经元疾病的严重程度,研究者利用HBase和Apache Mahout的随机森林分类器,基于可以公开访问的临床试验数据库提供的病患医疗记录信息,分析、预测肌萎缩性脊髓侧索硬化症患者失去神经肌肉功能的速度,预测准确率达到66%。Qiang X L等采用机器学习算法开发预测模型,用于预测感染新型冠状肺炎病毒的风险,最高准确率(accuracy, ACC)达98.18%。在医学影像学方面,利用医疗大数据以及深度学习技术可以实现基于医学影像的疾病自动识别。此外,可以将生物学数据(如基因、蛋白质、生物小分子的相关数据)和EMR数据结合使用,使基因测序、个性化用药及个人健康管理等个性化医疗变成临床实践。
医疗大数据从产生到应用可分为5个阶段:数据生成、数据采集、数据存储、数据分析和数据应用。其中,数据分析是最重要的阶段,是数据价值的实现手段,也是数据应用的基础。传统的医学统计方法在处理规模大、维度高、数据类型多的医疗大数据时有一定难度,需要采用更强大的机器学习模型来挖掘大数据中的潜在医学知识。
1.2 LHS简介
在过去的50年中,医疗领域的新知识飞速发展,然而,传统的医疗系统在保证医疗质量、降低医疗成本和维护医疗公平等方面并没有较大的革命性创新。研究发现,医学知识从论文发表到转化为真实世界的临床应用平均需要17年的时间,这直接导致医学研究产生的知识很少能被及时用于改善临床实践,而临床实践产生的真实世界的数据也很少被用于知识的生成或改进。LHS的理念是通过不间断的数据、知识、实践之间周期性的学习来实现的,旨在通过实时分析医疗实践产生的数据、加快医学知识的生成和临床转化应用,并且通过循环的学习过程,使知识能够得到持续改进,从而能够及时、精准地辅助临床决策。Friedman C P等人提出,LHS中数据、知识和实践之间一个完整的学习周期应包括3个阶段:从实践到数据(performance to data,P2D)、从数据到知识(data to knowledge, D2K)以及从知识回到实践(knowledge to performance,K2P)。一个良性运转的LHS通过循环建立周期性P2D、D2K及K2P的学习过程,实时采集数据,来推动知识生成、转化应用和持续改进。在一个完整的LHS学习周期中,P2D、D2K及K2P过程中具体的数据处理、知识生成以及实践应用的步骤如图1所示。对于具体的医学问题,可通过在LHS中建立P2D、D2K及K2P的周期性学习过程来寻找决策方案。
由图1可见,LHS中最核心的是待解决的医学问题。LHS运转的第一步是确定要解决的医学问题。在确定医学问题后,可以构建一个D2K、K2P及P2D的循环学习周期。例如,在Tammem?gi M C等人2013年的一项关于筛查肺癌高危人群的研究中,构建了一个LHS来推动该项目的研究和实际开展。该LHS中D2K、K2P及P2D的完整学习周期如图2所示。该LHS要解决的目标问题是“如何鉴别肺癌高危人群”,首先,在D2K阶段,进行肺癌相关数据的整合与分析,构建预测模型,预测患者未来6年患肺癌的风险。该医学问题对应的学习型健康医疗 区(learning health community,LHC)将审查该预测模型的可用性和可信度,在确定此预测模型在实际中可应用后,进入K2P阶段,将其封装为机器可执行的知识。在知识实现时,设计通过EMR系统可实时调用的该肺癌风险预测模型。在实际应用中,可计算的预测模型将与患者个体信息进行匹配推理,生成对患者个体的肺癌风险预测结果,从而判断该患者是否属于肺癌高危人群,并提出是否需要进行肺癌筛查的建议。该系统体现了利用LHS辅助实现个性化医疗的特点。患者个体将针对这些建议做出响应,如依据建议进行肺癌筛查。这就进入了P2D阶段。P2D阶段将记录每个个体患者在干预下做出的改变,以及这些干预措施对健康的影响,为下一个学习周期提供可靠、真实的数据。
图2 LHS辅助鉴别肺癌高危人群
LHS的潜力巨大,自2007年LHS的概念被提出以来,在过去的10多年中,有关LHS的研究的文献数量一直在增长。LHS的实施最初主要在美国,并在美国国家科学基金会的支持和帮助下进行推广。如,由美国临床肿瘤学会组织实施的肿瘤学习 络CancerlinQ(Cancer learning intelligence network for quality),它汇总了来自电子健康档案(electric health records,EHR)以及临床研究的相关数据,以创建癌症领域临床的快速学习系统,使肿瘤患者群体能够通过分析和共享每个癌症患者的数据,从大量观察数据中得出有用的知识以辅助临床决策,从而帮助改进临床服务质量。此外,在美国得到推广实践的LHS还有美国食品药品监督管理局(Food and Drug Administration,FDA)推出的哨点计划(sentinel initiative),以及医疗保健系统研究 络等。随着LHS在美国推广和应用,其理念越来越受到研究人员的关注。例如,由欧盟支持的转化医学与患者安全(the translational medicine and patient safety in Europe, TRANSFoRm)项目、英国的学习型健康医疗项目、瑞士的全国性LHS,以及日本与我国台湾省促成的亚太医疗系统加强 络等。这些项目主要集中在肿瘤学、儿科学、外科手术、初级医疗保健等医疗领域。
在传统循证医学思维下,研究人员是基于临床试验数据进行医学研究的,医护人员是基于发表的医学证据进行临床实践的。这些传统的医学研究和实践模式确实延长了从数据到知识、从知识到实践应用的周期。在LHS中,根据不同的医学问题,可建立D2K、K2P及P2D的循环学习周期,可基于真实世界的数据进行医学研究,并使医学研究中产生的知识能够基于LHS的系统平台被快速应用到日常临床实践中。这弥补了传统循证医学思维的不足,加速了医学知识的生成和转化,更促进了患者和医护人员共同参与临床证据和临床知识的产生与实践应用。
2 大数据在LHS中的应用
2.1 大数据对LHS的促进作用
医疗大数据以及大数据相关技术对LHS的发展起到了重要的促进作用。
图1所示的LHS学习周期(解决特定的健康医疗问题)多次循环可以形成一个学习系统,在一个完善的LHS中,可以有多个学习周期同时进行。基于医疗大数据开展的数据采集、数据存储、数据处理和数据应用的基础功能组件支撑LHS中各个学习周期的进行。要构建完整的LHS基础功能架构,开发支持D2K的基础功能组件是必要的。在D2K阶段,支撑临床数据共享的基础平台有——PopMedNet(PMN),其由Harvard Pilgrim Health Care公司开发,使用分布式 络进行设计。PMN旨在促进分布式健康数据 络的构建和运行,以满足不同的数据持有者、数据管理中心和研究人员数据共享的需求。类似的数据共享平台还有I2B2(informatics for integrating biology and the bedside),其由美国国立卫生研究院(National Institutes of Health,NIH)资助,由哈佛大学医学院Isaac Kohane等人开发,旨在从EHR中查找患者数据集,形成基于特定项目的数据库,同时通过特定工具保护患者隐私。此外,在LHS中,还需要支持K2P的基础功能组件来管理知识、为决策者提供知识,并根据使用者的需求和特征提供个性化决策建议。在K2P阶段,支撑LHS以机器可执行形式进行知识表示,并随着系统学习快速更新和管理知识的基础平台有:Apervita,其由Apervita公司开发,旨在提供一个独立、安全、可信的平台来实现知识共享和运行,产生临床决策建议,并将这些建议实时应用到临床工作流程中;临床知识管理系统(clinical knowledge management system,CKMS),其由Semedy公司开发,旨在通过软件产品、内容服务和咨询提供集成的知识管理解决方案,用于管理与健康相关的预测模型等知识;知识 格平台(knowledge grid, KGrid),其由密歇根大学开发,旨在进行知识的封装和部署、加快K2P的流程,该平台支持的知识不仅包括自然语言描述的规则,还有各类算法模型,通过代码对知识进行打包封装,形成一个个可计算的知识对象,从而可以被其他应用反复调用。此外,由欧盟的T RANSFoRm项目团队开发的数字平台也提供可扩展的基础功能组件,不仅包括基本的数据共享和数据分析功能(支持D2K部分),还包括流行病学研究查询工作台、临床试验监测工具和EHR系统的诊断支持插件,从而为K2P提供支持。P2D阶段需要能够实时捕捉医疗实践变化以及能够为LHS的数据传输提供支持的基础功能组件。目前,P2D的数据采集基本上是通过医院的EMR系统实现的,是对真实世界医疗实践的数据记录,但是EMR中的真实世界数据并非针对特定的LHS。如何在特定的LHS中,针对特定的D2K和K2P平台,实现P2D的基础功能组件还有待进一步的研究。
表1给出了几个典型的LHS实践案例中医疗大数据、数据平台及相关功能组件的应用分析,数据源均为EHR。
总体来讲,一个功能齐全的LHS离不开大数据的支撑,原因有以下3点。
第一,LHS的正常运行需要可靠的医疗大数据。LHS的D2K阶段需要足够数量和质量的医疗数据,以产生可靠的医学知识。一个高效的LHS需要定期或实时采集大量医疗数据,并存储在集中的数据库中,即图1所示的P2D过程。这些数据不仅包含个人的健康情况,还包含医疗服务的流程、机构和环境信息。需要注意的是,对患者个人数据的访问和使用需采取一定的安全控制措施。
文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树首页概览11286 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!