尽管近几十年来在检测和治疗方面取得了稳步进展,癌症仍然是美国的第二大死亡原因,每年约有50万人因癌症去世。为了更好地认识和对抗癌症,医学研究者们开始借助癌症登记程序开展研究。这一全国性的组织网络可系统收集与美国癌症诊断、治疗和发病史相关的人口统计数据和临床信息。监测工作由国家癌症研究所(NCI)和疾病控制预防中心共同协作完成,目标是使研究人员和临床医生能够监测全国、各州各地方的癌症病例。
这些数据大部分摘自电子文本临床报告。这些报告必须由人工整理,因此需要历时很久才能被用于研究。例如,一份详细描述癌性组织的癌症病理报告在被录入登记系统之前必须先由多位专家审核。随着每年数百万份新报告的不断产生,信息负担不断加重。
美国能源部(DOE)橡树岭国家实验室(ORNL)健康数据科学研究所主任Georgia Tourassi表示:“手动模型是不可扩展的。我们需要开发新的工具,使其能够自动完成信息提取过程,真正实现美国癌症监测的现代化。”
自2014年以来,Tourassi团队一直在专注于开发一款能快速识别癌症报告中有价值的信息的软件,这种能力不仅可以节省时间,还可能揭示癌症研究中被忽视的一些方法。在尝试使用传统的自然语言处理软件试验后,该团队利用深度学习技术获得了最新进展,深度学习是一种机器学习技术,能够利用算法、大数据和图形处理器的计算能力来模拟人类的学习和智力。
借助于橡树岭计算机科学联合研究所(Oak Ridge Leadership CompuTIng Facility)的超级计算机TItan,Tourassi团队应用深度学习技术从癌症病理报告中提取到了有用的信息。通过使用适当的数据集,该团队获得的初步成果证明了深度学习在癌症监测中的潜力。
自动数据工具的不断发展与成熟是美国“癌症登月计划”(Cancer Moonshot iniTIaTIve)的目标之一,将使医学研究人员和政策制定者对美国癌症人群的具体现状获得空前认识,而过去的病例数据仅仅来自不到癌症患者总人口5%的临床试验患者。
Tourassi说:“我们目前是根据很小比例的癌症患者的治疗效果做出判断,而他们不能代表整个患者群体。我们的工作显示了深度学习的潜力,它可以判断癌症治疗和诊断方法的有效性,并让癌症患者更好地了解这些方法的现实效果。
开发一款不仅能够理解词义还能理解词语之间上下文关系的软件并非易事,人类需要通过多年的训练来发展这些技能。对于特定任务,深度学习技术能够将该过程压缩到几个小时。
通常可通过训练神经网络来实现语境创建。该神经网络是一个加权计算网络,能就如何正确执行任务提出明智的建议,如识别图像或处理语言命令,输入到神经网络的数据和选择性反馈信息为软件提供了决策依据。程序员很难弄清这一算法决策过程。Tourassi称,有了深度学习技术,用户只需要把文件内容导入,然后就能得到结果。它更像一个黑盒子,但这正是其吸引人之处。
图形处理器可通过同时快速执行多个深度学习计算进程来加速软件的学习过程。在最近两项研究中,Tourassi团队使用了加速调整多个算法,并将结果与传统方法进行比较。通过使用国家癌症研究所的SEER项目提供的1976份病理学报告组成的数据集,Tourassi团队训练了一种深度学习算法,用来执行两种密切相关的信息提取任务。在第一项任务中,算法通过扫描每份报告的内容确定肿瘤的首发部位。在第二项任务中,算法识别的是肿瘤部位的偏侧性或肿瘤位于身体的哪一侧。
该团队建立了一个能够发现上述两项任务间共同点的神经网络,并称之为多任务学习,他们发现该算法的表现明显优于其他方法。Tourassi说:“这样的发现是有意义的,因为了解相关任务的相互关系的目的正是为了执行更难的任务。人类可以胜任这种类型的学习,因为我们理解词语之间的语境关系,这正是我们试图通过深度学习实现的目标。”
Tourassi团队开展的另一项研究使用了946份关于乳腺癌和肺癌的SEER报告应对更复杂的挑战:使用深度学习将癌症的来源与相应的拓扑代码进行匹配。该分类比癌症的首发位置或偏侧性更具特异性,有12种可能的答案。
为了解决上述问题,该团队建立了一个卷积神经网络并使用各种语料训练。输入的文本包括一般领域(如Google搜索的结果)、特定领域(如医学文献)和高度专业化领域的资料(如癌症病理报告),然后算法基于这些输入信息创建一个数学模型,用以描绘单词之间的联系,其中包括不相关的文本之间共有的词汇。
通过将这种方法与传统的分类器(如矢量空间模型)进行比较,研究小组发现,随着网络中纳入了更多与癌症相关的文本,算法性能变得越来越好。这些初步结果将有助于Tourassi团队进一步扩展深度学习算法,从而能够处理更大的数据集并减少人为干预。
2016年,美国能源部将Tourassi团队的癌症监测项目列入了“百亿亿次级计算项目”,该团队在利用深度学习进行癌症研究方面已经取得了巨大进展,希望在未来能够取得更多的研究成果。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)