智能医疗有很多的发展方向,例如医学影像处理、诊断预测、疾病控制、 健康 管理、康复机器人、语音识别病历电子化等。当前人工智能技术新的发力点中的医学图像在疾病的预测和自动化诊断方面有非常大的意义,本篇即针对医学影像中的病例分析,降噪,分割,检索等领域来介绍一些常用的数据集。
1.1 病例分析数据集
1.1.1 ABIDE
发布于2013年,这是一个对自闭症内在大脑结构的大规模评估数据集,包括539名患有ASD和573名正常个体的功能MRI图像。
1.1.2 OASIS
OASIS,全称为Open Access Series of Imaging Studies,已经发布了第3代版本,第一次发布于2007年,是一项旨在使科学界免费提供大脑核磁共振数据集的项目。它有两个数据集可用,下面是第1版的主要内容。
(1) 横截面数据集:年轻,中老年,非痴呆和痴呆老年人的横断面MRI数据。该组由416名年龄在18岁至96岁的受试者组成的横截面数据库组成。对于每位受试者,单独获得3或4个单独的T1加权MRI扫描包括扫描会话。受试者都是右撇子,包括男性和女性。100名60岁以上的受试者已经临床诊断为轻度至中度阿尔茨海默病。
(2) 纵向集数据集:非痴呆和痴呆老年人的纵向磁共振成像数据。该集合包括150名年龄在60至96岁的受试者的纵向集合。每位受试者在两次或多次访视中进行扫描,间隔至少一年,总共进行373次成像。对于每个受试者,包括在单次扫描期间获得的3或4次单独的T1加权MRI扫描。受试者都是右撇子,包括男性和女性。在整个研究中,72名受试者被描述为未被证实。包括的受试者中有64人在初次就诊时表现为痴呆症,并在随后的扫描中仍然如此,其中包括51名轻度至中度阿尔茨海默病患者。另外14名受试者在初次就诊时表现为未衰退,随后在随后的访视中表现为痴呆症。
1.1.3 DDSM
发布于2000年,这是一个用于筛选乳腺摄影的数字数据库,是乳腺摄影图像分析研究社区使用的资源。该项目的主要支持来自美国陆军医学研究和装备司令部的乳腺癌研究计划。DDSM项目是由马萨诸塞州综合医院(D. Kopans,R. Moore),南佛罗里达大学(K. Bowyer)和桑迪亚国家实验室(P. Kegelmeyer)共同参与的合作项目。数据库的主要目的是促进计算机算法开发方面的良好研究,以帮助筛选。数据库的次要目的可能包括开发算法以帮助诊断和开发教学或培训辅助工具。该数据库包含约2,500项研究。每项研究包括每个乳房的两幅图像,以及一些相关的患者信息(研究时间,ACR乳房密度评分,异常微妙评级,异常ACR关键字描述)和图像信息(扫描仪,空间分辨率等)。包含可疑区域的图像具有关于可疑区域的位置和类型的像素级“地面真实”信息。
1.1.4 MIAS
MIAS全称为MiniMammographic Database,是乳腺图像数据库。
乳腺MG数据(Breast Mammography)有个专门的database,可以查看很多数据集,链接地址为:
1.1.5 MURA
发布于2018年2月,吴恩达团队开源了 MURA 数据库,MURA 是目前最大的 X 光片数据库之一。该数据库中包含了源自14982项病例的40895张肌肉骨骼X光片。1万多项病例里有9067例正常的上级肌肉骨骼和5915例上肢异常肌肉骨骼的X光片,部位包括肩部、肱骨、手肘、前臂、手腕、手掌和手指。每个病例包含一个或多个图像,均由放射科医师手动标记。全球有超过17亿人都有肌肉骨骼性的疾病,因此训练这个数据集,并基于深度学习检测骨骼疾病,进行自动异常定位,通过组织器官的X光片来确定机体的 健康 状况,进而对患者的病情进行诊断,可以帮助缓解放射科医生的疲劳。
参考2018年论文:MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs.
1.1.6 ChestX-ray14
参考论文:
CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning
ChestX-ray14 是由NIH研究院提供的,其中包含了30,805名患者的112,120个单独标注的14种不同肺部疾病(肺不张、变实、浸润、气胸、水肿、肺气肿、纤维变性、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝气)的正面胸部 X 光片。研究人员对数据采用NLP方法对图像进行标注。利用深度学习的技术早期发现并识别胸透照片中肺炎等疾病对增加患者恢复和生存的最佳机会至关重要。
1.1.7 LIDC-IDRI
LIDC-IDRI数据集是由美国国家癌症研究所(National Cancer Institute)发起收集的,目的是为了研究高危人群早期肺结节检测。该数据集中,共收录了1018个研究实例。对于每个实例中的图像,都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注。该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。
1.1.8 LUNA16
发布于2016年,是肺部肿瘤检测最常用的数据集之一,它包含888个CT图像,1084个肿瘤,图像质量和肿瘤大小的范围比较理想。数据分为10个subsets,subset包含89/88个CT scan。
LUNA16的CT图像取自LIDC/IDRI数据集,选取了三个以上放射科医师意见一致的annotation,并且去掉了小于3mm的肿瘤,所以数据集里不含有小于3mm的肿瘤,便于训练。
1.1.9 NSCLC
发布于2018年,来自斯坦福大学。数据集来自211名受试者的非小细胞肺癌(NSCLC)队列的独特放射基因组数据集。该数据集包括计算机断层扫描(CT),正电子发射断层扫描(PET)/ CT图像。创建该数据集是为了便于发现基因组和医学图像特征之间的基础关系,以及预测医学图像生物标记的开发和评估。
1.1.10 DeepLesion
DeepLesion由美国国立卫生研究院临床中心(NIHCC)的团队开发,是迄今规模最大的多类别、病灶级别标注临床医疗CT图像开放数据集。在该数据库中图像包括多种病变类型,目前包括4427个患者的32,735 张CT图像及病变信息,同时也包括肾脏病变,骨病变,肺结节和淋巴结肿大。DeepLesion多类别病变数据集可以用来开发自动化放射诊断的CADx系统。
1.1.11 ADNI
ANDI涉及到的数据集包括如下几部分Clinical Data(临床数据)、MR Image Data(磁共振成像)、Standardized MRI Data Sets、PET Image Data(正电子发射计算机断层扫描)、Gennetic Data(遗传数据)、Biospecimen Data(生物样本数据)。
1.2 医学降噪数据集
1.2.1 BrainWeb数据集
发布于1997年,这是一个仿真数据集,用于医学图像降噪。研究者可以截取不同断层的正常脑部仿真图像,包括T1,T2,PD3种断层,设置断层的厚度,叠加高斯噪声或者医学图像中常见的莱斯噪声,最终会得到181×217大小的噪声图像。
1.3 医学分割数据集
1.3.1 DRIVE数据集
发布于2003年,这是一个用于血管分割的数字视网膜图像数据集,它由40张照片组成,其中7张显示出轻度早期糖尿病视网膜病变迹象。
1.3.2 SCR数据集
发布于2000年,胸部X光片的分割,胸部X光片中解剖结构的自动分割对于这些图像中的计算机辅助诊断非常重要。SCR数据库的建立是为了便于比较研究肺野,心脏和锁骨在标准的后胸前X线片上的分割。
本着合作科学进步的精神,我们可以自由共享SCR数据库,并致力于在这些分割任务上维护各种算法结果的公共存储库。在这些页面上,可以在下载数据库和上载结果时找到说明,并且可以检查各种方法的基准结果。
1.3.3 医学图像分析benchmark
在网址https://grand-challenge.org/challenges/提供了时间跨度超过10年的医学图像资料。
1.3.4 Ardiac MRI
ardiac MRI 是心脏病患者心房医疗影像数据,以及其左心室的心内膜和外膜的图像标注。包括33位患者案例,每个受试者的序列由沿着长的20帧和8-15个切片组成,共7980张图像。
1.3.5 NIH
发布于2017年,这是一个胸部X射线数据集,包含30,805个患者,14个疾病图像标签(其中每个图像可以具有多个标签),112,820个正面X射线图像,标签是使用自然语言处理从相关的放射学报告中自动提取。十四种常见的胸部病变包括肺不张,巩固,浸润,气胸,水肿,肺气肿,纤维化,积液,肺炎,胸膜增厚,心脏扩大,结节,肿块和疝。由于许多原因,原始放射学报告(与这些胸部X射线研究相关)并不是公开分享的。所以文本挖掘的疾病标签预计准确度 >90%,这个数据集适合做半监督的学习。
1.4 List of Open Access
在List of Open Access Medical Imaging Datasets网站上可以看到更多的相关方向的数据集。
2.1 VISCERAL
VISCERAL 是Visual Concept Extraction Challenge in Radiology的缩写,是放射学中的视觉概念提取挑战赛。他们提供几种不同成像模式(例如CT和MR)的几种解剖结构(例如肾,肺,膀胱等)的放射学数据以及一个云计算实例。
2.2 Grand Challenges
提供了医学图像分析领域内所有挑战的概述,下面举的例子是2019年的医学图像方面将要举办的竞赛。
2.3 Dream Challenges
这个挑战赛中包括有数字乳腺摄影梦想挑战;ICGC-TCGA DREAM体细胞突变称为RNA挑战(SMC-RNA)等等。
最后提供给对医学影像处理感兴趣的童鞋一个超级赞的github链接如下:
这是Github上哈佛 beamandrew机器学习和医学影像研究者贡献的数据集,包括了医学影像数据、竞赛数据、来自电子 健康 记录的数据、医疗数据、UCI数据集、生物医学文献等。
【医学影像信息系统】医学影像信息系统狭义上是指基于医学影像存储与通信系统,从技术上解决图像处理技术的管理系统;在现代医疗行业,医学影像信息系统是指包含了包括了RIS,以DICOM3.0国际标准设计,以高性能服务器、网络及存储设备构成硬件支持平台,以大型关系型数据库作为数据和图像的存储管理工具,以医疗影像的采集、传输、存储和诊断为核心,是集影像采集传输与存储管理、影像诊断查询与报告管理、综合信息管理等综合应用于一体的综合应用系统,主要的任务就是把医院影像科日常产生的各种医学影像(包括核磁、CT、DR、超声、各种X光机等设备产生的图像)通过DICOM3.0国际标准接口(中国市场大多为模拟,DICOM,网络等接口)以数字化的方式海量保存起来,当需要的时候在一定的授权下能够很快的调回使用,同时增加一些辅助诊断管理功能。
【医学影像信息系统分类】在实际应用中,可以把医学影像信息系统应用划分为四类:
1、在整个医院内实施的完整医学影像信息系统系统,目标是支持在医院内部所有关于图像的活动,集成了医疗设备,图像存储和分发,数字图像在重要诊断和会诊时的显示,图像归档,以及外部信息系统;
2、在医院放射科部门内实施的医学影像信息系统系统,目标是提高部门内医疗设备的使用效率;
3、在医院内部的图像分发系统,目标是帮助医院的其他部门,特别是急诊室(ER)和特护房(ICU)获得放射医疗部门生成的图像;
4、远程放射医疗,目标是支持远程图像传输和显示。
【医学影像信息系统由三部份组成】
1、Database Server SubSystem:用于管理影像。
医学图像诊断在现代医疗活动中占有相当大的比重。借助可视化技术的不断发展,现代医学已越来越离不开医学图像的信息,在临床诊断、医学科研等方面正发挥着极其重要的作用。医学图像信息是多样化的,如B超扫描图像、彩色多普勒超声图像、核磁共振(MRI)图像、X-CT图像、X线透视图像,各种电子内窥镜图像,显微镜下病理切片图像等。随着医学诊断可视化技术的深入发展,人们正在不断努力,寻求更清晰、更有诊断价值的高质量医学图像。中国的医院在过去十多年间,引进了大批进口的先进医学图像设备,对提高诊断水平,加强对医院等级管理起了重要的积极作用。由于资金的困扰及仪器设计的水平、大多数医学图像设备都没有考虑图像的储存和传输功能、充其量配置一部打印机或X光胶片作图像记录。医生诊断是通过对仪器屏幕的图像进行肉眼观察,凭个人的经验进行分析诊断、主观成分较多。
随着电子计算机技术,特别是多媒体技术的飞速发展,使医学图像的存储和传送成为可能,大容量的硬盘、图像信息的压缩技术、可读写光盘的应用,使医学图像可以大量存储。DICOM3.0标准的制定使医学图像及各种数字信息在计算机间传送有了一个统一的标准,通过数据接口与互联网接通,就可以进行医学图像信息的远程传输,实现异地会诊。PACS是实现医学图像信息管理的重要条件,它把医学图像从采集、显示、储存、交换和输出进行数字化处理,最后实现图像的储存和传送。
此外,通过对医学图像和信息进行计算机智能化处理后,可使图像诊断摒弃传统的肉眼观察和主观判断。借助计算机技术,可以对图像的像素点进行分析、计算、处理,得出相关的完整数据,为医学诊断提供更客观的信息,最新的计算机技术不但可以提供形态图像,还可以提供功能图像,使医学图像诊断技术走向更深层次。
2、File Server SubSystem : 用于存放影像。
大容量存储设备分为以下四类:磁介质,光介质,磁带及其它(如全息存储)仍在发展中的介质。磁盘容量正在飞速增长,未来的方向是TB级桌面磁盘,2000年时价格下降到3美分/MB。在光学存储设备中,DVD是目前的热点,但其影响力远不如CD-ROM技术当年的影响力。DVD目前可以作为备份介质,但作为存储介质仍有不足,可擦写的DVD还不成熟。磁带的新进展包括多磁道记录、磁阻式磁头和允许随机访问的新型格式。磁带的价格很有吸引力,但不能防潮,也不能接近磁场,存放场所的要求比较严格。
备份(归档)是一个动态的过程,必须考虑到技术的变化,归档策略必须考虑到这一点。例如,一个机构的7年归档容量是11TB,因而现在购买了11TB的存储介质,但存储介质的价格将来会下跌,技术也会发生变化,所以这是不合算的。
数据库的性能、可靠性和容量与PACS系统的性能直接相关。PACS系统中图像的每一次流动都与数据库有关,但PACS的数据库技术受到了忽视。当PACS集成到MIS系统中时,这一点将会得到改观。高可用性技术的发展随着用户对PACS的依赖性增强将会越来越重要。
3、DICOM SubSystem:透过DICOM 协议与检查设备连线作业。
医学影像信息的中国化标注有哪些?医疗影像标注
数度智慧已开创性地研发出针对医疗影像标注的⼈⼯智能标注⼯具,其基于医学影像的诊断⽔平准确率⾼达99%+。
数度智慧针对医疗影像标注,利⽤领先的 AI 算法与数据科学技术,研发出医疗影像智能标注⼯具,完美的达到了⽤图说话、数据可视化、智能技术、应⽤简单化的效果,以及⾃动胶⽚打印与结构化报告,极⼤程度地提⾼了流程效率与诊断效能,最⼤程度的减少医⽣的⼯作量,引领医学影像⼈⼯⾏业进⼊新时代。同时,数度智慧延伸覆盖多种疾病和临床场景,打造DR影像、CT影像、MRI影像、肺结节病理等的全域化智能影像标注解决⽅案。
数度智慧科技的AI研究平台,以医疗影像数据为核⼼,采⽤先进、规范的⼤数据管理、标注和质控⽅法,建
第 1 页
⽴并不断完善单病种数据库。以影像数据为核⼼,采⽤先进、规范的⼤数据管理、标注和质控⽅法,建⽴并不断完善单病种数据库。通过预训练、验证和训练的科学化迭代模式,将模型开发接⼊临床,实现数据结构化、数据可视化,及 AI 时代新数据的衍⽣。在此基础上,提供精准的科研服务,如医学设计、统计、注册和流程管理的多中⼼科研服务。数度智慧跨CT、MRI 和 DR 等多种影像设备的⾼度集成化的智慧科研平台,有⼒助推科研模式创新。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)