智能医疗有很多的发展方向,例如医学影像处理、诊断预测、疾病控制、 健康 管理、康复机器人、语音识别病历电子化等。当前人工智能技术新的发力点中的医学图像在疾病的预测和自动化诊断方面有非常大的意义,本篇即针对医学影像中的病例分析,降噪,分割,检索等领域来介绍一些常用的数据集。
1.1 病例分析数据集
1.1.1 ABIDE
发布于2013年,这是一个对自闭症内在大脑结构的大规模评估数据集,包括539名患有ASD和573名正常个体的功能MRI图像。
1.1.2 OASIS
OASIS,全称为Open Access Series of Imaging Studies,已经发布了第3代版本,第一次发布于2007年,是一项旨在使科学界免费提供大脑核磁共振数据集的项目。它有两个数据集可用,下面是第1版的主要内容。
(1) 横截面数据集:年轻,中老年,非痴呆和痴呆老年人的横断面MRI数据。该组由416名年龄在18岁至96岁的受试者组成的横截面数据库组成。对于每位受试者,单独获得3或4个单独的T1加权MRI扫描包括扫描会话。受试者都是右撇子,包括男性和女性。100名60岁以上的受试者已经临床诊断为轻度至中度阿尔茨海默病。
(2) 纵向集数据集:非痴呆和痴呆老年人的纵向磁共振成像数据。该集合包括150名年龄在60至96岁的受试者的纵向集合。每位受试者在两次或多次访视中进行扫描,间隔至少一年,总共进行373次成像。对于每个受试者,包括在单次扫描期间获得的3或4次单独的T1加权MRI扫描。受试者都是右撇子,包括男性和女性。在整个研究中,72名受试者被描述为未被证实。包括的受试者中有64人在初次就诊时表现为痴呆症,并在随后的扫描中仍然如此,其中包括51名轻度至中度阿尔茨海默病患者。另外14名受试者在初次就诊时表现为未衰退,随后在随后的访视中表现为痴呆症。
1.1.3 DDSM
发布于2000年,这是一个用于筛选乳腺摄影的数字数据库,是乳腺摄影图像分析研究社区使用的资源。该项目的主要支持来自美国陆军医学研究和装备司令部的乳腺癌研究计划。DDSM项目是由马萨诸塞州综合医院(D. Kopans,R. Moore),南佛罗里达大学(K. Bowyer)和桑迪亚国家实验室(P. Kegelmeyer)共同参与的合作项目。数据库的主要目的是促进计算机算法开发方面的良好研究,以帮助筛选。数据库的次要目的可能包括开发算法以帮助诊断和开发教学或培训辅助工具。该数据库包含约2,500项研究。每项研究包括每个乳房的两幅图像,以及一些相关的患者信息(研究时间,ACR乳房密度评分,异常微妙评级,异常ACR关键字描述)和图像信息(扫描仪,空间分辨率等)。包含可疑区域的图像具有关于可疑区域的位置和类型的像素级“地面真实”信息。
1.1.4 MIAS
MIAS全称为MiniMammographic Database,是乳腺图像数据库。
乳腺MG数据(Breast Mammography)有个专门的database,可以查看很多数据集,链接地址为:
1.1.5 MURA
发布于2018年2月,吴恩达团队开源了 MURA 数据库,MURA 是目前最大的 X 光片数据库之一。该数据库中包含了源自14982项病例的40895张肌肉骨骼X光片。1万多项病例里有9067例正常的上级肌肉骨骼和5915例上肢异常肌肉骨骼的X光片,部位包括肩部、肱骨、手肘、前臂、手腕、手掌和手指。每个病例包含一个或多个图像,均由放射科医师手动标记。全球有超过17亿人都有肌肉骨骼性的疾病,因此训练这个数据集,并基于深度学习检测骨骼疾病,进行自动异常定位,通过组织器官的X光片来确定机体的 健康 状况,进而对患者的病情进行诊断,可以帮助缓解放射科医生的疲劳。
参考2018年论文:MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs.
1.1.6 ChestX-ray14
参考论文:
CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning
ChestX-ray14 是由NIH研究院提供的,其中包含了30,805名患者的112,120个单独标注的14种不同肺部疾病(肺不张、变实、浸润、气胸、水肿、肺气肿、纤维变性、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝气)的正面胸部 X 光片。研究人员对数据采用NLP方法对图像进行标注。利用深度学习的技术早期发现并识别胸透照片中肺炎等疾病对增加患者恢复和生存的最佳机会至关重要。
1.1.7 LIDC-IDRI
LIDC-IDRI数据集是由美国国家癌症研究所(National Cancer Institute)发起收集的,目的是为了研究高危人群早期肺结节检测。该数据集中,共收录了1018个研究实例。对于每个实例中的图像,都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注。该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。
1.1.8 LUNA16
发布于2016年,是肺部肿瘤检测最常用的数据集之一,它包含888个CT图像,1084个肿瘤,图像质量和肿瘤大小的范围比较理想。数据分为10个subsets,subset包含89/88个CT scan。
LUNA16的CT图像取自LIDC/IDRI数据集,选取了三个以上放射科医师意见一致的annotation,并且去掉了小于3mm的肿瘤,所以数据集里不含有小于3mm的肿瘤,便于训练。
1.1.9 NSCLC
发布于2018年,来自斯坦福大学。数据集来自211名受试者的非小细胞肺癌(NSCLC)队列的独特放射基因组数据集。该数据集包括计算机断层扫描(CT),正电子发射断层扫描(PET)/ CT图像。创建该数据集是为了便于发现基因组和医学图像特征之间的基础关系,以及预测医学图像生物标记的开发和评估。
1.1.10 DeepLesion
DeepLesion由美国国立卫生研究院临床中心(NIHCC)的团队开发,是迄今规模最大的多类别、病灶级别标注临床医疗CT图像开放数据集。在该数据库中图像包括多种病变类型,目前包括4427个患者的32,735 张CT图像及病变信息,同时也包括肾脏病变,骨病变,肺结节和淋巴结肿大。DeepLesion多类别病变数据集可以用来开发自动化放射诊断的CADx系统。
1.1.11 ADNI
ANDI涉及到的数据集包括如下几部分Clinical Data(临床数据)、MR Image Data(磁共振成像)、Standardized MRI Data Sets、PET Image Data(正电子发射计算机断层扫描)、Gennetic Data(遗传数据)、Biospecimen Data(生物样本数据)。
1.2 医学降噪数据集
1.2.1 BrainWeb数据集
发布于1997年,这是一个仿真数据集,用于医学图像降噪。研究者可以截取不同断层的正常脑部仿真图像,包括T1,T2,PD3种断层,设置断层的厚度,叠加高斯噪声或者医学图像中常见的莱斯噪声,最终会得到181×217大小的噪声图像。
1.3 医学分割数据集
1.3.1 DRIVE数据集
发布于2003年,这是一个用于血管分割的数字视网膜图像数据集,它由40张照片组成,其中7张显示出轻度早期糖尿病视网膜病变迹象。
1.3.2 SCR数据集
发布于2000年,胸部X光片的分割,胸部X光片中解剖结构的自动分割对于这些图像中的计算机辅助诊断非常重要。SCR数据库的建立是为了便于比较研究肺野,心脏和锁骨在标准的后胸前X线片上的分割。
本着合作科学进步的精神,我们可以自由共享SCR数据库,并致力于在这些分割任务上维护各种算法结果的公共存储库。在这些页面上,可以在下载数据库和上载结果时找到说明,并且可以检查各种方法的基准结果。
1.3.3 医学图像分析benchmark
在网址https://grand-challenge.org/challenges/提供了时间跨度超过10年的医学图像资料。
1.3.4 Ardiac MRI
ardiac MRI 是心脏病患者心房医疗影像数据,以及其左心室的心内膜和外膜的图像标注。包括33位患者案例,每个受试者的序列由沿着长的20帧和8-15个切片组成,共7980张图像。
1.3.5 NIH
发布于2017年,这是一个胸部X射线数据集,包含30,805个患者,14个疾病图像标签(其中每个图像可以具有多个标签),112,820个正面X射线图像,标签是使用自然语言处理从相关的放射学报告中自动提取。十四种常见的胸部病变包括肺不张,巩固,浸润,气胸,水肿,肺气肿,纤维化,积液,肺炎,胸膜增厚,心脏扩大,结节,肿块和疝。由于许多原因,原始放射学报告(与这些胸部X射线研究相关)并不是公开分享的。所以文本挖掘的疾病标签预计准确度 >90%,这个数据集适合做半监督的学习。
1.4 List of Open Access
在List of Open Access Medical Imaging Datasets网站上可以看到更多的相关方向的数据集。
2.1 VISCERAL
VISCERAL 是Visual Concept Extraction Challenge in Radiology的缩写,是放射学中的视觉概念提取挑战赛。他们提供几种不同成像模式(例如CT和MR)的几种解剖结构(例如肾,肺,膀胱等)的放射学数据以及一个云计算实例。
2.2 Grand Challenges
提供了医学图像分析领域内所有挑战的概述,下面举的例子是2019年的医学图像方面将要举办的竞赛。
2.3 Dream Challenges
这个挑战赛中包括有数字乳腺摄影梦想挑战;ICGC-TCGA DREAM体细胞突变称为RNA挑战(SMC-RNA)等等。
最后提供给对医学影像处理感兴趣的童鞋一个超级赞的github链接如下:
这是Github上哈佛 beamandrew机器学习和医学影像研究者贡献的数据集,包括了医学影像数据、竞赛数据、来自电子 健康 记录的数据、医疗数据、UCI数据集、生物医学文献等。
根据标准参考数据计划,NIST的各实验室正在将他们的数据库产品不断加入到在线访问的数据库行列,建立了一系列的科学数值数据库。通过更新现有的数据库及开发新数据库,NIST不断地丰富它的评价数值数据集,为社会提供可靠的、经过评价的数值数据。社会各界的工程师和科学家依靠 NIST的标准参考数据对许多关键技术进行决策。
NIST的标准参考数据库系列包括50多个数据库,其中大部分是建在微机上的多用途数据包,根据学科可分为以下几类:分析化学(包括谱学),原子和分子物理,生物技术,化学与晶体结构,化学动力学,工业流体与化工,材料性能,热力学与热化学,以及NIST的其它数据库。
分析化学类包括质谱库、红外谱、光电子能谱等数据库;原子与分子物理类包括光谱性能、c-射线衰减系数及交叉截面、原子光谱等数据库;生物技术类包括生物大分子结晶库等数据库;化学与晶体结构类有电子衍射等数据库;化学动力学类包括化学动力学、溶液动力学等数据库;工业流体与化工类有物质的热力学性能数据库;材料性能类包括结构陶瓷、腐蚀性能、摩擦材料、高温超导等数据库;表面数据类包括表面结构、d性电子散射交叉截面等数据库;热化学类包括化学热力学、有机化合物热力学性能估算、JANAF热化学表等数据库。
NIST提供科学数值数据服务的方式主要有:①将数据与分析仪器连在一起出售,如质谱库中有近10万个化合物数据,附在质谱仪中出售的有常用的几万个化合物;②以PC数据包方式出售;③联机数据服务;④作为其它大的软件包的一部分;⑤直接装入用户的计算机。
具体的在线科学数据库名单如下:
儿童人体测量数据库(AnthroKids - Anthropometric Data of Children),
铂/氖阴极管灯泡的光谱图(Atlas of the Spectrum of a Platinum/Neon Hollow-Cathode Lamp in the Region 1130-4330 &Aring),
用于电子结构计算的原子参考数据库(Atomic Reference Data for Electronic Structure Calculations),
原子光谱数据库(Atomic Spectra Database,ASD),
原子谱线加宽目录数据库(Atomic Spectral Line Broadening Bibliographic Database),
原子跃迁概率数据库(Atomic Transition Probability Bibliographic Database),
原子重量及同位素成分数据库(Atomic Weights and Isotopic Compositions),
光子总交叉截面(衰减系数)测量目录(Bibliography of Photon Total Cross Section (Attenuation Coefficient) Measurements),
生物高分子结晶数据库(Biological Macromolecule Crystallization Database),
陶瓷互联网手册(Ceramics WebBook),
化学动力学数据库(CKMech,Chemical Kinetic Mechanisms),
化学互联网手册(Chemistry WebBook),
单分子反应计算数据库(ChemRate: A Calculational Database for Unimolecular Reaction),
视觉协同测试床(CIS2 Visual Interoperability Testbed),
化学动力学机理(CKMech,Chemical Kinetic Mechanisms),
计算化学比较和基准数据库(Computational Chemistry Comparison and Benchmark Database),
计算机辨认工具测试项目网站(Computer Forensics Tool Testing (CFTT) Project Web Site),
二阶光谱数据库(Diatomic Spectral Database),
运算法则和数据结构字典(Dictionary of Algorithms and Data Structures),
电子与等离子体加工用气体相互作用数据 (Electron Interactions with Plasma Processing Gases),
元素数据索引(Elemental Data Index),
工程统计学手册(Engineering Statistics Handbook),
火灾研究信息服务(Fire Research Information Services ,FRIS),
基本物理常数(Fundamental Physical Constants),
中性原子的基本水平和电离能量(Ground Levels and Ionization Energies for the Neutral Atoms),
数学软件指南(Guide to Available Mathematical Software),
NIST计量结果不确定性的评估与表达指南(Guidelines for Evaluating and Expressing the Uncertainty of NIST Measurement Results),
基础原子光谱数据手册(Handbook of Basic Atomic Spectroscopic Data),
绝缘体和建筑材料的热传递性质(Heat Transmission Properties of Insulating and Building Materials),
高温超导材料数据库(High Temperature Superconducting Materials Database),
HIV蛋白酶数据库(HIV Protease Database),
人线粒体蛋白数据库(Human Mitochondrial Protein Database),
烃类光谱数据库(Hydrocarbon Spectral Database),
二氧化碳同位素测定的交互规则(Interactive Algorithm for Isotopic CO2 Measurements),
国际比较数据库(International Comparisions Database),
ITS-90热电偶数据库(ITS-90 Thermocouple Database),
自动数据分析工具(MassSpectator Automated Data Analysis Tool),
矩阵市场数据库(Matrix Market Database),
相位图和计算热动力学―焊接系统(Phase Diagrams and Computational Thermodynamics - Solder Systems),
多轮烃结构索引(Polycyclic Aromatic Hydrocarbon Structure Index),
聚合物方法数据库(Polymer MALDI MS Methods Database),
高级材料的性质数据总结(Property Data Summaries for Advanced Materials),
断裂韧度性质数据总结(Property Data Summaries for Fracture Toughness),
氧化玻璃的性质数据总结(Property Data Summaries for Oxide Glasses),
蛋白质数据银行(Protein Data Bank (PDB) ( in collaboration with RCSB )
放射性核半衰期计量(Radionuclide Half-Life Measurements),
用于观测星际分子微波跃迁的雷达技术扫描频率(Recommended Rest Frequencies for Observed Interstellar Molecular Microwave Transitions - 1991 Revision),
加强渗透性数值数据库(Database on Reinforcement Permeability Values),
短暂前后重复的DNA数据库(Short Tandem Repeat DNA Internet Database),
无铅焊料的焊接特性数据库(Database for Solder Properties with Emphasis on New Lead-free Solders),
可溶性数据库(IUPAC-NIST Solubility Database),
溶解动力学数据库(NDRL/NIST Solution Kinetics Database on the Web),
坎德拉X-射线天文台光谱数据库(Spectral Data for the Chandra X-ray Observatory),
统计参考数据库(Statistical Reference Datasets),
电子、质子和氦离子的静止能与行程表(Stopping-Power and Range Tables for Electrons,Protons,and Helium Ions),
NIST结构陶瓷学数据库(NIST Structural Ceramics Database),
合成聚合物质谱项目(Synthetic Polymer Mass Spectrometry Project),
X-射线质量衰减系数和能量吸收系数表(Tables of X-Ray Mass Attenuation Coefficients and Mass Energy - Absorption Coefficients),
酶催化反应的热力学数据库(Thermodynamics of Enzyme-Catalyzed Reactions Database),
半导体器件加工用的气体的热物理特性数据库(Database of the Thermophysical Properties of Gases Used in the Semiconductor Industry),
三原子光谱数据库(Triatomic Spectral Database),
Vibrational branching ratios and asymmetry parameters in the photoionization of CO2 in the region between 650 &Aringand 840 &Aring
可见物粘合剂数据集(NIST Visible Cement Dataset),
Wavenumber Calibration Tables from Heterodyne Frequency Measurements
用于剂量测定的X-射线衰减与吸收表(X-Ray Attenuation and Absorption for Materials of Dosimetric Interest),
X-射线波型系数、衰减与散射表(X-Ray Form Factor,Attenuation and Scattering Tables),
X-射线电光子分光光谱数据库(NIST X-ray Photoelectron Spectroscopy Database),
X-射线跃迁能量数据库(X-Ray Transition Energies Database),
光子交叉截面数据库(XCOM: Photon Cross Sections Database)。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)