「数据集」医学图像数据集与竞赛大全

「数据集」医学图像数据集与竞赛大全,第1张

智能医疗有很多的发展方向,例如医学影像处理、诊断预测、疾病控制、 健康 管理、康复机器人、语音识别病历电子化等。当前人工智能技术新的发力点中的医学图像在疾病的预测和自动化诊断方面有非常大的意义,本篇即针对医学影像中的病例分析,降噪,分割,检索等领域来介绍一些常用的数据集。

11 病例分析数据集

111 ABIDE

发布于2013年,这是一个对自闭症内在大脑结构的大规模评估数据集,包括539名患有ASD和573名正常个体的功能MRI图像。

112 OASIS

OASIS,全称为Open Access Series of Imaging Studies,已经发布了第3代版本,第一次发布于2007年,是一项旨在使科学界免费提供大脑核磁共振数据集的项目。它有两个数据集可用,下面是第1版的主要内容。

(1) 横截面数据集:年轻,中老年,非痴呆和痴呆老年人的横断面MRI数据。该组由416名年龄在18岁至96岁的受试者组成的横截面数据库组成。对于每位受试者,单独获得3或4个单独的T1加权MRI扫描包括扫描会话。受试者都是右撇子,包括男性和女性。100名60岁以上的受试者已经临床诊断为轻度至中度阿尔茨海默病。

(2) 纵向集数据集:非痴呆和痴呆老年人的纵向磁共振成像数据。该集合包括150名年龄在60至96岁的受试者的纵向集合。每位受试者在两次或多次访视中进行扫描,间隔至少一年,总共进行373次成像。对于每个受试者,包括在单次扫描期间获得的3或4次单独的T1加权MRI扫描。受试者都是右撇子,包括男性和女性。在整个研究中,72名受试者被描述为未被证实。包括的受试者中有64人在初次就诊时表现为痴呆症,并在随后的扫描中仍然如此,其中包括51名轻度至中度阿尔茨海默病患者。另外14名受试者在初次就诊时表现为未衰退,随后在随后的访视中表现为痴呆症。

113 DDSM

发布于2000年,这是一个用于筛选乳腺摄影的数字数据库,是乳腺摄影图像分析研究社区使用的资源。该项目的主要支持来自美国陆军医学研究和装备司令部的乳腺癌研究计划。DDSM项目是由马萨诸塞州综合医院(D Kopans,R Moore),南佛罗里达大学(K Bowyer)和桑迪亚国家实验室(P Kegelmeyer)共同参与的合作项目。数据库的主要目的是促进计算机算法开发方面的良好研究,以帮助筛选。数据库的次要目的可能包括开发算法以帮助诊断和开发教学或培训辅助工具。该数据库包含约2,500项研究。每项研究包括每个乳房的两幅图像,以及一些相关的患者信息(研究时间,ACR乳房密度评分,异常微妙评级,异常ACR关键字描述)和图像信息(扫描仪,空间分辨率等)。包含可疑区域的图像具有关于可疑区域的位置和类型的像素级“地面真实”信息。

114 MIAS

MIAS全称为MiniMammographic Database,是乳腺图像数据库。

乳腺MG数据(Breast Mammography)有个专门的database,可以查看很多数据集,链接地址为:

115 MURA

发布于2018年2月,吴恩达团队开源了 MURA 数据库,MURA 是目前最大的 X 光片数据库之一。该数据库中包含了源自14982项病例的40895张肌肉骨骼X光片。1万多项病例里有9067例正常的上级肌肉骨骼和5915例上肢异常肌肉骨骼的X光片,部位包括肩部、肱骨、手肘、前臂、手腕、手掌和手指。每个病例包含一个或多个图像,均由放射科医师手动标记。全球有超过17亿人都有肌肉骨骼性的疾病,因此训练这个数据集,并基于深度学习检测骨骼疾病,进行自动异常定位,通过组织器官的X光片来确定机体的 健康 状况,进而对患者的病情进行诊断,可以帮助缓解放射科医生的疲劳。

参考2018年论文:MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs

116 ChestX-ray14

参考论文:

CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning

ChestX-ray14 是由NIH研究院提供的,其中包含了30,805名患者的112,120个单独标注的14种不同肺部疾病(肺不张、变实、浸润、气胸、水肿、肺气肿、纤维变性、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝气)的正面胸部 X 光片。研究人员对数据采用NLP方法对图像进行标注。利用深度学习的技术早期发现并识别胸透照片中肺炎等疾病对增加患者恢复和生存的最佳机会至关重要。

117 LIDC-IDRI

LIDC-IDRI数据集是由美国国家癌症研究所(National Cancer Institute)发起收集的,目的是为了研究高危人群早期肺结节检测。该数据集中,共收录了1018个研究实例。对于每个实例中的图像,都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注。该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。

118 LUNA16

发布于2016年,是肺部肿瘤检测最常用的数据集之一,它包含888个CT图像,1084个肿瘤,图像质量和肿瘤大小的范围比较理想。数据分为10个subsets,subset包含89/88个CT scan。

LUNA16的CT图像取自LIDC/IDRI数据集,选取了三个以上放射科医师意见一致的annotation,并且去掉了小于3mm的肿瘤,所以数据集里不含有小于3mm的肿瘤,便于训练。

119 NSCLC

发布于2018年,来自斯坦福大学。数据集来自211名受试者的非小细胞肺癌(NSCLC)队列的独特放射基因组数据集。该数据集包括计算机断层扫描(CT),正电子发射断层扫描(PET)/ CT图像。创建该数据集是为了便于发现基因组和医学图像特征之间的基础关系,以及预测医学图像生物标记的开发和评估。

1110 DeepLesion

DeepLesion由美国国立卫生研究院临床中心(NIHCC)的团队开发,是迄今规模最大的多类别、病灶级别标注临床医疗CT图像开放数据集。在该数据库中图像包括多种病变类型,目前包括4427个患者的32,735 张CT图像及病变信息,同时也包括肾脏病变,骨病变,肺结节和淋巴结肿大。DeepLesion多类别病变数据集可以用来开发自动化放射诊断的CADx系统。

1111 ADNI

ANDI涉及到的数据集包括如下几部分Clinical Data(临床数据)、MR Image Data(磁共振成像)、Standardized MRI Data Sets、PET Image Data(正电子发射计算机断层扫描)、Gennetic Data(遗传数据)、Biospecimen Data(生物样本数据)。

12 医学降噪数据集

121 BrainWeb数据集

发布于1997年,这是一个仿真数据集,用于医学图像降噪。研究者可以截取不同断层的正常脑部仿真图像,包括T1,T2,PD3种断层,设置断层的厚度,叠加高斯噪声或者医学图像中常见的莱斯噪声,最终会得到181×217大小的噪声图像。

13 医学分割数据集

131 DRIVE数据集

发布于2003年,这是一个用于血管分割的数字视网膜图像数据集,它由40张照片组成,其中7张显示出轻度早期糖尿病视网膜病变迹象。

132 SCR数据集

发布于2000年,胸部X光片的分割,胸部X光片中解剖结构的自动分割对于这些图像中的计算机辅助诊断非常重要。SCR数据库的建立是为了便于比较研究肺野,心脏和锁骨在标准的后胸前X线片上的分割。

本着合作科学进步的精神,我们可以自由共享SCR数据库,并致力于在这些分割任务上维护各种算法结果的公共存储库。在这些页面上,可以在下载数据库和上载结果时找到说明,并且可以检查各种方法的基准结果。

133 医学图像分析benchmark

在网址>

一、查询基因并下载相关数据

Step 1 直接在网站检索框输入检索内容,如“TP53”,输入完之后,就可以得到 TP53 这个基因在所有数据当中的情况。其中就包括这个基因在全基因组 CRISPR 当中的情况,基本的分析结构,基因突变和拷贝数变化情况等等。

Step 2 可以在扰动效应( Perturbation Effects ) 查看 TP53 在基因组 CRISPR 当中的重要性。gene effect 越越提示该基因可能与细胞的生长相关,得分0位不相关,而-1的得分对应于所有常见必需基因的中值。

Step 3 而在特征(Characterization)则可以观察 TP53 在不同的细胞系当中的各个组学的情况。如表达数据,拷贝数变异,甲基化等,点击某一个特征可以下载该基因在本特征中表达的数据情况。

Step 4 predictability可以预测两个特征之间的相关性。

二、查看和筛选细胞系

Step 1 Cell Line Selector 来选择目标细胞系。

Step 2 在这里定义好之后,后续的分析都可以对目标细胞系进行特殊的可视化,如果没有,则点击 Creat custom list 来进行细胞系定义,并可以根据表头的信息进行筛选。默认的界面包括了细胞系名称以及细胞系所属组织。我们可以在右侧添加其他信息来进行筛选。例如我们想要筛选具有 MSI 的细胞。就可以添加一个细胞系的 MSI 特征的列。然后通过筛选功能,就可以得到 MSI 的细胞系是哪些了。

三、数据探索 两个特征相关性

Step 1 点击“ data explorer ”

Step 2 选择X Y轴的项目,右边可以展示两者相关性。

Step 3 选择项目-名称-数据库即可开始plot图,可以下载表达数据。

结构不同、类型不同。

1、结构不同。细胞数组是由细胞组成的数组,细胞是由某个数据类型、某个维数的数据组成,结构数组是包含一组记录的数据类型。

2、类型不同。细胞数组的基本元素是细胞,每个细胞可以存储不同类型、不同维数的数据,通过下标区分不同的细胞,结构数组用于将不同类型的元素组合在一起。

蛋白质组(Proteome)的概念最先由Marc Wilkins提出,指由一个基因组(genOME),或一个细胞、组织表达的所有蛋白质(PROTein) 蛋白质组的概念与基因组的概念有许多差别,它随着组织、甚至环境状态的不同而改变 在转录时,一个基因可以多种mRNA形式剪接,一个蛋白质组不是一个基因组的直接产物,蛋白质组中蛋白质的数目有时可以超过基因组的数目 蛋白质组学(Proteomics)处于早期“发育”状态,这个领域的专家否认它是单纯的方法学,就像基因组学一样,不是一个封闭的、概念化的稳定的知识体系,而是一个领域

蛋白质组学的研究内容

主要有两方面,一是结构蛋白质组学,二是功能蛋白质组学。其研究前沿大致分为三个方面:

① 针对有关基因组或转录组数据库的生物体或组织细胞,建立其蛋白质组或亚蛋白质组及其蛋白质组连锁群,即组成性蛋白质组学。

② 以重要生命过程或人类重大疾病为对象,进行重要生理病理体系或过程的局部蛋白质组或比较蛋白质组学。

③ 通过多种先进技术研究蛋白质之间的相互作用,绘制某个体系的蛋白,即相互作用蛋白质组学,又称为“细胞图谱”蛋白质组学。

此外,随着蛋白质组学研究的深入,又出现了一些新的研究方向,如亚细胞蛋白质组学、定量蛋白质组学等。蛋白质组学是系统生物学的重要研究方法

以上就是关于「数据集」医学图像数据集与竞赛大全全部的内容,包括:「数据集」医学图像数据集与竞赛大全、单细胞免疫组库:TCR基因重排原理和TCR测序建库方法、depmap数据库使用方法等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9527428.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存