Access数据库实训心得_sql

持续一个月的数据库实训，让我参与了软件工程化的开发过程。其中体会最深的便是我们这个实训网的几个之最：一．项目最大：项目大是因为我们这个事业起点网站涉及到用户众多-高校，企业，学生，老师，专家，第二个原因是网站的功能多-用户管理，网上实习，网上竞赛，毕业实习设计，项目管理，人才库管理，人才推荐，搜索 ... 项目大很容易造成系统范围的泛滥，在我们的开发初期，由于需求不太明确，功能实现没有重点，造成了需求范围的扩大，给项目开发进度造成了严重的滞后性。然后我们召开了会议讨论了这个问题，一致认同先把项目的基本功能实现，将网站的基本架构搭建起来，最后再在这个基础上继续增加我们网站的其他功能。因此在这个过程中，我深刻体会到了软件工程初期阶段的需求分析以及概要设计的重要性，这两个文档是指导我们后期开发的最重要的依据。二．数据库表最多：如此庞大的系统，就需要庞大的数据库来支持，所以项目大的直接后果就是我们的数据库表特别多，而且表与表之间的依赖关系也复杂，实体类之间的关系众多，设计起来有一定的难度。数据库的另外一个问题是-数据表的属性，数据表属性的设计完全是依赖于我们刚开始做的需求分析文档，如果需求分析不完整的话，就会造成数据库表属性的缺失，从用户的角度看，就会觉得你的系统提供的数据不够全面，信息量小。三．开发团队最大：我们团队一共有十四个人，这个对于我们的项目经理来说，是一个相当严峻的问题，毕竟十四个人的团队相当于其他几个小组加起来的人数总和，管理起来有相当大的难度。对于我们这些小组成员来说，由于沟通渠道太多，造成了我们项目中遇到问题，不知道去跟哪个小组成员沟通。为了解决这个问题，我们在团队中又选出了三个小组长，小组成员遇到问题，先去咨询小组长，然后小组长提供反馈信息。四．项目各个模块间藕合度高：网站涉及的各个功能模块之间的联系紧密，模块之间的接口设计的好坏是项目最终集成成功与否的最重要因素。用户管理这一个部分要为每个模块提供接口，主要是用户的编号以及用户的类型等。每个页面之间的链接也是其中重要的模块接口。这个问题由于我们前期做好了充分的沟通以及按照概要设计中的接口说明去设计自己的模块，所以后期的模块整合没有遇到什么太大的不兼容性等问题。接下来就谈谈我这一个月中的工作：需求分析阶段：需求分析阶段我完成了网上竞赛模块的需求分析，其中遇到的主要问题是阅读材料后发现网上实习，网上竞赛，毕业设计指导这几个模块的功能是类似的，提取需求分析后不够明确，经过几次跟汤老师的交流后，确定了这几个模块之间的具体差别，网上竞赛模块的基本需求也大致确定了，网上竞赛模块的基本功能就是学生通过网站报名参加竞赛，企业审核通过后，专家对作品进行评分，排名。概要设计阶段：在需求分析的基础上，对网上竞赛模块进行了比较具体的概要设计，流程图（IPO图以及用例图）；这个阶段的主要难点是对网上竞赛业务流程的描述，如何实现学生报名，企业发布，专家评审的步骤 *** 作，与及跟其他模块对该模块的限制。数据库设计阶段：我负责整合初步数据库设计说明书，分配组员按照各自的功能模块的具体需求设计自己模块需要的数据表，然后对这些数据表进行整合。在这个过程中遇到的问题就是数据库实在是太大了，最后下来一共有30多张表，表与表之间的关系复杂，关联性大，需要设置的外键较多，很难将所有的属性字段给提取出来，属性的类型设置也是一个问题，采用数值型还是采用字符串性在数据库设计中尤为重要，因为在后台搜索方面，数值型比较快捷，而在数据显示方面，字符串型又有直接读出不用转换的好处。每个表的主键我们采用了用实体的编号去标记它，因为这样实体间关联起来会更加简单。数据库的设计关键是要对整个项目的整体的把握，并且要细化对每个实体类的具体属性要求。详细设计阶段：我觉得是最重要的一个方面，一个完整的详细设计说明应该可以帮助程序员完成具体的实现，程序员可以不用考虑模块之间的耦合问题，只需要将单一的功能按照逻辑顺序编写出来就可以了。网站整体构架搭好了，我们就可以在里面填充自己的功能了。但是因为时间太仓促了，我们这个阶段也就缩水了，带来后面的问题就是后期代码编写的时候比较混乱，函数接口较难统，界面风格多样化。这个阶段，我的主要工作是跟队友一起设计出了网上竞赛模块的学生，企业，管理员，高校以及专家的界面。编码阶段：我们是用ASP.net开发的，主要任务就是从工具中选出你想要的控件，然后在控件响应函数中填充代码，完成相应的事件响应。这里遇到的最大问题是页面的排版问题，因为自己是第一次开发网站，造成了自己设计的界面风格单调，不太美观，现在就尽量做到页面的整齐。这个阶段主要做的就是：写代码→编译→调试→写代码。这一个月中我学到了很多东西，技术方面就是学会了用ASP.Net编写网站，最重要的是让我经历了软件工程化的所有阶段，让我对整个软件工程有了感性的认识，而且将大学三年所学到的知识进行了一次系统的串联，更重要的是学会了如何跟项目团队中的成员沟通问题，这是一个宝贵的实践经验。

智能医疗有很多的发展方向，例如医学影像处理、诊断预测、疾病控制、健康管理、康复机器人、语音识别病历电子化等。当前人工智能技术新的发力点中的医学图像在疾病的预测和自动化诊断方面有非常大的意义，本篇即针对医学影像中的病例分析，降噪，分割，检索等领域来介绍一些常用的数据集。

1.1 病例分析数据集

1.1.1 ABIDE

发布于2013年，这是一个对自闭症内在大脑结构的大规模评估数据集，包括539名患有ASD和573名正常个体的功能MRI图像。

1.1.2 OASIS

OASIS，全称为Open Access Series of Imaging Studies，已经发布了第3代版本，第一次发布于2007年，是一项旨在使科学界免费提供大脑核磁共振数据集的项目。它有两个数据集可用，下面是第1版的主要内容。

(1) 横截面数据集：年轻，中老年，非痴呆和痴呆老年人的横断面MRI数据。该组由416名年龄在18岁至96岁的受试者组成的横截面数据库组成。对于每位受试者，单独获得3或4个单独的T1加权MRI扫描包括扫描会话。受试者都是右撇子，包括男性和女性。100名60岁以上的受试者已经临床诊断为轻度至中度阿尔茨海默病。

(2) 纵向集数据集：非痴呆和痴呆老年人的纵向磁共振成像数据。该集合包括150名年龄在60至96岁的受试者的纵向集合。每位受试者在两次或多次访视中进行扫描，间隔至少一年，总共进行373次成像。对于每个受试者，包括在单次扫描期间获得的3或4次单独的T1加权MRI扫描。受试者都是右撇子，包括男性和女性。在整个研究中，72名受试者被描述为未被证实。包括的受试者中有64人在初次就诊时表现为痴呆症，并在随后的扫描中仍然如此，其中包括51名轻度至中度阿尔茨海默病患者。另外14名受试者在初次就诊时表现为未衰退，随后在随后的访视中表现为痴呆症。

1.1.3 DDSM

发布于2000年，这是一个用于筛选乳腺摄影的数字数据库，是乳腺摄影图像分析研究社区使用的资源。该项目的主要支持来自美国陆军医学研究和装备司令部的乳腺癌研究计划。DDSM项目是由马萨诸塞州综合医院（D. Kopans，R. Moore），南佛罗里达大学（K. Bowyer）和桑迪亚国家实验室（P. Kegelmeyer）共同参与的合作项目。数据库的主要目的是促进计算机算法开发方面的良好研究，以帮助筛选。数据库的次要目的可能包括开发算法以帮助诊断和开发教学或培训辅助工具。该数据库包含约2,500项研究。每项研究包括每个乳房的两幅图像，以及一些相关的患者信息（研究时间，ACR乳房密度评分，异常微妙评级，异常ACR关键字描述）和图像信息（扫描仪，空间分辨率等）。包含可疑区域的图像具有关于可疑区域的位置和类型的像素级“地面真实”信息。

1.1.4 MIAS

MIAS全称为MiniMammographic Database，是乳腺图像数据库。

乳腺MG数据（Breast Mammography）有个专门的database，可以查看很多数据集，链接地址为：

1.1.5 MURA

发布于2018年2月，吴恩达团队开源了 MURA 数据库，MURA 是目前最大的 X 光片数据库之一。该数据库中包含了源自14982项病例的40895张肌肉骨骼X光片。1万多项病例里有9067例正常的上级肌肉骨骼和5915例上肢异常肌肉骨骼的X光片，部位包括肩部、肱骨、手肘、前臂、手腕、手掌和手指。每个病例包含一个或多个图像，均由放射科医师手动标记。全球有超过17亿人都有肌肉骨骼性的疾病，因此训练这个数据集，并基于深度学习检测骨骼疾病，进行自动异常定位，通过组织器官的X光片来确定机体的健康状况，进而对患者的病情进行诊断，可以帮助缓解放射科医生的疲劳。

参考2018年论文：MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs.

1.1.6 ChestX-ray14

参考论文：

CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning

ChestX-ray14 是由NIH研究院提供的，其中包含了30,805名患者的112,120个单独标注的14种不同肺部疾病（肺不张、变实、浸润、气胸、水肿、肺气肿、纤维变性、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝气）的正面胸部 X 光片。研究人员对数据采用NLP方法对图像进行标注。利用深度学习的技术早期发现并识别胸透照片中肺炎等疾病对增加患者恢复和生存的最佳机会至关重要。

1.1.7 LIDC-IDRI

LIDC-IDRI数据集是由美国国家癌症研究所(National Cancer Institute)发起收集的，目的是为了研究高危人群早期肺结节检测。该数据集中，共收录了1018个研究实例。对于每个实例中的图像，都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注。该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。

1.1.8 LUNA16

发布于2016年，是肺部肿瘤检测最常用的数据集之一，它包含888个CT图像，1084个肿瘤，图像质量和肿瘤大小的范围比较理想。数据分为10个subsets，subset包含89/88个CT scan。

LUNA16的CT图像取自LIDC/IDRI数据集，选取了三个以上放射科医师意见一致的annotation，并且去掉了小于3mm的肿瘤，所以数据集里不含有小于3mm的肿瘤，便于训练。

1.1.9 NSCLC

发布于2018年，来自斯坦福大学。数据集来自211名受试者的非小细胞肺癌（NSCLC）队列的独特放射基因组数据集。该数据集包括计算机断层扫描（CT），正电子发射断层扫描（PET）/ CT图像。创建该数据集是为了便于发现基因组和医学图像特征之间的基础关系，以及预测医学图像生物标记的开发和评估。

1.1.10 DeepLesion

DeepLesion由美国国立卫生研究院临床中心（NIHCC）的团队开发，是迄今规模最大的多类别、病灶级别标注临床医疗CT图像开放数据集。在该数据库中图像包括多种病变类型，目前包括4427个患者的32,735 张CT图像及病变信息，同时也包括肾脏病变，骨病变，肺结节和淋巴结肿大。DeepLesion多类别病变数据集可以用来开发自动化放射诊断的CADx系统。

1.1.11 ADNI

ANDI涉及到的数据集包括如下几部分Clinical Data（临床数据）、MR Image Data（磁共振成像）、Standardized MRI Data Sets、PET Image Data（正电子发射计算机断层扫描）、Gennetic Data（遗传数据）、Biospecimen Data（生物样本数据）。

1.2 医学降噪数据集

1.2.1 BrainWeb数据集

发布于1997年，这是一个仿真数据集，用于医学图像降噪。研究者可以截取不同断层的正常脑部仿真图像，包括T1，T2，PD3种断层，设置断层的厚度，叠加高斯噪声或者医学图像中常见的莱斯噪声，最终会得到181×217大小的噪声图像。

1.3 医学分割数据集

1.3.1 DRIVE数据集

发布于2003年，这是一个用于血管分割的数字视网膜图像数据集，它由40张照片组成，其中7张显示出轻度早期糖尿病视网膜病变迹象。

1.3.2 SCR数据集

发布于2000年，胸部X光片的分割，胸部X光片中解剖结构的自动分割对于这些图像中的计算机辅助诊断非常重要。SCR数据库的建立是为了便于比较研究肺野，心脏和锁骨在标准的后胸前X线片上的分割。

本着合作科学进步的精神，我们可以自由共享SCR数据库，并致力于在这些分割任务上维护各种算法结果的公共存储库。在这些页面上，可以在下载数据库和上载结果时找到说明，并且可以检查各种方法的基准结果。

1.3.3 医学图像分析benchmark

在网址https://grand-challenge.org/challenges/提供了时间跨度超过10年的医学图像资料。

1.3.4 Ardiac MRI

ardiac MRI 是心脏病患者心房医疗影像数据，以及其左心室的心内膜和外膜的图像标注。包括33位患者案例，每个受试者的序列由沿着长的20帧和8-15个切片组成，共7980张图像。

1.3.5 NIH

发布于2017年，这是一个胸部X射线数据集，包含30,805个患者，14个疾病图像标签（其中每个图像可以具有多个标签），112,820个正面X射线图像，标签是使用自然语言处理从相关的放射学报告中自动提取。十四种常见的胸部病变包括肺不张，巩固，浸润，气胸，水肿，肺气肿，纤维化，积液，肺炎，胸膜增厚，心脏扩大，结节，肿块和疝。由于许多原因，原始放射学报告（与这些胸部X射线研究相关）并不是公开分享的。所以文本挖掘的疾病标签预计准确度 >90％，这个数据集适合做半监督的学习。

1.4 List of Open Access

在List of Open Access Medical Imaging Datasets网站上可以看到更多的相关方向的数据集。

2.1 VISCERAL

VISCERAL 是Visual Concept Extraction Challenge in Radiology的缩写，是放射学中的视觉概念提取挑战赛。他们提供几种不同成像模式（例如CT和MR）的几种解剖结构（例如肾，肺，膀胱等）的放射学数据以及一个云计算实例。

2.2 Grand Challenges

提供了医学图像分析领域内所有挑战的概述，下面举的例子是2019年的医学图像方面将要举办的竞赛。

2.3 Dream Challenges

这个挑战赛中包括有数字乳腺摄影梦想挑战；ICGC-TCGA DREAM体细胞突变称为RNA挑战（SMC-RNA）等等。

最后提供给对医学影像处理感兴趣的童鞋一个超级赞的github链接如下：

这是Github上哈佛 beamandrew机器学习和医学影像研究者贡献的数据集，包括了医学影像数据、竞赛数据、来自电子健康记录的数据、医疗数据、UCI数据集、生物医学文献等。

4:0这种格式的比分不好识别，解决问题的关键是算出比赛的分差，否则就真的是要用眼睛看了。

下面提供一种或许是更好的面向“甲方分数：乙方分数”分数格式，求分差的表达式

Abs(Val([比分]) - StrReverse(Mid(Val(StrReverse([比分] &1)), 2)))

它不受比分位数多少的影响，例如1:4；10:5 ；100:21等比分位数不固定也不成问题。

另外比分最接近、最悬殊和夺冠次数最多的球队都存在超过一支球队的可能，这也是我们需要考虑的因素。

NBA历年总冠军表：

1)比分最接近的比赛：

select t.年份, t.冠军, t.冠军教练, t.亚军, t.亚军教练, t.比分

from (select *,Abs(Val([比分]) - StrReverse(Mid(Val(StrReverse([比分] &1)), 2))) as 分差 from NBA历年总冠军表)t

where t.分差=(select min(Abs(Val([比分]) - StrReverse(Mid(Val(StrReverse([比分] &1)), 2)))) from NBA历年总冠军表)

2)比分最悬殊的比赛：

select t.年份, t.冠军, t.冠军教练, t.亚军, t.亚军教练, t.比分

from (select *,Abs(Val([比分]) - StrReverse(Mid(Val(StrReverse([比分] &1)), 2))) as 分差 from NBA历年总冠军表)t

where t.分差=(select max(Abs(Val([比分]) - StrReverse(Mid(Val(StrReverse([比分] &1)), 2)))) from NBA历年总冠军表)

3)夺冠次数最多的球队：

select t.冠军,t.wins as 夺冠次数 from

(select 冠军,count(*) as wins from NBA历年总冠军表 group by 冠军)t

where t.wins=(select max(wins) from

(select 冠军,count(*) as wins from NBA历年总冠军表 group by 冠军))

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9568981.html

Access数据库实训心得

发表评论

评论列表（0条）