2022年第十五届“SPSSPRO杯”数学中国数学建模网络挑战赛
2022认证杯数学中国数学建模网络挑战赛
认证杯这次叫spssrpo
二,A题 人员的紧急疏散在过去的几十年里,由于大规模集会活动的数量和规模的增加,紧急疏散 的问题变得越来越重要。
通过有限宽度的门或狭窄通道进行疏散是最值得关
注的情况之一。
为了更好地理解各种情况下的人群行为,已经进行了许多实 验和数值模拟。
门的宽度、人群组成、出口的位置都会影响疏散的效果。
组织
真人进行实验固然是一种有效的方法,但由于环境和背景的真实性、压力水 平、人员密度、样本大小等无法和真实情况一致,所以许多不同的研究结果都
是有争议甚至是互相矛盾的。
基于模型的研究不需要面对实验遇到的困难。
但如果模型的假设是不可
靠的,它们可能会产生与现实不符的结果。
我们需要针对不同的情形和参数 进行研究,来了解人群在疏散逃生时可能呈现出的不同动力学行为。
第一阶段问题:
- 人们的经验表明,情况的紧急程度,即人群的焦虑程度对疏散的过程会
有明显的影响。有的实验结果显示紧急程度的增加会加快疏散速度,有
的实验结果则发现过高的焦虑程度会减慢疏散的过程。我们假设一个
内部无障碍的方形房间(或大厅)中有若干人,只有一个门可用于疏散。
请你建立合理的数学模型,确定关键因素,研究人群的焦虑程度对疏散
效果的影响。请说明哪些关键参数造成了实验结果的差异。
- 房间情况同上,由于疏散的过程显然不是匀速的,请研究疏散速率随时
间的变化曲线,以及各关键因素将对曲线产生怎样的影响。 - 如果在足够大的大厅内有两个有一定间距的出口,经验表明,在人们选
择疏散出口的时候,不一定只会选择距离更近的那个,而是预期时间最
短的那个。请建立合理的模型,来模拟疏散路线的选择过程。
并研究如
果门的宽度不同,将会产生怎样的动态过程。如果大厅内的能见度降
低,又将对这个过程产生怎样的影响?
问题分析:需要收集数据计算因变量(和自变量。
由于前后是一个时间维度的变化,我们需要恢复前后这段时间的各变量数据。
可实现模型:秩和比评价法、主成分分析(自变量太多,可以降维)
- 输入正向变量:指标值越大评价越好的指标 输入负向指标:指标值月销评价越好的指标 除此之外,该题还可以用:
- 量化分析方法:层次分析法、秩和比评价法等等
- 回归分析方法:最小二乘线性回归、主成分分析(自变量太多,可以降维)、岭回归(线性回归自变量共线性太严重时可做)等等
机器学习方法:神经网络、随机森林、xgboost等等
复杂方法:若是想要拿高等级奖项,最好用仿真优化算法(如遗传算法、粒子群法),同样成本函数最小化、效益函数最大化求解
三,B题 唐宋诗的定量分析与比较研究唐诗和宋诗在文学风格上有较为明显的区别,这一点在古代文学研究中 早有定论。
所以唐诗和宋诗有时甚至会直接指代两类不同的诗作风格。
历史
学家缪钺在《论宋诗》一文中说:“唐诗以韵胜,故浑雅,而贵蕴藉空灵;宋诗以
意胜,故精能,而贵深折透辟。
唐诗之美在情辞,故丰腴;宋诗之美在气骨,故 瘦劲。
唐诗如芍药海棠,秾华繁采;宋诗如寒梅秋菊,幽韵冷香。
……譬诸游
山水,唐诗则如高峰远望,意气浩然;宋诗则如曲漳寻幽,情境冷峭。
唐诗之 弊为肤廓平滑,宋诗之弊为生涩枯淡。
虽唐诗之中,亦有下开宋诗派者,宋诗
之中,亦有酷肖唐人者;然论其大较,固如此矣。
”在钱钟书的《谈艺录》中也谈
到“诗分唐宋”的问题:“唐诗、宋诗,亦非仅朝代之别,乃体格性分之殊。
天下
有两种人,斯分两种诗。
唐诗多以丰神情韵擅长,宋诗多以筋骨思理见胜。
严 仪卿首倡断代言诗,《沧浪诗话》即谓‘本朝人尚理,唐人尚意兴’云云。
曰唐
曰宋,特举大概而言,为称谓之便,非曰唐诗必出唐人,宋诗必出宋人也。
故
唐之少陵、昌黎、香山、东野,实唐人之开宋调者;宋之柯山、白石、九僧、四灵,
则宋人之有唐音者。
”他们的观点都认为唐诗和宋诗并非只有年代上的区分, 而且在文学风格上也代表着完全不同的类型,甚至有个别唐朝诗人的诗作是
宋诗的风格,而个别宋朝诗人的诗作更接近唐诗。
我们试图使用定量分析的手段来研究唐宋诗之差异。
附件中包含了《全唐 诗》收录的 5
万余首诗,《全宋诗》收录的约 26 万首诗。
为了研究唐诗与宋诗 在风格上的差异,请你建立合理的数学模型,研究如下问题:
第一阶段问题:
- 请研究诗中出现的常见字(词),研究是否能够通过比较字(词)频上的
差异来区分不同诗人的风格。请注意,由于诗的特殊格式限制,所以诗
作中的字词用法与散文或日常语言中可能会有不同。 - 如果有一对字(词)在同一首诗中(或同一句中)同时出现,我们可以认
为它们之间具有某种关联,以下将其称为字词关联。请统计不同时代的
诗中的字词关联,并研究这项指标是否能够体现诗作时代的变化。 - 请设计一个或多个有效的指标,来衡量唐诗和宋诗的风格差异。
如果能
给研究带来便利的话,我们也可以考虑选择唐代和宋代的某些风格强
烈且时间距离较远的时期(例如初唐时期和南宋时期)的诗作来进行比
较研究。 - 请分别选出 50 首风格最具代表性的(并非文学成就最高的)唐诗和宋
诗,并说明选择标准的合理性。
较为考研数据处理能力
模态分析微分方程组(公式2)包含六个矩阵:
[K]代表刚度矩阵。
可参考“结构静力学”中的解释说明
{u}代表位移矢量。
主要用来描述模态分析的振型。
可参考“结构静力学”中的解释说明,但是,一定要注意,模态分析中得到的位移矢量与静力学分析中位移矢量代表变形不同。
[C]代表阻尼矩阵。
指结构在振动过程中受到的阻尼,事实上,在宇宙空间中,任何结构在动力学过程中都包含阻尼,阻尼直接影响到结构的振动频率与振动形态。
比如某些结构为了降低振动带来的产品性能伤害,选择用橡胶垫片等;然而在频率计算中,因为阻尼对常规结构的影响较小,往往忽略阻尼。
阻尼的种类很多,在有限元分析中有材料阻尼、结构阻尼、系统阻尼以及瑞利阻尼等。
{}代表节点速度矢量。
速度矢量与阻尼矩阵共同组成了力平衡矩阵,速度矢量就是位移矢量的一阶导数。
速度矢量同样需要通过有限元计算得到。
[M]代表结构质量矩阵。
质量矩阵形成结构的固有惯性,是区别于静力学分析的又一重要因素。
在有限元分析时,往往需要对结构网格化,因为网格化技术的限制,有限元模型得到结构质量与实际模型质量往往不同,这里就需要工程师具备丰富的工程经验来判断修正与质量配平。
{ü}代表节点加速度矢量。
加速度矢量与质量矩阵共同组成了力平衡矩阵,加速度矢量就是位移矢量的二阶导数。
加速度矢量同样需要通过有限元计算得到。
有了大量数据之后,下一步就是分析这些数据,期望通过合适的数据分析挖掘技术建立模型找到蕴藏在数据下面的客观规律。
大数据分析技术经过这么多年的发展,已经形成了一些分析建模的基本思路。
CRISP-DM(即“跨行业数据挖掘标准流程”的缩写)是一种业界认可的用于指导大数据分析挖掘工作的方法。
CRISP-DM认为在大数据分析中存在一个大数据分析挖掘生命周期模型。
在这个生命周期模型中存在着商业理解、数据理解、数据准备、建立模型、模型评估和结果部署这六个阶段。
图1中展示了这六个阶段的关系,其中箭头的多少表示各个阶段间依赖关系的使用频率和重要程度,每个阶段之间并不一定要严格遵守顺序。
实际上,大多数项目都会根据需要在这些不同的阶段之间来回移动。
商业理解通常是指理解业务的实际类型,业务上的实际问题并且尝试尽可能多地了解数据挖掘的业务目标。
数据理解是指数据理解阶段包含深入了解可用于挖掘的数据,此过程包括初始数据的收集,初始数据的描述以及数据质量的验证。
数据准备是数据挖掘最重要的阶段之一,通常需要花费大量的时间。
据估算,实际的数据准备工作通常占50-70%的项目时间和工作量。
数据准备通常包含以下任务:合并数据集和记录、选择数据子集样本、汇总记录、导出新的属性、排序数据以便建模、删除或替换空白值或缺失值、分为训练数据集和测试数据集等。
经过数据准备,下一阶段就是建立模型。
建模时通常会执行多次迭代,选择合适的模型算法,运行多个可能的模型,然后再对这些参数进行微调以便对模型进行优化,最终选择出一个最佳的模型。
在模型评估阶段,需要对项目结果是否达到业务成功标准进行评估。
此步骤的前提条件是对声明的业务目标有清晰的了解,因此在前期的商业理解越发显得重要。
模型评估完成之后就进入到结果部署阶段,在该阶段就是将前期选择出来的最佳模型应用到实际业务中去,并得到最终报告。
2019 年新型冠状病毒肺炎疫情暴发至今已过两年,新型冠状病毒历经多 次变异,目前已有 11
种变异毒株,包括阿尔法、贝塔、德尔塔、奥密克戎等。
其中变异株奥密克戎已在世界上多个国家和地区流行。
相比此前流行的变
异株,奥密克戎具有大量关键突变,其传播力和隐匿性更强,且存在免疫逃 逸,更容易多点散发或集中暴发。
截至 2021-12-08,全球共有 57
个国家和地 区报告奥密克戎变异株,截至 2022-01-20,奥密克戎已经波及我国 14 个省。
虽然可以通过区域全员核酸检测的方式快速发现感染者并进行有效隔离。
但 是大规模核酸检测成本较高,而且对于经济、生活都会产生较大的影响,使
用频率有限。
为了解决这个问题,2020 年 8 月,世界卫生组织(WHO)发布 了名为“新冠病毒环境监测的现状(Status of
environmental surveillance for SARS-CoV-2
virus)”的科学简报。
文中总结了通过市政污水进行新冠病毒监 测的背景、方法和用途,为全球抗击疫情提供了一份指导方案。
污水监测是以
污水流行病学(Wastewater-Based Epidemiology,WBE)的原理为手段,通过
分析市政污水处理厂进水中的污染物或者生物标记物浓度,结合人体代谢机 理、进水流量和服务人群数量等信息,反推该物质在污水集水区内的状况,这
一方法或在未来新冠疫情的大规模防控上发挥重要的作用。
所谓污水流行病学便是基于污水中蕴藏的丰富信息,通过分析污水处理
厂进水中的化学物质浓度,根据人体代谢机理、进水流量和服务人口数量估 算该地区人群消费某类化学物质的规律,调查与之相关的疾病、消费、健康等
公众信息,从而预防和控制相关疾病,提高公众健康水平的科学。
当前正在全 1 球范围内流行的新冠疫情,更是将污水流行病学的应用扩展到对疫情的定性
早期预警、对疾病流行率的定量估计以及疾病突发的定量警报,进一步拓展 了污水流行病学的内涵。
该方法有如下几个优点:1、监测的范围大、覆盖面
广,可以评估大规模的社区总体的感染情况。
市政污水厂通过污水管网承接 了城市千家万户排放的污水,污水集水区域的人口数量少则千人,多则上百
万人,覆盖的人口非常广泛,包括不能及时或者未发现症状而不进行核酸检 测的感染者,因此能够更好的对疫情进行评估和预测。
2、可预知病毒社区感
染的重新爆发。
由于污水新冠病毒的检测结果比临床患者出现早,因此会有 预警作用。
3、可作为疾病传播动态监测的辅助手段。
对卫生监督结果进行有
效的补充,这一点在中低收入的国家尤为重要。
第一阶段问题:
- 请根据附注网站上的数据,研究美国污水监测采样点的分布是否合理?
如果可以增加十个采样点,请建立数学模型,选择最合理的位置设置采
样点。 - 请对数据进行分析,对于可能出现的大规模疫情进行预警,并给当地的
政府写一封信(一或二页),说明对疫情的预判,对情况严重性的估计,
并给出一定的防控建议。
关联规则分析(Apriori)算法容易理解,能够用简单的if-then规则描述数据之间的完备关系;得出的规则具有可读性;能处理连续和离散的数据数据间可能不存在强规则;由于要查找整个数据库中的所有可能规则,可能会出现组合爆炸问题数据形式规范
第一,自动预测趋势和行为。
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
比如在GOOGLE流感分析案例中预测流感爆发的时间和地点。
第二,关联分析。
数据关联是数据库中存在的一类重要的可被发现的知识,若两个或多个变量的取值之间存在某种规律性,就称为关联。
关联分析旨在找出具有强相关关系的几个属性。
典型案例是啤酒和尿布的关联分析,关联分析经常用在电子商务的产品推荐中。
第三,聚类。
数据库中的一些相类似的记录可以划归到一起,即聚类。
聚类常常帮助人们对事物进行再认识。
在社交网络分析中经常用到聚类技术。
收藏文章,关注作者,后续会更新更多思路。
最后在此建议大家:选题很重要,切忌中途换题,会越换越乱呦。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)