数据科学与大数据技术专业学什么本专业旨在培养社会急需的具备大数据处理及分析能力的高级复合型人才。具体包括:掌握计算机科学、大数据科学与信息技术的基本理论、方法和技能,受到系统的科学研究训练,具备一定的大数据科学研究能力与数据工程实施的基本能力,掌握大数据工程项目的规划、应用、管理及决策方法,具有大数据工程项目设计、研发和实施能力的复合型、应用型卓越人才。
主要课程:C程序设计、数据结构、数据库原理与应用、计算机 *** 作系统、计算机网络、Java语言程序设计、Python语言程序设计,大数据算法、人工智能、应用统计(统计学)、大数据机器学习、数据建模、大数据平台核心技术、大数据分析与处理,大数据管理、大数据实践等课程。
课程教学体系涵盖了大数据的发现、处理、运算、应用等核心理论与技术,具体课程包括:大数据概论、大数据存储与管理、大数据挖掘、机器学习、人工智能基础、Python程序设计、统计学习、神经网络与深度学习方法、多媒体信息处理、数据可视化技术、智能计算技术、分布式与并行计算、云计算与数据安全、数据库原理及应用、算法设计与分析、高级语言程序设计、优化理论与方法等。
数据科学与大数据技术专业就业方向有哪些大数据作为一门基础科学,无论在数据开发及分析、物联网和人工智能算法训练领域,都有着核心技术和职位诉求,主要来说的话,当下,大数据方面的就业主要有三大方向:一是数据分析类大数据人才,二是系统研发类大数据人才,三是应用开发类大数据人才。
大数据开发工程师主要是基于大数据服务平台,很多大中型业务应用包括企业级应用和各类网站。能够进行构建大数据应用程序平台和开发分析应用程序。
毕业生能在互联网企业、金融机构、科研院所、高等院校等从事大数据分析、挖掘、处理、服务、应用和研究工作,亦可从事各行业大数据系统的集成、设计、开发、管理、维护等工作,也适合在高等院校及科研院所的相关交叉学科继续深造,政府机构、企业、公司等从事大数据管理、研究、应用开发等方面的工作。同时可以考取软件工程、计算机科学与技术、应用统计学等专业的研究生或出国深造。数据分析、机器学习与物联网
我们当前所处的世界,联网程度不断上升,低成本传感器和分布式智能也在不断普及,产业即将面临这一切带来的革命性的冲击;同时,在此过程中还会产生大量的数据,其规模将庞大到远远超过人类所能处理的范畴。对此,企业是否能足够迅速地适应并演进自身的业务,以维持在竞争格局中所处的位置?面对我们栖身的环境中植入的这些全新的信息来源和智能设备,人类应当如何掌握它们并从中获益?利用不断演进的技术组织机构将需要建立起内部数据仓库,以便能够利用新的数据源和数据流。智能接入设备亦将在某些情况下取代人的角色,它们将能够自行决策、执行自我调整,或是根据需要引发对自身的纠正和修复。在另一些情景中,众多设备的集合将聚集在一起成为完整的系统,这样的系统可以采用新的方法进行优化;而由系统聚集成的系统,将会彼此共享数据,并成为由数据和设备组成的生态系统。机器学习(指从数据中推导出意义的众多方法)注定将成为这个生态系统中的一部分;此外,随着企业着手为物联网(IoT)做准备,传统业务和数据分析技术也同样将被纳入到该生态系统之中物联网——某些人更愿意称之为“万物互联”(Internet of Everything)——正处于不断上升的轨道上。一项Gartner研究指出,在2020年IoT单元的数量将达到260亿,而IoT产品和服务的市值将达到3000亿美元1。另外,GE在工业互联网(Industrial Internet)——这一概念包含用于监控和优化工业设备(例如喷气式引擎、铁路机车、动力涡轮机和制造工艺)性能的机制和应用——领域已经活跃了很长时间。根据GE的估算和预测,在接下来20年中,工业互联网将帮助全球GDP产值提高10到15万亿美元(没错,万亿量级)。当然,围绕着已问世的全新技术和正在逐步浮现的技术概念,市场中充斥着大量炒作。例如,Gartner备受争议的 “成熟度曲线”(注:也有些人使用“炒作周期”这一贬义说法)报告就把IoT摆在了“翘首以望的顶峰”的位置上(而大数据作为之前的热点,已经进入了“理想幻灭的低谷” 3)。然而,哪怕企业家们为之表现出群情激昂的兴奋,或是记者们在笔下展现出了对未来的狂热展望,在现实中依旧存在着大量的挑战,组织机构必须克服它们,才能够真正乘上这次技术演进的东风。挑战组织机构必须聚焦于:了解产品技术和IT领域中,企业能力的相对成熟度;了解可以纳入哪些类型的IoT功能,以及新能力将会在哪些方面对客户价值带来影响;了解机器学习和预测分析模型的角色;基于市场变化的迅捷程度和竞争对手的相对敏捷度,重新思考业务模型和价值链。接下来,让我们对这些挑战逐一进行更详细地分析。理解产品和IT成熟度可以从产品和IT两个维度分别进行分析。首先,产品组合的成熟度如何?它是属于变更较缓慢且逐步演进的传统类型的产品,还是属于前进速度更快,同时具有更复杂生态系统的产品?矿产设备在技术上非常复杂。并且,与科学研究仪器相比,它拥有更为漫长的设备生命周期,和相对更缓慢的演进速度。然而,这并不意味着科研仪器的公司,在利用IoT产品进行系统优化方面更具优势。另一个需要考虑的因素是IT流程的成熟度。各种类型的组织机构都可能会因采用IoT而获益;然而,要想达成这一目标,它们所需采用的模型却各不相同。让我们进一步分析一下IT成熟度水平这个因素。举例来说,科学研究仪器供应商或许拥有先进技术,但却可能缺乏强有力的IT架构、流程和IT治理能力。与之相反,矿业设备制造商或许拥有非常成熟的内部IT流程。对科学研究仪器公司而言,IoT将让它们能够对安置在现场的仪器设备进行功能升级;但面对由多种类型设备组成的实验室信息生态系统库,公司并不一定愿意尝试去进行优化。(当然,以IT作为成本中心——例如内部IT管理——方面的成熟度不足,并不等于以IT作为利润中心——例如IT产品——方面成熟度的缺失;但当开发或拓展IT服务的时候,许多组织机构都选择在现有的基础IT能力之上构建。)在去年的哈佛商业评论(Harvard Business Review)中,讨论了一个矿业设备领域的例子:Joy Global是一家矿业设备制造商,其专家团队横跨与采矿作业相关的多种系统和流程。Joy Global以此为依托,针对来自多家供货商的一系列设备,提供监控、维护和优化的服务4。了解IoT能力接下来,应该考虑一下使用智能联网设备中的哪些能力。刚刚提到的哈佛商业评论刊登的文章4指出,IoT包含四种类型的能力:监视——传感器提供关于运行环境、产品使用和性能方面的数据;控制——可以控制并定制个性化产品功能;优化——来自监视与控制的反馈回路,能够提供更高的效率、更好的性能、预防性维护,以及诊断和修复;自治——监视、控制和优化将支持独立运行、不同系统间的协作、与环境交互、个性化、补给,以及自我诊断和修复。这四个层级的能力,将为重新定义供应链并重新配置价值链提供支持。我们不应该抱有产品的功能应固定不变的观点;相反,我们应该认为它们将更具灵活性和适应性。那些智能联网设备和产品将具有可变特性,并能够随着用户需求的变化而改变。在数年以前,软件制造商就已经认识到了这一点。而现在,物理对象也正在逐渐转变为软件驱动功能的载体或容器。上述这些层级的能力要求越来越精密的数据分析方法——从收集和应用数据,到支持算法自身运用数据并在同时进行学习。第一个层级的能力——监视——将成为一套实时的机制,我们可以运用它更好地了解现场情况和用户需求,并提供新的能力。这意味着组织机构的传统产品和服务将不再泾渭分明,而且二者的边界将彼此渗透。在过去,现场设备的维护由某个现场服务承包公司承担,设备制造商的业务并不涉及此环节。而在智能设备与监视能力结合后,设备可以在故障发生前将所需的服务提前告知制造商。同时,设备制造商也可以将常规维护纳入自己的服务范畴。不过,如果利润和物流对组织机构而言是个问题的话,那么复杂的维修工作将依旧由专业承包商完成。这一“去中介化”(disintermediation)的模式也可以运用到分发链中。设备可以自动发起补充供应的请求,从而降低甚至消除供应链中的物流和库存压力。控制是建立在监视之上的更复杂的应用。我们可以监视设备运行情况,并通过控制设备的多个部分或多个系统,来扩展人工干预的边界。想象一下,在 *** 作大部分功能都是自动化执行的系统或机器时,人类所扮演的角色:人类指导机器运转,并寻找系统设计的时候没有预料到(或是基于经济划算的角度未设计应对预设)的边界条件、异常和例外。接下来,人类使用自己的判断做出变更、纠正或调整。我们并不需要(在空间上)与设备在一起,或许我们也无需实时监视它们(这取决于流程)。我们通过监视层面采集数据并进行处理(某些数据处理必须在特定时刻完成),并通过控制层面将这些数据实时(或准实时)地运用到设备或装置的运行上。需要组织机构做出的战略决策是,是否以及何时在产品中提供更多的控制能力,以及是将其作为一种服务向客户开放,还是让客户拥有这些功能。第三个层级的能力——优化——可以拓展到某个单体对象、一系列对象,或是一套由来自多家制造商、使用不同技术的对象组成的生态系统的表现方面。是否将提供的服务拓展到这一领域,取决于围绕着价值链和流程边界的知识和经验的水平。前面提到的矿业的例子,反映出Joy Global与供应商相比的优势,主要在于拥有在流程生态系统中更加聚焦的视角。以卡车制造商为例,它无法很好地优化复杂的矿业设备,但却会凭借对自己的一系列卡车(以及潜在的一系列其他制造商生产的卡车)进行优化而获益——如果行业动态确实具有商业意义的话。要将优化的范围延伸到独立运行,还需要对这三个层级的能力进行一些拓展,以支持与环境及其他系统进行受限程度更低的交互。自治要求围绕着算法提供更多的智能,以便应对计划外的情况——程序员和系统工程师未能明确设计这些情况下的方案。自主运行需要整合具有适应性的机器学习方法,以应对新出现的情况,并将之纳入到用于监视、控制和优化的核心算法中。了解分析和机器学习2014年11月,施乐公司帕洛阿尔托研究中心的Mike Kuniavsky在IDTechEx上进行了一场名为“IoT领域中预测分析方面的用户体验”的演讲。在演讲中他表示,我们应该将几乎所有功能都存放(或是在不久的将来存放)在云上。数据和功能可以从任何位置、通过任何设备访问。而专业设备则提供用户访问数据的环境。健康手环可以通过iPhone或笔记本电脑,在特定的锻炼环境中访问用户的身体健康数据。在这种情况下,健康手环扮演了IoT传感器的角色,同时也提供了访问和使用数据的一种途径,而且它还通过软件功能包含了其他一些设备(例如计步器)的能力。设备上产生的数据可以为厂家提供额外的洞见,帮助其了解消费者的使用情况和喜好,并藉此升级功能或开发新特性。如果汇聚来自用户群的数据并结合其他数据集,那么新的洞见可以阐明流行病方面的数据、人群活动水平、生活方式和人口统计数据。对市场人员、健康服务提供者、保险公司和政府机构来说,这些信息具有宝贵的价值。(当然,我们必须认真对待隐私和数据使用许可方面的责任。)我们可以使用机器学习算法,基于这些数据模式作出预测。例如,在一份来自Mayo Clinic的研究中,发掘出了活动数据与心脏病人恢复速度的相关性5。同样的机器学习和预测算法也是许多联网智能消费设备的基础。例如,Nest恒温器是一套能够使用数据模式的设备,它预测消费者对于某个特定房间、在一天中的某个特定时刻的温度要求。(另一个控制和优化的例子体现在聚居区的层面。在获得了业主许可的情况下,电力设施可以通过远程调节的方式,控制成百上千的Nest设备,将室温调高或调低几度,从而完成高峰期的用能负载调度)。这类消费设备涵盖了从声音模式(例如亚马逊的个人助理输入设备Echo6)到更复杂的行为和活动模式(例如捷豹的路虎监视系统,它依赖于一套复杂的软件系统,该系统让汽车能够学习、预测和检查,并提醒车上的乘客帮助驾驶员自动委派次要任务,以便驾驶员将更多的注意力集中在驾驶上7)进行学习的范围。优化算法通过使用机器学习机制,来利用从动态环境下交互的传感器和智能设备传回的数据。算法不能基于特定的参数,精确地预测这些多变的情况,而是需要不断地感知、响应并适应。例如,随着汽车从驾驶员身上分担了更多的责任,它们需要与周边环境中更多的数据来源进行交互(传感器、灯光、其他车辆等等)。在工业自动化、物流和交通运输、电力网络与能源系统、交通管理、安全系统以及其他“系统的系统”等领域中的各类应用,都将让机器直接与其他机器进行交流。此外,这些应用还将基于能够演进和自适应的算法,帮助机器翻译数据流,从而使机器能够依据给定的运行参数达到要求的最终状态。反思业务模型和价值链智能联网设备要求组织机构重新检视,它们处在市场中的什么位置、以什么方式创造价值,以及这些价值将如何随着竞争环境和信息生态系统的演进而增加或减少。分析将帮助验证某些决策(例如,在对特性进行变更或是增加服务和功能后,获得实时使用数据);不过,市场新进入者和新的价值链结构或许会对业务模式带来巨大的转变,而基于公司传统业务模式做出的分析将不再具有相关性。因此,产品或服务的基础,或许会转变为来自传统产品的数据流,而不是来自产品本身的收入。新的业务模式将得以延展,甚至有可能远远超出产品本身的范畴,覆盖上游供应商或下游消费者。最重要的是,所有这些可能性,都会要求组织机构拥有围绕着其内部数据健康度和用于分析的基础设施的基础能力:数据“打捞”(curation)、所有制和质量标准、具有一致性的企业架构、干净整洁地集成在一起的系统、自动化的数据载入流程,以及成熟的分析专家。如果欠缺或未能有效管理这些基础条件,组织机构将很难进行快速反应,并演化出新的分析和数据管理功能与能力。IoT将基于数据流和复杂的方法,从信息中获取洞见,并通过与企业知识整合,将之运用到价值创造方面。而不具备这些能力的组织机构将在市场上落后,或是降级到低价值、低利润的层次。数据被称为“新的石油”——我们可以拓展这一比喻,这意味着通过分析能力中的知识提炼环节,数据将被精炼为高价值产品。组织机构现在就需要在构建此类基础设施的方面投入资源,以便为接下来数年中应对供应链和价值创造环节的转型、扰动和颠覆做好准备。信息敏捷性将成为必备的核心能力。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)