尚学堂大数据学习笔记2021

尚学堂大数据学习笔记2021,第1张

尚学堂大数据学习笔记2021

尚学堂大数据学习笔记:极客时间、慕课、拉钩、小马哥、开课吧等等全网最全的IT学习资料 (qq.com)https://mp.weixin.qq.com/s/sub1vh0KyBwkVbHZiPtPwQ

 大数据的本质是什么?现在叫大数据,以前可以称为信息、情报等等名字。以前的信息搜集技术没有这样发达,只能以样本信息形式出现,而且由于结构类型不同,只能分类处理,有些数据还不便于储存和比较。为什么现在叫大数据,是因为现代互联网技术,可以把不同结构类型的所有数据都能搜集到,形成全数据,并且随着大数据技术的深度发展,这些复杂结构类型的全数据,会被自动分类比较统计,所以称为大数据。吴军在他的《智能时代》里提到对于大数据的观点:只有量的积累的数据,通常并不能称之为大数据。除了大量性,大数据常常还应该具有多维性和完备性。大数据的多维性,可以理解为针对单一“个体”(人/物/事件等)不同角度的数据。比如之前提到的:收集全国所有人的出生年月,单收集这一项,数据单一缺乏意义;但如果再加入收入、所属地区、受教育程度等等多维的信息,那数据本身就变得鲜活了。我们可以从数据中分析人口的地域分布、经济分布、教育分布等并在此基础上给出宏观的资源调控计划。大数据的完备性,则可以理解为数据的全面性。比如2012年一位名叫内德·斯威尔的年轻人,利用大数据成功预测了美国50+1个州的大选结果。他其实就是在投票前利用互联网尽可能的搜集当年的大选数据(如地方媒体数据、社交网络留言、朋友间评论等),从而近似的知道每个人对大选的态度,并按照州进行分类整理,最终成功预测了当年的大选结果。缺少多维性的“大数据”会让数据承载的信息“片面”,进而导致数据本身的利用价值大大下降;缺乏完备性的数据则会由于缺乏“完备样本”的支撑,也会使得获取的信息“局限性”。大数据最好还应具有“及时性”,但及时性却并不是其必备条件,只是有了“及时性”的大数据,会实现一些过去无法做到的事情。大数据的及时性,可以理解为数据收集的时效性。一方面,要分析当前情况,就要尽可能使用与当前时间点较为接近的数据;另一方面,数据本身就在时刻产生(特别是今天的互联网),新鲜的数据能更快速的反应当前社会的一些情况。比如使用百度地图导航的时候,它能根据数据库中人们当前的(及时的数据)车辆出行地点,和即将要去的地方大概估算出此人的行程规划,并通过众多数据的整合估算出某一路段可能的堵塞情况,进而在导航的时候给出“避免拥堵”的导航建议。由此可见,所谓的大数据,一定要同时满足大量、多维和完备(相对来说)的特点,并在此基础上,最好具有“时效性”。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5350544.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-09
下一篇 2022-12-09

发表评论

登录后才能评论

评论列表(0条)

保存