大数据和传统数据的区别在哪里?

大数据和传统数据的区别在哪里?,第1张

传统数据和大数据的区别

第一、计算机科学在大数据出现之前,非常依赖模型以及算法。人们如果想要得到精准的结论,需要建立模型来描述问题,同时,需要理顺逻辑,理解因果,设计精妙的算法来得出接近现实的结论。因此,一个问题,能否得到最好的解决,取决于建模是否合理,各种算法的比拼成为决定成败的关键。然而,大数据的出现彻底改变了人们对于建模和算法的依赖。举例来说,假设解决某一问题有算法A 和算法B。在小量数据中运行时,算法A的结果明显优于算法B。也就是说,就算法本身而言,算法A能够带来更好的结果;然而,人们发现,当数据量不断增大时,算法B在大量数据中运行的结果优于算法A在小量数据中运行的结果。这一发现给计算机学科及计算机衍生学科都带来了里程碑式的启示:当数据越来越大时,数据本身(而不是研究数据所使用的算法和模型)保证了数据分析结果的有效性。即便缺乏精准的算法,只要拥有足够多的数据,也能得到接近事实的结论。数据因此而被誉为新的生产力。

第二、当数据足够多的时候,不需要了解具体的因果关系就能够得出结论。

例如,Google 在帮助用户翻译时,并不是设定各种语法和翻译规则。而是利用Google数据库中收集的所有用户的用词习惯进行比较推荐。Google检查所有用户的写作习惯,将最常用、出现频率最高的翻译方式推荐给用户。在这一过程中,计算机可以并不了解问题的逻辑,但是当用户行为的记录数据越来越多时,计算机就可以在不了解问题逻辑的情况之下,提供最为可靠的结果。可见,海量数据和处理这些数据的分析工具,为理解世界提供了一条完整的新途径。

第三、由于能够处理多种数据结构,大数据能够在最大程度上利用互联网上记录的人类行为数据进行分析。大数据出现之前,计算机所能够处理的数据都需要前期进行结构化处理,并记录在相应的数据库中。但大数据技术对于数据的结构的要求大大降低,互联网上人们留下的社交信息、地理位置信息、行为习惯信息、偏好信息等各种维度的信息都可以实时处理,立体完整地勾勒出每一个个体的各种特征。

在大数据领域发展较早也做的比较好的算是八爪鱼采集器了。

大数据具有的四大特征如下:

一、海量的数据规模:

大数据相较于传统数据最大的区别就是海量的数据规模,这种规模大到“在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合”。

就商业WiFi企业所拥有的数据而言,即便整合一个商场或者商业中心所采集到的数据也很难达到这种“超出范围”的数据量

更不要说少有WiFi企业可以做到布点一整个商业中心,现在多数的商业WiFi企业还是处于小规模发展阶段,所得到的数据多是某一个门店或者单独营业个体的数据,并不能称之为大数据。

所以要想收集海量的数据,就目前的行业发展态势而言,最佳的选择是企业合作,通过合作,集合多家企业的数据,填补数据空白区域,增加数据量,真正意义上实现大数据到大数据的跨步。

第二、快速的数据流转:

数据也是具有时效性的,采集到的大数据如果不经过流转,最终只会过期报废。尤其是对于商业WiFi企业来说,大多数商业WiFi企业采集到的数据都是在一些用户的商业行为,这些行为往往具备时效性.

例如,采集到某位用户天在服装商场的消费行为轨迹,如果不能做到这些数据的快速流转、及时分析,那么本次所采集到的数据可能便失去了价值,因为这位用户不会每一天都在买衣服。快速流转的数据就像是不断流动的水,只有不断流转才能保证大数据的新鲜和价值。

第三、多样的数据类型:

大数据的第三特征就是数据类型的多样性,首先用户是一个复杂的个体,单一的行为数据是不足以描述用户的。目前WiFi行业对大数据的使用多是通过分析用户轨迹,了解用户的行为习惯,由此进行用户画像,从而实现精确推送。

但是单一的类型的数据并不足以实现用户画像,例如,笔者之前了解过一些企业可通过用户某一段时间的在某一区域内的饮食数据,并由此在用户进入这一区域的时候推送相关信息

但是这一信息只是单纯的分析了用户一段时间的饮食数据,并没有考虑到用户现阶段的身体状况、个人需求和经济承受能力等等,所以这种推送的转化率也就可想而知。

第四、价值密度低:

大数据本身拥有海量的信息,这种信息从采集到变现不要一个重要的过程分析,只有通过分析才能实现大数据从数据到价值的转变

但是众所周知,大数据虽然拥有海量的信息,但是真正可用的数据可能只有很小一部分,从海量的数据中挑出一小部分数据本身就是各巨大的工作量,所以大数据的分析也常和云计算联系到一起。

只有集数十、数百或甚至数千的电脑分析能力于一身的云计算才能完成对海量数据的分析,而很遗憾的是,目前WiFi行业中的绝大部分企业并不具备云计算的能力。

以上四点,既是大数据的特征,也是影响WiFi行业大数据变现原因,这些因素对于大多数的WiFi企业来说很难单独解决,所以才需要全行业、甚至与多个行业的合作来完成。

当然大数据本身也是具有价值的,WiFi企业可以通过出售大数据变现,只是,相比于多方合作最获取的大数据价值而言,单纯的出售所得到的价值真的是太少了。

大数据的5V 特性包括:Volume(大量),Velocity(高速),Variety(多样),Value(低价值密度),Veracity(真实)。

Volume(大量):包括采集,存储,管理,分析的数据量很大,超出了传统数据库软件工具能力范围的海量数据集合。其计量单位至少是P(千T),E(百万T)或Z(十亿T)。

Velocity(高速):数据增长速度快,要求实时分析与数据处理及丢弃,而非事后批处理。这是大数据区别于传统数据挖掘的地方。

Variety(多样):数据种类和来源多样性,包括不同种类的数据,比如文本图像音频视频定位等,以及各种结构化,半结构化,非结构化数据,不连贯的语义或句意。据调查,企业数据中80% 为非结构化数据。这对数据处理能力提出了更高的要求。集合了数学,心理学,神经生理学与生物学的机器学习在数据挖掘,自然语言处理,搜索引擎,医学诊断方面不断寻求突破。以期将人脑的智慧与机器的威力相结合,勾划一片混沌之中的清明。

Value(低价值密度):海量信息中的价值密度相对较低,如何在大数据中条分缕析披沙拣金,进行分析预测,找到数据的意义和价值所在,是机器学习和人工智能努力的方向。单位数据的价值低,如同蚂蚁,但聚合后的大数据却是蚁兵,战斗力惊人。

Veracity(真实性) : 指大数据的质量,大数据的内容是与真实世界息息相关的,真实不一定代表准确,但一定不是虚假数据,这也是数据分析的基础。基于真实的交易与行为产生的数据,才有意义,如何Mock数据,是一个话题。如何识别造假数据,更是值得研究的领域。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9959750.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存