大数据以大为本 数据挖掘技术能否“算命”?

大数据以大为本 数据挖掘技术能否“算命”?,第1张

  BAT虽然在数据量上占据优势,但却在丰富性上受到局限,甚至并不具备垂直领域UGC所具备的大数据能力。中小企业则可以充分利用自己在垂直领域里深耕的优势,将数据的丰富性提升上来,从而获得差异性的优势。

大数据以大为本 数据挖掘技术能否“算命”?

  大数据的门槛

  “如果你只有一堆人的电话号码,这可能没多大意义。但像携程的数据,比如所有人提前预订、搜索、浏览、点评的信息等,这就是有价值的。但更深层的核心是,你能不能在某个产品上使用到这些数据,而且确实有帮助。”众荟数据智能事业部总经理焦宇说。

  美团云大数据平台负责人对此表示认同,“首先要弄清楚拥有的数据是否有价值,是否有人愿意为其买单。另外则是源数据的丰富度,是否能够为数据价值的发挥带来补充和完善”。

  显然,数据收集的目的并不单单是把数据集中起来,最终还是要在实际运营中发挥作用。拥有数据只是开端,如何深入分析、洞察数据彼此之间的关联,才是大数据应用的关键,这也是众多手握大数据企业的分水岭。

  不过,在这个过程中,有一个不容忽视的问题,那就是数据的质量问题。“错误的输入,换来的必然是错误的输出”,蚂蜂窝大数据技术总监韩鑫在接受采访时就特别指出了这个问题。

  “真正决定数据挖掘成败的是数据本身的质量,对于算法的合理使用和优化反而是次要的。由于大数据的兴起,我们很容易获得庞杂的数据;然而单纯地指望从高深的算法中去获得我们想要的信息而忽视数据本身的质量,往往只能是空中楼阁。”

  对大数据而言,表面上看数据是越多越好,因为更多的数据可以产生更能拟合真实情况的场景,但同时更多的数据也产生了更多的噪音——所以单纯的数据的量的增加并不能提高计算的精准度。

  因而拥有高质量的数据,要远比握有一堆庞杂的数据更有价值:这样既能减少数据挖掘的难度,也有利于提高数据挖掘的精度。但是,这就是大数据的核心门槛吗?

  韩鑫认为:“建立完整的大数据体系还需要两个重要的因素,业务的丰富程度和数据思维的融入。”

  焦宇从自己的实践经验出发,谈了自己的看法:“对一个特别好的产品经理来讲,大数据的门槛首先是要理解这个东西到底是什么;第二建模能力要强。从这两方面说,人才相对都是稀缺的。比如有些公司是有大数据的,但要找到很牛的人来做这件事情,虽然理论上讲是可以随时找到的,但事实上却很难。”

  “第一个是大数据。第二个方面,有人把数据比喻成‘石油’,有石油宝藏还得有机器、工具把它挖出来,这个工具就是机器学习。第三方面是计算能力的进步。工具再强,没有非常强的计算能力,还是跑不动的。”滴滴研究院院长何晓飞则给出了这样的答案。
 

  数据挖掘的难点

  数据挖掘,不像收集数据填几张表,问几个问题就能轻松实现。它的专业性相对较高,运用的知识、技术难度也明显加大。因而大多数的数据挖掘基本是由专业人士或专业团队来做的。

  另外,建模的成功与否,对数据呈现的结果也有非常重要的影响。模型不同,结果也往往会出现差异。

  “任何人都能搭出来一个模型,只要搭出模型就能有结果,但这个结果是不是反映真实世界?因为数据之间的关系,并不是直接的线性关系,因此模型可以非常复杂。所以你先得知道你要解决的是个什么问题:从统计上来讲,是哪种类型的问题,它有什么样的特性,你在数据上的采集有什么局限?然后再找到跟这个问题最接近的模型。”焦宇说。

  “数据挖掘的难点在于,主要数据收集和最终应用之间的相互关联却又矛盾的关系,这类似于‘先有鸡还是先有蛋’的问题。两者之间相互影响相互补充,导致其相对其他类别的程序开发而言,是更为漫长而又复杂的过程。” 韩鑫说道。

  无论是焦宇所说的模型,还是韩鑫所说的算法,其实都在强调一个重点:根据实际情况变化对模型和算法做出相应的调整。没有固定的规则,只有时时更新的数据和不断变化的情况,所以运用的规则也要因时调整。

  美团云大数据平台负责人则认为,如何拿到“规范的数据”才是真正的难点所在:“新美大每天产生p级别的数据,包括大量的商户、用户和交互数据;每天通过hadoop、hive、spark、storm等大数据工具进行批量和实时的清洗,才得以形成规范的数据。”

  然而,也许最难的一点还是在于那个最实际的问题。技术快速发展,提供了像应用统计方法、事例推理、决策树、规则推理、模糊集、神经网络遗传算法等诸多方法来处理信息,这既降低了数据挖掘的难点,同时也提高了数据挖掘的效率和精准度——但所有的这些,都需要不菲的资金。

  许多人可能都听说过那些使用大数据的辉煌案例:Facebook每天要存储大约100TB的用户数据;NASA每天要处理约24TB的数据。那么处理这些数据所需的成本是多少呢?

  按照亚马逊Redshift的定价,NASA需要为45天数据存储服务支付超过100万美元。而根据国外的一项调查,大多数企业的CIO称他们的预算支付不起大数据部署的成本,数据存储和处理的成本实在太高。
 

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/2699404.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-08-16
下一篇 2022-08-16

发表评论

登录后才能评论

评论列表(0条)

保存