对于这些概念,Cathy和我在很长一段时间里都感到迷茫,直到我们俩相识。我们一般会在星期三共进早餐,每当谈起这种现象,都有一种不安的感觉,总觉得在这喧嚣背后确然有一股新潮流在涌现,这股潮流或许是意义深远的,代表着我们整个文化范式在数据的影响下都会产生深刻的改变。Cathy和我都是干这行的,觉得应该发挥我们的强项,去探索这些现象背后的原因,而不是置之不理。
在深入探索之前,我们有必要先介绍一下媒体所炒作的大数据时代,也许你和我们一样,也认为那些概念难以理解、语焉不详。然后,本章会进一步讲解我们是如何拨开迷雾发现背后的真相,以至于Rachel决定在哥伦比亚大学开设数据科学导论课程,而Cathy则在她的博客上同步记录该课程的内容,乃至上述所有内容终于结集成书送到你手中。
1.1 大数据和数据科学的喧嚣
让我们抛开炒作,因为很多人可能和我们一样,都对数据科学心存怀疑。之所以一上来就讲这些,是想让你知道:我们也和你一样!假如你也心存疑虑,说明你也很可能会贡献一份力量,推动数据科学的健康发展,使其对社会产生积极的影响,也使数据科学这门学科趋于正统,在众多学科中能占有一席之地。
让我们先来细数大数据和数据科学之所以这样让人如坠云里雾里的原因。
1. 大多数基本的术语都缺乏严格定义。究竟什么是大数据?数据科学又是什么意思?大数据和数据科学之间有什么关系?数据科学就是关于大数据的科学吗?只有像谷歌和Facebook这样的高科技企业才用得到数据科学吗?为什么有人认为大数据是一个交叉学科(比如天文学、金融学、科技等),但数据科学却只是科技界的事儿?大数据,多大才是大?这些术语及概念如此含混不清,简直毫无意义。
2. 对于数据科学领域的研究者,不管是在学术界还是工业界,公众都缺乏敬意。事实上,他们在这一领域内辛勤工作了很多年,而这些工作是继承了各个领域的前辈们数十年甚至数百年的工作成果,这些领域包括统计学、计算机科学、数学、工程学以及其他学科。而媒体传播给公众的信息却是这样的:机器学习算法是上个礼拜才发明出来的,谷歌出现之前都不存在所谓的大数据。这简直荒谬,很多正在使用的方法和技术,还有我们面临的挑战,都不过是在过去已有的方法、技术和挑战上演变而来的。我们并不否认新事物和新技术的出现,只是觉得应该对历史和前人的研究成果保持必要的敬意。
3. 媒体疯了。人们将各种各样的桂冠加诸数据科学家的头上,人们形容他们是掌握了宇宙奥秘的魔法师,其疯狂程度堪比金融危机之前。天花乱坠的宣传很容易掩盖真相、歪曲事实。这些宣传的噪声越多,真正有效的信息就越少。因此,若“大数据”被媒体吹得越久,公众越容易被误导,越难获知这一概念背后真正有益于社会的一面(如果有的话)。
4. 统计学家觉得他们正在干的事就是数据科学。换句话说,这本来就是他们的饭碗。亲爱的读者们,请设身处地替统计学家们想想,有人抢自己的饭碗是什么感受。媒体也常常将数据科学轻描淡写为统计学和机器学习在科技界的简单应用。我们会在书中阐明,不是说将统计学和机器学习这些“旧酒”装进新瓶里,就叫作数据科学。它绝对有资格作为一个独立的学科存在。
5. 所有自称为科学的都不是真正的科学。这句话或许有些道理,但不代表数据科学这一术语毫无意义,它代表的可能不是科学,而是某种技术。
1.2 冲出迷雾
Rachel取得统计学博士学位到她在谷歌工作的这段经历,或许能帮我们解答一些疑惑,她说:
进入谷歌之后,我很快就意识到工作中用到的东西和我读统计学博士学位时学到的东西差别很大。并不是说我的统计学知识毫无用武之地,相反,我在学校学到的东西为我思考问题提供了一个框架,统计学的很多知识都为我的日常工作提供了坚实的理论和实践基础。
工作期间,我发现必须掌握很多在学校没学到的东西,比如计算、编程、数据可视化技能和许多领域知识。这种经验既特殊又普遍,我拥有统计背景,因此需要补充前面提到过的那些知识,而若换作一位计算机、社会学或者物理学背景的人,他们也需要根据自己的知识缺陷去补充相应的知识。每个人都拥有自己独特的知识结构,重要的是大家能够紧密合作,取长补短,组成一个团队去解决数据问题。
一般人对上述故事肯定会有这样一种想法:你走上工作岗位后就会发现,在学校学到的知识,远远不能满足实际工作的需要。因此,本书中教授的统计学知识与业界所应用的统计学方法,肯定也是不尽相同的。对此,我们有一些自己的看法。
为什么学校里的统计要和工业界的统计如此不同?为什么很多学校的课程要和现实如此脱节?
这种差异不仅存在于学校里的统计和工业界的统计之间。很多数据科学家的一个共同感受是,工作时他们需要接触更多的知识、方法论和工序(详见第2章),而这些东西都是以统计学和计算机科学为基础的。
抛却这些媒体给予数据科学的光环,只有一件事是实在的:数据科学是一个新生事物。它刚刚诞生,却被赋予了太多荣耀,使人们对其充满了很多不切实际的幻想,而幻想最终是会破灭的。我们要保护数据科学,过分吹捧可能会让这个新兴领域过早夭折。
Rachel决定去研究数据科学这一文化现象,她想了解其他人对数据科学的感受。她开始和谷歌的人接触,和很多创业公司和高科技公司的人接触,和大学(特别是统计系)里的老师们接触。
从这些接触中,Rachel觉得数据科学的轮廓渐渐清晰起来,她进一步深入,决定在哥伦比亚大学开设一门数据科学导论课程,与此同时Cathy在博客上连载了该课程的讲义。我们期望在这门课程结束时,我们和学生们能对数据科学的本质有一个清晰的理解。现在我们把课程的内容集结成书,也是希望帮助更多的人去了解数据科学。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)