今天给大家分享三个数据分析的经典案例,主要是学习其中的思路,当故事看吧,不要拘泥于文中故事的真实性。每个故事我简单的做一个点评吧
1、数据分析大神 高手在民间
这天,新上任的邢县长到小吃摊吃早餐,刚找个板凳坐下,就听炸油条的胡老头一边忙活一边唠叨:“大家吃好喝好哦,城管要来撵摊儿了,起码三天你们捞不着吃咱炸的油条了!”
邢县长心里一惊:省卫生厅领导最近要来视察,昨天下午县里才决定明后两天开展突击整治,这老头儿怎么今天一早就知道了?
哪料这件事还没弄明白,另一件事儿让县长脑袋里的问号更大了。一天,他照例到胡老头这儿吃油条。没想到,老头居然又在发布消息:“上面马上要来青天大老爷了!谁有什么冤假,就去县府宾馆等着吧!”
邢县长又是吃惊,又是恼怒。省高院的工作组星期三要来清查积案,这个消息昨天晚上才在常委会上传达,这老儿咋这么快就知道了呢?让他更吃惊的是,这老家伙不但对大领导们的行程了如指掌,就连派出所要突击检查娱乐场所这样的绝密行动,他都知道得清清楚楚。
一个大字不识的老头儿,居然能知道这么多政府内部消息,毫无疑问,定是某些政府工作人员保密意识太差,嘴巴不紧。于是,他立即召开会议,把那些局长、主任狠批了一通。与会领导个个低着头、不敢出声。
还是公安局长胆大,忍不住问道:“邢县长,这胡老头儿的事是您亲眼所见,还是道听途说来的?”
邢县长声色俱厉地一拍桌子:“都是我亲耳听到的!我问你,你们城关派出所今天晚上是不是要清查娱乐城?”
公安局长一脸尴尬,楞在那里。邢县长气恼地当即下令:“你亲自去查查这老头儿到底什么背景,明天向我汇报!”公安局长赶紧换上便装,立马跑到胡老头那儿进行暗访。没想到,老家伙正在向大伙儿发布新闻:“城关镇的镇长最近要倒霉了。大伙等着瞧,事儿不会小的……”
公安局长一听,很是诧异。于是,他运了口气,腆着笑脸,装傻卖呆似的问道:“你咋知道的?难道你儿子是纪委书记?”
胡老头呵呵一笑:“我咋知道的?那孙子以前吃我的油条,都是让司机开专车来买,这两天一反常态,竟然自己步行来吃,还老是一脸愁容。那年他爹死,都没见他那么难受过。能让那孙子比死了爹还难受的事,除了丢官儿,还能是啥?”
局长听了,暗自吃惊,这老头儿还真有两下子。于是他不动声色继续问道:“那昨天派出所清查娱乐城,你是咋知道的?”
胡老头又是一笑:“你没见那几家娱乐城一大早就挂出了停业修缮的牌子?人家有眼线,消息比咱灵通!”
“那卫生厅领导来视察,你是咋知道的?”
胡老头儿说:“除了上面来人检查,你啥时见洒水车出来过?”。
最后,局长问了个他最想不通的问题:“上次省高院的工作组来指导工作,你咋那么快就得到消息了呢?”
胡老头撇了撇嘴说:“那就更简单了。俺邻居家有个案子,法院拖了八年不办。那天,办案的法官突然主动来访,满脸笑容问长问短,还再三保证案子马上解决。这不明摆着上面来了人,怕他们上访嘛!”
局长佩服得五体投地,连忙一路小跑赶回去,把情况向邢县长汇报。县长听了,大动肝火,马上再次召开会议,做了四个小时的训话:“同志们,一个炸油条的都能从一些简单现象中,看出我们的工作动向,这说明了什么?说明我们存在太多的形式主义。这种恶习不改,怎么能提升政府形象?从今天开始,哪个部门再因为这种原因泄密,让那老头‘未卜先知’,我可就不客气!”
次日一早,邢县长又来到胡老头儿这儿吃油条,想验证一下开会的效果。没想到胡老头居然又在发布最新消息:“今天,上面要来大领导了,来的还不止一个!”
邢县长这一惊,真是非同小可。下午,市长要陪同省领导来检查工作,自己昨晚才接到通知,这老头咋又提前知道了?
邢县长强压怒火,问胡老头:“你说要来大领导,到底有多大呢?”
胡老头儿头也不抬地回答:“反正比县长还大!”
邢县长又问:“你说要来的不止一个,能说个准数吗,到底来几个?”
胡老头儿仰起头想了想,确定地回答:“四个!”
邢县长目瞪口呆,上级领导还真是要来四个!他心里怦怦直跳,又问:“胡……胡师傅,这些事儿你是怎么知道的?而且知道的这么准确。”
胡老头儿淡淡一笑:“这还不容易?我早上出摊儿,见县府宾馆的保安都戴上了白手套,一个个如临大敌,肯定是上面来人了。再看看停车场,书记、县长的车都停在了角落里,肯定是来了比他们大的官儿。再仔细看看,书记、县长停的车位是5号、6号,说明上面来了四个领导。你信不信?当官儿的和咱老百姓不一样,上厕所都要讲究个级别、排个先后顺序呢!”
邢县长听罢,张着塞满油条的大嘴,一动不动,好像僵化了似的…
(本故事来自于网络)
启示:
与其说高手来自于民间,还不如说生活是我们数据分析的基本素材,善于观察、善于整理关联信息才是我们做数据分析人员应该掌握的基本技能。可是啊,很多人忽略了我们身边的生活常识,不去思考,人云亦云,就像网上的这个全国离婚率排行榜数据,很多人首先不是思考数据的准确性,而是感叹世风日下。
想想吧,在你的生活圈子中,每3对夫妻就有1对离婚的吗?如果答案为“是”,我只能说,贵圈真乱!哈哈哈
2、林彪的数据挖掘本领
1948年辽沈战役开始之后,在东北野战军前线指挥所里面,每天深夜都要进行例常的“每日军情汇报”:由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。
那几乎是重复着千篇一律的枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少、q支、物资多少….
司令员林彪的要求很细,俘虏要分清军官和士兵,缴获的q支,要统计出机q、长q、短q;击毁和缴获尚能使用的汽车,也要分出大小和类别。
经过一天紧张的战斗指挥工作,人们都非常疲劳。整个作战室里面估计只有定下这个规矩的司令员林彪本人、还有那个读电报的倒霉参谋在用心留意。
1948年10月14日,东北野战军以迅雷不及掩耳之势,仅用了30小时就攻克了对手原以为可以长期坚守的锦州并全歼了守敌十余万之后,不顾疲劳,挥师北上与从沈阳出援的敌精锐廖耀湘基团二十余万在辽西相遇,一时间形成了混战。战局瞬息万变,谁胜谁负实难预料。
在大战紧急中,林彪无论有多忙,仍然坚持每晚必作的“功课”。一天深夜,值班参谋正在读着下面某师上报的其下属部队的战报。说他们下面的部队碰到了一个不大的遭遇战,歼敌部分、其余逃走。与其它之前所读的战报看上去并无明显异样,值班参谋就这样读着读着,林彪突然叫了一声“停!”他的眼里闪出了光芒,问:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”
大家带着睡意的脸上出现了茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:
“为什么那里缴获的短q与长q的比例比其它战斗略高”?
“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高”?
“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高”?
人们还没有来得及思索,等不及的林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”
随后林彪口授命令,追击从胡家窝棚逃走的那部分敌人,并坚决把他们打掉。各部队要采取分割包围的办法,把失去指挥中枢后会变得混乱的几十万敌军切成小块,逐一歼灭。司令员的命令随着无线电波发向了参战的各部队….
而此时的廖耀湘,正庆幸自己刚刚从偶然的一场遭遇战中安全脱身并与自己的另外一支部队汇合。他来不及休息就急于指令各部队尽快调整部署,为下一阶段作准备。可是好景不长,紧追而来的解放军迅速把他的新指挥部团团围住,拼命攻击,漫山遍野的解放军战士中,不断有人喊着:“矮胖子,白净脸;金丝眼镜湖南腔,不要放走廖耀湘!”
把对方指挥官的细节特征琢磨到如此细微,并变成如此威力巨大的顺口溜,穿着满身油渍伙夫服装的廖耀湘只好从俘虏群中站出来,无奈的说“我是廖耀湘”,沮丧的举手投降。
廖耀湘对自己静心隐蔽的精悍野战司令部那么快就被发现、打掉,觉得实在不可思议,认为那是一个偶然事件,输得不甘心。当他得知林彪是如何得出判断之后,这位出身黄埔军校并留学法国著名的圣西尔军校,参加过滇缅战役,在那里把日本鬼子揍得满地乱爬的新六军军长说,“我服了,败在他手下,不丢人。”
取得这场重要战役胜利的其中一个关键因素,居然出于获胜方的统帅夜半时分,对一份普通遭遇战之后的战报的数据分析,来源于他“从红军带兵时起,身上有个小本子,上面记载着每次战斗的缴获、歼敌数量”的优良军事素养。
(本故事来源于黄勇-丰沃华的博客)
启示:
林彪问的三个问题其实就是根据自己的数据库做的对比、细分、溯源。我们很多人把数据分析完全交给机器了,忘了我们自己的大脑也是一台紧密的数据分析机器。
数据的积累、数据的挖掘,分析、归纳、整理,是数据分析师所必须俱备的基本素养,没有它,你永远是匹夫之勇。
3、蛋挞与曼城队
2011年夏天,曼城队助理教练大卫·普拉特决定利用数据分析来解决球队在表现方面遇到的一个棘手难题。普拉特发现,尽管球队阵容中拥有多名高大强壮的球员,但他们的角球得分情况却不尽如人意。
在征求了俱乐部内部数据分析师的意见后,该队增加了对内旋角球(球转向守门员方向)的使用。战术转变产生了惊人的效果。在整个赛季中,曼城队依靠角球打入15个进球,成为英超角球得分效率最高的球队,其中2/3的进球采用的是内旋角球。
这一实践为数据驱动型决策提供了强有力的支撑。但是,还有一个附加因素需要考虑:主教练曼奇尼最初对数据的实际价值持怀疑态度。事实上,早在两年前,曼奇尼曾就球队角球的使用情况咨询过俱乐部的数据分析师。分析师回应,他依靠直觉偏爱采用的战术——外旋角球(球飞向远离守门员的方向)从数据统计上看并不理想。
曼奇尼选择相信自己的直觉而非数据分析的导向性建议。因为直觉告诉他,球旋向远离门将的方向减小了门将触球的概率,同时增加了进攻队员冲顶时争到头球的概率。但当曼奇尼发现两种变数存在某种联系的时候,直觉却模糊了他对两者关联程度的判断能力。换句话说,外旋角球和进球数可能存在着某种关联,但数据表明,内旋角球和进球数存在着更为直接的因果关系。
这一案例研究为我们改善商业决策带来哪些启示?一家美国零售商最近发现,两种不同变数之间存在着某种有趣的联系。当天气变冷,肉桂葡式蛋挞的销量上升500%——并非所有的葡式蛋挞,只是肉桂这一个品种。面对这种零星数据,零售商要做出抉择。每当预测天气即将转冷时,应该储备多少肉桂葡式蛋挞?还有一家零售商发现,羊奶干酪打折似乎能促进红酒的销售。希望减小红酒库存的时候,是不是应考虑羊奶干酪打折这种方法?
这两个问题的答案取决于大数据分析的核心问题:弄清相关性与因果关系之间的区别。人类善于发现事物的相关性——这是进化的特征——但是却在发掘直接相关事物的关系时显得有些笨拙。将相关性误解为因果关系所做出的决策是危险的,可能会遭受惨败,因为你所期待看到的影响可能并不会发生。
最近的一项研究显示,某国的巧克力销量与诺贝尔奖的人均比例之间呈现明显的相关性。各国是不是都该鼓励公民增加巧克力的消费来提高获得诺贝尔奖的人数呢?
为有效利用大数据,相关性分析应仅作为一个出发点去考虑。如果两个变量存在关联,我们该如何应对?当然,政府在推行“巧克力替代教育”的政策之前,应当首先考虑一下其他因素。比方说,看看那些获得诺贝尔奖人数较多的国家相对教育水平和研究预算,与巧克力消费相比,这两个变量与获诺奖的因果关系显然更大。
同样,那些葡式蛋挞和羊奶干酪的零售商们在拥有十足把握以前,需要对他们的假设进行验证。比如说,在确定因果关系存在以前,考察一些商店肉桂葡式蛋挞的“库存积压”情况;或者采取打折销售羊奶干酪的方式,看看红酒销量是否真的增加。
事物之间可能存在着一些简单的因果关系,但公司需要清楚每种因果关系都可能产生意想不到的结果。肉桂葡式蛋挞销量的增加是否意味着其他产品销量的减少?红酒销量的增加是否也意味着啤酒销量的减少或者牛排销量的增加?影响现代供应链的因素很多,而且还在不断增加:天气、社交媒体、特价商品、食品安全新闻等,都会影响消费者的行为,以及零售商应该购置多大规模的存货。这基本上就是一个混沌系统,完全准确地预测将来要发生的事情是不可能的。但模型越完善,预测就越准确,预测越准确,行动结果就越理想。
数据分析就像一幅印象派油画。当你退后观察,并把各个部分视作一个整体时,这幅画的意境才开始浮现,近距离观察是无法理解其中内涵的。这可以帮助我们解释为什么曼城队的新角球战术不太可能会长久取得良好的结果。实施从外旋角球到内旋角球的简单战术转变:多开点内旋球,少开点外旋球,这一简单的战术转变,亦会忽略了每场比赛中每次出现破门机会时的某些独特变数。
(这部分来源:商业价值)
结尾:
很多人把数据分析看的很难,其实数据分析存在于我们生活工作的每个角落。给大家几条建议:
1、多观察、善积累、勤思考。
2、不懂业务就不要做数据分析。
3、分析工具不要贪多,精通1-2个工具就行了。
4、数据分析是良心工程(自己理解)
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。
第一,数据体量巨大。从TB级别,跃升到PB级别。
第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)