数据驱动运营的一些思考

数据驱动运营的一些思考,第1张

20170210笔记

数据驱动运营

1、把有效的资源投放到高活跃的渠道,放弃低活跃用户,专注活跃用户,才能让产品更加健康的成长。

2、培养对数据的敏感度和判断力需要日积月累的对数据进行分析追踪及反思。

3、不考虑用户需求的设计都是耍流氓。(突然想到)

4、在刚开始最初的那一批用户进入的时候就开始做数据分析,因为你不能靠拍脑门的决策方式一直走下去。

5、数据驱动的基本框架与方法论:三个环节。首先有个idea迅速落地,然后进行产品验证,进行下一次闭环。

6、如果你无法衡量它,那么你就无法增长它!

辉说:blog.zhouzhanhui.com

位于休斯顿的乔治·布什国际机场领导层接到了有关乘客行李达到时间过长的投诉。因此他们把取行李处转移到了离出站口很远的地方。旅客于是把时间都花在了走路上——而不是等行李上,投诉量减少了,因为人们觉得拿行李的时间缩短了。

在这个由数据驱动的世界,你并不总能了解到底是什么在驱动数据。

在数据分析中,使用样本对总体进行估算是一个常用的手段。但你必须非常小心,因为哪怕很小的错误都会迅速放大 。因此有两类问题应引起重视。

外延有效性 ,即把从样品中得出的结论加以推广,从而得出对整个数据总体有意义的结论。

某期刊上有文章指出:“人类行为学家总是循环往复地在世界顶级期刊上发表有关人类心理、行为的概括性论断,而这些论断全都是从西方的、教育程度高的、工业化的、富有的、民主的(前五个词的英文首字母缩写为 weird ,意为怪诞)社会中抽样。”

数据合计的方式会掩饰重要的不同点。 例如以州为单位的合计数据使得得克萨斯州成为一个红色州,而以县为单位的合计数据使得得克萨斯州的一些县呈蓝色。

如果排除了一个数据值,导致结果产生了巨大的变化,那这个数据值很可能是 离群值 。在一个良好的统计模型中,应该能够任意排除一个数据,统计结果不会因之发生显著变化。

遗漏变量 :在一种关系中起作用,但是可能被忽视或者被排除掉的变量。遗漏变量是关联性不等于因果性的主要原因之一。

虚假变量

从星巴克旁边的房子价格高这个例子中,我们了解到两组变量之间存在关系。

“在过去,书籍和搜索引擎还没有发明之前,找出原因和影响对于我们的生存至关重要,”弗里德曼指出,“我们的大脑通过进化,变得善于寻找秩序、预测事情发展。我们无法控制这个过程——我们会处处寻找联系,即使联系并不存在。”......“我们脑中仿佛有这样的程序——揭示事件之间的联系,解读偶然事件,将其作为存在因果关系的证据,当某件事起因不明的时候,我们会自然而然想要填补这个空白,人为地加上原因。”

实证性偏见 是一种通过解读数据来支撑自己先入为主观念的倾向。在研究关联性和因果性的时候,实证性偏见是有些人忽略遗漏变量的一大原因,因为他们凭借先入为主的观念,而非基于真实的证据,把两件事时间的关联性当成了因果性。

显著性差异 是科学家和学者设定的客观标准,用来确定“从统计学角度来看”某个特定的关系是否存在于数据中。科学家通过检验显著性差异以辨别观察到的效应是否在数据中有所体现(存在很大可能性),或仅仅出于巧合。 (有一点很重要,即找到显著性差异并不能告诉我们某种关系是关联性的还是因果性的,同时也不能告诉我们是否存在遗漏变量影响着最终结果。)

显著性差异通常会用 P值 来衡量。P值越小,你观察到的结果仅仅出于巧合的概率就越低。衡量显著性差异时,普遍为人所接受的P值为 小于0.05(相当于5%可能性)

观察样本总会存在一定的不确定性。用统计学术语说,这种现象叫作 样本误差 。样本误差体现了你的样本有着多大的不确定性。样本误差之所以存在,是因为并非所有的样本都是相同的。哪怕你从同一个数据总体取了两个相同大小的样本,依然可能得到不同的结果。

置信区间 越大,区间内包含(整个数据总体中的)真实值的可能性越大。 置信水平 通常以百分数形式出现,表示样本包含真实值的概率有多大。

单单因为无法证明某事发生,并不意味着某事就没有发生。哪怕你没有听见(或看见)树林里有树倒下,树依然有可能倒下了。

一个关于世界地图的有趣例子说明歪曲数据的情况几乎出现在生活的方方面面!

麦卡托的世界地图专为一件事情而绘制:帮助船员更为准确地绘制航线。若船只在某一航线上没有改变航向,那么该航道就用直线表示,这种新颖的方法使得船长在运送货物时更加轻松自如。 对于麦卡托来说,这种绘图技术需要一定的技巧,因为船员在立体地球表面的航行路线不能自动地转化成平面地图上的直线。不过麦卡托做到了,并因此名利双收。 遗憾的是,新版地图在协助船员海上作业的同时,严重歪曲了全球陆地和国家的面积。船员为了获取直行航线要付出极大的代价,原因在于,麦卡托几乎歪曲了地图上所有陆地的面积。更糟糕的是,这种歪曲并不均衡:陆地距离赤道越远,歪曲程度越严重。

在麦卡托地图上,格陵兰岛看起来似乎和非洲一样大。然而,事实并非如此,二者实际上相差甚远。从面积上看,非洲面积几乎是格陵兰岛的14倍,然而非洲位于赤道(因此,歪曲程度较小),由于格陵兰岛大部分区域都在北极圈之内,所以,在麦卡托地图上,格陵兰岛的目测面积要比实际面积大得多。麦卡托地图缩小了非洲大陆实际面积,有意或者无意地影响了人们从地缘、历史、政治等层面看待陆地的思维方式……

增删文字也是常见的曲解数据的手法。例如

仔细玩味以下句子: 22%的鲨鱼攻击事件是致命的。 仅有22%的鲨鱼攻击事件是致命的。 加上“仅有”(only)一词,我们就不会很重视其后的数据——这是歪曲数据的另一手段。正如劳动局的统计员所阐释的,“仅有”一词激发了一种对某些与众不同的事物的不切实际的期待。

下面是一些直接摘自美国农业部的网站的参考资料:

因为这三种类型日期——三者都不是真正的保质期——人们很容易对隐藏在数据背后的含义困惑不解。实际上,根据美国自然资源保护委员会(NRDC)引自食品营销协会的研究结果来看,对日期的困惑“致使90%的美国人扔掉了本不该扔的食品”。

所谓“保质期”这一说法在小数据领域为人们上了精彩的一课,因为它阐明了解数据所代表的含义有多重要。食品制造商没有歪曲“保质期”,但是人们理解数据的方式则可能使很大一部分预算付诸东流。

摘樱桃法则 意味着你从数据中挑选吸引人眼球的例子来证明自己的观点,同时无视那些可能跟自己观点相悖的数据。

“摘樱桃”一词源于人们伸手从树上采摘樱桃这一肢体动作。[1]设想一下你在樱桃园里,站在梯子上,手里提着桶,为的是摘下满满一桶能够在市场上销售的樱桃。这样你会略去被碰伤或未成熟的那些,只摘下色泽最佳的装满整个桶。

假设有一家小餐馆,从中午到晚上都营业。某一天,餐馆老板每逢整点就数一下就餐人数,得出以下数据:

上午11点——2人

中午12点——25人

下午1点——30人

下午2点——3人

下午3点——0人

下午4点——2人

下午5点——28人

下午6点——35人

晚上7点——5人

晚上8点——3人

次日,一位有意盘下这家店的人来到店里,想了解一下生意怎样。“非常棒,”老板说道,“中午及晚上时间全部满员——队都排到门外面去了!”那人离开了,准备出高价盘下这家小餐馆。

过了一会儿,餐馆的房东走过来,告诉餐馆老板她要涨一倍房租。“您行行好吧!”老板说,“餐馆大部分时间连个人影都看不到!”

当然,两种说法百分之百都是真的——但也百分之百都对数据做了筛选。如果你只看中午、晚上就餐高峰期的数据,餐馆座无虚席;若你只看中午和晚上之间的时段,餐馆几乎空无一人。同样的数据——筛选出的不同的样本——也就带来了极其不同的结果。

记住:如果你在任意选择你想要的数据来支撑自身观点,那你可能就是在筛选数据。

预测建立在一个看似简单的问题之上:立足过去,我们能预知未来吗?只是这个问题一点都不简单。

预测误差跟抽样误差是两回事。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/8629419.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-19
下一篇 2023-04-19

发表评论

登录后才能评论

评论列表(0条)

保存