微博截图引用
中国女排夺冠与贝利预测之间是一种怎样的关系呢?答:这种关系叫相关性,而并非因果性。但我们在现实生活中,常常有许多人把相关性弄成因果性。 一件事情比另一件事情先发生,或者两者同时发生,并不说明这两件事情之间有因果关系,可能这两件事有共同的起因,或者只是巧合发生在一起。 比如: (1)公鸡一打鸣,天就亮了,天是公鸡叫亮的; (2)这个村子里的人每天都要吃红薯,他们的平均年龄活到85岁以上,所以吃红薯是可以长寿的; (3)学校的学生这学期开始使用新的红颜色的校车接送,结果期终考试学生们的考试平均分数也进步了2.5分,看来红颜色的校车是可以提高学生们的考试成绩。 而其实在逻辑上,相关性≠因果性。要满足逻辑上的因果关系必须满足两个前提: (1)时间上的先后关系,因在先,果在后; (2)过程与结果上的导致与被导致关系,过程导致结果。 往往把相关性看出因果性的谬误就是没有同时具备以上两点。 我们来看一个案例: 据统计,80%的交通事故出现在离家方圆5公里的地方,所以结论:离家越近,交通事故越多。得出这个结论,从数据分析的相关性来说,没有任何问题。但真的符合真相吗?真的符合逻辑吗? 真相是:人类的绝大多数外出活动是在离家方圆5公里的区域内完成。总结:数据正确不代表逻辑合理,因为相关性不代表因果性。 我们再来看一个关于嘀嘀打车的案例: 【北京交通委:拥堵加剧与网约车出现时间吻合】北京市交通委近两年的拥堵指数显示,从2014年8月份以来,拥堵指数较上半年大幅增加,这一时间与当时滴滴专车在北京大规模出现的时间吻合,而2015年6月份,交通拥堵指数又同比上升了31.5%,这与滴滴快车在北京出现的时间相吻合。】
微博截图引用
“拥堵加剧与网约车出现时间吻合”,是否可以证明“嘀嘀专车的出现导致加剧来了北京的拥堵”?前者是相关性,后者是因果性。相关性只要数据统计合理就OK,但成为因果性却必须要有足够的逻辑支撑。 随着电脑化的时代来临,尤其是智能手机的出现,人类的活动越来越痕迹化,人们的衣食住行都可以通过智能系统捕捉,并且发现其中的规律。这就是我们当下这个时代,很热火的一个词:“大数据”。 大数据是个好东西!对于优化人们的生活,提高社会的效率,捕捉隐藏的商机起到极为重要的作用。大数据时代,通过大量数据分析,直接得到结果,引入信息越多,渠道越大,速度越快,正确性越高。 但与此同时,我们也可以发现,大数据是基于将统计学的原理运用到生活中,也使我们产生很多偏见与谬误,最常见的就是由传统时代的依靠因果逻辑确定事物之间的关系,转向由相关性判定事物的关系,往往容易将事物的相关性定性为因果性。 通常大数据分析出的结果与因素之间的关系都是相关性,不是因果关系,除非是经过非常标准的测试证实了因果联系的存在。许多大数据公司的常见思维:要全体不要抽样,要效率不要精确,要相关不要因果。 举例: (1)手机开机时间越长,工资越高?有调查显示,每天使用手机时间的长短和我们的工资水平有着微妙的关联:一般开机时间越长工资越高。但是注意:千万不要得出手机开机时间越长,工资就一定高的奇怪结论哦; (2)有数据显示,做过预防性阑尾、扁桃体切的女性怀孕率相对更高。但是注意:千万不能得出女性通过做预防性阑尾、扁桃体切除,就可以提高怀孕率这样的奇怪结论哦。
微博截图引用
(3)根据华尔街统计:每天睡4小时的人,年薪基本在400万以上,以此为基础,多睡1小时,薪水就要除以4。 但是注意:千万不要得出少睡觉就能薪水高的奇怪结论哦。
微博截图引用
在我们的生活中,相关性成为因果性的谬误有很大的隐蔽性与欺骗性,因为往往数据是正确的,并且相互是有关联的,往往很容易误导成为因果性。比如典型的股评,为了要说明股市的涨跌关系,弄上数据没问题的几个图、表,再结合一些看上去高大上的GDP、杠杠、汇率、M2、拐点、价格泡沫等等诸如此类的宏观分析,于是往往就顺理成章的忽悠了。 最后,讲个笑话。有人统计了我国神州飞船与股市的关系。
微博截图引用
相关性≠因果性!你中过枪吗? |
Powered by Discuz! X3.5
© 2001-2026 Discuz! Team.