
随着互联网、物联网技术的普及,数据的易得性、跨越性提高,获得数据的成本大幅下降,“除了上帝,任何人都必须用数据说话”已延伸至社会的方方面面。现在,数据反而太多了,在没有专业指导的帮助下,我们难以从数据中获得有效信息并得出结论。虽说数据、统计、概率等存在有益的方面,但我们也要避免落入统计的陷阱,特别是当抽样数据不足或者过多时,我们不能被数据迷惑。一、数据的记录要基于现实的需求对于结果类数据来说,合适的记录周期选择是有利的。如对于想减肥的人来说,体重是减肥的结果数据。每过一小时就称一次体重显然太频繁了,一天一次可以接受。但如果理解了均值回归的含义,就会明白合理地记录体重的方法应该是一周一次。对于过程数据的记录,取决于测量记录数据的成本与收益。如跑步锻炼的人需要适时关注自己的心率—每跑500米就应该确认一下心率是否在想控制的范围内。同时,当心率超过了设置的上下限时,通过设备得到提醒也是必要的。还有一点需要注意,即如果我们急功近利,就有可能像幼儿园的孩子们那样,在幼儿园的劳动课中学会种萝卜后,等萝卜冒出嫩芽时便把芽拔出,看看萝卜是否长出来了。我们不能为了获得数据而造成难以挽回的损失。当然,随着计算和存储能力的快速扩张,已经出现另一种观念,即没有无用的数据,只是我们之前的算力不够,而不得不有所取舍。在大数据时代,当数据量足够大的时候,计算模型完善到一个节点时将会产生质的飞跃,这就是生成式人工智能快速发展的原因。一个算力有限的人,除非有一个生成式人工智能作为自己的助手,可以充分收集和分析各类数据,否则,在大多数情况下,这个人不需要太多的数据来左右自己的想法。仅记录需要的数据,以减少自己为此投入的精力和时间更现实。108◀第四章系统性思考二、幸存者偏差在数据统计中,最有可能出现的误区就是“幸存者偏差”了。为什么呢?因为那些没有幸存的,统计时已经看不到了—别说统计分析,连数据收集都很困难。因此,依据幸存下来的样本进行数据统计分析,不出现偏差才奇怪呢!幸存者偏差可以很好地解释为什么商业畅销书如此不靠谱。数年来,许多与经济及商业领域的成功企业和商界叱咤风云的人物相关的图书陆续出版,其中不少还是历久弥新的畅销书,而书中所展现的内容不都是幸存者吗?可想而知,这些书除了能告诉读者一些成功人士的“鲜为人知”的故事,以获得读者的青睐,能作为借鉴的知识实则不多。我们简单表述一下大致就清楚了。在如今这个人们对商学院趋之若鹜的时代,多少研究、多少资源,出于对利益的追求,都被集中到了这个领域,所谓成功企业策略论述多如牛毛。多年前,已经有人用管理的丛林来体现管理学知识的庞杂,何况是信息爆炸的现在。在大家都将这些奉为圭臬时,不要忘了,成功的依然是少数,他们只是少数的幸存者!天时、地利、人和,对于企业成功同样适用。在多数情况下,企业获得成功是赶上了大势,站在了风口上;而不成功的企业则各式各样。三、在商业领域外,幸存者偏差同样适用幸存者偏差中还有一个“蒙娜丽莎效应”,即最受欢迎的作品最幸运,指不可预测的事件会对成功产生很大的影响。达·芬奇的《蒙娜丽莎》是一幅名画,这毋庸置疑。但是它如此出名,则更多的是因为一次盗窃事件。该事件使全世界都关注这幅画,以至于名声大噪,为世人所熟知。也就是说,《蒙娜丽莎》成为世界上最著名的画作得益于一起不可预测的事件。你可能会认为《蒙娜丽莎》成为世界上最著名的画作得益于它的一些特点:画中之人的眼睛(不管你从什么角度看向她,她似乎都在回望你);神秘的微笑;其他面部特点(高额头和尖下巴,一个似乎很容易让人爱上的普通女人的形象)。但实际情况是,在卢浮宫展出这幅画的前114年的大部分时间里,109效率免费:管理需要知道的常识《蒙娜丽莎》只是诸多伟大画作中的一幅。它日复一日地挂在卢浮宫的墙壁上,并未从博物馆里的其他世界级艺术品中脱颖而出。1911年8月,《蒙娜丽莎》在卢浮宫失窃。这个消息很快成为世界各地报纸中的头条新闻。如果人们事先不知道《蒙娜丽莎》,他们会假装知道;如果人们对画作的丢失并不感到震惊,他们会假装震惊。“《蒙娜丽莎》怎么了”成为一种世界级的现象,因为媒体对这幅画作的关注度堪比它们对战争的关注度。一开始,警方怀疑是一个德国小男孩偷了这幅作品。这个小男孩曾多次参观博物馆,警方认为他可能痴迷于达·芬奇这幅画作中的女人,因此偷走了画。值得注意的是,人们对这个小男孩表现出了极大的同情。当时的一些思想领袖认为,这个小男孩如此热爱这幅画,他或许有权利得到它。调查还一度集中在美国银行界巨头J.P.摩根身上。许多法国人认为,只有他会厚颜无耻地做出独享《蒙娜丽莎》这件事。当人们发现该作品被盗窃时,摩根正在意大利度假,媒体对他穷追不舍。还有一段时间,警方的调查集中在包括巴勃罗·毕加索在内的一群艺术家身上。当时,毕加索领导着一群年轻的现代派艺术家。警方的线人发现,这个团体认同艺术家必须“弑父”,于是认为他们可能策划了这次盗窃,作为对文艺复兴时期艺术的最终“谋杀”。和大多数真实的犯罪案件一样,案件的真相不如传言般吸引人:卢浮宫的一名低级员工偷了这幅作品。在他把画偷走两年后,警方发现他试图将画卖给一家意大利的画廊。因此,警方抓到了这个笨手笨脚的罪犯。但是,不管这个案件的发展如何虎头蛇尾,《蒙娜丽莎》在这两年的时间里获得了前所未有的宣传。当这幅画重新回到卢浮宫时,人们蜂拥而至。一起看似随机的事件—一起没有人能预料到的盗窃案—将《蒙娜丽莎》从数幅备受赞誉的画作中挑选了出来,使其变成世界上最著名的画作之一。如果那起盗窃案从未发生,那么《蒙娜丽莎》可能会和卢浮宫中的诸多画作一样,被大多数来巴黎度假的游客匆匆观赏一下。110◀第四章系统性思考幸存者偏差只是由那些幸运儿的事被过多地关注引发的—当你明白了这一点后,就不要再被这种现象左右了。四、自选择偏差自选择偏差和幸存者偏差一样,有着明显的偏颇。不同的是,它是指我们在进行数据统计分析或寻找证据时,先入为主,有意或无意地寻找能够自我证明的证据,从而忽略了调查对象整体—此时的“幸存者”是自我选择的结果,而不是对事实的呈现。本书对克里斯托弗·查布里斯、丹尼尔·西蒙斯的《看不见的大猩猩:无处不在的6大错觉》[10]摘录如下—这6大错觉大致都可以被归为自选择偏差,无论这个选择是有意的还是无意的。1.注意错觉人们对于意料之外的事情经常是看不见的,人们的认知资源是有限的。这也是“看不见大猩猩试验”所呈现的结果。2.记忆错觉记忆真的没有我们想象的那么可靠;人们很难发现物体所发生的、意料之外的微小变化;人们有时会错误地把他人的信息当成自己的经历并存储在记忆里;当人们的信念、情感发生变化时,记忆也可能会发生变化;记忆并不是越清晰越可靠。3.自信错觉自信与能力实际上是两个完全不同的概念;过低的能力会带来过高的自信;自信错觉通常是在无意识状态下出现的,在看到有力证据时,这种错觉就会消失;只有对自己现有的水平有足够清醒的认识,才能使自信错觉带来的干扰最小化;人多时,力量并不大;敢于在别人面前承认自己并非全能绝对不是坏事。4.知识错觉“熟悉知识”与“掌握知识”不是一回事;人们喜欢关注比较容易理解的零碎信息,并由此认为自己已经全都掌握了,殊不知,那些被忽略的信息才是最关键、最重要的;信息并不是越多越有利。“喋喋不休”很容易带来知识错觉—虽然没有意义,却能误导人们的思路,让人们认为自己什么都明白了;人们如果能不断收到反111效率免费:管理需要知道的常识馈信息,就可以进行判断和校正,从而避免受到知识错觉的干扰;不要相信陷入知识错觉的专家,这会让你也陷入知识错觉。5.因果错觉人们有时会把碰巧发生的事情判断为相互间存在因果关系;人们有时会认识到一些根本不存在的事物;当两件事情同时发生时,人们倾向于推测是一件事情导致了另一件事情发生。“相关”并不等于“因果”;主试是否可以随机将被试按照实验的自变量进行分组,是判断科学实验结果是否具有一定参考价值的一个重要依据;人们总是认为先发生的事情是后发生的事情的导火索。6.潜能错觉“莫扎特效应”根本就不存在;如果为了提高某方面的认知能力,只能做最有针对性的训练,那么这个训练对于其他认知能力的提升几乎是没有帮助的;世界上没有真正的通才;有氧运动对于认知能力的提升是有帮助的。“莫扎特效应”是指听古典音乐对人的心理、生理、行为等方面产生积极影响。曾经有人尝试从心理学角度分析古典音乐对人的情感、认知、学习等方面的积极影响,通过听莫扎特的音乐激发人的潜能,最后证明这个效应是不存在的。五、证实性偏差在对相关性进行研究时,很容易出现证实性偏差。虽然分清楚相关性与因果关系比较难,但尝试区分它们是有必要的。即使是在因果关系中,通常也会由于观察与判断的角度不同,而出现因果倒置的现象。有很多企业人力资源管理的案例说明了员工的满意度与公司的绩效之间存在正相关,即员工满意度高的企业,其业绩好。而现实情况是,这可能是证实性偏差造成的。是不是更有可能,因为公司业绩好才能给予员工相应的激励,有更大的平台让员工发挥,让员工有成就感,所以员工的满意度高,而不是相反?至少我现在认为员工满意度与公司业绩之间的因果关系,不像我之前认定那样的是先有满意度后有业绩的,而是相辅相成的—它们之间互为因果。如今,这一判断得到了更多人的112◀第四章系统性思考认可,但为了避免落入自选择偏差的陷阱,我暂时就不下结论了。六、计算误差与蝴蝶效应计算中小位数误差的累计可能会带来大幅度的波动,意及常说的蝴蝶效应。蝴蝶效应不是指南美洲的一只蝴蝶扇动翅膀就会带来飓风,而是指气象计算机在基于正常模型进行计算时采用了四舍五入的方式,忽略了被舍弃的“小位数”。而这些小位数计算误差累积后,对计算结果造成了巨大的影响,致使气象学家忽略了或者说未能提前发现气象的极端变化。长尾现象,在电商快速发展后,再一次被观察到。《长尾理论》[11]也就应运而生了:长尾理论是网络时代兴起的一种新理论,指由于成本和效率的因素,当商品储存、流通、展示的场地和渠道足够宽阔、多元,商品生产成本急剧下降,以至于个人都可以进行生产,并且商品的销售成本急剧下降时,几乎任何以前看似需求极低的产品,只要有人卖,就会有人买。这些需求和销量不高的产品所占据的市场份额也可以变得和主流产品的市场份额相当了,甚至更大。七、尊重大概率在统计并估算概率时,需先尊重大概率,再计算小概率。现在我们以医学诊断判定概率为例。医学诊断是利用概率较多的领域。有概率就有误判,因此出现了假阳性、假阴性的误判问题。人的生老病死总会与医学相关,所以我们知道点医学诊断知识是有好处的。女性可以通过X光来检查自己是否有患乳腺癌的风险。X光的准确率在80%左右。同时,临床诊断怀疑女性患乳腺癌的概率与女性的年龄之间存在如下关系:•20~35岁乳腺癌患病率约为13.9%;•35~45岁约为28.8%;•45~55岁约为39.1%,这是发病的高峰期;•55岁以上为4%~16.6%;•60岁以上乳腺腺体萎缩,发病概率继续下降。113效率免费:管理需要知道的常识现在问题来了:一位30岁和一位40岁的女性,X光检查出她们的乳腺癌结果都为阳性,那么这两位女性罹患乳腺癌的概率分别是多少?依据尊重大概率原则,即使两人的检查结果都是阳性,且置信度均为80%,30岁女性罹患乳腺癌的概率实际上也只是40岁女性的一半。八、合成谬误合成谬误会导致人们在进行选择时,认为两个事件合并发生的可能性大于单一事件发生的可能性。我们只要稍加思考,就会意识到这是不对的。丹尼尔·卡尼曼和阿莫斯·特沃斯基设计的关于琳达的虚拟场景测试很好地说明了这个谬误。琳达是一名单身女性,31岁,个性爽朗,思维敏捷。她主修哲学,就读期间,她对种族歧视和社会公正问题高度关注,还曾参加过反核游行。现在问:“琳达与以下哪一类人更相似?”测试将下面的八个选项分成两组,每组受试者只能看到自己组的选项。第一组:(1)小学老师;(2)书店店员,平时喜欢练瑜伽;(3)热衷参加女权活动;(4)银行出纳。第二组:(1)从事精神病治疗的社会工作者;(2)妇女选民联盟的成员;(3)保险推销员;(4)热衷女权运动的银行出纳。结果显示,拿到第二组选项的人认为“琳达是一名热衷女权运动的银行出纳”的可能性较大,超过了拿到第一组选项的人对“琳达是一名银行出纳”的可能性判断。可是,从实际的概率来看,“琳达是一名银行出纳”的可能性高于“琳达是一名热衷女权运动的银行出纳”。可以看到,人们作出概率判断时依据的经验法则具有误导性,产生了合成谬误。合成谬误也被认为是代表性或易得性偏差所致。在股票市场中,也会存在合成谬误。比如,A上市公司持有B上市114◀第四章系统性思考公司的股份。经常出现的情况是,A上市公司持有B上市公司的股票价值,并不会体现在A上市公司的股票市值上。甚至会出现B上市公司估值高,以至于A上市公司持有的B上市公司的股票总额高于此时A上市公司市值的情况。显然,这是不合理的。九、费曼陷阱既然提到了费曼陷阱,自然就要说说理查德·费曼。理查德·费曼主要从事量子力学的路径积分表述、量子电动力学、过冷液氦的超流性以及粒子物理学中部分子模型的研究。他之所以举世闻名,是因为他的自传《别逗了,费曼先生》[12]。费曼于1939年从麻省理工学院本科毕业;1942年获得普林斯顿大学博士学位,同年参加“曼哈顿计划”;1945年进入康奈尔大学任教;1951年转入加州理工学院任教,其间的授课内容被整理编辑成《费曼物理学讲义》;1954年当选美国国家科学院院士;1965年获得诺贝尔物理学奖。在《费曼物理学讲义》的开头,费曼写道:假如由于某种大灾难,所有的科学知识都丢失了,只有一句话可传给下一代,那么怎样才能用最少的词汇来传达最多的信息呢?我相信这句话是原子的假设(或者说原子的事实,无论你愿意怎样称呼都行):所有的物体都是由原子构成的—这些原子是一些小小的粒子,它们一直不停地运动着,当彼此略微离开时相互吸引,当彼此过于挤紧时又相互排斥。只要稍微想一下,你就会发现,在这一句话中包含了大量的有关这个世界的信息。想想原子假设—这真的是近现代物理学的基础。同样,“费曼学习法”如今也广为流传。该方法包含四个步骤,可被简化为四个单词:概念(Concept)、回顾(Review)、简化(Simplify)、教给别人(Teach)。第一步:假装把知识教给一个孩子。想想你要学习的主题,如果要把它教给一个孩子,你会讲哪些?这里的教授对象不是那些聪明的成年朋友,而是一个8岁的孩子—他的词汇量和注意力刚好能够让他理解基本概念和关系。人们倾向于用复杂的词汇和专业术语来描述自己也不明白的东115效率免费:管理需要知道的常识西—这只是在糊弄,因为他们不知道自己也不明白。使用专业术语更像是在隐藏周围的人对自己的误解。如果我们自始至终都用孩子可以理解的简单语言写出一个想法(只用最常见的单词),促使孩子在更深层次上理解该知识,并简化观点之间的关系和联系,孩子就会清楚地知道自己不明白的地方。通常,他们会进入紧张的状态,这预示着学习的机会出现了。第二步:回顾。我们在第一步中会不可避免地卡住,发现无法解释重要的知识点或者不能将重要的概念联系起来。这段经历很宝贵,因为我们已经发现了自己知识领域的边缘。了解自己能力的界限也是一种能力,现在我们刚好确定了一个。现在我们已经知道自己在哪里卡住了,那么就回到开始的地方重新学习,直到可以用基本的语言(8岁的孩子可以听懂)解释这一概念。认定知识的界限会减少我们可能犯的错误,并且在我们应用该知识时提高成功的概率。第三步:将语言条理化,并简化。检查一下,以确保没有从原知识或概念中借用任何专业术语,而是用简单的语言组织了一个流畅的故事。如果这些解释不够简单,或者看起来比较混乱,就意味着想要让8岁的孩子理解该领域,还需要做一些工作。前文提到的马斯克的“第一性原理”便是基于此。第四步(可选):传授。如果真的想确保理解没什么问题,就把知识教给另一个人(理想状态下,这个人应该对这个话题知之甚少,或者就找一个8岁的孩子)。检测是否掌握知识的最终途径是看你是否有能力把它传授给另一个人。费曼学习法不仅是一种学习的好方法,还是一种探索知识的不同思维方式。它让你将想法分解再分解,并从头重组。这种学习方法使你对观点和概念有了更为深入的理解。更重要的是,用这种方法解决问题,可以使你在别人不知道他们自己在说什么的情况下理解其中的含义。费曼陷阱,也被称为神枪手谬误,即先打枪,再画靶。在统计学上,就是指只观察到了特征性的数据聚焦,而忽略了数据内在的随机性。116◀第四章系统性思考经常被宣传的所谓各类长寿村,就是费曼陷阱—当人们发现一个村里有较多长寿老人时,常常就认为这个村是长寿村,并予以宣传,同时去分析为什么这些老人会长寿。得到的原因不外乎洁净的空气、绿色的食品、悠然自得的生活方式。可是这个结论更多的时候并没有基于真实的基础数据,因为那些过早离世的人并没有被纳入统计。如今真实的数据告诉我们,在中国,经济越发达的城市,人均寿命越长。确切地说,是医疗水平与医疗保健水平决定了人的寿命。十、易得性偏差人总是很容易回忆起自己熟悉的事情,越容易想起来的事情,就越容易被认为是真实的存在。因此,在数据统计中,就会出现易得性偏差的问题。我们如何知道自己常常忘记过去产生的感觉?证据出自唐纳德·雷德迈尔和丹尼尔·卡尼曼所撰写的关于结肠镜检查实验的论文。对这个实验的大致描述如下。在病人A和病人B接受结肠镜检查的过程中,每分钟记录一次他们的疼痛程度—范围从0到10(我们称之为“当下效用”)。研究人员分别在第0分钟、第1分钟、第2分钟询问他们的疼痛程度,以此类推,直到结肠镜检查完成。检查完成后,研究人员得到了两名患者的疼痛程度表,从而能够一探结肠镜检查中他们每分钟的疼痛情况。对于病人A,他的疼痛程度在0到8间波动,持续了8分钟左右。他在检查快要结束时是最疼的,也就是说,当他的疼痛程度等于8时,研究人员快速结束了对他的检查。病人A在第6分钟时感受到的是程度为8的疼痛,在第7分钟时感受到的是程度为6的疼痛。对于病人B,他的疼痛程度也在0到8之间波动,但持续了25分钟。注意:病人B在前8分钟与病人A的疼痛感受是一致的,但随后他的疼痛在减弱。在第22分钟,他的疼痛程度为4,第23、第24分钟时他的疼痛程度为1。现在,有一个奇怪的问题:在这次检查中,谁经历了更多的疼痛?这个问题不难,答案很明显:病人B经历了更多的疼痛。病人B在前117效率免费:管理需要知道的常识8分钟的疼痛程度几乎和病人A一样,之后的17分钟也在不断经历着疼痛。无论怎么看,病人B的结肠镜检查都更为痛苦。为什么要问这个答案明显、很容易回答的问题?虽然掌握了病人在结肠镜检查期间的真实疼痛数据表,研究人员确定哪个病人的结肠镜检查比较痛苦是非常简单的,但对检查中的病人来说,如果没有这些数据,他们其实很难准确地回忆起当时糟糕的感觉。人们往往会忘记结肠镜检查到底有多痛苦。研究人员招募了一批需要进行结肠镜检查的病人,要求他们记录在检查过程中每一分钟的疼痛程度,形成了多个类似前文提到的当下效用表。但这篇论文真正的特别之处在于研究人员问的另外一个问题。在检查结束后,他们让每一个病人对刚结束的经历进行评价。研究人员要求病人将此次检查与其他痛苦的经历进行比较,并给检查的疼痛程度打分。我们称之为“记忆效用”。事情从这里开始变得有趣了。以刚刚提到的病人A和病人B为例。回想一下,病人B的当下效用表清楚地显示,他比病人A经历了更多的疼痛。但在两个人的回忆中,病人B对疼痛程度的打分比病人A的低。换句话说,经历了更多疼痛、疼痛时间更长的病人,回忆起过去的这段经历时,反而认为自己不那么疼。此外,当下效用和记忆效用之间的脱节不仅仅发生在病人A和病人B身上。雷德迈尔和卡尼曼的研究发现,大部分接受结肠镜检查的病人,在检查时记录的疼痛程度和事后回忆起来的都不一致。简单来说,许多在检查时没有那么痛苦的人,事后回忆时却表示当时非常痛苦,反之亦然。这便是易得性偏差所致—人们只记得最近发生的事情,而忘了之前的事。结肠镜检查实验或许看上去有些极端,因为人们回忆的时刻离实际接受测试的时间只有十几分钟而已。由此可知,现实生活中易得性偏差的影响更为深远。俗话说“好了伤疤忘了疼”—这很好地诠释了易得性偏差。历史不断重演,更多的时候正是因为人们忘了历史,而只看到了眼前。十一、视觉幻想,要注意图表的刻度虽说一图抵万言,一张基于数据统计分析的图确实能说明很多问118◀第四章系统性思考题。但是,如果刻度标识不对,是会给人带来困惑的—无论是有意还是无意为之。随便拿张股票市场的图看一下就明白了。图4.8是一个时间段内的股票交易价格曲线。看到这张图,你是不是觉得价格波动很大?可最大涨幅波动不过6%左右而已。39.813.43%0.40%-2.64%10.1010.11图4.8股票交易价格曲线十二、注意抽样的对象抽样对象如果不具有代表性,将难以向顾客传递样本所展现的信息。最为典型的是大学教授进行的心理学实证实验。由于参加心理学实验的志愿者多数是在读大学生,整个实验不具有代表性。但这作为实验初始设计与初步确认还是有意义的。当然,如果这个实验的目的就是研究大学生心理与行为范式,那么这个抽样显然是没有问题的。但是,如果想研究全社会的心理与行为范式,这个抽样就显得太过偏颇了。十三、注意抽样的数量通常情况下,有数据比没数据好,但也要杜绝数据以偏概全,甚至具有很大的误导性。抽样数量的选择多是基于对成本的考量,不排119效率免费:管理需要知道的常识除有些数据统计的抽样是有意为之—选择性少量抽样。道格拉斯·W.哈伯德在《数据化决策》[13]中,提出了“一切皆可量化”,即只要掌握了正确的方法,在抽样困难的情况下,少量的抽样依然可以得到所需的数据,降低不确定性,并进行数据化决策。依据哈伯德的结论,我们大概可以得出:愚者和智者之间,只隔着科学(数据化决策)的常识。