HollowKnight
HollowKnight

PhD in mansplaining; data scientist on algorithmic fairness

论统计常识对公共讨论的好处

(编辑过)

版权归作者所有,任何形式转载请联系作者。

作者:枯等丝之歌(来自豆瓣)

我有个未经检验的假设,普及统计学常识会显著提高公共讨论的质量。这篇随笔是为这个假设做的一个可笑尝试。以下是正文。

假阳和假阴

假阳(false positive)和假阴(false negative),是接触统计最先会学到的概念。现实里没有发生而模型推断为发生的错误叫做假阳,现实已然发生而模型推断没有发生的错误则叫做假阴。两者在假设检验(hypothesis testing)中对应第一类错误(type I error)和第二类错误(type II error)。

假阳和假阴无处不在。临床癌症早筛,没得癌症却诊断出癌症,得了癌症却没有发现,都是可能发生的错误。健康码也是,没有新冠却显示阳性,得了新冠却显示阴性,我们在天朝见得不少了。政策制度同样存在假阳假阴。有司执法,冤枉无辜或放虎归山都会发生。各种纾困扶贫政策,也少不得肥一些富人,漏一些穷人。

假阳和假阴不可避免,根本上是一个认识论的问题。人类不是造物者,认识世界只能以自身为尺度,而人类认知是有局限的(海德堡测不准就是个例子)。当然了,社会层面的讨论,用不着玩形而上的玄虚,政策制度容忍假阳和假阴,更多是资源分配和成本的考虑。比如核酸试剂,原则上可以不断提高灵敏度来降低假阳假阴,但那样的试剂成本太高,不适合推广。再比如有司执法,原则上也可以不断投入人力物力减少冤假错案,但这么做财政是吃不消的。

既然所有政策都产生假阳和假阴,那么我们评价一个政策的时候,就不能将它与一个不存在假阳假阴的天堂做比较,不然就会陷入Nirvana Fallacy。曾经有个口号叫“多快好省”,就是一个Nirvana Fallacy的例子,这口号既要最大化收益又要最小化成本,根本不可能实现。任何有意义的公共讨论,一定是比较一个政策与另一个可实现的替代性政策,而比较假阳和假阴,是评判政策好坏的重要标准。

评判社会政策,极少数情况下,存在同时减少假阳和假阴的选择,这时候选哪个是毫无疑问的,比如新冠检测,你一定会去做核酸而不是找老中医。绝大多数情况下,假阳和假阴是trade-off,我们要么为了减少假阳容忍更多的假阴,要么为了减少假阴容忍更多的假阳。这个时候,我们需要给假阳假阴定一个优先级,我有两点不成熟的意见供参考。

第一是诉诸常识。举个例子,司法体系,如果讲究程序正义,会显著提高假阴的概率,因为犯人在证据不足的情况下会被无罪释放。与此同时,坚持程序正义可以避免公权力滥用导致的“欲加之罪”,即降低假阳的概率。那我们要不要程序正义呢?好人冤枉入狱对应公权的恶,坏人逍遥法外则对应个人的恶,千百年来的实践证明了前者的危害远大于后者,如果这是你的常识,那你应该会同意程序正义的必要性,哪怕这是以提高假阴为代价的。

第二是要考虑具体的社会情境。好几年前,一位清华女生称被学弟性骚扰,将其个人信息公布在朋友圈和树洞。后来学弟澄清是书包碰了一下,女方道歉,但舆论不依不饶,对女方极尽嘲讽之能事,挖苦“女拳”之声亦喧嚣直上。那么女性告性骚扰的时候,有义务先把事情搞清楚吗?或者说,女方需要承担举证的责任吗?这事如果发生在一个男女相对平等的社会中,那么我很难给出答案,但是拜托,这是在种花家,这里每天发生最多的,可从来不是嚣张“女拳”冤枉好男人,而是女性被套上铁链子,是女性打官司被封杀,是千千万万个家暴案子和背井离乡给弟弟挣学费的凄惨故事。在这个具体的事件里,为那位学弟感到惋惜没有问题,但是在这块土地上,就不必给女性再套上一个举证的枷锁了。种花家假阴如此之高,结果加起来,都抵不过一个假阳的舆论风浪。

最后提一嘴,假阳假阴是评判政策好坏的重要标准,但不是唯一标准。一个政策减少假阳假阴,但是成本过于巨大,那它也未必是一个好政策(比如古代王朝从不会直辖乡村)。另外,减少假阳假阴本质上是在寻求帕累托优化,背后的哲学基础是效用主义的(Utilitarianism),这个基础未必在所有情况下都符合人类的良知。不过话说回来,如今的公共讨论水平,还远没到需要讲这些的地步,能把这两个概念搞清楚就不错了。想去阿尔卑斯山,先出得了北京城再说。

世界是一个连续谱

世界是连续的,离散的只是人的认知。

假阳假阴就是认知离散化的例子。病毒浓度是连续的,但核酸试剂只在浓度超过一个限度时报告阳性,这么做虽然减少了信息量,但更可读,实践起来更方便。做学术也一样,虽然国家是一个连续谱,但比较政治学喜欢把国家分为民主和威权,这样就能为后续研究提供基准(benchmark)。离散化是人类认知连续世界的一种必要简化。

离散虽然为认知提供好处,但它容易让人陷入非此即彼的陷阱中。“清零”和“躺平”,“五毛”和“公知”,“先进”和“落后”,当我们使用这些非此即彼的概念时,会被不自觉带入到二极管式的思维方式中。互联网的极化,相当一部分是从语言的极化开始的。

语言极化更大的危害,是为不作为提供借口。某国外交部发言人最喜欢一类发言:我方虽然那啥啥有问题,但你方那啥啥也不咋的,大家就别五十步笑百步了。这种发言非常流氓,两边都有问题,但问题有大有小,有大问题的难道不应该见贤思齐,向问题没那么大的学习一个吗?五十步当然可以笑百步,因为百步有整整五十步的进步空间呢。

我记得有段时间,某国外交部特喜欢拿种族歧视说事。他们真的好意思说别人种族歧视吗?就在几年前,春节联欢晚会公然上演“黑人扮猴子”的戏码,这在任何一个文明国家都是无法想象的。很多网友说,美国人虚伪,表面平等,私底下n word不离嘴,黑人演电影主角那都是装装样子。是这样没错,不过在座各位,可否先至少进化到装装样子的文明程度,再对着别人指指点点呢。我再说一遍,五十步是可以笑百步的。

样本不具有代表性

所有统计理论,都只为解决一件事情:当我只知道总体的百分之一时,我要如何去知道这个总体的性质。样本,就是统计的同义词。

要从样本推究总体,样本一定要具有代表性。虎扑步行街号称街薪二十万,知乎号称人均百万,这都不是可以推究老百姓收入水平的合理样本;因为幸存者偏差,只有有钱人才会在那臭显摆。老百姓的真实收入水平,总理说得很明白:全国有六亿人月收入在一千元上下。

总理的数据来自全国随机抽样,能从统计局公开的中国统计年鉴上找到。根据人民网的新闻:“按照住户收支调查,全国家庭户样本可以分为五个等份,分别是低收入组、中间偏下收入组、中间收入组、中间偏上收入组、高收入组,每等份各占20%。其中,低收入组和中间偏下收入组户数占全部户数比重为40%。。。根据2019年相关数据,低收入组和中间偏下收入组共40%家庭户对应的人口为6.1亿人,年人均收入为11485元,月人均收入近1000元。其中,低收入组户月人均收入低于1000元,中间偏下收入组户月人均收入高于1000元。” 我想,不管讨论什么问题,疫情封控也好,中美对抗也好,多想想沉默的大多数,不是坏事。

样本不具代表性会带来严重的后果,而这些后果会在大数据时代被放大。美国法庭用COMPAS系统来预测嫌疑人是否为惯犯,从而判断是否应该保释。因为种族歧视,历史上黑人更容易释放后又被警察抓回来,于是用这种历史数据训练出来的模型,也一定会预测黑人有更高成为惯犯的概率。数据不公平,于是模型也不公平。

寻找有代表性的样本,不仅可以更好的认识世界,也可以更好的认识自己。很多人迷恋穿越,觉得自己回到古代就能成为人上人,穿越网文更是汗牛充栋。很多人忘了,一个人随机投胎到过去,大概率不是生在钟鸣鼎食之家,而是成为一个普通人。那一个典型古代普通人的生活是什么样的呢?大概就是治病全看命,吃饱看年景,人均寿命三十几,还没轮到大厂优化就先嗝屁。这种生活,恐怕没几个现代人熬得住。

回看我们自身,其实每个人的人生也只是无限人生可能性的一次抽样。正因为如此,每个人自以为放之四海而皆准的经验想法,大概率都是有偏的(biased)。伟大的作品之所以伟大,在我看来,就是以高度个人化的经验想法道出了人类共有的那些情感和思考。认识到自己经验想法是有偏的,我们会更愿意接纳截然不同的观点。统计使人谦卑。

相关不等于因果

统计寻找相关性,也能被用作寻找因果关系。相关不等于因果,这是个常识,但人们似乎总是搞不明白。

几个月前,中国人民大学几个教授发布了《中国大学生婚育观报告》,里面说APP使用影响婚育观,其中用虎扑和生育意愿正相关,用豆瓣和生育意愿负相关。这里的相关应不应该理解为因果呢?如果是因果,也就是说用豆瓣降低了生育意愿,那推论就是取缔豆瓣可以提高生育率;如果只是相关,那取缔豆瓣未必提高生育率,因为这可能只是一个物以类聚的故事:不想生的人喜欢用豆瓣而已。从报告的语言看,几位教授似乎认为这是一个因果关系,豆瓣要是因此没了,他们得负很大的责任。

把相关当因果,不只教授拎不清。几年前百度还是哪个公司做了个数据报告,说暑期档电影比起春节档电影,更能提振冷饮销量。这团队数据搞了半天,就是没想过冷饮消费多会不会是因为夏天热。还有古今中外各种成功学,常用套路就是列举首富一二三,发现他们都有某个特质,于是宣称培养该特质有助于发财。这逻辑就好像说因为马云脸方,所以脸方有助于成为马云。脸方能不能成为马云我不知道,但你要我在无知之幕后面抓阄选长相,我应该会祈祷自己别长成马云那样的吧。

寻找因果关系,最好的办法就是随机控制实验。我们把实验对象随机分成两组,一组给干预,一组控制组,那么两组的结果差异就是干预所直接导致的。当随机实验不可行或者道德上不允许时,我们可以用因果推断(causal inference)设计出“类似于”随机实验的场景。继续以上述马云脸方为例子,要想确切地知道长相如何影响事业,就要想办法控制不同长相的人其它方面的特质,比如教育背景、智力、家庭条件、专业等等等等。有篇论文(Hale et al. 2021)就做了这个事,它追踪了北美前十经济系博士的就业和发表表现,发现长得好看的人就业学校更好、发表更多、论文引用也更高。做学术都看脸,听起来真是个悲伤的故事。

关于因果推断,我最喜欢给人举的例子是Jia and Li (2016)。作者想知道念大学对就业到底用没有用,这个问题无法用表面的相关性回答,因为上北大的人成功绝不只是因为上了北大,他们智力更高、家境更好、认识的人也更多。随机控制实验也不可行,我们不可能把考生随机分成两组,然后对一组说你去北大吧,对另一组说你去搬砖吧。这篇论文设计了一个类似于随机实验的场景,就是比较重点线附近的考生。一个考生,比重点线高几分或者低几分,几乎完全取决于运气,但是高几分的人去了一本,低几分的人就去了二本。通过比较重点线附近的考生,我们可以知道上一本对收入有多大影响。这篇论文运用了一个叫做断点回归(regression discontinuity)的方法,更细致的讨论可以读原论文,也可以参考“数据帝”陈沁的知乎回答。

因果推断很伟大,但也有局限。因果推断发现的是因果效应(causal effect),而不是因果机制(causal mechanism)。比如临床检验特效药,因果推断告诉我们它能不能治病,但无法告诉我们是什么样的化学反应导致了器官什么样的变化才把这病治好的,后者才是这个药能被开发出来的知识前提。因果推断也无法预测反事实(counterfactual),也就是还未发生过的事情,因为因果推断只能基于已经实现的数据。要想做反事实研究,需要建立行为模型,那是structural economist干的事,他们就因为这个很看不起因果推断。最后,也是我认为最重要的,是因果推断建立在一个精心设计的类随机试验上,这种精巧让它的结论非常易碎,因为当我们把政策推广后,会发生equilibrium effects。我以前参与过农村调研,其中一个项目是给农村孩子提供免费午餐。这一类的随机实验调研的时候效果都非常显著,免费午餐可以有效改善孩子的营养,但是一旦放开给地方政府推广后,效果就减少甚至消失不见了。这是因为家长知道学校发免费午餐后,就削减了原来家里给孩子的食物。贫穷是一个均衡,总体经济条件不改善,孩子的营养总是会回到原点。

我扯远了,上述已经跟统计学常识无关。总而言之,相关不等于因果,遇事多想想这个,没坏处。再不济,你也能做到看下一季奇葩说的时候,知道谁在胡扯。

不是尾声的尾声

我觉着,写文章得有个结尾,我随便说点啥吧。这篇文章举了很多例子,但是为了能发出来,很多例子我都自觉删掉了。如果剩下的例子依然让你觉得荒诞,王小波说过,则非作者有意为之,而是历史的本来面貌。

CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…

发布评论