财新传媒 财新传媒

阅读:0
听报道

每逢佳节被催婚,所以我预料,春节过后,相亲市场又将掀起一轮新高潮,婚恋网站又要小赚一笔。如果你关注,甚至靠婚恋网站征友,那一个有趣的现象,就应该注意到:婚恋网站上身高170cm的男人和身高160cm的女生特别多。这究竟是为啥呢?

 

在婚恋网站上的海量异性中,要寻找到中意人士,不得不设置了一些硬性条件,例如身高。而对身高的要求,很可能是从某个整数开始,比如170cm。而在婚恋网站上搜索合适异性时,也往往会设置一些整数身高条件,例如你更可能会搜索身高160cm+以上的女性,而不是159cm+161cm+的女生。

 

既然征友时这么在乎这些硬性条件,必然激励大家谎报自己的条件,出现“浮夸风”。在众多硬性条件当中,身高是最容易出现虚报和浮夸的硬性条件之一,因为从个体而言,身高上稍微多报个几厘米,很难被识别,除非去体检。

 

但是,在汇聚到整个人群的大数据时,我们就可以从大数据的宏观层面识别这种数据浮夸风现象。理论上,一个人长多高,是个生物学问题,而“米”是根据“光在真空中于1/299792458秒内行进的距离”定义的,所以一个人的身高不会特意长到一个整数。

 

而且,整个人群的身高分布也应该服从某种连续分布,即每个身高段的人群数应该渐进变化,而不应该发生突变。例如,身高为168cm169cm170cm171cm172cm……的男生人数应该是连续、逐渐变化的,而不应该某个身高(比如170cm)的人数较其他身高(169cm)的人数有异常大的突变。

 

但是由于170cm是一个“整数”,而一个女生在要求对象身高时,往往选择一个整数,例如170cm,而一般不会选择169cm以上或171cm以上,因此170cm就有了特殊的意义,从而激励身高168cm169cm的男生将自己的身高填报为170cm,而171cm的男生和172cm的男生就没有激励将自己的身高说成170cm。或者,每个人都有激励将自己的身高虚报一点点,但在临近170cm这样的整数身高的人群上,这种激励就更高一些,从而虚报的可能性就更高。

 

在这种“浮夸风”的影响下,不同身高的男生和女生人数就可能在一些整数数值上发生非连续的变化。如果能够识别出这种异常的变化,我们就可以认为在某些整数值附近,发生了数据造假,出现了身高浮夸风的现象。

 

为了验证上述猜想,在婚恋网站“世纪佳缘”上,笔者找到了“最近三十天登入过的活跃用户”不同身高的人数的分布(数据整理于20155月)。从中我们可以看到,身高160cm的女生和身高170cm的男生人数异常高于其他年龄段人数。具体而言,填报身高170cm的男生有97.2万人,而169cm的则仅有4.3万人,相差20多倍;而填报身高160cm的女生有54万人,而159cm的女生则仅有3.6万人,相差幅度也很大。

                            婚恋网站上的身高浮夸风:为什么那么多170男人和160女人
1:世纪佳缘上不同身高的女生人数(最近三十天登录过的活跃用户)

婚恋网站上的身高浮夸风:为什么那么多170男人和160女人
2:世纪佳缘上不同身高的男生人数(最近三十天登录过的活跃用户)

 

 

这说明很多稍微不满160cm的女生和不满170cm的男生,将自己的身高填报为160cm170cm。在这两个异常值之外,165cm的女生人数和175cm的男生人数也明显异常,但异常程度没有160cm170cm大。婚恋网站上身高浮夸风的现象得到了证明。


实际上,这种识别“数据造假”的方法,在其他领域也时有应用,例如雾霾。理论上,不同雾霾水平的天数变化应该是缓慢的,至少大数统计上应该如此。例如,空气质量指数100的天数和空气质量指数99的天数可以有一些差异,但不应该是突变的。

 

然而如果人为将某些AQI数值之下定义为“清洁”,AQI数值之上定义为“污染”(目前的分割线为100),并将清洁天气数设为地方政府的政绩,那么地方政府必然有动力伪造数据。有赤裸裸地直接伪造环保数据,也有其他更隐蔽的方法,例如不停地在监测点附近洒水压尘。

 

并且,地方政府雾霾数据造假也主要集中在这些临界值时的造假,因为很难将一个重度污染天气改成绝对无污染天气。因此,在大数据统计上,刚刚勉强达到“清洁”标准的天数就特别多,特别是跟刚刚达到“污染”标准的天数相比。有经济学家就研究发现,AQI95-100的天数明显多于AQI100-105的天数,因为AQI100-105之间时,地方政府更有激励和手段将其打造成清洁天气。(本文以《谎报身高的学问》为题发表于《东方早报·上海经济评论》,2016223日) 

 

更多学术和时事评论,请关注公众号:郭峰学术民工(guofeng0406)。

参考文献:

Ghanem, D. and Zhang, J. “'EffortlessPerfection': Do Chinese Cities Manipulate Air Pollution Data”, Journal of EnvironmentalEconomics and Management, 2014, 68, pp.203-225.


话题:



0

推荐

郭峰

郭峰

105篇文章 6年前更新

郭峰,经济学博士,金融学博士后,现为上海财经大学公共经济与管理学院投资系讲师,同时兼任北京大学数字金融研究中心特约研究员。在《经济研究》、《经济学季刊》、《管理世界》、《世界经济》上发表论文多篇,在其他中英文核心期刊上发表论文20余篇。主持国家社科基金青年项目、博士后科学基金面上项目各一项,主持或参与横向课题10余项。出版著作一部,发表经济时评90余篇。

文章