财新传媒
位置:博客 > 张寅 > 观察 | 数据怀疑

观察 | 数据怀疑

今年社科院的徐奇渊先生、中泰证券首席经济学家李迅雷先生分别对有关部门公布的工业利润和用电量的数据提出了他们自己怀疑性观点,有关部门也做出了及时回应。这种现象在以往是罕见的。接下来逻辑上应该还会有类似情况出现。

数据怀疑或数据质疑在中国是一个老生常谈话题之一。原因既简单又复杂,简单地说这是一个长久人人皆知挥之不去的问题,复杂地说这是一个时好时坏的问题,不同年份不同情形下有着不同表现。最早的数据质疑来自发电量与工业产值不匹配,然后是海关数据大陆与香港之间交易额与货物数量不匹配。

所谓不匹配问题,鸦片战争林则徐时代就有之,比如中国海关出口货物到英国数据与英国海关进口中国货物数据,就相差非常大,林则徐在他亲自出资培养的中国第一代翻译中得到了这个信息。中国历史对数据就没有什么良好文化传承,“堂而皇之”“大而晃之”比较流行。总之严谨地对待数据并非是一个民族习惯,目前数据这种冲突,严格说是一个现代社会文明与古老社会文明的冲突。这是中国真正现代化一个必须要过的坎,尤其大数据时代的来临,如果没有良好数据质量,那么国家竞争力就会是无锚之地。

数据一般而言交易市场的数据被质疑情况比较少,因为它是实时撮合方式统计的。数据质疑比较多的则是收集与统计方式出来数据,需要管理水平的那些数据。另外像收集与统计汇总数据一般由于样本范围的问题,统计过程严密程度问题,会表现出“精度”差别,这种方式完全准确是不可能的,尤其用样本方式统计整个经济或具体一个产业时。一个国家如果很少被质疑经济数据准确性,说明只是它的统计精度高,与民众或业界实际感受比较接近,另一种情况则是时常被质疑,说明它的统计精度比较差,与民众和业界的实际感受差距比较大。数据必须能准确反映趋势,如果精度差必然不能反映趋势,反而得出与现实相反结论。以往国内物价和房价数据统计被经常质疑,原因就是精度这关就没有过,显然就是基础统计就存在问题,至于统计过程的问题就更大了。

职业分析者对数据非常敏感,这也是职业基本功之一。一般质疑都会从数据"前后差异对比”方式进行,还有从分项数据遗漏、统计样本变化不宣而作、数据公布误操作等等异常方式进行甄别。另外还有以往公开的数据突然不公开了、延迟公开、滞后公开了等现象,对于这些涉及数据的问题,职业分析者都会在第一时间出现警觉或诧异。比如2017年以往公布的中国百城房价数据,在连续公布五年月度做了不宣而别的突然消失举动,就是经典的一例。

推荐 14