财新传媒
位置:博客 > 张寅 > 张寅:数据内外

张寅:数据内外

疫情发生以来疫情数据就是话题焦点之一。有早期数据与疫情真相联系起来讨论一直没有停歇,预计未来也如此,一定成为历史反复探寻的一个永久的问题。除了早期数据话题外,在数据公布持续过程中,又不断地产生了一些新话题,比如统计规则变化,带来数据突变;上下两级卫健委数据不一致;监狱的数据是否需要单列等等。可以相信这样新话题后面还会有。

 

如果数据仅仅看表面内容,当然也可以进行简单分析,但是错误率和偏差率,可能因为数据质量问题和分析者识别和处理此类问题能力问题,造成超不过“掷骰子”成功率的尴尬局面。防止此类问题出现,就要避免解读数据的“就数据谈数据”书生气作风,电脑之内,即数据之内,和电脑之外,即与数据有关信息,结合起来,才能通过可能是“残缺不缺”或“非正常化”数据的表象,去把握数据的真实与实际真实之间的关系。

 

一般专业数据和信息分析人员,对于数据存在的各类质量问题,不用真假这样比较极致说法去讨论,就像人们评价一个人说谎时,经常会用这样两句,“这人一句实话都没有”和“他讲真话都没有人信了”,专业人员比较认可后一句的说法,因为这涉及的是信誉和观察角度问题,也涉及数据信息真中的假,假中的真,信息辨别或摘取的问题。专业人员希望争取的是数据信息获取主动性,而不是被信息拉着走(情绪指向或目的)。

 

专业人员采用两层次数据观察方式,第一层面:是否有人为主观影响数据的质量,并且行为是有明确目的,专业人员一般不讨论目的的“是与非”问题,以及是否合理的问题,而是判别有没有这样行为。第二层面观察数据精度问题(或者准确度),一般只有专业人员关心这件事情,因为这涉及是否需要除了数据本身外,还需要哪些补充数据或者观察才能准确把握趋势。任何数据都有精度问题,这是与统计方式(范围)、统计人员素质(责任心)、投入统计的成本(资金和人力)是有关的。正是由于以上两个层面观察意识,因此决定了疫情有了公开数据后,我们在第一次图表分析中,就将湖北与湖北之外数据分开了,并且对待湖北数据的评价一直说的没有正常化。虽然我们不知道哪一天它能正常化,但是相信总有正常化那么一天。

 

疫情数据公布出现了很多破折,不能以“看笑话”态度去应对,尤其专业人员。每次数据波折,甚至公布时间变化这些数据之外细节内容,也构成了一条数据曲线,属于心理曲线的范畴,这条曲线给我们信息一点都不少于那些直接数据给的内容。有时信息是通过不正常情况下,带来了正常在情况下,带不来的准确内情信息。

 

不正常数据信息,即使在人为控制下,只要公布有时间有足够长,那么依然构成一条曲线,精度也许很差,但是趋势很难掩盖。这就是说,时间决定一切,而不是人为的决定一切。如同疫情一样,来了人为是很难控制的。可能曾经有人相信,在数据公布之前,就能搞定这件事,实际上结果是疫情没有搞定,数据也就更没有搞定了,反而是一个信誉麻烦挥之不去。背后其实都是历史反复证明常识之一。

 

数据内外的观察意识,就是思维方式上“对跳原则”,有了微观,就要看宏观是怎样的;有了宏观就要微观是否能够证明,如果有矛盾或初入,重点放在被否定的信息再核查。



推荐 12