穿过黑箱的数据

政治究竟是怎样运行的?

很多人认为,政治就像黑箱,人们可以看到输入,看到输出,却不知具体的决策过程是怎样的。

比如,一个官员在某地上任几年后,晋升了。人们只看到了这名官员在该地留下的GDP,政绩工程,口碑……这是输入,而晋升本身就是输出。可是中组部是如何决定这个晋升的呢?这是一个黑箱,大部分人都不知道里面发生了什么。

近年来,越来越多的研究者开始试图找出黑箱的运行机制,看哪些输入对输出的影响较大,哪些影响较小。比如在这个答案 中,我总结了一些研究,其中一贯的发现是,GDP增长、招商引资肯定是对官员晋升非常重要的,计划生育则属于“一票否决”项目,在晋升决定中有特殊的意义。

官员晋升的研究,是用数据来描绘黑箱中运行情况的一个例子。随着数据可得性的进一步增强,研究者在研究黑箱的运行特征时,拥有了更多的工具和资料,产生了一些更有趣的研究。

1,除了抗议还会什么?

常常听到一句话——政府除了抗议什么都不会!乍听这句话,觉得有一定道理,但细细一想,抗议是最容易观察到的外交行为,是不是有可能政府确实做了一些抗议之外的事,但由于不容易观察到,而被我们忽视了?

Fuchs和Klann的论文Paying a visit: The Dalai Lama effect on international trade研究了这么一个有趣的问题——每当他国领导人会面达赖喇嘛,中国政府都要表示例行抗议。那么,在抗议之外还有什么?

作者研究了1991至2008年中国从159个贸易伙伴国家的进口情况。将达“赖喇嘛当年与该国政府官员会面”作为变量后,作者发现,在2002年至2008年,达赖喇嘛的访问,会使中国从该国的进口减少12.5%。而且,访问对象的级别越高,这样的贸易惩罚越严厉。领导人、政府要员以及普通官员级别的访问,会分别减少16.9%、12.5%以及12%的中国进口。而普通官员级别以下的会面则不存在这样的贸易惩罚效应。

和国际关系捆绑在一起的贸易惩罚,是胡时期的新举措,他被许多国际关系学者认为是中国展示肌肉的途径之一。随着中国的经济增长,需求增加,对中国的出口已经成为了许多国家的重要经济组成部分。下图是2012年,中国的进口占一些主要贸易伙伴国GDP的比重:

(数据来源:CEIC与World Bank)

可以发现,中国对于许多国家来说,已经是最重要的贸易大国。比如澳大利亚对中国的出口占GDP的5%以上,如果被施加贸易惩罚,直接减少的就是将近1%的GDP。这个惩罚可不轻。

虽然这样的贸易惩罚效应在访问过去一年之后会消失,但在文末作者仍然表明了对中国这样挺强壮又挺坏的国家的担忧:如果他总是用贸易捆绑来干预国际关系,大家伙应该怎么办?

2,哪些帖子容易被删除?

一个很让人好奇的问题是,一些帖子好像挺正常,但上网没几秒就被删了,一些帖子看起来很“反动”,却总是好好的。中国网络监管的红线在哪里?

Gary King等学者的论文How Censorship in China Allows Government Criticism but Silences Collective Expression研究了这个问题。中国的网络审查包括三个主要组成部分:GFW、关键词屏蔽与人工审查。作者搜集了367万份网络帖子,并随机挑选了其中114万份进行持续分析,主要研究人工审查的机制。该研究的一个伟大之处在于,他采用的方法能够在人工审查到来之前将敏感的网帖标记好,并开始持续监控帖子的存续情况。结果发现:

  1. 如果要删帖,那么删帖的速度是很快的。
    作者对所有标记好的网帖持续监控9天,并发现大部分的删帖都发生在第一天。

  2. 群体性事件、对审查者的批评与色情贴最容易被删除
    作者将网帖分为五个类别。1)潜在的群体性事件;2)对审查者的批评;3)色情;4)政府政策;5)其他。作者定义“审查级别”等于帖子数量爆发时的删除比例减去平时的删除比例后,发现以下规律:

    最容易引起审查级别提升的,是前三类网帖。潜在群体事件和色情贴的删除还在意料之中,有趣的是对审查者的批评也属于最优先删除之列,请大家自寻图片亮点。而在前三类网帖之外,后两类网帖,对政策和新闻的讨论,只要不会引起群体性事件,尽管有可能话题上更敏感,但被删除的机会反而更低。
    一个有意思的例子是因核辐射而导致的抢盐话题,虽然和政治无关,但因为更容易引起人们的群体性情绪失控,而被提升了审查级别;而反过来的钱云会事件,虽然网帖爆发量极大,但因为不容易引起群体性事件,反而没有被删除。

  3. 批评容易被审核,褒扬不会被删贴?不一定
    一种理论认为,网络审核的目的是删除对国家的批评信息,但该研究发现并非如此。作者分析了六个话题(请自行辨认),上一行的三个话题相对于下一行的三个话题来说较容易引起群体性事件。结果发现,在潜在群体事件话题中,不管网帖的态度对政府是支持还是批评,被删除的概率都非常高,相互间没有区别。反过来,下一行的三个话题,支持帖或反对贴的删贴率都很低,相互间同样没有区别。这证明了删帖行为与帖子的态度无关,而与帖子的话题有关。
    我按照这个标准审查了一下自己的专栏,相信应该不会被删除。

3,官员在任期内的不同阶段都在做什么?

对于官员在任期内的行为,有相当多的案例研究。但既然大数据时代已经到了,为什么我们不用数据来试一试呢?哈佛大学的Jennifer Pan(她也是上文的作者之一)的论文Measuring the Goals and Incentives of Local Chinese Officials?将县政府的80000多个网页进行了语义分析,并将县官们的新闻网页分为五个类别,结果如下:

在上任初期和末期,官员们的第一个与最后一个行为出现了显著差异——在上任初期,官员们个个都是孔繁森焦裕禄,一半的新闻都在显示他们如何爱民如子;而在上任末期,显示经济成就才是正道。

结语

一些人看到这些研究,可能会说,这分明是花大力气证明一个个常识。但我的理解是,常识的证明也是有价值的,其价值体现在数据抓取的方法,以及如何用数据度量一个非客观的变量上。

面对政治,国际关系这些黑箱,研究者已经不再满足于研究GDP、人口、贸易这些耳熟能详的宏观变量,我们需要更多的数据来研究更微观的行为。回到最初的例子,关于官员晋升,我们已经证明了GDP、招商引资会起作用,但这些经济因素有多重要?官员升迁的根本原因是GDP吗?会不会是送礼,拍马,拉帮结派?数据,可能就有助于我们把这些原本根本不可能度量的“送礼、拍马、拉帮结派”给度量出来。技术的进步已经提供这个机会(比如第三篇论文就提供了Python代码,经济学家为什么还要学Python…T.T),为何不用它探寻这个黑箱的更多蛛丝马迹呢?

穿过黑箱的数据》有1个想法

发表评论

电子邮件地址不会被公开。 必填项已用*标注