删帖机制分析编辑本段回目录
新浪微博是中国最大最流行的微博平台,注册用户据说达到了五亿,基本上每个中国网民都注册了一个帐号。不同于西方的Twitter,新浪微博必须承担起审查任务。休斯顿莱斯大学的研究人员收集了数百万帖子,分析和识别新浪微博审查员(或者叫微博小秘书)的规模和删贴速度。论文(PDF)发表在预印本网站arxiv上。研究人员观察到,三成的删贴活动发生在发帖后5到10分钟内,九成的删贴发生在24小时内。假设新浪微博的一个审查员平均每分钟能阅读50个帖子,那么扫描每分钟涌入的7万新帖子新浪需要有1400人同时工作,假设他们每天工作8小时,那么需要有4200人才能满足审查需要。
鉴于微博API的限制,研究人员主要跟踪了最可能会发敏感帖子的敏感用户组。从2012年7月20日到9月8日,研究人员利用API以每分钟一次的频率搜索3500位用户的时间线,以每四秒一次的频率搜索公共时间线。由于新浪微博不支持匿名查询,所以他们利用Tor隐藏IP后创建虚假用户帐号。他们共收集了238万用户时间线帖子,删贴率是12.75%。考虑到新浪需要处理的大数据集规模,发帖后5到10分钟的删贴峰值,尤其是考虑到删贴无法完全用自动方式处理,新浪是如何做到迅速发现和删除敏感帖子?研究人员提出了六个假说:
1.新浪微博有一个监视关键词列表,审查员将会浏览包含这些关键词的帖子决定是否删除。
2.微博有针对性的监视频繁发敏感帖子的用户。
3.在发现一个敏感帖子之后,审查员可以追溯所有相关的转贴,可以一次性的全部删除。
4.通过关键词搜索,微博删除了追溯的帖子导致了特定关键词在短时间内出现删除峰值。
5.审查员工作是分布式的,相对独立,其中部分人可能是兼职。
6.删贴速度与主题有关,根据主题的敏感度删除速度存在差异。研究人员利用自然语言处理技术进行删贴主题分析,发现某些热门主题帖子比另外一些主题更快被删除(如图所示),如群交、北京暴雨死亡人数和司法独立等都在极端时间内删除了。
研究人员总结了微博的过滤机制,其中主动过滤机制包括:显式过滤,微博通知发贴人他们的帖子内容违反了内容政策(但有些时候用户并不清楚到底是因为什么敏感词受阻);隐式过滤,微博需要在手动审查帖子后才会允许帖子上线;伪装发帖成功,其他用户看不到这位用户的帖子。
来源:虎嗅网
报告:中国互联网审查效率编辑本段回目录
这是一份新研究报告的若干发现之一,报告作者为独立研究员祝涛(音)和几位研究中国人气颇高的新浪微博SINA+1.80%审查方式的美国学者。
通过对2012年7月至9月期间那些曾违反审查规定的用户在微博上发布的238万个帖子进行分析研究,报告列出了很可能为新浪“编辑”团队采用的审查方式。这个团队是全球监控社交媒体最大规模行动的核心力量。
虽然背审查黑锅的一般来说都是中国宣传部门,但实际上,真正对网络内容“下手”的是中国国内互联网公司本身,而中国政府只是在它认为这些公司没有做好这一工作时才采取行动。
作为中国社交媒体网站中最活跃、政治气氛最浓厚的平台,新浪微博在源源不断地输出敏感帖子。让很多正在研究中国政府审查实践的学者印象深刻的是,新浪审查团队管控这些帖子时速度和效率都高得惊人。
报告说:在我们的数据集中,有5%的帖子在出来后的8分钟内被删除,近30%的帖子在30分钟内被删除,考虑到微博处理的数据集规模之大,这个速度实在太快了,特别是在5到10分钟的高峰时段,特别是考虑到这项工作无法以全自动的方式来完成。
报告说,微博上平均每分钟有7万条帖子发布,这种情况下,审查人员很可能会使用含有敏感词的不同列表,同时关注那些很可能会说出敏感词语的用户,这样就能助过滤系统一臂之力。审查人员发现他们认为应该被过滤的词后,他们首先会删除原帖,然后搜索所有转发帖,将其一网打尽,通常五分钟内就能完成工作。
被新浪审查团队盯上而删除的帖子中,82%是转发帖。
研究人员发现,有10%的被删帖是在发布24小之后被删除的。其中大多数帖子使用了新词或逃避自动关键词过滤的暗语。例如,重庆市前市委书记薄熙来去年倒台丑闻爆出的时候,微博用户为绕开对薄的屏蔽,用“西红柿”指代他,其中“西”与他名字中的“熙”字同音。
最终这些暗语会被发现且屏蔽,从而导致新暗语的产生,然后再度被屏蔽,如此循环往复。
报告作者说,由于审查人员不断发现新暗语,他们会使用关键搜索词来回溯,然后很快删除相关帖子。例如,他们发现有44条不同的微博中使用了新发现的敏感性暗语,然后在区区五分钟内就将其全部删除。
若有用户一再公然发布敏感内容,新浪有时会直接将其销户。在报告研究的3.5万个账户中,有300个账户有如此遭遇。
不过,尽管新浪审查人员警惕性很高,但他们似乎也是要休息的。研究发现,审查工作虽然一天24小时不停歇,但凌晨那几个小时会有一段“风平浪静”的时光。报告说,上午的删帖高峰时段表明,审查人员的进度有所落后,他们一边要翻看前晚的帖子,一边还要处理上午发的新贴,然后到接近中午或午后不久他们就赶上进度了。
对微博用户来说,他们发的帖子越敏感,审查人员上午的压力就越大,或许这一点能令他们感到欣慰。但据去年11月发布的另一份报告统计,大多数时候,审查人员是最终的赢家。这份报告与上述报告出自同样一群作者之手。
较早的那份报告说,审查一开始,某话题的讨论频率会明显降低。报告作者将审查人员比作是白血球。
报告说,生物免疫系统的工作重点不是尽快达到零感染的水平,而是阻止传染物扩散并干扰到生物体的健康;微博的审查重点似乎同样务实,只要敏感话题没有大规模传播,一些敏感帖子在某段时间内是可以被容忍的。
Paul Mozur