文化组学编辑本段回目录
从基因组学中得到启发,一个研究人员小组设计出一种工具,该工具给出随时间推移文化如何改变的定量数据。基因组学研究可分析海量数据,研究基因如何发挥作用和改变。这个新工具采用一种大规模的方法,研究随时间推移单词使用的频率。
该项目负责人之一,艾略兹·利波曼·埃顿(Erez Lieberman Aiden)说,如果单词被认为是一个文化单元,那么这种方法就是有意义的。他说:“基因组包含可继承的信息,代代相传。在我们写的书里,我们使用的单词,也被代代相传。”
利波曼·埃顿(Lieberman Aiden)和简-拜普提斯特·迈克尔(Jean-Baptiste Michel)同是哈佛大学进化动力学项目组成员,他们领导了这个项目,称其为“文化组学(culturomics)”,这是一个由“文化(culture)”和“基因组学(genomics)”合成的合并词。他们的第一个劳动成果是一个庞大的数据库,存储了1800年~2000年间出版的约520万册图书中的单词,这些图书大概占所有出版图书的4%。它们来自谷歌图书(Google Books)项目,该项目的书库有1500万册图书。
在这期的科学(Science)杂志中,研究人员介绍了其项目以及他们从数据中获取的一些初步结果。谷歌正在推出 (在www.culturomics.org上)一种应用,允许任何人访问和分析完成的数据库,该数据库包含了20亿单词和短语。
研究人员说,通过追踪单词使用的频率,社会科学家、计算机科学家和数学家能观察随时间推移文化趋势的出现和演变。该工具可被用来生成文化的时间轴,显示出文化的尖峰和低谷,这与特定单词的频繁和少量使用是相一致的。
例如,压制在文化史上留下了痕迹。1936~1944年间,在纳粹检查下出版的德语图书中,几乎没有提及那段时间以前和以后常见的某些艺术家和哲学家的名字。
该分析也可识别出在出版的图书里有但在词典中找不到的单词,包括“干旱化(aridification)”(某个区域的完全变干)和“可删除的(deletable)”。这些单词也不例外:当研究人员合计英语词典中的所有单词时,他们找出了超过100万单词,这是大的现代词典收词量的两倍。(例如,牛津英语词典收录不到50万条目。)
埃顿说,他希望来自多个学科的研究人员找到利用这些数据的新方法。“这是人文学者用来就人类本质收集深刻见解和回答问题的另一种工具。”
他和迈克尔从2007年开始认真着手这个项目。不是谷歌数字图书馆的所有图书都不受版权限制的公共领域,所以研究人员必须小心以免违反版权法。大体上,他们从图书的上下文中删去了那些单词,同时保持类似出版日期那样的元数据完整,并把单词编为巨大的词频表。
他们使用过滤条件使其数据尽可能地准确,剔除掉例如出版日期不正确或文字被光学字符识别软件(optical-character-recognition software)糟糕转录的图书。经过筛选,他们留下了5195769册图书,包含长度超过5千亿单词的文字。其中大约72%的文字是英语单词。
大量而密集的计算指令会基于每个字的使用频率将数据集压缩成一个数据,这些计算指令被分散在谷歌的多台机器上执行并且很快就会完成。
康奈尔大学的一名计算机科学家乔·卡莱伯格(Jon Kleinberg)说,词频可作为识别文化中趋势的一种强大数量化工具。他说:“观察单个单词的行为经常是一种跨时间现象的首要指示符。”然而,扫描的材料只是开始。其他数字文本为文化信息的数量化研究提供了丰富的资源。例如,对谷歌搜索词的分析能揭示人们感兴趣的是什么。或者一个对Facebook更新的大规模研究可作为一个实时的公众心态调查。
他说:“我们正在看到以前从来没有被写下来的事情。在Twitter或Facebook上,成百万的人在说‘我觉得很快乐’或‘我觉得不愉快’。过去10年以前,你在哪里能看到成百万的人写下他们的感觉?”