科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 2528 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2010-12-24
高兴
高兴
发短消息
相关词条
重新定义公司
重新定义公司
学术自由的宪法基础
学术自由的宪法基础
TED中国化之路
TED中国化之路
智慧经济
智慧经济
学习方法论
学习方法论
山寨文化与社会解构运动
山寨文化与社会解构运动
互联网思维经济学逻辑
互联网思维经济学逻辑
互联网与资本主义
互联网与资本主义
集体智慧
集体智慧
可删除互联网
可删除互联网
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

目录

文化组学编辑本段回目录

一种强大的新工具能通过获取我们使用单词和短语的频率,帮助量化人类文化的演变。

从基因组学中得到启发,一个研究人员小组设计出一种工具,该工具给出随时间推移文化如何改变的定量数据。基因组学研究可分析海量数据,研究基因如何发挥作用和改变。这个新工具采用一种大规模的方法,研究随时间推移单词使用的频率。

该项目负责人之一,艾略兹·利波曼·埃顿(Erez Lieberman Aiden)说,如果单词被认为是一个文化单元,那么这种方法就是有意义的。他说:“基因组包含可继承的信息,代代相传。在我们写的书里,我们使用的单词,也被代代相传。”

利波曼·埃顿(Lieberman Aiden)和简-拜普提斯特·迈克尔(Jean-Baptiste Michel)同是哈佛大学进化动力学项目组成员,他们领导了这个项目,称其为“文化组学(culturomics)”,这是一个由“文化(culture)”和“基因组学(genomics)”合成的合并词。他们的第一个劳动成果是一个庞大的数据库,存储了1800年~2000年间出版的约520万册图书中的单词,这些图书大概占所有出版图书的4%。它们来自谷歌图书(Google Books)项目,该项目的书库有1500万册图书。

在这期的科学(Science)杂志中,研究人员介绍了其项目以及他们从数据中获取的一些初步结果。谷歌正在推出 (在www.culturomics.org上)一种应用,允许任何人访问和分析完成的数据库,该数据库包含了20亿单词和短语。

研究人员说,通过追踪单词使用的频率,社会科学家、计算机科学家和数学家能观察随时间推移文化趋势的出现和演变。该工具可被用来生成文化的时间轴,显示出文化的尖峰和低谷,这与特定单词的频繁和少量使用是相一致的。

例如,压制在文化史上留下了痕迹。1936~1944年间,在纳粹检查下出版的德语图书中,几乎没有提及那段时间以前和以后常见的某些艺术家和哲学家的名字。

该分析也可识别出在出版的图书里有但在词典中找不到的单词,包括“干旱化(aridification)”(某个区域的完全变干)和“可删除的(deletable)”。这些单词也不例外:当研究人员合计英语词典中的所有单词时,他们找出了超过100万单词,这是大的现代词典收词量的两倍。(例如,牛津英语词典收录不到50万条目。)

埃顿说,他希望来自多个学科的研究人员找到利用这些数据的新方法。“这是人文学者用来就人类本质收集深刻见解和回答问题的另一种工具。”

他和迈克尔从2007年开始认真着手这个项目。不是谷歌数字图书馆的所有图书都不受版权限制的公共领域,所以研究人员必须小心以免违反版权法。大体上,他们从图书的上下文中删去了那些单词,同时保持类似出版日期那样的元数据完整,并把单词编为巨大的词频表。

他们使用过滤条件使其数据尽可能地准确,剔除掉例如出版日期不正确或文字被光学字符识别软件(optical-character-recognition software)糟糕转录的图书。经过筛选,他们留下了5195769册图书,包含长度超过5千亿单词的文字。其中大约72%的文字是英语单词。

大量而密集的计算指令会基于每个字的使用频率将数据集压缩成一个数据,这些计算指令被分散在谷歌的多台机器上执行并且很快就会完成。

康奈尔大学的一名计算机科学家乔·卡莱伯格(Jon Kleinberg)说,词频可作为识别文化中趋势的一种强大数量化工具。他说:“观察单个单词的行为经常是一种跨时间现象的首要指示符。”然而,扫描的材料只是开始。其他数字文本为文化信息的数量化研究提供了丰富的资源。例如,对谷歌搜索词的分析能揭示人们感兴趣的是什么。或者一个对Facebook更新的大规模研究可作为一个实时的公众心态调查。

他说:“我们正在看到以前从来没有被写下来的事情。在Twitter或Facebook上,成百万的人在说‘我觉得很快乐’或‘我觉得不愉快’。过去10年以前,你在哪里能看到成百万的人写下他们的感觉?”

参考文献编辑本段回目录

http://mittrchinese.com/single.php?p=6696

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

标签: 文化组学

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共0条)发表评论>>

对词条发表评论

评论长度最大为200个字符。