科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 3693 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2009-03-18
admin
admin
发短消息
相关词条
bat
bat
Processing语言
Processing语言
固件
固件
SSID
SSID
LAMP
LAMP
Flash和HTML5
Flash和HTML5
沙盒
沙盒
六种主要计算机语言优缺点
六种主要计算机语言优缺点
系统集成
系统集成
间谍软件
间谍软件
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

 

目录

基本认识编辑本段回目录

corpus 语料库
关于语料库的三点基本认识:
语料库中存放的是在语言的实际使用中真实出现过的语言材料;
语料库是以电子计算机为载体承载语言知识的基础资源;
真实语料需要经过加工(分析和处理),才能成为有用的资源;

什么是第三代语料库?
苑春法,黄昌宁等人在1995年著文谈到"第三代语料库"的问题,并且介绍了美国计算语言学学会倡议的数据采取计划ACL/DCI.认为这一代语料库首先对所有可以得到的语料以文本形式存储起来,它的容量一般为一亿词次以上,21世纪可望达到万亿词次的量级【1】.该文实际上已经将下一代语料库的建设提上议事日程.

特点编辑本段回目录

【第三代语料库的特点】
时代:六,七十年代到八十年代及九十年代以来.
语料:从单语种到多语种.
数量:从百万级到千万级再到亿级和万亿级.
加工:从词法级到句法级再到语义和语用级.
文本:从抽样到全文.


【动态流通语料库】
是历时语料库.是基于大规模真实文本的语料库,是对语言文字的使用进行动态追踪的语料库,是对语言的发展变化进行监测的语料库,是"活"的语料库.

动态语料库有两大特色:
1,语料的动态性:语料是不断动态补充的.
2,语料的流通性:语料又多了一种新的"流通度"属性,这是一种具有量化的属性值的属性.

特点一:动态性
不确定一个固定的库容量(例如:把库容量目标确定为数百万字,上千万字,数千万字,数亿字等);
不确定一个固定的选择文本的时间段(例如:确定为49年-82年,80年-90年,90年-95年语料等)
不确定一个固定的文本选择范围或应用领域(例如:确定为只收现代汉语文学语料,或新闻语料,或科技语料或中小学生语料等,从而建立一些专门的语料库);
不确定一些固定的文本抽样对象(例如:《人民日报》,《光明日报》,《人民文学》,《小说选刊》,或者老舍著作,巴金著作,毛泽东著作,邓小平著作等).

是即期抽取的语料库:根据大众媒体的传播情况,依据一定的原则来动态抽取.
是历时的语料库:可以观察和测量到流通度的变化情况,可以追踪到语言成分的产生,成长和消亡.
是动态变化的语料库:大众传播媒体的情况是在不断变化的,语料库也要相应变化.(例如:1978年,我国报纸只有186种,基本上是单一的党委机关报,到1995年底,已经增加到2202种,平均期印数增加4倍,总印张增加3·5倍,报纸的品种,功能,发行都有了相当大的变化如果要科学地反应语言的流通应用情况,语料库的容量,选材,抽样等怎么可能一成不变呢 )


特点二:流通性
1997年全世界期刊发行量最大的前50名的中国期刊(略)


【关于双语或多语语料库的研究】
目前大致可分为三类:
一是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,现在已经出现了许多对齐双语或多语语料的程序或工具【Gale 1993】;
二是研究双语语料的各种应用,如在基于统计的机器翻译技术【Brown 1990】、基于实例的机器翻译技术【Nagao 1984】,双语词典编纂【Klavans and Tzoukermann 1990】技术中,双语语料库都发挥着十分重要的作用;
三是双语语料库的设计、采集、编码和管理问题。目前比较著名的语料库编码方案有TEI 文本编码标准以及CES标准,两者均基于SGML标记语言。

就前两类研究来说,中国国内目前做了较多的跟踪研究工作,而对于第三类研究,即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究,探索工作似乎做的相对较少。

目前国内最大的语料交换平台是瓦特开元:www.xwatt.com

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

标签: 语料库

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共0条)发表评论>>

对词条发表评论

评论长度最大为200个字符。