科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 6543 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2009-03-19
admin
admin
发短消息
相关词条
H.265
H.265
IGZO技术
IGZO技术
触摸屏工作原理
触摸屏工作原理
1ZB
1ZB
喷码技术
喷码技术
机电一体化
机电一体化
PMMA塑料
PMMA塑料
自组织系统
自组织系统
终端
终端
模拟计算机
模拟计算机
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

目录

自动标引编辑本段回目录

 

正文编辑本段回目录

  利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程。检索标志从机器词典中取出的叫赋词标引,从文本中抽出的叫抽词标引。抽词标引,又可分为全关键词标引和主关键词标引。从文本中抽取全部关键词作为检索标志的叫全关键词标引;只从文本中抽取表示主题的关键词作为检索标志的叫主关键词标引。自动标引与计算机情报检索、应用语言学和人工智能的研究密切相关。自动标引系统是情报检索系统的一个子系统。自动标引过程与人工标引过程相似,也要经过主题分析、查词表和将自然语言转换为情报检索语言的若干阶段。自动标引的特点是标引速度快,标引的前后一致性好,在随机存储介质容量允许、软件检索功能具备的情况下,可以实现文摘、甚至全文的无人工标引自动检索。目前自动标引系统抽出的表述文献主题的主关键词准确性较差,还不能完全代替人工标引。
  自从1957年美国 IBM公司的H.P.卢恩关于文献自动标引的论文发表后,各国曾进行大量的自动标引实验研究。在主要的国际联机检索系统中,已实现了全关键词自动标引和检索。主关键词自动标引也建立了多个实用系统。自1980年起,中国对汉语自动标引和分词进行了实验研究,科技文献自动分词初步达到了实用水平。并正在应用人工智能、语言学和决策论等方法研究解决自动标引中存在的问题。
  自动标引系统  一个自动标引系统通常包括文本输入、词典、抽词、知识库、综合与转换和输出等 6个子系统。
  ①文本输入子系统 对事实情报或文献文本进行自动标引前,必须使之变为机器可读形式,并按一定格式加以组织,这就是输入子系统的任务。通常,输入子系统处理的结果是将文本以数据库或文档中的记录形式存储在磁介质上。每个记录中包括供标引用的若干字段或子字段(如题目、文摘、文本段落等)。
  ②词典子系统 自动标引词典是存储在计算机系统内的一部或多部词表。因标引的目的要求不同,词表的结构和组织也有很大差别。在赋词标引系统中,词表通常是手工标引用的受控词表(如主题词表)。这种词表中的词之间具有整体-局部、 种-属、 同义和相关关系。在抽词标引系统中,全关键词标引词表是一种禁用词表(亦称非用词表),即词表中收入的词都不作为检索标志;而主关键词标引词表中的每个词具有若干信息,如词类,组配等。在标引过程中,通过查找机器词典确定关键词与非用词、词组构成与切分。
  ③抽词子系统  通过查找机器词典中存储的信息,对输入的文本逐字逐句进行扫描,抽出供综合与转换子系统处理的检索标志。对于拼音文字来说,词间有空格分隔,可按空格进行逐词扫描,作抽词处理。对于汉语这样的拼音文字来说,词间没有空格,不能进行逐词扫描。因此,汉语抽词子系统的首要任务,是将连续书写的汉字文本切分为有空格分隔的词。汉语自动切分,又称汉语自动分词,主要是通过扫描取文本的一部分同词典比较进行分词。分词的方法主要有:最长匹配法、最短匹配法、设立切分标志法、逆向扫描二字前进法和非用字后缀表法等。
  ④知识库子系统 是人工标引中选词知识形式化的规则集合。总结人工标引经验,人们发现,人工标引包括主题分析、选择表述主题的关键词和把关键词转换为规范主题词 3个阶段。这些经验通过主题句法、频率法、概率法、加权法、语法分析法和语义分析法等方法加以形式化,用语义网、框架等知识表达方式构造成知识库。
  ⑤综合与转换子系统 依据知识库提供的知识,对抽词子系统抽出的全部词语进行统计、分析和综合,选取表达主题的关键词,然后,按词典子系统的规范化规则,将选出的关键词转换为规范化词语。
  ⑥输出子系统 将选取的关键词存入到文本记录的有关字段,并将记录输出到要求的介质上。

 

配图编辑本段回目录

 

相关连接编辑本段回目录

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

标签: 自动标引

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共0条)发表评论>>

对词条发表评论

评论长度最大为200个字符。