科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技中国——欢迎光临全球最大的互联网博物馆
  • 人气指数: 14049 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2011-11-13
明天
明天
发短消息
相关词条
M2M
M2M
SPDY
SPDY
MOVE模式
MOVE模式
WebRTC
WebRTC
网页分类技术
网页分类技术
Li-Fi
Li-Fi
Teaser Page
Teaser Page
数字蚂蚁
数字蚂蚁
FOE
FOE
远程立体视频会议
远程立体视频会议
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
王健林电商梦
王健林电商梦
陌陌IPO
陌陌IPO
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

网页分类技术 发表评论(1) 编辑词条

目录

网页分类技术编辑本段回目录

1. 技术背景

分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。

在搜索引擎中,文本分类主要有这些用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时候会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的url所属的类别来推断检索串的类别等等。

2. 自动分类的原理和步骤

在分类的时候首先会遇到文档形式化表示的问题,文档模型有3种:向量空间模型,布尔模型和概率模型,其中我们常用的是向量空间模型。向量空间模型的核心描述如下:

  • 文档(Document):文本或文本中的片断(句子或段落)。
  • 特征项(Term):文档内容用它所包含的基本语言单位来表示,基本语言单位包括字、词、词组、短语、句子、段落等,统称为特征项。
  • 特征项权重(Term Weight):不同的特征项对于文档D的重要程度不同,用特征项Tk附加权重Wk 来进行量化,文档D可表示为(T1,W1;T2,W2;…;Tn,Wn)
  • 向量空间模型(Vector Space Model):对文档进行简化表示,在忽略特征项之间的相关信息后,一个文本就可以用一个特征向量来表示,也就是特征项空间中的一个点;而一个文本集可以表示成一个矩阵,也就是特征项空间中的一些点的集合。
  • 相似度(Similarity):相似度Sim(D1,D2)用于度量两个文档D1和D2之间的内容相关程度。当文档被表示为文档空间的向量,就可以利用欧氏距离、内积距离或余弦距离等向量之间的距离计算公式来表示文档间的相似度。

其中特征选取是文本表示的关键, 方法包括:文档频率法(DF)、信息增益法和互信息法等等。

在做特征选取之前,一般还要进行预处理的工作,要对先对网页降噪。另外在实际的分类中,除了利用文档的内容特征之外,可能还会用到实际应用中所特有的特征,比如在网页分类中,可能用到url的特征、html的结构特征和标签特征等信息。

分类的基本步骤是这样的:定义分类体系,将预先分类过的文档作为训练集,从训练集中得出分类模型,然后用训练获得出的分类模型对其它文档加以分类。

3. 常用的分类算法

文档自动分类是学术界研究多年,技术上比较成熟的一个领域。目前分类算法主要分下面这些:

其中比较常用的是:支持向量机(SVM)方法、朴素贝叶斯(NB)方法、神经网络(NN)方法、K近邻(KNN)方法、决策树(Decision Tree)方法等。

  • 支持向量机(Support Vector Machines, SVM)由Vapnik在1995年提出,用于解决二分类模式识别问题。它通过寻找支持向量来确定决策面,并使分类间隔最大。SVM方法提供了解决 “维数灾难”问题的方法。SVM方法较好的理论基础和它在一些领域的应用中表现出来的优秀的泛化性能,尽管SVM算法的性能在许多实际问题的应用中得到了验证,但是该算法在计算上存在着一些问题,包括训练算法速度慢、算法复杂而难以实现以及检测阶段运算量大等等。
  • 朴素贝叶斯(Naive Bayes,NB) 概率分类器是机器学习中很常用的一种方法,其基本思想是利用单词和分类的联合概率来估计给定文档的分类概率。

贝叶斯公式:P(C|X)*P(X)=P(X|C)*P(C)

特征向量:X=(x1,x2,x3…) C={C1,C2,……}

其中P(C)是每个类别的先验概率,即,互联网上各个分类所占总页面的比例

P(X|C):条件概率,表示在类别为C的训练集合中,X的分布情况。

P(X):每个特征值的分布,由于特征值的分布是随机的,所以P(X)相等

  • 神经网络(Neural network,NN)技术是人工智能中的成熟技术。将神经网络用于文档分类时,需要为每个分类建立一个神经网络,通过学习得到从输入单词(或者更复杂的特征词向量)到分类的非线性映射。其计算量和训练时间非常庞大。
  • KNN是著名的模式识别统计学方法,已经有四十年历史,它是最好的文本分类算法之一。KNN算法相当简单:给定一个测试文档,系统在训练集中查找离它最近的k个邻居,并根据这些邻居的分类来给该文档的候选分类评分。把邻居文档和测试文档的相似度作为邻居文档所在分类的权重。如果这k个邻居中的部分文档属于同一个分类,则该分类中的每个邻居的权重求和并作为该分类和测试文档的相似度。该方法的特点是允许文档可以属于多个分类。KNN通过查询已知类似的例子的情况,来判断新例子与已知例子是否属于同一类。

通过我们对现实网页的分类测试情况看,这些方法中SVM方法的效果是比较好的,但是性能不高; 朴素贝叶斯的分类效果虽然略差于SVM,但是性能上要好很多。


4. 网页分类应用

4.1分类算法

实际应用中, 除了分类效果外, 速度是一个需要重点考虑的因素。

4.2分类类别

在搜索引擎中, 在不同的应用场景下, 会有不同的分类的标准, 比如在链接调度中需要信息页、索引页这样的分类,不同类型的页面更新调度的周期不一样;排序对分类的要求又不同, 比如按表现形式分图片、视频等;按网站类型分为论坛、博客等,不同类型的页面抽取策略也会不尽相同;再按内容主题分成小说、招聘和下载等类别。对网页从多个维度进行分类,能更好给用户提供更为贴切的检索结果。

4.3 特征选取

在学术研究中, 一般比较重视分类算法的研究,在特征选择上比较忽视。传统的特征选择一般是用TF*IDF等方法选择内容关键字等,这也是我们使用的一个重要因子, 但是除内容特征之外,我们还会用到很多其它特征,比如:网站特征、html特征和url特征等,这些特征会明显的提高分类的准确率和召回率。

本文来自:http://blog.qq.com/qzone/774789782/1300432753.htm

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

标签: 网页分类技术

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共1条)查看评论>>

对词条发表评论

评论长度最大为200个字符。