数据资源: 中文期刊论文

Web信息抽取技术综述



编号 zgly0000660700

文献类型 期刊论文

文献题名 Web信息抽取技术综述

作者 陈钊  张冬梅 

作者单位 北京林业大学信息学院 

母体文献 计算机应用研究 

年卷期 2010(12)

页码 4401-4405

年份 2010 

分类号 TP391 

关键词 Web信息抽取  网页噪声  URL聚类  DSE算法  RoadRunner系统  MDR  视觉特征  模板 

文摘内容 快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。

相关图谱

扫描二维码