数据资源: 中文期刊论文

基于改进DSE算法的web信息抽取



编号 zgly0000791513

文献类型 期刊论文

文献题名 基于改进DSE算法的web信息抽取

作者 张冬梅  陈钊  陈剑 

作者单位 北京林业大学信息学院 

母体文献 数字技术与应用 

年卷期 2012(3)

页码 171-173

年份 2012 

分类号 TP391 

关键词 信息抽取  模板  DSE  RoadRunner  文档对象模型 

文摘内容 随着我国信息化进程的推进,人们开始认识到互联网作为信息来源的重要性,如何更有效地从网络的海量信息中抽取所需要的内容并进行合理的组织和利用已经成为亟待解决的问题。本文通过对DSE算法和RoadRunner系统中的算法的探讨和改进,提出了一种新的自动生成模板的信息抽取方法,并且在确定同模板网页url的阈值时引入了生物信息学中的FDR方法,为阈值的确定提出了理论根据。实验结果表明,经过改进的抽取方法对抽取结果的准确率有着明显的改善作用。

相关图谱

扫描二维码