编号 zgly0000791513
文献类型 期刊论文
文献题名 基于改进DSE算法的web信息抽取
作者单位 北京林业大学信息学院
母体文献 数字技术与应用
年卷期 2012(3)
页码 171-173
年份 2012
分类号 TP391
关键词 信息抽取 模板 DSE RoadRunner 文档对象模型
文摘内容 随着我国信息化进程的推进,人们开始认识到互联网作为信息来源的重要性,如何更有效地从网络的海量信息中抽取所需要的内容并进行合理的组织和利用已经成为亟待解决的问题。本文通过对DSE算法和RoadRunner系统中的算法的探讨和改进,提出了一种新的自动生成模板的信息抽取方法,并且在确定同模板网页url的阈值时引入了生物信息学中的FDR方法,为阈值的确定提出了理论根据。实验结果表明,经过改进的抽取方法对抽取结果的准确率有着明显的改善作用。