编号 zgly0001607624
文献类型 期刊论文
文献题名 基于主题相关度的地理信息Web服务爬虫研究
作者单位 武汉大学遥感信息工程学院 国家基础地理信息中心 中国矿业大学环境与测绘学院
母体文献 地理与地理信息科学
年卷期 2012年02期
年份 2012
分类号 P208
关键词 地理信息Web服务 服务检索 爬虫 主题相关度
文摘内容 针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。