编号
zgly0001607624
文献类型
期刊论文
文献题名
基于主题相关度的地理信息Web服务爬虫研究
作者单位
武汉大学遥感信息工程学院
国家基础地理信息中心
中国矿业大学环境与测绘学院
母体文献
地理与地理信息科学
年卷期
2012年02期
年份
2012
分类号
P208
关键词
地理信息Web服务
服务检索
爬虫
主题相关度
文摘内容
针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。