编号
zgly0000779585
文献类型
期刊论文
文献题名
社交网络信息采集技术研究与实现
作者单位
中南林业科技大学计算机与信息工程学院
母体文献
电子世界
年卷期
2012(4)
页码
40-41
年份
2012
分类号
TP391
关键词
网络爬虫
社交网络
web信息抽取
AJAX
文摘内容
社交网站作为网络舆情的有效载体,在传播舆情方面有着重要作用。近年迅猛发展起来的微博就是一种典型的社交网站。本文针对微博类网站设计了支持Ajax(Asynchronous Java Scriptand XML)技术的网络爬虫,采用协议驱动和事件驱动结合的采集策略,将爬取分为用户爬取和内容爬取两部分,使用基于模板的抽取方法,实现了对微博数据的成功抽取和存储。抽样结果证明,支持Ajax技术的网络爬虫,较BFS爬虫相比,提高了信息采集的效率和覆盖率。随着DOM Tree复杂度的提高,还有待于设计更高灵活性的网络爬虫。