数据资源: 中文期刊论文

社交网络信息采集技术研究与实现



编号 zgly0000779585

文献类型 期刊论文

文献题名 社交网络信息采集技术研究与实现

作者 周思思  袁晓红 

作者单位 中南林业科技大学计算机与信息工程学院 

母体文献 电子世界 

年卷期 2012(4)

页码 40-41

年份 2012 

分类号 TP391 

关键词 网络爬虫  社交网络  web信息抽取  AJAX 

文摘内容 社交网站作为网络舆情的有效载体,在传播舆情方面有着重要作用。近年迅猛发展起来的微博就是一种典型的社交网站。本文针对微博类网站设计了支持Ajax(Asynchronous Java Scriptand XML)技术的网络爬虫,采用协议驱动和事件驱动结合的采集策略,将爬取分为用户爬取和内容爬取两部分,使用基于模板的抽取方法,实现了对微博数据的成功抽取和存储。抽样结果证明,支持Ajax技术的网络爬虫,较BFS爬虫相比,提高了信息采集的效率和覆盖率。随着DOM Tree复杂度的提高,还有待于设计更高灵活性的网络爬虫。

相关图谱

扫描二维码