编号
zgly0000959486
文献类型
期刊论文
文献题名
大数据环境下Lucene性能优化方法研究
作者单位
国家计算机网络应急技术处理协调中心江苏分中心
母体文献
南京理工大学学报
年卷期
2015(3)
页码
260-265
年份
2015
关键词
大数据
Lucene
内存计算
批量更新
倒排索引
倒排表
缓存
内存索引
磁盘索引
多分块倒排结构
文摘内容
为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法——内存磁盘索引(RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索引结构中,从而提升倒排索引的写入性能。通过整合磁盘和内存的多分块倒排结构,为用户提供高效的数据查询分析结果。实验结果表明:在大数据环境下,RFDirectory方法的索引构建时间缩短为磁盘索引(FSDirectory)、内存索引(RAMDirectory)方法索引构建时间的50%,返回1个关键字的检索结果耗时缩短了近15%。