数据资源: 中文期刊论文

基于随机森林的文本分类模型研究



编号 zgly0000442961

文献类型 期刊论文

文献题名 基于随机森林的文本分类模型研究

作者 张华伟  王明文  甘丽新 

作者单位 江西师范大学计算机信息工程学院 

母体文献 山东大学学报: 理学版 

年卷期 2006,41(3)

页码 5-9

年份 2006 

分类号 TP18 

关键词 文本分类  随机森林  决策树  泛化误差 

文摘内容 随着WWW的迅猛发展, 文本分类成为处理和组织大量文档数据的关键技术。随机森林模型是决策树的集成, 并且由一随机向量决定决策树的构造。当森林中的决策树的数目增大, 随机森林的泛化误差将趋向一个上界。将随机森林模型应用于文本分类, 在Reuter21578数据集上的实验表明, 分类效果比较好, 性能比较稳定, 将共同C4.5, KNN, SM0, SVM4种典型的文本分类器进行了比较, 结果显示它的分类性能胜于CA.5, 同KNN, SMO和SVM方法相当。

相关图谱

扫描二维码