编号 zgly0000442961
文献类型 期刊论文
文献题名 基于随机森林的文本分类模型研究
作者单位 江西师范大学计算机信息工程学院
母体文献 山东大学学报: 理学版
年卷期 2006,41(3)
页码 5-9
年份 2006
分类号 TP18
关键词 文本分类 随机森林 决策树 泛化误差
文摘内容 随着WWW的迅猛发展, 文本分类成为处理和组织大量文档数据的关键技术。随机森林模型是决策树的集成, 并且由一随机向量决定决策树的构造。当森林中的决策树的数目增大, 随机森林的泛化误差将趋向一个上界。将随机森林模型应用于文本分类, 在Reuter21578数据集上的实验表明, 分类效果比较好, 性能比较稳定, 将共同C4.5, KNN, SM0, SVM4种典型的文本分类器进行了比较, 结果显示它的分类性能胜于CA.5, 同KNN, SMO和SVM方法相当。