编号
zgly0000657798
文献类型
期刊论文
文献题名
Web网页文本特征选择方法研究
作者单位
齐齐哈尔大学通信学院
东北林业大学机电工程学院
母体文献
计算机工程与设计
年卷期
2010(16)
页码
3724-3727
年份
2010
分类号
TP391.1
关键词
特征选择
文本分类
噪音文本
Web
决定性特征
文摘内容
提出了一种用于文本分类的特征选择方法。计算文本的特征值,每个特征值被赋予一个权重值,权重值的大小表示文本特征的重要程度,权重值最大的特征为决定性特征,决定性特征能代表某一类;通过构造树结构模型来消除噪音文本,同时还可以降低计算复杂度;最后改进该算法,动态的检测相对于当前节点的最佳节点更有利于进行特征选择。实验结果表明,该方法具有较高的分类精度,且计算成本较低,符合规模Web自动分类的需要。