编号 zgly0000657798
文献类型 期刊论文
文献题名 Web网页文本特征选择方法研究
作者单位 齐齐哈尔大学通信学院 东北林业大学机电工程学院
母体文献 计算机工程与设计
年卷期 2010(16)
页码 3724-3727
年份 2010
分类号 TP391.1
关键词 特征选择 文本分类 噪音文本 Web 决定性特征
文摘内容 提出了一种用于文本分类的特征选择方法。计算文本的特征值,每个特征值被赋予一个权重值,权重值的大小表示文本特征的重要程度,权重值最大的特征为决定性特征,决定性特征能代表某一类;通过构造树结构模型来消除噪音文本,同时还可以降低计算复杂度;最后改进该算法,动态的检测相对于当前节点的最佳节点更有利于进行特征选择。实验结果表明,该方法具有较高的分类精度,且计算成本较低,符合规模Web自动分类的需要。