tag 标签: 文本分类

相关资源
  • 所需E币: 3
    时间: 2019-6-5 21:48
    大小: 1.1MB
    上传者: royalark_912907664
    文本分类技术是文本挖掘技术中的研究热点之一,但是传统KNN分类算法的时间复杂度高,在不均匀密度样本下分类准确率低。针对这些问题,提出一种在不均匀密度样本下的优化KNN算法:IKNN算法。首先选取样本分类不均匀的训练样本,并对其中高密度样本做出相应的裁剪,以提高准确率。然后在此基础上,针对裁剪后的训练样本使用投影寻踪理论,选取更小的、更具代表性的样本库,以降低分类算法的时间复杂度。在此理论基础上,通过实验表明,在大量的训练样本下,与经典KNN算法相比,IKNN算法具有更高的效率和准确率。
  • 所需E币: 3
    时间: 2019-6-4 22:33
    大小: 1.64MB
    上传者: royalark_912907664
    基于用户画像的广告定向技术普遍应用于品牌展示和精准竞价广告,然而现有的用户搜索画像技术存在着特征维度大、矩阵稀疏的问题。针对这一问题,本文采用卡方检验和线性核支持向量机相结合的方法,首先利用结巴分词对搜索文本预处理,其次采用卡方检验进行特征选择,并采用支持向量机分类算法进行属性判定,最后进行了实验对比。实验表明卡方检验有效降低了特征维度,并提升了分类准确度;支持向量机在矩阵稀疏上分类性能优于其他常用的文本分类算法。
  • 所需E币: 3
    时间: 2019-6-2 15:33
    大小: 1.51MB
    上传者: royalark_912907664
    文本分类技术作为文本数据处理的一种重要手段,如何提高文本分类的效率具有重大的意义。基于传统的文本分类技术采用TFIDF算法计算权重没有考虑特征项在类别间的分布情况而影响了文本分类效果。本文通过对TFIDF提出了改进,同时融入了Labeled-LDA模型,结合文本分类对比实验,提出了一种基于混合特征的分类方法。实验表明该方法在文本分类效果F值上有了显著提升,证明了本文改进方法的有效性。