摘 要: 使用朴素贝叶斯分类算法,结合Spark内存计算框架,对用户观看视频及次数信息进行分析,建立用户性
别和年龄区间的分类模型;然后利用特征项的权重优化模型,考虑到每个特征项在各个类别中的权重对分类结果的影
响,提出了一种基于特征项与类别间相关性的TFC-IDFC权重计算方法,并与传统的TF-IDF权重计算方法进行比较,
通过正确率和F1值两个指标,证明考虑到特征项与类别的相关性所提出的TFC-IDFC权重使得分类模型的分类能力更
好。 |
关键词: Spark;用户特征;贝叶斯;分类;TF-IDF |
中图分类号: TP391
文献标识码: A
|
|
User Characteristic Analysis Based on Spark and the Improved TF-IDF Algorithm |
ZHANG Shuya,WANG Zhangang
|
( School of Computer Science and Software Engineering, Tianjin Polytechnic University, Tianjin 300388, China)
|
Abstract: |
Keywords: spark;user characteristics;Bayes;classification;TF-IDF |