前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >多模型电影短评情感分析

多模型电影短评情感分析

作者头像
润森
发布2022-12-20 20:55:32
4050
发布2022-12-20 20:55:32
举报
文章被收录于专栏:毛利学Python毛利学Python

多模型电影短评情感分析

首先,从传统的特征提取方面对比了BOW、TF-IDF、N-Gram技术,并使用不同的机器学习算法构建了不同的子模型,然后又采用了Stacking模型融合技术对短评情感进行了进一步的探索,最后进阶到深度学习,构建神经网络模型进行文本分类。全文各个模型并不是参数最优,但也有一定的参考价值,因为针对不同的数据集,模型的预测结果都是不尽相同的。言归正传,下面一起来看看电影短评情感分析的结果吧!

者将从以下几个大方向构建电影短评情感分析模型:

  • 基于Bag-Of-Words特征的文本分类模型
  • 基于TF-IDF特征的文本分类模型
  • 基于Stacking模型融合的情感分析
  • 基于深度学习的短评情感分析
  • 基于Bag-Of-Words特征的文本分类模型

笔者首先对短评数据进行了分词,然后算出每个短评的bow特征,并在此基础上训练了LR、MMB、RF、GBDT四个模型,当然各个模型都没有进行很深程度的调优。

数据集说明

data目录里面的数据,只有2万行,

本项目为电影短评情感分析项目,代码文件说明:

  1. code/preprocessing.py]: 预处理文件
  2. code/stacking.py: stacking模型融合项目
  3. code/sentiment_analysis.py: 基于传统的机器学习算法的情感分析模型。
  4. code/dl_sa.py: 基于深度学习的情感分析模型。

模型结果

模型名称

Accuracy

Precision

Recall

F1-Score

AUC

word-level-tfidf-LR

0.872

0.87

0.87

0.87

0.9438

word-level-tfidf-MNB

0.862

0.86

0.86

0.86

0.9394

word-level-tfidf-RF

0.8219

0.82

0.82

0.82

0.8930

word-level-tfidf-GBDT

0.723

0.72

0.72

0.71

0.8183

word-ngram-tfidf-LR

0.8724

0.87

0.87

0.87

0.9439

word-ngram-tfidf-MNB

0.8642

0.86

0.86

0.86

0.9399

word-ngram-tfidf-RF

0.8212

0.82

0.82

0.82

0.8925

word-ngram-tfidf-GBDT

0.7630

0.77

0.76

0.76

0.8588

char-ngram-tfidf-LR

0.8866

0.89

0.89

0.89

0.9552

char-ngram-tfidf-MNB

0.8657

0.87

0.87

0.87

0.9410

char-ngram-tfidf-RF

0.8276

0.83

0.83

0.83

0.9009

char-ngram-tfidf-GBDT

0.7686

0.78

0.77

0.77

0.8613

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-09-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小刘IT教程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 多模型电影短评情感分析
    • 数据集说明
      • 模型结果
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档