前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于各种机器学习和深度学习的中文微博情感分析

基于各种机器学习和深度学习的中文微博情感分析

作者头像
数据派THU
发布2022-07-07 13:40:14
4590
发布2022-07-07 13:40:14
举报
文章被收录于专栏:数据派THU数据派THU
代码语言:javascript
复制
来源:机器学习AI算法工程本文约600字,建议阅读5分钟本文中,我们介绍了中文微博情感分析的情况。

中文微博情感分类语料库

  • "情感分析"是我本科的毕业设计,也是我入门并爱上NLP的项目hhh,当时网上相关语料库的质量都太低了,索性就自己写了个爬虫,一边标注一边爬,现在就把它发出来供大家交流。因为是自己的项目,所以标注是相当认真的,还请了朋友帮忙校验,过滤掉了广告/太短/太长/表意不明等语料,语料质量是绝对可以保证的。
  • 带情感标注的微博语料数量: 10000(train.txt)+500(test.txt)

数据格式

  • 文档的每一行代表一条语料。
  • 每条语料的第一个数据为微博对应的mid,是每条微博的唯一标签,可以通过"https://m.weibo.cn/status/" + mid 访问到该条微博的网页(部分微博可能已被博主删除)。
  • 第二个数据为情感标签,0表示负面,1表示正面。
项目说明
  • 训练集10000条语料,测试集500条语料。
  • 使用朴素贝叶斯、SVM、XGBoost、LSTM和Bert,等多种模型搭建并训练二分类模型。
  • 前3个模型都采用端到端的训练方法。
  • LSTM先预训练得到Word2Vec词向量,在训练神经网络。
  • Bert使用的是哈工大的预训练模型,用Bert的[CLS]位输出在一个下游网络上进行finetune。预训练模型需要自行下载。

下载后将文件夹放在./model文件夹下,并将bert_config.json改名为config.json。

实验结果

各种分类器在测试集上的测试结果:

项目资料:

基于情感词典、k-NN、Bayes、最大熵、SVM的情感分析

https://github.com/chaoming0625/SentimentPolarityAnalysis

风险事件文本分类(达观杯Rank4)

https://github.com/DA-southampton/DaguanFengxian

代码语言:javascript
复制
编辑:王菁校对:林亦霖
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 中文微博情感分类语料库
    • 数据格式
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档