前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于词典和朴素贝叶斯中文情感倾向分析算法

基于词典和朴素贝叶斯中文情感倾向分析算法

作者头像
机器学习AI算法工程
发布2019-10-28 18:13:39
2.7K0
发布2019-10-28 18:13:39
举报

情感分析方法

情感分析方法,大致上分为两种:

  • 基于词典的
  • 基于机器学习的
  • 朴素贝叶斯
  • 支持向量机
  • 神经网络

本文相关代码和数据

关注微信公众号datayx 然后回复“ 情感分析”即可获取。

基于词典的金融情感分析

基于词典的中文情感倾向分析算法.png

代码语言:javascript
复制
宁馨的点评 国庆活动,用62开头的信用卡可以6.2元买一个印有银联卡标记的冰淇淋,
有香草,巧克力和抹茶三种口味可选,我选的是香草口味,味道很浓郁。
另外任意消费都可以10元买两个马卡龙,个头虽不是很大,但很好吃,不是很甜的那种,不会觉得腻。

分句

代码语言:javascript
复制
[
'宁馨的点评 国庆活动,用62开头的信用卡可以6.2元买一个印有银联卡标记的冰淇淋,
有香草,巧克力和抹茶三种口味可选,我选的是香草口味,味道很浓郁',
'另外任意消费都可以10元买两个马卡龙,个头虽不是很大,但很好吃,不是很甜的那种,不会觉得腻',
''
]

每个句子分词 在每个句子分词的过程中,根据他的词性,去除停用词(做简单清洗),比如:专有名词、标点符好、时间(包含节假日)、数字、助词、语气词···· 得到如下词列表

代码语言:javascript
复制
[
[[3, '点评', 'v'], [6, '活动', 'vn'], [8, '用', 'p'], [10, '开头', 'v'], [13, '可以', 'c'], [16, '买', 'v'], [18, '印有', 'v'], [24, '有', 'v'], [28, '和', 'c'], [29, '抹', 'v'], [33, '可', 'v'], [34, '选', 'zg'], [36, '我', 'r'], [37, '选', 'v'], [39, '是', 'v'], [44, '很', 'zg'], [45, '浓郁', 'a']],
[[1, '另外', 'c'], [2, '任意', 'v'], [3, '消费', 'vn'], [4, '都', 'd'], [5, '可以', 'c'], [8, '买', 'v'], [13, '虽', 'zg'], [14, '不是', 'c'], [15, '很大', 'a'], [17, '但', 'c'], [18, '很', 'd'], [19, '好吃', 'v'], [21, '不是', 'c'], [22, '很甜', 'a'], [24, '那种', 'r'], [26, '不会', 'v'], [27, '觉得', 'v'], [28, '腻', 'v']],
[]
]

接下来就是根据多得到的分词来做情感分数的计算 需要找到四类词:否定词、程度副词、情感词、词边界上的连词

代码语言:javascript
复制
我很不开心 |  我不很开心
就表达的不是一个意思,所要要计算否定词与情感次的间距
但是,其词间距如果超过3就作废
代码语言:javascript
复制
情感词典是人工标记好的,就只是针对这个句子的话,
我是这样标记的
{    "浓郁":0.6,    "好吃":0.7,    "甜":0,    "腻":-0.3}
否定词:
不 不是 不会
程度副词:
程度词用的是hownet程度词,一共分6个等级
“极其|extreme/最|most”  1
“很|very”              0.84
“较|more”              0.67
“稍|-ish”              0.51
“欠|insufficiently”    0.35
“欠|insufficiently”    0.19
连词:
{
   "另外":0
}

得到列表

代码语言:javascript
复制
[
[[44, '很',0.84], [45, '浓郁',0.6]]
[[14, '不是',-1],[18, '很',0.84]
[19, '好吃',0.7],[21, '不是',-1],
[26, '不会',-1],[28, '腻',-0.3]
]
连词列表
[['另外',0]]

接下来就是句法判断了

代码语言:javascript
复制
第一句很简单,没有否定词
[[44, '很',0.84], [45, '浓郁',0.6]]
Score=0.84*0.6第二句有程度词、否定词、情感词
定情感词,寻找情感词前的否定词
定否定词,寻找否定词相减的绝对值是否小于三
判断如果小于三,
     如果为正就类似「 很不开心 」score+=(-1)*(degree)*(开心)
     如果为负类似与「 不很开心 」score+=(degree)*(开心)
如果大于三,滤过
就拿如下列子
[14, '不是',-1],[18, '很',0.84][19, '好吃',0.7]
18-14>3 所以
score+=0.84*0.7
[21, '不是',-1],[26, '不会',-1],[28, '腻',-0.3]
21-26>3,所以
score+=(-1)*(-0.3)
第二个句子的score:0.88由于连词「 并 」
所以,整个段的score=1.4

反馈 基于词典的情感分析,依赖人工标记的词典,所以需要大量的人力。 如果遇到是情感词但是词典里没有,就设计到另一种在NLP经常用到的技术 「 文本相似度 」。 以上步骤可以更加优化,比如用决策树来判断句法规则。 下一步实现,基于「 朴素贝叶斯 」的情感分析

基于朴素贝叶斯的情感分析

基于机器学习的情感分析.png

相对于「 基于词典的分析 」,「 基于机器学习 」的就不需要大量标注的词典,但是需要大量标记的数据,比如: 还是下面这句话,如果它的标签是: 服务质量 - 中 (有三个级别,好、中、差) ╮(╯-╰)╭,其是机器学习,通过大量已经标签的数据训练出一个模型, 然后你在输入一条评论,来判断标签级别

代码语言:javascript
复制
宁馨的点评 国庆活动,用62开头的信用卡可以6.2元买一个印有银联卡标记的冰淇淋,
有香草,巧克力和抹茶三种口味可选,我选的是香草口味,味道很浓郁。
另外任意消费都可以10元买两个马卡龙,个头虽不是很大,但很好吃,不是很甜的那种,不会觉得腻。
标签:服务质量 - 中

朴素贝叶斯

1、贝叶斯定理 假设对于某个数据集,随机变量C表示样本为C类的概率,F1表示测试样本某特征出现的概率,套用基本贝叶斯公式,则如下所示:

上式表示对于某个样本,特征F1出现时,该样本被分为C类的条件概率。那么如何用上式来对测试样本分类呢?

举例来说,有个测试样本,其特征F1出现了(F1=1),那么就计算P(C=0|F1=1)和P(C=1|F1=1)的概率值。前者大,则该样本被认为是0类;后者大,则分为1类。 对该公示,有几个概念需要熟知: 先验概率(Prior)。P(C)是C的先验概率,可以从已有的训练集中计算分为C类的样本占所有样本的比重得出。 证据(Evidence)。即上式P(F1),表示对于某测试样本,特征F1出现的概率。同样可以从训练集中F1特征对应样本所占总样本的比例得出。 似然(likelihood)。即上式P(F1|C),表示如果知道一个样本分为C类,那么他的特征为F1的概率是多少。 对于多个特征而言,贝叶斯公式可以扩展如下:

分子中存在一大串似然值。当特征很多的时候,这些似然值的计算是极其痛苦的。现在该怎么办?

2、朴素的概念 为了简化计算,朴素贝叶斯算法做了一假设:“朴素的认为各个特征相互独立”。这么一来,上式的分子就简化成了:

P(C)P(F1|C)P(F2|C)...P(Fn|C)。 这样简化过后,计算起来就方便多了。 这个假设是认为各个特征之间是独立的,看上去确实是个很不科学的假设。因为很多情况下,各个特征之间是紧密联系的。然而在朴素贝叶斯的大量应用实践实际表明其工作的相当好。

其次,由于朴素贝叶斯的工作原理是计算P(C=0|F1...Fn)和P(C=1|F1...Fn),并取最大值的那个作为其分类。而二者的分母是一模一样的。因此,我们又可以省略分母计算,从而进一步简化计算过程。

另外,贝叶斯公式推导能够成立有个重要前期,就是各个证据(evidence)不能为0。也即对于任意特征Fx,P(Fx)不能为0。而显示某些特征未出现在测试集中的情况是可以发生的。因此实现上通常要做一些小的处理,例如把所有计数进行+1(加法平滑(additive smoothing,又叫拉普拉斯平滑(Laplace smothing))。而如果通过增加一个大于0的可调参数alpha进行平滑,就叫Lidstone平滑

Screenshot from 2017-06-28 09-42-49.png

基于朴素贝叶斯的情感分类

原始数据集,只抽了10条

读数据

读取excel文件,用的pandas库的DataFrame的数据类型

分词
代码语言:javascript
复制
浙北大厦的点评 因为银联云闪付半价活动,天天跑浙北,家里该囤的都囤完了后,
不知道买什么的时候看到浙北购物中心地下超市有卖寿司,材料看着蛮高档的,想着半价买来吃也划算的。
挑了一盒55元的寿司,一共有12个寿司,三文鱼,大虾,螺肉,鳗鱼等各种口味都有,
每种看着都不错,配着酱油和芥末吃味道都挺好的。

对每个评论分词,分词的同时去除停用词,得到如下词表 每个列表是与评论一一对应的

代码语言:javascript
复制
[
[['半价', 'n'], ['半价', 'n'], ['划算', 'v'], ['不错', 'a'], ['挺好', 'a']],
[['丰盛', 'a'], ['半价', 'n'], ['半价', 'n'], ['免费', 'vn'], ['半价', 'n'], ['推荐', 'v']],
[['美好', 'a'], ['不错', 'a'], ['很大', 'a'], ['舒适', 'a'], ['靓丽', 'a'], ['舒心', 'a'], ['浓厚', 'a'], ['粗', 'a'], ['久', 'a'], ['粗', 'a'], ['平衡', 'a'], ['浓郁', 'a'], ['舒服', 'a']],
[['大', 'a'], ['快', 'a'], ['值', 'n'], ['少', 'a'], ['明显', 'a'], ['少', 'a']],
[['满', 'a'], ['划算', 'v'], ['短', 'a'], ['好', 'a'], ['好评', 'v']],
[['丰富', 'a'], ['很大', 'a'], ['嘈杂', 'a'], ['免费', 'vn'], ['方便', 'a'], ['酸爽', 'a'], ['厚实', 'a'], ['不腻', 'a'], ['小', 'a'], ['高', 'a'], ['不要', 'df'], ['甜', 'a'], ['最多', 'a'], ['很大', 'a'], ['贵', 'a'], ['一般', 'a']],
[['小', 'a'], ['最高', 'a'], ['新', 'a'], ['好', 'a'], ['早', 'a'], ['慢', 'a']],
[['浓郁', 'a'], ['很大', 'a'], ['很甜', 'a']],
[['差', 'a'], ['正好', 'a'], ['粗鲁', 'a'], ['很', 'a'], ['明显', 'a'], ['麻烦', 'an'], ['这位', 'rz'], ['愉快', 'a'], ['诚意', 'a'], ['激烈', 'a']],
[['不满', 'a'], ['重要', 'a'], ['清楚', 'a'], ['具体', 'a']]
]
统计

这里统计什么呢?统计两种数据

  1. 评论级别的次数
代码语言:javascript
复制
这里有三个级别分别对应
c0 → 好 2
c1 → 中 3
c2 → 差 5
  1. 每个词在句子中出现的次数
代码语言:javascript
复制
得到一个字典数据evalation [2, 5, 3]半价 [0, 5, 0]划算 [1, 1, 0]不错 [0, 2, 0]·········
不满 [0, 1, 0]重要 [0, 1, 0]清楚 [0, 1, 0]具体 [0, 1, 0]每个词(特征)后的 list坐标位:0,1,2分别对应好,中,差

以上工作完成之后,就是把模型训练好了,只不过数据越多越准确

测试

比如输入一个句子

代码语言:javascript
复制
世纪联华(百联西郊购物中心店)的点评 一个号称国际大都市,收银处的人服务态度差到极点。银联活动30-10,还不可以连单。

得到结果

代码语言:javascript
复制
c2-差

https://www.jianshu.com/p/9701cf5bbe33

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习AI算法工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基于朴素贝叶斯的情感分析
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档