基于Python的文本情感分类

文章来源：企鹅号 - 每天进步一点点2015

前言

在上一期《【干货】--手把手教你完成文本情感分类》中我们使用了R语言对酒店评论数据做了情感分类，基于网友的需求，这里再使用Python做一下复现。关于步骤、理论部分这里就不再赘述了，感兴趣的可以前往上面提到的文章查看。下面给出Python的具体代码。

Python代码

上面代码所做的工作是将用户自定义词设置到jieba分词器中，同时，构造切词的自定义函数，添加的附加功能是删除停用词。

使用TFIDF权重构造文档词条矩阵，注意，这里根据词频选择了最高频的20个词，作为矩阵的列数。

通过构建朴素贝叶斯模型，得到的样本测试集准确率约为70%。

结语

OK，关于使用Python完成情感分类的实战我们就分享到这里，大家注意，上面的方法是通过构造DFIDF权重的文档词条矩阵（词袋法）。如果你的文本非常大的话，使用这种方法会导致“词汇鸿沟”，即形成非常庞大的矩阵（而且还是稀疏矩阵），就会吃掉电脑的很多内存。而且这种方法还不能考虑到词与词之间的逻辑顺序。为了克服这个问题，科学家想出了词向量、文档向量等方法，后期我也会把这部分内容的理论和实战给大家做一个分享。如果你有任何问题，欢迎在公众号的留言区域表达你的疑问。同时，也欢迎各位朋友继续转发与分享文中的内容，让更多的人学习和进步。

关注“每天进步一点点2015”，与小编一同进步！

发表于: 2017-12-202017-12-20 17:48:37
原文链接：http://kuaibao.qq.com/s/20171220G0MMJ300?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

基于Python的文本情感分类

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐