小案例(七):口碑分析(python)

案件回顾

商业街口碑分析

  1. 顾客在网络上会发表对商品或商店的留言信息
  2. 对留言进行分析,可以对商业街进行口碑分析
  3. 在论坛中整理了300条留言,并进行分词处理,整理出了不同性别不同年龄段在留言中,使用单词的频数(问题:不同年龄或性别对商业街的印象是否一致?)
  • 聚类分析

将数据存储为csv格式,导入python,查看前10行数据。

import pandas as pd reviewsdata = pd.read_csv('reviewsdata.csv',index_col=0)#index_col=0第一列所为行索引 reviewsdata.head(10)

从表格中,可以看到不同性别、不同年龄使用不同单词的频数。对数据进行聚类分析,并画出聚类树形图。

import scipy import scipy.cluster.hierarchy as sch import matplotlib.pylab as plt import pylab #生成点与点之间的距离矩阵,这里用的欧氏距离: disMat = sch.distance.pdist(reviewsdata.T,'euclidean') #进行层次聚类: Z=sch.linkage(disMat,method='average') #将层级聚类结果以树状图表示出来并保存为plot_dendrogram.png sch.dendrogram(Z,labels=reviewsdata.columns,leaf_font_size=7.5) plt.rcParams['font.sans-serif'] = ['SimHei'] plt.title("口碑的聚类") pylab.show()

在聚类分析的过程中,是将不同性别年龄的人群使用词的频数生成向量,然后比较这些向量的距离,将距离较近的总结在一起。距离近意味着措辞相仿,聚类也就是不断合并两个最相近向量的过程。从图显示,40多岁男性和50多岁男性在使用单词方面很接近,但跟60多岁女性明显不同。整体上,能看出不同年龄段和不同性别之间存在意见差异。

  • 几个小概念

聚类分析:一种根据数据相似度将数据分组对手法,分组前,不能确定每一类的特征。数据相似度通过距离来判断,求距离的方法有很多种,最简单的为欧式距离。本文使用的是层次聚类,文章聚类(一):DBSCAN算法实现(r语言)中介绍了DBSCAN聚类方法。

原文发布于微信公众号 - 机器学习养成记(chenchenwings)

原文发表时间:2017-10-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

资源 | 8张思维导图帮你梳理深度学习&机器学习多个知识点

整理 | suiling 本文是对作者@Daniel Martinez(https://twitter.com/danielmartinezf)在GitHub上...

3835
来自专栏专知

【干货】2017年深度学习必读31篇论文(附论文下载地址)

摘要: 2017年即将擦肩而过,Kloud Strife在其博客上盘点了今年最值得关注的有关深度学习的论文,包括架构/模型、生成模型、强化学习、SGD & 优化...

3567
来自专栏AI研习社

CVPR 2017精彩论文解读:综合使用多形态核磁共振数据的3D生物医学图像分割方法 | 分享总结

论文的故事还在继续 相对于 CVPR 2017收录的共783篇论文,即便雷锋网(公众号:雷锋网) AI 科技评论近期挑选报道的获奖论文、业界大公司论文等等是...

4237
来自专栏Petrichor的专栏

思考: 现有 图像分割算法 的缺陷

人们在关注图像中的生命个体(尤其是人)的时候,关注点 往往 只是目标的脸和手脚 。这部分区域虽小,却给观者提供了对目标个体进行联想的绝大部分信息。

2102
来自专栏深度学习之tensorflow实战篇

贝叶斯估计中极大似然估计、拉普拉斯平滑定理以及M-估计

英文原文链接:http://www.temida.si/~bojan/probability_estimation.php 原文: Probabilit...

3388
来自专栏新智元

【NLP2005年以来大突破】语义角色标记深度模型,准确率提升10%

【新智元导读】被称为取得了NLP “2005 年以来首个大突破”的研究报告 Deep Semantic Role Labeling: What Works an...

3523
来自专栏计算机视觉战队

资源 | 深度学习入门和学习书籍

最近很多新入门的同学问我到底怎么入门,今天先给大家推荐一些有用的书籍和简单的入门。希望可以给有需要的朋友一些帮助,谢谢! 最近新出一本学习书籍,是我们学校焦李成...

4339
来自专栏AI科技评论

直播 | 如何让对抗网络GAN生成更高质量的文本?LeakGAN现身说法:“对抗中,你可能需要一个间谍!”(今晚8点直播)

AI科技评论按:自生成式对抗性网络 GANs 出现以来,它和它的变体已经无数次在图像生成任务中证明了自己的有效性,也不断地吸引着越来越多的研究人员加入到提高GA...

4309
来自专栏ATYUN订阅号

黑客技术:欺骗人工智能步骤详解

几乎只要程序员在编写计算机程序,黑客就会一直在设法利用这些程序。黑客可能利用程序中最小的漏洞侵入系统,窃取数据,通常他们能造成很严重的破坏。 但是由深度学习算...

4157
来自专栏CVer

[计算机视觉论文速递] ECCV 2018 专场3

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、for...

800

扫码关注云+社区

领取腾讯云代金券