专栏首页机器学习养成记小案例(七):口碑分析(python)

小案例(七):口碑分析(python)

案件回顾

商业街口碑分析

  1. 顾客在网络上会发表对商品或商店的留言信息
  2. 对留言进行分析,可以对商业街进行口碑分析
  3. 在论坛中整理了300条留言,并进行分词处理,整理出了不同性别不同年龄段在留言中,使用单词的频数(问题:不同年龄或性别对商业街的印象是否一致?)
  • 聚类分析

将数据存储为csv格式,导入python,查看前10行数据。

import pandas as pd reviewsdata = pd.read_csv('reviewsdata.csv',index_col=0)#index_col=0第一列所为行索引 reviewsdata.head(10)

从表格中,可以看到不同性别、不同年龄使用不同单词的频数。对数据进行聚类分析,并画出聚类树形图。

import scipy import scipy.cluster.hierarchy as sch import matplotlib.pylab as plt import pylab #生成点与点之间的距离矩阵,这里用的欧氏距离: disMat = sch.distance.pdist(reviewsdata.T,'euclidean') #进行层次聚类: Z=sch.linkage(disMat,method='average') #将层级聚类结果以树状图表示出来并保存为plot_dendrogram.png sch.dendrogram(Z,labels=reviewsdata.columns,leaf_font_size=7.5) plt.rcParams['font.sans-serif'] = ['SimHei'] plt.title("口碑的聚类") pylab.show()

在聚类分析的过程中,是将不同性别年龄的人群使用词的频数生成向量,然后比较这些向量的距离,将距离较近的总结在一起。距离近意味着措辞相仿,聚类也就是不断合并两个最相近向量的过程。从图显示,40多岁男性和50多岁男性在使用单词方面很接近,但跟60多岁女性明显不同。整体上,能看出不同年龄段和不同性别之间存在意见差异。

  • 几个小概念

聚类分析:一种根据数据相似度将数据分组对手法,分组前,不能确定每一类的特征。数据相似度通过距离来判断,求距离的方法有很多种,最简单的为欧式距离。本文使用的是层次聚类,文章聚类(一):DBSCAN算法实现(r语言)中介绍了DBSCAN聚类方法。

本文分享自微信公众号 - 机器学习养成记(chenchenwings),作者:三猫

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-10-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 聚类(一):DBSCAN算法实现(r语言)

    Some points 算法流程 R语言实现 选择最优的Eps值 自定义距离公式 DBSCAN优缺点 DBSCAN(Density-BasedSpatial ...

    三猫
  • 聚类(二):k-means算法(R&python)

    聚类算法属于无监督的机器学习算法,即没有类别标签y,需要根据数据特征将相似的数据分为一组。k-means为聚类算法中最简单、常见的一种,通过计算距离,将相似性高...

    三猫
  • 聚类模型评价(python实现)

    评价指标分为外部指标和内部指标两种,外部指标指评价过程中需要借助数据真实情况进行对比分析的指标,内部指标指不需要其他数据就可进行评估的指标。下表中列出了几个常用...

    三猫
  • 澳洲山火虚假信息复盘:击溃人心一时易,核查辟谣路漫漫

    自去年9月以来,澳大利亚新南威尔士州和维多利亚州的森林大火已造成27人丧生,大量动植物死亡,超2000处房屋毁于一旦,无数人流离失所,这场肆虐了5个多月的大火...

    腾讯大讲堂
  • jface databinding:重写doSetValue方法ComputedValue实现双向多对一的数据绑定

    需求说明 如下是一个简单的测试对话框,我们希望当”起始日期”按钮为勾选时,数据对象dataBean的date属性为日期组件DateTime选择的值,否则为nul...

    用户1148648
  • R语言中的apply函数族

    apply函数族是R语言中数据处理的一组核心函数,通过使用apply函数,我们可以实现对数据的循环、分组、过滤、类型控制等操作。但是,由于在R语言中apply函...

    阿凡亮
  • 干货,一文带你超详细了解 Filter 的原理及应用

    1) Filter(过滤器) 的基本功能是对 Servlet 容器调用 Servlet (JSP)的过程进行拦截, 从而在 Servlet 处理请求前和Serv...

    java架构师
  • 关于SAP UI5数据绑定我的一些原创内容

    如何查找SAP UI5官方关于数据绑定的文档: https://sapui5.hana.ondemand.com/ 点Documentation:

    Jerry Wang
  • [大数据之Yarn]——资源调度浅学

    在hadoop生态越来越完善的背景下,集群多用户租用的场景变得越来越普遍,多用户任务下的资源调度就显得十分关键了。比如,一个公司拥有一个几十个节点的hadoo...

    用户1154259
  • 【MATLAB 从零到进阶】day5 数据的导入与导出

    importdata 从文本文件或特殊格式二进制文件(如图片,avi 视频等)读取数据

    统计学家

扫码关注云+社区

领取腾讯云代金券