前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析小案例(三):调查问卷(python)

数据分析小案例(三):调查问卷(python)

作者头像
三猫
发布2018-04-10 11:29:52
3.1K0
发布2018-04-10 11:29:52
举报

案件回顾

传统吉祥物还是萌系美少女

  1. 商业街想设计一个吉祥物做宣传
  2. 对商业街店主和顾客发放调查问卷
  3. 调查问卷的问题中有对吉祥物的偏好调查。也有对商业街的魅力调查,选项包括:活动,促销,商品齐全和服务态度好。(问题:店主和顾客对这些问题的回答是否有区别?从调查问卷中可以获得怎样的运营建议?)
  • 数据导入与列联表

将数据存储为csv格式,导入python。并且计算顾客和店主对商业街魅力的支持情况,生成列联表。

import pandas as pd #导入数据 survey = pd.read_csv('survey.csv', encoding = 'utf-8') #计算顾客和店主对商业街魅力的支持情况 su1 = pd.DataFrame({'顾客':survey[survey.立场=='顾客'].回答6.value_counts()}) su2 = pd.DataFrame({'店主':survey[survey.立场=='店主'].回答6.value_counts()}) #合并数据框,生成列联表 survey2 = pd.concat([su1,su2],axis=1) survey2

为了使观察更直观,下面绘制关于列联表的堆积柱状图。

import matplotlib.pyplot as plt from pylab import * mpl.rcParams['font.sans-serif'] = ['SimHei'] survey2.T.plot(kind='bar', stacked=True, color=['black','gold','red','green'], grid=False) plt.show()

从图中可直观看出,店主们比较重视商品是否齐全,顾客们更关注的是实惠。店主们对活动方面花了不少心思,但顾客们兴趣不大,反而更注重店家的服务态度。并且,35名顾客对商业街对服务表示满意,而店主中选择服务态度好的人数只有9名,一定程度上说明店主对自己的服务态度缺乏自信。

虽然可以从图中分析出一些结论,但为了客观的说明顾客与店主的意见是否存在显著偏差,要进行独立性检验。

  • 独立性检验(卡方检验)
  1. 零假设 店主与顾客的回答是独立的,即无显著不同
  2. 备择假设 店主与顾客的回答意见受各自立场影响,即意见不同
  3. 概率不足显著性水平(5%) 否定零假设,即顾客与店主的意见是否存在显著偏差
  4. 概率等于或超过显著性水平(5%) 保留零假设,即顾客与店主的意见不受各自立场影响

from scipy.stats import chi2_contingency chi2_contingency(survey2)

结果为:

(55.488971138570164,
 5.3999746517395078e-12,
 3,
 array([[ 25.36945813,  24.63054187],
        [ 30.44334975,  29.55665025],
        [ 22.32512315,  21.67487685],
        [ 24.86206897,  24.13793103]]))

其中,第一个值代表卡方值,第二个值代表pvalue,即概率,第三个值代表自由度。这里概率值几乎等于零,显然不足5%,因此,店主与顾客对商业街的期待有所不同

接下来分析顾客和店主对吉祥物的选择上是否有分歧。

su11 = pd.DataFrame({'顾客':survey[survey.立场=='顾客'].回答7.value_counts()}) su22 = pd.DataFrame({'店主':survey[survey.立场=='店主'].回答7.value_counts()}) survey3 = pd.concat([su11.T,su22.T],axis=0) survey3

明显,顾客和店主的意见有分歧。没填答案的顾客太多,且几乎所有店主都选择了萌系美少女,选传统吉祥物的只有3人,数据分析中,存在不足5的频数,要尽量避免使用卡方检验。顾客回答两边基本一样多,且很多人没有填答案,证明顾客对这个不感兴趣。结合回答6的分析,顾客更期待的是促销。因此,与其设计吉祥物,不如搞一些打折促销的活动

  • 几个小概念

独立性检验:分析列联表2个属性之间是否存在关联性的方法。首先提出零假设,“两个属性相互独立”,即不具有关联性。如果概率不足5%,则抛弃零假设,选取备择假设,即“2个属性不相互独立”。如果概率大于等于5%,保留零假设。

后台回复“面包”,可获得本例中数据


机器学习养成记

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-09-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习养成记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档