前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析小案例(二):面包是不是变轻了(python)

数据分析小案例(二):面包是不是变轻了(python)

作者头像
三猫
发布2018-04-10 11:30:23
9770
发布2018-04-10 11:30:23
举报
文章被收录于专栏:机器学习养成记

案件回顾

面包是不是变轻了

  1. 面包店对外声称每个面包分量为400g
  2. 老店主退休,儿子接管面包店
  3. 有顾客投诉,面包分量比以前的轻了
  4. 统计了30个面包的重量,发现面包平均重量为397g(问题:手工面包不可能每个正好400g,根据数据判断,面包的分量到底有没有变轻?)
  • 模拟实验与分析

将数据存储为csv格式,其中每个观测对象(各个面包)占一行,测定的变量(购买日期和面包重量)排成一列。将数据导入python。

import pandas as pd breads = pd.read_csv('breads.csv',encoding='utf-8') breads.head()

pandas包提供了dataframe数据结构,在python中用pandas可以非常方便的导入csv数据。使用head()查看前几行数据(默认为前5行)如下:

date

weight

0

2015/1/7

386.7

1

2015/1/9

396.7

2

2015/1/10

409.8

3

2015/1/12

384.5

4

2015/1/14

394.3

计算面包重量的均值和标准差:

import numpy as np mean = round(np.mean(breads.weight),4) std = round(np.std(breads.weight),4) import sys sys.stdout.write('mean = ' + str(mean) + '\n' + 'std = ' + str(std))

结果为:

代码语言:javascript
复制
mean = 397.1267
std = 10.7371

假设面包的重量符合正态分布,那么检验面包是否变轻,就要用样本的标准差来检查样本平均值和总体平均值之间是否存在矛盾,即均值差异检验。

均值差异检验(t检验)

  1. 零假设 样本均值与总体均值的差异在误差范围内,即面包没有变轻
  2. 备择假设 样本均值与总体均值的差异超出了误差范围,即面包变轻
  3. 概率不足显著性水平(5%) 否定零假设,即面包确实变轻了
  4. 概率等于或超过显著性水平(5%) 保留零假设,即面包重量没有改变

代码语言:javascript
复制

from scipy.stats import ttest_rel #ttest_rel:非独立均值检验 ttest_rel(breads.weight,[400]*30)

代码语言:javascript
复制

结果为:

代码语言:javascript
复制
Ttest_relResult(statistic=-1.4411172599973978, pvalue=0.16026297018603147)

pvalue代表概率,这里面概率为0.1603,概率超过显著性水平,因此,没有足够证据怀疑面包房的面包平均重量减少

  • 几个小概念

正态分布:以平均值为中心左右对称离散的分布。有95%的数据集中在距离平均值1.96倍(约2倍)标准差的范围内。

均值差异检验:本例中指分析了30个面包的平均重量与面包店宣传的平均重量之间是否存在实质性差异。如果概率小于显著性水平(一般为5%),则认为存在显著差异。


机器学习养成记

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习养成记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档