专栏首页Python与Excel之交用Python+PPT对某宝月饼数据进行可视化分析~

用Python+PPT对某宝月饼数据进行可视化分析~

大家好!我是小刀!

过几天就中秋了,小刀还没收到公司送的月饼 ,只能用羡慕的眼神看着女朋友她们公司早在半个月前就送的广州酒家月饼,所以为了不羡慕,今天用python+ppt带大家看看淘宝的月饼怎么样,呃呃,只看不买...顺便想想怎么提醒公司送!

数据处理

导入包:

import pandas as pd
import numpy as np

读取数据并预览:

df = pd.read_csv('./月饼.csv', encoding='utf-8')
df.sample(10)

查看数据情况:

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1979 entries, 0 to 1978
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   旗舰店     1979 non-null   object 
 1   地址      1979 non-null   object 
 2   商品名称    1979 non-null   object 
 3   价格      1979 non-null   float64
 4   付款人数    1979 non-null   object 
dtypes: float64(1), object(4)
memory usage: 77.4+ KB

我们对数据集进行以下处理,以便我们后续的可视化分析工作:

  • 删除重复值
  • 付款人数需进行单位换算
  • 发货地址需做分割,提取省份和城市
  • 价格需进行分类
# 去除重复值
df.drop_duplicates(inplace=True)

# 重置索引
df_tb = df_tb.reset_index(drop=True)

# 提取数值
df['数值'] = df['付款人数'].str.extract('(\d+)').astype('int')
# 提取单位
df['单位'] = df.付款人数.str.extract(r'(万)') 
df['单位'] = df.单位.replace('万', 10000).replace(np.nan, 1)
# 重新计算销量
df['付款人数'] = df['数值'] * df['单位']
# 删除列 
df_tb = df_tb.drop(['数值', '单位'], axis=1, inplace=True)

# 提取省份
df["省份"] = df["地址"].str.split(' ',expand=True)[0]  
df["城市"] = df["地址"].str.split(' ',expand=True)[1] 
df["城市"].fillna(df["省份"], inplace=True) 

# 价格区间分布
x = [0,50,100,150,200,500,50000]
e = ['50以下','50-100','100-150','150-200','200-500','500及以上']
df['价格区间']=pd.cut(df['价格'],bins=x,labels=e,include_lowest=True)
df.head(10)

经过处理之后的数据共1979条:

数据可视化

店铺地理分布

店铺只要分布在沿海地带,以上海、广东、浙江、北京居多,分别为529、456、321、207家。内陆中云南的店铺为83家,居内陆店铺数量之首。

销量地理分布

北京、广东店铺的销量皆破百万,北京以1490782的销量遥遥领先于广东,广东以 1174473的销量仅次于北京,浙江、上海、山东、云南的销量皆破四十万,分别位居第三、四、五、六。而北京的店铺数量仅207家,销售量却遥遥领先于广东、上海、浙江。

北京店铺的销售量占全国总销量的25.38%,这在一定的情况下反映北京的店铺卖的产品更好。

店铺销售价格区间

月饼卖多少钱算是消费者最关心的了,销价的高低也会在一定的程序下影响消费者的选择。

通过上面可以发现,价格在50元以下的占26.27%,占绝大多数;其次是200-500元,占24.81%;超过500元仅有1.77%

各个价格区间的销售量

什么价格的月饼卖的最好?哪个价格区间更受消费者欢迎呢?

分析发现,100元以下的销售量占86.21%,100元以上的销量仅占13.79%。50元以下的销售量占53.26%,50-100元的销售量占32.95%。最高价格区间500元及以上的销售量仅占0.18%,可以看出价格在100元以下的月饼更受消费者喜欢。

销售价格最高top10店铺

销售价格最高的店铺是哪几家?分布在哪?销量怎么样?

价格最高的十家店铺中,八家为上海店铺,两家为北京店铺,其中天猫超市以3280元的价格一骑绝尘,位居第一,但付款人数仅有5人。付款人数最多的为北京的“董到家旗舰店”,为183人,价格为898元。可以看出,除了“董到家旗舰店”的付款人数过百,其他店铺的付款人数都没超过100,价格的高低是会影响消费者对产品的购买。

销售价格最低top10店铺

销售价格高销量这么惨,那销售价格低呢?

价格最低的是广州酒家邮政速递专卖店,仅1元,是一个团购链接,付款人数仅15人;但从其它几家店铺中可以看出,价格低的销售量明显比价格高的销售量多。

销量最高top10店铺

销量最高的是哪家?地址在哪?销售价格是多少?

销售量最高的为稻香村食品旗舰店,为450000,占据全国10.44%的市场;其次是臻味食品旗舰店、五芳斋官方旗舰店、热购联华旗舰店,销量都超过200000。

销量前十的店铺中,北京的店铺居多;各个店铺的销售价格都在100元以下;销量最高的稻香村食品旗舰店在北京,销售价格为78.9元,看来该店铺买的产品也算是是物美价廉!

商品标题词云

通过对商品名称进行词云绘制,可以发现关于“送礼”的词就有3个:礼遇东西、送礼、礼品,而在其中长辈一词出现的频率也很高;其次是月饼的味道、品牌相关的词语。

结语

通过以上简单分析,方便对淘宝上的月饼店铺分布、价格、哪家的产品比较好等方面具有一定的认识,让我不再羡慕我女朋友了...

以上便是今天的全部内容了,原创不易,欢迎点赞、分享,支持我继续写下去!

---End---

本文分享自微信公众号 - Python与Excel之交(Yi-Python-Excel),作者:锋小刀

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-09-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 手把手教你使用Python进行高级数据可视化

    数据可视化能力已经越来越成为各岗位的基础技能。领英的数据报告显示,数据可视化技能在2018年中国最热门技能中排名第一。

    CDA数据分析师
  • 用Pyecharts对疫情数据进行可视化分析

    本文使用的数据源来自https://lab.isaaclin.cn/nCoV/zh

    用户3577892
  • 【零一】#操作教程#从0开始,教你如何做数据分析#初阶#第一篇

    大家好,我是零一,今天给大家带来基础教程。我的公众微信号是start_data,欢迎大家关注。 本文适合以下情况的读者: 1丶淘宝店铺运营或者店长,目前还不会做...

    CDA数据分析师
  • python3 对拉勾数据进行可视化分析

      上回说到我们如何如何把拉勾的数据抓取下来的,既然获取了数据,就别放着不动,把它拿出来分析一下,看看这些数据里面都包含了什么信息。(本次博客源码地址:http...

    py3study
  • 数据可视化|用雷达图进行对比分析

    雷达图的背景一圈一圈地像雷达,用多边形来展现数据的大小,我认为比较适合用于有多种不同维度的情形,是发现差距的一种好工具。

    朱小五
  • 数据可视化|用斜率图进行对比分析

    比如说,为了对比分析某产品不同功能的用户满意度,经过问卷调查和数据统计,得到下面这个调查结果:

    代码医生工作室
  • Python实战 | 送亲戚,送长辈,月饼可视化大屏来帮忙!

    中秋节,又称祭月节、月光诞、月夕、秋节、仲秋节、拜月节、月娘节、月亮节、团圆节等,是中国民间的传统节日。

    AI科技大本营
  • 数据可视化:用散点图进行数据分析

    导读:散点图的用途有很多,我认为它的核心价值,在于应用相关思维,发现变量之间的关系。

    华章科技
  • 手把手教你用Python爬取某网小说数据,并进行可视化分析

    网络文学是以互联网为展示平台和传播媒介,借助相关互联网手段来表现文学作品及含有一部分文字作品的网络技术产品,在当前成为一种新兴的文学现象,并快速兴起,各种网络小...

    数据STUDIO
  • 数据分析 | 用数据告诉你中秋那家月饼最畅销

    别不好意思,这是你该得的. 加我微信【hg_liuzl,备注:中秋活动中奖,并送上中奖截图找我兑奖】 另外中秋星球活动继续有效,截止到把中秋抽奖活动兑奖完...

    龙哥
  • 那么多种数据可视化图表,你选对了吗?

    常听到一句话,“能用图描述的就不用表,能用表就不用文字”。这句话也直接的表明了:在认知上,大家对于图形的敏感度远比文字高。

    华章科技
  • 学会这7个绘图工具包,Matplotlib可视化也没那么难

    绘图是数据分析工作中的重要一环,是探索过程的一部分。Matplotlib是当前用于数据可视化的最流行的Python包之一,本文主要介绍数据可视化分析工具:Mat...

    前端皮皮
  • 手把手教你用直方图、饼图和条形图做数据分析(Python代码)

    参考链接: Python | 使用XlsxWriter模块在Excel工作表中绘制饼图

    用户7886150
  • 那么多的数据可视化图表,你选对了吗?

    常听到一句话,“能用图描述的就不用表,能用表就不用文字”。这句话也直接的表明了:在认知上,大家对于图形的敏感度远比文字高。

    CDA数据分析师
  • 手把手教你用Pyecharts库对淘宝数据进行可视化展示

    大家好,我是Python进阶者。上一篇文章给大家讲到了淘宝数据的预处理和词频处理,没有来得及看的小伙伴,记得去学习了下了,详情戳这里:手把手教你用Pandas...

    Python进阶者
  • 不仅仅是玩具,Python带你解读不一样的乐高

    【导语】:今天我们来聊聊小朋友和大朋友们都爱不释手的乐高,Python技术部分请看第四部分。公众号后台,回复关键字“乐高”获取完整数据。

    CDA数据分析师
  • 为什么你给的数据跟老板想要的不一样?

    最近常听到的一个观点是,未来十年内 AI 可能会取代 50% 的工作岗位,但早 AI 一步取代你的,可能是邻桌懂数据分析的同事。

    物流IT圈
  • 利用d3.js对QQ群资料进行大数据可视化分析

    对于前段时间流出的QQ群数据大家想必已经有所了解了,处理后大小将近100G,多达15亿条关系数据(QQ号,群内昵称,群号,群内权限,群内性别和年龄)和将近900...

    机器学习AI算法工程
  • Python进行数据可视化分析快速教程实例

    Jupyter Notebook介绍 Jupyter Notebook是一个交互式笔记本,支持运行 40 多种编程语言。IPython notebook 是一个...

    Python中文社区

扫码关注云+社区

领取腾讯云代金券