首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用Python+PPT对某宝月饼数据进行可视化分析~

用Python+PPT对某宝月饼数据进行可视化分析~

作者头像
Python与Excel之交
发布2021-09-28 16:40:31
9200
发布2021-09-28 16:40:31
举报
文章被收录于专栏:Python与Excel之交Python与Excel之交

大家好!我是小刀!

过几天就中秋了,小刀还没收到公司送的月饼 ,只能用羡慕的眼神看着女朋友她们公司早在半个月前就送的广州酒家月饼,所以为了不羡慕,今天用python+ppt带大家看看淘宝的月饼怎么样,呃呃,只看不买...顺便想想怎么提醒公司送!

数据处理

导入包:

import pandas as pd
import numpy as np

读取数据并预览:

df = pd.read_csv('./月饼.csv', encoding='utf-8')
df.sample(10)

查看数据情况:

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1979 entries, 0 to 1978
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   旗舰店     1979 non-null   object 
 1   地址      1979 non-null   object 
 2   商品名称    1979 non-null   object 
 3   价格      1979 non-null   float64
 4   付款人数    1979 non-null   object 
dtypes: float64(1), object(4)
memory usage: 77.4+ KB

我们对数据集进行以下处理,以便我们后续的可视化分析工作:

  • 删除重复值
  • 付款人数需进行单位换算
  • 发货地址需做分割,提取省份和城市
  • 价格需进行分类
# 去除重复值
df.drop_duplicates(inplace=True)

# 重置索引
df_tb = df_tb.reset_index(drop=True)

# 提取数值
df['数值'] = df['付款人数'].str.extract('(\d+)').astype('int')
# 提取单位
df['单位'] = df.付款人数.str.extract(r'(万)') 
df['单位'] = df.单位.replace('万', 10000).replace(np.nan, 1)
# 重新计算销量
df['付款人数'] = df['数值'] * df['单位']
# 删除列 
df_tb = df_tb.drop(['数值', '单位'], axis=1, inplace=True)

# 提取省份
df["省份"] = df["地址"].str.split(' ',expand=True)[0]  
df["城市"] = df["地址"].str.split(' ',expand=True)[1] 
df["城市"].fillna(df["省份"], inplace=True) 

# 价格区间分布
x = [0,50,100,150,200,500,50000]
e = ['50以下','50-100','100-150','150-200','200-500','500及以上']
df['价格区间']=pd.cut(df['价格'],bins=x,labels=e,include_lowest=True)
df.head(10)

经过处理之后的数据共1979条:

数据可视化

店铺地理分布

店铺只要分布在沿海地带,以上海、广东、浙江、北京居多,分别为529、456、321、207家。内陆中云南的店铺为83家,居内陆店铺数量之首。

销量地理分布

北京、广东店铺的销量皆破百万,北京以1490782的销量遥遥领先于广东,广东以 1174473的销量仅次于北京,浙江、上海、山东、云南的销量皆破四十万,分别位居第三、四、五、六。而北京的店铺数量仅207家,销售量却遥遥领先于广东、上海、浙江。

北京店铺的销售量占全国总销量的25.38%,这在一定的情况下反映北京的店铺卖的产品更好。

店铺销售价格区间

月饼卖多少钱算是消费者最关心的了,销价的高低也会在一定的程序下影响消费者的选择。

通过上面可以发现,价格在50元以下的占26.27%,占绝大多数;其次是200-500元,占24.81%;超过500元仅有1.77%

各个价格区间的销售量

什么价格的月饼卖的最好?哪个价格区间更受消费者欢迎呢?

分析发现,100元以下的销售量占86.21%,100元以上的销量仅占13.79%。50元以下的销售量占53.26%,50-100元的销售量占32.95%。最高价格区间500元及以上的销售量仅占0.18%,可以看出价格在100元以下的月饼更受消费者喜欢。

销售价格最高top10店铺

销售价格最高的店铺是哪几家?分布在哪?销量怎么样?

价格最高的十家店铺中,八家为上海店铺,两家为北京店铺,其中天猫超市以3280元的价格一骑绝尘,位居第一,但付款人数仅有5人。付款人数最多的为北京的“董到家旗舰店”,为183人,价格为898元。可以看出,除了“董到家旗舰店”的付款人数过百,其他店铺的付款人数都没超过100,价格的高低是会影响消费者对产品的购买。

销售价格最低top10店铺

销售价格高销量这么惨,那销售价格低呢?

价格最低的是广州酒家邮政速递专卖店,仅1元,是一个团购链接,付款人数仅15人;但从其它几家店铺中可以看出,价格低的销售量明显比价格高的销售量多。

销量最高top10店铺

销量最高的是哪家?地址在哪?销售价格是多少?

销售量最高的为稻香村食品旗舰店,为450000,占据全国10.44%的市场;其次是臻味食品旗舰店、五芳斋官方旗舰店、热购联华旗舰店,销量都超过200000。

销量前十的店铺中,北京的店铺居多;各个店铺的销售价格都在100元以下;销量最高的稻香村食品旗舰店在北京,销售价格为78.9元,看来该店铺买的产品也算是是物美价廉!

商品标题词云

通过对商品名称进行词云绘制,可以发现关于“送礼”的词就有3个:礼遇东西、送礼、礼品,而在其中长辈一词出现的频率也很高;其次是月饼的味道、品牌相关的词语。

结语

通过以上简单分析,方便对淘宝上的月饼店铺分布、价格、哪家的产品比较好等方面具有一定的认识,让我不再羡慕我女朋友了...

以上便是今天的全部内容了,原创不易,欢迎点赞、分享,支持我继续写下去!

---End---

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与Excel之交 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据处理
  • 数据可视化
    • 店铺地理分布
      • 销量地理分布
        • 店铺销售价格区间
          • 各个价格区间的销售量
            • 销售价格最高top10店铺
              • 销售价格最低top10店铺
                • 销量最高top10店铺
                  • 销量最高的是哪家?地址在哪?销售价格是多少?
                    • 商品标题词云
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档