淘宝居然有“潜规则”!用python爬了上万条商品数据

淘宝居然有“潜规则”!用python爬了上万条商品数据 ! 在给大家分享这个操作之前,小编推荐大家加一下这个裙:三九九二八八五四一!邀请码:幼稚鬼。大家遇到啥问题都会在里面交流!而且分享十年开发经验牛人经验分享课一整套!是个非常好的学习交流地方!也有程序员大神给大家热心解答各种问题!很快满员了。欲进从速哦!等大家加入学习交流基地哦.

爬取数据

因淘宝网是反爬虫的,虽然使用多线程、修改 headers 参数,但仍然不能保证每次 100% 爬取,所以我增加了循环爬取,每次循环爬取未爬取成功的页 ,直至所有页爬取成功停止。

说明:淘宝商品页为 JSON 格式,这里使用正则表达式进行解析。

代码如下:

代码如下:

因为下面要统计每个词语的个数,所以为了准确性,这里对过滤后的数据 title_clean 中的每个 list 的元素进行去重,即每个标题被分割后的词语唯一。

pip install wordcloud

下载 Packages 安装:pip install 软件包名称

对表 df_word_sum 中的 word 和 w_s_sum 两列数据进行可视化。(本例中取销量排名前 30 的词语进行绘图)

由图表可知:

价格在 1331-1680 之间的商品平均销量最高,951-1331 之间的次之,9684 元以上的最低。

总体呈现先增后减的趋势,但最高峰处于相对低价位阶段。

说明广大消费者对购买沙发的需求更多处于低价位阶段,在 1680 元以上价位越高,平均销量基本是越少。

由图表可知:

总体趋势:随着商品价格增多,其销量减少,商品价格对其销量影响很大。

价格 500-2500 之间的少数商品销量冲的很高,价格 2500-5000 之间的商品多数销量偏低,少数相对较高,但价格 5000 以上的商品销量均很低,没有销量突出的商品。

由图表可知:

总体趋势:由线性回归拟合线可以看出,商品销售额随着价格增长呈现上升趋势。

多数商品的价格偏低,销售额也偏低。

价格在 0-20000 的商品只有少数销售额较高,价格 2-6 万的商品只有 3 个销售额较高,价格 6-10 万的商品有 1 个销售额很高,而且是最大值。

不同省份的商品数量分布

代码如下:

热力型地图

这个项目对于小白来说是非常难实现的,涉及的东西非常多,小编不建议Python来操作这个项目!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180317A0PJCX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券