Python分布式抓取和分析京东商城评价

互联网购物现在已经是非常普遍的购物方式,在互联网上购买商品并且使用之后,很多人都会回过头来对自己购买的商品进行一些评价,以此来表达自己对于该商品使用后的看法。商品评价的好坏对于一个商品的重要性显而易见,大部分消费者都以此作为快速评判该商品质量优劣的方式。所以,与此同时,有些商家为了获得好评,还会做一些 "好评优惠" 或者 "返点" 活动来刺激消费者评价商品。

既然商品评价对于消费者选购商品而言至关重要,那么我想试试可以从这些评价信息中获取到怎样的价值,来帮助消费者快速获取到关于该商品的一些重要信息,给他们的购物带来更加可靠地保证?

所以,我认为,一种快速、全面、高提炼度和高对比度的信息获取和展示方式将会非常必要。 于是,我采用分布式快速抓取京东的评价信息,然后使用 pandas 对抓取到的数据进行分析。

话不多说先附上使用地址 体验地址:http://awolfly9.com/jd/

想要分析京东商城的商品评价信息,那么需要做些什么呢

  • 采用分布式抓取,尽量在短时间内抓取需要分析的商品足够多的评价信息
  • 将抓取到的评价信息都存储到数据库
  • 从数据库中取出所有数据进行数据分析
    • 生成好评的词云,并且获取关键字
    • 生成中评的词云,并且获取关键字
    • 生成差评的词云,并且获取关键字
    • 分析购买该商品不同颜色的比例,生成柱状图
    • 分析购买该商品不同配置的比例,生成柱状图
    • 分析该商品的销售数量和评论数量和时间的关系,生成时间则线图
    • 分析该商品不同省份购买的的比例,生成柱状图
    • 分析该商品不同渠道的销售比例,生成柱状图
  • 利用 Django 搭建后台,将数据抓取和数据分析连起来
  • 前端显示数据抓取和分析结果

分布式抓取京东商城的评价信息

采用分布式抓取的目的是快速的在短时间内尽量抓取足够多的商品评价,使分析结果更精确

  1. iPhone7 https://item.jd.com/3995645.html 为例,通过 Chrome 抓包分析出京东商城的评价请求 URlhttps://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv2940&productId=3995645&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0
  2. 找出评价请求 URL 规律,获取到如下 URL 组合链接
  3. 利用 Chrome 插件 Postman 测试链接是否可用,发现京东获取评价信息并没有验证 Cookie 之类的反爬措施
  4. 开始编码利用 scrapy 抓取京东商城的商品评价信息并存入数据库以备使用

数据分析

  1. 从数据库中取出相应数据,开始分析
  2. 使用 python 的扩展库 wordcloud 分别提取好评、中评、差评的关键字,并且生成相应的词云图片
  3. 分析该商品不同颜色的销量占比,并且生成柱状图,例如 iphone7 的不同颜色金色、玫瑰金色、银色、黑色、亮黑色、还有最新出的红色的占比
  4. 分析该商品不同配置的销量占比,并且生成柱状图,例如 iphone7 32G 、 64G、128G 存储
  5. 分析该商品销售和评论时间并且生成折线图,分析出商品在什么时间最畅销
  6. 分析用户购买该商品的渠道,例如用户通过京东 Android 客户端、微信京东购物、京东 iPhone 客户端购物的比例,并且生成柱状图
  7. 分析购买该商品的用户的地域省份。例如北京、上海、广州那个城市在京东上购买 iPhone7 的人更多
  8. 将以上分析结果都存储保留

Django 后台 WEB

使用 Django 搭建一个简易的后台 jd_analysis,将分布式抓取数据和数据分析连起来,并且将分析结果返回前端显示。

  1. jd_analysis 提供一个接口接受用户请求分析的京东商城商品的 URL 链接
  2. jd_analysis 接受到商品链接后开启爬虫进程开始抓取需要分析的商品的名称和评价数量
  3. 组合出完整的评价链接插入到 redis 中,实现分布式爬虫抓取,尽可能在短时间内抓取足够多的该商品评价信息(我现在是 30s 时间大概可以抓取 3000 条评价信息)
  4. 主服务器等待一定的抓取时间,例如主服务器等待 30s,30s 后一定要给前端返回分析结果,所以等 30s 后清空 redis 中该商品的链接,从服务器没有读取不到需要抓取的链接也就自动关闭
  5. 开启分析进程,开始分析抓取到的所有数据,并且生成图标等信息

前端展示

在客户端第一次请求时,生成一个 GUID,并且存储在 cookie 中。然后开启一个定时器,带上 GUID 不断的向 jd_analysis 后台请求结果。jd_analysis 后台利用请求的 GUID 从 redis 中获取抓取信息和分析结果的所有内容,返回给前端。前端显示请求到的结果。

最后附上两张效果图

购买和评论时间折线图

购买渠道柱状图

大功告成

以上就是完整的抓取京东商品的评价信息并且使用 pandas 分析评价然后利用 Django 搭建后台前端显示抓取和分析结果的所有步骤。

原文发布于微信公众号 - Python中文社区(python-china)

原文发表时间:2017-04-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序人生 阅读快乐

Go语言学习笔记

作为时下流行的一种系统编程语言,Go 简单易学,性能很好,且支持各类主流平台。已有大量项目采用 Go 编写,这其中就包括 Docker 等明星作品,其开发和执行...

7620
来自专栏Java架构师学习

阿里P8架构师详说分布式架构的应用原理简介什么是分布式?分布式和集群的关系计算机发展历史分布式架构发展的里程碑架构的发展演变过程如何把单击扩展到分布式

作为一名架构师,我们要专业,要能看懂代码,及时光着臂膀去机房,也能独挡一面!及时同事搞不定问题,或者撂挑子,你也能给老大一个坚定的眼神:不怕,有我在!还能在会议...

29050
来自专栏JAVA高级架构

阿里P8架构师深度概述分布式架构

作为一名架构师,我们要专业,要能看懂代码,及时光着臂膀去机房,也能独挡一面!及时同事搞不定问题,或者撂挑子,你也能给老大一个坚定的眼神:不怕,有我在!还能在会议...

26950
来自专栏企鹅号快讯

微信搜索能力再提速!这一次,小程序SEO真的来了!

SEO (搜索引擎优化)是“Search Engine Optimization”全称缩写。是一种通过了解搜索引擎的运作规则来调整企业网站/应用的排名方式。 国...

75960
来自专栏后端技术探索

从既有系统到微服务架构

微服务近年来可谓炙手可热,合理的使用微服务架构可以解耦系统、提供更好的软件伸缩性以及提高组织的敏捷性。然而现实中较少有项目一开始就会选择使用微服务架构,绝大多数...

13920
来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙回顾|后台测试案例分享

后台测试案例分享 活动时间:2017年9月28日 qq视频分享 活动介绍:TMQ在线沙龙第三十一期分享 本次分享的主题是:后台测试案例分享 共有66位测试小伙伴...

25560
来自专栏微信小开发

起底小程序数据分析,每一个指标都不应该被忽视

你可能做了一个小程序,也做了很多推广。 然后查看了后台的一些数据: 有本地也有外地; 有男粉丝也有女粉丝; 有青年才俊,也有中年大叔; 有iPhone也有安卓;...

71390
来自专栏北京马哥教育

史上最全互联网运维工作规划!十分钟找到职业方向!

互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够7×24小时为用户提供高质量的服务。 运维人员对公司互联网业务所依赖的基础...

1.2K110
来自专栏云计算D1net

混合云应用对于企业的意义

虽然为混合云部署开发应用并不是某种黑暗魔法,但是对于很多企业来说,这还是一项具有一定神秘性的工作。 可以想象,任何设想进行混合云开发的用户最终都需要完...

26430
来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙回顾|测试过程管理

测试过程管理 活动时间:2017年10月26日 qq视频分享 活动介绍:TMQ在线沙龙第三十二期分享 本次分享的主题是:测试过程管理 共有83位测试小伙伴报名参...

26950

扫码关注云+社区

领取腾讯云代金券