Python爬淘宝——300W淘宝文胸说明了什么

项目地址:https://github.com/nladuo/taobao_bra_crawler 作者:叁公子KCN

爬虫部署

部署环境

测试环境:腾讯云主机一台

操作系统:ubuntu-14.04

数据库: mongodb

安装依赖

pip install -r requirements.txt

修改配置文件

config = {
    'timeout' : 3,
    'db_user': '',
    'db_pass': '',
    'db_host': 'localhost',
    'db_port': 27017,
    'db_name': 'taobao',
    'use_tor_proxy': False,
    'tor_proxy_port': 9050
}

一般的爬取速度不会有禁IP的情况。如果有被禁IP的情况可以使用tor代理,将config['use_tor_proxy']设置为True,具体方法见python中使用tor代理 · 叁公子的博客

运行爬虫

python crawler/item_crawler.py # 爬文胸的商品信息python crawler/rate_crawler.py # 爬文胸的评论信息

简单统计与可视化展示

1. 运行脚本

cd simple_analyzer
python simple_analyzer.py               # 简单统计
cp bra.json data_visualization/static/  # 拷贝统计结果

2. 运行网页显示

cd data_visualization
npm install     # 安装依赖
npm run dev     # 进行调试
npm run build   # 生成dist

好多A、B。。

为什么是黑色??

人数最多的竟然是75B,那是什么概念??

感兴趣的学习 女生胸围到底是70B大还是75B大?

关键词分析

运行脚本

cd keyword_analyzer
python create_corpus.py     # 1.加载评论信息
python extract_tags.py      # 2.提取关键词(20分钟左右, 可以直接用我的模型进行第三步)
python create_wordcloud.py  # 3.生成词云图片

效果

原文发布于微信公众号 - Python爬虫与算法进阶(zhangslob)

原文发表时间:2017-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏苦逼的码农

TCP流量控制机制

上篇文章讲了TCP拥塞控制机制的原理,没看过的不妨看下:5分钟读懂拥塞控制,这篇文章讲讲TCP流量控制机制。

22320
来自专栏有刻

Nginx 原理解析和配置摘要

44490
来自专栏Python小屋

Python使用标准库urllib模拟浏览器爬取网页内容

爬取网页内容的第一步是分析目标网站源代码结构,确定自己要爬取的内容在哪里,这要求对HTML代码有一定了解,对于某些网站内容的爬取还需要具有一定的Javascri...

13710
来自专栏逆向技术

脱壳第三讲,UPX压缩壳,以及补充壳知识

           脱壳第三讲,UPX压缩壳,以及补充壳知识 一丶什么是压缩壳.以及壳的原理 在理解什么是压缩壳的时候,我们先了解一下什么是壳 1.什么是壳 ...

31780

Kafka体系结构:日志压缩

这篇文章是从我们介绍Kafka 体系结构的一系列文章中获得的启发,包括Kafka topic架构,Kafka生产者架构,Kafka消费者架构和Kafka生态系统...

34330
来自专栏软件开发 -- 分享 互助 成长

抽象工厂模式

一、相关介绍 1、抽象工厂模式提供一个创建一系列相关或者相互依赖对象的接口,而无需指定它们具体的类。 2、UML图 ? 3、所属类别:创建型 二、C++程序 ...

20490
来自专栏牛客网

知识总结:I/O模型基础I/O基础

I/O基础 1、java1.4之前,java对I/O支持不完善,存在以下问题: 没有数据缓冲区,I/O性能存在问题。 没有C或者C++的channel概念,只...

38790
来自专栏梦里茶室

【Chromium中文文档】进程模型

这个文档描述了Chromium支持的不同线程模型,包括它的渲染器进程,以及现有模型实现的问题。 概述 网页内容已经发展到包含大量在浏览器内运行的活跃代码的地步,...

285100
来自专栏zhangdd.com

linux服务器性能检测工具nmon使用

今天介绍一款linux系统服务器性能检测的工具-nmon及nmon_analyser (生成性能报告的免费工具),亲测可用。 一.介绍 nmon 工具可以帮...

38930
来自专栏简单聊聊Spark

Mac 下安装虚拟机及CentOS6.5的安装,以及ssh工具的破解

一.虚拟机的安装操作流程见如下链接,本例采用VMware Fusion这个虚拟机:

29020

扫码关注云+社区

领取腾讯云代金券