首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python实例之-抓小哥哥

简介:

话不多说,本文章直接介绍如何粗暴的用Python抓一波小哥哥

使用到的技术有:

使用到的库有:os, re, sqlite3, time, requests, lxml

Sqlite数据库名: data.db

第一步 确定目标1. 文字信息2. 图片信息第二步 分解目标1. 分析特征:2. 建立模型2.1. 分类页信息2.2. 标签页信息2.3. 小哥哥信息第三步 开始编写第四步 写在结尾第一步 确定目标

1. 文字信息

、、、

2. 图片信息

、小哥哥

第二步 分解目标

1. 分析特征:

入口信息披露

01

分类信息披露

02

03

标签信息披露

04

05

小哥哥页内信息披露

0607

URL特征

页码URL

http://www.shuaia.net/e/tags/index.php?page=&tagname=

页码URL

http://www.shuaia.net//index_.html

开始页面URL:

http://www.shuaia.net/

分类页面URL:http://www.shuaia.net//

标签页面URL:http://www.shuaia.net/e/tags/?tagname=

小哥哥URL:

http://www.shuaia.net/…

DOM特征

下面使用的是浏览器开发工具

分类DOM

08

标签DOM

09

小哥哥DOM

11

10

2. 建立模型

需要先建立好sqlite数据库:

这里写图片描述

这里写图片描述

这里写图片描述2.1. 分类页信息

处元素节点为下的所有标签内的节点的属性和文字信息为分类信息存放位置

Ps. 剔除URL不包含的内容

2.2. 标签页信息

处元素节点为下的所有标签内的节点的属性和文字信息为标签信息存放位置

2.3. 小哥哥信息

a. 分类页小哥哥

循环所有分类页码获取小哥哥URL

信息存放在: 处元素节点为下的所有标签内节点的属性、节点的属性

b. 标签页小哥哥

循环所有标签页码获取小哥哥URL

信息存放在: 处元素节点为下的所有标签内节点的属性、节点的属性

c. 清洗去重, 为小哥哥加上属性

d. 获取小哥哥其它属性

循环小哥哥属性获取元素节点

第三步 开始编写

通过分析模型开始编写代码:

第四步 写在结尾

感觉还可以优化, 如果你有好一点的建议或者问题,欢迎留言指正.嗯

SHI一样的文章, 如果没看明白一定是我没写好…

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180608G1E7SL00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券