腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

有趣的django

欢迎加入qq群：211599322 博客园地址：https://www.cnblogs.com/derek1184405959/

专栏作者

259

文章

388471

阅读量

157

订阅数

python爬虫必会的23个项目

github git 开源 https 爬虫

WechatSogou [1]– 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫，返回结果是列表，每一项均是公众号具体信息字典。 github地址： https://github.com/Chyroc/WechatSogou

2019-02-13

2.2K0

21天打造分布式爬虫-Selenium爬取拉钩职位信息（六）

分布式爬虫 selenium xml

6.1.爬取第一页的职位信息第一页职位信息 from selenium import webdriver from lxml import etree import re import time class LagouSpider(object): def __init__(self): self.driver = webdriver.Chrome() #python职位 self.url = 'https://www.lagou.com/jobs

2018-08-10

4900

21天打造分布式爬虫-数据解析实战（三）

分布式爬虫 xml windows

3.1.豆瓣电影使用lxml import requests from lxml import etree headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36', 'Referer':'https://movie.douban.com/' } url = 'ht

2018-08-01

2930

21天打造分布式爬虫-requests库（二）

分布式爬虫 https 人工智能

2.1.get请求简单使用 import requests response = requests.get("https://www.baidu.com/") #text返回的是unicode的字符串，可能会出现乱码情况 # print(response.text) #content返回的是字节，需要解码 print(response.content.decode('utf-8')) # print(response.url) #https://www.baidu.com/

2018-08-01

2670

21天打造分布式爬虫-urllib库（一）

分布式爬虫 https

urlparse和urlsplit都是用来对url的各个组成部分进行分割的，唯一不同的是urlsplit没有"params"这个属性.

2018-08-01

3060

python爬虫入门（九）Scrapy框架之数据库保存

python 爬虫 scrapy 数据库

豆瓣电影TOP 250爬取-->>>数据保存到MongoDB 豆瓣电影TOP 250网址要求： 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy

2018-04-11

7430

python爬虫入门（八）Scrapy框架之CrawlSpider类

python scrapy 爬虫

CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制，从爬取的网页中获取link并继续爬取的工作更适合。 CrawSpider源码详细解析 class CrawlSpider(Spider)

2018-04-11

2.1K0

python爬虫入门（七）Scrapy框架之Spider类

python 爬虫 scrapy

Spider类 Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编写的爬虫必须继承这个类。主要用到的函数及调用顺序为： __init__() : 初始化爬虫名字和start_urls列表 start_requests() 调用make_requests_from url()

2018-04-11

1.7K0

python爬虫入门(六) Scrapy框架之原理介绍

python 爬虫 scrapy tornado

Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实

2018-04-11

7790

python爬虫入门（五）Selenium模拟用户操作

爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... 小莫想要某站上所有的电影，写了标准的爬虫(基于HttpClient库)，不断地遍历某站的电影列表页面，根据 Html 分析电影名字存进自己的数据库。这个站点的运维小黎发现某个时间段请求量陡增，分析日志发现都是 IP(xxx.xxx.xxx.xxx)这个用户，并且 user-agent 还是 Python-urllib/2.7 ，基于这两点判断非人类后直接在服务器上封杀。

2018-04-11

2.4K0

python爬虫入门（四）利用多线程爬虫

多线程爬虫先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务，多个cpu同时可以执行多个任务 2.一个cpu一次只能执行一个进程，其它进程处于非运行状态 3.进程里包含的执行单元叫线程，一个进程可以包含多个线程 4.一个进程的内存空间是共享的，每个进程里的线程都可以使用这个共享空间 5.一个线程在使用这个共享空间的时候，其它的线程必须等待（阻塞状态） 6.互斥锁作用就是防止多个线程同时使用这块内存空间，先使用的线程会将空间上锁，其它的线程处于等待状态。等锁开了才能进 7.进程：表示程序的一次

2018-04-11

7680

python爬虫入门（三）XPATH和BeautifulSoup4

python 爬虫 html xml

XML和XPATH 用正则处理HTML文档很麻烦，我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。 XML 指可扩展标记语言（EXtensible M

2018-04-11

2.3K0

python爬虫入门（二）Opener和Requests

Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例，我们之前一直在使用urlopen，它是一个特殊的opener(也就是我们构建好的)。但是urlopen()方法不支持代理、cookie等其他的HTTP/GTTPS高级功能。所有要支持这些功能：　　1.使用相关的Handler处理器来创建特定功能的处理器对象；　　2.然后通过urllib2.build_opener()方法使用这些处理器对象，创建自定义opener对象

2018-04-11

1K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态