抠抠空间-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

抠抠空间

专栏成员

170

文章

299357

阅读量

39

订阅数

爬虫之Xpath详解

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

人生不如戏

2018-07-24

1.4K0

网络爬虫之scrapy框架详解

爬虫 scrapy python

Twisted是用Python实现的基于事件驱动的网络引擎框架，scrapy正是依赖于twisted，

人生不如戏

2018-07-24

6600

Scrapy框架基础

scrapy python 爬虫 json

简介 Scrapy是一个高级的Python爬虫框架，它不仅包含了爬虫的特性，还可以方便的将爬虫数据保存到csv、json等文件中。首先我们安装Scrapy。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 Scrapy 使用了 Twisted异

人生不如戏

2018-07-04

5640

网络爬虫之scrapy框架设置代理

爬虫 scrapy windows

前戏 os.environ()简介 os.environ()可以获取到当前进程的环境变量，注意，是当前进程。如果我们在一个程序中设置了环境变量，另一个程序是无法获取设置的那个变量的。环境变量是以一个字典的形式存在的，可以用字典的方法来取值或者设置值。 os.environ() key字段详解 windows： os.environ['HOMEPATH']:当前用户主目录。 os.environ['TEMP']:临时目录路径。 os.environ[PATHEXT']:可执行文件。 os.environ[

人生不如戏

2018-07-04

1K0

scrapy之定制命令

单爬虫运行 import sys from scrapy.cmdline import execute if __name__ == '__main__': execute(["scrapy","crawl","chouti","--nolog"]) 然后右键运行py文件即可运行名为‘chouti‘的爬虫同时运行多个爬虫步骤如下： - 在spiders同级创建任意目录，如：commands - 在其中创建 crawlall.py 文件（此处文件名就是自定义的命令） - 在settings.py 中

人生不如戏

2018-07-04

4760

scrapy执行流程

scrapy 爬虫云数据库 Redis

整体流程 - 引擎找到要执行的爬虫，并执行爬虫的 start_requests 方法，并的到一个迭代器。 - 迭代器循环时会获取Request对象，而request对象中封装了要访问的URL和回调函数。 - 将所有的request对象(任务)放到调度器中，用于以后被下载器下载。 - 下载器去调度器中获取要下载任务（就是Request对象），下载完成后执行回调函数。 - 回到spider的回调函数中， yield Request() yield Item() 具体流程 1.

人生不如戏

2018-07-04

7470

scrapy-redis分布式爬虫

scrapy 云数据库 Redis 分布式爬虫

简介 Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule)，并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码，将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。参考Scrapy-Redis官方github地址安装 pip3 install scrapy-redis 配置连接redis REDIS_HOST = '250

人生不如戏

2018-07-04

9830

爬虫之cookiejar模块

简介有时候我们需要爬一些需要登录才能进入网页，这个时候就要用到cookie相关的一些模块来操作了内置的http包里包含了cookie相关的一些模块，通过她们我们可以自动使用cookie CookieJar 管理储存cookie，像传出的http请求添加cookie cookie存储在内存中，CookieJar示例回收后cookie将自动消失 FileCookieJar 是CookieJar的字类 cookie保存在文件中 MozillaCookiejar 是FileCookieJar的子类与mo

人生不如戏

2018-05-30

3290

爬虫的定义爬虫：按照一定的规则，自动抓取互联网信息的程序或者脚本，从而获取对于我们有价值的信息。爬虫的两大特征能够按照作者的要求下载数据或者内容能自动在网络上流窜爬虫的三大步骤下载网页提取正确的信息根据一定的规则自动跳到另外的网页上执行上两步爬虫的分类通用爬虫专用爬虫（聚焦爬虫）爬虫的结构 Python爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器

人生不如戏

2018-05-30

6570

爬虫之urllib.error模块

爬虫人工智能

error模块简介我们在爬虫的时候发请求的时候难免出现错误，如访问不到服务器或者访问被禁止等等，出错了之后urllib将错误信息封装成了一个模块对象中，这个模块就叫error模块 error的分类分为URLError和HTTPError。 URLError是OSError的一个子类有以下错误的时候错误信息就会被封装在URLError里：无网络有网络但是由于种种原因导致服务器连接失败而如果能够连接服务器但是服务器返回了错误代码如404，403等等（400以上），那么催无信息就会被封装在HTTPE

人生不如戏

2018-05-30

6490

爬虫之UserAgent

UserAgent简介 UserAgent中文名为用户代理，是Http协议中的一部分，属于头域的组成部分，UserAgent也简称UA。它是一个特殊字符串头，是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识，用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计；例如用手机访问谷歌和电脑访问是不一样的，这些是谷歌根据访问者的UA来判断的。UA可以进行伪装。浏览器的UA字串的标准格式：浏览器标识(操作系统标识;加密等级标识;浏览器语

人生不如戏

2018-05-30

1.1K0

爬虫之proxy（代理）

proxy简介 proxy即为代理，我们爬虫的时候肯定会有频繁访问某一网站的情况，这个时候有些服务器会识别到我们是非正常访问，就会把我们的IP禁掉，这个时候就需要用代理了。就好比现实生活中，我需要向A借一件东西，但是我跟A是仇人，直接向他借的话他不会借给我，这个时候我就让B帮我像A借，就说他要用，然后B借到东西之后再把东西给我用，这时，B就是我的代理了。常用的免费代理网站:http://www.goubanjia.com/。爬虫应该选择什么样的代理？针对不需要用户登录，cookie验证的网站，一般选

人生不如戏

2018-05-30

8420

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态