腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
抠抠空间
专栏成员
举报
170
文章
299298
阅读量
39
订阅数
订阅专栏
申请加入专栏
全部文章(170)
其他(51)
python(43)
数据库(21)
django(17)
爬虫(12)
html(11)
云数据库 SQL Server(11)
linux(10)
云数据库 Redis(8)
sql(8)
java(7)
javascript(7)
scrapy(7)
编程算法(6)
json(5)
https(5)
数据结构(4)
css(3)
jquery(3)
人工智能(3)
缓存(3)
yum(3)
安全(3)
bootstrap(2)
vue.js(2)
xml(2)
ajax(2)
http(2)
存储(2)
面向对象编程(2)
windows(2)
bash(1)
node.js(1)
typescript(1)
ecmascript(1)
flask(1)
api(1)
unix(1)
ubuntu(1)
apache(1)
nginx(1)
apt-get(1)
文件存储(1)
访问管理(1)
渲染(1)
开源(1)
分布式(1)
shell(1)
ssh(1)
正则表达式(1)
gui(1)
grep(1)
tcp/ip(1)
flash(1)
udp(1)
socket编程(1)
部署(1)
脚本(1)
搜索文章
搜索
搜索
关闭
爬虫之Xpath详解
爬虫
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。
人生不如戏
2018-07-24
1.4K
0
网络爬虫之scrapy框架详解
爬虫
scrapy
python
Twisted是用Python实现的基于事件驱动的网络引擎框架,scrapy正是依赖于twisted,
人生不如戏
2018-07-24
660
0
Scrapy框架基础
scrapy
python
爬虫
json
简介 Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv、json等文件中。 首先我们安装Scrapy。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy 使用了 Twisted异
人生不如戏
2018-07-04
563
0
网络爬虫之scrapy框架设置代理
爬虫
scrapy
windows
前戏 os.environ()简介 os.environ()可以获取到当前进程的环境变量,注意,是当前进程。 如果我们在一个程序中设置了环境变量,另一个程序是无法获取设置的那个变量的。 环境变量是以一个字典的形式存在的,可以用字典的方法来取值或者设置值。 os.environ() key字段详解 windows: os.environ['HOMEPATH']:当前用户主目录。 os.environ['TEMP']:临时目录路径。 os.environ[PATHEXT']:可执行文件。 os.environ[
人生不如戏
2018-07-04
1K
0
scrapy之定制命令
scrapy
爬虫
单爬虫运行 import sys from scrapy.cmdline import execute if __name__ == '__main__': execute(["scrapy","crawl","chouti","--nolog"]) 然后右键运行py文件即可运行名为‘chouti‘的爬虫 同时运行多个爬虫 步骤如下: - 在spiders同级创建任意目录,如:commands - 在其中创建 crawlall.py 文件 (此处文件名就是自定义的命令) - 在settings.py 中
人生不如戏
2018-07-04
474
0
scrapy执行流程
scrapy
爬虫
云数据库 Redis
整体流程 - 引擎找到要执行的爬虫,并执行爬虫的 start_requests 方法,并的到一个 迭代器。 - 迭代器循环时会获取Request对象,而request对象中封装了要访问的URL和回调函数。 - 将所有的request对象(任务)放到调度器中,用于以后被下载器下载。 - 下载器去调度器中获取要下载任务(就是Request对象),下载完成后执行回调函数。 - 回到spider的回调函数中, yield Request() yield Item() 具体流程 1.
人生不如戏
2018-07-04
747
0
scrapy-redis分布式爬虫
scrapy
云数据库 Redis
分布式
爬虫
简介 Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule), 并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码, 将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。 参考Scrapy-Redis官方github地址 安装 pip3 install scrapy-redis 配置 连接redis REDIS_HOST = '250
人生不如戏
2018-07-04
981
0
爬虫之cookiejar模块
爬虫
https
简介 有时候我们需要爬一些需要登录才能进入网页,这个时候就要用到cookie相关的一些模块来操作了 内置的http包里包含了cookie相关的一些模块,通过她们我们可以自动使用cookie CookieJar 管理储存cookie,像传出的http请求添加cookie cookie存储在内存中,CookieJar示例回收后cookie将自动消失 FileCookieJar 是CookieJar的字类 cookie保存在文件中 MozillaCookiejar 是FileCookieJar的子类 与mo
人生不如戏
2018-05-30
329
0
爬虫简介
爬虫
python
爬虫的定义 爬虫:按照一定的规则,自动抓取互联网信息的程序或者脚本,从而获取对于我们有价值的信息。 爬虫的两大特征 能够按照作者的要求下载数据或者内容 能自动在网络上流窜 爬虫的三大步骤 下载网页 提取正确的信息 根据一定的规则自动跳到另外的网页上执行上两步 爬虫的分类 通用爬虫 专用爬虫(聚焦爬虫) 爬虫的结构 Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器
人生不如戏
2018-05-30
657
0
爬虫之urllib.error模块
爬虫
人工智能
error模块简介 我们在爬虫的时候发请求的时候难免出现错误,如访问不到服务器或者访问被禁止等等, 出错了之后urllib将错误信息封装成了一个模块对象中,这个模块就叫error模块 error的分类 分为URLError和HTTPError。 URLError是OSError的一个子类 有以下错误的时候错误信息就会被封装在URLError里: 无网络 有网络但是由于种种原因导致服务器连接失败 而如果能够连接服务器但是服务器返回了错误代码如404,403等等(400以上),那么催无信息就会被封装在HTTPE
人生不如戏
2018-05-30
649
0
爬虫之UserAgent
爬虫
UserAgent简介 UserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和电脑访问是不一样的,这些是谷歌根据访问者的UA来判断的。UA可以进行伪装。 浏览器的UA字串的标准格式:浏览器标识(操作系统标识;加密等级标识;浏览器语
人生不如戏
2018-05-30
1.1K
0
爬虫之proxy(代理)
爬虫
https
proxy简介 proxy即为代理,我们爬虫的时候肯定会有频繁访问某一网站的情况,这个时候有些服务器会识别到我们是非正常访问,就会把我们的IP禁掉,这个时候就需要用代理了。 就好比现实生活中,我需要向A借一件东西,但是我跟A是仇人,直接向他借的话他不会借给我,这个时候我就让B帮我像A借,就说他要用,然后B借到东西之后再把东西给我用,这时,B就是我的代理了。 常用的免费代理网站:http://www.goubanjia.com/。 爬虫应该选择什么样的代理? 针对不需要用户登录,cookie验证的网站,一般选
人生不如戏
2018-05-30
842
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档