明天依旧可好的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

明天依旧可好的专栏

专栏成员

109

文章

132351

阅读量

27

订阅数

知识点讲解六：fake-useragent的用法

UserAgent是识别浏览器的一串字符串，相当于浏览器的身份证，在利用爬虫爬取网站数据时，频繁更换UserAgent可以避免触发相应的反爬机制。fake-useragent对频繁更换UserAgent提供了很好的支持，可谓防反扒利器。下面将介绍fake-useragent的安装到使用。

2019-03-05

5.1K0

爬虫中的代理问题

网站 http 爬虫编程算法 https

最近身边很多人都遇到爬虫中的代理问题，写下这篇博客来记录自己所学，希望可以帮助到你们。

2019-01-22

9950

爬虫问题二：处理js异步加载问题

selenium python 网站

在新闻网站中大多采用的是异步加载模式，新闻条目会随滚动条的滚动而逐渐加载。当爬虫访问这类网站时得到的HTML数据仅仅是我们看到的页面数据，只有当我们向下滚动时，网页的源代码才会同步更新。例如：腾讯新闻，处理这类JS异步加载的问题，这里用selenium来解决。

2019-01-22

3K0

ip来源：http://www.xicidaili.com/wt/ 通过遍历西刺代理中的四个页面获取ip，然后对ip有效性进行检验，将有效的ip写入文件。这里需要注意一下，西刺代理有效的ip一般都在前面，后面基本都是失效了的，我选择每个页面的前30条ip地址来检验，后面的直接舍弃。

2019-01-22

7450

Python爬虫之图片爬取

爬虫 python 网站 html

爬虫简介：（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。网络爬虫始于一张被称作种子的统一资源地址（URL）列表。当网络爬虫访问这些统一资源定位器时，它们会甄别出页面上所有的超链接，并将它们写入一张“待访列表”，即所谓爬行疆域。此疆域上的URL将会被按照一套策略循环来访问。如果爬虫在执行的过程中复制归档和保存网站上的信息，这些档案通常储存，使他们可以较容易的被查看。阅读和浏览他们存储的网站上并即时更新的信息，这些被存储的网页又被称为“快照”。越大容量的网页意味着网络爬虫只能在给予的时间内下载越少部分的网页，所以要优先考虑其下载。高变化率意味着网页可能已经被更新或者被取代。一些服务器端软件生成的URL（统一资源定位符）也使得网络爬虫很难避免检索到重复内容。（摘自：维基百科）

2019-01-22

1.6K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态