腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

编程

写写文章，造造轮子，推荐几篇文章的专栏~

专栏作者

772

文章

1110160

阅读量

114

订阅数

《6大爬虫利器，轻松搞定爬虫》

爬虫 selenium python https scrapy

工欲善其事必先利其器，Python之所以流行在于她有非常丰富的第三方包，无论是Web框架还是机器学习框架、抑或是爬虫框架，多得让人眼花缭乱，这给了开发者极大的选择性，这是其它语言没法企及的。今天小编就来推荐10个牛逼的爬虫利器，助你轻松搞定爬虫。 1、Requests Requests是一个HTTP请求库，完美体现了Python简单、优雅、易勇的编程哲学，开发者经常拿它的源代码作为参考，是不可多得的源代码学习资料。官网地址：http://docs.python-requests.org/en/master/

企鹅号小编

2018-01-30

1K0

Scrapy 框架插件之 IP 免费代理池

python 爬虫 http 网站 scrapy

Photo from Unsplash 现在很多网站都是对单个 IP 地址有访问次数限制，如果你在短时间内访问过于频繁。该网站会封掉你 IP，让你在一段时间内无法正常该网站。突破反爬虫机制的一个重要举措就是代理 IP。拥有庞大稳定的 IP 代理，在爬虫工作中将起到重要的作用,但是从成本的角度来说，一般稳定的 IP 池都很贵。因此，我为 Scrapy 爬虫编写个免费 IP 代理池插件。 1 特点该插件适用的程序是基于 Scrapy 框架编写的爬虫程序。插件通过爬取免费代理地址，然后过滤掉无效 IP 代理

企鹅号小编

2018-01-26

2.7K1

保存数据到MySql数据库——我用scrapy写爬虫（二）

写在前面上一篇（https://www.tech1024.cn/original/2951.html ）说了如何创建项目，并爬去网站内容，下面我们说一下如何保存爬去到的数据开始爬取创建Spider，上一篇我们已经创建了ImoocSpider，我们做一下修改，可以连续下一页爬取。 scrapyDemo/spiders目录下的ImoocSpider类：这里用到了scrapyDemo目录下ImoocCourseItem类，下面我就说一下。 Item数据容器在scrapyDemo目录下创建ImoocC

企鹅号小编

2018-01-23

2.5K0

前端SEO—详细讲解

一、搜索引擎工作原理当我们在输入框中输入关键词，点击搜索或查询时，然后得到结果。深究其背后的故事，搜索引擎做了很多事情。在搜索引擎网站，比如百度，在其后台有一个非常庞大的数据库，里面存储了海量的关键词，而每个关键词又对应着很多网址，这些网址是百度程序从茫茫的互联网上一点一点下载收集而来的，这些程序称之为“搜索引擎蜘蛛”或“网络爬虫”。这些勤劳的“蜘蛛”每天在互联网上爬行，从一个链接到另一个链接，下载其中的内容，进行分析提炼，找到其中的关键词，如果“蜘蛛”认为关键词在数据库中没有而对用户是有用的便存入数据

企鹅号小编

2018-01-17

9860

用Zhihu-OAuth库轻松爬取知乎各类数据

好久没更新，没赶在2018年的第一天内推送，出师不利 📷 去年（手动滑稽）某日想爬取知乎特定话题下的全部回答数据，于是翻出以前写的知乎话题爬虫跑运行了下，没想到遇到一个一直没能解决的bug，貌似是抓包到的API返回的JSON数据格式有问题，于是遭遇爬知乎的滑铁卢。幸而想起有个叫“Zhihu-OAuth”的库，于是了解了下并上手一用，还蛮方便的，于是介绍给想爬取知乎数据的小伙伴们。这是知乎用户“7sDream”开源的Python库，github地址为：https://github.com/7sDream/z

企鹅号小编

2018-01-10

1.8K0

关注专栏作者，随时接收最新技术干货

程序员的自我修养

腾讯产品运营

花落花飞去

腾讯社区运营

企鹅号小编

腾讯

这才是简单快速入门Python的正确姿势！

爬虫 scrapy python

企鹅号小编

2017-12-29

1.4K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态