极客猴-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

极客猴

专栏成员

162

文章

227134

阅读量

34

订阅数

不懂代码也能爬取数据？试试这几个工具

python https 网络安全爬虫

题图：by watercolor.illustrations from Instagram

2020-04-10

4.3K0

爬过这些网站才算会爬虫

微信网站 html 爬虫

网络上有形形色色的网站，不同类型的网站爬虫策略不同，难易程度也不一样。从是否需要登陆这方面来说，一些简单网站不需要登陆就可以爬，比如之前爬过的猫眼电影、东方财富网等。有一些网站需要先登陆才能爬，比如知乎、微信等。这类网站在模拟登陆时需要处理验证码、js 加密参数这些问题，爬取难度会大很多。费很大力气登陆进去后才能爬取想要的内容，很花时间。

2019-10-31

6250

170行代码爬取《白蛇：缘起》短评数据

爬虫数据库 sql

在我的童年记忆中，电视台播放的动画片大多都是从日本、美国引进的。很多动画片算是银幕上的经典，例如：《变形金刚》系列、《猛兽侠》、《蜘蛛侠》、《七龙珠》、《名侦探柯南》、《灌篮高手》、《数码宝贝》等。

2019-03-04

7070

100行代码爬取全国所有必胜客餐厅信息

python 爬虫数据分析网站其他

当我刚接触 Python 时，我已经被 Python 深深所吸引。Python 吸引我的地方不仅仅能用其编写网络爬虫，而且能用于数据分析。我能将大量的数据中以图形化方式呈现出来，更加直观的解读数据。

2018-12-13

7010

详解 Scrapy 中间键的用法

scrapy 爬虫分布式 ide

中间件的运用比较广泛，如果直接从定义的角度去理解中间件会有点乱，我以分布式系统为例子进行说明。在上篇文章，我讲到目前后台服务架构基本都是往分布式发展。其实分布式系统也算是一个中间件。

2018-11-30

1.1K0

带你了解代理 IP 那些事

爬虫安全 http nginx

在爬取某些网站时，我们经常会设置代理 IP 来避免爬虫程序被封。我们获取代理 IP 地址方式通常提取国内的知名 IP 代理商（如西刺代理，快代理，无忧代理等）的免费代理。这些代理商一般都会提供透明代理，匿名代理，高匿代理。那么这几种代理的区别是什么？我们该如何选择呢？本文的主要内容是讲解各种代理 IP 背后的原理。

2018-09-21

1.1K0

盘点一些网站的反爬虫机制

爬虫 nat python http

因为 Python 语法简介以及强大的第三方库，所以我们使用它来制作网络爬虫程序。网络爬虫的用途是进行数据采集，也就是将互联网中的数据采集过来。

2018-09-21

5.2K0

想提高爬虫效率？aiohttp 了解下

爬虫人工智能

对于爬虫程序，我们往往会很关注其爬虫效率。影响爬虫效率有几个因素有，是否使用多线程，I/O 操作，是否同步执行等。其中 I/O 操作、同步执行是最影响爬虫效率的。

2018-08-16

1.2K0

总结是成长的秘方

时光荏苒，2018 年已经过去半年。你年初制定新年计划，不知现在完成的进度是多少了？不管怎样，应该好好总结下。

2018-08-16

2110

Python 实现识别弱图片验证码

python 爬虫图像处理开源

目前，很多网站为了防止爬虫肆意模拟浏览器登录，采用增加验证码的方式来拦截爬虫。验证码的形式有多种，最常见的就是图片验证码。其他验证码的形式有音频验证码，滑动验证码等。图片验证码越来越高级，识别难度也大幅提高，就算人为输入也经常会输错。本文主要讲解识别弱图片验证码。

2018-08-16

4K0

Scrapy 框架插件之 IP 免费代理池

scrapy 爬虫云数据库 SQL Server 数据库

现在很多网站都是对单个 IP 地址有访问次数限制，如果你在短时间内访问过于频繁。该网站会封掉你 IP，让你在一段时间内无法正常该网站。突破反爬虫机制的一个重要举措就是代理 IP。拥有庞大稳定的 IP 代理，在爬虫工作中将起到重要的作用,但是从成本的角度来说，一般稳定的 IP 池都很贵。因此，我为 Scrapy 爬虫编写个免费 IP 代理池插件。

2018-08-16

1.5K0

学会运用爬虫框架 Scrapy (二)

上篇文章介绍了爬虫框架 Scrapy 如何安装，以及其特性、架构、数据流程。相信大家已经对 Scrapy 有人了初步的认识。本文是 Scrapy 系列文章的第二篇，主要通过一个实例讲解 scrapy 的用法。

2018-08-16

3760

学会运用爬虫框架 Scrapy (四) —— 高效下载图片

爬虫程序爬取的目标通常不仅仅是文字资源，经常也会爬取图片资源。这就涉及如何高效下载图片的问题。这里高效下载指的是既能把图片完整下载到本地又不会对网站服务器造成压力。也许你会这么做，在 pipeline 中自己实现下载图片逻辑。但 Scrapy 提供了图片管道ImagesPipeline，方便我们操作下载图片。

2018-08-16

6930

学会运用爬虫框架 Scrapy (五) —— 部署爬虫

爬虫 scrapy json api

本文是 Scrapy 爬虫系列的最后一篇文章。主要讲述如何将我们编写的爬虫程序部署到生产环境中。我们使用由 scrapy 官方提供的爬虫管理工具 scrapyd 来部署爬虫程序。

2018-08-16

3530

爬虫与反爬虫的博弈

近来这两三个月，我陆续将自己学到的爬虫技术分享出来。以标准网络库 urllib 的用法起笔，接着介绍各种内容提供工具，再到后续的 scrapy 爬虫框架系列。我的爬虫分享之旅已经接近尾声了。本文就来聊聊如何防止爬虫被 ban 以及如何限制爬虫。

2018-08-16

1.5K1

爬虫系列的总结

爬虫 python 正则表达式

时光荏苒，四个月时间如流沙般从手心中流逝。这四个月自己算是收获颇多。因为在张哥的影响下，自己渐渐喜欢上写作。自己将所学的爬虫知识、学习心得以及如何学习分享出来。本文是爬虫系列文章的总结，主要是梳理下爬虫系列的文章。

2018-08-16

3390

学爬虫之道

爬虫 django python

Django 已经算是入门，所以自己把学习目标转到爬虫。自己接下来会利用三个月的时间来专攻 Python 爬虫。这几天，我使用“主题阅读方法”阅读 Python 爬虫入门的文档。制定 Python 爬虫的学习路线。

2018-08-16

4840

常用Python标准库

python 正则表达式爬虫

众所周知，Python有庞大的库资源，有官方标准库以及第三方的扩展库。每个库都一把利器，能帮助我们快速处理某方面的问题。作为一名python的初学者，当把基本的语法、列表和元组、字典、迭代器、异常处理、I/O操作、抽象等知识点学完之后。我建议把官方常用的标准库也随便学下来。讲真的，你知道这些库之后，你会有种相见恨晚的感觉。

2018-08-16

1.3K0

学会运用爬虫框架 Scrapy (一)

爬虫 scrapy 分布式数据挖掘

对于规模小、爬取数据量小、对爬取速度不敏感的爬虫程序，使用 Requests 能轻松搞定。这些爬虫程序主要功能是爬取网页、玩转网页。如果我们需要爬取网站以及系列网站，要求爬虫具备爬取失败能复盘、爬取速度较高等特点。很显然 Requests 不能完全满足我们的需求。因此，需要一功能更加强大的第三方爬虫框架库 —— Scrapy

2018-08-16

4180

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态