前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >反爬和反反爬的那些事

反爬和反反爬的那些事

作者头像
不可言诉的深渊
发布2019-07-26 17:18:46
6030
发布2019-07-26 17:18:46
举报
文章被收录于专栏:Python机器学习算法说书人

我们需要爬取的数据大多来源于互联网的各个网站。然而,不同的网站结构不一、布局复杂、渲染方式多样,有的网站还专门采取了一系列“反爬”的防范措施。因此,为准确高效的获得我们想要的各种数据资源,我们需要采取具有针对性的反制措施。网络爬虫和反爬措施是矛与盾的关系,网络爬虫技术就是在这种针锋相对、见招拆招的不断斗争中,逐渐完善和发展起来的。今天我通过爬取煎蛋网妹子图让大家对反爬和反反爬有一个了解。

正常操作

在爬取之前,我们先要知道网址,我在这里直接给出:http://jandan.net/ooxx。我们需要获取的是图片,我们首先把鼠标移动到网页的一张图片上,然后右击,检查,然后出现如图所示的东西。

被选中的那一行里面包含了图片的URL,通过多看几个图片,我们可以直接写出正则表达式:r'<img src="(http://.*?\.jpg)" style=".*?" />',下面的操作就简单了,直接使用requests库发送请求并获取响应。

代码语言:javascript
复制
 from requests import get
 print(get('http://jandan.net/ooxx'))

运行结果是返回并输出状态码200,也就是OK,说明它貌似还没有反爬措施。接下来就是通过正则表达式筛选我们想要的数据,代码如下:

代码语言:javascript
复制
 from requests import get
 from re import compile
 image_pattern = compile(r'<img src="(http://.*?\.jpg)" style=".*?" />')
 response = get('http://jandan.net/ooxx').content.decode()
 image_list = image_pattern.findall(response)
 print(image_list)

运行结果是输出一个空列表,说明数据根本就不在这里。可是我在刚刚打开这个网站的时候,感觉它不像是动态加载,看着就像是一个静态页面,按理来说图片应该会写死在HTML的。

下面我们先不筛选,先直接输出网页的源代码,然后在输出的源代码中查找上面的图片的URL。

代码语言:javascript
复制
 from requests import get
 print(get('http://jandan.net/ooxx').content.decode())

执行完上述代码之后我们直接在运行结果里面查询某一个图片的URL,如图所示。

爬虫神器——selenium

selenium是一个自动化的测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。下面我们就来感受一下它的强大之处吧。

准备工作

我接下来以Chrome为例讲解selenium的用法。在此之前,请确保已经安装好了Chrome浏览器并配置好了chromedriver。另外,还需要正确的安装好Python的selenium库。安装过程我就不赘述了,网上教程一堆。

开始使用

我们首先使用selenium获取之前网页的源代码,然后再去检索一下有没有我们想要的结果,代码如下。

代码语言:javascript
复制
 from selenium.webdriver import Chrome
 browser = Chrome()
 browser.get('http://jandan.net/ooxx')
 print(browser.page_source)
 browser.close()

当运行这段代码时,会弹出一个Chrome浏览器,然后访问http://jandan.net/ooxx,最后输出网页的源代码,关闭浏览器。

注意:关闭浏览器这一步千万比能少!!!至于为什么,下面我们来看一下,如果不关闭会怎么样?下面我把关闭那一行删掉运行多次。运行结束之后打来任务管理器,选择进程,按名称排序,如图所示。

从图中我们可以发现有很多个chromedriver.exe在运行,看着真是慌得一批。我相信大家看到这里,应该知道为什么必须关闭了。

下面我们检查运行结果里面有没有我们想要的图片,如图所示。

看样子结果加载出来了,下面直接使用正则筛选出我们想要的结果。

代码语言:javascript
复制
 from selenium.webdriver import Chrome
 from re import compile
 image_pattern = compile(r'<img src="(http://.*?\.jpg)" style=".*?" />')
 with Chrome()as browser:
     browser.get('http://jandan.net/ooxx')
     image_list = image_pattern.findall(browser.page_source)
     print(image_list)

运行结果如图所示。

可以发现成功筛选出来了,可是它只爬到了首页的图片,我们要爬这个网站的所有妹子图。

我们可以发现,在下面有选择第几页的功能,我们点击下一页,看看地址栏的地址有没有发生变化,可以发现,地址类似于http://jandan.net/ooxx/page-28#comments,这样就简单了,直接使用for循环遍历就行。但是在遍历之前,我们首先需要知道总共有多少页。我们先进入首页:http://jandan.net/ooxx,然后找到选择第几页那里,右击当前页面,也就是[…],点击检查,如图所示。

然后就是写出最大页码的正则并获取,这个正则很简单:r'<span class="current-comment-page">\[(\d+)\]</span>',然后就是遍历每一页并获取图片。

代码语言:javascript
复制
 from selenium.webdriver import Chrome
 from re import compile
 image_pattern = compile(r'<img src="(http://.*?\.jpg)" style=".*?" />')
 max_page_pattern = compile(r'<span class="current-comment-page">\[(\d+)\]</span>')
 with Chrome()as browser:
     browser.get('http://jandan.net/ooxx')
     image_list = image_pattern.findall(browser.page_source)
     max_page = int(max_page_pattern.findall(browser.page_source)[0])
     for image_url in image_list:
         print(max_page, image_url)
     for page in range(max_page - 1, 0, -1):
         browser.get(f'http://jandan.net/ooxx/page-{page}#comments')
         image_list = image_pattern.findall(browser.page_source)
         for image_url in image_list:
             print(page, image_url)

可以发现它确实可以正常运行,还差最后一步保存图片了,保存图片很简单,requests库发个请求,然后获取content并写入文件(wb),最后直接附上完整源代码。

代码语言:javascript
复制
 from selenium.webdriver import Chrome
 from re import compile
 from requests import get
 image_pattern = compile(r'<img src="(http://.*?\.jpg)" style=".*?" />')
 max_page_pattern = compile(r'<span class="current-comment-page">\[(\d+)\]</span>')
 with Chrome()as browser:
     browser.get('http://jandan.net/ooxx')
     image_list = image_pattern.findall(browser.page_source)
     max_page = int(max_page_pattern.findall(browser.page_source)[0])
     count = 0
     for image_url in image_list:
         print(max_page, image_url)
         open(f'jandan/{count}.jpg', 'wb').write(get(image_url).content)
         count += 1
     for page in range(max_page - 1, 0, -1):
         browser.get(f'http://jandan.net/ooxx/page-{page}#comments')
         image_list = image_pattern.findall(browser.page_source)
         for image_url in image_list:
             print(page, image_url)
             open(f'jandan/{count}.jpg', 'wb').write(get(image_url).content)
             count += 1
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-01-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python机器学习算法说书人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 正常操作
  • 爬虫神器——selenium
    • 准备工作
      • 开始使用
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档