前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用多线程或异步技术提高图片抓取效率

使用多线程或异步技术提高图片抓取效率

原创
作者头像
jackcode
发布2023-09-07 14:41:00
2460
发布2023-09-07 14:41:00
举报
文章被收录于专栏:爬虫资料
亿牛云代理
亿牛云代理

导语

图片抓取是爬虫技术中常见的需求,但是图片抓取的效率受到很多因素的影响,比如网速、网站反爬机制、图片数量和大小等。本文将介绍如何使用多线程或异步技术来提高图片抓取的效率,以及如何使用爬虫代理IP来避免被网站封禁。

概述

多线程和异步技术都是利用计算机的并发能力来提高程序的执行速度。多线程是指在一个进程中创建多个线程,每个线程可以独立地执行一部分任务,从而实现任务的并行处理。异步技术是指在一个线程中使用非阻塞的方式来执行任务,当遇到耗时的操作时,不会等待其完成,而是继续执行其他任务,从而实现任务的并发处理。使用多线程或异步技术可以有效地减少图片抓取的等待时间,提高图片抓取的效率。爬虫代理IP是指通过第三方服务器来访问目标网站,从而隐藏自己的真实IP地址。使用爬虫代理IP可以有效地防止被目标网站识别和封禁,提高图片抓取的成功率。

正文

本文将以Python语言为例,介绍如何使用多线程或异步技术来实现图片抓取,并使用亿牛云爬虫代理来提供代理IP服务。首先,需要导入一些必要的模块,如requests、threading、asyncio、aiohttp等:

代码语言:python
代码运行次数:0
复制
# 导入模块
import requests
import threading
import asyncio
import aiohttp

然后,需要定义一个函数来获取图片的URL列表,这里假设目标网站是https://unsplash.com/,一个提供免费高清图片的网站。可以使用requests模块来发送HTTP请求,并使用BeautifulSoup模块来解析HTML文档,提取图片的URL:

代码语言:python
代码运行次数:0
复制
# 定义函数获取图片URL列表
def get_image_urls():
    # 目标网站URL
    url = 'https://unsplash.com/'
    # 亿牛云 爬虫代理域名、端口、用户名、密码
    proxy_host = 'http://www.16yun.cn'
    proxy_port = '8080'
    proxy_user = '16YUN'
    proxy_pass = '16IP'
    # 构造代理URL
    proxy_url = f'{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}'
    # 构造代理字典
    proxies = {
        'http': proxy_url,
        'https': proxy_url
    }
    # 发送HTTP请求,获取响应内容
    response = requests.get(url, proxies=proxies)
    html = response.text
    # 解析HTML文档,提取图片URL
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(html, 'lxml')
    images = soup.find_all('img', class_='oCCRx')
    image_urls = [image['src'] for image in images]
    # 返回图片URL列表
    return image_urls

接下来,需要定义一个函数来下载并保存图片,这里假设将图片保存在当前目录下的images文件夹中。可以使用requests模块来下载图片,并使用os模块来创建文件夹和文件:

代码语言:python
代码运行次数:0
复制
# 定义函数下载并保存图片
def download_and_save_image(image_url):
    # 亿牛云 爬虫代理域名、端口、用户名、密码
    proxy_host = 'http://www.16yun.cn'
    proxy_port = '8080'
    proxy_user = '16YUN'
    proxy_pass = '16IP'
    # 构造代理URL
    proxy_url = f'{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}'
    # 构造代理字典
    proxies = {
        'http': proxy_url,
        'https': proxy_url
    }
    # 下载图片,获取图片内容
    response = requests.get(image_url, proxies=proxies)
    image_data = response.content
    # 创建images文件夹,如果不存在
    import os
    if not os.path.exists('images'):
        os.mkdir('images')
    # 从图片URL中提取图片文件名
    image_name = image_url.split('/')[-1]
    # 拼接图片文件路径
    image_path = os.path.join('images', image_name)
    # 保存图片文件
    with open(image_path, 'wb') as f:
        f.write(image_data)

最后,需要定义一个主函数来调用上述两个函数,并使用多线程或异步技术来提高图片抓取的效率。这里分别介绍两种方法:

  • 使用多线程技术:可以使用threading模块来创建多个线程对象,并将下载并保存图片的函数作为线程的目标函数,将图片URL作为线程的参数,然后启动所有线程,并等待所有线程结束:
代码语言:python
代码运行次数:0
复制
# 定义主函数使用多线程技术
def main_threading():
    # 获取图片URL列表
    image_urls = get_image_urls()
    # 创建空列表存储线程对象
    threads = []
    # 遍历图片URL列表,创建并启动线程对象
    for image_url in image_urls:
        # 创建线程对象,指定目标函数和参数
        thread = threading.Thread(target=download_and_save_image, args=(image_url,))
        # 将线程对象添加到列表中
        threads.append(thread)
        # 启动线程对象
        thread.start()
    # 遍历线程对象列表,等待所有线程结束
    for thread in threads:
        thread.join()
  • 使用异步技术:可以使用asyncio模块来创建一个事件循环对象,并将下载并保存图片的函数改写为一个异步函数,使用aiohttp模块来发送异步HTTP请求,并使用asyncio模块的gather函数来收集所有的异步任务,并在事件循环中执行:
代码语言:python
代码运行次数:0
复制
# 定义主函数使用异步技术
def main_asyncio():
    # 获取图片URL列表
    image_urls = get_image_urls()
    # 创建事件循环对象
    loop = asyncio.get_event_loop()
    # 定义异步函数下载并保存图片
    async def download_and_save_image_async(image_url):
        # 亿牛云 爬虫代理域名、端口、用户名、密码
        proxy_host = 'http://www.16yun.cn'
        proxy_port = '8080'
        proxy_user = '16YUN'
        proxy_pass = '16IP'
        # 构造代理URL
        proxy_url = f'{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}'
        # 构造代理字典
        proxies = {
            'http': proxy_url,
            'https': proxy_url
        }
        # 使用aiohttp模块发送异步HTTP请求,获取图片内容
        async with aiohttp.ClientSession() as session:
            async with session.get(image_url, proxy=proxy_url) as response:
                image_data = await response.read()
        # 创建images文件夹,如果不存在
        import os
        if not os.path.exists('images'):
            os.mkdir('images')
        # 从图片URL中提取图片文件名
        image_name = image_url.split('/')[-1]
        # 拼接图片文件路径
        image_path = os.path.join('images', image_name)
        # 保存图片文件
        with open(image_path, 'wb') as f:
            f.write(image_data)
    # 创建空列表存储异步任务对象
    tasks = []
    # 遍历图片URL列表,创建并添加异步任务对象
    for image_url in image_urls:
        # 创建异步任务对象,指定异步函数和参数
        task = asyncio.ensure_future(download_and_save_image_async(image_url))
        # 将异步任务对象添加到列表中
        tasks.append(task)
    # 使用asyncio模块的gather函数收集所有的异步任务对象
    tasks = asyncio.gather(*tasks)
    # 在事件循环中执行所有的异步任务对象,并等待其完成
    loop.run_until_complete(tasks)

结语

本文介绍了如何使用多线程或异步技术来提高图片抓取的效率,以及如何使用代理IP来避免被网站封禁。通过使用多线程或异步技术,可以有效地减少图片抓取的等待时间,提高图片抓取的效率。通过使用代理IP,可以有效地防止被目标网站识别和封禁,提高图片抓取的成功率。本文以Python语言为例,给出了相应的代码实现,供读者参考。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 导语
  • 概述
  • 正文
  • 结语
相关产品与服务
图片处理
图片处理(Image Processing,IP)是由腾讯云数据万象提供的丰富的图片处理服务,广泛应用于腾讯内部各产品。支持对腾讯云对象存储 COS 或第三方源的图片进行处理,提供基础处理能力(图片裁剪、转格式、缩放、打水印等)、图片瘦身能力(Guetzli 压缩、AVIF 转码压缩)、盲水印版权保护能力,同时支持先进的图像 AI 功能(图像增强、图像标签、图像评分、图像修复、商品抠图等),满足多种业务场景下的图片处理需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档