python爬虫利用代理IP分析大数据

原创

用户6172015

修改于 2020-11-11 18:16:17

5690

文章被收录于专栏：网络爬虫网络爬虫

在这个互联网时代，HTTP代理成了不可缺少的一部分，我们都知道IP代理商也越来越多。那如何选择代理商成了大家选择的难题。其实爬虫用户完全可以通过代理IP的有效时间，代理IP的有效率，稳定性和自己去的需求去选择自己需要的代理IP。

随着爬虫用户越来越多，使用代理IP也多了起来，代理IP也帮助了爬虫成功采集到数据，让自己的业务有更好的发展。

大数据时代，离不开网络爬虫，网络爬虫也支持许多语言例如常见的python、java、php、c 语言等其他语言，每个语言对应的爬虫需求和环境不同，爬虫用户选择语言自然也不同。

一般爬虫都会选择python和java，python爬虫之所以被大众选择，因为使用简单。在使用python爬虫进行数据抓取的时候，也有可能IP会被限制，避免业务效率下降，这时候就需要用到隧道转发的http爬虫代理。

爬虫用户如何利用python爬虫成功采集到数据：

#! -*- encoding:utf-8 -*-

    import aiohttp, asyncio


    targetUrl = "http://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyServer = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    userAgent = "Chrome/83.0.4103.61"

    async def entry():
        conn = aiohttp.TCPConnector(verify_ssl=False)

        async with aiohttp.ClientSession(headers={"User-Agent": userAgent}, connector=conn) as session:
            async with session.get(targetUrl, proxy=proxyServer) as resp:
                body = await resp.read()

                print(resp.status)
                print(body)

    loop = asyncio.get_event_loop()
    loop.run_until_complete(entry())
    loop.run_forever()

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

http

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

http

登录后参与评论

0 条评论

热度

python爬虫利用代理IP分析大数据

python爬虫利用代理IP分析大数据

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐