首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >高频Youtube抓取- IP轮换最佳选项?- XS Cloud Server的VPN / Proxy / Rental IP?

高频Youtube抓取- IP轮换最佳选项?- XS Cloud Server的VPN / Proxy / Rental IP?
EN

Stack Overflow用户
提问于 2021-07-20 00:37:49
回答 1查看 127关注 0票数 0

我在使用Scrapy / Python编写Youtube网络抓取程序时遇到了一个技术问题。我很清楚网络上使用的不同的防抓取系统。然而,其中一个给我带来了问题。

我的脚本的预计抓取频率将是189个数据集(页面)每秒约208MB / s。我想有尽可能少的IP禁令,黑名单等。

我有一个拥有5000多个VPN的NordVPN订阅,以及与Openpyn库相关联的NordVPN命令行界面,以实现更好的控制。我知道使用免费代理很容易(通过代理的数据都不会泄露,所以不加密对我来说无关紧要),但速度对我来说似乎太低了。但是付费代理太贵了(最低180欧元/月)。我想我明白我可以用我的VPN作为代理。但我担心我获取Youtube页面的频率非常高,这会迫使我每秒更换VPN。我担心从一个VPN切换到另一个VPN的时间太高,至少需要5秒(因此服务器有5/6的时间是未使用的)。或者,交换机中是否有更优的交换方法或更快的付费VPN?

我还考虑了租用IP(例如:8个IP,每月7.8美元),并以轮换和快速的方式将它们分配给我的两个裸机服务器(ionos.com)。但这是可能的/允许的(可能在Cloud Server XS上)吗?

你认为如何?保持尽可能高的抓取频率的最佳方法是什么?

PS: Youtube Data V3应用程序接口是不可能的,因为每天10000个配额,而我每天需要数千万个配额。我准备支付VPN,IP,代理,所以付费解决方案(但合理)我感兴趣。

由衷的,久助

EN

回答 1

Stack Overflow用户

发布于 2021-07-20 08:53:32

对于所有与google/youtube相关的东西,我都在使用Bright Data。好消息是他们有大约7200万个代理IP。有很多类似的服务。您可以轻松地将代理服务与scrapy框架集成在一起,而不是使用VPN服务。因此,您可以在进程结束之前保持相同的IP,也可以在每次请求时进行更改。

我只是添加了一个单行shell脚本来展示如何轻松地与代理集成

代码语言:javascript
运行
复制
curl --proxy zproxy.lum-superproxy.io:22225 --proxy-user lum-customer-xxxxxxxxxx-zone-residential:xxxxxxxxx "http://lumtest.com/myip.json"

注:我不建议使用明亮的代理,您可以使用除VPN服务以外的任何代理服务。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68444110

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档