我想知道是否有任何方法,我可以抓取客户评论的特定产品从亚马逊,而不被封锁。现在,我的爬虫几次就被堵住了。任何想法都会感激的。
发布于 2017-05-25 19:20:12
你被封锁了,因为人们不想把服务器带宽浪费在那些试图利用它而不带来可观利润的人身上。
试着让你的爬行更难预测。
放慢点击服务器的频率,改变爬虫的动作。这将使它更难被发现,因为它的行为将是不可预测的,并可能被错误地认定为一个非常迅速的人类。
发布于 2018-08-30 07:30:30
亚马逊将从其快速和定期的动作以及相同的IP中检测到刮板。通常情况下,抓取自动化工具可以通过旋转IP来跳过它的块,并减慢动作。我们的产品章鱼云提取可以用数百个IP来解决这个问题,并且可以将爬虫的动作分解到不同的服务器上。
发布于 2018-12-11 10:29:30
根据我的经验,每10个amazon请求至少需要一个代理,这意味着如果您想抓取1000个产品,您需要100个代理才能安全。
在过去,我尝试过许多服务,如luminati.io和proxyrack.com,问题都是它们的代理最终会被阻塞,而您必须获得新的代理,这最终会非常昂贵。
所以我尝试了proxycrawl.com,它提供了一个基于消费而不是基于代理的价格,而且效果要好得多,因为我现在不需要关心代理的数量,我只是加载了亚马逊的评论。
所以要明确的是,如果你想使用你自己的代理,每10个产品计算一个代理,否则只需搜索一家能够为你处理所有这些的公司。
https://datascience.stackexchange.com/questions/19211
复制相似问题