我正在尝试使用和服刮亚马逊的结果页。例如,我在Amazon.co.uk搜索引擎上输入"Sony“,想要抓取结果以获得产品名称。我能够做到这一点为一个页面,但我想刮多页使用分页功能。到目前为止,我还不能让分页工作。我选择“下一页”作为分页的链接,但是我得到了一个E20错误。
有人知道我做错了什么吗?会不会是Amazon页面的结构阻止了分页功能的使用?
谢谢!浮点
发布于 2015-11-30 20:00:17
有人知道我做错了什么吗?
看起来你遇到了业务目录的难题。它几乎总是防刮墙/倾斜的。亚马逊的数十亿商品肯定会高墙高墙,防止数据被盗,而像和服刮刀这样的轻量级抓取工具(9999%)肯定会被它绊倒。请参阅tips and tricks on scraping business directories。
报价
这类网站特别注意使用反抓取措施来避免数据泄露。所以要准备好应对意外的陷阱和牢不可破的防火墙。
我的建议是选择任何off-the-shelf scraping software,将代理服务插入其中,然后继续抓取。
https://stackoverflow.com/questions/33995286
复制相似问题