我试图从IMDB网站上抓取一个特定电影评论的评论。为此,我使用爬行网站,我已经嵌入循环,因为有74页。
附件是配置的图像。请帮帮忙。我被困在这里面了。
爬网网址是:http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}

发布于 2016-04-18 14:59:09
当我尝试时,我得到了403 forbidden错误,因为IMDB服务认为我是一个机器人。将Loop与Crawl Web一起使用是错误的做法,因为Loop操作符没有实现任何等待。
可以将此过程简化为只使用Crawl Web操作符。主要参数如下:
这是因为爬行操作符将计算出与规则匹配的所有可能的URL,并存储同样匹配的URL。访问将延迟1000 ms (延迟参数),以避免在服务器上触发机器人排斥。
希望这能让你开始。
https://stackoverflow.com/questions/36686110
复制相似问题