我正在写一个python程序,它使用漂亮的汤从网站上抓取图像链接,然后对图像进行分类。网站以给定的url格式将他们的图像放在不同的页面上:(website.com/(a-z)(a-z)(0-9)(0-9)(0-9)(0-9)这意味着url的可能性非常高(+100万)。我担心,如果我多次向该站点发出get请求,可能会损害该站点或将我置于法律危险之中。我怎样才能在不破坏网站或使自己陷入法律麻烦的情况下抓取最多的urls?如果你们还想要更多信息,请告诉我。谢谢!
附言:我已经在下面留下了我的代码的伪代码,如果这有帮助的话。
另外,如果格式奇怪或混乱,我很抱歉,我是从手机上发的
For url in urlPossibilities:
Request.get(url)
UrlLink = FindImgLink(url)
Categorize(urlLink)
发布于 2020-05-06 23:07:19
我能想到的几个选择...
1)有没有办法获得这些图片URL的列表?例如,站点地图,或包含大量列表的页面。这将是首选的方式,因为通过使用该列表,您只能抓取您知道存在的内容。基于你的问题,我觉得这是不太可能的,但如果你有一个URL,有没有办法向后工作并找到更多?
2)镜像命名是否有模式?字母可能是随机的,但数字可能会递增计数。例如,AA0001
和AA0002
可能存在,但AA
前缀可能没有其他映像?
3)负责任的抓取-如果该结构中的命名确实是随机的,并且你别无选择,只能尝试所有的URL,直到你得到一个命中的URL,那么负责任地这样做。尊重robot.txt,限制请求速率。
https://stackoverflow.com/questions/61636292
复制相似问题