文章/答案/技术大牛

发布

问执行多个get请求
EN

Stack Overflow用户

提问于 2020-05-06 21:20:50

回答 1查看 25关注 0票数 0

我正在写一个python程序，它使用漂亮的汤从网站上抓取图像链接，然后对图像进行分类。网站以给定的url格式将他们的图像放在不同的页面上：(website.com/(a-z)(a-z)(0-9)(0-9)(0-9)(0-9)这意味着url的可能性非常高(+100万)。我担心，如果我多次向该站点发出get请求，可能会损害该站点或将我置于法律危险之中。我怎样才能在不破坏网站或使自己陷入法律麻烦的情况下抓取最多的urls？如果你们还想要更多信息，请告诉我。谢谢!

附言:我已经在下面留下了我的代码的伪代码，如果这有帮助的话。

另外，如果格式奇怪或混乱，我很抱歉，我是从手机上发的

For url in urlPossibilities:
   Request.get(url)
   UrlLink = FindImgLink(url)
   Categorize(urlLink)

python-requests

python-3.x

web-scraping

beautifulsoup

回答 1

Stack Overflow用户

发布于 2020-05-06 23:07:19

我能想到的几个选择...

1)有没有办法获得这些图片URL的列表？例如，站点地图，或包含大量列表的页面。这将是首选的方式，因为通过使用该列表，您只能抓取您知道存在的内容。基于你的问题，我觉得这是不太可能的，但如果你有一个URL，有没有办法向后工作并找到更多？

2)镜像命名是否有模式？字母可能是随机的，但数字可能会递增计数。例如，AA0001和AA0002可能存在，但AA前缀可能没有其他映像？

3)负责任的抓取-如果该结构中的命名确实是随机的，并且你别无选择，只能尝试所有的URL，直到你得到一个命中的URL，那么负责任地这样做。尊重robot.txt，限制请求速率。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61636292

复制

相似问题

问执行多个get请求
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问执行多个get请求EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问执行多个get请求
EN