首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >执行多个get请求

执行多个get请求
EN

Stack Overflow用户
提问于 2020-05-06 21:20:50
回答 1查看 25关注 0票数 0

我正在写一个python程序,它使用漂亮的汤从网站上抓取图像链接,然后对图像进行分类。网站以给定的url格式将他们的图像放在不同的页面上:(website.com/(a-z)(a-z)(0-9)(0-9)(0-9)(0-9)这意味着url的可能性非常高(+100万)。我担心,如果我多次向该站点发出get请求,可能会损害该站点或将我置于法律危险之中。我怎样才能在不破坏网站或使自己陷入法律麻烦的情况下抓取最多的urls?如果你们还想要更多信息,请告诉我。谢谢!

附言:我已经在下面留下了我的代码的伪代码,如果这有帮助的话。

另外,如果格式奇怪或混乱,我很抱歉,我是从手机上发的

代码语言:javascript
运行
复制
For url in urlPossibilities:
   Request.get(url)
   UrlLink = FindImgLink(url)
   Categorize(urlLink)
EN

回答 1

Stack Overflow用户

发布于 2020-05-06 23:07:19

我能想到的几个选择...

1)有没有办法获得这些图片URL的列表?例如,站点地图,或包含大量列表的页面。这将是首选的方式,因为通过使用该列表,您只能抓取您知道存在的内容。基于你的问题,我觉得这是不太可能的,但如果你有一个URL,有没有办法向后工作并找到更多?

2)镜像命名是否有模式?字母可能是随机的,但数字可能会递增计数。例如,AA0001AA0002可能存在,但AA前缀可能没有其他映像?

3)负责任的抓取-如果该结构中的命名确实是随机的,并且你别无选择,只能尝试所有的URL,直到你得到一个命中的URL,那么负责任地这样做。尊重robot.txt,限制请求速率。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61636292

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档