文章/答案/技术大牛

发布

社区首页 >问答首页 >无法使用请求从亚马逊s3流式传输文件

问无法使用请求从亚马逊s3流式传输文件
EN

Stack Overflow用户

提问于 2018-02-26 05:37:24

回答 1查看 376关注 0票数 0

我正在尝试流式爬行数据从公共爬虫，但亚马逊s3错误时，我使用stream=True参数来获取请求。下面是一个示例：

resp = requests.get(url, stream=True)
print(resp.raw.read())

当我在Common Crawl s3 http url上运行它时，我得到了响应：

b'<?xml version="1.0" encoding="UTF-8"?>\n<Error><Code>NoSuchKey</Code>
<Message>The specified key does not exist.</Message><Key>crawl-data/CC-
MAIN-2018-05/segments/1516084886237.6/warc/CC-
MAIN-20180116070444-20180116090444-00000.warc.gz\n</Key>
<RequestId>3652F4DCFAE0F641</RequestId><HostId>Do0NlzMr6
/wWKclt2G6qrGCmD5gZzdj5/GNTSGpHrAAu5+SIQeY15WC3VC6p/7/1g2q+t+7vllw=
</HostId></Error>'

我使用的是warcio，需要一个流文件对象作为存档迭代器的输入，由于内存有限，无法一次性下载所有文件。我该怎么办？

PS。本例中我请求的url是https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2018-05/segments/1516084886237.6/warc/CC-MAIN-20180116070444-20180116090444-00000.warc.gz。

python-requests

common-crawl

python

amazon-web-services

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-02-26 05:58:00

您的url中有一个错误。比较您得到的响应中的键：

<Key>crawl-data/CC-
MAIN-2018-05/segments/1516084886237.6/warc/CC-
MAIN-20180116070444-20180116090444-00000.warc.gz\n</Key>

指向目标url中的url：

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2018-05/segments/1516084886237.6/warc/CC-MAIN-20180116070444-20180116090444-00000.warc.gz

由于某些原因，您添加了不必要的空格，这些空格可能是在读取文件时拾取的(readline()将在每行显示'\n‘个尾随字符)。也许可以尝试调用.strip()来删除尾随的换行符。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48978724

复制

相似问题

问无法使用请求从亚马逊s3流式传输文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法使用请求从亚马逊s3流式传输文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法使用请求从亚马逊s3流式传输文件
EN