似乎只能下载DataSet的一部分(您可以选择想要的月份)，也可以只下载文本(称为湿文件)。例如，您可以从：http://blog.commoncrawl.org/2014/09/august-2014-crawl-data-available/下载2014年8月的爬行数据，有关文件格式的说明可以在这里找到：http://blog.commoncrawl.org/2014/04/navigating-the-warc-file-format/

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27533977

复制

相似问题

问如何下载亚马逊CommonCrawel的子集(只有文本(湿文件)？)需要)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何下载亚马逊CommonCrawel的子集(只有文本(湿文件)？)需要)EN