为了研究目的,我想要一大组(~100 K)的网页,尽管我只对它们的文本感兴趣。我计划将它们用于gensim LDA主题模型。CommonCrawler似乎是一个很好的起点,但我不知道如何开始。有人能指出如何下载100 K文本文件或如何访问它们(如果它比下载容易)?
发布于 2014-12-17 21:42:53
似乎只能下载DataSet的一部分(您可以选择想要的月份),也可以只下载文本(称为湿文件)。例如,您可以从:http://blog.commoncrawl.org/2014/09/august-2014-crawl-data-available/下载2014年8月的爬行数据,有关文件格式的说明可以在这里找到:http://blog.commoncrawl.org/2014/04/navigating-the-warc-file-format/
https://stackoverflow.com/questions/27533977
复制相似问题