参考 Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus。
langdetect
得到的英文概率小于 0.99,所以 C4 主要是英文文档。patents.google.com
、en.wikipedia.com
、en.m.wikipedia.com
。patents.google.com
排第一,这是专利网站,Google 会使用机器翻译模型翻译非英文专利,也会使用 ocr 将扫描文本识别出来。识别哪些文本是机器生成的也是一个活跃的研究领域。