OmniCorpus由上海人工智能实验室联合多所知名高校及研究机构共同构建,是迄今为止最大的多模态数据集。该数据集包含了86亿张图像和1696亿个文本Token,支持中英双语。与现有的数据集相比,其在以下方面具有显著优势:1)更大的数据规模:与之前最大的多模态数据集LAION-5B相比,OmniCorpus的数据集在图像方面大了1.7倍,在文本方面大了12.5倍,同时保持了出色的数据质量。2)更丰富的数据多样性:从更广泛的数据源中提取数据,OmniCorpus数据集比其他图像-文本交错数据集更具多样性。它包括中英文双语多模态数据,并包括从常见网站和视频平台提取的以文本为中心和以视觉为中心的文档。3)更灵活的格式:OmniCorpus的流式数据格式提供了非凡的灵活性,允许适应各种数据结构,包括纯文本语料库、图像-文本对和交错数据格式。该数据集制作pipeline由五个关键阶段组成:主体提取、初步文本过滤、文档重复数据消除、图像下载和过滤以及详细文本过滤。每个阶段都有效地减少数据集,只保留高质量的数据。OmniCorpus的多语言特性和高质量数据为多模态机器学习模型提供了丰富的训练资源,推动了人工智能领域的研究进展。
详情请参见五号雷达:https://www.5radar.com/dataset?id=5d10d43945eec43190633c36e9f48f4b
领取专属 10元无门槛券
私享最新 技术干货