MS MARCO Web Search是微软发布的一个大规模、信息丰富的网页数据集。该数据集包含约10亿个高质量网页,源自ClueWeb22,这些网页不仅包括纯文本,还有视觉元素、HTML结构、语义标注等,覆盖207种语言,同时包含1000万个独特查询和数百万带有相关标签的查询-文档对,这些数据来自微软Bing搜索引擎的搜索日志。MS MARCO Web Search提供了100M和10B两种规模的数据集。该数据集可以帮助研究人员开发出更好的搜索引擎和信息检索系统,以及训练和测试大型语义理解模型,使其更精准把握用户搜索意图和文档内容。
详情请参见五号雷达:https://www.5radar.com/result?key=MS+MARCO+Web+Search
领取专属 10元无门槛券
私享最新 技术干货