首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】MS MARCO Web Search - 包含数百万真实点击标签的网页数据集

MS MARCO Web Search是微软发布的一个大规模、信息丰富的网页数据集。该数据集包含约10亿个高质量网页,源自ClueWeb22,这些网页不仅包括纯文本,还有视觉元素、HTML结构、语义标注等,覆盖207种语言,同时包含1000万个独特查询和数百万带有相关标签的查询-文档对,这些数据来自微软Bing搜索引擎的搜索日志。MS MARCO Web Search提供了100M和10B两种规模的数据集。该数据集可以帮助研究人员开发出更好的搜索引擎和信息检索系统,以及训练和测试大型语义理解模型,使其更精准把握用户搜索意图和文档内容。

详情请参见五号雷达:https://www.5radar.com/result?key=MS+MARCO+Web+Search

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OdgRNoht5VTkFeMQLks30nZA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券