首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】超过300种语言的维基百科嵌入表示数据集

wikipedia-2023-11-embed-multilingual-v3是Cohere公司发布的一个多语种嵌入(Embedding)表示的维基百科数据集,该数据集包含了2023年11月1日维基百科在300多种语言中的全部数据集转储,其中每篇文章被切分成段落,并利用先进的Cohere Embed V3多语种嵌入模型进行编码,整个数据集规模达536G,包含约2.5亿个段落嵌入。该数据集为跨语言的语义搜索提供了便捷途径,亦可作为RAG应用的知识库。

详情请参见五号雷达:https://www.5radar.com/

数据集地址: https://huggingface.co/datasets/Cohere/wikipedia-2023-11-embed-multilingual-v3

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ONYBLUhQj_vkTo71FBkSFYOg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券