首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Embedding Archives:多语言数百万WiKi百科内容数据模型

不可否认,我们正处于语言人工智能的革命时代。开发人员正在意识到语言理解和生成模型的大量新兴功能。新一代应用程序的关键构建之一是支持搜索系统的嵌入。为了帮助开发人员快速开始使用常用的数据集,人工智能初创公司Cohere发布了Embedding Archives数据集,可以免费下载用来供AI研究者和企业用于训练和加强自己的AI模型。

Cohere还发布了Multilingual embedding模型,模型中他们嵌入了多语言的数百万Wiki百科的内容数据。其内容已经被分割成段落,并为每个段落计算一个嵌入向量。

公开的数据可以在 Hugging Face Datasets 上下载,包含文本、嵌入向量和其他元数据值。

可以通过一下Python下载

就能下载简单中文Wiki百科的数据集。

数据集合较大,下载需要一定时间,另外保持你磁盘空间足够哦。

其中emb列包含该文本段落的嵌入维度,为一个包含768个浮点数的数组(Cohere的多语言22-12嵌入模型)。

使用

那么这些数据怎么用呢?实际上你可以极尽你想象在你的实例中使用,这儿给你抛砖引玉提供一些用例的思路:

搜索系统

Wiki百科是世界上最有价值的知识库之一。可以使用Embedding Archives来构建搜索系统,用来查询相关知识或者主题。

要进行搜索,先使用以下方式嵌入查询co.Embed(),然后计算相似度。示例代码如下:

这样,topk就包含了最相关结果的索引。

多语言

Embedding Archives嵌入了具有跨语言属性的模型,所以可以在应用程序中使用多种语言,并依赖于含义相似的句子具有相似嵌入的属性,即使它们使用不同的语言也是如此。

搜索百科的特定部分

除了探索全球百科之外,对相关主题上策划多个页面,这样数据集可用来搜索特定主题的。例子包括:

所有剧集页或其他电视剧主题。

利用百科信息框来收集特定主题的标题,比如电子(从计算机页面的底部)

由于数据集的大小,临时步骤可以是将文本导入Postgres等数据库,并使用它为每个项目提取构建有趣的子集。

Weaviate:矢量数据库搜索

超过一定规模后,使用矢量数据库来实现更具可扩展性和高级检索功能会变得很有用。

Cohere有一个Embedding Archives子集的模型Weaviate,可以直接提供查询服务。

Weaviate包含1000万个向量,包括en, de, fr, es, it, ja, ar, zh, ko, hi等10种最主要的语言的数据集,每个语言由100万。可以这样查询相关数据集查询数据集:

并得到结果:

还可以通过results_lang参数过滤特定语言的结果,比如中文:

相当于给了一个百科的索引数据库,非常方便。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230421A0A98F00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券