不可否认,我们正处于语言人工智能的革命时代。开发人员正在意识到语言理解和生成模型的大量新兴功能。新一代应用程序的关键构建之一是支持搜索系统的嵌入。为了帮助开发人员快速开始使用常用的数据集,人工智能初创公司Cohere发布了Embedding Archives数据集,可以免费下载用来供AI研究者和企业用于训练和加强自己的AI模型。
Cohere还发布了Multilingual embedding模型,模型中他们嵌入了多语言的数百万Wiki百科的内容数据。其内容已经被分割成段落,并为每个段落计算一个嵌入向量。
公开的数据可以在 Hugging Face Datasets 上下载,包含文本、嵌入向量和其他元数据值。
可以通过一下Python下载
就能下载简单中文Wiki百科的数据集。
数据集合较大,下载需要一定时间,另外保持你磁盘空间足够哦。
其中emb列包含该文本段落的嵌入维度,为一个包含768个浮点数的数组(Cohere的多语言22-12嵌入模型)。
使用
那么这些数据怎么用呢?实际上你可以极尽你想象在你的实例中使用,这儿给你抛砖引玉提供一些用例的思路:
搜索系统
Wiki百科是世界上最有价值的知识库之一。可以使用Embedding Archives来构建搜索系统,用来查询相关知识或者主题。
要进行搜索,先使用以下方式嵌入查询co.Embed(),然后计算相似度。示例代码如下:
这样,topk就包含了最相关结果的索引。
多语言
Embedding Archives嵌入了具有跨语言属性的模型,所以可以在应用程序中使用多种语言,并依赖于含义相似的句子具有相似嵌入的属性,即使它们使用不同的语言也是如此。
搜索百科的特定部分
除了探索全球百科之外,对相关主题上策划多个页面,这样数据集可用来搜索特定主题的。例子包括:
所有剧集页或其他电视剧主题。
利用百科信息框来收集特定主题的标题,比如电子(从计算机页面的底部)
由于数据集的大小,临时步骤可以是将文本导入Postgres等数据库,并使用它为每个项目提取构建有趣的子集。
Weaviate:矢量数据库搜索
超过一定规模后,使用矢量数据库来实现更具可扩展性和高级检索功能会变得很有用。
Cohere有一个Embedding Archives子集的模型Weaviate,可以直接提供查询服务。
Weaviate包含1000万个向量,包括en, de, fr, es, it, ja, ar, zh, ko, hi等10种最主要的语言的数据集,每个语言由100万。可以这样查询相关数据集查询数据集:
并得到结果:
还可以通过results_lang参数过滤特定语言的结果,比如中文:
相当于给了一个百科的索引数据库,非常方便。
领取专属 10元无门槛券
私享最新 技术干货