首页
学习
活动
专区
工具
TVP
发布

AI科技时讯

专栏成员
279
文章
242127
阅读量
28
订阅数
复合索引:向量搜索的高级策略
在向量搜索领域,我们拥有多种索引方法和向量处理技术,它们使我们能够在召回率、响应时间和内存使用之间做出权衡。虽然单独使用特定技术如倒排文件(IVF)、乘积量化(PQ)或分层导航小世界(HNSW)通常能够带来满意的结果,但为了实现最佳性能,我们往往采用复合索引。
用户3578099
2024-07-15
620
机器学习中的关键距离度量及其应用
在当今的数据驱动世界中,机器学习算法扮演着至关重要的角色,它们在图像分类、面部识别、在线内容审核、零售目录优化和推荐系统等多个领域发挥着重要作用。这些算法的核心在于它们能够识别和利用数据之间的相似性。而实现这一点的关键,就在于选择合适的距离度量。
用户3578099
2024-07-15
660
深入解析HNSW:Faiss中的层次化可导航小世界图
层次化可导航小世界(HNSW)图是向量相似性搜索中表现最佳的索引之一。HNSW 技术以其超级快速的搜索速度和出色的召回率,在近似最近邻(ANN)搜索中表现卓越。尽管 HNSW 是近似最近邻搜索中强大且受欢迎的算法,但理解其工作原理并不容易。
用户3578099
2024-07-15
770
乘积量化PQ:将高维向量压缩 97%
向量相似性搜索在处理大规模数据集时,往往面临着内存消耗的挑战。例如,即使是一个包含100万个密集向量的小数据集,其索引也可能需要数GB的内存。随着数据集规模的增长,尤其是高维数据,内存使用量会迅速增加,这可能导致内存管理问题。
用户3578099
2024-07-15
1150
LSH算法:高效相似性搜索的原理与Python实现II
局部敏感哈希(LSH)是一种高效的近似相似性搜索技术,广泛应用于需要处理大规模数据集的场景。在当今数据驱动的世界中,高效的相似性搜索算法对于维持业务运营至关重要,它们是许多顶尖公司技术堆栈的核心。
用户3578099
2024-07-15
680
基于RabbitMQ的异步消息传递:发送与消费
RabbitMQ是一个流行的开源消息代理,用于在分布式系统中实现异步消息传递。它基于Erlang语言编写,具有高可用性和可伸缩性。在本文中,我们将探讨如何在Python中使用RabbitMQ进行消息发送和消费。
用户3578099
2024-07-04
1220
LSH算法:高效相似性搜索的原理与Python实现
局部敏感哈希(LSH)技术是快速近似最近邻(ANN)搜索中的一个关键方法,广泛应用于实现高效且准确的相似性搜索。这项技术对于许多全球知名的大型科技公司来说是不可或缺的,包括谷歌、Netflix、亚马逊、Spotify和Uber等。
用户3578099
2024-07-04
3130
高效部署:利用PMML实现机器学习模型的无缝集成
预测模型标记语言(PMML) 是一种开放、标准化的语言,用于表示和存储机器学习模型。其主要目的是提供一种跨平台、跨工具的方式来分享和部署预测模型。PMML是由数据挖掘组织(DMG)开发和维护的标准,从最初的版本1.1发展到现在的4.4版本,涵盖了越来越多的模型类型和功能。
用户3578099
2024-07-04
1010
相似性搜索揭秘:向量嵌入与机器学习应用
在当今数据驱动的世界中,有效地检索和利用信息是一项关键挑战。在数据库、搜索引擎和众多应用程序中,寻找相似数据是一项基本操作。传统数据库中,基于固定数值标准的相似项搜索相对直接,通过查询语言即可实现,如查找特定工资范围内的员工。然而,当面临更复杂的问题,如“库存中哪些商品与用户搜索项相似?”时,挑战便出现了。用户搜索词可能含糊且多变,如“鞋子”、“黑色鞋子”或“Nike AF-1 LV8”。
用户3578099
2024-06-19
660
Faiss: 选择合适的索引Index
向量相似性搜索彻底改变了搜索领域。它允许我们高效地检索从GIF到文章等各种媒体,即使在处理十亿级别数据集时,也能在亚秒级时间内提供令人印象深刻的准确性。
用户3578099
2024-06-19
1760
机器学习:更多关于元学习
用户3578099
2024-06-19
580
机器学习:算法到底学到了什么?
用户3578099
2024-06-11
590
Faiss:加速大规模数据相似性搜索的利器
在机器学习和数据挖掘领域,相似性搜索是一项基本且重要的任务,它涉及到在大型数据集中找到与特定对象最相似的对象。Faiss是一个由Facebook AI Research开发的库,专门用于高效地进行相似性搜索和聚类,它之所以重要,是因为它提供了一种快速且准确的方式来执行这一任务,尤其是在处理大规模高维向量数据集时。
用户3578099
2024-06-11
2170
解决Linux中特殊文件名删除难题
最近在使用rz上传文件时出现中断,导致生成了乱码文件,尝试删除这些文件时遇到各种报错。
用户3578099
2024-06-11
1130
XGB-8: Xgboost加速故障时间的生存分析
生存分析(回归)模型时间到感兴趣事件的持续时间。生存分析是一种特殊的回归,与传统的回归任务不同,具体如下:
用户3578099
2024-05-30
1490
视觉风控:人工智能在风险管理中的革新应用
在金融、社交媒体、安全监控等多个领域,图像内容的审核和风险控制变得日益重要。视觉风控技术,作为人工智能领域的一项重要应用,正在帮助企业和组织提高其风险管理的效率和准确性。本文将探讨视觉风控技术能做哪些工作,以及这些工作如何用于风控。
用户3578099
2024-05-29
1820
探索MoonDream:一个小型但强大的视觉语言模型
在人工智能的快速进展中,视觉语言模型正成为理解和叙述视觉信息的关键工具。MoonDream,一个拥有16亿参数的小型视觉语言模型,凭借其出色的性能和易用性,正迅速成为开发者和爱好者的热门选择。
用户3578099
2024-05-28
2940
Python Web Service开发及优化
随着互联网的快速发展,Web服务已成为现代技术的核心。Python作为一种功能强大且易于学习的编程语言,在Web服务开发领域占据着重要地位。Python Web服务开发的重要性在于它能够提供高效、可扩展且易于维护的解决方案。本篇博客将探讨如何使用Python的Flask框架、Gunicorn WSGI服务器和Nginx网页服务器来实现高性能的Web服务。
用户3578099
2024-05-27
790
XGB-7: 特征交互约束
决策树是发现自变量(特征)之间交互关系的强大工具。在遍历路径中一起出现的变量是相互交互的,因为子节点的条件取决于父节点的条件。例如,在下图中,红色突出显示的路径包含三个变量:
用户3578099
2024-05-27
1000
Magiclens:新一代图像搜索技术及产品形态
“MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions” 是一项关于图像检索的新研究。这项研究的核心在于,通过使用大型多模态模型和大型语言模型,能够将图像对中的隐含关系(如网页上的"内部视图")显式化。MagicLens 是一种自监督的图像检索模型,支持开放式指令。这些模型基于一个关键的新见解:自然出现在同一网页上的图像对包含广泛的隐含关系,并且可以通过合成指令来使这些关系明确化。
用户3578099
2024-05-27
1580
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档