首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

构建可以查找相似图像的图像搜索引擎的深度学习技术详解

损失函数 1、Contrastive Loss 这是双重损失,即对象通过彼此之间的距离进行比较。 如果这些图像实际上相似,则神经网络会因图像 p 和 q 的嵌入彼此之间的距离过远而受到惩罚。...2、重排 信息检索领域的研究人员很早早就发现了:在收到原始搜索结果后,可以通过某种方式对集合进行重新排序来改进搜索结果的质量。...使用最接近搜索输入的 top-k 来生成新的嵌入, 在最简单的情况下可以取平均向量。如上图所示,还可以对嵌入进行加权,例如通过问题中的距离或与请求的余弦距离进行加权排序。...3、k-reciprocal k-reciprocal 是一组来自 top-k 的元素包括最接近请求本身的 k 个元素, 在这个集合的基础上构建了对结果进行重新排序的过程,其中之一是在Re-ranking...初学者在第一次开始从事图像检索项目时可能不会注意到此任务中的许多细微之处。

1K20

推荐系列(七):召回器,排序器,重排及总结

一种重新排序的方法是使用过滤器来删除一些候选人。...示例: 可以通过执行以下操作对视频推荐器实施重新排序: 训练一个单独的模型,检测视频是否是标题党视频; 在候选列表上运行此模型; 删除模型归类为标题党的视频; 另一种重新排序方法是手动转换排序器返回的分数...由于模型将特征向量作为输入,因此模型可以预测训练期间未使用的查询或项目。 添加文档年龄作为特征。例如,YouTube可以将视频的年龄或上次查看的时间添加为特征。 ?...多样性|Diversity 如果系统总是推荐与查询嵌入“最接近”的项目,则候选者往往彼此都非常相似。缺乏多样性可能会导致糟糕或无聊的用户体验。...方法 使用不同来源训练多个候选生成器; 使用不同的目标函数训练多个排序器; 根据流派或其他元数据重新排序项目以确保多样性; 公平性|Fairness 推荐模型应该公平对待所有用户。

1.8K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    解析卷积高速计算中的细节,有代码有真相

    这意味着同一行的连续元素彼此相邻存储。更一般地说,对于多维,行主序意味着当线性扫描内存时,第一个维度的变化最慢。 那么维度本身的顺序呢?...我们需要重新设计循环来利用这种缓存能力。如果正在读取数据,我们不妨利用它。这是我们要做的第一个更改:循环重新排序。...遍历顺序现在看起来是这样的: ? 这个简单的改变,只是重新排序了一下循环,给了一个相当快的加速: ? Tiling 为了进一步改进重新排序,我们还需要考虑一个缓存问题。...因此,当我们计算处理器的峰值速度时,我们“有点”作弊,而是参考了这种向量化的性能。这对于像向量这样的数据非常有用,我们必须对每个向量元素应用相同的指令。但是我们仍然需要设计内核来正确地利用这一点。...进一步将每个tile分成8x24个子tile 在临时缓冲区(matrix_mul)中计算8x24的matmul,使用类似的重新排序向量化和展开 使用矢量化、展开等方法将临时的matrix_mul复制回

    1.2K20

    重新定义程序员职业,Facebook推出代码推荐工具Aroma

    现在,Facebook已经将其用到了自己内部代码库中,并为其一些开源项目创建了Aroma版本。 这一工具亮相之后,便引发了巨大的关注。 甚至有人在Twitter上评论称,可以重新定义程序员这一职业。...尽管代码语料库可以包含数百万种代码,但由于稀疏向量和矩阵的点积能够非常高效的实现,这种检索的速度会很快。 ? 第二,重新排序和聚类。 通过检索得到推荐代码的候选集之后,接下来就是对其进行聚类。...为了做到这一点,Aroma要先根据候选的各个代码和查询代码的相似性来对它们进行重新排序。 因为稀疏向量只包含关于存在哪些特征的抽象信息,所以点积分数低估了代码之间的实际相似性。...因此,Aroma对方法语法树进行修剪,去掉方法主体中不相关的部分,只保留与查询片段最匹配的部分,并根据候选代码片段与查询的实际相似性对其重新排序。...其他被推荐的代码,也是以这样的过程创建出来的。 此外,Aroma的算法也可以确保这些推荐彼此之间有很大的不同,因此程序员可以看到几个不同的代码,来学习各种各样的编程模式。

    41040

    GNN入门必看!Google Research教你如何从毛坯开始搭建sota 图神经网络

    另一种看待图像的方式是有规则结构的图像,其中每个像素代表一个节点,并通过边缘连接到相邻的像素。每个非边界像素恰好有8个相邻节点,并且存储在每个节点上的信息是表示像素 RGB 值的三维向量。...对这些节点进行排序,在一个5x5的图像中有25个像素,构造一个矩阵,如果两个节点之间存在一条边那么在邻接矩阵中就存在一个入口。...对于每个节点向量,使用MLP并返回一个可学习的节点向量。对每一条边也做同样的事情,学习每一条边的embedding,也对全局上下文向量做同样的事情,学习整个图的单个embedding。...可以使用消息传递(Message Passing)来做到这一点,其中相邻节点或边缘交换信息并影响彼此更新的embedding。...之前所描述的网络存在一个缺陷:即使多次应用消息传递,在图中彼此不直接连接的节点可能永远无法有效地将信息传递给彼此。对于一个节点,如果有k层网络,那么信息最多传播k步。

    1.1K20

    手把手解释实现频谱图卷积

    图1:左边的傅里叶基(DFT矩阵),其中每列或每行是基向量重新整合成28×28(如右边所示),即右边显示20个基向量。傅里叶基利用计算频谱卷积进行信号处理。如图所示,本文采用的正是拉普拉斯基方法。...图中的每个节点都有一个C维特征向量,所有节点的特征表示为N×C维矩阵X⁽ˡ⁾。图的一侧表示为N×N矩阵A,当在其中输入Aᵢⱼ,表示节点I是否与节点j相连时,该矩阵称为相邻矩阵。...如果相邻的值没有突然的变化,那扩散就是很平滑的,如下面的动图所示。 图3:基于拉普拉斯图的规则,网格图中某些信号的扩散。...在左侧的20个特征向量中,每个特征向量重新更改为28×28,而在右侧,将400维特征向量更改为28×28,为缺失的节点添加白色像素。...大多数基是正交的,因为具有可以彼此表达的项是多余的。 AI科技评论提示,滤波器W频谱仍然和输入的数值一样大,但是它们的有效宽度很小。

    1.4K20

    【Embedding】Airbnb:个性化搜索排序系统

    为了消除噪声和增强负反馈信号,我们需要对序列进行清洗: 删除用户停留时长小于 30 秒的 Item; 如果用户两次点击行为间隔超过 30 分钟,将重新构建一个新的序列; 我们使用 Skip-Gram 模型来训练...Negative Sampling 为 Negative Sampling 的负采样集合,Word2Vec 的负采样是以一定从语料库中抽取单词,这显然不符合 Airbnb 的商业场景——用户本身就不会预订目的地外的房源...这种随时间变换的预订序列: 其中, 表示由用户订购的房源时的 User-type 和 Item-type 组成,对同一个用户来说, 可能随时间发生变化,所以相邻的两个 不一定相同,在实际应用时使用最新的...至此我们便解决了训练数据的问题,对于第二个问题,我们直接将所有的 拼接成一整条数据,滑动窗口可以在整条数据上滑行,这样便保证了其处于同一向量空间内。 ?...3.3 Cold Start User 和 Item 都具有某些属性,比如说地理位置、价格等,对于新用户或者新 Item 可以通过现有的元数据完成冷启动。 4.

    1.8K20

    计算机网络——网络层(2)

    该算法基于每个节点维护一个距离向量表,其中包含到达其他节点的距离和下一跳信息。节点之间通过交换距离向量表来更新彼此的路由信息。...工作原理 初始状态:每个节点维护一个距离向量表,表中包含到达其他节点的距离和下一跳信息。初始时,节点只知道直接相邻节点的距离,而对于其他节点的距离则被设置为无穷大。...信息交换:节点周期性地将自己的距离向量表发送给相邻节点,并接收相邻节点发送的距离向量表。...更新距离向量表:当节点接收到相邻节点的距离向量表时,它会更新自己的距离向量表,并将更新后的表发送给其他相邻节点。更新的规则通常包括距离的累积和路径的选择。...拓扑变化处理:当网络拓扑发生变化时,例如链路状态发生改变或有新的节点加入网络,每个节点都会重新计算最短路径,并更新自己的路由表。

    11000

    网络分析法(Analytic Network Process,ANP)

    计算各子工程项目的重要度,由于基于WBS建立的结构模型为AHP形式,所以采用传统方式很容易对模型进行重要度求解。   (2)子工程的风险因素的权重向量排序。   ...对各子工程项目下相互关联的风险因素权重向量确定是图3子工程项目风险因素的ANP结构模型。   整个工程项目风险因素排序的关键步骤,同时也是采用ANP进行风险分析的核心。...此时可利用幂法或其他方法对加权超矩阵进行相对排序向量的求解,最后相对排序向量就是各风险因素在概率准则下的权重。 ? (3)   3)计算多准则风险因素权重。...依次以损失、不可控制性为准则对各风险因素按照第(2)步进行权重向量求解,然后以第(1)步中所求得的权重对各单准则的风险因素权重进行合成,可得到风险因素在子工程项目中的风险大小排序。   ...(3)整体工程项目风险因素排序   对每一个子工程项目的风险因素进行权重向量求解,就可以对整体工程项目的风险因素进行权重合成和总排序计算。

    15.1K50

    开源了!现在用PyTorch做超大规模图嵌入,上亿个节点也能快速完成

    比如,知识图谱就是这样的网。 ? 处理这样的数据,要用到图嵌入 (Graph Embedding) :把高维的网络,转换成低维的向量。处理之后,机器学习模型才能轻易食用。...然后,PBG给每一个节点,输出一个特征向量 (就是嵌入) ,让两个相邻的节点在向量空间中离得近一些,让不相邻节点的离远一些。...这样一来,那些周围环境分布相近的节点,在向量空间里的位置也会彼此靠近,图原本要表达的意思就保留下来了。...这样,一个节点的嵌入,就可以在不同种类的关系里共享了。...三是在多台机器上同时跑,在图上各自跑一个不相邻的区域。 四是批次负采样 (Batched Negative Sampling) ,能让一台CPU每秒处理100万条边,每条边100次负采样。

    83820

    如何高效实现图片搜索?Dropbox 的核心方法和架构优化实践

    s=f(q, j) 有了这个函数以后,当用户进行搜索时,我们将在所有图像上运行这个搜索,然后返回得分高于一个阈值的图像(按得分排序)。...Word2vec 为字典中的每个单词分配一个向量这样含义相似的单词将具有彼此接近的向量。这些向量位于 d 维词向量空间中,其中 d 一般有几百之多。...从概念上讲,Nautilus 包括将每个文件映射到某些元数据(例如文件名)和文件全文的一个前向索引,以及将每个单词映射到包含该单词的所有文件的一个发布列表的反向索引。...在本例中,我们可能让 doc_1 的排名高于 doc_2,因为这两个词彼此相邻。 将文本搜索方法用于图像搜索 我们可以使用相同的系统来实现我们的图像搜索算法。...对于每个搜索结果,从前向索引中提取类别空间向量 j「c」并乘以 q「c」以获得相关性分数 s。返回分数高于某个阈值的结果,按分数排序

    76530

    使用谱聚类(spectral clustering)进行特征选择

    数据中存在相关特征 在数据集进行EDA时,可能会得到一个结论:某些特征没有那么丰富的信息,一个简单的线性模型可以通过其他特征来准确预测它们。这种现象称为“多重共线性”,它不利于模型的泛化和可解释性。...在理想情况下,我们希望特征都是彼此独立的,这样可以更好地解释和满足一些统计过程的假设,因为大多数统计模型假设随机变量是独立的。 我们可以用谱聚类算法对特征进行聚类来解决这个问题。...结果得到了下表: 因为合并了三个表,所以这些表中的一些特征彼此相关。...拉普拉斯特征映射方法的目的是寻找特征的表示法,使相邻特征尽可能接近地表示。这是通过以下损失函数[1]来实现的。 y向量是K维特征的表示。E函数惩罚相邻表示之间的距离。...这样,我们将找到簇的问题变为找到一个最小化这条轨迹的上述形式的矩阵 Z。尽管有相似性,但这与拉普拉斯特征图不是同一个问题,因为 Z 的选择仅限于上述形式。

    1K20

    独一无二的雪花

    某些时候,老师无疑会拿出重弹,让我们大吃一惊,因为整个世界上的每一片雪花一直都是不同的和独一无二的(人们只是喜欢过度推销不起眼的雪花特征)。...当然,使用现代机器学习技术,这样的任务不仅应该是可能的,而且我敢说,微不足道吗?将雪花与 ML 结合起来可能听起来像是一个新想法,但现在是时候有人这样做了。...是的,它们是完整的 ML 解决方案,只需在Cloudera 机器学习(CML)中单击即可部署,但它们也可以重新用于其他项目。...它是数据科学家工具箱中的另一个工具,可用于让他们的生活更轻松并帮助更快地交付项目。 启动 AMP 在这篇博客中,我们将深入研究如何重用深度学习图像分析AMP 来寻找彼此不太相似的雪花。...我们很好奇离它们最相似的雪花最远的雪花,所以我们应该以 L2 距离升序对数据帧进行排序来结束这个单元格。

    49200

    C++ STL 概述_严丝合缝的合作者

    6大部件遵循单一职责设计思想,组件间彼此独立,每一个组件在各自内部高度自治性地实现分配到的功能。各组件在工作关系上,互为依赖,彼此之间形成服务与被服务关系。...//重新指向容器的开始位置(因为前面的操作移动过迭代器) begin=nums.begin(); //使用 for_each 算法组件 for_each(begin,end,Zs());...一般会按照存储方式对其进行分类: 序列式容器:数据以添加时的顺序进行存储,当然可以对数据排序。 关联式容器:数据由键和值两部分组成。...2.1.1 序列式容器 序列式容器的存储方案有 2 种: 连续(线性)存储:基于数组的存储方式,数据与数据在内存中是相邻的。 链式(非线性)存储:以节点的方式非线性存储。...数据与数据在内存中并不一定相邻,结点之间通过存储彼此的地址知道对方的位置。 STL中常用到的序列式容器对象: vector:向量,线性存储,类似于数组。需要包含 头文件。

    48820

    引入特征空间,显著降低计算量:双边局部注意力ViT性能媲美全局注意力

    本文重新思考了局部自注意力,从特征角度而非空间角度,实现了对局部窗口的划分。...本文提出的特征空间局部自注意力仅计算特征空间内最近邻的特征向量间的注意力,将距离较远的特征向量间的影响直接设为 0。...如以下算法所示,在每次迭代对所有 token 进行分组时,先计算每个 token 到两个聚类中心的距离比值,然后把所有 token 按距离比值的递减顺序排序,最后将排序列表前半部分 m 个 token...需要注意的是,这样进行无重叠的均衡二分聚类可能会导致两个处于排序列表中段位置的、特征比较相似的 token 被分配到两个不同的类组中,从而无法计算它们之间的相互影响。...这样两组之间就存在 2n 个重用的 token,这样的类间重叠会导致额外的运算,因此实际只在层次聚类的最后一层进行有重叠的均衡二分聚类。

    34620

    图解Word2vec,读这一篇就够了

    我已经隐藏了我们正在绘制的人格特征,这样你会渐渐习惯于在不知道每个维度代表什么的情况下,从一个人格的向量表示中获得价值信息。 我们现在可以说这个向量部分地代表了我的人格。...看看“Man”和“Woman”彼此之间是如何比它们任一一个单词与“King”相比更相似的? 这暗示你一些事情。这些向量图示很好的展现了这些单词的信息/含义/关联。...重新审视训练过程 现在我们已经从现有的文本中获得了Skipgram模型的训练数据集,接下来让我们看看如何使用它来训练一个能预测相邻词汇的自然语言模型。 ? 从数据集中的第一个样本开始。...我们将特征输入到未经训练的模型,让它预测一个可能的相邻单词。 ? 该模型会执行三个步骤并输入预测向量(对应于单词表中每个单词的概率)。因为模型未经训练,该阶段的预测肯定是错误的。...目标单词概率为1,其他所有单词概率为0,这样数值组成的向量就是“目标向量”。 模型的偏差有多少?将两个向量相减,就能得到偏差向量: ?

    4.4K52

    图解Word2vec,读这一篇就够了

    我已经隐藏了我们正在绘制的人格特征,这样你会渐渐习惯于在不知道每个维度代表什么的情况下,从一个人格的向量表示中获得价值信息。 我们现在可以说这个向量部分地代表了我的人格。...这样就为数据集提供了4个样本: 然后我们移动滑动窗到下一个位置: 这样我们又产生了接下来4个样本: 在移动几组位置之后,我们就能得到一批样本: 重新审视训练过程 现在我们已经从现有的文本中获得了Skipgram...我们将特征输入到未经训练的模型,让它预测一个可能的相邻单词。 该模型会执行三个步骤并输入预测向量(对应于单词表中每个单词的概率)。因为模型未经训练,该阶段的预测肯定是错误的。...但是没关系,我们知道应该猜出的是哪个单词——这个词就是我训练集数据中的输出标签: 目标单词概率为1,其他所有单词概率为0,这样数值组成的向量就是“目标向量”。 模型的偏差有多少?...在每个训练步骤中,我们采取一个相邻的例子及其相关的非相邻例子。

    5.2K41

    工程实践也能拿KDD最佳论文?解读Embeddings at Airbnb

    这样的嵌入已经被用于 web 上的各种推荐系统中。...列表嵌入的维度被设置为 ,这样的设置可以平衡离线性能(在下一节中讨论)和在线搜索服务器内存中存储向量所需的空间,能够更好地进行实时相似度的计算。...并着重解释为了更好地适用我们的场景而做的一些修改: 使用最终预订的房源作为全局上下文 (Global Context) :我们使用以用户预订了房源(上图中紫色标记)为告终的用户会话来做这个优化,在这个优化的每个步骤中我们不仅预测相邻的点击房源...)元组,其向量在优化中会被互相推离 是最终被预订的房源,被视为全局上下文并被推向中心房源向量 是一对目的地维度的负例对 ,代表(中央房源,来自同一目的地的随机列表)元组,其向量被推离彼此...我们在下图中显示了一个此类评估的结果,搜索中的房源根据嵌入空间的相似性进行了重新排序,并且最终被预订房源的排序是按照每次预定前的点击的平均值来计算,追溯到预定前的 17 次点击。

    99930

    CVPR2020 oral | 解决目标检测长尾问题简单方法:Balanced Group Softmax

    由于head类的训练实例远多于tail类的训练实例(例如,在某些极端情况下,10000:1),tail类的分类器权重更容易(频繁)被head类的权重所压制,导致训练后的weight norm不平衡。...(b)测试:使用新的预测z,将softmax应用于每个组,并按其原始类别ID的概率排序,并用前景概率重新缩放,从而为后续的后期处理环节生成新的概率向量。...为了解决这个问题,本文将类别划分为几个不相交的组,并分别执行softmax操作,以使只有具有相似训练实例数量的类在每个组中彼此竞争。这样,可以在训练期间将包含大量不同实例的类彼此隔离。...除G0外,其他所有节点均被忽略,所有类别的概率均按原始类别ID排序。G0中的p0可被视为前景proposals的概率。最后,使用 ? 重新缩放正常类别的所有概率。...不是真正的概率向量,因为它的总和不等于1,但它起着原始概率向量的作用,该向量通过选择最终boxes框来指导模型。

    2.8K20

    PHP数据结构(十七) ——内部排序综述

    用一句话描述,就是原数组中两个相同的数字,一个在前一个在后,经过某种排序后(无论重新使用该方法排序多少次),仍一个在前一个在后,则称为稳定。...2)外部排序排序记录数量较多,内存一次不能容纳全部记录,在排序过程中尚需对外存进行访问。 三、内部排序分类 大致分为五类:插入排序、交换排序、选择排序、并归排序、计数排序。...待排序记录有下列三种存储方式: 1)待排序的一组记录存放在地址连续的一组存储单元上,类似于线性表的顺序存储结构,序列中相邻的两个记录存储位置也相邻排序需要借助移动记录。...3)地址排序:待排序记录本身存储在一组地址连续的存储单元内,另设一个指示各记录存储位置的地址向量,在排序过程中不移动记录本身,而是移动地址向量中记录的这些地址,拍些虚侯按照地址向量的值调整记录的存储位置...4)稳定性比较 基数排序、简单排序都是稳定的,快速排序、堆排序、希尔排序不稳定。 一般而言,排序如果是通过比较相邻的关键字,则排序方法是稳定的,否则是不稳定的。

    841120
    领券