MMD_2a_FindSimilarSets

概述

application

there are many data-mining problems which can be expressed as finding similar sets, such as:

  • pages with similar words, e.g., for classification by topic
  • recommendation systems, classification by people or movie
  • entity resolution, different informs all point to one person

essential parts

shingling

minhashing

jaccard similarity measure

matrix represent

minihash

总体步骤

例子

性质

签名的相似性

implementation

将对矩阵的转置操作用不同的hash函数代替。

LSH

LSH means locality-sensitive hashing.

概述

  • general idea: generate from the collection of all elements (signatures in our examples) a small list of candidates pairs : pairs of elements whose similarity must be evaluated.
  • for signature matrices: hush columns to many buckets, and make elements of the same bucket candidate pairs.

候选pairs的规则

LSH具体阐述

例子

概率分析

总结

得到更多的signature(但是会有更多的空间占用与计算),可以有更大的b和r,能够获得更step的函数。

LSH Application

entity resolution

fingerprint

similar news articles

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏编程

大神级Python工程师是怎么P图的,带你用Python玩转P图

? 1.PIL:Python影像库 PIL或者Python Imaging Library是一个包含许多函数来处理来自Python脚本的图像的包。PIL官方网...

2528
来自专栏Petrichor的专栏

论文阅读: Soft-NMS

传统的NMS (Non-Maximum Supression)去重过程如下:

742
来自专栏程序员阿凯

为 DP 设计布局

1065
来自专栏ATYUN订阅号

【深度学习】图片风格转换应用程序:使用CoreML创建Prisma

WWDC 2017让我们了解了苹果公司对机器学习的看法以及它在移动设备上的应用。CoreML框架使得将ML模型引入iOS应用程序变得非常容易。 ? 大约一年前,...

4068
来自专栏人工智能LeadAI

pytorch入门教程 | 第四章:准备图片数据集

在训练神经网络之前,我们必须有数据,作为资深伸手党,必须知道以下几个数据提供源: 1 CIFAR-10 ? CIFAR-10图片样本截图 CIFAR-10是多...

6648
来自专栏专知

【干货】快速上手图像识别:用TensorFlow API实现图像分类实例

【导读】1月17日,Arduino社区的编辑SAGAR SHARMA发布一篇基于TensorFlow API的图像识别实例教程。作者通过TensorFlow A...

5017
来自专栏深度学习思考者

DL开源框架Caffe | 目标检测Faster-rcnn问题全解析

一 工程目录 在github上clone下来的代码,可以看到根目录下有以下几个文件夹,其中output为训练完之后才会有的文件夹。 caffe-fast-rcn...

3508
来自专栏Django Scrapy

python2.7搬运--->TensorFlow - 深度学习破解验证码

谷歌的开源深度学习工具 --py 简介 验证码主要用于防刷,传统的验证码识别算法一般需要把验证码分割为单个字符,然后逐个识别,如果字符之间相互重叠,传统的算法就...

4396
来自专栏二进制文集

Caffe MNIST 简要分析

MNIST database,一个手写数字的图片数据库,每一张图片都是0到9中的单个数字。每一张都是抗锯齿(Anti-aliasing)的灰度图,图片大小282...

682
来自专栏王磊的博客

图片人脸检测——Dlib版(四)

上几篇给大家讲了OpenCV的图片人脸检测,而本文给大家带来的是比OpenCV更加精准的图片人脸检测Dlib库。 点击查看往期: 《图片人脸检测——OpenCV...

4717

扫码关注云+社区