MMD_2a_FindSimilarSets

概述

application

there are many data-mining problems which can be expressed as finding similar sets, such as:

  • pages with similar words, e.g., for classification by topic
  • recommendation systems, classification by people or movie
  • entity resolution, different informs all point to one person

essential parts

shingling

minhashing

jaccard similarity measure

matrix represent

minihash

总体步骤

例子

性质

签名的相似性

implementation

将对矩阵的转置操作用不同的hash函数代替。

LSH

LSH means locality-sensitive hashing.

概述

  • general idea: generate from the collection of all elements (signatures in our examples) a small list of candidates pairs : pairs of elements whose similarity must be evaluated.
  • for signature matrices: hush columns to many buckets, and make elements of the same bucket candidate pairs.

候选pairs的规则

LSH具体阐述

例子

概率分析

总结

得到更多的signature(但是会有更多的空间占用与计算),可以有更大的b和r,能够获得更step的函数。

LSH Application

entity resolution

fingerprint

similar news articles

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL?

深度学习中常常需要多GPU并行训练,而Nvidia的NCCL库NVIDIA/nccl(https://github.com/NVIDIA/nccl)在各大深度学...

2919
来自专栏机器之心

深度 | PyTorch和TensorFlow哪家强:九项对比读懂各自长项短板

选自GitHub 作者:Awni Hannun 机器之心编译 参与:Panda 现在是各种机器学习框架群雄争霸的时代,各种各样的比较文章也层出不穷。近日,斯坦福...

2886
来自专栏锦小年的博客

Nilearn学习笔记3-提取时间序列建立功能连接体

在nilearn库中,提供了两种从fmri数据中提取时间序列的方法,一种基于脑分区(Time-series from a brain parcellation ...

2295
来自专栏杨清华的专栏

JPEG 在 GPU 上压缩性能瓶颈分析

鉴于AI是当下最火的技术方向,GPU加速运算在这方面又有天然的优势,所以官方在介绍其性能差异时主要针对AI各个计算框架来展示其加速比。针对于图像压缩处理这样的场...

5742
来自专栏ATYUN订阅号

Meltdown漏洞和KPTI补丁如何影响机器学习性能?

在2018年初,互联网领域发现了两大系统漏洞,影响了主要的处理器厂商,这两大漏洞分别是“Meltdown(熔断)”和“Spectre(幽灵)”。这些漏洞是处理器...

3347
来自专栏嵌入式程序猿

一个好的驱动是多么的重要

最近遇到一个问题,我们假设一个嵌入式系统板件,使用10M晶振,并且倍频后运行于40M时钟。我们以Microchip的8位单片机PIC18f46k22为例子来说明...

28310
来自专栏PPV课数据科学社区

PyTorch和TensorFlow哪家强:九项对比读懂各自长项短板

近日,斯坦福大学计算机科学系博士生 Awni Hannun 也发表了一篇文章,谈了自己对 PyTorch 和 TensorFlow 这两大明星框架的心得体验,并...

3466
来自专栏人工智能头条

张雨石:Adam - 大规模分布式机器学习框架

2817
来自专栏算法与数据结构

操作系统--页面置换算法(缺页数计算)

这篇博客主要讲三种置换算法,FIFO(先进先出),OPT(最佳置换算法),LRU(最近最久未使用和最少使用置换算法)

1363
来自专栏量化投资与机器学习

【Python机器学习】系列之机器学习基础

谢谢大家的支持!现在该公众号开通了评论留言功能,你们对每篇推文的留言与问题,可以通过【写评论】给圈主留言,圈主会及时回复您的留言。 自2007年发布以来,sci...

21811

扫码关注云+社区