首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

面试|海量文本~minhash

比如网页、推断帖子是否相似、推荐系统衡量物品或者用户的相似度等等。当数据量大的时候,计算的时间和空间复杂度就会是一个很重要的问题,比如在推断相似发帖的时候。我们能够用kmeans来进行聚类。...遍历s1相应的单词 从第0到第四 1. 第0为1,看一下h1计算出来的行号为1。赋值h1为1(就是行号)。继续遍历 2. 第1为0,不关心,跳过 3. 第2为0,不关心。跳过 4....第3为1, 看一下h1计算出来的行号为4。4大于此时h1的值,h1的值不变。假设小于h1此时的值,将值付给h1 5. 第4为0。不关心,跳过 遍历完了之后此时h1的值就是1,能够看到。...为什么minhash的方法是合理的 问题:两个集合的随机的一个排列的minhash值相等的概率和两个集合的Jaccard相似度相等 证明例如以下: 两个集合。A、B。对一来说。...所以至少有一个桶同样的概率是1-(1-p^r)^m,我们能够依据我们想要的概率p分配m和r。 最后建立倒排是这种。

2.1K30

面试|海量文本~simhash

simhash算法是google发明的,专门用于海量文本的需求,所以在这里记录一下simhash工程化落地问题。 下面我说的都是工程化落地步骤,不仅仅是理论。...背景 互联网上,一篇文章被抄袭来抄袭,转载来转载。 被抄袭的文章一般不改,或者少量改动就发表了,所以判并不是等于的关系,而是相似判断,这个判别的算法就是simhash。...结巴分词支持加载IDF词典并且提供了一个默认的词典,它包含了大量的词组以及基于海量文本统计出来的IDF词频,基本可以拿来即用,除非你想自己挖掘这样一个字典。...111111111111111 value(set结构): {000000000000000000000000111111111111111100000000111111111111111} 也就是一个simhash会不同的段分别索引...判 假设有一个新的simhash希望判,它的simhash值是: a=0000000000000000,b=000000001111110,c=1111111100000001,d=111111111111110

2.5K30

使用SimHash进行海量文本

SimHash算法思想   假设我们有海量的文本数据,我们需要根据文本内容将它们进行。...对于文本而言,目前有很多NLP相关的算法可以在很高精度上来解决,但是我们现在处理的是大数据维度上的文本,这就对算法的效率有着很高的要求。...而局部敏感hash算法可以将原始的文本内容映射为数字(hash签名),而且较为相近的文本内容对应的hash签名也比较相近。...SimHash算法是Google公司进行海量网页的高效算法,它通过将原始的文本映射为64位的二进制数字串,然后通过比较二进制数字串的差异进而来表示原始文本内容的差异。 回到顶部 3....2、分别拿着4个16位二进制码每一个查找simhash集合对应位置上是否有元素。   3、如果有元素,则把链表拿出来顺序查找比较,直到simhash小于一定大小的值,整个过程完成。

2.1K20

文本的技术方案讨论(一)

对于文本重来说,我个人处理上会从数据量、文本特征、文本长度(短文本、长文本)几个方向考虑。 常见的重任务,如网页,帖子,评论等等。...好的重任务是不仅比对文本的相似性,还要比对语义上的相似性。 下面我们来介绍下文本的方案。...simhash是google用来处理海量文本的算法。 google出品,你懂的。...小节: 1、目前速度提升了但是数据是不断增量的,如果未来数据发展到一个小时100w,现在一次100ms,一个线程处理一秒钟 10次,一分钟 60 10 次,一个小时 6010 60 次 = 36000...如果使用距离为3,短文本大量重复信息不会被过滤,如果使用距离为10,长文本的错误率也非常高,如何解决?

1.3K30

如何做文本分析_大数据文本

以及局部敏感hash算法([Algorithm] 局部敏感哈希算法(Locality Sensitive Hashing)),本文介绍的SimHash是一种局部敏感hash,它也是Google公司进行海量网页使用的主要算法...SimHash算法思想   假设我们有海量的文本数据,我们需要根据文本内容将它们进行。...对于文本而言,目前有很多NLP相关的算法可以在很高精度上来解决,但是我们现在处理的是大数据维度上的文本,这就对算法的效率有着很高的要求。...SimHash算法是Google公司进行海量网页的高效算法,它通过将原始的文本映射为64位的二进制数字串,然后通过比较二进制数字串的差异进而来表示原始文本内容的差异。 回到顶部 3....2、分别拿着4个16位二进制码每一个查找simhash集合对应位置上是否有元素。   3、如果有元素,则把链表拿出来顺序查找比较,直到simhash小于一定大小的值,整个过程完成。

49650

Python-科学计算-pandas-23-

JetBrains PyCharm Community Edition 2018.2.2 x64 pandas:1.1.5 这个系列讲讲Python的科学计算及可视化 今天讲讲pandas模块 将df某列进行..., "pos", "value1", "value2", "value3", "value4 有两个需求: 根据pos列,去除重复记录; 根据pos和value1列,去除重复记录,即要求这两列都相等时...df_1 Part 2:根据pos列 import pandas as pd dict_1 = {"time": ["2019-11-02", "2019-11-03", "2019-11-04..."df_2", "\n", df_2, "\n") print("\n", "df_1", "\n", df_1, "\n") 代码截图 执行结果 Part 3:根据pos和value1列...keep="first"表示后,保留第1个记录 df_2=df_1后对,df_2进行后,df_1同时发生了变化,表明两个变量对应的地址应该是同一区域 本文为原创作品,欢迎分享朋友圈

1.3K10

List对象属性的8种方法-java基础总结第六篇

二、集合元素整体 下文中四种方法对List中的String类型以集合元素对象为单位整体。...如果你的List放入的是Object对象,需要你实现对象的equals和hashCode方法,的代码实现方法和List是一样的。...(如果是字符串,字母表排序。...三、按照集合元素对象属性 其实在实际的工作中,按照集合元素对象整体的应用的还比较少,更多的是要求我们按照元素对象的某些属性进行。...age='32'} Player{name='curry', age='30'} Player{name='zimug', age='27'} 第四种方法 第四种方法实际上不是新方法,上面的例子都是某一个对象属性进行

7.4K22

海量短文本场景下的算法

因此需要一种准确而高效率的文本算法。...在所有的全局文本上去的话,相应的也有一个全局长度m,它表征了如果要将这部分全局文本中的相似文本进行的话,针对每一个文本需要选取一个合适的截取长度。...一般来说,全局长度的选择跟去率和算法的时间复杂度相关,实际选择的时候,都是率和时间复杂度的折中考虑。全局长度选择的越小,文本效果越好(率会增大),但相应的时间复杂度也越高。...全局长度选择越大,相似文本的效果变差(部分相似文本不会得到比较),但时间复杂度会降低。...,召回太低,很多相似文本并不满足汉明距离小于3的条件 总结 这里提出的基于文本局部信息的算法,是在短文本场景下simHash等算法无法满足目的而提出的,实际上,同样也可以应用于长文本下的重要求

18.4K41

Linux 删除文本中的重复

在进行文本处理的时候,我们经常遇到要删除重复的情况。那怎么解决呢? 下面就是三种常见方法? 第一,用sort+uniq,注意,单纯uniq是不行的。...shell> sort -k2n file | uniq 这里我做了个简单的测试,当file中的重复不再一起的时候,uniq将服务删除所有的重复。...经过排序后,所有相同的行都在相邻,因此unqi可以正常删除重复。 第二,用sort+awk命令,注意,单纯awk同样不行,原因同上。...P; D' 最后附一个必须先用sort排序的文本的例子,当然,这个需要用sort排序的原因是很简单,就是后面算法设计的时候的“局部性”,相同的可能分散出现在不同的区域,一旦有新的相同行出现,那么前面的已经出现的记录就被覆盖了...参考推荐: 删除文本中的重复(sort+uniq/awk/sed)

8.5K20
领券