首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

minhash算法_小k

对于web网页去重的应用,如抄袭、镜像等,通过将网页表示为字符k-grams(或者k-shingles)的集合,把网页去重的问题转化为找到这些集合的交集。...k-Shingles 一篇文档可以看成是一个字符串,文档的k-shingle为在该文档中长度为k的所有子串。...任意一篇文档都可以表示为k-shingles的集合,比如“A document is a string of characters”这句话的所有3-shingles为{ ”A d”, ”do”, ”doc...Hashing Shingles 不使用子串直接作为shingles,而是使用hash函数将长度为k的字符串映射到哈希桶中,哈希桶的编号作为shingle,则表示文档的集合转化为含有哈希桶编号的集合。...如果使用4-shingles,许多4字节的序列在一般的文档中是找不到的,不同的shingles数量大约有204=160 000,远小于232。

95730
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    elasticsearch深入搜索一之近似匹配

    当然,只有当用户输入的查询内容和在原始文档中顺序相同时,shingles 才是有用的;对 sue alligator 的查询可能会匹配到单个单词,但是不会匹配任何 shingles 。...(3) my_shingle_analyzer 使用我们常规的 my_shingles_filter 语汇单元过滤器。...时,默认使用的是bigrams,上面使用的shingles,通过这个映射, JSON 文档中的 title 字段将会被以 unigrams (title)和 bigrams (title.shingles...搜索Shingles 为了理解添加 shingles 字段的好处 ,让我们首先来看 The hungry alligator ate Sue 进行简单 match 查询的结果: GET /my_index...搜索性能: shingles 不仅比短语查询更灵活, 而且性能也更好。 shingles 查询跟一个简单的 match 查询一样高效,而不用每次搜索花费短语查询的代价。

    2.6K51

    ElasticSearch权威指南:深入搜索(中)

    当然,只有当用户输入的查询内容和在原始文档中顺序相同时,shingles 才是有用的;对 sue alligator 的查询可能会匹配到单个单词,但是不会匹配任何 shingles 。...生成Shingles Shingles 需要在索引时作为分析过程的一部分被创建。 我们可以将 unigrams 和 bigrams 都索引到单个字段中, 但将它们分开保存在能被独立查询的字段会更清晰。...搜索shingles 为了理解添加 shingles 字段的好处 ,让我们首先来看 The hungry alligator ate Sue 进行简单 match 查询的结果: GET /my_index...4. performance性能 shingles 不仅比短语查询更灵活, 而且性能也更好。 shingles 查询跟一个简单的 match 查询一样高效,而不用每次搜索花费短语查询的代价。...只是在索引期间因为更多词项需要被索引会付出一些小的代价, 这也意味着有 shingles 的字段会占用更多的磁盘空间。

    3.1K31

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭
      领券