前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >信息检索:布尔检索-求交集并集(1)

信息检索:布尔检索-求交集并集(1)

作者头像
超级大猪
发布2019-11-21 20:24:15
1.5K0
发布2019-11-21 20:24:15
举报
文章被收录于专栏:大猪的笔记大猪的笔记

前言

布尔检索指对文档集进行布尔运算。比如,有以下三个文档(已归约化处理):

代码语言:javascript
复制
doc1 = ["1", "hello", "word", "i", "love", "dazhu"]
doc2 = ["2", "hi", "i", "can", "speak", "love"]
doc3 = ["3", "can", "i", "say", "hello", "make", "dazhu", "hi"]

要求在这个文档集中求同时包含“i”和“can”的文档。假定输入如下:

代码语言:javascript
复制
"i" AND "can"

返回结果应该是[2,3]。即,通过运算,得知doc2,doc3满足条件。 要实现布尔检索,关键在于建立倒排索引和求N个集合的交集,并集。在这里,首先实现两个集合的交并集简易算法。

求交集并集

要布尔检索,首先要求两个集合的交集或并集。它们的时间复杂度都为 o(x+y) 参考代码如下:

代码语言:javascript
复制
def arr_and(arr1, arr2):
    p1 = 0
    p2 = 0
    result = []

    while p1 != len(arr1) and p2 != len(arr2):
        if arr1[p1] == arr2[p2]:
            result.append(arr1[p1])
            p1 += 1
            p2 += 1
        else:
            if arr1[p1] < arr2[p2]:
                p1 += 1
            else:
                p2 += 1    
    return result

def arr_or(arr1, arr2):
    p1 = 0
    p2 = 0
    result = []

    while p1 != len(arr1) and p2 != len(arr2):
        if arr1[p1] == arr2[p2]:
            result.append(arr1[p1])
            p1 += 1
            p2 += 1
        else:
            if arr1[p1] < arr2[p2]:
                result.append(arr1[p1])
                p1 += 1
            else:
                result.append(arr2[p2])
                p2 += 1
    if p1 < len(arr1):
        result += arr1[p1:]
    if p2 < len(arr2):
        result += arr2[p2:]

    return result

## test
arr1 = [1,3,5,7,8,12]
arr2 = [1,4,5,6,7,8]

print(arr_and(arr1, arr2))
print(arr_or(arr1, arr2))
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-01-03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 求交集并集
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档