Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >一种好用的树结构:Trie树

一种好用的树结构:Trie树

作者头像
致Great
发布于 2022-05-13 11:04:41
发布于 2022-05-13 11:04:41
53200
代码可运行
举报
文章被收录于专栏:自然语言处理自然语言处理
运行总次数:0
代码可运行

Trie树简介

在计算机科学中,trie,又称前缀树或字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串。与二叉查找树不同,键不是直接保存在节点中,而是由节点在树中的位置决定。一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串,而根节点对应空字符串。一般情况下,不是所有的节点都有对应的值,只有叶子节点和部分内部节点所对应的键才有相关的值。

Trie这个术语来自于retrieval。根据词源学,trie的发明者Edward Fredkin把它读作/ˈtriː/ "tree"。但是,其他作者把它读作/ˈtraɪ/ "try"。

在图示中,键标注在节点中,值标注在节点之下。每一个完整的英文单词对应一个特定的整数。Trie可以看作是一个确定有限状态自动机,尽管边上的符号一般是隐含在分支的顺序中的。 Eg.一个保存了8个单词的字典树的结构如下图所示,8个单词分别是:“A”,“to”,“tea”,“ted”,“ten”,“i” ,“in”,“inn”。

另外,单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

Trie树性质

它有3个基本性质:

  • 根节点不包含字符,除根节点外每一个节点都只包含一个字符;
  • 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;
  • 每个节点的所有子节点包含的字符都不相同。

基本操作

其基本操作有:查找、插入和删除,当然删除操作比较少见。

实现方法

搜索字典项目的方法为:

  • (1)从根结点开始一次搜索;
  • (2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;
  • (3) 在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。
  • (4) 迭代过程……
  • (5) 在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。 其他操作类似处理

实现 Trie (前缀树)

关于Trie树实现,可以移步看下LeetCode208. 实现 Trie (前缀树)

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
输入
["Trie", "insert", "search", "search", "startsWith", "insert", "search"]
[[], ["apple"], ["apple"], ["app"], ["app"], ["app"], ["app"]]
输出
[null, null, true, false, true, null, true]

解释
Trie trie = new Trie();
trie.insert("apple");
trie.search("apple");   // 返回 True
trie.search("app");     // 返回 False
trie.startsWith("app"); // 返回 True
trie.insert("app");
trie.search("app");     // 返回 True

来源:力扣(LeetCode)
链接:https://leetcode-cn.com/problems/implement-trie-prefix-tree

具体实现如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
class TrieNode(object):
    def __init__(self):
        """
        Initialize your data structure here.
        """
        self.data = {}
        self.is_word = False


class Trie:
    def __init__(self):
        """
        Initialize your data structure here.
        """
        self.root = TrieNode()

    def insert(self, word):
        """
        Inserts a word into the trie.
        :type word: str
        :rtype: void
        """
        node = self.root
        for chars in word:
            child = node.data.get(chars)
            if not child:
                node.data[chars] = TrieNode()
            node = node.data[chars]
        node.is_word = True

    def search(self, word):
        """
        Returns if the word is in the trie.
        :type word: str
        :rtype: bool
        """
        node = self.root
        for chars in word:
            node = node.data.get(chars)
            if not node:
                return False
        return node.is_word  # 判断单词是否是完整的存在在trie树中

    def startsWith(self, prefix):
        """
        Returns if there is any word in the trie that starts with the given prefix.
        :type prefix: str
        :rtype: bool
        """
        node = self.root
        for chars in prefix:
            node = node.data.get(chars)
            if not node:
                return False
        return True

    def get_start(self, prefix):
        """
          Returns words started with prefix
          返回以prefix开头的所有words
          如果prefix是一个word,那么直接返回该prefix
          :param prefix:
          :return: words (list)
        """

        def get_key(pre, pre_node):
            word_list = []
            if pre_node.is_word:
                word_list.append(pre)
            for x in pre_node.data.keys():
                word_list.extend(get_key(pre + str(x), pre_node.data.get(x)))
            return word_list

        words = []
        if not self.startsWith(prefix):
            return words
        if self.search(prefix):
            words.append(prefix)
            return words
        node = self.root
        for chars in prefix:
            node = node.data.get(chars)
        return get_key(prefix, node)


if __name__ == '__main__':
    trie = Trie()

    print('trie.insert("apple"):', trie.insert("apple"))
    print('trie.insert("appal"):', trie.insert("appal"))
    print('trie.insert("appear"):', trie.insert("appear"))
    print('trie.insert("apply"):', trie.insert("apply"))
    print('trie.insert("appulse"):', trie.insert("appulse"))

    print('trie.search("apple"):', trie.search("apple"))  # 返回 True
    print('trie.search("app"):', trie.search("app"))  # 返回 False

    print('trie.startsWith("app"):', trie.startsWith("app"))  # 返回 True
    print('trie.insert("app"):', trie.insert("app"))
    print('trie.search("app"):', trie.search("app"))

    print('trie.search("app"):', trie.get_start("app"))
    print('trie.search("ap"):', trie.get_start('ap'))

结果输出如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
F:\ProgramData\Anaconda3\python.exe F:/Projects/nlp-trie/main.py
trie.insert("apple"): None
trie.insert("appal"): None
trie.insert("appear"): None
trie.insert("apply"): None
trie.insert("appulse"): None
trie.search("apple"): True
trie.search("app"): False
trie.startsWith("app"): True
trie.insert("app"): None
trie.search("app"): True
trie.search("app"): ['app']
trie.search("ap"): ['app', 'apple', 'apply', 'appal', 'appear', 'appulse']

Process finished with exit code 0

应用

  • 输入框提示/自动补全:trie 常用于搜索提示。如当输入一个网址,可以自动搜索出可能的选择。当没有完全匹配的搜索结果,可以返回前缀最相似的可能。
  • 字符串检索、模糊匹配
  • 文本预测、自动完成,see also,拼写检查
  • 在NLP中的应用,主要有基于字典树的文本分词、短语提取、实体提取等

优缺点

优点:

可以最大限度地减少无谓的字符串比较,故可以用于词频统计和大量字符串排序。 跟哈希表比较:

  1. 最坏情况时间复杂度比hash表好
  2. 没有冲突,除非一个key对应多个值(除key外的其他信息)
  3. 自带排序功能(类似Radix Sort),中序遍历trie可以得到排序。

缺点:

  1. 虽然不同单词共享前缀,但其实trie是一个以空间换时间的算法。其每一个字符都可能包含至多字符集大小数目的指针。
  2. 如果数据存储在外部存储器等较慢位置,Trie会较hash速度慢(hash访问O(1)次外存,Trie访问O(树高))。
  3. 长的浮点数等会让链变得很长。可用bitwise trie改进。

时间复杂度

时间复杂度:创建时间复杂度为O(L),查询时间复杂度是O(logL),查询时间复杂度最坏情况下是O(L),L是字符串的长度。

参考资料

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
力扣208——实现 Trie (前缀树)
实现一个 Trie (前缀树),包含 insert, search, 和 startsWith 这三个操作。
健程之道
2020/02/12
4500
力扣208——实现 Trie (前缀树)
如何实现搜索框的关键词提示功能
我们都使用过主流的搜索引擎,谷歌、 bing,当然还有搜狗、百度之类。当你搜索某一关键词时,它会贴心在下拉框补全一些热门关键词,像下图这样:
somenzz
2020/11/25
3.1K0
如何实现搜索框的关键词提示功能
golang刷leetcode 前缀树
实现一个 Trie (前缀树),包含 insert, search, 和 startsWith 这三个操作。
golangLeetcode
2022/08/02
4590
2021-02-21:手写代码:高性能路由,也就是一个字符串和多个匹配串进行模糊匹配“,“
2021-02-21:手写代码:高性能路由,也就是一个字符串和多个匹配串进行模糊匹配。一个数组arr里是"a","moonfdd",字符串"moonfdd"能匹配到,理由是arr里有。字符串"xayy"也能匹配到,理由是arr里的"a",第1个星对应"x",第2个星对应"yy"。
福大大架构师每日一题
2021/02/21
5390
2021-02-21:手写代码:高性能路由,也就是一个字符串和多个匹配串进行模糊匹配“,“
查找-多路查找详解篇
学编程的小程
2023/10/11
2770
查找-多路查找详解篇
数据结构 | 30行代码,手把手带你实现Trie树
今天是算法和数据结构专题的第28篇文章,我们一起来聊聊一个经典的字符串处理数据结构——Trie。
TechFlow-承志
2020/07/08
4590
实现 Trie (前缀树)
Trie(发音类似 "try")或者说 前缀树 是一种树形数据结构,用于高效地存储和检索字符串数据集中的键。这一数据结构有相当多的应用情景,例如自动补完和拼写检查。
狼啸风云
2024/02/03
1530
实现 Trie (前缀树)
LeetCode 208.实现Trie(字典树) - JavaScript
实现一个 Trie (前缀树),包含 insert, search, 和 startsWith 这三个操作。
心谭博客
2020/04/21
6810
一种基于defaultdict的前缀树Python实现
前缀树(Trie 树,也称为字典树、单词查找树)是一种树形数据结构,用于高效地存储和检索字符串集合中的键。前缀树的主要优势在于能够快速地查找具有相同前缀的字符串,并且对于大量的字符串集合,它可以提供较高的检索效率。
杜逸先
2023/12/06
3680
深入理解Trie树
前面的文章介绍过各种高效的的数据结构,比如二叉搜索树,AVL树,红黑树,B树,跳跃表等,今天我们再来学习一种多路树,叫做Trie树。
我是攻城师
2019/06/03
2.1K0
【LeetCode每日一题】208. 实现 Trie (前缀树)
今日题目208题,每日一题微信交流群可以点击右下角:合作转载->联系我,备注:刷题,拉你入群。
公众号guangcity
2021/04/22
2770
(Leetcode 2021 刷题计划) 208. 实现 Trie (前缀树)
Trie(发音类似 "try")或者说 前缀树 是一种树形数据结构,用于高效地存储和检索字符串数据集中的键。这一数据结构有相当多的应用情景,例如自动补完和拼写检查。
windism
2021/04/14
4190
剑指Offer——Trie树(字典树)
Trie树,即字典树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
全栈程序员站长
2022/10/03
9230
剑指Offer——Trie树(字典树)
【每日算法Day 84】面试必考题:Trie(字典树/前缀树)的实现
实现一个 Trie (前缀树),包含 insert, search, 和 startsWith 这三个操作。
godweiyang
2020/04/02
1.2K0
leetcode刷题(55)——208. 实现 Trie (前缀树)
实现一个 Trie (前缀树),包含 insert, search, 和 startsWith 这三个操作。
老马的编程之旅
2022/06/22
2060
【图解算法】模板+变式——带你彻底搞懂字典树(Trie树)
接下来将对经典的字典树进行代码实现;接着做几个变体题目深入理解字典树的强大;最后回到日常生活,瞧瞧字典树怎样融入到了我们的生活之中 >_<
全栈程序员站长
2022/10/04
1.3K0
【图解算法】模板+变式——带你彻底搞懂字典树(Trie树)
【设计数据结构】实现 Trie (前缀树)
这是 LeetCode 上的「208. 实现 Trie (前缀树)」,难度为「中等」。
宫水三叶的刷题日记
2021/10/08
1.5K0
【设计数据结构】实现 Trie (前缀树)
漫画:什么是“前缀树”?
如上图所示,我们在百度输入框输入ap两个字母,下拉菜单就会自动列举出包含该前缀的所有单词,比如api、app、apple等等。
小灰
2023/09/26
2610
漫画:什么是“前缀树”?
Python高级数据结构——字典树(Trie)
字典树,又称为Trie树,是一种用于处理字符串集合的树形数据结构。它通过将字符串的每个字符存储在节点中,形成树状结构,具有高效的插入、查找和删除操作。在本文中,我们将深入讲解Python中的字典树,包括字典树的基本概念、实现方式、插入、搜索和删除操作,并使用代码示例演示字典树的使用。
Echo_Wish
2023/12/04
6000
Python高级数据结构——字典树(Trie)
Go: 高效处理字符串的利器,前缀树及其算法研究
前缀树(Trie),又称字典树,是一种专门处理字符串的数据结构。它能够高效地进行字符串插入、删除和查找操作。前缀树特别适用于需要快速搜索的应用场景,如自动补全、拼写检查和IP路由查找等。
运维开发王义杰
2024/05/29
2510
Go: 高效处理字符串的利器,前缀树及其算法研究
推荐阅读
相关推荐
力扣208——实现 Trie (前缀树)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验