Trie树

2020/07/01

Trie树,又叫前缀树、字典树,是一种多路树形结构,用于快速检索的多叉树结构。Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询的时间开销。

其他的数据结构,如平衡树和哈希表,使我们能够在字符串数据集中搜索单词。为什么我们还需要 Trie 树呢?尽管哈希表可以在 O(1) 时间内寻找键值,却无法高效的完成以下操作:

  • 找到具有同一前缀的全部键值。
  • 按词典序枚举字符串的数据集。

Trie 树优于哈希表的另一个理由是,随着哈希表大小增加,会出现大量的冲突,时间复杂度可能增加到 O(n),其中 n 是插入的键的数量。与哈希表相比, Trie 树在存储多个具有相同前缀的键时可以使用较少的空间。此时 Trie 树只需要 O(m) 的时间复杂度,其中 m 为键长。而在平衡树中查找键值需要O(mlogn)的时间复杂度。

  • 应用:统计和排序大量的字符串(不限于字符串),常被搜索引擎系用于文本词频统计。
  • 性质:不同字符串的相同前缀只保存一份。
  • 操作:查找,插入,删除。
  • 优点:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
  • 缺点:Trie树的内存消耗非常大。

以leetcode 208为例:

class Trie {

    class TrieNode {
        // 孩子节点
        private TrieNode[] child;
        // 结束标志
        private boolean isEnd;
        public TrieNode() {
            child = new TrieNode[26];
            isEnd = false;
        }
    }

    private TrieNode root;

    // 初始化
    public Trie() {
        root = new TrieNode();
    }
    
    public void insert(String word) {
        // 从根开始	
        TrieNode temp = root;
        for (char c : word.toCharArray()) {
            // 如果该字符还没有存入
            if (temp.child[c-'a'] == null) {
                temp.child[c-'a'] = new TrieNode();
            }
            // 指向当前节点
            temp = temp.child[c-'a'];
        }
        // 设置单词位
        temp.isEnd = true;
    }
    
    public boolean search(String word) {
        TrieNode temp = root;
        for (char c : word.toCharArray()) {
            // 如果不在树中
            if (temp.child[c-'a'] == null) {
                return false;
            }
            // 如果在树中,继续往后找
            temp = temp.child[c-'a'];
        }
        // 找到最后了,需要判断标志位
        return temp.isEnd;
    }

    public boolean startsWith(String prefix) {
        TrieNode temp = root;
        for (char c : prefix.toCharArray()) {
            if (temp.child[c-'a'] == null) {
                return false;
            }
            temp = temp.child[c-'a'];
        }
        return true;
    }
}

Post Directory