Trie树,又叫前缀树、字典树,是一种多路树形结构,用于快速检索的多叉树结构。Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询的时间开销。
其他的数据结构,如平衡树和哈希表,使我们能够在字符串数据集中搜索单词。为什么我们还需要 Trie 树呢?尽管哈希表可以在 O(1) 时间内寻找键值,却无法高效的完成以下操作:
- 找到具有同一前缀的全部键值。
- 按词典序枚举字符串的数据集。
Trie 树优于哈希表的另一个理由是,随着哈希表大小增加,会出现大量的冲突,时间复杂度可能增加到 O(n),其中 n 是插入的键的数量。与哈希表相比, Trie 树在存储多个具有相同前缀的键时可以使用较少的空间。此时 Trie 树只需要 O(m) 的时间复杂度,其中 m 为键长。而在平衡树中查找键值需要O(mlogn)的时间复杂度。
- 应用:统计和排序大量的字符串(不限于字符串),常被搜索引擎系用于文本词频统计。
- 性质:不同字符串的相同前缀只保存一份。
- 操作:查找,插入,删除。
- 优点:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
- 缺点:Trie树的内存消耗非常大。
以leetcode 208为例:
class Trie {
class TrieNode {
// 孩子节点
private TrieNode[] child;
// 结束标志
private boolean isEnd;
public TrieNode() {
child = new TrieNode[26];
isEnd = false;
}
}
private TrieNode root;
// 初始化
public Trie() {
root = new TrieNode();
}
public void insert(String word) {
// 从根开始
TrieNode temp = root;
for (char c : word.toCharArray()) {
// 如果该字符还没有存入
if (temp.child[c-'a'] == null) {
temp.child[c-'a'] = new TrieNode();
}
// 指向当前节点
temp = temp.child[c-'a'];
}
// 设置单词位
temp.isEnd = true;
}
public boolean search(String word) {
TrieNode temp = root;
for (char c : word.toCharArray()) {
// 如果不在树中
if (temp.child[c-'a'] == null) {
return false;
}
// 如果在树中,继续往后找
temp = temp.child[c-'a'];
}
// 找到最后了,需要判断标志位
return temp.isEnd;
}
public boolean startsWith(String prefix) {
TrieNode temp = root;
for (char c : prefix.toCharArray()) {
if (temp.child[c-'a'] == null) {
return false;
}
temp = temp.child[c-'a'];
}
return true;
}
}