倒排索引

大数据处理处理思想之 Trie树/数据库/倒排索引, 本文主要梳理下思路。@pdai

Trie树

Trie树的介绍和实现请参考树 - 前缀树(Trie)

适用范围: 数据量大，重复多，但是数据种类小可以放入内存
基本原理及要点: 实现方式，节点孩子的表示方式
扩展: 压缩实现。

一些适用场景：

寻找热门查询: 查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个，每个不超过255字节。
有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序。
1000万字符串，其中有些是相同的(重复),需要把重复的全部去掉，保留没有重复的字符串。请问怎么设计和实现?
一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词。其解决方法是: 用trie树统计每个词出现的次数，时间复杂度是O(n*le)(le表示单词的平准长度)，然后是找出出现最频繁的前10个词。

数据库索引

数据库索引相关，可以参看 MySQL - 索引(B+树)

适用范围: 大数据量的增删改查
基本原理及要点: 利用数据的设计实现方法，对海量数据的增删改查进行处理。

倒排索引(Inverted index)

倒排索引，可以参看 ElsaticSearch底层的实现。

适用范围: 搜索引擎，关键字查询
基本原理及要点: 为何叫倒排索引? 一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。

以英文为例，下面是要被索引的文本:

T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
// 我们就能得到下面的倒排索引: 
"a":      {2}
"banana": {2}
"is":     {0, 1, 2}
"it":     {0, 1, 2}
"what":   {0, 1}
// 检索的条件"what","is"和"it"将对应集合的交集。

正向索引开发出来用来存储每个文档的单词的列表。正向索引的查询往往满足每个文档有序频繁的全文查询和每个单词在校验文档中的验证这样的查询。在正向索引中，文档占据了中心的位置，每个文档指向了一个它所包含的索引项的序列。也就是说文档指向了它包含的那些单词，而倒排索引则是单词指向了包含它的文档，很容易看到这个反向的关系。

常用搜索	百度 Google Bing Github 搜代码
技术社区	CSDN 博客园 OSChina 知否掘金 Linux公社 IBM 开发者 StackOverflow
Java相关	面向对象基础语法基础集合框架并发基础并发关键字 JUC并发框架 IO框架 Java8 特性 JVM基础调试排错更多资源
算法相关	数组与线性表树详解图详解内部排序算法思想安全算法大数据处理分布式算法负载均衡算法推荐算法头脑风暴
数据库相关	数据库原理 SQL语言 MySQL相关 MongoDB ElasticSearch
开发基础相关	常用类库单元测试正则表达式网络协议安全相关常见重构技巧
架构相关	架构基础架构视角架构演进架构模式和要素高并发之缓存高并发之限流高并发之降级负载均衡容灾备份架构安全秒杀系统设计架构案例
工具和部署	工具集合 IDE相关 Git Maven Linux Docker
方法论	SOLID CAP BASE 开源协议代码规范设计模式
产品和团队	产品相关团队相关其它分享

# 大数据处理 - Trie树/数据库/倒排索引

# Trie树

# 数据库索引

# 倒排索引(Inverted index)

大数据处理 - Trie树/数据库/倒排索引

Trie树

数据库索引

倒排索引(Inverted index)