向量数据库索引类型深度解析：FLAT、IVF、PQ、HNSW 对比

在构建基于 Embedding 的 RAG（检索增强生成）或推荐系统时，选择正确的索引是平衡查询速度、内存占用和召回精度的关键。

本文将深入解析向量检索领域最核心的几类索引：FLAT、IVF（及其变体 IVF_PQ、IVF_SQ8）以及 HNSW。

1. FLAT：暴力搜索的精确基准

FLAT 是最简单、最直接的索引结构。

IVF (Inverted File Index) 的核心思想是“先粗筛，后精排”。它通过聚类将搜索空间划分为多个区域。

原理：
1. 训练：使用 K-Means 算法将所有数据划分为 nlist 个簇。
2. 索引：记录每个向量属于哪个簇。
3. 查询：给定查询向量，先计算它距离哪 nprobe 个簇中心最近，然后仅在这些簇的范围内执行 FLAT 式暴力搜索。
特点：在不损失精度的前提下（前提是 nprobe 覆盖了正确簇），将时间复杂度从 O(n) 降低到 O(n / nlist * nprobe)。

当数据量达到千万甚至亿级时，即使使用 IVF 剪枝，原始向量存储在内存中也是巨大的负担。IVF_PQ 通过压缩来解决内存问题。

原理：
1. 维度切分：将高维向量（如 128 维）切分成 m 个子向量（如 8 个子向量，每个 16 维）。
2. 独立聚类：对每个子向量空间进行独立聚类（通常 256 个中心）。
3. 编码：将原始向量替换为一组“中心点 ID”（每个子向量 1 字节）。
效果：
- 内存压缩：原本 128 维 * 4 字节 = 512 字节的向量，压缩后变为 8 * 1 字节 = 8 字节，压缩率高达 64倍。
- 精度：属于有损压缩，召回率略低于 IVF_FLAT，但通常能满足业务需求（95%+）。

原理：与 PQ 的“维度重组”不同，SQ8 对向量的每个维度独立进行 8 位量化。
- 对于每个维度，计算该维度的最大值和最小值，将连续的浮点数映射到 0-255 的整数区间。
对比：
- 相比 IVF_FLAT：内存占用减少 4倍（Float32 -> uint8）。
- 相比 IVF_PQ：精度损失更小（保留了各维度的相对幅值），但压缩率不如 PQ 极致。
适用场景：当内存有限，但又不希望 PQ 带来的精度损失过大时，SQ8 是良好的折中方案。

HNSW (Hierarchical Navigable Small World) 是目前公认的查询延迟最低的算法之一，被 Milvus、Elasticsearch 等主流数据库广泛支持。

原理：借鉴了跳表（Skip List）的思想。
1. 分层结构：底层（Layer 0）包含所有数据点，越往上层的节点越稀疏。
2. 图连接：每个节点与其“邻居”节点相连，形成一张 Navigable Small World 图。
3. 查询：从最高层的随机入口点开始，贪婪地寻找最近邻（利用“小世界”特性快速跳跃）；找到当前层最近点后，进入下一层继续搜索，直到底层找到最终结果。
优点：
- 查询极快：时间复杂度约为 O(log n)，且实际常数因子很小。
- 精度高：通过图遍历能较好地找到全局最优解。
缺点：
- 内存开销巨大：除了存储向量本身，还需存储图的邻居关系。在百万级数据下，内存占用可能达到原始向量的 10 倍以上。
- 构建缓慢：构建图索引是计算密集型操作，耗时较长。

没有完美的索引，只有最适合业务场景的索引。

在实际应用中（如 Milvus、Faiss），通常需要根据数据分布、机器配置和业务 SLO（服务等级协议）进行详细的压测调优，才能找到最佳的索引参数。