尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

Milvus索引选择

Milvus索引选择
📅 发布时间:2026/6/19 2:54:21

目录
  • 1. Milvus:标量字段用什么索引?
  • 2. Milvus:向量字段用什么索引?
  • 3. 数据量不同如何选索引?(最关键)
    • ◆ 场景A:数据量 < 10 万(<= 100k)
    • ◆ 场景B:10万 ~ 100万(0.1M~1M)
    • ◆ 场景C:100万 ~ 1000万(1M~10M)
    • ◆ 场景D:1000万 ~ 1亿(10M~100M)
  • 4. 最终汇总(千万项目实践表)
  • 5. 给你的智能家电控制 Agent 的具体建议
    • 推荐组合:
  • 6. 如果你愿意,我可以进一步给你:

以下内容面向工程落地,重点说明 Milvus 在标量字段与向量字段上的索引选择原则,并给出按数据量规模的最佳实践方案。内容会相对技术化,确保你可以直接用于架构设计。


1. Milvus:标量字段用什么索引?

Milvus 的标量字段(Scalar Field)本质等同于传统数据库的列数据,包括:

  • INT / BIGINT
  • FLOAT / DOUBLE
  • BOOLEAN
  • VARCHAR
  • DATETIME

Milvus 为标量字段提供的索引:

数据类型 可用索引 场景 特性
INT / BIGINT Scalar Index(排序索引) 范围查询、过滤 内置排序加速
FLOAT / DOUBLE Scalar Index 范围查询过滤 同上
VARCHAR Trie / Hash 索引(String Index) 精确匹配、前缀匹配 加速 string equality / LIKE
BOOLEAN 无需索引 小范围过滤 消耗极低
DATETIME Scalar Index 范围查询(某时间段) 基于排序的加速

总结:
标量字段 → 全部使用 Scalar Index / String Index(Milvus 内置,无需配置不同索引类型)。

你只需要设置:

{"index_type": "SCALAR"}

2. Milvus:向量字段用什么索引?

向量字段(FloatVector / BinaryVector)才是 Milvus 的核心索引部分。

Milvus 主流向量索引类型:

索引 架构 特性 场景
FLAT 暴力搜索 准确率100% 小数据、测试
IVF_FLAT 倒排文件 IVF 中等速度、准确率高 中小规模
IVF_SQ8 IVF + 量化 存储小、速度快 百万级以上
IVF_PQ IVF + Product Quantization 存储强压缩 千万级数据
HNSW 图搜索 高召回+高速 最佳平衡,推荐
ANNOY 多树结构 内存占大 百万级以内
DISKANN Microsoft DiskANN 低内存+超大数据 亿级、冷启动慢

Milvus v2 常用的是:HNSW / IVF_FLAT / IVF_PQ / DISKANN


3. 数据量不同如何选索引?(最关键)

◆ 场景A:数据量 < 10 万(<= 100k)

特点:数据量小,暴力搜索可接受。

推荐:HNSW(优先) 或 FLAT

索引 推荐理由
HNSW 查询速度极快 + 高准确率
FLAT 最简单、准确率100%,但速度较慢

适合场景:智能家电、个人助手、命令词库。


◆ 场景B:10万 ~ 100万(0.1M~1M)

特点:进入“倒排文件”发挥威力的区间。

推荐:HNSW(主力) 或 IVF_FLAT

索引 推荐理由
HNSW 全面强,高召回、高速
IVF_FLAT 训练简单、查询速度稳定

强烈建议调参:

nlist: 2048 ~ 8192  
nprobe: 8 ~ 64

◆ 场景C:100万 ~ 1000万(1M~10M)

特点:存储、内存、查询延迟开始成为问题。

推荐:IVF_SQ8 或 IVF_PQ

索引 推荐理由
IVF_SQ8 存储减半,准确率好
IVF_PQ 大幅压缩(1/8~1/16),速度快,召回可接受

PQ 示例:

index_type: IVF_PQ
params: { "nlist": 16384, "m": 16 }

适合大型家电 IoT 指令库、语音语义库等。


◆ 场景D:1000万 ~ 1亿(10M~100M)

这是高维向量库的“大规模工业级”场景。

推荐:DISKANN(Milvus 2.3 以后成熟)

性能 优点
几十毫秒级 不占内存(异步加载磁盘图)
高召回 支持百亿数据级别

适合:

  • 智能助手 + 多语种语料库
  • 智能家电制造商的海量语音意图库
  • 厂商云端 AI 中台

4. 最终汇总(千万项目实践表)

数据量 标量字段索引 向量字段索引 推荐理由
0~100k Scalar HNSW 或 FLAT 召回高、实现简单
100k~1M Scalar HNSW 或 IVF_FLAT 延迟低、准确率强
1M~10M Scalar IVF_SQ8 或 IVF_PQ 存储节省、速度高
10M~100M Scalar DISKANN 大规模、低内存、工业级

5. 给你的智能家电控制 Agent 的具体建议

你的场景一般是中小规模语料库(几万到几十万向量)。

因此:

推荐组合:

  • 标量字段:Scalar Index
  • 向量字段:HNSW(最佳)

配置示例:

{"index_type": "HNSW","metric_type": "COSINE","params": {"M": 16,"efConstruction": 200}
}

查询参数:

{"ef": 64}

6. 如果你愿意,我可以进一步给你:

  1. 智能家电控制 Agent 的整体架构(ASR + NLU + Intent Router + Tool Layer)
  2. 向量库 Schema 设计(id, command_text, device_type, intent, embedding)
  3. 数据清洗与负样本构造方法
  4. 端到端部署方案(Edge > Cloud)
  5. 如何提高 NLU 准确率(数据增强、对比学习、rerank)

你需要我继续补这些吗?

相关新闻

  • LabelPlus漫画翻译终极指南:轻松实现高效协作
  • 度磁悬浮离心式低温冷水机组哪家质量好?哪家售后服务好? - 工业品牌热点
  • Hotkey Detective:Windows热键冲突完整解决方案

最新新闻

  • 【GD32F427开发板试用】+ 从GPIO到USB:GD32F427V-START例程实战解析
  • 企业RAG知识库落地,应如何设计实现?
  • 2026 年 6 月 19 日北京东城区奢侈品名表回收核心门店专业测评 - 奢侈品回收
  • 2026湖北现代科技学校招生政策详解:报名条件+录取分数线+资助政策(免学费2000元/年+助学金6900元) - 速递信息
  • 物联网Lora模块串口通讯实战:数据收发与指令解析
  • 青岛名包回收避坑指南,认准资质齐全合扬门店保障交易安全 - 奢侈品交易观察员

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号