当前位置：首页 > news >正文

在线教育行业，如何用Milvus混合检索+微调embedding做题库检索与去重

news 2026/6/11 13:20:47

在教育科技领域题库是核心资产更是连接学生、教师与知识体系的关键入口。而随着题目规模从百万级迈向千万级甚至亿级传统全文检索在语义理解、精准过滤、相似推荐、高并发稳定上的短板日益突出。有时甚至会出现题越来越多搜索质量反而下滑的问题。本文将分享一套可直接复用、经过生产验证的语义关键词标量过滤三位一体搜题引擎架构彻底解决传统检索痛点。01 技术演进从 ES 全文检索到混合检索在早期的题库系统中我们主要依赖 ElasticsearchES进行全文检索。虽然 ES 在处理倒排索引和关键词匹配方面表现非常稳定可靠但在实际业务中学生不会总是输入标准知识点。老师也不是只按关键词找题。这就导致如果要找的是同一个知识点下解法相近但题面不同的题靠关键词处理就会面临三大问题语义鸿沟ES 基于词频统计如 BM25 算法无法理解Fma与牛顿第二定律之间的语义等价性。如果用户搜索力的公式而题目中只写了Fma传统搜索引擎往往会漏掉。专有名词脆弱性对于特定的课程编号或生僻的知识点名称一旦用户输入有细微偏差或者题目表述使用了同义词检索效果就会大幅下降。缺乏向量空间无法支持以题搜题或相似题推荐等基于语义相似度的高级功能。为了解决这些问题我们经历了从多字段合并 HNSW 检索再到多字段混合检索的过渡过渡阶段HNSP ANN 检索最初我们尝试将题目内容、知识点、课程名等所有文本信息拼接成一个长字符串统一进行向量化然后使用 HNSW 算法进行近似最近邻检索。这种方式虽然解决了语义问题但牺牲了精确度。例如用户想搜高一数学向量检索可能会因为高二数学在语义上极度相似而将其召回导致标量过滤失效或权重难以控制。最终我们选择引入Milvus作为我们的底层检索支撑并重点使用其混合检索能力将语义理解交给稠密向量Dense Vector将精确过滤交给标量字段Scalar Field或关键词检索Sparse Vector/BM25。这种双管齐下的策略既保留了向量检索的泛化能力又确保了元数据过滤的绝对精准。接下来的问题就是怎么基于这一需求完成整体的技术架构搭建。02 系统架构与数据流转解读我们最终的整体架构设计如下系统从原始题目到智能检索的全链路一共分为五个环节第一步数据采集与清洗从多渠道获取非结构化的题目文本题干、解析及结构化元数据课程、学段、题型、知识点、难度统一字段格式为混合检索打好基础。第二步向量化处理使用教育领域微调 Embedding 模型将题目文本转化为高维768/1024 维稠密向量捕捉深层语义通过 Milvus 内置 BM25Function 自动生成稀疏向量支撑关键词精确匹配无需外部依赖。第三步混合索引构建针对 Milvus 数据库我们为不同特征的数据建立了多维度索引体系为题干等长文本构建基于 HNSW 的稠密向量索引索引 HNSW度量 COSINE。为支持 BM25 全文搜索的稀疏向量构建 SPARSE_FLOAT_VECTOR 索引同时为高频过滤字段建立标量索引以此实现高效的多路径召回。第四步混合检索服务稠密向量语义召回稀疏向量关键词召回标量精确过滤通过 Milvus 原生Rerankers 策略对 ANN 搜索结果集进行合并和重新排序无需应用层复杂逻辑。这里我们会对学科、学段、知识点、难度建立标量索引通过 expr 表达式精准剪枝先过滤后检索避免无效计算。第五步精排与输出通过 Cross-Encoder 对召回结果重排序输出最终题目列表支撑智能组卷、错题本、以题搜题等上层业务。03 Milvus如何做题库去重与数据分区分片管理借助Milvus我们不仅提升了题库内容的检索效率也重点将其用在了题库内容去重以及数据的按需分区分片。3.1 数据去重方案题库大到一定规模后重复题会变成一个很实际的问题。同一道题可能来自不同试卷也可能被不同老师录入过。题面稍微换几个字传统规则就很难识别。重复题多了影响的不只是存储成本。搜题时结果页里连续出现几道几乎一样的题体验会变差。组卷时如果系统推荐的都是相似变体试卷质量会下降。检验学生学习的知识点覆盖情况重复题会污染统计结果。针对这个问题我们采用了教育行业通用、Milvus 官方推荐的两级去重离线阶段 ETL 去重系统对全量题目生成向量计算相似度。如果两道题相似度很高0.99 并且学科、知识点、题型等元数据一致就进入合并或剔除流程。实时写入去重新题入库前先在 Milvus 里通过低阈值向量检索元数据校验做一次相似检索找出可能重复的题再结合元数据判断是否写入。这种做法能把重复题挡在入库前也能定期清理历史数据里的近似题最终实现了题目去重效率提升50%存储成本显著下降。3.2 分区分片性能优化题库检索还有一个行业特点流量不均匀。晚上作业时间搜题请求会集中出现。考试前练习和组卷请求会上升。寒暑假课程开始后某些年级和学科会突然变热。如果系统只在平均流量下表现不错并不够。与此同时千万级乃至亿级数据下单 Collection 检索与维护成本激增。借助 Milvus我们可以按学段和学科做数据分区比如高中数学、初中物理、小学英语。查询时划分为不同Partition检索时指定 partition_names可以将搜索范围限定在目标分区扫描量减少 90%。对于更大的数据规模我们会引入水平分片Sharding对超大规模集合启用分片分散查询压力支撑高并发访问适配教育场景高峰期如作业、考试前流量突增。04 实操经验分享4.1 如何做向量与标量权重平衡以下是我们在题库场景中的一些混合检索调优经验语义优先日常搜题稠密向量权重 0.6稀疏向量 0.3标量过滤 0.1。精确优先精准组卷稠密向量权重 0.3稀疏向量 0.6标量过滤 0.1。可以通过 A/B 测试与用户点击反馈动态调优教育场景推荐语义为主、关键词为辅、标量兜底4.2 如果确保高并发与稳定性Milvus 官方生产运维标准集合预加载高频学科分区常驻内存避免冷启动延迟。批量写入幂等校验控制每秒插入量结合去重机制防止重复写入。4.3 如何保证模型迭代后的向量一致性Embedding 模型迭代后向量分布变化会导致检索漂移。我们会采用 Milvus 官方推荐双写双读平滑迁移新数据用新模型旧数据批量重建向量逐步切流无业务中断风险。4.4 核心优化原则元数据绝不向量化课程、学段、知识点、题型是硬约束必须用标量 expr 过滤禁止混入向量保证 100% 精准这是 Milvus 所有混合检索案例的核心原则。必做重排序 Rerank召回 Top50 后用 Cross-Encoder 精排准确率提升15%–25%用户体验显著改善。索引参数精准调优教育文本推荐 768 维HNSW 参数 ef128、ef_construction200、M16平衡速度与召回率。原生 RRF 融合使用 Milvus 内置 RRF 算法融合稠密、稀疏向量结果无需应用层复杂计算简化架构提升稳定性。总结与展望基于 Milvus 原生混合检索构建的题库系统我们不仅能够支持语义搜题、关键词精确搜题、以题搜题、多维度过滤覆盖教育全场景需求。更重要的是用一套 Milvus 就替代了传统 ESMongo 双系统运维成本降低 60%不再出现数据同步问题稳定性大幅提升。展望未来通过合理的 Schema 设计、分区分片策略、两级去重机制与原生 RRF 融合这套系统可以轻松支撑千万级至亿级题目高性能检索从而帮助企业拓展AI 助教、个性化学习等高阶业务。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

查看全文

http://www.rkmt.cn/news/1369796.html