尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

【第五章:计算机视觉-项目实战之推荐/广告便捷的系统】2.粗排算法-(3)理解粗排模型之在线部分:在线架构及对双塔的应用

【第五章:计算机视觉-项目实战之推荐/广告便捷的系统】2.粗排算法-(3)理解粗排模型之在线部分:在线架构及对双塔的应用
📅 发布时间:2026/6/20 6:41:25

【第五章:计算机视觉-项目实战之推荐/广告便捷的系统】2.粗排算法-(3)理解粗排模型之在线部分:在线架构及对双塔的应用

第五章:计算机视觉-项目实战之推荐/广告系统

第二部分:粗排算法

第三节:理解粗排模型之在线部分:在线架构及对双塔的应用


一、粗排模型从“训练”走向“线上”的最大挑战是什么?

上一节我们完成了粗排双塔的离线训练部分(Embedding 学习 + Faiss/HNSW 索引)。
但模型训练完,并不等于能上线。真正落地粗排系统,需要解决 3 类工业问题:

上线挑战解释
低延迟单次召回必须 ≤ 10ms,否则精排无法接住
实时性用户向量要实时更新,“人变→召回变”
可扩展性Item 数量从百万→亿级,索引要可水平扩展

因此粗排的在线架构必须:

User 实时生成 → ANN 向量检索 → TopK 粗排结果 → 精排 → 重排 → 策略 → 展示
这就是工业界典型推荐系统 TPS/QPS 路径。


二、线上粗排整体架构(工程视角)

在线粗排架构可以用一张图说明:

 ┌──────────────┐     ┌──────────────┐     ┌──────────────┐│ User Feature │ --> │ User Tower   │ --> │ User Vector  │└──────────────┘     └──────────────┘     └───────┬──────┘│▼┌────────────────────┐│   ANN Vector DB    ││ (Faiss / Milvus)   │└───────┬────────────┘│  TopK▼┌────────────────────┐│  Candidate Items   │└────────────────────┘│▼【下游精排模型】

说明:

模块在线职责
User Tower(在线模型服务)实时生成用户向量(10ms 内)
Item Tower(离线产出)不在线推理,仅保存向量
ANN 检索服务TopK 召回,如 Faiss / Milvus / HNSW / Vespa

粗排本质是将在线流量变向量 → 用向量当钥匙 → 在向量库中开锁找 TopK内容。


三、双塔在在线系统中的运行机制

角色运行方式调用频率
Item Tower(离线)离线 Embedding + 索引构建物料变化才更新
User Tower(在线)实时推理生成用户向量每次推荐调用一次

因此:

在线只跑半个模型(User Tower) → 延迟低
ANN 召回只查向量库 → QPS 极高(百万级)
物料多也能扩,因为塔解耦

这就是双塔在线表现优于精排 DNN、DIN、BERT 的核心原因。


四、在线流程用伪代码还原

def online_recall(user_feature):# 1) 用户特征输入 → User Tower 得到在线向量user_vec = user_model.predict(user_feature)   # < 10ms# 2) ANN 检索 TopK 粗排候选scores, item_ids = ann_index.search(user_vec, topk=300)  # < 5~10ms# 3) 返回粗排结果 → 进入精排return item_ids

粗排必须 < 20ms 完成全部动作,否则上线毫无意义。


五、ANN 选型与使用建议(踩坑经验)

方案适用场景QPS特点
Faiss (CPU/GPU)千万级向量以内极高单机强,不适合集群
Milvus分布式召回高企业级最佳选择
HNSW内存够、要求低延迟极高搜索质量最好
Faiss + HNSW 混合多路召回——最常见工业配置

经验结论:

粗排要的是 TopK 足够准 + 延迟足够低,而不是精排级别的匹配准确率。


六、线上版本更新策略:如何优雅平滑不倒服务

更新任务策略
User Tower 更新A/B Test + 双模型切换
Item Embedding 更新Shadow Index + 双索引切换
ANN Index 更新异步重建 + 热切换

要点:

不允许全量下线重建
不允许用户线上向量与物料空间不一致
必须保证所有请求可回溯

粗排系统本质上是 “强工程系统 + 弱模型复杂度” 的架构部分。


七、本节总结

你已理解状态
双塔在线为什么延迟低✅
粗排在线架构职责与数据流✅
User/Item 两塔如何解耦✅
ANN 如何服务粗排召回✅
完整工程化上线方案✅

一句话总结:

训练是为了表达能力,而上线是为了延迟与吞吐。粗排双塔在工程维度碾压所有表达能力更强的模型,所以它成为工业界标准。

相关新闻

  • RubyMine 2025.2.4 11月最新版 安装、授权、使用说明
  • 2025年有实力的大连日本语言学校申请厂家行业实力榜
  • SIL.Interview

最新新闻

  • 【自指性理论】光,既是推动,也是刹车——光致量子摩擦效应与容度原理解读
  • SpringBoot集成Gbase:从驱动获取到Druid数据源配置实战
  • 吉安遂川县专业查漏水仪器检测 卫生间厨房阳台 房屋地暖水管暗漏定位 - 同城资讯
  • 2026天津黄金回收实测:亲测跑了六家店,终于找到了靠谱不坑人的地方! - 讯息早知道
  • 2026年青岛市老百姓优先选择的五家贵金属回收门店 黄金回收白银回收铂金回收彩金回收合规靠谱门店测评合集+联系方式 - 亦辰小黄鸭
  • 苏州欧路达智能科技:工业物资智能管控柜及刀具管理柜全系解决方案推荐 - 品牌推荐官

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号