【Doris从零到一】(一)Apache Doris 概述
Apache Doris 是一款基于 MPP 架构的高性能、实时分析型数据库,以高效、简单、统一著称:在亚秒级时间内返回海量数据查询结果,一套系统同时支持高并发点查询和高吞吐复杂分析。
一、核心优势
查询延迟:< 1 秒(亚秒级响应)
写入延迟:秒级(实时数据入库)
并发能力:10,000+ QPS
存储规模:PB 级 / 单集群数百台机器
SQL 接口:MySQL 协议兼容层,ANSI SQL 语法
二、典型使用场景
Apache Doris 广泛应用于以下三大类场景:
1、实时数据分析
企业内外部实时报表、仪表盘、用户行为分析、AB 实验平台、日志检索分析。
代表案例:
实时大屏看板:双十一订单量实时监控,秒级更新
用户画像分析:人群圈选与精准营销
日志检索分析:问题定位与性能优化
2、湖仓融合分析
统一数仓构建、数据湖联邦查询加速、混合负载分析。
3、混合检索分析(AI 数据栈)
在大模型时代,Apache Doris 深度融合文本搜索、向量搜索、AI 函数能力,构建从数据存储、检索到分析的完整 AI 数据栈。
| 场景 | 说明 |
|---|---|
| Agent Facing Analytics | AI Agent 毫秒级实时决策(反欺诈检测、智能推荐) |
| 混合检索与分析 | 同时执行向量相似度搜索 + 关键词过滤 + 聚合分析,一条 SQL |
| RAG 应用 | 企业知识库问答、智能客服、文档助手 |
| 语义搜索 | 跨语言检索、同义词识别、意图理解 |
| AI 可观测性 | 模型训练监控、推理追踪、日志分析 |
Apache Doris 在单条 SQL 中融合结构化分析 + 全文检索 + 向量搜索能力,一套系统同时支持向量相似度搜索、关键词过滤和聚合分析,无需数据迁移和异构系统集成。结合 VARIANT 类型原生支持动态 JSON 结构和 Light Schema Change 秒级变更字段能力,为 RAG 应用、语义搜索、企业知识库等 AI 场景提供高效的数据支撑。
SELECT*FROMproductsWHEREmatch(query_vector,'summer breathable shoes')-- Vector similarity searchANDbodyMATCH'breathable lightweight'-- Full-text keyword searchANDcategory_id=1-- Structured filteringGROUPBYbrandORDERBYsales_countDESC;三、系统架构
Apache Doris 高度兼容 MySQL 协议,支持标准 SQL,可通过各类客户端工具访问,与 BI 工具无缝集成。部署 Apache Doris 时,可以根据业务需求选择存算一体架构或存算分离架构。
1、存算一体架构
精简架构,包含两类进程:
Frontend (FE):接收请求、查询解析、元数据管理、节点管理
Backend (BE):数据存储、查询执行(多副本存储)
生产环境部署多个 FE 节点实现高可用,FE 节点分为 Master、Follower、Observer 三种角色。
2、存算分离架构(共享存储)
存储和计算分离,独立扩展存储容量和计算资源:
计算层:多个计算组,每组可作为独立租户
存储层:S3/HDFS/OSS 等共享存储
四、生态集成
Apache Doris 与主流数据生态深度集成。
