当前位置：首页 > news >正文

想转AI工程师？先搞懂这7个概念再说

news 2026/6/8 17:05:39

想转 AI 工程师，很多人第一反应是去学 ChatGPT 怎么用、学 prompt engineering。但真正进了项目组就会发现，工具会用和系统能搭完全是两回事

Ratish Folio 写了一份 AI 工程师的概念地图，把 LLM、RAG、向量数据库、记忆系统、Agent、MCP 这 7 个核心模块串成了一条完整的架构链路。每个概念都讲清楚了"是什么"和"什么时候用"，适合刚入行或者想补全知识盲区的人通读一遍

LLM 的本质是一个预测引擎，工作方式是预测序列中最可能出现的下一个 token

三个需要记住的核心概念：

Token是模型处理的最小单位，可以是一个词、一个子词或一个标点符号。模型不看完整句子，它看的是 token 序列

上下文窗口决定了模型一次能参考多少信息。窗口越大，模型能"记住"的对话越长，但计算成本也越高

参数是模型训练出来的权重数量，直接影响模型的能力天花板。GPT-4 级别的参数量在万亿级

LLM 有两个阶段。预训练阶段从海量数据中学习语言模式，推理阶段根据用户输入实时生成回复。你用 ChatGPT 聊天的时候，跑的就是推理阶段

RAG：让 LLM 读到它没见过的数据

LLM 有一个天然短板：它只知道训练数据里有的东西。你公司内部的文档、最新的产品更新、私有数据库里的内容，它完全不知道

RAG（检索增强生成）的做法是在模型生成回答之前，先从外部数据源里检索相关内容，把检索到的上下文喂给模型，再让它生成回答。这样模型的回答就有了真实数据支撑，幻觉也大幅减少

RAG 管道分三步走：

第一步索引：把文档切成小块（chunking），每块转成向量表示（embedding），存入向量数据库

第二步检索：用户提问时，把问题也转成向量，从数据库中找到语义最相似的几个文档块

第三步生成：把检索到的上下文和原始问题一起交给 LLM，生成有据可查的回答

检索有两种方式。稀疏检索靠关键词匹配，速度快但语义理解弱。稠密检索靠 embedding 做语义匹配，效果更好但计算量大。生产环境通常两者混合使用

向量数据库：语义搜索的基础设施

传统数据库做的是精确匹配，SQL 查 WHERE name = ‘xxx’。向量数据库做的是相似度搜索，找的是语义最接近的内容

Embedding 是把文本、图片、音频转成一组数字（向量）的过程。语义相近的内容在向量空间里距离更近，语义无关的距离更远。这就是推荐系统、语义搜索、AI 助手背后的核心原理

主流的向量数据库选型：

•Pinecone：全托管，上手最快，适合原型验证
•FAISS：Meta 开源，单机性能极强，适合对延迟敏感的场景
•Chroma：轻量级，跟 LangChain 集成最好，适合本地开发
•Milvus：分布式架构，适合大规模生产部署

Fine-tuning vs RAG：一个管知识，一个管行为

很多人分不清 fine-tuning 和 RAG 的区别。一句话总结：RAG 给模型加知识，fine-tuning 改模型的行为

RAG 适合的场景：模型需要访问实时数据、私有文档、特定领域的知识库。知识随时在变，RAG 只需要更新外部数据源，模型本身不用动

Fine-tuning 适合的场景：你想让模型用特定的语气说话、遵循特定的输出格式、在某个垂直领域表现更好。这改的是模型本身的行为模式

生产环境里两者经常一起用。Fine-tuning 让模型掌握你要的输出风格和专业术语，RAG 确保它能引用最新的数据

记忆系统：让 AI 记住上下文

没有记忆系统的 AI 每次对话都是从零开始。你上一轮告诉它的偏好、背景信息、决策历史，下一轮全忘了

AI 的记忆分两层：

短期记忆就是上下文窗口。当前对话里的所有内容都在这里，但窗口有上限，超出的部分会被丢掉

长期记忆把重要的交互信息转成 embedding 存进向量数据库。下次对话时，系统检索相关的历史记录，注入到上下文中。这就是 ChatGPT 的 Memory 功能、Claude 的 Project Memory 背后的机制

记忆系统的核心挑战是决定什么值得记、什么可以丢。记太多会引入噪音，记太少会丢失关键上下文

Agentic AI + MCP：从回答问题到自主执行

普通的 AI 应用是你问一句它答一句。Agentic AI 是你给它一个目标，它自己规划步骤、调用工具、执行任务、检查结果

Agent 的核心能力是 planning（规划）+ tool use（工具调用）+ self-reflection（自我纠错）。你让它"帮我分析这个 CSV 然后生成报告"，它会自己决定先读文件、再写分析代码、跑完检查输出是否合理，不合理就重来

MCP（Model Context Protocol）是 Anthropic 推出的开放协议，解决的问题是：AI 怎么跟外部工具通信。每个工具厂商自己写一套接口，AI 要接 10 个工具就得写 10 套适配代码。MCP 提供了一个统一标准，类似于 AI 应用的 USB-C 接口。一次对接，所有支持 MCP 的工具都能用