当前位置：首页 > news >正文

大模型知识点汇总

news 2026/6/3 1:33:15

1. QLoRA 对比 LoRA 核心区别

LoRA：模型权重用 FP16 半精度存储，整模型占显存高，想要微调 7B 大模型通常需要 24G 以上专业显卡； QLoRA：依靠4bit/8bit 量化把基座模型压缩存显存，只用 16G 普通消费级游戏显卡就能微调 7B 参数大模型，节省显存是它独一无二优势。一句话记：LoRA 高精度费显存，QLoRA 量化省显存。

2. Hugging Face 三大核心库分工（Transformers、PEFT、Accelerate）

Transformers：根基库，负责下载模型、分词器 Tokenizer、加载权重、搭建训练推理代码，from_pretrained()就是这个库方法，默认同时加载模型权重 + 配置 config 文件；
PEFT：参数高效微调专用库，唯一作用：实现 LoRA、QLoRA、Prefix Tuning 等微调方案，不做向量生成、不做全量训练；
Accelerate：分布式训练工具，自动适配单卡、多卡、混合精度训练，简化多机多卡代码，和向量化、数据处理没关系。

3. SFT 定义

SFT 全称有监督微调（Supervised Fine-Tuning），必须用人工标注好的问答数据训练，不能用无标注原始预训练文本。

预训练：大模型基座在海量无标注文本自学（LLaMA、Qwen 原始模型阶段）
SFT：拿标注好的 instruction-output 配对数据调教模型听懂人类指令

4. 判断：QLoRA 单卡消费显卡可调 7B → 结论正确

现在主流实操：16G 显存 3090/4060 显卡，靠 QLoRA 就能跑完 7B 模型 SFT 微调。

模块 2：RAG&Embedding & 向量库（文本切片、三大向量库、重排、Emb 模型）

1. Embedding 模型和生成大模型区分

BGE、m3e、all-MiniLM：专门做 Embedding 向量转化，输入文本，输出一串数字向量（RAG 向量化专用）
LLaMA3、通义千问 Qwen-Chat：生成式大模型，输入文字续写文字，不能生成向量，不能当 Embedding 使用。

2. 三大向量库：FAISS、Chroma、Milvus

FAISS：Meta 开源，CPU/GPU 都能跑，支持单机本地部署 + 分布式集群两种模式，题目说只能分布式是错的；
Chroma：轻量级本地向量库，代码引入即用，不用额外安装服务，小项目首选；
Milvus：企业级分布式向量库，需要单独部署服务，适合百万千万级海量文档场景。

3. Rerank 重排

初次检索是靠向量相似度粗筛一批文档，重排模型会重新精细判断文档和用户问题语义相关性，重新排序，过滤无关文档，是 RAG 优化检索结果的关键步骤。

模块 3：数据能力（Alpaca 格式、数据去重、数据质量评估）

1. Alpaca 标准字段：instruction、input、output

instruction：用户指令，必填字段，不能为空；
input：额外补充上下文，非必填，可空字符串；
output：模型标准答案，必填。

2. 数据去重的作用

去重 = 删掉重复一模一样的问答样本： ① 减少重复数据重复训练；② 降低模型过拟合；绝对不会增大数据集体积，“增大数据集” 是反向错误描述。

3. 数据质量评估工作内容

质量评估只针对数据集：检查问答对错、剔除病句、乱码、答非所问劣质数据；模型权重初始化属于模型训练环节，和数据质量没有任何关联，不属于数据评估。

模块 4：部署知识（FastAPI、Docker、vLLM、TensorRT-LLM、限流）

1. vLLM 核心原理：PagedAttention 分页注意力

传统推理显存浪费严重，PagedAttention 借鉴操作系统分页内存思路，复用空闲显存，大幅提升大模型并发推理速度，是 vLLM 提速的核心。

2. TensorRT-LLM

英伟达官方推理加速框架，专门做上线部署推理加速，优化 GPU 推理速度，不用于模型微调训练。

3. 各工具定位

FastAPI：Python 高性能 web 框架，用来把本地模型封装成 HTTP 接口，供前端 / 业务调用；
Docker：打包代码、环境、依赖，保证在任何服务器运行环境一致。

模块 5：LLMOps 全知识点（CI/CD、灰度发布、版本管理、可观测、自动评测、成本优化）

1. CI/CD

持续集成 + 持续部署，自动化：代码打包→自动化测试→模型打包→发布上线，全程少人工操作。

2. 灰度发布

新模型不一次性全量替换旧服务，先切少量用户流量跑新模型，观察报错、效果没问题后，再逐步全量放量上线，规避新版本全量崩盘风险。

3. 模型版本管理

每一次微调迭代出来的新模型，都要打版本号区分，方便回滚、对比效果，所以 “版本没用” 是错误认知。

4. LLMOps 五大组成固定内容

模型版本管理、CI/CD 流水线、可观测性、算力成本优化、模型自动评测

可观测：服务监控、日志收集、报错告警、QPS 统计；
成本优化：管控 GPU 算力、显存、服务器资源开销；
自动评测：批量跑测试集，自动化打分，不用人工挨个测模型好坏。

http://www.rkmt.cn/news/1450634.html

相关文章：

2026重庆主城优质高中排行：鲁能巴蜀数智学校渝北教学点位列头部 - 优质品牌商家

SemanticKITTI数据集保姆级使用指南：Python API、可视化与PointNet++实战调参

金融四大模块测试要点（资产定价 + 估值规则 + 损益计提 + 清算流程，适配银行 / 资管 / 券商测试用例设计）

14k Star 的抖音TikTok 数据采集工具，完全开源

HL-IK框架：让机器人动作更自然的逆运动学解决方案

从天气预报到股票预测：时间序列分析ARIMA模型实战，用Python预测股价走势（附完整代码）

广州网站开发公司推荐——广州企业网站建设指南：如何找到靠谱的开发公司？ - mougen1

3步解锁macOS视觉体验：为什么你的Windows和Linux需要这款开源光标？

广州独立站开发公司推荐——广州企业出海必读：独立站开发公司怎么选？ - mougen1

基于BH1750与Arduino的智能光照响应系统：从传感器原理到物联网闭环实践

Cursor试用重置工具：3分钟解决“试用限制“问题

企业网站开发公司推荐——企业网站开发全攻略：如何选对服务商，打造高价值官网？ - mougen1

免费音频编辑神器Audacity：从零开始掌握专业级音频处理

DeepEval 框架实战（一）：快速搭建环境并编写第一个 LLM 测试用例

共沸脱水技术及其在光刻胶用PGMEA纯化中的应用（下）

【财务系统AI化生死线】：监管新规倒计时90天！3类未备案AI接口将被强制下线

告警准确率从61%跃升至98.7%：基于LSTM-Attention双模态异常检测的工业级落地实践

私有化音视频系统/视频直播点播EasyDSS一体化音视频平台助力校园全场景数字化转型

6款精品降AI率软件改写实力出众

2026营销人员如何提升职场素养与专业度

鸣潮模组：15项高效游戏增强功能完整配置指南

ArcGIS Pro 3.0 下 Linkage Mapper 报错全攻略：从‘No module named lm_config’到‘Circuitscape failed’的20+个坑我都帮你踩了

Nvidia cuDNN 面试准备

徐珊新歌《六月的简历和情书》上线：用2086年的嗓音，唱哭2026年的每一个你

广州商城小程序开发公司推荐-广州企业如何选择靠谱的商城小程序开发公司？ - mougen1

终极指南：如何用Obsidian模板构建你的Zettelkasten知识管理系统

113.手写Linux刷机自动化工具｜适配小米一加，自动检设备、防翻车、批量刷分区

别再手动调参了！盘点10个开箱即用的相机标定工具（含OpenCV/Kalibr/Matlab保姆级对比）

深度实战：Python爬取今日头条关键词搜索结果的完整指南（Ajax接口与signature签名破解）爬取今日头条关键词搜索结果o 技术点：Ajax接口、signature签名破解（进阶）

别花冤枉钱买模板了！这几款工具做 PPT 还送全套答辩资料包，清单 + 稿子 + 问答 + 通关策略一站式配齐