当前位置：首页 > news >正文

零基础本地运行Gemma 4B：Ollama+GGUF极简部署指南

news 2026/6/4 6:35:36

1. 项目概述：为什么一个“本地跑通Gemma 4”的标题值得你花45分钟认真读完

我第一次在终端里敲出ollama run gemma:4b并看到模型真正开始逐字生成回答时，手是停顿了两秒的——不是因为惊讶，而是因为太顺了。没有报错、没有缺依赖、没有卡在下载一半、更没出现“CUDA out of memory”那种让人头皮发紧的红字。那一刻我意识到：所谓“零基础也能轻松上手”，不是营销话术，而是技术演进真实抵达的一个临界点。Gemma 4（即 Gemma-2B 和 Gemma-4B 两个轻量级变体）由谷歌发布，定位非常清晰：它不是要和 Llama 3 或 Qwen2-72B 比拼参数规模，而是专为开发者日常调试、教育场景演示、边缘设备原型验证、以及本地知识库轻量推理而生。它的权重结构干净（纯 PyTorch + Safetensors）、量化方案成熟（GGUF 支持完善）、上下文长度务实（8K token 足够覆盖绝大多数文档摘要与对话任务），最关键的是——它完全开源，无商用限制条款，连 Apache 2.0 许可证里的“明确免责”都写得清清楚楚。

这个标题里的“零基础”，我把它拆解成三个硬指标：第一，不需要你懂 CUDA 编译、不强制要求你装 NVIDIA 驱动；第二，不需要你手动下载模型文件、解压、配置 HuggingFace cache 路径、写 load_model() 脚本；第三，不需要你调任何 LoRA 微调参数、不涉及 FlashAttention 优化开关、不纠结于 rope_theta 或 attn_implementation 的取舍。它对标的是“刚装好 Windows 11 的大学生”、“用 Macbook Air 写教案的中学老师”、“想给客户现场演示但不想暴露 API Key 的售前工程师”。我实测过，在一台 2020 款 16GB 内存 + M1 芯片的 MacBook Air 上，用gemma:4b-q4_k_m量化版本，推理速度稳定在 8.2 token/s，内存占用峰值 5.3GB，全程风扇几乎不转。而在一台 16GB 内存的 Windows 笔记本（i5-1135G7 + Iris Xe 核显）上，通过 Ollama + llama.cpp 后端，同样能跑通，只是首 token 延迟略高（约 2.1 秒），但后续流式输出依然连贯。这不是“能跑”，而是“跑得稳、看得见、改得着、讲得清”。接下来你要看到的，不是一份冷冰冰的部署文档，而是一份我亲手踩过所有坑、记录下每一步耗时、对比过 7 种启动方式、最终筛选出唯一推荐路径的实战手记。它不教你 Transformer 架构，但会告诉你为什么选 Q4_K_M 而不是 Q5_K_S；它不展开讲 RMSNorm 数学，但会说明你在 WebUI 里勾选“Use GPU”却没效果时，真正该检查的三个地方；它甚至会提醒你：当你的模型回答突然变成乱码，90% 的概率不是模型坏了，而是你复制粘贴时带入了不可见的 Unicode 控制字符。现在，请关掉其他标签页，打开你的终端——我们从最真实的那行命令开始。

2. 整体设计思路与方案选型：为什么放弃 HuggingFace + Transformers，而坚定选择 Ollama + llama.cpp 组合

2.1 三种主流本地部署路径的真实体验对比

在正式动手前，我花了整整三天时间横向测试了当前最常被教程推荐的三类部署方式，并用同一台设备（16GB RAM / Ryzen 5 5600H / RTX 3050 4GB）做了严格对照实验。结果不是靠感觉，而是靠计时器、内存监控和日志截屏：

方案	启动耗时（首次）	内存峰值	GPU 显存占用	首 token 延迟	是否需 Python 环境管理	新手失败主因
HuggingFace + Transformers + bitsandbytes	3分12秒	9.8GB	3.2GB	1.8秒	✅ 必须（conda/virtualenv）	pip install 报错（torch 版本冲突）、bitsandbytes 编译失败、device_map 自动分配错误导致 OOM
LM Studio（GUI 工具）	48秒（含 GUI 加载）	7.1GB	2.9GB	2.3秒	❌ 无需	模型加载后点击“Chat”无响应（后台日志显示 gguf 文件校验失败）、中文输入法触发异常字符、无法导出 prompt template
Ollama + llama.cpp（本文主推）	19秒	4.6GB	2.1GB	1.1秒	❌ 无需（二进制直装）	仅1例：Windows 用户未关闭 Hyper-V 导致 WSL2 启动失败（有明确报错提示）

这个表格背后是血泪教训。比如在测试 Transformers 方案时，我卡在pip install bitsandbytes --index-url https://jllllll.github.io/bitsandbytes-windows-webui这一步长达 57 分钟——因为官网 wheel 包只支持 Python 3.10，而我的系统默认是 3.11。临时降级 Python 不仅影响其他项目，还引发 pip 本身升级冲突。再比如 LM Studio，它看似最“傻瓜”，但当我把从 HuggingFace 下载的原始gemma-2b-it.safetensors文件拖进去时，软件直接弹窗：“Unsupported model format. Please convert to GGUF first.”——而它自己又不提供转换工具。用户只能去 GitHub 找第三方脚本，再配 Python 环境，瞬间回到“零基础”反面。

Ollama 的核心优势，在于它把整个技术栈做了一次“外科手术式封装”：模型下载、格式转换（自动将 safetensors → GGUF）、量化选择（内置 8 种量化等级）、GPU 卸载（自动识别 CUDA/Metal/ROCm）、HTTP API 封装、WebUI 启动，全部压缩进一个ollama run命令里。它不暴露底层细节，但所有细节又都可控——你随时可以ollama show gemma:4b查看模型元信息，用ollama cp gemma:4b my-gemma:custom复制并修改配置，甚至ollama serve启动后直接 curl 调用。这种“开箱即用但绝不封闭”的哲学，正是 Gemma 4 这类轻量模型最需要的载体。

2.2 为什么 GGUF 是当前本地部署的事实标准

很多人问：“为什么非得转成 GGUF？HuggingFace 的 safetensors 不香吗？”这个问题的答案，藏在内存访问效率的物理层。safetensors 是一种安全的张量序列化格式，优点是加载快、校验强、无 pickle 风险，但它本质仍是“磁盘文件 → CPU 内存 → GPU 显存”的三级搬运。而 GGUF 是 llama.cpp 团队为本地推理专门设计的二进制容器格式，它把模型权重、元数据、词表、量化参数、甚至 KV Cache 配置全部打包进一个文件，并支持内存映射（mmap）加载——这意味着当你运行ollama run gemma:4b时，程序并不把整个 2.4GB 的模型文件一次性读入内存，而是像翻书一样，只把当前推理需要的那几页（layer）按需加载到 RAM，其余部分仍躺在 SSD 上。这直接带来了两个质变：

冷启动速度提升 3.7 倍：在 M1 Mac 上，safetensors 加载耗时 2.1 秒，GGUF 仅需 0.57 秒；
内存占用降低 42%：同为 Q4_K_M 量化，safetensors 在 PyTorch 下需常驻 6.8GB 内存，GGUF 仅需 3.9GB（实测值）。

更关键的是，GGUF 内置了**分层量化（layer-wise quantization）**能力。你可以让 embedding 层用 Q8_K（高精度），中间 transformer 层用 Q4_K_M（平衡），而 final norm 层再用 Q6_K（保输出稳定性）。这种细粒度控制，在 safetensors + bitsandbytes 方案里需要手动修改源码、重写 load_state_dict，对新手根本不可行。而 Ollama 在Modelfile里只用一行就搞定：

FROM gemma:2b PARAMETER num_ctx 8192 ADAPTER ./lora-finetune.bin # 以下这行就是分层量化指令（Ollama 0.3.5+ 支持） QUANTIZE q4_k_m:embedding,q6_k:normal,q4_k_m:attn

虽然 Gemma 4 官方没提供预量化 GGUF，但社区已产出高质量版本（如 TheBloke 的gemma-2b.Q4_K_M.gguf），且 Ollama 会自动从其镜像仓库拉取——你完全不用知道 GGUF 是什么，只要ollama run gemma:2b，它就默默完成一切。

2.3 “零基础”的真正边界：哪些事你必须做，哪些事你绝对不用碰

必须明确一点：“零基础”不等于“零操作”。它指的是技术门槛归零，而非劳动成本归零。你需要做的，只有三件确定性极高的事：

下载并安装 Ollama 官方二进制（macOS/Windows/Linux 三端统一，无编译步骤）；
在终端里输入一条命令（ollama run gemma:4b），回车；
在弹出的 WebUI 里输入问题，按下回车。

仅此而已。而你绝对不用碰的，是以下这些常被教程默认要求的“前置动作”：

❌ 不需要注册 HuggingFace 账号并同意 License（Ollama 镜像已内置合规授权）；
❌ 不需要手动下载 2GB+ 的模型文件（Ollama 自动分块下载，断点续传）；
❌ 不需要安装 CUDA Toolkit、cuDNN、PyTorch（Ollama 二进制已静态链接所需库）；
❌ 不需要配置环境变量（如HF_HOME,TRANSFORMERS_OFFLINE）；
❌ 不需要理解torch.compile()、flash_attn、vLLM等加速框架差异。

我特意测试过“最极端零基础”场景：让一位完全没接触过命令行的高中语文老师，在我语音指导下（不开共享屏幕），用她自己的 Windows 笔记本（无管理员权限，仅标准用户账户）完成部署。过程如下：
① 她访问 ollama.com，点击 Download for Windows，双击OllamaSetup.exe（UAC 提示点“是”）；
② 安装完成后，她按 Win+R 输入cmd，回车；
③ 我让她逐字输入ollama run gemma:4b，回车；
④ 她看到终端滚动下载日志（共 12 行，每行带进度条），约 2 分钟后自动弹出浏览器窗口；
⑤ 她在输入框打字：“请用‘春风又绿江南岸’写一首七言绝句”，点击发送，5 秒后完整诗句生成。

全程耗时 8 分 32 秒，无一次求助。这验证了方案的鲁棒性——它不依赖用户的先验知识，而依赖设计者对用户真实操作路径的极致预判。

3. 核心细节解析与实操要点：从命令执行到 WebUI 响应，每一毫秒发生了什么

3.1`ollama run gemma:4b`这行命令背后的七步精密流水线

当你在终端敲下回车，表面只是一行命令，实则触发了一个高度协同的七步自动化流水线。理解它，不是为了炫技，而是为了在出问题时，能精准定位故障环节。我用ollama serve启动服务后，用curl -X POST http://localhost:11434/api/chat模拟请求，同时开启htop和lsof -i :11434监控，完整还原了全过程：

Step 1：镜像解析与本地缓存检查（耗时 ≈ 0.12 秒）
Ollama 首先检查本地~/.ollama/models/blobs/目录是否存在sha256:...开头的 blob 文件。Gemma 4 的官方镜像名gemma:4b实际对应registry.ollama.ai/library/gemma:4b，其 manifest 文件（JSON）存储在~/.ollama/models/manifests/registry.ollama.ai/library/gemma/4b。若本地无 manifest，则发起 HTTP HEAD 请求获取远程 manifest，解析出包含 3 个 layer 的 digest 列表。这一步快如闪电，但它是整个流程的“决策中枢”——如果这里网络超时（如公司防火墙拦截 registry.ollama.ai），你会看到pulling manifest卡住，此时只需ping registry.ollama.ai即可确诊。

Step 2：分层下载与校验（耗时 ≈ 1分45秒，占总时长 82%）
Gemma 4B 镜像被拆为 3 个 layer：

Layer 1（12MB）：modelfile（定义模型元信息）；
Layer 2（2.1GB）：model.gguf（核心权重，Q4_K_M 量化）；
Layer 3（8KB）：template.json（prompt 模板，定义<start_of_turn>等特殊 token）。
Ollama 使用并发 HTTP 下载（默认 3 线程），每个 layer 下载后立即用 SHA256 校验。重点来了：Layer 2 的下载是流式校验的——不是等整个 2.1GB 下完再算 hash，而是边下边校，一旦发现某 chunk 校验失败（如网络丢包），自动重传该 chunk，而非整层重下。这解释了为什么断网 10 秒后恢复，下载进度条只回退 0.3%，而非从 0 开始。

Step 3：GGUF 解析与内存映射初始化（耗时 ≈ 0.57 秒）
当model.gguf完整落盘，Ollama 调用 llama.cpp 的 C APIllama_model_load_from_file()。此函数不把整个文件读入内存，而是调用mmap()将文件映射到虚拟地址空间。此时htop中进程 RSS（常驻内存）仅增长 12MB，但 VIRT（虚拟内存）飙升至 2.4GB——这是 mmap 的正常表现。真正的权重加载发生在下一步。

Step 4：KV Cache 预分配与 GPU 显存绑定（耗时 ≈ 0.23 秒）
Ollama 检测到你的设备有 NVIDIA GPU（或 Apple Metal），自动调用llama_kv_cache_init()预分配 KV Cache 显存。Gemma 4B 默认 context length 8192，按公式cache_size = 2 * n_layers * n_kv_heads * head_dim * seq_len * sizeof(float16)计算，RTX 3050 需约 1.8GB 显存。若显存不足，Ollama 会自动降级为 CPU 推理（日志显示failed to allocate GPU memory, falling back to CPU），而非崩溃。

Step 5：Tokenizer 加载与词表构建（耗时 ≈ 0.08 秒）
从template.json提取 tokenizer 配置，加载 sentencepiece 模型（tokenizer.model）。Gemma 使用 Google 的 SentencePiece，其词表大小为 256,000，加载后构建哈希映射表，确保 token 查找复杂度 O(1)。这一步极快，但若template.json缺失（如手动删了），你会遇到tokenizer not found错误——此时只需ollama pull gemma:4b重拉即可。

Step 6：WebUI 启动与 HTTP Server 初始化（耗时 ≈ 0.31 秒）
Ollama 内置一个精简版 Go HTTP server（非 Node.js），监听localhost:11434。它不渲染前端页面，而是返回一个 HTML 文件，其中<script>标签动态加载http://localhost:11434/public/webui.js。这个 JS 文件体积仅 142KB，包含所有 UI 逻辑，且已预编译为 WebAssembly，确保低配设备流畅运行。

Step 7：首次推理预热（耗时 ≈ 0.89 秒）
当你在 WebUI 输入第一个问题并发送，Ollama 触发llama_eval()。首次 eval 会触发：

CUDA kernel 编译（NVIDIA）或 Metal shader 编译（Mac）；
embedding 层权重从 mmap 区域拷贝到 GPU 显存；
初始化 KV Cache 的第一个 slot。
这 0.89 秒就是你看到的“首 token 延迟”。之后所有推理，因 kernel 已编译、权重已驻留，延迟降至 0.12 秒/token。

3.2 WebUI 界面中那些不起眼按钮的硬核作用

Ollama WebUI 看似极简，但每个控件都直指性能与体验痛点。我逐个拆解其底层行为：

“Copy” 按钮（右下角）：
它不只是复制文本。当你点击时，JS 会调用navigator.clipboard.writeText()，但在此之前，它执行了三重清洗：
1. 移除所有\u200b（零宽空格）、\u2060（单词连接符）等不可见 Unicode 字符；
2. 将连续多个空格/换行符压缩为单个；
3. 对代码块添加语言标识（如 ```python）。
  这解决了 Gemma 输出中常见的“复制后粘贴到 VS Code 里缩进错乱”问题。
“Stop Generating” 按钮（左下角）：
它发送一个POST /api/chat请求，body 中options.stop设为["<end_of_turn>"]（Gemma 的 EOS token）。llama.cpp 收到后立即中断llama_eval()循环，释放正在计算的 logits，避免浪费算力。实测表明，点击此按钮后，GPU 利用率在 0.03 秒内从 92% 降至 5%。
“Model” 下拉菜单（顶部）：
它列出ollama list的所有模型，但点击切换时并非重启服务，而是向/api/chat发送新请求时，在model字段指定新模型名。Ollama 后端会复用已加载的模型实例（若内存足够），否则按需加载。这意味着你可以在同一会话中无缝切换gemma:2b和phi:3，无重启开销。
“Temperature” 滑块（设置图标内）：
它直接映射到 llama.cpp 的llama_sampling_params结构体。当设为 0.0 时，Ollama 启用top_p=1.0, min_p=0.0, typical_p=1.0，即完全贪婪解码（argmax）；设为 0.8 时，启用top_k=40, top_p=0.9, temp=0.8。注意：Gemma 官方推荐温度为 0.7，过高（>0.9）会导致事实性下降，过低（<0.3）则丧失创造性——我在测试中用“解释量子纠缠”为 prompt，温度 0.2 输出全是教科书定义，0.9 则编造出不存在的科学家名字。

3.3 量化等级选择指南：Q2_K、Q3_K_M、Q4_K_M、Q5_K_M、Q6_K 的真实代价与收益

Ollama 支持 8 种量化等级，但 Gemma 4B 最常用的是 Q2_K 到 Q6_K。我用相同 prompt（“总结《三体》第一部的核心思想，200字内”）在 RTX 3050 上跑满 10 次，取平均值，得到下表：

量化等级	模型体积	内存占用	推理速度（token/s）	回答质量评分（1-5）	典型适用场景
Q2_K	1.1GB	3.2GB	14.7	2.8	纯 CPU 笔记本（8GB RAM），仅需快速问答
Q3_K_M	1.4GB	3.6GB	12.3	3.5	教育演示、多轮对话基础版
Q4_K_M	1.7GB	4.1GB	10.2	4.3	本文主推：平衡性最优，适合 90% 场景
Q5_K_M	1.9GB	4.5GB	9.1	4.6	需要更高事实准确性的专业咨询
Q6_K	2.2GB	4.9GB	7.8	4.8	本地知识库 RAG，对输出稳定性要求极高

注：质量评分由 3 名独立评审员盲评，标准为“事实准确性、逻辑连贯性、语言自然度”三维度均值。

关键洞察：Q4_K_M 是性价比拐点。相比 Q3_K_M，它体积仅增 0.3GB，但质量跃升 0.8 分（+22.8%），而速度仅降 1.9 token/s（-15.4%）；相比 Q5_K_M，体积减 0.2GB，速度+1.1 token/s（+12.1%），质量仅降 0.3 分（-6.5%）。这就是为什么 Ollama 官方镜像默认选用 Q4_K_M——它用最小的资源代价，换取了用户感知最明显的质量提升。如果你的设备内存 ≥12GB，且追求极致质量，Q5_K_M 是合理选择；若内存 ≤8GB，Q3_K_M 更稳妥。但切记：不要选 Q8_0（2.4GB），它体积比 Q4_K_M 大 41%，速度慢 37%，质量仅高 0.2 分，完全不划算。

4. 实操过程与核心环节实现：从安装到定制，手把手带你走完全流程

4.1 全平台安装与首次运行：三分钟完成，附各系统排错锦囊

macOS（Apple Silicon M1/M2/M3）

访问 https://ollama.com/download ，点击 “Download for macOS”；
双击下载的Ollama-darwin.zip，将Ollama.app拖入Applications文件夹；
打开Terminal，输入ollama run gemma:4b，回车。
✅ 成功标志：终端显示pulling manifest→pulling 05a7...→creating new model→ 自动弹出 Safari/Chrome 窗口，地址栏为http://localhost:11434。
⚠️ 常见问题：

“Command not found”：Ollama 安装后会自动将/usr/local/bin加入 PATH，但某些 Shell（如 zsh）需重启终端或执行source ~/.zshrc；
“Failed to connect to localhost:11434”：检查是否开启了 Little Snitch 等防火墙软件，临时禁用即可；
WebUI 打开空白页：清除浏览器缓存（Cmd+Shift+R 强制刷新），或换用 Chrome（Safari 对 WebAssembly 支持偶有 Bug）。

Windows（10/11，x64/ARM64）

访问 https://ollama.com/download ，点击 “Download for Windows”；
双击OllamaSetup.exe，按向导安装（建议勾选 “Add Ollama to PATH”）；
按 Win+R 输入cmd，回车，输入ollama run gemma:4b。
✅ 成功标志：同 macOS，但 WebUI 默认用 Edge 打开。
⚠️ 常见问题：

“WSL2 is not installed”：Ollama 在 Windows 依赖 WSL2（Windows Subsystem for Linux）。以管理员身份运行 PowerShell，执行：

dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart wsl --install

重启电脑后，再运行ollama run；

“GPU acceleration not available”：RTX 显卡需安装最新驱动（≥535.98），并确认在NVIDIA Control Panel → 3D Settings → Preferred graphics processor中设为“High-performance NVIDIA processor”。

Linux（Ubuntu/Debian/CentOS）

打开终端，执行一键安装：

curl -fsSL https://ollama.com/install.sh | sh

启动服务：systemctl start ollama；
运行模型：ollama run gemma:4b。
✅ 成功标志：终端最后显示Running...，WebUI 可通过http://localhost:11434访问。
⚠️ 常见问题：

“Permission denied”：Ollama 服务默认以ollama用户运行，若你用 root 安装，需执行sudo usermod -a -G ollama $USER，然后newgrp ollama刷新组；
“Out of memory” on low-RAM VPS：编辑/etc/systemd/system/ollama.service，在[Service]下添加MemoryLimit=4G，然后sudo systemctl daemon-reload && sudo systemctl restart ollama。

4.2 模型定制进阶：用 Modelfile 创建专属 Gemma 版本

Ollama 的Modelfile是其强大定制能力的核心，语法简洁如 Dockerfile。下面是一个生产级 Gemma 4B 定制示例，解决三个高频需求：固定系统提示词、启用 JSON 模式、限制最大输出长度。

# Modelfile for custom-gemma-4b FROM gemma:4b # 设置系统角色（替代 WebUI 中每次手动输入） SYSTEM """ 你是一个严谨的学术助手，只回答与问题直接相关的内容，不添加额外解释。 所有回答必须使用中文，且严格控制在 200 字以内。 """ # 启用 JSON 模式（当 prompt 包含 "output as JSON" 时自动触发） PARAMETER format json # 限制最大输出 token 数（防失控生成） PARAMETER num_predict 512 # 自定义停止词（让模型更懂何时结束） PARAMETER stop ["<end_of_turn>", "```", "。"] # 加载 LoRA 适配器（可选，需提前训练好） # ADAPTER ./my-lora-adapter.bin # 指定 GPU 卸载层数（高级用法，此处设为 0 表示全 CPU） # PARAMETER numa false # PARAMETER num_gpu 0

构建与运行步骤：

将上述内容保存为Modelfile（无后缀，首字母大写）；
在同一目录下执行：ollama create my-gemma -f Modelfile；
构建成功后，运行：ollama run my-gemma。

效果验证：

输入{"question": "量子力学的基本原理有哪些？"}，模型将输出严格 JSON 格式：
```
{"principles": ["波粒二象性", "不确定性原理", "量子叠加", "量子纠缠"]}
```
输入请用一句话解释光合作用，输出必在 200 字内，且开头无“好的，这是一个很好的问题…”等冗余；
当输出出现代码块（```python）或句号（。）时，自动终止，不会继续生成无关内容。

提示：Modelfile中的SYSTEM指令比 WebUI 的“System Prompt”框更可靠——后者在刷新页面后会丢失，而SYSTEM是模型固件的一部分，永久生效。

4.3 API 调用实战：用 Python 脚本对接 Ollama，打造你的专属 AI 工具链

Ollama 提供标准 REST API，让你脱离 WebUI，集成到任何应用中。以下是一个生产就绪的 Python 脚本，实现：流式响应、超时控制、错误重试、上下文记忆。

import requests import time from typing import List, Dict, Optional class OllamaClient: def __init__(self, base_url: str = "http://localhost:11434"): self.base_url = base_url.rstrip('/') def chat_stream(self, model: str = "gemma:4b", messages: List[Dict[str, str]] = None, options: Optional[Dict] = None, timeout: int = 120) -> str: """ 流式调用 Ollama API，返回完整响应字符串 messages 示例: [{"role": "user", "content": "你好"}] """ if messages is None: messages = [{"role": "user", "content": "你好"}] # 构建请求 payload payload = { "model": model, "messages": messages, "stream": True, # 启用流式 "options": options or {"temperature": 0.7, "num_ctx": 8192} } try: # 发起 POST 请求，设置超时 with requests.post( f"{self.base_url}/api/chat", json=payload, timeout=timeout, stream=True ) as response: response.raise_for_status() full_response = "" for line in response.iter_lines(): if line: try: import json chunk = json.loads(line.decode('utf-8')) if 'message' in chunk and 'content' in chunk['message']: content = chunk['message']['content'] full_response += content print(content, end="", flush=True) # 实时打印 except json.JSONDecodeError: continue return full_response except requests.exceptions.Timeout: print("\n❌ 请求超时，请检查 Ollama 是否运行中") return "" except requests.exceptions.ConnectionError: print("\n❌ 连接失败，请运行 'ollama serve' 启动服务") return "" except Exception as e: print(f"\n❌ 未知错误: {e}") return "" # 使用示例 if __name__ == "__main__": client = OllamaClient() # 模拟多轮对话上下文 history = [ {"role": "user", "content": "你是谁？"}, {"role": "assistant", "content": "我是 Gemma，一个由 Google 开发的轻量级语言模型。"}, {"role": "user", "content": "请用三句话介绍你自己。"} ] print("🤖 Gemma 正在思考...") result = client.chat_stream( model="gemma:4b", messages=history, options={"temperature": 0.5, "num_predict": 256} ) print(f"\n\n✅ 完整回答：{result}")

关键特性说明：

流式处理：response.iter_lines()逐行读取 SSE（Server-Sent Events）响应，print(content, end="", flush=True)实现终端实时输出，模拟 ChatGPT 效果；
健壮错误处理：捕获Timeout、ConnectionError等常见异常，并给出明确修复指引；
上下文记忆：messages参数直接传入历史对话，Ollama 自动拼接system + history + current，无需手动构造 prompt；
参数透传：options字典可覆盖任何 llama.cpp 支持的参数，如repeat_penalty（防重复）、frequency_penalty（防高频词）。