当前位置: 首页 > news >正文

将transformer权重参数文件转化为gguf文件以适用于Ollama客户端

1.前置条件Python 3.10 环境足够内存8B 模型至少要十几 GB 内存转 Q4_K_M 时会更多安装依赖pip install torch transformers accelerate pip install -U huggingface_hub[cli]2.下载 Transformers 权重在你准备放模型的目录打开终端比如 D:\models\granite-4.1-8b# 下载整个仓库到当前目录huggingface-cli download ibm-granite/granite-4.1-8b --local-dir这会下载 config.json、tokenizer.json、model-000xx-of-000xx.safetensors 等文件geeksforgeeks.org。3.安装 llama.cpp 并准备转换脚本克隆 llama.cppgit clone https://github.com/ggml-org/llama.cpp cd llama.cpp安依赖pip install -r requirements.txt这一步是为了让 convert-hf-to-gguf.py 能跑。确认脚本存在python convert-hf-to-gguf.py --help能看到帮助说明就说明没问题。4.用 convert-hf-to-gguf.py 转 GGUF先转 F16/BF16假设你已经回到模型目录D:\models\granite-4.1-8b文件夹llama.cpp 在 D:\models\llama.cpp先转一个 高精度 GGUFf16/bf16之后再量化python D:\models\llama.cpp\convert-hf-to-gguf.py D:\models\granite-4.1-8b --outfile granite-4.1-8b-f16.gguf --outtype f16说明第 1 个参数本地 HF 模型目录里面有 config.json safetensorsgeeksforgeeks.org。--outfile输出的 GGUF 文件名。--outtypef16 / bf16 / q8_0 等f16 先保真后面再量化。5.用 llama.cpp 量化可选但推荐GGUF 文件可以进一步量化成 Q4_K_M、Q5_K_M 等减小体积并加速推理。在 llama.cpp 目录下# 量化为 Q4_K_Mpython D:\models\llama.cpp\quantize.exe D:\models\granite-4.1-8b\granite-4.1-8b-f16.gguf D:\models\granite-4.1-8b\granite-4.1-8b-Q4_K_M.gguf Q4_K_M注意quantize.exe 是编译出来的二进制需要你用 CMake 先编译 llama.cpp。6.把 GGUF 导入 Ollama在 GGUF 所在目录写 Modelfile.txt例如 D:\models\granite-4.1-8b\ModelfileFROM ./granite-4.1-8b-Q4_K_M.gguf SYSTEM You are a helpful assistant that can call tools to control CATIA V5. 然后ollama create granite4.1-local -f Modelfile ollama run granite4.1-local7.关键点与坑提醒不是所有 Transformers 模型都能转 GGUFconvert-hf-to-gguf.py 只支持“decoder-only 自回归”架构比如 LLaMA、Mistral、Gemma、Phi 等。Granite-4.1-8B 属于这类所以是支持的IBM 官方 GGUF 仓库也用它做转换。必须用 llama.cpp 官方脚本不要随便用其他脚本否则 GGUF 结构不对Ollama / llama.cpp 跑不起来。8.量化顺序推荐先转 f16/bf16 GGUF → 再用 llama.cpp 量化这样精度更可控。9.内存和时间8B 模型转 GGUF 量化内存可能要 32GB 以上全流程可能几十分钟到一小时取决于 CPU/磁盘速度。
http://www.rkmt.cn/news/1399494.html

相关文章:

  • 开源可持续性危机:从公地悲剧到商业博弈的生存挑战
  • 30+北漂程序员,2个月零基础转行大模型,程序员如何抓住AI风口
  • 2026年热门的露台专用晾衣杆/晾衣杆/江西壁挂式晾衣杆精选厂家推荐 - 行业平台推荐
  • 基于Twilio+Deepgram+Groq构建企业级AI语音座席实战指南
  • AI绘图进化:从炫酷到实用
  • 合作案例勤策签约王小卤终端动销策略
  • 云知声U2即将发布:小参数大能量,能否填平估值差?
  • 大模型面试题,终于有LeetCode版了
  • 2026年热门的转弯输送线/广东自动输送线/皮带输送线定制加工厂家推荐 - 品牌宣传支持者
  • 利用亮数据网络解锁API进行数据采集
  • Agentic 设计模式拆解:6 种结构的优缺点与应用场景
  • 意法半导体LIS2DH12TR渠道商
  • 告别pywinauto!用Python uiautomation模块搞定Windows桌面软件自动化测试(附计算器实战)
  • AI智能文档处理引擎:OCR与NLP如何重塑财税行业工作流
  • Lovable体育平台如何扛住百万级实时投注?:揭秘WebSocket+边缘计算的毫秒级响应架构
  • 深耕跨境3年实操总结:TEMU四大剧变,多渠道布局避坑盈利攻略
  • WorkBuddy 微信无缝接入,手机远程操控电脑干活
  • 用Proteus+Keil给STM32F103C8做个“体温计”:手把手实现温度采集与电机控制
  • Lovable运维平台架构设计深度解析(高可用+低延迟+零信任安全三重验证)
  • 从‘抽球’到‘预测股价’:离散与连续概率模型在数据分析中的实战对比
  • Redis分布式锁进阶第七十六篇
  • AI代理在生产数据库运维中的五大认知盲区与实战校正
  • 构建本地AI语音助手:从语音识别到任务执行的模块化架构实践
  • Java的类型转换
  • 别再手动解析事件了!用FastAPI + CloudEvents库,5分钟搞定事件驱动微服务接口
  • 从X11到Wayland:一个Linux桌面开发者的迁移实战与避坑指南
  • 分布式强化学习的网络瓶颈与OLAF优化方案
  • 小白也能学会的盒模型基础!!!
  • 从Unity 2022到Unity 6:平台判断API的变迁与未来兼容性写法
  • 这次走对了,微软AgenticRAG实测5.9倍提升