当前位置：首页 > news >正文

揭秘Sherry量化算法：Hy-MT1.5-1.8B-1.25bit如何实现1.25位极致压缩

news 2026/6/13 10:05:45

揭秘Sherry量化算法：Hy-MT1.5-1.8B-1.25bit如何实现1.25位极致压缩

【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/hf_mirrors/AngelSlim/Hy-MT1.5-1.8B-1.25bit

Hy-MT1.5-1.8B-1.25bit是基于腾讯AngelSlim项目开发的革命性翻译模型，它通过创新的Sherry量化算法将1.8B参数模型压缩至仅440MB，同时保持接近原模型的翻译质量。这款支持33种语言的轻量级模型彻底改变了移动设备上的离线翻译体验，让普通手机也能流畅运行高性能AI翻译。

🌟 什么是1.25位量化？为何如此重要？

传统AI模型通常使用16位或32位浮点数存储参数，这使得模型体积庞大且运行缓慢。Hy-MT1.5-1.8B-1.25bit采用的1.25位量化技术是一种突破性的模型压缩方法，它将原始3.3GB的FP16模型压缩至仅440MB，体积减少87%，却几乎不损失翻译质量。

这种极致压缩带来三大核心优势：

设备兼容性：普通手机也能轻松安装和运行
速度提升：相比FP16模型快8倍，实现实时翻译
隐私保护：完全离线运行，数据无需上传云端

🧠 Sherry量化算法：1.25位背后的创新原理

Sherry算法（已被ACL 2026接收）是实现这一突破的核心技术。它采用3:4细粒度稀疏策略：每4个模型权重中，保留3个最重要的权重并以1位（{-1, +1}）存储，将剩余1个权重置零。这种方法将4个权重打包成仅5位，实现了1.25位的有效位宽，同时保持了2的幂次对齐，确保硬件高效处理。

Sherry算法的工作流程：

重要性评估：智能识别并保留对翻译质量至关重要的权重
量化编码：将重要权重压缩为1位表示
稀疏化处理：战略性置零次要权重，减少存储需求
硬件优化：定制STQ内核实现完美SIMD指令集对齐

🚀 性能表现：小体积大能量

Hy-MT1.5-1.8B-1.25bit在保持超小体积的同时，翻译质量令人印象深刻。在Flores-200中译外互译基准测试中，这款仅1.8B参数的模型全面超越了许多更大规模的开源模型（如Tower-Plus-72B、Qwen3-32B）和主流商业翻译API（如Microsoft Translator、Doubao Translator）。

在Snapdragon 888设备上的测试显示，1.25位模型比FP16版本快8倍，实现了真正的实时翻译体验。即使是内存有限的普通手机，也能流畅运行高质量的离线翻译。

📱 如何体验Hy-MT1.5-1.8B-1.25bit？

安卓用户：直接使用现成Demo

项目提供了即装即用的Android演示应用，支持后台取词模式，可在手机任何应用中使用：浏览邮件、网页或聊天消息时即时翻译，无需切换应用。完全无需网络，数据不上传，一次下载永久使用。

开发者：本地部署步骤

克隆llama.cpp仓库：

git clone https://github.com/ggml-org/llama.cpp.git

切换到PR分支：

cd llama.cpp git fetch origin pull/22836/head:pr-22836-stq_0 git checkout pr-22836-stq_0

构建llama.cpp：

pip install -r requirements.txt cmake -B build cmake --build build --config Release

下载模型：

pip install huggingface_hub huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit

转换并量化模型：

python convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit --outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf --outtype bf16 ./build/bin/llama-quantize model_zoo/Hy-MT1.5-1.8B-bf16.gguf model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf STQ1_0

运行翻译示例：

./build/bin/llama-completion --model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf -p "Translate the following segment into Chinese, without additional explanation. Hello " --jinja -ngl 0 -n 64 -st