当前位置: 首页 > news >正文

揭秘Sherry量化算法:Hy-MT1.5-1.8B-1.25bit如何实现1.25位极致压缩

揭秘Sherry量化算法:Hy-MT1.5-1.8B-1.25bit如何实现1.25位极致压缩

【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/hf_mirrors/AngelSlim/Hy-MT1.5-1.8B-1.25bit

Hy-MT1.5-1.8B-1.25bit是基于腾讯AngelSlim项目开发的革命性翻译模型,它通过创新的Sherry量化算法将1.8B参数模型压缩至仅440MB,同时保持接近原模型的翻译质量。这款支持33种语言的轻量级模型彻底改变了移动设备上的离线翻译体验,让普通手机也能流畅运行高性能AI翻译。

🌟 什么是1.25位量化?为何如此重要?

传统AI模型通常使用16位或32位浮点数存储参数,这使得模型体积庞大且运行缓慢。Hy-MT1.5-1.8B-1.25bit采用的1.25位量化技术是一种突破性的模型压缩方法,它将原始3.3GB的FP16模型压缩至仅440MB,体积减少87%,却几乎不损失翻译质量。

这种极致压缩带来三大核心优势:

  • 设备兼容性:普通手机也能轻松安装和运行
  • 速度提升:相比FP16模型快8倍,实现实时翻译
  • 隐私保护:完全离线运行,数据无需上传云端

🧠 Sherry量化算法:1.25位背后的创新原理

Sherry算法(已被ACL 2026接收)是实现这一突破的核心技术。它采用3:4细粒度稀疏策略:每4个模型权重中,保留3个最重要的权重并以1位({-1, +1})存储,将剩余1个权重置零。这种方法将4个权重打包成仅5位,实现了1.25位的有效位宽,同时保持了2的幂次对齐,确保硬件高效处理。

Sherry算法的工作流程:

  1. 重要性评估:智能识别并保留对翻译质量至关重要的权重
  2. 量化编码:将重要权重压缩为1位表示
  3. 稀疏化处理:战略性置零次要权重,减少存储需求
  4. 硬件优化:定制STQ内核实现完美SIMD指令集对齐

🚀 性能表现:小体积大能量

Hy-MT1.5-1.8B-1.25bit在保持超小体积的同时,翻译质量令人印象深刻。在Flores-200中译外互译基准测试中,这款仅1.8B参数的模型全面超越了许多更大规模的开源模型(如Tower-Plus-72B、Qwen3-32B)和主流商业翻译API(如Microsoft Translator、Doubao Translator)。

在Snapdragon 888设备上的测试显示,1.25位模型比FP16版本快8倍,实现了真正的实时翻译体验。即使是内存有限的普通手机,也能流畅运行高质量的离线翻译。

📱 如何体验Hy-MT1.5-1.8B-1.25bit?

安卓用户:直接使用现成Demo

项目提供了即装即用的Android演示应用,支持后台取词模式,可在手机任何应用中使用:浏览邮件、网页或聊天消息时即时翻译,无需切换应用。完全无需网络,数据不上传,一次下载永久使用。

开发者:本地部署步骤

  1. 克隆llama.cpp仓库:
git clone https://github.com/ggml-org/llama.cpp.git
  1. 切换到PR分支:
cd llama.cpp git fetch origin pull/22836/head:pr-22836-stq_0 git checkout pr-22836-stq_0
  1. 构建llama.cpp:
pip install -r requirements.txt cmake -B build cmake --build build --config Release
  1. 下载模型:
pip install huggingface_hub huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit
  1. 转换并量化模型:
python convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit --outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf --outtype bf16 ./build/bin/llama-quantize model_zoo/Hy-MT1.5-1.8B-bf16.gguf model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf STQ1_0
  1. 运行翻译示例:
./build/bin/llama-completion --model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf -p "Translate the following segment into Chinese, without additional explanation. Hello " --jinja -ngl 0 -n 64 -st

📚 技术文档与资源

  • Sherry论文(ACL 2026):详细阐述1.25位量化技术原理
  • HY-MT1.5技术报告:深入了解基础模型的训练与性能
  • AngelSlim文档:探索更多模型压缩工具与技术

📝 许可证信息

项目代码基于AngelSlim许可证开源,详细条款请参阅项目根目录下的License.txt文件。

通过创新的Sherry量化算法,Hy-MT1.5-1.8B-1.25bit为移动设备上的AI翻译树立了新标杆。这个仅440MB的模型证明,极致压缩与高性能可以并存,为AI在边缘设备上的应用开辟了新天地。无论是普通用户还是开发者,都能从中体验到新一代量化技术带来的变革性影响。

【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/hf_mirrors/AngelSlim/Hy-MT1.5-1.8B-1.25bit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.rkmt.cn/news/1428495.html

相关文章:

  • 从键盘到手势:基于Arduino与Processing的六自由度机械臂控制实战
  • GovernanceBERT-base社区贡献指南:如何参与模型改进
  • 2026年北京搬家公司全面评测:哪家靠谱、收费透明、口碑经得起验证? - 企业名录优选推荐
  • BG3模组管理器终极攻略:5个技巧让博德之门3模组管理变得超简单
  • 基于Azure IoT Hub与C SDK构建物联网设备到云数据管道实战指南
  • Agent+体检报告:从指标解读到复查提醒,哪些能力最有真实需求
  • 2026手机制作蓝底证件照方法:换背景软件推荐+保姆级教程 - AI测评专家
  • 终极VR视频转换指南:如何让3D内容在普通屏幕上完美播放
  • 2026海口江东新区注册地址怎么办?白皮书靠谱财税行业机构报告(官方收录版) - 资讯纵览
  • 新范式思维增强Qwen3-235B-A22B-Thinking-2507-FP8:3个月持续进化
  • 2026年北京搬家公司深度横评:朝阳海淀丰台全覆盖,哪家靠谱不踩坑? - 企业名录优选推荐
  • 2026上海浦东装修公司十大口碑排名:避坑指南与横向评测 - 商业新知
  • 终极解决方案:如何在Windows 10上彻底修复PL-2303串口驱动双向通信问题
  • 基于ESP32与MAX7219的智能时钟:物联网与嵌入式Web开发实践
  • 盒马鲜生礼品卡用不完?线上回收详细步骤,一看就会 - 可可收公众号
  • 2026年5月大连手表回收门店推荐:上门鉴定,收的顶实体老店口碑领跑 - 奢侈品回收测评
  • 10个实用技巧:使用CBDDO-LLM-8B-Instruct-v1进行高效土耳其语文本生成 [特殊字符]
  • 2026 年深圳汽车隔音降噪第一名:深圳怡声汽车音响,用技术与匠心定义行业新标杆 - 汽车音响改装
  • 为什么现在还要在Linux上装telnet?一个真实的内网设备维护场景与安全配置指南
  • Arduino六层电梯模型:从机械传动到状态机编程的嵌入式控制实践
  • 汕头本地人认证地道潮汕匠人味道 - 奔跑123
  • Huihui-Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated未来发展方向与路线图分析
  • 3步快速破解QQ音乐QMCFLAC加密格式:终极免费转换工具
  • 阿贝云免费服务器,新手福音!
  • 利用电子烟模块改造AA/AAA设备为USB充电:锂电替换与电压匹配实战
  • 三步实现115云盘视频在Kodi上直接播放:终极免费解决方案
  • 2026 莫干山全屋定制杭州哪家店好?本地优质门店盘点,选定制看这几家就够 - 商业新知
  • Windows 11系统优化终极指南:Win11Debloat帮你彻底清理臃肿系统
  • 汕头本土时令潮味天花板本地人私藏!400+养生私宴全城独 - 奔跑123
  • 【Lindy自主工作流黄金标准】:Gartner未公开的5项评估指标与企业级落地 checklist