【Github热门项目】DeepSeek-OCR项目上线即突破7k+星！突破10倍无损压缩，重新定义文本-视觉信息处理

📅 发布时间：2026/6/20 13:23:26

当“8000 行代码手搓 ChatGPT”的热度还未褪去，大模型领域又迎来新惊喜——DeepSeek 团队于 10 月 20 日开源的DeepSeek-OCR，以“上下文光学压缩”为核心突破，重新定义了 OCR（光学字符识别）的效率边界。这款仅 30 亿参数量的模型，不仅能以 100 个视觉 token 超越传统模型 256 个 token 的性能，更在单张 A100-40G 显卡上实现每日 20 万页文档处理能力，为长文本压缩与大模型效率优化提供了全新思路。

论文标题：DeepSeek-OCR:ContextsOpticalCompression

项目地址：https://github.com/deepseek-ai/DeepSeek-OCR

论文地址：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

HuggingFace：https://huggingface.co/deepseek-ai/DeepSeek-OCR

👉Lab4AI 阅读地址：文末点击阅读原文，直达官网

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq_bky&id=827fb25d4535401c8c031d6d58265723

DeepSeek-OCR 的核心创新在于利用视觉模态作为文本信息的高效压缩媒介。研究表明，一张包含文档文本的图像可以用比等效文本少得多的 Token 来表示丰富信息，这意味着通过视觉 Token 进行光学压缩可以实现极高的压缩率。

其核心表现可概括为两组关键数据：

压缩比与精度的平衡：当文本 token 数量是视觉 token 的 10 倍以内（即压缩比＜10×）时，OCR 解码精度高达 97%；即便压缩比提升至 20×，精度仍能维持在 60% 左右，远超行业同类模型的衰减速度。
极致的 token效率：在 OmniDocBench 基准测试中，它仅用 100 个视觉 token 就超越了需 256 个 token 的 GOT-OCR2.0；面对 MinerU2.0 平均每页 6000+token 的消耗，它用不到 800 个 token 就能实现更优性能——相当于将文本处理的“token 成本”降低了 7-20 倍。
这种突破的价值不仅在于 OCR 本身：对于受限于“长上下文处理能力”的大模型而言，DeepSeek-OCR 提供了一种新解法——将超长文本转化为视觉图像后压缩输入，可大幅减少 LLM 的 token 消耗，为处理百万字级文档、历史上下文记忆等场景打开了通道。

DeepEncoder：编码器 +MoE 解码器

为实现“高压缩比、低资源消耗”的目标，DeepSeek-OCR 采用了“DeepEncoder（编码器）+DeepSeek3B-MoE（解码器）”的端到端架构，两者各司其职又高度协同。

1. DeepEncoder

作为模型的“压缩核心”，DeepEncoder 需同时满足“高分辨率处理、低激活开销、少 token 输出”三大需求，其架构设计暗藏巧思：

双组件串联：由 8000 万参数的SAM-base（视觉感知）和 3 亿参数的CLIP-large（视觉知识）串联而成。SAM-base 用“窗口注意力”处理高分辨率图像细节，CLIP-large 用“全局注意力”提取语义关联，兼顾精度与全局理解。
16 倍 token 压缩：在双组件之间，通过2 层卷积模块对视觉 token 进行 16 倍下采样。例如，1024×1024 的图像先被划分为 4096 个 patchtoken，经压缩后仅保留 256 个有效 token，既控制了内存消耗，又不丢失关键信息。
多分辨率适配：
支持 Tiny（512×512）、Small（640×640）、Base（1024×1024）、Large（1280×1280）四种原生分辨率。还能通过“Gundam 模式”实现超高分辨率输入（如报纸图像）的瓦片化处理，单个模型即可覆盖从手机截图到大幅文档的全场景需求。

2. DeepSeek3B-MoE

解码器采用混合专家（MoE）架构，在“性能与效率”间找到了平衡点：

参数激活策略：虽然总参数量为 3B，但推理时仅激活 64 个“路由专家”中的 6 个，外加 2 个“共享专家”，实际参与计算的参数仅 5.7 亿——相当于用“500M 模型的资源消耗”，获得了 3B 模型的表达能力。
快速文本重建：从 DeepEncoder 输出的压缩视觉 token 中，解码器能精准重建原始文本，甚至支持 markdown 格式转换、图表结构化提取等复杂任务，无需额外的后处理模块。

性能表现

实验数据令人印象深刻：当文本 Token 数量在视觉 Token 的 10 倍以内（压缩率 <10×）时，模型的解码精度可达 97%；即使在压缩率达到 20× 的情况下，OCR 准确率仍保持在约 60%。

在实际应用层面，DeepSeek-OCR 展现出惊人效率：在 OmniDocBench 基准测试中，仅使用100 个视觉 Token 就超过了 GOT-OCR2.0（每页 256 个 Token）的表现；使用不到 800 个视觉 Token 就优于 MinerU2.0（平均每页超过 6000 个 Token）。

大模型实验室 Lab4AI

值得一提的是，大模型技术社区「大模型实验室 Lab4AI」已经第一时间上架了DeepSeek-OCR 论文及相关技术资料。该社区的技术团队正在积极复现论文中的创新方法，验证其在实际场景中的表现。

大模型实验室作为专注于 AI 前沿技术的内容社区，将持续跟踪 DeepSeek-OCR 的最新进展，并分享更多实践案例和技术分析。欢迎各位开发者关注社区动态，共同探索这一创新技术的更多应用可能。

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星！突破10倍无损压缩，重新定义文本-视觉信息处理

DeepEncoder：编码器 +MoE 解码器

性能表现

大模型实验室 Lab4AI