当前位置：首页 > news >正文

别再手动敲字了！用Python的EasyOCR库，5分钟搞定图片文字批量提取（附中文识别实战代码）

news 2026/5/29 15:43:07

5分钟极速上手Python OCR：用EasyOCR实现中文图片文字批量提取

每次看到堆积如山的发票、合同扫描件或是会议记录照片，你是否也想过"要是能自动把文字提取出来该多好"？作为一位常年与文档打交道的财务分析师，我曾花费无数个深夜手动录入数据，直到发现了Python的EasyOCR库——这个基于深度学习的OCR工具彻底改变了我的工作方式。今天，我将分享如何用不到20行代码，实现专业级的中文图片文字识别。

1. 为什么选择EasyOCR？

在众多OCR解决方案中，EasyOCR凭借三个核心优势脱颖而出：

零配置中文支持：开箱即用支持简体中文(ch_sim)和繁体中文(ch_tra)，无需额外训练
多语言混合识别：可同时加载中英文模型，自动处理混合文本
深度学习加持：采用CRAFT检测+CRNN识别的组合，对非常规字体、低分辨率图片有更好容错性

与PaddleOCR等工业级方案相比，EasyOCR的API设计极其简洁。下面这个对比表展示了主要Python OCR库的特点：

特性	EasyOCR	PaddleOCR	Tesseract
中文支持	✅	✅	⚠️需训练
预训练模型	80+语言	多语言	100+语言
安装便捷性	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐
GPU加速	支持	支持	不支持
命令行工具	内置	需配置	内置
倾斜文字矫正	自动	需参数调整	有限支持

提示：对非技术背景用户，EasyOCR的readtext()方法默认参数已优化过常见场景，首次使用建议保持默认

2. 环境配置与安装指南

2.1 基础环境准备

确保系统已安装Python 3.6+，然后通过pip一键安装：

pip install easyocr opencv-python

首次导入时会自动下载预训练模型（约600MB）。国内用户建议通过镜像源加速：

import os os.environ['EASYOCR_MODULE_PATH'] = '/path/to/your/model' # 指定模型存放目录

2.2 模型文件手动部署

遇到下载问题时，可手动下载模型文件：

从官方Model Hub 获取zh_sim_gpu.zip
解压至~/.EasyOCR/model/目录（Windows为C:\Users\用户名\.EasyOCR\model\）

文件结构应如下：

.EasyOCR/ └── model/ ├── craft_mlt_25k.pth └── zh_sim_gpu.pth

3. 核心API实战解析

3.1 初始化Reader对象

import easyocr reader = easyocr.Reader( lang_list=['ch_sim', 'en'], # 中英文混合识别 gpu=True, # 启用GPU加速 model_storage_directory='path/to/models', download_enabled=False # 禁用自动下载 )

关键参数说明：

gpu=False：强制使用CPU模式（适合无NVIDIA显卡环境）
recog_network='custom'：加载自定义训练模型
detector=False：仅使用识别模型（已有文字坐标时）

3.2 单张图片识别

result = reader.readtext('invoice.jpg', detail=1, # 返回坐标和置信度 paragraph=True, # 自动合并段落 contrast_ths=0.3, # 低对比度文本处理阈值 adjust_contrast=0.7 # 对比度增强强度 )

典型返回结果示例：

[ ([[12,24],[356,24],[356,68],[12,68]], "增值税专用发票", 0.98), ([[120,150],[280,150],[280,180],[120,180]], "金额：¥5,280.00", 0.91) ]

3.3 批量处理文件夹

from pathlib import Path def batch_ocr(input_dir, output_file): with open(output_file, 'w', encoding='utf-8') as f: for img_path in Path(input_dir).glob('*.jpg'): results = reader.readtext(str(img_path)) text = '\n'.join([res[1] for res in results]) f.write(f"=== {img_path.name} ===\n{text}\n\n") batch_ocr('scanned_docs', 'output.txt')

4. 高级调优技巧

4.1 处理模糊/倾斜文本

通过rotation_info参数应对非常规角度：

# 尝试0°、90°、180°、270°四个方向 rotated_results = reader.readtext('rotated.jpg', rotation_info=[90, 180, 270], text_threshold=0.6, # 调低文本置信度阈值 width_ths=0.8 # 放宽框合并条件 )

4.2 特定场景优化

发票识别强化数字提取：

invoice_text = reader.readtext('receipt.jpg', allowlist='0123456789¥.,', # 只识别数字和货币符号 min_size=20, # 过滤小文字 link_threshold=0.8 # 提高字符连接阈值 )

证件识别提升关键字段准确率：

id_card = reader.readtext('id_card.jpg', batch_size=4, # 增大批处理尺寸 contrast_ths=0.5, adjust_contrast=0.9 )

4.3 性能优化方案

场景	优化策略	预期提速
大批量小图	增大`batch_size`(4-8)	3-5x
高分辨率扫描件	设置`canvas_size=1280`	2x
低配设备	使用`gpu=False`+`worker=2`	内存降低50%

# 极速模式配置示例 fast_reader = easyocr.Reader( lang_list=['ch_sim'], gpu=False, detector=False, recognizer=True )

5. 真实案例：会议纪要自动化

最近我用EasyOCR改造了公司的会议记录流程：

手机拍摄白板照片 → 自动识别文字
结合NLP提取关键决议项
生成标准会议纪要邮件

核心代码片段：

def parse_meeting_notes(image_path): raw_text = reader.readtext(image_path, paragraph=True, detail=0 ) # 使用正则提取Action Items import re actions = re.findall(r'\[ACTION\].*?(\d{4}-\d{2}-\d{2})', '\n'.join(raw_text)) return { 'raw_text': raw_text, 'deadlines': list(set(actions)) }

典型问题处理经验：