当前位置：首页 > news >正文

关于敏感信息检测技术的理论知识

news 2026/6/12 3:03:44

在之前的文章中，探索了不同的检测敏感信息的方法，并通过Demo进行了学习，对算法、模型等一些概念有一些初步认知，这片文章想更加完整的学习涉及的概念，以及知识框架。

信息识别

“敏感信息检测”本质上是一种信息识别技术，信息识别技术的技术演进路线：

规则 → 传统 ML → 深度学习（BERT/NER） → 语义（Embedding） → 推理式判断（LLM）

基于规则（pattern-based）

正则表达式
固定长度/固定格式
词典/黑名单

优点：精准、快、成本低
缺点：只能识别格式固定的信息；对语义类几乎无效

比如：身份证、手机号、邮箱、多数证件号都能靠规则锁死。

基于传统机器学习（Classical ML-based）

传统机器学习是：靠人工特征 + 统计模型判断，不理解深层语义。需要人先总结规律经验后、喂给模型，模型依靠统计和概率输出答案。

“如果连续两个字都在姓名词典里 → 很像人名”
“如果是 11 位数字 → 更像手机号”

基于深度学习（DL-based，BERT/NER）

让机器自己阅读大量文本，自主学会语言规律（语义、结构、上下文）。不像传统 ML，需要人工设计特征，深度学习会自己从海量数据中“自动学习特征”。

BiLSTM-CR模型F（经典 NER）

流程：字符序列 → embedding → BiLSTM → CRF → 标签序列

优点：效果强于传统 ML
缺点：

上下文理解有限
对长文本吃力

Transformer / BERT NER（工业标准）

这是今天用得最多的敏感信息识别模型。

流程：Input → Tokenizer → BERT Encoder → Token Classification Head → 输出 BIO 标签

BERT 能理解语义上下文，例如：
“手机号：一共 11 位数字，是联系人的号码”
→ BERT 可以理解“手机号”的含义不仅来自数字结构，还来自周围语义。

工程可用的模型：

bert-base-chinese
HFL-roberta-wwm-ext
macbert
neZha
DeBERTa-v3-base
HuggingFace 现成的 token-classification pipeline

框架：

PyTorch（主流）
TensorFlow
HuggingFace Transformers（最推荐）

基于语义（Embedding/LLM-based）

Embedding向量语义识别

核心思想：把文本转换成向量 → 在向量空间里相似就表示语义相似。

比如“联系方式”和“手机号”向量距离很近而“发票号”则距离远。

技术包括：

Sentence-BERT
SimCSE
LLM Embedding（OpenAI embedding）
RAG（检索增强理解）

常用向量模型：

OpenAI text-embedding-3-large
bge-large-zh（国产最强）
SimCSE
SBERT
GTE-large (Alibaba Qwen Embeddings)

LLM 大模型推理

利用大模型的“理解、推理、上下文能力”直接判断，不用训练拿来就能用。

常见模型：

Qwen2.5-72B
GPT-4o/4.1
Llama-3-70B
DeepSeek-R1（推理强）
Claude

4类技术能覆盖的敏感信息范围（工程视角）

敏感数据类型	规则	ML	深度学习 NER	Embedding	LLM
身份证号	✔️	✔️	✔️	✔️	✔️
手机号	✔️	✔️	✔️	✔️	✔️
银行卡号	✔️	✔️	✔️	✔️	✔️
姓名	❌	✔️	✔️	✔️	✔️
地址	❌	✔️	✔️	✔️	✔️
公司、组织名	❌	✔️	✔️	✔️	✔️
设备号/UID	❌	❌	✔️	✔️	✔️（很强）
行为轨迹	❌	❌	✔️	✔️	✔️（强）
上下文敏感识别	❌	❌	一般	强	非常强

知识地图

A. 信息的“特征方式”
├── 规则特征（pattern）
├── 统计特征（ML）
├── 语义特征（Embedding）
└── 生成式理解（LLM）

B. 模型与算法基础
├── Transformer（结构）
├── Embedding（向量空间）
├── NER/分类（下游任务）
└── 向量检索（ANN）

C. 工具/框架
├── PyTorch（深度学习实现框架）
├── Hugging Face（模型生态）
├── vector DB（Milvus/FAISS）
└── 各类 Embedding 模型/LLM

D. 解决方案与工程化
├── 混合检测（规则 + Embedding + NER）
├── 召回-排序-验证流水线
├── 模型评估
└── 部署与合规

http://www.rkmt.cn/news/79698.html

相关文章：

HiAgent vs Coze：企业级智能体平台大对比

JVM运营内存清空查看

102302122许志安作业4

2025年最新垃圾分类/处理/分拣设备实力厂家TOP5深度解析

纯前端也能用大模型？我的本地推理 + 云端推理混合方案经验

Q：RabbitMQ 安装教程（openEuler 22.03 LTS-SP3）

你的故事如何打动梦校？留学中介 TOP8 文书能力排行榜

大学生必备App全攻略：从学习到生活，这几款神器让你轻松拿捏校园时光

【RocketMQ】安装配置 - 谷粒

Logo设计机构权威选择指南：2025年十大战略型设计服务商深度解析

59

2025年PPH法兰球阀订制厂家权威推荐榜单：PPH阀门‌/PPH球阀‌/PPH法兰隔膜阀源头厂家精选

VMware NSX 身份防火墙 - 基于终端用户的安全策略

公众号排版不用愁！酷宣 AI 保姆级攻略，新手也能秒变专业小编

2025年市面上可靠的投影机出租公司哪家强，50000流明投影机/水幕投影机出租/激光投影机出租/投影机出租工厂排行榜

深入理解 C++ 类型转换：从 C 语言兼容到 C++ 增强特性 - 指南

2025年十大泳池除湿机品牌综合实力排行，目前诚信的泳池除湿机实力厂家选哪家TOP企业引领行业技术新高度

运行linux脚本

面向2025：构建三成像绘无人机集群软硬一体化核心能力厂商推荐

2025年CO2增压泵批发厂家权威推荐榜单：气体泵/气动增压阀/空气放大器源头厂家精选

AI 学习机真能提分吗？2025 年首选推荐科学选购指南

2025年改性环氧渗透底漆制造厂精选榜：环氧富锌底漆/环氧云铁中间漆/丙烯酸聚氨酯面漆源头厂家推荐

开发者必备：10分钟零代码搭BUG管理系统

淘宝商品评论接口深度解析：从签名加密突破到评论语义化分析

2025留学中介大揭秘：十把钥匙，开启你的名校之门！

2025交通设施行业高速护栏优质厂家推荐指南

公路波形护栏优质品牌推荐交通设施行业选品指南

让本地大模型对话时有联网搜索功能 - yi

7T 文件保存图像导出

学术规划精准！博士留学中介适配PhD申请节奏