当前位置: 首页 > news >正文

中文分词演示 - yi

 

中文分词演示

 

主要功能
分词核心:定义了 segment函数,根据用户选择的模式调用不同的分词引擎:
精确模式:使用 jieba.lcut,力求最准确地将文本切分,适合文本分析。
全模式:使用 jieba.lcut(text, cut_all=True),扫描文本中所有可能成词的情况,速度快但可能存在冗余。
搜索引擎模式:使用 jieba.lcut_for_search,在精确模式基础上对长词再次切分,提高召回率,适用于搜索引擎场景。
THULAC模式:调用 thu1.cut(text, text=True),使用清华大学开发的 THULAC 工具进行分词和词性标注(结果会显示词性)。

 

分词器名称主要语言支持核心特点适用场景
Jieba 中文 支持精确、全、搜索引擎三种分词模式;可自定义词典;新词识别能力强 中文文本分析、搜索引擎索引
NLTK 英文 功能全面,提供分词、词性标注、命名实体识别等丰富工具 学术研究、教学、英文文本处理
spaCy 多语言(英文为主) 工业化强度高,处理速度快;提供词性标注、依存句法分析等一体化管道 大规模英文文本处理、生产环境
THULAC 中文 由清华大学开发,分词准确性高,同时支持词性标注 对中文分词准确率要求高的专业文本处理
HanLP 多语言(中文为主) 功能丰富,集成分词、词性标注、命名实体识别、依存句法分析等多种功能 需要综合NLP功能的复杂中文处理任务
FoolNLTK 中文 基于深度学习,分词准确率较高 对中文分词准确度有严苛要求的场景
PKUSEG 中文 由北京大学开发,支持多领域分词模型 特定领域(如新闻、医药)的中文分词
import gradio as gr
import jieba
import thulac# 初始化THULAC
thu1 = thulac.thulac()# 定义分词函数
def segment(text, mode):if mode == "精确模式":seg_list = jieba.lcut(text)return "/ ".join(seg_list)elif mode == "全模式":seg_list = jieba.lcut(text, cut_all=True)return "/ ".join(seg_list)elif mode == "搜索引擎模式":seg_list = jieba.lcut_for_search(text)return "/ ".join(seg_list)elif mode == "THULAC模式":# 使用THULAC进行分词thu_result = thu1.cut(text, text=True)return thu_resultelse:return "请选择有效的分词模式"# 创建Gradio界面
with gr.Blocks(title="中文分词演示") as demo:gr.Markdown("# 中文分词演示")gr.Markdown("使用jieba库进行中文分词,支持多种分词模式")with gr.Row():with gr.Column():input_text = gr.Textbox(label="输入文本", placeholder="请输入要分词的中文文本...")mode = gr.Radio(["精确模式", "全模式", "搜索引擎模式", "THULAC模式"], label="分词模式", value="精确模式")btn = gr.Button("开始分词")with gr.Column():output_text = gr.Textbox(label="分词结果", interactive=False)# 示例gr.Markdown("## 使用示例")gr.Examples(examples=[            ["今天天气真好", "精确模式"],["今天天气真好", "全模式"],["今天天气真好", "搜索引擎模式"],["今天天气真好", "THULAC模式"],["人工智能是人类发展的方向", "精确模式"],["人工智能是人类发展的方向", "全模式"],["人工智能是人类发展的方向", "搜索引擎模式"],["人工智能是人类发展的方向", "THULAC模式"],["自然语言处理技术很重要", "精确模式"],["自然语言处理技术很重要", "全模式"],["自然语言处理技术很重要", "搜索引擎模式"],["自然语言处理技术很重要", "THULAC模式"]],inputs=[input_text, mode],outputs=output_text,fn=segment,cache_examples=True)btn.click(fn=segment, inputs=[input_text, mode], outputs=output_text)if __name__ == "__main__":demo.launch()

 

http://www.rkmt.cn/news/132322.html

相关文章:

  • 【课程设计/毕业设计】基于SpringBoot框架的乡村政务信息管理系统基于springboot的村务管理系统的设计与实现【附源码、数据库、万字文档】
  • 【毕业设计】基于springboot的校园一卡通管理系统的设计与实现(源码+文档+远程调试,全bao定制等)
  • 用 .NET MAUI 10 + VS Copilot 从 0 开发一个签到 App(五)注册 + 登录
  • 震惊!云服务器代理商性价比排行,这3家让你省下千万预算!
  • 【场景分析】基于 LHS 法的场景生成与基于KD的forward 场景削减附Matlab代码
  • 【场景分析】基于概率距离快速削减法的风光场景生成与削减方法附Matlab代码
  • 2025年最实用的3个免费降ai率工具和免费ai查重工具,不用焦虑ai率过高!
  • 企业AI落地真相:从“降本增效“到骨感现实的深度剖析
  • 企业AI编程实战:可治理、可审计的完整解决方案
  • 收藏必看!《百面大模型》:从零基础到大厂面试的全链路实战指南
  • Java计算机毕设之基于springboot的校园一卡通管理系统的设计与实现校园一卡通的发放、注销和状态更新、 充值信息管理(完整前后端代码+说明文档+LW,调试定制等)
  • 【优化调度】基于matlab非支配排序遗传算法求解车辆充电调度优化问题研究附Matlab代码
  • 计算机Java毕设实战-基于springboot的影院购票管理系统的设计与实现基于SpringBoot的电影购票系统的设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 基于PyQt和FFmpeg的开源视频剪辑器OpenShot
  • MySQL 千万级表变更字段,要想不锁表,可以这么做!
  • 2025年有哪些免费降ai率工具?亲测2个靠谱平台,这个真能把AI率降到20%以内!
  • 我发现ESM模块路径解析失败,后来才知道用import.meta.url构造绝对路径
  • 责任链实战的高级用法:多级校验、工作流,这样写代码才足够优雅!
  • 令牌桶VS漏桶:谁才是流量控制的“最优解”?
  • 【课程设计/毕业设计】基于springboot的校园零售管理系统的设计与实现:校园超市、便利店商品【附源码、数据库、万字文档】
  • Ajax技术:前后端交互全解析
  • CPU RAM(内存) 是什么?一篇文章搞定入门!
  • 二叉树的“家谱学”:为什么最近公共祖先是最优解?
  • 2025 最新品牌传播公司 TOP10 评测!策略赋能 + 创意驱动,十大品牌权威榜单发布,专业服务重构品牌价值生态 - 全局中转站
  • Java毕设项目:基于springboot的校园零售管理系统的设计与实现(源码+文档,讲解、调试运行,定制等)
  • vivado hls如何实现recursive fuction递归函数
  • 扩展域并查集(种类并查集)
  • 算法分析--基数排序
  • 2025-12-21
  • 港媒盛赞“香港媳妇”徐冬冬!婚照惊艳全网,港圈作品圈粉无数