当前位置: 首页 > news >正文

ASR和TTS处理

1. ASR(Automatic Speech Recognition)自动语音识别

通过语音模型将人类语音转化为文本

常见开源/知名模型/工具:

  • Whisper (OpenAI):目前最主流的开源选择,支持多语言,识别精度高。

  • FunASR (阿里巴巴达摩院):专注中文场景,对嘈杂环境鲁棒性强。

    • Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳

 

ASR的处理流程

# 音频处理流程
原始音频文件(mp3, m4a, wav等)↓
[FFmpeg 解码] → 转换为原始PCM数据↓
[Paraformer 处理] → 语音识别↓
文本结果
原始长音频↓
[VAD模型] → 检测语音活动,分割音频↓
音频片段列表(时间戳标记)↓
[ASR模型] → 每个片段转为文本↓
无标点文本片段↓
[标点模型] → 添加标点符号↓
最终带标点文本(含时间戳)

1)Paraformer ASR模型

功能

  • 核心语音识别:将音频信号转换为文本

  • 声学建模:处理音频特征,识别音素/字词

  • 语言建模:结合语言上下文,提高识别准确性

特点

  • 输入要求:需要预分割的短音频片段

  • 输出格式:纯文本,无标点,无时间戳

  • 适用场景:已分割好的短音频文件

2)VAD模型(vad_model)- 语音活动检测

功能

  • 端点检测:检测音频中有人声的部分

  • 静音去除:过滤背景噪声和静音段

  • 说话人分段:识别说话人切换点

特点

  • 输出:带时间戳的短音频片段

原始音频: [静音10s] [语音5s] [静音3s] [语音8s] [静音...]
VAD处理后:          [片段1]           [片段2]
时间戳:         [10.0-15.0]      [18.0-26.0]

3)标点模型(punc_model)- 标点恢复

功能

  • 标点插入:在识别文本中添加标点符号

  • 文本格式化:提高文本可读性

  • 语义分段:根据语义插入适当标点

特点

  • 输出:带标点符号的文本

支持的标点类型:

,  逗号
.  句号
?  问号
!  感叹号
:  冒号
;  分号
"  引号
、 顿号
《 》书名号
( )括号

 

from funasr import AutoModel
import numpy as np# 使用一体化模型
model = AutoModel(model=r"E:\03_model\fun-asr-model\speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",vad_model=r"E:\03_model\fun-asr-model\speech_fsmn_vad_zh-cn-16k-common-pytorch",punc_model=r"E:\03_model\fun-asr-model\punc_ct-transformer_zh-cn-common-vocab272727-pytorch",device="cpu")# 1. 测试短音频
short_result = model.generate(input="vad_example.wav",  # 10秒音频batch_size_s=0,  # 不分片
)
print("短音频结果:", short_result[0]["text"])# 2. 测试长音频
long_result = model.generate(input="vad_example.wav",  # 5分钟音频batch_size_s=100,  # 启用分片处理
)
print("长音频结果:", long_result[0]["text"])
print("时间戳:", long_result[0]["timestamp"])

 

2. TTS(Text-To-Speech) 文本转语音

通过模型将文本自动转换为可听的语音(合成语音),语音中包含各种风格。

常见开源/知名模型/工具:

  • fun-CosyVoice:目前最主流的开源选择,支持多语言,识别精度高。

 

http://www.rkmt.cn/news/124894.html

相关文章:

  • 考陪诊师在哪报名?认准北京守嘉陪诊 高通过率+免费实习 - 品牌排行榜单
  • 高精度气体在线测量推荐指南适配多行业场景需求 - 优质品牌商家
  • 深度神经网络层归一化技术详解
  • 2025年12月食品报废,报废,食品报废公司推荐:行业测评与选择指南 - 品牌鉴赏师
  • 2025年12月液体浓度计,氨水浓度计,音叉浓度计厂家推荐:行业测评与选择指南 - 品牌鉴赏师
  • 武汉整装定制家居展,你不能错过的家装展它来了! - 博客万
  • 2025家用与工业升降机核心性能评测报告:科技电梯、自行式升降平台、SGY剪叉式升降机、传菜机电梯、别墅家用电梯、剪叉自行式升降机 - 优质品牌商家
  • 数据采集与融合技术大作业
  • 2025升降机械优质品牌推荐榜技术服务双优指引 - 优质品牌商家
  • 2025升降机械优质品牌推荐榜技术服务双优指引 - 优质品牌商家
  • 2025年上海紧固件展服务商权威推荐榜单:紧固件展地点/2026上海紧固件展/紧固件展时间一体化服务商精选 - 品牌推荐官
  • 2025义乌智能营销服务商推荐榜:聚焦AI搜索与短视频增长新动力 - 呼呼拉呼
  • Git 本地操作进阶:版本回退、撤销修改与档案删除全攻略
  • 2025洁净棚行业领军企业排行榜,速看!洁净工作台/洁净棚/洁净车间工程/FFU/货淋室/净化工作台/快速卷帘门洁净棚生产厂家口碑推荐榜 - 品牌推荐师
  • 2025年12月石墨烯电地暖/石墨烯地暖/石墨烯地暖安装服务商Top 5排行榜及深度分析报告 - 2025年品牌推荐榜
  • 2025年12月液压马达,液压支柱,液压油缸厂家推荐:行业测评与选择指南 - 品牌鉴赏师
  • 2025年电子试验机厂家权威推荐榜单:导热系数仪厂家/导热系数仪/电子试验机源头厂家精选 - 品牌推荐官
  • AI训练数据集供应商怎么选?合规图片视频数据集供应商推荐 - 品牌2026
  • 赛默飞Micro17/Pico17/ST1R系列离心机经销商如何选?靠谱经销商就选仟诺生物 - 品牌推荐大师
  • 2025 十大可下载图片素材网站推荐!找图库的私藏清单 - 品牌2026
  • 2025十大宝藏图库公开!找图片素材、图库网站推荐全攻略 - 品牌2026
  • 2025年GEO优化公司推荐 - 品牌推荐排行榜
  • linux obsdian 在目录中有文件,但是在obsidian中却不见了,不显示。
  • 2025年GEO优化公司推荐榜单:技术赋能精准获客的优质之选 - 品牌推荐排行榜
  • 详细介绍:开源AI大模型、AI智能名片与S2B2C商城小程序在互联网与传统行业融合中的应用与影响
  • 驼奶粉口碑好的前8名,2025年公认好的驼奶排名揭晓 - 博客万
  • 2025年GEO优化公司推荐榜单解析——全域智能时代的企业精准适配指南 - 品牌推荐排行榜
  • 精准破局VOC治理/沸石转轮/rto蓄热燃烧炉/to直燃炉/co催化燃烧炉难题:2025年优质厂家深度推荐指南 - 品牌评测官
  • 2025年公路钢丝绳护栏生产厂家权威推荐榜单:不锈钢防撞护栏/道路防撞护栏/钢丝绳护栏源头厂家精选 - 品牌推荐官
  • 完整教程:FPGA Debug:PCIE XDMA没有Link up(驱动检测不到xilinx PCIE设备)使用LTSSM定位问题