当前位置: 首页 > news >正文

erm:去除语音语气词的本地工具,解决手动删除痛苦!

1. erm:去除语音语气词的本地 CLI 工具是什么?

语言学家用“语流不畅词”(disfluencies)描述英语口语中填充停顿的“um”“uh”“er”等词及其拉长形式。作者因朋友手动删除语气词痛苦,开发了 [erm](https://github.com/dougcalobrisi/erm) 来解决问题。常见操作界面为“uvx erm input.wav”,它会生成清理后的 `.wav` 文件和 JSON 格式剪辑列表。

2. 简单方法为何行不通?

有人认为先转录找出语气词再用 ffmpeg 裁剪很简单,但只能达约 60% 效果,处理后音频更糟。原因有三:Whisper 会省略很多语气词;任意切割音频会产生“咔哒”声;切割前后背景噪音不匹配。

3. 关于 Whisper 有何说明?

[Whisper](https://github.com/openai/whisper) 是 OpenAI 开源的语音转文字模型,可本地运行。erm 使用 [ `faster-whisper` ](https://github.com/SYSTRAN/faster-whisper),速度快、内存占用少,默认用 `medium.en` 模型,也可指定 `small.en` 或 `large-v3` 模型。

4. 如何进行检测?

首先运行 Whisper,要求其提供单词级时间戳并别清理转录文本。识别出的已知语气词会被标记裁剪,拉长形式会与词根匹配。Whisper 会遗漏语气词,所以还需三次音频检查:间隙填充词检查、隐藏在单词中的填充词检查、过长单词检查。四次检查结果会合并。

5. 怎样优化裁剪点?

精确裁剪时波形可能产生台阶,出现“咔哒”声。有两个改进方法:先滑动裁剪端点找安静位置,再跳到波形过零处。之后清理短片段,短于约 120 毫秒的片段会合并到更大裁剪区域。

6. 如何进行拼接?

ffmpeg 用“交叉淡入淡出”技术拼接,根据裁剪大小调整重叠时长,重叠时长有上下限,且不跨越真实单词起始位置。

7. 如何处理环境噪音?

裁剪处背景噪音不匹配,解决方法是在原始录音中找安静片段循环播放到输出音频下方,默认自动查找,也可手动指定。

8. 降噪器为何关键?

ffmpeg 内置降噪器,但降噪会影响探测器查找语气词。erm 有四种模式,`hybrid` 是默认且最佳模式,`pre` 模式最差。

9. 如何进行验证?

音频处理可能出问题,有 `validate` 子命令,会进行三项检查:输出文件能正常打开;输出文件长度比输入文件短裁剪总长度;清理后文件转录无语气词。

10. erm 不处理哪些内容?

erm 不处理“like”“you know”和“I mean” 等词,也不处理重复单词、错误起始或长时间思考停顿,遵循只去除声音层面内容的原则。

11. 如何试用 erm?

最快试用方法是用 [uv](https://github.com/astral-sh/uv),也可常规安装。还需在 `PATH` 环境变量中配置 `ffmpeg` 和 `ffprobe`。音频在本地处理,常录制语音笔记或播客且说话有“um”的人可试试。

http://www.rkmt.cn/news/1515709.html

相关文章:

  • VS2010一键编译的eXosip2 4.0.0 + osip2 4.0.0完整工程包(含Win32/MFC支持)
  • 2026河北油管厂家排行揭秘,这样选才不踩坑
  • 告别卡顿!在Uni-app里用海康H5Player播放WS视频流,保姆级接入教程(含RenderJS避坑)
  • 六盘水余生黄金回收实测 2026卖金价格指南 - 余生黄金回收
  • 2026年你必须知道的5种DeFi智能合约漏洞——从100个真实案例看资产安全
  • 如何让微信网页版重新可用:wechat-need-web技术方案深度解析
  • WinForm下可交互SVG图形控件:支持标注定位、元素锁定与操作回退
  • 从Arduino到ESP32:手把手教你调试I2C通信,搞定‘地址无响应’和波形毛刺
  • 2026年江阴装修公司口碑观察:从设计到落地,这些企业值得关注(含无锡/苏州/张家港) - 优质品牌商家
  • 中国多时期生态系统类型空间分布数据(1980–2020年)|7大生态系统分类
  • 从开箱到跑通Demo:EdgeBoard FZ5赛事卡上手实录(含系统烧录避坑与资源包整理)
  • PoP(Package on Package)封装技术探讨
  • 2026南通全媒体运营TOP榜单:短视频策划拍摄/账号运营/话题打造/达人联动/信息流投放/微信公众号及视频号内容运营与活动策划一站式优选 - 品牌发掘
  • 2026年C语言找工作难吗?普通人还能找到好工作吗?
  • 别再找旧脚本了!MMdetection 3.X 版本官方工具一键生成PR曲线图(附完整配置流程)
  • TMS320F28335四层小板:6×8cm带USB供电、JTAG下载、复位键和全引脚标注
  • 六盘水珍宝黄金回收测评 2026买金避坑指南 - 余生黄金回收
  • 避开回收套路荆州六大黄金门店测评 - 余生黄金回收
  • 寄行李大件什么物流最省钱?用“寄半折”比价立省一半 - 快递物流资讯
  • Logisim 2.7.1 手把手:从零搭建一个支持13种运算的32位MIPS ALU(附完整电路图)
  • STM32CubeMX配置I2C驱动AT24C64 EEPROM,手把手教你搞定用户设置数据存储(附完整工程代码)
  • 2026年新中式门楼设计施工服务商评测:五大品牌对比 - 优质品牌商家
  • 2026年国内篮球架选购全攻略:从材料工艺到工程案例的行业深度调研 - 优质品牌商家
  • Arduino UNO连接WS2812B全彩LED,比板载RGB灯强在哪?手把手配置指南
  • C盘快满了该怎么一步步清理?6个操作步骤从根源腾空间
  • 工业吸尘器怎么选?类型、功率、过滤与产区厂商全解析
  • Xilinx FPGA平台SRIO环回通信实测工程包(含源码、bit文件与操作指南)
  • 陇南光纤抢修技术全解析:专业标准与本地服务推荐 - 优质品牌商家
  • agno v2.6.13 最新版本发布:AgentOS、Workflows、MCPTools、JSON Schema 等多项更新全面解析
  • 从“抽卡”到“导演”:VibePaper如何终结AI视频创作的“开盲盒”时代