Buzz: 基于 Whisper 的开源语音转文字工具
-
Buzz: 基于 Whisper 的开源语音转文字工具
目录在数字时代,将思想通过语言转换为文字,变得尤为重要。无论是会议记录、学术讲座、播客制作,还是视频内容创作,高效准确的语音转文字能力已成为现代工作流程中不可或缺的一环。
Buzz 是一款能够自动识别语音并将其转换为文本字幕的开源软件工具,基于 OpenAI 开放源代码的 Whisper 自动语音识别模型,可以快速且批量地将音频或视频内容转化为带时间戳的字幕,极大地提高了工作效率。与云端服务不同,Buzz 的所有处理都在本地完成,既保护了数据隐私,又无需支付 API 调用费用。
🖥️ Buzz 的软件界面
Buzz 的软件界面设计得简洁明了,即便只提供英文界面,但其简洁性确保了用户能迅速上手。界面上的功能按钮数量有限,大家可以轻松找到并使用所需的功能。
主界面核心区域包括:
区域 功能说明 📁 文件导入区 通过「+」按钮或拖拽添加音视频文件 🌐 语言选择器 选择源语言或使用自动检测 ⚙️ 模型设置 选择转录引擎与模型大小 📋 任务列表 显示当前转录任务及进度 🔍 转录查看器 支持搜索、播放控制、速度调节等高级功能(1.4.x 版本新增) 🎤 说话人识别 可识别并标注不同说话人(1.4.2 版本新增) ⭐ Buzz 的功能特点
Buzz 的几个显著特点包括:
1. 🎯 高准确率
利用 OpenAI 开源的 Whisper 模型,Buzz 提供了非常强大的语音识别功能。Whisper 模型经过 100 万小时弱标注音频和 400 万小时由 Whisper Large V2 标注的音频训练,能够有效处理多样化的声学环境和专业术语。
2. ⚡ 转换速度快
Buzz 的模型存储于本地,无需联网即可转换,极大地提高了处理速度,尤其适合批量转换任务。借助 Faster Whisper 或 Whisper.cpp 引擎,转录速度可达原始 Whisper 的 4 倍以上,同时内存占用更低。
3. 🆓 开源免费及跨平台支持
Buzz 是开源免费的软件,支持 Windows、macOS 和 Linux 系统。用户可以从 GitHub、SourceForge 或 Linux 的 Flathub/Snap 商店获取。
4. 🌍 多语言支持及翻译
Buzz 不仅支持中文,还支持多种语言,并且能够将结果翻译成英文。通过集成 Meta AI 的 MMS(Massively Multilingual Speech)模型家族,Buzz 1.4.x 版本现已支持超过 1000 种世界语言的转录。
5. 🔒 隐私保护
所有音频处理均在本地设备完成,无需将敏感内容上传至云端。开发者声明该应用不收集任何用户数据,对于涉及机密信息的会议记录或商业内容尤为适用。
6. 🖼️ 演示窗口功能
1.4.x 版本新增独立的演示窗口,可将实时转录内容投射到投影仪或外接显示器上,特别适用于会议、演讲、课堂等需要实时字幕展示的场景。
7. 🎭 说话人识别(Speaker Diarization)
1.4.2 版本引入说话人识别功能,能够自动区分音频中不同说话人的发言,并添加标识符。用户可以:
- 指定说话人数量以提高识别精度
- 预览每位说话人的音频片段
- 为识别出的说话人添加自定义标签(如"主持人"、"嘉宾A"等)
🔧 不同的 Whisper 模型与转录引擎
转录引擎对比
Buzz 支持多种转录引擎,每种引擎都有其特定的优势和适用场景:
引擎类型 特点 推荐场景 Whisper OpenAI 原版实现,准确度高 追求最高准确度 Whisper.cpp C++ 重写版本,启动快(<300ms),支持多种 GPU(包括 Vulkan),可在集成显卡上实现实时转录 资源受限设备、需要快速启动 Faster Whisper ⭐ 基于 CTranslate2,速度比原版快约 4 倍,内存占用更低,支持 INT8 量化 批量处理、日常使用首选 Hugging Face 支持 MMS 模型(1000+ 语言)、PEFT 微调模型、8-bit 量化 小语种转录、自定义模型 OpenAI API 使用 OpenAI 云端服务 需要最新模型能力 💡 推荐:对于大多数用户,Faster Whisper 是最佳选择,它在速度和准确度之间取得了良好平衡。如果您的设备显存有限或需要快速启动,Whisper.cpp 是更好的选择。
Whisper 模型大小对比
Whisper 提供多种规模的模型,用户可根据硬件条件和准确度需求进行选择:
模型 参数量 显存需求 相对速度 适用场景 tiny 39M ~1GB 最快 快速预览、低配设备 base 74M ~1GB 很快 日常使用 small 244M ~2GB 快 平衡之选 medium 769M ~5GB 中等 较高准确度 large-v3 1550M ~10GB 较慢 最高准确度,支持 99+ 语言 large-v3-turbo ⭐ 809M ~6GB 快(5.4 倍于 large-v3) 速度与准确度兼顾的新选择 💡 关于 Whisper Large-v3-Turbo(2024 年 10 月发布):
- 将解码层从 32 层精简至 4 层,实现 5.4 倍速度提升
- 保持与 Large-v2 相当的准确度
- 实时因子(RTFx)达到 216 倍
- 注意:Turbo 版本不支持翻译任务,如需将非英语语音翻译为英语,请使用完整的多语言模型
📥 如何上手体验
下载与安装
根据您的操作系统选择合适的安装方式:
平台 安装方式 Windows 从 GitHub Releases 下载 .exe 安装包(内置 CUDA 12 支持,旧版 CUDA 将自动回退至 CPU) macOS 从 GitHub 下载 .dmg,或从 Mac App Store 购买 Buzz Captions Linux 通过 Flathub、Snap Store 安装,或下载 AppImage(NVIDIA GPU 开箱即用) 首次使用流程
Buzz 的使用体验十分友好。用户首次打开 Buzz 时,软件会引导下载 AI 模型至本地。下载完成后,语音转录的所有过程都在用户的电脑上运行,确保了转换速度的快捷。
📋 详细操作步骤:
- 启动软件 → 首次运行会提示下载所选模型(建议先下载 small 或 medium 模型体验)
- 导入文件 → 点击「+」按钮或直接拖拽音视频文件到窗口
- 支持格式:MP3、WAV、M4A、MP4、MKV、AVI 等常见音视频格式
- 1.4.x 版本新增「监视文件夹」功能,可自动转录新添加的文件
- 配置参数
- 选择源语言(或保持「自动检测」)
- 选择转录引擎(推荐 Faster Whisper)
- 选择模型大小
- 可选:勾选「分离人声」选项以提高带背景噪音/音乐的音频转录准确度
- 开始转录 → 软件自动开始处理,任务列表显示进度
- 查看结果 → 双击任务打开转录查看器
- 支持搜索定位、播放控制、速度调节
- 可循环播放特定片段
- 支持键盘快捷键快速操作
- 说话人识别(可选) → 在转录查看器工具栏点击「Identify speakers」
- 指定说话人数量可提升识别质量
- 为每位说话人添加标签
- 导出文件 → 支持以下格式:
- TXT:纯文本格式
- SRT:标准字幕格式,包含时间戳
- VTT:WebVTT 格式,适用于网页视频
- CSV:表格格式,便于数据分析
🎤 实时转录功能
Buzz 不仅支持文件转录,还提供强大的实时麦克风转录能力:
- 支持选择系统麦克风进行实时语音识别
- 配合演示窗口功能,可将实时字幕投射到外接显示器
- 支持实时翻译(需配合 OpenAI API 兼容的 AI 服务)
- Whisper.cpp 引擎配合现代笔记本的集成 GPU 即可实现实时转录
- 支持 Vulkan GPU 加速,约 5GB 显存的显卡即可使用 large 模型进行实时转录
💻 命令行界面(CLI)
对于需要批量处理或自动化工作流的用户,Buzz 提供完整的命令行支持:
# 基础转录 buzz transcribe audio.mp3 --model medium --output-format srt # 批量处理目录下所有音频 buzz transcribe *.mp3 --model faster-whisper-large-v3 # 指定语言和输出路径 buzz transcribe lecture.wav --language zh --output ./subtitles/这使得 Buzz 可以轻松集成到自动化脚本和工作流程中。
🆚 Buzz 与 Buzz Captions 的区别
虽然 Buzz 本身没有官方网站,但大家可以在其 GitHub 项目主页 找到源码和软件包。
需要注意,Buzz 在 macOS App Store 上推出了进阶版本 Buzz Captions,这是一款功能更完善但需要付费的软件。大家在下载时需要区分这两个版本。
对比项 Buzz(开源版) Buzz Captions(App Store 版) 💰 价格 免费 付费(一次性购买) 📦 获取方式 GitHub/SourceForge Mac App Store 🎨 界面 功能完整 更精致的 Mac 原生界面 ✏️ 编辑功能 基础编辑 增强的转录编辑器 🔄 更新 手动更新 App Store 自动更新 📱 系统要求 各版本不同 macOS 13.1 或更高版本 🔒 隐私 开源可审计 开发者声明不收集任何数据 💡 建议:如果您是 macOS 用户且追求更好的原生体验和便捷更新,可考虑购买 Buzz Captions。对于 Windows/Linux 用户或希望获得最新功能的用户,GitHub 开源版本是更好的选择。
🛠️ GPU 加速配置
为获得最佳转录性能,建议配置 GPU 加速:
Windows
- 安装包已内置 CUDA 12 支持
- 如显卡 CUDA 版本较旧,将自动回退至 CPU 模式
- 建议更新至最新显卡驱动
Linux
- NVIDIA GPU:开箱即用
- 其他 GPU:Whisper.cpp 支持 Vulkan,可兼容多种显卡品牌
macOS
- Apple Silicon (M1/M2/M3/M4):Whisper.cpp 可利用 Apple Neural Engine (ANE) 加速
- Intel Mac:支持 CPU 模式
📊 实际应用场景
Buzz 的出现为需要大量语音转换的个人和企业提供了极大的便利:
应用场景 具体用途 🏢 会议记录 自动生成会议纪要,配合说话人识别区分发言者 🎓 学术研究 整理讲座笔记、访谈录音,导出 CSV 便于数据分析 🎬 视频创作 批量生成字幕文件,支持 SRT/VTT 格式 🎙️ 播客制作 制作节目文字稿,提高可访问性 📰 新闻媒体 快速转录采访录音 ♿ 无障碍服务 为听障人士提供实时字幕 🌐 多语言内容 利用 MMS 模型处理小语种内容 📺 直播活动 通过演示窗口提供实时字幕投射 ⚠️ 使用注意事项
在使用 Buzz 时,请注意以下几点:
- 资源消耗:语音转录是计算密集型任务,使用较大模型时可能无法实现实时处理,具体取决于硬件配置
- 模型选择:
- 首次使用建议从 small 或 medium 模型开始
- Turbo 模型不支持翻译任务
- 小语种建议使用 MMS 模型
- 准确度优化:
- 勾选「分离人声」可提高带背景音的音频识别准确度
- 清晰的音源质量直接影响转录效果
- Whisper.cpp 在某些语言(如乌尔都语)的表现可能不如 Faster Whisper
- 幻听问题:所有 Whisper 变体都可能出现重复输出(hallucination)现象,Whisper.cpp 的重复率相对较高,建议在最终使用前进行人工校对
🔗 资源链接
资源 链接 📂 GitHub 仓库 https://github.com/chidiwilliams/buzz 📖 官方文档 https://chidiwilliams.github.io/buzz/docs 📥 SourceForge 下载 https://sourceforge.net/projects/buzz-captions/ 🍎 Mac App Store Buzz Captions 🐧 Flathub (Linux) https://flathub.org/apps/io.github.chidiwilliams.Buzz 🔧 Whisper 模型信息 https://github.com/openai/whisper 📊 Faster Whisper https://github.com/SYSTRAN/faster-whisper 📝 小结
Buzz 作为一款基于 OpenAI Whisper 的开源离线语音转录工具,凭借其高准确率、快速处理、完全免费、隐私保护等特点,已成为语音转文字领域的优秀选择。2024-2025 年的持续更新带来了说话人识别、1000+ 语言支持、Vulkan GPU 加速、演示窗口等重要新功能,使其功能日趋完善。
无论是会议记录、整理讲座笔记,还是视频内容创作,Buzz 都是一个值得尝试的开源工具。建议初次使用者从 Faster Whisper + medium 模型开始体验,根据实际需求再调整配置。
歡迎留言回复交流。
Log in to reply.