Buzz: 基于 Whisper 的开源语音转文字工具

人工智能研究

Buzz: 基于 Whisper 的开源语音转文字工具

發布人 Brave 2023-12-28 05:55

在数字时代，将思想通过语言转换为文字，变得尤为重要。无论是会议记录、学术讲座、播客制作，还是视频内容创作，高效准确的语音转文字能力已成为现代工作流程中不可或缺的一环。

Buzz 是一款能够自动识别语音并将其转换为文本字幕的开源软件工具，基于 OpenAI 开放源代码的 Whisper 自动语音识别模型，可以快速且批量地将音频或视频内容转化为带时间戳的字幕，极大地提高了工作效率。与云端服务不同，Buzz 的所有处理都在本地完成，既保护了数据隐私，又无需支付 API 调用费用。

🖥️ Buzz 的软件界面

Buzz 的软件界面设计得简洁明了，即便只提供英文界面，但其简洁性确保了用户能迅速上手。界面上的功能按钮数量有限，大家可以轻松找到并使用所需的功能。

主界面核心区域包括：

区域	功能说明
📁 文件导入区	通过「+」按钮或拖拽添加音视频文件
🌐 语言选择器	选择源语言或使用自动检测
⚙️ 模型设置	选择转录引擎与模型大小
📋 任务列表	显示当前转录任务及进度
🔍 转录查看器	支持搜索、播放控制、速度调节等高级功能（1.4.x 版本新增）
🎤 说话人识别	可识别并标注不同说话人（1.4.2 版本新增）

⭐ Buzz 的功能特点

Buzz 的几个显著特点包括：

1. 🎯 高准确率

利用 OpenAI 开源的 Whisper 模型，Buzz 提供了非常强大的语音识别功能。Whisper 模型经过 100 万小时弱标注音频和 400 万小时由 Whisper Large V2 标注的音频训练，能够有效处理多样化的声学环境和专业术语。

2. ⚡ 转换速度快

Buzz 的模型存储于本地，无需联网即可转换，极大地提高了处理速度，尤其适合批量转换任务。借助 Faster Whisper 或 Whisper.cpp 引擎，转录速度可达原始 Whisper 的 4 倍以上，同时内存占用更低。

3. 🆓 开源免费及跨平台支持

Buzz 是开源免费的软件，支持 Windows、macOS 和 Linux 系统。用户可以从 GitHub、SourceForge 或 Linux 的 Flathub/Snap 商店获取。

4. 🌍 多语言支持及翻译

Buzz 不仅支持中文，还支持多种语言，并且能够将结果翻译成英文。通过集成 Meta AI 的 MMS（Massively Multilingual Speech）模型家族，Buzz 1.4.x 版本现已支持超过 1000 种世界语言的转录。

5. 🔒 隐私保护

所有音频处理均在本地设备完成，无需将敏感内容上传至云端。开发者声明该应用不收集任何用户数据，对于涉及机密信息的会议记录或商业内容尤为适用。

6. 🖼️ 演示窗口功能

1.4.x 版本新增独立的演示窗口，可将实时转录内容投射到投影仪或外接显示器上，特别适用于会议、演讲、课堂等需要实时字幕展示的场景。

7. 🎭 说话人识别（Speaker Diarization）

1.4.2 版本引入说话人识别功能，能够自动区分音频中不同说话人的发言，并添加标识符。用户可以：

指定说话人数量以提高识别精度
预览每位说话人的音频片段
为识别出的说话人添加自定义标签（如"主持人"、"嘉宾A"等）

🔧 不同的 Whisper 模型与转录引擎

转录引擎对比

Buzz 支持多种转录引擎，每种引擎都有其特定的优势和适用场景：

引擎类型	特点	推荐场景
Whisper	OpenAI 原版实现，准确度高	追求最高准确度
Whisper.cpp	C++ 重写版本，启动快（<300ms），支持多种 GPU（包括 Vulkan），可在集成显卡上实现实时转录	资源受限设备、需要快速启动
Faster Whisper ⭐	基于 CTranslate2，速度比原版快约 4 倍，内存占用更低，支持 INT8 量化	批量处理、日常使用首选
Hugging Face	支持 MMS 模型（1000+ 语言）、PEFT 微调模型、8-bit 量化	小语种转录、自定义模型
OpenAI API	使用 OpenAI 云端服务	需要最新模型能力

💡 推荐：对于大多数用户，Faster Whisper 是最佳选择，它在速度和准确度之间取得了良好平衡。如果您的设备显存有限或需要快速启动，Whisper.cpp 是更好的选择。

Whisper 模型大小对比

Whisper 提供多种规模的模型，用户可根据硬件条件和准确度需求进行选择：

模型	参数量	显存需求	相对速度	适用场景
tiny	39M	~1GB	最快	快速预览、低配设备
base	74M	~1GB	很快	日常使用
small	244M	~2GB	快	平衡之选
medium	769M	~5GB	中等	较高准确度
large-v3	1550M	~10GB	较慢	最高准确度，支持 99+ 语言
large-v3-turbo ⭐	809M	~6GB	快（5.4 倍于 large-v3）	速度与准确度兼顾的新选择

💡 关于 Whisper Large-v3-Turbo（2024 年 10 月发布）：

将解码层从 32 层精简至 4 层，实现 5.4 倍速度提升
保持与 Large-v2 相当的准确度
实时因子（RTFx）达到 216 倍
注意：Turbo 版本不支持翻译任务，如需将非英语语音翻译为英语，请使用完整的多语言模型

📥 如何上手体验

下载与安装

根据您的操作系统选择合适的安装方式：

平台	安装方式
Windows	从 GitHub Releases 下载 .exe 安装包（内置 CUDA 12 支持，旧版 CUDA 将自动回退至 CPU）
macOS	从 GitHub 下载 .dmg，或从 Mac App Store 购买 Buzz Captions
Linux	通过 Flathub、Snap Store 安装，或下载 AppImage（NVIDIA GPU 开箱即用）

首次使用流程

Buzz 的使用体验十分友好。用户首次打开 Buzz 时，软件会引导下载 AI 模型至本地。下载完成后，语音转录的所有过程都在用户的电脑上运行，确保了转换速度的快捷。

📋 详细操作步骤：

启动软件 → 首次运行会提示下载所选模型（建议先下载 small 或 medium 模型体验）
导入文件 → 点击「+」按钮或直接拖拽音视频文件到窗口
- 支持格式：MP3、WAV、M4A、MP4、MKV、AVI 等常见音视频格式
- 1.4.x 版本新增「监视文件夹」功能，可自动转录新添加的文件
配置参数
- 选择源语言（或保持「自动检测」）
- 选择转录引擎（推荐 Faster Whisper）
- 选择模型大小
- 可选：勾选「分离人声」选项以提高带背景噪音/音乐的音频转录准确度
开始转录 → 软件自动开始处理，任务列表显示进度
查看结果 → 双击任务打开转录查看器
- 支持搜索定位、播放控制、速度调节
- 可循环播放特定片段
- 支持键盘快捷键快速操作
说话人识别（可选） → 在转录查看器工具栏点击「Identify speakers」
- 指定说话人数量可提升识别质量
- 为每位说话人添加标签
导出文件 → 支持以下格式：
- TXT：纯文本格式
- SRT：标准字幕格式，包含时间戳
- VTT：WebVTT 格式，适用于网页视频
- CSV：表格格式，便于数据分析

🎤 实时转录功能

Buzz 不仅支持文件转录，还提供强大的实时麦克风转录能力：

支持选择系统麦克风进行实时语音识别
配合演示窗口功能，可将实时字幕投射到外接显示器
支持实时翻译（需配合 OpenAI API 兼容的 AI 服务）
Whisper.cpp 引擎配合现代笔记本的集成 GPU 即可实现实时转录
支持 Vulkan GPU 加速，约 5GB 显存的显卡即可使用 large 模型进行实时转录

💻 命令行界面（CLI）

对于需要批量处理或自动化工作流的用户，Buzz 提供完整的命令行支持：

# 基础转录
buzz transcribe audio.mp3 --model medium --output-format srt

# 批量处理目录下所有音频
buzz transcribe *.mp3 --model faster-whisper-large-v3

# 指定语言和输出路径
buzz transcribe lecture.wav --language zh --output ./subtitles/

这使得 Buzz 可以轻松集成到自动化脚本和工作流程中。

🆚 Buzz 与 Buzz Captions 的区别

虽然 Buzz 本身没有官方网站，但大家可以在其 GitHub 项目主页找到源码和软件包。

需要注意，Buzz 在 macOS App Store 上推出了进阶版本 Buzz Captions，这是一款功能更完善但需要付费的软件。大家在下载时需要区分这两个版本。

对比项	Buzz（开源版）	Buzz Captions（App Store 版）
💰 价格	免费	付费（一次性购买）
📦 获取方式	GitHub/SourceForge	Mac App Store
🎨 界面	功能完整	更精致的 Mac 原生界面
✏️ 编辑功能	基础编辑	增强的转录编辑器
🔄 更新	手动更新	App Store 自动更新
📱 系统要求	各版本不同	macOS 13.1 或更高版本
🔒 隐私	开源可审计	开发者声明不收集任何数据

💡 建议：如果您是 macOS 用户且追求更好的原生体验和便捷更新，可考虑购买 Buzz Captions。对于 Windows/Linux 用户或希望获得最新功能的用户，GitHub 开源版本是更好的选择。

🛠️ GPU 加速配置

为获得最佳转录性能，建议配置 GPU 加速：

Windows

安装包已内置 CUDA 12 支持
如显卡 CUDA 版本较旧，将自动回退至 CPU 模式
建议更新至最新显卡驱动

Linux

NVIDIA GPU：开箱即用
其他 GPU：Whisper.cpp 支持 Vulkan，可兼容多种显卡品牌

macOS

Apple Silicon (M1/M2/M3/M4)：Whisper.cpp 可利用 Apple Neural Engine (ANE) 加速
Intel Mac：支持 CPU 模式

📊 实际应用场景

Buzz 的出现为需要大量语音转换的个人和企业提供了极大的便利：

应用场景	具体用途
🏢 会议记录	自动生成会议纪要，配合说话人识别区分发言者
🎓 学术研究	整理讲座笔记、访谈录音，导出 CSV 便于数据分析
🎬 视频创作	批量生成字幕文件，支持 SRT/VTT 格式
🎙️ 播客制作	制作节目文字稿，提高可访问性
📰 新闻媒体	快速转录采访录音
♿ 无障碍服务	为听障人士提供实时字幕
🌐 多语言内容	利用 MMS 模型处理小语种内容
📺 直播活动	通过演示窗口提供实时字幕投射

⚠️ 使用注意事项

在使用 Buzz 时，请注意以下几点：

资源消耗：语音转录是计算密集型任务，使用较大模型时可能无法实现实时处理，具体取决于硬件配置
模型选择：
- 首次使用建议从 small 或 medium 模型开始
- Turbo 模型不支持翻译任务
- 小语种建议使用 MMS 模型
准确度优化：
- 勾选「分离人声」可提高带背景音的音频识别准确度
- 清晰的音源质量直接影响转录效果
- Whisper.cpp 在某些语言（如乌尔都语）的表现可能不如 Faster Whisper
幻听问题：所有 Whisper 变体都可能出现重复输出（hallucination）现象，Whisper.cpp 的重复率相对较高，建议在最终使用前进行人工校对

🔗 资源链接

资源	链接
📂 GitHub 仓库	https://github.com/chidiwilliams/buzz
📖 官方文档	https://chidiwilliams.github.io/buzz/docs
📥 SourceForge 下载	https://sourceforge.net/projects/buzz-captions/
🍎 Mac App Store	Buzz Captions
🐧 Flathub (Linux)	https://flathub.org/apps/io.github.chidiwilliams.Buzz
🔧 Whisper 模型信息	https://github.com/openai/whisper
📊 Faster Whisper	https://github.com/SYSTRAN/faster-whisper

📝 小结

Buzz 作为一款基于 OpenAI Whisper 的开源离线语音转录工具，凭借其高准确率、快速处理、完全免费、隐私保护等特点，已成为语音转文字领域的优秀选择。2024-2025 年的持续更新带来了说话人识别、1000+ 语言支持、Vulkan GPU 加速、演示窗口等重要新功能，使其功能日趋完善。

无论是会议记录、整理讲座笔记，还是视频内容创作，Buzz 都是一个值得尝试的开源工具。建议初次使用者从 Faster Whisper + medium 模型开始体验，根据实际需求再调整配置。

Brave 回复 11 months, 1 week ago 1 成員 · 0 回复

0 回复

歡迎留言回复交流。

登入後即可回复

人工智能研究

組織者: