Decentralization? We're still early!

Buzz: 基于 Whisper 的开源语音转文字工具

  • Buzz: 基于 Whisper 的开源语音转文字工具

    發布人 Brave 2023-12-28 05:55

    在数字时代,将思想通过语言转换为文字,变得尤为重要。无论是会议记录、学术讲座、播客制作,还是视频内容创作,高效准确的语音转文字能力已成为现代工作流程中不可或缺的一环。

    Buzz 是一款能够自动识别语音并将其转换为文本字幕的开源软件工具,基于 OpenAI 开放源代码的 Whisper 自动语音识别模型,可以快速且批量地将音频或视频内容转化为带时间戳的字幕,极大地提高了工作效率。与云端服务不同,Buzz 的所有处理都在本地完成,既保护了数据隐私,又无需支付 API 调用费用。


    🖥️ Buzz 的软件界面

    Buzz 的软件界面设计得简洁明了,即便只提供英文界面,但其简洁性确保了用户能迅速上手。界面上的功能按钮数量有限,大家可以轻松找到并使用所需的功能。

    主界面核心区域包括:

    区域功能说明
    📁 文件导入区通过「+」按钮或拖拽添加音视频文件
    🌐 语言选择器选择源语言或使用自动检测
    ⚙️ 模型设置选择转录引擎与模型大小
    📋 任务列表显示当前转录任务及进度
    🔍 转录查看器支持搜索、播放控制、速度调节等高级功能(1.4.x 版本新增)
    🎤 说话人识别可识别并标注不同说话人(1.4.2 版本新增)

    ⭐ Buzz 的功能特点

    Buzz 的几个显著特点包括:

    1. 🎯 高准确率

    利用 OpenAI 开源的 Whisper 模型,Buzz 提供了非常强大的语音识别功能。Whisper 模型经过 100 万小时弱标注音频和 400 万小时由 Whisper Large V2 标注的音频训练,能够有效处理多样化的声学环境和专业术语。

    2. ⚡ 转换速度快

    Buzz 的模型存储于本地,无需联网即可转换,极大地提高了处理速度,尤其适合批量转换任务。借助 Faster Whisper 或 Whisper.cpp 引擎,转录速度可达原始 Whisper 的 4 倍以上,同时内存占用更低。

    3. 🆓 开源免费及跨平台支持

    Buzz 是开源免费的软件,支持 Windows、macOS 和 Linux 系统。用户可以从 GitHubSourceForge 或 Linux 的 Flathub/Snap 商店获取。

    4. 🌍 多语言支持及翻译

    Buzz 不仅支持中文,还支持多种语言,并且能够将结果翻译成英文。通过集成 Meta AI 的 MMS(Massively Multilingual Speech)模型家族,Buzz 1.4.x 版本现已支持超过 1000 种世界语言的转录。

    5. 🔒 隐私保护

    所有音频处理均在本地设备完成,无需将敏感内容上传至云端。开发者声明该应用不收集任何用户数据,对于涉及机密信息的会议记录或商业内容尤为适用。

    6. 🖼️ 演示窗口功能

    1.4.x 版本新增独立的演示窗口,可将实时转录内容投射到投影仪或外接显示器上,特别适用于会议、演讲、课堂等需要实时字幕展示的场景。

    7. 🎭 说话人识别(Speaker Diarization)

    1.4.2 版本引入说话人识别功能,能够自动区分音频中不同说话人的发言,并添加标识符。用户可以:

    • 指定说话人数量以提高识别精度
    • 预览每位说话人的音频片段
    • 为识别出的说话人添加自定义标签(如"主持人"、"嘉宾A"等)

    🔧 不同的 Whisper 模型与转录引擎

    转录引擎对比

    Buzz 支持多种转录引擎,每种引擎都有其特定的优势和适用场景:

    引擎类型特点推荐场景
    WhisperOpenAI 原版实现,准确度高追求最高准确度
    Whisper.cppC++ 重写版本,启动快(<300ms),支持多种 GPU(包括 Vulkan),可在集成显卡上实现实时转录资源受限设备、需要快速启动
    Faster Whisper基于 CTranslate2,速度比原版快约 4 倍,内存占用更低,支持 INT8 量化批量处理、日常使用首选
    Hugging Face支持 MMS 模型(1000+ 语言)、PEFT 微调模型、8-bit 量化小语种转录、自定义模型
    OpenAI API使用 OpenAI 云端服务需要最新模型能力

    💡 推荐:对于大多数用户,Faster Whisper 是最佳选择,它在速度和准确度之间取得了良好平衡。如果您的设备显存有限或需要快速启动,Whisper.cpp 是更好的选择。

    Whisper 模型大小对比

    Whisper 提供多种规模的模型,用户可根据硬件条件和准确度需求进行选择:

    模型参数量显存需求相对速度适用场景
    tiny39M~1GB最快快速预览、低配设备
    base74M~1GB很快日常使用
    small244M~2GB平衡之选
    medium769M~5GB中等较高准确度
    large-v31550M~10GB较慢最高准确度,支持 99+ 语言
    large-v3-turbo809M~6GB快(5.4 倍于 large-v3)速度与准确度兼顾的新选择

    💡 关于 Whisper Large-v3-Turbo(2024 年 10 月发布):

    • 将解码层从 32 层精简至 4 层,实现 5.4 倍速度提升
    • 保持与 Large-v2 相当的准确度
    • 实时因子(RTFx)达到 216 倍
    • 注意:Turbo 版本不支持翻译任务,如需将非英语语音翻译为英语,请使用完整的多语言模型

    📥 如何上手体验

    下载与安装

    根据您的操作系统选择合适的安装方式:

    平台安装方式
    WindowsGitHub Releases 下载 .exe 安装包(内置 CUDA 12 支持,旧版 CUDA 将自动回退至 CPU)
    macOS从 GitHub 下载 .dmg,或从 Mac App Store 购买 Buzz Captions
    Linux通过 FlathubSnap Store 安装,或下载 AppImage(NVIDIA GPU 开箱即用)

    首次使用流程

    Buzz 的使用体验十分友好。用户首次打开 Buzz 时,软件会引导下载 AI 模型至本地。下载完成后,语音转录的所有过程都在用户的电脑上运行,确保了转换速度的快捷。

    📋 详细操作步骤:

    1. 启动软件 → 首次运行会提示下载所选模型(建议先下载 small 或 medium 模型体验)
    2. 导入文件 → 点击「+」按钮或直接拖拽音视频文件到窗口
      • 支持格式:MP3、WAV、M4A、MP4、MKV、AVI 等常见音视频格式
      • 1.4.x 版本新增「监视文件夹」功能,可自动转录新添加的文件
    3. 配置参数
      • 选择源语言(或保持「自动检测」)
      • 选择转录引擎(推荐 Faster Whisper)
      • 选择模型大小
      • 可选:勾选「分离人声」选项以提高带背景噪音/音乐的音频转录准确度
    4. 开始转录 → 软件自动开始处理,任务列表显示进度
    5. 查看结果 → 双击任务打开转录查看器
      • 支持搜索定位、播放控制、速度调节
      • 可循环播放特定片段
      • 支持键盘快捷键快速操作
    6. 说话人识别(可选)在转录查看器工具栏点击「Identify speakers」
      • 指定说话人数量可提升识别质量
      • 为每位说话人添加标签
    7. 导出文件 → 支持以下格式:
      • TXT:纯文本格式
      • SRT:标准字幕格式,包含时间戳
      • VTT:WebVTT 格式,适用于网页视频
      • CSV:表格格式,便于数据分析

    🎤 实时转录功能

    Buzz 不仅支持文件转录,还提供强大的实时麦克风转录能力:

    • 支持选择系统麦克风进行实时语音识别
    • 配合演示窗口功能,可将实时字幕投射到外接显示器
    • 支持实时翻译(需配合 OpenAI API 兼容的 AI 服务)
    • Whisper.cpp 引擎配合现代笔记本的集成 GPU 即可实现实时转录
    • 支持 Vulkan GPU 加速,约 5GB 显存的显卡即可使用 large 模型进行实时转录

    💻 命令行界面(CLI)

    对于需要批量处理或自动化工作流的用户,Buzz 提供完整的命令行支持:

    # 基础转录
    buzz transcribe audio.mp3 --model medium --output-format srt
    
    # 批量处理目录下所有音频
    buzz transcribe *.mp3 --model faster-whisper-large-v3
    
    # 指定语言和输出路径
    buzz transcribe lecture.wav --language zh --output ./subtitles/

    这使得 Buzz 可以轻松集成到自动化脚本和工作流程中。


    🆚 Buzz 与 Buzz Captions 的区别

    虽然 Buzz 本身没有官方网站,但大家可以在其 GitHub 项目主页 找到源码和软件包。

    需要注意,Buzz 在 macOS App Store 上推出了进阶版本 Buzz Captions,这是一款功能更完善但需要付费的软件。大家在下载时需要区分这两个版本。

    对比项Buzz(开源版)Buzz Captions(App Store 版)
    💰 价格免费付费(一次性购买)
    📦 获取方式GitHub/SourceForgeMac App Store
    🎨 界面功能完整更精致的 Mac 原生界面
    ✏️ 编辑功能基础编辑增强的转录编辑器
    🔄 更新手动更新App Store 自动更新
    📱 系统要求各版本不同macOS 13.1 或更高版本
    🔒 隐私开源可审计开发者声明不收集任何数据

    💡 建议:如果您是 macOS 用户且追求更好的原生体验和便捷更新,可考虑购买 Buzz Captions。对于 Windows/Linux 用户或希望获得最新功能的用户,GitHub 开源版本是更好的选择。


    🛠️ GPU 加速配置

    为获得最佳转录性能,建议配置 GPU 加速:

    Windows

    • 安装包已内置 CUDA 12 支持
    • 如显卡 CUDA 版本较旧,将自动回退至 CPU 模式
    • 建议更新至最新显卡驱动

    Linux

    • NVIDIA GPU:开箱即用
    • 其他 GPU:Whisper.cpp 支持 Vulkan,可兼容多种显卡品牌

    macOS

    • Apple Silicon (M1/M2/M3/M4):Whisper.cpp 可利用 Apple Neural Engine (ANE) 加速
    • Intel Mac:支持 CPU 模式

    📊 实际应用场景

    Buzz 的出现为需要大量语音转换的个人和企业提供了极大的便利:

    应用场景具体用途
    🏢 会议记录自动生成会议纪要,配合说话人识别区分发言者
    🎓 学术研究整理讲座笔记、访谈录音,导出 CSV 便于数据分析
    🎬 视频创作批量生成字幕文件,支持 SRT/VTT 格式
    🎙️ 播客制作制作节目文字稿,提高可访问性
    📰 新闻媒体快速转录采访录音
    ♿ 无障碍服务为听障人士提供实时字幕
    🌐 多语言内容利用 MMS 模型处理小语种内容
    📺 直播活动通过演示窗口提供实时字幕投射

    ⚠️ 使用注意事项

    在使用 Buzz 时,请注意以下几点:

    1. 资源消耗:语音转录是计算密集型任务,使用较大模型时可能无法实现实时处理,具体取决于硬件配置
    2. 模型选择
      • 首次使用建议从 small 或 medium 模型开始
      • Turbo 模型不支持翻译任务
      • 小语种建议使用 MMS 模型
    3. 准确度优化
      • 勾选「分离人声」可提高带背景音的音频识别准确度
      • 清晰的音源质量直接影响转录效果
      • Whisper.cpp 在某些语言(如乌尔都语)的表现可能不如 Faster Whisper
    4. 幻听问题所有 Whisper 变体都可能出现重复输出(hallucination)现象,Whisper.cpp 的重复率相对较高,建议在最终使用前进行人工校对

    🔗 资源链接

    资源链接
    📂 GitHub 仓库https://github.com/chidiwilliams/buzz
    📖 官方文档https://chidiwilliams.github.io/buzz/docs
    📥 SourceForge 下载https://sourceforge.net/projects/buzz-captions/
    🍎 Mac App StoreBuzz Captions
    🐧 Flathub (Linux)https://flathub.org/apps/io.github.chidiwilliams.Buzz
    🔧 Whisper 模型信息https://github.com/openai/whisper
    📊 Faster Whisperhttps://github.com/SYSTRAN/faster-whisper

    📝 小结

    Buzz 作为一款基于 OpenAI Whisper 的开源离线语音转录工具,凭借其高准确率、快速处理、完全免费、隐私保护等特点,已成为语音转文字领域的优秀选择。2024-2025 年的持续更新带来了说话人识别、1000+ 语言支持、Vulkan GPU 加速、演示窗口等重要新功能,使其功能日趋完善。

    无论是会议记录、整理讲座笔记,还是视频内容创作,Buzz 都是一个值得尝试的开源工具。建议初次使用者从 Faster Whisper + medium 模型开始体验,根据实际需求再调整配置。

    Brave 回复 11 months, 1 week ago 1 成員 · 0 回复
  • 0 回复

歡迎留言回复交流。

Log in to reply.

讨论開始
00 回复 2018 年 6 月
現在