如何在Linux中通过Buzz和Whisper模型进行语音转文字操作

这里以桌面版的Ubuntu为例，来介绍相关工具的安装和使用。

一、安装录音工具Sound Recorder

Sound Recorder 是一款简单易用的录音工具，适用于录制会议、讲座、采访等。下面是安装和使用它的步骤：

第一：打开终端。可以按下 Ctrl + Alt + T 打开终端。

第二：输入以下命令安装 Sound Recorder：

sudo apt install gnome-sound-recorder

安装完成后，你可以在应用程序菜单中找到 Sound Recorder 并打开它。打开软件后，点击 Record 按钮即可开始录音。点击 Stop 按钮即可停止录制。

如果要试听录音，直接点击播放按钮（右三角图标）。还可以点击下箭头按钮将录音保存到指定位置。点击垃圾桶图标可以删除录音文件。

二、下载安装Buzz

以下是使用 Snap 安装 Buzz 的详细步骤：

第一，安装依赖项。打开终端，按下 Ctrl + Alt + T。输入以下命令来安装必要的依赖项：

sudo apt-get install libportaudio2 libcanberra-gtk-module libcanberra-gtk3-module

第二：使用 Snap 安装 Buzz。

sudo snap install buzz

第三：连接 Buzz 所需的权限。

sudo snap connect buzz:audio-record
sudo snap connect buzz:password-manager-service
sudo snap connect buzz:pulseaudio
sudo snap connect buzz:removable-media

第四：安装完成后，你可以在应用程序菜单中找到并启动 Buzz。

Buzz 启动后，你可以选择录音任务、语言、质量和麦克风进行实时录制，也可以导入Sound Recorder录制好的音频文件进行转录。

三、Buzz支持的Whisper 模型

Buzz 支持多种语音转文字（STT）模型，主要依赖于 OpenAI 的 Whisper 模型。这些模型可以根据具体需求和设备性能进行选择和配置。

第一，Whisper Tiny：适用于资源有限的设备，速度快但精度较低。

第二，Whisper Base：比 Tiny 模型稍大，提供更高的精度。

第三，Whisper Small：在速度和精度之间取得平衡，适用于大多数应用场景。

第四，Whisper Medium：提供更高的精度，但需要更多的计算资源。

第五，Whisper Large：最高精度的模型，适用于需要极高准确率的场景，但对计算资源要求较高。

你可以在 Buzz 的设置中下载需要的模型，并选择合适的模型进行语音转文字任务。

四、推荐使用速度更快的faster-whisper模型

除了OpenAI开源的whisper模型之外，Buzz还支持 faster-whisper 模型。这是一个经过优化的版本，旨在提高语音识别的效率和准确性。其特点包括：

第一，高效推理：faster-whisper 使用 CTranslate2 进行优化，使得模型推理效率更高，适合在资源有限的设备上运行。

第二，多语言支持：支持多种语言的语音识别，能够处理 99 种语言的语音转文字任务。

第三，语音活动检测（VAD）：内置 Silero VAD 模型，用于语音活动检测，可以从音频中分离语音和非语音部分，提高识别速度和准确性。

第四，多种模型大小：提供不同大小的模型（如 tiny, base, small, medium, large），用户可以根据需求选择合适的模型。

你可以在Buzz设置的下拉菜单中找到 faster-whisper 模型，并点击下载安装。而后即可设置使用faster-whisper 模型来进行语音转文字操作。

此外，还可以按需尝试Buzz支持的whisper.cpp模型，这是一个用C/C++ 编写的轻量级智能语音识别库，是基于OpenAI 的Whisper 模型的移植版本，旨在通过深度学习模型实现音频转文字功能。

如何在Linux中通过Buzz和Whisper模型进行语音转文字操作

一、安装录音工具Sound Recorder

二、下载安装Buzz

三、Buzz支持的Whisper 模型

四、推荐使用速度更快的faster-whisper模型

回复

认识基地

基础设施

加入基地

支持基地

共建基地

探索基地

Connect Wallet