Decentralization? We're still early!

如何在Linux中通过Buzz和Whisper模型进行语音转文字操作

这里以桌面版的Ubuntu为例,来介绍相关工具的安装和使用。

一、安装录音工具Sound Recorder

Sound Recorder 是一款简单易用的录音工具,适用于录制会议、讲座、采访等。下面是安装和使用它的步骤:

第一:打开终端。可以按下 Ctrl + Alt + T 打开终端。

第二:输入以下命令安装 Sound Recorder:

sudo apt install gnome-sound-recorder

安装完成后,你可以在应用程序菜单中找到 Sound Recorder 并打开它。打开软件后,点击 Record 按钮即可开始录音。点击 Stop 按钮即可停止录制。

如果要试听录音,直接点击播放按钮(右三角图标)。还可以点击下箭头按钮将录音保存到指定位置。点击垃圾桶图标可以删除录音文件。

二、下载安装Buzz

以下是使用 Snap 安装 Buzz 的详细步骤:

第一,安装依赖项。打开终端,按下 Ctrl + Alt + T。输入以下命令来安装必要的依赖项:

sudo apt-get install libportaudio2 libcanberra-gtk-module libcanberra-gtk3-module

第二:使用 Snap 安装 Buzz。

sudo snap install buzz

第三:连接 Buzz 所需的权限。

sudo snap connect buzz:audio-record
sudo snap connect buzz:password-manager-service
sudo snap connect buzz:pulseaudio
sudo snap connect buzz:removable-media

第四:安装完成后,你可以在应用程序菜单中找到并启动 Buzz。

Buzz 启动后,你可以选择录音任务、语言、质量和麦克风进行实时录制,也可以导入Sound Recorder录制好的音频文件进行转录。

三、Buzz支持的Whisper 模型

Buzz 支持多种语音转文字(STT)模型,主要依赖于 OpenAI 的 Whisper 模型。这些模型可以根据具体需求和设备性能进行选择和配置。

第一,Whisper Tiny:适用于资源有限的设备,速度快但精度较低。

第二,Whisper Base:比 Tiny 模型稍大,提供更高的精度。

第三,Whisper Small:在速度和精度之间取得平衡,适用于大多数应用场景。

第四,Whisper Medium:提供更高的精度,但需要更多的计算资源。

第五,Whisper Large:最高精度的模型,适用于需要极高准确率的场景,但对计算资源要求较高。

你可以在 Buzz 的设置中下载需要的模型,并选择合适的模型进行语音转文字任务。

四、推荐使用速度更快的faster-whisper模型

除了OpenAI开源的whisper模型之外,Buzz还支持 faster-whisper 模型。这是一个经过优化的版本,旨在提高语音识别的效率和准确性。其特点包括:

第一,高效推理:faster-whisper 使用 CTranslate2 进行优化,使得模型推理效率更高,适合在资源有限的设备上运行。

第二,多语言支持:支持多种语言的语音识别,能够处理 99 种语言的语音转文字任务。

第三,语音活动检测(VAD):内置 Silero VAD 模型,用于语音活动检测,可以从音频中分离语音和非语音部分,提高识别速度和准确性。

第四,多种模型大小:提供不同大小的模型(如 tiny, base, small, medium, large),用户可以根据需求选择合适的模型。

你可以在Buzz设置的下拉菜单中找到 faster-whisper 模型,并点击下载安装。而后即可设置使用faster-whisper 模型来进行语音转文字操作。

此外,还可以按需尝试Buzz支持的whisper.cpp模型,这是一个用C/C++ 编写的轻量级智能语音识别库,是基于OpenAI 的Whisper 模型的移植版本,旨在通过深度学习模型实现音频转文字功能。

回复