如何在Linux中通过Buzz和Whisper模型进行语音转文字操作
这里以桌面版的Ubuntu为例,来介绍相关工具的安装和使用。
一、安装录音工具Sound Recorder
Sound Recorder 是一款简单易用的录音工具,适用于录制会议、讲座、采访等。下面是安装和使用它的步骤:
第一:打开终端。可以按下 Ctrl + Alt + T 打开终端。
第二:输入以下命令安装 Sound Recorder:
sudo apt install gnome-sound-recorder
安装完成后,你可以在应用程序菜单中找到 Sound Recorder 并打开它。打开软件后,点击 Record 按钮即可开始录音。点击 Stop 按钮即可停止录制。
如果要试听录音,直接点击播放按钮(右三角图标)。还可以点击下箭头按钮将录音保存到指定位置。点击垃圾桶图标可以删除录音文件。
二、下载安装Buzz
以下是使用 Snap 安装 Buzz 的详细步骤:
第一,安装依赖项。打开终端,按下 Ctrl + Alt + T。输入以下命令来安装必要的依赖项:
sudo apt-get install libportaudio2 libcanberra-gtk-module libcanberra-gtk3-module
第二:使用 Snap 安装 Buzz。
sudo snap install buzz
第三:连接 Buzz 所需的权限。
sudo snap connect buzz:audio-record
sudo snap connect buzz:password-manager-service
sudo snap connect buzz:pulseaudio
sudo snap connect buzz:removable-media
第四:安装完成后,你可以在应用程序菜单中找到并启动 Buzz。
Buzz 启动后,你可以选择录音任务、语言、质量和麦克风进行实时录制,也可以导入Sound Recorder录制好的音频文件进行转录。
三、Buzz支持的Whisper 模型
Buzz 支持多种语音转文字(STT)模型,主要依赖于 OpenAI 的 Whisper 模型。这些模型可以根据具体需求和设备性能进行选择和配置。
第一,Whisper Tiny:适用于资源有限的设备,速度快但精度较低。
第二,Whisper Base:比 Tiny 模型稍大,提供更高的精度。
第三,Whisper Small:在速度和精度之间取得平衡,适用于大多数应用场景。
第四,Whisper Medium:提供更高的精度,但需要更多的计算资源。
第五,Whisper Large:最高精度的模型,适用于需要极高准确率的场景,但对计算资源要求较高。
你可以在 Buzz 的设置中下载需要的模型,并选择合适的模型进行语音转文字任务。
四、推荐使用速度更快的faster-whisper模型
除了OpenAI开源的whisper模型之外,Buzz还支持 faster-whisper 模型。这是一个经过优化的版本,旨在提高语音识别的效率和准确性。其特点包括:
第一,高效推理:faster-whisper 使用 CTranslate2 进行优化,使得模型推理效率更高,适合在资源有限的设备上运行。
第二,多语言支持:支持多种语言的语音识别,能够处理 99 种语言的语音转文字任务。
第三,语音活动检测(VAD):内置 Silero VAD 模型,用于语音活动检测,可以从音频中分离语音和非语音部分,提高识别速度和准确性。
第四,多种模型大小:提供不同大小的模型(如 tiny, base, small, medium, large),用户可以根据需求选择合适的模型。
你可以在Buzz设置的下拉菜单中找到 faster-whisper 模型,并点击下载安装。而后即可设置使用faster-whisper 模型来进行语音转文字操作。
此外,还可以按需尝试Buzz支持的whisper.cpp模型,这是一个用C/C++ 编写的轻量级智能语音识别库,是基于OpenAI 的Whisper 模型的移植版本,旨在通过深度学习模型实现音频转文字功能。
回复