

Audiblez:轻松将电子书转换为有声读物的开源工具
-
Audiblez:轻松将电子书转换为有声读物的开源工具
在数字阅读日益普及的今天,我们常常希望能将文字内容以音频的形式“听”出来,无论是在通勤、运动还是做家务时。Audiblez 就是这样一款能够满足需求的工具,它可以将常见的
.epub
格式电子书转换为.m4b
格式的有声读物。最新发布的 v4 版本更是带来了图形用户界面(GUI)、CUDA 支持以及对多种语言的兼容,让有声书的制作变得前所未有的简单和高效。Audiblez 的核心魅力在于其采用了 Kokoro 的高质量语音合成技术。具体来说,它使用的是 Kokoro-82M 模型,这是一个参数量仅为 82M 的文本转语音(TTS)模型,但其输出的语音效果却非常自然动听。该模型基于 Apache 许可证发布,并且仅用了不到100小时的音频数据进行训练。
目前,Kokoro-82M 支持多种语言,包括:
- 🇺🇸 美式英语 (American English)
- 🇬🇧 英式英语 (British English)
- 🇪🇸 西班牙语 (Spanish)
- 🇫🇷 法语 (French)
- 🇮🇳 印地语 (Hindi)
- 🇮🇹 意大利语 (Italian)
- 🇯🇵 日语 (Japanese)
- 🇧🇷 巴西葡萄牙语 (Brazilian Portuguese)
- 🇨🇳 中文普通话 (Mandarin Chinese)
性能表现
Audiblez 的转换速度取决于你的硬件配置:
- 在配备了 T4 GPU 的 Google Colab 环境中(通过 CUDA 加速),转换一本约16万字符的电子书(例如奥威尔的《动物庄园》)大约需要 5分钟,处理速度约为每秒600个字符。
- 在 M2 MacBook Pro 的 CPU 上,同样的任务则需要大约 1小时,处理速度约为每秒60个字符。
如何安装
命令行工具 (CLI)
如果您电脑上已安装 Python 3,可以通过 pip 轻松安装 Audiblez。此外,你还需要安装
espeak-ng
和ffmpeg
。Ubuntu/Debian (🐧):
sudo apt install ffmpeg espeak-ng pip install audiblez
Mac (🍏):
brew install ffmpeg espeak-ng pip install audiblez
安装完成后,你可以直接通过以下命令转换
.epub
文件:audiblez book.epub -v af_sky
该命令会首先在同一目录下创建一系列章节的
.wav
文件(如book_chapter_1.wav
,book_chapter_2.wav
等),最后将它们合并生成一个book.m4b
文件。你可以使用 VLC 或任何有声书播放器来收听这个文件。请注意,只有在您的机器上安装了ffmpeg
,才能成功生成.m4b
文件。图形用户界面 (GUI)
Audiblez v4 引入了图形界面,使操作更加直观。运行 GUI 需要一些额外的依赖:
通用依赖:
pip install audiblez pillow wxpython
Ubuntu/Debian (🐧) 额外依赖:
sudo apt install ffmpeg espeak-ng sudo apt install libgtk-3-dev
(Windows/Mac 用户不需要
libgtk-3-dev
)
安装完毕后,通过以下命令启动 GUI:
audiblez-ui
MacOSX 上的 Audiblez GUI 界面示例如下: (此处原文有一张图片示意,但无法在此文本格式中展示)
Windows 用户特别说明
经过多次尝试,建议 Windows 用户在 Python 虚拟环境 (venv) 中安装 Audiblez:
- 打开 Windows 终端。
- 创建一个新文件夹:
mkdir audiblez
- 进入该文件夹:
cd audiblez
- 创建虚拟环境:
python -m venv venv
- 激活虚拟环境:
.\\venv\\Scripts\\Activate.ps1
- 安装依赖:
pip install audiblez pillow wxpython
现在您就可以运行
audiblez
(命令行) 或audiblez-ui
(图形界面)了。 若需 CUDA 支持,您需要根据 PyTorch 官方指南 (https://pytorch.org/get-started/locally/) 安装相应的 PyTorch 版本。功能特性
语速调节 (Speed) 默认情况下,音频以正常语速生成。您可以通过
-s
或--speed
参数将语速调整为0.5倍(慢速)到2.0倍(快速)之间。audiblez book.epub -v af_sky -s 1.5
语音选择 (Supported Voices) 使用
-v
或--voice
选项来指定旁白声音。可用的声音列表可以在相关文档中找到。声音名称的第一个字母代表语言代码,第二个字母代表说话人的性别(例如im_nicola
是意大利男声)。对于中文普通话,可用的声音包括:
zf_xiaobei
(女声)zf_xiaoni
(女声)zf_xiaoxiao
(女声)zf_xiaoyi
(女声)zm_yunjian
(男声)zm_yunxi
(男声)zm_yunxia
(男声)zm_yunyang
(男声)
您可以访问 Kokoro-82M voices samples 页面收听这些声音的样本。关于声音质量的更多细节,请查阅 Kokoro-82M voices 文档。
GPU 加速 (CUDA) 默认情况下,Audiblez 在 CPU 上运行。如果您希望使用 GPU(通过 Torch 的 Cuda),可以传递
--cuda
选项。audiblez book.epub -v zf_xiaobei --cuda
您可以查看这个在 Google Colab Notebook 上使用 Cuda 运行 Audiblez 的示例。 目前,Audiblez 尚不支持 Apple Silicon (M系列芯片) 的 GPU 加速,因为 Kokoro 还没有 MLX 的实现。一旦可用,将会添加支持。
手动选择章节 (Manually pick chapters) 有时您可能只想转换电子书中的特定章节。使用
--pick
参数,可以在不运行 GUI 的情况下,以交互方式选择要朗读的章节。audiblez book.epub --pick
输出文件夹 (Output Folder) 使用
-o
或--output
选项可以指定有声书和临时文件的输出文件夹。audiblez book.epub -o ./my_audiobooks
帮助页面
要查看所有可用的选项,可以运行
audiblez --help
:usage: audiblez [-h] [-v VOICE] [-p] [-s SPEED] [-c] [-o FOLDER] epub_file_path positional arguments: epub_file_path Path to the epub file options: -h, --help show this help message and exit -v VOICE, --voice VOICE Choose narrating voice: a, b, e, f, h, i, j, p, z -p, --pick Interactively select which chapters to read in the audiobook -s SPEED, --speed SPEED Set speed from 0.5 to 2.0 -c, --cuda Use GPU via Cuda in Torch if available -o FOLDER, --output FOLDER Output folder for the audiobook and temporary files example: audiblez book.epub -l en-us -v af_sky to use the GUI, run: audiblez-ui
作者与许可
Audiblez 由 Claudio Santini 于 2025 年开发,并基于 MIT 许可证分发。
歡迎留言回复交流。
Log in to reply.