零代码本地语音工作站:用 Pinokio 一键部署 Speaches
-
零代码本地语音工作站:用 Pinokio 一键部署 Speaches
Speaches 是一款强大的开源、全私有化语音 AI 服务器(其前身为著名的
faster-whisper-server)。它被开发者们称为“语音界的 Ollama”,不仅支持超高速度的语音转文字(STT),还完美集成了当前 TTS 榜单第一的 Kokoro 以及多语言的 Piper 语音合成引擎,且原生支持完全兼容 OpenAI 的 API 规范。由于环境配置复杂,普通用户自行部署颇具门槛。而通过 Pinokio 这款革命性的“本地 AI 浏览器”,你可以在不需要配置任何 Python 或 Docker 命令行的情况下,实现一键式本地部署。
🛠️ 准备工作
在开始部署前,请确保你的电脑满足以下基本条件:
- 操作系统:Windows 10/11、macOS 或 Linux。
- 硬件要求:建议至少 4核 CPU + 4GB 内存;若计划运行大型 Whisper 语音转文字模型,建议预留 8GB 以上内存。
- 网络环境:首次部署需要下载模型,请保持网络连接畅通。
🚀 第一步:安装 Pinokio 客户端
- 访问 Pinokio 官方网站 下载对应你系统的安装包。
- 下载完成后直接解压并运行安装程序。
- 首次打开 Pinokio 时,它会自动为你检测并下载配置本地所需的虚拟环境(如 Git、Node.js、Python 等依赖环境),你只需等待其全部勾选完成后点击进入主界面。
🔍 第二步:在 Pinokio 中搜索并下载 Speaches
- 打开 Pinokio 客户端,点击右上角醒目的 Discover(探索) 图标。
- 在顶部的搜索栏中输入
Speaches。 - 在搜索结果中找到对应的 Speaches 一键脚本卡片,点击进去后点击 Download(下载) 按钮。
- Pinokio 会弹窗提示需要下载的相关资源,直接点击 Install(安装)。
⚙️ 第三步:一键运行与模型动态加载
- 安装完成后,该应用会出现在你的 Pinokio 首页左侧导航栏。
- 点击 Speaches,并点击 Start(启动) 按钮。
- 此时 Pinokio 会自动在后台调取服务,当控制台提示
Uvicorn running on http://127.0.0.1:8000类似字样时,即代表本地服务器启动成功。 - 无需手动下载模型:Speaches 采用极其智能的“动态按需加载技术”。当你在控制台或 Gradio WebUI 界面中选择特定模型(如
Kokoro或faster-whisper)并发送请求时,服务器才会首次自动前往 Speaches AI Hugging Face 空间 下载对应的权重。模型在空闲一段时间后(默认 300 秒)还会自动从内存卸载,极大地节省了本地电脑的硬件资源。
🎨 第四步:使用内置 Gradio 网页界面
Speaches 默认启用了直观的网页交互界面。你可以直接点击 Pinokio 应用顶部的
Open Web UI链接,或者在浏览器输入本地地址访问。在 Gradio 界面中,你可以立即体验以下核心功能:
- Text-to-Speech (文本转语音):输入文本,选择当前最火爆的
kokoro模型,即可零延迟生成近乎真人的超自然音频。 - Speech-to-Text (语音转文本):上传一段录音或会议音频,使用基于
faster-whisper优化的引擎,以超越传统 Whisper 数倍的速度完成实时听写与翻译。
🔗 第五步:对接你的第三方 AI 软件(如 Chatbox / NextChat)
由于 Speaches 的 API 架构与 OpenAI 完全一致,你可以将它无缝嵌入到你日常使用的本地 AI 客户端或自动化工作流中:
- API 基础 URL:
http://127.0.0 - API 密钥 (Key):如果你在启动脚本中没有自定义设置密钥,通常可以填写任意字符(如
sk-speaches)以通过第三方客户端的必填验证。
只需在如 Chatbox、Dify、或者是沉浸式翻译等支持自定义音频端点的软件中,将语音合成(TTS)或语音识别(STT)的服务器地址修改为你的本地 Speaches 地址,即可彻底摆脱云端 API 按量付费的烦恼,保护数据隐私的同时实现无限量免费调用。Brave基地的Trilium AI,也支持Speaches。
歡迎留言回复交流。
Log in to reply.