Real-Time Translator:开源实时语音转写与翻译工具
-
Real-Time Translator:开源实时语音转写与翻译工具
在跨语言会议、观看外语视频或进行即时沟通时,我们常常面临语言障碍的挑战。市面上的翻译工具虽多,但真正做到低延迟、高精度且不干扰工作流的却寥寥无几。
今天为大家介绍一款开源的高性能实时语音转写与翻译应用——Real-Time Translator。它专为 macOS(特别是 Apple Silicon 芯片)进行了深度优化,同时兼顾 Windows 用户,是打破语言壁垒的绝佳助手。
核心亮点:为什么选择它?
这款工具不仅仅是一个简单的翻译器,它集成了多种顶尖技术,旨在提供流畅的用户体验:
- ⚡️ 极速实时转写:利用
faster-whisper、mlx-whisper或FunASR技术,实现音频流的即时转文字,速度极快。 - 🍎 Apple Silicon 深度优化:针对 M1/M2/M3 芯片用户,提供 MLX 后端支持,充分释放硬件潜能,运行更冷、更静、更快。
- 🌊 逐字流式显示:告别漫长的等待,文字会随着你的语音逐字显现,并具备智能上下文累积功能,阅读体验自然流畅。
- 🖥️ 无感悬浮窗设计:独特的 Overlay UI(覆盖层界面)设计,窗口置顶、背景透明且支持鼠标穿透。这意味着你可以在全屏开会或看视频时,让翻译字幕悬浮在屏幕最上方,完全不影响你对其他软件的操作。
- 🔄 异步后台翻译:转写与翻译并行处理,翻译任务在后台静默完成,绝不阻塞界面响应。
- 💾 会议记录神器:一键保存所有转写和翻译历史。这些记录不仅可以作为字幕文件,还能直接投喂给 LLM(大语言模型)进行会议纪要分析。
强大的引擎支持
Real-Time Translator 提供了极其灵活的后端选择,满足不同场景的需求:
- Whisper (Multilingual):OpenAI 的通用模型,适合多语言场景。
- MLX (Apple Silicon):专为 Mac 用户优化,利用神经网络引擎加速。
- FunASR (阿里达摩院):新增重磅功能! 工业级的中文/英文识别引擎。
- 支持离线与流式模式。
- 推荐使用
SenseVoiceSmall进行多语言识别,或使用Paraformer系列获取极致的中文识别效果。 - 支持最新的 31 种语言模型,甚至涵盖方言和口音识别。
现代化控制中心 (Dashboard)
新版本带来了全新的暗色主题控制中心,操作直观便捷:
- 一键启动:在首页点击“▶ Launch Translator”即可唤起悬浮翻译窗。
- 音频管理:自动检测并选择麦克风输入,支持调节静音阈值(Silence Threshold),在嘈杂环境中也能精准识别。
- 个性化设置:自由切换 Whisper 模型大小(从 tiny 到 large-v3),或配置 OpenAI API Key 及目标翻译语言。
- 热重载 (Hot Reloading):开发者福音,修改代码或配置后应用会自动重启,即时生效。
快速上手指南
1. 安装准备
无论你是 Mac 还是 Windows 用户,都能轻松部署:
- 环境要求:Python 3.10+,已安装 FFmpeg。
- Mac 特别提示:建议安装
BlackHole(虚拟音频驱动),以便直接内录系统声音(如会议软件的声音),实现精准的同声传译。
2. 安装步骤
- Windows 用户:双击
install_windows.bat自动配置环境。 - Mac 用户:在终端运行
install_mac.sh。 - 依赖安装:脚本会自动检查并安装缺失的库(如 PyQt6, openai 等)。
3. 使用流程
- 启动:运行对应的启动脚本(Mac/Linux:
./startmac.sh,Windows:startwindows.bat)。 - 配置:在弹出的 Dashboard 中设置好 API Key、目标语言(如 Chinese)和音频输入设备。
- 开始:点击 Launch,悬浮窗即刻出现。你可以拖动它到屏幕任意位置,或通过右下角手柄调整大小。
- 保存:会议结束后,点击悬浮窗上的“💾 Save”即可导出记录。
小结
Real-Time Translator 是一款集高性能、低资源占用、高自由度于一身的实时翻译工具。无论你是需要跨国沟通的职场人士,还是喜欢啃生肉视频的学习者,它都能成为你屏幕上那个最贴心的“同声传译员”。
注:本项目基于开源社区构建,FunASR 模型首次使用会自动从 ModelScope 下载。遇到问题可查看终端日志或调整 config.ini 配置文件。
- ⚡️ 极速实时转写:利用
歡迎留言回复交流。
Log in to reply.