AI 语音转文本工具对决:Google AI Edge Eloquent vs Trilium Catalyst
-
AI 语音转文本工具对决:Google AI Edge Eloquent vs Trilium Catalyst
随着 AI 技术的飞速发展,语音转文本(ASR)工具已经从简单的“逐字记录”进化为具备“理解与润色”能力的智能助手。今天,我们将对比两款极具代表性的 AI 语音/内容处理工具:谷歌悄然推出的移动端听写神器 Google AI Edge Eloquent,以及 BraveDAO 开发的专注于构建知识库的强大内容摄取引擎 Trilium Catalyst。
一、 软件简介
Google AI Edge Eloquent 这是谷歌于 2026 年 4 月在 iOS 平台低调上线的一款实验性语音输入应用。它主打“离线优先”与“智能润色”,利用边缘侧 AI 技术,将用户的口语实时转化为专业、精炼的文本。它被视为对标 Wispr Flow 等付费 AI 听写工具的免费破局者。
Trilium Catalyst 它是 Trilium AI 生态系统中的多源内容摄取引擎。它的核心使命是将音频文件、YouTube 视频、实时录音等非文本内容,通过自动转录和 AI 润色,一键归档到 Trilium Notes 知识库中。它不仅仅是一个听写工具,而是一条完整的“内容捕获-AI处理-知识归档”自动化流水线。
二、 核心功能与技术对比
1. 输入源与使用场景
- Eloquent:专注于实时语音输入。适合在通勤、做家务或需要快速记录灵感时,直接对着手机说话。它能智能过滤“嗯”、“啊”等语气词,并修正自我重复,输出逻辑通顺的草稿。
- Catalyst:主打多源内容摄取。除了无时间限制的网页端实时录音外,它还支持本地音频文件批量处理(支持 WAV, MP3 等几乎所有主流格式)以及 YouTube 视频链接智能提取(优先提取多语言字幕,若无字幕则自动下载音频并转录)。
2. 底层技术与模型
- Eloquent:基于谷歌的 Gemma 模型进行本地离线语音识别,确保极低的延迟和绝对的隐私。同时提供“云端模式”,可调用 Gemini 模型进行更深度的文本优化。
- Catalyst:音频转录基于高精度的 Whisper 模型(提供从 Base 到 Large V2 四种精度选择),数据同样在本地处理。它作为 Trilium AI Chat 的子插件运行,共享 AI 模型集成层,并结合 YouTube API 实现智能回退策略。
3. 结果输出与生态联动
- Eloquent:输出高度精炼的文本草稿,支持从 Gmail 导入联系人或自定义专业词汇以提高准确度。应用内提供语速统计和全文检索,更像是一个独立的个人生产力工具。
- Catalyst:深度绑定 Trilium Notes 知识库。无论是录音、音频文件还是长达两小时的 YouTube 演讲,处理完成后都会自动排版并一键保存为知识库笔记,或者直接发送至 AI 聊天窗口作为对话输入,是知识管理系统的前端基石。
4. 平台与局限性
- Eloquent:目前处于实验阶段,仅限 iOS 和 M 系芯片 Mac,暂无 Android 产品;仅支持英文,暂不支持中文;且存在地区限制(主要在美国发布)。
- Catalyst:基于浏览器和 Trilium 插件生态,跨平台能力更强,且支持多语言(包括 YouTube 中英文字幕提取与自动回退)。
三、 小结
Google AI Edge Eloquent 代表了 AI 从云端向边缘侧(设备端)转移的趋势。如果你是一个苹果生态用户,主要使用英语,并且需要一个免费、离线、即开即用的随身智能听写板,Eloquent 是无与伦比的选择。
Trilium Catalyst 则代表了知识管理的自动化未来。如果你是一个重度知识管理爱好者、需要频繁整理播客、讲座录音或 YouTube 学习视频,并且正在使用 Trilium Notes,那么 Catalyst 将为你省去无数复制粘贴和手动整理的时间,是构建个人知识库的终极利器。
歡迎留言回复交流。
Log in to reply.