Trilium Catalyst:把全世界的智慧声音,变成知识库里的文字
-
Trilium Catalyst:把全世界的智慧声音,变成知识库里的文字
目录Trilium Catalyst(曾用名TriliumAI Content Processor)是 Trilium AI 生态系统中的多源内容采集引擎。它能够将音频文件、YouTube 视频、在线语音录制等各种形式的声音内容,自动转录为文字,经 AI 智能整理后,一键归档到你的 Trilium Notes 知识库中。
想象这样一个场景:你刚看完一个长达两小时的 YouTube 技术分享,不想花时间逐字做笔记。你只需要把视频链接丢进 Trilium Catalyst,它就会自动提取字幕(如果没有字幕,就下载音频然后转录),让 AI 帮你去掉语气词、纠正错别字、整理成清晰的段落,然后自动保存到 Trilium Notes —— 整个过程你只需要点一下按钮。
Trilium Catalyst 不是一个简单的「录音转文字」工具。它是一条从声音采集到AI 精炼到知识沉淀的完整自动化流水线。
🏗️ 产品定位:Trilium AI 生态的内容采集层
在 Trilium AI 的插件生态中,Trilium Catalyst 专注于解决一个核心问题:如何高效地将非文字形式的知识转化为结构化的笔记。
┌───────────────────────────────────────────────────────────────┐ │ Trilium AI 插件生态 │ │ │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────────┐ │ │ │ Trilium AI │ │ Trilium AI │ │ Trilium Catalyst │ │ │ │ Chat │ │ Agent │ │ │ │ │ │ │ │ │ │ 🎵 音频转录 │ │ │ │ 💬 AI 对话 │ │ 🤖 自主行动 │ │ 📺 YouTube转录 │ │ │ │ 🧱 工作流编排 │ │ 📂 知识库操作 │ │ 🎙️ 在线录音 │ │ │ │ 🔌 多模型接入 │ │ 🧠 持久记忆 │ │ 🤖 AI整理 │ │ │ └──────┬───────┘ └──────┬───────┘ │ 💾 自动归档 │ │ │ │ │ └────────┬─────────┘ │ │ ▼ ▼ ▼ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ Trilium Notes 知识库 · AI 模型层 │ │ │ │ Whisper 语音识别 · Google/OpenAI/Ollama · YouTube API │ │ │ └──────────────────────────────────────────────────────┘ │ └───────────────────────────────────────────────────────────────┘Trilium Catalyst 作为 Trilium AI Chat 的子插件运行,共享其 AI 模型接入层和 Trilium 保存能力。你只需要安装 Trilium WP 主插件和 Trilium AI Chat,再叠加 Catalyst,即可解锁完整的多源内容采集工作流。
🎵 音频转录 —— 让每一段录音都不被遗忘
Trilium Catalyst 内置了基于 Whisper 的高精度音频转录引擎,支持将本地音频文件和在线录音自动转换为文字。
📁 本地文件转录
拖放或选择你的音频文件,Catalyst 会自动完成转录、AI 整理和保存的全流程:
- 🎶 广泛的格式支持 —— WAV、MP3、M4A、FLAC、OGG、AAC、WMA、WebM,几乎覆盖所有常见音频格式
- 📦 多文件批量处理 —— 一次选择最多 10 个文件,系统采用「边处理边保存」模式,每完成一个文件就立即归档到 Trilium,避免长时间等待
- 🎛️ 多档位精度选择 —— 从 Base(极速)到 Large V2(高精度),四个 Whisper 模型档位让你在速度和准确性之间自由权衡
- 📊 实时文件预览 —— 选择文件后即刻显示文件名、大小、格式验证状态,不支持的文件类型立即标红提醒
🎙️ 在线语音录制
不需要先录音、再导出、再上传 —— Catalyst 内置了完整的浏览器端语音录音器,直接在页面上点击按钮就能开始录音:
- ⏸️ 暂停 / 继续 —— 录音过程中可以随时暂停,想好了再继续,告别一气呵成的压力
- ⏱️ 无时间限制 —— 支持任意时长的录音,不会在你讲到一半时被截断
- 🔒 本地处理 —— 录音数据仅在本地处理,不经过任何第三方服务器
最有意思的是双模式选择:录音结束后,你可以选择把转录文字「发送到 AI 聊天窗口」继续对话,或者走「AI 整理 → 保存到 Trilium」的标准归档流程。前者适合你用语音快速输入一个问题,后者适合你把一段讲话整理成笔记。
🎙️ 录音完成 │ ├──► 💬 发送到聊天 ──► AI 聊天窗口(语音转文字输入) │ └──► 📝 AI 整理保存 ──► Whisper 转录 ──► AI 精炼 ──► 💾 Trilium Notes📺 YouTube 智能转录 —— 一个链接,提取一切
YouTube 是世界上最大的视频知识库。但视频内容的一大痛点是:你无法像文字一样快速检索、引用和整理。Trilium Catalyst 用一条智能处理流水线解决了这个问题。
🔄 智能降级:确保你总能拿到文字
不是所有 YouTube 视频都有字幕。Catalyst 设计了一套两级智能降级策略,确保无论视频有没有字幕,你都能获得完整的文字内容:
📎 输入 YouTube 链接 │ ▼ 🔍 第一步:尝试提取字幕 │ ├── ✅ 成功 ──► 获取字幕文本(手动 + 自动字幕,多语言支持) │ │ │ ▼ │ 🤖 AI 整理 ──► 💾 保存到 Trilium │ └── ❌ 失败 ──► 自动降级 │ ▼ 🔄 第二步:下载视频音频 │ ▼ 🎵 Whisper 音频转录 │ ▼ 🤖 AI 整理 ──► 💾 保存到 Trilium字幕提取优先:如果视频有字幕(无论是创作者手动添加的还是 YouTube 自动生成的),Catalyst 会直接提取,速度快、质量高。
音频转录兜底:如果字幕提取失败(视频没有字幕、字幕内容为空、API 连接异常等),Catalyst 不会报错放弃 —— 它会自动下载视频的音频轨道,调用 Whisper 进行语音识别,确保你总能拿到文字内容。
这个降级过程对用户完全透明。处理完成后,结果页面会清楚地标注实际使用的处理方式(字幕提取 or 音频转录),以及每个步骤花费的时间和相关信息。
🌍 多语言字幕支持
YouTube 字幕提取支持中文、英文和自动检测三种语言偏好。系统会优先提取你设定的语言字幕,如果指定语言不可用,会自动回退到其他可用语言。
🏢 频道批处理
如果你想一次性转录某个频道的大量视频,不需要一个一个粘贴链接。Catalyst 的频道批处理功能让你可以:
- 输入频道地址 —— 粘贴频道 URL 或 @用户名
- 获取视频列表 —— 系统自动拉取频道视频,显示标题、时长、上传日期、观看量
- 自由勾选 —— 在列表中勾选你感兴趣的视频,全选或按需选择
- 一键批量处理 —— 选定后点击开始,系统逐个进行智能转录,实时显示进度
┌─────────────────────────────────────────────────────────┐ │ 🏢 YouTube 频道批处理 │ │ │ │ 📊 获取到 50 个视频 │ │ ┌──────────────────────────────────────────────────┐ │ │ │ ☑ 深度学习入门指南 (45:32) 📅 2025-12-01 │ │ │ │ ☑ Transformer 架构详解 (1:23:15) 📅 2025-11-28 │ │ │ │ ☐ Vlog: 周末日常 (12:05) 📅 2025-11-25 │ │ │ │ ☑ PyTorch 实战教程 (58:42) 📅 2025-11-20 │ │ │ │ ... │ │ │ └──────────────────────────────────────────────────┘ │ │ │ │ [✅ 全选] [❌ 取消全选] [🚀 开始处理 (3个)] │ │ │ │ ┌──────────────────────────────────────────────────┐ │ │ │ 📊 处理进度: ██████████░░░░░ 67% │ │ │ │ 成功: 2 | 降级: 0 | 失败: 0 | 待处理: 1 │ │ │ └──────────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────┘批处理过程中,每个视频的处理结果会实时追加显示,你可以清楚地看到哪些视频通过字幕提取完成,哪些经过了智能降级,哪些遇到了问题。处理完成后,所有内容都已经乖乖躺在你的 Trilium Notes 里了。
🤖 AI 智能整理 —— 从「原始转录」到「可读笔记」
语音转文字的原始输出往往充斥着语气词、重复、错别字和混乱的断句。如果直接保存,你以后翻阅时可能根本看不下去。Trilium Catalyst 的 AI 整理层专门解决这个问题。
✨ AI 都做了什么?
转录完成后,AI 会对原始文本进行以下处理:
- 🧹 去除语气词 —— 「啊」「呢」「呃」「嗯」等口语化的填充词被自动清理
- 🔄 去除重复 —— 说话时常见的重复性词语和句子被合并精简
- ✏️ 纠正错别字 —— Whisper 转录的同音字错误、近音字错误被智能修正
- 📐 段落整理 —— 混乱的文字流被整理成逻辑清晰的段落,增强条理性和可读性
- 📝 自动起标题 —— AI 根据内容自动生成一个恰当的文章标题
🔌 灵活的 AI 模型选择
AI 整理功能直接复用 Trilium AI Chat 的多模型接入层,支持你已经配置好的所有 AI 服务:
- Google Gemini —— 如 Gemini 2.5 Pro,擅长长文本整理
- OpenAI 兼容接口 —— GPT-4o、Claude、DeepSeek 等,通过统一接口接入
- Ollama 本地模型 —— 完全本地运行,数据不离开服务器
你可以在设置页面自由指定 AI 提供商和模型,甚至自定义整理提示词 —— 如果你对默认的整理效果不满意,可以写自己的提示词来精确控制 AI 的行为。
🔧 可选而非强制
AI 整理是一个开关式功能。你可以在设置中自由启用或关闭。关闭后,原始转录文本会直接保存到 Trilium Notes,不经过任何 AI 处理 —— 适合你只需要快速存档、不在意文本质量的场景。
启用后,保存到 Trilium 的笔记会同时包含 AI 整理版本和原始转录内容,方便你在需要时对照原文。
💾 自动归档到 Trilium Notes —— 知识落地的最后一环
所有经过 Catalyst 处理的内容,最终都会自动保存到你的 Trilium Notes 知识库。这个过程不需要你手动复制粘贴任何一个字。
📋 笔记内容结构
每一条保存到 Trilium 的笔记都会包含丰富的元信息:
# 🎵 音频转录:会议录音_20260314 (AI整理版) **处理时间:** 2026-03-14 15:30:25 **内容类型:** 音频转录 **文件大小:** 12.5 MB **转录时间:** 8.42秒 **转录引擎:** Systran/faster-whisper-medium **AI整理时间:** 3.15秒 **AI提供商:** OpenAI兼容接口 **AI模型:** gemini-2.5-pro **标签:** content-processing, trilium-ai, ai-processed, audio-transcription ## 📝 AI整理内容 (AI整理后的清晰文本……) --- ## 📋 原始内容 (Whisper转录的原始文本……) *由 Trilium Catalyst v4.10.0 自动生成*🏷️ 智能标签系统
Catalyst 会根据内容的来源和处理方式自动添加标签:
处理方式 自动标签 本地音频转录 audio-transcriptionYouTube 字幕提取 youtube-subtitleYouTube 智能降级 youtube-fallback+audio-transcriptionYouTube 音频转录 youtube-audio-transcription经过 AI 整理 ai-processed你还可以在设置中自定义全局标签(如
content-processing, trilium-ai),所有笔记都会自动带上这些标签。这让你在 Trilium Notes 中可以通过标签快速筛选和检索所有 Catalyst 生成的内容。⚡ 边处理边保存
批量处理音频文件时,Catalyst 不会等所有文件都处理完才一次性保存 —— 而是每完成一个文件的「转录 + AI 整理」,就立即保存到 Trilium。这意味着即使处理过程中网络中断或浏览器意外关闭,已经完成的内容不会丢失。
🎛️ 后台设置 —— 一切尽在掌控
Catalyst 的后台设置页面(WordPress 管理后台 → Trilium AI → 内容处理器)提供了对所有功能的精细控制:
┌────────────────────────────────────────────────────────┐ │ 🎯 Trilium Catalyst 设置 │ │ │ │ 🎵 音频转录设置 │ │ ├── Whisper API 地址 │ │ ├── 转录模型选择(Base / Small / Medium / Large V2) │ │ └── 质量模式(快速 / 平衡 / 高质量) │ │ │ │ 📺 YouTube 处理设置 │ │ ├── YouTube API 服务器地址 │ │ └── 默认字幕语言(中文 / 英文 / 自动检测) │ │ │ │ 🤖 AI 智能整理设置 │ │ ├── 启用 / 关闭 AI 整理 │ │ ├── AI 提供商(Google / OpenAI兼容 / Ollama) │ │ ├── AI 模型名称 │ │ └── 自定义整理提示词 │ │ │ │ 📁 Trilium 保存设置 │ │ ├── 自动文件夹组织(按年月归档) │ │ ├── 自定义笔记标签 │ │ └── 边处理边保存模式 │ │ │ │ 📊 集成状态面板 │ │ ├── ✅ Trilium WP 主插件 │ │ ├── ✅ TriliumAI Chat 插件 │ │ ├── ✅ TriliumAI API 管理器 │ │ ├── ✅ Whisper API 服务器 │ │ └── ✅ YouTube 媒体 API 服务器 │ │ ├── 📺 字幕提取: ✅ 可用 │ │ └── 🎵 音频下载: ✅ 可用 │ └────────────────────────────────────────────────────────┘集成状态面板会实时检测所有依赖服务的连接状态,让你一目了然地知道哪些功能可用、哪些需要配置。
📊 功能全景一览
能力维度 功能描述 🎵 本地音频转录 支持 WAV、MP3、M4A、FLAC、OGG、AAC、WMA、WebM,最多 10 文件批量处理 🎙️ 在线语音录制 浏览器端录音,支持暂停/继续,无时间限制,双模式选择(聊天 / 整理保存) 📺 YouTube 字幕提取 自动提取手动 + 自动字幕,支持中文、英文、自动检测 🔄 YouTube 智能降级 字幕提取失败时自动下载音频 → Whisper 转录,确保总能获得文字 🏢 YouTube 频道批处理 获取频道视频列表,自由勾选,批量智能转录,实时进度跟踪 🤖 AI 智能整理 去语气词、去重复、纠错别字、段落整理、自动起标题 🔌 多 AI 模型支持 Google Gemini · OpenAI 兼容 · Ollama 本地模型,复用 Trilium AI Chat 接入层 💾 自动保存 Trilium 边处理边保存,丰富元信息,智能标签,按年月文件夹组织 🎛️ Whisper 模型选择 Base / Small / Medium / Large V2 四档,平衡速度与精度 📝 自定义提示词 完全自定义 AI 整理提示词,精确控制输出风格 📱 前端自适应 桌面端和移动端均可流畅使用,深色模式自动适配 ⚡ 异步 AJAX 处理 无页面刷新,实时状态反馈,1 小时超长超时支持 🚀 快速上手
📋 你需要准备
- ✅ Trilium WP 主插件 —— 提供 Trilium Notes 连接能力
- ✅ Trilium AI Chat 插件 —— 提供 AI 模型接入和笔记保存能力
- ✅ Whisper API 服务 —— 如 faster-whisper-server,提供音频转录能力
- ✅ YouTube 媒体 API 服务(可选) —— 提供字幕提取和音频下载能力
📥 安装步骤
1️⃣ 确认依赖 —— 确保 Trilium WP 和 Trilium AI Chat 已安装激活,且 Trilium Notes ETAPI 连接正常。
2️⃣ 安装 Catalyst —— 上传
trilium-catalyst-4.10.0.zip并激活。插件会自动注册到 Trilium AI 的管理菜单下。3️⃣ 配置服务 —— 在「Trilium AI → 内容处理器」设置页面中,填写 Whisper API 地址和 YouTube API 地址,选择你偏好的 AI 模型。
4️⃣ 开始使用 —— 在任何 WordPress 页面或文章中添加短代码:
[trilium_content_processor]页面上就会出现 Catalyst 的完整前端界面 —— 包含「音频转录」「YouTube 转录」「YouTube 批处理」三个标签页,你可以立即开始处理内容。
⚙️ 技术亮点
🔄 零内存占用的流式下载 —— YouTube 音频下载采用 cURL 流式写入,音频数据直接从网络写入磁盘,不经过 PHP 内存缓冲区。这意味着即使是几百 MB 的长视频音频,也不会导致 PHP 内存溢出。
⏱️ 去除时间限制 —— 前端 AJAX 请求统一使用 1 小时超时,后端 PHP 执行时间设置为 2 小时。配合 Nginx 的
fastcgi_read_timeout配置,彻底解决长音频和长视频的处理超时问题。🔒 安全机制 —— 所有 AJAX 请求使用 WordPress nonce 验证,文件下载路径经过
realpath安全检查确保不会发生目录穿越,临时文件超过 1 小时自动清理。🧩 松耦合架构 —— 字幕提取、音频下载、Whisper 转录、AI 整理、Trilium 保存,每个环节都是独立的可替换模块。任何一个环节失败,不会影响其他环节已完成的工作。
🔮 与 Trilium AI 生态的协同
Trilium Catalyst 生成的笔记不是孤岛 —— 它们进入 Trilium Notes 后,就成为了整个 Trilium AI 生态可以操作的知识资产:
🔍 AI Agent 可检索 —— 安装了 Trilium AI Agent 后,AI 代理可以搜索和读取 Catalyst 生成的所有笔记。你可以问 AI:「帮我找一下上个月我转录的那个关于 Transformer 架构的 YouTube 视频」,Agent 会在你的知识库中找到对应的笔记并返回内容。
🧱 工作流可编排 —— 通过 Trilium AI Chat 的 Gutenberg Block 工作流能力,你可以设计一个 AI 分析工作流,让 AI 基于 Catalyst 采集的内容进行二次分析、摘要或翻译。
🧠 记忆可积累 —— 通过 OpenClaw 的持久化记忆系统,AI 代理可以记住你通过 Catalyst 采集的知识内容,在后续对话中引用和参考。
🎵 音频 / 📺 YouTube ──► Trilium Catalyst ──► 💾 Trilium Notes │ ┌─────────────────────────┤ ▼ ▼ 🔍 AI Agent 检索 🧱 工作流分析 │ │ ▼ ▼ 🧠 记忆积累 📊 深度洞察💡 为什么选择 Trilium Catalyst?
🎯 专注内容采集,做到极致 —— 不是一个什么都做的瑞士军刀,而是一把专门把「声音变成文字」这件事做到极致的利器。智能降级、批量处理、边处理边保存,每个设计都是为了确保你的内容不丢失、不遗漏。
🔄 全自动流水线 —— 从声音输入到笔记归档,中间不需要你做任何手工操作。点一下按钮(或者粘贴一个链接),喝杯咖啡回来,笔记已经整整齐齐地存好了。
🧠 AI 让内容真正可用 —— 原始语音转录的文本几乎不具备直接阅读和检索的价值。AI 整理层把「机器输出的文字流」变成了「人类可以舒适阅读的笔记」,这才是让内容真正落地为知识的关键一步。
🏠 完全私有化部署 —— Whisper 服务、YouTube API 服务、Ollama 模型都可以在你自己的服务器上运行。从录音到转录到 AI 整理到保存,整条流水线上的数据不需要经过任何第三方云服务。
🔗 生态协同 —— 作为 Trilium AI 生态的一部分,Catalyst 采集的内容可以被 AI Agent 检索、被工作流编排、被 AI 记忆积累。它不是一个孤立的工具,而是你 AI 知识系统的入口之一。
🧑💻 关于
Trilium Catalyst(当前版本 v4.10.0)由 SatoshiWP 开发维护,是 Trilium AI 插件生态系统的子插件。采用 GPL v2+ 开源协议发布。
依赖插件:Trilium WP · Trilium AI Chat
💡 Trilium Catalyst —— 世界上有太多有价值的声音,它们不应该听完就消失。让每一段讲话、每一个视频、每一次灵感,都沉淀为你知识库中可以被 AI 理解和检索的文字资产。这不是简单的「语音转文字」,这是一条从声音到知识的自动化流水线。
歡迎留言回复交流。
Log in to reply.