課 2 的 3

In Progress

← 前一個

第二课前 AI Agent 时代的 AI 模型及其应用

Brave 2026-02-04

一、聚合与连接：深度解析 OpenRouter 与 POE
OpenRouter：开发者的"万能路由"
POE：从"聊天神器"到"全能开发者平台"
🆚 POE vs OpenRouter：你应该选谁？
二、谁是最强GPT：史上最强的OpenAI模型
🚀 GPT-5系列：OpenAI的统一智能系统
三、谁是最强LLM：AI模型的百花齐放与术业有专攻
（一）专注于深度思考与推理的o系列
（二）Grok系列：从Grok 3到Grok 4的进化
（三）Claude系列：从3.7 Sonnet到Opus 4.5的飞跃
（四）谷歌的旗舰：Gemini 3系列
（五）DeepSeek：来自中国的颠覆者
（六）Llama 4：Meta的开源（半开放）巨头
四、模型选择指南：如何为任务匹配最佳AI
📊 按任务类型选择
💰 按预算选择
🎯 按专业领域选择
五、常用LLM应用
（一）浏览器AI插件：提升日常效率的利器
（二）桌面端LLM客户端
（三）HomeLab中的LLM客户端
（四）支持MCP的LLM客户端
（五）POE App-Creator：氛围编程（Vibe Coding）工具
六、总结与展望
📌 核心要点回顾
🔮 2026年展望
💡 给"主权个人"的建议
📚 参考资料与延伸阅读

欢迎大家！在本节课中，我们将一同潜入当前 AI 领域最激动人心的部分——探索那些塑造我们数字生活、驱动创新前沿的主流且强大的AI模型。更重要的是，我们将思考，在这个AI技术日新月异的时代，这些形形色色的智能工具，如何精准地满足我们作为"主权个人"——即拥有自主选择权、追求个性化解决方案的个体——那日益多样化的需求。

对于许多日常应用场景，普通模型以其出色的性价比和快速响应脱颖而出。它们是处理常规任务、获取快速信息、进行简单创作的得力助手，是大多数人入门AI、享受便捷智能生活的理想选择。然而，当我们寻求更深层次的交互、更复杂的创作或更专业的辅助时，"超级模型"便展现出其非凡的价值。

丰富多样的AI模型矩阵，对"主权个人"意味着选择的自由。你不必受限于单一的、普适性的AI工具。无论是需要快速获取信息的普通用户，追求极致创意表达的设计师，需要严谨逻辑推理的研究者，还是致力于高效编码的开发者，都能在这个多元化的AI工具箱中，根据自己的具体需求——性能要求、速度偏好、成本预算、特定功能（如图形生成、代码辅助、深度推理）——找到最契合的那一款或几款模型组合。

这种选择权，正是"主权个人"的核心体现。AI不再是一个模糊的、统一的概念，而是变成了一系列可以被我们理解、评估和挑选的、具有不同特长和成本结构的具体工具。我们可以像选择合适的锤子、螺丝刀或画笔一样，选择最适合当前任务的AI模型，从而实现个性化、精准化的赋能，最大化地发挥AI的潜力，服务于独特的目标和创造。

一、聚合与连接：深度解析 OpenRouter 与 POE

OpenRouter：开发者的"万能路由"

如果说 POE 是从 C 端用户走向开发者，那么 OpenRouter 从诞生之初就是为了开发者（Developer-First）而生的。它的核心理念是：以最低的价格、最统一的标准，连接全世界所有的 AI 模型。

🎯 核心优势：价格与选择

OpenRouter 本身不生产模型，它是一个"接口聚合商"。

📊 统一定价与比价：OpenRouter 汇集了各大模型厂商的 API。最厉害的是，它不仅有官方渠道，还接入了许多第三方算力提供商。这导致在 OpenRouter 上，你经常能以低于官方的价格使用某些开源模型（如 Llama 4 Maverick）。
🌟 海量开源模型：相比 POE 侧重于顶级闭源模型，OpenRouter 是开源模型的"天堂"。你可以轻松调用 Mistral、Llama 4、Qwen（通义千问）、DeepSeek V3.2 等各种微调版本，甚至包括一些无审查（Uncensored）模型。OpenRouter已接入超过400种AI模型。

⚙️ 技术特点：OpenAI 兼容性

🔌 极简接入：OpenRouter 的 API 接口完全兼容 OpenAI 的格式。只需将基础URL指向OpenRouter，并替换API Key，现有的OpenAI SDK代码几乎可以零修改运行。
🔄 无缝迁移：如果你的代码原本是写给 ChatGPT 的，你只需要改两行代码（Base URL 和 API Key），就能瞬间把后台模型换成 Claude Opus 4.5 或 Llama 4，无需重构代码。
💳 低门槛支付：对于受到地区支付限制的开发者（例如无法开通 OpenAI 官方 API 的用户），OpenRouter 支持多种支付方式（包括加密货币），大大降低了使用门槛。

🆕 核心功能

功能	说明
🔍 网络搜索插件	在模型slug后添加`:online`即可启用网络搜索（由Exa.ai提供支持），自动检索并注入带引用的摘要结果
🖼️ 多模态输入	支持图像、音频和PDF输入，具备自动OCR功能
🔐 SOC 2 Type I合规	通过安全合规认证
🔑 BYOK模式	自带密钥（Bring Your Own Key）模式，每月免费100万次请求，仅收取5%使用费
🌐 区域路由	企业版支持区域路由，优化延迟（理想条件下约25ms，典型生产环境约40ms）

💰 定价结构

项目	费率
信用卡充值	5.5%手续费（最低$0.80）
加密货币充值	5%手续费（无最低限额）
BYOK模式	底层成本5%使用费
信用额度有效期	一年

💡 OpenRouter不加价转售——目录中显示的价格即为供应商原价。

POE：从"聊天神器"到"全能开发者平台"

POE（Platform for Open Exploration）是由知名问答社区 Quora 开发的 AI 聊天平台。它的初衷非常简单：让用户在一个 App 里就能无缝切换使用各种顶尖的 AI 模型。

📱 核心体验：极致的 C 端聚合

对于普通用户而言，POE 可能是目前体验最好的 AI 聚合应用。

🎯 一站式体验：你不需要分别订阅 ChatGPT Plus、Claude Pro 或 Google Gemini Advanced。只需一个 POE 订阅，就能同时使用 GPT-5.2、Claude Opus 4.5、Gemini 3 Pro 等几乎所有主流闭源模型。POE已同步更新支持超过100种AI模型，涵盖文本、图像、视频和语音等多种模态。
🤖 机器人（Bot）生态：用户可以创建自己的"机器人"，设定特定的提示词（Prompt），甚至上传知识库文件。这形成了一个庞大的社区，你可以直接使用别人调教好的"英语私教"、"编程助手"或"文案生成器"。
👥 群聊功能：POE推出了革命性的群聊功能，允许全球用户创建最多200人的群聊，并在单一对话中协作使用超过200种AI模型——包括文本、图像、视频和音频生成器。这一功能极大地拓展了AI协作的边界，使团队可以在同一会话中同时调用多个专业AI进行头脑风暴或项目协作。

🔧 重磅更新：POE API 的正式推出

过去，POE 更多被视为一个消费者应用（Consumer App），但现在情况变了。POE 已正式发布开发者API，这意味着开发者可以直接通过代码调用 POE 上的模型。

POE API 的特点：

特性	说明
📋 统一接口	开发者可以使用一套标准的协议（基于 gRPC 或 HTTP）来构建机器人
🌐 访问全模型库	通过 API，开发者不仅可以调用官方模型（如 GPT-5.2），还可以调用社区中其他用户创建的优化过的 Bot
💰 计算积分制	POE 的 API 计费模式与其订阅模式挂钩，通常对开发者来说，这提供了一种灵活的测试和部署路径
🎨 多模态支持	支持处理文本、图像、视频、语音等多种输入输出形式
⚡ 快速部署	POE与Amazon Bedrock合作构建了统一包装API框架，将部署时间从数天缩短至15分钟

💡 为什么这对开发者很重要？ 这意味着你不需要去维护十几个不同的 API Key（OpenAI 一个、Anthropic 一个、Google 一个...），只需接入 POE，就能在你的应用里集成目前市面上最强的模型组合。

💵 定价方案

方案	价格	包含内容
🆓 免费版	$0/月	基础模型访问，每日100次Bot回复
💚 入门版	$5/月	扩展访问权限，适合轻度用户
💎 高级版	$19.99/月或$200/年	解锁GPT-5.2、Claude Opus 4.5等顶级模型，无限制使用

🆚 POE vs OpenRouter：你应该选谁？

虽然两者都支持 API，都聚合了模型，但适用场景大相径庭。

✅ 选 POE 的理由

场景	说明
👤 普通用户	想要一个 App 搞定所有聊天需求，不想折腾 API Key 和代码
🛠️ Prompt应用构建者	POE 的 Prompt Bot 生态非常成熟，适合快速搭建特定功能的聊天机器人并分享给他人使用
🔒 闭源模型需求	如果你高度依赖 GPT-5.2 和 Claude Opus 4.5 的原生能力，且希望在一个账单里解决，POE 是最佳选择
👥 团队协作	群聊功能使POE成为AI协作的理想平台

✅ 选 OpenRouter 的理由

场景	说明
👨‍💻 纯粹的开发者	你正在开发一个 AI 应用（如翻译插件、自动写作软件），需要通过 API 极其稳定且廉价地调用模型
🌐 开源模型需求	你想用 Llama 4 或 DeepSeek V3.2 来降低成本，OpenRouter 提供了极其丰富的选择和极低的价格
🔧 OpenAI格式兼容	你的项目是基于 LangChain 或其他标准库构建的，需要即插即用的 API 接口
💳 支付便利性	你难以获得 OpenAI 或 Anthropic 的官方企业 API 访问权限
🔍 需要网络搜索	OpenRouter内置的网络搜索插件可为任何模型添加实时信息检索能力

📝 总结

🏪 POE 正在构建一个"模型 App Store"，它连接的是人与模型，通过引入 API，它开始允许开发者在这个生态中构建更复杂的应用。

🛣️ OpenRouter 则是一个"模型高速公路枢纽"，它连接的是代码与模型，致力于消除模型碎片化带来的接入痛点，是开发者手中的一把瑞士军刀。

无论你是希望通过 AI 提高效率的个人，还是正在构建下一个 AI 独角兽的开发者，这两个平台都值得你深入探索。

二、谁是最强GPT：史上最强的OpenAI模型

时间到达2026年，史上最强的LLM模型已经不再是OpenAI，不同LLM模型在各个领域群雄逐鹿，各领风骚。Claude成为史上最强编程模型，Gemini成为史上最博学模型，Grok则成为史上最懂X的模型。但是，在介绍其他模型之前，我们还是先了解一下OpenAI的GPT系列模型的进展。

🚀 GPT-5系列：OpenAI的统一智能系统

2025年8月，OpenAI发布了划时代的GPT-5，这标志着AI发展进入了一个全新阶段。GPT-5不再是单一模型，而是一个统一的智能系统，包含：

组件	功能
⚡ 高效模型	快速回答大多数问题
🧠 深度推理模型（GPT-5 thinking）	处理更困难的问题
🔀 实时路由器	根据对话类型、复杂度、工具需求和用户意图自动选择最佳模型

GPT-5的核心改进：

🎯 幻觉大幅减少：开启网络搜索时，GPT-5的事实错误率比GPT-4o降低约45%；在thinking模式下，错误率比o3降低约80%
🌐 真正的多模态融合：编码、数学、写作、健康、视觉感知等领域均达到业界领先水平
📈 显著的智能飞跃：在所有此前模型基础上实现了质的突破

🚀 GPT-5.2：当前最新旗舰（2025年12月发布）

GPT-5.2是OpenAI目前最新的旗舰大语言模型，专为释放更大的经济价值而设计：

能力提升	说明
📊 电子表格创建	显著增强
📑 演示文稿构建	显著增强
💻 代码编写	显著增强
🖼️ 图像理解	显著增强
📚 长上下文理解	支持400K tokens上下文窗口
🔧 工具使用	显著增强
📋 复杂多步骤项目	显著增强

GPT-5.2的三种模式：

模式	特点	适用场景
Instant	速度与效率优先	日常对话、快速查询
Thinking	推理模型	复杂问题分析
Pro	"最智能、最可信赖的模型"	困难问题，编程等复杂领域

⚠️ 知识截止日期：所有三个模型的知识截止日期为2025年8月

🛠️ GPT-5.2-Codex：最先进的代理式编码模型

OpenAI发布的GPT-5.2-Codex被描述为"迄今为止最先进的代理式编码模型"，专为复杂的实际软件工程优化：

✅ 长周期工作优化
✅ 大规模代码变更
✅ 显著增强的网络安全能力

但是，在实际使用感受上，Claude系列模型总体表现要优于GPT-5.2-Codex。

三、谁是最强LLM：AI模型的百花齐放与术业有专攻

当前，AI模型领域的竞争已经进入战国时代，百花齐放、百家争鸣。当面临需要深度思考、复杂推理和专业分析的挑战时，一些专注于特定能力的模型便显得尤为重要：

（一）专注于深度思考与推理的o系列

OpenAI的o系列模型代表了"推理范式"的开创，通过给予模型"思考时间"，在复杂的多步骤工作中实现了可靠性的飞跃。

🧠 o3与o4-mini的突破性能力

o3和o4-mini是OpenAI首批能够"用图像思考"的AI模型。这意味着它们不仅能看到图像，还能将视觉信息直接整合到推理链中。

首次实现的全工具代理能力：

🔍 网络搜索
📊 使用Python分析上传的文件和数据
🖼️ 对视觉输入进行深度推理
🎨 生成图像

📊 性能基准对比

基准测试	o3	o4-mini	说明
AIME 2025（数学）	88.9%	92.7%	o4-mini表现更优
SWE-bench（编码）	69.1%	68.1%	业界领先
ARC-AGI（推理）	领先	-	逻辑和技能习得能力

🎯 o3-pro：专业级推理

💎 o3-pro是OpenAI最智能模型o3的增强版本，设计用于更长时间的思考并提供最可靠的响应。用户在数学、科学和编程等领域特别青睐这一模型。

📌 重要说明

根据OpenAI当前的模型文档，推理模型作为独立系列的时代正在融入更统一的GPT-5架构中。o3被描述为"用于复杂任务的推理模型"，o4-mini则是"快速、高性价比的推理模型"。在日常使用中，GPT-5系列的Thinking模式已经能够满足大多数推理需求。

（二）Grok系列：从Grok 3到Grok 4的进化

xAI的Grok系列以其突出的推理能力闻名，特别适合处理高难度任务和需要创新性思维的场景。

🚀 Grok 3：推理代理时代的开端

Grok 3是xAI的先进模型，结合了强大的推理能力和广泛的预训练知识。在xAI的Colossus超级计算机上训练，计算能力是之前最先进模型的10倍。

训练基础设施：20万块NVIDIA GPU组成的超级集群

核心创新功能：

功能	说明
🔍 DeepSearch	xAI的首个AI代理——一个闪电般快速的AI代理，旨在从人类知识库中不懈地寻求真相。能整合关键信息，推理冲突的事实和意见，并从复杂性中提炼清晰，提供简洁而全面的报告
🧠 Think模式	让用户追踪Grok如何得出特定答案，理想用于透明度需求
🧠 Big Brain模式	对于更困难的查询，启用额外计算资源进行推理
🔬 DeeperSearch	DeepSearch的增强版本，利用扩展搜索和更多推理能力

DeepSearch核心用例：

📰 实时新闻：分析当前事件或市场动态
💡 社交建议：提供个人决策支持
🔬 科学研究：整合学术资源进行深入研究

📊 Grok 3性能基准

基准测试	非推理模式	Think推理模式
AIME'24（数学）	52.2%	93.3%
GPQA（科学）	75.4%	84.6%
LCB（编码）	57.0%	79.4%
MMMU（多模态）	73.2%	78.0%

🆕 Grok 4：当前最智能的模型（2025年7月发布）

xAI宣称Grok 4是"世界上最智能的模型"。

Grok 4核心特性：

🔧 原生工具使用
🔍 实时搜索集成
🎬 视频生成和编辑功能
🖼️ 全新图像生成和编辑功能
🎙️ Grok语音代理API正式可用

Grok 4 Heavy：xAI还推出了SuperGrok Heavy层级，提供Grok 4 Heavy——Grok 4最强大的版本。

💰 可用性与定价

层级	价格	权限
X Premium+	$50/月	Grok 3访问
SuperGrok	$30/月或$300/年	额外推理和DeepSearch查询，无限图像生成
SuperGrok Heavy	更高价格	Grok 4 Heavy访问
API	$3/百万输入token，$15/百万输出token	开发者访问

⚠️ DeepSearch使用限制：免费用户可能有5次使用限制，Premium计划用户享有更高使用次数。

（三）Claude系列：从3.7 Sonnet到Opus 4.5的飞跃

对于开发者和编程爱好者而言，Claude系列无疑是当前的首选推荐。Anthropic在2025年经历了从Claude 3.7到Claude 4系列的重大跨越，奠定了其在AI辅助编程领域的领导地位。

📅 Claude发展时间线

时间	事件
2025年2月	Claude 3.7 Sonnet发布（首个混合推理模型）
2025年2月	Claude Code发布（代理式命令行工具）
2025年5月	Claude 4系列发布（Sonnet 4和Opus 4）
2025年5月	Claude Code正式商用
2025年8月	Claude Opus 4.1发布
2025年11月	Claude Opus 4.5发布——当前世界最佳编码模型
2026年1月	Claude Cowork发布（图形界面版Claude Code，面向非技术用户）

🧠 Claude 3.7 Sonnet：混合推理引擎的开创

Claude 3.7 Sonnet是Anthropic发布的模型，是首个将快速响应和深度思考能力结合在单一模型中的设计。

两种思考模式：

模式	特点	适用场景
🚀 标准模式	快速响应	简单问题、即时答案
🧠 扩展思考模式	深入分析，逐步推理，用户可见推理过程	数学、物理、编程调试等复杂任务

技术规格：

📚 上下文窗口：200,000 tokens
📤 最大输出：128,000 tokens（比前代提高15倍）
⚙️ API可设置思考时间（最长128,000 tokens）

🏆 Claude 4系列：设立新标准

2025年5月，Anthropic发布了Claude Sonnet 4和Claude Opus 4，在编码、高级推理和AI代理方面设立了新标准。

Claude Opus 4关键成就：

基准	得分	说明
SWE-bench	72.5%	领先业界
Terminal-bench	43.2%	领先业界

核心能力：

⏱️ 能够在需要数千步骤的长时间运行任务中保持持续性能
🔄 可连续工作数小时

⚠️ 安全等级：Anthropic将Opus 4分类为其四级安全量表中的"Level 3"模型，意味着它被认为"具有显著更高的风险"——这也侧面说明了其能力的强大。

👑 Claude Opus 4.5：当前世界最佳编码模型（2025年11月发布）

Anthropic发布的Claude Opus 4.5被描述为"智能、高效，在编码、代理和计算机使用方面是世界上最好的模型"。

Opus 4.5核心优势：

💻 编码能力：世界领先
🤖 代理任务：世界领先
🖥️ 计算机使用：世界领先
📊 日常任务显著改进：深度研究、幻灯片和电子表格处理

💡 截至2026年2月，Claude Code配合Opus 4.5被广泛认为是最佳AI编码助手组合。

🛠️ Claude Code：代理式编码工具

Claude Code是Anthropic推出的代理式编码工具，允许开发者通过命令行将编码任务委托给模型。

支持的任务：

🔍 代码搜索
✏️ 文件编辑
🧪 测试编写
📤 GitHub提交

实际案例：

案例	效果
Fintech团队支付网关迁移	从3周缩短到4天（62个API端点，8个服务）
单人开发者技术债务优先级排序	150,000行Java单体应用

💰 成本优化策略

对于大型代码库的处理，可采用以下策略降低成本：

策略	效果
🧩 语义分块	将代码库分解，减少token数量（如从300,000减少至90,000 tokens，成本从$4.50降至$1.35）
📝 差异更新	仅更新变化部分，减少每日token使用量
🔧 混合本地/Claude架构	使用本地工具（如ESLint）处理简单任务
💾 上下文感知缓存	减少重复查询
🌙 非高峰时段使用	利用2-8点的折扣（30%优惠）

💡 通过这些策略，一个两人团队可将每月成本控制在约$14.85，同时实现显著效率提升。

🔮 Claude 5展望（2026年）

2026年2月初，有关Anthropic下一代AI模型的泄露信息开始出现：

🏷️ 代号："Fennec"（用于Sonnet 5）
📋 版本标识符：claude-sonnet-5@20260203出现在Google Vertex AI错误日志中
📅 预计发布时间：2026年2月或3月

（四）谷歌的旗舰：Gemini 3系列

🆕 Gemini 3：当前旗舰模型

Google已发布Gemini 3系列，代表了更进一步的智能飞跃：

Gemini 3 Pro：

特性	说明
📚 上下文窗口	1M tokens（100万tokens）
🧠 思考预算控制	开发者可选择模型"思考"的时间和程度（thinking_budget参数：0-32768）
🎨 原生多模态	处理文本、图像、音频、视频
💻 编码能力	被开发者认为是最佳编码模型之一
🔍 网络搜索	支持实时信息检索
🔧 工具支持	原生工具调用能力

Gemini 3 Pro核心优势：

🧠 最先进的推理和多模态理解模型
🤖 强大的代理和编码能力
📈 智能和性能的改进

Gemini 3 Flash：

⚡ 现已成为Gemini应用的默认模型
🎓 提供与大型模型相当的博士级推理能力
🚀 闪电般的速度
📊 相比前代实现了重大能力升级
💰 成本极低，适合大规模应用

💰 定价与可用性

使用场景	输入价格（每百万tokens）	输出价格（每百万tokens）
提示<200,000 tokens	$1.25 \|$10.00
提示>200,000 tokens	$2.50 \|$15.00

可用渠道：

🆓 Gemini应用免费用户：已可访问Gemini 3系列
🛠️ Google AI Studio：开发者免费试用
☁️ Vertex AI：企业级访问

（五）DeepSeek：来自中国的颠覆者

DeepSeek是一家总部位于杭州的中国人工智能公司，由对冲基金High-Flyer创始人梁文峰于2023年7月创立。它以极低的成本实现了与顶级模型相当的性能，震动了整个AI行业。

📅 发展时间线

时间	事件
2023年7月	DeepSeek成立
2025年1月	DeepSeek R1发布，震惊硅谷
2025年8月	DeepSeek V3.1发布（MIT许可证）
2025年9月	V3.1升级为V3.1-Terminus
2025年9月	V3.2-Exp发布
2025年12月	V3.2和V3.2-Speciale发布
2026年2月（预计）	V4模型发布

💰 成本颠覆

DeepSeek最引人注目的是其训练成本：

模型	训练成本	对比
DeepSeek V3	约$600万	GPT-4训练成本的6%左右
Meta Llama 3.1	约10倍于DeepSeek	-

📊 DeepSeek核心特点

🔍 可见推理步骤：展示完整的推理过程
📈 多项基准超越主流模型
📜 MIT许可证：开源可商用
🏆 中国市场份额：据报道在中国AI用户中占有近89%的市场份额

🆕 V3.2系列

版本	特点
V3.2	强调模拟人类推理
V3.2-Speciale	主要针对数学场景，"最大化推理能力"

💡 两个模型均提供与OpenAI GPT-5相当的性能。

🔮 2026年展望

即将发布	说明
DeepSeek V4	编码优化模型，预计2026年2月发布，测试显示可能超越Claude 3.5 Sonnet
全自主AI代理	计划2026年底发布，V3已支持高级记忆和规划功能

（六）Llama 4：Meta的开源（半开放）巨头

Meta的Llama 4系列于2025年发布，采用混合专家（MoE）架构，是首批开放权重的原生多模态模型。

📅 发布信息（2025年4月）

模型	活跃参数	专家数	总参数	上下文窗口
Scout	170亿	16	1090亿	1000万tokens
Maverick	170亿	128	4000亿	100万tokens
Behemoth（训练中）	2880亿	16	约2万亿	待定

🎯 核心能力

🖼️ 原生多模态：文本和图像输入，文本输出
🌍 多语言支持：12种语言
📚 训练数据：大量未标记的文本、图像和视频数据
🎓 200种语言训练：用于广泛的视觉理解

⚡ 部署便利性

模型	硬件需求
Scout	单块NVIDIA H100 GPU
Maverick	单个GPU主机

💡 这使得强大的AI对个人研究者和小型组织更加可及。

⚠️ 开源争议

Llama 4处于许多团队现在所说的"半开放"状态：

✅ Scout和Maverick的权重可下载
✅ 支持本地部署、微调和隐私保护工作流
❌ 许可证存在重要限制
❌ 开源倡议组织（OSI）声明Llama的许可证不符合其《开源定义》的多项规定
⚠️ OSI指责Meta对Llama进行"开源洗白"（openwashing）

四、模型选择指南：如何为任务匹配最佳AI

面对如此丰富的AI模型矩阵，如何根据具体需求做出最优选择？以下是一份实用指南：

📊 按任务类型选择

任务类型	推荐模型	备选方案
💻 日常编码	Claude Opus 4.5 + Claude Code	GPT-5.2 Pro, Grok-Code-Fast-1
🔬 复杂编程项目	GPT-5.2-Codex	Claude Opus 4.5
🧮 数学推理	o3-pro	Gemini 3 Pro
📚 长文档分析	Gemini 3 Pro (1M上下文)	GPT-5.2 (400K上下文)
🔍 实时信息搜索	Grok 4 (DeepSearch)	GPT-5.2 (web search)
💰 成本敏感场景	DeepSeek V3.2	Llama 4 Scout
🖼️ 多模态任务	Gemini 3 Pro	GPT-5.2
🚀 快速响应	GPT-5.2 Instant	Gemini 3 Flash

💰 按预算选择

预算等级	推荐方案
💚 免费/极低成本	DeepSeek（开源）, Llama 4 Scout（本地部署）, POE免费版
💛 中等预算	OpenRouter按需付费, POE入门版($5/月)
🧡 专业需求	POE高级版($19.99/月), SuperGrok($30/月)
❤️ 企业级	各厂商API直接接入, OpenRouter企业版

🎯 按专业领域选择

领域	首选模型	原因
🏥 医疗健康	GPT-5.2	经过专业安全对齐
⚖️ 法律合规	Claude Opus 4.5	精确指令遵循
🔬 科学研究	Gemini 3 Pro	超长上下文，多模态
💹 金融分析	Grok 4	实时数据整合
🎨 创意写作	Claude Opus 4.5	细腻的语言表达
🌏 中文场景	DeepSeek V3.2	原生中文优化

五、常用LLM应用

💡 AI使用也要极简主义：做基地AI课程的过程中，我测试了大量AI工具，感觉到最后最好用的还是Open WebUI、各类官方APP，以及自己写的WordPress插件。所以，折腾新工具很多时候就是纯粹的时间浪费。最实际的还是，用好最基础的工具，并形成最适合自己的AI工作流程。无论哪个领域，通往优秀之路都要靠极简主义。
同时请注意，本节课探讨的是前 AI Agent 时代的LLM应用，当前已经是AI Agent时代，本节课介绍的应用只是个基础，稍后我们会进一步探讨进阶的 AI Agent 应用。

在人工智能迅猛发展的今天，浏览器插件已成为提升工作效率、优化学习体验的重要工具。AI插件不仅能够提供实时信息，还能总结文章、提取视频要点，甚至与本地AI模型交互。本章节将介绍多款强大且实用的AI工具，帮助你充分利用AI的力量，提高浏览和研究的效率。

（一）浏览器AI插件：提升日常效率的利器

🌐 WebChatGPT：让ChatGPT接入实时互联网

ChatGPT以其强大的自然语言处理能力而闻名，但在回答涉及最新事件或新技术的问题时可能存在局限性。为了解决这一问题，WebChatGPT 插件应运而生，它允许ChatGPT访问实时互联网信息，从而提供更准确、及时的回答。

WebChatGPT的特点：

特性	说明
🌍 实时互联网访问	可获取最新新闻、科技动态、体育比分等信息
🔗 无缝集成	插件嵌入ChatGPT界面，保持原有的交互体验
✅ 提高准确性	通过互联网数据增强ChatGPT的回答质量
⚙️ 可定制搜索偏好	用户可自定义搜索范围，优先展示信任的来源

如何使用WebChatGPT：用户可以从官方渠道或插件市场安装WebChatGPT，安装后可在ChatGPT界面开启，配置搜索过滤器、可信来源等参数后，直接提出问题，插件会自动获取最新的在线信息，并由ChatGPT进行总结回答。

适用场景：

📰 信息查询：获取最新的天气、科技资讯等信息
✍️ 任务处理：帮助编写代码、撰写邮件、生成创意内容
💬 娱乐交流：与ChatGPT进行更加丰富的对话

💡 WebChatGPT让ChatGPT突破训练数据的限制，使其能够提供更广阔的知识视野和更及时的信息。

📺 YouTube Summary with ChatGPT & Claude：高效总结视频与文章

YouTube Summary with ChatGPT & Claude 是一款由 glasp.co 开发的插件，可以帮助用户快速总结 YouTube 视频、网页文章和PDF 文件，大幅提升学习和研究效率。

主要特点：

特性	说明
⏱️ 节约时间	快速提取视频和文章的核心内容，避免冗长的信息消耗时间
🚀 提高效率	帮助用户迅速吸收重要信息，为其他任务腾出时间
📚 增强学习	适用于教育和研究，提供简洁的摘要和文字记录

使用方法：

安装插件后，打开所需总结的 YouTube 视频或网页文章
点击浏览器工具栏中的 YouTube Summary 图标，即可生成摘要
可以选择带时间戳或不带时间戳的摘要，并跳转至视频的关键部分
还可以复制视频文字稿，以便进一步整理和分析

个性化选项：

📏 摘要长度可调，用户可自定义摘要的详细程度
✏️ 可定制Prompt，调整插件的总结风格和内容
🌍 支持多语言，适合全球用户

💡 对于终身学习者来说，YouTube Summary with ChatGPT & Claude 是一款不可多得的高效学习工具，能够助力快速掌握视频和文章中的关键知识点。

🤖 Elmo Chat：无需注册的智能AI助手

Elmo Chat 是由 Lepton AI 开发的一款零门槛AI浏览器插件，无需注册即可使用，支持多种语言，专为提升网页浏览和研究效率而设计。

核心功能：

功能	说明
📄 网页内容总结	快速提取网页的核心信息，提高阅读效率
💬 智能问答	可针对网页内容快速回答问题，减少查找资料的时间
🔍 关键字搜索	帮助用户进一步挖掘相关信息，提升研究深度
📑 PDF 交互	支持与PDF文档进行AI式交互，提升学习和工作效率
🎬 YouTube 视频总结	快速生成视频摘要，帮助用户更快获取核心内容

用户体验：

🎨 简洁设计：界面直观，无需复杂设置，安装即用
🌍 多语言支持：满足全球用户需求
⚡ 高速响应：基于 Lepton AI 的快速语言模型API，提供流畅的交互体验

安装方式：用户可以在官方网站或插件商店搜索 "Elmo-Your AI Web Copilot" 进行安装。安装后，浏览器地址栏会出现一个闪电图标，点击即可启用Elmo Chat。

💡 Elmo Chat 适用于学生、研究人员及所有希望快速获取信息的用户，是一款高效、易用的AI辅助工具。

🏠 Page Assist：本地AI助手，支持联网搜索

现代用户越来越希望AI能够在本地运行，以提高隐私安全性。Page Assist 正是一款支持本地AI模型运行的浏览器插件，它不仅能在网页上提供AI辅助，还支持联网搜索，让用户随时随地获取最新信息。

Page Assist 简介：Page Assist 是一款开源插件，旨在提供一个本地运行AI模型的友好界面。用户可以在任何网页上打开侧边栏或独立的 Web UI，与本地AI模型交互，实现网页内容问答、文档分析、视觉识别等功能。

核心功能：

功能	说明
💬 侧边栏交互	在任意网页上直接与AI聊天，提出问题或输入指令
🖥️ 独立 Web UI	提供 ChatGPT 风格的界面，方便自由交互
📄 网页内容问答	可针对当前网页进行总结、翻译、术语解释等操作
👁️ 视觉识别	支持分析网页中的图像，增强搜索体验
📑 PDF 交互	可直接对PDF文档进行提问，提升学习效率

联网搜索支持：

🔍 内置搜索引擎：可直接在插件设置中选择百度、Google等搜索引擎
🔗 SearXNG 支持：可配置 SearXNG 作为聚合搜索引擎，提高信息覆盖范围
🤖 兼容 OpenAI API 的在线大模型：可以使用如 LM Studio、llamafile 等兼容 API 的模型进行联网查询

安装与使用：Page Assist 兼容多种浏览器，包括 Chrome、Brave、Edge 以及 Firefox。用户可在插件商店或 GitHub 下载并安装，安装后可通过**快捷键（Ctrl+Shift+P 或 Ctrl+Shift+Y）**直接打开侧边栏开始使用。

优势总结：

🔒 本地运行，保护隐私：无需将数据上传至云端，确保信息安全
🛠️ 支持网页内容交互、视觉识别、PDF分析：功能强大
🌐 可联网搜索：增强AI的知识获取能力，兼具本地与在线模式

💡 Page Assist 为用户带来了全新的AI浏览体验，无论是信息检索、网页摘要、翻译，还是本地AI交互，它都能提供极大的便利。

📊 浏览器插件对比总结

插件名称	主要功能	适用场景
🌐 WebChatGPT	让 ChatGPT 访问实时互联网	获取最新信息、提升回答准确性
📺 YouTube Summary	总结 YouTube 视频、网页文章	快速获取关键信息、提高学习效率
🤖 Elmo Chat	网页总结、智能问答、PDF 交互	学习、研究、信息检索
🏠 Page Assist	本地运行 AI，支持联网搜索	确保隐私安全，增强AI能力

🚀 这四款AI插件各具特色，能极大提升浏览器的智能化体验。选择适合自己的工具，让AI成为你的高效助手！

（二）桌面端LLM客户端

在本节课中，我们将介绍几款功能强大且各具特色的桌面端（或常在桌面环境使用）大型语言模型（LLM）客户端。这些工具可以帮助你更便捷地与多种 AI 模型交互，管理对话，甚至整合本地知识，提升工作与学习效率。选择合适的客户端，能让你在 AI 时代如虎添翼。

🏪 POE：聚合多种模型的便捷入口

简介：POE (Platform for Open Exploration) 是由知名问答社区 Quora 开发的一款 AI 应用程序。它旨在提供一个统一的平台，让用户能够轻松地与众多不同的 AI 模型进行实时在线交流。

核心特性：

特性	说明
🤖 广泛的模型集成	聚合了来自 OpenAI (GPT-5.2)、Anthropic (Claude Opus 4.5)、Google (Gemini 3)、Meta (Llama 4) 等多家公司的旗舰模型，以及图像生成模型和大量社区创建的特定功能机器人（Bots）
🔄 无缝切换与同步	用户可以在同一个界面中轻松切换不同的 AI 模型进行对话，且对话历史会无缝衔接并跨设备同步
📱 跨平台支持	提供简洁易用的网页版、iOS 客户端和安卓客户端
🛠️ 机器人创建 (App Creator)	允许用户基于现有大模型，通过简单的提示词工程，创建自定义功能的聊天机器人
💰 灵活的订阅模式	提供免费额度和付费订阅，订阅后可解锁对顶级模型的更多使用权限

适用场景与评价：POE 非常适合那些希望在一个地方体验和比较多种顶尖 AI 模型的用户。其简洁的界面和跨平台同步特性使其成为日常快速查询、内容生成和模型探索的便捷工具。

🔗 官方网站：https://poe.com/

🧠 DeepChat：专注知识管理与定制化的专业选择

简介：DeepChat 是一款明确面向个人和企业级 AI 对话需求的解决方案，尤其专注于本地知识管理和高度可定制的对话体验。其核心理念是"让 AI 更懂你，让知识更有价值"。

核心特性：

特性	说明
🤖 多模型与本地支持	兼容包括 OpenAI GPT 系列在内的多种主流 LLM，并特别强调支持本地部署的模型和自定义 API 接入
📄 智能文档处理与知识库	用户可轻松上传 PDF, Word, TXT 等多种格式文档，基于文档内容进行智能问答（RAG）
⚡ Artifacts 实时交互	允许在聊天界面直接预览和交互由 AI 生成的代码、图表、表格甚至小游戏
⚙️ MCP (模型控制面板)	提供强大的模型控制能力，用户可灵活调整系统提示词、温度、输出格式等关键参数
💻 原生桌面端支持	提供 Windows, macOS 和 Linux 的原生桌面应用程序
🔒 隐私与安全优先	高度重视数据安全，提供本地部署选项，确保敏感数据不出本地

适用人群：

📚 需要整合个人文档、笔记进行智能问答和内容创作的个人用户
🔬 希望基于海量文献进行交互式研究的科研人员
👨‍💻 需要快速验证模型和提示词效果的 AI 开发者或爱好者
🏢 寻求构建团队内部知识库或智能客服系统的企业团队

🔗 GitHub 地址：https://github.com/ThinkInAIXYZ/deepchat

⚡ 5ire Chat：探索前沿特性与本地化能力的进阶工具

简介：5ire Chat 是一款集成了多项前沿功能的 LLM 客户端，尤其以其对 MCP（元上下文协议）的支持和强大的本地知识库能力而引人注目。它更像是一款面向开发者和高阶用户的实验性与功能性并重的工具。

核心特性：

🔌 MCP (Meta Context Protocol) 支持：

引入开放协议 MCP，旨在标准化应用向 LLM 提供上下文（工具、数据源）的方式，类似于 AI 应用的"USB-C"
通过启用基于 MCP 服务器的"工具"，允许 AI 访问本地文件、系统信息、数据库、远程资源等
提供 MCP 服务器市场（MCPSvr），促进工具生态的发现与共享

⚠️ 注意：运行 MCP Server 工具通常需要安装 Python, Node.js, uv 等环境。

📚 本地知识库 (Local Knowledge Base)：

内置高性能的多语言向量化模型（如 bge-m3）
支持解析和向量化多种本地文档（docx, xlsx, pptx, pdf, txt, csv）
实现强大的本地 RAG（检索增强生成），让 AI 基于你的私人文档回答问题

其他功能：

功能	说明
📊 用量分析	实时追踪通过 5ire 调用各大模型 API 的使用量和费用
📝 提示词库	高效创建、组织和管理个人提示词，支持变量
🔖 书签	收藏重要对话片段，即使原消息删除，书签内容依然保留
🔍 快速搜索	在所有历史对话中进行关键词搜索，快速定位信息

适用人群：

🔧 对 AI 工具化应用（如 MCP）感兴趣，希望探索 AI 与本地环境深度交互的开发者和技术爱好者
📂 需要强大本地 RAG 功能，希望 AI 能理解和利用大量本地私人文档的用户
💰 关注 API 使用成本控制的用户

🔗 GitHub 地址：https://github.com/nanbingxyz/5ire

📊 桌面客户端小结

客户端	核心优势	适用人群
🏪 POE	模型多样性、跨平台易用性	广泛用户进行日常AI交互和模型体验
🧠 DeepChat	知识管理、定制化、桌面原生体验	个人和企业处理自有数据的专业选择
⚡ 5ire Chat	前沿MCP工具集成、强大本地RAG	技术爱好者和需要高级功能的用户

你可以根据自己的主要需求（如模型种类、知识库整合、定制化程度、技术探索等）来选择最适合你的客户端，甚至可以组合使用它们，取长补短。建议亲自尝试，找到最能提升你效率的工具。

（三）HomeLab中的LLM客户端

随着人工智能技术的飞速发展，我们越来越多地希望将 AI 能力整合到日常工作流中。相比依赖云服务，自托管 AI 应用提供了更高的数据隐私性、定制性和潜在的成本效益。本节课程将介绍几款流行的自托管 AI 工具，帮助你搭建属于自己的 AI 工作环境。我们将重点关注部署的便捷性，并优先推荐使用 Docker 进行部署。

🏠 Open WebUI：必装，核心交互界面

简介：Open WebUI 是一款功能强大、界面友好的开源 Web 用户界面，旨在让你能够轻松地与各种大型语言模型（LLM）进行交互。它不仅仅是一个简单的聊天框，更是一个集成了模型管理、多用户支持、界面定制等多种功能的综合性平台。你可以将它连接到本地运行的 LLM（如通过 Ollama 运行的模型），也可以连接到远程的 API 服务（如 OpenAI API、Gemini API 等兼容接口）。

为何核心推荐？ 在一个自托管的 AI 环境中，你需要一个稳定、易用的前端来"对话"和管理你的 AI 模型。Open WebUI 正是扮演了这个核心角色。

核心功能：

功能	说明
🎯 统一的交互入口	无需为每个模型寻找不同的客户端
🎨 用户友好的体验	直观的界面，支持 Markdown、代码高亮等
🤖 模型管理	方便切换和管理多个已连接的 LLM
🔧 扩展性	支持 RAG (检索增强生成) 功能集成、Web 浏览能力等
👥 多用户与权限	适合团队或家庭共享使用

🆕 2026年最新功能（版本v0.6.52）：

新功能	说明
🔐 登录速率限制	防止暴力破解攻击，每3分钟限制15次登录尝试
👨‍💼 自动创建管理员账户	支持通过环境变量在启动时自动创建管理员，便于无头部署
📝 笔记功能增强	支持服务端搜索和过滤，只读权限共享，可直接从聊天输入框创建笔记
🔍 RAG改进	支持Jina Search API自定义端点，LangChain升级至1.2.0版本
📊 社区统计同步	可同步匿名使用统计至Open WebUI社区平台，支持模型评估
🎙️ 语音/视频通话	集成多种语音转文字和文字转语音引擎

平台数据：Open WebUI现已拥有327K用户社区，累计下载量达2.7亿次。

📦 部署建议：强烈推荐使用 Docker 进行部署。如果你追求更简化的部署体验，可以考虑使用 Dockge 或 Umbrel 这类图形化 Docker 管理工具一键安装。
💡 这是构建本地 AI 应用生态的基础组件，建议优先部署。

🧠 Khoj：可选，进阶知识管理工具

简介：你是否常常苦恼于信息散落在各处（笔记、文档、网页收藏），需要时却难以快速找到？Khoj 是一款开源、可自托管的"第二大脑"工具，旨在解决这一痛点。它利用 AI 技术，特别是 RAG（检索增强生成），帮助你用自然语言跨平台搜索个人知识库，并提供 AI 辅助功能。

核心优势：

功能	说明
🔍 智能语义搜索	超越关键词，理解你的意图，在你的笔记、本地文档（PDF, Org mode 等）和在线内容中查找相关信息
🤖 AI 副驾驶	连接多种 LLM（OpenAI、Google Gemini、本地模型等），用于总结长文、回答基于个人知识库的问题、生成文本草稿
🔒 数据隐私与控制	自托管确保你的所有数据保留在本地
🌐 跨平台连接	能索引本地文件和部分在线服务内容
🆓 开源与免费	由社区驱动发展

🆕 2026年新产品：

产品	说明
🖥️ Pipali	全新桌面AI协作工具，可分配任务、跟踪进度、获取成果交付物，全部在本地安全运行
📄 Open Paper	研究文献管理工作台，可阅读、标注、理解论文，并使用AI助手进行文献综述

核心能力：

🤖 自定义代理：可创建具有可调整个性、工具和知识库的自定义代理
🔬 研究模式：以 /research 开头发送消息可启用实验性研究模式，进行深度分析并生成文档、图表和交互式图表
⏰ 自动化任务：可安排定时任务让Khoj代为执行，并通过邮件发送研究结果
📱 多平台访问：支持浏览器、Obsidian、Emacs、桌面端、手机和WhatsApp

📦 部署建议：Khoj 提供多种安装方式，推荐使用 Docker (docker-compose) 以简化部署和管理。
⚠️ 适用场景与建议：如果你有大量的个人笔记和文档，并希望用更智能的方式进行管理和检索，Khoj 是一个值得探索的工具。需要注意的是，Khoj 仍在积极开发中，功能和稳定性可能持续演进。它并非基础必备组件，属于进阶知识管理工具。

📝 Blinko：可选，笔记与 AI 深度融合

简介：对于注重数据隐私和本地化 AI 功能的笔记用户而言，Blinko 提供了一个引人注目的选择。它是一款完全自托管的笔记应用，旨在替代或补充 Memos、Obsidian、Notion 等工具，尤其强调与本地 AI 能力的深度融合。

核心特性：

特性	说明
🏠 完全自托管	基于 Docker 部署，数据 100% 掌握在自己手中，保障隐私安全
🔍 集成 RAG 智能搜索	通过本地嵌入模型实现对整个笔记库的自然语言对话式搜索，AI 会基于笔记内容回答问题并提供来源链接
🤖 AI 辅助创作与管理	支持自动打标签、生成笔记摘要、作为前端与本地 LLM 交互
🔒 隐私设计	所有 AI 功能可选启用，且优先支持本地模型，避免数据外泄
✏️ 现代笔记功能	支持 Markdown 编辑、标签系统、笔记历史、主题定制等
💡 独特理念	引入"Blink" (快速想法) 与 "Note" (结构化笔记) 的区分，以及"随机漫步"功能，激发思考
🆓 开源免费	社区活跃，持续迭代

📦 部署建议：Blinko 主要通过 Docker 进行部署，官方提供 Compose 文件，部署过程通常快速便捷。
💡 适用场景与建议：如果你正在寻找一款将笔记记录与本地 AI 功能紧密结合的自托管解决方案，并且高度重视数据主权，Blinko 是一个非常值得尝试的应用。对于已有成熟笔记系统但希望增强 AI 搜索能力的用户，可以对比 Khoj；对于希望笔记工具原生集成 AI 功能的用户，Blinko 更为契合。

📊 HomeLab客户端小结

工具	定位	核心功能	推荐度
🏠 Open WebUI	核心交互界面	与各类LLM对话的基础平台	⭐⭐⭐⭐⭐ 必装
🧠 Khoj	智能知识检索	跨平台智能搜索、深度研究	⭐⭐⭐⭐ 可选
📝 Blinko	智能笔记	笔记与本地AI深度融合	⭐⭐⭐⭐ 可选

💡 部署提示：这些工具大多推荐使用 Docker 部署，能够显著降低安装和管理的复杂度。部署涉及本地 AI 功能的 Khoj 和 Blinko，通常需要你预先搭建好本地 LLM 的运行环境（例如通过 Ollama）。

（四）支持MCP的LLM客户端

⚠️ Brave按：事实证明，目前MCP还不是特别成熟，还不如我开发的WordPress插件好用。所以，这部分只是个知识点。

🌐 什么是MCP？

MCP（Model Context Protocol，模型上下文协议）是一个开放协议，旨在标准化应用向LLM提供上下文（工具、数据源）的方式，类似于AI应用的"USB-C"接口。

🆕 2026年MCP重大进展：

进展	说明
🎨 MCP Apps正式发布	2026年1月26日，MCP核心维护者宣布MCP Apps作为官方扩展正式上线。工具现在可以返回直接在对话中渲染的交互式UI组件：仪表盘、表单、可视化、多步骤工作流等
🏛️ 基金会治理	2025年12月，Anthropic将MCP捐赠给Agentic AI Foundation（AAIF），由Linux Foundation管理，Anthropic、Block和OpenAI共同创立
🎬 新媒体支持	2026年MCP开始支持图像、视频、音频等媒体类型，代理不仅能读写，还能看、听
🏢 企业采用	Red Hat于2026年1月宣布Enterprise Linux的MCP服务器开发者预览版
🔄 异步支持	正在添加异步支持，允许服务器启动长时间运行的任务，客户端稍后检查结果

🌍 世界范围内对MCP支持较好的AI客户端

客户端名称	描述	MCP支持详情
🖥️ Cursor IDE	AI驱动的代码编辑器	支持连接多种MCP服务器，社区有丰富指南
💬 Claude Desktop	Anthropic的桌面应用	原生支持MCP服务器安装，官方提供使用指南
📝 VS Code with GitHub Copilot	广泛使用的代码编辑器	通过配置连接MCP服务器，适用于开发者工作流
🔧 Continue	开源AI代码助手	支持VS Code和JetBrains，集成MCP服务器
⚡ Zed	高性能多人代码编辑器	可集成MCP服务器，增强AI功能
💭 LibreChat	开源聊天应用	支持MCP服务器连接，适合多用户场景
🇨🇳 5ire（国产）	跨平台桌面AI助手	兼容主要服务提供商，支持本地知识库

🇨🇳 国产MCP客户端四小龙

国内的 MCP 客户端生态迅速发展，ChatWise、Cherry Studio、DeepChat 和 ChatMCP 被社区称为"四小龙"，反映了它们在功能、用户基础和市场影响上的领先地位。

🗣️ ChatWise

特性	说明
⚡ 性能优化	专注于快速响应，适合高效任务，被描述为"最快的AI聊天机器人"
🔒 隐私保护	数据本地存储，仅在发送聊天请求时与LLM提供商交互
🎨 多模态支持	支持音频、PDF、图像和文本文件
🔍 Web搜索	集成Tavily搜索API和本地浏览器（如Chrome Beta、Edge Beta）
🔌 MCP集成	支持Notion、Google Sheets、浏览器等工具

🍒 Cherry Studio

特性	说明
🤖 多LLM支持	统一调用300+ LLM（云端、本地），支持OpenAI、Gemini、Anthropic等
🛠️ AI助手市场	内置1000+行业助手，支持自定义创建
📄 文档处理	支持PDF、DOCX、PPTX等格式，WebDAV和Mermaid图表渲染
🔧 2026年新功能	Selection Assistant智能内容选择、Deep Research深度研究、Memory System全局上下文感知、MCP Marketplace模型上下文协议生态
🏢 企业版	提供细粒度访问控制和完全私有化部署

🐬 DeepChat

特性	说明
🤖 多云LLM支持	支持DeepSeek、OpenAI、Grok、Gemini、Anthropic等
🏠 本地模型部署	通过Ollama支持本地模型管理，无需命令行操作
💬 聊天功能	完整Markdown渲染、多会话对话、Artifacts渲染，消息重试和分叉支持
🔍 搜索扩展	内置Brave Search MCP模式，支持Google、Bing、Baidu和Sogou
🔐 安全与隐私	聊天数据和配置加密，代码混淆，屏幕投影隐藏

💬 ChatMCP

特性	说明
📱 跨平台兼容	支持macOS、Windows、Linux、iOS和Android
🤖 多LLM支持	支持OpenAI、Claude、OLLama、DeepSeek等
📚 RAG支持	检索增强生成，提高响应质量
🔌 MCP服务器管理	支持MCP服务器市场、一键安装和SSE传输
🎨 预览功能	Deep Think、Artifact生成、Dalle图像生成、HTML代码预览、Mermaid图表

📊 四小龙对比总结

特性	ChatWise	Cherry Studio	DeepChat	ChatMCP
📱 平台支持	桌面	Windows、macOS、Linux	Windows、macOS、Linux	全平台（含iOS、Android）
🤖 LLM支持	多种云端	300+ LLM	多云+本地	多种LLM
🔒 隐私与安全	高（本地数据存储）	高（本地备份）	高（数据加密）	中（跨平台）
🎯 功能重点	速度、简洁、隐私	多功能、知识管理	本地部署、搜索扩展	跨平台、MCP管理
👤 适用场景	高效聊天、隐私敏感任务	内容创作、知识管理	本地AI、隐私优先	多设备协作、移动AI

（五）POE App-Creator：氛围编程（Vibe Coding）工具

Poe 的 App-Creator 是一项功能强大的创新工具，旨在通过自然语言描述生成 AI 驱动的交互式 Web 应用。该功能允许用户无需编码即可创建应用，并能利用 Poe 平台上超过 100 种文本、图像、视频和音频模型。

🆕 2026年最新更新

更新	说明
🤖 Claude Code集成	App Creator现已基于Claude Code构建，在构建和迭代复杂应用时产生显著更好的结果
✏️ 代码编辑改进	始终编辑最新版本的应用代码，由Claude Sonnet 4提供支持，自动进行HTML和JavaScript语法检查
📏 响应长度提升	机器人响应总长度限制从100,000字符提升至512,000字符
🤖 增强Bot集成	默认可整合各种文本、图像、视频和音频Bot，包括Claude-3.7-Sonnet、GPT-4o、FLUX-pro-1.1等
⚡ 流式响应改进	文本Bot的响应可立即流式传输到应用中，无需等待完成
🔄 Remix功能	可以将符合条件的canvas应用重新混合定制为自己的独特版本
📊 使用分析	Canvas应用详情现在显示月度用户数量
⚙️ 模型选项	可选择Claude Sonnet 4.5/Opus 4.5/Haiku 4.5，思考预算最高可达31999 tokens

⚠️ 潜在限制与注意事项

问题	说明
💰 点数消耗	创建复杂应用会消耗用户点数，可能对免费用户造成负担
🔧 技术限制	部分功能（如麦克风录音）可能存在兼容性或权限问题
📱 应用分发	目前应用仅限于Poe平台内使用，暂不支持发布到Apple/Google应用商店
🎯 功能定位	更像是HTML canvas应用的托管平台，而非深度整合AI的工具

💡 未来展望：Poe官方表示，未来计划为创作者提供直接赚钱的机会，并随着AI模型的进步进一步增强App-Creator的能力。Gartner预测，到2026年，40%的企业应用将使用AI代理，Poe的生态系统正是这一趋势的直接体现。

六、总结与展望

📌 核心要点回顾

1️⃣ 平台选择

🛣️ OpenRouter：开发者首选，400+模型，OpenAI格式兼容
🏪 POE：一站式AI体验，适合普通用户和Prompt应用构建者

2️⃣ 模型演进

🔄 GPT系列：GPT-5统一系统带来智能飞跃
🧠 推理模型：o系列开创的"思考范式"正融入主流架构
🤖 代理能力：Claude Code、Grok DeepSearch等工具开启AI代理时代

3️⃣ 竞争格局

🇺🇸 美国巨头：OpenAI、Anthropic、Google、Meta、xAI群雄逐鹿
🇨🇳 中国力量：DeepSeek以极低成本实现顶级性能，市场份额迅速扩大

4️⃣ 应用生态

🌐 浏览器插件：WebChatGPT、YouTube Summary、Elmo Chat、Page Assist提升日常效率
💻 桌面客户端：POE、DeepChat、5ire Chat满足不同层次需求
🏠 自托管工具：Open WebUI、Khoj、Blinko构建本地AI环境
🔌 MCP生态：ChatWise、Cherry Studio、DeepChat、ChatMCP引领国产客户端发展

🔮 2026年展望

趋势	预期发展
🔄 模型统一化	推理模型能力融入主流LLM，减少模型选择复杂度
🤖 代理能力普及	更多模型支持工具使用、代码执行、自主任务完成
💰 成本持续下降	DeepSeek效应推动全行业成本优化
🎬 多模态深化	视频、3D、实时交互等能力成为标配
⚖️ 开源vs闭源	半开放模式兴起，平衡创新与商业
🔌 MCP生态成熟	MCP Apps正式发布，更多客户端支持，企业级采用加速

💡 给"主权个人"的建议

🎯 核心原则：根据任务特性选择最适合的模型，而非盲目追求"最强"
💰 成本意识：善用聚合平台和开源模型控制成本
🔧 工具组合：学会组合使用不同模型的优势
📚 持续学习：AI领域发展迅速，保持对新模型和功能的关注
🎨 极简主义：用好最基础的工具，形成最适合自己的AI工作流程

在这个AI技术日新月异的时代，"主权个人"的核心竞争力不在于使用某一个"最强"的AI，而在于理解各种AI工具的特点，根据具体需求灵活选择和组合，从而最大化地发挥AI的潜力，服务于自己独特的目标和创造。

📚 参考资料与延伸阅读

OpenAI官方资源：

Anthropic官方资源：

Google官方资源：

xAI官方资源：

MCP相关资源：

客户端与工具：

Open WebUI - 自托管AI界面
Khoj AI - AI第二大脑
Cherry Studio - 全能AI助手
DeepChat GitHub
5ire GitHub

其他资源：

很抱歉，必須登入網站才能發佈留言。

主权个人的AI入门课

參與者 461

第二课 前 AI Agent 时代的 AI 模型及其应用

Brave 2026-02-04

一、聚合与连接：深度解析 OpenRouter 与 POE

OpenRouter：开发者的"万能路由"

🎯 核心优势：价格与选择

⚙️ 技术特点：OpenAI 兼容性

🆕 核心功能

💰 定价结构

POE：从"聊天神器"到"全能开发者平台"

📱 核心体验：极致的 C 端聚合

🔧 重磅更新：POE API 的正式推出

💵 定价方案

🆚 POE vs OpenRouter：你应该选谁？

✅ 选 POE 的理由

✅ 选 OpenRouter 的理由

📝 总结

二、谁是最强GPT：史上最强的OpenAI模型

🚀 GPT-5系列：OpenAI的统一智能系统

🚀 GPT-5.2：当前最新旗舰（2025年12月发布）

🛠️ GPT-5.2-Codex：最先进的代理式编码模型

三、谁是最强LLM：AI模型的百花齐放与术业有专攻

（一）专注于深度思考与推理的o系列

🧠 o3与o4-mini的突破性能力

📊 性能基准对比

🎯 o3-pro：专业级推理

📌 重要说明

（二）Grok系列：从Grok 3到Grok 4的进化

🚀 Grok 3：推理代理时代的开端

📊 Grok 3性能基准

🆕 Grok 4：当前最智能的模型（2025年7月发布）

💰 可用性与定价

（三）Claude系列：从3.7 Sonnet到Opus 4.5的飞跃

📅 Claude发展时间线

🧠 Claude 3.7 Sonnet：混合推理引擎的开创

🏆 Claude 4系列：设立新标准

👑 Claude Opus 4.5：当前世界最佳编码模型（2025年11月发布）

🛠️ Claude Code：代理式编码工具

💰 成本优化策略

🔮 Claude 5展望（2026年）

（四）谷歌的旗舰：Gemini 3系列

🆕 Gemini 3：当前旗舰模型

💰 定价与可用性

（五）DeepSeek：来自中国的颠覆者

📅 发展时间线

💰 成本颠覆

📊 DeepSeek核心特点

🆕 V3.2系列

🔮 2026年展望

（六）Llama 4：Meta的开源（半开放）巨头

📅 发布信息（2025年4月）

🎯 核心能力

⚡ 部署便利性

⚠️ 开源争议

四、模型选择指南：如何为任务匹配最佳AI

📊 按任务类型选择

💰 按预算选择

🎯 按专业领域选择

五、常用LLM应用

（一）浏览器AI插件：提升日常效率的利器

🌐 WebChatGPT：让ChatGPT接入实时互联网

📺 YouTube Summary with ChatGPT & Claude：高效总结视频与文章

🤖 Elmo Chat：无需注册的智能AI助手

🏠 Page Assist：本地AI助手，支持联网搜索

📊 浏览器插件对比总结

（二）桌面端LLM客户端

🏪 POE：聚合多种模型的便捷入口

🧠 DeepChat：专注知识管理与定制化的专业选择

⚡ 5ire Chat：探索前沿特性与本地化能力的进阶工具

📊 桌面客户端小结

（三）HomeLab中的LLM客户端

🏠 Open WebUI：必装，核心交互界面

🧠 Khoj：可选，进阶知识管理工具

📝 Blinko：可选，笔记与 AI 深度融合

📊 HomeLab客户端小结

（四）支持MCP的LLM客户端

🌐 什么是MCP？

🌍 世界范围内对MCP支持较好的AI客户端

🇨🇳 国产MCP客户端四小龙

第二课前 AI Agent 时代的 AI 模型及其应用