2026年 MacBook 本地大模型选择指南：哪个最适合你

人工智能研究

2026年 MacBook 本地大模型选择指南：哪个最适合你

發布人 Brave 2026-05-21 04:26

统一内存（Unified Memory）是 Apple Silicon Mac 在本地 AI 领域最大的护城河。CPU 和 GPU 共享同一片内存池，意味着你不需要像 PC 那样把模型塞进显存——Mac 能直接跑比同价位 NVIDIA 显卡大得多的模型。代价是带宽较低（M4 Pro 273 GB/s vs RTX 4090 的 1008 GB/s），所以推理速度会慢一些，但能跑动的模型规模是实打实的优势。

但在按内存选模型之前，先搞清楚一个更重要的问题：这些模型的综合实力到底怎么排？ 不看硬件只看能力，排名如下。

综合能力总排名（无关硬件，纯实力排序）

基于 SWE-bench（编程）、AIME（数学）、GPQA（科学）、MMLU-Pro（知识）、多模态、多语言六大维度加权评分：

排名	模型	综合评分	最强项	最弱项	适合谁
🥇	Gemma 4 31B	A+	推理、多模态、多语言	速度偏慢	全场景通用
🥈	Qwen 3.6-35B-A3B	A	编程、速度	多语言弱，仅 3B 活跃 = 上下限波动大	程序员
🥉	Qwen 3.6-27B	A-	中文、稳定性	无多模态视频，速度一般	中文用户
4	Gemma 4 26B A4B	A-	速度/质量平衡、多模态	知识面略窄于 31B	内存有限但需多模态
5	Llama 4 Scout	B+	10M 超长上下文	需 64GB+，许可证有 MAU 限制	超长文档分析
6	DeepSeek V3.2	B+	编程 & 数学	无多模态，速度慢	纯文本编程
7	Gemma 4 E4B	B	手机/边缘端可跑	Q4 下质量崩塌	8GB 极限用户
8	Llama 4 Maverick	B	400B 总参数潜力	Mac 上跑不动（需 200GB+）	数据中心用户

⚠️ 核心结论：Gemma 4 31B 是当前本地模型的无争议冠军。 它唯一的短板是推理速度。如果速度对你比质量更重要，选 Qwen 3.6-35B-A3B。

MacBook 性能基准排名（硬件实测排序）

同一模型在不同 Mac 配置上的实际推理速度（tok/s）：

排名	模型	量化	M4 Pro 48GB	M4 Max 128GB	M3 Max 48GB	适合什么
🥇	Qwen 3.6-35B-A3B	Q4	~35 tok/s	~50 tok/s	~40 tok/s	高速编程
🥈	Qwen 3.6-35B-A3B	Q8	~20 tok/s	~30 tok/s	~25 tok/s	高质量编程
🥉	Gemma 4 31B	Q4_OptiQ	~12 tok/s	~18 tok/s	~14 tok/s	均衡之选
4	Gemma 4 26B A4B	Q4	~15 tok/s	~22 tok/s	~17 tok/s	限内存多模态
5	Gemma 4 31B	Q8_MLX	~6 tok/s	~9 tok/s	~7 tok/s	最高质量
6	DeepSeek V3.2	Q4	~3 tok/s	~5 tok/s	~4 tok/s	已过时
7	Llama 4 Scout	Q4	跑不动	~4 tok/s	跑不动	超长上下文

速度感知： 6 tok/s 是「流畅阅读」的最低门槛。低于 6 tok/s 时，你能明显感觉到模型在"一个字一个字往外蹦"。12+ tok/s 才是舒适的交互体验。35 tok/s 和 GPT-4o 旗鼓相当。

以下按内存容量从小到大，推荐每个档位最值得跑的模型。

8GB — MacBook Air M1/M2/M3 基础款

可用内存约 6GB，只能跑最小的模型。

模型	量化	大小	推荐理由
Gemma 4 E2B/4B	Q4	~3GB	多模态（文本+图像+音频），Apache 2.0，手机级模型
Phi-4 Mini	Q4	~3GB	推理能力强，微软出品
Qwen 3.5 4B	Q4	~2.5GB	中文好，通义千问家族

不推荐跑超过 7B 的模型——8GB 强行跑 7B Q4 会溢出到 swap，速度慢到不可用。

16GB — MacBook Air M3/M4 / MacBook Pro 基础款

可用内存约 13GB，是 2026 年最主流的学生/轻办公配置。

模型	量化	大小	推荐理由
Qwen 3.6-27B	Q4_K_M	~16GB	编程、推理、中文全面，Apache 2.0，256K 上下文
Gemma 4 26B A4B	Q4	~15GB	仅 3.8B 活跃参数，速度快，多模态
Gemma 4 31B	Q4_OptiQ	~18GB	勉强塞下，质量最高但速度略慢

最佳选择：Gemma 4 26B A4B Q4（3.8B 活跃参数，推理速度很快）或 Qwen 3.6-27B Q4（中文更优）。

不推荐跑 70B 以上模型——即使 Q2 量化也塞不下。

24GB — MacBook Pro M4 Pro 中配

可用内存约 20GB。这个容量可以跑大部分 30B 级别模型的高质量量化版。

模型	量化	大小	推荐理由
Gemma 4 31B	Q8	~31GB ❌	8-bit 超出，只能跑 Q4
Gemma 4 31B	Q4_OptiQ	~18GB ✅	最佳质量，96% GSM8K 保持率
Qwen 3.6-35B-A3B	Q4_K_M	~21GB ✅	仅 3B 活跃参数，速度极快，编程最强
Gemma 4 26B A4B	Q8	~28GB ❌	略超
Llama 4 Scout	Q4	~55GB ❌	塞不下

最佳选择：Gemma 4 31B Q4_OptiQ 或 Qwen 3.6-35B-A3B Q4。前者质量最高，后者速度最快。

36GB — MacBook Pro M4 Pro / M4 Max 中高配

可用内存约 30GB。可以跑 31B 模型的 8-bit 量化，或者 70B 模型的极低量化。

模型	量化	大小	速度 (预估)
Gemma 4 31B	Q8_MLX	~33GB	~6 tok/s
Qwen 3.6-35B-A3B	Q6_K	~30GB	快（3B active）
Gemma 4 31B	Q4_OptiQ	~18GB	~12 tok/s
Devstral Small 2 24B	Q8	~24GB	~8 tok/s

最佳选择：Gemma 4 31B Q8_MLX（质量接近无损，~6 tok/s 在可接受范围）或 Qwen 3.6-35B-A3B Q6_K（速度更快）。

48GB — MacBook Pro M3/M4 Max 高配

这是本文开头问题的答案。可用内存约 40GB，可以轻松跑 31B 无损量化，甚至可以尝试 70B 模型。

模型	量化	大小	速度 (M4 Pro 实测)
Gemma 4 31B	Q8_MLX	~33.6GB	~6.4 tok/s
Qwen 3.6-35B-A3B	Q8	~35GB	极快（3B active）
Gemma 4 31B	Q4_OptiQ	~18GB	~12 tok/s
DeepSeek V3.2	Q4	~40GB	~3 tok/s
Qwen 3.6-27B	FP16	~54GB ❌	超了
Llama 4 Scout (109B)	Q2	~55GB ❌	超了

冠军推荐：Gemma 4 31B Q8_MLX（mlx_lm.server --model mlx-community/gemma-4-31b-it-8bit）

质量接近无损，支持多模态（图像/视频），140+ 语言，Apache 2.0。这是 48GB MacBook 上性价比最高的配置——跑得动、质量好、功能全。

如果想追求速度：选 Qwen 3.6-35B-A3B Q6/Q8（3B 活跃参数，速度比 Gemma 4 31B 快 5-10 倍，编程代理尤其强）。

48GB 跑 Llama 4 Scout（109B） 即使 Q2 也塞不下（~55GB）。想要跑 70B+ 级别模型，至少需要 64GB。

64GB — MacBook Pro M4 Max

可用内存约 55GB。终于可以跑 70B 级别的模型了。

模型	量化	大小	推荐理由
Qwen 3.6-35B-A3B	FP16	~70GB ❌	超了
Devstral 2 123B Instruct	Q4	~84GB ❌	超了
Qwen 3.5 122B A10B	Q4	~82GB ❌	超了
Llama 4 Scout (109B)	Q4	~55GB ✅	终于能跑了！ 10M 上下文窗口
Gemma 4 31B	FP16	~62GB ❌	略超，但 Q8 很轻松
DeepSeek V3.2	Q4	~40GB ✅	通顺跑
Qwen 3.6-35B-A3B	Q8	~35GB ✅	轻松跑

64GB 最大的意义是可以跑 Llama 4 Scout Q4——109B MoE（17B 活跃）配合 10M 上下文窗口，适合超长文档分析。

注意：FP16 的 Gemma 4 31B（~~62GB）差一点就塞不进 64GB，建议跑 Q8（~~33GB）。

128GB — MacBook Pro M4 Max / Mac Studio

可用内存约 115GB。几乎可以跑所有开源模型（除了 DeepSeek V4 Pro 那样的 1.6T 巨兽）。

模型	量化	大小	速度
Gemma 4 31B	FP16	~62GB ✅	原生精度
Llama 4 Scout (109B)	Q8	~110GB ✅	近无损
Llama 4 Maverick (400B)	Q4	~200GB ❌	超了
DeepSeek V4 (1T)	Q4	~500GB ❌	数据中心级
Qwen 3.5 122B A10B	Q4	~82GB ✅	10B 活跃
Devstral 2 123B	Q4	~84GB ✅	123B 总参数

128GB 可以跑 Llama 4 Scout Q8（近无损，17B 活跃）或 Qwen 3.5 122B A10B Q4（10B 活跃，速度极快）。

但要清醒：想要跑 DeepSeek V4 Pro（1.6T）或 Llama 4 Maverick（400B），即使是 Mac Studio 512GB 也吃力——这些模型是数据中心级的。

快速决策表（含排名）

内存	🥇 首选	🥈 备选	量化	一句话理由
8GB	Gemma 4 E4B	Phi-4 Mini	Q4	唯一能跑的多模态模型
16GB	Gemma 4 26B A4B	Qwen 3.6-27B	Q4	速度质量兼顾，MoE 效率高
24GB	Gemma 4 31B	Qwen 3.6-35B-A3B	Q4	旗舰质量的起点
36GB	Gemma 4 31B	Qwen 3.6-35B-A3B	Q8/Q6	近无损旗舰
48GB	Gemma 4 31B Q8	Qwen 3.6-35B-A3B Q8	Q8	综合最优解，首选！
64GB	Llama 4 Scout	Qwen 3.5 122B A10B	Q4	终于能跑 100B+ 了
128GB	Llama 4 Scout Q8	Qwen 3.5 122B A10B	Q8/Q4	本地工作站级

模型深度对比：七大维度横向评测

不同模型各有专长。以下从七个核心维度对比 Mac 上最热门的五个模型（全部以 Q4 量化、同等条件下对比）。

1. 架构对比：MoE vs 密集（Dense）

	Qwen 3.6-35B-A3B	Gemma 4 31B	Gemma 4 26B A4B	Qwen 3.6-27B	DeepSeek V3.2
总参数	35B	31B	25.2B	27B	685B
活跃参数/词元	3B	31B	3.8B	27B	37B
架构	MoE	密集	MoE	密集	MoE
内存占用 Q4	~21GB	~18GB	~15GB	~16GB	~40GB
推理速度	极快	中等	快	中等偏慢	慢

关键理解： MoE 模型（如 Qwen 3.6-35B-A3B）虽然总参数大，但每次推理只激活一小部分，所以内存占满但速度快。密集模型（如 Gemma 4 31B）所有参数都参与计算，质量更稳定但速度较慢。Qwen 3.6-35B-A3B 以 3B 活跃参数在 SWE-bench 上击败 Gemma 4 31B 的 31B 全活跃，证明了 MoE 架构的潜力。

速度公式（理论天花板）：带宽 ÷ 每词元读取参数。M4 Pro 273 GB/s ÷ 3B × 2字节 ≈ 45 tok/s（MoE），÷ 31B × 2字节 ≈ 4 tok/s（密集）。

2. 编程与代理能力对比

基准	Qwen 3.6-35B-A3B	Gemma 4 31B	Gemma 4 26B	Qwen 3.6-27B	DeepSeek V3.2
SWE-bench Verified	73.4%	52.0%	—	—	62.0%
LiveCodeBench v6	—	80.0%	77.1%	—	—
HumanEval	~85%	82.7%	—	~82%	~88%
工具调用	✅	✅	✅	✅	✅
代理工作流	✅ 强	✅	✅	✅	✅

结论： 编程最强的本地模型是 Qwen 3.6-35B-A3B。它的 SWE-bench 73.4% 不仅远超同尺寸的 Gemma 4 31B（52%），甚至接近 Claude Sonnet 4.5 的水平。如果你主要写代码，这是首选。

注意：SWE-bench 测试的是真实 GitHub issue 修复能力，比 HumanEval 这类单函数补全题更有实际参考价值。

3. 推理与数学能力对比

基准	Gemma 4 31B	Qwen 3.6-35B-A3B	Gemma 4 26B	Qwen 3.6-27B
AIME 2026	89.2%	—	88.3%	—
GPQA Diamond	84.3%	—	82.3%	—
MATH-500	~68.5%	~72%	—	~70%
MMLU-Pro	85.2%	~75%	82.6%	~78%
GSM8K (Q4)	96.0%	~92%	94.0%	~90%

结论： Gemma 4 31B 是推理之王。 在 AIME（数学竞赛）和 GPQA（研究生级科学推理）上明显领先所有其他本地模型。如果你的任务涉及数理逻辑、科学分析，Gemma 4 31B 是唯一选择。

4. 多语言能力对比

语言	Gemma 4 31B	Qwen 3.6-35B-A3B	Qwen 3.6-27B	DeepSeek V3.2
中文	~84%	~87%	~87%	~84%
英语	基准	基准	基准	基准
日语	~81%	~72%	~73%	~66%
法语/德语	优秀	良好	良好	一般
越南语/泰语	优秀	一般	一般	差
总支持语言	140+	~30	~30	~30

结论： 多语言只有 Gemma 4 系列能打。Google 的训练数据覆盖 140+ 种语言，而 Qwen 的中文优秀，其他语言明显偏弱。如果你的用户在日本、东南亚、欧洲，选 Gemma 4 省去很多麻烦。

5. 多模态能力对比

能力	Gemma 4 31B	Gemma 4 26B	Qwen 3.6-35B-A3B	Qwen 3.6-27B	DeepSeek V3.2
文本	✅	✅	✅	✅	✅
图像	✅	✅	✅	✅	❌
视频	✅	✅	❌	❌	❌
音频	❌（仅 E2B/E4B）	❌	❌	❌	❌
视觉编码器	550M 参数	550M 参数	内置	内置	无
MMMU Pro	76.9%	73.8%	—	—	—

结论： Gemma 4 31B 是多模态首选。 同时支持图像和视频输入，MMMU Pro 76.9% 是本地开源模型最高水平。Qwen 3.6 也支持图像，但视频不支持。DeepSeek V3.2 没有多模态能力。

6. 许可证对比（商业使用）

模型	许可证	商用限制	可修改	可蒸馏
Gemma 4 系列	Apache 2.0	无限制	✅	✅
Qwen 3.6 系列	Apache 2.0	无限制	✅	✅
Llama 4 Scout	Llama 4 自定义	700M MAU 上限	✅	⚠️ 有限制
DeepSeek V3.2	MIT	无限制	✅	✅
DeepSeek V4 Flash	MIT	无限制	✅	✅

结论： 大多数 2026 年新模型都采用了宽松许可证。Gemma 4 和 Qwen 3.6 都是 Apache 2.0，可无限制商用。Llama 4 仍有月活用户上限（700M），做大产品时需要注意。

7. 量化损失对比：不同精度下质量退化

同一模型在不同量化级别下的表现差异巨大。以 GSM8K（数学推理）为例：

量化级别	Gemma 4 31B	Gemma 4 26B	Gemma 4 E4B
FP16 (无损)	98%	97%	68%
Q8 (近无损)	97%	96%	60%
Q4_OptiQ (智能)	96.0%	94.0%	—
Q4 均匀	96.0%	93.0%	23.5% ← 崩塌！
Q3 均匀	91.0%	87.0%	15.0%

⚠️ 重要发现： 小模型（如 E4B）在 Q4 下会质量崩塌（68%→23.5%）。这是因为参数总量少，量化误差占比大。用 mlx-optiq 的智能量化可部分恢复（E4B 从 23.5% 恢复到 55.5%），但仍有损失。大模型（31B）在 Q4 下几乎不受影响（98%→96%）。

实用建议：

31B+ 大模型： 放心用 Q4，损失 <2%
7B- 小模型： 尽量跑 Q8 或 FP16，Q4 下质量明显下降
MoE 模型： 量化对路由层影响不可预测，尽量保持 Q6 以上

按使用场景的最终推荐（含排名）

你的主要用途	🥇 第一选择	🥈 第二选择	🥉 第三选择	量化	最低内存
编程 / AI 代理	Qwen 3.6-35B-A3B	Gemma 4 31B	DeepSeek V3.2	Q4	24GB
数学 / 科学推理	Gemma 4 31B	Gemma 4 26B	Qwen 3.6-35B-A3B	Q8	36GB
多语言应用	Gemma 4 31B	Gemma 4 26B	Qwen 3.6-27B	Q8	36GB
多模态（图像理解）	Gemma 4 31B	Gemma 4 26B	Qwen 3.6-35B-A3B	Q8	36GB
日常聊天 / 写作	Qwen 3.6-27B	Gemma 4 26B	Gemma 4 31B	Q4	16GB
超长文档分析	Llama 4 Scout	—	—	Q4	64GB
低成本入门（8GB）	Gemma 4 E4B	Phi-4 Mini	Qwen 3.5 4B	Q4	8GB
低成本入门（16GB）	Gemma 4 26B A4B	Qwen 3.6-27B	—	Q4	16GB
隐私敏感、离线使用	Gemma 4 31B Q8	Qwen 3.6-35B-A3B Q8	Llama 4 Scout Q4	越高越好	48GB+

实用提示

工具推荐：用 ollama 一键跑（ollama run gemma4:31b），用 mlx_lm 跑 MLX 优化版（Mac 上速度比 llama.cpp 快 20-30%）。
量化选型：Q4 损失约 2-5% 质量但节省 75% 内存；Q8 损失 <1% 但只省 50%。48GB 及以上建议 Q8。
上下文窗口：长上下文（>32K）会消耗大量额外内存用于 KV cache。跑 256K 上下文时，预留至少比模型文件大 30-50% 的内存。
多模态注意：Gemma 4 的视觉编码器会增加约 2-3GB 内存占用。

最后更新：2026 年 5 月。模型发布节奏极快，建议每月复查一次推荐列表。

Brave 回复 2 weeks, 5 days ago 1 成員 · 0 回复

0 回复

歡迎留言回复交流。

登入後即可回复

人工智能研究

組織者: