Decentralization? We're still early!

2026年 MacBook 本地大模型选择指南:哪个最适合你

  • 2026年 MacBook 本地大模型选择指南:哪个最适合你

    發布人 Brave 2026-05-21 04:26

    统一内存(Unified Memory)是 Apple Silicon Mac 在本地 AI 领域最大的护城河。CPU 和 GPU 共享同一片内存池,意味着你不需要像 PC 那样把模型塞进显存——Mac 能直接跑比同价位 NVIDIA 显卡大得多的模型。代价是带宽较低(M4 Pro 273 GB/s vs RTX 4090 的 1008 GB/s),所以推理速度会慢一些,但能跑动的模型规模是实打实的优势。

    但在按内存选模型之前,先搞清楚一个更重要的问题:这些模型的综合实力到底怎么排? 不看硬件只看能力,排名如下。


    综合能力总排名(无关硬件,纯实力排序)

    基于 SWE-bench(编程)、AIME(数学)、GPQA(科学)、MMLU-Pro(知识)、多模态、多语言六大维度加权评分:

    排名模型综合评分最强项最弱项适合谁
    🥇Gemma 4 31BA+推理、多模态、多语言速度偏慢全场景通用
    🥈Qwen 3.6-35B-A3BA编程、速度多语言弱,仅 3B 活跃 = 上下限波动大程序员
    🥉Qwen 3.6-27BA-中文、稳定性无多模态视频,速度一般中文用户
    4Gemma 4 26B A4BA-速度/质量平衡、多模态知识面略窄于 31B内存有限但需多模态
    5Llama 4 ScoutB+10M 超长上下文需 64GB+,许可证有 MAU 限制超长文档分析
    6DeepSeek V3.2B+编程 & 数学无多模态,速度慢纯文本编程
    7Gemma 4 E4BB手机/边缘端可跑Q4 下质量崩塌8GB 极限用户
    8Llama 4 MaverickB400B 总参数潜力Mac 上跑不动(需 200GB+)数据中心用户

    ⚠️ 核心结论:Gemma 4 31B 是当前本地模型的无争议冠军。 它唯一的短板是推理速度。如果速度对你比质量更重要,选 Qwen 3.6-35B-A3B。


    MacBook 性能基准排名(硬件实测排序)

    同一模型在不同 Mac 配置上的实际推理速度(tok/s):

    排名模型量化M4 Pro 48GBM4 Max 128GBM3 Max 48GB适合什么
    🥇Qwen 3.6-35B-A3BQ4~35 tok/s~50 tok/s~40 tok/s高速编程
    🥈Qwen 3.6-35B-A3BQ8~20 tok/s~30 tok/s~25 tok/s高质量编程
    🥉Gemma 4 31BQ4_OptiQ~12 tok/s~18 tok/s~14 tok/s均衡之选
    4Gemma 4 26B A4BQ4~15 tok/s~22 tok/s~17 tok/s限内存多模态
    5Gemma 4 31BQ8_MLX~6 tok/s~9 tok/s~7 tok/s最高质量
    6DeepSeek V3.2Q4~3 tok/s~5 tok/s~4 tok/s已过时
    7Llama 4 ScoutQ4跑不动~4 tok/s跑不动超长上下文

    速度感知: 6 tok/s 是「流畅阅读」的最低门槛。低于 6 tok/s 时,你能明显感觉到模型在"一个字一个字往外蹦"。12+ tok/s 才是舒适的交互体验。35 tok/s 和 GPT-4o 旗鼓相当。


    以下按内存容量从小到大,推荐每个档位最值得跑的模型。


    8GB — MacBook Air M1/M2/M3 基础款

    可用内存约 6GB,只能跑最小的模型。

    模型量化大小推荐理由
    Gemma 4 E2B/4BQ4~3GB多模态(文本+图像+音频),Apache 2.0,手机级模型
    Phi-4 MiniQ4~3GB推理能力强,微软出品
    Qwen 3.5 4BQ4~2.5GB中文好,通义千问家族

    不推荐跑超过 7B 的模型——8GB 强行跑 7B Q4 会溢出到 swap,速度慢到不可用。


    16GB — MacBook Air M3/M4 / MacBook Pro 基础款

    可用内存约 13GB,是 2026 年最主流的学生/轻办公配置。

    模型量化大小推荐理由
    Qwen 3.6-27BQ4_K_M~16GB编程、推理、中文全面,Apache 2.0,256K 上下文
    Gemma 4 26B A4BQ4~15GB仅 3.8B 活跃参数,速度快,多模态
    Gemma 4 31BQ4_OptiQ~18GB勉强塞下,质量最高但速度略慢

    最佳选择:Gemma 4 26B A4B Q4(3.8B 活跃参数,推理速度很快)或 Qwen 3.6-27B Q4(中文更优)。

    不推荐跑 70B 以上模型——即使 Q2 量化也塞不下。


    24GB — MacBook Pro M4 Pro 中配

    可用内存约 20GB。这个容量可以跑大部分 30B 级别模型的高质量量化版。

    模型量化大小推荐理由
    Gemma 4 31BQ8~31GB ❌8-bit 超出,只能跑 Q4
    Gemma 4 31BQ4_OptiQ~18GB ✅最佳质量,96% GSM8K 保持率
    Qwen 3.6-35B-A3BQ4_K_M~21GB ✅仅 3B 活跃参数,速度极快,编程最强
    Gemma 4 26B A4BQ8~28GB ❌略超
    Llama 4 ScoutQ4~55GB ❌塞不下

    最佳选择:Gemma 4 31B Q4_OptiQQwen 3.6-35B-A3B Q4。前者质量最高,后者速度最快。


    36GB — MacBook Pro M4 Pro / M4 Max 中高配

    可用内存约 30GB。可以跑 31B 模型的 8-bit 量化,或者 70B 模型的极低量化。

    模型量化大小速度 (预估)
    Gemma 4 31BQ8_MLX~33GB~6 tok/s
    Qwen 3.6-35B-A3BQ6_K~30GB快(3B active)
    Gemma 4 31BQ4_OptiQ~18GB~12 tok/s
    Devstral Small 2 24BQ8~24GB~8 tok/s

    最佳选择:Gemma 4 31B Q8_MLX(质量接近无损,~6 tok/s 在可接受范围)或 Qwen 3.6-35B-A3B Q6_K(速度更快)。


    48GB — MacBook Pro M3/M4 Max 高配

    这是本文开头问题的答案。可用内存约 40GB,可以轻松跑 31B 无损量化,甚至可以尝试 70B 模型。

    模型量化大小速度 (M4 Pro 实测)
    Gemma 4 31BQ8_MLX~33.6GB~6.4 tok/s
    Qwen 3.6-35B-A3BQ8~35GB极快(3B active)
    Gemma 4 31BQ4_OptiQ~18GB~12 tok/s
    DeepSeek V3.2Q4~40GB~3 tok/s
    Qwen 3.6-27BFP16~54GB ❌超了
    Llama 4 Scout (109B)Q2~55GB ❌超了

    冠军推荐:Gemma 4 31B Q8_MLXmlx_lm.server --model mlx-community/gemma-4-31b-it-8bit

    质量接近无损,支持多模态(图像/视频),140+ 语言,Apache 2.0。这是 48GB MacBook 上性价比最高的配置——跑得动、质量好、功能全。

    如果想追求速度:选 Qwen 3.6-35B-A3B Q6/Q8(3B 活跃参数,速度比 Gemma 4 31B 快 5-10 倍,编程代理尤其强)。

    48GB 跑 Llama 4 Scout(109B) 即使 Q2 也塞不下(~55GB)。想要跑 70B+ 级别模型,至少需要 64GB。


    64GB — MacBook Pro M4 Max

    可用内存约 55GB。终于可以跑 70B 级别的模型了。

    模型量化大小推荐理由
    Qwen 3.6-35B-A3BFP16~70GB ❌超了
    Devstral 2 123B InstructQ4~84GB ❌超了
    Qwen 3.5 122B A10BQ4~82GB ❌超了
    Llama 4 Scout (109B)Q4~55GB ✅终于能跑了! 10M 上下文窗口
    Gemma 4 31BFP16~62GB ❌略超,但 Q8 很轻松
    DeepSeek V3.2Q4~40GB ✅通顺跑
    Qwen 3.6-35B-A3BQ8~35GB ✅轻松跑

    64GB 最大的意义是可以跑 Llama 4 Scout Q4——109B MoE(17B 活跃)配合 10M 上下文窗口,适合超长文档分析。

    注意:FP16 的 Gemma 4 31B(62GB)差一点就塞不进 64GB,建议跑 Q8(33GB)。


    128GB — MacBook Pro M4 Max / Mac Studio

    可用内存约 115GB。几乎可以跑所有开源模型(除了 DeepSeek V4 Pro 那样的 1.6T 巨兽)。

    模型量化大小速度
    Gemma 4 31BFP16~62GB ✅原生精度
    Llama 4 Scout (109B)Q8~110GB ✅近无损
    Llama 4 Maverick (400B)Q4~200GB ❌超了
    DeepSeek V4 (1T)Q4~500GB ❌数据中心级
    Qwen 3.5 122B A10BQ4~82GB ✅10B 活跃
    Devstral 2 123BQ4~84GB ✅123B 总参数

    128GB 可以跑 Llama 4 Scout Q8(近无损,17B 活跃)或 Qwen 3.5 122B A10B Q4(10B 活跃,速度极快)。

    但要清醒:想要跑 DeepSeek V4 Pro(1.6T)或 Llama 4 Maverick(400B),即使是 Mac Studio 512GB 也吃力——这些模型是数据中心级的。


    快速决策表(含排名)

    内存🥇 首选🥈 备选量化一句话理由
    8GBGemma 4 E4BPhi-4 MiniQ4唯一能跑的多模态模型
    16GBGemma 4 26B A4BQwen 3.6-27BQ4速度质量兼顾,MoE 效率高
    24GBGemma 4 31BQwen 3.6-35B-A3BQ4旗舰质量的起点
    36GBGemma 4 31BQwen 3.6-35B-A3BQ8/Q6近无损旗舰
    48GBGemma 4 31B Q8Qwen 3.6-35B-A3B Q8Q8综合最优解,首选!
    64GBLlama 4 ScoutQwen 3.5 122B A10BQ4终于能跑 100B+ 了
    128GBLlama 4 Scout Q8Qwen 3.5 122B A10BQ8/Q4本地工作站级


    模型深度对比:七大维度横向评测

    不同模型各有专长。以下从七个核心维度对比 Mac 上最热门的五个模型(全部以 Q4 量化、同等条件下对比)。

    1. 架构对比:MoE vs 密集(Dense)

     Qwen 3.6-35B-A3BGemma 4 31BGemma 4 26B A4BQwen 3.6-27BDeepSeek V3.2
    总参数35B31B25.2B27B685B
    活跃参数/词元3B31B3.8B27B37B
    架构MoE密集MoE密集MoE
    内存占用 Q4~21GB~18GB~15GB~16GB~40GB
    推理速度极快中等中等偏慢

    关键理解: MoE 模型(如 Qwen 3.6-35B-A3B)虽然总参数大,但每次推理只激活一小部分,所以内存占满但速度快。密集模型(如 Gemma 4 31B)所有参数都参与计算,质量更稳定但速度较慢。Qwen 3.6-35B-A3B 以 3B 活跃参数在 SWE-bench 上击败 Gemma 4 31B 的 31B 全活跃,证明了 MoE 架构的潜力。

    速度公式(理论天花板):带宽 ÷ 每词元读取参数。M4 Pro 273 GB/s ÷ 3B × 2字节 ≈ 45 tok/s(MoE),÷ 31B × 2字节 ≈ 4 tok/s(密集)。


    2. 编程与代理能力对比

    基准Qwen 3.6-35B-A3BGemma 4 31BGemma 4 26BQwen 3.6-27BDeepSeek V3.2
    SWE-bench Verified73.4%52.0%62.0%
    LiveCodeBench v680.0%77.1%
    HumanEval~85%82.7%~82%~88%
    工具调用
    代理工作流✅ 强

    结论: 编程最强的本地模型是 Qwen 3.6-35B-A3B。它的 SWE-bench 73.4% 不仅远超同尺寸的 Gemma 4 31B(52%),甚至接近 Claude Sonnet 4.5 的水平。如果你主要写代码,这是首选。

    注意:SWE-bench 测试的是真实 GitHub issue 修复能力,比 HumanEval 这类单函数补全题更有实际参考价值。


    3. 推理与数学能力对比

    基准Gemma 4 31BQwen 3.6-35B-A3BGemma 4 26BQwen 3.6-27B
    AIME 202689.2%88.3%
    GPQA Diamond84.3%82.3%
    MATH-500~68.5%~72%~70%
    MMLU-Pro85.2%~75%82.6%~78%
    GSM8K (Q4)96.0%~92%94.0%~90%

    结论: Gemma 4 31B 是推理之王。 在 AIME(数学竞赛)和 GPQA(研究生级科学推理)上明显领先所有其他本地模型。如果你的任务涉及数理逻辑、科学分析,Gemma 4 31B 是唯一选择。


    4. 多语言能力对比

    语言Gemma 4 31BQwen 3.6-35B-A3BQwen 3.6-27BDeepSeek V3.2
    中文~84%~87%~87%~84%
    英语基准基准基准基准
    日语~81%~72%~73%~66%
    法语/德语优秀良好良好一般
    越南语/泰语优秀一般一般
    总支持语言140+~30~30~30

    结论: 多语言只有 Gemma 4 系列能打。Google 的训练数据覆盖 140+ 种语言,而 Qwen 的中文优秀,其他语言明显偏弱。如果你的用户在日本、东南亚、欧洲,选 Gemma 4 省去很多麻烦。


    5. 多模态能力对比

    能力Gemma 4 31BGemma 4 26BQwen 3.6-35B-A3BQwen 3.6-27BDeepSeek V3.2
    文本
    图像
    视频
    音频❌(仅 E2B/E4B)
    视觉编码器550M 参数550M 参数内置内置
    MMMU Pro76.9%73.8%

    结论: Gemma 4 31B 是多模态首选。 同时支持图像和视频输入,MMMU Pro 76.9% 是本地开源模型最高水平。Qwen 3.6 也支持图像,但视频不支持。DeepSeek V3.2 没有多模态能力。


    6. 许可证对比(商业使用)

    模型许可证商用限制可修改可蒸馏
    Gemma 4 系列Apache 2.0无限制
    Qwen 3.6 系列Apache 2.0无限制
    Llama 4 ScoutLlama 4 自定义700M MAU 上限⚠️ 有限制
    DeepSeek V3.2MIT无限制
    DeepSeek V4 FlashMIT无限制

    结论: 大多数 2026 年新模型都采用了宽松许可证。Gemma 4 和 Qwen 3.6 都是 Apache 2.0,可无限制商用。Llama 4 仍有月活用户上限(700M),做大产品时需要注意。


    7. 量化损失对比:不同精度下质量退化

    同一模型在不同量化级别下的表现差异巨大。以 GSM8K(数学推理)为例:

    量化级别Gemma 4 31BGemma 4 26BGemma 4 E4B
    FP16 (无损)98%97%68%
    Q8 (近无损)97%96%60%
    Q4_OptiQ (智能)96.0%94.0%
    Q4 均匀96.0%93.0%23.5%崩塌!
    Q3 均匀91.0%87.0%15.0%

    ⚠️ 重要发现: 小模型(如 E4B)在 Q4 下会质量崩塌(68%→23.5%)。这是因为参数总量少,量化误差占比大。用 mlx-optiq 的智能量化可部分恢复(E4B 从 23.5% 恢复到 55.5%),但仍有损失。大模型(31B)在 Q4 下几乎不受影响(98%→96%)。

    实用建议:

    • 31B+ 大模型: 放心用 Q4,损失 <2%
    • 7B- 小模型: 尽量跑 Q8 或 FP16,Q4 下质量明显下降
    • MoE 模型: 量化对路由层影响不可预测,尽量保持 Q6 以上

    按使用场景的最终推荐(含排名)

    你的主要用途🥇 第一选择🥈 第二选择🥉 第三选择量化最低内存
    编程 / AI 代理Qwen 3.6-35B-A3BGemma 4 31BDeepSeek V3.2Q424GB
    数学 / 科学推理Gemma 4 31BGemma 4 26BQwen 3.6-35B-A3BQ836GB
    多语言应用Gemma 4 31BGemma 4 26BQwen 3.6-27BQ836GB
    多模态(图像理解)Gemma 4 31BGemma 4 26BQwen 3.6-35B-A3BQ836GB
    日常聊天 / 写作Qwen 3.6-27BGemma 4 26BGemma 4 31BQ416GB
    超长文档分析Llama 4 ScoutQ464GB
    低成本入门(8GB)Gemma 4 E4BPhi-4 MiniQwen 3.5 4BQ48GB
    低成本入门(16GB)Gemma 4 26B A4BQwen 3.6-27BQ416GB
    隐私敏感、离线使用Gemma 4 31B Q8Qwen 3.6-35B-A3B Q8Llama 4 Scout Q4越高越好48GB+

    实用提示

    1. 工具推荐:用 ollama 一键跑(ollama run gemma4:31b),用 mlx_lm 跑 MLX 优化版(Mac 上速度比 llama.cpp 快 20-30%)。
    2. 量化选型:Q4 损失约 2-5% 质量但节省 75% 内存;Q8 损失 <1% 但只省 50%。48GB 及以上建议 Q8。
    3. 上下文窗口:长上下文(>32K)会消耗大量额外内存用于 KV cache。跑 256K 上下文时,预留至少比模型文件大 30-50% 的内存。
    4. 多模态注意:Gemma 4 的视觉编码器会增加约 2-3GB 内存占用。

    最后更新:2026 年 5 月。模型发布节奏极快,建议每月复查一次推荐列表。

    Brave 回复 2 weeks, 5 days ago 1 成員 · 0 回复
  • 0 回复

歡迎留言回复交流。

Log in to reply.

讨论開始
00 回复 2018 年 6 月
現在