都 2026 年了，为什么还有人觉得 AMD 比 Nvidia 更适合部署本地大模型？

五一节假日期间，有一个同事想本地部署大模型，在群里询问，我们都给他推荐了 Nvidia 的卡，结果他去刷 B 站，选择了 AMD AI MAX+ 395 。

难道小白真的就这样被割韭菜吗？

mashimaroinfo1

15 小时 52 分钟前

@Vaspike 说这话的人目前正被唾骂, 安徽都不敢给它建塑像。

c0xt30a

15 小时 31 分钟前

我猜 OP 或者给推荐的同事可能混过卡吧，给出的方案超出预算太多了。
即使年入过百万了，买 NV 系列的硬件部署本地大模型玩也是需要考虑下的。

simo

15 小时 25 分钟前

还真考虑过 amd 这个方案，主要是价格和功耗，2w 左右，96G 显存，打算纯推理，能部署 glm4.7 flash ，qwen3.6 27B, 跑到 50t/s 就够了。

不知道有这套方案的 v 友，效果怎么样？

0xC000009F

15 小时 25 分钟前

@babymonster #87 如果是你付钱的话你让我买啥那我就买啥

babymonster

15 小时 12 分钟前

@0xC000009F 买一个能用了，不需要怎么折腾的，最好是有售后技术支持

squarefong17

14 小时 57 分钟前

@simo qwen 的 27B 不是 MoE ，就算是 int4 量化也跑不到 50t/s ，任何带宽 200-300GB/s 的机器都不可能，不管你是苹果还是 NV 还是 AMD ，这个价位你能选的，M5 pro 、DGX 、jetson orion 都是四通道 LPDDR5(x)，带宽带宽上限锁死了。这种机器能跑到 30-50tokens 的是 35B-A3B 这种（这个数是 395 和 jetson orion 实测），只激活 3B 、5B 的。如果你真的只考虑 27B 这个规模，买张 48G 的 N 卡更合适，不怕炸的话，4090 48G 了解一下，1000GB 大带宽

fcten

14 小时 24 分钟前

@babymonster 前半句不适合个人用户看不见？那你咋不给你同事推荐 H100 、H20 呢？预算不够 A100 也行啊？

liubaicai

12 小时 16 分钟前

@xtreme1 hahaha xiaosile

obeyatonce

12 小时 11 分钟前

可能他的需求只是用，而非自己训练，市面上的 ai+395 的机器出厂基本都自带配置好的 ai 软件了，对于不了解的人肯定是直接买这种成品更省心

leo72638

12 小时 8 分钟前

NV 好是好，就是太贵了，便宜的卡 VRAM 太少了，大点的模型根本跑不了。相对而言大 VRAM 的 395 便宜不少，速度慢点但是起码能跑。

greygoo

11 小时 54 分钟前

@Gemini4422335 #3 不了内存你想多了

deplives

11 小时 45 分钟前

@xtreme1 都怪你，给 op 整破防了都

greygoo

11 小时 44 分钟前

有没有可能就是 mac studio 买不到呢？
为什么适合部署本地大模型要考虑英伟达的卡，现在怎么多 Moe 瓶颈在内存上面，当然是选择 AMD AI MAX+ 395 或者 mac studio 。这个价位不用考虑 Nvidia Jetson Orin 64GB 、Nvidia Jetson Thor T5000 、Nvidia DGX spark ，都是同样的内存带宽。更高的带宽可以选 Mac m3 ultra 但是买不到。所以 395 算是个最优解了。如果要微调或者做其他魔法可能才考虑 nvidia 吧，但是这些任务也可以拿到云上。再说了 AMD AI MAX+ 395 现在又不是不能做微调了，现在也有 wsl 的驱动

，可以装 windows 兼顾游戏。

说实话啊，要是 thor 上面不是那 273GB/s 的带宽，都会无脑选 nvidia 的。

ntdll

11 小时 31 分钟前

从某种意义上来说，这种选择也没毛病，比如要跑个 70B 甚至更大的模型，民用的 nVidia 卡已经无法满足，专业卡的价格也已经上天。而 AMD/Mac 这类统一内存的架构，至少能跑起来，虽然速度比不上纯显存，但是依旧比炸显存后，用内存来中转的情况下，快的多。

这类产品就是在民用的价格下，提供了一个能运行本地大模型的选择。

Tony8Finet

11 小时 25 分钟前

@94

ajax10086

10 小时 31 分钟前

@xtreme1 合订本有点绷不住，都给人家整破防了

kennylam777

9 小时 16 分钟前

@squarefong17 對, 即使是 DGX Spark 這些小機器, VRAM 足夠但跑 20B 以上的 Dense 模型都太慢, 唯一寄望是 Active 單位數字的 MoE

我本地用兩片 3090 + NVLink, 用 vllm 跑 Gemma4 31B FP8 打開 Tensor Parallel, 吃了 800W 電力才剛剛好有 60 tps

SP00F

5 小时 49 分钟前

OP 真的犟啊。。。

用户用脚投票，普通人部署本地大模型自然而然考虑便宜好使的了。

DGX 不比 AMD 的贵？ AMD 我还能关模型打游戏呢，DGX 局限在哪你不看吗？

我不想本地了我内存还能往二手市场上出，你 DGX 局限性又来了。

好了，你说用专业卡，专业卡多贵？本地又不做训练更不做商业化的服务我要那么多专业卡干什么，我上 AMD 不香吗😂

dmine

4 小时 43 分钟前

举个例子，我就是 395+gb10 ，
395 用来路上没网小用一下，
coding 有 cc ，cursor ，antigravity ，
nv 用来试试各种奇奇怪怪的 model

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1210410

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.