都 2026 年了,为什么还有人觉得 AMD 比 Nvidia 更适合部署本地大模型?

22 小时 26 分钟前
 babymonster
五一节假日期间,有一个同事想本地部署大模型,在群里询问,我们都给他推荐了 Nvidia 的卡,结果他去刷 B 站,选择了 AMD AI MAX+ 395 。

难道小白真的就这样被割韭菜吗?
9597 次点击
所在节点    Local LLM
119 条回复
mashimaroinfo1
15 小时 52 分钟前
@Vaspike 说这话的人目前正被唾骂, 安徽都不敢给它建塑像。
c0xt30a
15 小时 31 分钟前
我猜 OP 或者给推荐的同事可能混过卡吧,给出的方案超出预算太多了。
即使年入过百万了,买 NV 系列的硬件部署本地大模型玩也是需要考虑下的。
simo
15 小时 25 分钟前
还真考虑过 amd 这个方案,主要是价格和功耗,2w 左右,96G 显存,打算纯推理,能部署 glm4.7 flash ,qwen3.6 27B, 跑到 50t/s 就够了。

不知道有这套方案的 v 友,效果怎么样?
0xC000009F
15 小时 25 分钟前
@babymonster #87 如果是你付钱的话你让我买啥那我就买啥
babymonster
15 小时 12 分钟前
@0xC000009F 买一个能用了,不需要怎么折腾的,最好是有售后技术支持
squarefong17
14 小时 57 分钟前
@simo qwen 的 27B 不是 MoE ,就算是 int4 量化也跑不到 50t/s ,任何带宽 200-300GB/s 的机器都不可能,不管你是苹果还是 NV 还是 AMD ,这个价位你能选的,M5 pro 、DGX 、jetson orion 都是四通道 LPDDR5(x),带宽带宽上限锁死了。这种机器能跑到 30-50tokens 的是 35B-A3B 这种(这个数是 395 和 jetson orion 实测),只激活 3B 、5B 的。如果你真的只考虑 27B 这个规模,买张 48G 的 N 卡更合适,不怕炸的话,4090 48G 了解一下,1000GB 大带宽
fcten
14 小时 24 分钟前
@babymonster 前半句不适合个人用户看不见?那你咋不给你同事推荐 H100 、H20 呢?预算不够 A100 也行啊?
liubaicai
12 小时 16 分钟前
@xtreme1 hahaha xiaosile
obeyatonce
12 小时 11 分钟前
可能他的需求只是用,而非自己训练,市面上的 ai+395 的机器出厂基本都自带配置好的 ai 软件了,对于不了解的人肯定是直接买这种成品更省心
leo72638
12 小时 8 分钟前
NV 好是好,就是太贵了,便宜的卡 VRAM 太少了,大点的模型根本跑不了。相对而言大 VRAM 的 395 便宜不少,速度慢点但是起码能跑。
greygoo
11 小时 54 分钟前
@Gemini4422335 #3 不了内存你想多了
deplives
11 小时 45 分钟前
@xtreme1 都怪你,给 op 整破防了都
greygoo
11 小时 44 分钟前
有没有可能就是 mac studio 买不到呢?
为什么适合部署本地大模型要考虑英伟达的卡,现在怎么多 Moe 瓶颈在内存上面,当然是选择 AMD AI MAX+ 395 或者 mac studio 。这个价位不用考虑 Nvidia Jetson Orin 64GB 、Nvidia Jetson Thor T5000 、Nvidia DGX spark ,都是同样的内存带宽。更高的带宽可以选 Mac m3 ultra 但是买不到。所以 395 算是个最优解了。如果要微调或者做其他魔法可能才考虑 nvidia 吧,但是这些任务也可以拿到云上。再说了 AMD AI MAX+ 395 现在又不是不能做微调了,现在也有 wsl 的驱动 ,可以装 windows 兼顾游戏。

说实话啊,要是 thor 上面不是那 273GB/s 的带宽,都会无脑选 nvidia 的。
ntdll
11 小时 31 分钟前
从某种意义上来说,这种选择也没毛病,比如要跑个 70B 甚至更大的模型,民用的 nVidia 卡已经无法满足,专业卡的价格也已经上天。而 AMD/Mac 这类统一内存的架构,至少能跑起来,虽然速度比不上纯显存,但是依旧比炸显存后,用内存来中转的情况下,快的多。

这类产品就是在民用的价格下,提供了一个能运行本地大模型的选择。
Tony8Finet
11 小时 25 分钟前
ajax10086
10 小时 31 分钟前
@xtreme1 合订本有点绷不住,都给人家整破防了
kennylam777
9 小时 16 分钟前
@squarefong17 對, 即使是 DGX Spark 這些小機器, VRAM 足夠但跑 20B 以上的 Dense 模型都太慢, 唯一寄望是 Active 單位數字的 MoE

我本地用兩片 3090 + NVLink, 用 vllm 跑 Gemma4 31B FP8 打開 Tensor Parallel, 吃了 800W 電力才剛剛好有 60 tps
SP00F
5 小时 49 分钟前
OP 真的犟啊。。。

用户用脚投票,普通人部署本地大模型自然而然考虑便宜好使的了。

DGX 不比 AMD 的贵? AMD 我还能关模型打游戏呢,DGX 局限在哪你不看吗?

我不想本地了我内存还能往二手市场上出,你 DGX 局限性又来了。

好了,你说用专业卡,专业卡多贵?本地又不做训练更不做商业化的服务我要那么多专业卡干什么,我上 AMD 不香吗😂
dmine
4 小时 43 分钟前
举个例子,我就是 395+gb10 ,
395 用来路上没网小用一下,
coding 有 cc ,cursor ,antigravity ,
nv 用来试试各种奇奇怪怪的 model

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1210410

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX