Qwen3.5-35B-A3B

2 月 25 日

Livid

vLLM 部署的话，需要用 uv 安装一个 nightly 版本（正常 pip install vllm 的 0.15 版本用不了）：

pip install uv
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

2395 次点击

所在节点

6 条回复

tthem

2 月 25 日

m2max 64GB 内存，能跑的起来吗

Livid

2 月 25 日

@tthem 能。

16G 的 4080 用 LM Studio 都可以跑起来。

046569

2 月 25 日

@tthem
M1 Max 32G q4 能跑到 60t/s.
@Livid
已经用上了,除了偶尔逻辑混乱分不清自己知识库的时间(一会说自己 2024 年的知识库,一会说 2026 年),其它都挺好,准备换掉 2507.

gigishy

2 月 26 日

@tthem 35b 你哪怕 48g 内存都能舒畅跑起来。我 32g 内存 m2 跑 32b 没有感觉不便。

Jackyxiaoc

3 月 2 日

这个模型跑龙虾咋样，够用么

stefwoo

3 月 19 日

@Jackyxiaoc https://pinchbench.com/
这个测评网站里面，这个模型跑龙虾还行，不过比 27B 要差五个百分点左右。

我的显卡是 3090 ，我现在就在犹豫是跑 27B 还是 35B ，27B 还是太慢了。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.