V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Livid
271.62D
573.3D
V2EX  ›  Local LLM

用 antirez 的 llama.cpp fork 把 DeepSeek v4 Flash 在本地跑起来了

  •  
  •   Livid ·
    PRO
    · Apr 28 · 4592 views
    15 replies    2026-05-03 22:08:30 +08:00
    Livid
        1
    Livid  
    MOD
    OP
    PRO
       Apr 28
    洗车测试也过了,不过从思考过程来看是它知道这是一道 typical 测试题:

    940i3s34v4F1HW41
        2
    940i3s34v4F1HW41  
    PRO
       Apr 28
    Tink
        3
    Tink  
    PRO
       Apr 28
    是啥硬件跑的呢
    Livid
        4
    Livid  
    MOD
    OP
    PRO
       Apr 28
    @Tink M4 128G
    ares001
        5
    ares001  
    PRO
       Apr 28
    实际运行起来占用多少显存?
    Hermitist
        6
    Hermitist  
       Apr 28
    sentinelK
        7
    sentinelK  
       Apr 28
    相较而言,个人体感还是 Qwen3.6 35B A3B 在 localLLM 上跑的更顺一点,benchmark 评分也是和 v4 flash 互有胜负
    Tathagatagarbha
        8
    Tathagatagarbha  
       Apr 28
    向大佬学习
    unnyxi
        9
    unnyxi  
       Apr 29
    @sentinelK 如果 Qwen3.6 35B A3B 和 v4 flash 互有胜负,Qwen 3.6 27B 岂不是碾压 v4 flash 了...
    elepant
        10
    elepant  
       Apr 29
    跑起来 和 好用,真的是两码事。M4 本地跑 LLM ,响应是真的是慢。。。
    sentinelK
        11
    sentinelK  
       Apr 29
    @unnyxi 如果是默认的思考长度的话,是的,但是 27B 目前还打不过 flash 的 max 思考长度
    PeterTanJJ
        12
    PeterTanJJ  
       Apr 29
    Qwen3.6 35B A3B 速度很快,有试过没?

    这个 flah 感觉不如 minimax
    xuhengjs
        13
    xuhengjs  
       Apr 29
    期待 qwen3.6-36B-A3B 的终极优化方案
    PeterTanJJ
        14
    PeterTanJJ  
       Apr 29
    @unnyxi 27B 的输出速度不行
    jinsongzhaocn
        15
    jinsongzhaocn  
       4 days ago
    @PeterTanJJ 27b 的速度,参数和 post 结构影响很大. 我经历过 11 秒到 1 秒的提速
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1070 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 58ms · UTC 18:14 · PVG 02:14 · LAX 11:14 · JFK 14:14
    ♥ Do have faith in what you're doing.