V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
wxd21020
V2EX  ›  OpenAI

监控智算中心设备,包括 GPU 等

  •  
  •   wxd21020 · Jul 29, 2024 · 1955 views
    This topic created in 640 days ago, the information mentioned may be changed or developed.

    有一个千卡,甚至是万卡级的智算中心,我们想做个监控平台,来监控这个智算中心 GPU 、算力、电量等等一些参数,主要是想看每个卡及整个智算中心的使用情况以及物理卡是否被人掉包等情况,老哥们有啥点子没?

    7 replies    2024-07-29 11:31:39 +08:00
    WorldDominator
        1
    WorldDominator  
       Jul 29, 2024
    这种运维超级麻烦,机器一多光是光模块掉线就够头疼了,国内有能力运维万卡集群的估计是个位数公司
    监控设备厂商有解决方案可以直接买的,这种卡都是焊接的也没法掉包吧。一定要自己搞 ipmi api 可以,npu 信息可以从类似 nvidia-smi 的输出里解析
    julyclyde
        2
    julyclyde  
       Jul 29, 2024
    你可以问问 AI 应该怎么做啊
    wxd21020
        3
    wxd21020  
    OP
       Jul 29, 2024
    @WorldDominator 我们主要就输作为投资方想监控设备及使用情况。就是想通过 api 进行调用监控。
    @julyclyde 还真是忘了问 GPT 了
    qaz999
        4
    qaz999  
       Jul 29, 2024
    有预算吗,我们这有现成的商业平台。
    wxd21020
        5
    wxd21020  
    OP
       Jul 29, 2024
    @qaz999 可以给领导提一下,看看后续是否要采购,能给介绍一下产品吗?
    qaz999
        6
    qaz999  
       Jul 29, 2024
    @wxd21020 来个微信?
    wxd21020
        7
    wxd21020  
    OP
       Jul 29, 2024
    @qaz999 就是 V2 的 id
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5502 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 48ms · UTC 03:12 · PVG 11:12 · LAX 20:12 · JFK 23:12
    ♥ Do have faith in what you're doing.