V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
mmdsun
V2EX  ›  问与答

现在有哪些支持实时视频/视觉的大模型?

  •  1
     
  •   mmdsun · Mar 31, 2025 · 1521 views
    This topic created in 392 days ago, the information mentioned may be changed or developed.
    请问现在国内外有哪些支持实时视频视觉的大模型 API ,大家有推荐的吗?(优先国内模型 海外也行)

    就像之前 Openai 发布会那种,可以视频通话,实时对话那种的。
    或者 Copilot Pro 那种,实时捕获电脑桌面,指导用户玩游戏的。

    想用他们分析视频流,分析结果输出 json 等格式存储,不知思路是否可行。谢谢。
    2 replies    2025-03-31 13:25:51 +08:00
    hwdq0012
        1
    hwdq0012  
       Mar 31, 2025   ❤️ 1
    视频也是拆成单帧送去推理的,ultraclity yolo 这种不算什么大模型吧,但是能把视频做成结构化数据,再用大模型加工
    suke119
        2
    suke119  
       Mar 31, 2025   ❤️ 1
    Qwen2.5-Omni . 千问的 ai 对话那里点击 有个实时视频对话

    [Qwen2.5-Omni 和 minicpm-v 对比]( https://stable-learn.com/zh/qwen-omni-vsminicpm-v/)
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   997 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 22:25 · PVG 06:25 · LAX 15:25 · JFK 18:25
    ♥ Do have faith in what you're doing.