V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
lrabbit
V2EX  ›  问与答

关于超高并发模型部署方案的选择

  •  
  •   lrabbit · Aug 5, 2022 · 1929 views
    This topic created in 1361 days ago, the information mentioned may be changed or developed.

    最近要部署一个 yolo 模型服务,这个服务需要保证上万的并发同时低延时返回模型的预测结果,我目前测试了以下方案。 1.最初尝试购买 GPU 云服务器,模型转化为 onnx,用 bentoml 这样开源框架打包镜像部署,但是发现并发高的时候就会阻塞,很多请求都等待了半分钟以上的时间才返回结果。目前我猜测是 GPU 达到了最高的并发处理数。

    后来我又采用 triton 服务把模型上传到 oss 上,自己再写一个 grpc 的服务进行图片结果的预处理給 k8s 集群调用获取最终结果。这样只需要我只需要动态的增加 triton 的节点就可以保证高并发的要求。但是 k8s 进行动态扩容都需要很长的时间,根本没办法满足要求。搞了这么久发现通过增加服务器的方式根本满足了现在的需求。

    又去调研了一下 google ai platform,文档里又没找到关于 pytoch,onnx 格式的支持。

    就想问问你们对于这种高并发模型推理,都用什么平台和方式部署。

    3 replies    2022-08-06 13:27:54 +08:00
    lookStupiToForce
        1
    lookStupiToForce  
       Aug 5, 2022
    这是至少价值 100 万以上的解决方案,v 友们快来免费分享吧(狗头
    hxndg
        2
    hxndg  
       Aug 6, 2022
    高并发,低时延,然后还要 k8s 快速动态扩容感觉有点难啊。
    预测能不能利用 cache 呢?
    lrabbit
        3
    lrabbit  
    OP
       Aug 6, 2022
    @hxndg cache 这种 triton 就本身自带了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5581 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 49ms · UTC 06:02 · PVG 14:02 · LAX 23:02 · JFK 02:02
    ♥ Do have faith in what you're doing.