关于超高并发模型部署方案的选择

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 1361 days ago, the information mentioned may be changed or developed.

最近要部署一个 yolo 模型服务，这个服务需要保证上万的并发同时低延时返回模型的预测结果，我目前测试了以下方案。 1.最初尝试购买 GPU 云服务器，模型转化为 onnx,用 bentoml 这样开源框架打包镜像部署，但是发现并发高的时候就会阻塞，很多请求都等待了半分钟以上的时间才返回结果。目前我猜测是 GPU 达到了最高的并发处理数。

后来我又采用 triton 服务把模型上传到 oss 上，自己再写一个 grpc 的服务进行图片结果的预处理給 k8s 集群调用获取最终结果。这样只需要我只需要动态的增加 triton 的节点就可以保证高并发的要求。但是 k8s 进行动态扩容都需要很长的时间，根本没办法满足要求。搞了这么久发现通过增加服务器的方式根本满足了现在的需求。

又去调研了一下 google ai platform,文档里又没找到关于 pytoch,onnx 格式的支持。

就想问问你们对于这种高并发模型推理，都用什么平台和方式部署。

模型

并发

onnx

triton

3 replies • 2022-08-06 13:27:54 +08:00