服务限制

grps支持tf和torch显存限制功能，适用于共享gpu场景；同时也只支持服务请求的并发限制。这些限制是通过配置实现的。

快捷部署

通过grpst tf_serve/torch_serve的参数实现，如下参数：

--max_connections 100  # 设置最大连接数
--max_concurrency 10  # 设置最大推理并发数
--gpu_devices_idx 4  # GPU限制和监控的设备号，可以是多个，用逗号分隔，在服务指标页面可以看到对应的GPU卡使用率和显存大小，且会当指定了显存限制时，会对对应GPU卡的显存进行限制
--gpu_mem_limit_mib 4096  # 设置模型运行的显存限制
--gpu_mem_gc_enable  # 设置开启显存定时垃圾回收，tf_serve暂时不支持
--gpu_mem_gc_interval 60  # 设置显存定时垃圾回收的时间间隔，单位为秒

自定义模型工程

通过配置文件server.yml实现，见server.yml配置。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

15_ServiceLimit.md

15_ServiceLimit.md

服务限制

快捷部署

自定义模型工程

Files

15_ServiceLimit.md

Latest commit

History

15_ServiceLimit.md

File metadata and controls

服务限制

快捷部署

自定义模型工程