NVIDIA에서 오픈소스 소프트웨어로 제공되는 머신러닝 모델 inference 서버

 

1. 아키텍쳐

Model Repository에 모델 파일들을 올려놓으면 클라이언트가 api로 추론 요청 후 결과를 받을 수 있다.

간단한 사용 예

2. Model Repository [—model-repository]

서빙할 모델 파일들을 저장. 서버의 로컬 또는 클라우드 저장소도 가능

launch할때 옵션으로 여러 개 선택 가능

 

2-1. Model Management [—model-control-mode]

  • none
    • Repository의 모든 모델 로드, 가동 중에는 Rspository 변경 사항이나 management 요청을 무시
  • explicit [—load-model]
    • —load-model 옵션으로 명시된 모델만 로드, 없으면 아무것도 로드하지 않음
  • poll [—repository-poll-secs]
    • 모든 모델을 로드 후 주기적으로 변경 사항을 감지하여 재로드, management 사용 불가

 

2-2. Model Configuration

config.pdtxt 파일에 작성, 필수 옵션 = backend, max_batch_size, input, output

 

 

출처 

https://peaceatlast.tistory.com/25

 

NVIDIA Triton 한 눈에 알아보기

GitHub - triton-inference-server/client: Triton Python, C++ and Java client libraries, and GRPC-generated client examples for go Triton Python, C++ and Java client libraries, and GRPC-generated client examples for go, java and scala. - GitHub - triton-infe

peaceatlast.tistory.com

 

https://github.com/triton-inference-server/server

 

GitHub - triton-inference-server/server: The Triton Inference Server provides an optimized cloud and edge inferencing solution.

The Triton Inference Server provides an optimized cloud and edge inferencing solution. - GitHub - triton-inference-server/server: The Triton Inference Server provides an optimized cloud and edge i...

github.com

 

 

 

'MLOps(DevOps)' 카테고리의 다른 글

[Linux, Docker] docker 파일 용량 확인/삭제  (0) 2025.12.01
RabbitMQ [AMQP / MQTT 비교]  (0) 2025.11.12

+ Recent posts