DCGM

1 개요[ | ]

NVIDIA Data Center GPU Manager (DCGM)
NVIDIA 데이터센터 GPU 매니저, 엔비디아 DCGM
  • 클러스터 환경에서 NVIDIA 데이터 센터 GPU를 관리하고 모니터링하기 위한 도구 모음
  • 활성 상태 모니터링, 포괄적인 진단, 시스템 경고, 전원 및 시계 관리를 포함한 거버넌스 정책이 포함된다.
  • 인프라 팀에서 독립형으로 사용할 수 있으며 NVIDIA 파트너의 클러스터 관리 도구, 리소스 예약 및 모니터링 제품에 쉽게 통합됩된다.
  • 데이터 센터의 GPU 관리를 단순화하고, 리소스 안정성과 가동 시간을 개선하고, 관리 작업을 자동화하고, 전반적인 인프라 효율성을 높이는 데 도움을 준다.
  • x86_64, Arm, POWER(ppc64le) 플랫폼에서 Linux 운영체제를 지원한다.
  • 설치 프로그램 패키지에는 라이브러리, 바이너리, NVVS(NVIDIA Validation Suite) 및 API(C, Python, Go) 사용을 위한 소스 예제가 포함되어 있다.
  • DCGM-Exporter를 사용하여 Kubernetes 생태계에 통합되어 컨테이너화된 환경에서 풍부한 GPU 원격측정을 제공한다.

2 같이 보기[ | ]

3 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}