목록2024/07/07 (1)
차근차근 한걸음씩 개발 일기
[서버 관리] 서버 정전 시 GPU 동작하지 않을 때 대처 방안
건물의 정전 때문에 운영 중인 서버가 한번씩 다운이 된다. 그때마다 하드웨어에 문제가 발생하곤 한다. 운이 좋은 경우 선을 다시 뽑았다가 연결할 경우 정상동작하지만, 운이 좋지 않으면 적게는 GPU가 나가거나, 최악에는 메모리가 통째로 날라가곤한다. 이 글은 정전 후 GPU가 연결이 되지 않을 때의 대처방안에 대해 적어둔 글이다. NVIDIA 드라이버 오류와 관련된 문제를 해결하기 위한 가이드이다. 정전이나 예기치 않은 셧다운으로 인해 발생한 드라이버 오류를 해결하는 과정은 다음과 같다.오류 원인이 오류는 주로 NVIDIA 드라이버를 사용하는 딥러닝 프로세스가 실행 중일 때 서버의 전원이 갑자기 꺼지거나 시스템이 종료될 경우 발생한다. 예를 들어, 연구실 정전으로 인해 서버가 갑자기 셧다운된 후에 이 오..
서버 인프라 관리/소프트웨어
2024. 7. 7. 23:05