목록백엔드 및 서버 개발/소프트웨어 (1)
DevWalk

건물의 정전 때문에 운영 중인 서버가 한번씩 다운이 된다. 그때마다 하드웨어에 문제가 발생하곤 한다. 운이 좋은 경우 선을 다시 뽑았다가 연결할 경우 정상동작하지만, 운이 좋지 않으면 적게는 GPU가 나가거나, 최악에는 메모리가 통째로 날라가곤한다. 이 글은 정전 후 GPU가 연결이 되지 않을 때의 대처방안에 대해 적어둔 글이다. NVIDIA 드라이버 오류와 관련된 문제를 해결하기 위한 가이드이다. 정전이나 예기치 않은 셧다운으로 인해 발생한 드라이버 오류를 해결하는 과정은 다음과 같다.오류 원인이 오류는 주로 NVIDIA 드라이버를 사용하는 딥러닝 프로세스가 실행 중일 때 서버의 전원이 갑자기 꺼지거나 시스템이 종료될 경우 발생한다. 예를 들어, 연구실 정전으로 인해 서버가 갑자기 셧다운된 후에 이 오..
백엔드 및 서버 개발/소프트웨어
2024. 7. 7. 23:05