openmpi 를 multi node 에서 돌릴때, 작업이 돌아가질 않습니다. 원인이 뭘까요?
글쓴이: beyondbelief / 작성시간: 토, 2012/01/21 - 7:38오전
실험실에서 Rocks 클러스터를 새로 설치했습니다.
쿼드코어 threading(x2) 해서 쓰고 있습니다. 노드랑 이더넷으로 연결되어 있구요.
큐 시스템은 Rocks 기본 설정인 SGE 쓰고 있구요. ssh 사용하구요.
문제는 openmpi 작업을 실행하면 노드 하나에서는 시리얼이든 패러럴이든
잘 돌아가는데, 노드를 여러개를 묶어 돌릴때면 큐 상에서는 돌아가는 것 처럼 보이지만,
정작 각 노드에 들어가서 top으로 확인해보면 cpu usage 만 올라가지
memory usage가 0%로 표시되면서 전혀 계산이 돌질 않습니다.
아웃풋도 안써지고 에러 메세지도 출력이 안되구요.
근데 mpich 계열은 또 돌아갑니다. -_- 아주 잘 돌아가는 것은 아니지만..
혹시 이런 문제를 겪어보신 분 있으신지요?
ssh key도 문제없고, nfs 설정도 문제는 없습니다.
firewall 에 상관없이 안돌아가구요.
구글신에 아무리 물어봐도 해결이 안되어 여기 질문 드렸습니다.
고수님들의 답변 부탁드릴께요!!
Forums:
댓글 달기