클러스터간 nfs의 끊어짐 현상..
안녕하세요.
이곳의 도움을 받아 근 두달만에 diskless 클러스터를 구축하고 lam/mpi를 올려서 돌아가는지 확인했습니다. (누군가의 글을 보니 한 두 시간 분량의 작업이라고 하는걸 보고 자괴감에 빠진적도 있었지만...^^; )
답변 주신 분들께 감사드립니다~
그런데 문제가 하나 있습니다.
제목에서 처럼 계산 노드와 마스터 노드간에 nfs가 끊어졌다 붙었다 합니다.
redhat 9.0 에 커널 2.6.4 를 사용하구요 로그파일의 메시지는 다음과 같습니다.
==============================================
nfs : server 192.168.2.1 not responding, still trying
nfs : server 192.168.2.1 OK
nfs : server 192.168.2.1 not responding, still trying
nfs : server 192.168.2.1 OK
nfs : server 192.168.2.1 not responding, still trying
nfs : server 192.168.2.1 OK
==============================================
네크워크의 문제인가 해서 허브를 떼고 크로스 케이블로 연결을 해도 마찬가지이고 dhcp설정에 할당 시간을 아주 크게 해도 마찬가지 입니다.
여기저기 찾아보니 nfs 서버가 부하를 못견딜경우 발생하기도 한다고 하던데 저는 아무 계산도없이 그저 전원만 켜놓은 상태에서도 위와같은 현상이 일어납니다.
보통 하루에 세번정도 저런 일이 일어나는것 같습니다.(아침에 와보면 저렇더라구요..)
그리고, 계산중에 위와같은 일이 벌어진다면 그 계산이 중간에 끊어짐으로 끝까지 수행할수 없게 되는건지 아니면 다시 계속될수 있는건지 궁금합니다.
감사합니다.
NFS를 tcp로 마운트 하면 좀 나아질겁니다.mount -t nfs
NFS를 tcp로 마운트 하면 좀 나아질겁니다.
mount -t nfs -o tcp,sw,bg
로 해보세요.
--------------------------------
윈도위의 리눅스 윈도위의 윈도우 리눅스위의 익스플로러
답변
감사드립니다...
그렇다면 제 /etc/fstab의 설정이
와 같다면 /, /usr, /home, /opt 설정의 option 부분에 tcp,sw,bg을 추가해주면 되는지요...
감사합니다.
a.m.o.r.f.a.t.i.
그렇지요... 물론, 커널이 nfs-tcp를 지원해야합니다.
그렇지요... 물론, 커널이 nfs-tcp를 지원해야합니다.
--------------------------------
윈도위의 리눅스 윈도위의 윈도우 리눅스위의 익스플로러
MyCluster님
말씀대로 커널에 nfs server over tcp support 항목을 확인하고 계산노드의 /etc/fstab 에 위의 옵션을 추가해주었습니다.
그런데 아침에 확인해보니 두번 끊어졌다 붙어있네요...ㅜ.ㅜ
그렇다면 다음은 무엇을 점검해보아야 할까요??
만일 이상태에서 계산하게되면 하루가 넘는 계산양을 계산할시에 정상적으로 수행할수 있을까요??
a.m.o.r.f.a.t.i.
저와 똑같은 문제이네요.어쨌든... 실력이 별로 좋지 못하여 결국 원
저와 똑같은 문제이네요.
어쨌든... 실력이 별로 좋지 못하여 결국 원인을
찾지 못하여 해결을 하지 못했습니다.
어쨌든... 결론은...
Redhat Enterprise Linux AS 3.0 을 설치하여
사용중 입니다. 진짜 30분만에 설치 끝냈지요 ㅡㅡ;
현재 문제없이 아주 잘 사용 중 입니다.
도움을 못드려서 죄송합니다 ㅡ,.ㅡ
답변 감사드립니다.도움이 되었습니다. ^^그렇다면 결국 방
답변 감사드립니다.
도움이 되었습니다. ^^
그렇다면 결국 방법이 없는것인가요.....??
그냥 모른척하자니 너무 무식한짓인것 같고,
교수님은 어떻게 됐냐고 계속 물으시고....
기계공학도가 이 분야의 맛을 좀 보려니 이렇게 힘드는군요..
아직 mpi코드도 짜지 않았지만, 만일 계산 진행중에 nfs가 끊어졌다 붙으면 수행중이던 계산은 죽게될까요??
a.m.o.r.f.a.t.i.
제 생각에는.. 말입니다.
저도 지금 MPI를 설치해서 사용하고 있습니다.
기존 프로그램을 MPI를 엎어서 병렬처리 되게 할라니,
많이 힘들더라고요. MPI로 하긴 했는데, 실행시간의
이득은... 아직 잘 ^^;
NFS 저도 종종 끊어지곤 합니다.
이유는 잘 모르겠구요. 클러스터로 구축하다 보니,
노드들을 다닥다닥 붙여서 열받아서 끊어지는건 아닌지,
의심스럽기도 하고요. 저희는 nfs 만 따로 죽을때도,
있고 노드의 네트웍자체가 다운될때도 있었습니다.
그래서 레드햇9.0으로 설치해서 하니 좀 나아지더군요.
요기까지는 각설하고...
님께서 의문을 가지신 "실행중"에 NFS가 끊어진다면,
제 생각에는 크게 문제가 되지는 않을거 같습니다.
일단 프로그램이 돌아간다면, 메모리 상에서 수행하게 되므로
크게 문제가 되지는 않을거 같습니다.
하지만 다음과 같은 경우에는 문제가 발생할듯 합니다.
1. 프로그램을 컴파일할때, 동적라이브러리를 이용하신다면,
NFS 가 끊어진다면, 라이브러리를 로드할 수 없기 때문에,
실행 에러가 나지 않을까요?
따라서 컴파일 하실때 정적라이브러리로 하는게 좋을겁니다.
2. 파일 출력을 사용하는 경우.
NFS가 끊어졌을경우는... 해당 디렉토리를 못 찾으니까
실행 오류가 나올듯 한데요.
"마무리가 반이다" -- woox
댓글 달기