Cluster에서 아무 이유, 현상없이 다운이 됩니다.
안녕하세요?
대전에 대학교에 다니는 학생인데요.
이번에 저희 연구실에서 Cluster를 조립해서 지금 가동중에 있습니다.
메인컴퓨터(버퍼컴퓨터) P-III 933MHzX2, Ram 512Mbyte, eth0 realtek 8139, eth1 Davicom DM9102으로 구성되어 있는 시스템입니다.
그리고, 말단컴퓨터(계산컴퓨터)들은 P-4 2.4GHz , RDRam 2Gbyte, eth0 realtek 8139로 8대가 이루어져 있습니다.
말단 컴퓨터들이 쉬고 있을때는 전혀 이상없이 돌아갑니다. 그리고, 8대를 병렬처리 계산(화학용 계산)을 수행하는 것도 이상없이 돌아 갑니다.
물론 늘리면 늘릴 수록 CPU Idle이 늘어나서 문제지만....
그런데, 각 노드들을 병렬이 아닌 각각의 계산을 시키면(5대를 시키면)... 하루에 한번꼴로 메인컴퓨터가 다운이 됩니다. ㅡ,.ㅡ
계산이 하루 이틀 걸리는 것도 아닌데, 계속 다운이 됩니다. 그런데, 4대에서 동시에 계산(병렬이 아닌)을 돌리면 다운이 조금 덜 납니다.
그리고, 지금은 3대가 계산을 수행중인데, 다운이 않되는 것 같습니다.
다운되는 원인을 찾아 보려고 얘를 쓰는데, core도 않 나오고 log도 깨끗합니다. 그냥 타임머신 탄듯...
물론 계산을 수행중인 job도 문제가 조금 있습니다.
의심이 되는 부분있으면 조언 좀 부탁드립니다. 도저히 감이 않 잡힙니다.
조금의 의심이 되는 부분이라도 알려 주세요...ㅡㅜ
큰일입니다... :(
그럼..
P.S : 참고로 MRTG데이터를 보고 싶으신 분은 아래 링크를 참고하세요
http://hydrogen.hannam.ac.kr/mrtg
경험에 의존해 말씀을 드리자면...
저도 유사한 경험을 했는데요 제 경우엔 필요없는 것 다 빼고
kernel compile을 다 하니 문제가 거의 안 생기더군요.
후에 네트웍에는 FreeBSD가 좀 더 안정적이라는 이야기를
듣고 노드의 모든 시스템을 FreeBSD 4.8로 바꾸니까 문제가
해결되서 잘 사용하고 있습니다.
참고로 저희 시스템은 PIII Dual, Memory 2GB 5대를
FastEthernet으로 연결한 cluster입니다.
그런데, 먼저 NIC부터 바꾸는게 어떠실지.
http://bbs.kldp.org/viewtopic.php?t=27469
답변 감사드립니다.
답변 감사드립니다.
너무너무 감사드립니다.
realtek이 그런 문제 점이 있었는지는 아직도 몰랐습니다. :shock:
한번 교체해 보겠습니다.
그럼..
그것이 알고 싶당~
1. NFS를 사용하는지요? NFS를 사용하는 경우에는 각각 계산을 돌리
1. NFS를 사용하는지요? NFS를 사용하는 경우에는 각각 계산을 돌리면 당연히 첫번째꺼에 걸리는 NFS IO부하가 N배로 늘어나지요.
2. 병렬계산을 돌리면 N개의 process가 동작을 해도 병렬프로그램은 대부분 1개의 프로세스가 write를 하게 되므로 부하가 적게 걸려서 1번 경우에 비해서 다운횟수가 줄어들지요.
MRTG를 보니 메모리가 거의 스왑포함해서 4GB로 보이는데, out of memory 일 가능성도 엄청 나네요. 네트웍때문은 아닐겁니다.
NFS부하(혹은 2.4.18을 쓴다면 NFS의 버그...)로 인하여 다운되는것 같네요.
--------------------------------
윈도위의 리눅스 윈도위의 윈도우 리눅스위의 익스플로러
댓글 달기