클러스터 계산 오류
글쓴이: esrevinu / 작성시간: 화, 2006/08/01 - 8:24오후
안녕하세요?
펜티엄4 5노드로 구성된 계산용 클러스터가 있습니다. 계산은 중간 중간에 같은 계산을 반복해서 두 계산이 같은 결과를 주는지 테스트합니다. 계산결과는 디스크에 저장되고요. 그런데 언제부터인지 반복테스트에서 다른 결과를 줍니다. 실수계산에서 아주 조금씩 틀리는 것 같습니다. 이 문제는 아마도 하드웨어의 문제이겠죠?
어떤 노드이고 어떤 하드웨어, 즉 메인보드, CPU, 디스크, 램, NIC 중 어떤 것인지 알 수 있는 방법이 있을까요?
Forums:
저는 잘
저는 잘 모르지만..
어떻게 클러스터를 구성했는지 알려주셔야 다른 분들이 해결책을 찾을 수 있을 것 같습니다 :)
어떤 SW나 HW를 썼다든가..
그나저나 신기하군요 ㅎ 왜 다르게 나올까나..
보통 PC(CPU는 Pentium 4
보통 PC(CPU는 Pentium 4 1.8GHz)로 구성된 클러스터이고 OS는 Redhat 7.3이고 kernel version은 2.4.20-8 입니다. 계산프로그램은 제가 짠 게 아니지만 C로 작성해서 MPICH로 돌립니다.
똑같은 프로그램을 반복적으로 돌렸는데도 계산결과가 다릅니다. 이 클러스터를 몇년간 쉼없이 돌렸습니다. 맛이 간 것 같은데 하드웨어를 전부 교체하면 돈이 많이 드니까 문제가 되는 부분만을 교체하고 싶은데 어떤 것을 교체해야 할까요?
저는 계산이 틀리면 보편적으로 어떤 하드웨어에 문제가 있어서인지 알고 싶을 뿐입니다.
노드를 하나씩 제거하면서 해보면
mpi 프로그램이라면 실행시 프로그램을 수행할 노드를 지정해서 하다보면 어떤 노드가 문제인지 알 수 있지 않을까요?
===============================================
불확실하다는 것만이 유일하게 확실한 것이며,
위험과 함께 어떻게 살아갈지를 아는 것이 유일하게 안전한 길이다.
===============================================
불확실하다는 것만이 유일하게 확실한 것이며,
위험과 함께 어떻게 살아갈지를 아는 것이 유일하게 안전한 길이다.
댓글 달기