제가 관리 하는 서버가 행이 자꾸 걸리네요..

pjcsky의 이미지

개발자들이 무슨 작업을 돌리는지 모르겠지만............

램은 무려 512GB에 CPU 6코어 짜리 4개가 붙어있는 서버가 자꾸 행이 걸리네요 ㅡㅡ;;

하드웨어 문제인가 싶어서 확인해보면 하드웨어는 문제가 없습니다....

그래서 커널덤프(kexec-tools)를 설정 해보긴 했는데요.. 이게 재부팅을 안해서 아직 실행이 안된 상태에서 행이 걸려서.. 좀 애매하네요..

일단 log message 를 보면......

Jan 8 01:43:47 XXXXXX postfix/pickup[21015]: fatal: watchdog timeout
Jan 9 17:46:26 XXXXXX named[12624]: the working directory is not writable
Jan 9 17:46:52 XXXXXX sshd[14589]: error: Bind to port 22 on 0.0.0.0 failed: Address already in use.
Jan 9 17:46:52 XXXXXX xinetd[14603]: /etc/xinetd.d/RCS is not a regular file. It is being skipped.
Jan 9 17:46:59 XXXXXX ntpdate[14616]: no server suitable for synchronization found
Jan 9 17:47:02 XXXXXX smartd[15358]: Problem creating device name scan list
Jan 9 17:47:05 XXXXXX rockscommand[15632]: host "XXXXXX.XXX.XXXXXX.com" is not in cluster
Jan 9 17:47:05 XXXXXX rockscommand[15668]: host "XXXXXX.XXX.XXXXXX.com" is not in cluster
Jan 9 17:47:23 XXXXXX snmpd[14576]: c64 32 bit check failed

행 걸리기 전 메세지가 이런 메세지 더라구요.... XXXXXX는 보안상 저렇게 표시했구요... 커널쪽 문제인지 잘 모르겠네요..

혹시 아시는 분..?? 아 참고로 OS는 Rocks Cluster 5.4(Cent OS 5.5) 버젼입니다....

혹시 아시는 분..? ㅠㅠ

dgkim의 이미지

서버 시간이 맞지 않나요.....

미래의 로그 메시지가......

hang이 정확히 어떤 상황인지는 모르겠으나,

ulimit에 대한 제한이 없어서, 특정 프로그램이 리소스를 모두 소모하여 발생하는 문제는 아닐지?

pjcsky의 이미지

제가 계속 설정 해놓는데.. 하룻밤 지나고 나면;;; 시간이 바뀌더라구요 ㅠㅠ... ntp 설정 하고 싶지만;; 외부망이 막힌 서버라서........

그리고 음.. 행걸리는 상황이.. ping 은 가지만 ssh 접속이 안되고 그리고 서버를 보면 화면이 안나옵니다...

혹은 로그인 화면이 나오면 글은 써지고 아이디 적은 후에 패스워드를 적는 부분이 안나오는 정도입니다...

dgkim의 이미지

서버에 top을 띄워 두시면, 서버가 cpu과다 사용상태인지 메모리 swaping상태인지 알 수 있긴할텐데요.

ping이 된다면, kernel 네트워크는 동작한다고 볼 수 있겠지요.

참고로, 제 경험상 인터넷이 연결이 되지 않는 서버가 정상적으로 잘 돌아가는 곳은 잘 없었던 것 같습니다.
military망 같은 곳...... 항상 장애나고 원격안되고 방문 점검해야되고......

preisner의 이미지

클러스터를 구성해서 사용하고 계신것 같은데, 클러스터 관련 로그는 확인 하셨나요?
어떤 서비스를 클러스터로 구성해서 쓰고 있는지 모르겠지만, node fencing 에 문제가 있는 건 아닌가 싶네요.

hang이 걸렸을때 다른 노드에서 clustat 결과도 함께 보여 주세요.

pjcsky의 이미지

클러스터는 사용 안하는 서버입니다... 마스터 서버만 존재하고 노드서버는 존재를 하지 않아요;;

왜 마스터만 사용하는데 Rocks Cluster를 설치했는지 이해가 가질 않지만...

제가 설치를 한게 아니고 저도 여기에 근무하면서 관리하게 된 서버라서요.. 정확히 알지를 못합니다 ㅠ...

top - 16:45:21 up 7:29, 4 users, load average: 5.48, 5.55, 5.53
Tasks: 708 total, 6 running, 699 sleeping, 0 stopped, 3 zombie
Cpu(s): 11.2%us, 0.4%sy, 0.0%ni, 88.1%id, 0.1%wa, 0.0%hi, 0.2%si, 0.0%st
Mem: 528628808k total, 527961944k used, 666864k free, 124144k buffers
Swap: 52428116k total, 0k used, 52428116k free, 525587480k cached

top로 본 사용량이 이거네요;; 이거 생각보다 과부하가 좀 있네요 ㅠ...

preisner의 이미지

우선은 메모리 누수나 고부하 여부를 먼저 확인 해야 하겠습니다.
1. sar 를 설치 하시고 성능 데이터를 주기적으로 저장하도록 cron에 설정하세요
2. ganglia 같은 툴을 설치 하셔서 외부로 데이터를 전송하는 것도 좋은 방법 입니다.

자원 문제를 먼저 확인 한 다음, 자원과 hang 이 관련 있는지 데이터를 보면서 확인 해 보세요.

관련이 없다면 하드웨어 드라이버 문제 일 수 있습니다.
어떤 하드웨가 설치되어 있는지 확인 해 보시고 해당 하드웨어 드라이버를 확인 해서 버그가 발표된게 없는지 확인 해 보세요.

그리고 위에 top 결과 화면에 3 zombie 가 보이는데, 확인 해 보셔야겠습니다.
zombie 자체가 문제를 일으키는 경우는 많지 않습니다만, 일반적인 환경에서는 나타나지 않는게 정상 입니다.

pjcsky의 이미지

답변 감사합니다!!! 행 걸린거 때문에 머리만 아프네요 ㅠㅠ

왜이리 자주 걸리는지 ㅠㅠ

rocksea의 이미지

제가 관리하는 서버 메모리 비트에러가 날 경우 서버가 행걸리는 현상이 있었는데 Jan 9 17:47:23 XXXXXX snmpd[14576]: c64 32 bit check failed

이로그가 보니 그게 아닌가 의심이 가네요

요즘은 BIOS에서 이런 오류난 비트를 자동으로 수정해서 복구를 한다는데

이거 서버 어느회사에서 구입하셨는지 확인해보시고 call center전화해보면 아마 답변 해주실거에요.

오래된 장비거나 BIOS버전이 오래된거면 안되는 경우가 있다고 기사분이 그러시더라구요

그럼 조금이나마 도움이 되길 바라며...

Knowleage Creator.