시스템 장애와 관련된 message 로그 분석좀 부탁드립니다.
글쓴이: bejoy4him / 작성시간: 화, 2007/10/16 - 11:53오전
application을 개발하고 있는 node PC에 장애가 발생하여 PC를 재부팅 시키기 전까지 장애가 복구되지 못했습니다.
22:12분경 항상 떠 있던 프로세스가(매초당 로그를 남기며, 사이트에서 1년 이상 문제없이 사용되던 AP입니다.) crash된 것 같고 재부팅 하기전 현상은 다음과 같습니다.
문제 발생 이후부터 복구전까지 시스템에 어떤 로그도 남지 않음
(HDD에 접근 자체가 불가능했던 것으로 보입니다.)
아침에 출근 했을때 telnet,ssh 등에 접속이 되는듯 하다가 끊어져 버림
- telnet: syn_ack를 받았는지 화면이 바뀌다가 끊김,
- ssh: ID/PASSWD 입력받은 후에 끊김
로컬의 X상에서 터미널 창이 새로 열리지 않음
ctrl+alt+back space 로 X윈도를 강제 종료 시켰으나 터미널 모드로 바뀌지 않음
재부팅 시켜서 message를 뒤져보니 장애전부터 DMA에러가 발생하고 있는 것을 보니
hda 디스크에 문제가 있긴한 것 같은데..
해당 문제가 새로 개발 하는 application에서 버그로 인해 파일디스크립터를
너무 많이 열어서 발생된 문제일 수 있는지 아니면 단순한 하드웨어 불량인지가 궁금합니다.
커널 파라미터에서 프로세스당 open할 수 있는 파일및 소켓의 갯수 제한은 풀어놓은 상태입니다.
여러분들의 의견을 듣고 싶습니다.
File attachments:
첨부 | 파일 크기 |
---|---|
messages.txt | 46.09 KB |
Forums:
badblocks -v /dev/hd?
badblocks -v /dev/hd?
위와 같이 해보시면 디스크에 배드섹터가 얼마나 있는지 알 수 있습니다.
만약 배드섹터가 있다고 나오면 결론은 쉽게 나올 듯 싶습니다.
리눅스,.. 항상 느끼는 거지만 어려워요.. ㅡ.ㅡ;
체크를 해보았는데...
체크를 해보았는데... badblocks은 없다고 나오는군요
# /sbin/badblocks -v /dev/hda
Checking blocks 0 to 39070080
Checking for bad blocks (read-only test): done
Pass completed, 0 bad blocks found
일단 하드 디스크 bad block은 아닌 모양이네요..
ide케이블이나
ide케이블이나 보드,하드디스크등의 장비문제일듯합니다.
파일디스크립트를 많이 과다하게 열었기때문에 생긴 문제일수도 있긴 하겠지만,
단순히 로그만으로는 알아낼 수 없고 동일한
상황에서 동일한에러가 일어나는지를 비교해봐야합니다.
내 마음속의 악마가 자꾸만 나를 부추겨.
늘 해왔던 것에 만족하지 말고 뭔가 불가능해 보이는 것을 하라고 말야.
내 마음속의 악마가 자꾸만 나를 부추겨.
늘 해왔던 것에 만족하지 말고 뭔가 불가능해 보이는 것을 하라고 말야.
다 뒤져본건 아니고
--
마잇
--
마잇
댓글 달기