리눅스 모니터링 추천해 주세요

wolf.bloodstorm의 이미지

말 그대로 리눅스 모니터링..을 하기 위해 어떤게 좋은가..에 대한 질문을 올리고자 합니다.
현재 Suse 리눅스이며(openSUSE 아닌, Suse Linux Enterprise Server 11.2),
LSCP - https://www.sulinux.net/bbs/board.php?bo_table=news_2&wr_id=190
MRTG - http://cafe.naver.com/mscs.cafe?iframe_url=/ArticleRead.nhn%3Farticleid=290
등 2개를 설치, 운영 중에 있습니다.
하지만 연구소에서 근무하다보니, 이것저것 들어오는 네트워크 트래픽이 많고,
또 관련 프로세스와 유저 관리를 위한 모니터링이 추가적으로 필요할 것 같아서 질문 드립니다.

1. NTOP 을 설치, 테스트를 했는데,
이유불명하게, 운용 후 24시간 정도가 지나면,
위에 설치한 두 모니터링에 CPU 과부하가 나타납니다.
여러 자료나 블로그 등에 올라온 글 등을 종합해 볼 때,
ntop 설정만 잘하고 데몬만 구동하면 특이사항이 없다고 판단을 했는데,
24시간 정도가 지나면,
Load Average 등이 모두 100% 로 꽉꽉 올라가더군요;;;

-> 네트워크 트래픽 보다는, 해당 이더넷 카드 등에 접속하는
IP 프로토콜 등에 대한 모니터링 툴이 있으면 추천해 주십시오.
ntop 을 사용하려고 한 이유도 이러한 모니터링이 가능하며,
차후 시간대별 로그도 따로 볼 수 있다는 장점이 있었는데,
위에서 언급한대로, CPU 과부하로 서버가 바보가 되어버리니 도저히 운용을 못하겠습니다;;

2. 프로세스 모니터링
개발 연구소 안 보안 담당이다 보니,
어떠한 프로세스를 운용하는지,
어떠한 시간 때 사용하는지 등에 대한 위분들에 대한 질문이 많습니다.
이러한 프로세스 관련 모니터링이 있는지, 있으면 추천해 주셨으면 합니다.

제가 바라는 모니터링의 핵심은 2가지 입니다.
실시간으로 정보를 제공해 줄 것,
로그가 쌓여서 나중에 따로 분류, 분석이 가능해야할 것, 이 2가지 입니다.

추천 부탁드리겠습니다.

nagios, cacti 등을 설치, 운용해보았는데
이것 역시 이유를 모르겠고, 그래피가 아예 안 나오네요;;;
웹 브라우저 문제인 것 같아서
IE 6.0, IE 8.0, FireFox, Google Chrome 3.0 무설치 버전 등을 열어서 해봤는데 말이죠;;;

kimjh9978의 이미지

cacti 사용경험이 있으시지만, 정상적으로 운영을 해보시지 못하신것 같네요.
cacti 설치후 그래프가 안나오는건 snmp 요청/응답을 확인해 보셔야 할것 같습니다만...

free 로 사용할수 있는 모니터링 시스템은 cacti 만한게 없는 듯 싶네요.

yosnoop의 이미지

시스템 로드 모니터링으론 전 torrus를 씁니다. 로그가 어떤식으로 쌓이는지는 모르겠지만 실시간으로 시스템을 감시하기엔 지난 몇난간 문제없었습니다.

playhop의 이미지

개인적으로 예전에 필요에 의해서 몇가지를 사용해 볼려고 공부했는데

snmp로 데이타를 취압하는 방식보다 전 개인적으로 agent방식이 선호 되더군요

이유는 몇가지가 있었습니다.

첫째 기존의 원도우 시스템에서 perf로그에서 뽑아 내는 요소들을 그대로 모니터링하고 싶었고
두번째 서버별로 snmp를 셋팅하기 귀찮은것도 있었구요
세번째는 제가 모니터링 할 시스템들은 window 80% ,linux 5% HPUX 15% 정도라서 (네트웍은 열외입니다....) 이래저래 제가 확인한것중
agent 방식에서 여러가지 OS agent를 지원하기 때문에 zabbix를 선택했습니다.

단점이라면,
열악한 한글 설치 문서. (freeBSD 관련 책에서 소개된적이 있던걸로 기억합니다)
그래프가 그닥 아름답지 못하더군요.

또 밀어야 하나 아니 이제 인생 자체를 밀어야 한다..... IT 관두는 젖비린내 SE (/ㅡ_-)/~

또 밀어야 하나 아니 이제 인생 자체를 밀어야 한다..... IT 관두는 젖비린내 SE (/ㅡ_-)/~

ydhoney의 이미지

1. sar

2. ps auxwww 주기적으로..

3. netstat -anp 주기적으로..

4. vmstat 1초마다 갱신

5. cpu 사용량 100% 이후 시스템이 작동불가에 빠지는 것은 문제 발생시점 kernel dump 후 분석.

이 현실적일 것 같군요. 지금 당장 그래프가 나오고 말고 하는게 문제가 아닌 것 같은데요.

junilove의 이미지

그래프와 상세한 데이터를 함께 원하신다면 atop 과 munin 을 중복해서 사용해보세요.
munin 은 http://coffeenix.net/bbs/viewtopic.php?p=6094#6094 에 제가 올려둔게 있습니다.
atop은 top과 비슷한데, 데몬으로 실행되어 지정한 주기동안 로깅을하여 시스템 상태를 알수 있습니다.
아니면 sar로 이용하시는 것도 좋겠습니다.

minias의 이미지

비슷한 시스템을 개발하여 사용 중이고, 현재도 추가 기능향상 프로젝트 중 입니다.

가능하시다면 HIDS쪽 Agent-Server 연동하는 부분을 참고 하시면 되겠네요.

아마 입맛에 딱 맞는 제품은 없을것 같습니다. 직접 개발해 보시는것도 좋을것 같습니다. ( 공개HIDS도 많이 있습니다)
노력하지 않는 꿈은 꿈으로만 남는다. - 미니어스

노력하지 않는 꿈은 꿈으로만 남는다. - 미니어스

ezmirk의 이미지

cacti의 설치에 어려움을 느끼신다면 CactiEz 0.6을 사용해 보시는 것도 괜찮습니다.
미국시간에 맞춰져 있어서 약간 수정이 필요하지만 시간이 상관없으시다면 그냥 쓰셔도 되구요

OS/2 Warping 그 아련한 추억

lusilis의 이미지

system-config-date timeconfig 로 로컬 시간 맞춰주면 이상 없더군요..

자잘한 문제들은 추가로 손을 좀 봐줘야 되지만요..

juy0215의 이미지

툴이라기보단 그냥 쉘스크립트를 작성해서 돌리는게 부담도 없고 원하는 정보도 볼수 있고 ㅎㅎ 더 좋아요
간단하게 뭐..
vmstat 1 30 : CPU 및 MEM, I/O 정보
netstat -an : 서버에 연결되어있는 IP와 포트 정보
pstree : 프로세스구조
tail -n 100 /var/log/messages : 마지막 메시지 100줄

뭐 이정도만해도 충분히 모니터링이 되죠 ^^