KLDP 장애 처리

김정균의 이미지

3월 31일 (토) 에 하루종일 KLDP 에 제대로 접근을 할 수 없었던 문제가 있었습니다. 동시 다발적인 문제가 몇가지 발생을 했는데..

1. DNS 서버가 10:30 ~ 18:00 까지 죽어 있었음.
2. KLDP 시스템의 DHCP 서버가 오전 8시에 죽음. 이로 인하여 각 서버들이 DHCP 정보를 받지 못해서 각 서버들의 routing table 에서 빠져 네트워크 연결이 안됨.

그리고, KLDP DHCP 서버가 부팅이 되지 않아 HDD 를 공수하고.. 등등 삽질을 했으나.. 결국에는 USB 키보드가 연결이 되어 있으면 부팅이 되지 않는 문제로 밝혀졌습니다. (덕분에 OS 는 새로 밀었습니다... 윈도그도 아닌데.. T.T) 서버는 Intel white server SR2300 이며, USB (HID) keyboard 가 연결이 되면, Lilo prompot 가 깨진것 처럼 "L" 만 뜨고 멈추어 부팅이 진행이 되지 않는 문제였습니다.

조치사항으로는..

1. DNS 리부팅
2. DHCP 로 설정이 되어 있던 네트워크 설정을 static 으로 변경
3. DHCP 서버에 USB 키보드 연결하지 말라고 포스트잇 붙이기
4. DHCP 서버 재설치

이상입니다. 하루동안 접속에 불편을 드려서 죄송합니다.

- 이상 토요일 하루종일 IDC 에서 보냄 T.T -

관리자 주제: 

댓글

익명사용자의 이미지

수고하셨습니다.

일요일은 즐겁게 보내시길~

ps. 만우절 농담 아니에요 ㅎㅎ

mach337의 이미지

저도 31일 하루종일 접속이 안되길레 무슨문제인지 궁금했는데...
조금 불편한 저보다는 권순선님이 수고가 많으셨네요...감사합니다.

권순선의 이미지

이번에 작업하신 분은 김정균님입니다. 저는 무슨 일이 있었는지도 아직 정확히 모르고 있습니다. 김정균님과 이야기를 해봐야죠. :-)

winchild의 이미지

크크... 수고하셨습니다.

ChangHyun Bang
winchild@kldp.org

- 겨울아찌 -
winchild@kldp.org

익명사용자의 이미지

이런말 하긴 그렇지만.... 10년 무정지 서버를 목표로 삼고, 운영좀 해주셨으면..합니다...

무슨 Windows 98 도 아니고 ㅡㅡ 서버들을 dhcp 로 운영하고, ㅡㅡ

그리고, Linux 부팅 프로세스에서 L 에서 멈춘다면 ㅡ.ㅡ linux cd 넣고 rescue 모드에서 lilo 를 새로 깔던가.. grub 로 바꾸던가..
걍 이도 저도 잘 모르는 상황이라면, 부팅 cd 넣고 .. hdd 강제 마운트 시켜서 부팅 시켜도 되고... ㅡㅜ

이거 기본아닙니까 ? ㅜㅡ

개인 홈피 운영하는 서버도 아닌데 .... 좀 보기 그렇습니다... (한두번도 아니고, 한 3~4 달에 한번씩 계속 ㅋㅋ)

http://news.netcraft.com/ 에 순위권에 들어 갈 수 있는 무정지 서버가 될 수 있도록.... 기원해 봅니다 ㅜㅜ

권순선의 이미지

무정지 서버는 달성할 수 없는 목표입니다. 그런 곳에 순위권에 들어가는 서버들은 분명히 누군가 상근으로 돌보는 사람들이 있는 것들일 테지만 이곳의 서버는 그런 식으로 관리하는 것이 불가능합니다.

p.s. 말을 상당히 쉽게 하시는군요. 지워버리려다 참습니다.

winchild의 이미지

요즘 순선님이 좀 예민해 지시는것 같습니다. 잘 참으시지 않았었나요? ㅎㅎ

그리고 윗글 쓰신분, KLDP 서버는 모든 사람들의 자원과 봉사로, 그리고 무상으로 제공해주시는 서버에 의해서 운영되고 있습니다. 지원해주시는 IDC 에서도 KLDP의 막대한 트패픽 비용을 감수하면서 헌신해 주시는 것입니다.

그런 정보를 공짜로 얻고 계시면서 말을 함부로 하신다는 생각이 듭니다. KLDP 에 올라가 있는 많은 문서중에서 본인의 손으로 작성한 문서가 있는 지 묻고 싶군요.

- 겨울아찌 -
winchild@kldp.org

- 겨울아찌 -
winchild@kldp.org

권순선의 이미지

죄송합니다. 제가 과민반응을 보였던 것 같아 후회하고 있습니다.

실제로 글을 올리거나 눈에 보이는 공헌을 하지 않은 것처럼 보이는 anonymous 사용자 분들도 이곳이 활발하게 굴러가게 하는데 일정한 역할을 담당하고 있는 것이고, 하물며 저렇게라도 말씀을 해주시는 분들은 그보다 훨씬 더 많은 관심을 가지고 계신 분들이기 때문에 그런 분들의 목소리도 소중하게 되새겨야 한다고 생각합니다.

좀더 여유를 가지고 차분하게 처신하도록 하겠습니다.

김정균의 이미지

"이거 기본아닙니까 ? ㅜㅡ" 이 문장이 좀 자극적이었죠. 저도 오랜만에 무시당해진 기분을 만끽해 보았으니까요. 아주 신선하더군요 ㅋㅋㅋ. 개무시 신공 10성 달성이라고 생각했는데 아직 2% 모잘랐나 봅니다. 몇번이나 댓글을 썼다 지웠다 하다가.. 결국에는 "반사" 로 마무리 했으니..

P.S
창현님.. 뵌지 꽤 된거 같은데.. 밥사주세요. (태준씨도 같이 ..)

김정균의 이미지

반사

mach337의 이미지

10년 무정지 서버가 되도록 그에 걸맞는 지원좀 해주시죠...
그리고.. 문제가 USB 쪽 하드웨어에 있다고 적혀있는데...
OS 다시 설치하는게 기본입니까..? 그럼 하드웨어 문제가 없어집니까..?
평소에 개념없이 삽질만 하고 남탓만 하니 더욱더 개념이 안서는 겁니다.

whitelazy의 이미지

그건 기본이 아니라 미봉책이라고 부릅니다....
분명히 lilo문제가 아니라고 명시되있고 말이죠
hdd를 공수해와야할 문제였다면 하드가 고장났거나 그런상황인데 강제마운트하면 부팅되나요 ㅜ_ㅜ
마무리로 왠만해서 안죽는곳들은 다 백업서버 있지 않나요?
10년 무정지 서버를 만들고 싶으시면 미러링이라도 가능하게 지금서버 대수 *3정도 지원을 해주시던가 널널하게 -0-;;;
상근 관리자 운용할수있을정도의 꾸준한 운영비랑...

warpdory의 이미지

덕분에 토요일 낮에 푹 잤습니다. (응 ?)

---------
귓가에 햇살을 받으며 석양까지 행복한 여행을...
웃으며 떠나갔던 것처럼 미소를 띠고 돌아와 마침내 평안하기를...
- 엘프의 인사, 드래곤 라자, 이영도

즐겁게 놀아보자.
http://akpil.egloos.com


---------
귓가에 햇살을 받으며 석양까지 행복한 여행을...
웃으며 떠나갔던 것처럼 미소를 띠고 돌아와 마침내 평안하기를...
- 엘프의 인사, 드래곤 라자, 이영도

즐겁게 놀아보자.

junilove의 이미지

다음부터는 장애복구를 위한 자원봉사자를 모아보십이 어떨지요? 상근은 아니지만 형편이 되시는 분들이 네트워크를 형성해서 문제생기면 참여하구요. 그럴라면 어느정도의 운영상태에 대한 정보공유가 필요하겠네요. (아..힘들려나요..) 전 초보지만 열심히 도와드릴 자신이 있습니다. Sun v880 혼자 들어보겠다고 들다가 허리도 삐긋해보고요..전 춥고 씨끄러운 기계실에서도 잠 잘잡니다. ^^* 공부도 하고 늘 도움받는 KLDP에 도움도 드리고요. ^^* 늘 고생하시는 관리자님들 감사합니다~

paek의 이미지

31일날 그런 문제가 있었군요..
4월 1일 회사 서버 이전 문제로 못들어왔었는데..
어쨌꺼나 긍정적으로 해결이 되어서 정말 다행입니다.

그리고 개인적으로 "이거 기본 아닙니까?" 라고 하신분에게 여쭙고 싶네여.
님께서 말씀 하신 그 기본을 과연 님께선 얼마나 지키고 계신지 궁금 합니다.

문론 10년 무정지 그런식으로 돌릴수 있다면, 관리자도 좋고 사이트를 이용하는 이들도 좋을겁니다.
다만 문제의 이슈가 나오니 복구를 하는것이고, 그것도 이를 위해 금전적인 이익을 취하는것도 아닌 무료 자원봉사인데, 상대방에게 감정적인 문구 사용은 과연 내 자신이 기본은 되어 있는지를 곰곰히 생각 해봐야 될문제라고 보이는군요.. :)

--------------------------------------------------------
세상에서 나의 존재는 하나이다.
그러므로 세상에서 나는 특별한 존재이다.
-
책망과 비난은 변화가 아니다.
생각만으로 바뀌는것은 아무것도 없다.

--------------------------------------------------------

세상에서 나의 존재는 하나이다.
그러므로 세상에서 나는 특별한 존재이다.
-
책망과 비난은 변화가 아니다.
생각만으로 바뀌는것은 아무것도 없다.

익명사용자의 이미지

우선 제가 좀 과격한 표현을 쓴점.. 모든분들께 사과 드립니다.
제가 남긴글이 누구를 비난하거나, 모욕을 드릴 목적으로 쓴 글은 절대로 아닙니다.
남긴글에 기분이 나쁘게 느끼셨다면 죄송한 말씀을 드립니다.....

(아래 글은 제 개인적인 생각과 느꼈던 점이니, 다른 견지를 가진 사람의 비판적인 시각이라고
봐주시기 바랍니다.. 제가 가진 생각이 절대선이라고 생각하지는 않습니다.
다만, 다른 직업을 가진, 다른 시각에서 보는 다른 사람의 의견이라고 봐주시기
바랍니다. 제가 원래 성격이 모든것에 비판적입니다.

또한 제 글이 kldp 의 세부 운영에 대한 부분을 잘 모르고 드리는 말씀일 수 있습니다.

서버가 몇대인지, 어떤 서버를 사용하는지, 라우터는 사용하는지(L2, L3),
방화벽은 사용하는지 ? (L3, L4, L6 ?) IDS 는 있는지...
백업서버는 존재하는지, 백업 방법은 어떻게 구성하는지.. 저는 kldp 의 구성에
대하여 아주 상세하게 알지 못합니다.

제가 멋도 모르고 비판하는 사람일 수도 있겠습니다...
제가 멋도 모르고 하는 말이하면, 제가 오해를 하고 있다고 애기해 주시면 됩니다 ^^/
)

------------------------------------------------------------------------

제가 드리는 말씀의 요지는,
이곳 KLDP가 한국에서는 거의 유일하고, 강력한 리눅스 전문가 그룹이라는 점입니다.
한국의 sourceforge 라고 자부할만 한곳인데,
너무 쉽게, 자주 ㅜㅜ 시스템에 장애가 발생하는 느낌을 받는다는 점입니다.
그러면 안되는데 말입니다 ..ㅜㅜ

게다다, 제가 알고 있는 운영자 분들이 매우 뛰어나고 방대한 지식을 가지고
계신 분들이라는 점도, 잦은 장애 발생에 이해 할 수 없는 부분이기도 합니다.

------------------------------------------------------------------------

인용 : '무정지 서버는 달성할 수 없는 목표입니다. .....'

무정지 시스템 이라는 것이.. 상근으로 누군가가 있다고 해서 이루어지는 것은 아니라고 봅니다.
보통 상근 (흔히 야근 당직자들...) 하는 분들은 시스템 설계자가 아닌 시스템 운영자 입니다..
야근 당직자 분들은 대부분 서버가 죽으면, 껏다 켜주는 역활을 합니다... (고급 트러블 슈팅 거이 불가. ㅋ, 경험상...)
고급 엔진이어들이가 항상 야근하는것은 본적이 없습니다.

물론 24시간 상근 운용자도 필요하겠지만, 처음 설계, 설치가 잘못되었다면... ?

무정지 서버는 설계가 중요하다고 봅니다. 똑똑한 설계 말입니다.

Linux 는 충분히 무정지로 운영할 수 있습니다.(경험상)

아무리 비싼 Sun 엔터프라이즈 10000 이라도....
잘못된 설계,구성으로는 시스템이 결국 죽습니다. (경험상)

제가 장애 공지글을 읽고 받은 느낌으로는, 설계가 아주 잘못되었다고 생각했습니다.. dhcp, dns....
트러블 슈팅도... 좀 실수가 있었다고 생각되었구요, 차라리 실수였으면 좋겠습니다......

-----------------------------------------------------------------------------------------

이번에 발생했다는 사고에 대해, 제가 공지글만 읽고, 느낀점에 대해 말해보도록 하겠습니다.
(제가 알고 있는 부분이 틀릴수도 있습니다. 틀리다면 지적해 주시면 감사하겠습니다.)

-----------------------------------------------------------------------------------------
[문제점1]: DNS 서버가 10:30 ~ 18:00 까지 죽어 있었음!
-----------------------------------------------------------------------------------------
저는 왜죽었는지 이유는 모름니다.. 다만....

(http://www.networksolutions.com/whois/results.jsp?domain=kldp.org 참고.)

1차 네임서버 : NS.KLDP.ORG , 210.118.94.71
2차 네임서버 : NS2.KLDP.ORG , 210.118.94.71

1차, 2차 네임서버를 같은 서버에 두는 것이 DNS 구성에 위험하다는 것은
DNS 서버를 운영하는데 있어 위험을 자초한 것이라고 생각합니다. (이미 알고 계시리라 봅니다.)

서버가 2개가 없어서 그랬다면, networksolutions 의 자체 네임서버 서비스를 이용하는것이 좋다고 봅니다.
도메인 등록한 회사의 네임서버를 사용한다면, DNS 서버 관리에 드는 시간, 비용,
DNS 서버 장애 요소 제거의 효과가 있다고 생각합니다.

-----------------------------------------------------------------------------------------
[문제점2] : KLDP 시스템의 DHCP 서버가 오전 8시에 죽음.
이로 인하여 각 서버들이 DHCP 정보를 받지 못해서 각 서버들의 routing table
에서 빠져 네트워크 연결이 안됨
-----------------------------------------------------------------------------------------

만약 집에서, 엔토피아 쓰면서, 서버를 운영한다면 윗글을 이해 할 수 있습니다.
만약 클러스터를 구성하기 위하여, dhcp 서버를 운영했다면.... 조금 약간 이해 할 수 있었을 것입니다.

DHCP 를 왜 서버에서 사용했었는지. 제가 오해하지 않도록, 시스템 구성을 알 수 있으면 좋겠습니다.
(IDC 에서 서버를 DHCP 로 운영하는것이 매우 특이한점이라는 것도 알고 계시리라 봅니다.
깊은 뜻이 있었다면 알려주시기 바랍니다..)

-----------------------------------------------------------------------------------------
[문제점3] : DHCP 서버에 USB keyboard 가 연결이 되면, Lilo prompot 가 깨진것 처럼 "L" 만 뜨고 멈춤.
-----------------------------------------------------------------------------------------

제가 그 상황이었더라면, 저라도 당황스러웠을 겁니다. 저라도 HDD 가 날라간줄 알았을 겁니다.
나중에 USB 키보드 때문이었다면, 당황이 아니라 황당했을 것입니다..

장애 복구 어떻 할까... 생각했을 것입니다.. 저라면 선택할 수 있는 옵션은 아래와 같았을 겁니다..

1. HDD 가 날라간지 우선 확인하기 위해, rescue mode 로 부팅해서 fsck 를 실행...(10분)
2. 만약 HDD 가 완전 맛갔다면, 새 HDD 공수해서, OS 재설치 ... (30분)
3. 만약 HDD 문제가 없다면, mbr 에 lilo 를 다시 설치. (10분)
4. 그래도 부팅안돼면, 바이오스에서 부팅 순서 확인. (1 분)
5. 바이오스 문제가 없고, 또 L 에서 멈추면 .... ?
6. 서버 교체.... 순서로 갔을 겁니다. (메인보드에 녹이라도 슬었을수 있으니까...)(30분)

장애 복구 시간만 잡는다면 대략 넉넉히 해도 30분~1시간 정도면 충분 했으리라고 생각합니다...
근데 kldp 사이트가 하루종일 ㅡㅡ 제데로 안돌아 갔다고 합니다 ㅜㅡ

-----------------------------------------------------------------------------------------

제가 남의 집에 콩심어라, 팥심어라 할 입장은 아니지만,,,, kldp 라서, 비판을 해봅니다..

정말 심각한 문제들에 봉착해서, 장애 시간이 길어졌고, 해결방법이.. 이런 것이었다.. 라고
공지가 떳다면....속으로 "와... 고생하셨네~~ " 라고 생각했을 것입니다....
해결 하셨던 방법(노하우)에 대해 많은 궁금증과, 공감을 했을 겁니다..

(심각한 문제들 : 쭝국 놈들의 초당 1TB 정도의 무시무시한 24시간 연속 DDoS 공격 이라던지.....
벼락이 IDC 센테어 10번 연속 쳐서 24시간동안 IDC 에 정전이 생겼다던지....
지진으로 해저 케이블이 끊어져서 네트워크가 죽었다던지....
Network Solutions 의 등록한 도메인 어떤넘한테 ㅡㅜ 하이젝 해킹...을 당했다던지....
정말 생각하기 싫은 불가항력 적인 문제들 ㅜㅡ 뉴스에 나올법 한 문제들... )

그러나 그것이 아니었기때문에.... 제가 떠올린 생각들은 충격적이었습니다.. ㅜㅡ
(단지 제가 느낀것입니다... 다른분들은 다를 수 도 있겠지요...)

- 정말 KLDP 에서 저정도 장애로 생겨서 하루종일 먹통 된거야 ?
- 엔진이어가 트러블 슈팅한거 맞아 ?
- DHCP ? 엥 ? 서버설치를 IP 자동받기로 했다고 ? 에이~ 설마... 만우절이야 ?
- (옜날) 헉.. 정말 백업이 하나도 없어 ? 설마... 만우절이야 ?
- 정균님이 그러셨다고 ? 설마....
- 전날 숙취가 안깨신건 아니고 ?...
- 외국에 계시다가 늦게 도착한거 아니야 ??
- 에이.... 설마.... 다른 이유가 있었겟지 ?????? ㅜㅜ
- IDC 이전한거 아니고 ???

...... 이만 줄여 봅니다 ......

ps.
linux-sarang.net 죽은거에는 별 관심이 없습니다.... ㅡㅡ, 왜냐면, kldp 가 아니니까요...

kldp 는... 한국의 sf.net 이다... 그렇기 때문에...

kldp 니까 ...
kldp 니까 ...
kldp 니까 ...
kldp 니까 ...

설마 설마 메인 시스템을 fedora wigiwig 모드에서 X windows 전체 설치로 했을라고 ?
아파치도 rpm 이야 ? 설마... 아니겟지 ㅋㅋ

kldp 니까.. 설마 아니겟지... 라고 추측하고 기대할 따름입니다...

제 기대감이 너무 큰가요 ? ^^/

제가 kldp 에 걸었던 기대가, 단지 돈으로 해결되는 문제는 아니라고 봅니다.

bootmeta의 이미지

만일 KLDP운영하시는 분들 중 중국 국적인 분이 있거나 linux-sarang.net 관계자가 있다면 결코 좋은 기분으로 읽지 않을 겁니다.
기본적으로 표현하는 것을 보니 내가 최고다하는 생각을 깔고 계신 것 같은데, 그런 생각을 가진 것은 좋은나 대화중에 표출하면 몰상식하다는 이야기만 듣습니다.

간혹 보이는 리눅스, 윈도우즈 우월주의자의 전형적인 패턴을 보이는 것 같군요.

익명사용자의 이미지

저에게 있는 어쩔수 없는 성격상, 언어 선택에 있어서, 은연중에, 옮바르지 못 한 점이 많습니다. 그런점은 죄송한 말씀드립니다.
(누구를 비난, 비하 할 목적은 전혀 아닙니다.)

이사람 ... 표현하는 데에 있어서, 성격장애가 좀 있는 사람으로 이구나라고, 보시고,
너무 심각하게 받아들이지는 말아주시기 바랍니다.. ^^/

세상에는 여러 종류의 사람들의 존재합니다.
(저처럼, 모든것에 비판적인 생각을 가진 사람들은... 어릴때, 좋은 환경에서 자라지 못한경우가 많지요 ^^/)

ps.
저는 우월주의나는 아닙니다만, 주위에 보면, 분명 우월주의자도 있지요.... (저는 오히려 열등감이 많이 있습니다. ㅜㅜ ...)

bootmeta의 이미지

저 역시 말을 너무 험하게 썼네요.
죄송합니다.
좋은 저녁되세요.

로미의 이미지

저는 글을 쓸때 몇번 자가검열(!)을 하고 글을 올린뒤에도 몇번을 수정해서 글을 쓰고 합니다.

물론 제가 글로 표현하는 능력이 부족 한것도 한가지 이유이기도 합니다.

글을 쓰기 전에 한번정도는 생각하시고 글을 써 주셨으면 합니다.

같은 뜻을 전하는 말이라도 아 다르고 어 다르다. 라는 옛말 처럼 잘못 쓴 글은 전혀 다른 어감혹은 뉘앙스가 되어 버리는

뒷골 땡기는(?!) 불상사가 발생 하기도 하니까요...

Signature:
끝까지 읽어 주셔서 감사합니다.(이봐 로미, 뭐가 감사한거야?!)

혹시 댓글로 싸움을 즐기려는 님!?
당신은 眞性 변퉤 입니다~ :P

이제는 무늬만 백수로 가장한 개발자가 아닌 진정한 개발자가 되어야겠다.
이제는 학생으로 가장한 백수가 아닌 진짜 백수가 되어야겠다.

언제나 newbie의 마음가짐.

김정균의 이미지

우선 제가 좀 과격한 표현을 쓴점.. 모든분들께 사과 드립니다.
제가 남긴글이 누구를 비난하거나, 모욕을 드릴 목적으로 쓴 글은 절대로 아닙니다.
남긴글에 기분이 나쁘게 느끼셨다면 죄송한 말씀을 드립니다.....

의도는 알 수 있었지만.. 용어 선택에서 그런 느낌을 무마시킨 격이없다고 생각합니다. 제가 처음 '반사' 라고 댓글을 달기 전에 몇번이나 장문의 글을 썼다 지웠다 반복하다가 귀찮아서 .. 그냥 '반사' 라고 올렸을 정도이니까요 ^^;

또한 제 글이 kldp 의 세부 운영에 대한 부분을 잘 모르고 드리는 말씀일 수 있습니다. 
 
서버가 몇대인지, 어떤 서버를 사용하는지, 라우터는 사용하는지(L2, L3),
방화벽은 사용하는지 ? (L3, L4, L6 ?) IDS 는 있는지...
백업서버는 존재하는지, 백업 방법은 어떻게 구성하는지.. 저는 kldp 의 구성에
대하여 아주 상세하게 알지 못합니다.

이번에 네오위즈로 옮기기 전까지는 KLDP 는 시스템이라는 것을 만들 형편이 못되었습니다. 그냥 서버 여러대가 각기 독립적으로 운영이 되는 형태였었죠. 그래서 이번에 네오위즈로 옮기면서 KLDP 전용 공간과 전용 네트워크가 생기면서 무언가 시스템을 만들어 가고 있는 상황입니다.

이 시스템이란.. 무정지 시스템이라기 보다는 관리의 효율성을 좀더 높게 가기고 가려 합니다. 무정지라는 것은 백업 시스템이 구축이 되어 있어야 하고, 또한 이런 백업 시스템을 가져가기에는 현재 open 되어 있는 application 으로는 무리가 있습니다. (가령 예를 들어 인증이라든지..) 현재 KLDP 의 software 적인 운영 방침은 될 수 있으면 수정 없이 사용하자이며, 만약 수정을 해야 한다면 어떻하든 upstream 에 반영을 하도록 하여 최소한의 수고로 하자는 것이 순선님의 모토 입니다.

즉, 하고 싶어도 환경이 되지를 못하는 부분이 있는 것이죠. 저의 경우에는 순선님과 약간 다르지만 (예전에 phpbb 에서 drupal 로 변경을 할 때 반대 입장이었는데.. 그 당시의 글을 보시면 아실 겁니다.) 제가 KLDP 운영의 추가 되고 싶지 않기 때문에 추가 되고 있는 순선님의 의견에 따라 상황에 맞게 운영이 되어 갈 수 있도록 도움만 드리는 것 입니다.

현재 drupal 구조상으로 코드를 건드리지 않고서는 L4 장비가 있다고 하더라도 인증 문제 때문에 사용할 수가 없는 구조입니다. 이런 맥락들을 이해를 하셔야 하죠.

제가 드리는 말씀의 요지는, 
이곳 KLDP가 한국에서는 거의 유일하고, 강력한 리눅스 전문가 그룹이라는 점입니다.
한국의 sourceforge 라고 자부할만 한곳인데,
너무 쉽게, 자주 ㅜㅜ 시스템에 장애가 발생하는 느낌을 받는다는 점입니다.
그러면 안되는데 말입니다 ..ㅜㅜ
 
게다다, 제가 알고 있는 운영자 분들이 매우 뛰어나고 방대한 지식을 가지고 
계신 분들이라는 점도, 잦은 장애 발생에 이해 할 수 없는 부분이기도 합니다.

일단은 KLDP 의 전체적인 시스템 전반적인 운영을 맡고 있는 제 책임일 것 같습니다. 이런 느낌을 들게 하신 것으로 보아서는..

다만.. 제가 KLDP 에 쏟는 부분이 얼마 안되는 까닭이라고 생각해 주세요. 저도 먹고 살아야 하기 때문에 정말 상대적으로 KLDP 에 투자할 시간이 정말 없습니다.

무정지 시스템 이라는 것이.. 상근으로 누군가가 있다고 해서 이루어지는 것은 아니라고 봅니다.
보통 상근 (흔히 야근 당직자들...) 하는 분들은 시스템 설계자가 아닌 시스템 운영자 입니다.. 
야근 당직자 분들은 대부분 서버가 죽으면, 껏다 켜주는 역활을 합니다... (고급 트러블 슈팅 거이 불가. ㅋ, 경험상...)
고급 엔진이어들이가 항상 야근하는것은 본적이 없습니다.
 
물론 24시간 상근 운용자도 필요하겠지만, 처음 설계, 설치가 잘못되었다면... ?
 
무정지 서버는 설계가 중요하다고 봅니다. 똑똑한 설계 말입니다. 
 
Linux 는 충분히 무정지로 운영할 수 있습니다.(경험상)
 
아무리 비싼 Sun 엔터프라이즈 10000 이라도.... 
잘못된 설계,구성으로는 시스템이 결국 죽습니다. (경험상)
 
제가 장애 공지글을 읽고 받은 느낌으로는, 설계가 아주 잘못되었다고 생각했습니다.. dhcp, dns....
트러블 슈팅도... 좀 실수가 있었다고 생각되었구요, 차라리 실수였으면 좋겠습니다......

설계 문제는 별로 말할 것이 없습니다. 아직 설계대로 완성이 되지를 않았으니까요. 또한 설계대로 구축하는 과정의 시행 착오일 수도 있고요.

다만, 트러블 슈팅은 제가 별로 잘못 진행했다고 동의되지는 않네요.

이번에 발생했다는 사고에 대해, 제가 공지글만 읽고, 느낀점에 대해 말해보도록 하겠습니다. 
(제가 알고 있는 부분이 틀릴수도 있습니다. 틀리다면 지적해 주시면 감사하겠습니다.)
 
-----------------------------------------------------------------------------------------
[문제점1]: DNS 서버가 10:30 ~ 18:00 까지 죽어 있었음!
-----------------------------------------------------------------------------------------
저는 왜죽었는지 이유는 모름니다.. 다만.... 
 
(<a href="http://www.networksolutions.com/whois/results.jsp?domain=kldp.org" rel="nofollow">http://www.networksolutions.com/whois/results.jsp?domain=kldp.org</a> 참고.)
 
1차 네임서버 : NS.KLDP.ORG , 210.118.94.71
2차 네임서버 : NS2.KLDP.ORG , 210.118.94.71
 
1차, 2차 네임서버를 같은 서버에 두는 것이 DNS 구성에 위험하다는 것은
DNS 서버를 운영하는데 있어 위험을 자초한 것이라고 생각합니다. (이미 알고 계시리라 봅니다.)
 
서버가 2개가 없어서 그랬다면, networksolutions 의 자체 네임서버 서비스를 이용하는것이 좋다고 봅니다.
도메인 등록한 회사의 네임서버를 사용한다면, DNS 서버 관리에 드는 시간, 비용, 
DNS 서버 장애 요소 제거의 효과가 있다고 생각합니다.
 
-----------------------------------------------------------------------------------------

DNS 의 2차는 백업인가요? 2차 DNS 는 백업이 아닙니다. 2차라는 말은 설정 관리를 어떻게 하느냐의 의미이지 서비스 레벨에서는 RR time 에 의해 경로가 결정이 되기 때문에 둘다 master 가 되는 겁니다. 즉, 2대중 1대가 죽으면 이론상 50% 는 dns resolving 이 되지를 않습니다. 정말 DNS 를 무정지로 하려면 BGP 상태에서 anycast 를 이용하든지, 아니면 L4 아래에서 죽은 장비로 질의가 가지 않도록 fail over system 을 구축해 줘야 하겠죠. 현재 KLDP 시스템에서는 이런 구축 환경은 가지고 있지를 못합니다. 특히.. 후원에 의존하고 있는 상황에서는 더욱 쉽지가 않죠.

[문제점2] : KLDP 시스템의 DHCP 서버가 오전 8시에 죽음. 
이로 인하여 각 서버들이 DHCP 정보를 받지 못해서 각 서버들의 routing table 
에서 빠져 네트워크 연결이 안됨
-----------------------------------------------------------------------------------------
 
만약 집에서, 엔토피아 쓰면서, 서버를 운영한다면 윗글을 이해 할 수 있습니다.
만약 클러스터를 구성하기 위하여, dhcp 서버를 운영했다면.... 조금 약간 이해 할 수 있었을 것입니다.
 
DHCP 를 왜 서버에서 사용했었는지. 제가 오해하지 않도록, 시스템 구성을 알 수 있으면 좋겠습니다.
(IDC 에서 서버를 DHCP 로 운영하는것이 매우 특이한점이라는 것도 알고 계시리라 봅니다.
깊은 뜻이 있었다면 알려주시기 바랍니다..)
 
-----------------------------------------------------------------------------------------

KLDP 시스템들에 DHCP 를 사용한 이유는 설계상의 이유도 있지만 시스템에서 DHCP 로 잡은 이유는 처음 이전시에 사설망과 공인망 사이를 왔다갔다 해야할 일이 있어서 귀찮아서 DHCP 가 구축이 되어 있어 DHCP 로 받도록 해 놓은 것입니다. 회선만 변경하면 그냥 받아질 테니까요. 이전 작업을 마치고 static 으로 전환을 해 놓았는데, DHCP 로 설정이 되어 있을때 올라온 dhcpd 가 계속 떠 있어서 DHCP 서버가 죽었을 때 dhcpcd 가 라우팅 테이블을 건드린 것입니다. 이건 제 불찰이기는 합니다. 덕분에 전 static 이라고 생각을 하고 있었기 때문에 이런 일이 벌어진 것을 눈치채지 못하고 DHCP 서버만 작업을 하고 있었고, 나중에 이런일이 발생한 것을 알아서 조치가 늦어진 것입니다. 말씀대로 DHCP로 설정이 되어 있었다면 DHCP 서버가 죽었을 때 먼저 static 으로 전환을 하려고 했겠죠.

그리고 DHCP 를 사용하지 않을 이유는 없습니다. 자동화 시스템을 하다 보면, IP 설정 등을 서버에서 처리하지 않고, DHCP 에서 fixed address 로 하는 경우가 종종 있습니다. DHCP 에서 fixed address 로 설정을 하면 항상 고정 IP 를 받게 되는 거죠. 즉 상황에 맞게 사용할 일이 있다면 사용할 수 있는 것이죠.

[문제점3] : DHCP 서버에 USB keyboard 가 연결이 되면, Lilo prompot 가 깨진것 처럼 "L" 만 뜨고 멈춤.
-----------------------------------------------------------------------------------------
 
제가 그 상황이었더라면, 저라도 당황스러웠을 겁니다. 저라도 HDD 가 날라간줄 알았을 겁니다.
나중에 USB 키보드 때문이었다면, 당황이 아니라 황당했을 것입니다..
 
장애 복구 어떻 할까... 생각했을 것입니다.. 저라면 선택할 수 있는 옵션은 아래와 같았을 겁니다..
 
1. HDD 가 날라간지 우선 확인하기 위해, rescue mode 로 부팅해서 fsck 를 실행...(10분)
2. 만약 HDD 가 완전 맛갔다면, 새 HDD 공수해서, OS 재설치 ... (30분)
3. 만약 HDD 문제가 없다면, mbr 에 lilo 를 다시 설치. (10분)
4. 그래도 부팅안돼면, 바이오스에서 부팅 순서 확인. (1 분)
5. 바이오스 문제가 없고, 또 L 에서 멈추면 .... ?
6. 서버 교체.... 순서로 갔을 겁니다. (메인보드에 녹이라도 슬었을수 있으니까...)(30분)
 
장애 복구 시간만 잡는다면 대략 넉넉히 해도 30분~1시간 정도면 충분 했으리라고 생각합니다...
근데 kldp 사이트가 하루종일 ㅡㅡ 제데로 안돌아 갔다고 합니다 ㅜㅡ
 
-----------------------------------------------------------------------------------------

HDD 공수하는데만 5시간이 걸렸습니다만.. KLDP 가 좀 가난해서 여유 부속도 전혀 없고 전체 시스템중 1대만이 무상 A/S 가 가능합니다. 즉 장비 하나 죽으면 KLDP 서비스중 없어지는 서비스가 생길 수도 있다는 얘기입니다.

제가 처리한 사항은..

1. 도착하자마자, rescue mode 로 부팅.. , data 가 살아있다는 것 확인 후 chroot 로 lilo 를 다시 심고 다시 부팅.. 동일 상태 확인..
2. 장비 노후화로 HDD 의 H/S/C 를 읽지 못하는 장애 발생을 의심하고, lilo 의 linear 를 lba32 교 교체 시도.. 동일 상태 확인
3. 거의 장비 노후화로 의심을 하여, 서버 뜯어서 먼지 제거 시도 (먼지에 의한 이상 작동 의심..).. 케이블 재연결..등의 시도 .. 역시 실패
4. HDD 교체 시도 (DISK 공수하는데 걸린 시간 4시간).. 재설치 걸린 시간 10분 .. 역시 새 HDD 도 동일 증상
5. 시스템 교체 (이건 폐기 장비 하나에서 대충 테스트 해 봄) .. 정상 부팅

이 과정에서 HDD 의 이상이 아니라 샤시의 문제로 판단을 하였고.. 포기를 하려든 중 혹시나 해서 USB 가 문제가 아닐까 생각이 들어 빼고 부팅해 본 결과 부팅이 되는 것을 확인한 것입니다.

DHCP 가 죽었다고 해서 전체 시스템이 먹통이 될 일은 분명히 아닙니다만.. 여러가지 복합적인 과정에 의해서 저쪽은 당연히 문제가 없으리라고 생각한 부분이 문제였던 것입니다.

솔직히 금전적인 집행이 쉬웠다면.. 훨씬 빨랐을지 모릅니다. 장비 부팅이 안될 때 여유 장비로 교체를 해 버렸다면 이렇게 오래 걸리지 않았을 테니까요. HDD 살 돈이 없어 돈 들지 않고 HDD 를 공수하려다 보니 시간도 오래 걸렸고, 시스템이 없어서 2년동안 먼지속에 굴러다니던 서버를 2년만에 파워 온 해서 사용하다 보니.. 갈피를 잡기도 힘들었고..

뭐 그런 상황이었습니다.

제가 남의 집에 콩심어라, 팥심어라 할 입장은 아니지만,,,, kldp 라서, 비판을 해봅니다..
 
정말 심각한 문제들에 봉착해서, 장애 시간이 길어졌고, 해결방법이.. 이런 것이었다.. 라고
공지가 떳다면....속으로 "와... 고생하셨네~~ " 라고 생각했을 것입니다....
해결 하셨던 방법(노하우)에 대해 많은 궁금증과, 공감을 했을 겁니다..
 
(심각한 문제들 : 쭝국 놈들의 초당 1TB 정도의 무시무시한 24시간 연속 DDoS 공격 이라던지.....
벼락이 IDC 센테어 10번 연속 쳐서 24시간동안 IDC 에 정전이 생겼다던지....
지진으로 해저 케이블이 끊어져서 네트워크가 죽었다던지....
Network Solutions 의 등록한 도메인 어떤넘한테 ㅡㅜ 하이젝 해킹...을 당했다던지.... 
정말 생각하기 싫은 불가항력 적인 문제들 ㅜㅡ 뉴스에 나올법 한 문제들... )

님이 언급하신 부분들에 대한 제어는 KLDP 가 속해있는 상황에서는 손빨고 있는 수 밖에 해결을 할 수 없습니다. L3 라우터 하나 없는 환경에서 무얼 할 수 있을까요? 초당 1TB 가 들어온다면 100M/b 네트워크는 그냥 차버릴테고 접속 조차 안될텐데요 ^^;

영화를 너무 보신듯.. DDOS 공격 같은 것은 상위 라우터에서 막아 주는 수 밖에 없습니다. 그정도 공격이 온다면 아마 네오위즈 네트워크도 같이 마비 되겠죠. :-)

그러나 그것이 아니었기때문에.... 제가 떠올린 생각들은 충격적이었습니다.. ㅜㅡ
(단지 제가 느낀것입니다... 다른분들은 다를 수 도 있겠지요...)
 
- 정말 KLDP 에서 저정도 장애로 생겨서 하루종일 먹통 된거야 ?
- 엔진이어가 트러블 슈팅한거 맞아 ?
- DHCP ? 엥 ? 서버설치를 IP 자동받기로 했다고 ? 에이~ 설마... 만우절이야 ?
- (옜날) 헉.. 정말 백업이 하나도 없어 ? 설마... 만우절이야 ?
- 정균님이 그러셨다고 ? 설마....
- 전날 숙취가 안깨신건 아니고 ?...
- 외국에 계시다가 늦게 도착한거 아니야 ?? 
- 에이.... 설마.... 다른 이유가 있었겟지 ?????? ㅜㅜ
- IDC 이전한거 아니고 ???

장애가 한가지 뿐이라면 해결하는 것은 어렵지 않습니다. 문제는 여러 장애가 복합적일 경우 신경쓸 수 있는 부분이 멀티가 되지 못하다 보니 시간이 길어지는 것이겠죠. 장애 처리시에 작업은 저 혼자 뿐이었고. KLDP 가 접속이 안된다는 것에 대하여 staff 선에서 메일로 돌고 있었지만.. 전 콘솔만 보고 있어서 전화 연락만 되었더라도 빨리 조치가 될 수 있었을 겁니다.

KDLP 에 대한 트러블 슈팅은.. 인지의 문제였기 때문에 트러블 슈팅이라고 할 수도 없고, DHCP 서버에 대한 과정은 위에서 언급을 했고요. IDC 이전 하면서 시스템 재설계를 진행 중이고..

설마 설마 메인 시스템을 fedora wigiwig 모드에서 X windows 전체 설치로 했을라고 ?
아파치도 rpm 이야 ? 설마... 아니겟지 ㅋㅋ

안녕 리눅스는 X 가 없습니다. 그리고.. 아파치 rpm 맞습니다. 그런데 apache 가 rpm 이면 안된다는 언급은.. 좀 당황 스럽습니다. 컴파일 하시면 성능이 잘나오나요? 좀 의문스럽군요. 1000대를 운영하기 위해서 1000대를 모두 컴파일 하실 건가요?

packaing system 은 관리적 효율성을 위함입니다. 남이 만들어 놓은 rpm 을 그냥 쓰나요? 이런 개념이라면 모르겠지만.. 단지 rpm 으로 사용한다는 개념이라면 상당히 위험한 개념을 가지신 듯 싶습니다.

또한,, 배포본에 들어있는 rpm 들을 무시하는 경향이 있는데, 그 rpm 을 패키징 한 사람들은 저보다도, 또한 여러분들 보다 월등한 경험과 경력/실력을 가진 사람들이 한 것입니다. 그 사람들 보다 더 빌드를 잘 할 자신이 있다는 것인지 궁금하군요.

그리고.. 마지막으로 KLDP 시스템의 설계는 최소한의 인력으로 운영할 수 있도록 하는 것이 주입니다. 무정지 시스템이나.. 기타 등등은 솔직히 고려되지 않고 있습니다. 이 부분은 순선님과 저의 견해차이에 있을 수도 있습니다.

그리고.. 마지막으로 결정적으로 장애 처리가 늦어진 이유는.. 장애 인지하고 나서.. 제가 한숨 자고 IDC 에 갔기 때문입니다. (밤새고 VPN 구축 하다가.. 서버가 죽어서.. 한숨 자고 장채 처리하고 갔거든요.)

너무 길어서 제가 무슨 말을 썼는지도 모르겠지만.. 제가 KLDP 시스템을 책임지고 있지만.. 여기에 ALL IN 하지 못해서 이런 장애를 가지고 온 것 같습니다. 다만 앞으로도 ALL IN 을 하기는 쉽지 않을 것이고, 또한 장애시 바로 대처도 쉽지 않습니다. 그리고 최대한 빨리 장애 상황을 처리하려고 노력을 하지도 않을 겁니다. 시간이 되면.. 할 뿐이죠. 이것이 KLDP 운영상의 문제라면 문제라고 생각할 수도 있을 겁니다.

이 말은 기분이 나빠서 하는 말이 아니라.. 이제껏 이렇게 밖에 운영을 해 올수 밖에 없었다는 것이고, 앞으로 별로 달라질 바가 없을 것 같다는 얘기입니다. :-)

권순선의 이미지

저도 관리자로서 kldp 이용자들에게 거는 기대가 큽니다만 이용자들에게 실망하는 때가 많이 있습니다. 대략 8년 동안은 정말 그런거 전혀 신경 안쓰고 혼자서 버닝(?)했는데 그때 이후로 최근 몇년간은 상당히 지쳤습니다. 좀더 신경써서 관리해 주었으면... 하는 생각은 이용자로서 당연히 하실 수 있습니다. 그러나 그것을 당연시하지는 말아 주시면 감사드리겠습니다.

누구신지 모르지만 만약 같은 말씀을 http://kldp.net/top/topusers.php 에서 위에 있는 분들이 해 주셨더라면 훨씬 다르게 받아들였을 것입니다만 그렇지 않기 때문에 저도 그다지 신경쓰지 않습니다. 지쳤지만 신경을 완전히 꺼버리거나 포기한 것은 아니기 때문에... 시간과 상황이 허락하는 한도 안에서 최선을 다하려고 노력하기 때문에... 너무 많은 것을 기대하지는 말아 주십사 부탁드리고 싶네요.

탈퇴한회원의 이미지

-삭제되었습니다.

탈퇴된해원입니다.

댓글 달기