엔하위키의 사전화

JReast의 이미지

혹시 엔하위키를 Mdx 파일로 만드는 것에 대해 조언해 주실 분 없나요?

cys9705의 이미지

..엔하위키의 각 페이지가 모두 어떤식으로든 연결되어 있다는 전제하에,
첫 페이지를 열고 그 페이지에서 찾을 수 있는 모든 연결을 추출하고,
연결 된 각각의 페이지에서 또다시 모든 연결을 추출하고..
이런 크롤링 과정을 거쳐야합니다.

그리고 이렇게 모든 문서를 크롤링 해서 문서의 존재를 일정한 형식으로 저장했다면,
이번에는 각 문서의 내용을 파싱해야겠지요.

어떤 환경에서 개발하느냐에 따라 다르겠지만,
중견 언어에서는 대체로 HTML Parser가 있습니다.
물론 정규 표현식을 이용해서 직접 파싱을 할 수도 있겠지요.

어떤식으로든 사전에 넣고 싶은 데이터를 파싱해 낸 뒤,
문서의 ID : 문서의 내용 형태의 DB를 구축하면 된다...는 것이 일반론인 것 같습니다.

Mdx 파일이 무엇인지 잘 모릅니다만,
사전형 데이터를 담는 하나의 확장자라는 전제하에,
'크롤링 후 파싱'이라는 큰 틀은 달라지지 않습니다.

이 계정은 더이상 사용하지 않고 있습니다.
솔직히 말하면, 흑역사뿐인 계정이니, 이 서명이 붙은 글은 못 본 척 해주시면 좋겠습니다ㅠㅜ..

cys9705의 이미지

아시겠지만, 위키의 우수함이란 집단 지성이 아닐까요.
그 산물을 오프라인화 해 단일 (또는 다수의) 파일로 저장하는 것은, 어쩌면 조금은 무모하지 않을까 싶습니다.

위키의 무한한 가능성은,
끊임 없이 업데이트 될 수 있다는 데에 있다고 봅니다.

..물론, 스냅샷을 찍어서 저장하는 것 자체가 나쁘다는 것은 아닙니다.
그럴 필요는 얼마든지 있을 수 있겠죠.

조금은 조심스럽게,
위키를 오프라인화 하는 것이 과연 유의미 할지에 대해서 의문이 가네요;; ._.)

이 계정은 더이상 사용하지 않고 있습니다.
솔직히 말하면, 흑역사뿐인 계정이니, 이 서명이 붙은 글은 못 본 척 해주시면 좋겠습니다ㅠㅜ..

cleansugar의 이미지

엔하위키는 운영진이 누구인지 의뭉스럽습니다.

저번에 이유없이 게시판이 날아가서 복구되지 않은 적도 있습니다.

위키가 언제 증발할 지 모르는 불안한 곳입니다.

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

cys9705의 이미지

..몰랐습니다..<
나름 알고 있는 세계라고 생각했는데... orz

엔젤하이로 위키가 날아갔던건가요 미러가 날아갔던건가요?

이 계정은 더이상 사용하지 않고 있습니다.
솔직히 말하면, 흑역사뿐인 계정이니, 이 서명이 붙은 글은 못 본 척 해주시면 좋겠습니다ㅠㅜ..

hwiorb의 이미지

의미가 없지 않습니다.

스마트폰이나, web 접속이 힘든 환경에서, 웹을 띄우기 보다 사전의 동일한 interface로 자료를 검색할 수 있기 때문입니다.

그리고, 말씀하시는 부분은 오프라인 화 된 DB가 업데이트 되지 않았을 때의 문제일 뿐 입니다. 오히려 한국 wikipedia db 사전화는 2~3 개월 마다 업데이트 되고 있으며, 엔하위키 역시 비공개적으로 사전화해서 배포하는 사람들이 있습니다.

nil.

cys9705의 이미지

그렇네요..- 충분히 이해가 갑니다.
..더구나 사전화 프로그램을 만들어 둔다면 주기적으로 서버 등에서 실행하는 것도 가능할테니,
분명 여러모로 유용하게 쓸 수 있겠군요..../

이 계정은 더이상 사용하지 않고 있습니다.
솔직히 말하면, 흑역사뿐인 계정이니, 이 서명이 붙은 글은 못 본 척 해주시면 좋겠습니다ㅠㅜ..

cwt96의 이미지

흥미로운 주제군요. 이것도 역사를 기록하는 것일까요?