혹시 엔하위키를 Mdx 파일로 만드는 것에 대해 조언해 주실 분 없나요?
..엔하위키의 각 페이지가 모두 어떤식으로든 연결되어 있다는 전제하에, 첫 페이지를 열고 그 페이지에서 찾을 수 있는 모든 연결을 추출하고, 연결 된 각각의 페이지에서 또다시 모든 연결을 추출하고.. 이런 크롤링 과정을 거쳐야합니다.
그리고 이렇게 모든 문서를 크롤링 해서 문서의 존재를 일정한 형식으로 저장했다면, 이번에는 각 문서의 내용을 파싱해야겠지요.
어떤 환경에서 개발하느냐에 따라 다르겠지만, 중견 언어에서는 대체로 HTML Parser가 있습니다. 물론 정규 표현식을 이용해서 직접 파싱을 할 수도 있겠지요.
어떤식으로든 사전에 넣고 싶은 데이터를 파싱해 낸 뒤, 문서의 ID : 문서의 내용 형태의 DB를 구축하면 된다...는 것이 일반론인 것 같습니다.
Mdx 파일이 무엇인지 잘 모릅니다만, 사전형 데이터를 담는 하나의 확장자라는 전제하에, '크롤링 후 파싱'이라는 큰 틀은 달라지지 않습니다.
이 계정은 더이상 사용하지 않고 있습니다. 솔직히 말하면, 흑역사뿐인 계정이니, 이 서명이 붙은 글은 못 본 척 해주시면 좋겠습니다ㅠㅜ..
아시겠지만, 위키의 우수함이란 집단 지성이 아닐까요. 그 산물을 오프라인화 해 단일 (또는 다수의) 파일로 저장하는 것은, 어쩌면 조금은 무모하지 않을까 싶습니다.
위키의 무한한 가능성은, 끊임 없이 업데이트 될 수 있다는 데에 있다고 봅니다.
..물론, 스냅샷을 찍어서 저장하는 것 자체가 나쁘다는 것은 아닙니다. 그럴 필요는 얼마든지 있을 수 있겠죠.
조금은 조심스럽게, 위키를 오프라인화 하는 것이 과연 유의미 할지에 대해서 의문이 가네요;; ._.)
엔하위키는 운영진이 누구인지 의뭉스럽습니다.
저번에 이유없이 게시판이 날아가서 복구되지 않은 적도 있습니다.
위키가 언제 증발할 지 모르는 불안한 곳입니다.
재벌 2세가 재벌이 될 확률과 금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록 자유오픈소스 대안화폐를 씁시다.
아이디의 아이디어 무한도전http://blog.aaidee.com
귀태닷컴http://www.gwitae.com
..몰랐습니다..< 나름 알고 있는 세계라고 생각했는데... orz
엔젤하이로 위키가 날아갔던건가요 미러가 날아갔던건가요?
의미가 없지 않습니다.
스마트폰이나, web 접속이 힘든 환경에서, 웹을 띄우기 보다 사전의 동일한 interface로 자료를 검색할 수 있기 때문입니다.
그리고, 말씀하시는 부분은 오프라인 화 된 DB가 업데이트 되지 않았을 때의 문제일 뿐 입니다. 오히려 한국 wikipedia db 사전화는 2~3 개월 마다 업데이트 되고 있으며, 엔하위키 역시 비공개적으로 사전화해서 배포하는 사람들이 있습니다.
nil.
그렇네요..- 충분히 이해가 갑니다. ..더구나 사전화 프로그램을 만들어 둔다면 주기적으로 서버 등에서 실행하는 것도 가능할테니, 분명 여러모로 유용하게 쓸 수 있겠군요..../
흥미로운 주제군요. 이것도 역사를 기록하는 것일까요?
우선 크롤링과 파싱이 필요하겠지요
..엔하위키의 각 페이지가 모두 어떤식으로든 연결되어 있다는 전제하에,
첫 페이지를 열고 그 페이지에서 찾을 수 있는 모든 연결을 추출하고,
연결 된 각각의 페이지에서 또다시 모든 연결을 추출하고..
이런 크롤링 과정을 거쳐야합니다.
그리고 이렇게 모든 문서를 크롤링 해서 문서의 존재를 일정한 형식으로 저장했다면,
이번에는 각 문서의 내용을 파싱해야겠지요.
어떤 환경에서 개발하느냐에 따라 다르겠지만,
중견 언어에서는 대체로 HTML Parser가 있습니다.
물론 정규 표현식을 이용해서 직접 파싱을 할 수도 있겠지요.
어떤식으로든 사전에 넣고 싶은 데이터를 파싱해 낸 뒤,
문서의 ID : 문서의 내용 형태의 DB를 구축하면 된다...는 것이 일반론인 것 같습니다.
Mdx 파일이 무엇인지 잘 모릅니다만,
사전형 데이터를 담는 하나의 확장자라는 전제하에,
'크롤링 후 파싱'이라는 큰 틀은 달라지지 않습니다.
이 계정은 더이상 사용하지 않고 있습니다.
솔직히 말하면, 흑역사뿐인 계정이니, 이 서명이 붙은 글은 못 본 척 해주시면 좋겠습니다ㅠㅜ..
하지만 그 이전에 위키의 오프라인화라는 것이 의미가 있을까요?
아시겠지만, 위키의 우수함이란 집단 지성이 아닐까요.
그 산물을 오프라인화 해 단일 (또는 다수의) 파일로 저장하는 것은, 어쩌면 조금은 무모하지 않을까 싶습니다.
위키의 무한한 가능성은,
끊임 없이 업데이트 될 수 있다는 데에 있다고 봅니다.
..물론, 스냅샷을 찍어서 저장하는 것 자체가 나쁘다는 것은 아닙니다.
그럴 필요는 얼마든지 있을 수 있겠죠.
조금은 조심스럽게,
위키를 오프라인화 하는 것이 과연 유의미 할지에 대해서 의문이 가네요;; ._.)
이 계정은 더이상 사용하지 않고 있습니다.
솔직히 말하면, 흑역사뿐인 계정이니, 이 서명이 붙은 글은 못 본 척 해주시면 좋겠습니다ㅠㅜ..
엔하위키는 운영진이 누구인지 의뭉스럽습니다. 저번에
엔하위키는 운영진이 누구인지 의뭉스럽습니다.
저번에 이유없이 게시판이 날아가서 복구되지 않은 적도 있습니다.
위키가 언제 증발할 지 모르는 불안한 곳입니다.
재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.
아이디의 아이디어 무한도전
http://blog.aaidee.com
귀태닷컴
http://www.gwitae.com
그랬군요...<
..몰랐습니다..<
나름 알고 있는 세계라고 생각했는데... orz
엔젤하이로 위키가 날아갔던건가요 미러가 날아갔던건가요?
이 계정은 더이상 사용하지 않고 있습니다.
솔직히 말하면, 흑역사뿐인 계정이니, 이 서명이 붙은 글은 못 본 척 해주시면 좋겠습니다ㅠㅜ..
의미가 없지 않습니다. 스마트폰이나, web 접속이
의미가 없지 않습니다.
스마트폰이나, web 접속이 힘든 환경에서, 웹을 띄우기 보다 사전의 동일한 interface로 자료를 검색할 수 있기 때문입니다.
그리고, 말씀하시는 부분은 오프라인 화 된 DB가 업데이트 되지 않았을 때의 문제일 뿐 입니다. 오히려 한국 wikipedia db 사전화는 2~3 개월 마다 업데이트 되고 있으며, 엔하위키 역시 비공개적으로 사전화해서 배포하는 사람들이 있습니다.
nil.
그렇네요..-
그렇네요..- 충분히 이해가 갑니다.
..더구나 사전화 프로그램을 만들어 둔다면 주기적으로 서버 등에서 실행하는 것도 가능할테니,
분명 여러모로 유용하게 쓸 수 있겠군요..../
이 계정은 더이상 사용하지 않고 있습니다.
솔직히 말하면, 흑역사뿐인 계정이니, 이 서명이 붙은 글은 못 본 척 해주시면 좋겠습니다ㅠㅜ..
흥미로운 주제군요. 이것도 역사를 기록하는 것일까요?
흥미로운 주제군요. 이것도 역사를 기록하는 것일까요?