오픈 소스... 한글 입출력의 수준을 넘어서...

gyumee의 이미지

제가 리눅스를 써온지도 8년이 되가는군요.
넷스케이프에서 대우폰으로 한글 나오는 것 보고 감동했던 것이 눈에 선한데 이제는 데스크탑으로 쓴지도 4년째... office에 프린트도 맘데로 하고... 전자 상거래랑 오락 빼고는 부족함이 없이 쓰고 있습니다. 많은 분들의 수고 덕분인 것 같아서 감사하면서 쓰고 있습니다.
하지만 아직도 한글기술 중의 많은 부분은 공개되지 않은 상태에 있는 것 같습니다. 대표적인 것이 형태속 분석이나 맞춤법 검사 같은 기술 같은데요. 검색기나 email 클라이언트, 워드 프로세서 등에서 단순한 입출력 이외에 고급기능을 위해서는 꼭 필요한 것 같네요.
최소한 한글 사전, 동의어 사전 같은 것이라도 있어야 할 것 같은데요. 제가 한글 처리 쪽을 아는 바가 없어서 많은 분들의 의견과 조언을 듣고 싶습니다.
이런 자료를 모아 놓는 것 만으로도 일단 시작은 될 수 있을 것 같은데요. ispell의 한글화 같은 것도 의미 있을 것 같구요.
결국 주제가 '오픈 소스를 위한 고급 한글 처리 기술 조사'가 되겠네요. 많은 도움 부탁드립니다.

우수한의 이미지

일전에 제가 작성한 프로그램에 "한글 맞춤법 검사"랑 "형태소 분석을 통한 색인" 기능을 넣어볼려고 조금 시도한 적이 있는데요. 몇몇 기업과 대학교에서 관련기술을 개발했지만, 말씀하신 것처럼 공개를 하지 않더군요. 그리고 몇군데 문의해본 결과, 윈도우 어플리케이션에 장착할 수 있는 형태로 개발되는 경우가 많은 것 같았습니다. 대학교에 근거를 둔 벤처기업의 경우에는 저렴한 가격으로 구입할 수도 있었습니다만, 결국 이런 기능을 넣는 것이 큰 의미가 없다고 판단하고 포기해버렸답니다.

이미 알고 계시겠지만, 다음 링크를 참조하시구요. KTS라는 놈이 공개가 된 것 같기는 한데, 소스는 안보이는군요. :?
형태소분석 http://chem.skku.ac.kr/~kle/main/%C7%FC%C5%C2%BC%D2%BA%D0%BC%AE
한글스펠러 http://chem.skku.ac.kr/~kle/main/%C7%D1%B1%DB%BD%BA%C6%E7%B7%AF

우수하지 않아요. '우수한'은 옛날 만화 CityHunter에서 따와서 쓰던 별명. ;-)

wkpark의 이미지

작년에 GPL로 라이센스를 바꾼 이상호씨의 KTS와 그 연구실에서 또 다른 후배분이 만든 GPL 라이센스의 장병규,김재훈씨의 MoA가 있습니다.

http://bulsai.kaist.ac.kr/~shlee/ktsworld.html

(automake처리한 소스)
http://chem.skku.ac.kr/~wkpark/project/kts/

http://csone.kaist.ac.kr/~bgjang/MoA/contents.html

온갖 참된 삶은 만남이다 --Martin Buber

gyumee의 이미지

역시 여기 저기에서 노력하신 분들이 계시군요.
다만... 문제는 지속적이지 못한 인상이 있고 구체적인 응용사례가 드문 것 같은데...
저는 웹 에이전시에서 웹 어플리케이션을 개발하고 있습니다. 주로 open source 를 주로 사용해서 일을 처리하는데 제일 난감한 경우가 검색엔진 부분입니다.
웹서버나 WAS 같은 것은 오픈소스로 나온 것들이 많고 품질도 뛰어난데 검색엔진의 경우는 한글 문제 때문에 매번 걸리더군요.
저는 mnoGoSearch에 관심이 많은데요. 요즘(?)에 한글, 일본어 같은 2bytes 언어도 지원하게 되어서 써보려고 하지만 역시 형테소 분석인 안되기 때문에 한계가 있습니다. 일본어, 중국어, 타이어의 경우는 최근 Phrase segmentation이 지원된다는데 한글은 안되는 것 같습니다.
그래서 고민하던 중에 이렇게 글을 올리게 되었네요. 제가 할 수 있을지 아닌지 모르겠지만 공론화 시켜보는게 좋을 것 같아서요.
저의 의도야 이렇지만 좌우간 제한 받지 마시고 폭넓게 논의해 보는 것이 의미 있을 것 같네요.

익명 사용자의 이미지

PHP 언어로 된 형태소 분석기를 구현한 상태입니다
자랩, ZaLab, http://lab.zagia.com

도움이 되었으면 하네요