한글 문헌 클러스터링 엔진은?
글쓴이: cleansugar / 작성시간: 일, 2004/09/19 - 7:20오후
Clustering은 기준 그룹이 없는 상태에서 문서들간 유사도를 측정해 분류하는 것이고 Classification은 기준 그룹이 있을 때 거기에 맞춰서 문서를 분류하는 것이라고 알고 있습니다.
한글 문서들을 클러스터링하거나 클래써피케이션을 하려고 하는데요,
소스포지같은 데를 찾아보니까 영어나 일본어 클러스터링 엔진은 있는 것 같습니다. 스팸메일 분류 엔진도 많이 있고요. 국산 상용엔진은 몇가지 있긴 합니다.
그렇다면 한글 문서를 클러스터링하려면 위의 엔진을 그대로 이용할 수 있는 것인가요? 아니면 한글용으로 개조해야 되는 것인가요?
한글 클러스터링 가능한 엔진의 이름을 추천해주십시오.
그리고 그걸 게시판 등에 붙일 수 있는 방법을 초보자가 알기 쉽게 소개해주시면 더욱 고맙겠습니다.
Forums:
오픈 소스 한글 처리와 관련된 기반은 거의 전무하다고 해도 과언이 아닙니
오픈 소스 한글 처리와 관련된 기반은 거의 전무하다고 해도 과언이 아닙니다. 도큐먼트 클러스터링 정도야 형태소 분석기 없이도 해볼만하다는 생각이 들긴합니다만... 클러스터링 자체에 대해서는 머신러닝쪽 서적을 조금만 뒤져보시면 아주 간단히 알아보실 수 있습니다.
소스포지에 있는 영어나 일본어 클러스터링 엔진들이 언어처리 자체를 어떤 방식으로 하는지는 모르겠지만, 영어나 일본어는 오픈소스인 형태소 분석기도 쉽게 얻을 수 있습니다. 어쨌거나 앞부분의 언어처리 부분만 조금 수정한다면 (사실 알고리즘이야 몇줄 되지도 않지만) 나머지 부분은 대부분 그대로 사용하실 수 있으리라 생각합니다.
도큐먼트 클러스터링이 활용분야가 그다지 많지 않은 편인데, 아마 글에 언급하신것처럼 스팸처리를 하시나보죠..
네
스팸 처리 등에 유용하겠다는 생각이 드는데
쉬운 일은 아닌 듯 합니다.
답변 감사합니다.
재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.
아이디의 아이디어 무한도전
http://blog.aaidee.com
귀태닷컴
http://www.gwitae.com
댓글 달기