RAINBOW 문서 분류 툴킷 한글화에 관해
글쓴이: minmild / 작성시간: 수, 2003/08/27 - 10:52오전
안녕하세요?
현재 스팸메일 차단 관련 기술을 공부하고 있는 대학생입니다.
Andrew McCallum이 저자인 Rainbow toolkit은 리눅스용으로 개발되었고
이 툴킷은 영어로 되어있는 문서를 자동으로 분류를 해주는 시스템입니다.
분류 기법은 Bayes방식이나 KNN, SVM 등 다양한 method를 사용할 수
있구요.
이 툴킷을 한글이 실행될 수 있도록 소스를 고쳐보려고 하는데 생각만큼
잘 되지를 않는군요
혹시나 해서 우리나라에서 Rainbow Toolkit을 한글화 해보려고 하신 분이
있나 찾아보았는데 없더군요.
참고로 Rainbow는 GPL입니다.
영문을 읽어서 분류해 주는 시스템을 한글도 되게 하려면 어떤 작업을 해야
하는지 혹시 아시는 분이 계시다면 좀 도와주시겠습니까?
몇 일간 계속 매달리고 있는데 소스 해석하다가 지쳤습니다.
답변 부탁드립니다.
Forums:
Re: RAINBOW 문서 분류 툴킷 한글화에 관해
영문과는 달리 한글은 조사라는게 있지요.
"~은 ~를 ~가"등등
이러한 것을 고려해야하고 복합명사도 아주 많습니다.
"동해물과 백두산이 마르고 닳도록"
동해물, 동해 + 물, 동해물, 동 +해물,
이런 여러가지 사유로 인하여 단지 특정 단어의 빈도수만을 가지고 분류를 한다면
모를까, 보다 정확한 분류를 위해서는 형태소분석기를 거치는것이 필수적입니다.
한글을 고려한다면, 형태소분석기를 공부하는게 rainbow를 보시는것 보다
훨신 나은 접근방법으로 보입니다. 한글목적이라면 rainbow를 보는것이
별로 타당하지 못하다는 말입니다.
검색엔진관련하여 자료를 찾아보시면 님이 원하는 정답은 아니어도 참고는
많이 나올것입니다.
------------------ P.S. --------------
지식은 오픈해서 검증받아야 산지식이된다고 동네 아저씨가 그러더라.
Re: RAINBOW 문서 분류 툴킷 한글화에 관해
냠냠...지금 하고 있는 일이 이쪽 일이라서...냠냠냠...
고려대학교 자연어처리 연구실이나
부산대학교 자연어처리 연구실이 이쪽 방면에서는 알아 줍니다...냠냠...수거하세요.
PHP 형태소 분석기, 색인어 추출기 PUZIN
안녕하세요
PHP 언어로 형태소 분석기를 구현한 상태입니다
자연어 처리에 큰 도움이 될 것입니다
자랩, ZaLab, http://lab.zagia.com
형태소 분석과 관련하여 도움이 될 듯 합니다
댓글 달기