RAINBOW 문서 분류 툴킷 한글화에 관해

minmild의 이미지

안녕하세요?

현재 스팸메일 차단 관련 기술을 공부하고 있는 대학생입니다.

Andrew McCallum이 저자인 Rainbow toolkit은 리눅스용으로 개발되었고

이 툴킷은 영어로 되어있는 문서를 자동으로 분류를 해주는 시스템입니다.

분류 기법은 Bayes방식이나 KNN, SVM 등 다양한 method를 사용할 수

있구요.

이 툴킷을 한글이 실행될 수 있도록 소스를 고쳐보려고 하는데 생각만큼

잘 되지를 않는군요

혹시나 해서 우리나라에서 Rainbow Toolkit을 한글화 해보려고 하신 분이

있나 찾아보았는데 없더군요.

참고로 Rainbow는 GPL입니다.

영문을 읽어서 분류해 주는 시스템을 한글도 되게 하려면 어떤 작업을 해야

하는지 혹시 아시는 분이 계시다면 좀 도와주시겠습니까?

몇 일간 계속 매달리고 있는데 소스 해석하다가 지쳤습니다.

답변 부탁드립니다.

mach의 이미지

minmild wrote:
안녕하세요?

현재 스팸메일 차단 관련 기술을 공부하고 있는 대학생입니다.

Andrew McCallum이 저자인 Rainbow toolkit은 리눅스용으로 개발되었고

이 툴킷은 영어로 되어있는 문서를 자동으로 분류를 해주는 시스템입니다.

분류 기법은 Bayes방식이나 KNN, SVM 등 다양한 method를 사용할 수

있구요.

이 툴킷을 한글이 실행될 수 있도록 소스를 고쳐보려고 하는데 생각만큼

잘 되지를 않는군요

혹시나 해서 우리나라에서 Rainbow Toolkit을 한글화 해보려고 하신 분이

있나 찾아보았는데 없더군요.

참고로 Rainbow는 GPL입니다.

영문을 읽어서 분류해 주는 시스템을 한글도 되게 하려면 어떤 작업을 해야

하는지 혹시 아시는 분이 계시다면 좀 도와주시겠습니까?

몇 일간 계속 매달리고 있는데 소스 해석하다가 지쳤습니다.

답변 부탁드립니다.


영문과는 달리 한글은 조사라는게 있지요.
"~은 ~를 ~가"등등
이러한 것을 고려해야하고 복합명사도 아주 많습니다.
"동해물과 백두산이 마르고 닳도록"
동해물, 동해 + 물, 동해물, 동 +해물,
이런 여러가지 사유로 인하여 단지 특정 단어의 빈도수만을 가지고 분류를 한다면
모를까, 보다 정확한 분류를 위해서는 형태소분석기를 거치는것이 필수적입니다.
한글을 고려한다면, 형태소분석기를 공부하는게 rainbow를 보시는것 보다
훨신 나은 접근방법으로 보입니다. 한글목적이라면 rainbow를 보는것이
별로 타당하지 못하다는 말입니다.
검색엔진관련하여 자료를 찾아보시면 님이 원하는 정답은 아니어도 참고는
많이 나올것입니다.

------------------ P.S. --------------
지식은 오픈해서 검증받아야 산지식이된다고 동네 아저씨가 그러더라.

hurryon의 이미지

mach wrote:
minmild wrote:
안녕하세요?

현재 스팸메일 차단 관련 기술을 공부하고 있는 대학생입니다.

Andrew McCallum이 저자인 Rainbow toolkit은 리눅스용으로 개발되었고

이 툴킷은 영어로 되어있는 문서를 자동으로 분류를 해주는 시스템입니다.

분류 기법은 Bayes방식이나 KNN, SVM 등 다양한 method를 사용할 수

있구요.

이 툴킷을 한글이 실행될 수 있도록 소스를 고쳐보려고 하는데 생각만큼

잘 되지를 않는군요

혹시나 해서 우리나라에서 Rainbow Toolkit을 한글화 해보려고 하신 분이

있나 찾아보았는데 없더군요.

참고로 Rainbow는 GPL입니다.

영문을 읽어서 분류해 주는 시스템을 한글도 되게 하려면 어떤 작업을 해야

하는지 혹시 아시는 분이 계시다면 좀 도와주시겠습니까?

몇 일간 계속 매달리고 있는데 소스 해석하다가 지쳤습니다.

답변 부탁드립니다.


영문과는 달리 한글은 조사라는게 있지요.
"~은 ~를 ~가"등등
이러한 것을 고려해야하고 복합명사도 아주 많습니다.
"동해물과 백두산이 마르고 닳도록"
동해물, 동해 + 물, 동해물, 동 +해물,
이런 여러가지 사유로 인하여 단지 특정 단어의 빈도수만을 가지고 분류를 한다면
모를까, 보다 정확한 분류를 위해서는 형태소분석기를 거치는것이 필수적입니다.
한글을 고려한다면, 형태소분석기를 공부하는게 rainbow를 보시는것 보다
훨신 나은 접근방법으로 보입니다. 한글목적이라면 rainbow를 보는것이
별로 타당하지 못하다는 말입니다.
검색엔진관련하여 자료를 찾아보시면 님이 원하는 정답은 아니어도 참고는
많이 나올것입니다.

냠냠...지금 하고 있는 일이 이쪽 일이라서...냠냠냠...

고려대학교 자연어처리 연구실이나
부산대학교 자연어처리 연구실이 이쪽 방면에서는 알아 줍니다...냠냠...수거하세요.

익명 사용자의 이미지

안녕하세요
PHP 언어로 형태소 분석기를 구현한 상태입니다
자연어 처리에 큰 도움이 될 것입니다

자랩, ZaLab, http://lab.zagia.com

형태소 분석과 관련하여 도움이 될 듯 합니다

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.