조사, 어미변화를 감안해서 단어 수 세기
글쓴이: mykldp / 작성시간: 토, 2005/04/23 - 5:16오후
음...한글과 영어로 된 텍스트에서 사용된 단어의 수를 세야할 일이 생겼습니다. 반복해서 사용된 단어는 물론 하나로 셉니다. 그런데 문제는 조사하고 어미 변화입니다. 예를 들어서 "던지다", "던져서", "던지고" 등을 하나로 세야 하는데 이거 어떻게 해야 하나요? 영어의 경우도 단수, 복수형을 하나로 세고 동사의 현재, 과거, 3인칭형 등을 하나로 세야 하는데 이거 가능한가요? 불규칙한 것은 어쩔 수 없다고 해도 규칙적인 것은 처리할 수 있어야 하는데 어렵군요. 자연어 처리나 검색엔진 같은 쪽에 개발 경험이 있으신 분들은 정보가 있으실 거 같은데 좀 부탁드립니다. 만약에 이미 사용할 수 있는 라이브러리나 툴이 있다면 소개해 주십시오. 물론 알고리즘이나 아이디어만이라도 부탁드립니다.
Forums:
'형태소 분석기'
'형태소 분석기'
여기에 가보세요
PHP로 형태소 분석기하고 영어 스테머 만들어 놓은 곳인데요
혹시 도움될지 모르니 가보세요
http://lab.zagia.com
형태소 분석기가 오픈된 것이 거의 없고 엄청 비싸다던데,, 부지런히 하시고 결과 올려주세요
댓글 달기