새로운 형태소 분석기가 공개되었군요...

정태영의 이미지

http://phpschool.com/bbs2/inc_view.html?code=review&id=566

새로운 형태소 분석기가 공개되긴 했는데.. 라이센스가
어떻게 되는지는 모르겠군요 :)

php 로 만들어진 형태소 분석기랍니다..

테스트는 여기서..
http://search.dotcom21.co.kr/searchexe.html

소스 다운로드는..
http://search.dotcom21.co.kr/search.tgz

tinywolf의 이미지

'이게 뭐하는 거다냐'를 넣었더니.. '이다'와 '하다'로 분해해주는군요.. ㅎㅎ

ㅡ_ㅡ;

익명 사용자의 이미지

라이센스는 public domain 인것 같습니다.

Quote:

1.임의적인 소스 수정 가능합니다.

2.상업적으로 이용하셔도 됩니다.

3.판매하지 않습니다.

해당 사이트 문의 게시판에서 확인했습니다.

익명 사용자의 이미지

이거보다는

http://wiki.kldp.org/wiki.php/%C7%FC%C5%C2%BC%D2%BA%D0%BC%AE%B1%E2
이게 훨씬 나은것 같군요.

라이센스도 더 분명하고..

김정균의 이미지

Anonymous wrote:
라이센스는 public domain 인것 같습니다.

Quote:

1.임의적인 소스 수정 가능합니다.

2.상업적으로 이용하셔도 됩니다.

3.판매하지 않습니다.

해당 사이트 문의 게시판에서 확인했습니다.

별로.. 일단 사전에 대해서는 공개를 하지 않는다 했으니, 결국에는 주어진 대로 밖에 사용할 수가 없다는 얘기죠. 물론 코드가 공개되어 있으니 reverse engineering 이 어렵지는 않겠지만, 한 30분 코드 보고 있자니 하기 싫어지더군요. 사전만 어떻게 해 볼까 하다가 그냥 포기하고 만..

누군가 해 주겠죠 ^^;

wkpark의 이미지

김정균 wrote:
라이센스는 public domain 인것 같습니다.

별로.. 일단 사전에 대해서는 공개를 하지 않는다 했으니, 결국에는 주어진 대로 밖에 사용할 수가 없다는 얘기죠. 물론 코드가 공개되어 있으니 reverse engineering 이 어렵지는 않겠지만, 한 30분 코드 보고 있자니 하기 싫어지더군요. 사전만 어떻게 해 볼까 하다가 그냥 포기하고 만..

누군가 해 주겠죠 ^^;

예 저도 코드를 조금 보았는데, 심플하게 구현된 것 같습니다.
미등록단어에 대한 처리는 보이지 않는듯 하고요

요피사용자모임에 올려있는 sclee님이 최근에 만드신(2004년) sma 0.4가 코드도 심플하고, 형태소분석기 구현에 많은 도움이 될 듯 하고,
http://www.kyug.net/bbs/view.php?id=download3&no=64

이상호님의 KTS가 완성도가 훨씬 높은 반면, 내부적으로 완성형+이성진코드를 쓰는 방식이기 때문에 코드가 좀 복잡합니다.

둘 다 사전자료가 있는데, sma0.4의 사전자료(체언)가 가장 많은 것 같더군요. (ami.dic까지 합하면 약 98365개의 명사..)
이렇게 많은 단어인데도 몇몇 단어들이 빠져있더군요.

사전 잘 정리된 것 어디 없을까요?

온갖 참된 삶은 만남이다 --Martin Buber

cleansugar의 이미지

꼬꼬마라는 GPL 형태소 분석기가 있네요.
http://kkma.snu.ac.kr/

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

cleansugar의 이미지

형태소 분석 '은전한닢' 프로젝트와 MeCab(메카브)
http://www.iamday.net/apps/article/talk/2122/view.iamday

은전한닢 프로젝트
http://eunjeon.blogspot.kr/2013/02/blog-post.html

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

cleansugar의 이미지

KOMORAN ver 0.6 (자바 한글 형태소 분석기)
http://shineware.tistory.com/28

한글 형태소 분석기 KOMORAN 0.6 버전을 공개합니다.

네이밍과 관련하여 몇몇 분의 문의를 주셨는데, KOMORAN은

KOrean MORphological ANalyzer의 약자입니다.

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com