KTS 한글 형태소분석기 KLDP.net 입주

wkpark의 이미지

이상호님의 한글 형태소분석기 KTS를 KLDP.net에 입주시켰습니다.

KTS는 1995년 이상호님이 개발한 것으로 논문 및 소스가 인터넷상에 공개되어있던 것을
2002년 GPL 라이센스로 정식으로 전환한 것입니다.

형태소분석기를 개발하시는 분들에게 많은 도움되시길 바랍니다~

KTS의 특징


  • EUC-KR 및 이성진 코드(한글을 영문으로 표현하는 방법중 한가지) 기반
  • 경로기반의 태깅 및 상태기반의 태깅 동시 지원
  • 각종 사전을 만들기위한 툴이 제공된다.
  • 확률기반 처리 및 미등록어 처리 기법 제공
  • corpus 자료 제공 (태깅된 5만5천여 문장, 태깅안된 7천여 문장)

버전 1.0.1 변경점


  • svn으로 소스관리
  • ndbm을 사용하던 것을 db를 사용하도록 고침 (dbm호환모드)
  • 소스트리 정리

개발 사이트


http://kldp.net/projects/kts

댓글

M.W.Park의 이미지

평소에 관심이 많은 부분이었는데...
좋은 소식이군요.

-----
오늘 나의 취미는 끝없는, 끝없는 인내다. 1973 法頂

-----
오늘 의 취미는 끝없는, 끝없는 인내다. 1973 法頂

cup의 이미지

공부는 끝이 없군요 .

저도 참여해보고 싶습니다.

dormael의 이미지

만들어 보고 싶은 툴이었는데
맨땅에서 하기엔 무리가 있고 해서 계속 미뤄왔었는데...

이렇게 알려주셔서 감사합니다.

^_^

-- Signature --
青い空大好き。
蒼井ソラもっと好き。
파란 하늘 너무 좋아.
아오이 소라 더좋아.

wkpark의 이미지

KTS 개발을 계속하기위해 프로젝트를 입주시켰다기보다는...

우선은 소스관리차원에서 올린것입니다 :>

대대적으로 소스를 개정하기 보다는.. 기본은 그대로 두고 ispell -a 호환모드를 만든다거나 할 수 있겠습니다.

온갖 참된 삶은 만남이다 --Martin Buber

antz의 이미지

오픈소스 형태소 분석기가 있군요.
참 반가운 소식이네요. :-)

---


Blog : http://lum7671.egloos.com

wkpark의 이미지

이거 말고도 몇개 더 있습니다.

sma4 : GPL (소스 있음)
MoA : GPL (소스 못구함)

phpsearch: public domain (phpschool에 소스 있음)

이곳에서 검색해보시면 관련 정보를 찾으실 수 있습니다.

온갖 참된 삶은 만남이다 --Martin Buber

jeongkyu의 이미지

최근에 원규님 블로그를 리더에 추가했는데 반가운 소식을 접하게 되어 기쁩니다. 오픈오피스 한국어 커뮤니티를 운영하다보니 맞춤법 검사기에 대한 사용자들의 요구사항을 자주 접합니다. (제 이해가 맞는지 모르겠지만) 위에서 언급하신 "ispell -a 호환모드"가 개발되면 ispell을 사용하는 애플리케이션에 한국어 맞춤법 검사 기능을 추가하는 것도 가능해지는 것이죠?

이렇게 좋은 자료와 코드가 있는지 모르고 지냈는데, 서둘러 공부를 시작해야겠습니다. :-)

김정규
http://openoffice.or.kr

Jeongkyu Kim
OpenOffice.org Korean community lead

Official website http://ko.openoffice.org
Community forum http://oooko.net/
Personal blog http://oooko.net/gomme

corean의 이미지

혹시 정확한 링크를 찾을수 있을까요?

검색을 위해 형태소분서까지는 아니더라도 단어추출을 해야 하는데,
마땅히 쓸수 있는게 없네요

wkpark의 이미지

이 소스는 제가 가지고 있던 것인데,
기존 파일이 확장자를 모두 html였던 것을 php로 바꾼 것입니다.

장형석님의 phpsearch 0.52입니다.

참고 링크:

http://www.phpschool.com/gnuboard4/bbs/board.php?bo_table=tipntech&wr_id=49630

댓글 첨부 파일: 
첨부파일 크기
파일 search-0.52.tgz149 KB

온갖 참된 삶은 만남이다 --Martin Buber

dormael의 이미지

INSTALL문서를 보고 빌드해 보았는데

aclocal을 실행해 주지 않고 automake, autoconf, ./configure, make시에 문제가 있었습니다.

automake시에

aclocal.m4: 353: `automake requires `AM_CONFIG_HEADER', not `AC_CONFIG_HEADER'
configure.in: 353: required file `./$@)].in' not found

make시에

/bin/bash: -c: line 0: syntax error near unexpected token `)'
/bin/bash: -c: line 0: `if test ! -f )].in; then \'
make: *** [)].in] Error 2

와 같은 에러가 나면서 실패했습니다.

제가 툴 사용법들을 몰라서 원인은 잘 모르겠습니다.. ㅡ,.ㅡ

-- Signature --
青い空大好き。
蒼井ソラもっと好き。
파란 하늘 너무 좋아.
아오이 소라 더좋아.

wkpark의 이미지

방금 svn 다운받아서 테스트해보았습니다.

아무런 에러메시지 없이 무사히 컴파일 되는군요.

에러메시지를 보면 AC_CONFIG_HEADER말고 AM_CONFIG_HEADER쓰라는 말 같은데, configure.in에는 이미 AM_*을 쓰고 있습니다.

automake 버전차이때문이 아닐까 합니다. 저는 Fedora core5입니다..

automake -v를 해보니... 버전 1.9가 쓰이는 것 같고, autoconf -V 해보면 autoconf 버전은 2.59입니다.

온갖 참된 삶은 만남이다 --Martin Buber

dormael의 이미지

확인해 주셔서 감사합니다.

automake의 경우가 1.4-p6이 설치되어 있네요. ㅡ,.ㅡ

워낙 재설치나 업데이트를 안하는 성격이라..

아무튼 automake전에 aclocal을 실행하면 아무런 문제없이 컴파일 됩니다. ^_^

-- Signature --
青い空大好き。
蒼井ソラもっと好き。
파란 하늘 너무 좋아.
아오이 소라 더좋아.

number3의 이미지

형태소 분석기에 관심을 가지다가 본 적이 있었는데,
오픈 소스로 변경하여 진행을 한다니,
관심을 가지고 지켜보고, 실력이 쌓이면 참여하도록 하겠습니다.

cleansugar의 이미지

형태소 분석 '은전한닢' 프로젝트와 MeCab(메카브)
http://www.iamday.net/apps/article/talk/2122/view.iamday

은전한닢 프로젝트
http://eunjeon.blogspot.kr/2013/02/blog-post.html

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.