UTF-8의 문자열 중 '한글'인 것을 찾아 이 글의 형태소를 분리해내어 그것을 분석하려하고 있습니다. 루씬 등에서 이 형태소 분석을 지원하는 것 같은데 이에 관련된 내용을 찾지 못하고 있습니다. 단순히 형태소를 분리해내기만 하면 되는데 이와 관련된 정보를 어디에서 찾을 수 있을까요?
'한글 자소 분리' 로 구글링 하면 맨 처음에 좋은게 나오네요. 유니코드의 한글을 계산으로 분리하는 로직입니다. 계산은 UCS-2 기준입니다.http://mwultong.blogspot.com/2006/03/perl.html
emerge money
https://xenosi.de/
텍스트 포맷에 대한 자세한 정보
<code>
<blockcode>
<apache>
<applescript>
<autoconf>
<awk>
<bash>
<c>
<cpp>
<css>
<diff>
<drupal5>
<drupal6>
<gdb>
<html>
<html5>
<java>
<javascript>
<ldif>
<lua>
<make>
<mysql>
<perl>
<perl6>
<php>
<pgsql>
<proftpd>
<python>
<reg>
<spec>
<ruby>
<foo>
[foo]
'한글 자소 분리' 로
'한글 자소 분리' 로 구글링 하면 맨 처음에 좋은게 나오네요.
유니코드의 한글을 계산으로 분리하는 로직입니다.
계산은 UCS-2 기준입니다.
http://mwultong.blogspot.com/2006/03/perl.html
emerge money

https://xenosi.de/
댓글 달기