한글의 인코딩에 따른 자소 분석
글쓴이: 나그네나그네 / 작성시간: 월, 2010/08/16 - 6:29오후
글자 하나가 들어왔다고 할 때, 그 글자의 초성, 중성, 종성을 뽑아내고 싶습니다.
그런데 그 글자의 인코딩에 따라 초성, 중성, 종성을 뽑아내는 pattern이 다른 것이 문제군요.
범용적인 인코딩에 대해 초성, 중성, 종성의 추출을 구현해 놓은 라이브러리가 있는지요?
혹은, 특정 인코딩에 대해서 초성, 중성, 종성을 뽑아내는 프로그램이라도 소개해 주시면 감사하겠습니다
프로그래밍 언어는 그닥 상관 없지만.. 되도록이면 JAVA쪽으로 추천을 ㅎㅎ
Forums:
Perl로 하면
CPAN에
http://search.cpan.org/perldoc?Lingua::KO::Hangul::Util
가 있습니다.
소스를 보면 로직이 그렇게 복잡한게 아니라 포팅해서 사용하시면 될듯
인코딩마다 분리하는 로직을 별도로 삽질하는 거 보다야
어떤 인코딩이든지 일단 Unicode로 변환하고 Unicode에
대해서 초.중.종성을 분리하면 되겠죠
python 이라면 perky
python 이라면 perky 님의 hangul.py 를 이용하실 수 있습니다.
http://biohackers.net/wiki/PythonAndHangul#head-4788cfe894c55238b6133994c6ab356302f63ec8
댓글 달기