한글 regular expression 구현 (소스 포함)
글쓴이: babbab / 작성시간: 목, 2014/07/10 - 11:52오전
그동안 초성이 ㄱ이고 중성이 ㅏ이고 종성이 ㄴ인 것을 매치하는 한글 regexp를 구현할려고
공부했습니다. 이것은 중간 결과입니다.
구현된 operators: [^-], <>, (), |, *, .
+, ?, ^, $, (sub expr)은 아직 구현되지 않았습니다.
<> operator는 한글 자모 operator입니다.
쓰는 방법은 <초성,중성,종성> 으로 kldp.org에서 몇몇 분들이 얘기 하셨던 부분입니다.
이 구현으로 많은분들이 한글 regexp에 관심을 가져주길 희망합니다.
윈도우 8.1 64bit에서 mingw (GCC) 4.8.1 으로 컴파일 했습니다.
컴파일러에 주어진 옵션은
-Wl,--stack=104857600 -Wl,--heap=104857600 -finput-charset=CP949 -g
입니다. 리눅스에선 아직 컴파일해보진 않았습니다. 즐거은 코딩되세요.
File attachments:
첨부 | 파일 크기 |
---|---|
hanregexp.zip | 6.7 KB |
Forums:
지금 리눅스에서 컴파일 해봤는데...
우선 소스 코드 안에 로케일을 해당 로케일로 바꾸셔야 합니다.
저같은 경우엔 ko_KR.utf-8 입니다.
그리고 리눅스에선 ld linker의 --stack 이나 --heap 옵션이 없습니다.
ulimit 이란 명령어로 stack size를 바꾸셔야 합니다.
이 경우엔 ulimit -s unlimited 으로 쳐줍니다.
gcc -g 로 컴파일 해주시면 됩니다.
리눅스에서 컴파일된게 윈도우에서 컴파일된것 보다 훨씬 느리군요.
저는 슬랙웨어 14.1 64-bit with multilib를 씁니다.
그리고 소스는 iconv로 바꿔주십시오.
저같은 경우엔 iconv -f CP949 -t UTF-8로 했습니다.
QnA보다 강좌란에 올리시는 게 어떠신지...
공격하려는 건 아닙니다.
저는 이렇게 생각했습니다.
댓글 달기