초성체 제거 정규표현식을 구현해보려고 합니다.
글쓴이: center / 작성시간: 목, 2005/12/29 - 3:05오후
우선은 아주 간단하게다음과 같이 정규표현식을 구현해 봤습니다.
보시다시피 ㅋ,ㅎ에 해당하는 초성체만 제거하는 프로그램입니다.
(밑에 스크린샷을 첨부하였습니다.)
만약 초성 전체 ㄱ~ㅎ를 저런식으로 패턴매칭을 시킨다음에
예외 문자열로 "ㄱ- " <-- ㄱ에 - 로 구성된 문자열입니다.
이것은 자동치환을 방지할려면 어떻게 해야 할까요?
즉 정규식은 다음과 같이 설정하고
([ㄱ*])
여기에서 "ㄱ-" 이 문자열에 대해서 는 '예외상황'으로 간주
치환하지 않고 그대로 "ㄱ- "이렇게 출력하는 방법을 알고
싶습니다.
지금 생각하고 있는 꽁수로는
1) 치환하기전 먼저 "ㄱ-"를 검색해서 특수 문자열(F1)로 치환시킨후
2)위의 정규식대로 초성체를 박멸정규식을 돌려 초성체를 없앤후
3) 예외상황으로 분류된 "ㄱ-" 을 F1 -> "ㄱ-"로 다시금
바꿔주는 방법정도 생각하고 있습니다.
헌데 이것도 예외상황이 1개면 괜찮을듯 한데..예외상황이
여러개가 되면 처리가 복잡해질지도 모르겠군요..
이에따른 조언좀 부탁드리겠습니다.
File attachments:
첨부 | 파일 크기 |
---|---|
chosung1.jpg | 155.8 KB |
chosung2.jpg | 146.5 KB |
Forums:
callback 함수 써야 할것 같네요.잡는 정규식은 pcre 로 /
callback 함수 써야 할것 같네요.
잡는 정규식은 pcre 로 /[ㄱ-ㅎ]+/u 이렇게 하면 쉽고요.
저 EmEditor 윈도용 맞나요? :shock:
https://xenosi.de/
[quote="송효진"]callback 함수 써야 할것 같네요.잡
아아..아직 그정도 깊이까지는 정규표현식에 대해서 잘
모르겠는데..그정도까지나 가야 하는군요...^^;
아참 저 화면은 윈도우용 EmEditor 맞습니다.
윈도XP에 StyleXP테마라는 프로그램사용중
AQUA테마라는걸 입혀서 MacOS틱하게 보이는것이라지요.
댓글 달기