이 DB로 한자>한글 변환 시도 해 보실분 있으신가요?
글쓴이: masoris / 작성시간: 목, 2007/02/08 - 3:49오전
http://kldp.org/node/78244 에서 이어 적습니다.
이전에 올렸던 한자 목록에서, 한중일 호환용 한자 부분과, 한자어를 추가하여, 한자>한글 변환용 DB를 완성하였습니다.
기존에 워드나 아래한글과 같은 곳에서의 한자 변환은 "한중일 호환용 한자"를 이용하여 글자는 같지만, 음이 다른 글자를 각각 다른 코드에 배당하여 처리하기 때문에,
"위키백과"(위키피디어)와 같이, 모든 동일한 글자를 하나의 코드로 처리하는, 즉 유니코드 정규화 알고리즘을 준수하는 사이트에 있는 한자는 제대로 변환되지 않는 문제가 있었습니다.
이 DB는 그러한 문제점을 해결하여, 기존 방식의 한자 뿐만아니라, 모든 동일한 글자를 하나의 코드로 처리하는 유니코드 방식으로 작성되어있는 한자도 처리가능하다는 특징이 있습니다. 즉, 이 DB는 기존의 "MS Word"와 "아래한글"에 포함되어 있는 한자>한글 변환용 DB보다 막강합니다.
하지만, 한 가지 문제점이 있다면, 제가 프로그래밍을 할줄 모르기 때문에, 이 DB를 사용하여, 한자>한글 변환을 위한 알고리즘을 작성할 수 없습니다. 그래서, 프로그래밍이 가능한 누군가가 이 DB를 사용하여, 한자>한글 변환기를 만들어 주셨으면 합니다.
참고로, 이 DB는 GFDL로 배포됩니다. 문제점이 없다면, 최적화 후 오픈오피스에 탑재 되었으면 좋겠습니다.
File attachments:
첨부 | 파일 크기 |
---|---|
![]() | 515.63 KB |
Forums:
> 이 DB는 그러한
> 이 DB는 그러한 문제점을 해결하여, 기존 방식의 한자 뿐만아니라, 모든 동일한 글자를 하나의 코드로 처리하는 유니코드 방식으로 작성
> 되어있는 한자도 처리가능하다는 특징이 있습니다. 즉, 이 DB는 기존의 "MS Word"와 "아래한글"에 포함되어 있는 한자>한글 변환용 DB보
> 다 막강합니다.
모든 한자코드에 대해서 한중일 호환용 한자를 사용하지 않으면 기존의 문서들에 대해서는 제대로 쓸 수 없겠군요.
그런 제안은 누가 한 것인가요? 위키피디아 전용같네요.
오해가 있으신 것 같은데
이 DB는, 기존 방식(워드와 아래한글에서 사용하고 있는 / 한중일 호환용 한자를 사용합니다)에서 한중일 호환용 한자를 사용하지 않을 경우(유니코드 권장 방식), 한자 변환이 제대로 이루어지지 않는 문제점을 해결한 DB입니다.
또한, 한중일 호환용 한자를 사용한 경우(기존의 방식)와 사용하지 않은 경우(위키피디어) 모두 사용할 수 있습니다. 어떻게 가능한지는 첨부한 ods파일을 열어보시면 알 수 있을 겁니다.
____
The limits of my language mean the limits of my world. - Ludwig Wittgenstein