번체 간체 변환기 구현에 대하여

송효진의 이미지

코드상으로 번체와 간체가 1:1 대응하지 않는것 같습니다.
몇몇 번역업체에서 변환이 가능하다는것을 선전하는군요.
MS Word 에도 변환기능이 있던데,

만약 변환기를 직접 구현한다면,
코드구역 단위로 매칭이 가능한 정도인가요?

글자 하나하나 지정해서 매칭해야 할 정도로 번체 간체의 코드가 상이한가요?

리눅스에서 쓸만한 변환기를 못찾아서 노가다가 심하지 않다면 한번 만들어보려 합니다.

익명 사용자의 이미지

iconv로도 될것 같습니다.
iconv --list해보니

GBK, EUC-TW, BIG5 등등등이 보이네요

unicode매핑도 찾아보면 있겠고..

송효진의 이미지

아...번체 <-> 간체는 iconv로 가능하군요.
문제는 유니코드상에 번체간체가 섞여있으면 번체, 간체로의 변환이 안되고 오류가 나네요. 이래서 변환기가 필요한가봅니다.

keizie의 이미지

http://orumi.egloos.com/2777702

문맥상 번역하면 안되는 경우에도 번역을 해버린다고는 하지만 그건 기계적으로 처리할 수 있는 수준이 아니겠죠.

cjkcodecs에서 어떻게 되나 싶어서 찾아봤는데 별 말은 없고 http://openlook.org/trac/wiki/PRCCharsets 설명만 나옵니다. (역시 퍼키옹은 괴수)

ganadist의 이미지

autoconvert 라는 걸 쓰면 편하게 코드 컨버젼이(만?) 가능합니다.

----
데스크탑 프로그래머를 꿈꾸는 임베디드 삽질러

송효진의 이미지

오우, 자그만치 1년 반이 지난 글이군요.

한글 2005에도 기능이 있었네요.
이글루 링크를 보니 한글 2005의 변환테이블이 잘못된듯 합니다.
iconv 로 했을때는 谷 은 안바뀌거든요.

오픈룩 링크를 보니 엄청난 양의 글자가 새로 지정되었던데,
iconv 에 있는것은 GB2312 <> BIG5 테이블이다보니 코드가 좀 부족하겠다는 생각이 드네요.

소스를 보면 반드시 GB2312 <> BIG5 로 해야 하도록 테이블이 구성되어 있습니다.

저는 그걸 UTF-8 용으로 테이블을 새로 만들어서 UTF-8 내에 간번체 혼합문서에도 적용 되도록 고쳐서 쓰고 있습니다.

emerge money

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.