코드상으로 번체와 간체가 1:1 대응하지 않는것 같습니다. 몇몇 번역업체에서 변환이 가능하다는것을 선전하는군요. MS Word 에도 변환기능이 있던데,
만약 변환기를 직접 구현한다면, 코드구역 단위로 매칭이 가능한 정도인가요?
글자 하나하나 지정해서 매칭해야 할 정도로 번체 간체의 코드가 상이한가요?
리눅스에서 쓸만한 변환기를 못찾아서 노가다가 심하지 않다면 한번 만들어보려 합니다.
iconv로도 될것 같습니다. iconv --list해보니
GBK, EUC-TW, BIG5 등등등이 보이네요
unicode매핑도 찾아보면 있겠고..
아...번체 <-> 간체는 iconv로 가능하군요. 문제는 유니코드상에 번체간체가 섞여있으면 번체, 간체로의 변환이 안되고 오류가 나네요. 이래서 변환기가 필요한가봅니다.
https://xenosi.de/
http://orumi.egloos.com/2777702
문맥상 번역하면 안되는 경우에도 번역을 해버린다고는 하지만 그건 기계적으로 처리할 수 있는 수준이 아니겠죠.
cjkcodecs에서 어떻게 되나 싶어서 찾아봤는데 별 말은 없고 http://openlook.org/trac/wiki/PRCCharsets 설명만 나옵니다. (역시 퍼키옹은 괴수)
autoconvert 라는 걸 쓰면 편하게 코드 컨버젼이(만?) 가능합니다.
---- 데스크탑 프로그래머를 꿈꾸는 임베디드 삽질러
오우, 자그만치 1년 반이 지난 글이군요.
한글 2005에도 기능이 있었네요. 이글루 링크를 보니 한글 2005의 변환테이블이 잘못된듯 합니다. iconv 로 했을때는 谷 은 안바뀌거든요.
오픈룩 링크를 보니 엄청난 양의 글자가 새로 지정되었던데, iconv 에 있는것은 GB2312 <> BIG5 테이블이다보니 코드가 좀 부족하겠다는 생각이 드네요.
소스를 보면 반드시 GB2312 <> BIG5 로 해야 하도록 테이블이 구성되어 있습니다.
저는 그걸 UTF-8 용으로 테이블을 새로 만들어서 UTF-8 내에 간번체 혼합문서에도 적용 되도록 고쳐서 쓰고 있습니다.
emerge money
텍스트 포맷에 대한 자세한 정보
<code>
<blockcode>
<apache>
<applescript>
<autoconf>
<awk>
<bash>
<c>
<cpp>
<css>
<diff>
<drupal5>
<drupal6>
<gdb>
<html>
<html5>
<java>
<javascript>
<ldif>
<lua>
<make>
<mysql>
<perl>
<perl6>
<php>
<pgsql>
<proftpd>
<python>
<reg>
<spec>
<ruby>
<foo>
[foo]
iconv로도 될것 같습니다.iconv --list해보니GBK
iconv로도 될것 같습니다.
iconv --list해보니
GBK, EUC-TW, BIG5 등등등이 보이네요
unicode매핑도 찾아보면 있겠고..
아...번체 <-> 간체는 iconv로 가능하군요.문제는
아...번체 <-> 간체는 iconv로 가능하군요.
문제는 유니코드상에 번체간체가 섞여있으면 번체, 간체로의 변환이 안되고 오류가 나네요. 이래서 변환기가 필요한가봅니다.
https://xenosi.de/
아래한글에서도 된다네요.
http://orumi.egloos.com/2777702
문맥상 번역하면 안되는 경우에도 번역을 해버린다고는 하지만 그건 기계적으로 처리할 수 있는 수준이 아니겠죠.
cjkcodecs에서 어떻게 되나 싶어서 찾아봤는데 별 말은 없고 http://openlook.org/trac/wiki/PRCCharsets 설명만 나옵니다. (역시 퍼키옹은 괴수)
autoconvert 라는 걸
autoconvert 라는 걸 쓰면 편하게 코드 컨버젼이(만?) 가능합니다.
----
데스크탑 프로그래머를 꿈꾸는 임베디드 삽질러
오우, 자그만치 1년
오우, 자그만치 1년 반이 지난 글이군요.
한글 2005에도 기능이 있었네요.
이글루 링크를 보니 한글 2005의 변환테이블이 잘못된듯 합니다.
iconv 로 했을때는 谷 은 안바뀌거든요.
오픈룩 링크를 보니 엄청난 양의 글자가 새로 지정되었던데,
iconv 에 있는것은 GB2312 <> BIG5 테이블이다보니 코드가 좀 부족하겠다는 생각이 드네요.
소스를 보면 반드시 GB2312 <> BIG5 로 해야 하도록 테이블이 구성되어 있습니다.
저는 그걸 UTF-8 용으로 테이블을 새로 만들어서 UTF-8 내에 간번체 혼합문서에도 적용 되도록 고쳐서 쓰고 있습니다.
emerge money

https://xenosi.de/
댓글 달기