리눅스에서 한자 처리 방법은?
글쓴이: Wing / 작성시간: 금, 2005/09/23 - 10:32오후
개인적으로 동의보감이나 황제내경과 같은 古醫書들을 원문 그대로 혹은 다양한 주석과 함께 전산화하려고 하는데
우선 막히는 문제가 리눅스에서 어떻게 이 고문들을 한자 그대로 입력하느냐 입니다.
이러한 古醫書들이 책 자체로는 특정부분의 검색이 결코 쉽지 않은 관계로
이 고문들을 DB화 혹은 단순히 파일화라도하여 공개하면 두루두루 쓰일 것 같습니다만,
한글과 같은 상용프로그램을 이용하지 않고 해보자니 막막하기만 하네요.
혹시 리눅스에서 이런 분야에 활용할 만한 한자처리 방법이나 프로그램에 대해 몇가지 조언 좀 주시면 감사하겠습니다.
그리고 한자입력기같은 프로그램을 개발하는 데 참고할 만한 서적도 추천해 주시면 정말 고마울 거에요.
Forums:
Re: 리눅스에서 한자 처리 방법은?
F9 or F10 키가 한자키 대신 아닌가요?
life is only one time
이미 리눅스에서는 유니코드로 한자를 지원하고 있습니다. 대개의 최신 배포
이미 리눅스에서는 유니코드로 한자를 지원하고 있습니다. 대개의 최신 배포판에서는 잘 지원하지요.
그리고 한자를 나타낼 수 있는 폰트가 있어야 합니다. 은 글꼴 시리즈가 지원한다고 알고 있습니다.
또한, 한글 입력기가 있어야 하고, 그것에서 한자로 변환시켜야 합니다. nabi에서 이미 지원된다고 알고 있습니다.
그리고 관심 있으시다면 중국어 입력기를 알아 보시는 것도 좋을 것 같습니다. 이 부분은 저도 잘 모르겠습니다.
관심 있으시다면 http://www.unicode.org 가 보시기 바랍니다. 유니코드가 포함하는 영역에 한자가 모두 있습니다.
황제내경이나 동의보감 같은 고 전문서적에서 쓰인 한자들, 이름자로 쓰이는
황제내경이나 동의보감 같은 고 전문서적에서 쓰인 한자들, 이름자로 쓰이는 몇몇 한자들은 유니코드에 안 들어 있는 경우도 많습니다.
바로 이러한 점 때문에 예전에 한글과컴퓨터에서 역사연구 등을 위한 제품들을 생산했고, 그중 하나가 아래아 한글(하안글)입니다.
지금이야 KS 규격(유니코드는 물론 아닙니다)에 맞는 4885자든가 .. 그 안에 들어가야 전산입력이 되지만, 그 전에 주민등록, 호적 등을 손으로 표기할 때에는 저기에 없는 글자도 많았습니다. 한 10년전쯤에 족보 새로 정리하면서 아마 하안글 없었다면 때려쳤을지도 모릅니다... 없는 글자도 어떻게든 조합해서 만들 수는 있었으니까요.
아마 리눅스건 윈도즈건 매킨토시에서건 ... 하안글 같은 일부 상용 프로그램을 제외하면 아직은 찾기 힘들 겁니다. 위에서 말씀드린대로 .. 유니코드에도 없는 한자들도 많고 또, 유니코드에는 있다 하더라도 아직 글꼴이 없는 경우도 있기 때문입니다.
---------
귓가에 햇살을 받으며 석양까지 행복한 여행을...
웃으며 떠나갔던 것처럼 미소를 띠고 돌아와 마침내 평안하기를...
- 엘프의 인사, 드래곤 라자, 이영도
즐겁게 놀아보자.
'한글'과 같은 상용프로그램을 이용한다면,인터넷을 통해 동의보감 등의
'한글'과 같은 상용프로그램을 이용한다면,
인터넷을 통해 동의보감 등의 내용을 검색할 수 있도록 할 수 있는지요?
# Spread Your Wings !
# May the PEACE be with us.
예전에 친구들과 한자교육용 프로그램('훈장'이라는 이름을 붙여 줬었죠.)
예전에 친구들과 한자교육용 프로그램('훈장'이라는 이름을 붙여 줬었죠.)을 만들면서
느낀건데 천자문에 있는 한자중에도 없는 한자가 36자 정도되더군요.
유니코드로 가면서 그부분은 해결되었는지는 모르겠지만 어쨌든 그때 나름대로 머리를
써서 한놈이 아래한글의 한자 포맷을 분석했었습니다.
그래서 결국 천자문에서 빠진 36자 정도를 직접 만들어서 폰트에 넣고 해결했던것이
생각나네요.
만일 고의서에 대한 DB를 갖추려고 생각하신다면 일단 한자코드부터 새롭게 정의를
하는 것이 어떨까 생각합니다.
물론 DB를 배포할때 사용되는 한자글꼴과 한자코드를 같이 배포해야겠죠.
프로그램내에서 표현할 때에 그것을 참조할 수가 있으니까요.
현존하는 Unicode에 없는 한자들의 코드를 생성시키고 포함시키는 것도 한가지
방법이겠죠.
그렇지만 계속 수정되고 추가되는 경우라면 그렇게 간단하게 포함시켜줄 것 같지도
않고 또 고의서뿐 아니라 다른 문서 DB작업을 염두해 둔다면 새로운 규격을 정해서
그것에 맞춰서 가꿔나가는게 좋지않나 생각됩니다.
P.S. : Unicode에서 언어별 추가, 변경에 관한 사항은 잘몰라서 추측성으로
글을 썼습니다. 제가 알기론 Unicode에 추가,변경을 하기 위해서는 어떤 특정한
자격이 있어야 한다는 것으로 알고 있어서 말이죠.
------------------------------
좋은 하루 되세요.
[quote="codebank"]P.S. : Unicode에서 언어별 추
Private Use 영역인 15-16 언어판을 사용하세요.
참된 해탈의 길입니다. :twisted:
Real programmers /* don't */ comment their code.
If it was hard to write, it should be /* hard to */ read.
사실 천자문은 상당히 어려운 교재입니다.4자짜리 또는 8자짜리 한
사실 천자문은 상당히 어려운 교재입니다.
4자짜리 또는 8자짜리 한자성어들이 계속 나오면서 그 뜻이 연결 되거든요. (이걸 어렸을 때 어머니꼐 맞아가며 배운 기억이.. 아스라히... )
한자도 어려운 게 꽤 많이 나오죠.
제가 공부했던 교재는 .. 한석봉서천자문 .. 이라고 한석봉이 쓴 글씨체 모아서 만든 천자문 교재였었습니다. ...
---------
귓가에 햇살을 받으며 석양까지 행복한 여행을...
웃으며 떠나갔던 것처럼 미소를 띠고 돌아와 마침내 평안하기를...
- 엘프의 인사, 드래곤 라자, 이영도
즐겁게 놀아보자.
[quote="warpdory"]사실 천자문은 상당히 어려운 교재입니다.
하늘천땅지만 알던 제게 큰 충격이었죠.
그 후로 전 열심히 놀았습니다. ㅡ.,ㅡ;
저는 한자 찾을 때 이곳을 사용합니다.[url]http://211
저는 한자 찾을 때 이곳을 사용합니다.
http://211.46.71.249/handic/
왠지 도움이 되실듯 하여서. :)
May The Force Be With You.
저 한자사전에도 .. 없는 글자가 몇개 보이네요....특히 이름에
저 한자사전에도 .. 없는 글자가 몇개 보이네요....
특히 이름에 쓰인 글자들 ...
이름자로 쓰이는 "土 + 德" - 덕 이라고 읽습니다. - 이라든가 .. "錫 + 金" - 석 이라고 읽더군요. 등의 글자는 안 보입니다. 물론, 저런 글자는 대개 항렬 맞추느라 억지로 만들어낸 그런 한자이기는 합니다만 ... 또 의외로 많이 쓰이더군요
---------
귓가에 햇살을 받으며 석양까지 행복한 여행을...
웃으며 떠나갔던 것처럼 미소를 띠고 돌아와 마침내 평안하기를...
- 엘프의 인사, 드래곤 라자, 이영도
즐겁게 놀아보자.
일단 유니코드에 대해 공부를 하셔야 할 듯 합니다.unicode
일단 유니코드에 대해 공부를 하셔야 할 듯 합니다.
unicode 4.0 이라는 책을 주문해서 보셔도 좋을듯 하지만..
그것과 동등한 www.unicode.org (유니코드 컨소시엄) 에서 몇개의 글을 읽어보시는게 좋을듯 합니다.
최근 유니코드로 표현할 수 있는 한자의 수는 CJK Ideographs 영역, CJK Unified Ideographs Extend A, CJK Unified Ideographs Extend B 영역에서 정의되는 70,195자 정도 정의되어 있는걸로 알고 있구요.. 그중에 Extend B영역 42,711자는 기본 평면 (BMP) 내에 정의되어 있는 것이 아니라 별도의 처리가 있어야 표현가능한것으로 알고 있습니다.
중국에서도 고문헌 (의서, 역사서, 경서 등) 의 필요로 문자코드들을 모으는 작업을 하는것으로 알고 있구요 그 작업은 SuperCJK라는 결과로 나타나있습니다.
우리나라에서도 불경 전산화와 규장각 문서의 전산화 등을 위해 비표준문자 등록센터 ( http://ikc.korea.ac.kr/~cnsc/ ) 라는 곳에서 유니코드 컨소시엄에 등록의뢰를 하는것으로 알고 있습니다.
그리고 사용자영역에 등록하는것은 단기적으로는 빠른 결과를 얻을 수 있으나 비표준코드에 등록되는 것이므로 근본적으로는 표준코드를 얻는것이 좋은것으로 사료됩니다. 이전에 불경 전산화를 하면서 벌어졌던 문제점이기도 하구요.
한때 한자관련 프로젝트를 하다가 이직한지 5년이 다 되어서 기억이 잘 나지 않아서... 기억나는대로 써봅니다..
(+) 그리고 한자 입력에 대해서는 중국쪽의 IME들 중에서 참조할 만한게 있는걸로 알고 있습니다. 한자의 모양만으로 입력이 가능한 IME가 있더군요... M$-Windows 기준이기는 하지만요.. 리눅스에도 해당 입력기가 있을듯 하네요..
전산화라.. 원문은 스캔하여 이미지로 보여주고 주석이나 번역은 한글로
전산화라..
원문은 스캔하여 이미지로 보여주고 주석이나 번역은 한글로 이것 외엔 별다른 방법이 없는 듯 싶습니다.
아마도 폰트때문일텐데요. 고문서에 나오는 한자는 현대 중국인들이 실생활에 사용하질 않기 때문에 폰트로 제작되어 나오긴 상당히 힘들듯 싶습니다. 아마도.
그리고 국내 프로그램 중, 한자폰트 가장 많이 구현하는 프로그램은 hwp밖에 없습니다. 꾸벅.
리눅스,.. 항상 느끼는 거지만 어려워요.. ㅡ.ㅡ;