한자 사전 데이터 작성에 참여해 주십시오

krisna의 이미지

한자 사전 데이터를 새로 만들고 있습니다.
관련된 메일링 리스트는 아래에 있습니다.
http://lists.kldp.net/pipermail/hangul-hackers/2004-January/000012.html

한자 정보를 입력하는 작업을 해주실 분들을 찾습니다.
아래의 위키 페이지를 잘 읽어보고 작업하실 분들은 위키에 표시를 하고 작업을 시작하시면 됩니다.
http://people.kldp.org/~kde/moniwiki/wiki.php/HanjaProject

이전부터 오픈소스에 참여하고 싶은데 프로그램 실력이 부족해서, 영어 실력이 부족해서,
못하신 분들은 이번에 간단한 작업으로 참여해서 좋은 결과물을 만들어 내는 일을 하실수 있습니다.
이 작업은 프로그램 실력이나 기타 등등은 전혀 필요하지 않고
중학교 수준 이상의 교육을 받는 사람이면 누구나 할 수 있는 작업입니다.

어디 참여자가 얼마나 되는지 봅시다 :)
진짜로 실력 문제인지, 열의의 문제인지

impactbar의 이미지

참가할려고 합니다.

웹페이지상에서 나타나는 한자들을 복사에서 노트패드에 붙이니

안보이는 한자들이 몇개 있군요.

이런 것은 어떻게 처리해야 됩니까?

맹고이의 이미지

간단히 번역(?) 시도를 해보던 중...

사전에... 옥 비슷한 일종의 아름다운 돌 [민]

이라 적힌 건 어떻게 적어야 될까요?

이런 것도 그렇고, 음은 같아도 뜻이 몇가지 되는 것도

고민 되네요... ;;

다음 부턴 메일링 리스트를 이용하겠습니다... ^^;

nohmad의 이미지

Palm용 어플리케이션 중에 한자의 음과 훈을 보여주고 입력할 수 있게 해주는 daHanja라는 어플리케이션이 있습니다.
이 프로그램에서 사용한 데이터를 활용할 수 있는지 daHanja 개발자에게 연락해보심이 어떨지요?

참고로 daHanja는 Freeware이고 개발자이신 정재목이란 분도 리눅스로 개발하시더군요.
http://jmjeong.com/index.php?display=daHanja

PS: 이미 (문제점까지) 알고 계실 가능성 90%!! -_-;

jn1654의 이미지

야 이거 해 볼만하겠다 하고 무턱대고 시작해 보았는데요...

하나의 음에 대해서 뜻이 여럿일 경우 처리가 너무 애매하네요.
메일링 리스트에 올라온 글을 보면 대표적인 뜻 하나만 적으면 될거라고 되어 있습니다만,
이게 다분히 주관적이고 또 하나를 대표하기에는 뜻이 너무 차이가 나는 경우가 있는데 이런 경우 어떻게 해야 할까요.

이런 식은 어떨까요.

[구]
旧=[구]옛날; 옛일; 친구; 구의(옛 정의); 늙은이; 오래다; 낡다

jedi의 이미지

안보이는 한자는 어떻게 처리하고 계신가요?
상당히 많은데...

+++ 여기부터는 서명입니다. +++
국가 기구의 존속을 위한 최소한의 세금만을 내고, 전체 인민들이 균등한 삶을
영위할 수 있는 착취가 없는 혁명의 그날은 언제나 올 것인가!
-- 조정래, <태백산맥> 중에서, 1986년

코퍼스의 이미지

'사전작업'.. 음.. 쉬운 일이 아니죠

제가 예전에 이런 프로젝트를 했었더랬습니다.

영한번역기 관련 프로젝트였고, 그것을 위한 사전구축 작업이었는데,
음.. 쉽게 말해 우리말 중 동사에 관련된 것만 쭈욱 뽑아 사전을 구축하는 것이었습니다.
(물론, 변화형, 문법사항, 예제들도 넣는 조금은 더 복잡한 것이었지만)

애(후배님들^^)들 여럿 뽑아 쭈욱 나눠주고 작업한 뒤, 그 결과물을 취합하는 관리직(?)이었습니다만, 결국 그 친구들 텍스트 파일로 함에도 불구하고 여러 문제가 있었죠.
문자 간격도 이것저것, 오타, 띄어쓰기 틀린것, 탭과 스페이스의 혼용 등은 애교이고 큰 문제도 아닐 것으로 생각되었지만, 그 외 많은 자잘한 문제들이 상상을 초월하였고, 이런 것들도 작업량이 늘어날 수록 큰 문제로 되었죠.

결국, 오타나 오류를 찾아내거나 포멧을 맞춰주는 스크립트 프로그램을 (여럿)짯고, 해당 작업자들도 여러번 반복 작업을 했으며, 저 또한 노가다로 문서를 고치고 한 작업이 생각납니다.

만일, 저한테 그 때 일을 다시하라고 한다면, 엑셀로 형식을 정해주고 그에 맞춰 작업하라고 하던가,
작업 데이터를 입력하고 저장하게 하는 사전작업용 스크립트를 짜서 그 위에서 일하라고 할겁니다.

'사전작업'.. 음.. 쉬운 일이 아니죠

A few Good Man

krisna의 이미지

1. 안보이는 한자
이것은 폰트의 문제로 gedit와 imhangul을 사용하신다면 locale에 관계없이
입출력에 문제가 없습니다. 폰트는 Andale Sans UI를 사용하면 거의 모든 한자를
보실수 있는데 이 폰트를 구하는 정식 루트가 어딘지 잘 모르겠습니다.

2. 여러가지 뜻
첫번째 뜻을 기준으로 작성합니다. 이 작업은 자전을 디지털화 하는 작업이 아닙니다.

더 자세한 내용은 아래 위키 페이지를 참조하십시오.
http://people.kldp.org/~kde/moniwiki/wiki.php/HanjaProject

jedi의 이미지

모든 한자가 나오는 글꼴은 ngulim.ttf(24M)를 설치하면 보입니다.
새굴림, New Gulim으로 나옵니다.
편집기는 jedit, quanta plus를 사용하면 편리합니다.

+++ 여기부터는 서명입니다. +++
국가 기구의 존속을 위한 최소한의 세금만을 내고, 전체 인민들이 균등한 삶을
영위할 수 있는 착취가 없는 혁명의 그날은 언제나 올 것인가!
-- 조정래, <태백산맥> 중에서, 1986년

ganadist의 이미지

krisna wrote:
1. 안보이는 한자
이것은 폰트의 문제로 gedit와 imhangul을 사용하신다면 locale에 관계없이
입출력에 문제가 없습니다. 폰트는 Andale Sans UI를 사용하면 거의 모든 한자를
보실수 있는데 이 폰트를 구하는 정식 루트가 어딘지 잘 모르겠습니다.

스타스위트(슈트보다 저발음이 맞다고 하는듯.)의 UI 기본글꼴이 저놈으로 되어있습니다. :)

----
데스크탑 프로그래머를 꿈꾸는 임베디드 삽질러

McKabi의 이미지

gedit, jedit, quanta, ...

이젠 yudit을 쓰는 분은 안 보이네요.

전 지금도 가끔 씁니다. :-D
글꼴만 있다면 안 되는 일이 없거든요.

ㄲ ㅏ ㅂ ㅣ / M c K a b i / 7 7 r b i / T o D y

버려진의 이미지

ms windows xp였나 2003이었나에 한자 키를 누르면 한자와 소리, 뜻도 나온다고 들었는데(둘다 써본적이 없습니다) 그걸 가져다 쓸수는 없나요?

죠커의 이미지

pyj200 wrote:
ms windows xp였나 2003이었나에 한자 키를 누르면 한자와 소리, 뜻도 나온다고 들었는데(둘다 써본적이 없습니다) 그걸 가져다 쓸수는 없나요?

2000에도 나옵니다. 툴팁과 같은 형식인데 이후버전에 그냥 바로 보였던걸로 기억합니다.

cwryu의 이미지

pyj200 wrote:
ms windows xp였나 2003이었나에 한자 키를 누르면 한자와 소리, 뜻도 나온다고 들었는데(둘다 써본적이 없습니다) 그걸 가져다 쓸수는 없나요?

저작권 문제에서 자유로운 데이터를 만드려면 순수 노동력으로 작업할 수밖에 없습니다. :) 한자 음/훈 정도는 충분히 할 수 있는 수준인듯..

jachin의 이미지

강좌를 너무 잘 들은 빚도 있으니, 꼭 참여하도록 하겠습니다. ^^

하아... 귀차니즘의 압박부터 쫓아내야 되겠군요. ^^

화이팅!

krisna의 이미지

이 작업이 매우 방대한 작업인 것으로 오해하시는 분들이 있는 것 같아 말씀드립니다.
이 작업은 인원만 좀 많이 투입되면 정말 금방 할 수 있는 일입니다.

진도가 매우 느릴것 같지만 벌써 38%가 작성 되었습니다 :)

참여하는 사람이 많으면 더 빨리 끝나겠지요.
이 기회에 오픈소스 진영에 좋은일 한번 하시길 바랍니다.

krisna의 이미지

드디어 초벌 주석 작업이 끝났습니다.
지금까지 참여해주신 많은 분들께 감사드립니다.
그러나 이것이 끝이 아니고, 완성도를 높이는 작업을 더 해야 합니다.

잘못된 부분을 고치는 작업에도 계속 참여해 주십시오.

아래 링크를 참고하세요
http://lists.kldp.net/pipermail/hangul-hackers/2004-February/000054.html

masoris의 이미지

한자 훈음은 자연어의 일부이므로 저작권을 주장할 수 없습니다.
마이크로소프트 한글 IME에 있는 한자 훈음을 그대로 사용하거나, 네이버에 있는 한자 훈음을 그대로 사용해도 무방합니다.

____
The limits of my language mean the limits of my world. - Ludwig Wittgenstein


____
The limits of my language mean the limits of my world. - Ludwig Wittgenstein