국립국어원 사전 표제어 목록을 오픈소스에 이용하였으면합니다.
글쓴이: masoris / 작성시간: 금, 2007/04/06 - 10:07오전
다운로드 : http://www.korean.go.kr/06_new/include/Download.jsp?path=Stdicpds&idx=24
오픈소스에 사용가능한 한자 데이터 베이스가 인터넷에 없나 찾아 보았는데, 국립국어원 자료실에 사전 표제어 목록이 있었습니다. 6개 사전의 표제어를 합친것으로 60만개의 표제어가 데이터베이스화 되어 있습니다. 또한, 한자와 어원까지 나와 있기 때문에, 이를 정리하여 libhangul과 같은 프로젝트에 사용하면 매우 유용할 것 같습니다.
저작권 문제가 있는지 알아 보기위해 제가 직접 전화로 저작권 보호 센터에 문의 해 보았습니다. 한자와 한자어의 데이터베이스 사용에 관해 물어 보았는데, 다음과 같은 답변을 받았습니다.
1. 한국어 자체만으로는 저작권 보호를 받을 수 없습니다. 단순한 낱말을 수집한것, 한자어를 수집한것, 또는 이를 데이터 베이스로 만든 것 등은, 창작성이 존재하지 않기 때문에 저작물이라 볼 수 없습니다.
2. 단순한 한자의 뜻 음 만으로는 저작권 보호를 받을 수 없습니다. 하늘 천, 땅 지... 와 같은 데이터베이스 역시 창작성이 없다고 보며 저작권 보호를 받을 수 없는 자료에 해당합니다.
따라서 위의 이 자료는 Public Domain이며, 오픈소스에 사용하여도 아무런 문제가 없습니다.
Forums:
좋은 생각이십니다.
좋은 생각이십니다. 현재 libhangul에서 사용하고 있는 한자 단어 데이터는 국립국어원의 단어 빈도 조사 결과에서 추출한 것입니다. 당시에 사전 표제어 목록을 사용할려고 했었는데 무슨 문제인가로 데이터를 받지 못했었습니다.
국내 사전의 표제어 목록을 변환할수 있다면 더 풍부한 사전을 제공할 수 있겠습니다.
그런데 다운로드 받아보니 MS-Access의 데이터인 것 같군요. OpenOffice에서 제대로 불러오지 못하는 것 같습니다. 어떻게 해야 하나요?
gmdb를 이용하면 볼 수
gmdb를 이용하면 볼 수 있습니다. cvs 형태로 export할 수도
있습니다만.. 더 이상의 기능은 사용해 본 적이 없습니다.
그런데 이 데이터를 오픈오피스, 파이어폭스 등에서 한국어 맞춤법
기능을 쓸 수 있게 하고 여러 텍스트 에디터에서 쓸 수 있는 스펠러로
가공할 수도 있나요? 그런 부분에 대해 아는게 없어서 가능하다면
어떻게 하는 건지 알려주실 분 있나요?
====
No one asks you for change or directions.
-- Slo-Mo, J. Krokidas
====
No one asks you for change or directions.
-- Slo-Mo, J. Krokidas
맞춤법 검사기
맞춤법 검사기 데이터베이스로 쓰려면, 단어의 품사에 관한 정보가 있어야 하는데, 이 데이터베이스에는 품사와 관한 정보가 없어서 어렵다고 생각합니다. 상업용 사전 프로그램이나, 인터넷 사전에서 품사 부분만 가져와서 추가하면 어떨까요?
____
The limits of my language mean the limits of my world. - Ludwig Wittgenstein
네. 그렇군요. 품사
네. 그렇군요. 품사 정보를 구하는 것도 어떻게든 방법을 찾을 수 있겠죠.
품사만 자동으로 긁어왔을 때 라이선스 문제는 어떻게 되나요?
그것도 창작에 해당하지는 않을 것 같으니 문제가 없었으면 좋겠는데요..
그런데,맞춤법 검사기에서 쓸 수 있는 데이터는 어떻게 생겼나요?
그런 정보를 알려주시거나 정보를 구할 수 있는 곳을 아시면 좀 알려주세요.
====
No one asks you for change or directions.
-- Slo-Mo, J. Krokidas
====
No one asks you for change or directions.
-- Slo-Mo, J. Krokidas
품사도 당연히
품사도 당연히 한국어의 일부이며, 단순한 사실에 불과하니 특정인이 소유할 수 있는 저작물이라 볼 수가 없지요.
인터넷에 맞춤법 검사기 제작에 관한 정보가 있는지는 모르겠지만, 맞춤법 검사기의 원리는 간단하죠. 첫째는 국립국어원에 있는 맞춤법 규정에 맞도록 문법 검사를 해 주는 것이고, 두번째는 잘못된 철자를 검사해주는 것이죠. 예를들어, "나 는 사람인 모양이다."라는 문장이 있으면, 일단 조사 '는' 앞에 띄어쓰기가 있으니, 이것을 고쳐줘야 하겠고, 모든 단어가 데이터베이스내에 있는지 확인하는 철자 검사를 해야겠죠. 그러기 위해서는 문장을 형태소 단위로 분리할 수 있는 알고리즘이 필요하고(나/는/사람/인/모양/이다), 기본형이 아닌 단어를 기본형으로 서로 변환할 수 있는 알고리즘이 있어야 하겠군요. (인/이다)
____
The limits of my language mean the limits of my world. - Ludwig Wittgenstein
txt파일로 변환하여
txt파일로 변환하여 첨부하려고 하였으나, 용량 문제 (7z으로 압축하여 6MB) 때문인지 업로드가 안되는 군요 -_-
오픈오피스 Calc에서 처리하려고 해도, 행 갯수가 65536개로 제한이 있기 때문에, 오픈오피스로는 처리가 불가능 한 듯 합니다. 60만개 자료를 어떡해 정리할지가 관건이군요...
링크한 자료는 국립국어원 홈페이지 내의 "표준국어대사전 자료" 내에 있으며, 자료에 대한 설명은 다음과 같습니다.
----
연구원에서 오려 붙인 6개 사전의 목록을 관리하던 파일입니다. 6개 사전은 금성출판사, 민중서림, 삼성출판사, 한글학회에서 나온 우리말 큰사전과 북한에서 간행된 조선말사전(1962), 조선말대사전(1992)입니다. 원래 폭스프로(foxpro)에서 파일로 작성된 것이지만 지금은 이 파일을 읽기가 쉽지 않아 액세스(access)로 전환한 것입니다. 입력한 후 제대로 수정을 하지 않았기 때문에 오류가 많습니다. 주의하시기 바랍니다. 그리고 액세스 파일로 전환하는 중에 일부 옛글자들은 깨져서 무슨 글자인지 알 수 없게 되었습니다. 또한 불필요한 필드는 삭제했습니다.
각 필드의 내용은 다음과 같습니다.
- num : 관리를 위해 각 단어별로 붙여둔 번호를 기록한 필드입니다. 자모는 영문자로 구분하고 뒤에 숫자로 각 단어를 구분하였습니다.
- lemma : 표제어를 수록한 필드입니다. 사전에 나오는 기호를 그대로 사용하였는데 띄어쓰기가 된 단어에는 공백 대신 "$"를 넣었습니다. 동음이의어는 사전을 오려 붙인 순서대로 원내에서 번호로 구분하였습니다.
- lemindex : lemma 필드의 내용 중에서 각종 기호를 삭제하고 한글과 숫자만 남긴 필드입니다. 인덱스나 검색을 위해 만든 필드입니다.
- kum, min, sam, uri, nor, seo : 사전별로 표제어의 수록 여부를 기록한 필드입니다.(1:주표제어, 2:부표제어)
- origin : 원어를 기록한 필드입니다. 나중에 추가했기 때문에 원어 정보가 기록되지 않은 경우도 있습니다.
____
The limits of my language mean the limits of my world. - Ludwig Wittgenstein
줄 수가 문제라면..
리눅스 사용하신다면 man split 해보세요.
split -l 60000 data_input output_prefix_
한글을 한자로
한글을 한자로 변환하기 위한 데이터베이스를 어떻게 정리하면 좋을지 한번 생각해 보았습니다.
1. 우선 현재 <날개셋> 한글 입력기에서 사용하고 있는 한자 데이터를 한글자로 된 한자 처리용으로 사용합니다. 한중일 통합 한자와 확장 A에 포함된 모든 한자의 훈과 음이 포함되어 있습니다. 글자 처리의 편의를 위해 유니코드 정규화 알고리즘을 적용시킵니다.
2. 국립국어원 사전 표제어 목록을 정리합니다. 한글 부분에 동음이이의 처리를 위해 붙어 있는 숫자를 제거하며, 고유어와 한자가 합쳐진 글자의 어원 부분이 -로 생략 되어 있을 경우, 한글로 채워 넣습니다. (가공01 加工 -> 가공 加工, 글자 -字 글자 글字)
3. 정리한 목록에 정규화 알고리즘 적용 후, 1의 날개셋 데이터베이스와 합칩니다.
4. 구글 등의 검색 사이트에서 각 한자어로 검색을 합니다. 그리고 검색된 결과 갯수를 이용하여, 빈도를 계산하여 정리합니다
최종 완성된 목록은 다음과 같은 형태로 되어 있을 것입니다.
한글 한자 훈 음 빈도
가 可 옳을 가 100000
가 家 집 가 150000
가가호호 家家戶戶 (공백) 15000
글자 글字 (공백) 50000
숫자 數字 (공백) 200000
...
마음 같아선 제가 직접 정리하고 싶은데, 아직 실력이 안 됩니다. -_-
____
The limits of my language mean the limits of my world. - Ludwig Wittgenstein
위의 데이터를 gmdb2
위의 데이터를 gmdb2 로 텍스트로 추출하여 잠깐 살펴보니 ORIGIN 영역에
내용이 있는 데이터는 전체 631432개 중 84083 개입니다.
이중 영어로만 데이터가 있는 것을 제외하면 82561개가 됩니다.
현재 libhangul에 있든 데이터의 두배이상이 될것 같습니다.
3. 날개셋에 있는 데이터 베이스의 경우는 소스가 어떻게 되는지 정확도를 가늠해볼 필요가 있을 것 같습니다.
4. 구글 검색의 결과의 개수를 빈도로 사용하기에는 좀 무리가 있을 것 같습니다.
구굴의 검색 결과는 컴퓨터 관련 단어 위주로 되어 있을 가능성이 높아서 보편적인 것들 보다는 편중된 빈도를 보여주리라 생각합니다.
이미 국립국어원의 단어 빈도를 조사한 결과가 있으므로 그것을 활용하는 것이
좋지 않을까 싶습니다.
한자 단어 테이블에서 호환 한자 영역을 제외하는 것이 여러 사용자들이 받아들일 만 한 것인지 판단할 필요가 있겠습니다.
3. 날개셋에 사용하는
3. 날개셋에 사용하는 한자 데이터는 MS IME에서 추출한 것입니다. 따라서 한자의 정확도에는 문제가 없으리라고 생각합니다. 또한 위에서 말했듯이, 한자의 훈 음만으로는 저작권을 주장할 수 없으므로 사용해도 문제가 없습니다.
4. 국립국어원에 한자와 한자로 구성된 한자어에 관한 빈도가 있다면 그것을 사용하면 되겠군요. 그리고, 국립국어원의 자료에 빠져있는 단어는 구글 검색 결과를 사용하였으면 좋겠습니다. (아마 한국내에서 사용하지 않는 중국의 간체자 등이 이에 해당하겠지요)
5. 정규화 알고리즘을 적용하고자 하는 이유는 여러개의 데이터베이스 한번에 사용할 경우, 금/김 문제와 같이 아래 한글과 MS 워드간 한자 코드가 다른 문제와 기타 한자 코드로 인해 발생할 수 있는 문제를 예방하기 위함입니다. 제 생각에는 내부 데이터베이스는 정규화 알고리즘을 적용하여 나타내고, 호환용 한자 영역 또한 사용할 수 있도록 입력기 내부에서 한중일 통합 한자를 호환용 한자로 변환해 주는 기능을 지원하였으면 좋겠습니다.
____
The limits of my language mean the limits of my world. - Ludwig Wittgenstein
한자DB와 10시간만에
한자DB와 10시간만에 만드신 한자변환기에 이어 새로운 프로젝트를 준비하시는건가요?
다음에는 어셈블리 배우고 10시간만에 운영체제를 만들어보세요 -_-& (후다닥)
------------------------------------------------------
In simplexitate est opportunitas. --cppig1995
"x86-64 운영체제를 만들자" 강좌: http://kldp.org/taxonomy/term/3663
2007학년도 대전월평중학교 1학년 3반 학급카페: http://103.wo.tc
Real programmers /* don't */ comment their code.
If it was hard to write, it should be /* hard to */ read.
파이썬 10시간 동안
파이썬 10시간 동안 벼락 치기 했더니, 한자 변환기 만들고 파이썬 쓰는 방법을 다 잊어 버렸어요. 역시 벼락치기는 좋지않아요;; 나중에 Byte of Python 이랑 몇가지 Tutorial을 정독한다음, 한자한글변환기를 제대로 만들어 볼 생각입니다. 한자한글변환기니까, 역시 한자를 한글로 변환기능은 기본이고, 한글로 된 문장을 한자혼용으로 변환해 주는 기능도 있어야 하겠지요. 한자를 한글로 변환할 때는 단순하게 찾아 바꾸기만 하면 되지만, 한글을 한자로 변환하는것은 어려울 것 같아요. 일단 문장 구조를 분석할 수 있어야 하니, 단어의 품사에 관한 정보가 있어야 하겠고, 동음이의어의 경우는 빈도 정도를 따져서 처리하기 위해, 빈도에 관한 정보도 있어야 하겠지요. 한글로 구성된 문장을 한자 혼용으로 변환할 수 있을 정도의 데이터베이스가 수집되고 변환기를 만들 수 있다면, 오픈 소스로 된 맞춤법 검사기도 도전해 볼만하다고 생각해요. 이게 언제 가능할지는 제 노력 정도에 달렸군요... -ㅅ-
____
The limits of my language mean the limits of my world. - Ludwig Wittgenstein
결국 올해 안에 한자
결국 올해 안에 한자 데이터를 정리하는 것을 포기하였습니다.
저는 개발자도 아니고, 개발자가 될 사람도 아니기 때문에 취미로 프로그래밍을 배우고 있는데,
요즘 따라 영 재미를 못 느끼겠네요.
내년에 파이썬 3000나오면 다시 프로그래밍에 도전 해보렵니다. (허허 -_-)
그나저나, 언제쯤 리눅스에서 한자를 제대로 입력할 수 있을지...
'韓'이라는 글자 입력하는데, '한'을 입력한뒤 F9를 누르고 한참 찾아야 하니 너무 불편하네요.
한자 단어가 좀 길면 그냥 입력하길 포기해 버립니다.
한자 입력을 많이 하시는 분이, 리눅스로 이전하고 싶다고 한다면 아직까지는 말리는게 좋을 것 같아요.
____
The limits of my language mean the limits of my world. - Ludwig Wittgenstein
____
The limits of my language mean the limits of my world. - Ludwig Wittgenstein
오픈 소스에
오픈 소스에 사용하여도 아무런 문제가 되지 않는 다는 의견에 조심스럽게 의문을 제기해 봅니다.
위의 명제를 보면 단순히 낱말을 수집한것에 저작권이 없다는 것은 쉽게 납득이 가네요. 하지만, 단순히 낱말을 수집한 것이 사전 표제어 목록이 될 수 있는가를 생각해 보면 제 생각은 '아니다' 입니다.
표제어 목록을 작성하는 데에만 해도 많은 논문이 만들어져 있고, 어떻게 사전 목록을 만드느냐가(어떤 단어를 사전에 올리냐, 혹은 올리지 않느냐가) 그 사전을 디자인하는데 가장 중요한 출발이기 때문입니다.
제 생각은 얼마나 많은 오픈소스 프로그램에 이 데이터가 쓰일지 모르는 상황에서 저작권에 관한 문제를 명확히 하는 것은 매우 중요한 일이며, 저작권에 관한 문제를 명확하게 하기 위해 가장 먼저 해야 할 일은 국립국어원에 문의를 하는 것이라고 생각합니다. 만일 국립국어원에서 표제어 목록에 저작권을 주장하지 않으면 가장 좋겠으나, 만일 주장한다고 하면 그 이유에 관해서 타당한 것인지를 저작권협회에 문의하는 것이 더 정확하다고 생각합니다.
*.* 국립국어원
*.* 국립국어원 홈페이지에 가봤더니, 국립국어원 자체가 저작권에 별 생각이 없는듯하네요.. 표준국어대사전 뿐 아니라 다른 사전의 표제어까지 올려놨군요.. 어떻게 해야 하나... -_-;;;
gmdb를 이용해서 csv로
gmdb를 이용해서 csv로 export했더니 깨지는 문자가 꽤 있네요.
(gmdb가 알아서 utf8로 변환하는 것 같네요... 아니면 원본이 원래 utf-8이던가...)
이것은 어떤 경우인지 아시는 분 계세요? :-)
---------------------------
Smashing Watermelons~!!
Whatever Nevermind~!!
Kim Do-Hyoung Keedi
----
use perl;
Keedi Kim
원래 게시글을 보시면 아시겠지만
http://www.korean.go.kr/06_new/press/dic_list.jsp 에 가서 보시면
고 하네요. 깨지는 문자는 아마 원래 그렇게 들어갔던 글자일 겁니다.
뭔가, 국립국어원이 올려놓은 자료집 치고는 좀 불성실하기까지 한 -_-; 처사가 아닌가 합니다. 수정이야 워낙 갯수가 많으니까 그렇다 쳐도, 옛글자 깨진 건 어떻게든 처리를 했어야지 그냥 '무슨 글자인지 알 수 없게 되었습니다.' 하고 땡쳐버릴 게 아닐 텐데 말이죠.
원래의 foxpro파일을
원래의 foxpro파일을 얻어다가 이쪽에서 깨지지 않게 변환하는 프로그램을 만들 수는 없을까요?
설마 안지웠겠죠? -_-;
--------------------------
snowall의 블로그입니다.
http://snowall.tistory.com
피할 수 있을때 즐겨라! http://melotopia.net/b
위키피디아 방식 개방형 한국어 사전
위키피디아 방식 개방형 한국어 사전 만든다
http://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=102&oid=009&aid=0002212718
"국립국어원(원장 권재일)은 위키피디아 방식으로 100만 어휘의 '개방형 한국어 지식대사전' 구축
재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.
아이디의 아이디어 무한도전
http://blog.aaidee.com
귀태닷컴
http://www.gwitae.com
야 신난다!
자장면 => 유저 A가 "짜장면"으로 옮김 => 어드민 "국립국어원7"이 "자장면"으로 옮김 => 유저 B가 "짜장면"으로 옮김 => 어드민 "국립국어원9"가 "자장면"으로 옮김 => 토론게시판 플레임워 => 옮김 잠금, 유저 A, B 강퇴
...이런 불구경을 아주 물리도록 할 것 같다는... 불길한 예감이 드는군요.
21세기 세종 계획 결과물을 약정서를 작성한
21세기 세종 계획 결과물을 약정서를 작성한 사람에게만 배포하는데...
과연 국립국어원에서 그렇게 할지 의문입니다.
위키페디아 방식이라... 개판될 게 눈에
위키페디아 방식이라...
개판될 게 눈에 보이는군요.... 위에 jick 님께서 좋은 예를 들어주셨네요.
국립국어원장은 고스톱 쳐서 땄나 봅니다.
---------
귓가에 햇살을 받으며 석양까지 행복한 여행을...
웃으며 떠나갔던 것처럼 미소를 띠고 돌아와 마침내 평안하기를...
- 엘프의 인사, 드래곤 라자, 이영도
즐겁게 놀아보자.
원하는 것이 '정부판 한글 위키사전'이 아닌 한...
이 프로젝트는 의미가 없습니다. 위키사전(Wikipedia)는 그나마 언어에 대한 사전이 아닌 백과사전적인 역할이기에 문제가 적지만,
무엇보다 언어에 대한 것이라면 무조건적인 개방은 위험한 생각입니다.
언어는 그 언어/단어를 습득한 사람의 생각을 결정하는 매우 중요한 역할을 합니다. 그만큼 객관적이고 정확한 내용이 필요합니다. 하지만 얼마든지
개인적인 판단이 들어갈 수 있는 개방형 구조는 언어의 고의적인 왜곡을 가져올 위험이 그만큼 커집니다.
예를 들어 '쥐'라는 단어를 생각해봅니다. 일반적인 국어사전에서 '쥐'라는 단어는 쥐과의 동물을 말하는 매우 좁은 뜻입니다. '쥐'라는 단어가 이렇게
좁은 범위로 정확히 정의가 내려진 상태이기에 사람들은 '쥐'라는 단어를 들으면 바로 그 특성을 머리속에서 떠올릴 수 있습니다. '가카는 쥐'라는 표현도
'쥐'라는 단어의 정의가 분명하지 않다면 성립할 수 없는 일입니다.
그런데 누군가가 '쥐'라는 국어 사전에 '사기꾼같은 인상을 주는 대통령'이라고 적어 놓았다고 생각해 봅시다. 그 사전을 보고 단어를 익힌 사람들은
더 이상 '쥐'라는 단어를 들을 때 어떠한 설치류 동물을 떠올리지 않게 됩니다. 그들은 '쥐구멍에 볕들 날 있다'는 속담도, '쥐는 살찌고 사람은 굶는다'는
옛날 포스터의 제 뜻도 이해하지 못하게 될 것입니다. 백과사전과 달리 어떠한 언어 사전은 최대한 정확하고 좁은 뜻만을 담아야 하는 이유가 여기에 있습니다.
언어는 생각을 정의하는 도구이기 때문입니다.
더군다나 이 방식이 위험한 이유는 '외국인 또는 이주자를 대상으로 한 다국어 버전'으로 내놓을 것이기 때문입니다. 정말로 정확한 단어를 알아야 하는 사람들에게
왜곡된 정보를 줄 위험이 커집니다. 이 땅에서 나고 자란 사람은 저 사전에 '쥐 = 사기꾼 대통령'으로 적어 놓아도 '쥐 = 쥐과 동물'이라는 정확한 뜻을 이미 알고
있기에 혼란을 느끼지는 않습니다. 하지만 그러한 표준 단어에 대한 지식이 전혀 없거나 약한 사람들에게 '국립국어원'의 딱지가 붙은 검증이 되지 않은 사전은
거기에 적힌 단어가 정말로 정확하고 사회에서 모든 사람에게 인정을 받는 의미라고 믿게 만듭니다.
외국인 가정부에게 'Beautiful'이라는 의미로 '똥냄새나'라는 단어를 가르쳐줘 엿을 먹이게 했다는 70, 80년대 드라마에서나 볼 수 있을 법한 일이 이 사전에서
현실이 될지도 모릅니다. 어찌 두려워하지 않을 수 있겠습니까?
=================================
이 세상은 썩어있다!
- F도 F시 시가지 정복 프로젝트
홈페이지: 언더그라운드 웹진 18禁.net - www.18gold.net
이 프로젝트에 제가 일부 기여해서 조금 아는데,
이 프로젝트에 제가 일부 기여해서 조금 아는데, 감수를 전담하는 인력을 둔다고 합니다.
실제로 그렇게 될지는 모르겠지만, 아무튼 그렇다고 합니다.
저보고 그거 할거냐고 물어봐서 안한다고 했거든요. -_-;
피할 수 있을때 즐겨라! http://melotopia.net/b
우선 독점 라이센스가 아니라면 다른 곳에서 가져다 쓸
우선 독점 라이센스가 아니라면 다른 곳에서 가져다 쓸 수 있기 때문에 반갑습니다.
세계적으로도 이런 경우가 얼마나 있는 지도 궁금합니다.
일단 결과물과 라이센스가 나오면 평가하고 싶군요.
재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.
아이디의 아이디어 무한도전
http://blog.aaidee.com
귀태닷컴
http://www.gwitae.com
위키피디아 방식으로 만들었는지는 모르겠고, 일본의
위키피디아 방식으로 만들었는지는 모르겠고,
일본의 경우 공개된 사전, 워드넷 등의 데이터가 있습니다.
Japanese WordNet
http://nlpwww.nict.go.jp/wn-ja/index.en.html
you may use, copy, modify and distribute the Japanese WordNet for any purpose without any fee
이 외에도 공개 사전 데이터가 몇 종 있습니다.