4-5만 단어 수준의 번역 용어집을 준비중입니다.

Mr.Dust의 이미지

안녕하세요.
자유/오픈 소스 소프트웨어를 번역할 때 참고할 만한 번역 용어집이 없어서 나름 고민하다가 거대 삽질을 시작했습니다. GNOME, KDE, OpenOffice.org, Firefox, GIMP 등 거대 프로젝트에서 L10n 파일을 받아오고, 우분투 배포판에 들어가는 패키지의 번역물을 관리하는 런치패드에서 L10n 파일을 전부 다운받아 "합체!". 총 257만 라인 정도가 되더군요.

현재 8만라인까지 정리가 되었습니다.
하지만 아직도 RAW DATA 라고 부를 정도의 수준밖에 되지 않습니다.
그래서 KLDP 와 우분투 커뮤니티에 자문을 구합니다.

1. 데이터 정리
데이터 중 중복된 단어가 사용된 경우가 많습니다. 하지만 일괄적으로 제거할 수가 없는 것이 전치사라든가 동사의 경우에 문맥에 따라 의미가 많이 달라지기 때문입니다. 이게 한 두개가 아니라 많을 땐 단어당 백여개가 넘어가기 때문에 정리가 필요할 것 같은데, 수동 정리는 엄두가 안나고 대책이 필요한 것 같습니다. 예제 파일을 첨부합니다. 데이터 파일은 다음과 같은 구조로 되어 있습니다.(차후 gettext 형식으로 변환을 염두에 둠)
예제 파일 : http://kldp.org/files/a_0.txt
msgid   by last visited msgstr  마지막 방문한 날짜 순서로

2. 데이터 정리 - 번역어 정리
동일 단어에 여러가지 번역이 있는 경우가 많습니다. 번역자에 따라, 사용처에 따라, 문맥에 따라 번역이 달라지기 때문인데, 이를 하나의 단어로 모두 연결시켰습니다. 이걸 스크립트를 이용하다보니 중복된 번역어가 보입니다. 이를 없애고자 하는데, 제 실력으로는 무리네요.
msgid   add     msgstr  더하기, 추가, 모두 추가, 추가하기, 추가됨, 추가, 더하기

3. 게재 수단
현재로서는 제 서버에 설치된 미디어 위키를 사용하려고 생각중입니다. 롤모델로 잡은 것이 위키 낱말 사전이라서요. 제 서버는 (어디에 있는지 모르지만) 웹호스팅을 하시는 분께 VPS를 받아서 사용중이라 제가 돈을 지불하는한 ;;; 지속이 될 것 같습니다. 차후 용어집이 안정이 되면 좀더 안정적인 곳으로 이전을 할 계획입니다.

서버야 나중 문제고, 게재 수단은 한번 정하면 수정하기가 어렵기 때문에 조언이 필요합니다. 미디어 위키를 택한 것은 앞서 이야기한 이유 외에, 토론 기능이나 분류 기능이 있다는데 높은 점수를 주었습니다. 용어들이 안정되기까지 많은 토론이 필요할 것이며, 안정된 후에도 지속적으로 토론이 필요할테니까요. 그리고 분류 기능은 특정 카테고리(오피스, 그래픽, 멀티미디어 등)에서 사용되는 단어나 해석들을 확인하고자 할때 유용할 것 같습니다. 당분간은 구현되지 못할 기능이겠지만요. ;;;

예제 사이트 : http://gloss.mr-dust.pe.kr

4. 라이센스 문제
현재 번역물을 가져온 곳은 GNOME, KDE, OpenOffice.org, Firefox, GIMP, Launchpad 입니다.
GNOME과 GIMP는 GPL이고, KDE는 잘 모르겠습니다. OOo는 LGPL, Firefox는 MPL, 런치패드는 BSD입니다. 위 라이센스들을 모두 만족시키며 가장 상위(?)에 위치하는 라이센스는 아마도 BSD일 것 같은데, 맞는지 궁금합니다. 특히 KDE 쪽과 MPL 쪽에 대해 아는 바가 적어 많이 헷갈리네요. 조언 좀 부탁드립니다.

==========
마지막으로 이 용어집을 만들면서 세운 목표와 목적은 다음과 같습니다.

1. 모든 사용자/번역자가 자유롭게 접근 가능하며, 토론 및 편집이 가능한 공개 번역 용어집 시스템을 구축한다.

2. 번역시 가장 먼저 참조해야 할 용어집이 되도록 수준을 확보한다.

3. 웹접근뿐만 아니라 다른 프로그램에서의 사용도 가능토록 한다. 예를 들어 데이터를 gettext 형식으로 내보내면, poedit나 pootle에서 TM의 데이터베이스로 활용이 가능하다. 또는 ko-po-check의 확장 기능으로 사용할 수도 있다.

File attachments: 
첨부파일 크기
Plain text icon a.txt280.89 KB
danskesb의 이미지

KDE의 경우는 조금 재미있습니다. 각각 KDE 모듈 소스 코드의 COPYING.* 파일에 나와 있는 대로입니다.

* KDE 라이브러리: LGPL 2.1
* KDE 문서: GFDL 1.2
* KDE 프로그램: GPL 2

KDE 라이브러리도 LGPL이고, Qt 라이브러리도 LGPL로 사용할 수 있기 때문에 '마음만 먹는다면' 소스를 공개하지 않고도 KDE 프로그램을 만들 수 있으나 이런 경우는 지금까지 보지 못했습니다.

---- 절취선 ----
http://blog.peremen.name

아주가끔은의 이미지

Quote:
2. 데이터 정리 - 번역어 정리
....
msgid add msgstr 더하기, 추가, 모두 추가, 추가하기, 추가됨, 추가, 더하기

이 예의 경우 더하기와 추가가 가장 가까운데요. 이게 하다 보면 '더하기'가 맞아 들어갈 때가 있고 '추가'가 맞을 때가 있었습니다.

언제나 수고하십니다.
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
RME 9636/52, RomIO, ESP 1010, Triton pro, K2600x, JV-80, Yamaha O3D, Tascam DA-30MKII, Roland SC-55... etc
http://blog.obbli.net

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
RME 9636/52, JV-80, Yamaha O3D, DA-30MKII, US-122MKII, Roland SC-55

http://blog.obbli.net

Mr.Dust의 이미지

이 부분의 최종 목적 결과물은 다음과 같습니다.
msgid add msgstr 더하기, 추가, 모두 추가, 추가하기, 추가됨, 추가, 더하기
=> msgid add msgstr 더하기, 추가, 모두 추가, 추가하기, 추가됨

즉, "추가" 와 "더하기"가 중복 표시된 것을 없애는 것이 전부입니다.
그런 까닭은 말씀하신대로 상황에 따라 적절한 용어가 다르기 때문에 무조건 한 단어로 통일할 수가 없기 때문이지요. :)

아주가끔은의 이미지

문득 생각난건데..
제 경우에 비추어 볼 때 poedit 의 TM 같은 경우 정확도가 많이 떨어지던데, 신뢰하는 분이 있나봐요?
저는 무심코 한 번 돌렸다가, 몇 분전에 해둔 몇 개의 장문 줄을 날려 먹은 적도 있었습니다. 물론 퍼지나 미번역 줄만 처리 한다고 하지만, 퍼지가 손 안대도 바른 경우가 있어서 꺼려지죠.
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
RME 9636/52, RomIO, ESP 1010, Triton pro, K2600x, JV-80, Yamaha O3D, Tascam DA-30MKII, Roland SC-55... etc
http://blog.obbli.net

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
RME 9636/52, JV-80, Yamaha O3D, DA-30MKII, US-122MKII, Roland SC-55

http://blog.obbli.net

Mr.Dust의 이미지

tm 의 데이터베이스 파일에 따라 신뢰도가 달라지지 않을까 싶습니다.
물론 poedit 자체 기능에 가장 큰 영향을 받겠지만요.

예를 들어 저의 경우, 제가 번역한 프로그램만을 넣고 db 를 만들어서 그걸로 tm을 돌리는 경우가 간혹 있습니다. 특정 분야에 해당하는 프로그램인 경우에 그렇죠. 예를 들어 그래픽 프로그램이라든가 오디오 프로그램처럼 용어가 다른 분야와 다소 다른 부분이라면 전용 db 를 만들어두고 돌리면 괜찮습니다.

그리고 개인적으로는 일단 퍼지 처리하고, 미번역을 대상으로 tm을 돌립니다. 자동번역이라기보다 용어 통일에 도움을 준다라는 개념에서요. 일단 눈에 들어온 단어가 있으면 그 단어를 따라가게 되죠. 그런 제안 단어가 없으면 혼자서 번역한 거라도 결국엔 중구난방.. ;;;

아주가끔은의 이미지

Quote:
그런 제안 단어가 없으면 혼자서 번역한 거라도 결국엔 중구난방.. ;;;

하나의 목표물에 집중하면 단어 선택(데스크탑 <-> 데스크톱 <-> 바탕화면) 빼곤 크게 흔들리지 않는것 같은데...
하기야 많이 하시니...

ko 통합 메일링 리스트라도 있으면 얘기 나누기는 좋을 것 같아요.
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
RME 9636/52, RomIO, ESP 1010, Triton pro, K2600x, JV-80, Yamaha O3D, Tascam DA-30MKII, Roland SC-55... etc
http://blog.obbli.net

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
RME 9636/52, JV-80, Yamaha O3D, DA-30MKII, US-122MKII, Roland SC-55

http://blog.obbli.net

danskesb의 이미지

현재 외래어 표기법에 따르면 다음과 같습니다.

* 데스크탑(X) 데스크톱(O)
* 디렉토리(X) 디렉터리(O)

아직도 통일이 안 되는 게 문제라면 문제죠.

---- 절취선 ----
http://blog.peremen.name

semmal의 이미지

외래어 표기법은 발음에 준하기 때문에, 데스크탑과 데스크톱 둘 다 맞는거 아닌가요? tap과 tɔp의 둘 다 쓰는데 말이죠.
------------------------------
How many legs does a dog have?

------------------------------
How many legs does a dog have?

Mr.Dust의 이미지

번역 용어집 사이트를 오픈합니다.
아직은 그저 용어 목록을 올려놓은 것에 불과합니다. 정리도 안되어 있고요.
혼자 정리하긴 그 양이 너무 많아, 공개 후에 함께 정리하고자 미리 공개합니다.

http://gloss.mr-dust.pe.kr

모든 페이지는 가입없이도 편집이 가능하며, 정리는 다음 규칙에 의해 진행될 예정입니다.
http://gloss.mr-dust.pe.kr/index.php/Words_arrangement_rules

단어 정리에 대해 의견이 있으시면 위 페이지에 의견을 주셔서 규칙을 통해 단어들이 정리될 수 있도록 도와주시면 감사하겠습니다.

라이센스는 문제는 아직 결론이 안난 상태입니다.
이곳저곳 문의를 하고 있는데, 잘 답이 안나오네요. 뭐 일단 조금씩 정리해가면서 더 알아봐야겠습니다.
도와주실 분은 이 점을 유의하시고 도와주시기 바랍니다.

cwryu의 이미지

저번에 말씀드렸는데요. 라이선스를 맘대로 결론내서 어떻게 정하고 말고 할 수 있는 게 아닙니다.

직접 만든 메시지가 아니라 다른 작업을 가져다 만든 결과물이니까 그냥 각각의 라이선스가 있는 집합물일 뿐입니다. 저작권자 동의 없이 맘대로 정할 수 없습니다. 번역자 하나하나를 추적해서 동의를 받는다면 또 모르겠지만 사실상 불가능하니 다른 방법이 없습니다.

Mr.Dust의 이미지

그럼 사용할 수 있는 방법이 전무하다라는 말씀인가요?
일단 변호사(라고 해야하나..)하고 이야기를 좀 해보려고요.
국내에 그쪽 관련해서 잘 아시는 분이 계신지 잘 모르겠고, 해외 쪽에 누가 소개해준 곳이 있어서 한번 연락이나 해보려고 합니다. 시도해봐서 나쁠 건 없겠죠. 결국엔 시간낭비, 노력낭비가 될지라도. :)

cwryu의 이미지

기존 번역물 라이선스가 A이고 이걸 이용해서 새로 작업하려는 번역물 라이선스가 B라면 A -> B 라이선스가 호환되는 경우에만 쓸 수 있죠.

그런 상황이 좋든 싫든, 라이선스를 바꿀 수 없다는 건 사실인데 어쩔 수 없는 일이죠. 고민하고 논쟁한다고 달라지는 게 아닙니다.

송효진의 이미지

쉽게 생각해도 될 것 같습니다.
'본 위키는 XXX 라이센스를 따르며, 이에 동의하시는 분은 도와주시는 것이 가능합니다.'

emerge money
http://wiki.kldp.org/wiki.php/GentooInstallSimple - 명령어도 몇 개 안돼요~
http://xenosi.de/

cwryu의 이미지

참여자의 동의 여부는 문제가 아닙니다. 이미 있는 메시지 번역을 모으는 게 문제입니다.

용어를 바닥부터 만드는 게 아니라, 이미 번역되어 있는 외부의 다른 메시지 번역에서 가져온 번역을 모아서 용어집을 구성한다는 점이 문제입니다. 하지만 그 외부 메시지들은 나름대로의 라이선스가 있고 그걸 임의로 변경하는 건 불가능합니다. 그래서 "무슨무슨 라이선스"를 따른다라고 한 가지로 정할 수가 없습니다.

물론 "Dialog" => "대화 창" 이런 짧고 단순하고 널리 알려진 독창성 없는 번역은 저작권을 주장하기도 힘들고 라이선스가 있다고 보기 힘든 일입니다. 하지만 이런 번역은 작은 부분일 것이고 4-5만 단어 수준이라면 번역되어 있는 메시지 대부분을 포함하는 수준이 될 겁니다.

송효진의 이미지

이제 문제점을 알았습니다.

emerge money
http://wiki.kldp.org/wiki.php/GentooInstallSimple - 명령어도 몇 개 안돼요~
http://xenosi.de/

Mr.Dust의 이미지

4-5만 단어라는 말에 뭔가 오해하신 것 같은데, 실제 구성은

Quote:
"Dialog" => "대화 창" 이런 짧고 단순하고 널리 알려진 독창성 없는 번역

이 전부입니다. 실제 정리하고 나면 얼마나 남을지 모르는 거죠. 실제 poterminology 로 하니까 겨우 2000-4000 단어 정도 남더군요. 수작업에서도 원문기준 20자 이상은 다 날려버렸습니다. 문장은 아예 존재하지도 않습니다. 예문도 존재하지 않으니, 우려하시는 문제는 아예 존재하지 않습니다. 예제 파일이나 사이트를 안 보셨나 봅니다.

참고로 제 기록에 따르면, 실제 번역된 스트링 수는 47만 스트링에 이릅니다. 이는 모든 스트링을 한 라인으로 만들어 실제 존재하는 스트링만 계산한 것입니다. 물론 이 중에 원문과 번역문이 같은 경우도 있고, 중복된 것은 상당히 많습니다만..

또한 라이센스 문제는 cwryu 님의 말씀이 원칙적으로는 옳으나 그래서야 GPL 따위의 라이센스를 쓰는 의미가 없을 것 같습니다. 제각각의 라이센스 때문에 결국엔 서로 사용을 못한다? 이게 현상황의 심각한 문제입니다만, 그걸 그냥 놔뒀을리도 없고, 실제로 여러 곳에서 이러한 문제를 해결(또는 피해)한 것처럼 보입니다.

그도 아니면, 최악의 경우 "본 용어집은 각기 다른 라이센스를 가진 소스에서 가져온 것이므로, 참조용일뿐 2차 사용은 불가하다." 라고 명시할 수 있습니다. 라이센스를 정한다는 말이 "내가 내 마음에 맞는 라이센스로 변경하여..." 라고 생각하실 이유는 없습니다. 그동안 주욱 해온 것이 라이센스 관계를 명확하게 하여 다른 이가 재사용에 불편함이 없게함이었지, 다른 의도가 있는 것은 아니니까요.

마지막으로 실제 다른 곳에서는 어떻게 하는지, 법률적으로 어떻게 되는지 물어보면 되겠지요.
뭐 여기서 더 이야기할 것은 아닌 것 같습니다.

cwryu의 이미지

단어일 뿐이라면 상관없다고 볼 수 있네요. 그럼 라이선스를 뭐라고 정할 수도 없겠습니다.

라이선스 적용에 대해서 얘기할 때 사람들은 초점을 벗어나곤 하는데요. 라이선스가 어떤 게 되냐 아니냐의 문제는 "할 수 있느냐 아니냐"의 사실 관계의 문제이지 하는 게 좋으냐 나쁘냐 여부를 판단할 문제가 아닙니다. 여러가지 OSS 라이선스가 호환되지 않는다는 건 사실이고 현실입니다.

GPL이라서 호환되지 않아서 다른 곳에 못 쓴다? 프로그램 코드에서는 흔히 있는 상황이고 GPL 및 기타 개작물에 대해 제한을 거는 라이선스들마다 겪어 온 현실입니다. 이 상황이 불편하다고 해서 호환되지 않는 현실을 부정하고 호환된다고 믿을 수는 없는 노릇이죠. 프로그램에서는 재작성, 다른 코드 찾아 보기, 저작권자 찾아서 일일이 라이선스 변경하기, 아니면 애초부터 저작권 위임 등등 여러가지 방법을 씁니다. 그럼에도 불구하고 GPL을 사용하는 일은 많은 장점을 갖고 있습니다.

mszeta의 이미지

번역물은 라이선스 없이 사용 불가능 한건가요?

송효진의 이미지

번역 '용어' 집 이라고 하였으니,
매끄러운 문장 보다는 용어의 통일에 무게를 두면 좋겠습니다.
그렇게 되면 수집한 번역문을 직접 활용하지 않고,
용어를 정하기 위한 참고자료로써만 활용할 수 있게 됩니다.
다른 프로그램으로 이식 시키는 것이 아니므로,
웬만한 라이센스는 다 괜찮을 것 같네요.
문제되는 라이센스의 번역물은 포함 안시키면 되고요.

emerge money
http://wiki.kldp.org/wiki.php/GentooInstallSimple - 명령어도 몇 개 안돼요~
http://xenosi.de/