원어민다운 쓸만한 한영문장 변환기가 없는 이유가 뭐라고 생각하세요?
글쓴이: 착한아이 / 작성시간: 금, 2011/05/27 - 12:35오전
.
원어민다운 쓸만한 한영문장 변환기가 없는 이유가 뭐라고 생각하세요?
제 생각엔 한국어와 영어를 둘다 제대로 이해하고 있지 않는 사람들이 변환기 개발을 시도하는것 같아요.
흔한 영어교재들도 한국인 입장에서 영어를 이해하는데 도움은 찔끔, 오히려 방해는 많이 하고 때문에, 영어가 잘 늘지 않는다고 생각하거든요. 노력이 부족한게 아니라 도움이 안되는 정보탓인데, 그런 무익한 정보를 집필하는 걸 보면, 영어를 어떤 시각으로 이해해야할지 생각있는 영어교재 저자들이 거의 없어 보이네요.
괜찮은 한영문장 변환기의 알고리즘대로 영어공부를 하면 원어민 다운 영어를 구사할수 있지 않을까요?
.
Forums:
기계번역 어디까지
기계번역 어디까지 왔나
http://times.postech.ac.kr/news/articleView.html?idxno=4276
괜찮은 한영문장 번역기의 알고리즘..대로..라...
1. 괜찮은 영어 코퍼스를 무지막지하게 구한다. (뭐, 예를 들어 월스트리트저널 1년치...라든지...)
2. 모든 문장을 네 단어씩 잘라서 조각낸다.
3. 조각낸 네 단어 묶음을 자주 나오는 순서대로 나열한다.
4. 외운다.
5. ...?
...음 사람이 따라하기엔 좀 무리라고 봅니다만.
* 그게 어째서 괜찮은한영문장 번역기냐는 태클은... 도망가겠습니다~~ (휘리릭~~~)
궁금한 게 있는데요.
http://kldp.org/node/114075#comment-524186
여기서 말씀하신 책과 프로그램은 어떻게 되었는지요 ? 영어 공부중인데, 목 빠지게 기다리고 있습니다.
2010년 년말에 나온다고 하셨으니, 지금쯤 서점에 있어야 하는데, 책 이름 좀 알려주세요. 취직하려는데, 토익 점수가 너무 낮네요.
정말이신가요??
기다리는 분이 계실 줄은 상상도 못했네요.. ^^;; 1당 100을 감당해야하던 기억(http://kldp.org/node/109338)때문에..
그동안 배가 고파서 집필을 못하고 있다가 최근에 한창 집필중에 있어요.. 책은 올해 말까지 완성될것 같은데. 모바일용으로도 출시해야할것 같아서 조금 더 늦어질지도 모르겠네요.. ^^;
책 제목과 홍보를 어떻게 해야할 지 모르겠어요.. "한국 어른들을 위한 하루만에 익히는 기적의 혁명 영어학습"?? 좋은 광고는 이미 다른데서 다 사용되고 있더라구여.. ㅎㅎ
제가 쓰는 영문법책이 혁명인 이유는 언어번역기의 모델이 될수도 있는 중간(?)언어의 문법을 설명하고 있기 때문인데요. 중간언어 문법이 어떻에 영어에 적용되는지를 설명하는 책이예요. 이 책은 중간언어에 대한 문법책이기 때문에 같은 방법으로 향후 다른 언어, 불어, 독일어, 일본어 책도 쓸수 있을 거어요. 이 영어문법책 후에는 "외국 어른들을 위한 하루만에 익히는 기적의 혁명 한국어학습"도 쓸 생각이예요.
프로그램과 요약 문서은 pdf로 공짜배포할까 싶고, 예문,해설 포함된 책은 아마 서점에서.. :P
제가 논지를 올릴 때는 논지에 관련된 의견을 듣고자 함이지, 논지의 여부를 논쟁하기 위함이 아니예요.
논지의 취지를 이해하지 못한 의견에는 가급적 답글 달지 않겠어요. :P
개인적으로는 vaporware일거라는 생각을 많이
개인적으로는 vaporware일거라는 생각을 많이 합니다만, 저의 우려를 일축하실 수 있는 결과 기대합니다.
나온다 나온다면서 아직도 실체가 불분명한 GNU
나온다 나온다면서 아직도 실체가 불분명한 GNU 커널이 보입니다.
GNU 커널 HURD를 말씀하시는거라면 그건 잘
GNU 커널 HURD를 말씀하시는거라면 그건 잘 작동합니다만?
그냥 컴파일되는 수준이 아니라 debian/hurd 시스템으로 배포까지 되고있습니다.
http://www.debian.org/ports/hurd/index
CD까지 있어요
http://www.debian.org/ports/hurd/hurd-cd
그 내용을 모르고 적은 글은 아닙니다. 제가 GNU
그 내용을 모르고 적은 글은 아닙니다.
제가 GNU Hurd 얘기를 들은 게 1995,6 년쯤에 알짜 리눅스라는 걸 처음 깔 때였는데, 아직도 제대로 돌아가지 않습니다. 잘 돌아간다면 아직도 저 커널을 채택한 배포판이 없을리가 없죠. 억지로 데비안에 올려서 돌아가는 것에 지나지 않습니다.
동작하는 것과, 쓸만하게 동작하는 건 다른 얘기죠.
다시 이 글로 돌아오면,
자동 번역기는 지천에 널렸습니다. 알짜리눅스 나왔을 때 제가 쓰던 PC-DIC 이라는 것도 자동번역을 지원 했었죠. 그러나 단문 번역 정도는 되지만 그 이상은 무리였었습니다.
단문번역조차도 엉망이어서 그걸로 숙제해가면 선생한테 혼났던 기억도 납니다.
예를 들어서 "참 잘 한다."
앞뒤 문장 다 떼어 버리고 저것만 본다면 말 그대로 잘 한다는 뜻이겠지만, 저게 비꼬는 말이 될 수도 있죠. 이런 걸 번역기는 지원하지 못합니다.
표현되는 언어 하부의 의미적인(본질적인)
표현되는 언어 하부의 의미적인(본질적인) 언어(생각)를 다룰 정도면 굉장한 이론(또는 학설)인 것 같은데...
공부용 책보다는 논문을 써서 학회에 발표하고, 특허 출원이 우선이 아닐까요.
검증 과정 거치고 난 후에 이론으로 정립되면 촘스키보다 훨씬 유명해질 겁니다.
그래도 이 글타래의 핵심을 파악하신 분이 계시군요.
그래도 이 글타래의 핵심을 파악하신 분이 계시군요. ^^
제가 논지를 올릴 때는 논지에 관련된 의견을 듣고자 함이지, 논지의 여부를 논쟁하기 위함이 아니예요.
논지의 취지를 이해하지 못한 의견에는 가급적 답글 달지 않겠어요. :P
기계와 사람이 대화하려고 하려는데서 나오는
기계와 사람이 대화하려고 하려는데서 나오는 문제입니다.
위대한 한글
C 언어도 사람과 기계와의 대화아닐까요?
C언어는 영어만큼의 문제는 없지 싶은데요.. ^^;
제가 논지를 올릴 때는 논지에 관련된 의견을 듣고자 함이지, 논지의 여부를 논쟁하기 위함이 아니예요.
논지의 취지를 이해하지 못한 의견에는 가급적 답글 달지 않겠어요. :P
컴퓨터 언어는 규격이 딱 맞아떨어지고 모호성이 거의
컴퓨터 언어는 규격이 딱 맞아떨어지고 모호성이 거의 없습니다.
인공 언어이기 때문입니다.
http://ko.wikipedia.org/wiki/%EC%9D%B8%EA%B3%B5%EC%96%B4
C언어는 늬앙스, 분위기, 표정 등을 읽을 필요가
C언어는
늬앙스, 분위기, 표정 등을
읽을 필요가 없기 때문이 아닐까요..?
정해진 규칙에 맞게 소통하고,
스펠이나 위치 하나만 틀려도 못알아 먹겠다고 거부하죠 ㅎ
위대한 한글
이곳의 답들을
이곳의 답들을 참조하셔요:
http://www.joysf.com/4246327
* 포럼 주제와 무관한 신변잡기를 반복해서 올리지 맙시다.
* 질문 게시판 만이라도 익명 글쓰기를 막아야 한다고 생각합니다.
번역: 인간이 번역해도 원래가 어려움, 한글 성경도 10종 정도, 영문 성경 수십 종 이상이 어렵다는 것을 방증함.
"제 생각엔 한국어와 영어를 둘다 제대로 이해하고 있지 않는 사람들이 번역기 개발을 시도하는것 같아요."
==> 번역이라는 것이 인간이 하더라도 원래가 어렵습니다. 번역 전문가들도 어렵다고 하고 번역물에 대해 이견이 있습니다. 그래서 어떤 책에 대하여 여러 번역서들이 존재합니다. 심지어는 한글 성경도 10종 정도(영문 성경은 수십종 이상)의 번역서가 존재합니다. 이것은 번역이라는 것이 원래가 어렵다는 것을 방증하는 것입니다.
촘스키 이론 중에 LAD(Language Acquisition Device, 언어 획득 장치)가 있는데 이것은 뇌에 있는 기능입니다.
인간이 번역한 듯한 결과물이 나올려면 뇌에 대한 연구, 인간에 대한 연구가 선행되어야 합니다.
그때까지 컴퓨터 과학자들이 손놓고 가만히 있는 것보다 컴퓨터로 번역을 하겠다고 도전하는 것은 칭찬할 만한 일입니다. 그러한 사람들의 노력을 폄하하는 듯한 인상을 풍기는 발제는 바람직하지 않아 보입니다.
과학자들이 심리학, 뇌과학도 열심히 연구하고 있으니까 인간에 관련된 각종 분야가 융합되어 언어 관련 알고리즘, 프로그램들이 더욱 정교하게 다듬어질 것입니다. 촘스키 언어 이론을 능가하는 언어학 이론이 나올 수도 있습니다.
가까운 미래에 언어와 관련된 신경망 알고리즘을 발견 또는 발명하게 되어 기계 번역 품질도 더욱 좋아지라 기대하고 있습니다.
참고링크
언어 획득 장치
http://en.wikipedia.org/wiki/Language_acquisition_device
촘스키
http://en.wikipedia.org/wiki/Noam_Chomsky
http://ko.wikipedia.org/wiki/%EC%B4%98%EC%8A%A4%ED%82%A4
기계번역
http://ko.wikipedia.org/wiki/%EA%B8%B0%EA%B3%84%EB%B2%88%EC%97%AD
착한 아이님의 예전 편집기글에서도 얼핏 느꼈던
착한 아이님의 예전 편집기글에서도 얼핏 느꼈던 것인데, syntatic(문법)와 semantic(의미)을 동일선 상에서 바라보고(혼동?) 있지 않나 하는 생각이 드는군요.
컴퓨터 번역은 인공지능을 넘어
컴퓨터 번역은 인공지능을 넘어 인공사유(artificial contemplation)의 수준입니다.
컴퓨터 바둑처럼 모든 경우의 수를 계산해서 해결할 수 있는 문제가 아니에요.
문장의 syntax 만 맞추어 주는 번역 보조기가 아니라면, 근본적으로 다른 접근이 필요하다고 생각됩니다.
사실 이 문제가 해결 가능한지도 모르겠습니다.
IBM 왓슨 사례(자연어 번역은 아닙니다.)를 볼 때
IBM 왓슨 사례(자연어 번역은 아닙니다.)를 볼 때 가능할 것도 같지만... 알고리즘이 슈퍼컴퓨터에서 돌아갑니다.
http://eggy.egloos.com/3575654
그 알고리즘들이 어떠한 알고리즘인지는 모르겠습니다.
뭐 어쨌든, 결국에는 인간의 뇌 신경망 회로를 컴퓨터 소프트웨어로 구현해야 되는 문제인데
살아있는 인간의 뇌를 실험할 수도 없는 노릇이고,
뇌연구를 통해 각종 신경망 알고리즘이 발견되었다 하더라도 이게 폰노이만 구조의 컴퓨터에서 *현실적으로* 가능할지는 의문입니다.
언젠가... 코어 100개 박힌 CPU, 메모리 속도가 지금보다 1000배는 빠른 메모리가 보편화되면 가능할 수도...
(그런데... nm 줄이는 것, Gh 올리는 것은 한계가 있을텐데)
사람도 번역을 하기까지 20년 이상의 세월이 소요됩니다.
그걸 프로그래밍한다는 것은... 허접하고 무모한 시도처럼 보여도 대단한 용기, 도전 정신임에는 틀림없는 것 같습니다.
제목에서 약간 혼동을 줄 수 있을 것
제목에서 약간 혼동을 줄 수 있을 것 같은데,
우리가 일상적으로 말하는 번역과 컴퓨터에서 알고리듬으로 처리하는 번역과는 다릅니다. 알고리즘으로 하는 번역을 변환이라고 하는 편이 더 정확한 말이겠죠.
따라서 원래 글에서 의미하는 번역이라는 말 보다는 변환이 더 정확한 말을 쓰는게 나았을 것 같고, 이 글에서는 영어->한글 변환을 논의하는 것일겁니다.
실제로 인공지능을 통해 번역이 되는 시기는 20년이 지나면 나올지도 모르겠고...
혹은 뛰어난 알고리즘이 나와서 번역에 버금가는 수준의 변환이 그 이전에 나올지도 모르겠지만.. 아직 그런 물건이 있는지는 잘 모르겠군요.
변환이 더 정확한 표현이겠네요..
번역을 변환으로 고쳤어요.. 헤헤 ^^;
제가 논지를 올릴 때는 논지에 관련된 의견을 듣고자 함이지, 논지의 여부를 논쟁하기 위함이 아니예요.
논지의 취지를 이해하지 못한 의견에는 가급적 답글 달지 않겠어요. :P
한글에 최적화된 형태소 분석기가 없어서 그런건
한글에 최적화된 형태소 분석기가 없어서 그런건 아닐까요?