구글 번역기

galien의 이미지

통계를 기반으로하는 번역 시스템이라....

영어 본문은

http://www.csmonitor.com/2005/0602/p13s02-stct.html

번역본은

http://www.hackerslab.org/korg/view.fhz?menu=news&no=2112

d3m3vilurr의 이미지

Systran의 바벨피쉬를 보면
왜자꾸 babelfish exploit이 떠오를까요.

통계적이더라도 최소한 말이되는 번역이 이뤄졌으면 싶습니다..-_-;;

지리즈의 이미지

d3m3vilurr wrote:
통계적이더라도 최소한 말이되는 번역이 이뤄졌으면 싶습니다..-_-;;

공감하는 바입니다.

There is no spoon. Neo from the Matrix 1999.

날달걀의 이미지

링크된 글을 읽어보면 중국어와 아랍어 얘기가 자주 나오네요. 즉 저런 언어 말고 영어와 뿌리를 같이하는 서양의 언어들간에는 현재의 자동 번역기도 꽤 쓸만하다는 의미로 볼 수 있습니다. 이건 한일 자동 번역기의 품질을 보면 쉽게 예측할 수 있지요.

번역을 모아둔 데이터베이스를 TM(Translation Memory)라고 부르는데 쉽게 생각하면 이 TM이 무한대에 가깝게 커지면 MT의 번역 품질은 사람이 한 것과 동일해 지겠죠.

문제는 TM의 크기를 무한대로 확장하는 동시에 그걸 제빠르게 검색할 수 없었다는게 현재까지의 문제였죠. 근데 이 멋진 구글이 이 일을 해내려고 하는 것 같습니다.

아마 구글의 시스템은 다음과 같은 과정을 거치지 않을까 조심스레 추즉해 봅니다.
1. 다양한 기존 문서 쌍을 정렬하여 문장의 쌍으로 정렬한 후 TM에 삽입
2. 사용자가 번역을 의뢰하면 문서를 서버로 전송
3. 문장 단위로 분리하여 TM에서 쿼리를 던짐.
4. 매치되는 문장이 있으면 문장을 번역함.
5. 번역된 문장은 다시 단어 단위로 쪼개서 영한 사전으로 검색하여 뜻을 저장하고 직접에 번역된 문장에서 해당하는 단어가 있는지 검색.
6. 검색된 결과를 임시 용어집에 추가
7. 100퍼센트 동일하지는 않지만 예를 들어 85퍼센트 정도 동일한 문장의 경우 임시 용어집에서 틀린 부분에 해당하는 단어 뜻을 찾아보고 그래도 없으면 영한 사전을 검색하여 번역.
8. 85퍼센트 이하로 매치되는 경우 Systran과 같은 기존 MT로 보냄. 이때 임시 용어집을 우선적으로 검색하도록 지정.

근데 구글이 정말 한 십년 후에 굉장한 MT를 만들어 버리면 저는 뭐 먹고 살아야 할까요. 구글 때문에 실업자 될까 두렵네요. 그래도 구글 화이팅! 입니다. :D

날달걀의 이미지

링크된 글을 읽어보면 중국어와 아랍어 얘기가 자주 나오네요. 즉 저런 언어 말고 영어와 뿌리를 같이하는 서양의 언어들간에는 현재의 자동 번역기도 꽤 쓸만하다는 의미로 볼 수 있습니다. 이건 한일 자동 번역기의 품질을 보면 쉽게 예측할 수 있지요.

번역을 모아둔 데이터베이스를 TM(Translation Memory)라고 부르는데 쉽게 생각하면 이 TM이 무한대에 가깝게 커지면 MT의 번역 품질은 사람이 한 것과 동일해 지겠죠.

문제는 TM의 크기를 무한대로 확장하는 동시에 그걸 제빠르게 검색할 수 없었다는게 현재까지의 문제였죠. 근데 이 멋진 구글이 이 일을 해내려고 하는 것 같습니다.

아마 구글의 시스템은 다음과 같은 과정을 거치지 않을까 조심스레 추즉해 봅니다.
1. 다양한 기존 문서 쌍을 정렬하여 문장의 쌍으로 정렬한 후 TM에 삽입
2. 사용자가 번역을 의뢰하면 문서를 서버로 전송
3. 문장 단위로 분리하여 TM에서 쿼리를 던짐.
4. 매치되는 문장이 있으면 문장을 번역함.
5. 번역된 문장은 다시 단어 단위로 쪼개서 영한 사전으로 검색하여 뜻을 저장하고 직접에 번역된 문장에서 해당하는 단어가 있는지 검색.
6. 검색된 결과를 임시 용어집에 추가
7. 100퍼센트 동일하지는 않지만 예를 들어 85퍼센트 정도 동일한 문장의 경우 임시 용어집에서 틀린 부분에 해당하는 단어 뜻을 찾아보고 그래도 없으면 영한 사전을 검색하여 번역.
8. 85퍼센트 이하로 매치되는 경우 Systran과 같은 기존 MT로 보냄. 이때 임시 용어집을 우선적으로 검색하도록 지정.

근데 구글이 정말 한 십년 후에 굉장한 MT를 만들어 버리면 저는 뭐 먹고 살아야 할까요. 구글 때문에 실업자 될까 두렵네요. 그래도 구글 화이팅! 입니다. :D

날달걀의 이미지

링크된 글을 읽어보면 중국어와 아랍어 얘기가 자주 나오네요. 즉 저런 언어 말고 영어와 뿌리를 같이하는 서양의 언어들간에는 현재의 자동 번역기도 꽤 쓸만하다는 의미로 볼 수 있습니다. 이건 한일 자동 번역기의 품질을 보면 쉽게 예측할 수 있지요.

번역을 모아둔 데이터베이스를 TM(Translation Memory)라고 부르는데 쉽게 생각하면 이 TM이 무한대에 가깝게 커지면 MT의 번역 품질은 사람이 한 것과 동일해 지겠죠.

문제는 TM의 크기를 무한대로 확장하는 동시에 그걸 제빠르게 검색할 수 없었다는게 현재까지의 문제였죠. 근데 이 멋진 구글이 이 일을 해내려고 하는 것 같습니다.

아마 구글의 시스템은 다음과 같은 과정을 거치지 않을까 조심스레 추즉해 봅니다.
1. 다양한 기존 문서 쌍을 정렬하여 문장의 쌍으로 정렬한 후 TM에 삽입
2. 사용자가 번역을 의뢰하면 문서를 서버로 전송
3. 문장 단위로 분리하여 TM에서 쿼리를 던짐.
4. 매치되는 문장이 있으면 문장을 번역함.
5. 번역된 문장은 다시 단어 단위로 쪼개서 영한 사전으로 검색하여 뜻을 저장하고 직접에 번역된 문장에서 해당하는 단어가 있는지 검색.
6. 검색된 결과를 임시 용어집에 추가
7. 100퍼센트 동일하지는 않지만 예를 들어 85퍼센트 정도 동일한 문장의 경우 임시 용어집에서 틀린 부분에 해당하는 단어 뜻을 찾아보고 그래도 없으면 영한 사전을 검색하여 번역.
8. 85퍼센트 이하로 매치되는 경우 Systran과 같은 기존 MT로 보냄. 이때 임시 용어집을 우선적으로 검색하도록 지정.

근데 구글이 정말 한 십년 후에 굉장한 MT를 만들어 버리면 저는 뭐 먹고 살아야 할까요. 구글 때문에 실업자 될까 두렵네요. 그래도 구글 화이팅! 입니다. :D

kall의 이미지

링크를 따라가서 글을 읽다 보니..
왜 외계어 번역기가 생각나는지..;;

----
자신을 이길 수 있는자는
무슨짓이든 할수있다..
즉..무서운 넘이란 말이지 ^-_-^
나? 아직 멀었지 ㅠㅠ

saxboy의 이미지

오. 날달걀님 MT하시는 분인가보군요. 그냥 반갑군요. :-)

ps.
그런데 MT는 구글이 꼭 굉장한 놈을 만들어내는 것과 완전히 별개로 - 현재도, 그리고 앞으로도 먹고 살기 힘든 산업이 아닐까요. 흐.

익명 사용자의 이미지

설령 무한에 가까운 TM이 있더라도 그런 방법으로는 올바른 번역이 불가하다는 생각입니다. 다소 번역률이 향상되니까 실용적으로는 예전보다 쓸만해지긴 하겠죠. 하지만 근본적으로 인간 언어는 통계적으로 발화 및 해석되지 않습니다. 그렇지 않다는것을 이미 수십년전에 촘스키가 밝혔고, 이건 이 분야를 공부하는 사람이라면 거의 상식수준으로 다 알고 있는 내용입니다.

제가 생각할때 의미론 문제가 해결되지 않고서는 절대 제대로된 번역은 불가능합니다. sw전문서적을 번역하는 사람중에 영어실력은 출중하지만 전산분야에 어떠한 지식도 없는 사람이 해 놓은 번역을 보면 이런 사실을 단적으로 알 수 있습니다. 그 사람은 "문장치환"은 할 수 있어도 "번역"은 못합니다. 왜냐하면 책에서 말하는 "의미"를 모르기 때문입니다.

번역이란것은 단순히 구문의 치환이 아닙니다. 그리고 번역률을 높이기 위해 TM같은것을 사용해서 통계적으로 무슨 수를 쓰더라도 의미론을 구축할 수 없다는것이 명백합니다. 따라서 저런 방식으로는 번역률은 약간 높일 수 있어도 만족할만한 번역의 수준에 이르지는 못한다는것을 지적하고 싶군요.

뭐 그렇다고 해서 저들의 노력이 헛되다거나 의미없다고 평가절하할 생각은 없습니다. 저 기술의 한계를 명확히 해서 읽는 사람들이 이제는 "진정한 번역"이 이뤄질 수 있겠다는 헛된 희망을 품는 일이 발생하지 않기를 바라는 맘에서 살짝 짚어 얘기한것뿐이니까요.

eddy_woody의 이미지

저는 이쪽은 잘 모르지만 흥미로와서 여쭤봅니다.

Blank wrote:
하지만 근본적으로 인간 언어는 통계적으로 발화 및 해석되지 않습니다. 그렇지 않다는것을 이미 수십년전에 촘스키가 밝혔고, 이건 이 분야를 공부하는 사람이라면 거의 상식수준으로 다 알고 있는 내용입니다.

이게 무슨 말인지 통....-_-; 인간 언어는 통계적으로 발화 및 해석되지 않는다는 게 무슨 뜻인지 조금 더 자세히 설명해 주시면 고맙겠습니다.

Blank wrote:
뭐 그렇다고 해서 저들의 노력이 헛되다거나 의미없다고 평가절하할 생각은 없습니다. 저 기술의 한계를 명확히 해서 읽는 사람들이 이제는 "진정한 번역"이 이뤄질 수 있겠다는 헛된 희망을 품는 일이 발생하지 않기를 바라는 맘에서 살짝 짚어 얘기한것뿐이니까요.

진정한 번역이 이론적으로 불가능하나는 말씀인가요?
다시 말해 TM이 이론적으로 무한대로 커지더라도 통게적 번역은 "진정한 번역"으로 수렴하지 않는다는 말씀인지, 씀
아니면 현실적으로 TM이 충분히 커질 수 없기 때문에 진정한 번역이 이루어질 수 없는 말씀인지 궁금합니다.

> It can take much longer than necessary to get rid of a problem professor...

I'm thinking duct tape and a trunk.

익명 사용자의 이미지

eddy_woody wrote:
저는 이쪽은 잘 모르지만 흥미로와서 여쭤봅니다.

Blank wrote:
하지만 근본적으로 인간 언어는 통계적으로 발화 및 해석되지 않습니다. 그렇지 않다는것을 이미 수십년전에 촘스키가 밝혔고, 이건 이 분야를 공부하는 사람이라면 거의 상식수준으로 다 알고 있는 내용입니다.

이게 무슨 말인지 통....-_-; 인간 언어는 통계적으로 발화 및 해석되지 않는다는 게 무슨 뜻인지 조금 더 자세히 설명해 주시면 고맙겠습니다.

Blank wrote:
뭐 그렇다고 해서 저들의 노력이 헛되다거나 의미없다고 평가절하할 생각은 없습니다. 저 기술의 한계를 명확히 해서 읽는 사람들이 이제는 "진정한 번역"이 이뤄질 수 있겠다는 헛된 희망을 품는 일이 발생하지 않기를 바라는 맘에서 살짝 짚어 얘기한것뿐이니까요.

진정한 번역이 이론적으로 불가능하나는 말씀인가요?
다시 말해 TM이 이론적으로 무한대로 커지더라도 통게적 번역은 "진정한 번역"으로 수렴하지 않는다는 말씀인지, 씀
아니면 현실적으로 TM이 충분히 커질 수 없기 때문에 진정한 번역이 이루어질 수 없는 말씀인지 궁금합니다.

TM이 얼마나 커져야하냐면....
예를 들어
'시원하다'라는 단순한 말이 있지만

예문 1.
A와 함께 맹렬한 더위의 원인에대해 끝없이 토론하고 있을때가 갑자기 어디선가 바람이 불어왔다.
"아 시원하다."
A가 말했다.

예문 2.
어젯밤 마신 술을 해장하기 위해 A와 함께 소담한 해장국집에 들러 북어국을 시켰다. 첫술을 입에 넣으려는 순간
"아 시원하다."
A가 말했다. 나도 동의의 미소를 지었다.

여기서는 간단하게 its cool 정도로 번역해도 큰 의미간의 상충은 없지만, 이 예를 든 주 이유는 이처럼 전체 문맥의 의미를 모르면 '시원하다'라는 문장 자체의 진정한 의미에 맞게 번역하지 못한다는 것을 보여주기 위함입니다.
즉 구글이 완벽하게 번역하기 위해서는 문맥에 따른 다른 의미를 가진 모든 경우의 수도 데이터베이스에 들어 있어야 되는 것이죠. 과연 가능할까요?

dasomoli의 이미지

손님3 wrote:
여기서는 간단하게 its cool 정도로 번역해도 큰 의미간의 상충은 없지만, 이 예를 든 주 이유는 이처럼 전체 문맥의 의미를 모르면 '시원하다'라는 문장 자체의 진정한 의미에 맞게 번역하지 못한다는 것을 보여주기 위함입니다.
즉 구글이 완벽하게 번역하기 위해서는 문맥에 따른 다른 의미를 가진 모든 경우의 수도 데이터베이스에 들어 있어야 되는 것이죠. 과연 가능할까요?

그냥 제 생각입니다만, 이런 의미만으로 불가능이라고 말씀하신거라면 불가능보다는 가능쪽이 더 가깝지 않을까요.

데이터베이스가 충분히 커지고 커지면 문맥상에서의 단어의 의미도 데이터베이스 하에서 찾을 수 있을 거 같다는 생각이..

문맥이란게 있더라도 단어 의미의 개수는 유한하니까요.

뭐, 제 생각입니다. 8)



dasomoli의 블로그(http://dasomoli.org)
dasomoli = DasomOLI = Dasom + DOLI = 다솜돌이
다솜 = 사랑하옴의 옛 고어.
Developer! ubuntu-ko! 다솜돌이 정석
espereto의 이미지

dasomoli wrote:
손님3 wrote:
여기서는 간단하게 its cool 정도로 번역해도 큰 의미간의 상충은 없지만, 이 예를 든 주 이유는 이처럼 전체 문맥의 의미를 모르면 '시원하다'라는 문장 자체의 진정한 의미에 맞게 번역하지 못한다는 것을 보여주기 위함입니다.
즉 구글이 완벽하게 번역하기 위해서는 문맥에 따른 다른 의미를 가진 모든 경우의 수도 데이터베이스에 들어 있어야 되는 것이죠. 과연 가능할까요?

그냥 제 생각입니다만, 이런 의미만으로 불가능이라고 말씀하신거라면 불가능보다는 가능쪽이 더 가깝지 않을까요.

데이터베이스가 충분히 커지고 커지면 문맥상에서의 단어의 의미도 데이터베이스 하에서 찾을 수 있을 거 같다는 생각이..

문맥이란게 있더라도 단어 의미의 개수는 유한하니까요.

뭐, 제 생각입니다. 8)

뭐 간단하게 여기에대해 제 생각을 말씀드리자면...
Blank님과 손님3님의 의견과 비슷합니다.

단지, 0~9까지 10개의 숫자만으로도 조합할 수 있는 수의 범위는 무한대입니다...라고 -_-; 물론, 구글의 검색 기술을 이용하여 전 세계의 웹싸이트를 소스로 사용할 수 있겠지만, 이 경우, 품질이 보장되지 않는 소스들이 많이 포함되는 문제가 생기겠죠. UN 번역 문서들처럼 매우 질 좋은 소스들은 또 다루는 주제가 어느 정도 한정이 되고, 사용되는 단어나 문장도 한정될테구요.

물론, 기존의 기계번역에 비해 번역 품질이 많이 향상될거라는 예상과 기대는 하고 있습니다.

그렇다 하더라도, I am Sam.을 나는 지대공 미사일이다.로 번역하는 것과 같은 해프닝은 여전히 일어날 것이라고 봅니다.

그래도, 구글과 같이 통계적인 접근을 하는 것이 의미없는 일이라고는 보지 않습니다. :-)

lazylady의 이미지

Blank wrote:
설령 무한에 가까운 TM이 있더라도 그런 방법으로는 올바른 번역이 불가하다는 생각입니다. 다소 번역률이 향상되니까 실용적으로는 예전보다 쓸만해지긴 하겠죠. 하지만 근본적으로 인간 언어는 통계적으로 발화 및 해석되지 않습니다. 그렇지 않다는것을 이미 수십년전에 촘스키가 밝혔고, 이건 이 분야를 공부하는 사람이라면 거의 상식수준으로 다 알고 있는 내용입니다.

제가 생각할때 의미론 문제가 해결되지 않고서는 절대 제대로된 번역은 불가능합니다. sw전문서적을 번역하는 사람중에 영어실력은 출중하지만 전산분야에 어떠한 지식도 없는 사람이 해 놓은 번역을 보면 이런 사실을 단적으로 알 수 있습니다. 그 사람은 "문장치환"은 할 수 있어도 "번역"은 못합니다. 왜냐하면 책에서 말하는 "의미"를 모르기 때문입니다.

번역이란것은 단순히 구문의 치환이 아닙니다. 그리고 번역률을 높이기 위해 TM같은것을 사용해서 통계적으로 무슨 수를 쓰더라도 의미론을 구축할 수 없다는것이 명백합니다. 따라서 저런 방식으로는 번역률은 약간 높일 수 있어도 만족할만한 번역의 수준에 이르지는 못한다는것을 지적하고 싶군요.

뭐 그렇다고 해서 저들의 노력이 헛되다거나 의미없다고 평가절하할 생각은 없습니다. 저 기술의 한계를 명확히 해서 읽는 사람들이 이제는 "진정한 번역"이 이뤄질 수 있겠다는 헛된 희망을 품는 일이 발생하지 않기를 바라는 맘에서 살짝 짚어 얘기한것뿐이니까요.

의미가 무엇이라고 생각하십니까? 전 패턴이 의미라고 생각합니다.
말을 배우는 과정을 생각해봐도 반복되는 비슷한 상황에서 어떤 표현을 쓰는 걸 접했을 때 그 의미를 발견하게 됩니다. 예로 드신 시원하다는 표현도 어린이들은 이해할 수 없는 표현이지만 그런 느낌을 자주 접하면서 알게 되는 표현이지요. 더 고전적인 예라면 무궁화, 장미, 튤립, 채송화 등을 보고 꽃이라는 의미(개념?)을 알게 되는걸 들 수 있을까요?
이런 말 하면 영화에서 미친 과학자 취급을 받는 것 같지만 모든 건 수학으로 표현 가능하다고 믿습니다. 심지어 수학은 자신이 표현할 수 없는 것을 보았을 때 자신의 범위를 넓히는 유연함까지 보이는 듯 합니다.
현재의 구체적인 전략들이 정답이라고 보긴 어렵지만 수학과 번역의 전쟁에선 수학이 이길거라고 봅니다.

건축과 다니면서 프로그램 공부하는 이상한 사람;;

익명 사용자의 이미지

eddy_woody wrote:
저는 이쪽은 잘 모르지만 흥미로와서 여쭤봅니다.

Blank wrote:
하지만 근본적으로 인간 언어는 통계적으로 발화 및 해석되지 않습니다. 그렇지 않다는것을 이미 수십년전에 촘스키가 밝혔고, 이건 이 분야를 공부하는 사람이라면 거의 상식수준으로 다 알고 있는 내용입니다.

이게 무슨 말인지 통....-_-; 인간 언어는 통계적으로 발화 및 해석되지 않는다는 게 무슨 뜻인지 조금 더 자세히 설명해 주시면 고맙겠습니다.

Blank wrote:
뭐 그렇다고 해서 저들의 노력이 헛되다거나 의미없다고 평가절하할 생각은 없습니다. 저 기술의 한계를 명확히 해서 읽는 사람들이 이제는 "진정한 번역"이 이뤄질 수 있겠다는 헛된 희망을 품는 일이 발생하지 않기를 바라는 맘에서 살짝 짚어 얘기한것뿐이니까요.

진정한 번역이 이론적으로 불가능하나는 말씀인가요?
다시 말해 TM이 이론적으로 무한대로 커지더라도 통게적 번역은 "진정한 번역"으로 수렴하지 않는다는 말씀인지, 씀
아니면 현실적으로 TM이 충분히 커질 수 없기 때문에 진정한 번역이 이루어질 수 없는 말씀인지 궁금합니다.

CFL에서도 잘 나와있는 내용이지만, 촘스키는 몇개의 Production Rule을 가지고 무한한 수의 문장을 만들어낼 수 있다는것을 밝혔고, 또 이것이 언어나 문화권에 상관없이 인류에 보편적이라는 사실도 밝혔습니다. 귀납이 아니라 철저한 연역방식으로 문장을 구성해나간다는것인데 이 때문에 통계라는것이 끼어들 틈이 없는거죠.

"비가 오기전에 팔, 다리가 아프다"라는것은 나이드신 분들의 경험칙인데 이것을 "법칙"으로 생각하기 어려운 이유는 비가 온다는것과 팔, 다리가 아프다는것이 통계적으로 어느정도의 상관관계만을 생각할 수 있는 수준이기 때문입니다. 하지만, 이것이 진정한 과학으로 인정받으려면 대기중의 수분이 증가하는것이 미시적으로 인체에 어떤 영향을 주어서 팔, 다리가 아프게 된다는 세세한 기작이 모두 밝혀져야 하는거죠. 일단 통계라는 도구를 사용한다는것은 인과관계 탐구를 포기하고 그 시점부터 상관관계만을 탐구하겠다고 선언하는것과 마찬가지입니다.

번역에 대해 통계 기법을 사용한다는것은 곧 한 언어권에서 사용하는 문장(s1)을 통계적으로 다른 언어권의 문장(s2)과 mapping시키겠다는것인데 이것은 위에서 말했듯이 s1-s2간의 상관관계만을 제시해줄뿐, 인과관계로 제시되는 진정한 의미에서의 번역이 될 수 없습니다. 제가 생각하고 있는(또는 다른 부류의 학자들도 동의하고 있는) '진정한 번역'이란 s1->semantic structure->s2 의 형식이 되어야 합니다. 현실적으로 이렇게 하기 어려우니까 통계다 뭐다 하면서 임시방편적 기술을 사용하고 있는거죠.

익명 사용자의 이미지

lazylady wrote:

의미가 무엇이라고 생각하십니까? 전 패턴이 의미라고 생각합니다.
말을 배우는 과정을 생각해봐도 반복되는 비슷한 상황에서 어떤 표현을 쓰는 걸 접했을 때 그 의미를 발견하게 됩니다. 예로 드신 시원하다는 표현도 어린이들은 이해할 수 없는 표현이지만 그런 느낌을 자주 접하면서 알게 되는 표현이지요. 더 고전적인 예라면 무궁화, 장미, 튤립, 채송화 등을 보고 꽃이라는 의미(개념?)을 알게 되는걸 들 수 있을까요?
이런 말 하면 영화에서 미친 과학자 취급을 받는 것 같지만 모든 건 수학으로 표현 가능하다고 믿습니다. 심지어 수학은 자신이 표현할 수 없는 것을 보았을 때 자신의 범위를 넓히는 유연함까지 보이는 듯 합니다.
현재의 구체적인 전략들이 정답이라고 보긴 어렵지만 수학과 번역의 전쟁에선 수학이 이길거라고 봅니다.

우선 손님3은 제가 아닌 다른 분이시라는걸 말씀드려야겠네요. 그리고 저는 손님3님이 쓰신 예에는 동의하지만, 해결책으로 모든 경우의 수를 DB에 넣는다는것에 동의하지 않습니다. 그런식으로는 근본적으로 가로막힌 장벽이 없어지지 않습니다.

"의미란 무엇인가?"라고 질문하셨는데 아마 이 질문에 제대로 답변을 할 수 있다면 AI기술의 상당부분이 해결될겁니다. 그만큼 답변하기 어려운 질문인데 제가 아는 한도내에서 의미를 정의하자면, "현실세계에 대한 표상과 그 표상체계의 구조"입니다. 물론 이것은 수학으로 표현가능하고, 그래서 의미론에 대해서도 역시 수학이 강력한 도구로 사용됩니다.(기타 AI의 다른 분야도 모두 수학으로 표현되고 있습니다.)

문제점이라면 인간의 경우 어떤구조로 저 의미체계를 구축하고 있는지가 전혀 밝혀져 있지 않다는 점(쉽게 얘기하면 뉴런수준에서 인간두뇌를 디버깅하는것이 불가능함)과 이보다 더 근본적으로 이런 지식의 체계를 구축하기 위한 지향성을 지닌 의식과 감정에 대한 연구가 거의 이뤄지지 못했다는것입니다. 현실적으로 이 부분에 대한 연구성과가 지지부진하고, 앞으로 또 언제 발전된 기술이 나올지도 불투명 하기에 통계를 기반으로 하는 번역시스템과 같은 "실용적으로는 괜찮지만, 이론적으로는 틀린" 다소 임시방편적인 방법을 사용하려는거죠.

익명 사용자의 이미지

아..바로 윗글 제가 쓴겁니다. 수정이 안되는거군요. :oops:

espereto의 이미지

수학을 부정하지 않으나, 그 수학적 해답은 아직 찾아내지 못 한 것이라 생각합니다. 통계적 방법이 그 해답을 찾아낼 힌트를 줄 수 있을 거라 기대하지만, 통계적인 방법이 정답이 되진 못할 거라 봅니다.

글 하나 더 쓰려고 하다 실수로 새로 고침 눌렀는데, 그 사이 Blank님께서 답글을 달아주셨네요.

제가 하고싶은 얘기 다 하셔서 전 그냥 ...

I totally agree with you.

라는 한 줄 남기고 사라져야겠습니다. :-)

eddy_woody의 이미지

답변 주신 분들께 감사 드립니다.

그래도 아직 완전히 의문이 풀리지 않은 부분이 있네요.

Blank wrote:
번역에 대해 통계 기법을 사용한다는것은 곧 한 언어권에서 사용하는 문장(s1)을 통계적으로 다른 언어권의 문장(s2)과 mapping시키겠다는것인데 이것은 위에서 말했듯이 s1-s2간의 상관관계만을 제시해줄뿐, 인과관계로 제시되는 진정한 의미에서의 번역이 될 수 없습니다. 제가 생각하고 있는(또는 다른 부류의 학자들도 동의하고 있는) '진정한 번역'이란 s1->semantic structure->s2 의 형식이 되어야 합니다. 현실적으로 이렇게 하기 어려우니까 통계다 뭐다 하면서 임시방편적 기술을 사용하고 있는거죠.

통계적 번역과 의미론적 번역이 어떻게 다른지는 잘 알겠습니다.
그런데, 상관관계만으로 정의된 mapping은 이론상 '진정한 번역'으로 수렴할 수 없는 것인가요? :roll:
말씀하신 내용만으로는 그런지 아닌지 자명하지 않네요. 게다가 수렴하지 않는다면 왜 그런지도 궁금합니다.
자꾸 이런 질문을 드리는 이유는 통계적 번역과 의미론적 번역의 차이가 마치 수치해와 참해(?)의 차이와 같은 것이 아닌가 하는 생각이 들어서입니다.

> It can take much longer than necessary to get rid of a problem professor...

I'm thinking duct tape and a trunk.

익명 사용자의 이미지

eddy_woody wrote:

통계적 번역과 의미론적 번역이 어떻게 다른지는 잘 알겠습니다.
그런데, 상관관계만으로 정의된 mapping은 이론상 '진정한 번역'으로 수렴할 수 없는 것인가요? :roll:
말씀하신 내용만으로는 그런지 아닌지 자명하지 않네요. 게다가 수렴하지 않는다면 왜 그런지도 궁금합니다.
자꾸 이런 질문을 드리는 이유는 통계적 번역과 의미론적 번역의 차이가 마치 수치해와 참해(?)의 차이와 같은 것이 아닌가 하는 생각이 들어서입니다.

단순히 수렴하고 안하고의 문제가 아닙니다. "시원하다"라는 예를 봅시다. 한국인들 은 보통 이 문장을 두가지 용도로 사용합니다. 첫번째가 무더운 상태를 해소시켜줬다는 의미이고, 두번째가 뜨거운 탕에 들어가거나 혹은 그런 음식을 먹을 때 땀을 뻘뻘 흘리면서 사용하는 경우입니다. 다른 용도로 사용하는 경우도 있지만, 일단 이 두가지 경우로 한정시켜보죠. 그리고 첫번째의 경우 사용자에게 컴퓨터가 얼음이 그려진 이미지를 제시해주지만, 두번째의 경우는 태양이 땀을 흘리고 있는 그림을 제시해준다고 해보죠.(사실 이들은 입력시에 이미지와 문장이 연결되어야 합니다)

여기서 첫번째의 의미로 사용되는 문장들이 DB에 더 많이(7:3의 비율로) 입력되었다고 한다면 이제 전혀 새로운 사용자가 동일한 문장으로 두번째의 의미를 염두에 둔채로 DB에 쿼리를 날리더라도 얼음이 그려진 이미지를 얻게 될것입니다. 하지만 이 사용자가 원하는 실제 결과는 태양이 땀을 흘리는 모습입니다. 벌써 여기서부터 잘못된겁니다. 만약 그 사용자가 동일한 문장으로 태양이 땀을 흘리는 모습을 얻고자 한다면 그러한 용도로 사용되는 문장을 DB에 훨씬 더 많은 빈도로 입력시켜야 합니다. 하지만 만약 그렇게 한다면, 이제는 얼음그림을 보고자하는 사람들이 만족하지 못할것입니다. 결국 이 상황에선 통계를 어떤식으로 조작 하든지간에 올바른 번역은 불가할것입니다.

아마도 위에 날달걀님이 제시하신 방법은 제가 생각하는것과는 차이가 있어보이는데 그 방법은 오히려 위에 쓴 방법보다 더 결과가 좋지 않을걸로 생각합니다. 쓰신 내용만을 놓고 보면 한 문장에 오로지 하나의 번역문만을 할당하는것처럼 보이기 때문입니다. (이때는 단순히 특정 문장의 식별을 위해 통계적 방법을 사용하는것 같습니다)

중요한 점은 위의 어떤 방법을 사용하던지 번역에 대한 개별성의 획득이 불가능하다는 것입니다. 왜냐하면 통계라는것 자체가 "대표성"을 위해 존재하기 때문입니다. 즉, 어떤 문장이 "A처럼 번역되는 경우가 70%이다."또는 "A로 번역될 확률이 70%이다."라는것을 근거로 해서 오로지 그 경우만을 대표적인 번역내용으로 제시할것이기 때문입니다. 이런 경우엔 어떤 문장을 사용하는 사람이 표준적인 의미로만 자신이 뜻하고자 하는 바를 제한한다면 그 사람에게 있어서 만큼은 높은 번역률이 보장되겠지만, 수 많은 다양한 사람들이 그렇게 언어생활을 하지 않는다는것은 명백해 보입니다.

여기서 핵심이 되는것은 인간의 입으로 발화된 문장이 아니라 그것이 담고 있는 의미입니다. "내가 광견병에 걸렸다"라는것과 "내가 개에게 물렸다"라는것은 전혀 다른 문장이지만, 전자는 후자를 함축하고 있기 때문에 광견병에 걸렸다고 말한 사람은 이미 개에게 물렸다는 문장을 입으로 말하지 않고도 같은 문장을 남에게 전달한 셈이 됩니다. "X라는 식당에 들렀다가 나와보니 돈이 5000원이 줄어 있었다"라는 문장 역시 "X식당에서 5000원짜리 음식을 먹었다"라는것과 전혀 다른 문장이지만, 의미상으로는 동일하며 이런 예들은 문장보다는 "의미"라는것이 훨씬 핵심이 되는 어떤것이라는것을 강하게 나타내고 있습니다. 보통 우리는 뜻만 통하면 다소 문법이 어긋나는 문장이 되더라도 대개의 내용을 이해할 수 있지만, 문법적으로는 완벽한 문장이더라도 도무지 내용을 이해할 수 없는 경우가 있는데 이는 인간이 의미를 중심에 놓고 언어를 "의미 표현의 도구"로 사용하고 있다는것을 뜻합니다.

그러니까 의미가 빠진 문장(의미가 고려되지 않은 문장)은 사실상 존재가치가 없는겁니다. 그렇기 때문에 의미구조를 거치지 않은 단순한 문장 대 문장의 번역은 맥락을 무시한 마구잡이 번역이 될 수 밖에 없고, 이것에 통계기법을 아무리 추가해봐야 (번역률은 높아질지언정) 이것이 기본적으로 가진 어떤 한계를 넘어서는 결과는 나오지 않을겁니다.

죠커의 이미지

예술에서 의도하지 않은 표절이 나오는 것은 조합 가능성에 비해 인간의 기호의 폭이 훨씬 좁기 때문일 것입니다. 언어에서도 인간의 기호라는 요소 때문에 통계에 의한 방법이 번역에 도움이 될 수 있을 거라고 생각합니다. 그리고 인간이 자연에 대해서도 연역만으로 규정을 짓는 것이 아닌데 언어에 대해서 귀납을 사용하는 것이 무리한 일은 아니라고 생각합니다.

그리고 소프트웨어 서적의 번역 이야기는 별개의 이야기로 생각합니다. 어차피 일반 번역가가 할 수 없어서 전문 번역가를 쓴다면 일반 번역기 대신 전문 번역기를 쓰는 상황이 되는게 더 적합하지 않을까요? 이 문제점이 구글 번역의 시도에 대해서 비판하기에는 적당하지 않다고 생각합니다.

eddy_woody의 이미지

Blank wrote:

단순히 수렴하고 안하고의 문제가 아닙니다. "시원하다"라는 예를 봅시다. 한국인들 은 보통 이 문장을 두가지 용도로 사용합니다. 첫번째가 무더운 상태를 해소시켜줬다는 의미이고, 두번째가 뜨거운 탕에 들어가거나 혹은 그런 음식을 먹을 때 땀을 뻘뻘 흘리면서 사용하는 경우입니다. 다른 용도로 사용하는 경우도 있지만, 일단 이 두가지 경우로 한정시켜보죠. 그리고 첫번째의 경우 사용자에게 컴퓨터가 얼음이 그려진 이미지를 제시해주지만, 두번째의 경우는 태양이 땀을 흘리고 있는 그림을 제시해준다고 해보죠.(사실 이들은 입력시에 이미지와 문장이 연결되어야 합니다)

여기서 첫번째의 의미로 사용되는 문장들이 DB에 더 많이(7:3의 비율로) 입력되었다고 한다면 이제 전혀 새로운 사용자가 동일한 문장으로 두번째의 의미를 염두에 둔채로 DB에 쿼리를 날리더라도 얼음이 그려진 이미지를 얻게 될것입니다. 하지만 이 사용자가 원하는 실제 결과는 태양이 땀을 흘리는 모습입니다. 벌써 여기서부터 잘못된겁니다. 만약 그 사용자가 동일한 문장으로 태양이 땀을 흘리는 모습을 얻고자 한다면 그러한 용도로 사용되는 문장을 DB에 훨씬 더 많은 빈도로 입력시켜야 합니다. 하지만 만약 그렇게 한다면, 이제는 얼음그림을 보고자하는 사람들이 만족하지 못할것입니다. 결국 이 상황에선 통계를 어떤식으로 조작 하든지간에 올바른 번역은 불가할것입니다.

글쎄요, 이런 상황이라면 오히려 통계적 방법이 도움이 될 것 같은데요.
DB가 문맥에 따른 의미까지 저장해 놓을 수있다면요.
'시원하다'의 예를 들어보면,
전체적으로는 첫번째 의미가 두 번째 의미보다 7:3의 비율로 더 자주 사용된다해도
선행 문장들 중에 날씨에 관련된 내용이 있으면 9:1의 비율로 첫 번째 의미로 사용된다든지,
음식이나 맛에 대한 내용이 선행하면 거의 항상 두 번째 의미로 사용된다든지 하는 규칙이
충분히 프로그램화 될 수 있을 것도 같은데 말입니다.

Blank wrote:
그러니까 의미가 빠진 문장(의미가 고려되지 않은 문장)은 사실상 존재가치가 없는겁니다. 그렇기 때문에 의미구조를 거치지 않은 단순한 문장 대 문장의 번역은 맥락을 무시한 마구잡이 번역이 될 수 밖에 없고, 이것에 통계기법을 아무리 추가해봐야 (번역률은 높아질지언정) 이것이 기본적으로 가진 어떤 한계를 넘어서는 결과는 나오지 않을겁니다.

의미가 빠진 문장은 사실상 존재가치가 없다는 점에는 동의합니다.
하지만, 통계적 번역이 반드시 마구잡이 식의 문장 대 문장의 번역을 의미하지는 않는것 같아서 자꾸 토를 달아 봅니다... :?

> It can take much longer than necessary to get rid of a problem professor...

I'm thinking duct tape and a trunk.

익명 사용자의 이미지

eddy_woody wrote:

글쎄요, 이런 상황이라면 오히려 통계적 방법이 도움이 될 것 같은데요.
DB가 문맥에 따른 의미까지 저장해 놓을 수있다면요.
'시원하다'의 예를 들어보면,
전체적으로는 첫번째 의미가 두 번째 의미보다 7:3의 비율로 더 자주 사용된다해도
선행 문장들 중에 날씨에 관련된 내용이 있으면 9:1의 비율로 첫 번째 의미로 사용된다든지,
음식이나 맛에 대한 내용이 선행하면 거의 항상 두 번째 의미로 사용된다든지 하는 규칙이
충분히 프로그램화 될 수 있을 것도 같은데 말입니다.

네 맥락정보를 이용한다는뜻이군요. 그런데 이렇게 생각해보세요. 문장 s가 문장 r에 의존합니다. 그리고 문장 r은 다시 문장 h에 의존하고 이 과정은 전체 문장의 길이만큼 반복될겁니다. 그렇게 생각하면 어차피 마찬가지일 수 밖에 없다는 결론이 나오겠죠. 그리고 맥락정보를 이용한다는것 자체가 이미 의미를 염두에 두고 있는 번역입니다. 단어들간의 의존관계가 의미의 일부이기 때문입니다. 그 경우는 좀 ad-hoc스럽게 보이긴 하지만 s1->semantic structure->s2 의 초보적인 형태로 볼 수 있겠군요.
eddy_woody wrote:

의미가 빠진 문장은 사실상 존재가치가 없다는 점에는 동의합니다.
하지만, 통계적 번역이 반드시 마구잡이 식의 문장 대 문장의 번역을 의미하지는 않는것 같아서 자꾸 토를 달아 봅니다... :?

길을 지나가다 우연히 본 자동차의 번호판이 내 핸드폰 전화번호 뒷자리와 일치하는건 전혀 이상한 일이 아닙니다. 하지만, 그런 번호를 발견했다고 해서 "자동차넘버와 내 핸드폰 번호간에 대응관계가 존재한다"라고 억지로 의미를 부여할 필요는 전혀 없습니다. 이 경우 기계적으로 또는 우연히 두 번호가 일치했을뿐입니다. 마찬가지로 s1->s2 인 경우는 확실히 더 높은 확률이긴 하지만 기계적으로 또는 우연히 각 문장이 일치하고 있다는 사실에는 변함이 없습니다. 확률적으로 얼마든지 해석된 문장이 옳게 나올 수 있습니다. 그러나, 해석된 문장이 옳다는것이 해석과정의 옳음을 보증하지는 못합니다.
creativeidler의 이미지

저도 Blank님의 말씀에 동의합니다. 촘스키의 이론을 간략하게나마 소개해주셨다면 좀더 이해하기 쉽지 않았을까 싶네요.

언어 번역을 통계적인 방법으로 하기 어려운 이유는 사람의 언어가 이제까지 사용된 적이 없는 새로운 표현을 만들어낼 수 있기 때문입니다. 설령 이제까지 모든 인류가 사용해온 언어를 모두 데이터베이스에 보관하고 있다고 하더라도 1초만 지나면 또 새로운 표현이 등장합니다. 결국 컴퓨터가 언어를 정말로 이해하지 못하는 이상 인간 수준의 번역은 불가능하죠.

사람의 언어 학습 과정을 보면 언어를 익혀나가는 과정이 귀납적인 것으로 오해되기 쉽지만 실상 사람은 언어의 경험을 통계적으로 축적하여 언어를 익혀나가는 것이 아니라 언어의 경험에서 룰을 하나하나 찾아내 가면서 언어를 익힙니다. 이런 룰을 변형생성문법이라고 하죠. 사람의 언어에서 일어나는 현상들 중엔 귀납적인 방법으로는 도저히 설명이 안되는 것들이 많은데 이런 것들이 변형생성문법으로는 설명이 됩니다. 즉, 언어를 완전히 이해하고 사용하려면 변형생성 능력이 필요하다는 것이죠. 번역에 대해서도 마찬가지라고 봅니다. 통계적인 방법으로는 도저히 어쩔 수 없는 영역이 분명 존재합니다.

그러나, 사실 이런 이야기들은 통계적인 방법으로 완전한 번역에 이를 수 없다는 의미일 뿐입니다. 구글의 시도는 번역 품질에서 상당한 진전을 가져올 것이며 아마도 흔히 말하는 초벌 번역에 해당하는 수준까지는 이를 수 있을 것입니다.

그런데 언어학적 접근 역시 완전한 번역과는 거리가 있습니다. 언어학의 의미론적 접근 역시 "변화하는 언어"를 제대로 반영하진 못합니다. 통계적인 방법도 필요하며 사람과 비슷한 수준의 학습 기능까지 필요합니다. 결국 따지고보면 인공지능이야말로 완전한 번역이 이루어지기 위한 필요조건입니다.

번역 작업은 어느 한 학문만으로는 불가능합니다. 언어학을 기반에 깔고 통계학과 수학을 활용하며 컴퓨터과학과 인지과학, 철학에다 신경의학까지 접목되어야 비로소 완전한 번역 기능이 탄생할 수 있는 것입니다. 이런 정도가 아니라 한두 학문만의 접목이라면 아무리 발전해도 초벌 번역의 수준에 이르는 것조차 쉬운 일이 아닐 것입니다.

eddy_woody의 이미지

짜증 않내고 찬찬히 설명해 주신 분들께 깊이 감사드립니다. ^^;
'완전한 번역'에의 길이 멀고도 험하다는 사실은 저도 알고 있었지만
그 이유를 다시 확인할 수 있는 좋은 기회였습니다.

그나저나, 촘스키의 이론은 언어학 전공자가 아니면 제대로 이해하기 많이 힘든가요?

> It can take much longer than necessary to get rid of a problem professor...

I'm thinking duct tape and a trunk.

나는오리의 이미지

인간과 비슷한 수준의 지적 능력을 가진 AI가 개발되지 않는 이상
한국어와 영어의 완벽한 번역은 불가능한것 아닌가요?

espereto의 이미지

eddy_woody wrote:
짜증 않내고 찬찬히 설명해 주신 분들께 깊이 감사드립니다. ^^;
'완전한 번역'에의 길이 멀고도 험하다는 사실은 저도 알고 있었지만
그 이유를 다시 확인할 수 있는 좋은 기회였습니다.

그나저나, 촘스키의 이론은 언어학 전공자가 아니면 제대로 이해하기 많이 힘든가요?

촘스키 교수의 이론 자체는 언어학 전공과는 상관없이 이해가 가능합니다.

컴파일러론에서도 촘스키 교수의 이론을 사용합니다.

그 이론을 이해하고 응용하고 이용하는 것이 중요하겠지요.

http://www.aistudy.co.kr/linguistics/chomsky_hierarchy.htm

음. 좀 더 쉬운 자료도 있을 것 같은데, 못 찾구 있습니다.
더불어 더 어렵고(?) 깊이 있는 자료도 있을텐데, 역시나 못 찾구 있습니다. ㅡ.ㅡ;

웹상의 좋은 자료 알고 계신 분들 알려주시면 감사하겠습니다.

개인적으로 언어학에서 매우 관심이 있어서 그러는데, 책 좋은 것 있으면 추천 부탁드립니다.