음성인식(Speech Recognition)

rgbi3307의 이미지

음성인식(Speech Recognition) 기술은 예전부터 많이 화자 되었던 내용입니다만,
요즘 이 기술이 어느정도까지 발전하고 있는지 궁금합니다.
현재 상용화 되어 있는 것들은 인식 수준이 어느 정도인가요?
참고할 만한 제품이나 서적 및 논문은 어떤 것들이 있을까요?
우리나라 대학, 대학원, 연구기관에서 이것을 전문으로한 괄목할 만한 결과물이 있는지요?

bus710의 이미지


화자 인식과 내용 인식으로 나뉘며,
영국의 스핑크스와 미국의 HTK라는 툴이 있습니다.
그 툴에 적당한 학습을 시킨 후 입력을 처리한다는데...

국내에도 저명한 교수님들이 계시구요..

life is only one time

Raewoo의 이미지

.

Jane의 이미지

음성인식을 기준으로 말씀을 드리면,
정말...뭐라고 정의하기 힘듭니다 ^^;;

우선 조용한 상태에서의 음성인식율은 꽤 높은 편입니다
(숫자인식은 95%, 일반 텍스트는 85%정도 되는걸로 알고 있습니다. 정확한 수치는 기억나지 않네요^^;)
다만 이것이 잡음 환경으로 갈수록 많이 낮아지고요.
그래서 잡음처리를 어떻게 하느냐에 성능의 많이 왔다갔다 합니다.

그 외에 사투리나 외국어발음 등 음향모델쪽에서 고려해야할 부분도 필요하고요.
언어별로 각 특성들이 달라서 이 부분을 건드려야하는 점도 있습니다.

참고할만한 서적으로는 우선 음성 관련 서적과 패턴 인식 서적을 먼저 보시면 도움이 될 것 같습니다.

국내에서는, 예전에 ICU에서 인식기를 독립적으로 만든적이 있고, ETRI에서도 자체 인식기를 가지고 있습니다.('다음'에서 쓰인다고 하네요). 기타 몇몇 회사에서도 자체 인식기를 가지고 있습니다.

그리고 툴과 관련해서는
akudoku님과는 다른 의견인데요.
미국 CMU에서 스핑크스를, 영국 캠브릿지에서 HTK를 만든 것으로 알고 있습니다.
스핑크스는 현재 오픈소스로 등록된 것으로 알고 있고요.
HTK는 MS에서 라이센스를 구입한 후에 연구용으로 배포한 것으로 알고 있습니다.

-------------------------
최선을 생각합니다.

bus710의 이미지


제가 좀 헷갈렸나 봅니다....ㅋㅋ

life is only one time

rgbi3307의 이미지

친절한 설명 너무 고맙습니다.
대학교 4학년때 졸업논문으로 음성인식에 대해서 작성하다가 중간에 포기 했었는데,
요즘 다시 보면서 후회하고 있습니다. 중간에 포기하지 말고 꾸준히 할걸...
음성인식이라는 주제로 대학원까지 가서 계속 연구하고 싶었는데,
그당시 학비와 학업에 대한 부담이 크더군요. 그래서 취업전선에 뛰어 들어 이렇게 흘러왔는듯 합니다.
요즘 다시 내가 하고싶은 공부를 계속해야 겠다는 생각이 많이 드네요.

일단, 저는 관련기술을 공부할때 책들을 먼저 찾아 보는데요.
아마존에서 Speech Recognition 이라는 키워드로 검색해 보니 아래와 같은 책들이 검색 되더군요.
아래에서 3번은 제가 학창시절 읽어봤던 것인데, 좀 이론적이고 너무많은 수학수식들이 있어서 난해했어요.
그래서 다른 책을 볼까하는데, 4번과 6번이 좋아 보입니다. 이론과 함께 응용 프로그램들도 있는듯 한데요.
혹시 아래 책들에서 정말 괜찮은 것으로 추천할만한 것이 있는지요?
책가격이 15만원 하는것도 있어서 선뜻 사기에 부담도 되고 내용이 어떤지 몰라서
먼저 공부해 보신 분들의 조언구합니다.

1. Statistical Methods for Speech Recognition (Language, Speech, and Communication)
by Frederick Jelinek (Jan 16, 1998)
2. Speech and Language Processing (2nd Edition)
by Daniel Jurafsky and James H. Martin (May 26, 2008)
3. Fundamentals of Speech Recognition
by Lawrence Rabiner and Biing-Hwang Juang (Apr 22, 1993)
4. Theory and Applications of Digital Speech Processing (Alternative eText Formats)
by Lawrence Rabiner and Ronald Schafer (Mar 13, 2010)
5. How to Build a Speech Recognition Application: Second Edition:
A Style Guide for Telephony Dialogues
by Bruce Balentine and David P. Morgan (Dec 31, 2001)
6. Speech Recognition: Theory and C++ Implementation
by Claudio Becchetti and Lucio Prina Ricotti (Jun 9, 1999)
7. Markov Models for Pattern Recognition: From Theory to Applications
by Gernot A. Fink (Nov 10, 2010)
8. Applied Speech and Audio Processing: With Matlab Examples
by Ian McLoughlin (Mar 23, 2009)
9. The Art and Business of Speech Recognition: Creating the Noble Voice
by Blade Kotelly (Feb 1, 2003)
10. Speech Synthesis and Recognition
by J. N. Holmes (Dec 6, 2001)
11. Automatic Speech and Speaker Recognition: Large Margin and Kernel Methods
by Joseph Keshet and Samy Bengio (Mar 24, 2009)
12. Advances in Speech Recognition: Mobile Environments, Call Centers and Clinics
by Amy Neustein (Sep 29, 2010)

From:
*알지비 (메일: rgbi3307(at)nate.com)
*틈틈히 커널연구회(http://www.kernel.bz/) 내용물들을 만들고 있음.
*((공부해서 남을 주려면 남보다 더많이 연구해야함.))

익명 사용자의 이미지


htk로 시작하시면 됩니다..
코드 뿐만아니라, 자세한 설명도 있습니다.

@ 그런데 번역기는 마무리가 된건가요??

rgbi3307의 이미지

제가 최근에 작업한 TransWorks 번역기는 마무리 단계이고, 지금 특허출원 진행중입니다.
4월말이면 완료될듯하고 프로그램도 그때 배포할 예정입니다.
요즘은 음성인식 + 번역기을 응용한 것을 구상중이구요,
좋은 결과물을 내기 위해 고민중입니다.
감사합니다.

From:
*알지비 (메일: rgbi3307(at)nate.com)
*틈틈히 커널연구회(http://www.kernel.bz/) 내용물들을 만들고 있음.
*((공부해서 남을 주려면 남보다 더많이 연구해야함.))

Jane의 이미지

이라는 책도 음성 특징부터 전체적으로 이론을 보시기엔 괜찮습니다.

http://www.amazon.com/Spoken-Language-Processing-Algorithm-Development/dp/0130226165

코드는 스핑크스나 HTK를 받으셔서 보는게 좋을 것 같은데요.
아무래도 HTK가 조금 더 많이 쓰이는 것 같아요. 참고하시고요.

한번 주욱 보시고, 연구하고 싶으신 파트를 정하고 다시 책을 보시는 것이 좋습니다.

-------------------------
최선을 생각합니다.

rgbi3307의 이미지

HTK는 웹검색 해보니까 공식 웹사이트(http://htk.eng.cam.ac.uk/)가 있고
여기에 대부분 공개하고 있는듯 합니다. 많은 도움이 될듯합니다.
그리고 추천해 주신 책도 아마존에서 잠깐 봤는데, 내용 구성이 좋은듯...
Jane님도 음성인식에 대해서 그동안 공부하신듯 한데요.. 앞으로 서로 알고 지냈으면 합니다~
고맙습니다. 즐거운 하루 되시길...

From:
*알지비 (메일: rgbi3307(at)nate.com)
*틈틈히 커널연구회(http://www.kernel.bz/) 내용물들을 만들고 있음.
*((공부해서 남을 주려면 남보다 더많이 연구해야함.))

sblade의 이미지

좀 된 글이지만...

제가 알기론 현재 이쪽의 "the book" 은 Jurafsky & Martin 입니다. (2번)

권순선의 이미지

http://naver_diary.blog.me/150104056908 도 참고해 보시길..

rgbi3307의 이미지

4개월만에 개발하시다니 대단한 분들이네요.
연속음을 85%까지 인식한다면 인식능력도 좋은듯 하구요.
암튼 잘 읽었습니다.

From:
*알지비 (메일: rgbi3307(at)nate.com)
*틈틈히 커널연구회(http://www.kernel.bz/) 내용물들을 만들고 있음.
*((공부해서 남을 주려면 남보다 더많이 연구해야함.))

oneday의 이미지

대학교 다닐때 담당교수님께서 연구하시던 분야가 음성인식을 이용한 서칭(?)이었습니다.

예를 들어 동영상 강좌를 볼때 검색란에 찾고자 하는 문자열을 입력하면
동영상 음성을 분석하여 해당하는 위치로 이동해주는 것이었는데..
지금은 교수님하고도 연락이 안되니 어떻게 되었는지 모르겠네요.

꽤 재미있을 듯 해서 저도 같이 참가해보고 싶었지만..
무언가 범접할 수 없는 오오라를 마구 뿜어대던 분이라서;;
결국 마지막엔 php만 하다 졸업한 듯 하네요.. -_-;