현재 기술로도 정확하게 음성이다, 아니다를 판단하지는 못합니다. (물론 사용할만큼은 될겁니다만 :) ) 클린 상태에서라면 모를까, 잡음이나 배경음이 있는 상태에서 판단하는 것은 쉽지 않습니다. 음성의 피치, 하모닉 성분이 음악의 경우에도 비슷한 패턴으로 나타나는 경우들이 있기 때문에 음성을 판단하는데 다양한 특징벡터를 사용해서 판단합니다. 크기성분 이외에도 pattern recognition이나 machine learning 기술을 많이 사용합니다. 판단 기준에 특징벡터를 어떤 것을 사용하느냐에 따라서도 성능이 많이 왔다갔다 하고, 잡음 환경의 종류에 따라서도 많이 차이납니다. 가끔...인식율을 올리기 위해 동영상에서 입술 인식해서 그에 따라 결정하는 경우의 연구도 있습니다 :)
FFT 처리 후 인간 음성인 400-4000 Hz
FFT 처리 후 인간 음성인 400-4000 Hz 대역 성분이 얼마나 나오는지 검사합니다.
voice activity
voice activity detection
http://en.wikipedia.org/wiki/Voice_activity_detection
현재 기술로도 정확하게 음성이다, 아니다를 판단하지는
현재 기술로도 정확하게 음성이다, 아니다를 판단하지는 못합니다. (물론 사용할만큼은 될겁니다만 :) ) 클린 상태에서라면 모를까, 잡음이나 배경음이 있는 상태에서 판단하는 것은 쉽지 않습니다. 음성의 피치, 하모닉 성분이 음악의 경우에도 비슷한 패턴으로 나타나는 경우들이 있기 때문에 음성을 판단하는데 다양한 특징벡터를 사용해서 판단합니다. 크기성분 이외에도 pattern recognition이나 machine learning 기술을 많이 사용합니다. 판단 기준에 특징벡터를 어떤 것을 사용하느냐에 따라서도 성능이 많이 왔다갔다 하고, 잡음 환경의 종류에 따라서도 많이 차이납니다. 가끔...인식율을 올리기 위해 동영상에서 입술 인식해서 그에 따라 결정하는 경우의 연구도 있습니다 :)
-------------------------
최선을 생각합니다.
댓글 달기