동영상에서 음성 인식 관련

글쓴이: kevin0960 / 작성시간: 일, 2011/05/01 - 9:13오후

동영상에서 사람이 목소리를 감지하는 기술에 대해 알고 싶습니다.

무슨말을 하는지 인식할 필요는 없어도 사람이 말을 한다 정도만 감지해내도 충분한데요...

이를 위해서 어떠한 것을 알아야 하는지 궁금합니다 :)

Forums:

프로그래밍 QnA

댓글 달기

FFT 처리 후 인간 음성인 400-4000 Hz

글쓴이: 익명 사용자 / 작성시간: 월, 2011/05/02 - 12:27오전

FFT 처리 후 인간 음성인 400-4000 Hz 대역 성분이 얼마나 나오는지 검사합니다.

답글

voice activity

글쓴이: 익명 사용자 / 작성시간: 월, 2011/05/02 - 2:46오후

voice activity detection

http://en.wikipedia.org/wiki/Voice_activity_detection

답글

현재 기술로도 정확하게 음성이다, 아니다를 판단하지는

글쓴이: Jane / 작성시간: 월, 2011/05/02 - 3:59오후

현재 기술로도 정확하게 음성이다, 아니다를 판단하지는 못합니다. (물론 사용할만큼은 될겁니다만 :) ) 클린 상태에서라면 모를까, 잡음이나 배경음이 있는 상태에서 판단하는 것은 쉽지 않습니다. 음성의 피치, 하모닉 성분이 음악의 경우에도 비슷한 패턴으로 나타나는 경우들이 있기 때문에 음성을 판단하는데 다양한 특징벡터를 사용해서 판단합니다. 크기성분 이외에도 pattern recognition이나 machine learning 기술을 많이 사용합니다. 판단 기준에 특징벡터를 어떤 것을 사용하느냐에 따라서도 성능이 많이 왔다갔다 하고, 잡음 환경의 종류에 따라서도 많이 차이납니다. 가끔...인식율을 올리기 위해 동영상에서 입술 인식해서 그에 따라 결정하는 경우의 연구도 있습니다 :)

-------------------------
최선을 생각합니다.

답글

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

동영상에서 음성 인식 관련

FFT 처리 후 인간 음성인 400-4000 Hz

voice activity

현재 기술로도 정확하게 음성이다, 아니다를 판단하지는

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

동영상에서 음성 인식 관련

FFT 처리 후 인간 음성인 400-4000 Hz

voice activity

현재 기술로도 정확하게 음성이다, 아니다를 판단하지는

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :