Gurugail Application/Speaker Recognition
Application

Speaker Recognition

화자 인식이란 음성 인식 중 하나의 분류 기술로, 음성으로 사용자를 인식하는 기술이다. 누구냐를 인식하는 기술과 발음된 음성이 무엇이냐를 인식하는 기술은 다른 기술이다. 전자는 사용자의 음성 발음 특성을 일반화시켜 모델링하는 것이며, 후자는 단어간 발음 특성을 일반화시켜 모델링하는 것이다.

화자 인식은 40여년의 역사를 가지고 있으며 사용자별 음성 발현에서 구별되는 특징들을 찾아 구별하는 방식이다. 화자를 구별하기 위한 음성 패턴들은 개개인의 목구멍 크기나 입 크기 등 여러 가지 해부학적 차이에 의해 발생하게 된다

화자 검증(verification)과 식별(identification)

화자 인식은 크게 식별과 검증으로 나뉠 수 있는데, 이와 같은 분류는 음성 인식 기술에서도 같은 세부 구분으로 나뉠 수 있다. 식별은 누구인지를 가려내는 것이다. 음성에 대해여, 등록된 화자들 중 한 명의 것이라고 구분하는 기술인 것이다. 검증은 주어진 음성이 특정 화자의 것인지를 검증 및 확인하는 것이다. 가령 비밀 번호를 생각하면 된다. 본인의 음색으로 비밀 번호를 걸어 놓으면 다른 사람의 음성으로는 비밀번호가 풀리면 안된다. 즉 검증이 되면 안 되는 것이다.

화자 인식의 등록

화자 인식 프로그램을 설치하여 실행해보면 먼저 화자를 등록해야 한다. 화자를 등록하는 과정에서는 여러 가지 단어들을 발음하라고 한다. 그러면 프로그램이 내부적으로 그 화자의 음성 특징이 될 수 있는 여러 가지 특징들을 뽑아내어 저장하는 것이다. 이후 등록이 되면 식별이 가능한 것이다.

문장 독립형 vs 문장 종속형

화자 인식을 등록하는 과정에서 특정 문장이 주어지는 식으로 음성이 등록되는 방식이 있다. 이에 다라 문장 독립형 (text-independent) 혹은 문장 종속형(text-dependent)라고 한다. 문장 종속형으로 화자 인식이 등록되는 경우는 식별이나 검증이 필요할 때도 주어진 문장을 발음해야 한다. 사용자 측면에서 그 단어나 문장을 발음해야 하는 불편함이 있지만 좀 더 정확할 수 있겠다.

기술

음성 인식 그리고 화자 인식을 인식하기 위해서는 Hidden Markov Model, 신경망 등 여러 가지 기술들이 사용된다.

참고