Recognition
음성 인식이란
인간의 정보 전달 매체 중 가장 자연스럽고 효과적인 통신 수단인 음성 신호에 대해 컴퓨터 장치 이용하여 음성의 의미를 추출하고 인지하는 것을 말하며, 로봇, 텔레매틱스 등 주로 음성 기반 기기 제어, 정보 검색이 필요한 경우에 응용된다.
음성 인식 개념도
위 그림은 이곳 에서 참조
음성인식의 최종 목표
화자 독립 기반의 연속 음성 인식 기술의 완성
음성 인식 방식
화자 종속 방식(Speaker Dependent System)
특정 화자 방식으로 구현되므로, 기계가 특정한 화자만을 인식하는 방식, 그 외 화자에 대해서는 인식을 못하거나 인식률이 저조한 방식
- 한 명의 음성만을 인식할 수 있는 방식
- 구현이 용이하며 가격도 저렴하게 구현 가능
- 인식률이 높으나 화자 독립방식이나 Adaptive System에 비해 유연성은 없다.
화자 독립 방식(Speaker Independent System)
화자에 관계없이 음성인식이 되도록 하는 방식
- 어느 누구의 음성을 인식할 수 있는 방식
- 구현이 어렵고 가격도 비싸다.
- 인식률도 저조하나 유연성은 높다.
하이브리드 방식(Adaptive System)
- 일반적 음성모델을 기초로 구현되며 화자종속 방식과 독립방식의 중간이라 할 수 있다.
고립 모드(Isolated-word system)
- 시스템은 각 단어 사이에 쉼(Pause)을 요구하며 음성인식을 하는 가장 단순한 형식
- 각 단어의 발음이 서로 다른 단어에 영향을 미치지 않음
- 각각 단어의 특이성(특이성이란 단어들간의 발음 정도가 다른 단어들과 다르면 크다고 할 수 있음)은 인식을 보다 쉽게 함
연결 단어 모드(connected word)
고립 단어 인식 방식과 인식 가능한 단어의 범위는 같으나 근본적인 차이점은 단어를 발음할 때 시간적인 간격을 두지 않고 연결한 후 발음해도 인식할 수 있는 방식
연속 모드(Continuous word system)
- 연속된 단어를 함께 동작하며 단어와 단어 사이에 쉼(Pause)이 존재하지 않음
- 고립모드보다는 상대적으로 아래와 같은 이유로 음성 인식하기가 어려움
- 단어의 시작과 끝을 찾기가 어려움
- 각각의 음소의 발생은 주변음소의 영향을 받음
- 단어의 시작과 끝이 연속되는 단어의 유사성으로 인하여 단어의 인식을 어려움
- 화자의 음성속도에 영향을 많이 받음
음성 인식 알고리즘
Rule-Based 방식
- 음향 음성학적 지식에 의해 Segmentation과 Labelling을 함으로써 음소를 식별하여 음성을 인식하는 방법
- Phonetic Classification
- Spectrogram Reading
- 음성의 스팩트로그램을 직접 해독함으로써 각 음소를 세그먼테이션 및 라벨링 하여 음소를 인식하는 방법
- Expert Spectrogram Reader(1986,MIT), SPEX(Speech Spectrogram Expert,1983,미 Verbex Co.), SPREX(Speech Recognition Expert, 일 오사카대학)
Template Matching 방식
- 일종의 pattern matching 방식
- 고전적인 방법으로 음성의 일정 구간을 분리(Segmentaion)하고 분리된 구간에 대하여 라벨링(Labelling)하는 방식
- 처음에는 대개 Segmentation용으로 ZCR (Zero - Crossing Rate) 에너지등을 이용하고 라벨링(Labelling) 과정에서는 LPC계수를 사용하여 미리 준비된 기준 세그먼트와 비교하는 식으로 인식
- 단점 : Segmentation & Labelling과정에서 한 번 오류가 생기면 후속처리 과정에 전파되어 작용한다는 점
Vector Quantization 방식
- 음성코딩용으로 개발된 VQ기술을 이용하여 음성을 식별하는 방식.
- 정적인 스펙트럼을 가진 것으로 보아 미리 저장해 둔 특징 벡터 중에서 입력음성의 특징벡터와 가장 가까운 하나의 벡터를 선정하는 방법
Dynamic Time Warping (DTW) 방식 (유사 알고리즘 : Dynamic Programming)
- 음성의 지속시간의 차이로 인한 영향을 제거하기 위하여 입력음성과 기준음성의 양끝을 서로 맞추고 선형적으로 늘리거나 줄여 pattern을 비교함으로써 최적 기준음성을 찾아내는 linear time alignment 방식의 성능을 개선하기 위해 음성의 각 부분을 늘이거나 줄여 비교하는 dynamic time alignment 방식
- Warping 함수를 찾는 과정에서 많은 계산이 필요
- DTW 알고리즘은 고립단어 인식에 주로 이용되며 어휘가 작고 인식시간이 많이 소요되는 단점이 있지만 인식률이 높아서 VLSI Chip으로 구현되어 상용화됨
Hidden Markov Model 방식
- 음성이 Markov 모델로 모델링될 수 있다는 가정 하에 학습(모델 생성) 과정에서는 Markov 모델의 확률적인 파라미터를 구하여 기준 Markov 모델을 만들고 인식 과정에서는 입력음성과 가장 유사한 기준 Markov 모델을 추정해냄으로써 음성을 인식 모델로써 Hidden Markov model을 사용
- 음성 패턴의 다양한 변화를 수용할 수 있는 것이 장점이며 대부분 현재 음성 인식에 사용되는 알고리즘임
- 대용량 음성 인식 시스템에는 Dynamic HMM 방식 (정적 스펙트럼의 특징 파라미터와 동적 스펙트럼의 특징 파라미터를 함께 모델링 한?)을 사용함
음성 인식 (ASR) 적용 예
무인 전화번호 안내, 음성 명령 주문형 비디오, 각종 음성 안내 시스템, 가전 제품을 비롯해 자동차 항법 장치, 홈 오토메이션, 음성 다이얼링 등
Recent Comments