음성인식과 인공지능에 대해 많은 분이 궁금해 하시는 질문 위주로 내용을 정리해보았습니다.

음성인식이 무엇인가요?

음성인식하면 카카오톡에서 마이크 버튼을 눌러 말을 하면 음성이 자동으로 텍스트로 변환되어 나타나거나, 빅스비, 클로바 등 AI 스피커를 이용하는 모습이 떠오르시나요? 네. 그게 바로 음성인식입니다. 더 자세히 알아보면 음성인식(ASR: Automatic Speech Recognition)은 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 것이죠. STT(Speech-to-text)라고도 합니다.

음성인식은 입력된 음성이 어떤 단어들로 이루어져 있을 확률이 높은가를 찾는 기술입니다. 사용하는 도메인에 맞게 학습이 잘된 모델일수록 더 정확도가 높겠죠? 여기서 인식률*이 음성인식 기술을 도입할 때 고려하는 중요한 이유이기도 합니다. 사용하는 도메인에 맞게 모델을 빠르게 학습시켜 인식률을 높일 수 있는가가 기술 성능을 나타냅니다.

음성인식 기술 도입 시 도메인 최적화 왜 필요한 건가요?

음성인식 AI는 학습하지 않은 단어에 대해서는 어떤 단어인지 구분하지 못합니다. 우리가 쉽게 알고 있는 문재인 대통령님의 이름도 학습시키지 않으면 발음이 비슷한 ‘문제(Question)’라고 나타냅니다. 그러면 이커머스와 같이 다양하고 특이한 상품명이 등장하거나, 의학, 법률 용어가 나오는 특수 분야에서는 도메인 최적화 없이는 인식률이 많이 떨어져 말하는 내용을 AI가 알아듣지 못합니다. 즉, 소비자가 기술을 사용하기 어렵게 되는 거죠.

인식률은 어떻게 계산하나요?

인식률은 글자 또는 단어 단위의 삭제(Deletion), 삽입(Insertion), 대체(Substitution) 개수를 계산해서 인식률을 산출합니다.

오류를 판정하는 기준은 언어마다 다른데요. 영어의 경우 단어 단위로 띄어쓰기가 되기 때문에 단어의 기준이 비교적 명확합니다. 한국어의 경우 조사를 사용하기 때문에 ‘단어 오류율'(WER: Word Error Rate)이 아닌 ‘글자 오류율'(CER: Character Error Rate)로 인식률을 측정합니다.

CER(%) = 100* [1 - (탈자 개수 + 오자 개수 + 첨자 개수)/원본 글자 수]
100% - CER = 인식률

전이 학습(Transfer Learning)이 무엇인가요?

전이 학습은 기존에 만들어진 AI 알고리즘을 사용하여 다른 비슷한 분야에 적용하는 학습 방법입니다. 예를 들어, 성악을 배운 AI에게 가요를 부르게 하는 것입니다.
머신러닝에서 학습 데이터의 양과 질은 성능에 많은 영향을 줍니다. 하지만 어떤 분야는 머신러닝 모델을 구축하기에 충분한 데이터가 없을 수 있습니다. 전이 학습을 사용할 경우 데이터가 부족한 상황에서 비슷한 분야의 데이터를 사용함으로써 모델을 구축할 수 있습니다. 성악 하는 방법에 대한 데이터를 먼저 학습하게 함으로써 가요를 부를 수 있게 만드는 것이죠.

머신러닝에도 종류가 있나요?

크게 3가지 머신러닝 방법이 있습니다. 

지도학습 : 컴퓨터에게 문제(Feature)와 정답(Label)이 있는 데이터를 학습시키는 방법으로 번역, 이미지 분류, 음성인식 등에서 쓰이고 있습니다.

비지도학습 : 어떠한 개입이 없이 컴퓨터가 알아서 결과를 도출하는 방법입니다. 데이터 분석에서 주로 사용하며 지도학습을 사용하기 힘든 부분에 컴퓨터의 힘을 빌려 학습하는 방법입니다.

강화학습 : 알파고의 학습 방법으로 컴퓨터가 ‘보상’을 받는 행위를 위해서 스스로 문제점을 찾고 해결하면서 성장하는 학습 방법입니다.

음성인식기가 어떻게 소음을 구별하나요?

우리가 음성인식을 쓰는 환경을 생각해보면 실제로 아주 조용한 곳에서만 사용하지는 않습니다. 길을 걸으며 스마트폰에 말을 하거나, 지하철 안에서 이어폰으로 말하는 등 다양한 소음이 있는 환경에서 음성인식을 사용합니다.

그럼 음성인식기가 어떻게 소음을 구별할까요? 소음이 있는 환경에서도 좋은 성능을 내는 음성인식기를 만들려면 음성인식기에 필수적으로 소음(노이즈)도 학습시켜야 합니다. 노이즈 데이터는 크게 두 종류로, 하나는 발화하는 데이터 배경의 노이즈, 다른 하나는 발화 없이 순수하게 노이즈만 있는 데이터입니다. 다양한 형태의 노이즈를 수집해서 기본 음향모델을 만들 때 함께 학습을 진행하면 음성인식기는 소음을 구분할 수 있습니다.

음성인식 뉴스를 Atlas ASR Letter ‘A letter’를 통해 받아보세요.
A Letter로 블로그의 최신 글을 보내드립니다.

Bitnami