음성인식 기술을 어떻게 도입할 수 있나요?

다양한 음성인식 기술 도입 방법이 있지만 이번 뉴스레터에서는 많은 분들께서 자주 물어보시는 1. ETRI(한국전자통신연구원)기술 도입, 2. 구글과 같은 대기업 API 사용, 3. 아틀라스랩스의 음성인식 기술 도입에 집중하여 설명드리겠습니다.

1. ETRI(한국전자통신연구원) 기술 도입

많은 기업이 ETRI에서 개발한 음성인식기술을 기술이전(Tech transfer) 방식으로 도입하여 사용하고 있습니다. 자체적으로 음성인식을 개발하는 것보다 낮은 비용과 짧은 도입 기간(교육)으로 음성인식 기술을 비즈니스에 적용해 볼 수 있습니다. 하지만 원천 소스 코드(Source code)가 아닌 바이너리(Binary)*를 받기 때문에 일반적인 범위는 커버할 수 있지만, 도메인을 최적화*하는 것은 어렵습니다. 장기적으로 다양한 애플리케이션에 직접 대응하기 위해서는 자체적 개발 프로세스를 가지는 것이 유리합니다. 계약 기간은 5년으로 한정되어 있으며, 사용 시 매출 정률 사용료(매출 수수료)를 지불합니다.

2. 대기업의 API 사용

두 번째로 구글, IBM, 네이버, 카카오 등의 대기업에서 제공하는 API를 이용하는 것입니다. 가장 빠르고 쉽게 음성인식을 비즈니스에 적용해 볼 수 있다는 점, 그리고 클라우드 방식이기 때문에 초기 도입 비용이 상대적으로 저렴하다는 점이 장점입니다. 하지만 구글, 네이버, 카카오 음성인식 엔진들은 인공지능 스피커 및 아주 일반적인 대화를 목표로 넓은 영역을 커버하도록 만들어져 있기 때문에 특정 영역(도메인)에 대해 최적화하는 것이 어렵습니다. 비용도 15초당 0.006달러(구글 기준)로 책정되어 있어 다수를 대상으로 하는 서비스에 도입할 경우 비용 부담이 클 수 있습니다.

3. Zeroth Enterprise 도입

마지막으로 아틀라스랩스의 자체개발 기술인 Zeroth Enterprise를 소개해 드릴게요. Zeroth Enterprise는 Kaldi 기반*으로 개발되었으며 open-source(링크)로도 찾아볼 수 있습니다. 자체개발 기술 중에서는 가장 빠르게 상용화된 솔루션입니다. 위 두 기술 도입과 크게 다른 점은 도메인 최적화가 가능합니다. 특정 분야에 맞게 언어 및 음향 모델을 학습시킬 수 있고 그에 따라 인식률도 높일 수 있습니다. 실시간으로 음성인식이 가능하며, 구문 힌트 기능을 통해 몇 분 이내에 새로운 어휘를 언어 모델에 학습시킬 수 있습니다. 라이센스 방식으로 기술 도입이 가능하고, 채널당 비용이 측정됩니다.

음성인식 뉴스를 Atlas ASR Letter ‘A letter’를 통해 받아보세요.
A Letter로 블로그의 최신 글을 보내드립니다.