AI Tech

Zeroth Enterprise Edition (Zeroth EE) 음성 인식 솔루션

Zeroth Enterprise Edition (Zeroth EE) 소개

Zeroth EE는 칼디(Kaldi)를 기반으로 개발되었습니다. 칼디는 음성 인식기에 최적화된 프레임워크로 최근 음성인식 기술은 대부분 칼디를 활용하고 있습니다.

Zeroth EE는 음성 인식(ASR)과 자연어 처리(NLU) 기능을 지원합니다.

Zeroth Enterprise Edition

1. Zeroth EE의 음성인식(ASR)

Zeroth EE 상세 설명
STT (Speech to Text) 나이, 성별, 다양한 발음에 관계없이 발화한 음성을 텍스트로 변환
음성 스트리밍 인식 (Speech Stream Recognizing) 실시간으로 스트리밍되는 오디오를 인식 및 처리 가능
발화 검증 (Speech Verification) 지정된 문장에 대해서 정확하게 발음 했는지 확인 가능
한국어 띄어쓰기 (Korean Spacing) 음성에서 텍스트로 변환된 후에 후처리를 통해 띄어쓰기, 시인성 향상
구문 힌트 (Phrase Hints) 오디오 데이터에서 과도하게 표현되는 경향이 있는 특정 단어와 구문의 정확도를 향상, 빠르고 동적인 언어모델 업데이트 가능
적응 학습 (Transfer Learning) 100~200시간 정도의 적은 데이터를 이용한 음향모델의 도메인 최적화
전체 학습 (Oracle Learning) 아틀라스랩스가 보유한 General Model에 도메인 학습 데이터를 추가하여 하나의 새로운 음향/언어 모델(도메인 최적화된) 생성
멀티 채널 지원 (Multi-channel Support) Master + Worker 구조를 이용한 ScaleOut 가능한 다채널 동시처리 시스템
신뢰도 값(Confidence Value) 단어 단위로 신뢰도 값을 부여해 상위 n개의 결과값을 제공, 원하는 값을 선택해서 사용할 수 있음
타임스탬프 (Timestamps) 오디오에서 인식되는 각 발화의 시작 부분과 끝부분의 시차 값을 제공함
특히 긴 오디오 파일을 분석하는 경우 특정 단어를 검색하고 원본 오디오에서 찾아야 하는 경우에 유용함
끝점 검출(Endpoint Detection) 오디오에서 사람의 목소리가 끝나는 지점을 감지해서 적절한 단위로 처리 가능하도록 함, 실시간 음성 인식기에 필수적인 기술
음소 단위 인식 (Phoneme Level Recognition) 가장 작은 언어 단위를 인식하여 인식률을 높임
다양한 설치 방법 지원 클라우드, On-premise 또는 Edge deploy 가능

2. Zeroth EE의 자연어 처리(NLU)

Zeroth EE상세 설명
개체명 추출 (Named Entity Extraction) 및 슬롯 채우기 (Slot-filling) 문장에서 개체명을 추출하여 상황에 필요한 데이터를 뽑아 채우는 기능
의도 감지(Intent Detection) 문장에서 사용자가 원하는 것, 즉 의도를 감지해내는 기술
유형 분류(Document Classification) 대화의 유형을 분석해서 정해진 기준에 따라 분류 가능
검색 기반 추천 답변 시스템 (Retrieval-based Recommender System) 기록 데이터베이스에서 가장 유사성이 높은 대화를 찾고 그에 대한 과거 응답을 반환하는 상담원 보조용 시스템
다양한 설치 방법 지원 클라우드, On-premise 또는 Edge Deploy 가능

Zeroth EE 강점

Zeroth EE는 적용되는 비즈니스 분야에 최적화가 가능하기 때문에 음성 인식률을 높일 수 있습니다. CPU만으로 디코딩이 가능하므로 GPU에 대한 비용 절감을 할 수 있습니다. 또한, Kaldi 기반 기술이기 때문에 최신 기술 업데이트가 가능하여 내부 자체기술로 도입하여 시스템을 개발하기에 용이합니다.

Zeroth EE 강점

Zeroth EE 도입 방법

아틀라스랩스에서는 현재 두 가지 형태의 솔루션을 실시간 음성 인식 서비스를 위하여 제공하고 있으며, 간단하게 비교를 하면 아래와 같습니다.

솔루션형태시스템 확장음성 인식 모델과금 형태
Zeroth EEOn-premise서비스 목적에 맞춤 가능특정 영역에 최적화된 모델라이센스
Zeroth CloudCloud아틀라스랩스 기본 모델음성 길이

1. Zeroth Enterprise Edition (on-premise)

실시간 음성 인식 서비스를 제공하기 위해서는 음성 인식 엔진의 성능 이외에도 고려해야 할 사항이 많습니다. 지속적인 서비스를 위한 시스템의 안정성이 확보되어야 하고, 상황에 따라 시스템의 확장과 축소가 간단해야 합니다. 그리고 동시다발적으로 음성을 실시간으로 인식할 수 있어야 합니다.

아틀라스랩스에서는 자사의 음성 인식 엔진을 기반으로 동시에 여러 채널의 음성을 실시간으로 인식하는 서비스 시스템을 구축할 수 있는 솔루션인 제로스 엔터프라이즈를 제공하고 있습니다.

Zeroth EE는 인증 절차를 통해 음성 인식 요청을 관리함으로써 트래픽을 적절한 수준에서 유지하며, 시스템 내부에서 세션(session) 기반으로 데이터를 처리하여 프로세스 도중 그리고 처리 결과를 전달하는 과정에서의 데이터 손실을 방지하고 있습니다.

Zeroth EE Model

또한 서비스를 제공하는 관점에서 제공하고자 하는 음성 인식 모델이나 목표하는 동시 처리량에 따라 시스템을 손쉽게 대응할 수 있는 구조를 가지고 있습니다. 시스템의 변경이 간단하기 때문에 서비스하는 도중에 서비스 이중화 작업과 같이 시스템의 구조 변경이 필요한 과정도 빠르게 진행할 수 있습니다.

Zeroth EE Model

이런 시스템의 구조 변경과 음성 인식 서비스에서 사용하고자 하는 모델의 선택을 GUI 환경에서 편하게 할 수 있습니다.

Zeroth EE Machine Page
Zeroth EE Worker Page
Zeroth EE Decoder Configuration Setting Page

2. Zeroth Cloud

자체 음성 인식 서비스의 구축 또는 특정 영역에 최적화된 모델이 필요하지 않은 경우 적은 비용으로 음성 인식 서비스를 이용할 수 있는 것으로 제공하는 API로 제작 중인 웹페이지, 모바일 앱, 어플리케이션 등에 음성 인식 기술을 적용할 수 있습니다.

웹사이트 : https://zeroth-cloud.goodatlas.com/

Zeroth Cloud Web Page

3. 제공 버전

환경음성 인식 엔진솔루션클라우드
UbuntuOOO
Windows 10 (x64)OX
Android 16 API OX

4. 요구사항

환경최소 요구 사양Thread당 최대 채널 수처리속도 (RTF)
UbuntuIntel/AMD 3.0GHz21.03
Windows 10 (x64)Intel/AMD 3.0GHz11.03
Android 16 API ARM64-v8a해당 없음해당 없음

1) Ubuntu

아틀라스랩스에서는 C++ 기반으로 알고리즘을 구현하기 때문에 개발 환경 구축과 디버깅을 효율적으로 할 수 있는 ubuntu 환경에서 개발을 하고 있습니다. 이에 따라 아틀라스랩스의 음성 인식 엔진은 ubuntu에서 동작하고 최신 기술이 우선적으로 반영되며, 효율적인 관리 및 사용자 편의성을 위하여 음성 인식 엔진을 docker container로 제공하고 있습니다.

2) Windows 10 (x64)

Ubuntu 음성 인식 엔진을 MSVC x64 native 컴파일러로 빌드한 것으로 자체 어플리케이션에 음성 인식 엔진을 적용할 수 있도록 동적 라이브러리(DLL)로 제공하고 있습니다. 음성 인식 성능의 빠른 확인과 라이브러리의 함수 호출과 관련된 예제를 보여주기 위한 데모 코드를 DLL과 함께 SDK 형태로 제공합니다.

Zeroth Decoder SDK

3) Android

Ubuntu 음성 인식 엔진을 NDK 기반의 동적 라이브러리(so)로 빌드한 것으로 JNI를 이용하여 자체 안드로이드 앱에 음성 인식 엔진을 적용할 수 있습니다. 동적 라이브러리(so)는 안드로이드 샘플 앱(testzerothsdk)과 함께 SDK 형태로 제공됩니다.

6. 클라이언트

1) 파이썬(Python)

커맨드 라인 파일 디코딩 및 실시간 마이크로폰 스트리밍의 실시간 디코딩을 지원하며, 음성인식 처리용량(call/thread)를 계산할 수 있는 스트레스 테스트 스크립트 또한 포함되어 있습니다.

2) 웹 브라우저

간단한 웹기반 STT 결과를 보여줄 수 있는 클라이언트로, 마이크로폰 스트리밍의 실시간 디코딩을 지원합니다.

Zeroth EE Web browser

3) iOS/Android App Client

앱스토어 및 플레이스토어에 공개되어 있는 형태는 아니지만 고객사에서 요청시 테스트용 APK 및 iOS 앱을 제공합니다.

Zeroth EE 도입에 관한 문의 혹은 테스트 데모 요청은support@atlaslabs.ai로 연락주세요.