인공지능 콜센터는 가상 상담원이 고객 응대를 할 수 있게 대화형 인터페이스를 구현하거나, AI가 상담원을 보조하여 고객 응대를 효율적으로 할 수 있도록 도와주는 콜센터입니다. 인공지능 콜센터를 구축하기 위해서는 음성인식을 중심으로 다양한 기술이 필요합니다.

콜센터는 음성인식 기술을 어떻게 활용하고 있나요?

인공지능 콜센터가 등장하기 이전에는 매니저가 녹취된 데이터 일부를 듣고 상담 내용을 검수하는 방식이 주로 이루어졌습니다. 한국어 음성인식 기술이 발전하면서 사람이 직접 들어서 확인해야 했던 녹취 데이터를 분석이 가능한 텍스트 데이터로의 변환이 가능해졌고, 많은 기업이 기술 도입을 시작했습니다.

현재 콜센터에서 구체적으로 사용하는 인공지능 기술은 음성인식(STT)과 자연어 이해(NLU)입니다.

  • 음성인식(STT) : 음성을 텍스트로 변환하여 고객의 목소리를 확인합니다.
  • 자연어 이해(NLU) : 변환된 텍스트 데이터를 키워드/문장으로 추출하고, 상담 유형을 분류하고, 의도 감지, 답변 추천 등을 통해 상담원을 보조할 수 있도록 도와줍니다.
  • 음성합성(TTS) : 텍스트를 음성으로 변환하여 AI가 답변과 응대를 할 수 있습니다.

하지만 아직 인공지능 콜센터가 상담원의 모든 업무를 대체하기는 어려워, 상담원의 업무량 감소 및 능력 향상을 위한 보조 형태가 주를 이루고 있습니다.

콜센터의 음성 인식률은 어떤가요?

현재 콜센터 시장에서 General Model의 음성인식기의 인식률은 약 80~85% 정도 나올 수 있습니다. 이는 전이학습(Transfer Learning)*을 진행하기 이전이며 최적화를 진행하면 분야에 따라 큰 차이가 있을 수 있지만 87~90%까지 나올 수 있습니다.

하지만 이는 고객과 상담원을 분리하지 않고 전체 평균을 낸 수치입니다. 두 영역을 분리해서 인식률 평가를 할 경우 상담원은 정확한 발음으로 스크립트를 보고 읽는 낭독 형태가 많기 때문에 최대 94%까지도 가능합니다. 반면, 고객 쪽 음성 인식률은 주변 환경의 소음(지하철, 길거리 등), 사투리, 노인의 발화, 매우 급한 상황과 격해진 감정으로 뭉개지는 발음 등 인식률에 영향을 끼치는 다양한 요인 때문에 평균 80%를 달성하기가 어렵습니다.
 

어떻게 콜센터 음성 인식률을 높일 수 있을까요?

콜센터의 음성 인식률을 알아보기 이전에 콜센터 음성인식 데이터에 대해 먼저 이해가 필요합니다.

음성인식기는 스마트폰, PC 대상의 16kHz 샘플링 주파수에 맞춰진 16kHz 음향 모델과 일반 전화회선 대상의 8kHz 샘플링 주파수에 맞춰진 8kHz 음향 모델 버전 두 가지로 나뉩니다. 콜센터는 8kHz를 사용합니다.

8kHz는 전화선 코덱(G.711, G.729 등)을 거쳐서 음질이 16kHz보다 떨어지기 때문에 인식률도 일반적으로 16kHz 모델보다 떨어집니다. 그렇기 때문에 콜센터의 음성 인식률을 높이기 위해서는 다양한 종류의 8kHz 데이터를 많이 확보하는 것이 중요합니다. 특히, 지역별 사투리, 고령자 발화, 고조된 감정 및 급박한 상황에 따른 부정확한 발음에 대한 데이터를 많이 수집하는 것이 인식률을 높이는 데에 도움이 됩니다.

데이터를 통한 학습 방법 외에도 인식률을 높이기 위해서 사용할 수 있는 방법은 언어 모델(Language Model) 최적화를 위해 최대한 많은 대화 내용의 텍스트 데이터를 수집하는 것입니다.

인공지능 콜센터에 대한 전망은 어떤가요?

콜센터 고객 쪽 음성 인식률에 대한 부분은 아직 한국어 음성인식 시장에서는 해결하지 못한 문제이며, 문제가 인지된 상태에서 많은 기업이 성능을 높이기 위한 개발을 진행하고 있습니다. 올해 아틀라스랩스에서는 콜센터 고객 쪽 오디오 데이터 음성 인식률 90% 달성을 목표로 개발을 진행 중입니다.

특히, 금융이나 기타 산업에서 민감한 개인정보 데이터에 대한 비식별조치 및 보안 준수가 잘 이루어진다면 이에 대한 신뢰가 시장에 형성되어 다양한 8kHz 전화선 데이터를 활용할 기회가 많아질 것으로 보입니다.

사용할 수 있는 8kHz 전화선 데이터가 많아지면 고객 쪽 음성 인식률도 95% 수준까지 오를 수 있습니다. 데이터를 통해 인식률이 높아진 음성인식 기술은 더 정확한 텍스트 결과를 만들고, NLU 솔루션 회사는 더 좋은 분석 결과를 만들 수 있습니다.

그 결과, 상담원은 적은 인원으로 훨씬 많은 고객을 응대할 수 있고, 기업은 고객의 목소리를 업무에 반영할 수 있습니다. 고객을 통해 얻은 인사이트는 고객 만족도를 높이는 선순환 구조가 형성될 것입니다.

음성인식 뉴스를 Atlas ASR Letter ‘A letter’를 통해 받아보세요.
A Letter로 블로그의 최신 글을 보내드립니다.

Bitnami