음성인식 기능의 역사는 꽤 길지만, 최근 인공지능을 통해서 비약적인 성장을 했습니다. 덕분에 음성인식 기능은 다양한 산업 분야에서 사용되기 시작했습니다.
사람이 말을 하면 그 내용을 텍스트로 전환하고, 문법과 구조, 구문을 해석해서 답을 하거나 작업하는 프로세스를 음성인식이라 합니다. 언어와 음향 모델링을 활용한 알고리즘으로 작동하며, HMM으로 특정 패턴을 식별하면서 정확도를 높이기도 합니다. 그렇다면 구체적인 장점은 뭘까요? 지금까지 꾸준하게 발전한 음성인식 기술의 한계와 극복 방법은 없을까요? 이번 시간에 자세하게 알아보도록 하겠습니다.
음성인식 기술의 장점
음성인식 소프트웨어는 사람보다 빠르게 작동할 수 있습니다. 또한 인건비보다 저렴하게 기술을 이용할 수 있습니다. 게다가 프로세스를 자동화하는 것이 가능하기 때문에 24시간 활용하는 것도 가능합니다. 아직까지 정확도가 완벽한 수준은 아니지만, 앞으로 사람보다 더 빠르면서 정확하게 음성을 인식할 수 있도록 프로세스 속도를 높이고, 구조 설계를 할 예정입니다.
다양한 산업 분야에서 음성인식 기술을 활용할 수 있으며, 특히 의료 환경에서 환자의 진단을 위한 목적으로 사용하거나, 개인 비서 역할을 부여하거나, 콜 센터의 효율성을 높이고 싶을 때 요긴하게 쓸 수 있습니다.
특히 AI 기술 발전으로 대화형 음성인식 시스템이 보편화된다면, 금융이나 마케팅 등의 통화가 필요한 모든 비즈니스에서 대화형 AI를 채택하고, 셀프서비스를 활성화하는 것이 가능합니다. 덕분에 서비스 이용 고객은 사람과 직접 대화하지 않고, 더 빠르게 새로운 비즈니스를 선택하거나, 필요한 정보를 확인할 수 있습니다.
인공지능 음성인식의 또 다른 장점은 보안 강화에 도움을 준다는 것입니다. 지금은 온라인 뱅킹이나 각종 서비스 계정의 보안을 강화하기 위해서 2차 인증 절차를 적용하는 경우가 많지만 음성인식 기능이 충분히 발전한다면, 2차 인증 절차보다 더 안전하지만 더 편하게 로그인을 할 수 있습니다.
인공지능 음성인식 기술이 해결해야 하는 문제
인공지능 음성인식 기술은 기업과 고객 모두에게 장점이 많습니다. 하지만 아직까지는 한계가 명확합니다. 앞으로 이런 한계를 극복하기 위한 연구가 계속 이뤄질 것이고 어느 순간부터는 당연한 것처럼 음성인식 기능을 활용하게 될 것입니다. 그럼 당장에 우리가 해결해야 할 문제는 무엇일까요? 하나씩 살펴보도록 하겠습니다.
1. 언어의 표준화
언어의 표준화가 제대로 이뤄지지 않아서 인공지능 음성인식이 제대로 작동하지 않을 수 있습니다. 예를 들어서 같은 물고기라 해도 낚시를 하는 사람들 사이에서 부르는 이름과 현지에 있는 사람이 부르는 이름, 학명으로 물고기 이름을 부르는 연구원 사이에서는 이름이 서로 다릅니다. 이렇게 같은 의미라 해도 지역이나 단체에 따라 단어가 달라질 수 있으므로 충분한 음성인식 기능을 지원하려면 가급적 많은 언어를 수집해야 합니다.
예를 들어서 표준어를 학습하는 것과 동시에 문화어, 제주 방언, 동남 방언, 중부 방언, 서남 방언, 서북 방언, 동북 방언, 표준 방언, 사회 방언을 모두 알아두어야 합니다.
2. 단어와 억양
지역에 따라 억양은 달라집니다. 같은 단어도 억양이 다르면 음성인식이 원활하지 않을 수 있습니다. 특히 방언의 사용은 음성을 인식하는 데 큰 걸림돌이 될 수 있습니다. AI 소프트웨어가 억양이 다른 언어를 정확하게 인식하기 위해서는 언어의 표준화와 마찬가지로 충분한 데이터 수집이 필요합니다.
문제는 방언 외에 개인마다 억양이 달라질 수도 있다는 것입니다. 개인마다 달라지는 억양을 모두 완벽하게 인식하기 위한 연구가 필요합니다.
3. 말하는 속도
음성인식 기술은 다양한 요인에 영향을 받을 수 있습니다. 사람에게 당연하게 느껴지는 작업도 기계에게는 복잡하고 어려운 일이 될 수 있습니다. 특히 말하는 속도에 따라 음성인식 오차율이 달라질 수도 있습니다.
사람도 아주 빠른 말은 이해할 수 없는 경향이 있지만, 어느 정도 속도는 유추해서 의미를 파악할 수 있으며, 정확도가 상당히 뛰어납니다. 하지만 기계에게는 조금만 빠른 말도 해석하는 데 어려움이 따릅니다. 같은 맥락으로 너무 느리게 말하는 것 역시 음성인식의 정확도를 떨어트리는 요인이 됩니다.
특히 발음하기 어려운 단어일수록 말하는 속도에 따라 인식되는 정확도가 크게 달라집니다. 그렇기 때문에 말하는 속도가 다른 많은 사람들의 억양을 참고해서 프로그래밍을 할 수 있어야 합니다.
4. 소음
주변 소음이 음성인식의 정확도를 낮출 수 있습니다. 주변 소음이 강한 도로 주변, 지하철, 사무실에서는 사용자가 말할 때 주변 소음이 섞이면서 인식이 방해될 수 있습니다. 프로그래머는 주변 소음과 사용자의 언어를 구분할 수 있도록 프로그래밍할 필요가 있습니다. 신호의 복잡성을 확보하기 위한 노력도 중요합니다.
최근 몇 년 동안 신호의 복잡성을 이해하고, 사람의 말 하는 내용과 주변 소음을 분리하는 기능은 비약적으로 발전했습니다. 이 부분은 빠른 시일 내에 정복될 수 있을 것으로 예상됩니다.
5. 맥락
동일한 의미를 담은 언어라 해도 말하는 사람의 의도에 따라 해석이 달라질 여지가 있습니다. 그렇기 때문에 음성인식의 정확도를 높이기 위해서는 사용자가 어떤 맥락을 갖고 얘기하는 것인지 파악할 수 있어야 합니다. 맥락을 파악하기 위해서는 신경망을 고려해야 하는 것은 기본이고, 사용자의 상황을 파악해서 확률적으로 의미를 해석할 수 있어야 합니다. 다만, 이 부분은 사람도 완벽한 해석이 불가능하다는 것을 고려하면, 의외로 쉽게 사람보다는 정확하게 의미를 파악하는 방향으로 나아갈 수 있을 것입니다.
6. 다양성
언어는 사용하는 사람만큼이나 다양성을 내포하고 있습니다. 누군가는 불필요한 단어라 생각하는 부분을 삭제하고 최대한 간결하게 말할 수 있습니다. 또 다른 누군가는 재미를 위해서 속어 사용을 늘릴 수 있습니다. 기계는 이러한 다양성을 인정하고, 여러 문장에서 핵심이 되는 단어와 의미를 추출할 수 있어야 합니다.