EZ EZViwe

[아하!] "사실 생각이 많답니다" SKT '누구' 얼굴인식도 공부 중

황이화 기자 기자  2017.04.03 14:17:00

기사프린트

[프라임경제] '국내판 아마존 에코'라는 별칭으로 글로벌 인공지능(AI) 스피커에 대응하고 있는 SK텔레콤의 '누구'가 최근 쇼핑 기능과 이용자에게 먼저 말을 건네는 기능까지 추가, 더 똑똑해진 모습으로 단장했습니다.

'누구'는 첫 출시 이후 매달 약 1만대씩 꾸준히 판매, 지난달 말 기준 7만대 이상 판매고를 올렸다고 하는데요. SK텔레콤은 지난 9월 국내 ICT 업계 최초로 AI 스피커를 선보이며 국내 AI 스피커 본격 상용화를 이끌었다는 평가를 받고 있습니다.

이제 평범한 가정에서도 "노래 좀 알려줘"라고 기계에게 명령하면, 이를 알아 들은 기계가 즉각 노래를 틀어줄 뿐 아니라 길 안내, 쇼핑까지 대신 해주는 시대가 열린 셈인데요.

그런데 실제로 이 AI 스피커를 이용해본 이들 중에는 'AI라고 하더니 제대로 인식도 못한다'고 불만을 제기하기도 합니다.

이에 사업자은 AI에 명령하고 이행하는 과정이 그리 단순하지만은 않아 고객들이 조금 너그러운 시선으로 바라봐주길 바란다고 하네요.

'누구' 기능 중 '노래 틀기' 과정을 예로 들어보면, 우선 사람이 "아리아, 아이유의 좋은날 틀어줘"라고 명령을 합니다.

그러면 '누구'는 "아리아" "레베카" "팅커벨" "크리스탈" 등 기계인 '누구'를 깨우는 호출어를 AI 플랫폼에 전달해 스스로 작동할 준비를 완료하죠.

이 호출어가 인식돼야만 AI 플랫폼이 활동을 할 수 있게끔 구성돼 있는 것인데요. 그렇지 않으면 일상에서 인식하는 모든 대화를 '누구'가 명령으로 인식할 수 있기 때문이죠.

호출어로 깨어난 AI에 "아이유의 좋은날 틀어줘"라는 음성이 전송되면, AI는 음성을 인식해 '아티스트는 아이유고 노래 제목은 좋은날이군'이라고 명령을 분석해냅니다,

이런 음성인식 과정에는 '음향 모델'과 '언어 모델' '발음 사전' 등의 데이터가 필요한데요.

음향 모델은 좋은날의 'ㅈ' 'ㅗ' 'ㅎ' 등 각 소리를 구별할 수 있도록 입력된 모델을 의미하고, 언어 모델은 '아이유'라는 다음에 올 수 있는 단어에 무엇이 있는지 미리 예측해 입력된 모델을 의미합니다. '아이유 노래' '아이유 뉴스' '아이유 옷' 등이 가능하겠네요. 

또 같은 '좋은날'이라는 단어라도 말하는 사람마다 강세를 주는 방식, 목소리의 크기 등에 따라 발음이 달라지기 때문에, 다양한 발음값을 미리 입력해 놓아야 하는데요. 이를 발음사전이라고 합니다.

'누구' AI는 이들 음향 모델과 언어 모델, 발음사전이라는 데이터를 통해 사람의 명령을 정확히 인식해 내는 것이죠.

이런 과정으로 AI가 명령을 인식하면, 노래 재생을 위해 연동된 멜론에 서비스 제공을 호출합니다. 이와 동시에 누구는 "아이유의 좋은날 들려드리겠습니다"라고 답변해, 명령이 제대로 입력됐다고 표시한 뒤 노래를 들려주게 되는 것이죠.

SK텔레콤 관계자는 "언어 상황은 무궁무진하기 때문에 지속적으로 이 같은 데이터를 업데이트 해야 한다"고 설명합니다. 데이터 업데이트를 통해 AI 스피커는 더 똑똑해지고, 결국 인간과의 소통이 더 원활해질 수 있을 것입니다.

한편, SK텔레콤은 이 같은 음성인식뿐 아니라 영상인식 기술도 개발 중이라고 하는데요.

홈 디바이스 환경을 가정해 3m 원거리에서 사용자 선별이 가능한 고성능 얼굴인식 기술을 개발 중이라고 합니다. 이를 통해 보안·개인화 기능이 가능해질 것이란 관측이 나옵니다.

이 회사에 따르면 현재 얼굴인식률은 96.2%라고 하네요. 구글의 인식률이 99.6%, 페이스북의 인식률이 97.35%인데 비해 다소 뒤처지지만, SK텔레콤은 이 분야 기술 개발에 지속 힘쓰겠다는 의지입니다.

SK텔레콤 관계자는 "이 기술이 축적되면 향후 고객이 어떤 옷을 입었는지, 또는 자세 등을 분석해 개인화된 추천 제언이 가능할 것"이라며 "쇼파에 축 쳐진 모습으로 앉아 있다면 '영화를 추천해 드릴까요?'라고 기계가 먼저 말을 걸 수도 있을 것"이라고 내다봤습니다.