더 자연스러운 구글 AI ‘룩앤톡’…네이버·카카오는?

룩앤톡, AI 스피커 호출어 없이 카메라 보며 명령
근접성과 머리 방향 등 100개 이상 신호 실시간 처리
구글 자체 AI 칩 ‘텐서’ 도입하면서 가능해져
네이버·카카오, 카메라 탑재 AI 스피커 계획은 없어
양사 “AI 사용성 끌어올리되 일상 속 확산 추진”

등록 2022-05-13 오후 6:22:44

수정 2022-05-13 오후 6:22:44
가 가

[이데일리 이대호 기자] 구글이 지난 11일과 12일(미국 현지시각) 진행한 ‘구글 I/O’ 개발자 행사에서 인공지능(AI) 스피커 기능의 진화판인 ‘룩앤톡(Look and Talk)’을 공개했다. ‘헤이 구글’ 등의 별도 호출어 없이 AI 스피커와 대화할 수 있는 기능이다. 얼굴 인식 기능을 더했다.

룩앤톡의 작동 방식은 간단하다. 이용자가 AI 스피커쪽으로 고개를 돌려 바로 말하면 된다. 미국 내 ‘네스트 허브 맥스’에서 이용 가능하다. 네스트 허브 맥스는 카메라와 화면이 달린 AI 스피커다.

구글은 “주방 배관을 수리하고자 할 때, 방에 들어가면서 네스트 허브 맥스를 보고 ‘헤이 구글’이라고 먼저 부를 필요 없이 ‘근처에 있는 배관공을 알려줘’라고 물으면 된다”고 예를 들었다.

이용자 입장에선 간단해 보이나, 뒷단의 AI는 바쁘게 움직인다. 이용자가 장치와 눈을 맞추치고 있는지 여부를 판별하고 근접성과 머리 방향, 시선 방향, 입 모양, 상황 인지, 이용자 식별 및 의도 분류 등 100개 이상의 신호를 실시간 처리하기 위해 6개 기계학습(머신러닝) 모델이 작동한다는 게 구글 설명이다.

동시에 얼굴(페이스 매치)과 목소리(보이스 매치)를 통해 화자 본인 확인을 거쳐야 활성화한다. 인증 과정의 영상은 구글에도 공유되지 않고 기기 내에서 처리된다.

‘빠른 명령어(quick phrases)’도 도입했다. 이용자가 지정한 ‘복도 불 켜줘’ 등 일상적인 작업 수행은 목소리로만 이뤄진다. 물론 화자 본인 목소리인지 확인돼야 명령을 수행한다.

룩앤톡은 구글이 자체 모바일 AI 칩 ‘텐서(Tensor)’를 기기 내에 도입하면서 가능했다. 텐서는 구글 스마트폰 픽셀6 시리즈에 탑재한 칩으로 룩앤톡 기술의 핵심이라 해도 과언이 아니다.

구글은 보다 자연스러운 일상 대화를 위해 ‘0.2초(200밀리초) 이내 반응’을 전제 조건으로 봤다. 구글은 “구글 어시스턴트는 일시 중지나 ‘음’ 및 갑작스러운 대화 방해 등에 오작동하지 않고 인간 언어의 불완전성을 훨씬 더 원활하게 이해할 수 있을 것”이라고 목표를 밝혔다.

‘네이버 클로바’와 ‘카카오 미니’ 등 AI 스피커를 내놓은 네이버와 카카오도 구글 룩앤톡과 같은 기술을 고민 중일까. 양사에 따르면 현재 카메라가 달린 AI 스피커를 내놓을 계획은 없는 것으로 확인됐다.

네이버 측은 “호출을 간편하게 할 수 있는 방안은 계속 고민 중”이라며 “사용성을 끌어올리는 방향을 보고 있다”고 전했다. 카카오 측은 “스피커 디바이스에 대해 다양한 가능성을 열어두고 있지만, 현재는 AI 플랫폼을 스마트홈, 자동차 등 일상 속에 확산하는데 중점을 두고 있다”고 말했다.