룩앤톡의 작동 방식은 간단하다. 이용자가 AI 스피커쪽으로 고개를 돌려 바로 말하면 된다. 미국 내 ‘네스트 허브 맥스’에서 이용 가능하다. 네스트 허브 맥스는 카메라와 화면이 달린 AI 스피커다.
구글은 “주방 배관을 수리하고자 할 때, 방에 들어가면서 네스트 허브 맥스를 보고 ‘헤이 구글’이라고 먼저 부를 필요 없이 ‘근처에 있는 배관공을 알려줘’라고 물으면 된다”고 예를 들었다.
이용자 입장에선 간단해 보이나, 뒷단의 AI는 바쁘게 움직인다. 이용자가 장치와 눈을 맞추치고 있는지 여부를 판별하고 근접성과 머리 방향, 시선 방향, 입 모양, 상황 인지, 이용자 식별 및 의도 분류 등 100개 이상의 신호를 실시간 처리하기 위해 6개 기계학습(머신러닝) 모델이 작동한다는 게 구글 설명이다.
‘빠른 명령어(quick phrases)’도 도입했다. 이용자가 지정한 ‘복도 불 켜줘’ 등 일상적인 작업 수행은 목소리로만 이뤄진다. 물론 화자 본인 목소리인지 확인돼야 명령을 수행한다.
룩앤톡은 구글이 자체 모바일 AI 칩 ‘텐서(Tensor)’를 기기 내에 도입하면서 가능했다. 텐서는 구글 스마트폰 픽셀6 시리즈에 탑재한 칩으로 룩앤톡 기술의 핵심이라 해도 과언이 아니다.
‘네이버 클로바’와 ‘카카오 미니’ 등 AI 스피커를 내놓은 네이버와 카카오도 구글 룩앤톡과 같은 기술을 고민 중일까. 양사에 따르면 현재 카메라가 달린 AI 스피커를 내놓을 계획은 없는 것으로 확인됐다.
네이버 측은 “호출을 간편하게 할 수 있는 방안은 계속 고민 중”이라며 “사용성을 끌어올리는 방향을 보고 있다”고 전했다. 카카오 측은 “스피커 디바이스에 대해 다양한 가능성을 열어두고 있지만, 현재는 AI 플랫폼을 스마트홈, 자동차 등 일상 속에 확산하는데 중점을 두고 있다”고 말했다.