| ‘사막에 있는 에펠탑(the Eiffel Tower in the desert)’이라는 텍스트 조건으로 인공지능이 생성한 이미지 (사진=카카오브레인) |
|
[이데일리 이대호 기자] 카카오브레인(대표 김일두)은 작년 12월에 공개한 초거대 인공지능(AI) 기반 이미지 생성 모델(RQ-Transformer) 개선판을 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다고 19일 밝혔다.
‘RQ-Transformer’는 39억개 매개변수(파라미터)로 구성됐으며 3000만쌍의 텍스트와 이미지를 학습한 텍스트투이미지(text-to-image) AI 모델이다. 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 향상시켰다는 게 회사 설명이다.
특히 카카오브레인의 독자 기술로 개발됐으며 기존 버전인 민달리(minDALL-E) 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘렸다. 기존 기술과 비교했을 때 이미지 압축으로 인한 손실이 적어, 높은 품질의 이미지를 저해상도의 코드맵으로 표현하는 것이 특징이다.
대규모 데이터셋을 바탕으로 학습된 ‘RQ-Transformer’는 처음 보는 텍스트의 조합을 이해하고 이에 대응되는 이미지를 생성할 수 있다. 예시 이미지는 ‘사막에 있는 에펠탑(the Eiffel Tower in the desert)’이라는 텍스트 조건에 의해 생성됐다.
카카오브레인은 ‘RQ-Transformer’ 기술의 우수성을 종합적으로 인정받아 오는 6월에 열리는 세계적인 학술대회 CVPR 20222에서 해당 논문을 발표할 예정이다. 이미지 생성 모델 연구 개발을 담당하고 있는 카카오브레인 GM(Generative Model)팀은 이를 발판 삼아, 훨씬 더 정교한 이미지를 생성하고 생성 속도를 향상시키기 위한 연구를 활발히 진행해 나갈 예정이다.
카카오브레인 김일두 대표는 “인간의 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재된 의도를 파악하고 이해하는 기술을 보여준다”며, “이번에 우리가 공개한 획기적인 text-to-image AI 모델이 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것“이라고 말했다.