카카오브레인, ‘AI 이미지 생성’ 속도·품질 잡았다

이미지 생성 모델 ‘RQ-Transformer’ 공개
세계적 권위 학술대회 ‘CVPR 2022’서 논문 발표
  • 등록 2022-04-19 오전 9:40:55

    수정 2022-04-19 오전 9:40:55

‘사막에 있는 에펠탑(the Eiffel Tower in the desert)’이라는 텍스트 조건으로 인공지능이 생성한 이미지 (사진=카카오브레인)
[이데일리 이대호 기자] 카카오브레인(대표 김일두)은 작년 12월에 공개한 초거대 인공지능(AI) 기반 이미지 생성 모델(RQ-Transformer) 개선판을 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다고 19일 밝혔다.

‘RQ-Transformer’는 39억개 매개변수(파라미터)로 구성됐으며 3000만쌍의 텍스트와 이미지를 학습한 텍스트투이미지(text-to-image) AI 모델이다. 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 향상시켰다는 게 회사 설명이다.

특히 카카오브레인의 독자 기술로 개발됐으며 기존 버전인 민달리(minDALL-E) 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘렸다. 기존 기술과 비교했을 때 이미지 압축으로 인한 손실이 적어, 높은 품질의 이미지를 저해상도의 코드맵으로 표현하는 것이 특징이다.

대규모 데이터셋을 바탕으로 학습된 ‘RQ-Transformer’는 처음 보는 텍스트의 조합을 이해하고 이에 대응되는 이미지를 생성할 수 있다. 예시 이미지는 ‘사막에 있는 에펠탑(the Eiffel Tower in the desert)’이라는 텍스트 조건에 의해 생성됐다.

카카오브레인은 ‘RQ-Transformer’ 기술의 우수성을 종합적으로 인정받아 오는 6월에 열리는 세계적인 학술대회 CVPR 20222에서 해당 논문을 발표할 예정이다. 이미지 생성 모델 연구 개발을 담당하고 있는 카카오브레인 GM(Generative Model)팀은 이를 발판 삼아, 훨씬 더 정교한 이미지를 생성하고 생성 속도를 향상시키기 위한 연구를 활발히 진행해 나갈 예정이다.

카카오브레인 김일두 대표는 “인간의 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재된 의도를 파악하고 이해하는 기술을 보여준다”며, “이번에 우리가 공개한 획기적인 text-to-image AI 모델이 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것“이라고 말했다.

이데일리
추천 뉴스by Taboola

당신을 위한
맞춤 뉴스by Dable

소셜 댓글

많이 본 뉴스

바이오 투자 길라잡이 팜이데일리

왼쪽 오른쪽

스무살의 설레임 스냅타임

왼쪽 오른쪽

재미에 지식을 더하다 영상+

왼쪽 오른쪽

두근두근 핫포토

  • 핫걸! 다 모였네
  • "노병은 돌아온다"
  • '완벽 몸매'
  • 바이든, 아기를
왼쪽 오른쪽

04517 서울시 중구 통일로 92 케이지타워 18F, 19F 이데일리

대표전화 02-3772-0114 I 이메일 webmaster@edaily.co.krI 사업자번호 107-81-75795

등록번호 서울 아 00090 I 등록일자 2005.10.25 I 회장 곽재선 I 발행·편집인 이익원 I 청소년보호책임자 고규대

ⓒ 이데일리. All rights reserved