뚝딱뚝딱 성장기 2023년 01월

인공지능이 그린 그림은 창작물일까?

공유하기
칼로 BI가 검은 액자 안에 놓여있다
카카오브레인이 준비하는 인간과 AI의 공존  - ①

 

2016년 3월, 이세돌 기사와 ‘알파고(AlphaGo)’간 바둑 대국이 다섯 차례 펼쳐진 서울에 세계의 이목이 집중됐다. 인공신경망을 통해 인간이 둔 바둑 기보 16만 건을 학습한 알파고는 4대 1 승리를 거뒀다. 사람의 도움을 받긴 했지만, 인간이 평생 걸려도 못 볼 기보를 5주 만에 학습했다는 사실에 사람들은 놀라움과 두려움을 표했다.

 

2017년 들어 인터넷 기업과 통신사들은 인공지능 스피커를 연이어 내놨다. 구어체를 인식해 적합한 콘텐츠를 제공해주고, 인간의 말투와 다름 없는 기계음에 어른 아이 할 것 없이 친근감을 느꼈다. AI가 공학도의 전유물에서 벗어나 시민의 곁에서 자리잡기 시작한 시기다.

 

불과 5~6년 사이, 인공지능이 선사한 편의는 일상 곳곳에 스며들었다. 전화 너머 기계적 억양이 도드라지게 들리는 구형 ARS 안내음, 얼굴이나 지문 인식을 지원하지 않는 오래된 스마트폰은 부지불식간에 불편해졌다.

 

모두에게 스며들 다음 AI는 무엇일까?

 

2022년 들어 화두가 된 두가지 AI 기술이 있다. 멀티-모달(Multi-modal) 이미지 생성 기술과 초거대 AI 언어 모델이다. 해당 기술들을 응용한 사례들은 국내외에서 놀라움을 자아내고 있다. 한편에서는 ‘AI가 인간의 일자리를 대체할 날이 코앞으로 다가왔다’며 두려워한다. 과연 그럴까?

 

카카오브레인 크루들과 함께 인공지능의 현재와 가까운 미래, 그리고 인간과의 슬기로운 공존 방법에 관해 이야기를 나눴다. ①편에서는 멀티-모달 이미지 생성 기술을, ②편에서는 한국어 초거대AI 언어 모델을 중심으로 살펴봤다.

 

#‘무엇'을 그릴지 말해주세요. 화풍(畵風)은 데이터로 만들게요

‘힙합 스타일의 후드 티셔츠를 입은 동양인 남자의 상반신. 르네상스풍의 유화로 표현. (Upper body of an Asian man wearing a hip-hop style hooded t-shirt. Expressed in Renaissance style oil painting.)’

힙합 스타일의 후드 티셔츠를 입은 동양인 남자의 상반신. 르네상스풍의 유화로 표현이라는 프롬프트에 관한 이미지 생성 결과물

 

‘힙합 스타일의 후드 티셔츠를 입은 동양인 남자의 상반신. 연필 스케치. (Upper body of an Asian man wearing a hip-hop style hooded t-shirt. Pencil sketch.)’

힙합 스타일의 후드 티셔츠를 입은 동양인 남자의 상반신. 연필 스케치라는 프롬프트에 대한 이미지 생성 결과물

 

카카오브레인의 AI 아티스트 앱 ‘B^ DISCOVER’에 같은 주제로 다른 표현 방식을 적용한 그림을 주문했다. 몇 초 기다리니 그럴싸한 작품들이 각각 14가지씩 나왔다. 상상하던 이미지에 부합하는 결과물이 없으면 명령어를 조금씩 수정하면 된다. 상반신이지만 측면을 그려 달라고 구체적으로 요구하거나, 르네상스 화가 중 미켈란젤로 화풍을 특정하는 식이다.

 

코요 데이터셋을 기반으로 학습한 칼로 인공지능, 그것을 응용한 API가 B Discover 서비스의 기반이 된다. 라지스케일 데이터셋이 이미지 생성형 AI모델이 되고 이미지 생성형 API가 응용서비스가 되는 원리다.

 

‘B^ DISCOVER’의 이면에서는 초거대 멀티모달 AI ‘칼로(Karlo)’가 작동하고 있다. 칼로는 2021년 12월 공개된 'minDALL-E'를 카카오브레인의 독자기술로 업그레이드해 2022년 4월 세상에 나왔다. 39억 개의 매개변수로 구성됐고, 1억 2천만 장이 넘는 텍스트-이미지 조합을 학습했다. 민달리 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배로 커졌다.

 

학습 데이터셋은 인공지능에게 도서관 같은 역할을 한다. 도서관 구성을 의도대로 바꿀 수 있다면 학습 영역을 유연하게 변환할 수 있다. 장서의 다양성에 따라 배움의 깊이도 달라진다. 

 

코요(Coyo)는 카카오브레인이 자체 확보한 약 7억 4천만 개의 이미지-텍스트로 이루어진 라지 스케일 데이터셋이다. 장서 구성과 다양성을 필요에 따라 최적화 할 수 있는 도서관을 보유한 셈. 출시 하려는 서비스에 적합하도록 데이터셋에 추가 데이터를 유연하게 학습시킬수 있다. 인공지능 전문 기업으로서 근원적 경쟁력이 차별화 되는 부분이다. ‘르네상스 풍의 유화로 표현한 후드티 입은 남자의 모습’처럼 생소한 조합의 텍스트를 자연스러운 이미지로 구현할 수 있는 배경이기도 하다.

 

아쉬운 부분도 있었다. 인터넷상에 데이터가 풍부하지 않은 ‘조선시대 수묵화식 표현’과 같은 주제를 명령어로 넣으면 일치도가 낮은 그림이 나왔다. AI가 그리기 어려워한다는 손 모양도 어색했다. ‘내 맘 같지 않은’ 구석들이지만, 작업 속도와 결과물의 품질을 종합하면 놀라울 따름이다.

 

인공지능이 만들어낸 그림은 창작물일까? ‘B^ DISCOVER’ 서비스 PO(Product Owner)인 조이(Joy)는 이에 관해 “인간이 예술 작품을 만들 때는 영감에서 출발해 영혼을 담아내는 창조 과정을 거치지만, ‘B^ DISCOVER’는 인간이 입력한 명령어들을 토대로 세상에 공개된 데이터를 조합해 작업을 수행하므로 ‘결과물'정도로 볼 수 있다”고 설명했다. 굉장한 성능이 놀라움과 두려움을 선사하기도 하지만, 사람이 개입해야만 무엇이라도 할 수 있는 나약한 존재이기도 한 것. 

 

#잘 조련된 AI는 창작자의 훌륭한 도구 

구슬이 서 말이라도 꿰어야 보배다. 빼어난 기술 역시 눈에 띄고 손에 잡힐 때 빛을 발한다. 프롬프트 엔지니어(Prompt engineer)들은 인공지능 기술을 일반인들이 이용하기 좋은 서비스로 ‘꿰는’데 중요한 역할을 한다. 공학적 지식을 토대로 AI가 작업을 잘 수행할 수 있도록 좋은 질문을 던져 명령하기 때문이다. 이들이 AI에게 건네는 질문과 산출물들, 그것을 다듬는 모든 과정들이 제품 개발 전 영역에 반영된다. 비유하자면 ‘AI 조련사' 같은 역할이다.

 

‘B^ DISCOVER’는 영어 기반 서비스다. 프롬프트 엔지니어들에게 유창한 영어 실력이 요구되는게 당연하지만, 마일리와 헤일리는 “세상 만사에 관심이 많을 것”을 전제조건으로 꼽았다. 인간의 입체적인 질문이 AI가 지닌 잠재력을 극대화 시키기 때문이다.

조이 (Joy. 카카오브레인 디스커버TF PO), 마일리 (Miley, 카카오브레인 디스커버TF), 헤일리 (Hailey. 카카오브레인 디스커버TF) 인물 이미지
프로필 이미지는 크루 개인이 제공한 사진을 토대로 Karlo가 재창조했다.

  

 

북미권에서는 멀티-모달 이미지 생성 기술만 발표하고, 일반인들의 이용을 막아 놓거나 서비스를 소극적으로 운영하는 사례가 많다. 성 평등 혹은 정치적 이슈로 논쟁에 휩싸인 바 있기 때문이다. 카카오브레인은 이들과 달리 오픈 커뮤니티를 지향한다. 코요와 칼로를 각각 2022년 9월과 12월 개발자 커뮤니티 깃허브(GitHub)에 공개한데 이어 일반인 대상의 서비스인 ‘B^ DISCOVER’까지 내놨다. 공개-공유를 통해 다양한 의견들을 받고 빠르게 업데이트한다는 방향성을 설정한 것. 직접 핸들링 할 수 있는 자체 데이터셋 코요를 기반으로 학습한 Karlo 이기에, 어떤 프롬프트에도 대응할 수 있다는 자신감이 바탕에 있다.

 

이들은 ‘B^ DISCOVER’를 준비하면서 다양한 현직 예술가들을 만났다. 멀티-모달 이미지 생성 기술에 관한 예술가들의 의견은 보통 사람들과 마찬가지로 엇갈린다. 우호적인 쪽은 단순 작업 영역에서 큰 도움을 받을 수 있다는 점을 높이 산다. 포토샵 등 디지털 창작 도구가 처음 나왔을 때, 그걸 활용한 이미지가 작품이냐 아니냐 논쟁이 오간 것과 같은 맥락이다. 반면 비판적인 쪽은 단순 작업을 해서 먹고 사는 예술가들의 ‘밥벌이’를 걱정한다.

 

마일리는 “제작 스킬 보다 창의적인 생각이 주목받는 시대가 온다”“프로 작가들은 독특한 프롬프트들을 자신만의 고유한 창작 노하우로 여겨 비공개 원칙을 세우기도 한다”고 말했다. 헤일리는 “프롬프트를 통해 내 의도를 구현하기까지 창작의 고통이 수반된다”며 “멀티-모달 이미지 생성 기술을 직접 사용해본다면 인간 대체제가 아닌, 창작자에게 유용한 새로운 도구라고 느낄 것”이라고 전망했다.

 

현재 T2I(Text to Image) 기능을 중심으로 작동하는 ‘B^ DISCOVER’는 능력의 20%정도를 쓰고 있다. 조이는 “생성된 이미지를 다변화 하고, 사람이 눈치채기 어려울 정도로 이미지의 손상된 부분을 복원하는 기능, 단어 혹은 자연어 설명문 추가만으로도 같은 스타일의 비주얼 요소를 추가로 만들어주는 기능을 업데이트할 예정”이라고 설명했다.

 

많은 사람들이 AI 창작이라는 것에 막연한 공포를 느끼기도 하지만, 가까운 미래에 펼쳐질 변화는 의외의 곳에서 일어날수도 있다. 헤일리는 “본인의 생각을 토대로 토론과 아이디어 교환을 활발하게 할 수 있으니, 교육 분야에서 창의력 학습 도구로 주목받을 수 있다”고 내다봤다.

 

신체적 한계로 그림을 그리기 어려웠던 사람들도 자신의 창작 욕구를 원활하게 표현할 수 있다. 상상력이 풍부하지만 미술 교육 기회를 갖지 못한 사람들에게도 새로운 기회가 펼쳐진다. 작가의 생각을 언어로 풀어내기만 하면 ‘제작'은 인공지능이 대신해 줄 수 있기 때문이다.

 

#빅(Big), 라지(Large), 하이퍼(Hyper)? 중요한건 인간의 생각

빅데이터, 딥 러닝, 라지 스케일과 하이퍼 스케일. 수년간 인공지능을 수식하는 표현도 진화해왔다. 규모나 깊이, 혹은 정도를 표현하는 상대적 개념들이다. ‘딥 러닝’이라는 표현이 성행하던 시절 상대적으로 크고 깊이 있었던 데이터들은 현 시점에 학생들이 연습용으로 활용하는 크기가 됐다.

 

한때 사람이 개입해 레이블링(Labeling)하던 데이터들은 상당 부분 자동화 됐다. ‘데이터 레이블러’는 1~2년 전까지 장래에 유망할 것 같은 직업으로 꼽혔지만 지금은 그렇지 않다. 

 

인공지능은 선행 기술이다. 선행 기술이 다양한 가능성을 상상하게 하면 응용 기술과 서비스들이 등장해 실제 생활의 변화를 유도한다. 선행 기술의 단면만을 보고 확대 해석 하거나 두려움을 증폭시킬 필요가 없는 이유다.

 

개인용 컴퓨터가 확산될 때 많은 사람들이 직업을 잃을 것이라는 우려가 넘쳤다. 걱정과 달리 이제 대부분의 사람들은 컴퓨터의 다양한 가능성을 확인하고 도구로 활용한다. 인공지능도 개인용 컴퓨터가 그랬던것 처럼 이제 갓 대중들에게 다가서는 참이다. 

 

백문이 불여일견. 일반에 공개된 인공지능을 직접 다뤄보고, 라이프 스타일의 변화를 다양하게 상상해보자. B^ DISCOVER에서는 몇 줄 글로 미켈란젤로를 나만의 화가로 환생 시킬 수 있다.

 

#칼로의 화실  
고양이를 주제로 다양한 프롬프트에 대응해 생성된 비디스커버 앱의 결과물 gif 이미지
고양이(Cat)를 주제로 Pizza와 Delivery, Action Movie 라는 프롬프트를 추가함에 따라 칼로가 그려낸 이미지

 

 

카카오브레인의 초거대AI 이미지 생성 모델 연구개발 현황 1) 2021년 12월 민달리 모델 공개 2) 2022년 3월 RQ트랜스포머 모델 공개 3) 2022년 8월 데이터셋 COYO 공개 4) 2022년 10월 비디스커버 서비스 출시 5) 2023년 1월 Karlo1.0 API 공개
카카오브레인은 2021년 12월 minDALL-E 공개후 13개월 만에 Karlo 1.0 API까지 선보였다. 노란 점 표기 영역은 카카오 브레인의 주요 활동, 흐린 점 표기 영역은 해외 관련 업계의 주목할 만한 행보들이다.

 

📍Karlo 소식 업데이트

2023년 7월 6일, 3억 장 규모의 텍스트-이미지 데이터셋 학습으로 이미지 품질과 생성 속도를 개선한 Karlo 2.0 API가 열렸다 ☞자세히 보기 

Karlo 서비스(웹)에서 Karlo 2.0 API에 적용된 기능들을 체험할 수 있다 ☞ 바로가기 

 

📍한국어 초거대 AI 언어 모델 KoGPT에 관한 글도 함께 보시겠어요?  ☞ 읽으러 가기 

목록 보기
추천 콘텐츠