바야흐로 인공지능의 춘추전국시대입니다. 텍스트를 입력하면 이에 맞는 이미지를 생성하는 TTI(Text to Image) 시스템이 결합된 인공지능의 경우 미드저니(Midjourney), 딥에이아이(DeepAI), 오픈에이아이(OpenAI) 등 다양한 기업이 격돌 중입니다. 여기에 미국 소재 스톡 이미지 기업인 셔터스톡(Shutterstock)이 올해 1월 25일부터 DALL·E 2를 차용한 스톡 이미지의 제작 및 판매를 적극적으로 개시했다는 사실을 덧대어 보면, 신기한 발명품 정도로 치부되었던 이미지 생성 인공지능 모델이 우리의 삶에 한 발 더 깊숙이 들어왔음을 체감할 수 있습니다.
많은 이가 DALL·E 2를 주목하는 까닭은 DALL·E 2가 ‘구사’하는 ‘시각언어’의 능력에 있습니다. 조금 풀어 설명하면, DALL·E 2는 입력된 자연어 텍스트를 타사의 모델보다 더 정확히 ‘이해’해 다채로운 화풍 · 대상 · 배경 · 장소 · 개념 등을 종합적으로 구현한 이미지를 생성하기 때문입니다. 그렇다면 인공지능 이미지 생성 모델은 어떠한 방식으로 작동할까요? 오늘의 주인공 DALL·E를 중심으로 이를 차근차근 돌아보겠습니다.
어린아이가 각기 다른 고양이를 보아도 ‘고양이’라는 동일한 판단을 내리려면 다양한 크기와 종류의 고양이를 최대한 많이 접해야 하는 것처럼, 인공지능의 정확도는 인공지능이 ‘학습’한 정보의 양과 상당 부분 비례합니다. 따라서 인공지능을 개발하는 과정에서 필수적으로 요구되는 과제는 앞서 언급한 정보의 집합인 ‘데이터세트’를 수집하는 것입니다.
그중에서도 사용자가 입력한 텍스트에 부합하는 이미지를 생성하는 이미지 생성 인공지능 모델에게 필요한 데이터세트는 이미지와 태그(이미지의 설명에 해당하는 문구)의 쌍(雙)입니다. 구시대적 데이터 학습방식의 경우 이미지에 맞는 정보를 하나하나 입력하는 방식으로 이루어진 탓에 시간 대비 효율이 상당히 떨어졌지만, 근래의 인공지능은 방대한 양의 정보를 짧은 시간 안에 처리 · 학습하고 이를 기반으로 한 결과물까지 신속하게 내놓는 단계까지 발전하였습니다.
하지만 인공지능이 처리하는 이 ‘정보’의 출처를 유심히 들여다보면 우리는 묘한 사위스러움을 느끼게 됩니다. 길 아펠(Gil Appel)을 비롯한 학자들이 하버드 비즈니스 리뷰(Havard Business Review)에서 지적한 바와 같이, 독일의 비영리단체 ‘LAION(Large-scale Artificial Intelligence Open Network)’이 인터넷에서 “무차별적으로 긁어낸(scraping the web indiscriminately)” 커먼 크롤 데이터세트(Common Crawl dataset)를 기반으로 제작한 초거대 데이터세트를 활용하는 DALL·E 2, 스테이블 디퓨전, 미드저니는 지식재산권을 침해한다는 비판에서 벗어날 수 없기 때문입니다.
그뿐만 아니라 DALL·E 2의 CLIP(Contrastive Language-Image Pre-training, 언어-이미지 대조 사전학습법) 모델을 분석한 인지과학자 아베바 비르하네(Abeba Birhane)이 그의 논문 〈멀티모달 데이터세트: 여성혐오, 외설물, 그리고 악의적인 선입견(Multimodal datasets: misogyny, pornography, and malignant stereotypes)〉에서 요구한 ‘데이터세트의 해독(detoxification)’이 그 자체로 시사하듯, 많은 양의 정보라는 이유만으로 인터넷상의 데이터를 고심 없이 학습시키는 것은 “사회적 소수자에게 굉장히 파괴적인(devastating on marginalized communities)” 인공지능을 만들어내는 결과로 이어지기 때문이기도 합니다.
종합해 볼 때, ‘정보의 바다’라는 별명처럼 셀 수 없이 많은 정보를 담은 월드 와이드 웹, 그리고 그 정보를 습득한 이미지 생성 인공지능 모델은 무궁무진한 가능성을 품고 있음이 확실합니다. 그렇지만, 그렇기에 드넓은 바다를 항해하듯 조심스럽게 접근하여야 할 것입니다.
참고문헌 목록
1. Shutterstock Introduces Generative AI to its All-In-One Creative Platform
2. DALL·E: Creating images from text
3. AI Art Generators and the Online Image Market
4. Stable Bias: Analyzing Societal Representations in Diffusion Models
5. Generative AI Has an Intellectual Property Problem
6. Multimodal datasets: misogyny, pornography, and malignant stereotypes
Comments