동영상 생성 AI: 돌아보고 톺아보기

TongRo Images
2024년 3월 21일
2분 분량

지금까지의 비디오 생성 인공지능 모델은 상당히 제한된 수준에 머물러 있었습니다. 2024년 3월 현재 기준 가장 범용적으로 이용되는 ‘신테시아(Synthesia)’, ‘인비디오(InVideo)’, ‘아워 원(Hour One)’ 모두 사용자가 입력한 텍스트에 인물 모델의 음성을 덧붙이는 형식의 서비스를 제공한다는 점에서 텍스트-투-비디오의 온전한 정의에 부합하지 못했기 때문입니다.

이처럼 이용자의 자유도를 낮추어 정확도를 높이는 방식으로 이어져 온 비디오 생성 인공지능 모델의 주된 흐름과는 별개로 ‘베이스드랩스 에이아이(BasedLabs AI)’처럼 프롬프트를 자유롭게 입력할 수 있는 비디오 생성 인공지능 모델도 존재하지만, 보는 이로 하여금 자연스러움을 느끼게 하는 요소인 연속성과 지속성이 부족하다는 지적에서는 여전히 자유로울 수 없었습니다.

2024년 3월까지의 텍스트-투-비디오 기술 발전 흐름표 (이미지를 클릭하면 출처로 이동합니다.)

그러던 지난 2월 15일, 챗지피티를 개발한 오픈에이아이 社는 비디오 생성 모델 ‘소라(Sora)’를 공개하며 2024년 하반기까지 일반인의 사용을 목표로 한다고 발표했습니다. 소라의 등장이 기념비적인 이유는 마이크로소프트 社가 2월 28일 발간한 보고서 〈소라: 대규모 시각 모델의 배경, 기술, 한계와 가능성에 대한 보고서(Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models)〉에서 시사한 바와 같이, ‘현실 세계의 물리적 법칙과 맥락을 이해하는 시뮬레이터로서의 의의(Overall, these advances show the potential of Sora as a world simulator to provide nuanced insights into the physical and contextual dynamics of the depicted scenes.)’를 가진다는 사실에 있습니다.

'20대 젊은 남성이 구름 조각 위에서 책을 읽고 있다.'는 명령어를 입력해 제작한 영상

이미지 생성 인공지능 모델을 통해 제작한 정지된 이미지와 달리, 소라를 통해 제작한 1분 길이의 영상은 각각의 요소가 실제의 세계의 법칙을 따라 움직이고 소리를 낸다는 점에서 폭발적으로 성장하는 이미지 및 비디오 생성 인공지능 모델의 시대를 상징적으로 드러내는 사건으로 보입니다.

르미에르의 다양한 기술을 통해 제작한 영상

여기에 참조 이미지를 바탕으로 유사한 스타일의 비디오를 생성하는 스타일드 제너레이션(Styled Generation), 기존 비디오에 “특정 개체를 삽입하는 인페인팅(Inpainting)” 기법까지 보유한 구글 社의 시공간 확산 모델 ‘르미에르(Lumiere)’의 경우를 합쳐 볼 때, 비디오 생성 인공지능 모델은 작업에 요구되는 시간 대비 완성도를 기하급수적으로 높일 것이라는 전망이 가능합니다.

하지만 많은 전문가들이 지적하듯 인공지능을 이용한 비디오 생성 모델이 시청각의 형태로 전달되는 정보의 신뢰성을 확신할 수 없는 세상에 깊숙히 기여하리라는 사실 또한 명백합니다. 따라서 이를 이용하는 창작자의 태도는 단순히 창작의 자유나 효율성보다 한 층 더 높은 곳을 바라보아야 할 것입니다. 소라와 함께 올해 하반기부터 새롭게 재편될 생성 인공지능 모델의 지형학적 구조를 기대하며, 이에 수반되어야 할 창작자의 자세란 무엇인지 고찰해 보는 기회를 가져보는 건 어떨까요?

참고문헌 목록

Diagram Share: The Evolution of Commercial Text-to-Video https://towardsdatascience.com/diagram-sha re-the-evolution-of-commercial-text-to-video-8726dc01b270
오픈에이아이 社, ‘소라’ 소개 페이지 h ttps://openai.com/sora
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models https://arxiv.org/abs/2402.17177
'소라' 정확도의 비밀 '시공간 패치'는 구글 기술 기반 https://www.aitimes.com/news/articleView.html?idxno=157660
How OpenAI’s text-to-video tool Sora could change science – and society https://www.nature.com/articles/d41586-024-00661-0
구글, '시공간 확산' 비디오 생성 모델 공개..."실감 나는 영상 생성" https://www.aitimes.com/news/articleView.html?idxno
구글 社, ‘르미에르’ 소개 페이지 https://lumiere-video.github.io/

Blog

동영상 생성 AI: 돌아보고 톺아보기

최근 게시물

Comments