생성형 음성 AI와 ‘그녀’

TongRo Images
2024년 6월 19일
2분 분량

최종 수정일: 2024년 6월 21일

지난 2021년 신년 특집으로 방송된 SBS의 프로그램 〈세기의 대결 인공지능 vs 인간〉은 한국 최초의 AI 작곡가 이봄(EVOM)과 인간 작곡가 김도일의 ‘삼바 트로트’ 작곡 대결을 다루며 많은 이들의 시선을 끌어모았습니다.

그로부터 3년이 흐른 지금, 생성형 음성 AI는 비약적 발전을 이루었습니다. 스태빌리티.에이아이(stability.ai)와 일레븐랩스(ElevenLabs)는 텍스트 형식의 프롬프트를 입력하면 자사의 기술로 3분 길이의 음악과 “야구장에서 응원하는 관중(People cheering in the baseball stadium)”과 같은 효과음을 생성할 수 있음을 발표했고, 구글 딥마인드(DeepMind)는 사용자가 업로드한 동영상을 이해하고 이에 적합한 분위기의 사운드트랙을 생성하는 V2A(Video-to-Audio) 기술을 금일 공개하였습니다.

‘텍스트 입력을 통한 작곡’을 구현하였다는 점에서 생성형 음성 AI는 음악이라는 장르에 새로운 바람을 불어넣을 것으로 예상됩니다. 하지만 생성형 음성 AI에 ‘사람의 음성’이 개입되는 순간, 창작의 과정에서 보장해야 할 권리의 폭이 넓어진다는 사실 또한 주의 깊게 살펴보아야 합니다.

가수 비비의 곡 〈밤양갱〉에 아이유의 목소리를 덧입혀 만든 밤양갱 ‘AI 커버곡’은 그 예시 중 하나입니다. 아이유의 육성을 생성형 인공지능에 학습시켜 출력한 결과물이지만, 목소리의 주인공인 아이유의 저작인접권은 인정되지 않고 가수의 음성에 부여되는 인격권을 침해하기 때문입니다.

여기에서 한발 더 나아가, 생성형 음성 AI가 고려해야 할 영역은 사람의 음성을 ‘모방’한 경우에까지 해당합니다. 사용자와 음성으로 대화하는 오픈 AI의 GPT-4o 모델은 음성 · 글 · 영상을 모두 인식하는 ‘멀티모달’ 능력으로 찬사를 받았지만, 그와 함께 영화 〈Her(그녀)〉에서 인공지능 비서 역할을 맡았던 스칼렛 요한슨의 퍼블리시티권을 침해했다는 비판을 받았습니다.

요한슨이 오픈 AI측의 제안을 사전에 거절했음에도 불구하고 자체 음성 모듈 ‘스카이’의 음성이 그녀의 음성과 지나치게 유사했고, 오픈 AI의 최고경영자인 샘 올트먼이 GPT-4o를 홍보할 때 ‘her’라는 단어를 사용했다는 사실이 밝혀졌기 때문입니다.

위의 사례들을 종합해 볼 때, 생성형 음성 AI의 이용과 관련된 질문은 기술을 개발하는데 필요한 방법론적 측면에 그치지 않을 것으로 보입니다. 따라서 생성형 음성 AI의 미래는 사용자에게는 어떠한 데이터를 바탕으로 어떠한 결과물을 만들 것인지에 대한 윤리적 고찰, 법조계 종사자에게는 적절한 규제의 한도는 어디까지인지를 탐구하는 과정과 함께 구체화될 것입니다.

참고문헌 목록