top of page
  • 작성자 사진TongRo Images

생성형 음성 AI와 ‘그녀’

최종 수정일: 6월 21일

지난 2021년 신년 특집으로 방송된 SBS의 프로그램 〈세기의 대결 인공지능 vs 인간〉은 한국 최초의 AI 작곡가 이봄(EVOM)과 인간 작곡가 김도일의 ‘삼바 트로트’ 작곡 대결을 다루며 많은 이들의 시선을 끌어모았습니다.

구글 DeepMind의 V2A 기술 소개 이미지

그로부터 3년이 흐른 지금, 생성형 음성 AI는 비약적 발전을 이루었습니다. 스태빌리티.에이아이(stability.ai)와 일레븐랩스(ElevenLabs)는 텍스트 형식의 프롬프트를 입력하면 자사의 기술로 3분 길이의 음악과 “야구장에서 응원하는 관중(People cheering in the baseball stadium)”과 같은 효과음을 생성할 수 있음을 발표했고, 구글 딥마인드(DeepMind)는 사용자가 업로드한 동영상을 이해하고 이에 적합한 분위기의 사운드트랙을 생성하는 V2A(Video-to-Audio) 기술을 금일 공개하였습니다.

‘텍스트 입력을 통한 작곡’을 구현하였다는 점에서 생성형 음성 AI는 음악이라는 장르에 새로운 바람을 불어넣을 것으로 예상됩니다. 하지만 생성형 음성 AI에 ‘사람의 음성’이 개입되는 순간, 창작의 과정에서 보장해야 할 권리의 폭이 넓어진다는 사실 또한 주의 깊게 살펴보아야 합니다.

가수 비비의 곡 〈밤양갱〉에 아이유의 목소리를 덧입혀 만든 밤양갱 ‘AI 커버곡’은 그 예시 중 하나입니다. 아이유의 육성을 생성형 인공지능에 학습시켜 출력한 결과물이지만, 목소리의 주인공인 아이유의 저작인접권은 인정되지 않고 가수의 음성에 부여되는 인격권을 침해하기 때문입니다.


영화 〈Her(그녀)〉 스틸

여기에서 한발 더 나아가, 생성형 음성 AI가 고려해야 할 영역은 사람의 음성을 ‘모방’한 경우에까지 해당합니다. 사용자와 음성으로 대화하는 오픈 AI의 GPT-4o 모델은 음성 · 글 · 영상을 모두 인식하는 ‘멀티모달’ 능력으로 찬사를 받았지만, 그와 함께 영화 〈Her(그녀)〉에서 인공지능 비서 역할을 맡았던 스칼렛 요한슨의 퍼블리시티권을 침해했다는 비판을 받았습니다.

요한슨이 오픈 AI측의 제안을 사전에 거절했음에도 불구하고 자체 음성 모듈 ‘스카이’의 음성이 그녀의 음성과 지나치게 유사했고, 오픈 AI의 최고경영자인 샘 올트먼이 GPT-4o를 홍보할 때 ‘her’라는 단어를 사용했다는 사실이 밝혀졌기 때문입니다.

위의 사례들을 종합해 볼 때, 생성형 음성 AI의 이용과 관련된 질문은 기술을 개발하는데 필요한 방법론적 측면에 그치지 않을 것으로 보입니다. 따라서 생성형 음성 AI의 미래는 사용자에게는 어떠한 데이터를 바탕으로 어떠한 결과물을 만들 것인지에 대한 윤리적 고찰, 법조계 종사자에게는 적절한 규제의 한도는 어디까지인지를 탐구하는 과정과 함께 구체화될 것입니다.



참고문헌 목록

  1. 스테이블 오디오 2.0(Stable Audio 2.0) 소개 페이지

2. 일레븐랩스 음향효과 소개 페이지

https://elevenlabs.io/sound-effects  3. 구글 딥마인드 V2A 기술 소개 페이지

 4. [AI 톡터뷰] 작곡가 안창욱 교수에게 “AI 작곡가 이봄”을 묻다

 5. 쏟아지는 ‘AI 커버곡’… 기술 경쟁-저작권 사이 ‘딜레마’

 6. ‘AI 아이유’가 부른 밤양갱… 44만뷰 찍어도 ‘진짜 아이유’ 몫은 0원

 7. 스칼렛 요한슨 "오픈AI, GPT-4o 출연 거절하자 목소리 베껴"

 8. 수츠케버 퇴사에 ‘안전핀’ 잃은 샘 올트먼… 스칼렛 요한슨 ‘목소리 모방’ 논란에 진퇴양난

조회수 73회

최근 게시물

전체 보기

Comments


Commenting has been turned off.
bottom of page