[아이티데일리] 현재 AI는 데이터로부터 주요 패턴을 찾고 학습하여 데이터를 구별하는 판별 모델(Discriminative model)에서 패턴의 다양한 유형을 포착하고 학습하여 새로운 데이터를 만드는 생성 모델(Generative model) 즉, 생성형 AI(Generative AI) 중심으로 발전하고 있다.

생성형 AI는 비교사학습을 통해 데이터에 포함된 다양한 콘텐츠의 특징들을 학습하여 원본과 유사한 특징이 포함된 새로운 데이터를 생성하는 기술이다. 이 생성형 AI는 문학, 미술, 음악 등 다양한 예술 분야에 디지털화된 창작물 생성이 가능하다는 점에서 특히 주목받고 있다.

가트너는 ‘2020 톱 전략 테크놀리지 트렌드(Top Strategic Technology Trends for 2022)’라는 주제로 성장, 디지털화 그리고 효율성을 위한 전략적 기술 트렌드 12가지를 소개한 바 있다. 이 중 향후 3~5년간 디지털화를 확장할 주요 기술로 생성형 AI를 선정했다. 가트너는 생성형 AI로 만들어지는 디지털 데이터는 현재 1% 미만에서 2025년 10% 이상으로 확대될 것으로 내다봤다.

메타빌드는 2021년에 이와 같은 AI 패러다임의 변화 추세와 미래 전략 기술 트렌드에 맞추어 생성형 AI 분야에서 커다란 성과를 거두었다. 메타빌드는 최근 전세계를 강타하고 있는 K-Pop 등의 뮤직 분야에서 사용될 수 있는 AI 다음색 보컬 기술을 개발했다.

메타빌드가 개발한 ‘MAI VOCAL’이라는 기술은 일종의 가창음성합성(SVS:Sining Voice Synthesis) 시스템으로 다양한 가창자의 음색을 모방하고, 자연스럽고 높은 품질의 가창 음성을 생성하기 위해 Acoustic Model과 Vocoder Model의 두 가지 모델로 구성되어 있다.

Acoustic Model과 Vocoder Model의 비교

Acoustic Model은 가사, 음표, 음표의 지속 시간을 입력으로 주파수 성분의 크기 정보인 Mel-Spectrogram을 생성하는 기능을 수행한다. 연속 단어와 공백에 대한 견고성이 보장되며 음성 속도와 운율의 제어가 가능한 FastSpeech AI 모델을 기반으로 개발됐다.

Vocoder Model은 Acoustic Model의 출력인 Mel-Spectrogram을 입력으로 가창 음원 파형을 생성하는 기능을 수행하며, 합성 및 학습 속도가 다른 접근에 비해 빠르며, 합성 음성의 품질이 좋은 HiHi-GAN AI 모델을 기반으로 개발됐다.

메타빌드는 MAI VOCAL에서 필요한 가창자 음성 데이터를 획득하여 학습시키기 위하여 한국지능정보사회진흥원의 인공지능 학습데이터 구축사업을 통해 나이, 성별, 음색, 장르에 따른 다양한 보이스 특성으로 구분되는 가창자 92명의 가창 음성을 획득했다. 또한, 획득한 가창 음성에서 가창자 발음의 시작과 지속 시간에 대응되는 가사와 미디(MIDI) 정보가 Note 단위로 라벨링 된 4,000곡을 수집 및 가공하여 인공지능 학습용 보컬 데이터를 구축했다. 구축된 보컬 학습데이터를 기반으로 100명의 가창 음성 합성이 가능한 AI 다음색 보컬 시스템을 개발했다.

메타빌드가 개발한 AI 다음색 보컬 시스템은 남녀 10~50대의 연령대에서 다양한 음색으로 K-Pop 분야 댄스나 발라드 곡, 동요노래 등 다양한 보컬 연주가 가능한 것이 특징이다.

이러한 메타빌드의 MAI VOCAL 시스템은 자사의 뮤직 플랫폼 클라우드에서 24시간 계속해 다양한 장르의 노래와 음색을 학습하면서 진화를 거듭하고 있다.

또한, 메타빌드와 칠로엔은 MAI VOCAL 시스템을 통해 합성 가능한 가창 음색 중 20대 초반 여성의 청아한 음색을 콘셉트로 가상 AI 싱어 ‘비비젠’을 탄생시켰다. 비비젠은 실제 20대 초반 여성들의 다양한 2D 이미지를 수집 분석하여 정교한 3D모델링 과정을 통해 제작되었다. 초기 기획단계에서부터 가상 디지털 가수의 특징을 고려해 노래할 때의 입 모양, 감정 표현(표정)이나 몸동작 등이 자연스럽게 표현될 수 있도록 설계했다. 또한 전신을 3D 모델링으로 제작하여 관절의 움직임에 대한 모션캡쳐 기술(Rigging)을 통해 안무가 포함된 댄스의 표현도 가능하게 했다.

메타빌드의 가상 AI 싱어 ‘비비젠’

메타빌드는 AI 보컬 기술이 적용된 AI 싱어 비비젠을 칠로엔을 통해 SNS 활동을 비롯하여 가상 싱어 활동, 광고, 더 나아가 메타버스에서 활동하는 AI 디지털 휴먼으로 발전시켜 나갈 계획이다. 또한, 앞으로 AI 다음색 보컬 기술을 지속적으로 발전시키면서 AI 작곡/편곡 등 추가적인 다양한 AI 모델들을 개발하여 음악분야 서비스로 활용 가능한 생성형 AI 기술을 선도해 나간다는 방침이다.

AI싱어/디지털휴먼 비비젠에 대해...

1. 개발동기/목적

메타빌드가 개발한 AI 다음색 보컬 기술로 태어난 인공지능 디지털 싱어 비비젠을 통해 디지털 공간과 메타버스에서 새로운 뮤직 서비스 제공


2. 비비젠에 대한 설명

메타빌드는 AI 음성기술을 기반으로 시각적인 표현을 위해 해당 음색과 다양한 상황에 맞는 표현이 가능한 가상 인간 ‘비비젠’을 개발했다.

비비젠은 20대 초반 여성의 청아한 음색을 가진 AI 싱어라는 콘셉트를 목표로 실제 20대 초반 여성의 2D 이미지들을 폭넓게 수집·분석하여, 이를 바탕으로 정교한 3D 모델링을 통해 제작됐다. 초기 모델링 단계에서부터 노래를 부르는 가상 인간이라는 특징을 고려하여, 노래를 할 때의 입 모양, 감정 표현(표정)이나 몸동작 등이 자유롭게 가능해야 한다는 점에 핵심을 두었다.

실제 가창자들의 영상 데이터를 바탕으로 얼굴 전체의 근육에 대한 아주 미세한 떨림까지도 표현할 수 있도록 페이셜 리깅(Facial Rigging)이 이루어졌고, 음성의 발음에 따른 입 모양과 연결된 주변 근육, 표정 변화에 따른 주름의 흐름과 근육·초점·동공 변화 등 세밀한 조정과정을 거쳐서 실제 사람과 거의 똑같은 표정을 지을 수 있도록 구현이 되었다. 이는 실제 가창자들의 영상 데이터가 누적되면서 더욱 정교하고 풍부한 감정 표현이 가능해진다.

또한 간단한 손동작부터 몸 전체를 사용하는 안무가 포함된 노래까지 소화하기 위해서는 현재 AI 가상 인간들에 적용된 디지털 더블(Digital double:특정 모델과 배우의 얼굴에 AI가 만든 가상의 얼굴만 입히는 기술)을 적용해야 하는데 이를 비비젠에 적용하기에는 한계가 있다고 판단하여, 전신을 3D 모델링으로 제작하고 뼈·관절의 움직임은 모션 캡쳐 기술을 통해 가능하도록 리깅(Rigging)과 세부조정 과정을 거쳤다.

해당 움직임을 바탕으로 동작에 어울리는 커스텀 의상을 제작하고 움직임에 따른 자연스러운 의상 변화를 시뮬레이션(Cloth simulation)을 통해 의상의 구김이나 주름까지도 실제와 같이 표현하도록 구현했다.

이렇게 탄생한 가상 인간 비비젠은 섬세한 감정 표현이 담긴 발라드나 R&B 뿐만 아니라 빠른 템포의 댄스, 힙합, 트로트 등 다양한 장르의 노래를 가리지 않고 모두 표현해낼 수 있다.


3. 활용사례 및 서비스

최근 들어 디지털 휴먼이 우리들의 실제 생활에 빠르게 적용되면서 광고, 영화, 음악 등 활동 분야가 급속히 늘어가고 있다.

디지털 휴먼이 적용되는 광고 분야나 시중은행의 AI 키오스크 상담원, AI 쇼 호스트 등은 이미 빠르게 확산되고 있고, 최근 중국의 국영 방송사인 CCTV는 AI 아나운서와 AI 수화앵커를 내년 베이징 올림픽 방송에서 공식 도입한다고 발표했다.

아직은 표정이나 제스처 등에서 일부 어색한 부분이 존재하는 것이 사실이지만, 장소나 시간, 상황에 제약을 받지 않고 인플루언서, 아나운서, 배우, 가수 등으로 활동하면서 이를 위한 기술도 급격히 발전해 나갈 것으로 예상된다.

특히, 음악분야에서 AI 음성 합성 기술을 적용한 디지털 휴먼의 활동은 아직은 초기단계이지만, 국내외 AI 음성합성 기술이 적용되는 디지털 휴먼도 빠르게 늘어날 것으로 예상된다.

이러한 AI 싱어로서의 디지털 휴먼은 가상의 공간이나 메타버스에서 공연을 비롯하여 일상생활에서 인간의 가창능력 향상을 위한 트레이닝 서비스와 학교 음악교사 서비스, 작곡자의 가이드 보컬 서비스 등으로 다양하게 활용이 될 것으로 기대된다.


4. 향후 발전방향

디지털 휴먼의 활동 범위가 넓어지면서 AI 싱어 비비젠은 노래하는 가상 인간이라는 차별성을 중점에 두고 메타빌드의 AI 다음색 보컬 기술을 더욱 발전시켜 현재 서비스 개발 중인 AI 보컬 트레이너, AI 작곡가용 보컬 가이드 등에 적극 활용하는 것은 물론 나아가 디지털 크리에이터로써의 모습도 선보일 예정이다.

보다 다양한 음색과 풍부한 표현력을 갖춘 가상 인간으로써 노래하는 모습과 일상 등의 컨텐츠들로 일반 대중들에게도 한층 더 친숙하게 다가갈 것으로 확신한다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지