이태진 ETRI 미디어부호화연구실 실장/책임연구원

▲ 이태진 한국전자통신연구원 미디어부호화연구실 실장/책임연구원

[아이티데일리]

AI, 빅데이터 등을 중심으로 4차 산업혁명이 본격 시작됐다. 즉 미래 먹거리 시장을 둘러싼 패권경쟁이 본격화 된 것이다. 다시 말해 4차 산업혁명을 누가 주도해 나가느냐에 따라 국가 산업 및 경제 발전의 향방이 크게 달라질 수 있다는 것이다. 때문에 4차 산업혁명은 반드시 우리나라가 앞장서 나갈 수 있도록 여건을 만들어나가야만 한다는 게 전문가들의 지적이다. 특히 자원이 부족한 반면, 우수한 인력을 갖고 있는 만큼 잘만 하면 그 어느 나라에 못지않게 앞서 나갈 수 있다는 것이다. 통신 기술 및 인프라를 비롯해 SW 기술력 등을 많이 확보해 놓고 있기 때문이라는 것이다.

본지는 이에 따라 국내 ICT 산업 발전의 두뇌역할을 하고 있는 한국전자통신연구원(ETRI)에 의뢰해 미래 먹거리 및 일자리 창출에 지대한 영향을 미칠 것으로 판단되는 주요 아이템을 중심으로 관련 전문가들의 강좌를 1년 동안 게재한다. 즉 그들의 예리한 시각과 분석을 바탕으로 국내는 물론 세계 시장을 주도할 기술, 그 기술에 대한 글로벌 트렌드, 그 기술과 국내 기술과 맞물린 현 상황, 그리고 현안 문제 및 나아갈 방향 등을 짚어본다. <편집자 주>

 

■ 인간의 삶을 바꾸는 미래 ICT 전망 (2019년 11월호)
■ 바이오헬스 로봇의 현황과 전망 (2019년 12월호)
인공지능 시대의 초성능 컴퓨팅 (2020년 1월호)
■ 사용자 통신환경을 바꿔보자 (2020년 2월호)
알파고 은퇴 후 컴퓨터 바둑 현황 (2020년 3월호)
미디어 부호화 기술의 현재와 미래 (이번호)
■ 사이버 대변인
■ 자율 이동체 시각지능 기술의 미래(사람 눈보다 강건한 RGB-Lider 기술)


미디어 부호화 기술은 비디오/오디오 신호에서 인간이 인지할 수 없는 데이터를 제거해 품질 손실을 최소화하면서 데이터양을 줄이기 위한 기술로 모든 미디어 서비스의 기반이 되는 원천기술이다.

2017년부터 우리나라에서 세계 최초로 지상파를 통해 서비스되고 있는 UHD(Ultra High Definition) 방송에서 사용하고 있는 비디오 신호의 데이터양은 최대 14.9Gbps이고 오디오 신호의 데이터양은 최대 18.4Mbps이다. 따라서 고용량의 비디오/오디오 신호에 대한 압축 없이는 UHD 서비스를 제공할 수 없다.

국내 UHD 방송에서는 HEVC(High Efficiency Video Coding)와 MPEG-H 3D Audio 기술을 비디오/오디오 부호화 표준으로 사용하여, 비디오 신호는 1/200, 오디오 신호는 1/11로 압축한 후 전송하고 있다. 이번 호에서는 MPEG(Moving Picture Experts Group)을 중심으로 비디오/오디오 신호에 대한 부호화 기술 개발 및 표준화 동향과 전망을 기술한다.


비디오 부호화 기술의 개념 및 표준화 동향

디지털 비디오 신호의 화질 손실을 최소화하면서 데이터양을 줄이기 위한 비디오 부호화 기술은 1980년 후반부터 ISO/IEC MPEG과 ITU-T VCEG(Video Coding Experts Group)을 중심으로 기술개발과 표준화를 진행하고 있다.

비디오 신호의 데이터양은 화면에 표현 가능한 가로, 세로 픽셀의 수를 의미하는 해상도, 밝기와 색상을 분리해 처리하는 YUV의 크로마 서브샘플링, 비디오 샘플당 비트수인 비트심도, 초당 재생하는 화면의 수를 의미하는 프레임율을 이용하여 계산한다. 예를 들어 HD 방송인 경우 1920×1080(해상도)×1.5(YUV 크로마 서브샘플링 4:2:0)×8(비트심도)×30(프레임율) = 746Mbps의 데이터양을 가지며, UHD 방송을 위한 고품질 비디오 신호인 경우 3840×2160(해상도)×1.5(YUV 크로마 서브샘플링 4:2:0)×10(비트심도)×120(프레임율) = 14.9Gbps의 데이터양을 가진다.

비디오 신호의 데이터양을 줄이기 위한 쉬운 방법은 해상도, 비트심도, 프레임율을 줄이는 것이다. 하지만 해상도를 줄이면 낮은 화질로 인해 몰입감이 저하되고, 비트심도를 줄이면 영상에 왜곡이 발생하며 프레임율을 줄이면 자연스럽지 못한 영상이 재생된다. 따라서 최대한 비디오 신호의 화질을 유지하면서 데이터양을 줄이기 위한 비디오 부호화 기술이 필요하다.

비디오 부호화 기술은 비디오 신호에 포함된 시간과 공간 중복성을 제거하고 남은 차분 신호에 대해 주파수 영역으로 변환한 후 양자화와 엔트로피 코딩을 하는 방법으로 압축을 수행한다.

MPEG에서는 CD와 같은 저장 매체를 위한 1세대 비디오 부호화 기술인 MPEG-1부터 8K 고화질 영상과 HDR(High Dynamic Range), 360VR(Virtual Reality)을 모두 지원하는 5세대 비디오 부호화 기술인 VVC(Versatile Video Coding)까지 다양한 비디오 부호화 기술에 대한 기술개발과 표준화를 진행했다(<그림 1>). HDTV와 같은 디지털 TV 방송을 위한 MPEG-2 표준화부터는 ITU-T와 같이 공동으로 표준화를 진행하였다. 비디오 부호화 기술은 세대를 거듭하면서 2배 압축률 향상을 목표로 기술개발과 표준화를 진행하고 있으며, MPEG-2는 원본 신호 대비 1/50 압축을 제공한다.

MPEG과 VCEG은 현재 시장에서 가장 많이 사용하고 있는 3세대 비디오 부호화 표준인 AVC(Advanced Video Coding)를 2003년에 표준화하였으며, 원본 신호 대비 1/100 압축을 제공한다. AVC의 압축률을 2배 개선하기 위한 4세대 비디오 부호화 표준인 HEVC는 2013년에 표준화가 완료되었으며, 우리나라를 포함한 전 세계 4K UHD 방송의 비디오 부호화 기술로 활용되고 있다.

4K를 넘어서 8K 초고해상도 영상과 가상현실 서비스에 대한 시장의 요구에 대응하기 위해 MPEG에서 현재 표준화를 진행하고 있는 5세대 비디오 부호화 표준인 VVC는 8K UHD와 같은 고화질 영상과 함께 HDR, 360VR 등 다양한 포맷의 비디오 신호를 지원하며 원본 신호 대비 1/400 압축이 가능하다.

▲ <그림 1> 비디오 부호화 기술 표준화 동향


오디오 부호화 기술의 개념 및 표준화 동향

디지털 오디오 신호의 음질 손실을 최소화하면서 데이터양을 줄이기 위한 오디오 부호화 기술은 1980년대 후반부터 MPEG을 중심으로 기술개발과 표준화를 진행하고 있다.

오디오 신호의 데이터양은 초당 획득한 샘플 수인 샘플링율과 채널 수, 획득한 샘플을 디지털로 표현하기 위한 비트 해상도를 이용하여 계산한다. 예를 들어 스테레오 신호인 경우 44,100(샘플링율)×2(채널 수)×16(비트 해상도) = 1.4Mbps의 데이터양을 가지며, UHD 방송을 위한 다채널 오디오 신호인 경우 48,000(샘플링율)×16(채널 수)×24(비트 해상도) = 18.4Mbps의 데이터양을 가진다.

오디오 신호의 데이터양을 줄이기 위한 쉬운 방법은 샘플링율, 비트 해상도, 채널 수를 줄이는 것이다. 하지만 채널 수를 줄이면 다채널 오디오 신호에 의한 스테레오 이미지가 약해져서 몰입감이 저하되고, 샘플링율을 줄이면 고주파 신호가 없는 대역 제한된 신호가 생성되며, 비트 해상도를 줄이면 양자화 잡음이 발생한다. 따라서 최대한 오디오 신호의 음질을 유지하면서 데이터양을 줄이기 위한 오디오 부호화 기술이 필요하다.

오디오 부호화 기술은 심리음향 모델을 이용하여 오디오 신호를 인간이 들을 수 있는 신호와 들을 수 없는 신호로 구분하고, 들을 수 있는 신호 위주로 비트를 할당하는 방법으로 압축을 수행한다.

MPEG에서는 1세대 오디오 부호화 기술인 MPEG-1 오디오 부호화 표준을 시작으로 5세대 오디오 부호화 기술인 MPEG-H 3D Audio까지 다양한 오디오 부호화 기술에 대한 기술개발과 표준화를 진행하였다(<그림 2>). 오디오 부호화 기술 중 가장 잘 알려진 MP3 기술이 바로 MPEG-1 오디오 부호화 기술이다. MPEG-1 오디오 부호화 기술의 음질과 압축률을 개선한 2세대 오디오 부호화 기술인 AAC(Advanced Audio Coding), 오디오 신호의 고주파수 대역과 스테레오 정보를 파라미터로 표현하여 압축률을 개선한 3세대 오디오 부호화 기술인 HE-AAC v1/v2가 2천년대 초반에 표준화되었다.

이후 음성과 오디오 신호 모두에 대해 우수한 음질을 제공하는 오디오 압축기술인 USAC(Unified Speech and Audio Coding)이 표준화되었고, UHD 방송과 같이 멀티채널 오디오와 객체 오디오, 장면 오디오를 모두 지원하는 5세대 오디오 부호화 표준인 MPEG-H 3D Audio가 개발되었다.

UHD 오디오 서비스는 몰입감과 개인화라는 키워드로 정의할 수 있다. UHD 오디오는 기존 스테레오나 5.1채널의 수평면 음상 정위를 넘어 수직면까지 음상 정위를 제공하는 다채널 오디오 기술과 헤드폰 환경에서 3D 입체음향을 제공하는 바이노럴 기술을 활용하여 기존 5.1채널을 넘어서는 몰입감을 제공한다. 개인화는 개인의 취향에 따라 오디오 신호를 제어할 수 있는 서비스로 예를 들어 스포츠 중계에서 아나운서와 해설자의 음성만을 크게 하여 좀 더 명료한 방송을 청취하거나, 관중과 현장의 소리만 크게 하여 더 현장감 있는 서비스를 받을 수 있다.

오디오 부호화 기술은 4세대까지는 압축률 향상을 목표로 기술개발과 표준화가 진행되어 왔고, 5세대 표준부터 압축률 향상과 함께 다채널, 다객체 지원과 렌더링 지원과 같은 부가적인 기능을 포함하여 기술개발과 표준화를 진행하였다.

▲ <그림 2> 오디오 부호화 기술 표준화 동향


미디어 부호화 기술의 미래

미래 미디어 서비스는 가상과 현실의 경계를 허무는 초실감 서비스를 통해 사용자가 3차원 가상공간을 자유롭게 이동하면서, 가상과 현실의 차이를 느낄 수 없는 서비스를 추구한다. 초실감 서비스를 위한 비디오 기술은 2D 평면시청의 제약을 넘어 공간과 객체를 입체적으로 표현하고 공간 내에서 자유로운 시점변화가 가능한 6DoF(Degree of Freedom) 입체공간 서비스로 발전할 것이다.

6DoF 입체공간 서비스에서 포인트클라우드를 사용하는 경우(72M개의 포인트와 수평/수직 각 12도 간격의 시점변화를 가정) 48.6Tbps라는 엄청난 데이터가 발생하므로 기존 2D 평면압축 방식으로는 서비스할 수 없다. 따라서 입체공간 비디오에 특화된 새로운 초고압축 비디오 부호화 기술에 관한 연구가 필요하며, MPEG에서는 VVC의 표준화가 완료되는 2021년 이후 본격적으로 입체공간 비디오에 대한 표준화 논의가 시작될 것으로 판단된다.

초실감 서비스를 위한 오디오 기술은 가상공간에서 실시간 소통과 고품질의 체험을 제공할 수 있어야 한다. 하지만 현재 오디오 부호화 기술은 고품질의 서비스를 제공할 수 있지만, 지연시간이 크기 때문에 실시간 서비스를 제공할 수 없고, 통화를 위한 음성 부호화 기술은 실시간 소통을 제공할 수 있지만, 고품질의 서비스를 제공할 수 없다. 따라서 미래 초실감 서비스를 제공하기 위해서는 저지연 특성과 고품질 특성을 모두 만족하는 새로운 오디오 부호화 기술이 필요하다.

현재 MPEG 오디오 서브그룹에서는 가상공간에서 사용자의 움직임에 따른 자연스러운 음향효과 제공을 위한 MPEG-I 오디오 표준에 대해 논의 중이며, MPEG-I 오디오 표준화가 완료되는 2023년부터 본격적으로 저지연과 고품질을 모두 제공하는 새로운 오디오 부호화 표준에 대한 논의가 시작될 것으로 판단된다.

최근 ICT 산업을 비롯하여 거의 모든 분야에서 인공지능(AI: Artificial Intelligence) 기술을 적용함으로써 생산성 향상을 도모하고 있다. 미디어 부호화 기술 분야에 있어서도 예외일 수 없으며, 전통적인 미디어 부호화 기술에 AI 기술을 적용함으로써 더욱 높은 압축률 향상을 위한 연구가 활발히 이루어지고 있다.

전통적인 비디오 부호화 기술은 시간 중복성, 공간 중복성, 데이터 중복성을 줄이기 위해 <그림 3>과 같이 화면간 예측, 화면내 예측, 주파수 변환, 양자화 및 엔트로피 부호화 등 다양한 압축 툴을 통해 비디오 데이터를 압축하게 되는데, AI 기반의 비디오 부호화 기술은 상기 압축 툴을 AI 기반의 새로운 압축 툴로 대체함으로써 기존 비디오 부호화 기술의 압축 성능을 더욱 향상시키고자 한다. 그리고 비디오 부호화 전 과정을 하나의 신경망으로 처리하는 단일 신경망 기반 비디오 부호화 기술도 가능하다. 또한 AI 기술을 활용하여 비디오 부호화 기술의 인코더를 제어하거나 후처리를 통한 화질 개선도 가능하다.

▲ <그림 3> AI를 활용한 비디오 부호화 기술

오디오 부호화 기술에도 AI를 적용할 수 있다. <그림 4>와 같이 오디오 신호를 코어대역과 중대역, 고대역으로 분리하고, 음질에 가장 민감한 코어대역은 선형예측과 잔차신호에 대해 AI 기술을 활용하여 압축을 수행하고, 중대역 신호는 AI를 활용한 예측을 통해 손실된 주파수 정보를 복원하는 방법으로 압축효율을 향상시킬 수 있다. 고대역 신호는 비트할당을 최소화하면서 음질 손상을 최소화 하기 위해 오토인코더와 같은 신경망 기반의 차원 축소 기술과 선형 양자화 기술을 적용하여 압축효율을 향상 시킬 수 있다.

최근 MPEG에서도 AI 기반의 비디오/오디오 부호화 기술에 대한 논의를 진행하고 있으며, 앞으로 6세대 비디오/오디오 부호화 표준화에서는 AI 기술이 본격적으로 활용 될 것으로 기대된다.

▲ <그림 4> AI를 활용한 오디오 부호화 기술


결론

우리는 인공지능 기반의 제4차산업혁명이라는 대 변혁의 시대를 살고 있다. 이러한 변화의 흐름에 정보통신기술(ICT)이 그 중심에 있으며, 우리가 생활 속에서 가장 많이 접하는 ICT 기술이 미디어 기술이다. 가상과 현실의 경계를 허무는 미래 미디어 서비스는 초대용량의 비디오/오디오를 기본으로 하고 있으므로, 미디어 부호화 기술은 미래 미디어 서비스를 위한 핵심기술이다.

우리나라는 ICT 분야의 다양한 응용기술을 세계 최초로 개발한 사례가 많지만, 원천기술 확보가 미흡하여 막대한 로열티를 지불하고 있다. 하지만 최근 미디어 부호화 기술의 경우에는 ETRI를 비롯하여 국내 대기업과 학계를 중심으로 활발한 연구를 진행하여 세계와 동등한 수준의 연구개발 성과를 보여주고 있다.

ICT 강국 대한민국에서 미래 미디어 서비스를 위한 기반 기술인 미디어 부호화 기술의 한계에 도전하여, 우리의 손으로 새로운 미디어 부호화 기술의 미래를 이끌어 가기를 기대해 본다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지