[데이터거래사⑥] 데이터 거래 및 유통의 파급효과

주목받는 ‘데이터거래사’, 데이터 시대의 주인공 될 것

2024-06-30     이원재

[아이티데일리] 데이터 시대가 본격 열렸다. 데이터는 디지털 시대의 핵심 자원이자 혁신과 생존의 아이콘으로 떠올랐다. 한 마디로 데이터를 잘 유통시키고, 활용하는 것이 디지털 시대의 핵심 가치라는 것이다. 지난 2021년 데이터 시장 규모는 약 23조 원이고, 연평균 12.6%라는 성장세로 성장가도를 달리고 있다고 한다. 특히 데이터 판매 및 제공 서비스업 매출은 67%로 급증하고 있다고 한다.

그러나 데이터 거래는 불합리한 가격 및 유통채널 부족 등으로 인해 거래환경이 제대로 성숙되지 못 하고 있는 게 현실이다. 정부는 이에 따라 지난 2021년 10월 데이터 산업 및 이용촉진에 관한 기본법을 제정했고, 지난해 4월부터 시행하고 있다. 이를 근거로 ‘데이터거래사’가 탄생했다. 올해 초 52명의 데이터거래사가 처음으로 배출되기도 했다. 이들은 법에서 정한 데이터 가치평가, 데이터 유통 및 거래 등을 하며 데이터 경제시대에 필요한 역할을 할 것으로 본다. 한 마디로 데이터거래사가 데이터 시대의 주인공이 된다고 할 수 있다.

본지는 이에 따라 데이터거래사와 관련, 어떤 데이터들이 어떻게 거래되고 있고, 거래 시장은 어디이고, 어떻게 유통되고 있는가? 또한 각종 제도 및 법적 장치, 데이터거래사 자격은 어떻게 취득할 수 있는지 등에 대해 데이터거래 전문가들을 통해 ‘전문가 강좌’를 연재한다.

이원재 거래사

<주요 약력>
비즈밈 대표
공학박사, 데이터거래사, 정보관리기술사, 정보시스템감리사
(전) 베트남 정보통신전략원(NIICS) 빅데이터 자문관
KBS 연수원 전임교수

데이터과학의 기원

“인간은 수천 년 동안 사냥꾼이었다. 수도 없이 사냥감을 뒤쫓으며 진흙 속의 흔적, 부러진 나뭇가지, 배설물, 털뭉치, 뒤얽힌 깃털, 아직 가시지 않은 냄새 등을 통해 보이지 않는 사냥감의 모양과 움직임을 재구성하는 방법을 배웠다.”

역사학자 카를로 간즈부르그에 의하면 인간은 본래부터 소위 ‘데이터과학자’였다. 생존을 위해 타액과 같은 극도로 미세한 흔적을 냄새 맡고, 기록하고, 해석하고, 분류하는 법을 배웠다. 이는 생존을 위해 필수불가결한 것이었다.

인간은 늘 살아남는 문제에 직면해 있었다. 각 개인이 아니라 사회집단의 일원으로 어떻게 살아남는가라는 문제였다. 인간이 계속 생존해 온 사실 자체가 인간이 이 문제를 해결하는 데 성공했다는 것을 암시한다. 인간은 ‘경제’라는 특수한 분야를 만들어 냈다.


경제적 인센티브의 중요성

데이터는 본래부터 가치를 지니고 있었다. 가치를 지니고 있는 것을 사고 파는 것은 너무나 자연스러운 일이다. 애담 스미스는 그의 저서 <국부론>을 통해 그의 놀라운 통찰력을 보여줬다. 우리에게 너무나 익숙하고 친숙한 용어인 ‘보이지 않는 손’은 시장의 법칙이 경제에 적용돼야 한다는 것이며, 데이터 유통거래 또한 예외가 아니다.

시장의 법칙에서 그 으뜸은 단연 인센티브가 아닐 수 없다. 우리는 가깝지만 너무 다른 두 도시를 살펴보면서 인센티브의 중요성을 새삼 확인할 수 있다. 노갈레스라는 도시는 담장으로 허리가 뚝 끊겨 있다, 이 담벼락을 기준으로 북쪽은 미국 애리조나 주에 속해 있고, 남쪽은 멕시코 소노라 주에 속해 있는데, 익히 알고 있듯이 경제활동이 자유로운 미국 애리조나 주에 속한 노갈레스는 경제활동 인센티스가 거의 주어지지 않는 멕시코 소노라 주의 노갈레스보다 연평균 가계수입이 3배가 된다는 것은 이상한 일이 아니다. 이러한 사실은 아주 가까운 사례로 남과 북으로 분단된 우리나라를 살펴봐도 쉽게 이해된다.


양면시장의 위력

역사에 남는 성공적인 비즈니스 모델을 꼽아보라고 하면, 당연히 인터넷에 기반을 둔 비즈니스일 것이다. 인터넷 비즈니스는 전통적인 경제학 개념을 뒤흔들었다. 전통 경제학에서는 생산의 3요소로 토지, 자본, 노동을 거론했지만, 인터넷 기반 비즈니스는 이러한 개념을 송두리째 흔들면서 양면시장(Two-sided Markets)이라는 새로운 개념을 만들어 냈다. 이 개념은 브로커 또는 플랫폼을 중심에 둔 새로운 형태의 비즈니스 모델이다.

구글, 애플, 아마존, 메타 등 모든 플랫폼 기업은 사실 브로커 역할을 잘 이해한 기업들이다. 그들이 만들어 내는 시장의 한쪽 편에는 가치를 만들어 내는 그룹 A가 있고, 그 반대편에는 그 가치를 활용하는 그룹 B가 있다. 아래 <그림 1>에서 표현된 것과 같이 두 개의 사용자 그룹은 서로 상승효과를 만들어 내는데, 중요한 점은 시간이 흐를수록 그 두 그룹은 자연스럽게 스스로 성장한다는 것이다. 이러한 매커니즘이 플랫폼 비즈니스의 특징이면서 매력이기도 하다.

그림 1. 두 개의 사용자 그룹을 지닌 시장 (Two-sided Markets)

정부에서는 지난 2022년 4월 22일에 시대 흐름에 맞춰 데이터 거래 활성화를 목적으로 하는 ‘데이터 산업진흥 및 이용촉진에 관한 기본법’을 시행했다. 이 법의 내용을 참고해 데이터 거래 체계를 단순화하면 <그림 2>로 표현할 수 있으며, 데이터거래사는 개인사업자로서 활동할 수도 있고 또는 데이터 거래소에 소속돼 일할 수도 있다.

그림 2. 데이터 거래 체계 – 데이터 거래사의 중계 역할 (출처: 데이터 거래 활성화를 위한 거래소‧거래사‧크롤링의 현황과 개선 과제(국회입법조사처))

우리나라 데이터산업의 규모는 지난 5월에 데이터산업진흥원에서 발간한 ‘2023 데이터산업 현황조사’에 잘 나타나 있다. 우리나라의 데이터산업 시장은 2023년 말 기준 27조 1,513억 원 규모로 전년도 대비 4.6% 증가했다. 이 중 데이터 판매 및 제공 서비스업은 13조 3,352억 원으로 데이터산업 전체의 49.1%라는 큰 비중을 차지하고 있다.


생태계 임계점

데이터산업진흥원에서 우리나라 데이터 거래 현황을 조사한 결과에 의하면, 2023년 말 기준으로 데이터 거래 경험이 있는 기업은 75.4%로 일 년 전 28.7%에 비해서 대폭 증가했다. 이는 매우 고무적인 일이 아닐 수 없다. 특히, 데이터 구매 목적을 살펴볼 때, 비즈니스 전략 수립을 위한 데이터 분석이라는 용도가 54.0%로 가장 높은 수치를 보여 데이터 구매가 기업 전략적 차원에서 이루어지고 있다는 것을 알 수 있다.

데이터 거래 시의 애로사항으로는 구매 데이터의 가격 부담 39.4%, 쓸만한 양질의 데이터 부족 31.3%, 데이터 소재 파악 및 검색의 어려움 29.3%의 순으로 밝혀졌는데, 현재 정부에서는 데이터 가치평가, 데이터 품질인증 그리고 데이터거래사 제도를 정착시키기 위해 많은 노력을 기울이고 있어서 이러한 애로사항도 점차 해소될 것으로 보인다. 데이터 산업은 일종의 임계점을 넘어가고 있는 것으로 보인다.

데이터 유통과 거래는 전형적인 플랫폼 비즈니스 모델의 특성을 지니고 있다. 데이터를 만들어 내는 그룹과 데이터를 사용하는 그룹이 각각 스스로 성장하는 매커니즘을 지니고 있으며 이 둘 간에 상호 상승효과를 만들어 내는 데 그 매커니즘의 중앙에 데이터 플랫폼 기업 또는 데이터거래사가 자리 잡고 있다.

데이터는 그 한계비용이 제로에 가깝다. 즉, 규모의 경제(Economies of Scale)와 범위의 경제(Economies of Scope)라는 냉혹한 승자독식(Winner-Take-All) 다이내믹스가 작동되기 쉽다. 이러한 매커니즘의 효과는 투자비용의 규모가 커지고, 그 다이내믹 효과가 순방향(Reinforcing Loop)일 때 더욱 강력하게 나타난다. 거대 데이터를 보유하고 있는 기업들은 방대한 데이터를 무기로 정교한 사업전략을 수행하면서 매우 높은 수익을 창출하게 될 것이고, 반면에 소기업들은 상대적으로 심한 어려움을 겪을 수도 있다.


거대언어모델 경제

2017년 구글에서 역사적인 트랜스포머 아키텍처를 발명한 후, 불과 1년 후인 2018년 중반에 오픈AI는 GPT-1을 발표했다. 2019년 초 GPT-2를 공개했으며, 2022년에 GPT-3를 공개했다. 이때까지만 해도 거대언어모델은 일반일들에게는 다소 거리가 있었다. 그런데 2023년 3월, 오픈AI가 GPT-4를 발표하자 상황은 급하게 돌아가기 시작했다.

GPT-4는 이전보다 매우 안정적이고 유용한 답변을 제공하면서 곧 실용화 단계로 접어들었다. 그 실용성과 매력적인 성능에 일반인도 유료 버전에 가입해서 사용 중에 있으며, 인공지능 기업들도 오픈AI의 유료 API를 활용해서 GPT-4를 특정 기업 맞춤형 거대언어모델로 커스터마이징하고 있다. 오픈AI는 곧 GPT-5를 출시할 계획이다.

오픈AI, 딥마인드, 메타AI, 아마존 등은 이미 전 세계 데이터를 활용해 사전훈련된(Pre-trained) 거대언어모델 원형을 만들었다. 거대언어모델은 만드는 데 천문학적인 비용이 들기 때문에 여건이 되지 않는 많은 기업은 이러한 사전훈련된 거대언어모델 원형을 커스터마이징해 자사 기업에 적합한 언어모델로 전환하는 작업(Transfer Learning)을 진행하게 될 것이다.

이러한 작업에는 대용량의 인공지능 학습데이터가 필요하다. 바야흐로 세계는 알고리즘 코딩의 시대를 넘어 그 초점이 인공지능 학습데이터를 설계하고 그 데이터를 만들어 내야 하는 시대가 되었다. 이러한 흐름은 시간이 흐를수록 기속화될 것이고, 이에 따라 데이터의 유통도 경제의 핵심으로 자리매김하게 될 것이다. 데이터와 데이터가 결합하는 경우에는 그 가치는 더욱 커지게 되므로 데이터의 유통과 거래는 범위의 경제 효과를 발현시키면서, 경제적, 사회적, 기술적으로 점점 더 큰 영향력을 만들어 낼 것이다.


맺음말

모든 경제활동의 중심에는 인센티브가 놓여있어야 한다. 데이터 산업 역시 예외가 될 수 없다. 재화가 거래되고 있지 않을 때, 그 경제는 붕괴된 것이며 그 산업의 발전은 기대할 수 없다. 데이터의 거래와 유통은 데이터 산업의 부수적인 것이 아니고 데이터 산업의 본질이며 핵심이다.

데이터 유통 거래는 시장 성장을 촉진하고 비용 절감과 효율성을 높이고, 기업 경쟁력 또한 강화해 새로운 비즈니스 모델을 창출해 경제 전반에 걸친 창조적 파괴를 이끌어 낼 것이다.

데이터의 유통과 활용이 만들어 내는 영향력이 큰 만큼, 이에 걸맞는 사회적 책임, 윤리적 책임 역시 강조돼야 할 것이다. 인간은 오래전 수렵 시절부터 데이터를 수집하고, 기록하고, 분석하면서 생존해 왔다. 알고리즘 코딩이라는 먼 길을 돌아 다시 데이터가 주인인 시대로 돌아왔다.

참고문헌

1. 로버트 L. 하일브르너 지음, 장상환 옮김, “세속의 철학자들-위대한 경제사상가들의 생애, 시대와 아이디어”, 이마고, 2005
2. 피터 브룩스 지음, 백준걸 옮김, “스토리의 유혹-네러티브 사용과 남용”, 엘피, 2022
3. 대런 애쓰모글루, 제임스 A.로빈슨 지음, 최완규 옮김, “국가는 왜 실패하는가”, 시공사, 2012
4. Thomas Eisenmann, Geoffrey Parket, and Marshall W. Van Alstyne, “Strategies for Two-sided Markets”, Havard Business Review, 2006
5. 한국데이터산업진흥원, “2023 데이터산업 현황조사”, 과학기술정보통신부, 2024
6. Humza Naveed, et al., “A Comprehensive Overview of Large Language Models”, github, 2023
7. 올리비에 케일린, 마리-알리스 블레트 지음, 이일섭 옮김, “GPT-4를 활용한 인공지능 앱 개발”, 한빛미디어, 2023
8. 정준화·박소영, “데이터 거래 활성화를 위한 거래소‧거래사‧크롤링의 현황과 개선과제”, 국회입법조사처, 2022