네이버연구소 하정우 소장(네이버클라우드 센터장)
[아이티데일리] 챗GPT를 위시로 생성형 인공지능(AI)이 빠르게 확산하고 있다. 기업들은 비즈니스의 새로운 활로를 모색하고자 생성형 AI 도입에 전사적인 노력을 기울이고 있다. 정부도 생성형 AI를 국내 산업계에서 활용할 수 있도록 지원사업을 펼치며 확산의 마중물 역할을 자처하고 있다. 학습된 데이터를 토대로 결과물을 생성하는 생성형 AI 모델을 도입하고 활용하기 위해서는 데이터 수집과 저장, 모델 학습을 하나의 프로세스로 체계화하는 등 데이터 전략이 필요하며 그에 따른 다양한 문제를 해결해야 한다.
본지(컴퓨터월드/IT DAILY)는 2024 데이터 컨퍼런스의 주제를 ‘생성형 AI와 빅 데이터 + α’로 설정하고, 국내 기업과 공공기관에게 생성형 AI를 적용하기 위해 필요한 데이터 수집, 저장, 학습 등 제반 과정부터 생성형 AI에 대한 심도 있는 인사이트를 제공할 수 있는 컨퍼런스를 개최했다. 데이터 컨퍼런스 현장으로 들어가 본다.
2024 데이터 컨퍼런스의 기조연설은 네이버연구소 하정우 소장(네이버클라우드 센터장)이 ‘챗GPT 1년, 초거대 AI가 불러온 변화와 우리의 대응전략’을 주제로 진행했다. 하정우 소장은 생성형 AI의 중요성을 강조했다. 미국 국가안보회의(NSC) AI 안전보장이사회 보고서에는 AI 기술을 지속적으로 고도화하는 것이 양자, 국방, 헬스케어 등 전 산업 분야의 경쟁력 향상과 직결된다는 내용이 담겼다. 미국 바이든 행정부는 이 보고서 로드맵에 따라 다양한 정책, 제도, 기술 발전에 대한 방향을 수립하고 있는 상황이다.
하정우 소장은 “생성형 AI는 규모의 법칙(Scailing Laws)을 따른다. AI 모델에 매개변수의 크기에 준해 데이터의 양을 늘렸을 때 기존에 발견되지 않았던 새로운 능력이 발현된 것이 생성형 AI라고 할 수 있다”고 생성형 AI의 특성을 정의하며, “2022년 공개된 오픈AI의 GPT-3가 10의 18제곱에 달하는 연산을 수행했다. 최근 구글이 발표한 모델의 경우 10의 25제곱에 달하는 학습을 했다. 2년 만에 1,000만 배 많은 학습을 한 셈이다. 이 과정에서 모델의 크기와 데이터의 양도 중요하지만 보다 핵심적인 요소가 바로 사전학습에 필요한 편향성 없는 데이터다. 사람이 생산하지 않은 데이터가 생성형 AI의 편향에 지대한 영향을 줄 것이다. 실제로 ‘지구는 평평하다’, ‘천동설’ 등 인간이 만든 데이터 오류가 이미 확산됐을 수도 있다. 신뢰할 수 있는 AI를 개발하기 위해선 ‘사람이 만들지 않은 데이터(Synthetic Data)’로 기술을 연구하는 것이 중요하다”고 데이터 체계의 중요성을 강조했다.
아울러 하정우 소장은 기술 종속성과 문화, 제도, 역사, 가치, 사회규율 등의 연관성을 소개하며 기술 종속을 탈피해야 한다고 설명했다. 하정우 소장은 “생성형 AI 기술 자체를 확보하는 것만큼 중요한 것이 있다. 바로 독자적인 생성형 AI 기술력을 확보하는 것이다. 미국은 칩스법으로 인텔에 100억 달러를, TSMC 미국 공장에 10조 원을, 삼성전자에 9조 원에 달하는 보조금을, 일본은 소프트뱅크에 680억 원을 지원했다. 프랑스는 20억 유로를 지원하며 미스트랄 AI를 탄생시켰다. 사우디아라비아와 아랍에미리트는 GPU를 사재기했다”면서 “생성형 AI 기술에 각국이 투자하는 이유는 무엇일까. 바로 그 국가의 문화, 제도, 역사, 가치, 사회규율 등에 지대한 영향을 주기 때문이다. 챗GPT가 국내에서 많이 쓰였다. 하지만 챗GPT는 한국어를 정말 잘하는 북미 사고관을 가진 미국인이다. 한국에 대한 문화를 미국 사고관에 기반을 두고 말하도록 하는 격이다. 전기와 인쇄기술 이후 최대의 혁명인 생성형 AI 기술은 국가 AI 경쟁력을 넘어, 가치관에도 많은 영향을 줄 것이다”라고 부연했다.
마지막으로 하정우 소장은 네이버클라우드가 출시한 초거대 AI ‘하이퍼클로바X’의 기능과 향후 사업계획도 소개했다.


