데이타솔루션 빅데이터러닝센터 정성원 센터장

[아이티데일리] 생성형 인공지능(AI) 시대, 기업들은 디지털 전환(DX)을 넘어 AI 전환(AX)이라는 파고를 마주하고 있다. 하지만 AI 기술 도입만으로는 기대만큼 성과를 거두지 못하는 사례가 적지 않다.

데이타솔루션 빅데이터러닝센터 정성원 센터장은 문제의 근본 원인을 ‘데이터 분석 역량’과 ‘통계적 이해’ 부족에서 찾는다. 실제 업무에서 쓰이는 목적에 맞게 데이터를 접목할 수 있으려면 현업도 기술 이해도를 갖춰야 한다는 지적이다. 통계 분석 소프트웨어 교육으로 시작해 AI 분야로 영역을 확장하고 있는 데이타솔루션 빅데이터러닝센터의 이야기를 정성원 센터장을 통해 들어봤다.

데이타솔루션 빅데이터러닝센터 정성원 센터장
데이타솔루션 빅데이터러닝센터 정성원 센터장

SPSS 국내 사업과 함께 이어온 교육 프로그램

통계 분석 솔루션 ‘SPSS’는 유서 깊은 역사를 지녔다. 1968년 미국 스탠퍼드 대학에서 노먼 나이(Norman H.Nie)를 비롯한 세 명이 개발한 솔루션으로, 사회과학 분야 연구자들이 통계 분석을 수행하는 데 사용했다. 초창기에는 IBM 메인프레임 컴퓨터용 소프트웨어로 개발됐으나 이후 MS-DOS 용, 애플 매킨토시용, MS 윈도용 제품이 차례로 개발됐다.

SPSS는 편의성을 강점으로 너른 사용자층을 확보했다. 직관적 인터페이스로 구성돼 전문 지식을 갖추지 못한 사람도 손쉽게 다룰 수 있다는 점이 주효했다. 이러한 장점을 바탕으로 SPSS는 오랜 기간 학부생, 대학원생부터 교육, 의료 등 다양한 분야의 연구자까지 활용하는 솔루션으로 자리매김했다.

데이타솔루션은 1990년대부터 SPSS 국내 총판을 맡았다. 기존 SPSS에 회사만의 부가 기능과 서비스를 더한 ‘코리아플러스 스태티스틱스(KoreaPlus Statistics)’로 국내 시장 맞춤형 솔루션을 공급했다. 제품 판매를 넘어 솔루션을 활용하는 파트너를 위해 1990년대 후반부터는 ‘SPSS 아카데미’란 이름으로 교육 프로그램을 제공했다. 기존 사용자는 솔루션을 유용하게 활용하도록 돕는 동시에, 통계의 중요성을 알림으로써 신규 고객을 유치한다는 목표였다.


새 옷 입은 ‘빅데이터러닝센터’…신기술 콘텐츠 확장

데이타솔루션은 이전부터 진행한 아카데미를 2018년 3월 빅데이터러닝센터로 새롭게 문을 열었다. 증가하는 데이터 관련 기술 및 실무 역량 수요에 대응하기 위함이었다. 이를 위해 SPSS 등 통계 소프트웨어 중심 교육에서 빅데이터, AI 등 신기술 분야로 영역을 확대하고자 교육 과정을 개편했다.

우선 온라인 강의 비중을 높였다. 본래 코로나 대유행 시기를 맞아 부득이한 변화였으나, 의료 분야 수강자들로부터 좋은 반응을 얻었다. 바쁜 일정 속에서 수업을 오랜 기간 들을 수 없는 여건이기에 온라인 수업에 대한 수요가 높았기 때문이다. 이에 빅데이터러닝센터에서도 실습 세미나 등 더 많은 수업을 온라인으로 제공하기로 했다.

강의 형태뿐 아니라 수업 내용도 달라졌다. 기존에는 SPSS를 중심으로 한 학술적 내용이 주를 이뤘으나 최근 들어 AI 서비스를 데이터 분석 등 실제 업무에 활용하는 능력을 알려주는 수업이 열리고 있다.

오픈AI의 챗GPT(ChatGPT)가 등장한 후로 IT 부서와 현업을 가리지 않고 AI를 널리 사용 중이다. 데이타솔루션에서도 이 같은 변화에 발맞춰 챗GPT를 주된 콘텐츠로 삼는 커리큘럼을 확대하고 있다.


“통계 분석 역량, AI 시대에도 필요 소양”

AI 기술 발전에도 데이터 분석 역량은 기초 소양으로 요구된다. 데이터 분석은 엔비디아를 위시한 그래픽처리장치(GPU) 인프라에 비해 주목받지 못하고 있다. 하지만 AI가 발전한 수십 년의 역사 동안 통계로부터 시작해 데이터 분석에 이르는 학술적 성과는 기술 개발을 뒷받침해 왔다.

데이터 분석의 중요성이 두드러지는 지점은 ‘좁은 AI(Narrow AI)’다. 좁은 AI란 특정 작업을 수행하기 위해 설계된 AI를 뜻한다. 머신러닝(Machine Learning), 딥러닝(Deep Learning), 자연어 처리(NLP), 기계추론 등이 이에 해당한다. 생성형 AI는 글쓰기, 이미지 생성 같은 창의적 역량에 강점이 있으나 보다 전문화된 업무를 수행할 만큼의 정교함을 갖추진 못했다. 생성형 AI보다 더 너른 영역에서 좁은 AI가 쓰이고 있는 이유다.

정성원 센터장은 “데이터가 많을수록 노이즈(Noise)도 늘어난다. 더욱이 정제되지 않은 데이터를 모델 학습에 사용하면 노이즈는 증폭된다”며 “좁은 AI는 같은 데이터라도 엔지니어링 과정을 어떻게 거치느냐에 따라 결과가 천차만별이다. 따라서 데이터를 다루는 역량이 중요하다”고 강조했다.

이어 정 센터장은 “완성도 높은 AI 모델을 개발하기 위해선 데이터 분석 원리와 한계점을 인지하고 있어야 한다. 아직도 머신러닝, AI를 가르칠 때 수학 통계를 기본으로 삼는 이유”라고 설명했다.

정성원 센터장은 생성형 AI 시대에도 활용도를 높이고 프로젝트를 성공시키기 위해선 통계 분석에 대한 이해도를 갖출 필요가 있다고 강조했다.
정성원 센터장은 생성형 AI 시대에도 활용도를 높이고 프로젝트를 성공시키기 위해선 통계 분석에 대한 이해도를 갖출 필요가 있다고 강조했다.

“AI 기술, 그 근간은 통계 분석”

Q. 데이타솔루션의 ‘빅데이터러닝센터’에 대해 소개해달라.

“빅데이터러닝센터는 통계 분석 소프트웨어인 SPSS 스태티스틱스 교육을 시작으로 현재 AI 분야로 교육 영역을 확장하고 있다. 과거에는 SPSS 교육에 중점을 두었지만 2018년 현재 이름으로 새롭게 문을 연 뒤에는 커리큘럼 다변화를 꿰하고 있다.”

“센터 교육은 크게 두 가지 목적으로 이뤄진다. 첫째는 교육, 의료 등 학술 분야 전문가를 위한 연구 역량 강화 교육이다. 이들은 논문, 보고서 작성을 위해 통계 분석 기술이 필요하다. 센터에서는 커리큘럼을 통해 교육생이 SPSS를 원하는 용도에 사용할 수 있도록 돕고 있다.” “둘째는 의사결정 최적화를 위해 데이터 분석을 공부하는 현업 직장인을 위한 교육이다. 아직 이 비중은 높지 않다. 직원들이 직접 도구 사용법을 배우기보다 우리 회사 같은 전문가들에게 시스템 구축을 의뢰하는 경향이 있기 때문이다. 그럼에도 챗GPT를 시작으로 생성형 AI 사용이 대중화됨에 따라 이와 연관 지어 실제 업무에 AI를 활용하는 역량을 기르기 위해 센터를 찾는 이들이 늘고 있다.”


Q. 생성형 AI 시대에 통계 분석의 가치는 여전한지.

“생성형 AI가 주를 이루는 현재에도 통계 분석은 중요한 위치를 차지한다. 우선 데이터 관리 측면에서 통계 분석이 필요하다. 통계학은 19세기 중반에서 20세기 초반에 크게 발전했다. 산업혁명과 식민지 개척으로 인구가 폭발적으로 늘어나던 시기에 부상했다. 증가한 인구만큼 방대한 정보가 생겼고 이를 효과적으로 분석하고 통찰을 얻기 위한 방법을 찾고 발전시킨 학문이 통계학이다.”

“통계학이 나온 초창기만 해도 데이터양이 적었기에 사람이 직접 계산하는 일만으로도 해결했다. 하지만 기술 발전과 함께 데이터가 급증하며 컴퓨터 프로그램 등을 동원해 작업을 진행하게 됐다. 21세기 들어 천문학적인 수준의 빅데이터가 부상함에 따라 정확한 데이터 내용을 사람이 확인하기란 어려워졌다.”

“빅데이터 환경이 빚는 난점은 ‘노이즈’다. 데이터양이 많아질수록 변수 통제가 어렵기에 그 가운데 정제되지 않는 내용이 포함되기 마련이다. 노이즈란 데이터에 담긴 불필요하거나 부정확한 정보다. 노이즈는 AI 모델이 데이터를 학습하는 과정에서 증폭될 수 있고 이는 잘못된 결과를 유발한다. LLM에서는 ‘환각’ 같은 현상으로 나타난다.”


Q. LLM은 데이터를 정제하지 않고 사용하는 편인데.

“많은 화제를 몰고 다니기에 대중은 생성형 AI가 마치 AI의 전부인 듯 여기지만 실상은 그렇지 않다. 생성형 AI는 모든 일을 다 해결할 수 없다. 잘할 수 있는 영역과 그렇지 못한 영역이 나뉜다. 글쓰기, 프로그래밍, 이미지 생성처럼 일반적인 일은 두루 잘한다. 그러나 매출 예측, 고객 맞춤 관리, 공장 프로세스 효율화 등 전문화된 업무에는 쓸 수 없다.”

“‘좁은 AI’는 생성형 AI보다 더 많은 업무에서 쓰인다. 이는 특정하고 한정된 작업을 수행하도록 설계된 AI를 일컫는다. 생성형 AI가 주목받기 이전에 공정 제어, 의료 진단 등에 쓰이던 기술은 좁은 AI에 해당한다.”

“좁은 AI를 구현하는 데는 머신러닝, 딥러닝, 자연어 처리 같은 기술이 쓰인다. 이들 기술은 학습 데이터를 어떻게 ‘피처 엔지니어링(Feature Engineering)’ 하는가에 따라 정확도가 크게 달라진다. 피처 엔지니어링은 데이터에서 속성과 유의미한 정보를 추출하는 전처리 작업으로, 데이터를 다루는 역량에 좌우된다.”
“생성형 AI는 사전 학습된 기본 모델(Foundation Model)을 구축한 뒤, 이를 미세 조정(Fine Tuning)을 거치거나 검색 증강 생성(RAG) 기법으로 도입하기에 데이터 분석의 중요성이 낮아 보인다. 하지만 일반적 용도가 아닌 전문적인 업무에 생성형 AI를 적용하려면 추가 데이터를 통한 조작이 필요하며 이를 처리하고 전처리하는 역량이 중요하다. 이는 궁극적으로 통계 분석과 이어진다.”


변화 발맞춰 커리큘럼 확장 및 맞춤 교육 강화

Q. 현업에서도 통계 분석을 이해해야 하는 이유는.

“AI를 단순히 ‘가전제품’처럼 생각하고 전문가에게 모든 일을 맡겨서는 도입 효과를 제대로 보기 힘들다. IT 업체나 전산 조직과 소통이 이뤄지지 않는다면 개발자 관점에서 만들기 쉬운 형태로만 만들어진다. 현업에서도 기본 수준이나마 알고리즘, 분석 모델을 이해하고 있어야 보다 명확하게 업무에 적용할 수 있는 AI 시스템 구축이 가능하다.”

“이는 도입 이후 활용 과정과도 연결된다. 프로젝트 과정에서 개발자와 현업이 충분히 소통하지 않는다면 비용만 많이 들였을 뿐 쓸모없는 AI 시스템이 나오고 만다. 일반 사용자도 데이터의 특성, 모델의 작동 원리를 이해하고 있어야 활용할 수 있다. 준비가 없이 만들어진 AI 시스템으로 인해 ‘효과가 떨어진다’, ‘투자수익률(ROI)이 없다’ 등 볼멘소리로 이어지는 것이다.”


Q. 빅데이터러닝센터의 향후 방향성은 무엇인지.

“최근에는 생성형 AI, LLM이 빠르게 확산하며 GPT 관련 교육 과정에 대한 관심도가 높다. 센터에서는 기본 사용법을 넘어 연구 주제 선정, 통계 분석 결과 해석 등 전문화된 업무에 GPT를 활용하는 커리큘럼을 제공하고 있다.”

“아직 시작 단계지만 AI 에이전트가 활성화되면 지금보다 많은 교육 과정을 열 수 있을 것이다. 앤트로픽에서 만든 ‘모델 컨텍스트 프로토콜(MCP)’, 구글의 ‘에이전트 투 에이전트(A2A)’ 등 AI 에이전트를 더욱 유용하게 만들기 위한 기술이 계속 나오고 있다. 이에 힘입어 AI 전환이 활발해진다면 관련 교육 과정이 더 큰 호응을 얻으리라 기대한다.”

“각 교육생 수준에 알맞은 커리큘럼을 제공하기 위한 노력도 지속한다. 개개인이 자신에게 부족한 점을 스스로 깨닫기란 힘들다. 이를 해결하기 위해 센터에서는 ‘DQ’라는 체계를 만들어 교육생이 자신의 데이터활용 역량을 진단하고 적합한 역량강화 교육 프로그램을 선택할 수 있도록 돕고 있다. 현재 홈페이지에서 자가진단 형태로 제공 중이나 차후엔 시험 형태로 정교화하고 개인별 맞춤형 교육서비스와 연계시켜 나갈 계획이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지