데이타솔루션 김종기 전무
[아이티데일리] 챗GPT를 위시로 생성형 인공지능(AI)이 빠르게 확산하고 있다. 기업들은 비즈니스의 새로운 활로를 모색하고자 생성형 AI 도입에 전사적인 노력을 기울이고 있다. 정부도 생성형 AI를 국내 산업계에서 활용할 수 있도록 지원사업을 펼치며 확산의 마중물 역할을 자처하고 있다. 학습된 데이터를 토대로 결과물을 생성하는 생성형 AI 모델을 도입하고 활용하기 위해서는 데이터 수집과 저장, 모델 학습을 하나의 프로세스로 체계화하는 등 데이터 전략이 필요하며 그에 따른 다양한 문제를 해결해야 한다.
본지(컴퓨터월드/IT DAILY)는 2024 데이터 컨퍼런스의 주제를 ‘생성형 AI와 빅 데이터 + α’로 설정하고, 국내 기업과 공공기관에게 생성형 AI를 적용하기 위해 필요한 데이터 수집, 저장, 학습 등 제반 과정부터 생성형 AI에 대한 심도 있는 인사이트를 제공할 수 있는 컨퍼런스를 개최했다. 데이터 컨퍼런스 현장으로 들어가 본다.
트랙 1의 두 번째 발표는 데이타솔루션의 김종기 전무(인프라사업부문장)가 ‘레이크하우스를 위한 AI 플랫폼-테라데이타 밴티지 기반의’를 주제로 진행했다. 김종기 전무는 AI의 기반 데이터 트렌드를 소개했다. 김 전무는 “최근 전 세계 데이터의 규모가 1년에 180ZB 가량 늘고 있다. 또한 데이터를 대체하기 위해 생성, 합성된 데이터와 같이 복잡성도 늘어나고 있다. 그럼에도 데이터 사일로는 유지되고 있고 데이터 사용에 대한 속도도 더딘 상황이다”라며 “AI를 위해선 대량의 고품질 데이터가 필요하고 전사 측면에서 데이터를 통합하고 조정해야 한다. 또한 보안, 신뢰할 수 있는 데이터와 모델이 필요하며, LLM을 사용할 시 유연하고 개방적이며 연결된 생태계를 구축해야 한다”고 말했다.
김 전무는 데이터레이크 저장장치의 변화도 짚었다. 김 전무에 따르면, HDFS 기반에서 구동 시 관리의 어려움과 비용 증가 등 단점으로 오브젝트 스토리지를 선호하고 있다. 오브젝트 스토리지는 엑사바이트 단위로 수평적인 확장이 가능하며, 스토리지 안정성/가용성이 높고 비용이 저렴하다는 장점이 있다. 또한 관리 편의성도 HDFS에 비해 높으며 내장된 보안과 액세스 제어, 원격 DR 구성이 가능하다는 등도 특장점이다. 기존 오픈소스 빅데이터 솔루션 HDFS를 이용해 대용량 데이터레이크 시스템을 구축할 경우, 데이터 처리 성능 특히 핫(HoT) 데이터를 처리하는 데 어려움이 따른다. 특히 복잡한 쿼리가 수행되면 성능은 더욱 저하되고 통합된 메타데이터 관리에도 문제가 발생할 수 있다.
데이타솔루션 김종기 전무는 현대화된 레이크하우스 구현에 적합한 오브젝트 스토리지 기반 레이크하우스 솔루션인 ‘테라데이타 밴티지(Teradata Vantage)’를 소개했다. 김 전무는 “테라데이타 밴티지는 고성능 데이터 분석과 수집을 위한 비용효율적인 레이크하우스다. 안정적으로 확장성 및 워크로드 관리 기능을 구동할 수 있으며, 뛰어난 쿼리 가상화로 이기종 데이터 소스를 쉽게 통합·연동할 수 있다. 분석 모델 학습/평가/배포까지 엔드투엔드 분석 파이프라인 구축도 신속하게 완성할 수 있다”고 설명했다.
이어 김 전무는 “데이타솔루션은 인메모리 DB 기반 AI 분석 플랫폼도 제공하고 있다. 비즈니스 이해, 데이터 이해, 데이터 준비 등 데이터 전처리에 요구되는 과정부터, 학습, 평가, 배포 등 AI/ML 모델 학습 및 배포 등 전 과정을 엔드투엔드로 모두 지원하고 있다”면서 “테라데이타의 클리어스케이프 애널리틱스(ClearScape Analytics)가 제공하는 다양한 인메모리 DB 함수로 데이터 전처리를 생산적이고 비용 효율적으로 할 수 있다”고 덧붙였다.


