데이타벅스 송정욱 이사
[아이티데일리] 챗GPT를 위시로 생성형 인공지능(AI)이 빠르게 확산하고 있다. 기업들은 비즈니스의 새로운 활로를 모색하고자 생성형 AI 도입에 전사적인 노력을 기울이고 있다. 정부도 생성형 AI를 국내 산업계에서 활용할 수 있도록 지원사업을 펼치며 확산의 마중물 역할을 자처하고 있다. 학습된 데이터를 토대로 결과물을 생성하는 생성형 AI 모델을 도입하고 활용하기 위해서는 데이터 수집과 저장, 모델 학습을 하나의 프로세스로 체계화하는 등 데이터 전략이 필요하며 그에 따른 다양한 문제를 해결해야 한다.
본지(컴퓨터월드/IT DAILY)는 2024 데이터 컨퍼런스의 주제를 ‘생성형 AI와 빅 데이터 + α’로 설정하고, 국내 기업과 공공기관에게 생성형 AI를 적용하기 위해 필요한 데이터 수집, 저장, 학습 등 제반 과정부터 생성형 AI에 대한 심도 있는 인사이트를 제공할 수 있는 컨퍼런스를 개최했다. 데이터 컨퍼런스 현장으로 들어가 본다.
데이타벅스의 송정욱 이사(기술 총괄)는 ‘Real Stories about Striim CDC & Streaming Integration’를 주제로 발표했다.
송정욱 이사는 발표에 앞서 스트림(Striim)이라는 솔루션 및 기업을 소개했다. 스트림은 2012년도 오라클의 골든게이트라는 CDC를 개발한 기술인력들이 창업한 회사로 실시간 스트리밍 분석에 특화된 솔루션을 공급하고 있다. 스트림 솔루션은 다양한 형태의 소스들을 연결하는 커넥터와 파드를 제공해 실시간으로 데이터를 수집해 내부 처리한 후 다양한 형태의 타깃에 실시간으로 데이터를 스트리밍한다.
송정욱 이사는 AI를 위한 데이터 모델링 측면에서 스트림의 4가지 강점을 소개했다. 송 이사에 따르면, 스트림은 △리얼타임 데이터 통합 및 스트리밍 △데이터 프로세싱 및 트랜스포메이션 △확장성 및 효율성 △실시간 분석으로 강화된 의사결정 정보 제공 등의 장점을 갖고 있다. 스트림은 다양한 데이터 다양한 소스로부터 데이터를 지속적으로 수집하고, AI 모델링에 사용되는 데이터를 최신 상태로 유지할 수 있도록 보장한다. 또한 최신 데이터에 기반한 AI 모델로 정확한 예측 및 선택을 할 수 있어 신뢰성과 효율성을 높일 수 있다.
아울러 데이터 준비 시 정제, 전환, 결합(Cleaning, Transforming, Combining) 등 작업이 요구되는데, 스트림은 데이터가 시스템으로 유입될 때 실시간 데이터 처리 기능을 제공한다. 이를 통해 보다 빠른 모델링 프로세스가 가능하고 고품질 데이터가 AI 모델에 사용돼 모델 정확도를 향상할 수 있다. 또한 일반적으로 AI 및 기계 학습 모델에는 효율적인 데이터 처리 및 분석을 위해 확장 가능한 인프라가 필요한데, 스트림의 플랫폼은 대용량 데이터를 실시간으로 처리할 수 있어 데이터 증가에 따라 효율적이고 효과적인 데이터 모델링을 제공한다.
스트림의 실시간 분석을 통해 전략 조정, 운영 최적화, 미래 트렌드 예측을 위한 즉각적인 인사이트와 AI를 통합해 의사결정에 필요한 정보를 제공할 수도 있다. 이는 실시간 데이터와 분석을 기반으로 지속적인 업데이트와 개선을 통해 데이터 모델링에 대한 역동적이고 반응이 빠른 접근 방식을 구현할 수 있음을 시사한다.
마지막으로 송정욱 이사는 스트림 도입 이점을 소개했다. 송 이사는 “비용이 저렴하다. 라이선스에 따라 타 솔루션 대비 50% 비용을 절감할 수 있다. 또한 시간당 160기가바이트(GB)의 데이터 통합 워크로드를 레이턴시 1.9초 만에 타깃에 적재할 수 있다. 스트림은 단일화된 풀 매니지드 플랫폼 체계를 유지하고 있어 생산성을 향상에 도움을 준다. 세부 기능으로는 웹 UI나 지원 드라이브, 다양한 템플릿 개발도구를 제공해 개발 시간을 단축할 수 있다”고 부연했다.


