인프라·데이터·워크플로우 단일 체계서 운영, 풀스택 AI 전략 지원
[아이티데일리] AI가 기업 IT의 중심축으로 부상했다. 생성형 AI와 에이전트 AI 활용이 본격화되면서 기업들은 “어떤 모델을 도입할 것인가”보다 “AI를 어떻게 안정적으로 운영할 것인가”라는 문제로 눈을 돌리고 있다. GPU 클러스터, 모델 버전 관리, 데이터 거버넌스, 사용자·비용 통제, 워크플로우 자동화를 포괄하는 ‘AI옵스(AIOps)’의 범위가 확대되면서 이를 통합 관리하는 플랫폼의 필요성이 커진 상황이다.
최근 AI 운영과 관련한 복잡한 생태계를 단일 플랫폼으로 정리한 기업이 있다. 바로 인프라 기업 케이투스(KAYTUS)다. 케이투스는 ‘모터스AI(MotusAI)’라는 기업형 AI 데브옵스(DevOps)의 복잡성을 단일 화면에서 통제하는 ‘엔터프라이즈 AI 운영 표준 플랫폼’을 제공하고 있다. 케이투스는 기존 자사가 보유한 강점인 클라우드·AI·HPC 인프라 스택을 기반으로, AI 컴퓨팅·데이터·모델·사용자·비용 등을 통합한 형태로 엔드투엔드 운영 플랫폼 제공하고 있다.
모터스AI는 AI 운영에 필요한 핵심 요소를 단일 화면에서 제어할 수 있도록 설계된 통합 운영 플랫폼이다. 추론·학습용 컴퓨트 클러스터부터 스토리지, 컨테이너 이미지, 프레임워크, 모델, 사용자 관리까지 모두 하나의 인터페이스에서 제어할 수 있어, 기존의 분산된 관리 방식에서 벗어나 운영 복잡성을 줄일 수 있다.
플랫폼은 일반 사용자, 일반 관리자, 관리자(Admin), 감독자(Supervisor)로 역할을 구분해 계층적인 권한 체계를 제공하며, 감독자는 팀 단위의 리소스 사용량과 비용을 실시간으로 확인할 수 있어 엔터프라이즈 환경에서 필수적인 비용 통제 기능을 수행한다.
케이투스는 모터스AI에 인프라에 대한 역량도 녹였다. 쿠버네티스(Kubernetes) 기반 클러스터 확장을 지원하며, 컨테이너 이미지 카탈로그를 미리 구성해 사용자에게 표준화된 실행 환경을 제공할 수 있다. 기업 내부에서는 데이터 접근 범위가 그룹별로 달라지는 경우가 많은데, 모터스AI는 스토리지 정책과 접근 권한을 한 화면에서 관리하도록 설계해 운영 단계에서 자연스러운 데이터 거버넌스를 구현한다.
또한 엔터프라이즈 GPU 운영의 핵심인 MIG(Multi-Instance GPU) 설정 역시 GUI에서 간단히 수행할 수 있어 최신 GPU를 여러 인스턴스로 분리해 효율적 할당과 관리가 가능하다.
데이터·학습·추론까지 이어지는 전주기 워크플로우를 플랫폼 안에 내재화한 것도 큰 특징이다. 모터스AI는 데이터셋 선택과 어노테이션, 학습 워크스페이스 구성, 모델 전환·배포까지 이어지는 ML·LLM 파이프라인을 하나의 사용자 경험(UX) 안에 구현했다. 사용자는 백엔드에서 제공되는 이미지와 데이터 카탈로그, 접근 가능한 스토리지, 사용 가능한 GPU 노드를 확인하고 바로 작업을 시작할 수 있어 AI 개발과 운영의 연결성을 높였다. 이는 케이투스가 추구하는 풀스택 AI 전략·컴퓨팅 플랫폼, 리소스 플랫폼, 알고리즘 플랫폼을 아우르는 통합형 AI 엔진·을 그대로 구현한 것으로 평가된다.
AI 운영에서 가장 현실적인 고민은 비용 관리와 리소스 효율화 문제다. GPU 기반 학습·추론 환경이 확장되면서 누가 어떤 작업에 얼마나 비용을 사용했는지 추적하는 것은 CIO·CDO·AI 총괄에게 매우 중요한 과제다.
모터스AI는 CPU·GPU 단가 설정, 사용자 및 그룹별 과금 기록, 태스크 단위 비용 분해를 기본 제공해 이러한 문제를 해결하도록 설계됐다. 특정 사용자가 모델 재학습 과정에서 GPU 사용량이 급증했다면 해당 비용이 어떤 태스크에서 발생했는지까지 투명하게 파악할 수 있으며, 이는 기존 클라우드 VM 기반 모니터링보다 훨씬 더 세밀한 운영 통제 체계를 제공한다.
운영상의 가시성 확보 역시 플랫폼의 장점이다. 모터스AI는 GPU 사용률, 스토리지 소비량, 클러스터 상태, 장애 이벤트, 운영 로그 등을 실시간으로 모니터링할 수 있는 기능을 제공한다. 엔터프라이즈 규모에서 필수적인 운영 가시성(Observability)을 확보하도록 설계된 것으로, 운영팀이 대규모 인프라를 안정적으로 유지하는 데 필요한 요소들을 모두 갖추고 있다.
케이투스의 모터스AI는 데이터·모델·컴퓨팅 자원·사용자·비용·보안·운영 로그까지 AI 운영의 전 과정을 하나의 체계로 통합하면서 안정성과 효율성을 모두 확보하는 구조다.
케이투스 측은 “모터스AI는 자사가 보유한 HW 포트폴리오와 결합할 경우 ‘AI 운영 표준’에 가까운 생태계를 구성할 수 있다. 케이투스는 1U에 32개 E1.S NVMe를 탑재하거나 6U 공간에 8개의 H100 GPU를 구축하는 고밀도 컴퓨팅 서버를 비롯해, AI·HPC 분야에 특화된 서버 라인업을 보유하고 있으며, 액체 냉각 기반 친환경 인프라 기술도 제공한다. 이러한 HW 기반 위에서 SW 운영 플랫폼인 모터스AI는 기업형 AI 운영을 위한 사실상 운영체제(OS)에 가까운 역할을 한다”고 소개했다.
이어 “AI가 기업의 본격적인 경쟁 우위 요소로 자리잡은 지금, 모터스AI는 엔터프라이즈 환경에서 ‘AI를 어떻게 운영할 것인가’라는 질문에 가장 현실적이고 완성도 높은 해답을 제시한다”고 덧붙였다.


