AI가 데이터 기반으로 스스로 판단하는 ‘동적 운영’으로 인프라 관리
시장 규모 2023년 117억 달러에서 2028년 324억 달러로 확대
[아이티데일리] AI옵스(AIOps)는 인공지능(AI)과 운영(Operation)을 합친 단어로, AI를 활용해 IT 인프라 운영을 자동화하고 최적화한다. 클라우드 기반 기업이 하이브리드·멀티 클라우드 환경으로 전환함에 따라 인프라의 복잡성이 커지면서 AI옵스 도입도 확대되고 있다. 글로벌 시장조사기관 마켓츠앤마켓츠(MarketsandMarkets)에 따르면 글로벌 AI옵스 시장 규모는 2023년 117억 달러에서 2028년 324억 달러로 고속 성장할 것으로 예상했다.
데이터독, 옵저버빌리티를 넘어 AI옵스로
데이터독(Datadog)은 개발부터 운영까지 소프트웨어 라이프사이클 전 과정을 지원하는 SaaS 기반 옵저버빌리티 플랫폼을 내세워 AIOps 전략을 강화하고 있다. 데이터독의 ‘비츠 AI(Bits AI)’는 평소와 다른 이상 징후를 스스로 탐지하고, 해당 현상이 전체 시스템에 미치는 영향까지 자동으로 파악할 수 있다.
‘비츠 AI(Bits AI)’의 ‘SRE 에이전트(SRE Agent)’는 “결제 API가 응답하지 않습니다”와 같은 알림이 발생하면 자동으로 원인 파악에 나선다. 수집된 데이터를 기반으로 분석해, 장애 원인에 대한 가설을 수립한다. 이 중 말이 되지 않는 가설을 스스로 제거하고, 최종 결과를 선별해 사용자에게 전달한다. 실시간으로 발생하는 이슈에 대해 AI 챗봇과 대화하며 분석 및 지원을 받을 수 있다.
비츠 AI의 ‘Dev 에이전트(Dev Agent)’는 해결 방법과 개선 포인트 제시에 중점을 뒀다. 해당 이슈가 언제 시작됐고, 언제 마지막으로 확인됐는지 파악하며 원인 설명과 함께 문제가 발생하는 소스코드 라인까지 제공한다. 수정 방법 또한 실제 코드로 제시할 수 있으며, AI 챗봇을 활용해 코드와 관련해 궁금한 점도 바로 확인할 수 있다.
이처럼 데이터독의 AI옵스 기반 모니터링 프로세스를 살펴보면 먼저 AI를 통해 이상징후가 탐지될 경우, 담당자에게 자동으로 연락한다. AI 기반으로 자동 분석을 진행하는 단계에서는 협업을 위한 채널을 생성한다. 다음으로 챗봇을 통한 상황 공유 단계에서는 비츠 AI 챗봇이 분석을 돕는다. 마지막 단계에서는 복구 프로세스를 자동화하고, AI가 장애 보고서를 생성한다.
레드햇, RHEL·오픈시프트로 인프라 유연성 확보
레드햇(Red Hat)은 ‘AI를 위한 Ops’ 뿐 아니라 ‘Ops를 위한 AI’까지 지원하는 솔루션과 서비스를 제공한다. 이를 통해 고객사가 필요로 하는 인프라 조건과 비즈니스 목표에 맞춘 단계별 여정을 제시한다는 전략이다.
표준화된 운영체제인 ‘레드햇 엔터프라이즈 리눅스(RHEL)’과 멀티·하이브리드 클라우드를 위한 레드햇 ‘오픈시프트(OpenShift)’를 기반으로 기술 편차와 파편화된 인프라를 유연하게 연결할 수 있다. 레드햇은 이 과정에서 △어떠한 환경에서도 운영자·개발자에게 일관된 경험 제공 △엔터프라이즈급 유연성·안전성·보안성 확보 △AI 기반 도구로 사용자 지원 등을 목표로 한다.
이를 구체화하는 서비스가 ‘라이트스피드(LightSpeed)’ AI 어시스턴트와 ‘인사이트 어드바이저(Insight Advisor)’다. 운영자가 복잡한 인프라 환경에서도 적절한 조치 방법을 찾을 수 있도록 AI 기반 분석과 권고 서비스를 제공한다.
또한 레드햇은 ‘레드햇 앤서블 오토메이션 플랫폼(AAP)’을 통해 AI 기반의 자동화된 운영을 구현할 수 있다. AAP는 이벤트 기반 앤서블(Event-Driven Ansible) 기능을 제공한다. 이 기능은 운영 환경에서 발생하는 로그, 메트릭, 스트리밍 데이터 등 다양한 이벤트를 수신해 원인을 식별하고, 라이트스피드나 맞춤형 AI 모델을 통해 적절한 대응 방안을 도출한다.
이후 운영자는 권고된 조치 방안을 직접 실행하거나, AAP가 자동으로 실행하도록 승인할 수 있다. 자동 실행이 확정되면, AAP는 룰북(RuleBook)에 따라 플레이북이나 워크플로우를 수행하고 결과를 사용자에게 보고한다.
레드햇 측은 “AAP는 AI 모델과 어시스턴트를 결합해 기술 격차나 인프라 복잡성에 관계없이 자동화된 운영 환경을 제공한다”며 “기업이 AI옵스를 도입하는 과정에서 핵심 기반이 될 것”이라고 강조했다.
베스핀글로벌, ‘컨텍스트 프라이밍·컨텍스트 앵커링’ 적용
베스핀글로벌(Bespin Global)은 AI 기반 클라우드 관리 서비스 자동화 솔루션 ‘헬프나우 오토MSP(HelpNow AutoMSP)’를 내세우고 있다. 이 솔루션에는 베스핀글로벌이 특허를 등록 중인 ‘컨텍스트 프라이밍(Context Priming)’과 ‘컨텍스트 앵커링(Context Anchoring)’ 기술이 적용됐다.
컨텍스트 프라이밍은 AI 에이전트가 각각의 역할과 판단 기준을 명확히 갖도록 사전에 정의하는 기술이다. 고객의 다양한 요청에 대한 의도를 분석해 적합한 에이전트가 대응하게 한다. 이와 함께 AI가 더 정교하고 일관된 응답을 생성하도록 유도하는 역할도 한다. 예를 들어 신문 기사 검색 요청이 들어오면 AI가 신문 기사 데이터 범위 내에서만 검색하도록 맥락을 한정하는 것이다.
컨텍스트 앵커링은 복잡한 연속 작업을 처리할 때, AI가 초기에 설정된 맥락(작업 범위)에서 벗어나지 않도록 해 작업의 안정성과 정확성을 높일 수 있다. 또 복잡한 작업도 처리할 수 있다. 예시로 비행기 예약부터 숙소 예약까지 여러 단계를 순차적으로 처리하는 복합적인 요구사항도 안정적으로 해결할 수 있다.
베스핀글로벌에 따르면 헬프나우 오토MSP를 통해 한 건당 평균 4시간 걸리던 작업 시간이 2시간으로 50% 감소했으며, 도입 후 클라우드 운영 관리팀의 업무 생산성이 약 90% 정도 향상된 것으로 나타났다.
오케스트로, A2A로 강화되는 솔루션 협업
오케스트로(OKESTRO)의 AI옵스는 클라우드 인프라 성능 최적화와 선제적 장애 대응을 중점으로 지능형 클라우드 구축을 지원하는 솔루션이다. AI 기술을 활용해 데이터 기반 클라우드 인프라 운영 최적화를 위한 기능을 제공하고 있다. 데이터 파이프라인과 패턴별 군집화 등 고유 기술을 반영해 머신러닝(ML) 기반 클라우드 자원 데이터 학습으로 예측, 시스템 이상징후 탐지, 시스템 최적 배치를 위한 의사결정 등을 지원한다.
‘오케스트로 CMP(OKESTRO CMP)’는 다양한 퍼블릭 및 프라이빗 클라우드를 하나의 포털에서 통합 관리할 수 있도록 설계됐다. 오픈스택, VM웨어, 쿠버네티스 등 프라이빗 클라우드뿐만 아니라 아마존웹서비스(AWS), 네이버클라우드플랫폼(NCP)와 같은 퍼블릭 클라우드까지 연동돼 운영자는 여러 콘솔에 접속할 필요가 없다.
또한 오케스트로의 차세대 AI 솔루션인 ‘클라리넷(CLARINET)’을 통해 운영자들의 운영 노하우, CMP의 특화 기능들까지 검색증강생성(RAG)으로 참조할 수 있도록 파이프라인을 구성했다. 이를 통해 다양한 맥락을 고려한 인프라 운영안을 제시할 수 있다. 오케스트로는 전 제품군을 A2A로 연결해 솔루션 간의 협업을 강화할 계획이다.
신세계아이앤씨, ‘스파로스 데브엑스’로 업무 혁신
신세계아이앤씨(신세계I&C)는 최근 생성형 AI 기반 차세대 개발 플랫폼 ‘스파로스 데브엑스(Spharos DevX)’를 사내 IT 서비스에 적용했다.
스파로스 데브엑스에는 코딩 에이전트를 비롯한 AI 에이전트들이 하나의 플랫폼에 탑재된다. 세부적으로 살펴보면 시스템 분석부터 개발, 품질점검, 운영 단계까지 IT 서비스 업무 전 과정을 지원한다. 업무 단계별 최적화된 AI 에이전트를 활용해 개발 생산성을 극대화한다는 전략이다.
또한 표준화된 통신 프로토콜인 MCP 기술을 활용해 별도의 커스터마이징 없이 기업이 보유한 다양한 시스템을 빠르고 안전하게 연결할 수 있다. 신세계아이앤씨는 해당 플랫폼이 시스템 개발 프로젝트에 필요한 수백 페이지 분량의 문서 작성과 소스코드 생성, 테스트를 통한 오류 검증 등 다양한 방면에 활용될 수 있다고 강조했다.


