[AIOps①] ‘AI옵스’, 클라우드 파편화 시대 운영 혁신 전략으로 부상

AI가 데이터 기반으로 스스로 판단하는 ‘동적 운영’으로 인프라 관리 시장 규모 2023년 117억 달러에서 2028년 324억 달러로 확대

2025-09-30     성원영 기자

[아이티데일리] AI옵스(AIOps)는 인공지능(AI)과 운영(Operation)을 합친 단어로, AI를 활용해 IT 인프라 운영을 자동화하고 최적화한다. 클라우드 기반 기업이 하이브리드·멀티 클라우드 환경으로 전환함에 따라 인프라의 복잡성이 커지면서 AI옵스 도입도 확대되고 있다. 글로벌 시장조사기관 마켓츠앤마켓츠(MarketsandMarkets)에 따르면 글로벌 AI옵스 시장 규모는 2023년 117억 달러에서 2028년 324억 달러로 고속 성장할 것으로 예상했다.

‘AI옵스(AIOps)’가 클라우드 파편화 시대 운영 혁신 전략으로 부상하고 있다. 


클라우드 인프라 ‘파편화’ 심화

AI 시대가 가속화되면서 유연한 IT 환경에 대한 요구가 높아지고 있다. 기업들은 이에 대응하고자 멀티‧하이브리드 클라우드를 도입하고 있는 데 그 과정에서 기존‧신규 인프라가 ‘파편화’되는 현상이 발생하고 있다.

파편화란 쉽게 말해 재산을 여러 개의 은행 계좌에 나눠 보관하는 것과 같다. 100만 원을 한 계좌에 모아두면 사용하는 데 매우 효율적이다. 그러나 10만 원씩 여러 은행 계좌로 나누면 각 계좌마다 2천 원, 3천 원씩 남는 자원이 발생하기도 하고, 각 계좌에 정확하게 얼마가 남아있는지 쉽게 파악하기도 어려워진다.

멀티‧하이브리드 클라우드를 도입할 경우 실제 실무자들이 여러 어려움을 겪는 것으로 나타났다. 오케스트로가 자체적으로 진행한 클라우드 운영 현황 실태조사에 따르면, 클라우드 환경이 복잡해지면서 실무자들이 겪는 가장 큰 문제를 묻는 질문에 응답자의 41%가 ‘장애 발생 시 늦은 감지 및 대응’을 꼽았다. 이어 ‘전체 자산 현황 파악의 어려움(32%)’, ‘조직별 자원 통제의 어려움(11%)’, ‘체계적이지 않은 자원운영 정책(9%)’, ‘반복적인 수동 작업(7%)’ 순으로 조사됐다.

클라우드 운영 현황 실태조사 (출처: 오케스트로)

파편화로 인해 보안 측면에서도 문제가 생길 수 있다. 방범을 위해 집에 있는 모든 문에 비밀번호가 있는 자물쇠를 달아야 하는 것처럼, 클라우드 서비스마다 인증과 연동 지점이 생겨 보안 취약점이 증가한다. 같은 비밀번호를 쓰면 편하지만 보안이 취약해지고, 지점마다 비밀번호를 다르게 적용하면 관리가 복잡해진다. 연동 지점이 많아지면서 장애 발생 위치를 추적하는 것도 어려워졌다. 단순 모니터링을 넘어 엔드투엔드 모니터링과 옵저버빌리티(Observability)의 중요성이 강조되는 이유이기도 하다.

운영 비용도 늘어날 수 있다. 멀티·하이브리드 환경에서는 클라우드 사업자마다, 온프레미스·프라이빗 등의 환경마다 기술이 다르기 때문에 각각 담당자가 필요한 실정이다. 설사 업무량이 많지 않아도 별도로 전문가를 채용하거나, 외주 업체를 고용하기 때문에 인건비가 늘어나며 운영 비용이 증가한다.
 

IT 인프라 ‘동적으로’ 운영·관리

AI옵스는 IT 인프라 운영의 자동화와 최적화를 위해 AI를 적극적으로 활용하는 접근법이다. 기존의 룰 기반 자동화와는 달리 AI가 데이터를 기반으로 스스로 판단하고 운영을 개선하는 것이 핵심이다.

전통적 IT 서비스 관리(ITSM) 수단 중 하나인 로보틱 프로세스 자동화(RPA)와 비교하면 차이가 뚜렷하다. RPA는 사람이 반복적으로 처리해야 하는 단순 업무를 로봇 소프트웨어로 자동화하는 것이다. RPA는 사람이 직접 정의해둔 ‘업무 절차’와 ‘로직’대로만 동작한다. 반면 AI옵스는 실시간 데이터(로그, 메트릭, 이벤트)를 통해 스스로 인프라 상태를 분석하고, 이상 상황을 탐지해 기존에 없던 방식의 해결책이나 자원 운영 방식을 동적으로 결정한다. 이처럼 동적인 자원 관리‧운영이 가능하다는 점이 기존 IT 인프라 자동화 솔루션과의 차별점이다.

또한 과거에는 개발자가 ITSM 환경에서 필요한 기능을 직접 개발해야 했으나, AI옵스 기반에서는 AI가 필요성을 분석하고 다른 AI에게 요청해 기능을 만들어 넣는 방식으로 발전하고 있다. 이 과정에서 AI에게 요청하면 필요한 코드를 생성해 주는 새로운 개발 방식인 ‘바이브코딩(Vibe Coding)’이 활용된다. 업계 관계자는 “현재 AI가 기준을 잡아주거나, 기능을 추가하는 데 사람이 개입하고 있지만, 점차 AI가 스스로 기능을 추가하고, 자동화 수준도 높아질 것으로 예상한다”고 말했다.

이러한 기술적 진화를 뒷받침해 줄 기반으로 A2A(Agent-to-Agent), MCP(Model Context Protocol)가 있다. A2A(Agent-to-Agent)는 여러 AI 에이전트가 서로 소통하며 역할을 분담하고 협업할 수 있도록 돕는다. 하나의 AI가 시스템에서 기능을 확장할 필요가 있다고 판단하면, 이를 담당할 수 있는 다른 AI에게 요청해 문제를 해결하도록 지원할 수 있다.

MCP는 AI 모델이 다양한 외부 서비스 및 데이터 소스와 상호작용을 하는 표준화된 개방형 프로토콜이다. 이를 통해 AI는 실시간 정보 조회, 외부 시스템 제어, 신규 툴 연결 등 기능을 신속하게 확장하고, 실행할 수 있다.

AI옵스는 단순한 툴이 아니라 데브옵스(DevOps)처럼 철학이자 툴 체인(여러 도구의 집합)으로도 볼 수 있다. 한 업계 관계자는 “AI옵스 솔루션에는 모니터링, 장애 탐지, 자동화된 대응 등 다양한 기능이 포함될 수 있다”며 “아직 시장이 형성되고 있는 단계로 각 기업마다 구현 범위와 방식이 다르지만, 장기적으로는 IT 운영 전반을 AI가 총괄하는 방향으로 진화할 것이다”라고 말했다.
 

“AI옵스 성공적 도입, 조직 문화부터 개편해야”
베스핀글로벌 AIOps본부 이준태 상무

베스핀글로벌 AIOps본부 이준태 상무는 “AI옵스를 성공적으로 도입하려면 단순히 기술만 준비하는 것이 아니라 조직 문화 변화가 뒷받침돼야 한다”고 강조했다. 데브옵스가 개발자와 운영자가 협업하는 문화에서 출발했듯이, AI옵스 역시 IT 운영·개발·보안 부서가 협업하고 데이터를 원활하게 공유할 수 있는 열린 문화가 필요하다는 것이다.

이준태 상무는 “조직 내에서 AI옵스 도입으로 인한 자동화로 일자리가 줄어들 것이라는 부정적 반응이 나올 수 있다”며 “저부가가치 업무는 AI에 맡김으로써 실무진은 고부가가치 업무에 집중할 수 있다는 발상의 전환이 필요하다”고 설명했다. 이어 “AI 도입에는 경영진의 적극적인 지원도 필수적”이라고 말했다. 실제로 과거 클라우드가 처음 도입됐을 때 내부 저항이 컸지만, 경영 차원의 ‘트랜스포메이션’ 전략이 뒷받침되면서 빠르게 확산됐다는 것이다.

데이터 확보 역시 중요한 조건으로 꼽았다. 그는 “AI옵스는 ML옵스(MLOps)에서 출발했기 때문에 학습 데이터가 받쳐줘야 한다”며 “지금처럼 클라우드 환경이 파편화된 상태에서는 효과적인 학습이 어렵다. 운영 데이터를 모을 수 있는 데이터 플랫폼이 필요하다”고 지적했다.

또 다른 핵심은 보안과 투자 대비 효과(ROI)다. 그는 “운영 데이터를 다룰 때는 개인정보 가명화, 취약점 공격 방지 등 보안 대책이 반드시 마련돼야 한다”며 “ROI를 자세히 따져 어떤 업무를 AI로 자동화해야 효율이 나는지 선별하는 과정도 중요하다”고 덧붙였다.