김영훈 경희대학교 산업경영공학과 교수

김영훈 경희대학교 산업경영공학과 교수
김영훈 경희대학교 산업경영공학과 교수

<글쓴이 약력>
고려대학교 산업경영공학 박사 학위
삼성전자공과대학교 반도체학과 교수 역임
SK이노베이션 데이터사이언스팀 과장

[아이티데일리] 물리적 공간과 규칙하에 작동하는 AI 시스템을 구축하는 물리적(Physical) AI 분야는 차세대 AI 개발 분야로 주목받고 있다. 인간의 감각, 언어, 추론 능력을 모사하는 AI 시스템은 이미 제조, 의료, 금융 등 다양한 산업 분야에서 큰 성과를 내고 있다. AI 개발의 다음 단계는 물리적 공간에서 동작하고 인간에게 직접적인 영향을 줄 수 있는 물리적 AI 개발이다.

* 물리적 AI 시대, 동적 시스템과 시스템 식별의 핵심 역할 (5월호)
* 물리적 AI 시대의 디지털 트윈과 이상 탐지 기술 (6월호)
* 물리적 AI 시대를 여는 월드 파운데이션 모델(World Foundation Model) (이번 호)
* 동역학 시스템의 이상 감지를 위한 설명 가능한 딥러닝 기술 개발
* 딥러닝 기반 실시간 모델 예측 제어(Model Predictive Control) 기법

물리적 AI의 시대가 도래하고 있다. 이제 AI는 단순히 언어와 이미지를 이해하는 것을 넘어, 현실 세계의 물리 법칙을 학습하고 스스로 사고하며, 예측하고, 행동할 수 있는 지능형 존재로 진화하고 있다. 이러한 발전의 근간에는 인간처럼 세상의 구조를 내면화하고 시뮬레이션할 수 있는 월드 파운데이션 모델(World Foundation Model : WFM)의 등장이 있다.

우리는 어린 시절부터 반복된 경험을 통해 세상의 물리 법칙을 자연스럽게 익혀왔다. 예를 들어, 컵을 떨어뜨리면 깨진다는 사실, 물체를 밀면 어느 방향으로 얼마나 움직일지를 직관적으로 예측할 수 있다는 사실, 문을 열 때 어느 쪽으로 힘을 가해야 하는지 판단하는 능력은 모두 물리 세계에 대한 내재적 모델을 바탕으로 한 것이다. 이러한 모델은 우리가 실제로 행동하기 전, 머릿속에서 가능한 시나리오를 시뮬레이션하고 최적의 선택을 내릴 수 있도록 돕는다.

WFM은 이러한 인간의 내면적 세계 모델을 인공지능이 모사할 수 있도록 하는 기술이다. 다양한 감각 데이터를 바탕으로 복잡한 물리 현상을 예측하고, 환경의 변화를 시뮬레이션하며, 고차원적인 추론과 계획을 가능하게 한다. 기존의 언어 기반 인공지능이 인간이 창조한 텍스트 세계의 지식을 학습했다면, WFM은 시간과 공간 속에서 작동하는 실제 세계의 원리를 학습하며, 로봇, 자율주행차, 디지털 트윈 시스템 등 다양한 물리적 시스템에 적용 가능한 범용 인공지능 개발의 밑바탕이 된다.

특히 엔비디아(NVIDIA)는 옴니버스(Omniverse), 아이작 심(Isaac Sim)과 같은 정교한 시뮬레이터 기반 인프라와 코스모스(Cosmos)라는 새로운 형태의 WFM을 구축하며 이 분야를 선도하고 있다. 코스모스는 비디오, 깊이 정보, 텍스트 등 다양한 형태의 입력을 바탕으로 미래 상태를 생성하고, 물리적으로 올바른 세계를 예측할 수 있도록 설계됐다. 나아가 자연어를 통한 계획과 물리적 추론까지 가능하게 하면서, 물리적 AI 구현의 핵심 기술로 주목받고 있다.

본 튜토리얼에서는 물리적 AI의 발전에 있어 WFM이 갖는 의미를 살펴보고, WFM의 작동 방식과 활용 사례들을 통해 물리 세계의 변화를 다루는 인공지능 기술이 어떻게 발전하고 있는지를 조망하고자 한다.


WFM의 개념과 작동 원리

WFM은 텍스트, 이미지, 비디오, 센서 등 다양한 형태의 입력 데이터를 받아, 미래의 물리 상태를 예측하고 시뮬레이션할 수 있는 범용 모델이다. 기존의 언어 모델(LLM)이 언어적 연관성과 구조를 학습한 것과 마찬가지로, WFM은 세상의 공간적 구조와 물리 법칙을 학습한다. 이로써 AI는 단순히 반응하는 수준을 넘어서, 내면화된 세계 모델을 기반으로 미래를 상상하고 계획할 수 있는 능력을 갖추게 된다.

물리적 AI에서 WFM의 작동 원리는 인간의 직관적인 물리 추론 능력을 모사하는 방식으로 설계돼 있다. 먼저, 다양한 형태의 입력 데이터를 받아들이는 것으로 시작된다. WFM은 비디오, 이미지, 깊이 정보(depth map), 자연어 설명, 센서 데이터 등 복합적인 특성들을 입력으로 활용하며, 이를 통해 환경의 현재 상태와 물체 간의 관계, 동역학적 정보 등을 포괄적으로 파악한다.

이러한 입력 정보는 시공간적으로 처리돼, 트랜스포머(Transformer) 또는 디퓨전(Diffusion) 모델과 같은 딥러닝 구조를 통해 내재화된다. 이 과정에서 모델은 단순한 패턴 학습을 넘어, 중력, 마찰, 충돌, 탄성 등과 같은 물리 법칙을 경험적으로 학습하고 이를 일반화하는 능력을 갖추게 된다. 이를 기반으로 WFM은 다음 순간의 장면을 예측하거나, 특정 행위의 결과를 시뮬레이션하는 등의 기능을 수행할 수 있다.

예를 들어, 사용자가 “이 상자를 오른쪽으로 밀면 어떻게 될까?”라고 질문하면, WFM은 현재 환경의 물리 정보를 바탕으로 상자의 이동 방향과 속도, 주변 물체와의 상호작용 등을 예측하고, 그 결과를 이미지나 자연어로 출력할 수 있다. 이러한 방식은 단순히 입력-출력 관계를 학습한 AI와는 달리, 물리적으로 올바른 세계 모델을 내부적으로 구성하고 이를 활용해 미래의 상태를 시뮬레이션 하는 능력으로 이어진다.

이처럼 WFM은 예측 가능한 세계 모델을 중심에 두고 작동한다. 이는 AI가 과거와 현재의 정보를 바탕으로 미래를 시뮬레이션하고, 주어진 목표를 달성하기 위해 어떤 행동이 가장 적절한지를 판단할 수 있도록 해준다. 또한, ‘만약 A가 아니라 B였다면?’과 같은 반사실적 사고를 수행할 수 있는 기반도 제공한다. 결국 WFM은 단순한 반응형 AI를 넘어, 세상을 이해하고 상상하며 계획할 수 있는 인공지능을 구현하기 위한 핵심 구조로 자리 잡고 있다.

참고로, WFM은 최근 인공지능 개발 관련해서 가장 널리 사용되고 있는 LLM과 입력되는 데이터의 내재적인 생성 원리 패턴을 파악한다는 측면에서 밀접한 관련이 있다. 아래 <표 1>은 구체적인 차이점들을 요약한 것이다.

표 1. LLM과 WFM 비교
표 1. LLM과 WFM 비교

엔비디아 코스모스(NVIDIA COSMOS): WFM의 대표 사례

엔비디아의 코스모스는 물리적 AI 구현을 위한 WFM으로, 최신 구조는 세 가지 핵심 모델인 프리딕트(Predict), 트랜스퍼(Transfer), 리슨(Reason)으로 구성돼 있다. 각 모델은 물리 세계에 대한 예측, 생성, 추론의 역할을 분담하면서도 상호 유기적으로 연결돼, 시뮬레이션 기반 AI 학습의 정밀도와 실용성을 크게 향상시키는 데 기여한다.

먼저 코스모스 프리딕트(Cosmos Predict)는 텍스트, 이미지 또는 비디오를 입력으로 받아, 물리적으로 올바른 미래 상태의 비디오 시퀀스를 생성하는 모델이다. 프리딕트-2(Predict-2) 버전은 2억 매개변수를 가진 소형 모델부터 140억 매개변수를 가진 대형 모델까지 구성돼 있으며, 빠른 속도로 수 초 내에 미래 프리뷰를 생성하거나 다중 프레임의 상세 예측이 가능하다. 이 모델은 자율주행 차량의 주행 시나리오 예측, 로봇 팔의 동작 경로 예측, 제조 현장의 물체 이동 예측 등 다양한 산업적 맥락에서 활용될 수 있으며, 대규모 합성 데이터세트(synthetic dataset) 생성에도 매우 적합하다.

두 번째 모델인 코스모스 트랜스퍼(Cosmos Transfer)는 구조화된 시뮬레이션 데이터를 현실적인 비디오로 변환하는 역할을 수행한다. 이 모델은 세그멘테이션(segmentation), 깊이 정보, 라이다(LiDAR), 고해상도 지도와 같은 다중 특성 입력을 바탕으로, 이미지-조건 생성 기법을 활용해 현실감 높은 영상을 합성한다. 이를 통해 시뮬레이션 데이터와 실제 환경 간의 도메인 차이를 해소할 수 있으며, 특히 조명, 날씨, 시점 등을 정교하게 조정할 수 있어 자율주행, 로봇 훈련, 디지털 트윈 등에서 심-투-리얼(sim-to-real) 학습을 위한 고품질 데이터 생성에 활용되고 있다.

마지막으로 코스모스 리슨(Cosmos Reason)은 생성된 비디오나 물리 시나리오에 대해 체계적인 추론과 평가를 수행하는 고수준 추론(Reasoning) 모델이다. 이 모델은 비디오와 자연어 질의를 함께 입력받아, 시간적·공간적 맥락을 고려한 ‘생각의 사슬(chain-of-thought)’ 방식의 논리적 설명을 생성한다. 단순한 정답 제공을 넘어, “왜 이 물체가 넘어졌는가?”, “이 로봇이 앞으로 이동할 수 없는 이유는 무엇인가?”와 같은 복잡한 질의에 대해 물리적 상식과 인과 관계 기반의 설명을 제공할 수 있다.

이 세 가지 코스모스 모델은 독립적으로도 강력한 기능을 수행하지만, 서로 결합되었을 때 더욱 강력한 시너지 효과를 발휘한다. 예를 들어, 프리딕트(Predict)가 미래 시나리오를 생성하면 트랜스퍼(Transfer)가 이를 현실적인 영상으로 보강하고, 리슨(Reason)이 그 시나리오의 타당성과 안전성을 판단해 학습 가능한 고품질 데이터셋으로 정제하는 식이다. 이러한 전체 워크플로우는 시뮬레이션 기반 입력 생성 → 고해상도 데이터 변환 → 고수준 추론 및 평가 → 정책 학습 및 실험이라는 통합적 AI 학습 루프를 구성하게 된다.


WFM 활용 사례와 산업적 시사점

WFM은 다양한 산업 분야에서 실제로 활용되기 시작하면서, 그 실용성과 확장 가능성을 입증하고 있다. WFM은 물리 세계의 시공간적 특성과 동역학을 학습해 현실 시스템을 이해하고 예측하며, 고수준의 의사결정을 수행할 수 있도록 지원한다. 이러한 특성은 기존의 텍스트 기반 AI가 다룰 수 없었던 물리 기반 문제들에 새로운 해결책을 제시하고 있으며, 산업 전반에 걸쳐 다양한 방식으로 응용되고 있다.

가장 대표적인 활용 분야는 로봇 시스템이다. WFM은 로봇이 환경 속에서 어떤 동작을 취했을 때 발생할 결과를 시뮬레이션하고, 그 결과를 바탕으로 최적의 행동을 선택할 수 있도록 돕는다.

예를 들어, 물체를 집거나 밀거나 피하는 등의 기본 동작부터, 복잡한 작업 경로 계획까지도 물리적 시뮬레이션을 통해 사전에 예측하고 평가할 수 있다. 이를 통해 로봇은 시행착오 없이 더 안전하고 효율적인 행동 전략을 학습할 수 있으며, 특히 사람이 접근하기 어려운 위험 환경에서의 원격 로봇 제어나 자동화 작업에 WFM 기반의 계획 능력이 큰 효과를 발휘한다.

자율주행 역시 WFM이 활발히 활용되는 분야다. 자율주행 시스템은 도로 환경, 보행자, 신호, 날씨 등 수많은 물리적 요소와 상호작용해야 하며, 이들 사이의 관계는 시간에 따라 지속적으로 변한다. WFM은 이러한 시공간적 맥락을 고려해 차량의 센서 데이터로부터 미래 시나리오를 예측하고, 그에 맞는 주행 전략을 실시간으로 계획할 수 있게 한다. 특히 드물게 발생하는 극한 상황—예를 들어, 급정거, 미끄러운 도로, 불규칙한 장애물 회피 등—에 대해서도 충분한 시뮬레이션 데이터를 생성하고 훈련함으로써, 자율주행 알고리즘의 안전성을 향상시킨다.

스마트 제조 및 물류 시스템에서도 WFM의 잠재력은 매우 크다. 제조 공정에서 발생할 수 있는 기계 간 충돌, 재료 손실, 병목 현상 등을 사전에 예측하고 시뮬레이션 함으로써 공정 효율을 최적화할 수 있으며, 물류 시스템에서는 물류 로봇이나 자동화 설비의 이동 경로, 충돌 위험, 처리 시간 등을 WFM이 동적으로 예측해 운영 효율을 개선할 수 있다. 특히 디지털 트윈 시스템과 결합될 경우, 실제 공정의 센서 데이터를 기반으로 실시간 시뮬레이션을 수행하고, 이를 통해 이상 상태 감지나 사전 유지보수 등 고도화된 운영에 접목할 수 있다.

이처럼 WFM은 AI가 물리적 법칙이 지배하는 현실 세계를 이해하고 행동하는 존재로 만드는 데 핵심적인 역할을 하고 있으며, 산업 간 경계를 넘어 다양한 분야에서 공통적으로 적용 가능한 범용 지능의 기반이 된다는 점에서, 미래 AI 기술의 핵심 축으로 자리 잡을 가능성이 높다.


결론 및 향후 발전 방향

물리적 AI 구현을 위한 WFM은 인공지능이 물리 세계를 예측하고 사고하며 능동적으로 행동할 수 있도록 하는 기반 기술로 자리 잡고 있다. 정적인 데이터 분석을 넘어, 시간·공간의 흐름 속에서 작동하는 현실 세계 전체를 시뮬레이션하고 예측할 수 있다는 점에서, WFM은 AI 기술의 새로운 패러다임을 제시한다. 이미 로봇, 자율주행, 제조, 물류 등 다양한 물리시스템에 적용되며 그 가능성을 입증하고 있으며, 앞으로는 도시 인프라, 항공우주, 에너지, 헬스케어 등으로 적용 분야가 확장될 것으로 기대된다.

하지만 이러한 기술의 확산과 실질적 적용을 위해서는 여전히 해결해야 할 기술적 연구 과제들이 있다.

첫째, 현실 세계의 다양성과 복잡성을 반영할 수 있는 정교한 입력 데이터 표현이 필요하다. 특히 열, 음향, 진동, 압력 등 다양한 물리 변수들이 동시에 존재하는 복합 환경을 다루기 위해서는 가상 센서(virtual sensor) 기술의 활용이 중요하다. 실제 센서로 측정하기 어려운 공간적 물리 정보를 컴퓨터 기반 물리 시뮬레이션을 통해 재구성하는 가상 센서는 보다 현실성 있는 시뮬레이션 및 예측 결과를 가능하게 한다.

둘째, 물리적 정합성 확보는 WFM의 신뢰성을 결정짓는 핵심 요인이다. 단순히 시각적으로 그럴듯한 장면을 생성하는 것을 넘어, 실제 세계에서 발생 가능한 현상이 모델 내에서도 타당하게 재현돼야 한다. 이를 위해서는 시스템 식별(system identification) 기술과의 융합이 중요하다. 시스템 식별은 관측된 입력-출력 데이터를 바탕으로 물리적 현상을 기술하는 수학적 방정식(예: 미분방정식)을 추정하는 기술로, 이를 WFM과 통합하면 단순한 데이터 기반 생성이 아닌, 물리 법칙에 기반한 생성 모델을 구성할 수 있게 된다. 이를 통해 WFM은 물리적으로 정합성 있는 상태 전이와 시뮬레이션을 더욱 신뢰성 있게 수행할 수 있다.

셋째, 계산 효율성과 실시간성의 균형 또한 중요한 기술적 과제이다. WFM은 대규모 다중 특성 입력과 복잡한 시공간 추론을 수행해야 하므로 고성능 연산 자원을 요구하지만, 산업 현장에서는 제한된 하드웨어 내에서 실시간 처리가 요구되는 경우가 많다. 이를 해결하기 위해서는 모델 경량화, 하드웨어 최적화, 병렬 연산 구조 설계 등의 노력이 함께 이루어져야 한다.

마지막으로, WFM의 산업적 확산을 위한 표준화와 플랫폼화도 필요하다. 다양한 산업에서 공통적으로 적용 가능한 WFM API, 데이터셋 포맷, 훈련 파이프라인, 평가 지표 등이 마련된다면, 물리적 AI 기술의 개발 장벽을 낮추고 기술 생태계의 성장을 촉진할 수 있을 것이다.

종합적으로 볼 때, WFM은 AI가 현실 세계의 물리적 법칙을 내재화하고, 상호작용하는 기반 기술로 자리 잡아가고 있다. 그리고 다음 단계는 가상 센서, 시스템 식별과 같은 물리 기반 기술과의 융합을 통해 더욱 정합성 있는 세계 모델을 만들어가는 것이다. 이러한 방향은 결국, AI가 인간처럼 물리적 직관을 갖고 행동하는 미래를 실현하는 데 핵심적인 역할을 하게 될 것이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지