에이전트 코딩 및 바이브 코딩 등 개발 영역 고도화
[아이티데일리] 구글이 차세대 멀티모달 모델 ‘제미나이(Gemini) 3’를 공개했다. 구글은 대형언어모델(LLM)을 단순히 업그레이드한 것이 아닌, AI가 스스로 배우고·만들고·계획하는 ‘에이전트형 모델’로 전환한다는 전략이다.
구글·알파벳 순다르 피차이(Sundar Pichai) CEO는 “연구부터 인프라, 제품까지 아우르는 풀스택(full-stack) 접근이 혁신 속도를 높였다”고 강조하며 AI 경쟁 구도 속 차별성을 부각했다.
구글이 이번에 새롭게 공개한 제미나이 3는 텍스트, 이미지, 오디오, 비디오, 코드까지 통합 처리하는 멀티모달 성능이 대폭 향상됐다. 최대 100만 토큰 수준의 컨텍스트 윈도우를 탑재해 긴 문서와 복잡한 문맥도 안정적으로 처리할 수 있다.
특히 개발 분야에서는 ‘에이전트 코딩(agent-coding)’과 ‘바이브 코딩(vibe coding)’이 강화됐다. 복잡한 프롬프트 없이도 웹 UI·게임·앱을 자동 생성하는 에이전트 코딩 기능과 자연어 발화로 코딩할 수 있는 바이브 코딩이 추가됐다. 아울러 ‘구글 안티그래비티(Google Antigravity)’ 플랫폼은 AI가 브라우저·터미널·편집기를 직접 활용해 과업을 스스로 계획·실행하는 구조로 고도화됐다.
창작·제작 기능 역시 확장됐다. 제미나이 3는 웹 UI 디자인 생성은 물론, 3D voxel 아트·게임 구조 설계·셰이더(Shader) 코드 생성처럼 복잡한 표현이 필요한 작업까지 처리한다. 단순한 이미지 생성 단계를 넘어, 디자인 목적·구조적 제약·동작 방식 등을 고려한 결과물을 만든다는 점에서 콘텐츠 제작 도구로서의 활용 범위가 크게 넓어졌다. 영상·문서 편집 기능도 고도화돼, 긴 영상을 한 번에 분석해 필요한 장면만 추출하거나, 문서와 이미지를 조합해 새로운 자료를 구성하는 작업이 보다 자연스러운 흐름으로 구현된다.
구글은 제미나이 3를 통해 일상·업무 자동화 기능도 강화했다. 이메일 자동 정리, 일정 예약, 프로젝트 관리 같은 워크플로우를 AI가 스스로 설계해 처음부터 끝까지 처리하도록 한 것이다. 사용자가 개별 명령을 단계별로 내리지 않아도, 목표 달성을 위한 절차를 AI가 판단해 실행하는 방식에 가깝다. 구글은 이러한 기능이 안드로이드·크롬·지메일·워드 등 주요 서비스에 순차적으로 적용되면, 개인 비서형 AI 경험이 실제 업무 전반으로 확장될 것이라고 설명했다.
구글은 이번 발표가 AI의 ‘대화형 모델’ 시대에서 ‘실행형 모델’ 시대로 넘어가는 전환점으로 평가했다. 구글 딥마인드 데미스 하사비스(Demis Hassabis) CEO는 블로그를 통해 “제미나이 3는 AI가 단순히 답변을 제공하는 수준을 넘어, 사용자의 목표를 이해하고 이를 달성하기 위한 계획·실행까지 수행할 수 있는 단계에 도달했다”며 “향후 구글 제품 전반에 이러한 능력이 통합되면서 사용자 경험이 크게 변화할 것”이라고 강조했다.


