반복 요청하는 공통 접두사 자동 인식해 이전 결과 재활용

구글이 제미나이 2.5 프로와 제미나이 2.5 플래시에 암묵적(Implicit) 캐싱 기능을 도입했다.
구글이 제미나이 2.5 프로와 제미나이 2.5 플래시에 암묵적(Implicit) 캐싱 기능을 도입했다.

[아이티데일리] 구글이 최신 인공지능(AI) 모델 ‘제미나이 2.5 프로(Gemini 2.5 Pro)’와 ‘제미나이 2.5 플래시(Gemini 2.5 Flash)’에 자동화된 ‘암묵적(Implicit) 캐싱’ 기능을 도입했다.

9일 구글 제미나이 API 및 구글 AI 스튜디오 로건 킬패트릭(Logan Kilpatrick) 수석 제품 관리자는 블로그를 통해 암묵적 캐싱 기능을 소개했다.

로건 킬패트릭 수석 제품 관리자에 따르면, 암묵적 캐싱 기능은 개발자가 별도의 설정이나 추가 작업 없이 API가 반복 요청하는 공통 접두사를 자동으로 인식해 이전 결과를 재활용하는 기능이다. 인공지능(AI) 모델 API 사용 비용을 최대 75%까지 절감할 수 있다. 기존 명시적(Explicit) 캐싱 방식만 제공돼 개발자가 자주 사용하는 프롬프트를 직접하고, 이 과정에서 캐싱 효율 저하와 예기치 않은 API 비용 증가에 대한 문제를 해결할 수 있다.

암묵적 캐싱은 동일하거나 유사한 맥락의 프롬프트가 여러 번 호출될 때, 이미 처리된 결과가 있다면 이를 즉시 반환해 불필요한 연산과 비용을 줄인다.

암묵적 캐싱 기능은 제미나이 2.5 플래시 모델에서는 최소 1,024토큰, 프로 모델에서는 2,048토큰 이상 입력 시 적용된다. 영어 기준 각각 약 750~1,500단어 분량에 해당한다. 개발자는 반복되는 프롬프트나 컨텍스트를 요청 앞부분에 두고, 변동 가능성이 큰 내용을 뒷부분에 배치하면 캐싱 효율을 극대화할 수 있다. 구글은 암묵적 캐싱 도입과 함께 프롬프트 구조 최적화 가이드도 제공하고 있다.

로건 킬패트릭 수석 제품 관리자는 SNS를 통해 “최근 일부 개발자들은 캐싱 효율 저하로 인한 높은 API 청구 비용을 문제 삼았고, 이에 구글 제미나이팀은 캐싱 자동화로 개선을 약속한 바 있다”면서 “암묵적 캐싱은 반복적이고 유사한 요청이 많은 생성형 AI, 챗봇, 자동화 서비스 등에서 특히 비용 절감 효과가 클 것으로 기대된다”고 소개한 바 있다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지