컨텍스트 캐싱

일반적인 AI 워크플로에서는 동일한 입력 토큰을 모델에 반복해서 전달할 수 있습니다. Gemini API는 다음과 같은 두 가지 캐싱 메커니즘을 제공합니다.

  • 암시적 캐싱 (자동, 비용 절감 보장 없음)
  • 명시적 캐싱 (수동, 비용 절감 보장)

암시적 캐싱은 Gemini 2.5 모델에서 기본적으로 사용 설정됩니다. 요청에 캐시 적중인 콘텐츠가 포함된 경우 비용 절감액이 자동으로 다시 전달됩니다.

명시적 캐싱은 비용 절감을 보장하면서 개발자 작업을 추가해야 하는 경우에 유용합니다.

암시적 캐싱

암시적 캐싱은 모든 Gemini 2.5 모델에 기본적으로 사용 설정됩니다. 요청이 캐시를 사용하면 비용 절감이 자동으로 전달됩니다. 이를 사용 설정하기 위해 별도로 취해야 할 조치는 없습니다. 이 정책은 2025년 5월 8일부터 적용됩니다. 컨텍스트 캐싱을 위한 최소 입력 토큰 수는 2.5 Flash의 경우 1,024개, 2.5 Pro의 경우 2,048개입니다.

암시적 캐시 적중 가능성을 높이려면 다음 단계를 따르세요.

  • 프롬프트 시작 부분에 크고 일반적인 콘텐츠를 배치해 보세요.
  • 짧은 시간에 유사한 접두어가 있는 요청을 보내려고 시도함

응답 객체의 usage_metadata 필드에서 캐시 히트가 발생한 토큰 수를 확인할 수 있습니다.

명시적 캐싱

Gemini API 명시적 캐싱 기능을 사용하면 일부 콘텐츠를 모델에 한 번 전달하고 입력 토큰을 캐시한 다음 후속 요청에 캐시된 토큰을 참조할 수 있습니다. 특정 볼륨에서는 캐시된 토큰을 사용하는 것이 동일한 토큰 자료 집합을 반복적으로 전달하는 것보다 비용이 적게 듭니다.

토큰 집합을 캐시할 때 토큰이 자동으로 삭제되기 전에 캐시가 존재할 시간을 선택할 수 있습니다. 이 캐싱 기간을 TTL (수명)이라고 합니다. 설정하지 않으면 TTL 기본값은 1시간입니다. 캐싱 비용은 입력 토큰 크기와 토큰을 유지하려는 기간에 따라 다릅니다.

이 섹션에서는 빠른 시작에 설명된 대로 Gemini SDK를 설치했거나 curl을 설치했으며 API 키를 구성했다고 가정합니다.

명시적 캐싱을 사용해야 하는 경우

컨텍스트 캐싱은 짧은 요청에서 상당한 양의 초기 컨텍스트를 반복적으로 참조하는 시나리오에 특히 적합합니다. 다음과 같은 사용 사례에 컨텍스트 캐싱을 사용하는 것이 좋습니다.

  • 광범위한 시스템 안내를 제공하는 챗봇
  • 긴 동영상 파일 반복 분석
  • 대규모 문서 세트에 대해 반복 쿼리
  • 빈번한 코드 저장소 분석 또는 버그 수정

명시적 캐싱으로 비용을 절감하는 방법

컨텍스트 캐싱은 전반적인 운영 비용을 줄이기 위해 설계된 유료 기능입니다. 다음 요소를 기준으로 결제가 청구됩니다.

  1. 캐시 토큰 수: 캐시된 입력 토큰 수로, 후속 프롬프트에 포함될 경우 할인된 요율로 청구됩니다.
  2. 저장 기간: 캐시된 토큰이 저장되는 시간 (TTL)으로, 캐시된 토큰 수의 TTL 기간을 기준으로 청구됩니다. TTL에는 최솟값 또는 최댓값이 없습니다.
  3. 기타 요인: 캐시되지 않은 입력 토큰 및 출력 토큰과 같은 기타 요인에 다른 요금이 청구됩니다.

최신 가격 책정 세부정보는 Gemini API 가격 책정 페이지를 참고하세요. 토큰 수를 집계하는 방법은 토큰 가이드를 참고하세요.

추가 고려사항

컨텍스트 캐싱을 사용할 때는 다음 사항에 유의하세요.

  • 컨텍스트 캐싱의 최소 입력 토큰 수는 2.5 Flash의 경우 1,024개, 2.5 Pro의 경우 2,048개입니다. 최대값은 지정된 모델의 최대값과 동일합니다. 토큰 집계에 관한 자세한 내용은 토큰 가이드를 참고하세요.
  • 모델은 캐시된 토큰과 일반 입력 토큰을 구분하지 않습니다. 캐시된 콘텐츠는 프롬프트의 접두사입니다.
  • 컨텍스트 캐싱에는 특별한 비율 또는 사용량 제한이 없습니다. GenerateContent의 표준 비율 제한이 적용되며 캐시된 토큰이 토큰 한도에 포함됩니다.
  • 캐시된 토큰 수는 캐시 서비스의 만들기, 가져오기, 목록 작업에서 usage_metadata로 반환되며 캐시를 사용할 때는 GenerateContent에서도 반환됩니다.