Cache konteks bertujuan untuk mengurangi biaya dan latensi permintaan ke Gemini yang berisi konten berulang.
Secara default, Google otomatis meng-cache input untuk semua model Gemini guna mengurangi latensi dan mempercepat respons untuk perintah berikutnya.
Untuk model Gemini 2.5 Flash (jumlah token input minimum 1.024) dan Gemini 2.5 Pro (jumlah token input minimum 2.048), token input yang di-cache dikenai biaya dengan diskon 75% dibandingkan dengan token input standar saat hit cache terjadi.
Lihat informasi token hit cache di kolom metadata respons. Untuk menonaktifkannya, lihat AI Generatif dan tata kelola data.
Melalui Vertex AI API, Anda dapat membuat cache konteks dan mengontrolnya lebih lanjut dengan:
- Menggunakan cache konteks dengan mereferensikan kontennya dalam permintaan perintah dengan nama resource-nya.
- Memperbarui waktu habis masa berlaku (TTL) cache konteks di luar 60 menit default.
- Menghapus cache konteks saat Anda tidak lagi memerlukannya.
Anda juga dapat menggunakan Vertex AI API untuk mendapatkan informasi tentang cache konteks.
Perhatikan bahwa permintaan penyimpanan dalam cache menggunakan Vertex AI API mengenakan biaya token input dengan diskon 75% yang sama dibandingkan dengan token input standar dan memberikan penghematan biaya yang terjamin. Ada juga biaya penyimpanan berdasarkan jumlah waktu data disimpan.
Kapan harus menggunakan cache konteks
Cache konteks sangat cocok untuk skenario saat konteks awal yang substansial direferensikan berulang kali oleh permintaan berikutnya.
Item konteks yang di-cache, seperti teks dalam jumlah besar, file audio, atau file video, dapat digunakan dalam permintaan perintah ke Gemini API untuk menghasilkan output. Permintaan yang menggunakan cache yang sama di perintah juga menyertakan teks yang unik untuk setiap perintah. Misalnya, setiap permintaan perintah yang menyusun percakapan chat dapat menyertakan cache konteks yang sama yang mereferensikan video beserta teks unik yang terdiri dari setiap giliran dalam chat.
Pertimbangkan untuk menggunakan cache konteks untuk kasus penggunaan seperti:
- Chatbot dengan petunjuk sistem yang luas
- Analisis berulang pada file video yang panjang
- Kueri berulang terhadap set dokumen besar
- Analisis repositori kode atau perbaikan bug yang sering dilakukan
Efisiensi biaya melalui penyimpanan dalam cache
Caching konteks adalah fitur berbayar yang dirancang untuk mengurangi biaya operasional secara keseluruhan. Penagihan didasarkan pada faktor-faktor berikut:
- Jumlah token cache: Jumlah token input yang di-cache, ditagih dengan tarif yang lebih rendah jika disertakan dalam perintah berikutnya.
- Durasi penyimpanan: Jumlah waktu token yang di-cache disimpan, ditagih per jam. Token yang di-cache akan dihapus saat masa berlaku cache konteks berakhir.
- Faktor lainnya: Biaya lain berlaku, seperti untuk token input dan token output yang tidak di-cache.
Cache konteks tidak mendukung Provisioned Throughput. Permintaan Throughput yang Disediakan yang menggunakan cache konteks diperlakukan sebagai bayar sesuai penggunaan.
Model yang didukung
Model Gemini berikut mendukung penyimpanan dalam cache konteks:
Untuk mengetahui informasi selengkapnya, lihat Versi model Gemini stabil yang tersedia. Perhatikan bahwa penyimpanan dalam cache konteks mendukung semua jenis MIME untuk model yang didukung.
Ketersediaan
Penyimpanan dalam cache konteks tersedia di wilayah tempat AI Generatif di Vertex AI tersedia. Untuk mengetahui informasi selengkapnya, lihat Lokasi AI Generatif di Vertex AI.
Dukungan Kontrol Layanan VPC
Cache konteks mendukung Kontrol Layanan VPC, yang berarti cache Anda tidak dapat diekstrak di luar perimeter layanan. Jika Anda menggunakan Cloud Storage untuk membuat cache, sertakan bucket Anda dalam perimeter layanan untuk melindungi konten cache Anda.
Untuk mengetahui informasi selengkapnya, lihat Kontrol Layanan VPC dengan Vertex AI dalam dokumentasi Vertex AI.
Langkah berikutnya
- Pelajari Gemini API.
- Pelajari cara menggunakan perintah multimodal.