Menggunakan Model Hugging Face

Dokumen ini menjelaskan cara men-deploy model Hugging Face yang didukung di Vertex AI dan Google Kubernetes Engine, serta mencakup topik berikut:

Hugging Face menyediakan model terlatih, skrip penyesuaian, dan API pengembangan yang mempermudah pembuatan dan penemuan LLM. Model Garden dapat menayangkan model Text Embeddings, Text To Image, Text Generation, dan Image Text To Text dari Hugging Face.

Diagram berikut merangkum alur kerja untuk men-deploy model Hugging Face dari Model Garden:

Opsi deployment untuk model Hugging Face

Anda dapat men-deploy model Hugging Face yang didukung di Vertex AI atau Google Kubernetes Engine (GKE). Pilihan opsi deployment Anda bergantung pada model yang Anda gunakan dan tingkat kontrol yang Anda perlukan untuk workload Anda.

Opsi Deployment Deskripsi Paling cocok untuk...
Vertex AI Platform serverless terkelola untuk membangun dan menskalakan project machine learning. Tim yang menginginkan kemampuan MLOps end-to-end dan pengalaman pengembangan yang disederhanakan tanpa memerlukan keahlian MLOps internal.
GKE Layanan Kubernetes terkelola yang memberikan skalabilitas, keamanan, dan ketahanan. Organisasi yang telah berinvestasi di Kubernetes, memiliki keahlian MLOps internal, atau yang memerlukan kontrol terperinci atas beban kerja AI/ML yang kompleks.

Men-deploy di Vertex AI

Vertex AI menawarkan platform terkelola untuk membangun dan menskalakan project machine learning tanpa memerlukan keahlian MLOps internal. Anda dapat menggunakan Vertex AI sebagai aplikasi hilir yang menyajikan model Hugging Face. Pertimbangkan untuk menggunakan Vertex AI jika Anda menginginkan kemampuan MLOps end-to-end, fitur ML bernilai tambah, dan pengalaman serverless untuk pengembangan yang lancar.

Untuk men-deploy model Hugging Face yang didukung di Vertex AI:

  1. Buka Model Garden.

    Buka Model Garden

  2. Di bagian Open models on Hugging Face, klik Show more.

  3. Temukan dan pilih model yang akan di-deploy.

  4. Opsional: Untuk Deployment environment, pilih Vertex AI.

  5. Opsional: Tentukan detail deployment.

  6. Klik Deploy.

Untuk memulai, lihat contoh berikut:

Men-deploy di GKE

Google Kubernetes Engine (GKE) adalah Google Cloud solusi untuk Kubernetes terkelola yang memberikan skalabilitas, keamanan, ketahanan, dan efektivitas biaya. Opsi ini direkomendasikan jika Anda telah berinvestasi di Kubernetes, organisasi Anda memiliki keahlian MLOps internal, atau jika Anda memerlukan kontrol terperinci atas workload AI/ML yang kompleks dengan persyaratan keamanan, pipeline data, dan pengelolaan resource yang unik.

Untuk men-deploy model Hugging Face yang didukung di GKE:

  1. Buka Model Garden.

    Buka Model Garden

  2. Di bagian Open models on Hugging Face, klik Show more.

  3. Temukan dan pilih model yang akan di-deploy.

  4. Untuk Deployment environment, pilih GKE.

  5. Ikuti petunjuk deployment.

Untuk memulai, lihat contoh berikut:

Arti "Didukung oleh Vertex AI"

Model Hugging Face terbaru dan paling populer otomatis ditambahkan ke Model Garden. Proses ini mencakup pembuatan otomatis konfigurasi deployment untuk setiap model.

Untuk mengatasi kekhawatiran tentang kerentanan dan kode berbahaya, Vertex AI menggunakan Hugging Face Malware Scanner untuk menilai keamanan file dalam setiap repositori model Hugging Face setiap hari. Jika repositori model ditandai berisi malware, Vertex AI akan segera menghapus model dari halaman galeri Hugging Face.

Meskipun model yang ditetapkan sebagai didukung oleh Vertex AI telah menjalani pengujian dan dapat di-deploy di Vertex AI, penetapan ini tidak menjamin tidak adanya kerentanan atau kode berbahaya. Sebelum men-deploy model apa pun di lingkungan produksi, lakukan verifikasi keamanan Anda sendiri.

Menyesuaikan konfigurasi deployment untuk kasus penggunaan tertentu

Konfigurasi deployment default yang disediakan dengan opsi deployment sekali klik mungkin tidak memenuhi setiap persyaratan, karena beragamnya kasus penggunaan dan perbedaan prioritas untuk latensi, throughput, biaya, dan akurasi.

Anda dapat bereksperimen dengan deployment sekali klik untuk membuat tolok ukur, lalu menyesuaikan konfigurasi deployment menggunakan notebook Colab atau Python SDK. Pendekatan berulang ini memungkinkan Anda menyesuaikan deployment dengan kebutuhan yang tepat dan mencapai performa terbaik untuk aplikasi tertentu.

Untuk mengetahui informasi selengkapnya, lihat notebook berikut:

Yang harus dilakukan jika model tidak ada di Model Garden

Jika model yang Anda butuhkan tidak tercantum di Model Garden, berarti model tersebut tidak didukung secara langsung. Bagian ini menjelaskan alasan model mungkin tidak tercantum dan tindakan yang dapat Anda lakukan.

Alasan model mungkin tidak tercantum

Model mungkin tidak ada di Model Garden karena alasan berikut:

  • Popularitas: Model diprioritaskan berdasarkan popularitas dan minat komunitas yang kuat.
  • Kompatibilitas: Model mungkin tidak berfungsi dengan container penayangan yang didukung, seperti container vLLM untuk model text-generation dan image-text-to-text.
  • Tugas pipeline yang tidak didukung: Model memiliki tugas yang belum didukung sepenuhnya. Tugas berikut didukung: text-generation, text2text-generation, text-to-image, feature-extraction, sentence-similarity, dan image-text-to-text.

Yang dapat Anda lakukan

Jika model tidak tersedia di Model Garden, Anda memiliki opsi berikut:

  • Deploy sendiri menggunakan Notebook Colab: Kami memiliki Notebook Colab berikut: (vLLM, TGI, TEI, inferensi pytorch HF), yang memberikan fleksibilitas untuk men-deploy model dengan konfigurasi kustom. Hal ini memberi Anda kontrol penuh atas prosesnya.
  • Mengirimkan Permintaan Fitur: bekerja sama dengan engineer dukungan Anda dan mengirimkan permintaan fitur melalui Model Garden, atau lihat dukungan Vertex AI Generatif untuk mendapatkan bantuan tambahan.
  • Periksa update: Model baru ditambahkan secara rutin ke Model Garden. Model yang Anda cari mungkin akan tersedia pada masa mendatang, jadi periksa kembali secara berkala.