vLLM

Neste documento, descrevemos como configurar a implantação do Google Kubernetes Engine para usar o Google Cloud Managed Service para Prometheus a fim de coletar métricas do vLLM. Esta página mostra como fazer o seguinte:

  • Ative o monitoramento automático de aplicativos para o vLLM ou configure o vLLM manualmente para gerar relatórios de métricas.
  • Acesse um painel predefinido no Cloud Monitoring para conferir as métricas.

Estas instruções se aplicam somente ao usar a coleção gerenciada com o serviço gerenciado para Prometheus. Se você estiver usando a coleta autoimplantada, consulte a documentação do vLLM para informações de instalação.

Estas instruções são um exemplo e devem funcionar na maioria dos ambientes do Kubernetes. Se você estiver com problemas para instalar um aplicativo ou exportador devido a políticas restritivas de segurança ou da organização, recomendamos consultar a documentação de código aberto para receber suporte.

Para mais informações sobre o vLLM, consulte vLLM. Para informações sobre como configurar o vLLM no Google Kubernetes Engine, consulte o guia do GKE para vLLM.

Pré-requisitos

Para coletar métricas do vLLM usando o Managed Service para Prometheus e a coleta gerenciada, sua implantação precisa atender aos seguintes requisitos:

  • Seu cluster precisa executar a versão 1.28.15-gke.2475000 ou posterior do Google Kubernetes Engine.
  • É necessário executar o Managed Service para Prometheus com a coleta gerenciada ativada. Para mais informações, consulte Começar a usar a coleta gerenciada.

O vLLM expõe métricas no formato do Prometheus automaticamente. Não é necessário instalá-lo separadamente. Para verificar se o vLLM está emitindo métricas nos endpoints esperados, faça o seguinte:

  1. Configure o encaminhamento de portas usando o seguinte comando:
     kubectl -n NAMESPACE_NAME port-forward POD_NAME 8000 
  2. Acesse o endpoint localhost:8000/metrics usando o navegador ou o utilitário curl em outra sessão de terminal.

Usar o monitoramento automático de aplicativos

O vLLM oferece suporte ao uso do monitoramento automático de aplicativos. Ao usar o monitoramento automático de aplicativos, o Google Kubernetes Engine faz o seguinte:

  • Detecta instâncias implantadas de cargas de trabalho vLLM.
  • Implanta um recurso PodMonitoring para cada instância de carga de trabalho detectada.
  • Instala painéis do Cloud Monitoring para as métricas do vLLM.

Para usar o monitoramento automático de aplicativos, ative o recurso no cluster do GKE. É possível usar o console Google Cloud , a Google Cloud CLI (versão 492.0.0 ou mais recente) ou a API GKE. Para mais informações, consulte Ativar o monitoramento automático de aplicativos.

Definir um recurso do PodMonitoring

Para descobrir o destino, o operador do Managed Service para Prometheus requer um recurso PodMonitoring que corresponde ao vLLM no mesmo namespace.

É possível usar a seguinte configuração do PodMonitoring:

# Copyright 2025 Google LLC # # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. # You may obtain a copy of the License at # #     https://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, software # distributed under the License is distributed on an "AS IS" BASIS, # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. # See the License for the specific language governing permissions and # limitations under the License.  apiVersion: monitoring.googleapis.com/v1 kind: PodMonitoring metadata:   name: vllm   labels:     app.kubernetes.io/name: vllm     app.kubernetes.io/part-of: google-cloud-managed-prometheus spec:   endpoints:   - port: 8000     scheme: http     interval: 30s     path: /metrics   selector:     matchLabels:       app: vllm-gemma-server 
Verifique se os valores dos campos port e matchLabels correspondem aos dos pods do vLLM que você quer monitorar.

Para aplicar as alterações de configuração de um arquivo local, execute o seguinte comando:

 kubectl apply -n NAMESPACE_NAME -f FILE_NAME 

Também é possível usar o Terraform para gerenciar as configurações.

Verificar a configuração

Use o Metrics Explorer para verificar se você configurou corretamente o vLLM. Pode levar um ou dois minutos para que o Cloud Monitoring ingira as métricas.

Para verificar se as métricas foram transferidas, faça o seguinte:

  1. No console Google Cloud , acesse a página do  Metrics explorer:

    Acesse o Metrics Explorer

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

  2. Na barra de ferramentas do painel do criador de consultas, selecione o botão  MQL ou  PromQL.
  3. Verifique se PromQL está selecionado na opção de ativar/desativar Idioma. A alternância de idiomas está na mesma barra de ferramentas que permite formatar sua consulta.
  4. Digite e execute a seguinte consulta:
    up{job="vllm", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}

Ver painéis

A integração do Cloud Monitoring inclui o painel Visão geral do vLLM Prometheus. Os painéis são instalados automaticamente ao configurar a integração. Também é possível visualizar visualizações estáticas de painéis sem instalar a integração.

Para ver um painel instalado, faça o seguinte:

  1. No console Google Cloud , acesse a página  Painéis:

    Acesse Painéis

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

  2. Selecione a guia Lista de painéis.
  3. Escolha a categoria Integrações.
  4. Clique no nome do painel, por exemplo, Visão geral do vLLM Prometheus.

Para acessar uma visualização estática do painel, faça o seguinte:

  1. No console do Google Cloud , acesse a página  Integrações:

    Acessar Integrações

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

  2. Clique no filtro de plataforma de implantação do Kubernetes Engine.
  3. Localize a integração do vLLM e clique em Visualizar detalhes.
  4. Selecione a guia Painéis.

Solução de problemas

Para resolver problemas de transferências de métricas, consulte Problemas com a coleta de exportadores em Resolver problemas no processamento.