É possível explorar os resultados da consulta do BigQuery usando os notebooks do Colab Enterprise no BigQuery.
Neste tutorial, você consulta dados de um conjunto de dados público do BigQuery e explora os resultados de consulta em um notebook.
Objetivos
- Criar e executar uma consulta no BigQuery
- Explorar resultados de consulta em um notebook.
Custos
Neste tutorial, usamos um conjunto de dados disponível pelo Google Cloud programa de conjuntos de dados públicos. O Google paga pelo armazenamento desses conjuntos de dados e oferece acesso público a eles. Você receberá cobranças pelas consultas realizadas nos dados. Para mais informações, consulte Preços do BigQuery.
Antes de começar
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
O BigQuery é ativado automaticamente para novos projetos.
Ativar o BigQuery Studio
Siga as instruções em Ativar o BigQuery Studio para gerenciamento de recursos para salvar, compartilhar e gerenciar versões de recursos de código, como notebooks.
Permissões necessárias
Para criar e executar notebooks, você precisa dos seguintes papéis do Identity and Access Management (IAM):
- Usuário do BigQuery (
roles/bigquery.user
) - Usuário do ambiente de execução do notebook (
roles/aiplatform.notebookRuntimeUser
) - Criador de código (
roles/dataform.codeCreator
)
Abrir resultados de consulta em um notebook
É possível executar uma consulta SQL e depois usar um notebook para explorar os dados. Essa abordagem é útil quando você quer modificar os dados no BigQuery antes de trabalhar com eles ou quando precisa apenas de um subconjunto dos campos na tabela.
No console Google Cloud , acesse a página BigQuery.
No campo Digite para pesquisar, insira
bigquery-public-data
.Se o projeto não aparecer, insira
bigquery
no campo de pesquisa e clique em Pesquisar para todos os projetos para associar a string de pesquisa aos conjuntos de projetos que já existem.Selecione bigquery-public-data > ml_datasets > pinguins.
Na tabela pinguins, clique em
Ver ações e, em seguida, clique em Consultar.Adicione um asterisco (
*
) para seleção de campo à consulta gerada, de modo que ela fique parecida com o exemplo a seguir:SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
Clique em
Executar.No painel Resultados de consulta, clique em Explorar dados e em Explorar com notebook Python.
Preparar o notebook para uso
Prepare o notebook para uso conectando-se a um ambiente de execução e definindo os valores padrão do aplicativo.
- No cabeçalho do notebook, clique em Conectar para se conectar ao ambiente de execução padrão.
- No bloco de código Setup, clique em Executar célula.
Explorar os dados
- Para carregar os dados dos pinguins em um BigQuery DataFrame e mostrar os resultados, clique em Executar célula no bloco de código na seção Conjunto de resultados carregado do job do BigQuery como um DataFrame.
- Para ver métricas descritivas dos dados, clique em Executar célula no bloco de código na seção Mostrar estatísticas descritivas usando describe().
- Opcional: use outras funções ou pacotes do Python para explorar e analisar os dados.
O exemplo de código a seguir mostra o uso de bigframes.pandas
para analisar dados e o bigframes.ml
para criar um modelo de regressão linear de pinguins em um DataFrame do BigQuery:
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
A maneira mais fácil de evitar cobranças é excluir o projeto Google Cloud criado para este tutorial.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
A seguir
- Saiba mais sobre como criar notebooks no BigQuery.
- Saiba como explorar dados com o BigQuery DataFrames.