Um guia prático para criar dashboards no Grafana que combinam métricas do AIDP Workbench e logs de auditoria de execuções de jobs da Oracle Cloud Infrastructure.

Visão Geral

O Oracle AI Data Platform Workbench (AIDP Workbench) é o ambiente para criar, gerenciar e operacionalizar fluxos de trabalho corporativos de dados e IA.

Este guia mostra como monitorar o AIDP Workbench no Grafana utilizando duas fontes de dados fornecidas pela Oracle: OCI Metrics para métricas de séries temporais e OCI Logs para eventos de execução de jobs provenientes do OCI Logging e Audit.

Serviços principais

AIDP Workbench: o ambiente Oracle onde as equipes preparam dados, executam jobs e gerenciam fluxos de trabalho de IA e dados.

OCI Metrics: Métricas de séries temporais, como utilização de CPU, utilização de memória, throughput, latência e métricas customizadas específicas de serviços.

Plugins OCI Metrics e OCI Logs para Grafana: plugins de fonte de dados fornecidos pela Oracle que permitem ao Grafana consultar diretamente o OCI Metrics e o OCI Logging, mantendo o uso do OCI IAM para controle de acesso.

Antes de começar

Certifique-se de que o Grafana tenha acesso às APIs da OCI e utilize uma credencial com permissão para inspecionar compartments, ler métricas e acessar conteúdos de logs no compartment do AIDP. Se o Grafana estiver executando em uma instância OCI, utilize autenticação por instance principal com dynamic group, em vez de armazenar credenciais de usuários.

As métricas do AIDP Workbench são publicadas no namespace oracle_aidataplatform. Se o dashboard for dedicado ao AIDP Workbench, você pode definir o namespace como uma variável estática com esse valor.

Instale as fontes de dados OCI para Grafana

No Grafana, abra Plugins e instale tanto o Oracle Cloud Infrastructure Metrics quanto o Oracle Cloud Infrastructure Logs. Em seguida, crie uma fonte de dados para cada plugin.

Quando o Grafana estiver executando dentro da OCI, configure as fontes de dados para utilizar autenticação por instance principal. Isso mantém o serviço do dashboard controlado por políticas IAM e evita o uso de chaves de API pessoais de longa duração.

Criar variáveis do dashboard

Crie variáveis do tipo consulta no dashboard do Grafana para que um único dashboard funcione em diferentes regiões, compartments, namespaces, grupos de recursos, métricas e dimensões.

Utilize a fonte de dados OCI Metrics para essas variáveis. As funções abaixo são suportadas pelo plugin OCI Metrics e facilitam a reutilização do dashboard.

VariávelConsulta
regionregions()
compartmentcompartments()
namespacenamespaces($region, $compartment)
resourcegroupresourcegroups($region, $compartment, $namespace)
metricmetrics($region, $compartment, $namespace, $resourcegroup)
dimensiondimensions($region, $compartment, $namespace, $metric, $resourcegroup)

Para um dashboard exclusivo do AIDP, altere a variável namespace para um valor fixo e defina-a como oracle_aidataplatform.

Após criar as variáveis, o dashboard deverá fornecer um conjunto claro de filtros para seleção de região, compartment, namespace, métrica e dimensão.

Criar painéis de métricas do cluster de computação do AIDP

Crie uma linha na dashboard para métricas do cluster de computação e outra para estatísticas de jobs. Na linha de computação, selecione a fonte de dados OCI Metrics e utilize $region, $compartment e $namespace para que o painel siga os filtros do dashboard.

Comece com CpuUtilization, agregando pela média(average) e utilizando intervalo de um minuto. Isso fornece uma visão quase em tempo real do comportamento do driver e dos executores do cluster AIDP selecionado.

Utilize um formato de legenda e transformações para tornar os rótulos dos executores mais legíveis.

Legend format: Cluster: {{resourceName}} – Executor: {{executorId}}

Adicione uma transformação nos rótulos dos executores para facilitar a identificação do driver e dos executores na legenda do gráfico.

Match: /^(Cluster:\s*[^-]+)\s*-\s*Executor:\s*1\s+1$/
Replace: $1 – (Driver)

Match: /^(Cluster:\s*[^-]+)\s*-\s*Executor:\s*1\s+([2-9]\d*)$/
Replace: $1 – (Executor) $2

Match: /^(Cluster:\s*[^-]+)\s*-\s*Executor:\s*1\s+(\d+)$/
Replace: $1 – (Executor) $2

Com essas transformações, o painel exibe o nome do cluster e indica se cada série temporal representa o driver ou um executor.

Repita o mesmo padrão para MemoryUtilization para que o dashboard exiba lado a lado a utilização de CPU e o uso de memória.

Adicionar painéis de status de jobs a partir do OCI Logging

Para status de jobs, utilize a fonte de dados OCI Logs. Crie um painel que pesquise no log de Auditoria do compartment AIDP por execuções de jobs concluídas.

Consulta para jobs com falha:

search “ocid1.compartment.oc1..OCID_DO_SEU_COMPARTIMENTO/_Audit” | where type=’com.oraclecloud.datalake.CreateJobRun.end’ and data.additionalDetails.jobStatus contains_ci ‘failed’ | sort by datetime desc

Consulta para jobs bem-sucedidos:

search “ocid1.compartment.oc1.. OCID_DO_SEU_COMPARTIMENTO/_Audit” | where type=’com.oraclecloud.datalake.CreateJobRun.end’ and data.additionalDetails.jobStatus contains_ci ‘success’ | sort by datetime desc

Utilize uma visualização Gauge como indicador simples de status. Para o painel de falhas, defina o limite base como vermelho para que as falhas se destaquem imediatamente.

Aplique transformações para converter a saída da consulta de logs nos campos que deseja exibir.

Criar uma tabela interativa de jobs

Utilize a mesma consulta de logs com uma visualização do tipo Tabela para criar uma visão detalhada das execuções de jobs. Extraia os campos necessários, como nome do job, ID da execução, status, horário de início e identificadores do workflow.

Adicione um link de dados do Grafana que construa a URL do workflow do AIDP Workbench a partir dos campos extraídos. Utilize a URL do seu AIDP Workbench e os caminhos específicos da tenancy.

O resultado é uma tabela operacional na qual os usuários podem clicar no nome de um job e abrir diretamente a página correspondente do workflow no AIDP a partir do Grafana.

Observações operacionais

Mantenha o dashboard reutilizável utilizando variáveis para seleção de região, compartment, namespace e métricas. Mantenha o namespace do AIDP estático apenas quando o dashboard for intencionalmente dedicado ao AIDP Workbench.

Para dashboards de produção, utilize grupos OCI IAM, grupos dinâmicos e políticas de menor privilégio para que o Grafana leia apenas as métricas e logs necessários. Revise os painéis de métricas e as consultas de logs após atualizações do AIDP Workbench, pois novas métricas ou campos de log podem ficar disponíveis.

Referências

Oracle AI Data Platform Workbench documentation: https://docs.oracle.com/en/cloud/paas/ai-data-platform/

OCI Metrics Grafana plugin: https://grafana.com/grafana/plugins/oci-metrics-datasource/

OCI Logs Grafana plugin: https://grafana.com/grafana/plugins/oci-logs-datasource/