Quando o Bournemouth estava três gols atrás do Luton Town no início do segundo tempo em uma partida da Premier League, um empate parecia improvável e uma vitória, quase impossível. Depois de quatro gols do Bournemouth em um intervalo de 33 minutos, os torcedores não conseguiam acreditar no que tinham acabado de ver.
Mas foi, de fato, a reviravolta mais improvável da temporada 2023-2024 da Premier League? Depois de analisar os dados — 1,2 bilhão de linhas, totalizando mais de 10 bilhões de pontos de dados de todas as 380 partidas —, determinamos que sim.
A Reviravolta Mais Improvável é um dos dois prêmios de final de temporada que a Premier League anunciou em 21 de maio, cada um baseado em uma análise rigorosa de dados usando os serviços da Oracle Cloud Infrastructure (OCI).
O Bournemouth levou o troféu de Reviravolta Mais Improvável pela vitória de virada por 4 a 3 em casa no dia 13 de março. Igualmente impressionante foi o Gol Mais Poderoso da temporada, pelo qual o ponta do Aston Villa, Moussa Diaby, levou o troféu por seu chute preciso contra o Wolverhampton em 30 de março.
Para chegar aos vencedores do prêmio, a Premier League fez parceria com a Oracle, que colocou à disposição um de seus cientistas de dados para analisar as enormes quantidades de dados de partidas usando vários serviços de ponta da OCI. A seguir está uma visão dos bastidores dessa análise.
Reviravolta Mais Improvável: Como é o cálculo
O cientista de dados da Oracle, Brian Macdonald, chegou aos candidatos para o prêmio de equipe da Premier League usando a Win Probability, uma estatística de terceiros que calcula a chance de uma equipe garantir uma vitória ou um empate em cada partida, simulando o restante do jogo 100.000 vezes.
Esse modelo estatístico, baseado em vários anos de dados gerados pelo Stats Perform, leva em consideração a pontuação atual em diferentes momentos ao longo de cada partida, o tempo restante em um determinado jogo, o número de jogadores em campo para cada equipe (para levar em conta quaisquer jogadores expulsos por causa de um cartão vermelho) e se um time está em casa ou fora.
Usando o OCI Data Science Service, a Oracle analisou as probabilidades de vitória de cada time em intervalos de 30 segundos para cada uma das 380 partidas da temporada para calcular qual equipe voltou da menor probabilidade de vitória para derrotar seu oponente.
Para o vencedor da Reviravolta Mais Improvável, o Bournemouth, o OCI Data Science determinou que o Luton tinha 97,6% de probabilidade de vitória aos 49:44 do jogo, a maior porcentagem de qualquer time durante a temporada que acabou perdendo a partida. Naquele momento, o Bournemouth tinha apenas 0,4% de chance de ganhar.


Gol Mais Poderoso: Os dados mostram um vencedor claro
Esse prêmio da Premier League reconhece o jogador cujo chute a gol teve a maior velocidade média desde o momento em que a bola foi atingida até o momento em que cruzou a linha do gol, com a ressalva de que o chute foi além da linha de 16 metros da área e foi não desviado.
A análise do OCI Data Science revelou que o arremate de Moussa Diaby contra o Wolves em 30 de março teve uma velocidade média de 109,84 quilômetros por hora. Apenas um outro gol durante a temporada 2023-2024 da Premier League foi mais rápido do que 104 km/h: o chute de 105 km/h de Eberechi Eze, do Crystal Palace, contra o Aston Villa em 19 de maio.
A diferença entre o 10º e o 2º lugar foi de apenas 5,1 km/h. “O resto do top 10 nessa categoria estava bem perto”, disse Macdonald. “Cada incremento era pequeno e, então, tivemos esse grande salto para o vencedor.”
Para os torcedores que assistem em casa, pode ser difícil discernir entre chutes de tal poder, principalmente quando alguns roçam a superfície do campo e outros voam para o canto superior do gol. “Essa é uma das razões pelas quais a análise de dados por trás desses prêmios é tão importante”, disse Will Brass, diretor comercial da Premier League. “Os cálculos são complexos, envolvendo o rastreamento do jogador e da bola, bem como uma análise detalhada do momento em que a bola é tocada. A Oracle Cloud Infrastructure nos dá confiança nesses cálculos precisos e nos permite clareza ao declarar um vencedor merecido.”

Configurando com o ambiente da OCI
Macdonald disse que conseguiu configurar as instâncias da OCI aplicadas a ambas as avaliações dos prêmios em apenas 30 minutos.
A primeira etapa foi escrever scripts Bash em máquinas virtuais do OCI Compute para extrair dados das APIs dos dois principais provedores de dados da Premier League e colocá-los no OCI Object Storage. Esses scripts extraíam dados atualizados após cada dia de jogo.
Um fornecedor é o Second Spectrum, que provê dados de localização sobre o posicionamento (coordenadas 3D) de todos os 22 jogadores em campo, bem como da bola, durante cada partida da Premier League, usando algoritmos de machine learning e visão computacional. O outro provedor é o Stats Perform, cujo serviço Opta aprimora os dados de localização para identificar “eventos” da partida, como chutes (incluindo sua localização no campo, distância do gol e se foram canhotos ou destros), escanteios, faltas, pênaltis, etc.
A partir daí, Macdonald carregou os dados no Oracle Autonomous Data Warehouse, usando os recursos JSON integrados do warehouse em nuvem para lidar com as estruturas complexas necessárias para representar uma partida de futebol. Em seguida, ele conduziu uma série de análises aprofundadas usando a plataforma de machine learning do OCI Data Science.
Ao todo, a análise utilizou bilhões de pontos de dados de todos as 380 partidas para calcular uma variedade de métricas sobre cada jogo e gol, gerando uma pequena lista de candidatos para cada prêmio e resultando na seleção de um único vencedor para cada categoria da Premier League.
“Conectar às APIs dos dois provedores de dados foi provavelmente a parte mais complicada, porque tivemos que trabalhar com as etapas normais de autenticação inicial”, disse Macdonald. “Com tudo funcionando, era só executar os mesmo comandos repetidamente. O resto foi fácil.”
O ambiente da OCI tem produzido os resultados dos dois prêmios de final de temporada da Premier League nas últimas três temporadas, atualizando as tabelas de classificação e os painéis de cada prêmio após cada partida. Os resultados preliminares foram utilizados nas redes sociais para ajudar a promover os eventos especiais ao longo da temporada, mantendo, ao mesmo tempo, os principais candidatos em segredo.
Macdonald explicou: “Fizemos muitas análises e discussões aprofundadas dos resultados, validando e comparando os dados, garantindo que não perdemos nada”.
Principais produtos OCI usados
O OCI Data Science Service, cerne das análises, é uma plataforma totalmente gerenciada e serverless para que as equipes de ciência de dados criem, treinem e gerenciem modelos de machine learning de alta qualidade. Os recursos automatizados de machine learning examinam rapidamente os dados e recomendam os algoritmos ideais, enquanto ajustam o modelo e explicam seus resultados.
As ferramentas de integração e preparação de dados de arrastar e soltar do OCI Data Science facilitam para os usuários mover dados para um data lake ou data warehouse. As ferramentas de segurança e as interfaces de usuário da plataforma em nuvem permitem que usuários com várias funções participem de projetos e compartilhem modelos. As explicações independentes de modelo ajudam os cientistas de dados, analistas de negócios e executivos a confiar nos resultados.
O Oracle Autonomous Data Warehouse é um serviço de armazenamento de dados em nuvem que elimina complexidades operacionais ao automatizar provisionamento, configuração, aplicação de patches, ajuste, dimensionamento e backup.
O OCI Compute fornece capacidade de computação rápida, flexível e acessível, de servidores bare metal e máquinas virtuais a contêineres leves, para atender a qualquer carga de trabalho. As instâncias de VM e bare metal exclusivamente flexíveis do OCI Compute oferecem ótimo custo-benefício.
O OCI Object Storage permite que os usuários armazenem com segurança qualquer tipo de dado em seu formato nativo. Com redundância integrada, o OCI Object Storage é ideal para criar aplicações modernas que exigem escala e flexibilidade, pois pode ser usado para consolidar várias fontes de dados para fins de análise, backup ou arquivamento.
Macdonald também usou a Oracle Analytics Cloud para apresentar um placar completo para cada prêmio, permitindo que ele reorganizasse os dados com base em critérios diferentes, por exemplo, para incluir candidatos ao Gol Mais Poderoso para chutes que ocorreram dentro da área de 18 jardas ou restringir a análise aos jogadores de um determinado time.
A Oracle Analytics Cloud fornece um conjunto completo de ferramentas para derivar e compartilhar insights de dados. A plataforma permite que os analistas visualizem quaisquer descobertas de dados, em qualquer dispositivo. Também permite que os usuários insiram, criem perfis e limpem dados usando uma variedade de algoritmos, bem como agreguem dados e executem modelos de ML em escala
