Sábado, 19 Noviembre 2022 15:48

Al fútbol le llegó la hora de la ciencia de datos

Escrito por Evelyn Alas

El fútbol es un deporte que genera miles de datos por segundo. Cada vez son más las formas de captarlos, de procesarlos y de analizarlos para desarrollar estrategias de juego. 

Los modelos de ciencia de datos toman datos actuales e históricos y permiten hacer comparaciones, responder múltiples preguntas e incluso arrojar probabilidades respecto a cómo se podrían desempeñar los equipos.

Datalytics mostró cómo se pueden desarrollar este tipo de modelos de analítica avanzada y cómo aplicarlos al fútbol.

17 de noviembre de 2022.- El fútbol y la ciencia de datos. La emoción y la razón. Estas dos disciplinas, en apariencia contradictorias, van a convivir como nunca antes en el próximo

Mundial. Datalytics mostró cómo se puede aplicar la ciencia de datos al fútbol a partir del uso de tecnologías de Microsoft.

Los datos no resuelven los mundiales, pero ayudan a entender e informar. En un partido de fútbol promedio se generan entre 2000 y 2500 eventos (pases, disparos al arco, faltas, etc.) En el próximo Mundial, gracias a la incorporación de sensores que capturarán más datos, ese número ascenderá a 15 mil. Es mucha información disponible.

La ciencia de datos es, básicamente, estadística con un componente predictivo. Toma los datos existentes y busca generalizaciones sobre datos no vistos. Puede usarse para, por ejemplo, determinar cuál es el equipo en el un jugador según sus características y las de un determinado equipo tendría la mejor contribución y desempeño sin tener que jugar con ellos y así definir una transferencia.

La ciencia de datos ayuda a solucionar un problema generalizando sobre aquello que no se conoce. Incluye herramientas, procesos y métodos que se incorporan al ciclo de vida del negocio.

No sólo tiene que entregar conocimiento nuevo, también tiene que ser capaz de embeber ese  conocimiento en el negocio y ofrecer soluciones a problemas reales.

La ciencia de datos tiene múltiples usos, tanto para el negocio como para la vida cotidiana de las personas. Hay deportes como el beisbol o el básquet que llevan años de aplicación de la ciencia de datos al análisis del juego. Con el ejercicio que presentó Datalytics, se usaron herramientas de

Microsoft que permiten explotar esta información en el futbol. Se utilizó Azure Databricks para el procesamiento del gran volumen de información y Azure Machine Learning para la construcción de modelos avanzados.

Ciencia de datos y fútbol

La ciencia de datos tiene múltiples aplicaciones en el fútbol que van desde el análisis de selecciones y jugadores (juegos, goles, total ganados/empatados/perdidos, diferencia de gol, estabilidad del equipo, etc.), la construcción de métricas comparativas e incluso también se puede utilizar para calcular probabilidades (¿qué probabilidad tiene México de derrotar a Argentina? ¿Y España de ganarle a Alemania?)

En un ejercicio de divulgación, y para mostrar cómo se puede acceder a toda esta información a través de la ciencia de datos, Datalytics confeccionó una serie de modelos a partir de tres principales fuentes: el último mundial, los datos históricos de partidos internacionales y el desempeño de los jugadores y entrenadores en sus ligas.

Con todo esto, se construyeron cuatro dimensiones: por equipo, por jugador, por entrenador y por sede de mundial. A partir del cruce de estas variables se pueden responder diferentes tipos de preguntas.

Sin embargo, es importante aclarar que el fútbol es un fenómeno difícil de modelar. Hay factores que pueden incidir en la falla de un modelo, como por ejemplo la poca frecuencia de los eventos (equipos que solo se han enfrentado una vez en su historia y no hay suficientes datos como para poder inferir un posible comportamiento), los factores difícilmente capturables (como el estado mental y emocional de los jugadores o las lesiones), la impredecibilidad de las decisiones de los entrenadores, los cambios ambientales, etc.

¿Cómo hacer un buen modelo de datos?

Los modelos de analítica avanzada son conocimiento resumido. Construirlos implica representar una parte de un fenómeno a partir de los datos disponibles. Independientemente de la forma, lo más importante serán los datos que se usen para darles vida, por eso, los modelos, serán tan buenos como los datos que se usen para darles forma.

A diferencia de muchas aplicaciones de software, los modelos de analítica avanzada son objetos vivos que trabajan con datos que generan las personas todo el tiempo. La gente se muda, los nombres de los productos se modernizan, los precios cambian y no se puede pretender que los modelos se mantengan estáticos, por el contrario, siempre serán parciales.

“Todos los modelos siempre son una foto de la realidad, nunca son definitivos, los datos cambian con el tiempo por eso los proyectos de analítica nunca tienen fin. La clave es contar con datos de calidad y esto el mercado lo empieza a entender. El crecimiento en la demanda de ingenieros e ingenieras de datos creció respecto al año anterior un 50%. La ciencia de datos aporta ventajas competitivas que no pasan por los modelos que los hay muchos y muy parecidos. La verdadera diferencia está en la calidad de los datos: a mejores datos, mejores modelos y a peores datos, peores modelos”, explicó José Arturo Osorio, líder de Analítica Avanzada de Datalytics.