Penaltis y Gila: Big Data, Small data y el futuro de la decisión pública

 

Consultor estratégico de Big Data planteando un nuevo algoritmo. Fuente
Por Sergio Jimenez. Analítica Pública. Julio 30, 2021

La reciente fase final de la Eurocopa ha tenido varias tandas de penaltis. Con toda la emoción ante la importancia de avanzar o ser eliminado, y el impacto que tiene en competiciones y carreras, este mecanismo de desempate da mucho juego. En él juntamos la mitología, la épica, el fracaso, el drama, las anécdotas y, más recientemente, la innovación tecnológica. La derrota de la selección inglesa en la final tiene un capítulo especial con el uso del big data para decidir quién, cuándo y cómo se debían de tirar los penalitis.  Hay que decir que, aparentemente, algunas decisiones fueron atípicas (dejar futbolistas jóvenes para el final, sacarlos justo para participar en la tanda, no mantener a jugadores con experiencia… todas medidas atípicas que, en caso de haber dado otro resultado, nos habría dado para hablar de lo maravilloso y disruptivo que es el big data y como cambia las cosas. Los penaltis no entraron, y ahora tenemos todo el backlash.
 
Que el mundo del deporte se ha metido de lleno en el big data no es nuevo. Basta con ver Money Ball, o cómo ha cambiado el baloncesto de la NBA la última década (muchos mas triples y menos pívots), o pasearse por LinkedIn para ver todos los perfiles de datascientist que trabajan para equipos de futbol. Así que es de esperar que, si hay big data para tirar los penaltis, habrá también para pararlos, y me recordó mucho al número de Gila (Gila hacía números, aún no teníamos sketches ni monólogos) de que todos los porteros tenían madre y lo cristiano era que los partidos acabaran 0 a 0..


El impacto del Big Data en las industrias

 
El caso es que esto me lleva a pensar un poco en el impacto del big data y los algoritmos cuando (es un cuando y no un si) se generalicen en el sector público. Hemos visto como el deporte ha cambiado (los equipos tienden a parecerse más y a buscar posiciones más sólidas). También hemos visto como los algoritmos financieros se comportan como clones  provocando momentos de euforia con alzas repentinas o de pánico con crashes inmediatos. Si los equipos deportivos y los bancos tienen big data (como los porteros tienen madres) no podemos descartar que con la acción pública pase lo mismo: más acierto, pero algunos comportamientos que hemos encontrado en otros entornos, como por ejemplo:
  • Políticas y acciones públicas miméticas. Si los algoritmos de bolsa y los equipos de deportes se comportan igual, es previsible pensar cientos de gobiernos generando políticas públicas o decisiones muy similares si comparten algoritmos y datos contextuales a gran escala (dimensiones macroeconómicas, por ejemplo)
  • Alto impacto de las tendencias en los sistemas. Imaginemos que los algoritmos empiezan a recomendar, por ejemplo, de manera masiva la recalificación de suelo, o la reconversión de zonas en prácticamente la totalidad de municipios que usen estos sistemas de Big Data y Machine Learning. Los impactos escalares tienen un efecto que no estoy convencido que los algoritmos contemplen de primeras (recordemos lo que ha sucedido con GameStop y Robin Hood). ¿Preveeran los algoritmos decisiones sobre una base integral y no sobre su entidad de gobierno?
  • Brecha por la diferenciación de acceso. Posiblemente la evolución de los equipos grandes con medios para invertir en sistemas de Big Data (igual que de las inversoras grandes) hace que las que se queden atrás se encuentren en una brecha más grande y compleja. Cabe preguntarse que pasará con gobiernos que carecen de sistemas (o cuya ciudadanía tiene una conectividad limitada, o no tienen volumen de datos suficientes) para mantener la competitividad con otros gobiernos con más medios.
Todo esto lo hemos visto en otros sectores y, posiblemente, empiecen a percibirse conforme se generalicen mecanismos de ML en las AAPP.

 Big data y small data

Sin embargo, como decía, y como nos muestra el resultado de Inglaterra, pese al paradigma dataista que se está construyendo, no es una garantía de nada. De hecho, a lo largo de los últimos meses hemos encontrado como la decisión improvisada se vió como un mérito en la tanda de penaltis del Athletic contra el Betis. Del mismo modo, hemos visto que quizá algo menos de información y datos pueden ser suficientes, al menos a juzgar por el número de penaltis detenidos por Unai Simón con su “chuleta” de hacia dónde tira cada jugador. En todo caso, creo que hay una serie de elementos que podrían explicar por qué el Big Data no parece ser la panacea en los lanzamientos de penalti.
  • Quizá no todas las tandas son iguales. Cuando te metes en un proyecto de analítica de datos tienes que hacer asunciones (es decir, dar por buenas una serie de premisas que van a justificar las decisiones de cómo tratar los datos). A lo mejor, no todas las tandas son iguales para poder compararlas o quizá estamos incluyendo elementos que en realidad no influyen. A veces meter más datos de los necesarios (sobre todo si no son del todo comparables) es contraproducente. Esto podría explicar que la chuleta de Unai tenga un éxito, como mínimo, no inferior al del sistema de Big Data de Inglaterra.
  • Hay aspectos emocionales difíciles de valorar. No sé de qué manera podría medirse el estado de nervios o confianza de un tirador en un algoritmo (y como podríamos señalizarlo para decidir que lo debe tirar o no). Hay elementos que, como poco, se escapan, al menos de momento, en la captura o tratamiento de los datos y que parecen enormemente relevantes.
  • El azar y los imprevistos. La verdad es que la mayoría de los modelos indican cierta fiabilidad, pero no son infalibles. Es decir, un modelo posiblemente dirá que un penalti tirado por un jugador con tales características dirigido arriba a la izquierda tiene más probabilidades de hacer gol que otros. Sin embargo, eso no significa una certidumbre: hay una serie de elementos sujetos al azar (viento, que tropiece, que tire muy fuerte, que el portero se cruce y decida tirarse para otro lado…) Lo “bueno” de los modelos de datos (de muchos datos) es que cuando hay mucho margen de acierto, el tamaño de los errores parece menos importante en su conjunto. Sin embargo, cuando la probabilidad del error es relativamente alta, o el número de casos es pequeño, el impacto del error (y del azar como causa incontrolable) es muy grande. Esto hace que, quizá en una tanda de 10000 penaltis tengamos muchas más probabilidades de acertar que en una de 5.
  • El valor de la intuición. A mi me gusta pensar que la intuición, más que una magia, son las cosas que no sabemos que sabemos, pero que están ahí. En este sentido, cuando por ejemplo, los futbolistas deciden quienes tiran, o el entrenador lo decide sin mirar un estudio sesudo, o el portero decide tirarse para un lado porque le da esa sensación, son aspectos que, como poco, la máquina tiene problemas de explicitar y capturar. Esto lo veremos muchas veces en la decisión pública: cosas que saben los responsables políticos o administrativos pero más resultado de su oficio y experiencia que de conocimiento explicitado.
  • La difícil medición del éxito. Finalmente, no podemos saber si Inglaterra lo hubiera hecho mejor sin su sistema de Big Data, o si Italia lo hubiera hecho peor. Medir el valor real de estos sistemas requiere bastante andadura y depende mucho del concepto de éxito. En una tanda de penalties está claro (meter más que el rival) pero ¿cómo medimos el éxito en una política pública? Este debate típico de la evaluación no tiene una respuesta única, dado que hay múltiples niveles de éxito, no siempre coincidentes y, por lo tanto, diversos escenarios de decisión.
 
En definitiva, podemos decir que la inclusión del Big Data influye mucho en la creación de ventajas competitivas que se minimizan conforme se generaliza su adopción. Esta generalización aumenta resultados, pero también homogeniza la manera de trabajar de una industria y genera algunos impactos en su relación con su entorno. En todo caso, hay escenarios en los que, incluso tecnologías contrastadas, no tienen un fácil encaje. Escenarios muy definidos y diferenciados, con un número de casos o ejecuciones controlados y en los que aspectos subjetivos o no explícitos, parecen tener una adaptación para los sistemas de Big Data. Esto deja mucho margen y espacio para pequeños datos y el componente humano, al menos de momento. Esto permite, además, romper la entropía que genera esa extensión de algoritmos muy similares que hemos señalado. En ese sentido, la clave es encontrar el equilibirio entre el potencial del Big Data con ese componente a pequeña escala… porque, como diría Gila, si usaramos el Big Data para todo, los partidos posiblemente acabarían todos 0 a 0, pero entonces no tendría sentido jugar al futbol.
 

Comentarios