Big Little Data

Big data y sus aplicaciones en el deporte; de Oakland athletics hasta los Houston Rockets

Durante muchos años se había visto con cierto recelo a todos aquellos que tomaban notas en los partidos, trataban de sacar conclusiones sobre lo buenos que eran los jugadores usando lápiz y papel y en definitiva no disfrutaban del deporte con el corazón sino con la cabeza. A este tipo de gente se les llamaba frikis, empollones o nerds. Sin embargo a día de hoy conforman uno de los grupos de trabajadores más interesantes, los data scientists deportivos.

El orígen de esta profesión lo podemos rastrear hasta la ciudad de Oakland, San Francisco. En esta ciudad en 2002, Billy Beane decidió confiar la construcción de su equipo de béisbol a un programa estadístico conocido como Sabermetrics (proviene de SABR, sociedad para la investigación en baseball americano). Empleando las estadísticas recogidas por este programa junto a Paul Depotesta, que actuó como data scientist, se percataron de que las estadísticas mejor valoradas por la mayoría de ojeadores tradicionales no eran las que más relacionadas estaban con la probabilidad de victoria y que las que más lo estaban, eran infravaloradas. Conociendo esta relación y teniendo en cuenta que el equipo estaba pasando por una época con problemas económicos en los que no podían permitirse el lujo de fichar a los jugadores más codiciados, decidieron confiar el dinero de los fichajes a jugadores que no destacaban a simple vista pero que sobresalían en las estadísticas más correlacionadas con la victoria. De esta manera los Oakland Athletics consiguieron muy buenos resultados con uno de los equipos más económicos de la liga.

Brad Pitt y Jonah Hill en la película Moneyball, interpretando a Billy Beane y Paul Depotesta respectivamente. El nombre de Paul fue sustituido en la película por el de Peter Brand ya que este no quiso que su nombre apareciera en ella.

Este caso en particular no se puede llegar a considerar Big Data pero fue uno de los primeros indicios sobre lo que la ciencia de datos podía conseguir.

Tras esto, otros deportes han adoptado esta corriente de pensamiento y han tratado de aplicar las últimas tecnologías disponibles para sacarle un mayor rendimiento a sus atletas. En la mayoría de deportes, a un nivel de élite, las diferencias entre ganar y perder se dan por pequeñas distinciones entre los equipos. Estos márgenes se ven tan reducidos que cualquier pequeña mejora puede suponer una ventaja, por esto en ligas como la NBA se comenzó hace unos años a desarrollar herramientas para seguir mediante vídeo las acciones de los jugadores y descifrar cómo impactan las acciones de estos en su equipo.

Esta herramienta es SportVu y aunque hace unos años no se encontraba en la mayoría de los pabellones, a día de hoy todos los equipos disponen de ella.

Uno de los casos que provocó este cambio en la liga es el de los Houston Rockets. Su General manager, Daryl Morey, fue pionero a la hora de confiar en los data scientists la tarea de confeccionar su equipo, el tipo de tiros que había que fomentar en su ofensiva y la estrategia a seguir para conseguir los mejores resultados posibles. Esto llevó a los Rockets a pasar de ser un equipo mediocre a competir por las primeras plazas de la conferencia oeste en menos de dos años.

Daryl Morey, general manager de los Houston Rockets de la NBA, en un partido de su equipo.

Tal ha sido su impacto sobre la NBA que observando las estadísticas medias de la liga podemos observar que las directrices aplicadas por los Rockets han sido seguidas en mayor o menor medida por la mayoría de los equipos. Se ha aumentado el número de tiros de tres, las posesiones se han acortado, se ha favorecido la calidad de los jugadores en detrimento de su tamaño, etc.

Esto demuestra algunas de las posibilidades ofrecidas por esta ciencia y cómo es capaz de adaptarse al entorno en el que se ve empleada.

Las cinco V’s del Big Data

En una entrada anterior de este blog se definía qué son la ciencia del Big Data y la figura del data scientist. El Big Data ha llegado para quedarse y está cambiando el mundo en el que vivimos. Pero ¿cuáles son los pilares del éxito del Big Data, en los cuales se descompone esta ciencia?

En primer lugar, la VELOCIDAD, que se refiere al ritmo al que los datos son generados, recibidos y analizados en grandes cantidades. Estos datos no solo se transmiten cada vez a mayor velocidad, sino que la tecnología del Big Data permite procesarlos casi en el mismo momento que están siendo producidos, sin necesidad de almacenarlo en ninguna base de datos.

Otra ventaja del Big Data es la VARIEDAD, los diferentes tipos de datos de los que podemos hacer uso. Hasta hace poco, los datos eran estructurados y podían organizarse en una simple tabla de datos, como tu nombre, tu dirección o tu número de teléfono. No obstante, con el auge del Big Data, los datos que circulan también son desestructurados: fotos o vídeos que compartimos por Internet, actualizaciones que hacemos en nuestras redes sociales o cualquier otro tipo de datos que puedas imaginar.

Como su propio nombre indica, Big Data se caracteriza por el enorme VOLUMEN de datos no estructurados que maneja. Y el volumen de estos datos es crucial, cuando es muy grande estos pueden ser considerados Big Data. Algunos ejemplos son la frecuencia con la que tocas la pantalla de tu móvil al utilizar una aplicación determinada o el rastro que dejas visitando distintos enlaces en Google.

La VERACIDAD es otro factor que el Big Data ha de tener en cuenta. La gran dimensión de los datos con los que opera, el hecho de tener tantos datos (que pueden ser inconsistentes y/o falsos en ocasiones) y de tipos tan distintos puede complicarlo todo, y la calidad y precisión de estos datos es difícil de controlar.

Finalmente, manejar esta descomunal masa de datos no sirve para nada si no se convierten en algo con VALOR, un valor que debe ser descubierto. Este descubrimiento pasa por plantearse las preguntas correctas e identificar patrones, para tomar decisiones informadas y predecir comportamientos.

¿Qué es el Big Data?

Big Data es el conjunto de herramientas que se emplean para tratar con cantidades de datos masivas y darles sentido (obtención, almacenamiento y análisis de datos), para hacerlos llegar al público finalmente (divulgación) y también desarrollar nuevos productos que vayan más acordes con las necesidades de las personas.

Data Scientist, ¿qué es?

Actualmente, la figura del ‘Data Scientist’ es cada vez más requerida en la investigación ya que son las personas que se encargarán de crear las distintas herramientas necesarias para administrar y organizar todos los datos requeridos.

¿Quiénes somos?

CONÓCENOS

¡Hola!

Somos un grupo de estudiantes de 4º año del grado en Biotecnología de la Universidad Miguel Hernández de Elche (UMH). Estamos realizando un trabajo acerca del Big Data y sus aplicaciones en la ciencia y queremos hacer una labor de divulgación para que vosotras y vosotros podáis conocer de una forma fácil y dinámica qué engloba esta disciplina.

Esperamos que este blog os sirva de ayuda y que os permita acercaros un poco más a esta ciencia, en muchas ocasiones, desconocida.

Atentamente,

Laura, Avelina, Manuel, Jesús y Eduardo.