Todos y cada uno de los elementos que conforman nuestra vida se pueden estudiar con la Ciencia de Datos. La razón por la que no conocemos estudios o análisis en torno a situaciones cotidianas bajo esta disciplina es porque el foco de atención de la prensa se encuentra principalmente en coyunturas que atraviesan temáticas delicadas, como la salud o la seguridad financiera; sin embargo, esos científicos que desarrollan importantes proyectos LINKS, también toman un momento para, ¡explorar el mundo del cine con esta ciencia!

Un ejemplo de este tipo de aplicaciones es la que propuso Nicholas Parker, un científico de datos de la Universidad de San Francisco, quien se preguntó: ¿Qué pasaría si se usara el Machine Learning para predecir a la Mejor Película del año? El analista decidió que respondería a esta cuestión generando un algoritmo para “predecir” cuál sería la ganadora del Premio de la Academia a la Mejor Película en los premios Óscar 2020, debido a que muchos de los votantes de este certamen pertenecen a otros jurados como los de los Screen Actors Guild Awards y Directors Guild Awards, los cuales ya habían sucedido  de nuevo y este experimento basado en datos lo vamos a desmenuzar en el presente artículo.  

¿Cómo es seleccionada la cinta ganadora?

Para poder detallar el experimento de Parker, es necesario mencionar que el proceso de selección de la Mejor Película en los Premios de la Academia es un tanto peculiar.  Se le conoce como “votación preferencial” , un procedimiento que se realiza cuando existen demasiadas opciones dentro de una votación, y comenzó a usarse en esta premiación en 2009 cuando se expandió de cinco a diez el número de candidatas al Óscar. El sistema para designar a una película a premiar es el siguiente: cada uno de los miembros del jurado debe calificar a las diez candidatas con un número que vaya del 1 al 10 (bajo el entendido de que a su favorita le sea otorgada la mayor calificación). 

Tras la votación del jurado, se elimina de la lista de seleccionadas la película que tenga la mejor calificación y se realiza nuevamente el análisis de puntuacion, proceso que se repite hasta que la cinta que se encuentre en primer lugar tenga un porcentaje de más del 50 %. A dicho filme se le otorga entonces el Óscar a Mejor Película.

¿Cómo se aplica la Ciencia de Datos?

Para realizar la “predicción” de la película ganadora del premio en la entrega número 92, el científico de datos recurrió al uso de “Random Forests” (conocidos también como “Bosques Aleatorios”), conjunto de métodos de aprendizaje para clasificación y regresión de datos que operan al construir una multitud de “árboles de decisión”, cuya formación depende de los colores que le otorgue un vector aleatorio formado de manera independiente.

Tras la programación del algoritmo para inducir “Random Forests”, en los que Parker simuló las decisiones de un jurado conformado por 7, 000 papeletas, que se asemejan al número de votantes en los Premios de la Academia. El científico de datos usó técnicas de Machine Learning para entrenar a cada “votante para decidir. El resultado fue muy sorprendente para el especialista, pues más del 50 % de las probabilidades señalaron a la película que, en realidad, obtuvo el galardón: 1917.

 

 

FUENTES

https://towardsdatascience.com/predicting-the-oscars-using-preferential-machine-learning-32f06ffbf427

https://www.oscars.org/oscars/ceremonies/2020