ESTUDIO DE CORRELACIONES DE RESULTADOS FUTBOLÍSTICOS DE REAL MADRID C.de F. FRANCISCO SANTOS IGLESIAS DANIEL ÁNGEL RODRÍGUEZ PLAZA Universidad Carlos III de Madrid Universidad Carlos III de Madrid [email protected] [email protected] RESUMEN En este estudio vamos a usar la herramienta Weka para tratar de predecir los resultados de los partidos de fútbol jugados por el Real Madrid C. de F. a partir de múltiples variables referentes a las últimas temporadas. Los datos forman parte de 300 partidos, y a pesar de que este número se puede ampliar puede dejar de haber correlación entre los resultados por tratarse de equipos y estrategias totalmente distintas. Categorías y Descripción H.2.8 Database Apllications [Database management]: Data mining gráfico con la posibilidad de comparar el funcionamiento de diversos algoritmos de aprendizaje. Se trabajará sobre una base de datos construida a partir de datos encontrados en las fuentes citadas [1,2,3] sobre los partidos de los clubes de la primera división de la liga de fútbol profesional Real Madrid, Barcelona, Athletic Club de Bilbao y Valencia. Se trata de una base de datos en la que se pretende determinar cuáles son los factores y correlaciones que permitan determinar las reglas que permiten estimar la victoria, el empate ó la derrota del club de fútbol Real Madrid. Por ello cada instancia de la base de datos se corresponde con un partido de fútbol jugado por el Real Madrid cierto día y recoge los siguientes atributos: Términos Generales PUNTOS_MEDIOS_POR_JORNADA: Esta variable se ha obtenido de la base de datos creada sumando los puntos que va acumulando el Real Madrid a lo largo de las jornadas de la liga y dividiéndose por el número de jornadas transcurridas correspondiente. Para cada jornada actual se dispondrá de los puntos medios por jornada obtenidos a partir de las jornadas anteriores. 1. INTRODUCCIÓN La minería de datos consiste en la extracción cuyo objetivo es el de descubrir hechos contenidos en las bases de datos mediante un trabajo automatizado y con poca, si hay alguna, intervención humana a lo largo del proceso. Mucha de la información valiosa que se busca es desconocida con anterioridad, por ello hay que descubrirla, y estas técnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto. Las reglas que se encuentren permiten entender el modelo del sistema relacionado con los datos observados y la predicción de ciertos estado del sistema. GOLES_MEDIOS_POR_JORNADA: Variable obtenida sumando los goles marcados que va acumulando el Real Madrid a lo largo de las jornadas de la liga y dividiéndose por el número de jornadas transcurridas correspondiente. En cada jornada actual se dispondrá de los goles medios por jornada obtenidos a partir de partidos pasados . JORNADA: Número de jornada en la que se jugó el partido en la temporada correspondiente. ). Se conoce para cada partido. HORA_PARTIDO: Hora del partido (en formato 24 horas). Se conoce para cada partido. DÍA DE LA SEMANA {L,M,X,J,V,S,D}. DÍA: Día del mes en que se juega el partido. ). Se conoce para cada partido. MES: Mes en que se juega el partido. ). Se conoce para cada partido Algoritmo, diseño, experimentación, teoría. Palabras Clave Predicción, algoritmo, correlación. weka WEKA, que es una herramienta de aprendizaje automático y data mining, escrita en lenguaje Java, gratuita y desarrollada en la Universidad e Waikato (WEKA = Waikato Environment for Knowledge Analysis). Dentro de las múltiples interfaces gráficas que ofrece se utilizará la interfaz de usuario, que es un interfaz -1- SUMA FECHA A UN DÍGITO: Suma de la fecha en que se juega el partido, hasta reducirlo a un número. Por ejemplo: 12-3-2007->1+2+3+2+7=15->1+5=6 y Athletic Club de Bilbao y la media de las diferencias de goles medios del Real Madrid respecto a estos tres equipos. DIFERENCIA_PUNTOS_MEDIOS_MADRID_BARS A: Esta variable está formada por los valores de la diferencia de puntos medios entre el Real Madrid y el Barcelona para la jornada de la liga correspondiente a ese partido a partir de las jornadas anteriores. Lo que se busca con esta variable es algún tipo de correlación con el resultado que tenga el Real Madrid en el partido de esa jornada en particular. Puede tener sentido el pensar en que si el Real Madrid es superior en media de puntos al Barcelona, uno de los mejores equipos de la liga española, es que está en muy buen momento de forma, y es más probable que gane su encuentro de fútbol. Esto mismo lo hacemos con el Valencia y el Athletic Club de Bilbao, como comentamos a continuación. Puede tener sentido el pensar en que si el Real Madrid es superior en media de puntos con los tres equipos con los que se compara en este estudio en cuanto a puntos medios y goles medios por jornada es que está en muy buen momento de forma, y es más probable que gane su encuentro de fútbol. DIFERENCIA_PUNTOS_MEDIOS_MADRID_VALE NCIA: Variable que contiene los valores de la diferencia de puntos medios entre el Real Madrid y el Valencia para la jornada de la liga correspondiente a ese partido a partir de las jornadas anteriores. DIFERENCIA_PUNTOS_MEDIOS_MADRID_BILB AO: Variable con los valores de la diferencia de puntos medios entre el Real Madrid y el Athletic Club de Bilbao para la jornada de la liga correspondiente al partido del Real Madrid a partir de las jornadas anteriores. BARSA RESULTADOS: Victoria, derrota, ó empate del Barcelona en la jornada anterior. VALENCIA RESULTADOS: Victoria, derrota, ó empate del Valencia en la jornada anterior BILBAO RESULTADOS: Victoria, derrota, ó empate del Athletic Club de Bilbao en la jornada anterior PIERDE EMPATA GANA * GOLES MARCADOS: En esta variable se ha multiplicado el resultado del partido de cada jornada anterior (2=gana, 1=empata, 0=pierde) con los goles medios marcados por jornada del Real Madrid hasta esa jornada anterior. RES_ALEAT: Con el objetivo de conseguir un reparto mayor de los resultados del Real Madrid a lo largo del eje de abscisas ú ordenadas, de forma que no se centren las comparaciones con otras variables del estudio en (2=gana, 1=empata, 0=pierde) se ha modificado el posible resultado del partido del Real-Madrid (2=gana, 1=empata, 0=pierde) multiplicándose por un factor de escala y añadiendo un número aleatorio. Por ejemplo, factor de escala “2”-> perder=0, empatar=2, ganar=4 y se añade un número aleatorio entre 0 y el factor de escala, de forma que queda finalmente: perder: entre 0 y 2, empatar: entre 2 y 4, ganar: a partir de 4. RES_ALEAT_+_SUMAT_DIFGOLES_entre3_+_SU MAT_DIFPUNTOS_entre3: Esta variable es resultado de algunas operaciones de algunas de las anteriores variables utilizadas. Está formada por la variable RES_ALEAT, las media de las diferencias de puntos medios del Real Madrid respecto al Barcelona, Valencia -2- SUMAMEDIA_DIFERENCIAS: Esta variable es resultado de algunas operaciones de algunas de las anteriores variables utilizadas. Al igual que en la variable anterior se utilizan los sumatorios de las diferencias de goles y de puntos medios del Real Madrid respecto a los tres equipos del estudio. La diferencia es que se realizan tres operaciones distintas según el Real Madrid gane, pierda, ó empate el partido de la jornada anterior. En el caso de que el Real Madrid ganase la anterior jornada se suma un número aleatorio al resultado de sumar los sumatorios. Es posible razonar que si el Real Madrid gana un partido puede ganar otro partido, ponderando con su nivel de juego respecto a los otros equipos con los que se compara en este estudio. Si empata se realiza la misma operación pero añadiendo un número aleatorio entre 0 y 2. Si pierde no se añade número aleatorio. Se busca el objetivo de que se vea de forma mas clara la clase perder, separándola de las otras dos posibles clases. VARIABLE_A_PREDECIR {GANA,EMPATA,PIERDE} Se dispone de datos desde la temporada 1999-2000 hasta la temporada 2007-2008 y el objetivo es determinar cuál es la relación entre estas variables y el resultado del Real Madrid. 2. DESARROLLO Y RESULTADOS 2.1 Preprocesado de los Datos En WEKA al cargar los datos y hacer clic sobre cada uno de los atributos, se muestra información sobre el mismo en la parte derecha de la ventana. En el caso de atributos discretos se indica el número de instancias que toman cada uno de los valores posibles; y en el caso de atributos reales se muestran los valores máximo, mínimo, medio y la desviación estándar. Asimismo, se muestra un gráfico en el que las distintas clases de las variables elegidas se representan con colores distintos. Esta variable es la VARIABLE_A_PREDECIR {perder (azul oscuro), empatar(rojo), ganar (azul claro)} En esta variable se puede apreciar una correlación entre el resultado de ganar en la jornada actual y los puntos medios por jornada que el Real Madrid acumula en la jornada anterior. Cuando tiene el equipo unos puntos medios por jornada entre 1.6 y 1.8, la probabilidad de tener un resultado de victoria en la siguiente jornada es muy alto comparado con los otros posibles valores de la variable. Un empate ó una derrota, sin embargo, no muestran una clara correlación con algún rango de valores, de forma que se pueda distinguir entre ambas clases.. En los goles medios por jornada se aprecia de nuevo una distribución gaussiana de los resultados para los tres tipos posibles de clases. Las tres distribuciones están centradas en un valor de 1.8 goles medios. Como se ve en la gráfica cuando el Real Madrid tiene este promedio de goles, es muy probable Ganar. Sin embargo, los resultados de empatar y perder no se destacan y es difícil clasificarlos. A su vez se aprecia a partir de 3 puntos medios por jornada como la probabilidad de ganar es altísima, lo que es lógico, dado que marcar más de 3 goles por jornada es sinónimo casi de la victoria en el partido. Curiosamente si el promedio es 2.5 goles, la probabilidad de empatar es alta. En esta variable no se una aprecia correlación clara con los tres resultados posibles, asemejándose la distribución de los datos a una función de densidad uniforme prácticamente. En lo que respecta a la hora del partido se aprecia como el resultado de ganar sobresale sobre los otros dos posibles resultados. La mayor cantidad de victorias está en las 22 horas, lo que es lógico, porque es donde se juega la mayor cantidad de partidos. Es prácticamente imposible poder discernir entre las clases empate y derrota. En la siguiente figura se muestra otra vista de las mismas variables: En esta figura se puede ver, como la mayor cantidad de partidos del Real Madrid se concentran en el sábado y el domingo, como era esperable. En ambos día de la semana se aprecia una cantidad de victorias similar. -3- En lo que respecta al día del mes en que se juega el partido es complicado sacar conclusiones respecto a las tres clasificaciones, dado que siguen una función de densidad similar a una uniforme, salvo que el resultado de ganar sería el más probable de los tres todos los días. En lo que respecta al mes en el que se juega el partido, se obtienen las mismas conclusiones que en la figura anterior. La bajada de las estadísticas entre 6 y 8 indica que en Mayo-Junio termina la liga y vuelve a empezar en Agosto-Septiembre. Al analizar las estadísticas de la diferencia de puntos medios por jornada del Real Madrid respecto al Barcelona, vemos cómo se distingue el resultado de ganar cuando hay una diferencia entre ambos equipos entre 0 y 1. El Barcelona es uno de los equipos de la liga profesional con mejores resultados en todas las temporadas, por lo que tiene sentido que si el Real Madrid está por encima del Barcelona en puntos, indica que se está realizando un juego con cierta calidad. En el caso del Valencia, al analizar las estadísticas de la diferencia de puntos medios por jornada con el Real Madrid vemos como se distingue el resultado de ganar cuando hay una diferencia entre ambos equipos entre 0 y 1, pero especialmente en el valor cero, es decir, cuando ambos equipos consiguen la misma media de puntos por jornada, el Real Madrid tiene una gran probabilidad de ganar. El Valencia es un equipo de la liga de fútbol profesional con buenos, aunque peores que el Barcelona, casi en todas las temporadas. Tiene sentido razonar que si el Real Madrid está por encima del Valencia en puntos se tiene un buen juego y alta probabilidad de obtener la victoria. La variable suma de la fecha a un dígito indica que el Real Madrid gana con mayor probabilidad las fechas que suman entre 1, 4, 5, 8 y 9. -4- En la figura de abajo se tiene otra vista de las mismas variables. Los valores de empate y derrota tienen una distribución similar de probabilidad, siendo ambos casi equiprobables donde aparecen. En el caso del Bilbao, la mayor concentración de victorias del Real Madrid se da cuando éste tiene una diferencia de puntos medios sobre el Bilbao entre 1 y 1.5. El Bilbao es uno de los equipos de la liga profesional con buenos resultados casi en todas las temporadas, por lo que tiene sentido que si el Real Madrid está por encima del Bilbao en media de puntos se está realizando un juego bueno. Una vista similar a la anterior es la siguiente, donde se que los resultados se concentran en los valores que hemos comentado. Como se ha ido viendo en las diversas gráficas hasta ahora es muy complicado distinguir con una probabilidad de acierto razonable cuando el equipo pierde ó empata. Con la variable RES_ALEAT se consigue que las clases perder, empatar y ganar no se centren en 3 valores discretos. Así se consigue que haya una mayor distribución al comparar el resultado de los partidos con otras variables. Cuando es tenga que decidir a qué clase pertenece un valor determinado, se tiene que ver si cae dentro de un rango. Si está entre 0 y 2 será partido perdido con una probabilidad alta. En el caso de que cayese entre 2 y 4 se decidiría empate, y para valores que cayesen por encima de 4 se decidiría victoria. Partiendo de la variable anterior y de las variables que tienen en cuenta las diferencias de goles y de puntos medios se obtienen unos resultados que se pueden considerar aceptables para decidir si el equipo gana, pero se distingue mal cuando pierde y empata. Cuando la suma de los goles medios y los puntos medios del Real Madrid respecto a los tres equipos de valores positivos y grandes , querrá decir que el Real Madrid tiene un nivel de juego dentro de la liga española de gran calidad y es muy probable la victoria. Esta misma variable se muestra en la figura siguiente con otra vista: No se ve una correlación clara entre los resultados del Real Madrid y los resultados de los otros equipos del análisis. Con la variable Pierde_Empata_gana*goles_marcados conseguimos distinguir de forma clara cuando gana el Real Madrid, pero no en el caso de las otras dos clases (perder, ganar) -5- descartadas antes de volver a ejecutar las funciones de manera recursiva. 2.1.3 Resultados El resultado obtenido en ambos métodos es el mismo, recomendándose la selección de los parámetros: DÍA DE LA SEMANA y SUMAMEDIA_DIFERENCIAS. 2.2 Agrupamiento (CLUSTERES) En esta variable se puede observar como se ha conseguido resaltar la diferencia entre las clases perder y empatar, habiendo una cierta correlación con las tres posibles clases del estudio. Por último, en la siguiente gráfica, se puede ver que las clases de la variable a predecir {PIERDE, EMPATA, GANA}. En la variable a predecir se ve cómo el número de victorias es unas 3 veces la cantidad de derrotas, y el doble que los empates Para el desarrollo del agrupamiento se van a utilizar dos algoritmos con la finalidad de comparar los resultados obtenidos. Los métodos seleccionados serán el método de las k-medias y algoritmo EM. 2.2.1 K-medias El objetivo de este algoritmo es situar un conjunto de vectores centroide en el espacio de entrada que describan de forma discreta la densidad de las muestras observadas. Así en aquellos lugares más densos situará más vectores y viceversa. Para ello, en su versión en línea realiza descenso de gradiente en línea en el error cuadrático medio. Existen dos modos de funcionamiento del algoritmo dependiendo de si las muestras se reciban de manera continua o bien si estas muestras se encuentran previamente en una base de datos. El resultado de su ejecución es: Se utiliza a su vez la opción de WEKA de seleccionar variables, utilizándose el evaluador de parámetros CfsSubsetEval con el método de búsqueda BestFirst, y el método GeneticSearch. Este evaluador considera el valor predictivo individual de cada atributo. Los métodos de búsqueda trabajan del siguiente modo 2.1.1 Best First Recorre el árbol expandiendo primero las ramas más prometedoras con respecto a una regla dada. Para ello supone la existencia de una función de evaluación que debe medir la distancia estimada al objetivo. Esta función puede depender de la variable sobre la que aplicarla, la descripción del objetivo, la información disponible hasta ese momento o un conocimiento añadido sobre el problema. El algoritmo no asegura una solución óptima. 2.1.2 Genetic Search Se fundamenta en la mímica de los principios de evolución y genética. A diferencia de los algoritmos convencionales trabajan con una codificación del conjunto solución, y la búsqueda se realiza sobre un grupo de estas soluciones en lugar de sobre una sola. Sobre este grupo se emplean funciones que los hacen evolucionar de manera semejante a como ocurre en la evolución biológica, de forma que al aplicar unos criterios de selección se deciden cuales son las muestras mas adaptadas y cuales las menos, que son -6- Cluster 0 Mean/Mode: 1.8639 1.8057 19.559 20.6252 S 15.2422 6.2547 4.882 0.0504 0.0491 0.6767 1.236 1.3851 0.9441 3.2298 4.2828 3.7386 2.8039 Std Devs: 0.5387 0.5444 11.546 1.0349 N/A 8.7047 3.6968 2.5504 0.5962 0.5303 0.7245 0.833 0.767 0.8821 3.125 2.1919 1.7479 2.9477 Cluster 1 Mean/Mode: 1.8482 1.8296 19.4336 19.0042 D 16.1189 6.0769 5.049 -0.0478 0.1497 0.6511 1.3846 1.1049 0.958 3.2308 4.2251 3.6885 2.8335 Std Devs: 0.4187 0.4754 10.3547 1.4361 N/A 8.5757 4.0855 2.549 0.4988 0.5456 0.4399 0.7865 0.8534 0.8038 3.0203 1.9948 1.6981 2.5185 Clustered Instances 0 8 ( 44%) 1 10 ( 56%) 2.2.2 EM 4 7 ( 39%) 5 8 ( 44%) Este método puede aplicarse en situaciones en las que se desea estimar un conjunto de parámetros que describen una distribución de probabilidad subyacente cuando únicamente están disponibles los datos de una parte observada de la distribución. Estos datos conocidos forman un vector X que al complementarse con el vector de datos ocultos Y forman el conjunto completo de datos Z. Los elementos de Z pueden obtenerse a partir de los parámetros a estimar y de los datos observados incluidos en el vector X. Por otro lado como X es una variable aleatoria, por lo que Z será otra variable aleatoria al estar definida a partir de X. Log likelihood: -35.86079 Este algoritmo busca la hipótesis h2 que maximiza la esperanza del logaritmo de la distribución de probabilidad que define el conjunto total de datos Z y que es función de los parámetros desconocidos. Esta distribución define la verosimilitud de los datos completos Z dada una hipótesis h2 de los parámetros ocultos. Al maximizar el logaritmo de la distribución se consigue maximizar la verosimilitud, trabajando con la esperanza de esta función debido a que se trata de una variable aleatoria. Se debe tener en cuenta que esta distribución contiene valores ocultos, por lo que para obtener un resultado correcto se deben considerar todos los posibles valores de la variable oculta Y ponderados según su probabilidad. Por lo tanto esta distribución está determinada por los valores observados X más por la distribución de los valores ocultos Y. 2.3 Asociación (CLASSIFIERS) Dado que se desconoce la distribución de Z al ser función en parte de parámetros ocultos que se pretende estimar, el método EM se basa en la hipótesis actual h1 para obtener esta distribución. Se define una función Q(h2|h1) que proporciona la esperanza del logaritmo de la distribución Z como función de h2 suponiendo que los parámetros ocultos coinciden con h1 y dado el conjunto de observaciones conocido X. Por lo tanto, la distribución de probabilidad de Z estaría definida por X y h1 y se utilizará para calcular la esperanza del logaritmo de Z para una hipótesis cualquiera h2. Para la realización del algoritmo EM se repiten los siguientes pasos hasta obtener la convergencia: Paso 1: estimación. Calcular Q(h2|h1) mediante h1 y los datos observados X para estimar la distribución de probabilidad de Z. Paso 2: maximización. Sustituir h1 por la hipotesis h2 que maximiza la función Q. Cluster: 0 Prior probability: 0.1082 Cluster: 1 Prior probability: 0.1511 Por todo ello se eligen las variables para la creación del modelo SUMAMEDIA_DIFERENCIAS (la cual es contribución de varias variables del estudio)y como ha indicado WEKA DÍA DE LA SEMANA. Para realizar la asociación principalmente se ha utilizado el algoritmo “J48” de WEKA, aunque también se ha tratado el “OneR” 2.3.1 Algoritmo OneR Algoritmo “One Rule”. Simple y rápido, pero muy efectivo. Genera un árbol de decisión de un solo nivel mediante la selección de atributos basada en errores. A pesar de su simplicidad se consiguen resultados ligeramente peores a los obtenidos con métodos más complejos y difíciles de entender para los humanos. Genera una regla para cada atributo del espacio de entrenamiento y elige la regla que tiene menor tasa de error. Para crear esa regla se debe determinar la clase más frecuente de cada atributo, es decir, la que aparece en más ocasiones. 2.3.2 Algoritmo J48 Este método se basa en el algoritmo C4.5, que a su vez es una extensión del ID3. Realiza una construcción de un arbol de clasificación y una selección de atributos para maximizar la ganancia de información, esto es, conseguir una reducción de entropía como consecuencia de realizar una división de los datos del espacio. La diferencia de este algoritmo con el ID3 consiste en que el C4.5 permite además de su aplicación sobre datos discretos, la ejecución en espacios continuos. El árbol de clasificación se construye basándose en atributos y umbral, mediante los cuales se decide la creación de las ramas a partir del nodo raíz. El problema reside en la selección de estos dos parámetros, si bien no es necesario comprobar todo el espacio de umbrales ya que será infinito. Cluster: 2 Prior probability: 0.1281 Cluster: 3 Prior probability: 0.1452 3. EVALUACIÓN Cluster: 4 Prior probability: 0.3195 Cluster: 5 Prior probability: 0.1478 Para el entrenamiento de los algoritmos se han utilizado los datos de las temporadas 1999-2000 hasta la temporada 2006-2007. Con los resultados de la temporada 2007-2008 se ha hecho un test (pasando todos los datos a WEKA en otro fichero excepto si gana, ierde ó empata en esa jornada) para comprobar el acierto del modelo creado a partir de las variables elegidas. También se ha Clustered Instances 0 2 ( 11%) 2 1 ( 6%) -7- comprobado el tanto por ciento de acierto haciendo un test con los propios datos de entrenamiento. === Evaluation on training set === === Summary === Los resultados correctos para el test son: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. GANA GANA GANA GANA GANA EMPATA GANA PIERDE GANA GANA PIERDE GANA GANA GANA EMPATA GANA GANA GANA Correctly Classified Instances Incorrectly Classified Instances 28.9474 % Kappa statistic 0.4758 Mean absolute error 0.193 Root mean squared error 0.4393 Relative absolute error 49.0344 % Root relative squared error 99.0923 % Total Number of Instances 304 === Predictions on test set === inst#, actual, predicted, error, probability distribution 1 ? 3:GANA + 0 0 *1 2 ? 3:GANA + 0 0 *1 3 ? 3:GANA + 0 0 *1 4 ? 3:GANA + 0 0 *1 5 ? 3:GANA + 0 0 *1 6 ? 3:GANA + 0 0 *1 7 ? 3:GANA + 0 0 *1 8 ? 3:GANA + 0 0 *1 9 ? 3:GANA + 0 0 *1 10 ? 2:EMPATA 11 ? 3:GANA + 0 0 *1 12 ? 3:GANA + 0 0 *1 13 ? 3:GANA + 0 0 *1 14 ? 2:EMPATA + 0 *1 0 15 ? 2:EMPATA + 0 *1 0 16 ? 2:EMPATA + 0 *1 0 17 ? 2:EMPATA 18 ? 3:GANA 71.0526 % 88 3.1.2 Algoritmo J48 3.1.1 Algoritmo OneR inst#, 216 + 0 *1 + 0 + 0 0 *1 0 actual, predicted, error, probability distribution 1 ? 1:PIERDE 2 ? 2:EMPATA 3 ? 3:GANA + 0 0.25 *0.75 4 ? 3:GANA + 0 0 5 ? 3:GANA + 0 0.25 *0.75 6 ? 2:EMPATA 7 ? 3:GANA + 0 8 ? 3:GANA + 0.25 0 9 ? 1:PIERDE + *0.667 0 10 ? 3:GANA + 0 11 ? 3:GANA + 0.25 0 12 ? 3:GANA + 0 13 ? 2:EMPATA + 0 *1 0 14 ? 2:EMPATA + 0 *1 0 15 ? 2:EMPATA + 0 *1 0 16 ? 2:EMPATA + 0 *1 0 17 ? 2:EMPATA 18 ? 3:GANA + *0.667 0 + 0 + 0 + 0 + 0 0.333 *1 0 *1 *1 0 0.25 *0.75 0 *0.75 0.333 *1 *0.75 0.25 *0.75 *1 0 0 *1 Con este test se consigue una predicción correcta de 9 de 18. El acierto es aquí del (18-9) /18*100= 50% 0 *1 Con este test se consigue una predicción correcta de 11 de 18. El acierto es aquí del (18-7) /18*100= 61% 4. TRABAJOS FUTUROS Se podría estudiar la relación del Real Madrid con otros equipos de la liga española, ó de otras ligas ó deportes. Una variable que se podria incluir y que resulta muy interesante es el valor medio Al evaluar con los mismos datos de entrenamiento: -8- de puntos obtenidos por partido del contrincante del Real Madrid. Con esto el programa tendría información muy precisa de la situación y la calidad del equipo contra el que juega, siendo esta información muy accesible a la hora de la búsqueda de las bases de datos. Además se podrían incluir muchos más temporadas de fútbol. 5. CONCLUSIONES WEKA proporciona un entorno de trabajo sencillo y adecuado para analizar todos los datos con una gran cantidad de algoritmos. De los resultados obtenidos se ve la complejidad de predecir este tipo de resultados deportivos, en lo que intervienen multitud de factores difíciles de identificar. La predicción de este tipo de acontecimientos deportivos implica tener acceso a una gran cantidad de información, la cual no se encuentra con facilidad. De los resultados obtenidos en el test se concluye que la probabilidad de acertar el resultado de un partido del Real Madrid está entre el 50 y 60 % para los algoritmos utilizados. Si se quisiera predecir el resultado conjunto de varios equipos, por ejemplo en la quiniela, se ve que la probabilidad conjunta de acertar un pleno al 15 es realmente poco probable. 6. REFERENCIAS [1] http://www.sportytrader.es/estadistica-deportiva.php [2] http://onlae.terra.es/1X2/resultados/indiceategies/indice.htm [3] http://www.futbolme.com/laliga/porjornadas/unauna/index3. as -9-