trabajo irc - Universidad Carlos III de Madrid

Anuncio
ESTUDIO DE CORRELACIONES DE RESULTADOS
FUTBOLÍSTICOS DE REAL MADRID C.de F.
FRANCISCO SANTOS IGLESIAS
DANIEL ÁNGEL RODRÍGUEZ PLAZA
Universidad Carlos III de Madrid
Universidad Carlos III de Madrid
[email protected]
[email protected]
RESUMEN
En este estudio vamos a usar la herramienta Weka para tratar de
predecir los resultados de los partidos de fútbol jugados por el
Real Madrid C. de F. a partir de múltiples variables referentes a
las últimas temporadas. Los datos forman parte de 300 partidos, y
a pesar de que este número se puede ampliar puede dejar de haber
correlación entre los resultados por tratarse de equipos y
estrategias totalmente distintas.
Categorías y Descripción
H.2.8 Database Apllications [Database management]: Data
mining
gráfico con la posibilidad de comparar el funcionamiento de
diversos algoritmos de aprendizaje.
Se trabajará sobre una base de datos construida a partir de datos
encontrados en las fuentes citadas [1,2,3] sobre los partidos de los
clubes de la primera división de la liga de fútbol profesional Real
Madrid, Barcelona, Athletic Club de Bilbao y Valencia. Se trata
de una base de datos en la que se pretende determinar cuáles son
los factores y correlaciones que permitan determinar las reglas que
permiten estimar la victoria, el empate ó la derrota del club de
fútbol Real Madrid.
Por ello cada instancia de la base de datos se corresponde con un
partido de fútbol jugado por el Real Madrid cierto día y recoge los
siguientes atributos:
Términos Generales
PUNTOS_MEDIOS_POR_JORNADA: Esta variable se
ha obtenido de la base de datos creada sumando los
puntos que va acumulando el Real Madrid a lo largo de
las jornadas de la liga y dividiéndose por el número de
jornadas transcurridas correspondiente. Para cada
jornada actual se dispondrá de los puntos medios por
jornada obtenidos a partir de las jornadas anteriores.
1. INTRODUCCIÓN
La minería de datos consiste en la extracción cuyo objetivo es el
de descubrir hechos contenidos en las bases de datos mediante un
trabajo automatizado y con poca, si hay alguna, intervención
humana a lo largo del proceso. Mucha de la información valiosa
que se busca es desconocida con anterioridad, por ello hay que
descubrirla, y estas técnicas pueden ayudar a confirmar cualquier
sospecha sobre el comportamiento del sistema en un particular
contexto. Las reglas que se encuentren permiten entender el
modelo del sistema relacionado con los datos observados y la
predicción de ciertos estado del sistema.
GOLES_MEDIOS_POR_JORNADA:
Variable
obtenida sumando los goles marcados que va
acumulando el Real Madrid a lo largo de las jornadas de
la liga y dividiéndose por el número de jornadas
transcurridas correspondiente. En cada jornada actual se
dispondrá de los goles medios por jornada obtenidos a
partir de partidos pasados .
JORNADA: Número de jornada en la que se jugó el
partido en la temporada correspondiente. ). Se conoce
para cada partido.
HORA_PARTIDO: Hora del partido (en formato 24
horas). Se conoce para cada partido.
DÍA DE LA SEMANA {L,M,X,J,V,S,D}.
DÍA: Día del mes en que se juega el partido. ). Se
conoce para cada partido.
MES: Mes en que se juega el partido. ). Se conoce para
cada partido
Algoritmo, diseño, experimentación, teoría.
Palabras Clave
Predicción, algoritmo, correlación. weka
WEKA, que es una herramienta de aprendizaje automático y data
mining, escrita en lenguaje Java, gratuita y desarrollada en la
Universidad e Waikato (WEKA = Waikato Environment for
Knowledge Analysis). Dentro de las múltiples interfaces gráficas
que ofrece se utilizará la interfaz de usuario, que es un interfaz
-1-
SUMA FECHA A UN DÍGITO: Suma de la fecha en
que se juega el partido, hasta reducirlo a un número. Por
ejemplo: 12-3-2007->1+2+3+2+7=15->1+5=6
y Athletic Club de Bilbao y la media de las diferencias
de goles medios del Real Madrid respecto a estos tres
equipos.
DIFERENCIA_PUNTOS_MEDIOS_MADRID_BARS
A: Esta variable está formada por los valores de la
diferencia de puntos medios entre el Real Madrid y el
Barcelona para la jornada de la liga correspondiente a
ese partido a partir de las jornadas anteriores. Lo que se
busca con esta variable es algún tipo de correlación con
el resultado que tenga el Real Madrid en el partido de
esa jornada en particular. Puede tener sentido el pensar
en que si el Real Madrid es superior en media de puntos
al Barcelona, uno de los mejores equipos de la liga
española, es que está en muy buen momento de forma, y
es más probable que gane su encuentro de fútbol. Esto
mismo lo hacemos con el Valencia y el Athletic Club de
Bilbao, como comentamos a continuación.
Puede tener sentido el pensar en que si el Real Madrid
es superior en media de puntos con los tres equipos con
los que se compara en este estudio en cuanto a puntos
medios y goles medios por jornada es que está en muy
buen momento de forma, y es más probable que gane su
encuentro de fútbol.
DIFERENCIA_PUNTOS_MEDIOS_MADRID_VALE
NCIA: Variable que contiene los valores de la
diferencia de puntos medios entre el Real Madrid y el
Valencia para la jornada de la liga correspondiente a ese
partido a partir de las jornadas anteriores.
DIFERENCIA_PUNTOS_MEDIOS_MADRID_BILB
AO: Variable con los valores de la diferencia de puntos
medios entre el Real Madrid y el Athletic Club de
Bilbao para la jornada de la liga correspondiente al
partido del Real Madrid a partir de las jornadas
anteriores.
BARSA RESULTADOS: Victoria, derrota, ó empate
del Barcelona en la jornada anterior.
VALENCIA RESULTADOS: Victoria, derrota, ó
empate del Valencia en la jornada anterior
BILBAO RESULTADOS: Victoria, derrota, ó empate
del Athletic Club de Bilbao en la jornada anterior
PIERDE EMPATA GANA * GOLES MARCADOS: En
esta variable se ha multiplicado el resultado del partido
de cada jornada anterior (2=gana, 1=empata, 0=pierde)
con los goles medios marcados por jornada del Real
Madrid hasta esa jornada anterior.
RES_ALEAT: Con el objetivo de conseguir un reparto
mayor de los resultados del Real Madrid a lo largo del
eje de abscisas ú ordenadas, de forma que no se centren
las comparaciones con otras variables del estudio en
(2=gana, 1=empata, 0=pierde) se ha modificado el
posible resultado del partido del Real-Madrid (2=gana,
1=empata, 0=pierde) multiplicándose por un factor de
escala y añadiendo un número aleatorio. Por ejemplo,
factor de escala “2”-> perder=0, empatar=2, ganar=4 y
se añade un número aleatorio entre 0 y el factor de
escala, de forma que queda finalmente: perder: entre 0 y
2, empatar: entre 2 y 4, ganar: a partir de 4.
RES_ALEAT_+_SUMAT_DIFGOLES_entre3_+_SU
MAT_DIFPUNTOS_entre3: Esta variable es resultado
de algunas operaciones de algunas de las anteriores
variables utilizadas. Está formada por la variable
RES_ALEAT, las media de las diferencias de puntos
medios del Real Madrid respecto al Barcelona, Valencia
-2-
SUMAMEDIA_DIFERENCIAS: Esta variable es
resultado de algunas operaciones de algunas de las
anteriores variables utilizadas. Al igual que en la
variable anterior se utilizan los sumatorios de las
diferencias de goles y de puntos medios del Real
Madrid respecto a los tres equipos del estudio. La
diferencia es que se realizan tres operaciones distintas
según el Real Madrid gane, pierda, ó empate el partido
de la jornada anterior. En el caso de que el Real Madrid
ganase la anterior jornada se suma un número aleatorio
al resultado de sumar los sumatorios. Es posible razonar
que si el Real Madrid gana un partido puede ganar otro
partido, ponderando con su nivel de juego respecto a los
otros equipos con los que se compara en este estudio. Si
empata se realiza la misma operación pero añadiendo un
número aleatorio entre 0 y 2. Si pierde no se añade
número aleatorio. Se busca el objetivo de que se vea de
forma mas clara la clase perder, separándola de las otras
dos posibles clases.
VARIABLE_A_PREDECIR
{GANA,EMPATA,PIERDE}
Se dispone de datos desde la temporada 1999-2000 hasta la
temporada 2007-2008 y el objetivo es determinar cuál es la
relación entre estas variables y el resultado del Real Madrid.
2. DESARROLLO Y RESULTADOS
2.1 Preprocesado de los Datos
En WEKA al cargar los datos y hacer clic sobre cada uno de los
atributos, se muestra información sobre el mismo en la parte
derecha de la ventana. En el caso de atributos discretos se indica
el número de instancias que toman cada uno de los valores
posibles; y en el caso de atributos reales se muestran los valores
máximo, mínimo, medio y la desviación estándar. Asimismo, se
muestra un gráfico en el que las distintas clases de las variables
elegidas se representan con colores distintos. Esta variable es la
VARIABLE_A_PREDECIR {perder (azul oscuro), empatar(rojo),
ganar (azul claro)}
En esta variable se puede apreciar una correlación entre el
resultado de ganar en la jornada actual y los puntos medios por
jornada que el Real Madrid acumula en la jornada anterior.
Cuando tiene el equipo unos puntos medios por jornada entre 1.6
y 1.8, la probabilidad de tener un resultado de victoria en la
siguiente jornada es muy alto comparado con los otros posibles
valores de la variable. Un empate ó una derrota, sin embargo, no
muestran una clara correlación con algún rango de valores, de
forma que se pueda distinguir entre ambas clases..
En los goles medios por jornada se aprecia de nuevo una
distribución gaussiana de los resultados para los tres tipos
posibles de clases. Las tres distribuciones están centradas en un
valor de 1.8 goles medios. Como se ve en la gráfica cuando el
Real Madrid tiene este promedio de goles, es muy probable
Ganar. Sin embargo, los resultados de empatar y perder no se
destacan y es difícil clasificarlos. A su vez se aprecia a partir de 3
puntos medios por jornada como la probabilidad de ganar es
altísima, lo que es lógico, dado que marcar más de 3 goles por
jornada es sinónimo casi de la victoria en el partido.
Curiosamente si el promedio es 2.5 goles, la probabilidad de
empatar es alta.
En esta variable no se una aprecia correlación clara con los tres
resultados posibles, asemejándose la distribución de los datos a
una función de densidad uniforme prácticamente.
En lo que respecta a la hora del partido se aprecia como el
resultado de ganar sobresale sobre los otros dos posibles
resultados. La mayor cantidad de victorias está en las 22 horas, lo
que es lógico, porque es donde se juega la mayor cantidad de
partidos. Es prácticamente imposible poder discernir entre las
clases empate y derrota.
En la siguiente figura se muestra otra vista de las mismas
variables:
En esta figura se puede ver, como la mayor cantidad de partidos
del Real Madrid se concentran en el sábado y el domingo, como
era esperable. En ambos día de la semana se aprecia una cantidad
de victorias similar.
-3-
En lo que respecta al día del mes en que se juega el partido es
complicado sacar conclusiones respecto a las tres clasificaciones,
dado que siguen una función de densidad similar a una uniforme,
salvo que el resultado de ganar sería el más probable de los tres
todos los días.
En lo que respecta al mes en el que se juega el partido, se
obtienen las mismas conclusiones que en la figura anterior. La
bajada de las estadísticas entre 6 y 8 indica que en Mayo-Junio
termina la liga y vuelve a empezar en Agosto-Septiembre.
Al analizar las estadísticas de la diferencia de puntos medios por
jornada del Real Madrid respecto al Barcelona, vemos cómo se
distingue el resultado de ganar cuando hay una diferencia entre
ambos equipos entre 0 y 1. El Barcelona es uno de los equipos de
la liga profesional con mejores resultados en todas las
temporadas, por lo que tiene sentido que si el Real Madrid está
por encima del Barcelona en puntos, indica que se está realizando
un juego con cierta calidad.
En el caso del Valencia, al analizar las estadísticas de la diferencia
de puntos medios por jornada con el Real Madrid vemos como se
distingue el resultado de ganar cuando hay una diferencia entre
ambos equipos entre 0 y 1, pero especialmente en el valor cero, es
decir, cuando ambos equipos consiguen la misma media de puntos
por jornada, el Real Madrid tiene una gran probabilidad de ganar.
El Valencia es un equipo de la liga de fútbol profesional con
buenos, aunque peores que el Barcelona, casi en todas las
temporadas. Tiene sentido razonar que si el Real Madrid está por
encima del Valencia en puntos se tiene un buen juego y alta
probabilidad de obtener la victoria.
La variable suma de la fecha a un dígito indica que el Real Madrid
gana con mayor probabilidad las fechas que suman entre 1, 4, 5, 8
y 9.
-4-
En la figura de abajo se tiene otra vista de las mismas variables.
Los valores de empate y derrota tienen una distribución similar de
probabilidad, siendo ambos casi equiprobables donde aparecen.
En el caso del Bilbao, la mayor concentración de victorias del
Real Madrid se da cuando éste tiene una diferencia de puntos
medios sobre el Bilbao entre 1 y 1.5. El Bilbao es uno de los
equipos de la liga profesional con buenos resultados casi en todas
las temporadas, por lo que tiene sentido que si el Real Madrid está
por encima del Bilbao en media de puntos se está realizando un
juego bueno. Una vista similar a la anterior es la siguiente, donde
se que los resultados se concentran en los valores que hemos
comentado.
Como se ha ido viendo en las diversas gráficas hasta ahora es muy
complicado distinguir con una probabilidad de acierto razonable
cuando el equipo pierde ó empata. Con la variable RES_ALEAT
se consigue que las clases perder, empatar y ganar no se centren
en 3 valores discretos. Así se consigue que haya una mayor
distribución al comparar el resultado de los partidos con otras
variables.
Cuando es tenga que decidir a qué clase pertenece un valor
determinado, se tiene que ver si cae dentro de un rango. Si está
entre 0 y 2 será partido perdido con una probabilidad alta. En el
caso de que cayese entre 2 y 4 se decidiría empate, y para valores
que cayesen por encima de 4 se decidiría victoria.
Partiendo de la variable anterior y de las variables que tienen en
cuenta las diferencias de goles y de puntos medios se obtienen
unos resultados que se pueden considerar aceptables para decidir
si el equipo gana, pero se distingue mal cuando pierde y empata.
Cuando la suma de los goles medios y los puntos medios del Real
Madrid respecto a los tres equipos de valores positivos y grandes
, querrá decir que el Real Madrid tiene un nivel de juego dentro
de la liga española de gran calidad y es muy probable la victoria.
Esta misma variable se muestra en la figura siguiente con otra
vista:
No se ve una correlación clara entre los resultados del Real
Madrid y los resultados de los otros equipos del análisis. Con la
variable Pierde_Empata_gana*goles_marcados conseguimos
distinguir de forma clara cuando gana el Real Madrid, pero no en
el caso de las otras dos clases (perder, ganar)
-5-
descartadas antes de volver a ejecutar las funciones de manera
recursiva.
2.1.3 Resultados
El resultado obtenido en ambos métodos es el mismo,
recomendándose la selección de los parámetros: DÍA DE LA
SEMANA y SUMAMEDIA_DIFERENCIAS.
2.2 Agrupamiento (CLUSTERES)
En esta variable se puede observar como se ha conseguido resaltar
la diferencia entre las clases perder y empatar, habiendo una cierta
correlación con las tres posibles clases del estudio.
Por último, en la siguiente gráfica, se puede ver que las clases de
la variable a predecir {PIERDE, EMPATA, GANA}. En la
variable a predecir se ve cómo el número de victorias es unas 3
veces la cantidad de derrotas, y el doble que los empates
Para el desarrollo del agrupamiento se van a utilizar dos
algoritmos con la finalidad de comparar los resultados obtenidos.
Los métodos seleccionados serán el método de las k-medias y
algoritmo EM.
2.2.1 K-medias
El objetivo de este algoritmo es situar un conjunto de vectores
centroide en el espacio de entrada que describan de forma discreta
la densidad de las muestras observadas. Así en aquellos lugares
más densos situará más vectores y viceversa. Para ello, en su
versión en línea realiza descenso de gradiente en línea en el error
cuadrático medio. Existen dos modos de funcionamiento del
algoritmo dependiendo de si las muestras se reciban de manera
continua o bien si estas muestras se encuentran previamente en
una base de datos.
El resultado de su ejecución es:
Se utiliza a su vez la opción de WEKA de seleccionar variables,
utilizándose el evaluador de parámetros CfsSubsetEval con el
método de búsqueda BestFirst, y el método GeneticSearch. Este
evaluador considera el valor predictivo individual de cada
atributo. Los métodos de búsqueda trabajan del siguiente modo
2.1.1 Best First
Recorre el árbol expandiendo primero las ramas más
prometedoras con respecto a una regla dada. Para ello supone la
existencia de una función de evaluación que debe medir la
distancia estimada al objetivo. Esta función puede depender de la
variable sobre la que aplicarla, la descripción del objetivo, la
información disponible hasta ese momento o un conocimiento
añadido sobre el problema. El algoritmo no asegura una solución
óptima.
2.1.2 Genetic Search
Se fundamenta en la mímica de los principios de evolución y
genética. A diferencia de los algoritmos convencionales trabajan
con una codificación del conjunto solución, y la búsqueda se
realiza sobre un grupo de estas soluciones en lugar de sobre una
sola.
Sobre este grupo se emplean funciones que los hacen evolucionar
de manera semejante a como ocurre en la evolución biológica, de
forma que al aplicar unos criterios de selección se deciden cuales
son las muestras mas adaptadas y cuales las menos, que son
-6-
Cluster 0
Mean/Mode:
1.8639 1.8057 19.559 20.6252 S
15.2422 6.2547 4.882 0.0504 0.0491 0.6767 1.236 1.3851
0.9441 3.2298 4.2828 3.7386 2.8039
Std Devs:
0.5387 0.5444 11.546
1.0349 N/A
8.7047 3.6968 2.5504 0.5962 0.5303 0.7245 0.833 0.767
0.8821 3.125 2.1919 1.7479 2.9477
Cluster 1
Mean/Mode:
1.8482 1.8296 19.4336 19.0042 D
16.1189 6.0769 5.049 -0.0478 0.1497 0.6511 1.3846 1.1049
0.958 3.2308 4.2251 3.6885 2.8335
Std Devs:
0.4187 0.4754 10.3547 1.4361 N/A
8.5757 4.0855 2.549 0.4988 0.5456 0.4399 0.7865 0.8534
0.8038 3.0203 1.9948 1.6981 2.5185
Clustered Instances
0
8 ( 44%)
1
10 ( 56%)
2.2.2 EM
4
7 ( 39%)
5
8 ( 44%)
Este método puede aplicarse en situaciones en las que se desea
estimar un conjunto de parámetros que describen una distribución
de probabilidad subyacente cuando únicamente están disponibles
los datos de una parte observada de la distribución. Estos datos
conocidos forman un vector X que al complementarse con el
vector de datos ocultos Y forman el conjunto completo de datos
Z. Los elementos de Z pueden obtenerse a partir de los parámetros
a estimar y de los datos observados incluidos en el vector X. Por
otro lado como X es una variable aleatoria, por lo que Z será otra
variable aleatoria al estar definida a partir de X.
Log likelihood: -35.86079
Este algoritmo busca la hipótesis h2 que maximiza la esperanza
del logaritmo de la distribución de probabilidad que define el
conjunto total de datos Z y que es función de los parámetros
desconocidos. Esta distribución define la verosimilitud de los
datos completos Z dada una hipótesis h2 de los parámetros
ocultos. Al maximizar el logaritmo de la distribución se consigue
maximizar la verosimilitud, trabajando con la esperanza de esta
función debido a que se trata de una variable aleatoria. Se debe
tener en cuenta que esta distribución contiene valores ocultos, por
lo que para obtener un resultado correcto se deben considerar
todos los posibles valores de la variable oculta Y ponderados
según su probabilidad. Por lo tanto esta distribución está
determinada por los valores observados X más por la distribución
de los valores ocultos Y.
2.3 Asociación (CLASSIFIERS)
Dado que se desconoce la distribución de Z al ser función en parte
de parámetros ocultos que se pretende estimar, el método EM se
basa en la hipótesis actual h1 para obtener esta distribución. Se
define una función Q(h2|h1) que proporciona la esperanza del
logaritmo de la distribución Z como función de h2 suponiendo
que los parámetros ocultos coinciden con h1 y dado el conjunto
de observaciones conocido X.
Por lo tanto, la distribución de probabilidad de Z estaría definida
por X y h1 y se utilizará para calcular la esperanza del logaritmo
de Z para una hipótesis cualquiera h2. Para la realización del
algoritmo EM se repiten los siguientes pasos hasta obtener la
convergencia:
Paso 1: estimación. Calcular Q(h2|h1) mediante h1 y
los datos observados X para estimar la distribución de
probabilidad de Z.
Paso 2: maximización. Sustituir h1 por la hipotesis h2
que maximiza la función Q.
Cluster: 0 Prior probability: 0.1082
Cluster: 1 Prior probability: 0.1511
Por todo ello se eligen las variables para la creación del modelo
SUMAMEDIA_DIFERENCIAS (la cual es contribución de varias
variables del estudio)y como ha indicado WEKA DÍA DE LA
SEMANA.
Para realizar la asociación principalmente se ha utilizado el
algoritmo “J48” de WEKA, aunque también se ha tratado el
“OneR”
2.3.1 Algoritmo OneR
Algoritmo “One Rule”. Simple y rápido, pero muy efectivo.
Genera un árbol de decisión de un solo nivel mediante la
selección de atributos basada en errores. A pesar de su
simplicidad se consiguen resultados ligeramente peores a los
obtenidos con métodos más complejos y difíciles de entender para
los humanos.
Genera una regla para cada atributo del espacio de entrenamiento
y elige la regla que tiene menor tasa de error. Para crear esa regla
se debe determinar la clase más frecuente de cada atributo, es
decir, la que aparece en más ocasiones.
2.3.2 Algoritmo J48
Este método se basa en el algoritmo C4.5, que a su vez es una
extensión del ID3. Realiza una construcción de un arbol de
clasificación y una selección de atributos para maximizar la
ganancia de información, esto es, conseguir una reducción de
entropía como consecuencia de realizar una división de los datos
del espacio. La diferencia de este algoritmo con el ID3 consiste en
que el C4.5 permite además de su aplicación sobre datos
discretos, la ejecución en espacios continuos.
El árbol de clasificación se construye basándose en atributos y
umbral, mediante los cuales se decide la creación de las ramas a
partir del nodo raíz. El problema reside en la selección de estos
dos parámetros, si bien no es necesario comprobar todo el espacio
de umbrales ya que será infinito.
Cluster: 2 Prior probability: 0.1281
Cluster: 3 Prior probability: 0.1452
3. EVALUACIÓN
Cluster: 4 Prior probability: 0.3195
Cluster: 5 Prior probability: 0.1478
Para el entrenamiento de los algoritmos se han utilizado los datos
de las temporadas 1999-2000 hasta la temporada 2006-2007. Con
los resultados de la temporada 2007-2008 se ha hecho un test
(pasando todos los datos a WEKA en otro fichero excepto si gana,
ierde ó empata en esa jornada) para comprobar el acierto del
modelo creado a partir de las variables elegidas. También se ha
Clustered Instances
0
2 ( 11%)
2
1 ( 6%)
-7-
comprobado el tanto por ciento de acierto haciendo un test con los
propios datos de entrenamiento.
=== Evaluation on training set ===
=== Summary ===
Los resultados correctos para el test son:
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
GANA
GANA
GANA
GANA
GANA
EMPATA
GANA
PIERDE
GANA
GANA
PIERDE
GANA
GANA
GANA
EMPATA
GANA
GANA
GANA
Correctly Classified Instances
Incorrectly Classified Instances
28.9474 %
Kappa statistic
0.4758
Mean absolute error
0.193
Root mean squared error
0.4393
Relative absolute error
49.0344 %
Root relative squared error
99.0923 %
Total Number of Instances
304
=== Predictions on test set ===
inst#,
actual, predicted, error, probability distribution
1
?
3:GANA
+ 0
0
*1
2
?
3:GANA
+ 0
0
*1
3
?
3:GANA
+ 0
0
*1
4
?
3:GANA
+ 0
0
*1
5
?
3:GANA
+ 0
0
*1
6
?
3:GANA
+ 0
0
*1
7
?
3:GANA
+ 0
0
*1
8
?
3:GANA
+ 0
0
*1
9
?
3:GANA
+ 0
0
*1
10
? 2:EMPATA
11
?
3:GANA
+ 0
0
*1
12
?
3:GANA
+ 0
0
*1
13
?
3:GANA
+ 0
0
*1
14
? 2:EMPATA
+ 0
*1
0
15
? 2:EMPATA
+ 0
*1
0
16
? 2:EMPATA
+ 0
*1
0
17
? 2:EMPATA
18
?
3:GANA
71.0526 %
88
3.1.2 Algoritmo J48
3.1.1 Algoritmo OneR
inst#,
216
+ 0
*1
+ 0
+ 0
0
*1
0
actual, predicted, error, probability distribution
1
? 1:PIERDE
2
? 2:EMPATA
3
?
3:GANA
+ 0
0.25 *0.75
4
?
3:GANA
+ 0
0
5
?
3:GANA
+ 0
0.25 *0.75
6
? 2:EMPATA
7
?
3:GANA
+ 0
8
?
3:GANA
+ 0.25 0
9
? 1:PIERDE
+ *0.667 0
10
?
3:GANA
+ 0
11
?
3:GANA
+ 0.25 0
12
?
3:GANA
+ 0
13
? 2:EMPATA
+ 0
*1
0
14
? 2:EMPATA
+ 0
*1
0
15
? 2:EMPATA
+ 0
*1
0
16
? 2:EMPATA
+ 0
*1
0
17
? 2:EMPATA
18
?
3:GANA
+ *0.667 0
+ 0
+ 0
+ 0
+ 0
0.333
*1
0
*1
*1
0
0.25 *0.75
0
*0.75
0.333
*1
*0.75
0.25 *0.75
*1
0
0
*1
Con este test se consigue una predicción correcta de 9 de 18. El
acierto es aquí del (18-9) /18*100= 50%
0
*1
Con este test se consigue una predicción correcta de 11 de 18. El
acierto es aquí del (18-7) /18*100= 61%
4. TRABAJOS FUTUROS
Se podría estudiar la relación del Real Madrid con otros equipos
de la liga española, ó de otras ligas ó deportes. Una variable que
se podria incluir y que resulta muy interesante es el valor medio
Al evaluar con los mismos datos de entrenamiento:
-8-
de puntos obtenidos por partido del contrincante del Real Madrid.
Con esto el programa tendría información muy precisa de la
situación y la calidad del equipo contra el que juega, siendo esta
información muy accesible a la hora de la búsqueda de las bases
de datos. Además se podrían incluir muchos más temporadas de
fútbol.
5. CONCLUSIONES
WEKA proporciona un entorno de trabajo sencillo y adecuado
para analizar todos los datos con una gran cantidad de algoritmos.
De los resultados obtenidos se ve la complejidad de predecir este
tipo de resultados deportivos, en lo que intervienen multitud de
factores difíciles de identificar.
La predicción de este tipo de acontecimientos deportivos implica
tener acceso a una gran cantidad de información, la cual no se
encuentra con facilidad.
De los resultados obtenidos en el test se concluye que la
probabilidad de acertar el resultado de un partido del Real Madrid
está entre el 50 y 60 % para los algoritmos utilizados. Si se
quisiera predecir el resultado conjunto de varios equipos, por
ejemplo en la quiniela, se ve que la probabilidad conjunta de
acertar un pleno al 15 es realmente poco probable.
6. REFERENCIAS
[1] http://www.sportytrader.es/estadistica-deportiva.php
[2] http://onlae.terra.es/1X2/resultados/indiceategies/indice.htm
[3] http://www.futbolme.com/laliga/porjornadas/unauna/index3.
as
-9-
Descargar