Guión de la práctica A01

Anuncio
guionA01
14/11/2015
1
A) ANÁLISIS DE COMPONENTES PRINCIPALES (ACP) con SPAD
 0.1 ACP del Decathlon de Götziz (Austria) 1982 .
Los datos están en http://www.eio.uva.es/~valentin/ad3d/anadat/acp/deca/deca01.txt.
También llegamos desde la página web de la asignatura > Prácticas > 01 Decathlon.
1) Guardo los datos que vamos a analizar en un fichero .txt
 Corto la tabla de datos con cabecera de variables y la pego en d:\deca\deca.txt
 Corrijo los nombres de las variables eliminando espacios y puntos. Los 4
primeros caracteres se utilizan en las salidas como identificador de las variables.
 Alineo. Guardo y cierro Notepad.
2) Incorporo los datos a un fichero Excel
 Excel > Datos > Obtener datos externos > Importar datos ó bien
Excel > Archivo > Abrir > Importar datos
 Tipo de datos: de ancho fijo > siguiente
 Ajusto los separadores de las columnas.
 Cambio el nombre de la hoja: deca.
 Selecciono dentro de la hoja el grupo de celdas que me interesa pasar a SPAD y
le asigno un nombre: Insertar >nombre > definir … “deca”.
en Excel 2010: Fórmulas > Asignar nombre ó botón derecho > Definir nombre
 Guardo fichero como d:\deca\deca.xls.
 Cierro Excel.
3) Creo una base SPAD d:\deca\deca.sba importando con SPAD desde la hoja Excel.
 SPAD > Base > importer > importation ODBC. Así se abre la …
 Ventana cobase. Trabajo en ella: (según versión 4.0 ó 5.5)
v4.0 ODBC > ouvrir
Ventana: seleccionar origen datos > origen Datos Equipo > Excel files >
Selecciono d:\deca\deca.xls tabla deca.
v5.5 ODBC > nouvelle requête
Ventana: Excel files > Selecciono d:\deca\deca.xls tabla deca y variables
Tipo de variables: pongo
la columna “atleta” como indicador de los individuos (Indicateur)
y las restantes columnas, como variables continuas (Continue).
Guardo la base SPAD:
ODBC > Enregistrer sous > d:\deca\deca.sba
Cierro ventana cobase.
4) ACP con SPAD
En SPAD / Ventana Filière:
Selecciono la base d:\deca\deca.sba :
Filière > Sélectioner base > d:\deca\deca.sba
Inserto Método ACP :
Méthode > Inserer méthode : aparece el icono método 1
doble clic en icono método 1 y elijo método:
Analises factorielles > Composantes principales (COPRI)
Selecciono individuos, variables y parámetros del ACP:
doble clic en icono “método 1 COPRI” y navego por las 4 hojas:
1 hoja variables: selecciono las activas y luego las ilustrativas.
2 hoja individuos: selecciono los activos y luego los ilustrativos.
3 hoja peso: la dejo en “uniforme”
4 hoja parámetros: analyse  non normée
résultats pour les individus  Tous
Guardo filière:
Filière > Enregistrer > d:\deca\deca.fil
Ejecuto filière:
Filière > Executer
guionA01
14/11/2015
2
Aparecen dos nuevos iconos en la ventana Filière, colgando de COPRI:
Doble clic en el icono de resultados
abre la ventana de resultados:
Leo,
analizo,
corto,
modifico los
análisis y
pego en mi
informe final.
Doble clic en el icono de gráficos
abre la ventana de gráficos:
Comienzo gráfico
nuevo,
Selecciono
puntos a
representar,
etiquetas,
formas, tamaños,
colores…
Lo vemos ahora:
guionA01
14/11/2015
5) En la ventana de gráficos:
5.1) Comienzo un nuevo gráfico:
Graphique > Nouveau >
y selecciono los puntos a dibujar:
Individuos activos
Individuos ilustrativas
Variables continuas activas
Variables continuas ilustrativas
Variables nominales ilustrativas
(algunas combinaciones
están prohibidas)
OJO: no confundir “variables continuas activas” con “antiguos ejes unitarios”
5.2) Coloco etiquetas (libellés) a los puntos
Selecciono puntos a etiquetar :
Sélection > elijo modo de selección
todos/por categorías/por
lista/por filtro/
por recuadro/punto a
punto/invertir/deseleccionar
(quedan marcados en color rosa)
Coloco etiquetas:
Habillage > Écrire les libellés
Quito etiquetas:
Habillage > Effacer les libellés
Nota: Estos 2 botones también sirven:
5.3) Modifico el aspecto del gráfico:
Muevo una etiqute: clic en la etiqueta y arrastro.
Modifico una etiqueta: doble clic en el gráfico sobre la etiqueta.
Otras modificaciones:
Habillage > Couleurs, Symboles, …
Se abre un cuadro con múltiples opciones:
Forma, color, tamaño del punto: fijo/proporcional al peso, cos2, c.a…
Longitud de la etiqueta y su contenido (identificador, cos2, c.a.)
5.4) Veo información relativa a un punto del gráfico:
Activo la información sobre los puntos:
Habillage > Information sur points 
y luego, con la información sobre los puntos activada:
doble clic en el gráfico sobre el punto.
5.5) Cambio de ejes:
Graphiques > Changer les axes > elijo dos nuevos factores
Cierro SPAD
3
guionA01
14/11/2015
4
Segunda sesión SPAD. Recupero el trabajo de la primera sesión y añado una ayuda a la
descripción de factores con DEFAC
6) Recupero el Filière d:\deca\deca.fil de la primera sesión
Barra SPAD > Filière > Ouvrir Filière > d:\deca\deca.fil
7) Ayuda a la Descripción de Factores Principales
Inserto un segundo Método en mi ventana Filière :
Méthode > Insérer méthode : aparece el icono método 2
doble clic en icono método2 y elijo método:
Analises factorielles > Description de Facteurs (DEFAC)
Selecciono número de ejes a describir;
para cada eje, salen los puntos más alejadas
doble clic en icono “método 2 DEFAC” y navego por las 2 hojas:
1 hoja peticiones (comandes):
pongo el nº de ejes a describir 1-- 3
y marco  variables continuas activas.
ó individuos activos…
2 hoja de parámetros:
marco  Effectif 8
(es el nº de puntos extremos que se listan)
Guardo filière:
Ejecuto filière:
Filière > Enregistrer > d:\deca\deca.fil
Filière > Executer
Aparece un nuevo icono en la ventana Filière, colgando de DEFAC:
Doble clic abre la ventana de resultados.
guionA01
14/11/2015
5
8) Calculemos con Excel tablas de desviaciones y de desviaciones estandarizadas:
Volvemos al fichero Excel d:\deca\deca.txt
Añade una fila con el promedio de cada prueba:
nombre: promedio prueba
fórmula Excel: =PROMEDIO(C2:C21)
(para la 1ª celda)
Otra con las varianzas:
nombre: varianza prueba
fórmula Excel: =VAR(C2:C21)
Otra con las desviaciones típicas:
nombre: Desv. Típìca
fórmula Excel: =RAIZ(C24) o bien =DESVEST(C2:C21)
Haz dos copias de la hoja y ponles nombre: “desviaciones” y “normados”
En la primera copia, sustituye las puntuaciones por desviaciones a la media:
fórmula Excel: =decathlon!C2-decathlon!C$23
En la segunda, sustituye las puntuaciones por desviaciones a la media estandarizadas:
fórmula Excel: =desviaciones!C3/desviaciones!C$24
Elimina decimales en esas presentaciones para que se vea mejor:
formato > celda > número > posiciones decimales
guionA01
14/11/2015
6
9) Incorporamos elementos ilustrativos
Seguimos en el fichero Excel d:\deca\deca.txt para ampliarlo con más variables
y nuevos individuos.
9.1) Añadamos nuevas columnas (variables), por ejemplo:
una con la puntuación total de cada atleta
nombre: TOTAL
fórmula Excel: =SUMA(C2:L2) )
(para la 1ª celda)
otra con la puntuación media de cada atleta
nombre: promedio atleta
fórmula Excel: =M2/10
otras con el peso, talla, edad… (invéntatelas a falta de los datos reales)
9.2) Añadamos nuevos filas (individuos ), por ejemplo:
una con las puntuaciones del record del mundo.
otras con las puntuaciones de los records nacionales de algunos países.
otra con las puntuaciones medias de los atletas de los países del Este …
otras de atletas inventados, que fallen en una prueba o superespecialistas en otras
9.3) Llevamos las modificaciones a una nueva base SPAD de puntuaciones originales.
Ponemos nombre a las celdas que constituyen la nueva tabla ampliada con las nuevas
variables e individuos. Importamos desde SPAD.
9.4) Declaro ilustrativas las nuevas variables e individuos:
Al redefinir los parámetros del método COPRI,
a) En la hoja de variables declaro las nuevas como continuas ilustrativas:
Ojo: La variable TOTAL toma valores muy altos y distorsiona los gráficos. Es
mejor que utilices la variable “promedio atleta”; da la misma información pero no
produce ese efecto.
b) En la hoja de individuos, declaro los nuevos como ilustrativos:
guionA01
14/11/2015
ÍNDICE DEL GUIÓN / Práctica A01
7
p.
Primera sesión SPAD
1) Guardo los datos que vamos a analizar en un fichero .txt
1
2) Incorporo los datos a un fichero Excel
1
3) Creo una base SPAD deca.sba importando con SPAD desde la hoja Excel.
1
4) ACP con SPAD
1
5) En la ventana de gráficos.
3
Segunda sesión SPAD
6) Recupero el Filière
4
7) Ayuda a la Descripción de Factores Principales
4
8) Calculemos tablas de desviaciones y de desviaciones estandarizadas:
5
9) Incorporamos elementos ilustrativos
6
INFORME
Ahora que sabes manejarte con SPAD, debes trabajar sobre las salidas del
ACP y redactar el informe final.
Este informe debe ser claro y breve. Redáctalo preferiblemente en un estilo
“no técnico”. Ponte en el lugar del “dueño del problema”, que te ha contratado para
analizar sus datos, y utiliza su lenguaje en lo posible.
Sería una buena idea adjuntar como anexo un informe “sí técnico” con una
selección de salidas comentadas y justificación de las técnicas que se emplean.
Puedes ayudarte del punto siguiente
2.11) Lista completa de tareas en la práctica del ACP
(ver http://www.eio.uva.es/~valentin/ad3d/anadat/transp/acp1_2.doc pg.28)
y seguir sus diferentas apartados.
guionA01
14/11/2015
Copia de http://www.eio.uva.es/~valentin/ad3d/anadat/transp/acp1_2.doc pg.28
2.11) Lista completa de tareas en la práctica del ACP:
1.- Elijo una de las dos opciones posibles:
a) igualar las varianzas (ACP Normado).
b) respetar las escalas de medida originales (ACP de la m. de covarianzas)
2.- Analizo los valores propios: Elijo el nº apropiado de ejes.
3.- Analizo la nube de individuos:
-
Identifico individuos responsables de la aparición de cada eje
-
dist0;
-
Analizo proximidades/lejanías entre individuos, la existencia de grupos...
(tener en cuenta las c.r.)
detecto individuos alejados.
decido qué hacer con ellos ¿Eliminarlos y pasar otro ACP?
4.- Analizo la nube de variables:
-
estructura de correlaciones entre las variables originales:
+ variables correladas: puntos-variable alineados.
+ variables incorreladas: puntos-variable perpendiculares
5.- Relaciono los dos análisis:
-
Interpreto cada eje principal:
+ coeficientes que definen cada componente principal.
+ correlaciones de las C.P. con las variables originales.
-
Identifico individuos alejados en cada eje y analizo sus características.
-
Direcciones intermedias e individuos alejados en ellas;
dirección de crecimiento de cada variable original.
8
guionA01
14/11/2015
9
10) Ejercicios
*
¿Cuál es la correlación del primer factor con la puntuación total?
*
Incluye ahora el puesto final del atleta como variable ilustrativa. ¿Cuál es su
correlación con el primer eje? Haz un gráfico de los individuos en el plano 1-2 con
tamaño de punto proporcional a su puesto final en el Decatlhon.
* Modifica el ACP tomando ahora como variables activas sólo las 9 primeras pruebas;
deja como ilustrativas la de 1500m y la puntuación media de cada atleta;
declara también como ilustrativos los dos primeros atletas y los dos últimos.
Contesta las cuestiones siguientes:
1.- ¿Cuántos ejes factoriales debemos analizar?
2.- ¿Qué porcentaje de inercia recoge el plano factorial 1-2 ? ¿Y el 2-3?
3.- ¿Cuál es la fórmula del tercer eje factorial?
4.- ¿Qué variables están más correladas con el segundo eje?
5.- ¿Qué individuos son responsables de la aparición del primer factor?
6.- Localiza dos puntos que estén próximos en el espacio factorial 1-2-3.
7.- ¿Cuál es la c.r. de estos dos puntos anteriores en el espacio 1-2-3?
8.- ¿Cuáles son las coordenadas del vector que da el crecimiento de la variable peso en
el plano 2-3?
9.- Haz un gráfico de los individuos en el plano 1-2 con tamaño de punto proporcional a
la contribución relativa.
10.- Fabrica con Excel una tabla de doble entrada con las distancias entre individuos
(similar a las tablas de distancias por carretera entre ciudades).
Localiza las dos parejas de puntos más próximos y las dos parejas de puntos más
alejados.
Comprueba si en el plano factorial 1-2 son estas parejas de puntos las que aparecen
como más próximas y más alejadas.
Respuestas
Cálculo de puntuaciones en Decathlon
http://www.mundoatletismo.com/Site/tecnica/02192b98f5005ff03.html
El decatlón es una competición atlética que consta de diez pruebas que se efectúan en el
transcurso de dos días consecutivos y por el mismo atleta.
El primer día se disputan las siguientes pruebas y en este orden:
guionA01
14/11/2015
100m lisos
Salto de longitud
Lanzamiento de peso
Salto de altura
400m lisos
En el segundo día:
110m vallas
Lanzamiento de disco
Salto con pértiga
Lanzamiento de jabalina
1500m lisos
Las puntuaciones [112 KB] se calculan a partir de las marcas en las distintas pruebas
según la tabla húngara.
¿Cómo se calculan las puntuaciones?
Puntos = K1 x (K2-M)^K3 para carreras.
Puntos = K1 x (M-K2)^K3 para concursos.
Donde M es la marca obtenida por el atleta. K1, K2, y K3 son constantes.
Todos los tiempos son eléctricos.
Añadir 0.24 para tiempos manuales para el 100 y el 110 vallas.
Añadir 0.14 para marcas manuales en el 400m.
Prueba
K1
K2 K3 M
100 m
25.437 18.0 1.81 seg
Longitud
0.14354 220 1.40 cm
Peso
51.39
Altura
0.8465 75
1.42 cm
400 m
1.53775 82
1.81 seg
1.5 1.05 m
110 m Vallas 5.74352 28.5 1.92 seg
Disco
12.91
4.0 1.1 m
Pértiga
0.2797 100 1.35 cm
Javalina
10.14
1500 m
0.03768 480 1.85 seg
7.0 1.08 m
Veamos un ejemplo:
Supongamos un atleta que realiza 10.00 en los 100 metros. Su puntuación sería la
siguiente:
K1 x (K2-M)^K3
10
guionA01
14/11/2015
Desglosemos;
M = 10; (K2-M) = 18-10 = 8
Luego;
8 ^ K3; donde K3 = 1,81
8 ^ 1,81 = 43,11
Por lo tanto;
K1 x 43,11; donde K1 = 25,43
25,43 x 43,11 = 1097
http://www.rfea.es/records/aljunrecords.htm
http://www.leica-geosystems.es/es/Decathlon-world-record_2768.htm
http://www.mundoatletismo.com/Site/tecnica/02192b98f5005ff03.html
http://www.decathlon2000.com/eng/844/
historico
http://www.decathlon2000.com/eng/1346/kazakstan-decathlon-all-time-list/
11
Documentos relacionados
Descargar