Subido por SEBASTIAN ALEJANDRO CEVALLOS MACIAS

ACP

Anuncio
ANÁLISIS DE COMPONENTES PRINCIPALES
ÁREA DE ESTADÍSTICA
DEPARTAMENTO DE CIENCIAS EXACTAS – ESPE
Asignatura: ESTADÍSTICA APLICADA AL MERCADO
Docente: Vanessa Mena
Contenido
Título
Análisis multivariante de interdependencia
Duración
8 horas
Información general
Análisis de Componentes Principales
Objetivo
Realizar un análisis de componentes principales en una base de datos
Análisis de componentes principales ACP
El método de componentes principales tiene por objeto transformar un conjunto de variables a las
que denominaremos variables originales, en un nuevo conjunto de variables denominadas
componentes principales (dimensiones). Estas últimas se caracterizan por estar incorrelacionadas entre
sí y ordenadas en función de la información que llevan incorporadas, medida a través de la varianza
Como medida de la cantidad de información incorporada en una nueva componente se utiliza su
varianza. Es decir, cuanto mayor sea su varianza mayor es la información que lleva incorporada dicha
componente. Por esta razón se selecciona como primera componente aquella que tenga mayor
varianza mientras que, por el contrario, la última es la menor varianza.
En general, la extracción de componentes principales se efectúa sobre variables tipificadas para evitar
problemas derivados de escala.
Cuando las variables originales están muy correlacionadas entre sí, la mayor parte de su variabilidad se puede explicar
con muy pocas componentes.
Es importante destacar que los componentes principales se expresan como una combinación lineal de
las variables originales.
El método de componentes principales es considerado como un método de reducción, es decir, un
método que permite reducir la dimensión del número de variables que inicialmente se han considerado
en el análisis.
El análisis de componentes principales trata de reducir la dimensión de un número elevado de
variables. Si la correlación muestral es nula entre el conjunto de variables, entonces las componentes
principales coincidirán exactamente con las variables originales, de manera que para aplicar este análisis
hay que partir del supuesto de que las variables están correlacionadas entre sí Los coeficientes de
correlación de las variables originales deben ser por lo menos mayores a 0.5
En el análisis de componentes principales es importante conocer la correlación de cada variable con
las componentes. Su obtención es muy sencilla. Así, el coeficiente de correlación rhj entre la
componente h-ésima y la variable j-ésima viene dada por:
𝑟ℎ𝑗 = 𝑈ℎ𝑗 √ℎ
A estos coeficientes de correlación se les denomina cargas factoriales.
A la matriz formada por estas cargas factoriales se les suele denominar matriz factorial. En las salidas
del programa SPSS, se le denomina matriz de componentes.
Para tipificar las componentes hay que dividir cada valor de un componente por su correspondiente
desviación típica, es decir, por la raíz cuadrada de la raíz característica a que está asociada. A la matriz
formada por estos coeficientes se le denomina en las salidas del paquete SPSS matriz de coeficientes
para el cálculo de puntuaciones de los factores, utilizando esa matriz de ponderaciones se obtiene
las puntuaciones tipificadas de las componentes.
En función de lo que se ha mencionado se presenta un resumen de los resultados más importantes
que se van a obtener.
1. Los componentes principales son combinaciones lineales de las variables originales.
2. Los coeficientes de las combinaciones lineales son los elementos de los vectores característicos
asociados a la matriz de covarianzas de las variables originales.
3. La primera componente principal está asociada a la mayor raíz característica de la matriz de
covarianzas de las variables originales.
4. La varianza de cada componente es igual a la raíz característica a que va asociada.
5. En el caso de que las variables estén tipificadas, la proporción de la variabilidad total de las
variables originales captada por una componente es igual a la raíz característica
correspondiente dividida por el número de variables originales.
6.
La correlación entre una componente y una variable original se determina con la raíz
característica de la componente y el correspondiente elemento del vector característico
asociado en el caso de que las variables originales estén tipificadas.
Número de componentes a retener
El objetivo de la aplicación de las componentes principales es reducir las dimensiones de las variables
originales, pasando de p variables originales a m<p componentes principales.
Los criterios analíticos que examinaremos para determinar el número de componentes son los
siguientes: criterio de la media aritmética y el contraste de raíces características no relevantes. También
se examinará un criterio basado en el gráfico de sedimentación.
-
Criterio de media aritmética
-
Contraste sobre las raíces características no retenidas
-
El gráfico de sedimentación
Número óptimo de componentes principales
Por lo general, dada una matriz de datos de dimensiones m x p, el número de componentes principales
que se pueden calcular es como máximo de m-1 o p (el menor de los dos valores es el limitante). Sin
embargo, siendo el objetivo del PCA reducir la dimensionalidad, suelen ser de interés utilizar el
número mínimo de componentes que resultan suficientes para explicar los datos. No existe una
respuesta o método único que permita identificar cual es el número óptimo de componentes
principales a utilizar. Una forma de proceder muy extendida consiste en evaluar la proporción de
varianza explicada acumulada y seleccionar el número de componentes mínimo a partir del cual el incremento deja
de ser sustancial.
Análisis de componentes principales
Restricciones:
-
Se trabaja con variables cuantitativas
-
Se recomienda trabajar con 2 dimensiones hasta 4 dimensiones (dimensión =componente)
-
Los casos tienen que ser mayores que las variables
Varianza explicada = Inercia
Interpretación:
Plano principal
Interpretación de la ordenación (plano principal): Con este gráfico se evalúan las formaciones de
clúster. Las zonas donde los datos están agrupados están correlacionadas positivamente, si aparecen
en zonas opuestas están correlacionadas negativamente, si aparecen en ángulo recto no tienen relación
entre ellas y si aparecen lejanas al origen es porque tienen más peso en esa componente, este análisis
es válido si los datos están relacionados linealmente
Círculo de correlación
Círculo de correlaciones: Con un ángulo pequeño cercano a 0° existe una correlación fuerte positiva,
entonces las variables están correlacionadas, ángulos grandes cercanos a 90° no hay correlación no
hay dependencia, ángulo de 180° correlación fuete inversa
Las variables están mejor representadas cuando más alejadas estén del origen, en el gráfico serán
entonces mejores en cuanto más próximos estén al círculo de correlación
Tabla de comunalidades
Permite explicar el % de cada variable que es explicada en el modelo, es el % de varianza que reproduce
el modelo factorial
Varianza total explicada
Permite señalar que % se logra explicar con el número de componentes principales o la primera
componente logra explicar tal % de la varianza
Gráfico de sedimentación
Los autovalores son medidas de variabilidad que explica la cantidad de información que puede explicar
un factor
Ejercicio resuelto:
Base de datos “Ventas”
1. Utilice la base de datos “ventas. Sav”, y realice un ACP Análisis de componentes
principales con las variables: ventas, reventa, precio, tamaño del motor, caballos, base de
neumáticos, anchura, capacidad de combustible y consumo
(Considere autovalores >1)
1.1 Indique el coeficiente y cuál es el par de variables altamente correlacionadas
Tamaño del motor y caballos=0.973
1.2 Presente e interprete la tabla de comunalidades
1.3 Cuantos componentes principales se recomienda y presente la gráfica de sedimentación
2 Componentes principales
1.4 Si se eligiera 3 componentes principales cuál es el porcentaje de varianza que se logra
explicar
86.58%
Ejercicio propuesto:
Se ha examinado a 25 alumnos, aspirantes a ingresar en la Facultad de Matemáticas, (Base de datos:
Ingreso_FMatematicas) de 5 materias diferentes: Geometría Diferencial (cuyo resultado se almacena
en la variable geodif), Análisis Complejo (ancompl), Álgebra (alg), Análisis Real (anreal) y Estadística
(estad). Las puntuaciones obtenidas figuran en la tabla siguiente:
El objetivo de este estudio es realizar un ACP de alumnos para la entrada en la Facultad de
Matemáticas de las calificaciones en las cinco materias examinadas. (Utilice autovalores =0.3)
Descargar