8. el análisis univariante y bivariante en spss

Anuncio
ANÁLISIS UNIVARIANTE Y
BIVARIANTE
INDICE
1. INTRODUCCION ...................................................................................................... 2
2. DISTRIBUCIÓN DE FRECUENCIAS .................................................................... 2
3. MEDIDAS DE TENDENCIA CENTRAL ............................................................... 3
3.1. LA MODA ......................................................................................................................4
3.2. LA MEDIANA ................................................................................................................4
3.3. LA MEDIA .....................................................................................................................4
4. MEDIDAS DE DISPERSIÓN.................................................................................... 5
4.1. EL RANGO .....................................................................................................................5
4.2. EL RECORRIDO INTERCUARTILICO .......................................................................5
4.3. LA DESVIACIÓN TIPICA ............................................................................................6
4.4. EL COEFICIENTE DE VARIACIÓN ............................................................................6
5. ANÁLISIS GRAFICO UNIVARIANTE ................................................................... 7
6. ANÁLISIS BIVARIANTE ......................................................................................... 9
6.1. TABLAS DE CONTINGENCIA ....................................................................................9
6.2. TABULACION DE VALORES MEDIOS Y ANÁLISIS DE LA
VARIANZA .............................................................................................................. 13
6.3. COEFICIENTES DE CORRELACION ....................................................................... 15
7. ANÁLISIS GRAFICO BIVARIANTE ................................................................... 16
8. EL ANÁLISIS UNIVARIANTE Y BIVARIANTE EN SPSS .............................. 19
8.1. ANALISIS UNIVARIANTE EN SPSS ........................................................................ 19
8.2. EL ANALISIS BIVARIANTE EN SPSS ..................................................................... 24
8.3. ANALISIS DE CORRELACION EN SPSS ................................................................. 27
8.4. ANALISIS GRAFICO EN SPSS .................................................................................. 27
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
1. INTRODUCCION
Antes de abordar la aplicación de cualquier técnica multivariante es necesario que se realice
una exploración previa de los datos mediante análisis univariante y bivariante. De hecho, en
una gran mayoría de los informes que entregan los Institutos de investigación a sus clientes
sólo se utiliza este tipo de técnicas, siendo más utilizadas las técnicas multivariantes en la
investigación académica que en la práctica empresarial.
En este tema vamos a realizar un breve recorrido por las técnicas univariantes y bivariantes
más utilizadas. Empezaremos con la distribución de frecuencias, que es la primera medida que
se observa cuando se tienen datos secundarios o procedentes de una encuesta. El siguiente
apartado se dedicará a las medidas de tendencia central, haciendo especial énfasis en la media
aritmética que no sólo es una medida descriptiva, sino también objeto de inferencia estadística.
El cuarto apartado se dedica a las medidas de dispersión. Posteriormente, veremos el análisis
gráfico univariante que suele ser una herramienta muy útil cuando complementa al análisis
univariante. El quinto y sexto apartados se centran en la explicación de las técnicas y análisis
gráficos bivariantes más usados en investigación comercial. Terminaremos el capítulo
ilustrando cómo obtener estas medidas en SPSS con varios ejemplos.
2. DISTRIBUCIÓN DE FRECUENCIAS
En la mayoría de los libros de estadística, la distribución de frecuencias es uno de los primeros
temas que se abordan puesto que proporciona un método de organización de datos que se
analizarán posteriormente con otras técnicas. La distribución de frecuencias es una relación de
categorías o intervalos de medida y el número de medidas observado en cada intervalo
(frecuencia).
La frecuencia absoluta es el número de veces que se encuentran mediciones para el intervalo,
es decir, el número de veces que se repite cada valor de la variable. La frecuencia relativa se
calcula como el cociente entre la frecuencia y el número total de datos. La utilidad de la
frecuencia relativa se debe a que permite comparaciones homogéneas entre diferentes
mediciones, al expresarlas en tanto por ciento o tanto por uno. La frecuencia absoluta
acumulada expresa el número de datos que hay igual al intervalo o número considerado y los
inferiores a él. La frecuencia relativa acumulada es el resultado de dividir cada frecuencia
acumulada por el número total de datos. En los programas de ordenador suele aparecer
además el porcentaje de casos válidos que es aquel en el que se han eliminado los datos
perdidos.
En la tabla 2.1. se observa la distribución de frecuencias de una muestra de 77 personas.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
Tabla 2.1. Ejemplo de distribución de frecuencias
Edad Frecuencia
17,0
18,0
19,0
20,0
21,0
22,0
23,0
24,0
25,0
26,0
27,0
28,0
29,0
30,0
31,0
32,0
34,0
35,0
37,0
39,0
43,0
47,0
51,0
Total
3
2
2
5
2
4
6
4
7
6
8
8
9
1
1
1
1
1
1
2
1
1
1
77
Frecuencia
relativa
Frecuencia
Relativa
acumulada
3,9
2,6
2,6
6,5
2,6
5,2
7,8
5,2
9,1
7,8
10,4
10,4
11,7
1,3
1,3
1,3
1,3
1,3
1,3
2,6
1,3
1,3
1,3
100,0
3,9
6,5
9,1
15,6
18,2
23,4
31,2
36,4
45,5
53,2
63,6
74,0
85,7
87,0
88,3
89,6
90,9
92,2
93,5
96,1
97,4
98,7
100,0
3. MEDIDAS DE TENDENCIA CENTRAL
Las tablas de frecuencias nos ofrecen toda la información disponible, pero en muchas
ocasiones el analista encuentra dificultades en interpretar toda esa extensa información, por lo
que intenta resumirla en una serie de expresiones, denominadas medias de posición. En
concreto, estas medidas son de tendencia central, de dispersión, de asimetría y de curtosis.
Las medidas de posición son valores sintéticos que fijan el comportamiento global de una
variable a partir de los datos individuales recogidos y que presentan las siguientes
características:
-
Intervienen en su determinación todos y cada uno de los valores de la distribución
-
Siempre se pueden calcular
-
Son únicos para cada distribución de frecuencias.
Con las medidas de tendencia central tratamos de saber cuál es el centro de los datos.
Normalmente, estas medidas describen el total de los datos. Los valores de tendencia central
que más se utilizan son la moda, la mediana y la media. A su vez, esta última es uno de los
objetivos de la inferencia estadística.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
El cálculo de medidas de tendencia central con datos agrupados ha sido un área importante en
la estadística descriptiva, debido a la necesidad de simplificar los cálculos que se iban a realizar.
No obstante, con el uso extensivo de los programas estadísticos, su importancia en la
actualidad es casi nula, ya que no es necesario agrupar los datos, introduciendo siempre las
observaciones de cada individuo u objeto para cada variable y no las tablas de frecuencias que
luego son calculadas por el programa. Por ello, en la explicación de las medidas de posición
vamos a centrarnos en los datos individuales.
3.1. LA MODA
La moda es el valor que se repite más veces, es decir, el valor con mayor frecuencia en un
conjunto de datos. Cuando sólo hay una moda, nos encontramos con una distribución
unimodal. Si hay dos valores con máxima frecuencia, la distribución es bimodal.
En la distribución que hemos expuesto en la tabla 2.1, el valor con mayor frecuencia (11.7) es
29, por tanto, esa es la moda de esa distribución.
3.2. LA MEDIANA
Es el valor de la distribución que ocupa el lugar medio de todos los valores ordenados de
menor a mayor o al contrario. Por tanto, aquel valor cuya frecuencia acumulada es el número
total de datos entre dos. La mediana divide los datos previamente ordenados en dos partes
con el mismo número de casos a cada lado. Una parte tendrá los datos con menor valor que la
mediana y la otra los datos que son mayores.
En el caso anterior (tabla 2.1), el valor que divide a los datos en dos es 28, puesto que tenemos
23 datos y este valor es el que ocupa el lugar 12, dejando 11 valores a cada lado.
Cuando tenemos un número par de dato, no es posible que un valor divida la distribución en
dos partes iguales. Por tanto, para el cálculo de la mediana se tomará la media aritmética
(medida que veremos en el siguiente apartado) de los dos valores centrales.
3.3. LA MEDIA
La media aritmética se utiliza para variables cuya escala es, al menos, de intervalos. Se expresa
de la siguiente forma:
n
x   xi  ni / N
i 1
Siendo Xi el valor de la variable observada y ni el número de observaciones tienen ese valor.
En el ejemplo expuesto en la tabla 2.1., el cálculo de la media será el siguiente:
_
X = (17*3+18*2+19*2+20*5+21*2+22*4+23*6+24*4+25*7+26*6+27*8+28*8+29*9+30*1
+31*1+32*1+34*1+35*1+37*1+39*2+43*1+47*1+51*1)/77 = 26,48
Estas son las medidas de tendencia central más utilizadas, aunque existen otras medidas como
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
la media geométrica, que se utiliza para calcular el valor central de variables acumulativas,
porcentajes, tasas y números índices y la media armónica, que se usa para promediar
velocidades y tiempos.
4. MEDIDAS DE DISPERSIÓN
Las medidas de dispersión nos ayudan a comprender si las medidas de tendencia central son
verdaderamente representativas de los datos que hemos obtenido y analizado. Puede ser que
tengamos dos distribuciones cuya media, mediana y moda sea la misma, pero cuyos datos sean
muy diferentes. La simple utilización de las medidas de tendencia central nos podría hacer
creer que estamos ante la misma distribución y, sin embargo, no es así.
Por ejemplo, tenemos estas dos distribuciones:
X1 = 4, 5, 6, 8, 8, 10, 11, 12
X2 = 1, 2, 5, 8, 8, 11, 14, 15
Para ambas, la media, la mediana y la moda es 8. No obstante, la primera distribución está
mucho más concentrada que la segunda. Por ello, acompañaremos a la medida de tendencia
central con una medida de la dispersión de los datos.
Las medidas de dispersión más utilizadas son el rango, el recorrido intercuartílico, la
desviación típica y el coeficiente de variación.
4.1. EL RANGO
El rango es la medida de dispersión más fácil de calcular. Es la resta entre el valor máximo y el
valor mínimo de la distribución. Por ejemplo, en el caso anterior, el rango para cada una de las
distribuciones es:
R1 = 12-4 = 8
R2 = 15-1 = 14
Habiendo una mayor dispersión en la segunda variable.
En el ejemplo de la tabla 2.1. el rango es 34, diferencia entre 17 y 51.
Sin embargo, el rango es una medida bastante inestable porque sólo se necesitan los valores
extremos. Para superar esta inestabilidad, se puede utilizar el rango modificado. Esta medida
se utiliza eliminando un determinado porcentaje de valores extremos. Los rangos modificados
más utilizados son el del 90% (se elimina un 5% de los valores más bajos y un 5% de los más
altos), el del 80% (se elimina un 10% de los valores más bajos y un 10% de los más altos) y el
del 50% (se elimina un 25% de los más altos y un 25% de los más bajos).
4.2. EL RECORRIDO INTERCUARTILICO
Los cuartiles son aquellos valores que dividen a la distribución en cuatro partes con igual
número de casos en cada una de ellas. El primer cuartil toma el 25% de los casos por debajo
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
de su lugar, el segundo es la mediana y toma el 50% de los casos por debajo, el tercero deja el
75% de los casos por debajo. Se puede aproximar su lugar con las fórmulas 0,25*n+0,5 para el
primer cuartil, 0,5*n+0,5 para el segundo y 0,75*n+0,5 para el tercero.
El recorrido intercuartílico se define como la diferencia entre el primer y el tercer cuartil. A
diferencia del rango, es una medida de dispersión que se ve poco afectada por los valores
extremos de la distribución.
4.3. LA DESVIACIÓN TIPICA
A diferencia del rango, considera todos los valores de la variable. Se calcula como la raíz
cuadrada del sumatorio de las diferencias al cuadrado de cada valor de la variable y la media.
En concreto es:

n
 (( x  x)²  n ) / N
i
i
i 1
siendo:
xi = valor de la variable para el sujeto i
x = media aritmética
ni = frecuencia absoluta para el valor i
N = número total de datos
En el caso de la tabla 2.1. la desviación típica es 6,26.
También es frecuente, utilizar la varianza en vez de la desviación típica que es simplemente su
cuadrado.
4.4. EL COEFICIENTE DE VARIACIÓN
Las medidas de dispersión que hemos expuesto hasta ahora tienen un problema: están
íntimamente relacionadas con las unidades de medida. Así si una variable se encuentra medida
en unidades, las medidas de dispersión serán diferentes que si se encuentran medidas en miles.
Lo mismo ocurre cuando tenemos un conjunto de variables que recogen aspectos diferentes
(renta, edad, metros). En estos casos, no podremos decir qué variable tiene más dispersión.
El coeficiente de variación soluciona este problema, pues es una medida relativa de dispersión
que consiste en dividir la desviación típica entre la media. Es adimensional y por tanto, cuanto
mayor sea más número de veces la desviación contendrá a la media y por tanto, menor
representatividad tendrá esta última medida.
En el caso de la tabla 2.1. el coeficiente de variación es de 0,23.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
5. ANÁLISIS GRAFICO UNIVARIANTE
Aunque la distribución de frecuencias representa toda la información disponible, siempre es
útil traducirla a gráficos de modo que la referencia visual sirva para explicar mejor el
fenómeno o sea un punto de partida para el análisis estadístico con técnicas que emplean dos
o más variables. Esta etapa puede parecer insignificante a primera vista, pero es crucial en el
análisis de datos, por si misma y como introducción a cualquier análisis bivariante o
multivariante. Representa una primera aproximación al fenómeno que se va a analizar y facilita
la interpretación de resultados. Muchos investigadores tienden a obviar esta etapa que, sin
embargo, sirve para hacer una estimación óptima de los resultados cuando posteriormente se
aplica métodos más sofisticados.
Con la inspección gráfica de los datos univariantes observamos la forma de la distribución.
Los tipos de gráficos son muy variados. Para fenómenos cuantitativos se suelen utilizar las
gráficas de barras, los histogramas y los polígonos de frecuencias. Para fenómenos más
cualitativos, existen los diagramas sectoriales, cartogramas y pictogramas, aunque estos últimos
se utilizan muy poco, ya que la mayoría de los programas de ordenador facilitan esta tarea,
representando sobre todo histogramas y gráficas de barras para ver la forma de la distribución.
Los histogramas se utilizan para representar generalmente frecuencias agrupadas. Tienen dos
ejes perpendiculares. Normalmente, en el eje de ordenadas (Y) se sitúan los valores de las
frecuencias y en el de abscisas (X), los límites del intervalo o marcas de clase. El histograma
está formado por una serie de rectángulos de igual base. Por el contrario, la altura de los
mismos es diferente, dependiendo del valor de la frecuencia correspondiente. Como resultado
de ello, mayores valores de frecuencia significarán mayores áreas del rectángulo asociado y
menores valores de frecuencias se traducirán en áreas menores.
Por ejemplo, para la distribución de frecuencias de la tabla 1 el histograma es el siguiente
(figura 2.1.):
FIGURA 2.1. HISTOGRAMA DE FRECUENCIAS
40
30
20
10
D es v . típ. = 6,26
Media = 26,5
N = 77,00
0
15,0
20,0
25,0
30,0
35,0
40,0
45,0
50,0
edad
En este gráfico se han agrupado las frecuencias de edad y además se ha obtenido una curva
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
para ver si la distribución se ajusta a una normal.
Como se puede observar en el gráfico, la curva no se ajusta a una normal. La normalidad es un
requisito esencial en la aplicación de muchas de las técnicas multivariantes. En general, no sólo
se observa mediante estos gráficos. Existen medidas univariantes, como la asimetría y la
curtosis y test de normalidad, disponibles en la mayoría de programas estadísticos, que nos
ayudarán a decidir si los valores de la variable se distribuyen como una normal. Pero la
inspección gráfica del histograma nos da una idea previa sobre este supuesto.
La gráfica de barras es similar al histograma, aunque en este caso no se pueden agrupar los
datos. En la figura 2.2. se puede observar una gráfica obtenida de la misma encuesta en la que
se muestra la preocupación por la apariencia que tienen los individuos a los que se ha
preguntado.
FIGURA 2.2. GRAFICA DE BARRAS
26
24
22
Frecuencia
20
18
16
poco
regular
bastante
mucho
preocupación apariencia
El polígono de frecuencias o gráfico de líneas es otra de las formas habituales de representar la
distribución de frecuencias. El eje de ordenadas representa las frecuencias relativas y el de
abscisas representa las marcas de clases. Cada punto del polígono de frecuencias coincide con
el punto medio del lado superior del rectángulo correspondiente en el histograma. En la figura
2.3 tenemos un polígono de frecuencias.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
FIGURA 2.3. POLÍGONO DE FRECUENCIAS
26
24
22
Frecuencia
20
18
16
poco
regular
bastante
mucho
preocupacin apariencia
Los pictogramas o diagramas pictóricos utilizan dibujos más o menos artísticos para
representar valores de las categorías relacionándolas con el tamaño.
6. ANÁLISIS BIVARIANTE
Las técnicas de análisis bivariante expresan el grado de relación entre dos variables. Pueden
considerarse, en algunos supuestos, como casos especiales o simplicados de algunas técnicas
de análisis multivariante. Entre las más utilizadas en investigación comercial, cabe destacar:
-
Tablas de contingencia (o tabulación cruzada) y X²
-
Tabulación de valores medios y análisis de varianza
-
Correlación entre rangos de Spearman y de correlación lineal
6.1. TABLAS DE CONTINGENCIA
En cualquier investigación de mercados basada en la encuesta como técnica de obtención de
información y con variables cualitativas, después de realizar un análisis univariante se procede
a llevar a cabo una serie de cruces entre variables con el fin de observar la relación entre dichas
variables. Normalmente, se suelen cruzar variables de clasificación (sexo, edad, clase social,
estado civil...) con variables relacionadas con el tema general de la encuesta (consumo del
producto, lugares de compra, hábitos de compra). También se pueden hacer cruces entre dos
preguntas relacionadas con el tema de la encuesta (consumo del producto y lugar de compra).
La única condición para realizar el cruce es que las variables sean no métricas (categóricas) o
cualitativas (con escalas nominal u ordinal).
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
Los cruces son tablas de doble entrada conocidas como tablas de contingencia y suelen
acompañarse de dos subíndices (rxc) que indican el número de niveles de las variables
analizadas (r filas y c columnas). El caso más simple es el de las tablas 2x2, que es con el que
empezaremos explicando esta técnica.
En las distribuciones bidimensionales se consideran simultáneamente dos caracteres de una
misma muestra (por ejemplo, consumo de un producto y sexo). Los pares que contienen los
valores de las variables junto con sus correspondientes frecuentas constituyen una tabla de
doble entrada (2x2). Nuestro interés consiste en que se realiza un análisis simultáneo de ambos
atributos o características y mediante su distribución conjunta, tratamos de establecer si existe
relación entre ambas.
El esquema de una tabla de contingencia 2x2 es el siguiente:
TABLA 2.2. ESQUEMA DE UNA TABLA DE CONTINGENCIA
VARIABLE B
NIVEL 1
NIVEL 1
VARIABLE
A
NIVEL 2
TOTAL
MARGINAL
NIVEL 2
TOTAL
MARGINAL
n11
n12
n1.
n21
n22
n2.
n.1
n.2
TOTAL
N
Siendo:
n11 = número de veces que se repite el nivel 1 de la variable A junto con el nivel 1 de la
variable B
n12 = número de veces que se repite el nivel 1 de la variable A junto con el nivel 2 de la
variable B
n21 = número de veces que se repite el nivel 2 de la variable A junto con el nivel 1 de la
variable B
n22 = número de veces que se repite el nivel 2 de la variable A junto con el nivel 2 de la
variable B
n1.= número de veces que se repite el nivel 1 de la variable A sin importar el nivel de la
variable B
n2.= número de veces que se repite el nivel 2 de la variable A sin importar el nivel de la
variable B
n.1= número de veces que se repite el nivel 1 de la variable B sin importar el nivel de la
variable A
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
n.2= número de veces que se repite el nivel 2 de la variable B sin importar el nivel de la
variable A
N= número total de observaciones
Generalmente es conveniente que la variable expresada como filas sea considerada como la
independiente y en columnas esté la que consideremos dependiente.
La hipótesis nula asociada a las tablas de contingencia es de independencia. Se dice que hay
independencia entre dos variables cuando los valores que toma una de ellas no se ven
influidos por los que adopte la otra. El contraste más utilizado para probar la independencia
entre dos variables cualitativas es el de la X², cuya hipótesis nula es la independencia
poblacional entre las variables. El estadístico calculado se basa en la suma de los cuadrados de
la diferencia entre las frecuencias observadas y las esperadas (si las variables fueran
completamente independientes), dividida entre las frecuencias esperadas:
n
 ²   (n  E )² / E
ij
ij
ij
i 1
siendo:
nij = frecuencia observada de la fila i y la columna j
Eij = frecuencia esperada de la fila i y la columna j
Las estimaciones de las frecuencias esperadas utilizan la estimación máximo verosímil en la
que la probabilidad se define como:
Pi. = ni./N
Por tanto, la independencia entre dos sucesos implica:
P(i,j) = P (i) * P (j) = (ni./N) * (n.j/N)
Como E(i,j) = N * P(i,j)
Entonces
E(i,j) = (ni.*n.j)/N
Respecto a la X² cuanto mayor sea la diferencia entre las frecuencias observadas y las
esperadas mayor será la frecuencia.
Si el valor del estadístico calculado supera al valor crítico (C) , obtenido de la búsqueda en
unas tablas para unos grados de libertad (r-1)*(c-1) y para un nivel de significación, se rechaza
la hipótesis nula y se dice que las variables no actúan de forma independiente. Si ocurre lo
contrario, no se rechaza la hipótesis nula y se dice que las variables actúan de forma
independiente.
Como ya explicamos en el tema anterior, gracias a los programas de ordenador, obtenemos un
valor de la probabilidad de rechazar la hipótesis nula siendo cierta (p-valor). Si esta
probabilidad es inferior al nivel de significación fijado (1% o 5%) entonces se rechaza la
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
hipótesis nula.
Para poder calcular el estadístico, se debe cumplir una condición: no debe existir ninguna
frecuencia teórica inferior a 5 individuos. Si se da ese caso, el resultado obtenido no se puede
interpretar, es decir, aunque obtuviéramos un estadístico calculado superior al valor crítico, no
estaríamos en condiciones de rechazar la hipótesis nula y no podríamos llegar a ninguna
conclusión.
Si no se cumple este requisito de que todas las frecuencias esperadas sean superiores a cinco,
en las tablas 2x2 se puede utilizar el test exacto de Fischer, que utiliza la distribución de
probabilidad exacta de la configuración de las frecuencias observadas. En el caso de las tablas
con más filas y columnas, algunos investigadores permiten que si hay menos de un 20% de
celdas con frecuencia esperada menor que cinco, se pueda interpretar la X².
Existen una serie de medias de asociación basadas en el estadístico X² como el coeficiente de
Pearson, el de contingencia y la V de Cramer. Estas tres medidas y algunas otras, nos permiten
ver el grado de asociación entre las dos variables estudiadas1.
Vamos a exponer el cálculo de la X² con un ejemplo. Supongamos que un investigador quiere
saber si hay relación entre el consumo de un producto light y el sexo. Para ello, entrevista a
200 personas y después de recoger datos los resultados expuestos en una tabla 2x2 son los
siguientes:
TABLA 2.3. EJEMPLO DE UNA TABLA DE CONTINGENCIA
SEXO
HOMBRE
CONSUMO
DE
SI
PRODUCTO
NO
LIGHT
TOTAL
MARGINAL
MUJER
TOTAL
MARGINAL
n11 = 20
n12 = 80
n1. = 100
n21 = 80
n22 = 20
n2. = 100
n.1 = 100
n.2 = 100
N = 200
Si el sexo no influyera en el consumo del producto, las proporciones de consumidores y no
consumidores serían del 50% independientemente del sexo. Se quiere contrastar, con un nivel
de significación del 5% la hipótesis nula de independencia poblacional en el efecto del
consumo de un producto light sobre el sexo, siendo los resultados de la frecuencia esperada
(teórica) los siguientes:
TABLA 2.4. FRECUENCIAS TEORICAS
HOMBRE
SI
1
MUJER
E11 = 50
REFERENCIA BIBLIOGRAFICA
E12 = 50
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
NO
E21 = 50
E22 = 50
Estas frecuencias se obtienen de multiplicar las frecuencias marginales de cada fila y columna
en la celda correspondiente y dividirlas por el número total de datos. En concreto:
E11 = 100*100/200
Y lo mismo para todas las demás.
Para calcular el estadístico X² habrá que restar cada frecuencia conjunta observada de la tabla
2.3. de la frecuencia esperada de la tabla 2.4. en cada celda, elevarla al cuadrado y dividirla otra
vez por la frecuencia teórica. La suma de todas las celdas será el valor del estadístico calculado.
Para el ejemplo:
X²= (20-50)²/50+(80-50)²/50+(80-50)²/50+(20-50)²/50 = 72
El valor crítico de una distribución X² con un grado de libertada al 5% es 3,84. Por tanto, al
ser mayor el estadístico calculado que el de las tablas, rechazamos la hipótesis nula y decimos
que el sexo influye en el consumo del producto light.
6.2. TABULACION DE VALORES MEDIOS Y ANÁLISIS DE LA VARIANZA
El análisis de la varianza trata de estudiar la relación entre una variable métrica y una variable
no métrica. La prueba de hipótesis se hace mediante la F de Snedecor. La hipótesis nula es que
hay igualdad de medias. Las variables que se suelen cruzar son las que provienen de una
encuesta en la que se valoran determinados atributos o características del producto mediante
escalas métricas y las de clasificación u otras relacionadas con el tema general de la encuesta.
Antes de explicar cómo se realiza el cálculo del estadístico, vamos a observar de forma gráfica
cómo sería el análisis de varianza. En la figura 2.4., representamos la media de la valoración del
aroma de una colonia respecto de las personas que eligen su propia marca de colonia y las que
no la eligen. Como se puede observar, las medias son bastante diferentes. En el caso de la
valoración del envase, sin embargo, no hay grandes diferencias entre los dos grupos. Los
círculos representan la dispersión entre los grupos.
En el primer caso (figura 2.4.), las medias son diferentes para los que eligen y para los que no
eligen. En el segundo (figura 2.5.), no. Además, en el primer caso, no hay demasiada
dispersión entre las respuestas de los individuos y en el segundo sí. El análisis de la varianza,
nos permitirá ver si esas medias son estadísticamente diferentes o no.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
FIGURA 2.4. VALORACIÓN DEL AROMA
FIGURA 2.5. VALORACIÓN DEL ENVASE
Media = 8.44
Media = 6.63
Media = 3.29
Si
No
Elección marca
Si
Media = 3.24
No
Elección marca
El análisis de la varianza se basa en que la dispersión total se descompone en dispersión intra
grupos y dispersión entre grupos o lo que es lo mismo, diferencias de respuesta de los
individuos con respecto a su grupo y diferencias de respuesta entre los distintos grupos. Las
dispersiones se miden como suma de cuadrados de la siguiente forma:
SC TOTAL = SC INTRA + SC ENTRE
n
m
n
m
m
  ( xij  x..)²   ( xij  x. j)²  k   (x.. x. j)²
i 1 j 1
i 1 j 1
j 1
siendo:
xij = valor de la observación i para el grupo j
x.. = media total
x. j = media del grupo j
k = número de grupos
La F de Snedecor se calculará como el cociente entre la SC entre y la SC intra, divididas ambas
por sus grados de libertad (el número de niveles menos uno y el número de observaciones
menos el número de niveles, respectivamente). Cuanto mayor sea la F, mayor será la diferencia
entre grupos y la menor la diferencia intra grupos.
Si el valor del estadístico calculado supera al valor crítico (C) , obtenido de la búsqueda en
unas tablas para unos grados de libertad (k-1) y (n-1) y para un nivel de significación, se
rechaza la hipótesis nula y se dice que las variables tienen medias diferentes para cada grupo. Si
ocurre lo contrario, no se rechaza la hipótesis nula y se dice que las variables tienen medias
iguales en los dos grupos.
Como en el apartado anterior, con el programa de ordenador, obtenemos un valor de la
probabilidad de rechazar la hipótesis nula siendo cierta (p-valor). Si esta probabilidad es
inferior al nivel de significación fijado (1% o 5%) entonces se rechaza la hipótesis nula.
El cálculo del estadístico se puede ver con un ejemplo. Vamos a suponer que tenemos ocho
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
datos de personas a las que preguntamos cuánto valoran el aroma de una colonia (en una
escala del 0 al 10) y si eligen ellos su propia marca. De estas ocho personas, cuatro eligen
marca y cuatro no. Los resultados son:
TABLA 2.5. VALORACIÓN AROMA Y ELECCIÓN DE MARCA
1
2
3
4
5
6
7
8
ELECCION VALORACIÓN
AROMA
SI
8
SI
9
SI
7
SI
8
NO
5
NO
4
NO
6
NO
4
La media total es de 6,375. Para los que eligen marca, la media es 8 y para los que no la eligen
4,75. ¿son estadísticamente diferentes estas medias?. Para probar la hipótesis de igualdad de
medias, calculamos la F que será:
SC entre = ((8-6,375)²+(4,75-6,375)²)*2 = 10,56
SC intra = (8-8)²+(9-8)²+(7-8)²+(8-8)²+(5-4,75)²+(4-4,75)²+(6-4,75)²+(4-4,75)² = 4,75
F = (10,56/1)/(4,75/7) = 15,56
El estadístico de tablas para 1 y 7 grados de libertad y un nivel de significación del 5% es
de....BUSCAR ESTADÍSTICO. Como el estadístico calculado es mayor que el teórico,
rechazamos la hipótesis nula de igualdad de medias.
6.3. COEFICIENTES DE CORRELACION
La correlación es la técnica estadística bivariante que se usa con mayor frecuencia para resumir
la fuerza de la asociación entre dos variables métricas. En investigación comercial se suele
utiliza para medir la intensidad de la relación entre dos variables como, por ejemplo, ventas y
gasto publicitario, cuota de mercado y número de puntos de distribución, percepciones de
calidad y de precio, etc.
La correlación producto-momento es el estadístico que se suele emplear en mayor medida
cuando se trata de medir la fuerza de la asociación entre dos variables métricas. Si
denominamos X e Y a dichas variables, la correlación lineal entre ambas indica el grado en el
que la variación de la variable X se relaciona con la variación de la variable Y. Se conoce
también con el nombre de coeficiente de correlación de Pearson. Y se expresa como:
n
r   ( xi - x)( yi  y ) /
i 1
n
(x
i
i 1
n
- x) ² ( yi  y )²
i 1
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
Cuando queremos calcular la fuerza de la relación entre dos variables no métricas existen otras
posibles medidas como la rho de Spearman () y la tau de Kendall (). Ambas medidas
utilizan clasificaciones en vez de valores absolutos de las variables. También varían entre -1 y
1. Como regla general la  de Kendall se prefiere cuando hay un número relativamente
pequeño de categorías y existen muchos casos. Por el contrario, el uso de la de Spearman rd
más aconsejable cuando tenemos un número relativamente alto de categorías (Malhotra,
1997).
7. ANÁLISIS GRAFICO BIVARIANTE
El análisis gráfico bivariante trata de ver las relaciones entre las variables y las diferencias entre
grupos de variables. Para ello contamos con los gráficos de cajas y bigotes (representar las
diferencias entre dos o más grupos de variables) y con los gráficos XY (comprobar la relación
entre las variables). Son un complemento del análisis de varianza y del análisis de correlación.
En cuanto a las diferencias entre dos o más variables métricas para grupos distintos de
individuos, necesitamos entender cómo se distribuyen los valores para cada uno de ellos y si
existen suficientes diferencias como para tener significación estadística. Otro aspecto
importante es identificar los atípicos que pueden resultar sólo aparentes cuando los valores se
separan en grupos. El método que se utiliza para analizar estas diferencias es el gráfico de cajas
(box plot). Los límites superior e inferior de la caja marcan los cuartiles superior e inferior de
los datos. Por tanto, la longitud de la caja es la distancia entre el primer y el tercer cuartil, de
forma que la caja contiene los datos centrales de la distribución. La línea dentro de la caja
señala la posición de la mediana. Si esta cae cerca del final de la caja, se indica la presencia de
asimetría. Las líneas que se extienden desde cada caja (llamadas bigotes) representan la
distancia entre la mayor y la menor de las observaciones que están a menos de un cuartil de la
caja. Los casos atípicos (marcados con asterisco) son observaciones que se sitúan a más de 1
cuartil fuera de los límites de la caja.
En la figura 2.6 se muestra el gráfico de cajas para dos grupos de individuos: los que eligen
marca y los que no. Los dos grupos tienen un conjunto de valores muy diferente, lo que indica
que existen diferencias entre los grupos de la valoración del aroma. Además existen en el
segundo grupo dos casos atípicos. El investigador debe examinar estas observaciones y ver
qué solución aplica.
FIGURA 2.6. DIAGRAMA DE CAJAS Y BIGOTES
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
12
10
8
6
4
72
21
aroma
2
63
0
N =
50
27
si
no
elec c in marc a
Para ver la relación entre dos variables, podemos utilizar los gráficos de dispersión, de forma
que el patrón de puntos representa la relación: cuando los puntos se organizan a lo largo de
una recta, tenemos una relación lineal de correlación, mientras que un conjunto de puntos
curvados puede indicar relación no lineal o incluso puede haber ausencia de relación cuando el
conjunto de puntos es aleatorio.
Por ejemplo, el gráfico de dispersión de las variables (figura 2.7) indica que los puntos están
alineados alrededor de una línea recta, ya que tienen una correlación elevada de 0,839.
FIGURA 2.7. GRAFICO DE DISPERSION ENTRE AROMA Y CALIDAD
11
10
9
8
7
6
aroma
5
4
3
0
2
4
6
8
10
12
calidad
Sin embargo, la valoración del envase y del precio presentan una ausencia casi total de
correlación como evidencia de la amplia dispersión de los puntos (correlación de 0,114), como
se muestra en la figura 2.8.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
FIGURA 2.8.: GRAFICO DE DISPERSION ENTRE ENVASE Y PRECIO
10
8
6
4
envase
2
0
0
precio
2
4
6
8
10
12
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
8. EL ANÁLISIS UNIVARIANTE Y BIVARIANTE EN SPSS
8.1. ANALISIS UNIVARIANTE EN SPSS
El módulo de SPSS que permite analizar la información se encuentra en el menú de análisis.
Son varios los sub-menús que nos permitirán aplicar las técnicas univariantes y bivariantes que
hemos explicado hasta ahora. La distribución de frecuencias se encuentra en el menú
Estadísticos Descriptivos, Frecuencias (Figura 2.9).
FIGURA 2.9. MODULO ESTADISTICOS DESCRIPTIVOS
Cuando se acepta el submenú de frecuencias, al menos se debe introducir una variable para
que sea analizada. Por defecto, la salida nos dará las frecuencias absolutas, relativas, válidas y
acumuladas. Si queremos pedir otras medidas descriptivas, como las de posición central, de
dispersión o de deformación, tendremos que marcar aquellas que queramos que aparezcan en
la salida en la opción de Estadísticos. También podemos pedir gráficos (histogramas, sectores
o gráficas de barras) en la opción Gráficos. Por último, podemos cambiar la organización de la
información (que aparezca de forma ascendente, descendente; por valores o por frecuencias)
en la opción Formato. En la figura 2.10. se muestra cómo es el submenú frecuencias.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
FIGURA 2.10. SUBMENU DE FRECUENCIAS
Para analizar las salidas del SPSS, vamos a utilizar una base de datos que proviene de una de
las encuestas realizadas en los años 90 por el CIS. En esta base de datos, tiene 2491 individuos
y 140 variables. Las variables provienen de un amplio cuestionario que contiene preguntas
sobre posesión de bienes, actitudes y valores, así como variables socio-demográficas que
permiten clasificar a los sujetos entrevistados.
Vamos a analizar las salidas referentes a tres preguntas con diferentes tipos de escala.
1. Para la escala nominal, estudiaremos las respuestas a la pregunta ¿tiene ordenador
personal?, cuyas respuestas son Si o No.
2. Para la escala ordinal, estudiaremos las respuestas a la pregunta “Cómo utiliza el
ordenador personal”, cuyas respuestas van desde 1 “Sin ninguna dificultad” hasta 5
“No sabe utilizarlo”.
3. Para la escala de intervalos, estudiaremos las respuestas a la pregunta “Los
ordenadores son difíciles de manejar”, cuyas respuestas se determinan en una escala
del 1 al 9 siendo 1 “totalmente de acuerdo” y 9 “totalmente en desacuerdo”.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
En la tabla 2.6. se muestra la salida a la primera pregunta. Como de las 2491 personas
encuestadas, 8 no contestan a esta pregunta, el porcentaje válido es distinto a la frecuencia
relativa que aparece en la tercera columna. Del total de casos válidos, el 26,3% (654 personas
sobre 2483 casos válidos) posee ordenador.
TABLA 2.6. FRECUENCIAS DE LA PREGUNTA
“¿TIENE ORDENADOR PERSONAL?”
Ordenador personal
Válidos
Perdidos
Total
Frecuencia
654
1829
2483
8
2491
S¡
No
Total
Sistema
Porcentaje
26,2
73,4
99,7
,3
100,0
Porcentaje
válido
26,3
73,7
100,0
Porcentaje
acumulado
26,3
100,0
En esta pregunta no nos interesa obtener una medida descriptiva. Si puede ser interesante
pedir un gráfico (de sectores o de barras). Los gráficos de SPSS no son visualmente atractivos.
Por ello, si lo que nos interesa es hacer una inspección rápida se pueden solicitar estos
gráficos, pero si vamos a presentar un informe o un trabajo académico es mucho mejor
preparar gráficos en una hoja de cálculo o con un programa de presentaciones. No obstante,
en la figura 2.11. presentamos el gráfico de sectores que se obtendría cuando se marcara esta
opción en SPSS.
FIGURA 2.11. GRAFICO DE SECTORES DE LA PREGUNTA
¿TIENE ORDENADOR PERSONAL?
Ordenador personal
Perdido
S¡
No
Casos ponderados por PESO
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
La siguiente pregunta, con escala ordinal, permite un análisis de frecuencias y obtener ciertas
medidas descriptivas, como la mediana y la moda. Sin embargo, estas medidas no añaden gran
información a la inspección visual de las frecuencias. Estas se pueden observar en la tabla 2.7.
En este caso, los valores ausentes son 123 por lo que el porcentaje válido cambia en mayor
medida que en el ejemplo anterior. El dato que más se puede destacar es que casi un 60% de la
muestra (el 58,9%) no sabe utilizar el ordenador, mientras que un 23,6% afirma manejarlo sin
dificultad.
TABLA 2.7. FRECUENCIAS DE LA PREGUNTA
“¿COMO UTILIZA EL ORDENADOR PERSONAL?”
Ordenador personal
Válidos
Perdidos
Total
Sin dificultad
Con alguna dificultad
Con bastante dificultad
Con mucha dificultad
No sabe utilizarlo
Total
Sistema
Frecuencia
558
214
113
86
1395
2368
123
2491
Porcentaje
22,4
8,6
4,6
3,5
56,0
95,1
4,9
100,0
Porcentaje
válido
23,6
9,1
4,8
3,6
58,9
100,0
Porcentaje
acumulado
23,6
32,6
37,4
41,1
100,0
La última pregunta que vamos a exponer se basa en una escala de intervalos de nueve
posiciones. Con las variables métricas (escalas de intervalos o de razón) no es necesario
analizar las frecuencias, sobre todo si tienen un rango muy amplio. Mucho más ilustrativo será
el análisis de medidas de tendencia central y de dispersión.
Para obtener estas medidas descriptivas, podemos pedir que no aparezcan las frecuencias en el
submenú que hemos ilustrado y marcar la opción de descriptivos o podemos acudir a otro
submenú dentro del módulo de Estadísticos Descriptivos, concretamente Descriptivos (figura
2.12). En este submenú, debemos introducir las variables con escala de intervalo o de razón
que queremos analizar. Por defecto, se obtendrá la misma información que en el menú de
frecuencias, es decir, media, desviación típica, máximo y mínimo. Si queremos alguna otra
medida hay que marcarla en Opciones. También este submenú nos permite crear variables
estandarizadas (nuevas variables que se denominan como las antiguas con una Z delante) que
pueden ser objeto de análisis posteriores.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
FIGURA 2.12. SUBMENU DESCRIPTIVOS
La salida de SPSS muestra por defecto los resultados que aparecen en la tabla 2.8. Según la
escala utilizada (1-9), la media de las respuestas se concentra en torno al acuerdo con esta
afirmación, aunque hay una elevada dispersión, ya que la desviación típica arroja un valor de
2,44.
TABLA 2.8. MEDIDAS DESCRIPTIVAS DE LA PREGUNTA
“LOS ORDENADORES SON DIFICILES DE MANEJAR”
Estadísticos descriptivos
N
Los ordenadores son
dificiles de manejar
N válido (según lista)
2489
2489
Mínimo
Máximo
1
Media
9
2,58
Desv. típ.
2,448
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
8.2. EL ANALISIS BIVARIANTE EN SPSS
La tabulación cruzada se analiza en SPSS en el submenú de tablas de contingencia, que se
encuentra también en el módulo de Estadísticos Descriptivos. Habrá que introducir las
variables que consideremos fila (o que dependen de otra) y las variables que consideremos
columna (las que condicionan a las variables fila). En el ejemplo que desarrollamos en el
apartado 5, pondríamos el consumo del producto light por filas y el sexo por columnas.
También habrá que marcar en la opción de Estadísticos la Chi-cuadrado y en la opción de
Casillas el porcentaje por columna. En la figura 2.13. se muestra la pantalla que reproduce una
tabulación para la base de datos de la encuesta del CIS en que se trata de ver la relación de
dependencia entre la posesión de antena parabólica y el tipo de residencia en la que vive en el
encuestado.
FIGURA 2.13. TABULACION CRUZADA EN SPSS
La salida que proporciona el programa muestra en primer lugar las tablas de contingencia
(Tabla 2.9.). El porcentaje por columna nos indica que parece haber un mayor porcentaje de
usuarios de antenas en los chalets y en los pisos. Para probar que realmente hay una relación
de dependencia acudimos al estadístico Chi-cuadrado (Tabla 2.10.). El valor de esta prueba es
de 46,98. Si nos fijamos en su p-valor y lo comparamos con un nivel de significación del 1%,
podemos rechazar la hipótesis nula de independencia y concluir que hay una relación entre la
posesión de antena y el tipo de residencia. Es importante observar que no hay ninguna celda
con frecuencia esperada menor que 5. Si hubiera más de un 20% de celdas con frecuencias
esperadas menores que 5, no podríamos interpretar los resultados que nos arrojara esta
prueba.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
TABLA 2.9. TABULACION CRUZADA TIPO DE RESIDENCIA Y ANTENA
PARABOLICA
Tabla de contingencia Antena parabolica de TV (personal o colectiva) * PISO
PISO
Antena parabolica de TV
(personal o colectiva)
S¡
No
Total
Recuento
% de PISO
Recuento
% de PISO
Recuento
% de PISO
Piso
210
13,7%
1322
86,3%
1532
100,0%
Chalet o
casa (nivel
medio y alto)
29
12,9%
195
87,1%
224
100,0%
Casa
unifamiliar
(zona
residencial
deprimida o
rural)
27
4,0%
641
96,0%
668
100,0%
No consta
3
6,1%
46
93,9%
49
100,0%
Total
269
10,9%
2204
89,1%
2473
100,0%
TABLA 2.10. ESTADISTICO CHI-CUADRADO
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
Razón de verosimilitud
Asociación lineal por
lineal
N de casos válidos
Valor
46,986a
55,357
25,470
3
3
Sig. asintótica
(bilateral)
,000
,000
1
,000
gl
2473
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 5,33.
En cuanto al análisis de la varianza, hay varias opciones en SPSS para realizarlo, pero nosotros
aconsejamos el módulo de Comparar medias, Anova de un factor. Entre las opciones, habrá
que marcar descriptivos para que aparezcan las medias y desviaciones típicas. Para desarrollar
un ejemplo vamos a utilizar otra base de datos. En este caso la que proviene de una encuesta a
trabajadores sobre marketing interno. Cruzaremos la categoría profesional con la opinión que
tiene el encuestado sobre el ambiente laboral. Los módulos y opciones se pueden ver en las
figuras 2.14. y 2.15.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
FIGURA 2.14. MODULO DE ANOVA
FIGURA 2.15. ANOVA DE UN FACTOR. OPCIONES
Los resultados se muestran en las tablas 2.11. y 2.12. En la primera, se observa que las medias
parecen diferentes en función de la categoría profesional, ya que las categorías más elevadas
puntúan mejor el ambiente laboral. La prueba de que las medias son estadísticamente
diferentes se basa en la F-Snedecor. El valor de este estadístico es de 8,47 y tiene un p-valor de
0.000, lo que nos indica que para un nivel de significación del 1% podemos rechazar la
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
hipótesis nula de igualdad de medias.
TABLA 2.11. DESCRIPTIVOS DE AMBIENTE LABORAL
POR CATEGORIA PROFESIONAL
Descriptivos
AMBIENTE LABORAL
N
1
2
3
4
Total
501
106
259
51
916
Media
3,80
3,68
4,06
4,25
3,89
Desviación
típica
,963
1,091
,887
,683
,956
Error típico
,043
,106
,055
,095
,032
Intervalo de confianza para
la media al 95%
Límite
Límite inferior
superior
3,72
3,89
3,47
3,89
3,95
4,17
4,06
4,44
3,82
3,95
Mínimo
Máximo
1
1
1
2
1
TABLA 2.12. ANALISIS DE VARIANZA (AMBIENTE LABORAL
POR CATEGORIA PROFESIONAL)
ANOVA
AMBIENTE LABORAL
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
22,699
813,798
836,496
gl
3
912
915
Media
cuadrática
7,566
,892
F
8,479
Sig.
,000
8.3. ANALISIS DE CORRELACION EN SPSS
La correlación bivariada se analiza en SPSS en el submenú de Correlaciones (figura 2.16).
Concretamente, se debe elegir la opción Divariadas puesto que las otras opciones se refieren a las
correlaciones parciales o a las distancias. Por defecto se calcula la correlación de Pearson, aunque
también se pueden marcar los otros estadísticos que indican correlación para variables no métricas,
como la tau de Kendall o la rho de Spearman. Además, el programa permite obtener aquellos
coeficientes que tienen una correlación estadísticamente significativa.
En el caso de la base de datos que estamos analizando vamos a obtener las correlaciones
divariadas entre las preguntas que hemos estado analizando anteriormente referidas a los
ordenadores. Como se puede ver en la tabla 2.13., la salida es una matriz cuya diagonal principal es
la unidad. Las correlaciones entre las variables aparecen en los demás elementos de la matriz. En
el ejemplo, todas las variables tienen una correlación estadísticamente significativa al 99%.
5
5
5
5
5
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
FIGURA 2.15. MODULO DE CORRELACIONES BIVARIADAS
TABLA 2.13. SALIDA DE CORRELACIONES BIVARIADAS
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
Correlaciones
Los
ordenadores
son dificiles
de manejar
Los ordenadores son
dificiles de manejar
Con los ordenadores se
resuelven mas facilmente
algunos problemas de la
vida cotidiana
Los ordenadores hacen
que las personas se
comuniquen cada vez
menos entre si
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
1
.
2489
,412**
Con los
ordenadores
Los
se resuelven
ordenadores
mas
hacen que las
facilmente
personas se
algunos
comuniquen
problemas de
cada vez
la vida
menos entre
cotidiana
si
,412**
,409**
,000
,000
2486
2487
1
,579**
,000
.
,000
2486
2486
2485
,409**
,000
,579**
,000
2487
2485
1
.
2487
**. La correlación es significativa al nivel 0,01 (bilateral).
8.4. ANALISIS GRAFICO EN SPSS
Los gráficos explicados en el apartado 7 (histogramas, gráficas de barras, polígono de
frecuencias, dispersión y cajas) se pueden encontrar en la mayoría de los programas existentes.
La opción del menú que permite llevar a cabo todos estos análisis es la de Gráficos. Dentro de
ella, se debe elegir el tipo de plot que queremos para representar los datos. En histogramas,
hay que indicar la variable y si se quiere representar la curva normal, marcar dicha opción. En
dispersión se deben escoger, al menos, las dos variables que serán representadas. Y en cajas se
debe indicar la variable de referencia (categórica) para dividir entre grupos y la variable métrica
que se representará en la caja.
Descargar