Paquetes estadísticos descriptivos

Anuncio
ANÁLISIS DESCRIPTIVO DE LA MUESTRA
Una vez ordenados los datos de la muestra, empiezo con un análisis descriptivo de algunas de las variables del
fichero, según su clasificación.
Es necesario tener en cuenta el tipo de variable para cada estudio. Una variable puede clasificarse según este
criterio:
Variable cualitativa
Son aquellas que no se pueden medir. Se pueden clasificar como:
• Nominal; no admiten un orden. En nuestro fichero la variable Diplomatura sólo puede tomar dos
opciones: Estadística o Empresariales.
• Ordinal; admiten un orden q asignamos con las etiquetas. la variable Edad de nuestro fichero.
Variable Cuantitativa
Aquellas que podemos medir o contar y toman un número finito de valores. La variable molestias somáticas,
depresión... de nuestro fichero.
ESTUDIO DE LAS FRECUENCIAS
Variables cualitativas nominales
Asignatura
Es una variable cualitativa nominal. En SPSS estudiamos sus tabla de frecuencias, moda y gráfico
(diagrama de barras o sectores).
Hay 111 casos, que hacen el total de la muestra, pues no hay ningún valor ausente. La moda es 2, lo que nos
indica que hay más encuestas contestadas en Empresariales que en Estadística. De las 111 encuestas (100%),
70 (63.1%) son alumnos de Empresariales frente a 41(36.9%) que son los alumnos de estadística que
contestaron la encuesta.
Como se observa en el diagrama de sectores, algo más de la mitad ocupan los estudiantes de Empresariales
que fueron sometidos a la encuesta.
Sexo
Es una variable cualitativa nominal. No existe ningún dato faltante. La moda es 2, lo que nos indica que la
mayoría de los encuestados han sido mujeres. Ésta ha sido contestada por 61 mujeres frente a 50 hombres, lo
que en porcentajes nos indica; 55% y 45%, respectivamente.
Es poca diferencia entre hombres y mujeres, ocupan casi a la mitad el diagrama de sectores.
1
¿Tiene Alguna Asignatura Pendiente?
Es una variable cualitativa nominal. Se presenta un dato faltante por lo que estudiamos 110 datos. La moda
es 1, lo más frecuente es cursar el siguiente curso con alguna asignatura pendiente. De los 110 que han
contestado a la pregunta, un 86.4% tienen asignaturas pendientes; el resto 13.6% tienen el curso anterior
completo.
¿Toma Con Frecuencia Analgésicos?
Variable cualitativa nominal. Tiene un valor perdido, trabajamos con 110 datos. La moda es 2, lo que nos
dice que no se toma con frecuencia estos fármacos. El porcentaje total de los que no toman analgésicos es de
92,7% frente a una parte casi mínima de 7,3%.
Variables cualitativas ordinales
Edad
Es una variable cualitativa ordinal. Nos encontramos un dato faltante, el total para trabajar son 110 datos.
La moda es 2, lo que nos indica que la mayoría de los que han contestado están entre los 20−21 años,
dejándonos ver que hay personas jóvenes en las carreras encuestadas. La mediana o percentil 50 es el valor
de la variable estadística que divide a la población en dos partes iguales, en nuestra muestra su valor es 2 y
nos separa de 18−21 años y de 22−+25 años. El mínimo y el máximo nos da el rango de valores, que va
desde 1a 5. El percentil 25 es 2, lo que quiere decir que un 25% de los encuestados están en edades menores a
21 años. El Percentil 75 es 3; un 25% de la población es mayor de 22−23 años.
En el diagrama de barras la altura de cada rectángulo es la frecuencia absoluta de cada una de las
categorías. Las barras con mayor frecuencia son las que recogen las edades de 20−21 y 22−23 años. El resto
de barras están casi por igual. Puedo concluir que jóvenes son los que hacen estas carreras.
Hogar ¿Vive Con Su Familia?
Es una variable cualitativa ordinal. Hay un dato perdido, por lo que validos son 110. El rango de los valores
va desde 1(vivir con la familia) a 5 (Otros), tomando así todas las opciones. La moda es 3, que indica que lo
más frecuente es vivir en piso, también este valor lo toma la mediana por lo que la mitad de los encuestados
viven en familia, colegio mayor o piso. El percentil 25 es 1, por debajo de un 25% viven con su familia.
Un 86,4% es el total de estudiantes que viven en pisos y con su familia. El resto de los universitarios
encuestados viven en colegio mayor, pensión...
¿Cuántas Horas De Clase A La Semana?
La variable horario se clasifica como cualitativa ordinal. Sus frecuencias muestran que no tiene ningún dato
perdido, la moda es 2, lo que nos dice que lo más frecuente esta entre 20−25 horas a la semana de clase. La
mediana, que divide a la población en dos partes iguales es 2. El rango nos indica que los valores que toma
es de 1 (menos de 20 horas) a 4 (entre 31 y 35 horas), ninguno tiene más de 35 horas a la semana. Los
percentiles 25, 50 y 75 son iguales; lo que nos indica mucha concentración en los datos para esta variable.
Los alumnos con 20−25 horas de clase son un 61.3% , más de la mitad. El resto tiene menos de 20 o de 25 −
35 horas semanales de clase.
Horas De Ocio Diario
2
Variable cualitativa ordinal. No existe ningún valor perdido, el rango que se define es de 1, menos de dos
horas a 3, más de cuatro horas. La moda es 2, lo más frecuente es entre 2 y 4 horas de ocio, que en
porcentajes es un 56.8%. El total de los que pasan menos de dos horas de ocio es un 25,2% y el resto un 18%
tiene más de cuatro horas de ocio. La mediana es 2, por donde nos divide a la población al 50%. El percentil
25 nos indica que un 25% esta por debajo de 2 horas y un 25% tiene más de 4 horas de ocio, según el percentil
75.
¿En Que Invierte Las Horas De Ocio?
Esta variable cualitativa ordinal presenta cinco valores perdidos, por lo que trabajaremos con 106 datos. La
moda es 3, la actividad más frecuente es estar con los amigos. La mediana es 3, donde divide a la población
en el 50%. Los porcentajes recogen que un 6,6% leen, 26.4% ven la TV., 35.8% estar con los amigos, un
7.5% deporte y un 23,6% otras cosas en sus horas de ocio. Un 75% de la muestra dedica su tiempo de ocio al
deporte, leer, ver TV. o estar con los amigos.
Variables Cuantitativas
Molestias Somáticas
La variable molestias somáticas tiene 68 valores perdidos, son válidos 43, con los que trabajo. Los
encuestados tienen una media de 2,88, con una cuasidesviación típica de 1,63. La dispersión de los datos:
Desv. Típica/ Media = 0.56
N
Válidos
Perdidos
Media
Error tip. de la media
Mediana
Moda
Desv. Típica
Varianza
Asimetría
Error tip. de Asimetría
Curtosis
Error tip. de curtosis
Rango
Mínimo
Máximo
Suma
Percentiles
5
25
50
75
95
MOL_SOMA
43
68
2,8837
0,2495
2
2
1,636
2,6766
0,64
0,361
−0,466
0,709
6
1
7
124
1
2
2
4
6
3
es decir, un 56% de los datos están dispersos que van del mínimo 1 al máximo 7, su rango es 6. El error
típico de la media, 0.2495 es una medida de incertidumbre de la media muestral como estimación de la media
de la población, si se calculasen las medias de cada una de ellas, esta medias presentarían dicha desviación.
El percentil 5 es de 1, lo que nos dice que el 5% de los encuestados tienen molestias somáticas menor o igual
a 1 de la escala del GHQ. Un 25% tiene un nivel superior a 4 (percentil 75), mientras más de un 5% es
superior a 6 según el percentil 95.
La forma que representa la distribución de donde provienen estos datos nos lo facilita la asimetría y la
curtosis.
El coeficiente de asimetría es 0.640, mayor a cero y positivo. Creamos un intervalo con su error típico:
[−2 x error tip, de asimetría, 2 x error tip, de asimetría] = [−0.722, 0.722]
El valor de la asimetría, 0.640, pertenece al intervalo, por lo que tenemos una distribución simétrica.
El coeficiente de curtosis es −0.466, negativo. Construimos el intervalo con un 95% de confianza a partir del
error típico de curtosis, al igual que con el coeficiente de asimetría.
[−2 x error tip, de curtosis, 2 x error tip, de curtosis] = [−1.41, 1.41]
El coeficiente de curtosis, −0.466, pertenece al intervalo por lo que su forma es de curva mesocúrtica.
Este gráfico representa el histograma de la variable continua molestias somáticas, agrupa los datos en
intervalos de igual amplitud, por lo que su altura coincide con la frecuencia absoluta del intervalo. La
superposición de la curva normal sobre el histograma nos deja ver con mayor claridad la simetría, curtosis, ...
***
þ Lo recogido hasta aquí son frecuencias de algunos datos del trabajo, todos ellos estudiados individualmente
para así poder tener una idea general del archivo con el que trabajo.
Ahora voy a explorar el fichero, voy a ver las diferencias o por el contrario las similitudes entre ellos.
Destacare los mas significativos.
ANÁLISIS EXPLORATORIO
En el análisis exploratorio, una herramienta muy útil es el diagrama de caja o box−plot. Es un modo de
resumir la distribución de los valores de una variable; en vez de representar valores individuales, se muestran
estadísticos básicos de la distribución, como la mediana, cuartiles...Por tanto debe permitir apreciar fácilmente
la situación de la mediana, los cuartos y los limites internos.
El gráfico en caja analiza la parte central de la distribución y las colas, éstas zonas que suelen dar anomalías.
Este grafico no recoge todos los datos con máxima precisión, para ello usamos el diagrama de tallo y hojas.
Ambos muy complementados entre si.
HABITO TABAQUICO − SEXO
Con este diagrama de cajas, quiero ver si existen diferencias de sexo en el hábito tabaquico. Los valores son
muy similares para ambos casos ya que las cajas no se diferencian mucho. Las mujeres tienen los datos
centrales concentrados entre 1 y 2; lo que nos indica que en la encuesta no hay mujeres que fumen más de 20
4
cigarrillos al día. En los hombres existe algún caso que fume más de 20 cigarros. La Mediana para ambos
casos es uno, lo que nos indica que mayoritariamente la gente no fuma. No tenemos ningún caso extremo. No
existen patillas en el diagrama de cajas debido a que los valores están en el 50% de los datos centrales (caja).
Por la asimetría de las patillas y la presencia de la mediana en el borde inferior de la caja podemos intuir una
asimetría positiva.
MOLESTIAS SOMATICAS − SEXO
En este diagrama de cajas observo que los valores centrales (caja) toman igual amplitud para hombres que
para mujeres; aunque es destacable la ausencia de la patilla superior en la caja de los hombres, debido a que
los datos existentes están muy centrados. El recorrido para ambos va desde 2, que es mínimo hasta 5, en el
caso de los hombres y 6 en el caso de la mujeres. La mediana, que deja el mismo número de observaciones a
su derecha que a su izquierda, es superior para los hombres, 4.5 y para las mujeres es 4. Para ambos casos hay
un 10% de casos inferiores a 2 (percentil 10); el percentil 75; límite superior de las cajas nos indica que el
75% de los encuestados están por debajo de 5. El percentil 90, solo existe para las mujeres, parte superior de
la patilla, nos indica de la existencia de un 10% de mujeres de nivel superior a 6. Para las mujeres las patillas
son simétricas y la mediana se sitúa en el centro de la caja aproximadamente, nos muestra una imagen de
simétrica. Sin embargo, para los hombres nos deja ver una asimetría negativa por la cercanía de la mediana al
extremo superior de la caja.
ANSIEDAD − SEXO
En el diagrama de caja observamos que los valores son muy diferentes para hombres y mujeres. El recorrido
para los hombres toma como valor mínimo 5 y valor máximo 7, el rango es pequeño; valores muy
concentrados. La caja de los hombres poseen unas patillas simétricas y su mediana en el centro, por lo que
podemos suponer simétrica. Las mujeres toman un rango de 2 a 6, el 50% de los datos centrales se encuentran
entre 4 y 5,5, el valor de la mediana es 5. Por la diferencia de patillas y una posible cercanía de la mediana al
borde superior de la caja presenciamos una asimetría negativa. Una conclusión puede ser que hay mujeres con
ansiedad pero en nivel inferior a los hombres, que los encuestados tienen unos altos índices. Los hombres
padecen más ansiedad que las mujeres.
DEPRESIÓN − SEXO
Este diagrama de cajas tiene un recorrido mayor en el caso de mujeres, tomando todos los valores posibles, de
1 a 7. La caja (50% de los datos centrales) es muy amplia, la mediana es 2,5 más próxima al límite inferior de
la caja indicándonos una posible asimetría positiva. La patilla superior nos indica que un 90% de mujeres
tienen un nivel inferior a 7.
Los hombres tienen los datos centrales también desde 1, pero su nivel máximo es 5. La diferencia entre las
patillas y la cercanía de la mediana al límite inferior nos deja ver una asimetría positiva. Conclusión; Las
mujeres somos mucho más propensas a la depresión.
DISFUNCIÓN SOCIAL − SEXO
Diagrama de cajas muy diferentes para ambos casos. La mediana para el hombre es 4 mientras que para la
mujer es 1,5. Gran diferencia que nos aporta información de que los datos de la mujeres son más inferiores
que para los hombres. El recorrido de los datos centrales es de 2,5 a 4,5 para los hombres; mientras que para
las mujeres es de 1 a 4. En los hombres el 90% de todos los casos esta por debajo de 5, y en las mujeres de 7,
que es el máximo.
La caja no es simétrica ni para hombres ni para mujeres, pero el caso de los hombres presenta una asimetría
negativa, y para las mujeres asimetría positiva.
5
Podemos concluir que los niveles son más altos, en general para los hombres aunque existen entre las mujeres
también casos altos.
ASIGNATURA PENDIENTE − CARRERA
Este diagrama de caja es muy chocante , los valores centrales, mediana...se sitúan en 1, que se refiere a si
tener asignaturas pendientes. Los puntos superiores, son puntos extremos representados por un asterisco, están
situados a la altura del 2, lo que supone que algunos alumnos no tienen asignaturas pendientes.
Conclusión: el nivel universitario es dificultoso y es difícil ir curso a curso, son mínimos los estudiantes que
lo hacen. Podemos suponer que ambas carreras son de igual dificultad.
HORA DE REGRESO FIN DE SEMANA − ALCOHOL
Lo que quiero contrastar con este gráfico es si influye el beber alcohol con la hora de regreso el fin de semana.
La presencia de tres diagramas de cajas es porque hay datos perdidos, 3 como se indica en la parte inferior del
gráfico. La gente que no bebe alcohol tiene un rango de [2,5 − 3], siendo la hora más habitual de regreso;
mientras que quien bebe alcohol suele llegar a casa entre las 3 ó 4 de la madrugada. Es destacable que la
mediana, el percentil 90 para ambos casos están juntos, lo que indica, que de los que no beben alcohol, el 90%
llega a casa antes de las 3:00 horas y de los que beben alcohol, el 90% llega a casa antes de las 4:00. Hay que
destacar dos extremos en los que no beben alcohol, uno situado a la altura del 4, que está representado por un
círculo, por lo que se aleja más de 1,5 del recorrido intercuartílico del percentil 75 y el otro a la altura del 1,
representado por un asterisco que se aleja más de tres veces al recorrido intercuartílico.
CUESTIONARIO DE SALUD GENERAL
El cuestionario de salud general de Goldberg, nos indica si el encuestado tiene algunas molestias somáticas o
trastornos y como ha estado de salud en las últimas semanas. Voy a trabajar con el GHQ total clasificando a
los 111 encuestados en casos o no casos. Esta clasificación la podemos hacer, ya que quien evalúa el test,
medico, psicólogo... nos indica que una puntuación mayor al 6 le podemos considerar CASO y al contrario
NO CASO.
CASOS
En el fichero tenemos 36 casos con los que trabajar. Estudio con ellos algunas de las variable cualitativas
nominales. La carrera con más numero de casos es Estadística, con un 55,6%. El sexo más frecuente es
CASO es el de mujer, un 72,2%. Podemos concluir que la mayoría de los que forman los casos son mujeres
que están estudiando la diplomatura de Estadística.
N
Moda
Validos
Perdidos
Diplomatura
36
0
13
Sexo
36
0
2
Asig. Pend.
36
0
1
Un dato que sale es el que la mayoría de los CASOS tienen asignaturas pendientes, no muy influyente porque
como hemos visto es frecuente que esto suceda.
El uso de tranquilizantes, analgésicos, estimulantes no es muy frecuente, se toman en unos bajos índices,
13,9% , 8,3% 5,6% respectivamente.
6
¿Analgésicos?
36
0
2
¿Tranquilizantes?
36
0
2
¿Estimulantes?
36
0
2
Alcohol
35
1
2
Hay que destacar los altos índices de personas que beben alcohol, es el 51,4% de las personas que
consideramos CASO.
Alcohol
Válidos
Perdidos
Total
No
Si
Total
0
Frecuencia
Porcentaje
Porcentaje válido
17
18
35
1
36
47,2
50
97,2
2,8
100
48,6
51,4
100
Porcentaje
acumulado
48,6
100
Las variables cualitativas nominales, nos han definido el perfil de los pacientes que son caso. Ahora lo
completamos con las variables cualitativas ordinales, obteniendo de forma global las características propias
de una persona que este test consideraría caso.
Las variables cualitativas ordinales nos definen un joven de 20 − 21 años en segundo de carrera; la mayoría de
los encuestados, un 90% están por debajo de 25 años. La situación personal más frecuente a la hora del hogar
es compartir piso, sólo un 25% vive con su familia. El número de horas que estos jóvenes pasan en la facultad
esta entre 20 − 25 complementado esto con horas de estudio, generalmente entre 2 − 4. Por lo general, el
tiempo libre se dedica a estar con amigos (36,1%) y a ver la televisión (27,8%). A la hora de divertirse el fin
de semana aparecen varias modas, mostrando el menor de lo valores lo más frecuente es salir de copas
(33,3%) con un gasto de 2000 Pts. La hora de salir es de 10−12, y la de regreso entre las 3 − 5 de la
madrugada. Las horas de descanso esta entre 7 − 8 h, un 58,3%, aunque también son los que duermen más de
8 horas, 27,8%. El habito tabaquico, destacar que ninguno fuma más de 20 cigarros al día, que los que fuman
(0−20) son un 41,7% y los que no fuman (58,3%).
NO CASOS
El perfil que nos definen las variables cuando GHQ<6.
El sexo más frecuente es el de los hombres entre 20 − 21 años estudiantes de segundo curso CC.
Empresariales. Mayoritariamente vive con su familia. El horario entre semana se basa en las horas de clase,
entre 20 − 25, horas de estudio personal (2 − 4) y tiempo libre, que se usa frecuentemente para estar con los
amigos. Los fines de semana sale sobre las 22:00H y regresa a casa más tarde de las 5. Estos jóvenes beben
alcohol, y no toman ni analgésicos, ni tranquilizantes, ni estimulantes y el habito tabáquico es muy bajo.
Conclusión
Una vez estudiadas las variables socio−demográficas respecto a las personas caso y no−caso según el GHQ,
podemos comprobar que las diferencias no son muchas en cuanto a hábitos diarios.
En ambos grupos tienen edades entre 20 − 21, las horas de clase, estudio personal, hobbies,... son similares. El
consumo de tabaco, analgésicos, tranquilizantes, estimulantes no es frecuente para ningún grupo.
7
Hay más casos en Estadística y sobretodo en mujeres, pudiendo aparecer por circunstancias externas. Quiero
destacar que la gente considerada como caso vive en piso con compañeros, mientras que quien vive con su
familia es no caso. Este dato me aporta que el no vivir con la familia hace un cambio de vida; quizá una
descompensación personal que afecta en todos los ambientes de una persona joven.
¿Qué Variable Afecta Más?
La variable GHQ−TOTAL esta formada por la suma de valores que tienen las variables molestias somáticas,
ansiedad, depresión y disfunción social. Por ello quiero comprobar como es cada una de estas variables
cuando consideramos caso a la población. Así podemos comprobar cuales son las molestias con más presencia
en nuestro test.
MOLESTIAS SOMÁTICAS
Se nos presentan pocos datos a estudio; sólo 16 porque hay 20 datos perdidos. Trabajo con un 44,4% de las
personas que consideramos caso. Esta variable puede tomar valores de 0 a 7; pero los estadísticos de resumen
que nos proporciona el procedimiento de explorar nos indica que el valor mínimo que se toma es 2 y el
máximo es 6. La mediana nos indica que el 50% de los casos están en un nivel de 4 respecto a las molestias
somáticas.
Para ver la forma que presenta la distribución de nuestros datos, usamos el coeficiente de asimetría y curtosis.
El coeficiente de asimetría es −0.358, negativo, podemos suponer asimetría negativa. Voy a construir el
intervalo, para saber la distribución de la población de la que proceden los datos con un 95% de confianza a
partir del error típico de asimetría (0,564)
[−2 x 0.564, 2 x 0.564] = [−1.128 , 1.128]
El coeficiente de asimetría pertenece al intervalo, la distribución es simétrica.
El coeficiente de curtosis es −0.849<0. Voy a construir el intervalo, al igual que en asimetría.
[−2 x 1.091, 2 x 1.091] = [−2.118 , 2.118]
El coeficiente de curtosis pertenece al intervalo, la curva es mesocúrtica.
Por lo tanto, para todas estas variables, tenemos una distribución simétrica con su curva mesocúrtica,
Todos los valores aquí presentados, se reflejan en el diagrama de cajas; sus patillas simétricas y la mediana
situada en el centro de los datos centrales, la caja, nos dan una clara simetría sobre los datos.
Diagrama de caja
El diagrama de tallo y hojas; es un gráfico similar al histograma. Nos da información sobre los valores que
hay dentro de cada intervalo. La longitud de cada fila corresponde a las frecuencia de cada intervalo, lo que
muestra a su izquierda. Los valores observados se dividen en tallo y hojas, parte entera y parte decimal.
MOL_SOMA Stem−and−Leaf Plot for
GHQ_T_RC= CASO
Frequency Stem & Leaf
8
4,00 2 . 0000
,00 2 .
,00 3 .
,00 3 .
6,00 4 . 000000
,00 4 .
4,00 5 . 0000
,00 5 .
2,00 6 . 00
Stem width: 1,00
Each leaf: 1 case(s)
ANSIEDAD
Se nos presentan 20 datos perdidos, trabajo con un 44,4% de las personas que consideramos caso. Esta
variable puede tomar valores de 0 a 7; los estadísticos de resumen nos indican que el valor mínimo que se
toma es 2 y el máximo es 7, por lo que su rango es 5. La mediana nos indica que el 50% de los casos están en
un nivel de 5 respecto a la ansiedad.
Estos valores se reflejan en el diagrama de cajas. Hay que destacar un extremo a la altura del 2; que se aleja
más de 1,5 del recorrido intercuartílico del percentil 75.
DISFUNCIÓN SOCIAL
Para esta variable, la media y la mediana toman valores distintos. La media es una medida muy sensible, por
lo que tomamos un estadístico más resistente, la mediana, que es el índice de localización principal. El rango
es 6, toma todos los valores posibles, de 1 a 7.
Los datos centrales se encuentran de 1 a 4, que es la caja del diagrama. Un 90% de los jóvenes están por
debajo del nivel 7 en la disfunción social.
DEPRESIÓN
El 50% de los datos, esta entre [2 − 3]; ya que la mediana es 2,5. El recorrido de esta variable es de 1 a 7,
perteneciendo a los datos centrales hasta el valor 4.5. La patilla superior de este diagrama de cajas, es el
percentil 90 que nos indica que un 10% esta por encima del nivel 7.
Conclusión
He estudiado las variables que determinan el estado general de una persona según el cuestionario de salud. De
los 36 casos posibles, los que se consideran a estudio sólo se puede trabajar con 16 porque existen muchos
datos perdidos.
9
La variable que presenta un mayor índice es la ansiedad, toman valores de nivel 5, un 31,4% y de nivel 6, un
20%. La variable que le sigue son las molestias somáticas, variable que no toma todos los valores posibles
pero la mayoría tiene índices altos (3 − 5). La disfunción social, molestia que aparece con la alteración de
alguna función toma valores más bajos en general, aunque existan personas con un alto índice; la ultima con
el nivel más bajo es la depresión, toman todos los valores posibles pero los valores centrales son bajos.
BIBLIOGRAFÍA
• VARGAS SABADÍAS, A. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL, Ed. Ciencia y técnica,
Toledo,1995.
• MORRIS H. DeGROOT, PROBABILIDAD Y ESTADÍSTICA, Ed. Addison − Wesley
iberoamericana
•
10
Descargar