ANÁLISIS DESCRIPTIVO DE LA MUESTRA Una vez ordenados los datos de la muestra, empiezo con un análisis descriptivo de algunas de las variables del fichero, según su clasificación. Es necesario tener en cuenta el tipo de variable para cada estudio. Una variable puede clasificarse según este criterio: Variable cualitativa Son aquellas que no se pueden medir. Se pueden clasificar como: • Nominal; no admiten un orden. En nuestro fichero la variable Diplomatura sólo puede tomar dos opciones: Estadística o Empresariales. • Ordinal; admiten un orden q asignamos con las etiquetas. la variable Edad de nuestro fichero. Variable Cuantitativa Aquellas que podemos medir o contar y toman un número finito de valores. La variable molestias somáticas, depresión... de nuestro fichero. ESTUDIO DE LAS FRECUENCIAS Variables cualitativas nominales Asignatura Es una variable cualitativa nominal. En SPSS estudiamos sus tabla de frecuencias, moda y gráfico (diagrama de barras o sectores). Hay 111 casos, que hacen el total de la muestra, pues no hay ningún valor ausente. La moda es 2, lo que nos indica que hay más encuestas contestadas en Empresariales que en Estadística. De las 111 encuestas (100%), 70 (63.1%) son alumnos de Empresariales frente a 41(36.9%) que son los alumnos de estadística que contestaron la encuesta. Como se observa en el diagrama de sectores, algo más de la mitad ocupan los estudiantes de Empresariales que fueron sometidos a la encuesta. Sexo Es una variable cualitativa nominal. No existe ningún dato faltante. La moda es 2, lo que nos indica que la mayoría de los encuestados han sido mujeres. Ésta ha sido contestada por 61 mujeres frente a 50 hombres, lo que en porcentajes nos indica; 55% y 45%, respectivamente. Es poca diferencia entre hombres y mujeres, ocupan casi a la mitad el diagrama de sectores. 1 ¿Tiene Alguna Asignatura Pendiente? Es una variable cualitativa nominal. Se presenta un dato faltante por lo que estudiamos 110 datos. La moda es 1, lo más frecuente es cursar el siguiente curso con alguna asignatura pendiente. De los 110 que han contestado a la pregunta, un 86.4% tienen asignaturas pendientes; el resto 13.6% tienen el curso anterior completo. ¿Toma Con Frecuencia Analgésicos? Variable cualitativa nominal. Tiene un valor perdido, trabajamos con 110 datos. La moda es 2, lo que nos dice que no se toma con frecuencia estos fármacos. El porcentaje total de los que no toman analgésicos es de 92,7% frente a una parte casi mínima de 7,3%. Variables cualitativas ordinales Edad Es una variable cualitativa ordinal. Nos encontramos un dato faltante, el total para trabajar son 110 datos. La moda es 2, lo que nos indica que la mayoría de los que han contestado están entre los 20−21 años, dejándonos ver que hay personas jóvenes en las carreras encuestadas. La mediana o percentil 50 es el valor de la variable estadística que divide a la población en dos partes iguales, en nuestra muestra su valor es 2 y nos separa de 18−21 años y de 22−+25 años. El mínimo y el máximo nos da el rango de valores, que va desde 1a 5. El percentil 25 es 2, lo que quiere decir que un 25% de los encuestados están en edades menores a 21 años. El Percentil 75 es 3; un 25% de la población es mayor de 22−23 años. En el diagrama de barras la altura de cada rectángulo es la frecuencia absoluta de cada una de las categorías. Las barras con mayor frecuencia son las que recogen las edades de 20−21 y 22−23 años. El resto de barras están casi por igual. Puedo concluir que jóvenes son los que hacen estas carreras. Hogar ¿Vive Con Su Familia? Es una variable cualitativa ordinal. Hay un dato perdido, por lo que validos son 110. El rango de los valores va desde 1(vivir con la familia) a 5 (Otros), tomando así todas las opciones. La moda es 3, que indica que lo más frecuente es vivir en piso, también este valor lo toma la mediana por lo que la mitad de los encuestados viven en familia, colegio mayor o piso. El percentil 25 es 1, por debajo de un 25% viven con su familia. Un 86,4% es el total de estudiantes que viven en pisos y con su familia. El resto de los universitarios encuestados viven en colegio mayor, pensión... ¿Cuántas Horas De Clase A La Semana? La variable horario se clasifica como cualitativa ordinal. Sus frecuencias muestran que no tiene ningún dato perdido, la moda es 2, lo que nos dice que lo más frecuente esta entre 20−25 horas a la semana de clase. La mediana, que divide a la población en dos partes iguales es 2. El rango nos indica que los valores que toma es de 1 (menos de 20 horas) a 4 (entre 31 y 35 horas), ninguno tiene más de 35 horas a la semana. Los percentiles 25, 50 y 75 son iguales; lo que nos indica mucha concentración en los datos para esta variable. Los alumnos con 20−25 horas de clase son un 61.3% , más de la mitad. El resto tiene menos de 20 o de 25 − 35 horas semanales de clase. Horas De Ocio Diario 2 Variable cualitativa ordinal. No existe ningún valor perdido, el rango que se define es de 1, menos de dos horas a 3, más de cuatro horas. La moda es 2, lo más frecuente es entre 2 y 4 horas de ocio, que en porcentajes es un 56.8%. El total de los que pasan menos de dos horas de ocio es un 25,2% y el resto un 18% tiene más de cuatro horas de ocio. La mediana es 2, por donde nos divide a la población al 50%. El percentil 25 nos indica que un 25% esta por debajo de 2 horas y un 25% tiene más de 4 horas de ocio, según el percentil 75. ¿En Que Invierte Las Horas De Ocio? Esta variable cualitativa ordinal presenta cinco valores perdidos, por lo que trabajaremos con 106 datos. La moda es 3, la actividad más frecuente es estar con los amigos. La mediana es 3, donde divide a la población en el 50%. Los porcentajes recogen que un 6,6% leen, 26.4% ven la TV., 35.8% estar con los amigos, un 7.5% deporte y un 23,6% otras cosas en sus horas de ocio. Un 75% de la muestra dedica su tiempo de ocio al deporte, leer, ver TV. o estar con los amigos. Variables Cuantitativas Molestias Somáticas La variable molestias somáticas tiene 68 valores perdidos, son válidos 43, con los que trabajo. Los encuestados tienen una media de 2,88, con una cuasidesviación típica de 1,63. La dispersión de los datos: Desv. Típica/ Media = 0.56 N Válidos Perdidos Media Error tip. de la media Mediana Moda Desv. Típica Varianza Asimetría Error tip. de Asimetría Curtosis Error tip. de curtosis Rango Mínimo Máximo Suma Percentiles 5 25 50 75 95 MOL_SOMA 43 68 2,8837 0,2495 2 2 1,636 2,6766 0,64 0,361 −0,466 0,709 6 1 7 124 1 2 2 4 6 3 es decir, un 56% de los datos están dispersos que van del mínimo 1 al máximo 7, su rango es 6. El error típico de la media, 0.2495 es una medida de incertidumbre de la media muestral como estimación de la media de la población, si se calculasen las medias de cada una de ellas, esta medias presentarían dicha desviación. El percentil 5 es de 1, lo que nos dice que el 5% de los encuestados tienen molestias somáticas menor o igual a 1 de la escala del GHQ. Un 25% tiene un nivel superior a 4 (percentil 75), mientras más de un 5% es superior a 6 según el percentil 95. La forma que representa la distribución de donde provienen estos datos nos lo facilita la asimetría y la curtosis. El coeficiente de asimetría es 0.640, mayor a cero y positivo. Creamos un intervalo con su error típico: [−2 x error tip, de asimetría, 2 x error tip, de asimetría] = [−0.722, 0.722] El valor de la asimetría, 0.640, pertenece al intervalo, por lo que tenemos una distribución simétrica. El coeficiente de curtosis es −0.466, negativo. Construimos el intervalo con un 95% de confianza a partir del error típico de curtosis, al igual que con el coeficiente de asimetría. [−2 x error tip, de curtosis, 2 x error tip, de curtosis] = [−1.41, 1.41] El coeficiente de curtosis, −0.466, pertenece al intervalo por lo que su forma es de curva mesocúrtica. Este gráfico representa el histograma de la variable continua molestias somáticas, agrupa los datos en intervalos de igual amplitud, por lo que su altura coincide con la frecuencia absoluta del intervalo. La superposición de la curva normal sobre el histograma nos deja ver con mayor claridad la simetría, curtosis, ... *** þ Lo recogido hasta aquí son frecuencias de algunos datos del trabajo, todos ellos estudiados individualmente para así poder tener una idea general del archivo con el que trabajo. Ahora voy a explorar el fichero, voy a ver las diferencias o por el contrario las similitudes entre ellos. Destacare los mas significativos. ANÁLISIS EXPLORATORIO En el análisis exploratorio, una herramienta muy útil es el diagrama de caja o box−plot. Es un modo de resumir la distribución de los valores de una variable; en vez de representar valores individuales, se muestran estadísticos básicos de la distribución, como la mediana, cuartiles...Por tanto debe permitir apreciar fácilmente la situación de la mediana, los cuartos y los limites internos. El gráfico en caja analiza la parte central de la distribución y las colas, éstas zonas que suelen dar anomalías. Este grafico no recoge todos los datos con máxima precisión, para ello usamos el diagrama de tallo y hojas. Ambos muy complementados entre si. HABITO TABAQUICO − SEXO Con este diagrama de cajas, quiero ver si existen diferencias de sexo en el hábito tabaquico. Los valores son muy similares para ambos casos ya que las cajas no se diferencian mucho. Las mujeres tienen los datos centrales concentrados entre 1 y 2; lo que nos indica que en la encuesta no hay mujeres que fumen más de 20 4 cigarrillos al día. En los hombres existe algún caso que fume más de 20 cigarros. La Mediana para ambos casos es uno, lo que nos indica que mayoritariamente la gente no fuma. No tenemos ningún caso extremo. No existen patillas en el diagrama de cajas debido a que los valores están en el 50% de los datos centrales (caja). Por la asimetría de las patillas y la presencia de la mediana en el borde inferior de la caja podemos intuir una asimetría positiva. MOLESTIAS SOMATICAS − SEXO En este diagrama de cajas observo que los valores centrales (caja) toman igual amplitud para hombres que para mujeres; aunque es destacable la ausencia de la patilla superior en la caja de los hombres, debido a que los datos existentes están muy centrados. El recorrido para ambos va desde 2, que es mínimo hasta 5, en el caso de los hombres y 6 en el caso de la mujeres. La mediana, que deja el mismo número de observaciones a su derecha que a su izquierda, es superior para los hombres, 4.5 y para las mujeres es 4. Para ambos casos hay un 10% de casos inferiores a 2 (percentil 10); el percentil 75; límite superior de las cajas nos indica que el 75% de los encuestados están por debajo de 5. El percentil 90, solo existe para las mujeres, parte superior de la patilla, nos indica de la existencia de un 10% de mujeres de nivel superior a 6. Para las mujeres las patillas son simétricas y la mediana se sitúa en el centro de la caja aproximadamente, nos muestra una imagen de simétrica. Sin embargo, para los hombres nos deja ver una asimetría negativa por la cercanía de la mediana al extremo superior de la caja. ANSIEDAD − SEXO En el diagrama de caja observamos que los valores son muy diferentes para hombres y mujeres. El recorrido para los hombres toma como valor mínimo 5 y valor máximo 7, el rango es pequeño; valores muy concentrados. La caja de los hombres poseen unas patillas simétricas y su mediana en el centro, por lo que podemos suponer simétrica. Las mujeres toman un rango de 2 a 6, el 50% de los datos centrales se encuentran entre 4 y 5,5, el valor de la mediana es 5. Por la diferencia de patillas y una posible cercanía de la mediana al borde superior de la caja presenciamos una asimetría negativa. Una conclusión puede ser que hay mujeres con ansiedad pero en nivel inferior a los hombres, que los encuestados tienen unos altos índices. Los hombres padecen más ansiedad que las mujeres. DEPRESIÓN − SEXO Este diagrama de cajas tiene un recorrido mayor en el caso de mujeres, tomando todos los valores posibles, de 1 a 7. La caja (50% de los datos centrales) es muy amplia, la mediana es 2,5 más próxima al límite inferior de la caja indicándonos una posible asimetría positiva. La patilla superior nos indica que un 90% de mujeres tienen un nivel inferior a 7. Los hombres tienen los datos centrales también desde 1, pero su nivel máximo es 5. La diferencia entre las patillas y la cercanía de la mediana al límite inferior nos deja ver una asimetría positiva. Conclusión; Las mujeres somos mucho más propensas a la depresión. DISFUNCIÓN SOCIAL − SEXO Diagrama de cajas muy diferentes para ambos casos. La mediana para el hombre es 4 mientras que para la mujer es 1,5. Gran diferencia que nos aporta información de que los datos de la mujeres son más inferiores que para los hombres. El recorrido de los datos centrales es de 2,5 a 4,5 para los hombres; mientras que para las mujeres es de 1 a 4. En los hombres el 90% de todos los casos esta por debajo de 5, y en las mujeres de 7, que es el máximo. La caja no es simétrica ni para hombres ni para mujeres, pero el caso de los hombres presenta una asimetría negativa, y para las mujeres asimetría positiva. 5 Podemos concluir que los niveles son más altos, en general para los hombres aunque existen entre las mujeres también casos altos. ASIGNATURA PENDIENTE − CARRERA Este diagrama de caja es muy chocante , los valores centrales, mediana...se sitúan en 1, que se refiere a si tener asignaturas pendientes. Los puntos superiores, son puntos extremos representados por un asterisco, están situados a la altura del 2, lo que supone que algunos alumnos no tienen asignaturas pendientes. Conclusión: el nivel universitario es dificultoso y es difícil ir curso a curso, son mínimos los estudiantes que lo hacen. Podemos suponer que ambas carreras son de igual dificultad. HORA DE REGRESO FIN DE SEMANA − ALCOHOL Lo que quiero contrastar con este gráfico es si influye el beber alcohol con la hora de regreso el fin de semana. La presencia de tres diagramas de cajas es porque hay datos perdidos, 3 como se indica en la parte inferior del gráfico. La gente que no bebe alcohol tiene un rango de [2,5 − 3], siendo la hora más habitual de regreso; mientras que quien bebe alcohol suele llegar a casa entre las 3 ó 4 de la madrugada. Es destacable que la mediana, el percentil 90 para ambos casos están juntos, lo que indica, que de los que no beben alcohol, el 90% llega a casa antes de las 3:00 horas y de los que beben alcohol, el 90% llega a casa antes de las 4:00. Hay que destacar dos extremos en los que no beben alcohol, uno situado a la altura del 4, que está representado por un círculo, por lo que se aleja más de 1,5 del recorrido intercuartílico del percentil 75 y el otro a la altura del 1, representado por un asterisco que se aleja más de tres veces al recorrido intercuartílico. CUESTIONARIO DE SALUD GENERAL El cuestionario de salud general de Goldberg, nos indica si el encuestado tiene algunas molestias somáticas o trastornos y como ha estado de salud en las últimas semanas. Voy a trabajar con el GHQ total clasificando a los 111 encuestados en casos o no casos. Esta clasificación la podemos hacer, ya que quien evalúa el test, medico, psicólogo... nos indica que una puntuación mayor al 6 le podemos considerar CASO y al contrario NO CASO. CASOS En el fichero tenemos 36 casos con los que trabajar. Estudio con ellos algunas de las variable cualitativas nominales. La carrera con más numero de casos es Estadística, con un 55,6%. El sexo más frecuente es CASO es el de mujer, un 72,2%. Podemos concluir que la mayoría de los que forman los casos son mujeres que están estudiando la diplomatura de Estadística. N Moda Validos Perdidos Diplomatura 36 0 13 Sexo 36 0 2 Asig. Pend. 36 0 1 Un dato que sale es el que la mayoría de los CASOS tienen asignaturas pendientes, no muy influyente porque como hemos visto es frecuente que esto suceda. El uso de tranquilizantes, analgésicos, estimulantes no es muy frecuente, se toman en unos bajos índices, 13,9% , 8,3% 5,6% respectivamente. 6 ¿Analgésicos? 36 0 2 ¿Tranquilizantes? 36 0 2 ¿Estimulantes? 36 0 2 Alcohol 35 1 2 Hay que destacar los altos índices de personas que beben alcohol, es el 51,4% de las personas que consideramos CASO. Alcohol Válidos Perdidos Total No Si Total 0 Frecuencia Porcentaje Porcentaje válido 17 18 35 1 36 47,2 50 97,2 2,8 100 48,6 51,4 100 Porcentaje acumulado 48,6 100 Las variables cualitativas nominales, nos han definido el perfil de los pacientes que son caso. Ahora lo completamos con las variables cualitativas ordinales, obteniendo de forma global las características propias de una persona que este test consideraría caso. Las variables cualitativas ordinales nos definen un joven de 20 − 21 años en segundo de carrera; la mayoría de los encuestados, un 90% están por debajo de 25 años. La situación personal más frecuente a la hora del hogar es compartir piso, sólo un 25% vive con su familia. El número de horas que estos jóvenes pasan en la facultad esta entre 20 − 25 complementado esto con horas de estudio, generalmente entre 2 − 4. Por lo general, el tiempo libre se dedica a estar con amigos (36,1%) y a ver la televisión (27,8%). A la hora de divertirse el fin de semana aparecen varias modas, mostrando el menor de lo valores lo más frecuente es salir de copas (33,3%) con un gasto de 2000 Pts. La hora de salir es de 10−12, y la de regreso entre las 3 − 5 de la madrugada. Las horas de descanso esta entre 7 − 8 h, un 58,3%, aunque también son los que duermen más de 8 horas, 27,8%. El habito tabaquico, destacar que ninguno fuma más de 20 cigarros al día, que los que fuman (0−20) son un 41,7% y los que no fuman (58,3%). NO CASOS El perfil que nos definen las variables cuando GHQ<6. El sexo más frecuente es el de los hombres entre 20 − 21 años estudiantes de segundo curso CC. Empresariales. Mayoritariamente vive con su familia. El horario entre semana se basa en las horas de clase, entre 20 − 25, horas de estudio personal (2 − 4) y tiempo libre, que se usa frecuentemente para estar con los amigos. Los fines de semana sale sobre las 22:00H y regresa a casa más tarde de las 5. Estos jóvenes beben alcohol, y no toman ni analgésicos, ni tranquilizantes, ni estimulantes y el habito tabáquico es muy bajo. Conclusión Una vez estudiadas las variables socio−demográficas respecto a las personas caso y no−caso según el GHQ, podemos comprobar que las diferencias no son muchas en cuanto a hábitos diarios. En ambos grupos tienen edades entre 20 − 21, las horas de clase, estudio personal, hobbies,... son similares. El consumo de tabaco, analgésicos, tranquilizantes, estimulantes no es frecuente para ningún grupo. 7 Hay más casos en Estadística y sobretodo en mujeres, pudiendo aparecer por circunstancias externas. Quiero destacar que la gente considerada como caso vive en piso con compañeros, mientras que quien vive con su familia es no caso. Este dato me aporta que el no vivir con la familia hace un cambio de vida; quizá una descompensación personal que afecta en todos los ambientes de una persona joven. ¿Qué Variable Afecta Más? La variable GHQ−TOTAL esta formada por la suma de valores que tienen las variables molestias somáticas, ansiedad, depresión y disfunción social. Por ello quiero comprobar como es cada una de estas variables cuando consideramos caso a la población. Así podemos comprobar cuales son las molestias con más presencia en nuestro test. MOLESTIAS SOMÁTICAS Se nos presentan pocos datos a estudio; sólo 16 porque hay 20 datos perdidos. Trabajo con un 44,4% de las personas que consideramos caso. Esta variable puede tomar valores de 0 a 7; pero los estadísticos de resumen que nos proporciona el procedimiento de explorar nos indica que el valor mínimo que se toma es 2 y el máximo es 6. La mediana nos indica que el 50% de los casos están en un nivel de 4 respecto a las molestias somáticas. Para ver la forma que presenta la distribución de nuestros datos, usamos el coeficiente de asimetría y curtosis. El coeficiente de asimetría es −0.358, negativo, podemos suponer asimetría negativa. Voy a construir el intervalo, para saber la distribución de la población de la que proceden los datos con un 95% de confianza a partir del error típico de asimetría (0,564) [−2 x 0.564, 2 x 0.564] = [−1.128 , 1.128] El coeficiente de asimetría pertenece al intervalo, la distribución es simétrica. El coeficiente de curtosis es −0.849<0. Voy a construir el intervalo, al igual que en asimetría. [−2 x 1.091, 2 x 1.091] = [−2.118 , 2.118] El coeficiente de curtosis pertenece al intervalo, la curva es mesocúrtica. Por lo tanto, para todas estas variables, tenemos una distribución simétrica con su curva mesocúrtica, Todos los valores aquí presentados, se reflejan en el diagrama de cajas; sus patillas simétricas y la mediana situada en el centro de los datos centrales, la caja, nos dan una clara simetría sobre los datos. Diagrama de caja El diagrama de tallo y hojas; es un gráfico similar al histograma. Nos da información sobre los valores que hay dentro de cada intervalo. La longitud de cada fila corresponde a las frecuencia de cada intervalo, lo que muestra a su izquierda. Los valores observados se dividen en tallo y hojas, parte entera y parte decimal. MOL_SOMA Stem−and−Leaf Plot for GHQ_T_RC= CASO Frequency Stem & Leaf 8 4,00 2 . 0000 ,00 2 . ,00 3 . ,00 3 . 6,00 4 . 000000 ,00 4 . 4,00 5 . 0000 ,00 5 . 2,00 6 . 00 Stem width: 1,00 Each leaf: 1 case(s) ANSIEDAD Se nos presentan 20 datos perdidos, trabajo con un 44,4% de las personas que consideramos caso. Esta variable puede tomar valores de 0 a 7; los estadísticos de resumen nos indican que el valor mínimo que se toma es 2 y el máximo es 7, por lo que su rango es 5. La mediana nos indica que el 50% de los casos están en un nivel de 5 respecto a la ansiedad. Estos valores se reflejan en el diagrama de cajas. Hay que destacar un extremo a la altura del 2; que se aleja más de 1,5 del recorrido intercuartílico del percentil 75. DISFUNCIÓN SOCIAL Para esta variable, la media y la mediana toman valores distintos. La media es una medida muy sensible, por lo que tomamos un estadístico más resistente, la mediana, que es el índice de localización principal. El rango es 6, toma todos los valores posibles, de 1 a 7. Los datos centrales se encuentran de 1 a 4, que es la caja del diagrama. Un 90% de los jóvenes están por debajo del nivel 7 en la disfunción social. DEPRESIÓN El 50% de los datos, esta entre [2 − 3]; ya que la mediana es 2,5. El recorrido de esta variable es de 1 a 7, perteneciendo a los datos centrales hasta el valor 4.5. La patilla superior de este diagrama de cajas, es el percentil 90 que nos indica que un 10% esta por encima del nivel 7. Conclusión He estudiado las variables que determinan el estado general de una persona según el cuestionario de salud. De los 36 casos posibles, los que se consideran a estudio sólo se puede trabajar con 16 porque existen muchos datos perdidos. 9 La variable que presenta un mayor índice es la ansiedad, toman valores de nivel 5, un 31,4% y de nivel 6, un 20%. La variable que le sigue son las molestias somáticas, variable que no toma todos los valores posibles pero la mayoría tiene índices altos (3 − 5). La disfunción social, molestia que aparece con la alteración de alguna función toma valores más bajos en general, aunque existan personas con un alto índice; la ultima con el nivel más bajo es la depresión, toman todos los valores posibles pero los valores centrales son bajos. BIBLIOGRAFÍA • VARGAS SABADÍAS, A. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL, Ed. Ciencia y técnica, Toledo,1995. • MORRIS H. DeGROOT, PROBABILIDAD Y ESTADÍSTICA, Ed. Addison − Wesley iberoamericana • 10