Introducción al Análisis de Datos 2ª 2019

2ª EDICIÓN Introducción al Análisis de Datos Aplicaciones en Psicología y Ciencias de la Salud JUAN CARLOS SUÁREZ FALCÓN PATRICIA RECIO SABOYA MARÍA CONCEPCIÓN SAN LUIS COSTAS MARÍA DEL PILAR POZO CABANILLAS INCLUYE ACCESO A CONTENIDOS ON LINE .. sanz y torres INTRODUCCIÓN AL ANÁLISIS DE DATOS Aplicaciones en Psicología y Ciencias de la Salud TE! editor no se hace responsable de las opiniones recogidas, comentarios y manifestaciones vertidas por las autores. La presente obra recoge exclusivamente la opinión de su autor como manifestación de su derecho de libertad de expresión. La Editorial se opone expresamente a que cualquiera de las páginas de esta obra o partes de ella sean utilizadas para la realización de resúmenes de prensa. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta obra solo puede ser realizada con la autorización de sus titulares, salvo excepción prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos) si necesita fotocopiar o escanear algún fragmento de esta obra. Por tanto, este libro no podrá ser reproducido total o parcialmente, ni transmitirse por procedimientos electrónicos, mecánicos, magnéticos o por sistemas de almacenamiento y recuperación informáticos o cualquier otro medio, quedando prohibidos su préstamo, alquiler o cualquier otra forma de cesión de uso del ejemplar, sin el permiso previo, por escrito, del titular o titulares del copyright. © Juan Carlos Suárez Falcón, Patricia Recio Saboya, María Concepción San Luis Costas y María del Pilar Pozo Cabanillas © EDITORIAL SANZ Y TORRES, S. L. Vereda de los Barros, 17 Poi. Ind. Ventorro del Cano - 28925 Alcorcón (Madrid) '@ 902 400 416 - 91 323 71 10 www .sa nzytorres. es libreria@sanzytorres .com www.editorialsanzytorres.com [email protected] ISBN: 978-84-17765-42 - 2 Depósito legal: M-20441-2019 Portada: Javier Rojo Abuín Composición: Iván Pérez López Impresión y encuadernación: Edipack Gráfico índice Presentación .......................................................................... . Tema l. 1.1. 1.2. 1.3. 1.4. 1.5. 1.6. 1.7. 1.8. 1.9. Introducción ............................................................... .. . . La investigación en Psicología .......................................... . Concepto y funciones de la estadística: descripción e inferencia . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . Variables : medición y clasificación..................................... Descripción de variables: distribución de frecuencias y representación gráfica . . .. . . . . .. . . . . .. . . .. .. . .. . . . .. . . . .. .. .. .. .. .. . .. . .. . . 1.5.1. Descripción de variables cualitativas.............. . ........ 1.5.2. Descripción de variables ordinales o cuasicuantitativas . . . . . . . . . . . . . .. . . . .. . . . . .. . . . . . . . . . . . . . . . . . . . . . . 1.5.3. Descripción de variables cuantitativas..................... Tendencia central, variabilidad y forma de una variable: aprox imación gráfica .. . .. .. .. . .. ... . . . .. . .. .. . . .. .. .. . . . . .. .. . . .. . . .. .. . . . . Resumen.. .......... . ... .. ... .. ................... ........... . ................. Ejercicios. ...... . .... ........ ... ... ............................................. Soluciones a los ejercicios. ............ ... ...... .......................... Tema 2. 2.1. 2.2. 2.3. CONCEPTOS BÁSICOS V ORGANIZACIÓN DE DATOS ÍNDICES DE TENDENCIA CENTRAL V DE POSICIÓN Introducción............ . ........ . ......... .. .. .. .. ... ................. .. ...... Índices de tendencia central............. . ... .... ........................ 2.2.1. Media aritmética . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . . .. . . . . .. . . 2.2.2. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4. Elección de un índice de tendencia central .. . . . .. . . .. .. . . Índices de posición .... . .. ... .................................... . ........... 2.3.1. Percentiles ..... ........ ...... .. ... . .... .. ........ . ... ... ...... ...... 2.3.2. Cuartiles y deciles. ................ .......... . .. .. .. . . .. .. .. .. .. .. XV 1 3 4 7 10 18 22 25 27 35 40 40 42 47 49 50 50 62 70 73 76 77 86 VII INTRODUCCIÓN Al ANÁLISIS DE DATOS : APLICACIONES EN PS ICOLOGÍA Y CIENCIAS DE LA SALUD 2.4. 2.5. 2.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios. .. ............................................. .......... .. ..... ..... . Soluciones a los ejercicios... ...... .. ............. ... .... .......... . .... .. Tema 3. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. MEDIDAS DE VARIABILIDAD Y FORMA Introducción ...................................... . ..... ... ... ........ ... ....... Medidas de variabilidad ... ... .... ...... ... ...................... ....... ..... 3.2.1. Amplitud total o rango................................. .. .. ...... 3.2.2. Varianza y desviación típica... ..... ............ .. . .. .. ......... 3.2.3. Coeficiente de variación . . . .. . . . . . . . . . . . . . .. . .. . . . . . . . . . . . . .. . . . . 3.2.4. Amplitud intercuartil ...... .... .... .. ..... .. .. ... .... .. . ..... .. .... Medidas de forma .. ............ . .... . .................. .. .. ... ... ... ......... 3.3.1. Asimetría de una distribución........ .. .. . ..... . ... .. ....... ... 3.3.2. Apuntamiento o curtosis de una distribución. ..... .. . ... . Diagrama de caja............................................................. Puntuaciones típicas......................... . ........... . ........... . ...... . Resumen . .. .. .. . .. ..... ..... .... ... ....... ......... ... ... ... .. .... . .. ....... .... Ejercicios ... .. .. ...... ................ ..... ...... . ... ..... . .. ....... ... .... ... .. . Soluciones a los ejercicios... . ... ................ .......................... Tema 4. RELACIÓN ENTRE VARIABLES 1 4.1. 4.2. 4.3. VIII Introducción.... . .. .... ......... .. ...... .. ............ . ............ . .. . ......... Asociación entre dos variables cualitativas. .... ..... .. ............... 4.2.1. Tabla de contingencia .. .. ... ..... .... ..... .. .. ....... . .. ... .. .. .. 4.2.2. Representación gráfica: diagrama de barras conjunto 4.2.2.1. Diagrama de barras adosadas..... .. .... ..... ... 4.2.2.2. Diagrama de barras apiladas....... ............. 4.2.3. Medida s globales de asociación entre variables cualitativas . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . .. . . . 4.2.3.1. Independencia y x 2 •• ••••• •• • ••• . ...... ... . ... . ... ... 4.2.3.2. Coeficiente C de Contingencia.... ......... .. .... 4.2.3.3. Coeficiente V de Cramer ...... .. ... .. .. ... .... .... 4.2.3.4. Coeficiente cp.... .. .. ... .... ...... .......... ...... ..... Relación entre variables ordinales . . . . . . . . . .. . . . . . . . . . .. .. . . . .. . . . . . .. . . 4.3.1. Coeficiente de correlación por rangos de S pe rm n .. . 88 88 90 99 101 102 104 105 112 115 117 117 121 123 127 130 131 133 141 143 146 147 155 156 156 159 159 164 167 168 169 170 ÍNDICE 4.4. 4.5. 4.6. Resumen . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Ejercicios................................. . ................. .. ......... . ......... 175 Soluciones a los ejercicios ................................................. 178 Tema 5. 5.1. 5.2. 5.3. 5.4. S.S. 5.6. 5.7. S.S. RELACIÓN ENTRE VARIABLES 11 Introducción.................... ............... .... ..... .. .. ... .... . .... ... ... .. Relación entre dos variables cuantitativas .. .... .... .. .. .. .. .. .. ...... 5.2.1. Representación gráfica de la relación: diagrama de dispersión . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 5.2.2. Covarianza................ .. ............ ... ...... ............... . .... 5.2.3. Coeficiente de correlación lineal de Pearson ........ ...... 5.2.3.1. Cálculo ...... ............................................ 5.2.3.2. Interpretación y características................. 5.2.3.3. Casos particulares de coeficiente de correlación lineal de Pearson........ .... .. .. .. ... 5.2.3.3.1. Relación entre variables ordinales .................... ........ ... 5.2.3.3.2. Relación entre variables dicotómicas .. .... .. ................... 5.2.3.3.3. Relación entre una variable dicotómica y otra cuantitativa .. . Coeficientes de correlación en función del tipo de variable: tabla resumen . .... .. ........... ..... .. .... .. . .... .... ... . .................... . Regresión lineal simple ............ .. .. .. .. ...... .... .. ..................... 5.4.1. Cálculo de los coeficientes de regresión ................ .... 5.4.2. Valoración del modelo .............................. ........ ...... 5.4.2.1. La varianza error ...................... .. .. .. .... .. .. 5.4.2.2. El coeficiente de determinación .. .. .. .......... . 5.4.3. Características del modelo de regresión .. .. .. .. .. .. .. .. .. . Regresión lineal múltiple .. ...... .. ............ .. .. .. .. .... .. .. ............. Resumen . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . .. . . .. . . . . .. . . . . . . . . . . . . . . . . . . .. . . . .. . Ejer cicios . ..... .. ... . ... ... .. . ...... .... .... ......... ... .. .. ... .. ... . .... . ....... Soluciones a los ejercicios.............. .. .... ........ ..................... 183 185 187 187 194 196 197 199 205 206 211 213 216 217 218 224 226 229 230 233 236 237 24 1 IX INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tema 6. NOCIONES BÁSICAS DE PROBABILIDAD Introducción ... . ... .. ... . .................. . .................................... Conceptos previos ... ................... .. ............ ... ........ .......... ... 6.2.1. Experimento aleatorio ............................................ 6.2.2. Espacio muestra l. ..... ...... ....... .................. .. ... ......... 6.2.3. Sucesos y tipos de sucesos ....... ................ . ............. 6.2.4. Operaciones con sucesos ..... ... ....... ........... . ............. 6.3. Definición de probabilidad .. . . . . . .. . .. . . .. . . . . . .. .. . . . . . . . . .. . . .. . . . . . .. . . . 6.4. Teorema de la suma .. . . . . . . . . .. . . . .. . .. . . .. . . . . . . . .. . . . .. . . .. .. . . .. . . . . . . . . . 6.5. Probabilidad condicionada . . .. . . . . .. . . .. . .. .. . . . . . .. . . .. . . . . . .. . . .. . . .. . . . . 6.6. Teorema del producto.. .... .... ... . ... . . .... . .... ... .. ... ........ .. . .... ... . 6.7. Teorema de la probabilidad total ................. . ......... .. .. ..... .... 6.8. Teorema de Bayes .... ............................ .... .... .. .................. 6.9. Algunas aplicaciones de la probabilidad condicionada en Psicología de la Salud .. ....................... ... .. ........... . ......... .... 6.10. Resumen ...... .... ... .. . ........ ... ... . ........ . ................... . ............ 6.11. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.12. Soluciones a los ejercicios.. .. ...... ... .................................... 6.1. 6.2. Tema 7. 7.1. 7.2. 7.3. 7 .4. 7.5. 7 .6. 7.7. 7 .8. X VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD Introducción .. ............................. .. ............... ... .. ... ......... .. . Concepto de variable aleatoria .............. .. ..... ..... ............ .. .. . Tipos de variables aleatorias ....................... ...... ................. Va riables aleatorias discretas ...... . ......... ...... .... ................. .. 7.4.1. Función de probabilidad de una V.A. discreta . .... ... ..... 7.4.2. Función de distribución de una V.A. discreta .... . ....... .. 7.4.3. Media y varianza de una V.A . discreta ...................... Distribuciones discretas de probabilidad .. ...... ........... . .... ...... 7.4.1. La distribución de Bernoulli ..... ..... .. ... ... ......... . ....... . . 7.5.2. La distribución binomial ..... .... ....... ............ .... ......... 7 .5.3. Otras distribuciones discretas . . .. .. . . . . . . . . .. . .. . . .. . . . . .. . .. . Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios .... .......... . ..................... . .. ... ..... .. ........... .. ..... ... .. Soluciones a los ejercicios................... .. ...... .. ... ................. 247 249 251 251 252 254 256 259 264 266 269 272 277 281 286 287 290 299 301 302 305 306 306 308 312 315 315 318 324 324 325 327 ÍNDI CE Tema e. 8.1. 8.2. 8.3. 8.4. 8.5. 8.6. 8. 7. 8.8. 8.9. Introducción ..................... .... ... ...... .... .............................. Características de las variables aleatorias continuas .............. 8.2.1. Función de densidad y función de distribución ... ... ..... 8.2.2. Media y varianza de una variable aleatoria continua. .. La distribución normal ...................................................... 8.3.1. Características y propiedades .. . ........ .... ... ..... ... ... .... 8.3.2. Utilización de las tablas ...... .. ... ....... ... ........ ... ......... . 8.3.3. Histograma y distribución normal ............................ 8.3.4. Aproximación de la binomial a la normal .................. La distribucion x2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La distribución t de Student...... ... .. ....... .................... ......... La distribución F de Fisher-Snedecor . .................................. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Soluciones a los ejercicios....... ............................. ....... .. ... . Tema 9. 9.1. 9.2. 9.3. 9.4. 9.5. MODELOS CONTINUOS DE PROBABILIDAD MUESTREO V DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Introducción . ....... .. ... ..... . .................. .. ............................. Muestreo .......... .. .......... .......................... ... ... .................. 9.2.1. Conceptos básicos en el muestreo ........................ .. . 9.2.2. Tipos de muestreo .. ... .... ...... .. ...................... ...... ... 9.2.2.1. Métodos de muestreo probabilístico ........... 9.2.2.2. Métodos de muestreo no probabilístico ....... Distribución muestra! de un estadístico........ .. . ........ ............ Distribución muestra! del estadístico media ......................... 9.4.1. Distribución normal de la variable X con varianza poblacional conocida............... .............................. . 9.4.2. Distribución normal de la variable X con varianza poblacional desconocida....................... . .. ............... 9.4.3. La variable X no se distribuye normalmente .............. Distribución muestra! del estadístico proporción .. .. . . .. . . . . . . . . . . . 9.5.1. Distribución muestra! de P para muestras pequeñas ... 9.5.2. Distribución muestra! de P para muestras suficientemente grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 335 336 337 340 341 342 345 348 351 355 357 360 363 364 366 371 373 374 375 378 379 384 386 402 402 406 407 408 409 411 XI INTRODUCCIÓN A L ANÁLIS IS DE OATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 9.6. 9.7. 9.8. 9.9. Distribución muestra! del estadístico varianza .. .. .. . .. .. . .. .. ... .. . Resumen ........................................................................ Ejercicios ........................................................................ Soluciones a los ejercicios............. . ............................ .. ..... Tema 10. ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL 413 418 419 421 427 10.1. Introducción ...... . ... .. ................... .... .......... .... ........ .. ....... 10.2. Estimación de parámetros ............................................... 10.2.1. Propiedades de los estimadores ............................ 10.2.2. Métodos de obtención de estimadores ....... . ........... 10.2.3. Estimación puntual ............................................. 10.2.4. Estimación po r intervalos . .................................... 10.3. Cálculo del intervalo de confianza..................................... 10.3.1. Intervalo de confianza para el parámetro ~t con o- 2 conocida........... ............ ...... ... ... ....... .................. 10.3.2. Intervalo de confianza para el parámetro ~t con o- 2 desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.3. Intervalo de confianza para el parámetro n (aproximación a la normal) ... . .... .......................... 10.3.4. Intervalo de confianza para el parámetro o- 2 .. • • .. • .. .. 10.4. Significado del nivel de confianza........... .. .. ...... ............. .... 10.5. Generalización de la construcción de intervalos... . .. ............. 10.6. Factores que afectan al intervalo de confianza .. . . . . . .. . . .. . . . . . . . 10.7. Cálculo del tamaño muestra! ............................................ 10.7.1. Tamaño muestra! para el parámetro media ............. 10.7.1.1. Conocida la varianza poblacional ............ 10.7.1.2. Desconocida la varianza poblacional ..... . . 10.7.2. Tamaño muestra! para el parámetro proporción ...... 10.8. Resumen.................................................. .. .. ..... ..... ....... 10.9. Ejercicios . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.10. Soluciones a los ejercicios . .............................................. 429 433 434 439 439 440 444 REFERENCIAS BIBLIOGRÁFICAS 479 TABLAS ESTADÍSTICAS 481 XII 444 448 451 453 456 457 458 459 460 461 462 465 466 467 470 Presentación Este manual se ha escrito con la intención de hacer más fácil el estudio del Análisis de Datos a los estudiantes que, por una u otra razón, cursan estudios de Grado en la modalidad semipresencial; esos alumnos que, como el corredor de fondo, afrontan la dura tarea de adquirir los conocimientos que los convertirán, al llegar a la meta, en profesionales de su especialidad. El libro está dirigido de forma muy especial a los alumnos de primer curso de Grado en Psicología de la UNED, pero también pretende servir de ayuda a aquellos otros que, en el ámbito de las Ciencias Sociales y de la Salud, puedan encontrar en este texto el apoyo necesario para aclarar conceptos, resolver dudas y refrescar las bases teóricas sobre las que se asienta la metodología. A unos y otros, el equipo docente de esta materia hemos dedicado todo nuestro esfuerzo. El tiempo, testigo inexorable de nuestro quehacer, dirá si hemos sido o no capaces de lograr nuestro objetivo. Esta materia forma parte del conjunto de asignaturas que componen la metodología de trabajo de aquellas Ciencias que basan su conocimiento en los datos empíricos y cuya finalidad es garantizar la calidad del proceso investigador e integrar los resultados de la investigación en la praxis. La formación correspondiente a esta materia en el Grado en Psicología de la UNED se materializa en las siguientes asignaturas: Fundamentos de Investigación, Introducción al Análisis de Datos, Diseños de Investigación y Análisis de Datos y Psicometría. Es importante reseñar aquí que, el aprendizaje de estas materias está fuertemente relacionado entre sí y sus contenidos se fundamentan unos en otros progresivamente no sólo porque Introducción al Análisis de Datos (primer curso) y Diseños de Investigación y Análisis de Datos (seg undo curso) constituyen un continuo de conocimientos (la división en dos asignaturas sólo indica un paréntesis en el tiempo) sino porque toda s las materias metodológicas incardinan unas en otras, dando lugar al m od o riguroso de trabajar con el Método Científico, procedimiento esenci al e imprescindible del quehacer en una correcta formación universitaria. Así pues, el estudiante debe aprender y XIII INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD utilizar estas materias como un todo cuya transversalidad es básica en su formación global. Concretamente, el Análisis de Datos hace referencia al conjunto de herramientas que la Estadística Teórica proporciona al investigador, con la finalidad de facilitar el manejo de información numérica mediante resú menes numéricos, gráficos e índices y proporciona técnicas que, con un grado de certeza, garantizan la validez de las conclusiones de los estudios empíricos. El texto presenta los conocimientos básicos sobre los que se fundamenta la Estadística Aplicada. Para su elaboración hemos seguido las recomendaciones del Instituto Universitario de Educación a Distancia (IUED), empleando un lenguaje sencillo y conciso, organizando la presentación de los conceptos en orden de complejidad creciente, apoyándonos en ejemplos y problemas resueltos y motivando el trabajo individual mediante el uso de ejercicios de autoevaluación al final de cada tema, que facilitan la comprobación personal del grado de consecución de los objetivos didácticos. Los contenidos que recoge el texto son los que habitualmente componen la materia de un primer curso de introducción al Análisis de Datos. Se presentan ordenados en 10 temas. Los cinco primeros están dedicados a la Estadística Descriptiva para una y dos variables, presentando los procedimientos de ordenación de datos, gráficos e índices que resumen las características individuales y conjuntas de las variables, así como los índices que valoran las posibles relaciones entre ellas. Los temas 6, 7 y 8 abordan los conceptos básicos de Probabilidad y el estudio de las distribuciones discretas y continuas. El conocimiento de la probabilidad es imprescindi ble en nuestro ámbito de trabajo, ya que es el recurso matemático que permite trabajar sobre datos empíricos, los cuales contienen una cierta incertidumbre inherente al azar. A continuación, el tema 9 presenta las bases sobre las que se fundamenta la Inferencia Estadística: el muestreo y el concepto de distribución muestra! de un estadístico. Por último, el tema 10 se dedica a una de las técnicas fundamentales de la Inferencia Estadística, la estimación de parámetros. Un manual es el trabajo continuado y esforzado de uno o varios profesores que ponen su experiencia al servicio del estudiante, destilando de todo lo aprendido aquello que consideran es lo más relevante para la formación en la materia que se trate. Los firmantes de esta presentación XIV PRESENTACIÓN somos el equipo docente que ha elaborado este libro, cuatro profesores que compartimos la enseñanza de esta materia «Introducción al Análisis de Datos en Psicología», que tanto sorprende a los estudiantes en el primer curso. Tras casi diez años de implantación del grado de Psicología en la UNED se planteó la necesidad de actualizar el manual de esta asignatura. De la conveniencia docente, de las discusiones en grupo, de las sugerencias de otros colegas, de las cuestiones planteadas por los estudiantes en el curso virtual y de la elaboración del material de apoyo surge este libro. Todos y cada uno de nosotros hemos colaborado en todos y cada uno de los temas aportando no sólo información sino también las oportunas críticas que siempre complementan y mejoran el resultado. Ha sido un trabajo enriquecedor que comenzó como una aventura entre colegas y terminó como un logro entre amigos. Queremos finalizar esta presentación con el reconocimiento explícito a aquellos que nos han precedido en esta tarea. De ellos hemos aprendido que nuestro trabajo es apasionante y gratificante, también nos han hecho comprender que un profesor «se hace» con el transcurso del tiempo, sabiendo asumir consejos y críticas con humildad y agradecimiento porque como decía Baltasar Gracián: «no hay maestro que no pueda ser discípulo ». Los autores, Madrid, julio de 2019 XV TEMAl Conceptos básicos y organización de datos 1.1. INTRODUCCIÓN 1.2. LA INVESTIGACIÓN EN PSICOLOGÍA 1.3. CONCEPTO Y FUNCIONES DE LA ESTADÍSTICA: DESCRIPCIÓN E INFERENCIA 1.4. VARIABLES: MEDICIÓN Y CLASIFICACIÓN 1.5. DESCRIPCIÓN DE VARIABLES: DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN GRÁFICA 1.5.1. Descripción de variables cualitativas 1.5.2. Descripción de variables ordinales o cuasicuantitativas 1.5.3. Descripción de variables cuantitativas 1.6. TENDENCIA CENTRAL, VARIABILIDAD Y FORMA DE UNA VARIABLE: APROXIMACIÓN GRÁFICA 1.7. RESUMEN 1.8. EJERCICIOS 1.9. SOLUCIONES A LOS EJERCICIOS CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS 1.1. INTRODUCCIÓN En la actualidad, la Estadística se aplica en casi todas las disciplinas . En las ciencias sociales y de la salud su uso ha aumentado exponencialmente en los últimos 30 años. Así, por ejemplo, se utiliza en estudios epidemiológicos (Medicina), en estudios tox icológicos relacionados con la eficacia de los medicamentos (Farmacia), en estudios genéticos y de impacto ambiental (Biología), en muestreos en las prospecciones petrolíferas o hi dráulicas (Geolog ía) , en los censos de población e información demográfica (Sociología), y en estudios sobre la optimización del coste-beneficio (Economía). En Psicología se utiliza para cualquier cuestión relacionada con la medición de variables psicológicas y con la evaluación, ya sea diag nóstica, de tratamientos, de programas educativos, sociales, etc. .. Se puede hacer una distinción entre Estadística teórica y aplicada; la primera se ocupa de los aspectos matemáticos formales y normativos, y la segunda constituye la aplicación a un campo concreto, como los ejem plos vistos. La estadística aplicada ha recibido distintas denominaciones según su campo de aplicación, tales como bioestadística, psicoestadística o socioestadística. Algunos autores han propuesto para la estadística aplicada la denominación de análisis de datos (Botella, Suero y Ximénez, 2012; Garriga et al., 2009; Merino et al., 2007), término cuyo uso se está extendiendo y que da nombre a este libro. A pesar de su diversidad de aplicaciones, esta disciplina no es popular entre los estudiantes de ciencias sociales y de la salud, debido posible mente a la imagen de la Estadística como una rama de las matemáticas de difícil comprensión y ajena a nuestro día a día. Sin embargo, diaria mente estamos sometidos a un bombardeo de datos estadísticos. El no ser capaz de distinguir una interpretación rigurosa de unos datos de una defectuosa, hace que se sea vulnerable a la manipulación. En ocasiones, las estadísticas presentadas en distintos medios (de comunicación, políticos, publicidad, entorno laboral. .. ) son incorrectas o engañosas, ya sea por falta de preparación o por voluntad de « maquillar» los resultados. De ahí, la frase atribuida a Benjamín Disraeli (primer ministro del Reino Uni do) «hay tres tipos de mentiras: las mentiras, las grandes mentiras y las estadísticas» . La Estadística nos proporciona las herramientas necesarias para valorar de manera crítica la información que recibimos. En este primer tema introductorio se aborda el papel que juega la Estadística en el análisis de los datos en Psicología , se define el concepto de 3 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD variable, así como su clasificación y notación simbólica y se analizan los distintos niveles de medida de una variable (nominal, ordinal, de intervalo y de razón). Asimismo, se explica cómo organizar la información en una matriz de datos, y cómo a partir de ella se construye una distribución de frecuencias y se realizan representaciones gráficas para considerar, de un solo vistazo, las características del fenómeno estudiado. Objetivos del tema: ■ Ubicar la materia Análisis de Datos en el plan de estudios del grado en Psicología. ■ Establecer el papel del análisis de datos en Psicología. ■ Diferenciar y manejar los conceptos básicos, la nomenclatura y las definiciones centrales de la estadística, a fin de poder aplicarlos en el estudio formal de la materia. ■ Manejar con soltura las distintas denominaciones y clasificaciones de las variables. ■ Entender la importancia de la medición en el ámbito psicológico, distinguiendo entre las distintas escalas o niveles de medida (nominal, ordinal, de intervalo y de razón), y conociendo las relaciones que pueden establecerse en cada una de ellas. ■ Saber elaborar, a partir de un conjunto de datos, una distribución de frecuencias, adquiriendo y desarrollando la capacidad para recopilar, organizar, presentar, e interpretar datos numéricos. ■ Aplicar las técnicas de representación gráfica adecuadas en función de los datos disponibles (diagrama de barras, diagrama de sectores, histograma y diagrama de líneas). ■ Entender, desde una perspectiva gráfica, la tendencia central, la variabilidad y la forma de una variable. 1.2. LA INVESTIGACIÓN EN PSICOLOGÍA A lo largo de la historia, el hombre se ha servido de diversas formas de conocimiento, tales como el mito, el sentido común o el folclore popular. Con la aparición de la ciencia moderna en el siglo XVII, el método científico 4 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS pasó a ser la fuente de conocimiento más utilizada (Navas, 2001). Las ciencias se distinguen entre sí por su objeto de estudio, pero tienen en común el método científico. Al igual que la Biología tiene como objeto de estudio la vida, y la Química las propiedades de las sustancias, la Psicología se sirve del método científico para acercarse a su objeto de estudio: la conducta. El método científico es un procedimiento estructurado que utiliza la ciencia para la ampliación de sus conocimientos. El método científico se caracteriza por ser sistemático y replicable. Sistemático porque es un proceso que tiene unas etapas definidas y rep/icable porque los datos obtenidos mediante su uso tienen que poder ser replicados o refutados ( en las mismas circunstancias) por cualquier investigador interesado. El método científico, por tanto, proporciona una manera de actuar para afrontar una investigación, a través de las siguientes fases interdependientes: 50 Planteamiento del problema Formulación de hipótesis • Cuestión sin responder que surge del conocimiento previo • Solución tentativa del problema de investigación Procedimiento para la recogida de datos: diseño • Muestra • Instrumentos, materiales ... • Recogida de datos Análisis de datos Discusión de los resultados Elaboración Informe Investigación Figura 1.1. Fases de una investigación con el método científico En primer lugar se define un problema, que puede surgir de teorías ya establecidas, de la lectura de la bibliografía o de la experiencia directa con los hechos. En la mayoría de los casos surgen de lagunas o contradicciones en investigaciones anteriores. A partir de ese problema se plantea una hipótesis, que no es más que una solución tentativa al problema planteado . Las siguientes tres fases tratan de contrastar si la hipótesis planteada es compatible con los hechos. Para ello, es necesario establecer un procedimiento adecuado de recogida de información, analizar los datos obtenidos y discutir los resultados en busca de conclusiones. Por último, hay que elaborar un informe de la investigación que se ha realizado para dar a conocer los resultados obtenidos (Fontes et al., 2010). 5 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Esta asignatura se ocupa de las fases cuarta y quinta de una investigación: el análisis de los datos y la interpretación de los resultados obtenidos. Por tanto, aquí se trata de aprender a procesar los datos recogidos en una investigación con el fin de obtener la información que se precisa para contrastar la hipótesis formulada, y poder dar respuesta al problema planteado. En las asignaturas Fundamentos de Investigación y Diseños de Investigación y Análisis de Datos se tratarán de manera detallada el resto de las fases de una investigación científica, así como los posibles diseños a utilizar y el análisis correspondiente a cada uno de ellos. Ejemplo 1.1. Diversos estudios ponen de manifiesto el efecto que la ansiedad ante los exámenes puede tener en la calificación obtenida en la Prueba de Acceso a la Universidad (PAU). Un equipo investigador ha diseñado un programa de tratamiento para paliar este efecto, que combina técnicas de estudio con técnicas de relajación . Para comprobar la eficacia del tratamiento en el examen de Lengua de la PAU se ha seleccionado a una muestra de 40 estudiantes con este problema de ansiedad, que participaron voluntariamente en el estudio. De ellos, la mitad se ha asignado aleatoriamente al grupo 1 (sin tratamiento) y la otra mitad al grupo 2 (que pasará el tratamiento). Al finalizar el curso académico, se recogieron datos sobre las variables relevantes de la investigación, además de algunas variables sociodemográficas, como sexo, nivel de estudios de la madre, opción de bachillerato elegido y horas de estudio semanales. ¿cómo relacionaría los datos de este ejemplo con las fases de una investigación? Solución: Las dos primeras fases de la investigación son la definición del problema y la deducción de hipótesis contrastables. En el ejemplo, el problema objeto de estudio es valorar la eficacia del programa de tratamiento que se ha aplicado; para ello, se comprobará si el tratamiento influye en la calificación obtenida en la prueba de Lengua de la PAU. Una hipótesis es una predicción del resultado de la investigación, por lo que, en este caso, como hipótesis, el grupo investigador espera que su tratamiento sea eficaz, lo que operativamente significa que el grupo 2, (que ha pasado el tratamiento que combina técnicas de estudio con técnicas de relajación), tenga un mayor rendimiento en el examen que el grupo 1, que no ha pasado dicho tratamiento. 6 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS En la siguiente fase se encontraría la determinación de un plan de trabajo o procedimiento para la recogida de datos, es decir la elección de un diseño de investigación. Aquí, el investigador decide escoger como muestra a 40 estudiantes con problemas de ansiedad ante los exámenes asignándolos de manera aleatoria a los grupos 1 y 2 (para que reciban o no el tratamiento) comparando después sus resultados. Comparar los resultados conlleva el análisis de los datos obtenidos y la discusión de dichos resultados. En esta investigación en concreto se analizarían las calificaciones obtenidas en el examen de Lengua de la PAU por ambos grupos para comprobar si realmente el grupo 2 que ha recibido el tratamiento obtiene mejores puntuaciones que el grupo 1. Para ello se calcularía y se compararía la media de ambos grupos (su cálculo se verá en el Tema 2). Además, en otras investigaciones con otros objetivos, podría ser interesante plantear otro tipo de análisis, como cuantificar la relación entre el n° de horas estudiadas y la calificación en el examen de Lengua, o realizar pronósticos en el rendimiento en el examen en función de la ansiedad ante los exámenes y el n° de horas estudiadas (ambos procedimientos se estudiarán en el Tema 5 del programa). Por último, para difundir los resultados de la investigación se elabora un informe. En este texto se exp lica rán de manera detallada los análisis de datos básicos que pueden ser necesarios realizar, tanto en la investigación psicológica como en el ejercicio profesional. El análisis de datos constituye una parte integral no solo de la actividad investigadora, sino también en la práctica profesional. En este sentido, resulta crucial tener unos conocimientos básicos de Estadística para evaluar los resultados de una investigación, y en general para leer de forma crítica las publicaciones de carácter psicológico (ya sean artículos científicos, libros, informes de investigación o notas de prensa). 1.3. CONCEPTO Y FUNCIONES DE LA ESTADÍSTICA: DESCRIPCIÓN E INFERENCIA La Estadística es la rama de las matemáticas que se encarga del estudio de determinadas características en una población, recogiendo los 7 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD datos, agrupándolos, organizándolos en tablas, representándolos gráficamente y analizándolos para sacar conclusiones de dicha población. Teniendo en cuenta las funciones de la Estadística, podemos considerar dos grandes áreas: la Estadística Descriptiva y la Estadística Inferencia!. Mediante la Estadística Descriptiva se organizan y resumen conjuntos de observaciones cuantificadas procedentes de una muestra o de la población total. Este resumen puede hacerse mediante tablas, gráficos o valores numéricos . Así, se dispone de distintos procedimientos que nos permiten estudiar las características de una o más variables: ■ En el caso de una variable, podemos recurrir a estadísticos que nos indicarán cuáles son los valores más habituales de esa variable (índices de tendencia central), hasta qué punto esos valores son similares o diferentes entre sí ( estadísticos de variabilidad), en qué grado las observaciones se reparten equilibradamente por encima y por debajo de la tendencia central ( estadísticos de asimetría) y cómo de apuntada es la distribución de las puntuaciones de la variable ( estadísticos de curtosis). Estos conceptos se abordarán de manera intuitiva al final de este tema, y de manera formal en los Temas 2 y 3. ■ En el caso de dos variables podemos utilizar índices que nos indiquen hasta qué punto están ambas variables relacionadas entre sí (índices de asociación), así como procedimientos que nos permitirán predecir el valor de una variable en función de otra ( ecuaciones de regresión). Los Temas 4 y 5 abordarán de manera detallada ambos procedimientos . Mediante la Estadística Inferencia! se realizan inferencias acerca de una población basándose en los datos obtenidos a partir de una muestra. Estas generalizaciones de la muestra a la población se basan en el cálculo de probabilidades . Los últimos temas de este texto tratarán sobre probabilidad e inferencia estadística. En una investigación cualquiera, lo habitual es que se desee conocer un parámetro o característica de los elementos de una población; sin embargo, la población suele ser demasiado extensa para estudiarla al completo (conllevaría un coste inabordable). Por este motivo, se realiza un muestreo con el que se obtiene un conjunto de elementos que representan a la población y se estudia la característica deseada en la muestra mediant e estadísticos que se util izarán para estimar los parámetros de la población. 8 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS En este sentido, en el Ejemplo 1.1 es de esperar que el investigador esté interesado en estudiar si el tratamiento es útil para tratar a los estudiantes con ansiedad ante los exámenes en general. Por tanto, su población objetivo serían los estudiantes que padecen ansiedad ante los exámenes. Dado que no es posible acceder a todos los estudiantes con este problema, escoge una muestra de 40 que son los que realmente participan en la investigación. Es importante distinguir entre población y muestra: una población es el conjunto de todos los elementos que cumplen una determinada característica objeto de estudio y una muestra es un subconjunto cualquiera de una población . Estos elementos pueden ser personas, animales o cosas que cumplan una definición compartida por la población. Por ejemplo, una población podrían ser los niños con Trastorno por Déficit de Atención e Hiperactividad (TDAH) de la Comunidad de Madrid. En este caso, los elementos de esta población son personas y las características que tienen en común son presentar un diagnóstico de TDAH, ser niños y residir en la Comunidad de Madrid . Una muestra es un subconjunto de una población, pero, ¿por qué elegir un subconjunto y no trabajar con la población completa? Pues en la gran mayoría de casos, es una cuestión de viabilidad, ya que habitualmente no es posible trabajar con la población completa. En el ejemplo que nos ocupa, el número de niños con TDAH puede ser demasiado grande como para trabajar con todos ellos, además de que puede haber familias (elementos de la población) que no deseen participar en el estudio. Por tanto, lo habitual es trabajar con muestras. Para asegurar la representatividad de la muestra se han establecido algunas técnicas de muestreo, como se verá en el Tema 9 de este manual. En una investigación siempre se trata de caracterizar a la población; en el ejemplo planteado nos puede interesar conocer la inteligencia de los niños con TDAH. En este caso, utilizaríamos un test de inteligencia, por ejemplo el WISC-IV; al no tener acceso a la población completa de niños con TDAH se extrae una muestra de dicha población para obtener el nivel de inteligencia de cada niño de la muestra . Es preciso distinguir entre parámetro y estadístico. Un parámetro es un índice medido en una población que la describe de alguna manera, mientras que un estadístico es un índice medido en una muestra. Utilizando la estadística inferencia! se pronostica el valor de los parámetros poblacionales a partir de los estadísticos muestrales. Así, en el ejemplo de los niños 9 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD con TDAH se calcula la media en inteligencia de los niños de la muestra, que es el estadístico X, para pronosticar el valor medio en inteligencia de la población, que es el parámetroµ (el valor que realmente nos interesa). Habitualmente los parámetros se representan por letras griegas (µ para la media, o} para la varianza y n para la proporción) y los estadísticos por letras latinas (X para la media, s} para la varianza y P para la proporción). Población: es el conjunto de todos los elementos que cumplen una determinada característica objeto de estudio . Muestra: es un subconjunto cualquiera de una población. Parámetro: es una propiedad descriptiva (una medida) de una población. Se denota con letras griegas. Estadístico: es una propiedad descriptiva (una medida) de una muestra. Se denota con letras latinas. 1.4. VARIABLES: MEDICIÓN Y CLASIFICACIÓN En el Ejemplo 1.1, para llevar a cabo su estudio, los investigadores pueden registrar los datos de los 40 estudiantes en las variables sexo, nivel educativo de la madre, bachillerato elegido, nivel de ansiedad ante los exámenes, horas de estudio semanales, grupo asignado y calificación en el examen de Lengua de la PAU. Una variable es el conjunto de valores resultantes de medir una característica de interés sobre cada elemento individual de una población o muestra. Para representar a las variables se utilizan letras latinas mayúsculas. Para referirnos a un valor cualquiera de la variable X se utiliza el subíndice i (X¡), siendo n el número de elementos que componen la muestra, por lo que, de manera genérica, se designa la variable como: X¡ siendo i 10 = 1, 2, 3 ... , n CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS Cuando se trata de objetos fís icos, el proceso de medición es directo y generalmente senci llo porque es cuestión de seguir unas reglas prescritas ex presadas mediante determinadas escalas. Así por ejemplo, es fácil med ir la estatura de una persona asignando el número correspondiente de la cinta métrica a la distancia que hay desde sus pies hasta su cabeza. Cuando se trata de medi r la tim idez de un estudiante en una situación de interacción social, medir ya no es tan sencillo. El reto al que se enfrenta la Psicología es su necesidad de medir en muchas ocasiones va ri ables que no son directamente observables . Medición es el proceso por el cua l se asignan núm eros a objetos o sucesos seg ún determinadas regl as. El proceso de medición es prev io al aná li sis de datos y especifica el procedi miento de asig na ción de nú meros a los valores de la variab le. Por ejemplo, a los dos valores de la varia ble sexo (hombre y mujer) se les puede asignar los números 1 y 2, y al peso de una rata se le puede as ignar el número en gramos que da la ba lanza. Para medir variables psicológicas en muchas ocasiones se utilizan test psicológicos diseñados para ese fin. Su aplicación proporciona una puntuación para cada persona en esa variable . Otro ejemplo podría ser la valoración de la calidad de vida de un pa ciente, medida a través de una pregunta que forma parte de un test am plio y que se incluye en bastantes investigaciones sobre sa lud: ¿cómo calificarías tu calidad de vida? A) Muy mala. B) Regular. C) Normal. D) Bastante buena. E) Muy buena. La regla consiste en asign ar un número a cada una de las opciones de respuesta. Así se podría asignar un 1 a escoger la opción «muy mala >> , un 2 a «regular», un 3 a «normal », un 4 a «bastante buena » y un 5 a «muy buena ». 11 INTRODUCCIÓN AL ANALI SIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS OE LA SALUD ut il izan diferentes escalas de medida en función de m edi r, entendiendo como escala de medida el conjunto de r glas o modelos desarrollados para la asignación de números a las vari ables . Un ejemplo de escala de medida es la escala centígrada de temperatura, que se basa en asignar Oº a la temperatura de congelación del agua y 100º a la de ebullición. En función de las relaciones matemáticas que puedan verificarse empíricamente entre los distintos valores de una variable y, siguiendo la clasificación de Stevens (1946), pueden distinguirse cuatro tipos de niveles o escalas de medida: nominal, ordinal, de intervalo y de razón. En la escala nominal solo distinguiremos la igualdad o desigualdad entre dos valores, la escala ordinal añade la posibilidad de establecer un orden, en la escala de intervalo se usa una unidad y tienen sentido las diferencias y, por último, en la escala de razón se pueden comparar dos medidas mediante un cociente. Para cada tipo de variable existen unos procedimientos estadísticos apropiados para hacer el mejor uso de la información que contienen los valores de las variables. A) ESCALA NOMINAL La escala de medida nominal consiste en la asignación, puramente arbitraria de números o símbolos a cada uno de los valores de la variable. Por tanto, la única relación que se tiene en cuenta es la de igualdad (y la desigualdad), que implica la pertenencia o no a una categoría determinada. En la escala nominal los valores de la variable se denominan categorías. Usando una escala nominal podemos decidir si un sujeto es igual o diferente a otro, pero no podemos establecer relaciones de orden respecto a esa variable, ni de cantidad. Por ejemplo, si utilizamos la variable enfermedad, distingu iendo entre: (1) «sanos» y (2) «enfermos», carece de sentido establecer relaciones entre estos dos números del tipo 1 + 1 = 2, ya que sería considerar algo así como que dos personas «sanas» es igual a u na persona «enferma » . En las variables nominales se puede asignar a cada valor de la variable cualquier tipo de símbolo. En el ejemplo anterior, en lugar de números podríamos haber utilizado (S) para designar a los «sanos» y (E) a los «enfermos» . 12 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS A las variables que presentan un nivel de medida nominal se les denomina variables cualitativas o categóricas. Las variables cualitativas se clasifican además, en función del número de categorías que presentan. Si una variable presenta solo dos categorías se dice que es una variable dicotómica (por ejemplo, el sexo); si presenta más de dos categorías se dice que es una variable politómica (por ejemplo, el estado civil). Ejemplo 1.2. ¿qué variables de las que aparecen en el Ejemplo 1.1 pueden considerarse nominales? De ellas, ¿hay alguna dicotómica? En el Ejemplo l. l. son variables nominales el grupo, el sexo y el bachillerato elegido. ■ ■ ■ La variable grupo se utiliza para distinguir a los estudiantes que han recibido el programa de entrenamiento (que combina técnicas de estudio con técnicas de relajación) de los estudiantes que no han recibido dicho tratamiento. - Es una variable cualitativa porque pertenecer a un grupo u otro no indica que se posea en mayor o menor grado la característica medida (grupo) simplemente que son grupos distintos. - Es una variable dicotómica porque únicamente puede adoptar dos valores distintos: grupo 1 y grupo 2. La variable sexo se utiliza para distinguir a hombres y mujeres. - Es una variable cualitativa porque pertenecer a un grupo u otro no indica que se posea la característica en mayor o menor grado, únicamente se distingue entre los distintos valores de la variable. - Es una variable dicotómica porque únicamente puede adoptar dos valores distintos: hombre y mujer. La variable bachillerato se utiliza para distinguir entre los estudiantes que han elegido las distintas opciones posibles de bachillerato. Es una variable cualitativa porque elegir una opción determinada de bachillerato no significa tener un valor mayor o menor de la variable . - Es una variable politómica porque puede adoptar más de dos valores distintos. 13 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD En ocasiones se categorizan variables que podrían medirse a un nivel superior; en este caso, decimos que una variable se ha dicotomizado si se han establecido dos categorías, y politomizado si se han establecido más de dos categorías. Un ejemplo sería la variable peso del roedor de un experimento: aunque podríamos medir exactamente su peso en gramos, puede resultar útil en una investigación dicotomizar la variable peso clasificando a las ratas en peso alto y bajo, o politomizarla, estableciendo tres o más niveles de peso. B) ESCALA ORDINAL En la escala ordinal se asignan números a objetos para indicar la extensión relativa en que se posee una característica. Los datos pueden utilizarse para jerarquizar u ordenar las observaciones, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Esta escala no solo permite la identificación y diferenciación de los sujetos sino que además permite establecer relaciones del tipo «mayor que» o « menor que», aunque no se plantea una distancia entre unas medidas y otras. En este caso, la asignación de números a las distintas categorías no puede ser completamente arbitraria, debe hacerse atendiendo al orden existente entre éstas. Un ejemplo sería la va riable severidad de la enfermedad, que podría adoptar tres valores: 1 leve, 2 moderado y 3 grave. Podemos decir que no es lo mismo padecer una enfermedad con una intensidad leve o grave, y que la intensidad de la enfermedad en el caso de grave es mayor. Las variables ordinales también reciben el nombre de cuasicuantitativas . Ejemplo 1.3. ¿Qué variables de las que aparecen en el Ejemplo 1.1 pueden considerarse ordinales? La única variable ordinal de las que aparecen en el Ejemplo 1.1. es la variable nivel de estudios de la madre. Se puede considerar que esta variable adopta cinco valores: Primarios, Enseñanza Secunda ria Obligatoria (ESO), Bachillerato, Grado unive rsitario y Posgrado 14 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS universitario, que podríamos codificar con los números 1, 2, 3, 4 y 5 respectivamente (por supuesto, serían posibles otras codificaciones alternativas). En este caso, los números no solo indican que son diferentes, sino también un mayor o menor nivel de estudios. Sin embargo, las distancias entre los distintos niveles de estudio no tienen por qué ser iguales. Por tanto, únicamente se verifican las relaciones de igualdad-desigualdad y orden. C)ESCALADEINTERVALO La s escalas de intervalos son aquellas que ordenan los objetos según la magnitud del atributo que representa n y proveen intervalos iguales entre las unidades de medida. Con la escala de intervalo, los números asignados a los objetos, no solo permiten decidir si un objeto es igual o diferente a otro o si posee en mayor o menor grado la característica de interés; además, la distancia entre los distintos valores consecutivos de la variable es la misma. La inte ligencia medida con un test es un ejemplo de escala de intervalo. Si cuatro personas (A, B, C y D) han obtenido 80, 90, 150 y 160 puntos en un test de inteligencia, podemos decir que la diferencia en inteligencia entre A y Bes la misma que entre C y D (90-80 = 160-150), ya que el test proporciona una unidad de medida estable. Sin embargo, no se puede afirmar que D sea el doble de inteligente que A aunque tenga el doble de puntuación en el test, ya que para realizar una afirmación de ese tipo sería necesario que el cero de la escala fuera absoluto. En este caso es arbitrario porque obtener un cero en un test de inteligencia no refleja ausencia de la característica medida, no significa que no se posea ni un ápice de inteligencia. Por convención, las puntuaciones obtenidas de test psicológicos se consideran que están medidas en una escala de intervalo. Como se ha visto en el ejemplo, lo que caracteriza a una escala de intervalo es la existencia de una unidad de medición común y constante. En la escala de intervalo el origen es arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. 15 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 1.4. lQué variables de las que aparecen en el Ejemplo 1.1 pueden considerarse de intervalo? En el Ejemplo 1.1. la variable ansiedad ante los exámenes es una variable de intervalo porque se trata de una variable que se ha medido con un test psicológico. Así, se puede afirmar que hay igualdad o desigualdad de ansiedad en las distintas puntuaciones del test, que las puntuaciones más altas indican mayor ansiedad que las puntuaciones más bajas y que la distancia en ansiedad entre, por ejemplo, las puntuaciones 14 y 16 es la misma que entre las puntuaciones 18 y 20. Lo único que no se puede admitir en esta variable es que un estudiante que haya obtenido un O en el test de ansiedad ante los exámenes no posea en absoluto esta característica ya que el O en esta escala es un valor arbitrario, que no refleja ausencia de la variable medida. Lo mismo puede argumentarse de la variable calificación en Lengua D) ESCALA DE RAZÓN En la escala de razón los números asignados a los objetos admiten como válidas las relaciones de igualdad-desigualdad, orden, suma, resta, multiplicación y división. Se caracteriza porque tiene todas las características de una medida de intervalo y, además, se le puede asignar un punto de origen verdadero de valor cero, es decir, el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Dado que el cero ya no es arbitrario, sino un valor absoluto, se puede afirmar que A tiene dos, tres o cuatro veces la magnitud de la propiedad presente en B. La altura y el peso son dos ejemplos típicos de escala de razón. Por ejemplo, si una rata de laboratorio pesa 350 gramos y otra 175, podemos afirmar que la ia rata pesa el doble que la segunda. Ejemplo 1.5. lQué variables de las que aparecen en el Ejemplo 1.1 pueden considerarse de razón? La variable número de horas de estudio semanales es una variable de razón. Sus puntuaciones admiten como válidas todas las relaciones: las puntuaciones pueden ser iguales o diferentes, las puntuaciones mayores indican mayor nº de horas estudiadas, la distancia entre 16 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS un alumno que ha estudiado 2 horas y otro que ha estudiado 4 es la misma que entre otros dos alumnos que hayan estudiado 6 y 8 horas respectivamente, y si un alumno ha estudiado 6 horas, podemos afirmar que ha estudiado el doble de horas que otro alumno que ha estudiado 3 horas. Esta última relación se puede verificar porque en esta escala el valor O es absoluto: si no se estudia ninguna hora se trata de una ausencia completa de la característica medida. Hay que tener en cuenta que en muchas ocasiones el nivel de medida de una variable va a depender de cómo se haya definido. Por ejemplo, la variable calificación obtenida en el examen de Lengua de la PAU puede suscitar dudas razonables sobre su nivel de medida. Si la variable se define como el nivel de conocimientos de Lengua necesarios para ingresar en la universidad se trataría de una variable de intervalo porque con esta interpretación el cero sería arbitrario ( obtener un cero en el examen no significa ausencia total de los conocimientos necesarios sino que se ha obtenido un rendimiento nulo en las preguntas en concreto con las que se ha construido el examen). Sin embargo, si en lugar del nivel de conocimientos, nos interesa simplemente contar el número de aciertos (definiendo la variable como el número de aciertos obtenidos en el examen de Lengua de la PAU) se trataría de una variable de razón, ya que aquí el cero sí es absoluto e indicaría ausencia absoluta de preguntas acertadas. Es muy importante, por tanto, la definición operativa de una variable (cómo se define y se registra) porque puede determinar su nivel de medida. La mayoría de las variables psicológicas se considera que están medidas en una escala de intervalo. Así, si la variable perseverancia, que es un rasgo de personalidad, se ha medido mediante una prueba psicológica o test, su nivel de medida es de intervalo. Sin embargo, si se define perseverancia como el número de intentos o ensayos que realiza una persona para conseguir un objetivo se trata de una escala de razón. Si la variable discriminación visual sólo puede tomar dos valores (discrimina/no discrimina) estamos en una escala nominal. Si definimos discriminación visual como, por ejemplo, número de veces que una persona discrimina en 20 ensayos, se trataría de una escala de razón. Las variables medidas en escala de intervalo y de razón son variables cuantitativas. Las variables cuantitativas se clasifican, además, en función de los valores numéricos que pueden asignarse en continuas y discretas. 17 INTRODUCCIÓN AL ANÁLISIS OE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS OE LA SALUD Una va ri able continua es aquella para la que, dados dos valores, siempre se puede encontrar un tercer valor que esté incluido entre los dos primeros . Un ejemplo de variable continua es el peso, ya que entre los valores 79 y 80 kg. se pueden considerar uno, dos, tres o todos los decimales que se quiera . Una variable discreta es aquella que adopta valores aislados. Por tanto, fijados dos valores consecutivos, no se puede tomar ninguno intermedio. Un ejemp lo de variable discreta es el número de hijos (huelga decir que se pueden tener dos hijos o tres, pero nunca un valor intermedio entre ambos) . En la Tabla l. l. se resumen los t ipos de variabl es , las escalas de m edida , las caract erísticas bá sicas de cada una de ellas, las relaciones válidas que admiten, y algunos ejemplos. Tabla 1.1. Resum en de las escalas de med ida. Tipo de va riable Cualitativa Escala de Medida Características básicas Relaciones válidas Los núm eros identifican y clasifican objetos Relaciones del tipo «igual que» o «distinto que» Sexo, estado civil, raza, diagnóstico clínico. Además, los números indican las posiciones relativas de los objetos Además, relaciones del tipo «mayor que » o «menor que » Dureza, posición en el ranking de la ATP, grado de satisfacción . Intervalo Ad emás, hay una unidad de medición común Además, igualdad o desigualdad de diferencias Temperatura en grados centígrados, inteligencia. Razón Además, el punto cero es absoluto Además, igualdad o desigualdad de razones Longitud, peso, altura, tiempo de reacción. -+Nominal • Dicotómica • Politómica Cuasicuantitativa -+ Ordinal Cuantitativa - • Di sc reta • Continua Ejemplos 1.5. DESCRIPCIÓN DE VARIABLES: DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN GRÁFICA En el apartado anterior ha quedado de manifiesto que en Psicología se trabaja con valores de variables que pueden ser nominales, ordinales, de 18 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS intervalo o de razón, con las características propias de cada escala. En cualquier caso, una vez que el investigador ha recabado la información a través del proceso de medida y recogido los datos correspondientes, dispone de un listado o base, comúnmente llamado matriz de datos. La generación de una base de datos supone la codificación previa de las observaciones, la introducción de los datos en algún programa informático, la depuración de los datos ya grabados (detección y tratamiento de los errores de grabación y valores perdidos), y eventualmente la realización de transformaciones de variables que faciliten su posterior tratamiento estadístico. Hay muchos programas estadísticos que se pueden utilizar para organizar y analizar los datos. En concreto, en el curso virtual de la asignatura hay disponibles tutoriales sobre el uso de Excel para hacer distribuciones de frecuencia, gráficos y diversos análisis. Codificar datos es asignar números a las variables cualitativas y cuasicuantitativas, y registrar los valores de las variables cuantitativas que constituyen la base de datos, así como asignar un código (que puede ser un espacio en blanco o un valor numérico) a los valores perdidos (aquellos que no han sido registrados u observados). En la matriz de datos, los casos se sitúan en las filas y las variables en las columnas. En la Tabla 1.2 se muestran los datos de los 40 estudiantes en las variables sexo, nivel de estudios de la madre, bachillerato elegido, puntuación en un test de ansiedad ante los exámenes, calificación obtenida en el examen de Lengua de la PAU y horas de estudio semanales, del Ejemplo l. l. La codificación de las variables se hace en función de sus características: ■ La variable ID es una variable de identificación que asigna un nú mero a cada estudiante . Se considera una variable nominal, ya que estos números únicamente sirven para identificar a cada estudiante. ■ La variable grupo (cualitativa y dicotómica) se ha codificado asignando el valor 1 a los estudiantes sin tratamiento y el 2 a los estudiantes con tratamiento. ■ La variable sexo es una variable cualitativa y dicotómica. Dado que es nominal, para codificarla es posible asignar cualquier número a estos dos valores siempre y cuando se asigne un número diferente a hombres y mujeres. En la Tabla 1.1 a los hombres se les asigna el valor 1 y a las mujeres el valor 2. 19 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD ■ La variable nivel de estudios de la madre es una variable ordinal que puede adoptar 5 valores distintos: Primarios, ESO, Bachillerato, Grado universitario y Posgrado universitario. Para codificarla, además de asignar un número diferente a cada valor, hay que tener en cuenta que los números deben cumplir la condición de orden (no se puede asignar al nivel de estudios Primarios un número mayor que el asignado a Bachillerato, por ejemplo). Los números asignados a los distintos valores son: 1 Primarios, 2 ESO, 3 Bachillerato, 4 Grado universitario y 5 Posgrado universitario. ■ La variable Bachillerato elegido es una variable cualitativa y politómica, que puede adoptar los valores Ciencias, Humanidades y Ciencias Sociales y Arte. Al ser nominal el único requisito para codificarla es asignar un número diferente a cada una de las modalidades. Así, se ha asignado el valor 1 a los estud iantes que han elegido el Bachillerato de Ciencias, el 2 a Humanidades y Ciencias Sociales y el 3 al Bachillerato de Artes. ■ En las tres últimas columnas de la tabla se sitúan las tres variables cuantitativas de la investigación. La variable ansiedad ante los exámenes recoge las puntuaciones obtenidas en un test diseñado para tal efecto. De manera similar se codifican la calificación en el examen de Lengua de la PAU y el número de horas de estudio semanales, recogiendo los valores correspondientes a estas variables. Una vez que los datos están codificados es preciso realizar una depuración de la base de datos, que conlleva el procesamiento de los datos perdidos y de los valores atípicos. Los datos perdidos son valores que no han sido registrados, habitualmente porque el participante no ha consignado ese dato. Existen procedimientos de imputación de datos, basados en los valores válidos de otros casos que se utilizan en ocasiones en variables cuantitativas. Un dato atípico es un valor muy diferente al resto de valores de la misma variable. Suelen ser ocasionados por errores al introducir los datos o por valores extremos. Los datos atípicos distorsionan los resultados de los análisis, y por esta razón hay que identificarlos y tratarlos de manera adecuada, generalmente excluyéndolos del análisis. La Tabla 1.2 se basa en un ejemplo ficticio con fines didácticos, en el que no se han introducido datos perdidos. Si los datos han sido registrados manualmente en un software es recomendable hacer un control de calidad de la grabación de los mismos, 20 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS Tabla 1.2. Datos recogidos en la investigación del ejemplo 1.1. ¡¡m¡t/tl' f Horas de estudio semi!i:Í~les ""lD "'i '11 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 1 2 1 1 2 1 2 2 1 1 1 2 1 1 1 1 1 1 2 2 1 1 2 1 2 2 2 2 2 2 1 1 1 1 2 1 2 3 2 2 3 4 1 2 4 3 3 2 1 2 4 1 3 3 2 3 1 4 5 5 2 5 3 4 3 1 3 2 2 1 2 4 1 5 4 1 2 2 2 1 1 2 3 2 2 1 2 3 2 2 2 1 2 2 1 2 3 1 2 1 1 f ¡, 2 1 3 1 2 3 2 3 1 2 2 1 2 13 4 15 3 10 7 25 15 5 12 17 30 9 12 4 8 19 15 17 4 14 9 8 5 3 10 7 5 5 5 12 17 3 10 10 6 2 9 22 4 9 4 8 7 7 1 4 8 5 4 3 5 5 7 6 4 6 4 6 4 7 8 10 8 7 7 7 8 8 6 6 4 6 5 7 8 5 2 11 7 11 16 5 14 10 12 10 2 15 10 10 15 9 9 8 14 8 18 8 4 8 10 12 16 15 13 10 12 18 14 9 11 3 10 9 14 10 9 4 21 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD revisando la codificación de un porcentaje de los casos, habitualmente un 5% - 10% del total. Una vez depurada, la base de datos se utiliza para extraer la información relevante. Si tenemos muy pocos datos es posible que la simple inspección visual de los mismos sea suficiente para describir el fenómeno estudiado. Pero esto no es nada frecuente. Habitualmente el número de datos es elevado, por lo que se hace necesario organizar la información mediante una distribución de frecuencias. Una distribución de frecuencias es una tabla en la que se resume la información disponible de una variable. Se sitúan los valores de la variable por filas y en las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la lectura de la información que contienen los datos. Además de la organización de los datos, la distribución de frecuencias cumple dos funciones fundamentales: ofrecer la información necesaria para realizar representaciones gráficas y facilitar los cálculos para obtener los estadísticos que serán objeto de estudio en los próximos temas. 1.5.1. Descripción de variables cualitativas La descripción de una variable cualitativa consiste básicamente en una distribución de frecuencias y en su representación gráfica mediante un diagrama de barras o de sectores. En la quinta columna de la Tabla 1.2 aparece el Bachillerato elegido por los participantes. Sin embargo, la simple inspección visual de estos datos no es suficiente para que el investigador se haga una idea precisa de cuántos estudiantes han elegido cada una de las modalidades de Ba chillerato existentes, por lo que es necesario construir una distribución de frecuencias. En la distribución de frecuencias de variables cualitativas habitualmente se muestran las frecuencias absolutas, las frecuencias relativas y los porcentajes. Para construir la tabla de distribución de frecuencias se inspeccionan en primer lugar los valores que toma la variable. En este caso se trata de una variable de carácter cualitativo (nominal) que puede adoptar tres valores distintos. En la primera columna se especifican los valores que adopta la 22 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS variable X o el número asignado a ese valor (en la Tabla 1.3 se muestran ambos) . En la segunda columna aparece la frecuencia absoluta (n¡) que es el número de observaciones en cada categoría. En la siguiente columna aparece la frecuencia relativa o proporción de cada categoría (p¡), que se obtiene dividiendo la frecuencia absoluta , n¡, entre el número total de observaciones, que se representa por n. La frecuencia relativa también se expresa en términos de porcentaje (P¡) para lo cual hay que multiplicar ca da una de las proporciones por cien (cuarta columna). Tabla 1.3. Distribu ció n de frecuencias de la varia bl e Bachillera to elegido. X l. Ciencias y Tecnología 2. Humanidades y ce Sociales 3. Artes ¿ n; P; P; 13 21 0,325 32,5 0,525 52,5 6 0,15 15 40 1 100 Pues bien, ahora sí podemos hacernos una idea de la distribución de los estudiantes según el Bachillerato que han elegido; sabemos que el más demandado es el de Humanidades y Ciencias Sociales (un 52,5% de los estudiantes lo eligen) y que el menos demandado es el de Artes ( elegido por un 15% del total de estudiantes). Los dos gráficos más habituales en la descripción de variables cualitativas son los gráficos de barras y los gráficos de sectores. En los gráficos de barra los distintos valores de la variable se sitúan en el eje horizontal y las frecuencias o los porcentajes en el eje de ordenadas. Cada barra representa una categoría de la variable a representar, siendo su altura igual a su frecuencia (o porcentaje). En los gráficos de sectores cada sector representa una categoría de la variable y su ángulo central debe ser proporcional a su frecuencia (o porcentaje). En la Figura 1.2 se muestra el diagrama de barras y el diagrama de sectores de la variable Bachillerato elegido. El diagrama de barras se ha construido sobre las frecuencias absolutas de la variable y el diagrama de sectores sobre los porcentajes. 23 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD (a) n; 25 20 15 10 5 o Ciencias Humanidades Sociales Artes y ce (b) Figura 1.2. Diagrama de barras (a) y diagrama de sectores (b) de la variable Bachillerato elegido. Como se verá en el Tema 2, el único índice apropiado para variables cualitativas es la moda. Ejemplo 1.6. Se muestra a continuación la distribución de frecuencias de la variable estado civil de una determinada muestra. ¿cuál es la proporción de personas casadas? 24 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS X n, Soltero 6 Casado Divorciado 24 Viudo 4 6 40 Hay 24 personas casadas (frecuencia absoluta). La proporción o frecuencia relativa de las personas casadas será: 1.5.2. Descripción de variables ordinales o cuasicuantitativas En el caso de variables ordinales se procede de la misma manera, aunque con los valores situados en la tabla de acuerdo a un determinado orden. Por ejemplo, la variable nivel de estudios de la madre presenta los valores : Primarios, ESO, Bachillerato, Grado universitario y Posgrado uni versitario . En la distribución de frecuencias hay que preservar este orden, ya sea empezando por el valor más bajo o más alto de la variable: Tabla 1.4. Distribución de frecuencias de la vari ab le nivel de estudios de la madre. X n; P; P, n" P,, pa l. Primarios 7 0,175 17,5 7 0,175 17,5 2. ESO 3. Bachillerato 11 11 7 0,275 0,275 27,5 27,5 18 29 0,450 0,725 45 72,5 0,175 17,5 90 0,1 10 36 40 0,900 4 1 100 40 1 100 4. Grado universitario 5. Posgrado universitario ¿ En esta tabla se han añadido tres columnas más: la frecuencia absoluta acumulada (na), la frecuencia relativa acumulada o proporción acumulada (pª ) y el porcentaje acumulado (Pª ), para cada una 25 INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD de las categorías de respuesta. Para obtener estos valores, simplemente hay que ir acumulando (sumando), desde la categoría de menor valor de la variable a la de mayor valor, las frecuencias absolutas, proporciones o porcentajes, de cada categoría de respuesta. Por ejemplo, la frecuencia absoluta acumulada en el caso de Bachillerato es 29, resultado de sumar las frecuencias de los valores anteriores (7 + 11 = 18) y la suya propia (18 + 11 = 29), indicando que 29 personas presentan un nivel de estudios de Bachillerato o inferior. En las variables nominales carece de sentido el cálculo de las frecuencias acumuladas, ya que sus valores no establecen un orden determinado. Los conceptos explicados hasta el momento son: Frecuencia absoluta (n;}: número de veces que se repite cada uno de los valores de una variable. La suma de todas las frecuencias absolutas representa el total de la muestra (n). Proporción o frecuencia relativa (p¡): cociente entre la frecuencia absoluta de cada valor de la variable (n;) y el número total de observaciones (n). Formalmente P; = n;fn. Porcentaje (P¡): valor de la frecuencia relativa (P;) multiplicado por cien. Formalmente P; = P; x 100 Frecuencia absoluta acumulada (n 0 ) : número de veces que se repite cada valor o cualquiera de los valores inferiores. Proporción acumulada o frecuencia relativa acumulada (p 11 ): cociente entre la frecuencia absoluta acumulada y el total de observaciones. Formalmente Pa = n0 /n. Porcentaje acumulado (P11 ): valor de la frecuencia relativa acumulada multiplicado por cien. Formalmente: Pª = Pa x 100. Al igual que las variables cualitativas, las variables ordinales generalmente se representan con un diagrama de barras o un diagrama de sectores. El diagrama de barras también se puede realizar sobre las frecuencias, proporciones o porcentajes acumulados, siempre teniendo en cuenta que es necesario respetar el orden de los valores de la variable representada. En este caso, se ha elegido un diagrama de barras que contiene en el eje horizontal la tabla con los datos que representa el gráfico. 26 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS (a) n¡ 12 10 8 6 4 2 o Prim aria ESO Bachill. Grado Uni v. Posg rado Univ. 7 11 11 7 4 (b) 45 na 40 35 30 25 20 15 10 5 o - ~ ~ ~ n Prim ari a ESO Bachill. Grado Uni v. Posg rado Uni v. 7 18 29 36 40 Figura 1.3. Diagrama de barras (a) y diagrama de barras acumulado (b) de la variable nivel de estudios de la madre. Algunos índices apropiados para este tipo de variables son la mediana y la moda (explicados en el Tema 2) y la amplitud intercuartil (explicada en el Tema 3). 1.5.3. Descripción de variables cuantitativas Al trabajar con variables cuantitativas puede suceder que el número de valores que tome la variable sea reducido (como la variable n° de hijos, que habitualmente no adopta valores mayores de 4) o sea muy amplio (como las variables ansiedad ante los exámenes y horas de estudio semanales de la Tabla 1.2). En el primer caso, para elaborar la distribución de 27 INTRODUCCIÓN AL ANA LISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD frecuencias se procede de la forma indicada para variables ordinales y en el segundo será necesario agrupar la variable en intervalos. La variable ansiedad ante los exámenes de la Tabla 1.2 forma parte de este segundo caso. El estudiante con menor puntuación en el test de ansiedad ante los exámenes tiene una puntuación igual a 2 y el que tiene una puntuación mayor ha obtenido una puntuación de 30. Si se actúa de la misma manera que en los ejemplos anteriores, para hacer la distribución de frecuencias (utilizando una fila para cada valor) tendríamos una tabla con una gran cantidad de filas, la mayoría de ellas con una frecuencia absoluta de O o de 1, por lo que esta distribución, así presentada, no resultaría útil. En estos casos se recurre a la agrupación en intervalos, que consiste en formar grupos de valores consecutivos de la variable. Para ello, se sitúa cada uno de estos grupos en una fila, y se calculan las frecuencias de cada grupo o intervalo de valores, y no de cada valor de la variable. En primer lugar, hay que decidir qué número de intervalos tendrá la distribución de frecuencias. Siempre habrá varias posibilidades pudiendo optar desde establecer un número muy pequeño de intervalos muy amplios hasta muchos intervalos de muy pequeña amplitud. A la hora de tomar esta decisión hay que tener presente que al establecer intervalos siempre se pierde información, ya que ahora la frecuencia no estará referida a un solo valor de la variable, sino a todos los contenidos en el intervalo. Por tanto, esta decisión dependerá del tratamiento que el investigador quiera dar a la variable en su estudio, tratando de encontrar el equilibrio entre la precisión que necesite y la manejabilidad de los datos. En el Ejemplo 1.1 unos intervalos de amplitud 5 pueden ser apropiados para la variable ansiedad ante los exámenes (ver Tabla 1.5.). Así, el primer intervalo contendrá las puntuaciones comprendidas entre 1 y 5, el segundo las puntuaciones comprendidas entre 6 y 10, y así sucesivamente hasta llegar al último intervalo que contiene las puntuaciones comprendidas entre 26 y 30. Estos valores constituyen los límites aparentes del intervalo. Para cada intervalo existe un límite inferior y un límite superior. 28 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS Tabla 1.5. Distribución de frecuencias con los datos agrupados en intervalos de la variable ansiedad ante los exámenes del Ejemplo 1.1. X 1 6 11 16 21 26 - ¿ 5 10 15 20 25 30 11; P; n" Pa, 13 12 8 4 2 1 0,325 0,3 0,2 0,1 0,05 0,025 13 25 33 37 39 40 0,325 0,625 0,825 0,925 0,975 1 40 1 La variable ansiedad ante los exámenes adopta 29 valores distintos (del 2 al 30). Dado que 29 no es múltiplo de 5, o el intervalo inferior empieza en un valor que no es un valor observado de la variable, o el intervalo superior termina en un valor que no es uno de los valores de la variable. En este caso se ha empezado el primer intervalo (1 - 5) con el valor 1, que no es un valor que aparezca en la Tabla 1.2 de datos, pero esta distribución también podría empezar en el intervalo 2-6 y terminar en el intervalo 27-31. Estos límites aparentes tienen la misma unidad de medida que los valores de la variable. Esto es, si los datos son enteros, entonces los límites aparentes son enteros. Si los datos contienen decimales, los límites aparentes tendrán el mismo número de decimales que los datos recogidos. En nuestro ejemplo, los datos son números enteros, por lo que los límites aparentes no contienen decimales. Con los límites aparentes en la distribución existe discontinuidad entre un intervalo y el siguiente, ya que el límite superior de un intervalo no coincide con el límite inferior del siguiente intervalo. Con los límites exactos de una distribución no existe discontinuidad entre un intervalo y el siguiente, ya que el límite superior exacto de un intervalo coincide con el límite inferior exacto del intervalo siguiente. El Límite Inferior Exacto (LIE) se calcula restando al valor del límite inferior aparente media unidad de medida y el Límite Superior Exacto (LSE) se calcula sumando al valor del límite superior aparente media unidad de medida. Por tanto, los límites exactos del intervalo 1-5 son 0,5-5,5, los del intervalo 6-10 son 5,5-10,5 y así sucesivamente, de forma que el límite 29 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD superior exacto de un intervalo coincide con el límite inferior exacto del siguiente (ver Tabla 1.6). A partir de los límites aparentes o de los límites exactos se calcula el punto medio del intervalo, que es la semisuma del límite superior e inferior del intervalo. Como se verá en los Temas 2 y 3, el punto medio del intervalo es el valor que se utilizará para el cálculo de algunos índices estadísticos con distribuciones agrupadas en intervalos. Con estos datos, completamos la distribución de frecuencias de la variable ansiedad ante los exámenes del Ejemplo l. l. Tabla 1.6. Distribución de frecuencias con los datos agrupados en intervalos de la varia ble ansiedad ante los exámenes del Ejemplo 1.1 X Límites aparentes 16 11 16 21 26 - ¿ 5 10 15 20 25 30 X Límites exactos 0,5 5,5 10,5 15,5 20,5 25,5 - 5,5 10,5 15,5 20,5 25,5 30,5 X Punto medio n; P; n" Pa 3 8 13 18 23 28 13 12 8 4 2 1 0,325 0,3 0,2 0,1 0,05 0,025 13 25 33 37 39 40 0,325 0,625 0,825 0,925 0,975 1 40 1 En este ejemplo, el cálculo de los límites exactos de los intervalos es muy sencillo porque la unidad de medida de la variable ansiedad ante los exámenes es l. Esto es así porque sus valores son números enteros (sin decimales). Por tanto, sumar y restar media unidad de medida al límite superior e inferior, respectivamente, supone sumar y restar 0,5 (que es la mitad de 1). Sin embargo, cuando los límites aparentes contienen decimales, la unidad de medida de la variable ya no será 1, y el número que habrá que sumar y restar para calcular los límites exactos dependerá del número de decimales que contienen los valores de la variable. Así: 30 - Si los límites aparentes son enteros, la unidad de medida de la variable es 1, y su mitad es 0,5, que es la cantidad que habrá que restar al límite inferior y sumar al límite superior para calcular los límites exactos. - Si los límites aparentes son números con un decimal, la unidad de medida de la variable es 0,1, por lo que la cantidad a sumar y restar para calcular los límites exactos será 0,05. CONCEPTOS BASICOS Y ORGANIZACIÓN OE DATOS - Si los límites aparentes son números con dos decimales, la unidad de medida de la variable es 0,01, por lo que la cantidad a sumar y restar para calcular los límites exactos será 0,00 5. - Y así sucesivamente .. . Por ejemplo, si se mide el tiempo que se emplea en ejecutar una determinada tarea, y los valores resultantes oscilan ente 3,01 segundos y 3,30 segundos, se podría establecer una distribución de frecuencias con 6 intervalos, como se muestra en la Tabla l. 7: Tabla 1.7. Límites aparentes de la variable tiempo empleado en ejecutar una determina da tarea. X 3,01 3,06 3,11 3,16 3,21 3,26 - 3,05 3,10 3,15 3,20 3,25 3,30 En ese caso nuestra unidad de medida es 0,01, ya que los valores de la variable contienen dos decimales. Por eso, para calcular los límites exactos hay que sumar y restar la mitad de esta unidad de medida que es 0,005. Así, los límites exactos serían: Tabla 1.8. Límites de la variable tiempo empleado en ejecutar una determinada tarea. X Límites aparentes 3,01 3,06 3,11 3,16 3,21 3,26 - 3,05 3,10 3,15 3,20 3,25 3,30 X Límites exactos 3,005 3,055 3,105 3,155 3,205 3,255 - 3,055 3,105 3,155 3,205 3,255 3,305 Los nuevos conceptos que han aparecido son: 31 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Intervalo: cada uno de los grupos de valores que ocupan una fila en una distribución de frecuencias. Límites aparentes: son los valores que delimitan el grupo devalores que constituyen un intervalo. Para cada intervalo existe un Límite Inferior Aparente (LIA), que es el valor menor del intervalo y un Límite Superior Aparente (LSA), que es el valor mayor incluido en el intervalo. Límites exactos o reales: son aquellos que no presentan discontinuidad entre un intervalo y el siguiente. Para cada intervalo existe un Límite Inferior Exacto (LIE) y un Límite Superior Exacto (LSE). El límite inferior exacto es el valor que resulta de restar al límite inferior aparente media unidad de medida. El límite superior exacto es el valor que resulta de sumar al límite superior aparente media unidad de medida. Punto medio del intervalo (PM): es la suma de los límites exactos o de los límites aparentes de un intervalo dividido entre dos. Formalmente: PM = LIE + LSE 2 ó PM = LIA + LSA 2 Amplitud del intervalo: es la diferencia entre el límite superior exacto y el límite inferior exacto. A un intervalo que no tiene límite inferior o límite superior se le denomina intervalo abierto. Por ejemplo, si en la variable ansiedad ante los exámenes del Ejemplo l. l. hubiera dos sujetos con una puntuación de 41 y 43 respectivamente, se puede optar por establecer el intervalo abierto «más de 30 », en lugar de añadir los tres intervalos correspondientes 3135, 36-40 y 41-45, dos de ellos con frecuencia nula. Los gráficos más habituales para representar a una variable cuantitati va discreta son el diagrama de barras y el diagrama de líneas. En el caso de variables cuantitativas continuas agrupadas en intervalos en lugar del diagrama de barras se utiliza el histograma. 32 CONCEPTOS BASICOS Y ORGANIZACIÓN DE DATOS El histograma es una extensión del diagrama de barras que dibuja los rectángulos unidos entre sí, indicando de este modo que existe continuidad en los valores de las variables. Un histograma, es por tanto, un gráfico de variable continua dividida en intervalos en los que se eleva un rectángulo con área proporcional a su frecuencia. El histograma puede construirse sobre frecuencias absolutas, frecuencias relativas o porcenta jes, ya sean o no acumulados. En la Figura 1.4 se muestra un histograma (a) y un histograma acumulado (b) de la variable ansiedad ante los exámenes. (a) n ; 14 12 10 8 6 4 2 o!-'---'--~--~-~-~--~ 0,5 5,5 10,5 15,5 20,5 25,5 30,5 (b) na 45 40 35 30 25 20 15 10 5 o µ.._ _ _.___~~="-'--....i.....--'--.........,_ 3 8 13 18 23 28 Figura 1.4. Histograma (a) e histograma acumulado (b) de la variable ansiedad ante los exámenes. En el eje horizontal de un histograma se sitúan los límites exactos de los intervalos o su punto medio. El histograma (a) se ha realizado sobre 33 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD los límites exactos de los intervalos y el histograma acumulativo (b) se ha realizado sobre los puntos medios de los intervalos. El diagrama de líneas se construye situando un punto a una altura proporcional a la frecuencia en cada valor o en el punto medio de cada intervalo (si la variable está agrupada en intervalos). Finalmente se unen los puntos para formar una línea. A este gráfico también se le denomina polígono de frecuencias. En la Figura 1.5 se muestra el diagrama de líneas de la variable ansiedad ante los exámenes en proporciones (a) y en proporciones acumuladas (b). (a) p 0,35 I 0,30 0,25 0,20 0,15 0,10 0,05 o 3 8 13 18 23 18 23 28 (b) 1,0 Pa OI 9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 o 3 8 13 28 Figura 1.5. Diagrama de líneas (a) y diagrama de líneas acumulativo (b) de la variable ansiedad ante los exámenes. Ejemplo 1.7. Construye una distribución de frecuencias con los datos de la variable calificación obtenida en el examen de Lengua de la PAU de la Tabla 1.2. 34 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS Hay variables con un número de valores determinado, que hace posi ble utilizar una distribución de frecuencias con o sin intervalos. Así sucede con la variable calificación obtenida en el examen de Lengua de la PAU del Ejemplo l. l. Se puede trabajar con la distribución de frecuencias sin agrupar, tal y como aparece en la Tabla de la izquierda o con la distribución de frecuencias agrupada de la Tabla de la derecha, en la que se ha elegido agrupar los datos en 5 intervalos de amplitud 2. (a) (b) X n, Pi P; 1 2 3 5 6 7 8 9 10 1 1 1 8 5 7 8 7 1 1 0,025 0,025 0,025 0,200 0,125 0,175 0,200 0,175 0,025 0,025 2,5 2,5 2,5 20 12,5 17,5 20 17,5 2,5 2,5 ¿ 40 1 100 4 X 1 3 5 7 9 - ¿ 2 4 6 8 10 n, P, P, 2 9 12 15 2 0,05 0,225 0,3 0,375 0,05 5 22,5 30 37,5 5 40 1 100 Finalmente, para describir una variable cuantitativa se utilizan algunos índices estadísticos que se verán en los próximos temas, los más frecuentes son la media (Tema 2) y la desviación típica (Tema 3). 1.6. TENDENCIA CENTRAL, VARIABILIDAD V FORMA DE UNA VARIABLE: APROXIMACIÓN GRÁFICA En el apartado anterior se ha explicado cómo describir cualquier tipo de variable mediante una tabla de datos (su distribución de frecuencias) y la representación gráfica más adecuada . En los dos próximos temas se explicará cómo describir las variables mediante los índices estadísticos adecuados . Estos índ ices se utilizan para medir la tendencia central, variabilidad y forma de la distribución de una variable. Pero, antes de 35 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD calcular estos índices se tratará de ver gráficamente qué característica de la variable pretenden evaluar. Para hacerlo, se utilizarán curvas suavizadas, que son histogramas basados en un gran número de observaciones, cuyos ángulos se han suavizado. Así, si disponemos de los datos de una muestra en una variable X (Figura 1.6. A) y hacemos esos intervalos más pequeños (Figura 1.6. B), y más pequeños aún (Figura 1.6. C), al trazar un diagrama de líneas sobre los puntos medios de esos intervalos, la línea resultante será una curva. A B e Figura 1.6. Histograma de una variable (A) disminuyendo la amplitud de los intervalos (B), y disminuyendo aún más su amplitud (C). A) TENDENCIA CENTRAL La tendencia central de una distribución se refiere al lugar donde se centra una distribución particular en la escala de valores. La Figura l. 7 podría representar, por ejemplo, la estatura medida en un grupo de 1000 hombres nacidos en 1950 (A) y en otro grupo de hombres nacidos en 1990 (B). Se puede apreciar, atendiendo al eje horizontal en el que aparece la estatura en centímetros que, en líneas generales, los hombres nacidos en 1990 son más altos que los nacidos en 1950. Eso no significa que todos los nacidos en 1990 sean más altos (se puede observar que hay solapamiento entre las curvas). 36 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS 155 A B 170 180 210 Figura 1.7. Ejemplo de dos distribuciones con tendencias centrales distintas. A la vista de los gráficos, se puede afirmar que la tendencia central de los dos grupos es distinta (las curvas no se solapan completamente) y que el grupo B (el nacido en 1990) tiene una estatura promedio mayor que el grupo A (porque la curva del grupo B está situada a la derecha, en puntuaciones más altas de estatura) . Esta centralidad o tendencia central puede cuantificarse med iante unos índices conocidos como estadísticos de tendencia central, que se explica rán en el próximo tema. B) VARIABILIDAD Esta propiedad se refiere al grado de concentración de los valores entre sí o con respecto a un valor central de la distribución. Una distribución de frecuencias es homogénea (tiene poca variabilidad) si los valores de la distribución están cercanos al promedio y es heterogénea (tiene mucha variabilidad) si los valores se dispersan mucho con respecto al promedio. En la Figura 1.8 el grupo A representa, por ejemplo, las puntuaciones en inteligencia medidas en un grupo de niños de distintos colegios de la geografía española mientras que el grupo B representa las puntuaciones en inteligencia de un grupo de niños de altas capacidades. 37 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD A B 100 140 Figura 1.8. Ejemplo de dos distribuciones con tendencia central y variabilidad diferentes. En este caso, además de una tendencia central distinta ( el grupo B presenta, en líneas generales, un nivel mayor de inteligencia que el grupo A) podemos apreciar que las puntuaciones en inteligencia del grupo de estudiantes con altas capacidades están más próximas entre sí que las del otro grupo. Por tanto, el grupo A presenta una mayor variabilidad en inteligencia que el grupo B. C) FORMA Para estudiar la forma de una variable se analiza su asimetría y su curtosis. La asimetría se refiere al grado en que los datos se reparten equilibradamente por encima y por debajo de la tendencia central. Una distribución será simétrica cuando al dividirla en dos partes iguales, las dos mitades se superponen. Una distribución tiene asimetría positiva cuando la mayor concentración de puntuaciones se produce en la parte baja de la escala y asimetría negativa cuando la mayor parte de las puntuaciones se sitúan en la parte alta de la escala. En la Figura 1.9 se ha representado la puntuación obtenida por un grupo de alumnos en un examen muy difícil (A), en un examen de dificultad intermedia (B) y en un examen muy fácil (C). Como se puede ver en el gráfico, el conjunto de puntuaciones presenta una distribución asimétrica positiva si la mayoría de las puntuaciones ob- 38 CONCEPTOS BASICOS Y ORGANIZACIÓN DE DATOS Simetría Asimetría Positiva e A 1/ Asimetría Negativa \ 2 5 8 Figura 1.9. Ejemplo de tres distribuciones con distinta asimetría. La distribución A es asimétrica positiva, la distribución Bes simétrica y la distribución Ces asimétrica negativa. tenidas son bajas (caso del examen A que es difícil), es simétrica cuando hay un número similar de puntuaciones a ambos lados del centro de la distribución (caso del examen B) y la distribución es asimétrica negativa si la mayoría de las puntuaciones son altas (caso del examen C que es fácil). La curtosis se refiere al grado de apuntamiento de los datos (ver Figura 1.10). Si la distribución de frecuencias es muy apuntada se llama leptocúrtica (A), y si es muy aplastada se denomina platicúrtica (C). Si su grado de apuntamiento es intermedio se denomina mesocúrtica (B). A,~ - - - - Leptocúrtica Figura 1.10. Ejemplo de tres distribuciones con distinta curtosis . 39 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 1.7. RESUMEN En este capítulo se ha tratado el papel que juega el Análisis de datos dentro del método general de la ciencia y algunos conceptos importantes relacionados con el análisis de datos. Posteriormente, se ha abordado el concepto de variable, su notación y clasificación, además de tratar el problema de la medición y los distintos tipos de escala: nominal, ordinal, de intervalo y de razón. También se ha tratado la organización y tabulación de los datos de variables cualitativas, cuasicuantitativas y cuantitativas, mediante la confección de una distribución de frecuencias . Además, se han presentado algunas formas de representar gráficamente una distri bución de frecuencias, de modo que su visión aporte una información de carácter general acerca de la variable objeto de estudio. Por último, hemos adelantado de manera intuitiva los aspectos más relevantes que se deben analizar en toda distribución de frecuencias: la tendencia central, la variabilidad y la forma de la distribución (asimetría y curtosis), que serán objeto de estudio en los próximos temas. 1.8. EJERCICIOS 1.1. El número de aciertos en un examen es una variable: A) nominal; B) ordinal; C) de razón. 1.2. La variable número de caras obtenidas al lanzar al aire dos monedas es: A) dicotómica; B) discreta; C) continua. 1.3. ¿En qué escala de medida el origen no es arbitrario? A) En la esca la nominal; B) En la escala de intervalo ; C) En la escala de razón . 1.4. ¿cuál es el nivel de medida de un ítem cuyas opciones de respuesta son: 1 = totalmente en desacuerdo, 2 = en desacuerdo, 3 = de acuerdo y 4 = totalmente de acuerdo? A) Nominal; B) Ordinal; C) De intervalo. 1.5. Se han asignado los valores 1, 2 y 3 a pacientes con un problema de claustrofobia muy leve, moderado y alto, respectivamente. ¿Qué nivel de medida tiene la variable grado de claustrofobia ? A) Nominal; B) Ordinal; C) De razón. 40 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS 1.6. Las variables dicotómicas: A) solo admiten dos valores posibles; B) admiten como mínimo dos val ores posibles; C) admiten dos o más valores siempre y cuando se trate de una variable nominal. 1. 7. El Centro de Investigaciones Sociológicas (CIS) realiza de manera regular una encuesta a los ciudadanos españoles mayores de edad. En una de ellas, preguntó a 1600 ciudadanos sobre el principal problema que existe actualmente en España, encontrando que la mayoría de los encuestados (el 52,5%) opinaron que el paro era el principal problema. ¿cuál es la población objeto de estudio? A) Los 1600 ciudadanos ; B) La población española; C) La población española mayor de edad. 1.8. Continuando con el ejercicio anterior, 52,5% es el valor de: A) un parámetro; B) un estadístico; C) una muestra. 1.9. La variable flexibilidad psicológica, recogida en la Gráfica 1, es: A) politómica; B) cuasicuantitativa; C) cuantitativa. 1.10. ¿cuál es la amplitud de los intervalos en los que está agrupada la variable flexibilidad psicológica? A) 2; B) 3; C) 4. 1.11. Los límites exactos del primer intervalo de la variable flexibilidad psicológica son: A) 10-12; B) 9,5-12,5; C) 10,5-12,5. Gráfica l. Puntuaciones en un test de flexibili dad psicológica (X) de una muestra de 150 personas. En el eje horizontal se muestran los pun tos medios de los intervalos. ~ o ro ~E .~E ~~ 150 160 140 123 120 87 100 so u 60 40 it_ 20 36 1.12. Con los datos de la Gráfica 1, la frecuencia relativa del tercer intervalo de puntuaciones es: A) 0,34; B) O, 76; C) 0,58. 1.13. Si queremos construir un intervalo para el valor 18,56 de una variable, ¿cuáles son los límites exactos de dicho intervalo? A) 18,5518,56; B) 18,555-18,565; C) 18,565-18,565. 1.14. En un experimento de atención visual focalizada se ha utilizado como variable dependiente el tiempo de reacción en milisegundos a un determinado estímulo visual presentado en la pantalla de un ordenador. Los tiempos de reacción obtenidos han sido: 520,487,458,399,458,465,502,389,444,478,415,501,388, 466,438,474,458,468,479,511,458,499,487,468,423,415, 41 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CI ENCIAS DE LA SA LUD 429,473,426,409,450,410,439,490,480,417,432,491,451, 382,458,510,390,433,487,429,389,477,466,520. ¿Qué nivel de medida tiene la variable tiempo de reacción? A) Ordinal; B) De intervalo; C) De razón. 1.15. La distribución de frecuencias de la variable tiempo de reacción del ejercicio anterior es: A) B) X n, X n, 381-400 401-420 421-440 441-460 461-480 481-500 501 -520 6 5 8 8 400 o menos 401-425 426-450 451-475 476-500 más de 500 6 6 11 6 6 C) cualquiera de las dos anteriores 9 13 10 6 1.16. La amplitud de los intervalos de la distribución de frecuencias A del ejercicio anterior es: A) 19; B) 20; C) 25. 1.17. Según los datos del ejercicio 1.15, ¿Qué porcentaje de sujetos tardó 450,5 milisegundos o menos? A) 42%; B) 54%; C) 68%. 1.18. ¿cuáles son los límites exactos del primer intervalo de la distribu ción de frecuencias de la alternativa A del ejercicio 1.15? A) 380,5 - 400,5; B) 380 - 401; C) 381,5 - 400,5. 1.19. Atendiendo a la distribución de frecuencias de la alternativa A del Ejercicio 1.15., el punto medio del primer intervalo es: A) 390; B) 390,5; C) 391. 1.20. ¿Qué gráfico representaría de manera apropiada los valores de la variable tiempo de reacción del Ejercicio 1.15? A) Diagrama debarras; B) Histograma; C) Diagrama de sectores. 1.9. SOLUCIONES A LOS EJERCICIOS 1.1. 42 Solución: e Es una variable de razón, ya que se dispone de una unidad cons tante de medida y el cero es absoluto. CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS 1 .2 . Solución: B Se trata de una variable discreta, ya que puede adoptar los valores O, 1 y 2 pero no podría adoptar un valor intermedio entre ellos (al lanzar al aire dos monedas nunca se podría sacar cara y media, por ejemplo). 1.3. Solución: e En la escala de razón el origen de la escala no es arbitrario, sino que representa un origen real que corresponde a la ausencia (valor cero) de la característica que se está midiendo. 1.4. Solución: B El nivel de medida es ordinal, porque los números asignados a las opciones de respuesta solo nos permiten diferenciarlas y ordenarlas. Si una persona escoge la opción 4, solo podemos afirmar que está más de acuerdo con la cuestión planteada que otra persona que ha escogido la opción 3, pero no podemos saber cuánto más de acuerdo está. 1.5. Solución: B El nivel de medida es ordinal, ya que podemos diferenciar entre tres niveles de claustrofobia y ordenarlos en función de su gravedad, pero no podemos precisar la distancia entre un nivel y otro. 1.6. Solución: A Una variable dicotómica se define como aquella que solo puede presentar dos categorías o valores. 1.7. Solución: e A) es el tamaño muestra! y B) incluye a toda la población española, cuando en el estudio solo interesan los mayores de edad. 1.8. Solución: B Es el valor de un estadístico, ya que 52,5 es un porcentaje obtenido sobre los 1600 encuestados que forman parte de la muestra. 1.9. Solución: e La variable puntuaciones en un test de flexibilidad psicológica está en una escala de intervalo, ya que hay una unidad de medición co mún y constante pero el cero es arbitrario. Todas las puntuaciones que provienen de test psicológicos se consideran de intervalo. Por tanto, se trata de una variable cuantitativa. 43 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 1.10. Solución: B La diferencia entre cada dos puntos medios consecutivos es 3, por lo que la amplitud de los intervalos es 3. 1.11. Solución: B Por la distancia entre los puntos medios del histograma de la Gráfica, se sabe que los intervalos son de amplitud 3. El primer punto medio es 11, por lo que para que la amplitud sea 3 sus límites aparentes serán 10-12 y los límites exactos 9,5-12,5. Los límites aparentes y exactos de la variable flexibilidad psicológica son: X Límites aparentes X Límites exactos 10-12 13-15 16-18 19-21 22 - 24 9,5-12,5 12,5 - 15,5 15,5-18,5 18,5-21,5 21,5 - 24,5 1.12. Solución: A El Gráfico 1 se basa en las frecuencias absolutas acumuladas, para calcular las frecuencias absolutas hay que restar la frecuencia acumulada anterior. Así, la frecuencia absoluta del intervalo 10-12 será 15 (no hay frecuencia acumulada anterior), la frecuencia absoluta del intervalo 13-15 será 36-15 = 21, y así sucesivamente. Para calcular la frecuencia relativa del tercer intervalo se divide su frecuencia absoluta por el total de observaciones, 51/150 = 0,34. En la Tabla se muestran todas las frecuencias absolutas y relativas de la variable. 44 X na n; P; 10-12 13-15 16-18 19-21 22-24 15 36 87 123 150 15 21 51 36 0,10 0,14 0,34 0,24 0,18 27 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS 1.13. Solución: B El valor 18,56 tiene dos decimales, por lo que la unidad de medida de la variable es 0,01 habrá que sumar y restar la mitad de esta cantidad que es 0,005 para calcular los límites exactos. Así, Límites exactos = 18, 56 ± O, 005 = ¡ 18, 555 18,565 1.14. Solución: e De razón, porque el cero representa la ausencia total de la característica medida (del tiempo). 1.15. Solución: e Ambas reflejan adecuadamente los datos del ejerc1c10 1.14, diferenciándose únicamente en las decisiones tomadas respecto al número y amplitud de los intervalos. 1.16. Solución: B La amplitud es la diferencia entre el límite superior exacto y el límite inferior exacto, por tanto 400,5-380,5=20. 1.17. Solución: A Si se utilizara la Tabla A el porcentaje de sujetos que tarda 450,5 milisegundos o menos estaría en el intervalo 441-460, que es un intervalo que incluye valores superiores a 450,5 milisegundos, por lo que la frecuencia absoluta de este intervalo puede incluir sujetos con un tiempo de reacción superior. En este Tema no se ha estudiado aún el cálculo de los percentiles que resolvería este problema, por lo que hay que utilizar la Tabla B. Para obtener el porcentaje de sujetos que tardó 450,5 milisegun dos o menos hay que calcular el porcentaj e acumulado del intervalo 426-450 . Para facilitar este cálculo, se añaden además las co lumnas correspondientes a las frecuencias acumuladas (absolutas y relat ivas). 45 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD X n; na Pa pa 400 o menos 401-425 426-450 451 -475 476-500 más de 500 6 6 6 12 21 34 44 50 0,12 0,24 0,42 0,68 0,88 1 12 24 42 68 88 100 9 13 10 6 El 42% de sujetos tardó 450,5 milisegundos o menos. 1.18. Solución: A Dado que los valores de la variable no tienen decimales, basta con restar y sumar 0,5 a los límites aparentes para obtener los límites exactos. Así, 381 - 0,5 = 380,5 y 400 + 0,5 = 400,5 . 1.19. Solución: B El Punto medio del intervalo es la suma de los límites exactos o de los límites aparentes, dividido entre dos: Con los límites aparentes: PM = LIA + LSA = 381 + 400 = 2 2 3901 5 Con los límites exactos: PM = LIE + LSE = 380, 5 + 400, 5 = 2 2 3901 5 1.20. Solución: B El histograma representa adecuadamente los valores de esta variable, ya que es cuantitativa. El diagrama de barras (opción A) no se puede utilizar en distribuciones de frecuencias agrupadas en intervalos y el diagrama de sectores ( opción C) no se utiliza en variables cuantitativas. 46 TEMA2 Índices de tendencia central y de posición 2.1. INTRODUCCIÓN 2.2. ÍNDICES DE TENDENCIA CENTRAL 2.2.1. 2.2.2. 2.2.3. 2.2.4. Media aritmética Mediana Moda Elección de un índice de tendencia central 2.3. ÍNDICES DE POSICIÓN 2.3.1. Percentiles 2.3.2. Cuartiles y deciles 2.4. RESUMEN 2.5. EJERCICIOS 2.6. SOLUCIONES A LOS EJERCICIOS ' ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN 2.1. INTRODUCCIÓN Como se ha mencionado en el tema anterior, una de las propiedades más importantes a estudiar de una distribución de frecuencias es la tendencia central de las puntuaciones. Esta característica de la distribución se puede resumir en un valor o puntuación que refleje esa tendencia ce ntral de la distribución y que represente al conjunto de observaciones. Con el fin de cuantificar esta propiedad , se han desarrollado una serie de medidas o estadísticos de tendencia central que indican sobre qué puntu ación se concentran las observaciones. En este tema se van a presentar los principales índices de tendencia central: la media aritmética, la mediana y la moda. Además de exponer el procedimiento de cálculo de estos estadísticos, se discuten las principales ventajas e inconvenientes de cada uno de ellos y se ofrecen criterios para su aplicación. Posteriormente, se abordan las medidas de posición, las cuales son útiles para informar sobre la posición relativa en la que se encuentra un sujeto con respecto al conjunto al que pertenece, a partir de su puntuaci ón en la variable. Se describen los tres índices de posición más utilizados en la práctica: los percentiles, los cuartiles y los deciles. Objetivos del tema : ■ Conocer las características de las principales medidas de tendencia central (media aritmética, mediana y moda) y de posición (percentiles, cuartiles y deciles). ■ Saber aplicar y calcular los índices estadísticos de tendencia central y de posición. ■ Seleccionar los índices de tendencia central y de posición adecua dos en cada caso . ■ Interpretar correctamente los valores obtenidos mediante los estadísticos de tendencia central y de posición. 49 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 2.2. ÍNDICES DE TENDENCIA CENTRAL En el análisis descriptivo de la distribución de frecuencias de una variable, es habitual que el número de observaciones sea grande y que nos planteemos resumi r, mediante valores numéricos, las principales propiedades de esa distribución . En lo que respecta a la tendencia cent ral de la distribución, nos interesa calcular un valor central que actúe como resumen numé rico para rep resentar al conj unto de datos. Estos valo res centrales de la varia ble se denom ina n m edidas, índices o estadísticos de t endencia centra l. Estos estad íst icos per m it en re prese nt ar t oda la dist ribuci ón de frecue ncia s con un único valo r y, ad emás, facilita n la com paración de diferentes conj untos de puntuaciones de una variable. Por ejem pl o, si medimos el nivel de autoestima en una muestra de 200 niñ os (1 00 niños y 100 niñas) , además de estudiar la tendencia central en niños y niñas de form a conjunta, los ín dices de tendencia central posibilitan la comparación de niñ os y niñas en su grado de autoestima. Así, podemos averiguar si el nivel medio de autoestima es mayor en los niños que en la s niñas, o viceversa. Trabajando directamente con las 200 observaciones iniciales, no podríamos, de forma eficiente, ni describir la tendencia central de niños y niñas, ni comparar las distribuciones de ambos en su grado de autoestima. A continuación se van a describir las tres medidas de tendencia central, representativas de la distribución, más utilizadas en el análisis de datos: la media aritmética, la mediana y la moda. 2.2.1. Media aritmética La media aritmética , también llamada promedio o simplemente media, es el estadístico de tendencia central más conocido y usado en la práctica. Esto se debe, básicamente, a la sencillez de su cálculo y a que es el fundamento de un gran número de técnicas estadísticas. La media aritmética indica la tendencia general de una distribución de frecuencias de una variable y es el valor central alrededor del cual están la mayoría de las observaciones. De hecho, desde una perspectiva geométrica, la media aritmética se puede interpretar como el «centro de gravedad » de la distribución de frecuencias (Amón, 1999) . Por otro lado, a diferencia de otros índices de tendencia central, sólo puede calcularse para variables cuantitativas (nivel de medida de inte rvalo o de razón). so ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN La media aritmética de una variable X, denotada por X, se define co mo la suma de todos los valores observados de la variable divididos por el número total de observaciones. Se expresa matemáticamente de la siguiente manera: X = xl + X 2 + ... + Xn = ¿X¡ n (2 .1) n donde: X¡ es el valor que toma la variable en el sujeto i n es el número total de observaciones Ejemplo 2.1. ¿cuál es la media en ansiedad ante los exámenes de los cinco prim eros alumnos de la Tabla 1.2 del Tema 1? En la t abla se muestran sus puntuacion es. Alumno ,Ar,siedad ( X), 1 2 5 13 3 4 4 15 5 3 La media aritmética de estas observaciones es: X = ¿ X¡ 5 = 5 + 13 + 4 + 15 + 3 5 = 40 5 = S Por lo general, el número de observaciones es mucho mayor que en el Ejemplo 2.1. Por ese motivo, es usual que los datos se presenten en tablas de distribución de frecuenci as agrupados o no en intervalos. En este caso, la media aritmética se puede calcular a partir de las frecuencias absolutas (n¡) o de las frecu encia s relativas o proporciones (p¡). 51 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Cálculo de la media en tablas de distribución de frecuencias Media aritmética a partir de una distribución de frecuencias absolutas: "n,.x,. ~ -X = "n.X. ~ I I ¿n; (2.2) n donde: n es el número total de observaciones X; es el valor í en la variable X o el punto medio del intervalo n; es la frecuencia absoluta del valor o intervalo í Esta es la expresión general de la media a partir de las frecuencias absolutas. La fórmula anterior, definida para pocas observaciones, no es más que un caso particular en el que las frecuencias absolutas de cada valor es igual a uno. En efecto, sin;= 1 para todos los valores de X, entonces: X = ¿n;X; n ¿1- X; n ¿X; n Como se puede observar, es la fórmula definida previamente. Media aritmética a partir de una distribución de frecuencias relativas: (2.3) donde: P; es la frecuencia relativa o proporción de observaciones Como es de esperar, con una u otra fórmula se obtiene el mismo re sultado para la media. Su cálculo se ilustra con los siguientes ejemplos . 52 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN Ejemplo 2.2. En la tabla adjunta se muestra la distribución de frecuencias de las calificaciones en el examen de lengua de la PAU de la Tabla 1.2 del Tema l. Calcule la media utilizando las frecuencias absolutas y las relativas. Nota (XJ 1 2 3 4 5 6 7 8 n, n1X 1 1 1 2 3 32 25 42 56 56 1 10 1 8 5 7 8 7 1 1 I 40 9 9 10 236 En la tabla aparecen las frecuencias absolutas en la columna 2. Se añade el producto de cada puntuación por su frecuencia absoluta en la columna 3. Si se aplica la fórmula de la media para las frecuencias absolutas, se obtiene el siguiente resultado: - ¿n;X; 236 X = ~-= = 59 n 40 ' Para aplicar la segunda fórmula se deben obtener las frecuencias relativas de cada puntuación: 53 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Nota (XJ ,:,, p 1 = n1/n 1 2 3 4 6 7 8 9 10 1 1 1 8 5 7 8 7 1 1 0,025 0,025 0,025 0,2 0,125 0,175 0,2 0,175 0,025 0,025 0,025 0,05 0,075 0,800 0,625 1,05 1,400 1,400 0,225 0,250 L 40 1 5,9 5 X = ¿P¡X¡ = 5,9 Se comprueba que con ambas fórmulas se obtiene el mismo valor para la media aritmética. En el caso de una distribución de frecuencias agrupadas en intervalos se calcula igual, teniendo en cuenta que los valores de X de la fórmula (X¡) serán los puntos medios de cada intervalo. Ejemplo 2.3. En las dos tablas adjuntas se muestran las puntuaciones agrupadas en intervalos de la variable ansiedad antes los exámenes para cada uno de los dos grupos de la Tabla 1.2 del Tema 1. Calcule la media en cada grupo utilizando las frecuencias absolutas y las relativas. Grupo 1 X 1 6 11 16 21 26 - L 54 5 10 15 20 25 30 Grupo 2 X; n, P; 3 8 13 5 4 6 3 1 1 0,25 0,2 0,3 0,15 0,05 0,05 20 1 18 23 28 ~ 16 11 16 21 26 - L 5 10 15 20 25 30 X; n; P1 3 8 8 8 2 1 1 0,4 0,4 0,1 0,05 0,05 o o 20 1 13 18 23 28 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN El grupo 1 lo constituyen los participantes que no han recibido el tratamiento y su media se calcula de la siguiente manera: Con frecuencias absolutas : X = ¿n¡X¡ = 5 x 3 + 4 x 8 + 6 x l3 + 3 x 18 + 1 x 23 + 1 x 28 = 230 = l l 5 n 5 + 4 + 6 + 3 + 1+ 1 20 ' Con f recuenci as re lativas : X = ¿ P;X¡ = o, 25 x 3 + o, 2 x 8 + o, 3 x 13 + o, 15 x 18 + o, 05 x x23 + 0, 05 X 28 = 11, 5 El grupo 2 est á fo rma do po r los partici pan t es que han reci bido el t rat am ient o y su media es: Con frecuencias absol utas: X = ¿n¡X¡ = 8 x 3 + 8 x 8 + 2 x 13 + l x l8 + l x 23 + 0 x 28 = 155 = 7 75 n 8 +8 + 2 + 1+1+O 20 ' Con frecuencias relativas: X = ¿ P;X¡ = o, 4 x 3 + o, 4 x 8 + o, 1 x 13 + o, 05 x 18 + o, 05 x x23 + 0 x 28 = 7,75 Tal y como se esperaba, la media en ansiedad ante los exámenes en el grupo que recibió el tratamiento (grupo 2) es menor que en el grupo que no recibió el tratamiento (grupo 1). Este resultado podría ser un indicio de la posible eficacia del programa de intervención para reducir la ansiedad de los alumnos ante los exámenes. En estos ejemplos se ha calculado la media a partir de las frecuencias absolutas y las relativas. Sin embargo, con las frecuencias absolutas acumuladas (ne) no se puede calcular la media . Si se tiene una distribución de frecuencias en las que sólo se dispone de las frecuencias absolutas acu muladas (n 0 ) y no de las frecuencias absolutas (n¡), es necesario obtener las frecuencias absolutas a partir de la s frecuencias absolutas acumuladas para, a continuación, calcular la media. 55 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Por otra parte, como se ha podido observar, la media aritmética aprovecha toda la información disponible en los datos, ya que para su cálculo es necesario utilizar todas las puntuaciones de los participantes. Como se verá posteriormente, esto no ocurre con otros estadísticos. Propiedades de la media aritmética La media aritmética presenta una serie de propiedades matemáticas, de las que podemos destacar las siguientes: 1. En una distribución, la suma de las desviaciones de cada valor con res pecto a su media es igual a cero. Matemáticamente se expresa como: En efecto, se demuestra que: n ¿(X; i =l n - X) =¿X; i =l n ¿X = nX - nX = O i= l Esta propiedad se puede comprobar con los datos del Ejemplo 2.1 en el que la media es igual a X = 8, n = 5, y el sumatorio de las desviaciones se obtiene de la siguiente manera: 5 ¿ (X; i =l X) = (5 - 8) + (13 - 8) + ( 4 - 8) + ( 15 - 8) + ( 3 - 8) = = (- 3) + 5 + (- 4) + 7 + (- 5) = O Por otro lado, si se dispone de un número mayor de observaciones en el que se repiten valores, y éstos se presentan mediante una distribución de frecuencias agrupados o no en intervalos, la expresión que debemos utilizar para comprobar la propiedad es la siguiente: n ¿ n; ( X; - X) = O i =l De esta forma hay que tener en cuenta la frecuencia absoluta de cada valor (n¡), es decir, el número de veces que aparece cada puntuación o intervalo. En el ejemplo 2.3 anterior, para el grupo 1 se tiene la siguiente distribución con media igual a X = 11, 5: 56 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN ,!, ¡¡; 'X I 1- 5 6 - 10 11 - 15 16 - 20 21 - 25 26 - 30 I: x ~'tl:1J! l1 3 8 13 18 23 28 ' n; X; - X 5 4 6 3 1 1 -8,5 -3,5 1,5 6,5 11,5 16,5 20 :~:>te o n; ( X; J.. X)' -42,5 -14 9 19,5 11,5 16,5 o Como se puede apreciar, el número de observaciones es de 20 (n = 20). Para obtener el sumatorio debemos restar cada punto medio de los intervalos de la distribución ( columna 2) a la media de la distribución (columna 4) y, a continuación, multiplicar esa diferencia por la frecuencia absoluta de cada intervalo (columna 3), obteniendo los valores de la columna 5. Podemos comprobar que la suma de esa última columna es el n sum atorio ¿ n; ( X; - X), que es igual a cero como establece la propiedad. i=l En cambio, si erróneamente no tenemos en cuenta la frecuencia absoluta n de cada intervalo y sumamos los valores de la columna 4 resultad o es igual a 24, distinto de cero. (¿ (X; 1 x)), el =1 2. Si a cada puntuación X; de la variable X le sumamos una constante a (elegida arbitrariamente), la media de las nuevas puntuaciones es igual a la media de X más la constante. En términos matemáticos: si Y¡ = X; + a, entonces Y = X+ a. Esto implica que, cuando se suma una constante cualquiera (a) a las puntuaciones de una distribución (X;), la media de esa distribución (X) se ve afectada, y para obtener la nueva media (Y) también se debe sumar esa constante a la media original (Y = X + a). 3. Si cada puntuación X; de la variable X se multiplica por una constante b (elegida arbitrariamente), la media de las nuevas puntuaciones es igual a la media de X multiplicada por la constante. En términos matemáticos: si Y; = b • X;, entonces Y = b • X. En otras palabras, podríamos decir que cuando multiplicamos una constante cualquiera (b) por cada una de las puntuaciones de una distribución (X;), la media de esa distribución (X) se ve afectada y para obtener la nueva media (Y) también debemos multiplicar esa constante a la media original (Y = b . X) . 57 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Veamos la aplicación de estas dos últimas propiedades a los datos del Ejemplo 2.1. Si se multiplican las puntuaciones en ansiedad por 10 (b = 10) y luego se le suma 5 (a = 5) y se obtiene la variable Y= lOX + 5. Alumno Ansiedad (X) 1 5 13 4 15 3 2 3 4 5 Ansiedad (Y) = lQ X 5 Y2 = 10 x 13 Y3 = 10 x 4 Y4 = 10 x 15 Y5 = 10 X 3 yl + + + + + 5 5 5 5 5 = 55 = 135 = 45 = 155 = 35 La variable Y sigue siendo una puntuación en ansiedad, pero en una nueva escala. La media de Y calculada a partir de las puntuaciones es: 5 ¿Y; y =i = l 5 = 55 + 135 + 45 + 155 + 35 = 425 = 85 5 5 Si aplicamos la propiedad de la media, podemos obtener la media de Y directamente con: Y = bX +a = 10 x 8 + 5 = 85 Como se puede apreciar, esta propiedad nos permite conocer directamente la media de la nueva variable Y, utilizando las mismas operaciones matemáticas que se han aplicado a las puntuaciones de X, pero en este caso a la media de la variable original, X. Es decir, no es necesario calcular una a una cada Y; para conocer la media de la nueva variable Y. En Psicología se utiliza con frecuencia este tipo de transformaciones de puntuaciones en la presentación de resultados para evitar valores negativos y decimales en las variables de interés. 4. La media de J muestras o media ponderada: Hasta ahora se ha hablado de la media de una variable en una muestra con n casos u observaciones. Sin embargo, en ocasiones se cuenta con la media de varios grupos en una variable e interesa conocer la media de todas las observaciones juntas. Para ello, supongamos que disponemos 58 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN de las puntuaciones en la variable X en J muestras distintas o grupos con n 1 , n 2 , ... ,n1 observaciones y con medias X1,X 2, ... ,X1, respectivamente. La media total de los J grupos, que incluye las puntuaciones de todas las mu estras, es igual a: -X _ n1 · X 1 + n2 · X 2 + ... + n1 · X 1 p n1 + n2 + ... + n1 n1 · X 1 + n2 • X 2 + ... + n1 • X 1 (2.4) n En el numerador aparece la media de cada grupo o muestra multiplica da por el número de observaciones de dicho grupo, mientras que en el denominador figura la suma del número de observaciones de los J gru pos, que es igual al número de observaciones total (n). Como se puede apreciar, la media de los J grupos no es más que una ponderación de las medias de cada grupo en base al número de observaciones de dicho grupo (n 1 ). Es decir, la media de cada grupo tiene un peso en la media total que está en función del tamaño de la muestra o número de casos de cada grupo. Po r ese motivo, a la media total (la media de todas las puntuaciones ) se le denomina media ponderada (X p). Un aspecto relevante que refleja esta propiedad, y por ende el con cepto de media ponderada, es que no podemos calcular la media de una variable medida en distintos grupos como, simplemente, la media de las medias de los grupos. Es necesario tener en cuenta el peso de la media de cada grupo a través del número de casos de cada grupo (n1 . X 1). En el caso particular en el que todos los grupos presentan el mismo número de observaciones (k), es decir, n 1 = n 2 = . . . = n1 = k, la fórmula de la media ponderada se simplifica y es igual a : X = X1 +X 2 + ... + X1 J donde J es el número de grupos o muestras. En este situación en la que los J grupos tienen el mismo número de observaciones (k), la media total sí se corresponde con la media de las medias de los grupos. Cuando los grupos difieren en el número de casos es necesari o aplicar la fórmula de la media ponderada general descrita previ amente. 59 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Veamos la aplicación de esta propiedad con un ejemplo: En la tabla se muestran el número de casos (n¡) y las medias de la va riable calificación en examen de lengua de la PAU (X J) en función del tipo de Bachillerato cursado por los alumnos de la Tabla 1.2. En este caso hay tres grupos (cada tipo de bachillerato) y la media en lengua de la PAU en cada uno de ellos. Calculemos la media total en la nota de lengua de la PAU a partir de estos datos. Tipo de Bachillerato Ciencias Humanidades y ce Sociales n; XJ 13 6,15 5 ,71 6 ,0 Artes 21 6 ¿; 40 La media total, de las 40 observaciones, se obtiene aplicando la fórmu la de la media ponderada: Xp _ n1 · X 1 + n2 · X 2 + n3 · X 3 - n1 + n2 + n3 235186 = 5 8965 40 ' ;::e; 13 X 6, 15 + 21 X 5, 71 + 6 13 + 21 + 6 X 6 5 90 ' Como era de esperar, el valor de la media ponderada es el mismo que cuando se calcula la media directamente en las 40 puntuaciones, resultado que el alumno puede verificar consultando el Ejemplo 2.2 de este capítulo . Como en este caso los tres grupos no presentan el mismo número de observaciones, no es posible obtener la media total a partir de la media de las medias sin tener en cuenta el n de cada grupo. Por otra parte, la media ponderada también se utiliza para obtener la media global en una puntuación que se basa en distintas pruebas a las que se les ha otorgado pesos diferentes, en función de su importancia en la puntuación final. Por ejemplo, supongamos que a las prácticas realizadas en una asignatura se le ha otorgado un peso del 60%, y al examen un peso del 40% en la calificación final. Si la media de las prácticas es igual a 6 y en el examen es de 5, la nota media final en esta asignatura se obtiene mediante la fórmula de la media ponderada de la siguiente manera : 60 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN X _ Pi · Xi + P2 · X2 Pi + P2 = 60 x 6 + 40 x 5 = S 6 100 P - ' donde p 1 y p 2 son los pesos asignados a las prácticas y al examen, res pectivamente. Li mitaciones de la media aritmética A la hora de utilizar la media como medida representativa de la ten dencia central de la distribución, conviene tener en cuenta las siguientes li mitaciones : a) Cuando los datos están agrupados en intervalos, la media no se puede calcular si el intervalo máximo no tiene límite superior y/o el intervalo mínimo no tiene límite inferior. Por ejemplo, en la siguiente distribución de frecuencias: 10 15 20 25 X X; n, - 12 17 22 6 12 14 19 24 29 X ?: 30 I: 27 ? 2 8 7 35 el intervalo máximo (X~ 30) no tiene límite superior, por lo que no podemos determinar el punto medio de ese intervalo, necesario para el cálculo de la media aritmética. b) La media es sensible a la existencia de unas pocas observaciones con valores extremos en la distribución de frecuencias. Esta circunstancia se da en distribuciones marcadamente asimétricas, por lo que no es recomendable la utilización de la media en este tipo de distribuciones debido a que afecta a su representatividad como valor central de la distribución. Estos valores extremos pueden ser bien producto de errores en la recogida o grabación de los datos, o bien valores que aportan información relevante de la variable . En el primer caso, se eliminan estas observaciones y la distribución se vuelve más simétrica, por lo que podría calcularse la media arit- 61 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD mética. En el segundo caso, se recomienda aplicar otros índices de tendencia central menos sensibles a los valores extremos como la mediana, que se tratará en el siguiente epígrafe. 2.2.2. La mediana Tal y como se ha mencionado en el apartado anterior, cuando la distribución es asimétrica una buena alternativa a la media aritmética para resumir la tendencia central de las puntuaciones es la mediana. A diferencia de la media, la mediana no se ve afectada por los valores extremos que pueda adoptar la variable debido a que en su cálculo no intervienen todos los valores de la distribución sino únicamente los que ocupan las posiciones centrales. Por tanto, en distribuciones asimétricas, la mediana es un valor más apropiado para representar la tendencia central de la distribución. Por otro lado, la mediana se puede obtener en todo tipo de variables, excepto en variables cualitativas. Asimismo, conviene señalar que el valor de la mediana no tiene por qué coincidir con un valor real de la variable (especialmente en variables cuantitativas discretas). Se trata de un valor que cuantifica la tendencia central de la distribución y que se ajusta a la siguiente definición: La mediana de una variable X, representada por Md, se define como el valor que divide la distribución de frecuencias de la variable en dos partes iguales, conteniendo cada una el 50% de las observaciones. Supongamos que hemos obtenido la puntuación de n participantes en una variable. Para el cálculo de la mediana con pocos casos se procede de la siguiente manera: 1. En primer lugar, se ordenan las n puntuaciones de menor a mayor. 2. En segundo lugar, se observa si el número de observaciones n es impar o par. ■ 62 Si n es impar, el valor de la mediana es el de la observación que ocupa la posición central, dentro de ese conjunto de observaciones ya ordenadas. Esa posición central coincide con la posición (n+l)/2. ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN ■ Sin embargo, si el número de observaciones n es par, la mediana es la media aritmética de los dos valores centrales de la distribución. Los dos valores centrales son los que ocupan las posiciones n/2 y (n/2)+ l. Por lo tanto, la mediana es igual a: Md = X n/2 + X (n/ 2)+1 (2.5) 2 donde Xn 12 es el valor de la variable en la posición n/2 y X (n/ 2 )+l es el valor en la posición (n/2)+1. A continuación se presenta un ejemplo de cada caso. Ejemplo 2.4. Cálculo de la mediana con n impar. Calcule la mediana en los datos del Ejemplo 2.1. Alumno Ansiedad (X) 1 5 2 13 3 4 5 4 15 3 En primer lugar se ordenan las puntuaciones de los alumnos en an siedad de menor a mayor valor: X: 3 4 0 13 15 En segundo lugar, dado que n = 5 es un número impar, la mediana es el valor o puntuación que ocupa la posición central (n + 1)/2 = (5+1)/2 = 3 (la 3ª posición), en esa secuencia ordenada de observa ciones. Por lo tanto, Md = 5. 63 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 2.5. Cálculo de la mediana con n par. Calcule la mediana para los 8 primeros alumnos de la Tabla 1.2 del Tema 1, en la variable número de horas de estudio semanales que figuran en la siguiente tabla: Alumno Horas de estudio semanales (XJ 1 2 11 7 16 5 14 3 4 5 6 10 12 7 8 10 En primer lugar, ordenamos las puntuaciones de menor a mayor: X: 5 7 10 j 10 11 j 12 14 16 En segundo lugar, dado que n = 8 es un número par, la mediana es la media aritmética de los dos valores centrales de la distribución, que son las posiciones 4ª (n/2 = 8/2 = 4) y 5ª ( (n/2)+ 1 = (8/2)+ 1 = 5): Md = lO + l1 = 10,5 2 Como ocurría con la media aritmética, lo normal es que el número de observaciones no sea tan pequeño, que aparezcan valores de observaciones repetidos y, que por ello, los datos se presenten en tablas de distribución de frecuencias agrupados o no en intervalos. En este caso, el intervalo en el que se encuentra la mediana se denomina intervalo crítico y se corresponde con aquél en el que la frecuencia absoluta acumulada n0 !2 o la proporción acumulada (p 0 ) es igual o mayor a 2 0,50. La mediana se obtiene con la siguiente fórmula: es igual o superior a 64 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN - Md = L; + [ - nd n2 ne ] · I (2.6) donde: = Límite inferior exacto del intervalo crítico n = Número de observaciones nd = Frecuencia absoluta acumulada por debajo L; del intervalo crítico ne = Frecuencia absoluta del intervalo crítico I = Amplitud del intervalo crítico Ejemplo 2.6. En la tabla se muestran las puntuaciones agrupadas en intervalos de la variable ansiedad ante los exámenes de los 40 alumnos de la Tabla 1.2 del Tema l. ¿cuál es la mediana de esta distribución? X 26 21 16 11 6 1 - :E 30 25 20 15 10 5 X¡ n; na 28 23 18 13 8 3 1 2 4 8 12 13 40 39 37 33 25 13 40 Para calcular la frecuencia acumulada (n 0 ) hay que empezar siempre desde el valor más bajo de la variable hasta el más alto, porque se define como el número de veces que se repite cada valor o cualquiera de los valores inferiores . Siempre que se tenga en cuenta acumular desde el valor más bajo de la variable hasta el valor más alto se hará de manera correcta, con independencia de cómo esté ordenada la tabla. Una vez obtenidas las frecuencias acumuladas, se calcula el intervalo crítico, que es el primer intervalo (empeza ndo por el intervalo 65 INTRODUCCIÓN AL ANÁLISIS DE DATOS: A PLI CACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD de valores de X más pequeño) cuya frecuencia acumulada sea igual o mayor a 5-"' es decir, al 50% de n. Por tanto, puesto que n = 40, tenemos que 5-" = ~O = 20. Ahora se busca, empezando desde abajo, el intervalo cuya frecuencia acumulada contenga el valor 20 o lo supere. Para ello, hay que fijarse en las nª de la última columna de la tabla. El valor 25 es la primera frecuencia acumulada mayor o igual a 20, por lo que el intervalo crítico es el intervalo [6-10]. Una vez averiguado el intervalo crítico se aplica la fórmula de la mediana: - - nd 2 Md = L¡ + n ne [ : ·I L¡ es el límite inferior exacto del intervalo crítico. El límite inferior aparente es 6, por lo que el exacto es 6 - 0,5 = 5,5. n es el número de participantes que es igual a 40. nd es la frecuencia acumulada por debajo del intervalo crítico, por tanto, la frecuencia acumulada del intervalo anterior, que es igual a 13. ne es la frecuencia absoluta del intervalo crítico, que es igual a 12. I es la amplitud del intervalo, I = 10,5 - 5,5 = 5. Sustituyendo, tenemos que: = 5,5+2,9167 = 8,4167 ~ 8,42 El origen de la fórmula planteada se basa en el método de interpolación, en el que se asume la distribución homogénea de las puntuaciones dentro de cada intervalo . Su estudio nos ayuda a entender el concepto y 66 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN la lógica que subyace a la fórmula que utilizamos para su cálculo. Veamos cóm o se puede calcular directamente la mediana con este método utilizando los datos del Ejemplo 2.6. Se sabe que el número de observaciones es n = 40 y que, por lo tanto, la mediana es el valor que deja por debajo de sí a 20 casos. Se ha identificado el intervalo crítico en [6 - 10] y el número de puntuaciones acumuladas hasta el límite superior del intervalo anterior al crítico [1- 5] es de n0 = 13. Por tanto, faltan 20 - 13 = 7 observaciones para llegar al 50% en el que se encuentra la mediana (ver Fi gura 2.1). X 26 21 16 11 10,5 - - 30 25 20 15 X¡ n; na 28 23 18 13 1 2 4 8 40 39 37 33 ~ 5 6 - 10 X 5,5 7 - * * * * * * * * * * * * Median 9 = 5,5 + X ~ 1-5 3 13 13 40 Figura 2.1. Representación del cálculo de la Mediana para los datos del Ejemplo 2.6. Si asumimos que las puntuaciones se reparten a lo largo de cada intervalo de forma homogénea, entonces podemos afirmar que las 12 observaciones del intervalo crítico (n; = 12), se distribuyen homogéneamente en una amplitud de 5 unidades (J = 5). Por lo tanto, si 12 observaciones se reparten en una amplitud de 5, ¿qué amplitud o unidades dentro del 67 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD intervalo crítico ocuparán las 7 observaciones que faltan para llegar al 50%? Por una regla de tres: 12 observaciones ➔ 5 unidades de X } 7 observaciones ➔ x unidades de X 7x5 ⇒ X = -- = 2, 916666667 s::: 2, 92 12 Estas 2,92 unidades debemos sumarlas al límite inferior del intervalo crítico, obteniendo el mismo resultado que con la fórmula: Md = 5, 5 + 2, 92 = 8, 42 Por otra parte, cuando se trata de una distribución de frecuencias pero los datos no están agrupados en intervalos, el cálculo de la mediana es un caso particular de la fórmula anterior en la que la amplitud de los intervalos es igual a uno (I = 1) y los límites exactos de dicho intervalo se obtienen sumando y restando 0,5 unidades a cada valor de la variable. Ejemplo 2.7. Calcúlese la mediana en la distribución de frecuencias del Ejemplo 2.2. Nota '(X1) na 1 2 3 4 5 6 7 9 10 1 1 1 8 5 7 8 7 1 1 í: 40 8 Como se puede apreciar, "i = :o = 1 2 3 11 16 23 31 38 39 40 20. Empezando desde los valores inferiores de X, el valor de X cuya frecuencia acumulada (nª) contiene el valor 20 o lo supere es el X = 6, con una nª = 23. Por lo tanto, el intervalo crítico es el intervalo unitario [5,5 - 6,5], con nª = 23, ne = 7 y nd = 16. Aplicando la fórmula: 68 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN -- nd 2 ne Md = L; + n [ l [ 11 - - 16 2 • I = 5, 5 + 40 = 5,5 + 0,571 = 6,071 a:: ] 7 x 1 = 5, 5 + (;) x 1 = 6,07 La mediana se puede calcular en cualquier distribución de frecuencias de variables, excepto cuando se trata de una variable cualitativa o de una variable agrupada en intervalos en la que existe un intervalo abierto y éste es el intervalo crítico en el que se encuentra la mediana. El motivo de no poder obtener la mediana en este último caso es que necesitamos conocer la amplitud del intervalo crítico, valor que se desconoce si el intervalo es abierto. Ejemplo 2.8. Calcule la mediana con los datos de las Tablas 2.1 y 2.2. Tabla 2.1. 1 Tabla2.2. X x, X~ 30 ·7 <'... 25 20 15 10 - 29 24 19 14 27 22 17 12 I l'Í¡ na X x, 14 18 29 20 9 90 76 58 29 9 X~68 ·7 <'... 61 54 47 40 - 67 60 53 46 64 57 50 43 I 90 n; na 35 9 8 6 2 60 25 16 8 2 60 En la distribución de frecuencias de la izquierda (Tabla 2.1), !2 = 2 90 2 = = 45 por lo que el intervalo crítico es [20 - 24] con n0 = 58. En este caso, como el intervalo crítico no es el intervalo abierto, se puede calcular la mediana que es igual a: -- nd 2 ne Md = L; + n [ - 2 ] • I = 19, 5 + [ 90 - 29 29 ] x5 = 22, 26 69 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD ~= ° 6 = 30, por 2 lo que el intervalo crítico es el intervalo superior que está abierto (X~ 68) y, por tanto, no se puede calcular la mediana. Sin embargo, en la distribución de la Tabla 2.2, 2.2.3. La moda Un tercer estadístico de tendencia central que se puede obtener, tanto en variables cualitativas como en cuantitativas, es la moda. La moda de una distribución, que se representa por Mo, se define como el valor o categoría de la variable con mayor frecuencia absoluta. Cuando en una variable existe un único valor con la frecuencia absoluta máxima, la distribución presenta una única moda y es unimodal. Sin embargo, la distribución de una variable no tiene por qué tener una única moda. De hecho, si son dos los valores con la frecuencia más alta la distribución es bimodal, si son tres los valores sería trimodal, ... En la Figura 2.2, la distribución de arriba es unimodal y la moda es el valor X 3 , mientras que la de abajo es bimodal, siendo las dos modas los valores X 2 y X 3 • También puede ocurrir que una distribución no tenga moda, lo que se denomina distribución amodal. Esto sucede cuando todos los valores tienen la misma frecuencia absoluta; en este caso no se puede calcular la moda. 70 ÍND ICES DE TENDENCIA CENTRAL Y DE POSICIÓN n¡ 18 16 14 12 10 8 6 4 2 o X n¡ 16 14 12 10 8 6 4 2 o X Figura 2.2. Distribución de frecuencias unimodal (arriba) y bimodal (abajo). Cálculo de la moda según el tipo de variable: En el caso de una distribución de una variable cualitativa, la moda es la categoría con la máxima frecuencia. Ejemplo 2.9. En la tabla adjunta se muestra la distribución de frecuencias del tipo de Bachillerato de la Tabla 1.2 del Tema l. ¡¡!' 'l Tipo ' de Bachillerato Ciencias 13 Humanidades y CC Social es 21 Artes 6 71 INTROOUCCION AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD En esta variable, la categoría con mayor frecuencia absoluta es Humanidades y Ciencias Sociales con n¡ = 21. Por lo tanto, esa categoría es la moda de esta distribución. 1 En una distribución de una variable cuantitativa con los datos no agrupados en intervalos, la moda es el valor con la mayor frecuencia absoluta. Ejemplo 2.10. En la tabla se muestra la distribución de frecuencias de los alumnos que han aprobado el examen de lengua de la PAU de la Tabla 1.2 del Tema l. Nota (X1J n, 5 10 5 7 8 7 1 1 r 29 6 7 8 9 La mayor frecuencia absoluta se observa en la calificación de X= 7 con n¡ = 8. Por lo tanto, la moda es el valor de la variable X= 7, es decir, Mo = 7. Sin embargo, si tuviésemos en cuenta todas las calificaciones en la PAU como en el Ejemplo 2.2, no habría una única moda. Hay dos calificaciones: X= 4 y X= 7 que muestran la máxima frecuencia absoluta (n¡= 8). En ese caso estaríamos ante una distribución bimodal. Finalmente, si se trata de una distribución de una variable cuantitativa con los datos agrupados en intervalos, se localiza el intervalo modal (que es el intervalo con la frecuencia máxima) y la moda es el punto medio de dicho intervalo. 72 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN Ejemplo 2.11. ¿cuál es la moda en la distribución de frecuencias del Ejemplo 2.6? x, X 26 21 16 11 6 1- ¿ 30 25 20 15 10 5 28 23 18 13 8 3 ' ,n¡ 1 2 4 8 12 13 40 El intervalo con la frecuencia más alta es el intervalo [1, 5] con n; = 13, por lo que el intervalo modal es [1, 5] y la moda es su punto medio, Mo = 3. Por último, completando lo dicho hasta aquí, las principales características de la moda son las siguientes: a) Es un índice de cálculo sencillo y de fácil interpretación. b) De los tres índices de tendencia central estudiados, la moda es el único que, además de aplicarse a variables cuantitativas, se puede calcular en variables cualitativas. c) Cuando los datos están agrupados en intervalos y existen intervalos abiertos, la moda se puede calcular, excepto si el intervalo modal coincide con el intervalo abierto. Si nos fijamos en las Tablas 2.1 y 2.2 del Ejemplo 2.8, la moda se puede calcular en el primer caso y su valor es Mo = 22, mientras que no es posible calcularla en el segundo caso debido a que el intervalo modal (el intervalo superior) está abierto y no conocemos su punto medio. 2.2.4. Elección de un índice de tendencia central Cuando se ha medido una variable en una muestra den observaciones, y se desea seleccionar un valor que resuma adecuadamente la tendencia 73 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD central de la distribución de frecuencias, la primera pregunta a plantearse es: ¿qué medida de tendencia central se debe utilizar? Como primera opción se recomienda la media aritmética, porque en ella están basadas un gran número de técnicas estadísticas de gran importancia y de uso frecuente que se estudiarán posteriormente. Únicamente se desaconseja su utilización cuando la distribución es asimétrica, con unos pocos valores extremos que pueden dist orsionar la representatividad de la media como tendencia central de la distribución . Para entende r mejor este punt o, veamos un ejemplo se ncillo con las puntuaciones en ansieda d ante los exámenes que figuran en los Ej emplos 2.1 y 2.4. Las puntuaciones ordenadas son: 3, 4, 5, 13, 15. En estos datos la media es 8 y la mediana es igual a 5. Si ahora sustit uimos el valor más alto (X= 15) por un va lor extre mo, po r ej emplo X= 74, las pu nt ua cion es ordenada s serían: 3, 4, 5, 13, 74 . Ahora la medi a au menta mu cho su valo r y es igual a 19,8, pero la mediana no se ve afe ct ada por este valor extremo y sigue si endo ig ual a 5. En est e caso, la med ia ya no sería un índice represent ati vo adecu ado de los datos, mi en tras que la medi ana sigue resumi endo apropiad amente la tendenci a central de la s puntua ciones. Por otra parte, la media es un índice que no tiene sentido calcular, tanto en el caso en el que el nivel de medida de la variable sea nominal u ordinal, o cuando los datos estén agrupad os y existan intervalos abiertos en los extremos de la distribución. Cuando la media no se pueda aplicar (o no sea recomendable su utilización), la siguiente opción disponible es la mediana. Como se ha señalado previamente, la mediana es más resistente a los valores extremos que generan asimetría en la distribución (como en el ejemplo anterior), se puede obtener en variables con nivel de medida ordinal, y, además, se puede calcular en distribuciones con datos agrupados en intervalos con intervalos abiertos. Sin embargo, en ocasiones no se puede obtener la mediana. Esto puede ocurrir por dos motivos: 1) el nivel de medida de la variable es nominal o 2) con datos agrupados en intervalos, la mediana se encuentra en el intervalo abierto. En esa situación, la única alternativa posible es utilizar la moda. Por otro lado, como ya sabemos, la moda no se puede calcular cuando la distribución sea amodal (no tiene moda) o el intervalo abierto coincide con el intervalo modal. Hoy en día, con el uso de programas informáticos para el análisis estadístico de los datos, se recomienda, siempre y cuando sea pertinente, el cálculo de los tres índices para el estudio de la tendencia central de 74 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN la distribución. Cuando las variables son cualitativas únicamente puede uti lizarse la moda como medida de tendencia central. Sin embargo, en el caso de variables con nivel de medida ordinal, se pueden obtener tanto la moda como la mediana. Por último, si la variable es cuantitativa se pueden calcular los tres índices de tendencia central, lo que implica disponer de mayor información para estudiar esta propiedad de las distribuciones. Es interesante resaltar que cuando la distribución de una variable cuantitativa es simétrica y unimodal, coinciden los valores de la media, mediana y moda. Un ejemplo se puede apreciar en la Figura 2.3, en la que se muestra la distribución de frecuencias de la variable edad en un determi nado centro educativo para adultos y su correspondiente histograma. La distribución es simétrica y unimodal. La media, moda y mediana coincide n y su valor es igual a 42. X X; n¡ 60-64 55-59 50-54 45-49 40-44 35-39 30-34 25-29 20-24 62 57 52 47 42 37 32 5 10 15 20 30 20 15 10 5 27 22 35 30 25 20 15 10 5 o //-~-+---+---t--'--1~--+--+-----lf--t----l 22 27 32 37 42 47 52 57 62 Figura 2.3. Medidas de tendencia central en una di stribución de frecuencias simétrica y unimodal. 75 INTRODUCCIÓN AL ANÁLIS IS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD En el Cuadro 2.1 se resume la aplicación de los índices de tendencia central en función del nivel de medida y el tipo de variable. Cuadro 2.1. Índices de tendencia central. ! Nivel de medida Tipo de variable Índice estadístico de tendencia central aplicable Nominal Cualitativa Mo Ordinal Cuasicuantitativa Mo, Md De intervalo Cuantitativa discreta De razón Cuantitativa continua Mo, Md, X 2.3. ÍNDICES DE POSICIÓN En la primera parte de este tema hemos definido medidas que representaban al conjunto de datos. Interesaba disponer de un indicador o resumen numérico de la tendencia central de todas las puntuaciones. Pues bien, ahora la cuestión que nos planteamos va dirigida a un sujeto o dato particular y la podríamos formular de la siguiente manera : en una distribución de frecuencias de una variable, un sujeto «s» obtiene una puntuación X5 , ¿qué posición ocupa este sujeto en la distribución con respecto al resto de partici pantes?, ¿qué puntuación tendría que obtener para superar a un porcentaje determinado de participantes de la distribución? Por ejemplo, en un test de creatividad administrado a los 30 niños de una clase, podemos plantearnos las siguientes cuestiones: ¿qué puntuación debe alcanzar un alumno para superar al 50% de sus compañeros?, ¿qué puntuación debe obtener para estar entre el 25% de los más creativos? Imaginemos que un alumno obtiene una puntuación de 15, ¿qué posición le corresponde a X = 15 en el conjunto de puntuaciones de los alumnos de la clase?, ¿está entre los más creativos de la clase?, lqué porcentaje de sus compañeros están por debajo de él en creatividad o qué porcentaje le superan en dicha variable? Los índices estadísticos de posición responden a este tipo de preguntas . Informan acerca de la posición relativa de un sujeto con respecto a su grupo de referencia, dentro de la distribución de frecuencias de la variable. Es decir, indican la situación de una puntuación con respecto a un grupo, utilizando al grupo como marco de referencia. 76 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN Dado que se trata de localizar la posición de un sujeto en una distribución , para construir un estadístico de posición, debemos dividir la distribución en un número de partes o secciones iguales entre sí en cuanto al número de observaciones. Por ejemplo, si queremos dividir una distribución en dos partes iguales, necesitamos un único valor para esa partición, que coin cide con la mediana de la distribución (recuerde que la mediana divide la distribución en dos partes, cada una con el 50% de las observaciones). En el caso de querer dividirla en tres partes, cada una con un tercio de las observaciones, se necesitan dos valores de la variable, y así sucesivament e. Dependiendo de cuantos valores de la variable se utilicen para dividir la distribución, se puede hablar de diferentes medidas de posición. A continuación se describen tres índices estadísticos de posición: los pe rcentiles, los cuartiles y los deciles. Se usan con mucha frecuencia en la presentación de resultados estadísticos, especialmente los dos primeros. En Psicología, por ejemplo, se utilizan para las normas de interpretación de las puntuaciones de los tests o baremos, como se verá en la asignatura de Psicometría el próximo curso. Asimismo, es conveniente señalar que la aplicación de estos índices requiere al menos de un nivel de medida ordinal en la variable objeto de estudio. 2.3.1. Percentiles Los percentiles, también denominados centiles, son los 99 valores que dividen en 100 partes iguales la distribución de frecuencias de la variable. El percentil k, denotado por Pk, es un valor que deja por debajo de sí un porcentaje k de observaciones, donde k = 1, 2, ... 99 de la variable de interés. En el Ejemplo 2. 7 de la distribución de frecuencias de la variable notas en el examen de lengua de la PAU, la puntuación X= 8,5 deja por debajo de sí al 95% de los alumnos de la distribución . Por ese motivo, podemos afirmar que el percentil 95 de esa distribución es X= 8,5, P95 = 8,5, y que los alumnos con X= 8,5 están por encima del 95% de los alumnos en la nota de lengua de la PAU y son superados por el 5% de los alumnos . Otra 77 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD forma de expresarlo sería que un 95% de los alumnos no superan la puntuación 8,5 y un 5% sí superan dicha puntuación. Es necesario recalcar que los percentiles no son porcentajes, sino valores que dejan por debajo de sí un determinado tanto por ciento o porcentaje de las observaciones o casos. En este ejemplo, el percentil 95 vale 8,5. Aunque el concepto de percentil es sencillo y fácil de entender, lo cierto es que no hay una única manera de calcularlo. En la literatura estadística se recogen numerosos métodos que, por lo general, proporcionan valores similares pero no idénticos entre sí. De hecho no es de extrañar que dependiendo del procedimiento aplicado y el software informático utilizado obtengamos percentiles ligeramente distintos, aunque todos válidos según la definición general de lo que es un percentil. En este capítulo se va a utilizar el método más sencillo para su realización a mano, que es la manera en la que el alumno puede consolidar mejor el aprendizaje de la materia. Como se deriva de la definición previa, el percentil 50, P50 , de una distribución deja por debajo de sí al 50% de las observaciones y por en cima al otro 50%. El lector puede percatarse que esa definición coincide con la de mediana de una distribución estudiada previamente. En efecto, el valor de la mediana coincide con el percentil 50 de la distribución. De este modo, la mediana es uno de los 99 posibles percentiles de una distribución, en concreto, el percentil 50. Por este motivo, el cálculo de los percentiles lo vamos a realizar utilizando una extensión del método expuesto para la mediana. La diferencia entre el cálculo de la mediana y de los percentiles, estriba en que, en la mediana se trataba de localizar la posición de !2 en la columna de las frecuencias absolutas acumuladas. 2 En cambio, en los percentiles y de forma más general, se hace en base al número n · k, donde n es el número de casos y k es el percentil que 100 n -k deseamos obtener. - - es el número de casos que se correponden con 100 el k% del percentil y se obtiene a partir de una sencilla regla de tres: sin obse rvaciones son el 100% de los participantes, ¿cuántas observaciones serán el k% de los participantes? n observaciones ➔ 100% de los participantes} ⇒ x = n x k x ➔ k% de los participantes 78 100 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN Este número, efecto, k = 50 ~~i, es igual a ~ cuando calculamos el percentil 50. En n •k n • 50 n por lo que - - = - - = - . 100 100 2 Cálculo de los percentiles con datos agrupados en intervalos: El primer paso consiste en saber qué número de casos, de todos los que tenemos (n), deja po r debajo de sí el percentil k. Ese valor lo obtenen -k mos calculando el valor de - -. 100 A continuación locali zam os el interval o en el que se encuentra el percen til k. Este interval o se denomina interva lo crítico y se corresponde con aquél en el que la frecuencia absoluta acumulada nª es igual o superior a ~~i, es decir, al k% den. Por último, obtenemos el percentil k aplicando la siguiente fórmula: (2.7) donde: = Frecuencia absoluta acumulada por debajo ne = Frecuencia absoluta del intervalo crítico L; = Límite inferior exacto del intervalo crítico I = Amplitud del intervalo nd del intervalo crítico Ejemplo 2.12. En la tabla se muestran las puntuaciones agrupadas en intervalos de la variable ansiedad antes los exámenes del Ejemplo 2.6. ¿cuál es el percentil 10 de esta distribución? 79 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD X 26 21 16 11 6 1- 30 25 20 15 10 5 Como se puede apreciar, ~~i X; n, n,, 28 23 18 13 8 3 1 2 4 8 12 13 40 39 37 33 25 13 = 4 ~~;o = 4, es decir, el 10% den= 40 es 4. Por lo tanto, el intervalo crítico es el primer intervalo cuya frecuencia acumulada sea igual o mayor a 4. En este caso, se corresponde con el primer intervalo [1,5] cuya nª = 13 es mayor que 4. Además, ne= 13 y nd = O (no existen intervalos por debajo del crítico). Aplicando la fórmula: P10 = L¡ + l n -10 - nd ] 100 ne ·I = O, 5 + [40100 x 10 13 º] x5 = O, 5 + 1,538 = = 2,038 "" 2, 04 Cuando en la distribución de frecuencias los datos no están agrupados en intervalos, se aplica la misma fórmula, pero con amplitud del intervalo igual a uno (J = 1) . Ejemplo 2.13. Calcule el percentil 95 en el Ejemplo 2.7, cuyos datos figuran en la siguiente tabla. 80 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN Nota (XJ n, na 10 9 8 7 6 5 4 3 2 1 1 1 7 8 7 5 8 1 1 1 40 39 38 31 23 16 11 3 2 1 n-k 40 X 95 = = 38, es decir, el 95% de 100 100 n = 40 es 38. Por lo tanto, el intervalo crítico es el primer intervalo cuya frecuencia acumulada sea igual o mayor a 38. En este caso, se corresponde con el intervalo [7,5-8,5] cuya nª es igual a 38. Además, n e = 7 y nd= 31. Aplicando la fórmula: Como se puede apreciar, P95 ~ L¡ + = ~-n : [ 100 ne d · I = 7, 5 + [40100 x 95 _ 7 31 : x 1 = 7, 5 + ( 7 7) x 1 = 7, 5 + 1 = 8, 5 Es interesante resaltar que cuando n · k es exactamente igual a la fre100 cuencia acumulada hasta un valor o intervalo, como en este caso, el percent il se corresponde directamente con el límite superior exacto del intervalo crítico . En el Ejemplo 2.13, ~~~ = 38 y es igual a la frecuencia acumulada del intervalo crítico (nª = 38). El límite exacto superior de dicho intervalo es 8,5, que es el valor del percentil 95. Por tanto, cuando esto sucede se puede calcular directamente el percentil y no es necesario aplicar la fórmula. Por otro lado, cuando se tienen muy pocos datos como en los Ejemplos 2.4 y 2.5 vistos anteriormente, no es habitual calcular percentiles porque tienen poca utilidad. Sin embargo, si fuera necesario obtener un percentil 81 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD en esas circunstancias y para simplificar los cálculos, se aplicaría también la fórmula general de los percentiles asumiendo intervalos con amplitud igual a uno. Ejemplo 2.14. Calculemos el percentil 70 en el Ejemplo 2.5 cuyos datos figuran en la siguiente tabla . 1,A lumno Horas de estudio s'emanales (X1) 2 1 7 11 3 16 4 5 5 14 10 12 10 6 7 8 En primer lugar, se ordenan los datos en una tabla de distribución de frecuencias y se calculan las frecuencias acumuladas: Horas de estudio (X;) n, 16 14 12 5 1 1 1 1 2 1 1 ¿ 8 11 10 7 ' Q.~ 8 7 6 5 4 2 1 A continuación se aplica la misma fórmula que para datos agrupados en intervalos. Es decir: n-k 8 x 70 . k= 70 y n = 8, por lo que - - = - - = 5,6, es decir, el 70% den= 8 100 100 es 5,6. Por lo tanto, el intervalo crítico es el primer intervalo cuya frecuencia acumulada sea igual o mayor a 5,6. En este caso, se co- 82 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN rresponde con el intervalo [11,5-12,5] cuya ne= 1 y nd= 5. Aplicando la fórmula: n-70 P70 = L¡ + nd ] · I = 11, 5 + ~ e- [ [8x70 ~- nª es igual a 6. Además, 5] x 6 1 = 11, 5 + ( o~ ) x 1= = 11, 5 + o, 6 = 12, 1 Con el método descrito se puede calcular el valor de cualquiera de los 99 percentiles de una distribución. Sin embargo, puede suceder que se t enga un valor o puntuación de la variable, X;, y nos interese saber qué percentil ocupa ese valor en la distribución. Es decir, ¿qué percentil le corresponde a la puntuación X¡? Realmente se está pidiendo el valor de k , dado el valor de X;, Para realizar ese cálculo hay que despejar k de la ecuación anterior, obteniendo la siguiente fórmula: Cálculo de k para X;: (2.8) Ejemplo 2.15. Con los datos del Ejemplo 2.12, si un estudiante obtiene una puntuación de X= 20, ¿qué percentil le corresponde? X 26 21 16 11 6 1 - ¿ 1 30 25 20 15 10 5 28 23 18 13 8 3 ' n¡ na 1 2 4 8 12 13 40 39 37 33 25 13 40 83 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD La puntuación X= 20 está en el intervalo [16-20] que va a ser, por tanto, el intervalo crítico. De esta forma, Pk =20, L;=15,5, nc=4, I = 5 y nd= 33. Se aplica la fórmula y se obtiene lo siguiente: -~¡) •ne +nd1 (Pk r(20 - l;,5) x 4 + 331 k = - - - - - - -100 = - - - - - - - x 100 = n 40 r 36 60] x 100 = 0,915 x 100 = 91,5 ~ 92 = [ -;fuPor lo tanto, a la puntuación X= 20, le corresponde el percentil 92, P92 = 20. Wt< \ • - I! 1 t '" 1 Cuando se calcula a qué percentil corresponde una puntuación determinada, puede ocurrir que obtengamos un valor con decimales como en el ejemplo anterior. En este caso, y dado que los percentiles son 99 valores enteros, tomamos la cantidad entera más próxima. Para ello seguimos la siguiente regla: si el primer decimal es igual o mayor a cinco, entonces tomamos el número entero superior; si es menor que cinco tomamos el número entero inferior. En este ejemplo el resultado es P9 1 , 5 = 20, con k = 91,5. La cantidad entera más próxima a 91,5 es 92, por lo que el percentil es 92, P92 = 20 . Otra situación que nos podemos encontrar es que se pida el percentil de una puntuación que es, al mismo tiempo, el límite exacto superior de un intervalo y el límite exacto inferior del siguiente intervalo. En este caso se puede elegir cualquiera de los dos intervalos como intervalo crítico y obtendríamos el mismo resultado. Veámoslo con un ejemplo: Ejemplo 2.16. Con los datos del Ejemplo 2.15, ¿qué percentil le co rresponde a un sujeto con una puntuación de X = 10,5? 84 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN X 26 21 16 11 6 1- 30 25 20 15 10 5 x, n, na 28 23 18 13 8 3 1 2 4 8 12 13 40 39 37 33 25 I 13 40 La puntuación X= 10,5 es el límite exacto superior del intervalo (610] y al mismo tiempo el límite exacto inferior del intervalo (11-15]. ¿cuál de estos dos intervalos se utiliza como intervalo crítico? Se puede utilizar cualquiera de los dos porque vamos a obtener el mismo resultado. Si calculamos el percentil considerando el intervalo crítico (6-10], te nemos que: Pk= 10,5 L;= 5,5 ne= 12 J= 5 (Pk - L¡) ·ne+ nd 1 k = I n -100 = nd= 13, por lo que: 1 r(l 0,5 - 5,5) x 12 + 13 5 x 100 = 40 r = [!~] X100 = 0, 625 X100 = 62, 5 ,:; 63 Por lo tanto, a la puntuación X= 10,5, le corresponde el percentil 63, = 10,5. p63 Por otro lado, si lo calculamos atendiendo al intervalo [11-15], tenemos que: Pk= 10,5 L;= 10,5 ne= 8 I =5 nd= 25, por lo que: 85 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACION ES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 1 (Pk - L¡) •nc +nd ] k = I r =[ !~] X n -100 = ' r (10,5 -1 0,5) x 8 + 25 5 x 100 = 100 = 0, 625 X 100 = 6 2, 5 40 ~ 63 Como puede obse rvarse, se obtiene de nu evo el m ismo result ado : a la puntuación X = 10 , 5 le correspo nde el perce ntil 6 3, P63 = 10,5 . 2.3.2. Cuartiles deciles Los cuartiles y deciles son dos estadísticos de posición en los que las seccio nes o partes en las que se divide la distribución de frecuencias son muchas menos que en los percentiles. Los cuartiles son tres valores de la distribución que dividen en cuatro partes de igual frecuencia a la distribución. El primer cuartil, que se representa por Q 1 , deja por debajo de sí al 25% de las observaciones y por encima al 75% restante. Como se puede deducir fácilmente, se corresponde con el percentil 25 de la distribución, esto es, Q 1 = P25 . El segundo cuartil, Q 2 , deja por debajo de sí al 50% de las observaciones y por encima al otro 50%. Es equivalente al percentil 50, y, por ende, a la mediana de la distribución, Q 2 = P50 = Md. Por último, el tercer cuartil, Q 3 , deja por debajo de sí al 75% de las observaciones y por encima al 25% restante. Se corresponde con el percentil 75 de la distribución, Q 3 = P75 . Debido a la equivalencia con los percentiles, para el cálculo de los tres cuartiles se utilizan los métodos propuestos para los percentiles. En concreto, Q 1 se calcula mediante P25 , Q 2 con P50 , y Q 3 con P75 . Por otra parte, los cuartiles se utilizan para construir índices para el estudio de la variabilidad de una distribución de frecuencias, como se verá en el próxi mo tema. 86 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN Por último, los deciles se definen de la siguiente manera: Los deciles son nueve valores que dividen en diez partes iguales a la distribución. Se representan por O¡, donde i = 1,2, ... ,9. El primer decil, 0 1 deja por debajo de sí al 10% de las observaciones, el 0 2 al 20%, el 0 3 al 30% y así hasta el 0 9 que deja por debajo de sí al 90% de las observaciones. De este modo, 0 1 = P10 , 0 2 = P20 , .. . , 0 5 = P50 = Md, .. . 0 9 = P90 . Por lo tanto, también se pueden calcular los deciles a partir de los percentiles correspondientes. En la Figura 2.4 se representa la equivalencia entre los diferentes índices de posición de una distribución de frecuencias que se han estudiado. Deciles - Percentiles Cuartiles - Percentiles Figura 2.4. Representación de la relación entre medidas de posición. En definitiva, para calcular cualquier estadístico de posición (percentiles, cuartiles y deciles) en variables agrupadas en intervalos se utiliza la fórmula propuesta en el apartado 2.3.1 y aplicada en el Ejemplo 2.12. En distribución de frecuencias de variables cuantitativas discretas no agrupadas en intervalos se aplica la misma fórmula, pero considerándose como un caso particular en el que la amplitud del intervalo es igual a uno (ver Ejemplo 2.13). 87 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 2.4. RESUMEN En este tema se ha presentado una de las propiedades o características más relevantes de una distribución de frecuencias como es la tendencia central de las puntuaciones. Se han descrito los tres estadísticos de tendencia central más empleados, que son la media aritmética, la mediana y la moda. De cada índice se han expuesto sus principales características, los métodos de cálculo y las ventajas y limitaciones de su aplicación al análisis de datos. Esta primera parte del tema se ha concluido con la discusión de una serie de criterios para la elección del índice más adecuado en cada caso. Posteriormente, se han abordado las medidas o estadísticos de posición, con el fin de estudiar la posición relativa de los participantes con respecto al conjunto de puntuaciones de la distribución. Dependiendo del número de partes en las que se divida la distribución de frecuencias, se pueden definir diferentes índices de posición. Se han descrito los tres más relevantes como son los percentiles, los cuartiles y los deciles y se ha explicado el procedimiento de cálculo según la configuración de los datos y el tipo de cuestión a la que se quiere responder. Asimismo, se ha enfa tizado la equivalencia entre los tres tipos de estadísticos, y cómo, una vez definidos los percentiles, se pueden obtener los cuartiles y deciles como casos particulares de los percentiles. 2.5. EJERCICIOS 2.1. El valor que divide la distribución de frecuencias de una variable en dos partes con el mismo número de observaciones cada una se denomina: A) media aritmética; B) mediana; C) moda. 2.2. Para estudiar la tendencia central en una variable cualitativa, el índice adecuado es: A) la media; B) la moda; C) la mediana. 2.3. En una distribución de frecuencia s de una variable medida a nivel ordinal, ¿qué índice resulta inadecuado utilizar? A) la media; B) la moda; C) la mediana . 2.4. En una distribución unimod al se obtienen los mismos valores en los índices moda, media y mediana siempre y cuando: A) los datos están agrupados en intervalos; B) 1 distribuci ón es simétrica; C) el número de observacion es s p qu ño. 88 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN 2.5. En un conjunto de observaciones de una variable, la puntuación que es superada por el 75% de los participantes se corresponde con el: A) Ql; B) P75; C) º 2· 2.6. El quinto decil de una distribución es equivalente al: A) percentil 40; B) percentil 5; C) percentil 50. 2. 7. En una distribución de frecuencias, el número de observaciones entre Q 1 y Q2 es el mismo que entre: A) 0 1 y 0 2 ; B) P25 y P50 ; C) Q 1 y Q 3 . 2.8. En la siguiente tabla se muestran el número de alumnos y las medias en horas de estudio semanales (X) en función del nivel de estudios materno de los alumnos de la Tabla 1.2 del Tema l. La media total en el número de horas de estudio semanales de los 40 alumnos a partir de estos datos es: A) 10,55; B) 10,82 ; A) 10,91. Nivel de estudios materno X.1 10,71 9,27 10,91 10,71 12,50 Primarios 7 E.S.O . 11 Bachillerato 11 Grado Universitario Posgrado Universitario 7 4 ¿ 2.9. n; 40 La variable X toma los siguientes valores : 50, 26 , 35, 64, 34, 28, 73, 45, 48, 52, 54, 67. La media aritmética es igual a: A) 47; B) 48; C) 49. 2.10. El valor de la mediana en los datos del Ejercicio 2.9 es: A) 48; B) 49; C) 51. 2.11. En la tabla adjunta se muestra la variable número de hijos (X) de las familias de una determinada urbanización. x, La media del número de hijos en esa urbanización es igual a : A) 1; B) 1,48; C) 2, 32 . 1 2 2.12. Con los datos del ejercicio anterior, ¿cuál es la moda?: A) 1; B) 2; C) 26. 4 o 3 n; 18 26 20 12 4 2.13. Continuando con el Ejercicio 2 . 11, el valor de la mediana es igual a : A) 0 ,75; B) 1, 35; C) 1,5 0. 89 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 2.14. Con los datos del Ejercicio 2.11, a la puntuación X= 2, ¿qué percentil le corresponde? A) P68 ; B) P80 ; C) P85 . 2.15. De acuerdo con los datos del Ejercicio 2.11, el primer cuartil de la distribución es: A) 0,02; B) 0,50; C) 0,58. 2.16. En el histograma adjunto se muestra la distribución de la variable edad (X) de los 100 participantes de una investigación. En el eje horizontal, se recogen los límites exactos de los intervalos de X y en el eje vertical la frecuencia absoluta (n;), La moda es: A) 46; B) 50,5; C) 55,5 . n; 45 42 - - 40 35 30 25 20 21 20 15 10 10 7 1: 5 o // 1 25,5 35,5 45,5 55,5 65,5 75,5 2.17. Continuando con el histograma del ejercicio anterior, la edad media de los participantes es: A) 50,5; B) 51 ; C) 52 . 2.18. Siguiendo con el histograma del Ejercicio 2.16, ¿cuál es el valor de la mediana de la variable edad? A) 50; B) 50,74; C) 55,5. 2 . 19. Con los datos del Ejercicio 2.16, el percentil 90 es igual a: A) 60,5; B) 65,5; C) 70,5. 2.20. De acuerdo a la distribución del Ejercicio 2.16, el valor del segundo decil es: A) 35,5; B) 41,7; C) 45,2. 2.6. SOLUCIONES A LOS EJERCICIOS 2.1. Solución: B Véase la definición de mediana en el Apartado 2.2.2. 2.2. Solución: B 90 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN Cuando la variable es cualitativa la única medida de tendencia central que se puede utilizar es la moda (ver Apartados 2.2.3 y 2.2.4). 2.3. Solución: A Cuando la variable está medida a nivel ordinal se puede utilizar la moda y la mediana, pero no la media que requiere que sea de intervalo o de razón (ver Apartados 2.2 .1 y 2.2.4). 2.4. Solución: B Tal y como se señala en el Apartado 2.2.4, cuando la distribución es unimodal y simétrica, los valores de la media, mediana y moda coinciden. 2.5. Solución: A La puntuación que es superada por el 75% de las observaciones es aquella que no supera el 25%, por lo que se corresponde con el percentil 25 o el primer cuartil, Q 1 (ver Apartado 2.3.2). 2.6. Solución: c Los deciles son nueve valores que dividen en diez partes iguales la distribución. De este modo, el decil 5 (0 5 ) deja por debajo de sí al 50% de las observaciones, por lo que equivale al percentil 50 (ver Apartado 2.3.2). 2.7. Solución: B El número de observaciones entre Q 1 y el Q 2 es igual al 25% de la distribución. Entre 0 1 y 0 2 es el 10% Entre P25 y P50 es el 25% Entre Q 1 y Q 3 es el 50% 2.8. Solución: A , " 'I", ,, Nivel de estudios materno" Primarios 7 E.S.0. 11 11 Bachillerato Grado Universitario 7 Posgrado Universitario 4 10,71 9,27 10,91 10,71 12 , 50 40 91 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Para obtener la media total a partir de las medias de cada grupo debemos utilizar la fórmula de la media ponderada : Xp _ n1 · X 1 + n2 • X 2 + .. . + n1 • X 1 - = 2.9. n1 + n2 + ... + n1 = n 7 X 10, 71 + 11 X 9, 27 + 11 X 10, 91 + 7 X 10, 71 + 4 X 12, 50 40 421192 = 10 548 "" 10 55 40 ' ' Solución: B X = LX¡ = 50 + 26 + 35 + 64 + 34 + 28 + 73 + 45 + 48 + 52 + 54 + 67 = 12 = 576 12 12 = 48 2.10. Solución: B Para el cálculo de la mediana, primero se ordenan los datos de menor a mayor: X: 26, 28, 34, 35, 45, 48, 50, 52, 54, 64, 67, 73 Dado que el número de observaciones es par (n = 12), la mediana es la media aritmética de los dos valores centrales de la distribución, que son las posiciones 6ª (n/2 = 12/2 = 6) y 7ª ((n/2)+1 = (12/2)+1 = 7): Md = 48 + 50 = 49 2 2.11. Solución: B 92 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN X.I o 1 2 3 4 . n1 " n;X i o 18 26 20 12 4 26 40 36 16 80 118 - X = ¿n;X; n 118 = 1,475 "" 1,48 80 =- 2.12. Solución : A 1 X; n; ,1, o 4 18 26 20 12 4 ¿ 80 1 2 3 El valor de X; con la frecuencia absoluta mayor es X;= 1 con n; = 26, por lo que Mo = l. 2.13. Solución: B La variable número de hijos es una variable cuantitativa discreta no agrupada en intervalos por lo que, a la hora de obtener la mediana, se trabaja con ella asumiendo que está agrupada en intervalos con amplitud igual a uno (I = 1). Para el cálculo de la mediana se obtiene la frecuencia absoluta acumulada para cada valor de la variable: ·11111uk · 111' ' 1f ; / n; o 18 1 2 3 4 26 20 12 4 ¿ 80 ;¡¡i na, 18 44 64 76 80 93 INTRODUCCIÓN AL ANALISIS OE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Sabemos que !2 = 80 2 2 = 40, por lo que el intervalo crítico es [0,5- 1,5] con n 0 = 44, ne= 26 y nd= 18. Aplicando la fórmula: l - - nd 2 ne Md = L¡ + n l --18 2 ] • I = O, 5 + 80 26 ] x 1 = O, 5 + O, 846 = 1,346 ~ 1, 35 2.14. Solución: A x, n; na o 4 18 26 20 12 4 18 44 64 76 80 L 80 1 2 3 La puntuación X= 2 está en el intervalo unitario [1,5-2,5]. Tenemos que Pk= 2, L;= 1,5, ne= 20 y nd= 44. Por lo tanto: (Pk - L¡) · ne + nd k = I l n 1·100 = r(2 - 1,l5) x 20 80 = 0,675 x 100 = 67,5 ~ + 44 1 x l00 = 68 Por lo tanto, a la puntuación X= 2, le corresponde el percentil 68, p68 = 2. 2.15. Solución: e X¡ n; na o 4 18 26 20 12 4 18 44 64 76 80 L 80 1 2 3 94 ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN n · 25 80 X 25 . Q 1 = P25 , Sabemos que - - = - - - = 20, por lo que el intervalo 100 100 crítico es [0,5-1,5] con n0 = 44, ne= 26 y nd= 18. Aplicando la fórmula: l ~ - n P,s = L;+ 10~' = I [ 8 dJI = 0,5 + 25 - 18 ] 0x 10~6 xl = o, 5 + o, 0769 = o, 5769 se o, 58 2.16. Solución: B El histograma nos muestra los límites exactos de cada intervalo y su frecuencia absoluta. Para obtener la moda localizamos el intervalo modal (el que tiene la máxima frecuencia absoluta), que en este caso es el tercer intervalo [45,5-55,5]. El punto medio de dicho intervalo es Mo = 50,5 . 45 5 55 5 , 2+ , = 50 , 5 , por lo que la moda es 2.17. Solución: B Para facilitar el cálculo de la media, primero se pasan los datos del histograma a una tabla de distribución de frecuencias, calculando el punto medio de cada intervalo como la semisuma de los límites exactos y el producto de cada punto medio por su correspondiente frecuencia absoluta: Límites exactos de los intervalos X; n; n;X; 65,5-75,5 55,5-65,5 45,5-55,5 35,5-45,5 25,5-35,5 70,5 60,5 50,5 40,5 30,5 10 20 42 21 7 705 1210 2121 850,5 213,5 100 5100 ~ - ¿n;X; 5100 X = =--'---'- = - - = 51 n 100 95 INTRODUCCIÓN AL ANALISI S DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 2.18. Solución : B El histograma nos da los límites exactos de cada intervalo y su frecuencia absoluta. Para obtener la mediana se prepara la tabla con la que se trabaja en la que figuran los intervalos aparentes, el punto medio (X;), la frecuencia absoluta y la acumulada. Para pasar de intervalos exactos a aparentes sumamos 0,5 a cada límite inferior y restamos 0,5 a cada límite superior. La amplitud del intervalo es I = LSE-LIE = 10 y el punto medio de cada intervalo se obtiene como la semisuma de los límites exactos o aparentes: X X; n, "ª 66-75 56-65 46 -55 36-45 26-35 70,5 60,5 50,5 40,5 30,5 10 20 42 21 7 100 90 70 28 7 ¿ !!.. = lOO = 100 50, por lo que el intervalo crítico es [ 46-55] con n 0 2 2 ne= 42 y nd= 28. Aplicando la fórmula: l l - -n - - 28 2 ne d ] · I = 45, 5 + 100 2 ] x 10 = Md = L; + n 42 = 45, 5 + 5,238 = 50,738 e:: 50, 74 2.19. Solución: B X X; n; "ª 66-75 56-65 46-55 36-45 26-35 70,5 60,5 50,5 40,5 30,5 10 20 42 21 7 100 90 70 28 ¿ 96 100 7 = 70, ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN 100 -90 100 100 nª = 90, ne= 20 y nd = 70. Aplicando la fórmula: n -k - - - = 90, por lo que el intervalo crítico es [56-65] con P, 90 =L + ' n -k 100ne- nd J. I = 55 5 + [ 100l00x 90 - 70 ] x 10 = 65 5 , l 20 , Como se indicó para el Ejemplo 2.13 de este tema, cuando el valor de n · k coincide con la frecuencia acumulada del intervalo crítico, 100 el percentil se corresponde directamente con el límite exacto superior de dicho intervalo . En este ejercicio n · k = 90 es igual a la 100 nª del intervalo crítico, por lo que el percentil 90 se podría calcular directamente y su valor es el límite superior exacto del intervalo crítico, que en este caso es 65,5. 2 .20. Solución: B X X; n; n,, 66-75 56-65 46 - 55 36-45 26- 35 70,5 60,5 50,5 40,5 30,5 10 20 42 21 7 100 90 70 28 7 L 100 100 . 1o critico , . 0 2 = P20, -n . -k = -. 20 - = 20 , por 1o que e 1 1nterva es [36 100 100 45] con na= 28 , ne= 21 y nd= 7 . Aplicando la fórmula: l n ·k P20 = L; + ~ e- nd J -1 = 35, 5 + l 100 x 20 7 ] l O~l x lO = = 3 5, 5 + 6, 19 = 41, 69 "" 41, 7 97 TEMA3 Medidas de variabilidad y forma 3.1. INTRODUCCIÓN 3.2. MEDIDAS DE VARIABILIDAD 3.2.1. 3.2.2. 3.2.3. 3.2.4. Amplitud total o rango Varianza y desviación típica Coeficiente de variación Amplitud intercuartil 3.3. MEDIDAS DE FORMA 3.3.1. Asimetría de una distribución 3.3.1.2. Índice de Pearson 3.3.1.3. Índice de Fisher 3.3.2. Índice de curtosis 3.4. DIAGRAMA DE CAJA 3.5. PUNTUACIONES TÍPICAS 3.6. RESUMEN 3.7. EJERCICIOS 3.8. SOLUCIONES A LOS EJERCICIOS MEDIDAS DE VARIABILIDAD Y FORMA 3.1. INTRODUCCIÓN En este tema se van a abordar dos nuevas propiedades de una distri bución de puntuaciones: la variabilidad o dispersión y la forma de la dist ribución. La segunda propiedad de una distribución de frecuencias, y de la misma importancia que la tendencia central estudiada en el tema anterior, es la variabilidad o dispersión de los datos. La variabilidad hace referencia al grado en que las puntuaciones se asemejan o diferencian entre sí, o se aprox iman o alejan de una medida de tendencia central como la media aritmética. Se han propuesto numerosos índices para medir la variabilidad de una distribución. En este tema se describen los índices de dispersi ón más habituales en la práctica como son la amplitud total, la varianza y desviación típica, y la amplitud intercuartil. Además, se presenta un índice, el coeficiente de variación, que resulta útil para comparar distintas distribuciones de frecuencias en términos de su variabilidad. Posteriormente, se analiza la forma de la distribución a través del estu dio de la asimetría y de la curtosis de la distribución de frecuencias. Co mo se ha visto en el primer tema, mediante la representación gráfica se puede analizar si una distribución es más o menos simétrica, qué tipo de asimetría la caracteriza y el grado de apuntamiento de los datos. En este tema se describen dos índices de asimetría así como un coeficiente de curtosis que ofrecen resultados numéricos sobre ambos aspectos de la forma de la distribución. A continuación se presenta el diagrama de caja, un tipo de representaci ón gráfica que permite una inspección visual rápida de la asimetría y de los posibles valores atípicos de la distribución. Por último, con el fin de poder comparar a los sujetos entre sí y en diferentes variables, se describen dos puntuaciones que se derivan de las puntuaciones directas: las puntuaciones diferenciales y las típicas. Se presentan sus principales propiedades y la información que proporcionan ambos tipos de puntuaciones. 101 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Objetivos del tema: ■ Conocer las características de los principales índices para medir la variabilidad en una distribución de frecuencias, con especial énfasis en la varianza y la desviación típica. ■ Saber aplicar los índices de variabilidad o dispersión a una determinada distribución. ■ Conocer y saber aplicar los índices de asimetría y de curtosis para analizar el grado y el tipo de asimetría y de curtosis de una distribución. ■ Saber representar gráficamente algunas de las características de una distribución mediante un diagrama de caja. ■ Distinguir entre los distintos tipos de puntuaciones (directas, diferenciales y típicas), la información que proporcionan y sus propiedades fundamentales. 3.2. MEDIDAS DE VARIABILIDAD En el tema anterior vimos que uno de los aspectos más relevantes a la hora de caracterizar una distribución de frecuencias es la tendencia central de los datos y se presentaron las tres principales medidas que resumen numéricamente esta característica . Sin embargo, el estudio de una distribución resultaría incompleto sin el análisis de una segunda propiedad tan importante como la tendencia central; esto es, la variabilidad de los datos. La variabilidad o dispersión hace referencia al grado de variación que hay en un conjunto de puntuaciones. Por ejemplo, en la Figura 3.1 se muestra la representación gráfica de dos distribuciones que presentan la misma media aritmética pero que difieren en la variabilidad de sus puntuaciones. 102 MEDIDAS DE VARIABILIDAD Y FO RMA (a) 30 -- - 25 20 n 15 10 5 o 1 2 3 5 4 6 7 8 9 6 7 8 9 X (b) 30 25 20 n 15 10 5 o 1 2 3 4 5 X Figura 3.1. Representación gráfica de dos distribuciones: a) menos dispersión; b) más dispersión. En la Figura 3.l(a) las puntuaciones están muy próximas entre sí y concentradas en torno al valor promedio, por lo que parece que existe poca dispersión en los datos. En la Figura 3.l(b), las puntuaciones están más alejadas entre sí y no están tan concentradas alrededor de la media, existiendo mayor variabilidad. De este modo, cuanto menor es la variabilidad en una distribución, más homogénea es la muestra de sujetos en la variable que estamos midiendo. En el caso extremo y poco habitual de máxima homogeneidad, todos los valores de la variable serían iguales entre sí y a la media, y no habría variabilidad en los datos. Por otro lado, cuando existe cierta dispersión en los datos, la muestra es más o menos heterogénea y las puntuaciones difieren entre sí. Con el fin de cuantificar la dispersión presente en los datos, se han definido numerosas medidas o índices de variabilidad. Dos tipos de índices 103 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD se pueden distinguir: aquellos que miden el grado en el que las puntuaciones se asemejan o diferencian entre sí, y aquellos otros en los que la dispersión se mide con respecto a alguna medida de tendencia central como la media aritmética. En este tema se van a estudiar dos índices del primer tipo: la amplitud total o rango y la amplitud intercuartil. Del segundo tipo, y de gran importancia en la estadística, se van a describir la varianza y la desviación típica. Tanto unos como otros son útiles para el estudio de la variabilidad de una distribución de frecuencias, pero resultan poco adecuados cuando se trata de comparar la dispersión de dos o más distribuciones. Para realizar dicho análisis, un índice apropiado y que se presenta en este tema es el coeficiente de variación, que se basa en la relación entre la desviación típica y la media de cada distribución de frecuencias. 3.2.1. Amplitud total o rango Una primera aproximación a la dispersión de los datos es el índice de amplitud total, también denominado rango o recorrido de las observaciones. La amplitud total, denotada como AT, de un conjunto de puntuaciones es la distancia que hay en la escala numérica entre los valores que representan la puntuación máxima y la puntuación mínima. Es decir: (3 . 1) En variables agrupadas en intervalos la puntuación máxima es el límite superior exacto del intervalo máximo y la puntuación mínima es el límite inferior exacto del intervalo mínimo. Ejemplo 3.1. La siguiente distribución de frecuencias corresponde a las notas en el examen de Lengua de la PAU del Ejemplo 2.2 del tema anterior. ¿cuál es la amplitud total de esta distribución? 104 MEDIDAS DE VARIABILIDAD Y FORMA 1Nota (X1) n, 1 6 7 8 9 10 1 1 1 8 5 7 8 7 1 1 ¿ 40 2 3 4 5 La puntuación máxima es Xma x = 10 y la mínima es Xmin = 1. Por tan to, AT= Xmax-Xmin = 10- 1 = 9 Como se puede apreciar, este índice es muy sencillo de calcular y utiliza muy poca información del conjunto de puntuaciones, ya que se trata sólo de la diferencia entre el mayor valor (XmaJ y el menor valor (Xmin) de la variable. Por otro lado, y como consecuencia de lo anterior, su principal inconveniente es que es sensible únicamente a los valores extremos de la distribución. Por esta razón, este índice no captura la poca o mucha dispersión que pueda existir entre los restantes valores, que son la gran mayoría de las puntuaciones. Aun así, en el análisis de los datos se recomienda incluir el valor de la amplitud total como información complementaria de otras medidas de dispersión más relevantes como la varianza y la desviación típica, que se estudiarán a continuación. 3.2.2. Varianza y desviación típica La medida de variabilidad también se puede basar en la distancia entre las puntuaciones y un valor central de la distribución como la media aritmética. De este modo, una distribución con poca variabilidad es aquella en la que la mayoría de las puntuaciones están muy próximas a la media, mientras que en una distribución con mucha variabilidad, las puntuaciones están alejadas o muy alejadas del valor medio de la variable. 105 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Un primer índice que se puede plantear de forma lógica es el promedio de las desviaciones o diferencias de cada puntuación con res pecto a su media. _Xd =¿,d; I,(x; - x) --=---n (3.2) n El problema de este índice es que, según vimos en la primera propiedad de la media en el tema anterior, el sumatorio del numerador siempre es igual a cero, por lo que carece de sentido como índice. Con el fin de poder utilizar un índice con estas desviaciones, evitando que sea igual a cero, se han propuesto dos soluciones. La primera consiste en calcular el valor absoluto de cada desviación antes de realizar la suma, obteniendo un índice denominado desviación media cuya expresión es: jx1 - xj + jx2 - xj + ·· · + ¡xn - x¡ I,jx; - x¡ DM = ~ - - - - -- - - -- - - = - - - n n (3.3) La desviación media se emplea muy poco en la actualidad, debido a que es poco manejable matemáticamente por el uso del valor absoluto, lo que ha llevado a que apenas existan técnicas estadísticas basadas en este índice. Una segunda alternativa al problema del signo de las desviaciones con siste en basarnos en el cuadrado de las diferencias y así obtenemos la varianza que se define de la siguiente manera: La varianza de un conjunto de n puntuaciones en una variable X, denotada por se define como el promedio de los cuadrados de las desviaciones de las puntuaciones con respecto a la media. Formalmente se expresa como: s;, (x 1 -x)2+(x2 -x)2+ -··+ (xn-x)2 I,(x; - x)2 n n S x2 = - - - - - - - - - - - - - - - = - - -- - 106 (3.4) MEDIDAS DE VARIABILIDAD V FORMA Es importante resaltar que para el cálculo de la varianza primero se elevan al cuadrado las diferencias y después se obtiene el promedio de esas desviaciones al cuadrado. Otra forma alternativa de calcular la varianza, que se deriva de la fórmula anterior y que simplifica los cálculos, es la siguiente: LX¡ 2 - 2 (3 .5 ) Sx = - - - X n Ejemplo 3.2. En la tabla adjunta figuran las puntuaciones de los cinco alumnos en la variable ansiedad ante los exámenes del Ejemplo 2.1 del tema anterior. La media que se obtuvo fue de X= 8. Calcúlese la varianza de las puntuaciones con las dos fórmulas propuestas. Atumno (x, - x) Ansiedad (X;) 11 1 2 3 4 5 -3 5 -4 5 13 4 15 3 7 -5 I: -xt X~I 9 25 16 49 25 25 169 16 225 9 124 444 (x; Según la fórmula 3.4: Según la fórmula 3 .5: s} = L x,2 _ x 2 = 444 - (8)2 = 88, 8 - 64 = 24, 8 n 5 - 107 INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Por otra parte, cuando los datos se presentan en tablas de distribución de frecuencias es necesario tener en cuenta la frecuencia de cada intervalo. En estos casos, la varianza se puede obtener utilizando las dos expresiones equivalentes siguientes: Varianza a partir de una distribución de frecuencias absolutas: 52 x - ~n ,t.., 1 (x - x) 2 1 In¡ n (3.6) o bien: S2 _ x - ~ nX 2 ,t..,, In¡ - 2 ' - X _I_n_¡X_,_2 - x 2 n (3. 7) donde: n es el número total de observaciones X¡ es el valor i en la variable X o el punto medio del intervalo n¡ es la frecuencia absoluta del valor o del intervalo i Varianza a partir de una distribución de frecuencias relativas: (3.8) donde: p¡ es la frecuencia relativa o proporción de observaciones del valor o del intervalo i 108 MEDIDAS DE VARIABILIDAD Y FORMA Ejemplo 3.3. Calcúlese la varianza de la distribución de frecuencias del Ejemplo 3.1, sabiendo que la media aritmética es igual a 5,9. Nota (x, - x) (x, -x)2 (X,) n, Pi 1 2 3 4 5 6 7 8 9 10 1 1 1 8 7 8 7 1 1 0,025 0,025 0 , 025 0,2 0,125 0,175 0,2 0,175 0,025 0,025 í: 40 1 5 -4,9 - 3,9 - 2,9 - 1,9 -0,9 0,1 1,1 2,1 3,1 4,1 n1(x 1 1 24,01 15,21 8,41 3,61 0,81 0,01 1,21 4,41 9,61 16,81 - x)2 24,01 15,21 8,41 28,88 4,05 0,07 9,68 30,87 9,61 16,81 x: 1 4 9 16 25 36 49 64 81 100 147,6 n,l(f p,Xf 0,025 1 4 0,1 0,225 9 128 3,2 125 3,125 252 6,3 392 9,8 448 11,2 81 2,025 100 2,5 1540 38,5 Aplicando la fórmula 3.6: s~ = In¡ (x; - x)2 n = 147,6 = 3 69 40 ' Aplicando la fórmula 3. 7: s~ = r~x¡ - (x)2 = 1 !~º - (5,9) 2 = 38,5 - 34,81 = 3,69 Aplicando la fórmula 3.8: S x2 '° = L..i p¡X;2 - -X 2 = 38, 5 - ( 5, 9 )2 = 38, 5 - 34, 81 = 3, 69 Ejemplo 3.4. En la siguiente tabla se muestran las puntuaciones agrupadas en intervalos de la variable ansiedad antes los exámenes para el grupo 1 del Ejemplo 2.3 del tema anterior. La media calculada para esta distribución es igual a 11,5. Calcúlese la varianza de las puntuaciones con las tres fórmulas. 109 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD X X¡ n, P1 1-5 6-10 11-15 16-20 21-25 26-30 3 8 13 18 23 28 5 4 6 3 1 1 0,25 0,2 0,3 0,15 0,05 0,05 ¿ 20 1 (x, -x) (x,-x)2 n,(x, - x)2 xf -8,5 -3,5 1,5 6,5 11,5 16,5 72,25 12,25 2,25 42,25 132,25 272,25 361,25 49 13,5 126,75 132,25 272,25 955 9 64 169 324 529 784 n1 Xf p,xf 45 256 1014 972 529 784 2,25 12,8 50,7 48,6 26,45 39,2 3600 180 Según la fórmula 3.6: s; = ¿,n;(X; - -X)2 = 955 = 47 75 n 20 ' Según la fórmula 3. 7: 5 2 X = ¿,n;Xt n -(x) 2 = 36 ºº-(115) 2 =1 80 -132 1 25=47 1 75 20 ' Aplicando la fórmula 3.8: 2 " 2 -X Sx2 =L,P;X; =180 - ( 11,5)2 =180 - 132,25=47,75 Como se puede observar, la varianza, al basarse en diferencias al cuadrado, es un número positivo que se expresa en las unidades de la variable al cuadrado. Por ejemplo, supongamos que la variable X se mide en metros. En este caso, las desviaciones de las puntuaciones con respecto a la media también vendr~n expresadas en metros, mientras que al elevarlas al cuadrado, (x; - x) las unidades se elevan al cuadrado. Por lo tanto, la varianza viene expresada en las mismas unidades que la variable pero al cuadrado, en este ejemplo, en metros cuadrados. Con el fin de lograr una medida de dispersión en las mismas unidades que la variable y que sea más fácilmente interpretable, se calcula la raíz cuadrada de la varianza y se obtiene un índice que se denomina desviación típica. (x; - x), La desviación típica de un conjunto de n puntuaciones, que se representa por Sx, es la raíz cuadrada positiva de la varianza, y la fórmula para calcularla es: 110 MEDIDAS DE VARIABILIDAD Y FORMA Sx = {sf = ~'I,(X;n- x)' (3.9) Tanto la varianza como la desviación típica son índices de dispersión muy útiles en el desarrollo posterior de la estadística inferencia!, estando en la base de numerosas técnicas estadísticas. Por lo general, a la hora de cuantificar la variabilidad de los datos, la desviación típica se suele utilizar más que la varianza debido a que se expresa en las mismas unidades de medida que la variable objeto de estudio. Asimismo, ambos índices presentan una serie de propiedades de las que pueden destacarse las siguientes: 1. El cálculo de la varianza y la desviación típica, a diferencia de otros índices de dispersión, requieren el uso de todas las puntuaciones observadas en la distribución. 2. La varianza y la desviación típica miden la variabilidad de los datos con respecto a la media aritmética, por lo que únicamente deben aplicarse si es apropiado utilizar la media como medida de tendencia central. 3. La varianza y la desviación típica siempre son no negativas, es decir, pueden ser iguales o mayores que cero . Son iguales a cero únicamente si todas las puntuaciones son iguales entre sí . En este caso, no habría variabilidad o dispersión en los datos. En el resto de los casos, la varianza y la desviación típica son positivas, siendo sus valores mayores a medida que aumenta la variabilidad de las puntuaciones. 4. Si a las puntuaciones de la variable X les aplicamos una transformación lineal: Y¡ = bX¡ + a la varianza de las nuevas puntuaciones Y será 5 ~ = 2 5; y la desviación típica será S y = S x · Es decir, si a una variable X se le suma o resta una constante a , la varianza y desviación típica de la variable original no se ven afectadas y siguen siendo las mismas. En cambio, cuando multiplicamos los valores de X por una constante b, la varianza queda multiplicada por la constante al cuadrado y la desviación típica por el valor absoluto de dicha constante. b lbl Por último, otro índice de variabilidad relacionado con la varianza es la cuasivarianza que se define como: 111 INTROOUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 2 I,(x¡ -x/ sn - 1 --- n -1 (3.10) donde se divide por n - 1, en lugar den como en la varianza. De forma análoga, la cuasidesviación típica se define como la raíz cuadrada de la cuasivarianza. 5n - 1 _I _(x_i -_x_/ _ 1r2 _ - './~n -1 - \ n- 1 (3.11) La cuasivarianza y la cuasidesviación típica son medidas de dispersión que se utilizan en inferencia estadística. En el Tema 10 se verá su utilidad como estimadores de la varianza y de la desviación típica de la población, respectivamente. 3.2.3. Coeficiente de variación Es frecuente que uno de los objetivos del análisis descriptivo de los datos sea la comparación del grado de variabilidad o dispersión entre dos conjuntos de puntuaciones en una misma variable o en distintas variables. Debido a que, por lo general, las variables objeto de estudio se miden en unidades distintas no tiene sentido compararlas en base a los valores de sus varianzas o desviaciones típicas. Para paliar este inconveniente es necesario definir un índice de variabilidad relativa que no dependa de las unidades de medida. Un coeficiente que cumple con estos requisitos es el coeficiente de variación, que se expresa en porcentajes y se define como: CV 5 = .! -100 X _ _ 11 112 (3.12) MEDIDAS DE VARIABILIDAD Y FORMA El coeficiente de variación está definido para variables con X > O y es recomendable que su resultado se acompañe de la media y desviación típica de la distribución a partir de las cuales ha sido calculado. Es importante resaltar que, cuando comparamos dos conjuntos de puntuaciones obtenidas de la misma variable, también es necesario el coeficiente de variación para comparar la dispersión de ambas distribuciones. Únicamente es posible utilizar la desviación típica cuando la media de ambos grupos es la misma y, en ese caso, llegaríamos a las mismas conclusiones con ambos índices. Ejemplo 3.5. En las siguientes tablas se muestran las puntuaciones agrupadas en intervalos de la variable ansiedad ante los exámenes para cada uno de los dos grupos del Ejemplo 2.3. del tema anterior. Sabiendo que la media del Grupo 1 es 11,5 y la del Grupo 2 vale 7,75, ¿qué grupo presenta mayor variabilidad en su distribución con los datos agrupados en intervalos? Ansiedad ante los exámenes en el Grupo 1 x, X 1 6 11 16 21 26 - 5 10 15 20 25 30 I 3 8 13 18 23 28 Ansiedad ante los exámenes en el Grupo 2 n; X 5 6 3 1 1 1 6 11 16 21 26 - 20 I 4 5 10 15 20 25 30 X; TI¡ 3 8 13 18 23 28 8 8 2 1 1 o 20 Para comparar la variabilidad o dispersión de ambos grupos se utiliza el coeficiente de variación. Para ello se necesita la media y la desviación típica en cada grupo. Grupo 1 o grupo control: X1 = 11,5 y del ejemplo 3.4 se sabe que S~ ¡ = 47, 75 ➔ Sx l = ,-!47, 75 = 6,91 Por tanto, el coeficiente de variación del Grupo 1 es igual a: 113 CV.1 5 61 91 X1 115 / = 5 -100 = x 100 = 60 089 ' Grupo 2 o grupo de tratamiento: X2 = 7, 75 Para obtener el valor de la desviación típica, se calcula primero la varianza del Grupo 2. X 16 11 16 21 26 - n, x2¡ n,xf 3 8 13 18 23 28 8 8 2 1 1 9 64 169 324 529 784 512 338 324 529 L 20 X¡ 5 10 15 20 25 30 o 72 o 1775 Según la fórmula 3.7: 2 ¿,n-X (- )2 1775 -(7,75)2=88,75-60,063=28,687 2 Sx = ~ ' - X = 20 2 5~ 2 = 28,687 ➔ 5 X 2 = ✓28, 687 = 5, 35602 "' 5, 36 Por tanto, el coeficiente de variación del Grupo 2 es igual a: CV2 = 5 5 36 x, -100 = , x 100 = 69, 16129 "' 69, 16 X2 7, 75 El porcentaje de variación del primer grupo en la variable ansiedad ante los exámenes es del 60,09%, mientras que el del segundo grupo en la misma variable es del 69,16%. Por lo tanto, dado que el coeficiente es mayor en el segundo grupo podemos concluir que el grado de dispersión de los datos es mayor en el segundo grupo (el que ha recibido el tratamiento o experimental), siendo el primer gru- 114 MEDIDAS DE VARIABILIDAD Y FORMA po (grupo control) más homogéneo entre sí en las puntuaciones en ansiedad ante los exámenes. Dicho de otra forma, los alumnos del Grupo 2 difieren más entre sí en ansiedad ante los exámenes que los del Grupo 1. Es interesante observar que si hubiésemos utilizado las desviaciones típicas o las varianzas, que son superiores en el primer grupo, se hubiese concluido erróneamente que la variabilidad es mayor en el primer grupo. 3.2.4. Am litud intercuartil La varianza y la desviación típica, junto con la media aritmética, son los estadísticos recomendados para estudiar la variabilidad y la tendencia central de una distribución de frecuencias. Sin embargo, como se ha mencionado previamente, en ocasiones, y debido a la asimetría de la distribución, no es aconsejable el uso de estos índices y debemos buscar una alternativa. En estas circunstancias, un índice resistente de dispersión adecuado, que se utilizaría junto con la mediana como medida de tendencia central, sería la amplitud intercuartil. La amplitud intercuartil, A 1Q, o rango intercuartil es la diferencia entre el tercer y el primer cuartil. Es decir: (3.13) Como se puede observar, este índice no informa de la variabilidad del conjunto de puntuaciones, sino del 50% de las mismas comprendidas entre el percentil 25 y el 75 de la distribución. Ejemplo 3.6. En la siguiente tabla se muestran las puntuaciones agrupadas en intervalos de la variable ansiedad ante los exámenes de los 40 alumnos del Ejemplo 2.6 del Tema 2. ¿cuál es el valor de la amplitud intercuartil de esta distribución? 115 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD X 26 21 16 11 6 1 - 30 25 20 15 10 5 x, n, n,, 28 23 18 13 8 3 1 2 4 8 12 13 40 39 37 33 25 I: 13 40 Cálculo del percentil 75: n • k = 40 x 75 = 30 or lo que el intervalo crítico es [11-15] con ' p na= 33, ne= 8 y nd= 25. Aplicando la fórmula: 100 100 = 10,5+ ( 30 - 25) x S=l0,5+3,125 = 13,625 "' 13,63 8 Cálculo del percentil 25: n . k = 40 x 25 = 10 , por 1o que e1.1nterva 1o critico , . es [1 -5 ] con 100 100 ne= 13 y nd=0 Aplicando la fórmula: ~ P2s= L;+ J· 1 = 0,5 + [ 4010~325 _ OJx 5 = _n lOOne X d [ = 0, 5 +(~~) X 5 = 0, 5 + 3, 84615 = 4, 34615 "' 4, 35 Por lo tanto, la amplitud intercuartil es: A1Q = Q3 116 - Q1 = P1s - P2s = 13, 63 - 4, 35 = 9, 28 nª = 1 3 , MEDIDAS DE VARIABILIDAD Y FORMA En el Apartado 3.4 de este capítulo se describirá un tipo de gráfico denominado diagrama de caja, que se basa precisamente en la amplitud intercuartil. 3.3. MEDIDAS DE FORMA Otro aspecto importante a considerar en la distribución de frecuencias es la forma que presenta la distribución. La forma se estudia a través de dos propiedades, la asimetría y la curtosis. En el Tema 1 se ha visto como mediante la representación gráfica se puede visualizar si una distribución es más o menos simétrica, qué tipo de asimetría la caracteriza (positiva o negativa) y el grado de apuntamiento de los datos. A continuación se van a describir dos índices de asimetría y un coeficiente de curtosis, que aportan datos numéricos a ambas propiedades de la forma de la distribución. 3.3.1. Asimetría de una distribución La asimetría de una distribución nos indica el grado en el que las puntuaciones se reparten por debajo y por encima de la medida de tendencia central. Existen diferentes índices para cuantificar esta propiedad, sin embargo, en este apartado vamos a describir los dos índices de asimetría que se utilizan con más frecuencia: el de Pearson y el de Fisher. Índice de asimetría de Pearson: se basa en la relación entre la media y la moda, y matemáticamente se expresa de la siguiente manera: X - Mo Ap = - - - Sx (3.14) Se trata de un índice adimensional (no tiene unidades de med ida) que se aplica a distribuciones unimodales (con una única moda). Cuando la distribución es simétrica, la media y la moda co inciden, por lo que el numerador se anula y el valor de Ap = O. En distribuciones con asimetría positiva, la media es mayor que la moda, por lo que A p > O. Por otro lado, cuando la asimetría es negativa, el valor de la moda es superior al de la media y, en consecuencia Ap< O. En la Figu ra 3.2 se presenta la relación 117 INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD entre la representación gráfica de la asimetría de una distribución y el índice de asimetría de Pearson. 30 25 20 n 15 10 5 o 1 2 3 4 6 X = Mo = 5 Distribución simétrica: X= 7 9 X 8 Mo ⇒ Ap = O 30 25 20 n 15 10 5 o '-'-'----'---+--'--+'--'-'---'---+----'---'--~ 1 4 Mo 5 6 7 8 9 X = 2 X = 3,36 Asimetría positiva: X > Mo ⇒ Ap > O 30 25 20 n 15 10 5 L...._____.~-, o '--"=--'---'-...c....__._....=.c+--=-'-==Y....'"""'-'""""t=-'----' 1 2 3 4 Asimetría negativa: 5 6 7 X = 6,64 Mo X < Mo 9 X =8 ⇒ Ap < O Figura 3.2. Relación entre la asimetría de una distribución y el índice de Pearson . 118 MEDIDAS DE VARIABILIDAD Y FORMA Ejemplo 3.7. Con los datos del Ejemplo 3 .6, donde se muestran las puntuaciones agrupadas en intervalos de la variable ansiedad ante los exámenes para el total de los cuarenta alumnos, lcuál es el índice de asimetría de Pearson y la representación gráfica de frecuencias? X = 9, 625 Sx = 6, 54 La moda Mo es el pu nt o med io del intervalo modal [1- 5] que es 3. Por lo tanto, Ap = X - Mo = 9,62 5 - 3 = 6,625 = l, Ol Sx 6,54 6,54 El resu ltad o indica que la distribución presenta asimetría positiva, resultado que concuerda con la inspección visual de la distribución de frecuencias del diagrama de barras. 14 12 n; 10 8 6 4 2 o 3 Mo= 3 8 13 X = 9,625 18 23 28 A continuación se describe un segundo índice para cuantificar la asimetría de una distribución de frecuencias denominado Índice de asimetría de Fisher. Se basa en las distancias de las puntuaciones respecto a su media elevadas al cubo, por lo que su valor puede ser positivo, negativo o cero. Su expresión matemática es: 119 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD (3.15) Para el caso en que los datos se presenten en tablas de distribución de frecuencias, su expresión es: (3.16) Este índice tiene en cuenta todas y cada una de las puntuaciones de la muestra por lo que puede considerarse el mejor índice de asimetría. Al igual que el índice de Pearson su valor es O si la distribución es simétrica (AF= O); menor que O si la distribución es asimétrica negativa (A F< O); y mayor que O si es asimétrica positiva (AF> O) . Ejemplo 3.8. Partiendo de los datos del Ejemplo 3.3 de la distribución de frecuencias de la variable notas en el examen de lengua de la PAU, calcule el índice de asimetría de Fisher para esa distribución. Dado que los datos están agrupados en intervalos, se utiliza la fórmula 3.16 De los datos del Ejemplo 3.3 sabemos que X = 5, 9 y disponemos del valor de la varianzas} = 3, 69, por lo que la desviación típica es: S x = .j3, 69 =1, 92 ~ 5~ = 7,078 También se tiene la información de n; y de (x; - x). A partir de esa información se construye una tabla con los datos que se van a necesitar para el cálculo del índice. 120 MEDIDAS DE VARIABILIDAD Y FORMA Nota (X,) n, 1 2 4 5 6 7 8 9 10 1 1 1 8 5 7 8 7 1 1 L 40 3 (x, - x) (x, -xf n,(x, -x) 3 -4,9 -3,9 -2,9 -1,9 -0,9 0,1 1,1 2,1 3,1 4,1 -117,649 -59,319 -24,389 -6,859 -0,729 0,001 1,331 9,261 29,791 68,921 -117,649 -59,319 -24,389 -54,872 -3,645 0,007 10,648 64,827 29,791 68,921 -85,68 Sustituyendo: AF = ~ n¡ (x; - ><) L_; n. st 3 = - 85 68 I 40 x 7,078 = - 85 I 68 283, 12 = - 0, 303 Su valor es negativo, y por lo tanto menor que O, por lo que es una distribución asimétrica negativa. 3.3.2. A untamiento o curtosis de una distribución Como ya se estudió en el primer tema, la curtosis se refiere al grado de apuntamiento de los datos en la distribución de frecuencias. Tomando como referencia la curva normal, que se estudiará en el Tema 8, la distribución puede adoptar tres formas diferentes: a) leptocúrtica: si la distribución es muy apuntada; b) platicúrtica: si es muy aplastada; y c) mesocúrtica: si muestra un grado de apuntamiento intermedi o. A continuación se presenta un índice que cuantifica el grado de apuntamiento de la distribución de frecuencia s. El índice de curtosis se basa en las distancias de cada puntuación respecto a la media elevadas a la cuarta potencia, y matemáticamente se expresa co mo: 121 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD e =I r (X., - -X )4 n- 54X 3 i (3.17) Para el caso en que los datos se presentan en una distribución de frecuencias, su expresión es: "'n-(x. - x)4 - C = L..J, r 1 n -54X 3 (3.18) Una distribución en la que el índice sea O (Cr = O) se dice que es mesocúrtica y tiene un grado de apuntamiento similar al de la curva normal. Si el índice es positivo (Cr > O) la distribución es leptocúrtica y el apuntamiento es mayor que en la distribución normal. Por el contrario, si el índice es negativo (Cr< O) la distribución es platicúrtica y el grado de curtosis o apuntamiento es menor que en la curva normal. Ejemplo 3.9. Siguiendo con los datos del Ejemplo 3.8, calcule el índice de curtosis para dicha distribución de frecuencias. Disponemos de los siguientes datos: 5x 122 = 1, 92 por lo que 5i = 13, 59; n = 40 MEDIDAS DE VARIABILIDAD Y FORMA Nota (X,J n, (x, -X) (x,-x)4 n,(x, -x}4 1 2 3 4 5 6 7 8 9 10 1 1 1 8 5 7 8 7 1 1 ¿ 40 -4,9 -3,9 -2,9 -1,9 -0,9 0,1 1,1 2,1 3,1 4,1 576,48 231,344 70,728 13,032 0,656 0,0001 1,464 19,4480 92,352 282,576 576,48 231,344 70,728 104,256 3,281 0,0007 11,712 136,136 92,352 282,576 1508,866 Aplicando la fórmula 3 .18: er = ¿,n; (x; - x)4 1508, 866 1508,866 -3= -3= - 3= 40 X 13,59 543,6 n •Si = 2, 776 - 3 = - 0, 224 . El índice es negativo (Cr< O), por lo que la distribución es platicúrtica y el grado de curtosis o apuntamiento es menor que en la curva normal. 3.4. DIAGRAMA DE CA A El diagrama de caja o también llamado gráfico de caja y bigotes (boxplots o box and whiskers) fue propuesto por Tukey ( 1977). Se trata de una presentación visual que resulta útil para estudiar la asimetría de una variable cuantitativa, así como para detectar si hay valores extremos o atípicos (outliers) en la distribución de frecuencias (sin agrupar en intervalos). El diagrama se representa mediante una caja rectangular (ver Figura 3 .3), cuya altura se corresponde con la amplitud o rango intercuartil A1Q = Q 3 - Q 1 = P 7s - P 2s. Dentro de la caja se dibuja una línea para indicar dónde se sitúa la mediana, que como ya se ha estudiado, coincide con el segundo cuartil o Q 2 • La caja es atravesada por una línea vertical llamada 123 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD bigote, en cuyos extremos se sitúan los valores mínimos y máximos de la variable (sin considerar los valores atípicos en caso de que existan). Los límites que determinan si un valor es atípico se calculan multiplicando la amplitud intercuartil (A 1Q) por 1,5 y restando este resultado al primer cuartil Q 1 (cálculo del límite inferior) o sumándolo al tercer cuartil Q 3 (cálculo del límite superior). O lo que es lo mismo: (3.19) (3.20) A continuación en la Figura 3.3, se representan la estructura y elementos que componen el diagrama de caja. Además de esta representación vertical, el diagrama de caja también puede presentarse de forma horizontal girando la figura 90° hacia la derecha. Atípico .. o max(X)lx:5 L5 1 1 Q3 (75%) Mediana Q 2 (50%) Q¡ (25%) 1 1 .L min (X) lx ~ L1 Figura 3.3. Representación gráfica de un diagrama de caja y bigotes. 124 MEDIDAS DE VARIABILIDAD Y FORMA Cuando existen casos extremos o atípicos, éstos aparecen como un círculo pequeño por encima o por debajo de los bigotes del diagrama de caja. En la Figura 3.3 se puede apreciar que en la parte baja de la distribución no hay casos atípicos (no figura ningún círculo por debajo del bigote), mientras que se puede observar un caso atípico en los valores altos, por encima del bigote superior. Por otra parte, para estudiar la asimetría se va a tener en cuenta la longitud de los bigotes y el número de casos atípicos en ambas colas de la distribución: si los bigotes tienen la misma longitud y el mismo número de casos atípicos en ambos lados, diremos que es aproximadamente simétrica. Por otro lado, si los bigotes son de igual longitud pero hay más casos atípicos en un extremo en una cola de la distribución, entonces diremos que la distribución presenta asimetría (Pardo, Ruiz y San Martín, 2009). Por último, si los bigotes presentan diferente longitud estamos ante una distribución asimétrica, como es el caso que se ha representado en la Figura 3.3, en el que la longitud del bigote superior es mayor que la del bigote inferior. Ejemplo 3.10. Dibuje el diagrama de caja de la variable ansiedad ante los exámenes para los Grupos 1 y 2 (ver Tabla 1.2 del Tema 1). Se dispone de la siguiente información: Grupo 1: Grupo 2: Ql = P25 = 5,5 Ql = P25 = 4,75 Q2 = Pso = 12 Q3 = P75 = 15,5 Q2=Psa=7,5 Q3 = P75 = 10,17 Amplitud Intercuartil: A¡Q = Q3 - Ql = 15,5 - 5,5 = 10 Amplitud Intercuartil: A1Q=Q3-Q 1 = 10,17-4,75 = 5,42 Puntuación máxima= 30 Puntuación mínima= 3 Puntuación máxima = 22 Puntuación mínima = 2 Límites superior e inferior para el cálculo de valores atípicos: Límites superior e inferior para el cálculo de valores atípicos: L5 = Q 3 + A 1Q x 1,5 = 15,5 + 10 x L5=Q3+A¡QX 1,5= 10,17+ X 1,5 = 30,5 + 5,42 X 1,5 = 18,3 125 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD L1 = Q 1 - AIQ x 1, 5 X 1,5 = -9,5 = 5, 5 - 1Ox L1 =Q 1 -A 1Qx 1,5=4,75- 5,42 X 1,5 = -3,38 Con esta información se pasa a dibujar el diagrama de caja de cada grupo para la variable ansiedad ante los exámenes. Diagrama de caja para la variable ansiedad ante los exámenes Grupos 1 y 2 30 111 GJ 25 e - ·- .. - GJ E ,n:, >< o 20 GJ --- 111 .5! ....eGJ 15 ra "0 ra "0 GJ 10 ·¡¡¡ e e( 5 o 1 2 Grupo En el Grupo 1 no se observa ninguna puntuación fuera de los límites inferior y superior, por lo que no hay ningún valor atípico. En el Grupo 2, sin embargo, la puntuación 22 está fuera del límite superior, siendo un valor atípico. Por ello, la puntuación máxima que marca el límite superior del bigote pasa a ser la inmediata inferior, la puntuación 17. Con respecto a la asimetría, se observa que en ambos grupos la longitud del bigote superior es mayor que la del bigote inferior (especialmente en el Grupo 1). Esto indica asimetría en las distribuciones de las puntuaciones en ansiedad en los dos grupos de personas. 126 MEDIDAS DE VARIABILIDAD Y FORMA 3.5. PUNTUACIONES TÍPICAS Hasta ahora hemos tratado fundamentalmente con puntuaciones directas (puntuaciones de un sujeto en un test, etc.). Estos son los primeros datos de los que habitualmente disponemos, pero la comparación de las puntuaciones directas de un mismo sujeto en dos variables distintas puede llevarnos a confusión, ya que las puntuaciones directas nos ofrecen muy poca información. De hecho, conocida una puntuación directa no sabemos si se trata de un valor alto o bajo porque esto depende del promedio del grupo. Una solución a este problema es trabajar con puntuaciones diferenciales. Si a una puntuación directa X; le restamos la media de su grupo obtenemos una puntuación diferencial o de diferencia, que representamos por X; (minúscula) y que, por tanto, viene definida así: 1 x, = x, -X (3.21) 1 Las puntuaciones diferenciales aportan más información: nos indican si la puntuación coincide con la media de su grupo, es inferior o es superior a ella. Estas puntuaciones presentan las siguientes propiedades: a) su media es cero: x - =O LX; I(x; - x) LX; - IX LX; nX - = - - -- =--'---- = - - - - = X - X = o n n n n n X=- b) la varianza de las puntuaciones diferenciales es igual a la varianza de las puntuaciones directas: 2 S; = I(x; - x)2 = Ixf = _I_;_(x_;_-_x_;_)_ = si n n n Por tanto, al restar a las puntuaciones directas su media hemos obtenido una nueva escala con media O y con idéntica varianza a las puntua ciones directas. Sin embargo, dos puntuaciones diferenciales idénticas pueden tener un significado muy diferente en función de la media y de la varianza de las distribuciones de las que proceden. Para eliminar este 127 INTRODUCCIÓN A ANÁLISI DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD inconveniente se utilizan las puntuaciones típicas. Las puntuaciones típicas van más allá y nos permiten no sólo comparar las puntuaciones de un sujeto en dos variables distintas, sino también comparar dos sujetos distintos en dos pruebas o variables distintas. Una puntuación típica o tipificada viene definida por: X¡ z x=-= 5x X; - X (3.22) 5x Al proceso de obtener puntuaciones típicas se llama tipificación. En realidad una puntuación típica indica el número de desviaciones típicas que se aparta de la media una determinada puntuación. Las puntuaciones típicas tienen las siguientes propiedades: a) su media es cero b) su varianza es igual a 1 = I(tJ n 1 " 2 = ~ L.xi = _!_ ¿xf = _!_52 = 1 n 52 X n 52 X x Las puntuaciones típicas reflejan las relaciones entre las puntuaciones con independencia de la unidad de medida. Por este motivo permiten hacer comparaciones entre distintos grupos e incluso entre distintas variables. Ejemplo 3.11. Se presentan los datos del Ejemplo 3.2 de las puntuaciones de cinco alumnos en la variable ansiedad ante los exámenes, con media de X = 8. Se pide demostrar las propiedades de las puntuaciones diferenciales y típicas señaladas anteriormente. 128 MEDIDAS DE VARIABILIDAD Y FORMA Del Ejemplo 3.2 tenemos los siguientes datos de las puntuaciones directas: - . 2 X= 8 , S x = 24, 8 1 ' (x - i}2 X ttl ~) X == { X-X 5 13 4 15 3 -3 5 -4 7 -5 9 25 16 49 25 ¿ o 124 Puntuaciones diferenciales: a) su media es cero - I,x -3+5- 4 +7- 5 X = - - = - - -- - - = Ü n 5 b) la varianza de las puntuaciones diferenciales es igual a la varianza de las puntuaciones directas 52 X = I,(x - xf = 124 = 24,8 n 5 Como se puede observar, se cumplen las dos propiedades ind icadas para las puntaciones diferenciales. Puntuaciones típicas : 1 Z,t ,¡; 5 13 4 15 3 5 -4 7 -5 ¿ o -0 ,602 1,004 - 0 ,80 3 1,405 - 1, 0 04 o 2 (zx -zx) 0 ,362 1,008 0,645 1,974 1,008 4, 9 97 129 ION AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD x X- X Sx Sx zx=-=-- sx = -./24, 8 = 4, 98 a) su media es cero: Zx = 2,Zx = - 0,602+1,004-0,803+1,405 n 5 1,004 =Q =O 5 b) su varianza es igual a 1: s2 z = I. (z - z/ n = 4, 997 = o, 999 ,,,, i 5 Se puede comprobar que también se cumplen las propiedades enunciadas para las puntuaciones típicas. 3.6. RESUMEN En este tema se han examinado dos propiedades importantes de una distribución de puntuaciones: la variabilidad o dispersión de los datos y la forma de la distribución. Se han descrito las medidas de variabilidad que se emplean habitualmente, haciendo hincapié en las dos más relevantes en el campo de la estadística: la varianza y la desviación típica. Asimismo, se ha presentado el coeficiente de variación, que resulta útil para el estudio comparativo de la variabilidad en diferentes conjuntos de puntuaciones. También se ha estudiado la amplitud intercuartil que es aconsejable utilizar en el caso de distribuciones asimétricas. La segunda propiedad descrita ha sido la forma de una distribución, y se ha llevado a cabo a través del estudio de la asimetría o sesgo y de la curtosis. Para cuantificar el grado de asimetría de una distribución y determinar el tipo de asimetría, se han propuesto dos índices: el de Pearson, basado en la relación entre la media y la moda del conjunto de las puntuaciones, y el de Fisher, que se basa en las distancias de las puntuaciones respecto a su media. A continuación, se ha presentado el índice de curtosis, que evalúa el grado de apuntamiento de la distribución, ofreciendo así otra manera de cuantificar la forma de una distribución. 130 MEDIDAS DE VARIABILIDAD Y FORMA Seguidamente, se ha presentado el diagrama de caja que es un tipo de gráfico que se basa en la amplitud intercuartil y tiene bastante utilidad para estudiar la asimetría y los valores atípicos. Por último, se han definido las puntuaciones diferenciales y las típicas que se derivan de las puntuaciones directas de los sujetos a través de una transformación. Se han estudiado las propiedades de cada tipo de puntuación, así como la información que podemos obtener a partir de ellas para poder comparar entre sí a los sujetos, o al mismo sujeto en diferentes variables . 3.7. E ERCICIOS 3.1. La varianza es una medida de dispersión que se basa en las desviaciones de cada puntuación con respecto a la: A) moda; B) mediana; C) media. 3.2. La desviación típica de una distribución de frecuencias: A) se expresa en las mismas unidades de medida que las puntuaciones; B) se expresa en las mismas unidades pero elevadas al cuadrado; C) no tiene unidades de medida. 3.3. En una distribución marcadamente asimétrica, se recomienda medir la dispersión de los datos con: A) la amplitud intercuartil; B) la varianza; C) el coeficiente de variación. 3.4. En el estudio de la asimetría de una distribución de frecuencias se ha observado un A p= 0,80. La media de las puntuaciones es: A) igual que la moda; B) menor que la moda; C) mayor que la moda . 3.5. En una distribución en la que el índice de curtosis es negativo (Cr < O), la distribución es: A) leptocúrtica y el apuntamiento es mayor que en la distribución normal; B) mesocúrtica y el grado de apuntamiento es similar al de la curva normal; C) platicúrtica y tiene un menor grado de apuntamiento que la distribución normal. 3.6. La variable X toma los siguientes valores: 50, 26, 35, 64, 34, 28 , 73, 45, 48, 52, 54, 67. Sabiendo que la media es 48, la varianza es igual a: A) 15; B) 213; C) 115. 3.7. Con los datos de la Gráfica 1, la desviación t ípica es igual a: A) 1,98; B) 2,53; C) 3,88 . 131 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 3.8. 3.9. Con los datos de la Gráfica 1, el valor del índice de asimetría de Pearson es: A) -0,09; B) -0,19; C) -0,18. Con los datos de la Gráfica 1, el índice de asimetría de Fisher es: A) 0,28; B) 0,07; C) 0,37. 3.10. Con los datos de la Gráfica 1, el índice de curtosis tiene un valor de: A) - 0,17; B) 0,38; C) 0,08. La sigu iente gráfica (Gráfica 1) se corresponde con las notas en Lengua de 80 niños de una clase de Primaria. Se sabe que la media es 4,625. 21 20 19 18 17 16 15 14 13 12 11 e: 10 9 8 7 6 3.11. Con los datos de la Gráfica 1, a un sujeto con una puntuación de X= 7, ¿qué puntuación típica le corresponde?: A) 0,61; B) 1,20; C) 2,37. s 4 3 2 2 3 4 5 6 7 8 9 10 X 3.12. Según la información que se aporta en la Gráfica 1, ¿cuál es el coeficiente de variación de la distribución de frecuencias?: A) 83,80; B) 46,32; C) 42,81. 3.13. De acuerdo con los datos de la Gráfica 1, la amplitud intercuartil es igual a: A) 3,56; B) 1,35; C) 2,69. 3.14. Con los datos de la Tabla 1, la desviación típica es: A) 13,96; B) 194,75; C) 6,50. 3.15. Siguiendo con los datos de la Tabla 1, ¿es exactamente simétrica la distribución?: A) sí; B) no, es ligeramente asimétrica positiva; C) no, es ligeramente asimétrica negativa. 132 En la tabla adjunta (Tabla 1) se muestra la variable edad agru pada en intervalos. La media de esta variable es de 50. 66-75 56-65 46-55 36-45 26- 35 7 7 13 3 10 MEDIDAS DE VARIABILIDAD Y FORMA 3.16. Según la distribución de la variable edad mostrada en la Tabla 1, un sujeto con 55 años tiene una puntuación diferencial de: A) -5; B) 5; C) O. 3.17. Si se compara la variabilidad de las distribuciones de frecuencias en la variable notas en Lengua (Gráfica 1) y en la variable edad (Tabla 1), se concluye que la dispersión: A) es mayor en la puntuación en Lengua; B) es mayor en la variable edad; C) es la misma en ambas variables. 3.18. El índice de asimetría de Pearson NO se puede calcular cuando: A) la variable es continua; B) la distribución es bimodal; C) la amplitud total es superior a diez. 3.19. Señala cuál de estas afirmaciones NO es correcta: A) la media de las puntuaciones diferenciales es O; B) la varianza de las puntuaciones diferenciales es siempre igual a 1; C) la varianza de las puntuaciones diferenciales es igual a la varianza de las puntuaciones directas. 3.20. Si realizamos la siguiente transformación lineal con las puntuaciones típicas, V= 14 + 4z, la varianza de la variable V será: A) 14; B) 4; C) 16. 3.8. SOLUCIONES A LOS EJERCICIOS 3.1. Solución: e La varianza mide la dispersión de los datos con respecto a la media, tal y como se puede apreciar en su fórmula (ver Apartado 3.2.2) 3.2. Solución: A La desviación típica, a diferencia de la varianza, se expresa en las mismas unidades que la variable medida (ver Apartado 3.2.2) 3.3. Solución: A En una distribución asimétrica no es recomendable utilizar la media como medida de tendencia central. Como consecuencia, la varianza, que se basa en la variabilidad con respecto a la media, tampoco es recomendable. Una alternativa es la amplitud intercuartil, un índice resistente de dispersión (ver Apartado 3.2.4). 133 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 3.4. Solución: e Tal y como se indica en el Apartado 3.3.1, cuando el índice de asimetría de Pearson es positivo (Ap= 0,80), la media es mayor que la moda. 3.5. Solución: e Tal y como se indica en el Apartado 3.3 .2, cuando el índice de curtosis es negativo (Cr< O), la distribución es platicúrtica y tiene un menor grado de apuntamiento que la distribución normal. 3.6. Solución: B - X) (X; X; (x; -x)2 x2¡ 50 26 35 64 34 28 73 45 48 52 54 67 2 -22 - 13 16 - 14 -20 25 -3 4 484 169 256 196 400 625 9 o o 4 6 19 16 36 361 2500 676 1225 4096 1156 784 5329 2025 2304 2704 2916 4489 ¿ o 2556 30204 X = 48 52 X = ¿_(X¡ - 48)2 = 2556 = 213 12 s; = L12x¡ - 48 134 12 2 = 30204 - 2304 = 2517 - 2304 = 213 12 MEDIDAS DE VARIABILIDAD Y FORMA 3.7. Sol ución: A X; n; x?-I n;Xf 10 1 2 4 5 12 20 12 100 81 64 49 36 25 16 9 4 1 100 162 256 245 432 500 192 99 36 4 9 8 7 6 5 4 3 2 1 11 9 4 ¿ 80 2026 X = 4,625 52 X = 2, n;X ;2 - (4 625)2 = 2026 - 21 39 = 3 935 80 1 1 80 1 Sx = ..}3, 935 = 1,984 "' 1, 98 3.8. Solución: B X = 4,625 Mo = 5 Í ndice de Pearson Ap = X - Mo Sx = 4, 625 - 5 - 0, 375 = = 1, 98 1,98 = - 0, 189 "" - 0, 19 3.9. Solución: A X = 4,625; Sx = 1, 98; s; = 7,762 135 INII AF = 1 NALI NA 1 DAr 1 (X;) n, 10 9 8 7 6 5 4 3 2 1 1 2 4 5 12 20 12 L 80 ¿,n¡ (xi 11 9 4 - x)3 3 n . 5X = n; 10 1 2 4 5 12 20 12 11 9 4 9 8 7 6 5 4 3 2 1 L 80 A ION SEN PSICOLOGIA Y CIENCIAS DE LA SALUD 5,375 4,375 3,375 2,375 1,375 0,375 -0,625 -1,625 -2,625 -3,625 155,287 83,74 38,443 13,396 2,6 0,053 -0,244 -4,291 -18,088 -47,635 221,9 n;(X; - x)3 155,287 167,48 153,772 66,98 31,2 1,06 -2,928 -47,201 -162,792 - 190,54 173,318 173,318 = 173,318 = O 279 "" O 28 1 1 80 X 7, 762 620, 96 1,98; X; I (x; - x) (x; - x)3 3.10. Solución: A X= 4,625; S x !A s: = 15,37 (x 1 - x) (x; - x)4 5,375 4,375 3,375 2,375 1,375 0,3 75 - 0,625 -1,625 -2,625 - 3,625 834,668 366,364 129,746 31 ,817 3,574 0,02 0,153 6,973 47,48 172,676 n;(X; - x)4 834,668 732,728 518,984 159,085 42,888 0,4 1,836 76,703 427,32 690,704 3485,316 Aplicando la fórmula del índice de curtosis tenemos que: 136 MEDIDAS DE VARIABILIDAD Y FORMA C = r -xt ¿,n¡ (xí n-s: -3 = 3485, 316 -3 = 3485,316 -3 = 2 835 - 3 = 80 x 15,37 1229,6 ' = -0, 165 "" -0, 17 Dado que el índice se aproxima a O, el grado de apuntamiento es muy próximo al de la curva normal. 3.11. Solución: B X = 4,625; S x = 1,98; 3.12. Solución: z x =X-X = 7 sx X 1 98 • x 100 = 42,81 4,625 e X; n; n" 10 1 2 4 5 12 20 12 80 79 9 8 7 6 5 4 3 2 1 77 73 68 56 36 24 11 9 4 ¿ Ql 4 625 , = 1,199 "" 1,20 1, 98 e X = 4,625; Sx= l,98; CV =~x lOO = 3.13. Solución: - 13 4 80 = p 25 : n . 25 80X 25 - = - = 20 , por 1o que e 1 interva . 1o critico , . es [2 , 5 - 3 ,5 ] con 100 nª = 24, ne= 11 y nd = 13 (ver fila para X= 3 en la tabla): 100 p2 5 = L, + ( ~ot nd } ¡ = 2, s 8 +[- 1 13 - x 1 = 3, 136 -=~=~-=--i-:--- = 3, 14 137 INTRODUCCIÓN Al ANÁLI SIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD = P 75: Q3 n. 75 = 80 . 75 = 60 , por 1o que e 1 1nterva . 1o critico , . es [5 , 5 - 6 , 5] con 100 100 n 0 = 68, ne= 12 y nd = 56 (ver fila para X= 6 en la tabla): P,s = A¡Q = f l º~,- ½ n ' 8 I= 5, 5 + ( - 56 - ) x 1 = 5,833 = 5, 83 -~-~º-:-:--- Q3 - Ql = 5, 83 - 3, 14 = 2, 69 3.14. Solución: A X; X; n; x?-, n;X{ 66-75 56-65 46-55 36-45 26- 35 70,5 60,5 50,5 40,5 30,5 7 7 4970,25 3660,25 2550,25 1640,25 930,25 34791,75 25621,75 33153,25 4920,75 9302,50 I: 13 3 10 40 107790 X = 50 5 2 = ¿n;X( - (50 )2 = 107790 - 2500 = 1941 75 40 X Sx 40 = ✓194, 75 = 13, 95528 "" 13, 96 3.15. Solución: e A = X - Mo = 50 - 50, 5 = - O 036 Sx P 13,96 ' 3.16. Solución: B X = 50; X; = X; - X = 55 - 50 = 5 3.17. Solución: A Coeficiente de variación de Lengua: CVL = 42 ,55 (ver Ejercicio 3.12) 138 MEDIDAS DE VARIABILIDAD Y FORMA Coeficiente de variación de edad: . . Sx 13,96 X= 50, Sx = 13,96, CVE =-=- -100 = - - x 100 X 50 = 27,92 Dado que CVL > CVE, existe mayor dispersión en la distribución de las puntuaciones en Lengua. 3.18. Solución: B El índice de asimetría de Pearson se puede calcular en variables continuas y con cualquier valor en su amplitud total. En cambio, no se puede calcular cuando la distribución es bimodal (ver Apartado 3.3.1.2). 3.19. Solución: B La varianza igual a 1 se corresponde con una de las propiedades de las puntuaciones típicas, no de las diferenciales (ver Apartado 3.5). 3.20. Solución: e Tenemos una puntuación típica z y la transformamos en otra puntuación V. En concreto, hacemos una transformación lineal del tipo: V= a +bz, donde a= 14 y b=4 . Nos preguntan cuánto vale la varianza de esta nueva variable . Según la propiedad 4 de la varianza: Si a las puntuaciones de la variable X les aplicamos la siguiente transformación lineal : Y¡ = bX¡ + a la varianza de las nuevas puntuaciones Y será = b2 S } . s; Además, la varianza de las puntuaciones típicas es 1 (propiedad de las puntuaciones típicas). Por tanto, si V = 14 + 4z ⇒ sB= 4 s; = 16 x 1 = 16 2 • 139 TEMA4 Relación entre variables 1 4.1. INTRODUCCIÓN 4.2. ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS 4.2.1. Tabla de contingencia 4.2.2. Representación gráfica: diagrama de barras conjunto 4.2.2.1. Diagrama de barras adosadas 4.2.2.2. Diagrama de barras apiladas 4.2.3. Medidas globales de asociación entre variables cualitativas 4.2.3.1. Independencia yx2 4.2.3.2. Coeficiente C de Contingencia 4.2.3.3. Coeficiente V de Cramer 4.2.3.4. Coeficiente <p 4.3. RELACIÓN ENTRE VARIABLES ORDINALES 4.3.1. Coeficiente de correlación por rangos de Spearman 4.4. RESUMEN 4.5. EJERCICIOS 4.6. SOLUCIONES A LOS EJERCICIOS RELACIÓN ENTRE VARIABLES 1 4.1. INTRODUCCIÓN En los tres primeros temas del libro se ha presentado la manera de describir las propiedades de una variable: la tendencia central, la variabilidad y la forma (asimetría y curtosis). En el Tema 1 se realizó un primer acercam iento a estas propiedades de manera gráfica, y en los Temas 2 y 3 de manera analítica (mediante los índices que cuantifican estas propiedad es). Sin embargo, en Psicología como en cualquier otra ciencia , lo m ás habitual es tratar de resolver problemas en los que están implicados mú ltiples variables. Est ud iar conj untam ente m ás de una variable nos va a perm iti r responder a preg untas com o : LHa y relación en t re el sexo de los pacientes y el trastorno psicológico que padecen? ¿Hay relación entre la motivación y el rendimiento académico de los estudiantes en una determinada asignatura? ¿La motivación de los estudiantes predice su rendimiento? ¿Hay relación entre la puntuación obtenida por los estudiantes en una pregunta del examen y la puntuación obtenida en todo el examen? ¿Hay relación entre el tipo de terapia utilizada para combatir la ansiedad generalizada y la mejoría de los pacientes? Al igual que en la descripción de una única variable, el procedimiento a utilizar es diferente en función del tipo de variables que se trate. ■ Ambas variables son cualitativas ¿Hay relación entre el sexo de los pacientes y el trastorno psicológico que padecen? Lo que se cuestiona aquí es si la proporción o porcentaje de hombres y mujeres es igual en todos los trastornos. La pregunta es si existe o no cierta relación o asociación entre las variables que hace que el valor que adopte una de ellas (sexo) se asocie en alguna medida con determinados valores de la otra (trastorno psicológico). El estadístico que se utiliza para comprobar si existe esa relación o, por el contra rio, son variables independientes es x2 , junto a algunos coeficientes que permiten valorar la fuerza de la asociación entre dichas variables. ■ Ambas variables son ordinales Su tratamiento dependerá de la cantidad de valores que adopten ambas variables: si es un número muy reducido, entonces se utilizarán los mismos procedimientos que para variables cualitativas y 143 IN II JU Aro : APLICACIONES EN PSICOLOGÍA y CIENCIAS DE LA SALUD si es amplio se utilizarán índices estadísticos adaptados para este tipo de variables, como el coeficiente de correlación por rangos de Spearman. ■ Ambas variables son cuantitativas ¿Hay relación entre la motivación y el rendimiento académico de los estudiantes en una determinada asignatura? - En este caso, lo que se realmente se cuestiona es si al aumentar la motivación de los estudiantes se incrementa también su rendimiento y, a la inversa, si al disminuir su grado de motivación también lo hace correlativamente su rendimiento académico. El coeficiente de correlación momento-producto de Pearson es el índice más utilizado para apresar la relación entre este tipo de variables . - En el caso de encontrar relación entre esas dos variables, se puede ir un paso más allá y predecir una variable en función de la otra. Así, se podría pronosticar el rendimiento en una determinada asignatura, en función de la motivación de los estudiantes, o mejor aún, en función de su motivación y Cociente Intelectual (CI) mediante el análisis de la regresión. ■ Una variable es cualitativa y otra cuantitativa - ¿Hay relación entre la puntuación obtenida por los estudiantes en una pregunta del examen y la puntuación obtenida en todo el examen? En este caso de lo que se trata es de saber en qué medida esa pregunta contribuye a medir lo mismo que el examen en su conjunto. Para ello, se puede utilizar el coeficiente de correlación biserial puntual, que está muy directamente relacionado con el coeficiente que cuantifica la relación entre dos variables cuantitativas ( el coeficiente de correlación momento-producto de Pearson) . - ¿Hay relación entre el tipo de terapia utilizada para combatir la ansiedad generalizada y la mejoría de los pacientes? Si se desea saber qué terapia resulta más eficaz se puede aplicar a un grupo de pacientes la terapia cognitivo conductual (grupo A) y a otro grupo de pacientes similares la terapia de aceptación y compromiso (grupo B) y ver en qué grupo de pacientes se han obtenido mejores resultados al finalizar el tratamiento. Para ello, 144 RELACIÓN ENTRE VARIABLES 1 habrá que comparar la ansiedad de los pacientes en los grupos A y B (su media y/o variabilidad) para ver si hay diferencias relevantes o significativas entre uno y otro grupo y, con ello, ver si la eficacia de una terapia es mayor que la de la otra. En este tema veremos la relación que hay entre dos variables cualitati vas y entre dos variables ordinales. En el próximo tema examinaremos la relación entre dos variables cuantitativas y entre una cuantitativa y otra cualitativa, introduciendo también el análisis de la regresión. En el próximo curso se verán algunas técnicas de estadística inferencia! que, basándose en los índices aquí aprendidos, permitirán tomar decisiones sobre la relevancia del grado de relación entre las variables. Para estudiar dos variables cualitativas, se utilizarán tres estrategias relacionadas: la tabla de contingencia, el análisis gráfico y los índices globales de asociación. ■ La tabla de contingencia proporciona una forma resumida de repre sentar los datos de las dos variables que se quieren estudiar. Además de informar sobre las frecuencias conjuntas (de ambas variables) y marginales (de cada una de las dos variables por separado), permite valorar la relación de ambas variables mediante el estudio de las distribuciones condicionadas de una de las dos variables agrupadas en función de los valores de la otra . ■ Los diagramas de barras conjuntos son la representación gráfica apropiada para este tipo de variables. Se verán los dos más habituales, el diagrama de barras adosadas y el diagrama de barras apiladas. ■ El estadístico x2 se utilizará para comprobar la independencia entre dos variables cualitativas. Además, se proponen varias medidas globales para valorar la fuerza de la asociación entre las variables estudiadas: el coeficiente C de Contingencia, el coeficiente V de Cramer, y el coeficiente cp . Estos índices, basados en el estadístico x2 , tratan de superar algunas de sus limitaciones. En el caso de variables ordinales se estudiará el coeficiente de correla ción por rangos de Spearman y su interpretación. 145 IN IR U CIÓN AL ANAUSIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Objetivos del tema: ■ Saber realizar una tabla de contingencia a partir de una tabla de datos de dos variables cualitativas. ■ Adquirir la habilidad de leer la información proporcionada por una tabla de contingencia, interpretando los datos que aparecen en ella. ■ Distinguir y saber calcular los tres tipos de porcentajes que pueden aparecer en una tabla de contingencia (porcentajes del total, condicionados a X y condicionados a Y). ■ Saber representar en diagramas de barras conjuntos los datos relativos a dos variables cualitativas. ■ Utilizar el índice cualitativas. ■ Calcular algunos coeficientes de asociación entre variables cualitativas que superan las limitaciones de x2 , y se utilizan para valorar el grado de relación entre las variables: C de Contingencia, V de Cramer y <.p. ■ Saber utilizar un índice apropiado para valorar la relación entre variables ordinales: el coeficiente de correlación de Spearman. x2 para evaluar la independencia entre variables 4.2. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS Según se vio en el primer tema, una variable es nominal o cualitativa cuando a lo largo de ella sólo es posible establecer categorías no ordenadas; es decir, categorías cuyas posiciones pueden ser intercambiadas arbitrariamente . Estas variables pueden ser a su vez dicótómicas, cuando sólo presentan dos categorías (por ejemplo, el sexo), o politómicas cuando presentan un mayor número (por ejemplo, el estado civil). También se considerarán cualitativas aquellas variables que, en un principio, tienen un mayor nivel de medida (ordinal, intervalos o razón) pero, a posteriori, han sido categorizadas. Se dice que hay asociación entre dos variables si existe algún tipo de tendencia o patrón de emparejamiento entre los distintos valores de esas variables. De manera más formal, la existencia de asociación entre dos variables indicaría que la distribución de los valores de una de las dos va- 146 RELACIÓN ENTRE VARIABLES 1 ri ables difiere en función de los valores de la otra. Por ejemplo, si nos inte resa conocer la relación entre la nacionalidad de los turistas que vienen a veranear a España y el tipo de alojamiento que utilizan, podríamos decir que hay relación entre ambas variables si el tipo de alojamiento elegido varía en función de la nacionalidad. En la presentación de los contenidos de este tema también se van a utilizar algunas de las variables de la Tabla 1.2 del Tema 1, en la que se m uestran los datos de 40 estudiantes. De esas variables hay cuatro que son nominales: identificación (ID), grupo, sexo y bachillerato elegido . La variable ID es una variable de identificación, por lo que no tiene interés estudiar su relación con otra variable . Sin embargo, el estudio de la relación entre el resto de variables sí podría tener interés . En el Ejemplo l. l. se ha asignado de manera aleatoria a la mitad de los estudiantes al grupo control y a la otra mitad al grupo experimental. Es habitual que el investigador compruebe que los dos grupos formados al azar están equili brados en alguna variable de interés. Por ejemplo, interesa comprobar si hay algún tipo de asociación entre sexo y grupo, o dicho de otra forma, ver si en ambos grupos hay un porcentaje similar de hombres y mujeres. Si nos fijamos en la Tabla 1.2 hay 40 filas, una por cada estudiante, y en cada columna se reflejan los valores de las variables del estudio (las varia bles grupo y sexo están situadas en las columnas 2 y 3). Los datos, tal y como aparecen en esta tabla, resultan poco útiles para hacerse una idea del reparto de hombres y mujeres entre los dos grupos. Tampoco serviría uti liza r una distribución de frecuencias (como las vistas en el Tema 1) ya que se precisa información de las dos variables de manera conjunta. En estos casos hay que utiliza r una tabla de contingencia o tabla de doble entrada . 4.2.1. Tabla de contingencia Una tabla de contingencia es una forma de ordenar los datos para estudiar la relación entre variables con pocas categorías . En realidad, no es más que una distribución de frecuencias clasificada de acuerdo a los valores que pueden tomar las dos variables. Por eso, se sitúan los valores de una de las variables en las filas y los valores de la otra variable en las columnas. En la Tabla 4.2 se han situado los dos posibles valores (hombre y mujer) de la variable sexo en las filas, y los dos posibles valores (grupo control y grupo experimental) de la variable gr upo en las columnas. Cada 147 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD celdilla representa la frecuencia o número de elementos que reúne a la vez los valores de las dos variables que se cruzan en cada casilla. En el ejemplo que nos ocupa, partimos de la tabla de resultados de la izquierda ( con los datos de las columnas relativas a grupo y sexo de la Tabla 1.2) para, contando los casos que corresponderían a cada celdilla, ir construyendo la tabla de doble entrada. Según se codificaron los datos de la Tabla 1.2, en la variable sexo se asignó el valor 1 a los hombres y el valor 2 a las mujeres, y en la variable grupo se asignó el valor 1 al grupo control y el valor 2 al grupo experimental. Tablas 4.1 y 4.2. Datos de las variables sexo y grupo y su tabla de contingencia correspondiente. Sexo Gru~o 1 1 1 1 2 1 1 1 2 1 1 1 1 1 2 1 1 1 2 1 2 1 1 1 1 1 2 1 1 1 1 1 1 2 2 1 1 2 1 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 148 Grupo (Y) ♦ Control Experimental Hombre 14 9 23 Mujer 6 11 17 20 20 40 Sexo (X) RELACIÓN ENTRE VARIABLES 1 Como puede observarse en la Tabla 4.2, hay 14 hombres asignados al grupo de control, 9 al grupo experimental, 6 mujeres asignadas al grupo control y 11 al experimental. Como se indica en la Tabla 4.3, estos cuatro valores son frecuencias conjuntas, porque en ellas se toma en consideración uno de los valores de las dos variables; así, 14 son el número de personas que adoptan el valor 1 (hombre) en la variable sexo y que adoptan el valor 1 (control) en la variable grupo. Las frecuencias marginales son los totales de cada valor de una única variable. Por ejemplo, 23 es el total de hombres de la muestra (con independencia del grupo al que han sido asignados) y 17 es el total de mujeres. En cuanto a la variable grupo, sus frecuencias marginales son 20 y 20, que se corresponde con la asignación al azar de la mitad de la muestra a cada grupo llevada a cabo en el Ejemplo l. l. La suma de las frecuencias marginales de cada variable tiene que ser igual al total de la muestra. Así, en el caso de la variable sexo 23 + 17 = 40, y en el caso de la variable grupo 20 + 20 = 40. Tabla 4.3. Frecuencias de la tabla de contingencia con las variables sexo y grupo. Grupo (Y) Control Experimental Sexo (X) Frecuencias conjuntas Frecuencias marginales de Y Frecuencias marginales de X Atendiendo a la tabla de contingencia se observa que hay más hombres en el grupo control que en el grupo experimental, mientras que en el caso de las mujeres, hay un mayor número asignado al grupo experimental. Es muy frecuente tener más de dos categorías en alguna de las variables. El formato general de una tabla de contingencia es el mismo, añadiendo filas o columnas, y calculándose las distintas frecuencias de la forma indicada (ver Tabla 4.4). 149 INTRODUCCIÓN AL ANÁll I DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla 4 ,4, bl de conting encia para el caso general. ¡ Variable Y Total Yi n12 ... nlj nl + n22 ... n2j n2+ nu n;+ n+i n Y2 X¡ nu X2 n 21 Variable X ,, 1 .. . '~\¡ X¡ ,11 Total Siendo x 1 , ... , ,; ''1 ... Y1 11¡ " },), " X;, n;1 n;2 n +l n+2 ... ... los distintos valores de la variable X; y 1 , .. . , Yj, los distintos valores de la variable Y En la Tabla 4.4 aparecen varios tipos de frecuencias absolutas: ■ La frecuencia absoluta de cada casilla o celda que surge de la distribución conjunta por combinación de dos valores: número de casos que comparten dos características a la vez (n;)· ■ La frecuencia absoluta total de cada valor o categoría de la variable. El conjunto de estos valores dan la distribución marginal absoluta: número de casos que tienen una característica, de la variable X o fila (n;+) o de la variable Y o columna (n+)· ■ El total de casos analizados es n o n ++ , de una muestra de la pobla ción, o del total de unidades de la población. Todas las frecuencias que aparecen en las tablas de contingencia anteriores son frecuencias absolutas (n ;), pero de manera habitual, las tablas de contingencia se presentan además con información de los porcentajes. Hay tres tipos de porcentajes conjuntos que se pueden utilizar en una tabla de contingencia: ■ Porcentaje del total (P;): es el número de casos de cada celdilla dividido por el total de casos (n) y multiplicado por 100. ■ Porcentaje condicionado a X; o porcentaje por fila: es el número de casos de cada celdilla dividido por el total de casos por fila y multiplicado por 100. El conjunto de estos valores se denomina distribución condicional de filas. 150 RELACIÓN ENTRE VARIABLES 1 ■ Porcentaje condicionado a Y1 o porcentaje por columna: es el número de casos de cada celdilla dividido por el total de casos por columna y multiplicado por 100. El conjunto de estos valores se denomina distribución condicional de columnas. Tabla 4.5. Tabla de contingencia de las variables sexo y grupo con porcentajes. Grupo (Y) Total Control Experimental Hombre niJ PiJ del total P¡ por Sexo Pj por Grupo 14 35% 60,87% 70% 9 22,5% 39,13% 45% 23 57,5% 100% 57,5% Mujer niJ PiJ del total P¡ por Sexo Pj por Grupo 6 15% 35,3% 30% 11 27,5% 64,7% 55% 17 42,5% 100% 42,5% niJ 20 50% 50% 100% 20 50% 50% 100% 40 100% 100% 100% PiJ del total P¡ por Sexo Pj por Grupo Para calcular el porcentaje condicionado a X; (o porcentaje por fila) hay que establecer la condición previa de pertenecer a uno de los dos valores de X;, Por ejemplo, en la Tabla 4.5, hay que fijarse en la primera fila, que son 23 hombres. Calculando solamente dentro de esta fila, la distribución de porcentajes para los dos grupos son 60,87% hombres asignados al grupo control y 39,13% hombres asignados al grupo experimental. Estos dos porcentajes suman 100, ya que para su cálculo estamos considerando únicamente a los hombres. Se puede hacer lo mismo para el total de mujeres, que son 17, encontrando que, de ellas, el 35,3% han sido asignadas al grupo control y el 64,7% al grupo experimental. Para calcular el porcentaje condicionado a y1 (o porcentaje por columna) hay que establecer la condición previa de pertenecer a uno de los dos valores de y1. Por ejemplo, en la primera columna de la Tabla 4.5, hay 20 personas asignadas al grupo control. Calculando los porcentajes dentro de esta columna, tenemos que el 70% son hombres y el 30% son mujeres. Al igual que en el caso anterior, estos dos porcentajes suman 100, ya que para su cálculo estamos considerando únicamente a las personas 151 IN 11 111 UCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD asignadas al grupo control. Del total de personas asignadas al grupo experimental (20), el 45% son hombres y el 55% son mujeres. Al considerar los porcentajes para interpretar la relación entre las variables hay que tener en cuenta si la relación entre las variables es simétrica o asimétrica. En una relación asimétrica una de las dos variables se considera como factor explicativo de la distribución de la otra variable, mientras que en una relación simétrica, no existe esa distinción. En el Ejemplo de la Tabla 4.5, la relación entre las variables sexo y grupo es simétrica, porque no cabe esperar que una de ellas influya en la otra {la asignación a los dos grupos se hizo al azar). En una relación asimétrica los porcentajes se calculan en el sentido de la variable explicativa, por lo que la suma de los porcentajes en cada categoría de la variable explicativa referidos al total marginal de esa categoría será el 100%. Dicho de otra forma, si la variable explicativa se sitúa en las columnas de la tabla de contingencia, para hacer las comparaciones se calcularán los porcentajes por columna. En una relación simétrica se puede utilizar cualquiera de los porcentajes. Cada uno de los tres tipos de porcentajes vistos pone el énfasis en una distribución diferente y ofrece comparaciones distintas, según el sentido de la predicción . La utilización de los porcentajes permite eliminar la influencia del tamaño de la muestra y del tamaño de los marginales, por lo que se pueden realizar comparaciones entre valores de las distribuciones condicionadas, y esta comparación indica la existencia de relación o no entre las variables , así como la naturaleza de la relación. Las definiciones de los conceptos más relevantes vistos son: Frecuencias conjuntas (n;i) : número de individuos que toman el valor X; en la variable X, e y1 en la variable Y. La suma de todas las frecuencias conjuntas representa el total de la muestra (n). Frecuencias marginales: son los totales de cada valor de una única variable. Hay frecuencias marginales de la variable X y frecuencias marginales de la variable Y. Distribución marginal: distribución de frecuencias unidimensional (marginal) que nos informan del número de observaciones para cada valor de una de las variables, prescindiendo de la información sobre los valores de las demás variables. Hay una distribución marginal 152 RELACIÓN ENTRE VARIABLES 1 de la variable X (que contiene todas las frecuencias marginales de X ) y una distribución marginal de la variable Y (que contiene t odas las frecuencias marginales de Y). Distribución condicionada: distribución que especifica las observaciones que hay de cada valor de una de las variables al imponer la condición de que la otra tome un valor determinado. Hay una dist ribución de Y condicionada a un valor de X;, que considera úni camente una fila de la tabla de contingencia, y una distribución de X condicionada a un valor de Yi, que únicamente tiene en cuenta una columna de la tabla. Ejemplo 4.1. Diversos estudios ponen de manifiesto que la opción de Bachillerato elegida difiere en chicos y chicas. Con los datos de la Tabla 1.2 de la página 21: A) Construya una tabla de contingencia de las variables sexo y Ba chillerato elegido. Recuerde que la variable sexo puede adoptar el valor 1 (hombre) o 2 (mujer) y que la variable Bachillerato elegido puede adoptar el valor 1 (Ciencias), 2 (Humanidades) o 3 (Artes). 153 INTRODUCCIÓN A L ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Sexo i(each. (X) (Y) 1 1 2 1 2 1 1 2 1 2 2 1 1 1 2 1 2 2 2 1 1 2 3 2 2 1 2 2 3 2 1 1 1 1 1 1 2 2 2 1 2 2 1 2 2 3 1 1 2 1 2 Artes Sexo Hombre 10 10 3 23 (X) Mujer 3 11 3 17 13 21 6 40 1 1 2 3 2 1 2 2 1 2 Humanidades 1 2 1 1 1 1 1 > Ciencias ,,, 2 2 2 2 Bachillerato (Y) 3 2 3 1 2 2 1 "' 2 B) Calcule los porcentajes condicionados en la tabla de contingencia. Se puede considerar que la relación entre estas dos variables es asimétrica, siendo la variable sexo la que puede explicar la elección del tipo de Bachillerato y no al revés (uno no puede ser hom bre o mujer en función del Bachillerato que elija). En este caso, la variable explicativa está situada en las filas, por lo que hay que calcular el porcentaje condicional de X¡ o porcentaje por fila. 154 RELACIÓN ENTRE VARIABLES 1 ,¡ Bachillerato (Y) " Ciencias Humanidades Artes Sexo Hombre 43,48% 43,48% 13,04% 100 (X) Mujer 17,65% 64,70% 17,65% 100 Por ejemplo, en el caso de hombres que han elegido el Bachillerato de Ciencias, el porcentaje 43,48% se obtiene dividiendo 10 entre 23 (que es el total de hombres) y multiplicando el resultado por 100. Esta tabla de porcentajes por fila resulta especialmente útil para visualizar las diferencias en elección de Bachillerato entre chicos y chicas . Se aprecia que los chicos eligen en igual medida los Bachilleratos de Ciencias y Humanidades, muy por delante del Bachillerato de Artes. Las chicas, sin embargo, eligen mayoritariamente el Bachillerato de Humanidades, muy por delante del Bachillerato de Ciencias y el de Artes. C) Diversos informes concluyen que la distribución por tipo de Bachillerato elegido no es igualitaria entre chicos y chicas, decantándose los chicos por el Bachillerato de Ciencias en mayor medida que las chicas. Los datos de esta muestra, ¿son acordes a esta conclusión? En este caso se pide un dato concreto, la distribución por sexo de los que han elegido el Bachillerato de Ciencias . Por tanto, hay que cal cular el porcentaje por columna, en la columna de Ciencias. Del total de 13 estudiantes que han elegido el Bachillerato de Ciencias, 10 son chicos, lo que representa el 76,92%, mientras que únicamente ha sido elegido por 3 chicas, lo que constituye el 23,08%. Por tanto, los datos son consonantes con los informes previos sobre el tema. 4.2.2. Representación gráfica: diagrama de barras conjunto El diagrama de barras conjunto es apropiado cuando al menos una de las dos variables es cualitativa. Se construye sobre los datos de la tabla de contingencia, situando una de las dos variables en el eje horizontal y para identificar la otra variable se utilizan barras de distinto color o trama 155 IN DUCCIÓN AL ANÁLISIS O DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD (especificado en la leyenda). Básicamente hay dos formas de representar un diagrama de barras conjunto: el diagrama de barras adosadas y el diagram a de barras apiladas. Para realizar ambas representaciones se utilizarán los datos de la tabla de contingencia construida sobre las variables sexo y grupo de la Tabla 4.2. 4.2.2.1. Dia rama de barras adosadas En este diagrama se muestra con barras colocadas horizontalmente o verticalmente la frecuencia de cada casilla del interior de la tabla de contin gencia. Para cada valor de la variable X se representa, una al lado de otra, la frecuencia con que se presenta cada valor de Y dentro de ese valor de X . Al estar situadas unas junto a otras permite la comparación rápida entre las variables y dentro de cada variable. Es habitual mostrar el diagrama de barras en porcentajes del total o condicionales (por fila o por columna). ■ % Hombre Mujer 40 35 1 11 30 25 20 15 10 G. Control G. Experimental Figura 4.1. Diagrama de barras adosadas en porcentajes del total. 4.2.2.2. Diagrama de barras a iladas Este gráfico muestra una barra por cada valor que toma la variable Y, las cuales a su vez, se dividen en distintos colores que representa a cada 156 RELACIÓN ENTRE VARIABLES 1 valor de la variable X. Indica la frecuencia con la que aparece cada valor de X en cada valor de Y, comparando entre categorías, la aportación de cada valor al total. Esta es la representación más adecuada para visualizar porcentajes condicionados. En la Figura 4.2 se muestra el diagrama de barras apilado en porcentajes condicionales de Y (calculados sobre el total de cada columna). ■ % Hombre Mujer 100 90 30 80 SS 70 60 50 40 30 20 10 o G. Control G. Experimental Figura 4.2. Diagrama de barras apiladas en porcentajes por columna. Ejemplo 4.2. Con los datos del Ejemplo 4.1, realice un diagrama de barras adosadas en frecuencias absolutas y un diagrama de barras apiladas en porcentajes condicionados. '[i 11 Bachillerato (Y) Ciencias Humanidades Artes Sexo Hombre 10 10 3 23 (X) Mujer 3 11 3 17 13 21 6 40 157 INTROOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Para hacer el diagrama de barras adosadas se suele situar la variable con más valores (en este caso Bachillerato elegido) en el eje de abcisas, reservando la variable con menos valores para el color de las barras. 12 "'e 'ü ■ cu :::, u Hombre Mujer ....f 3 Ciencias I¡¡ Humanidades Artes En este gráfico se aprecia que el Bachillerato de Ciencias es elegido mayoritariamente por chicos, estando prácticamente igualadas las opciones de Humanidades y Artes. Para hacer el diagrama de barras apiladas en porcentajes condicio nados, lo primero es considerar qué tipo de relación hay entre las variables. Como se vio en el ejemplo anterior, se trata de una relación asimétrica en la que el sexo podría influir en el Bachillerato elegido, por lo que habrá que calcular los porcentajes por filas. Bachillerato (Y} 158 Ciencias Humanidades Artes Sexo Hombre 4 3,48% 43,48 % 13,04% 100 (X} Mujer 17,65% 64,70% 17,65% 100 RELACIÓN ENTRE VARIABLES 1 % 100 90 · 80 70 60 Artes ■ Humanidades ■ Ciencias 50 40 30 20 10 o Hombre Mujer En este gráfico se aprecia la diferente distribución de los porcentajes en chicos y chicas: ■ Los chicos eligen las opciones de Ciencias y Humanidades en un porcentaje similar, quedando en un porcentaje muy pequeño la opción de Artes. ■ Las chicas eligen mayoritariamente el Bachillerato de Humanidades, quedando por igual y muy por detrás las opciones de Ciencias y Artes. 4.2.3. Medidas globales de asociación entre variables cualitativas 4.2.3.1. Independencia: x2 La existencia de asociación entre dos variables indica que la distribución de las frecuencias de los valores de una de las dos variables difiere en función de los valores de la otra . Por el contrario, se habla de indepen dencia entre variables cuando no existe tal patrón de relación entre los valores de las mismas. 159 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Para saber si existe o no independencia entre dos variables se utiliza el estadístico x2 , que se basa en la comparación de las frecuencias con juntas. Así, se comparan las frecuencias empíricas (u observadas) con las frecuencias teóricas (o esperadas) suponiendo que no hubiera asociación, es decir, suponiendo que fueran independientes. Al comparar estas frecuencias, si no existen diferencias entre ellas se concluye la ausencia de asociación o de relación de interdependencia, por lo que se concluye que las variables son independientes entre sí. Formalmente: ( 4.1) donde: ne es la frecuencia empírica (o también llamada frecuencia observada) nt es la frecuencia teórica (o también llamada frecuencia esperada) Una frecuencia teórica es la que aparece en cada casilla en caso de independencia, y se calcula multiplicando las dos frecuencias marginales y dividiendo por la frecuencia total n. Por tanto: Total fila x Total columna nt = - - - - - - - - - - n (4.2) Como se ha visto en la Tabla 4 .3, estos totales de fila y de columna de la fórmula ant erior se co rresponden con la s frecuencias marg inales. Siguiendo con estos datos, se muestra la tabla de contingencia a partir de las variables sex o y grupo. .. Grupo (Y) Control Experimental Hombre 14 9 23 Mujer 6 11 17 20 20 40 ,Sexo (X) 160 RELACIÓN ENTRE VARIABLES 1 Una frecuencia empírica es la se corresponde con los datos observados. En esta tabla de contingencia las frecuencias empíricas son: neu = 14, n e12 = 9 , n e21 = 6 y n e22 = 11. Las frecuencias teóricas hay que calcularlas a partir de la Fórmula 4.2. n tll = n t21 = 23 20 X 40 17 20 X 40 = 11,5 n t12 = = 8,5 nt22 = 23 X 20 40 17 X 40 20 = 11,5 = 8,5 Empezando con la primera celdilla, que tiene una frecuencia empírica de 14, su frecuencia teórica es igual 23 x 20 dividido entre 40 y que da como resultado 11,5. En este caso, las frecuencias marginales de la varia ble grupo coinciden (hay 20 participantes en el grupo de control y 20 en el experimental) por lo que las celdillas de la misma fila tienen la misma f recuencia teórica. De igual manera, se calculan el resto de las frecuen ci as teóricas, que se situarán en la misma tabla entre paréntesis. Gr1,1po (Y) Control Experimental Hombre 14 (11,5) 9 (11,5) 23 Mujer 6 (8,5) 11 (8, 5) 17 20 20 40 Sexo (X) Una vez conocidas las frecuencias empíricas y teóricas se puede cal cular x2 . El sumatorio engloba toda la fracción , por lo que se van a sumar cuatro fracc iones, una por cada celdilla . Sustituyendo, en la primera fracción tenemos que la frecuencia empírica menos la frecuencia teórica es 14 - 11 ,5, se eleva el resultado de esta resta al cuadrado y se divide entre 11 ,5, con un resultado de 0,543. Y así su cesivament e con el rest o de celdillas de la tabla. El resultado es 2, 556 . x2 = L L (ne - nt )2 nt 2 = (14- 11, 5)2 + -(9_-_1_1,_5_) +-(6_-_8,_5_)2 + (11 - 8, 5)2 11, 5 11, 5 8, 5 8, 5 = = 6 , 25 + 6 , 25 + 6 , 25 + 6 , 25 = O 54 3 + O 543 + O 735 + O 7 35 = 2 556 11, 5 11, 5 8, 5 8, 5 ' ' ' ' ' 161 IN I ROOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA YCIENCIAS DE LA SALUD El índice x2 toma el valor O cuando dos variables son independientes, siendo mayor que O cuando exista asociación entre ellas, tanto mayor cuanto más intensa sea esa relación. Ahora bien, no tiene un límite máximo, lo cual supone una dificultad a nivel interpretativo. En este ejemplo, no podemos saber (sin aplicar técnicas de estadística inferencia! que se verán el próximo curso) si el valor 2,556 está lo bastante próximo a O como para considerar que la relación entre las variables es mínima, o si por el contrario, se trata de un grado de relación considerable. Otro inconveniente de este índice es que al multiplicar las frecuencias de todas las casillas por una constante, el valor de x2 aumenta, a pesar de que las proporciones de todas las casillas sean las mismas antes y después de dicha multiplicación. Esto hace que su valor solo pueda compararse para variables en tablas de contingencia del mismo tamaño (I x J) y con el mismo n. Características del estadístico ■ x2 : Adopta valores entre O y +oo. Dado que está definido por valores elevado al cuadrado y las frecuencias nunca son negativas, no puede tomar valores negativos. ■ Únicamente adopta el valor O si la frecuencia empírica de la celdilla es igual a la teórica que le corresponde, en todas las celdillas de la tabla de contingencia. ■ El tamaño de la muestra, n, debe ser relativamente grande. El criterio que se utiliza habitualmente es que la frecuencia esperada mínima por casilla sea al menos de 5 en aproximadamente el 80% de las casillas, considerando además que la frecuencia mínima esperada en cada casilla sea 1. ■ Sirve para valorar la existencia o no de independencia, pero no resulta apropiado para medir la intensidad de la relación, pues el tamaño de la muestra y el número de categorías de las variables in fluyen sobre los valores de este estadístico . 162 RELACIÓN ENTRE VARIABLES 1 Ejemplo 4.3. Con los datos del Ejemplo 4.2, calcula el estadístico x, 2 entre las variables sexo y Bachillerato elegido. ,;:.1 Se:><O "(X) ' B~chiUera!o (Y) Ciencias Humanidades Arte,s Hombre 10 10 3 23 Mujer 3 11 3 17 13 21 6 40 Primero hay que calcular las frecuencias teóricas o esperadas, situándolas en su celdilla correspondiente entre paréntesis. ''I" Bact,illerato (Y) Ciencias Humanidades Artes Se><o Hombre 10 (7,475) 10 (12,075) 3 (3,45) 23 (X) Mujer 3 (5,525) 11 (8,925) 3 (2,55) 17 13 21 6 40 Ya están disponibles todos los datos para sustituir directamente en la fórmula: x2 = LL (ne - nt)2 nt 2 = 2 (10 - 7, 475) +-(l_0_-_12_, 0_7_5_) +-(3_- _3_,4_5.c._)2 + 7,475 12,075 3, 45 2 (3 - 5, 525)2 (11 - 8, 925) (3 - 2, 55)2 6,376 +----+ ----- + ---- =- - + 5,525 8,925 2, 55 7,475 4,306 O, 203 6,376 4,306 O; 203 _ O o + - - - + - - + - - + - - + - - - 853 + 357 + 12,075 3, 45 5,525 8,925 2, 55 ' ' +O, 059 + 1,154 + O, 482 + O, 08 = 2,985 163 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD La asociación entre variables no debe entenderse como una cuestión de todo o nada, sino como un continuo, que iría desde la ausencia de relación (independencia) al nivel máximo de relación entre las variables, que sería una relación determinista. Dado que x2 no resulta apropiado para evaluar el grado de relación entre variables, se han desarrollado va rios índices que tratan de superar sus limitaciones. Aquí se verán algunos de ellos, que están basados en x2 y no tienen en cuenta si la relación es simétrica o no. Estos coeficientes son índices globales del grado de intensidad de la relación, que si bien, tienen la ventaja de simplificar la información que proporcionan al resumir la tabla de contingencia en un único valor numérico, tienen la desventaja de no permitir ver el detalle de la relación entre las categorías de las variables (lo que sí se puede apreciar con el estudio de las distribuciones condicionadas ya vistas anteriormente). 4.2.3.2. Coeficiente C de Contingencia il El coeficiente de Contingencia es una medida de asociación derivada de x que es aplicable a tablas de contingencia de cualquier dimensionalidad (con independencia del nº de filas y columnas). 2 e-- (4.3) El coeficiente de contingencia C puede asumir valores mayores o iguales a O y menores que 1. Cuanto mayor es el valor de C, mayor es la relación entre las dos variables, mientras que valores cercanos a O indican ausencia de relación entre las variables. C adopta el valor O cuando x2 = O, (lo que sucede si todas las frecuencias teóricas coinciden con las empíricas). Para adoptar el valor 1 el número de observaciones (n) tendría que ser igual a O, motivo por el que nunca llega a ese valor. Este coeficiente es especialmente útil cuando el número de filas y de columnas de la tabla de contingencia coinciden porque, en ese caso, se puede precisar más su valor máximo, lo que permite una interpretación mejor con la siguiente fórmula: 164 RELACIÓN ENTRE VARIABLES 1 (4.4) Siendo k = número de filas = número de columnas. Ejemplo 4.4. Con los datos del Ejemplo 4.3: Bachillerato (Y) Ciencias Humanidades Artes Sexo Hombre 10 10 3 23 (X) Mujer 3 11 3 17 13 21 6 40 A) Calcule el coeficiente C de Contingencia entre las variables sexo y Bachillerato elegido. En el ejemplo anterior tenemos ya calculado to, sustituyendo: 21985 = 2,985+ 40 ✓º ' 069 x2 = 2,985. = Por tan- O 263 ' En este caso, el número de filas (2) es distinto del número de columnas (3) por lo que no es posible saber cuál es el valor máximo que adopta el estadístico, lo que dificulta hacer una interpretación clara de este valor en términos de la fortaleza de la relación entre las variables. Este problema se resuelve haciendo uso de la estadística inferencia! que se verá en el próximo curso. B) Si no existiera la opción de Bachillerato de Artes, ¿cuál sería su valor? Eliminando la opción de Artes del Bachillerato, tenemos una tabla de contingencia con el mismo número de filas que de columnas 165 IN I OOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD (2x2). Primero se calculan las frecuencias teóricas multiplicando los marginales y dividiendo por el total (se sitúan en la tabla entre paréntesis). 1: Bachillerato (Y) Ciencias Humanidades Sexo Hombre 10 (7,647) 10 (12,353) 20 (X) Mujer 3 (5,353) 11 (8,647) 14 13 21 34 Después se calcula el estadístico x2 : X2 =""(ne - nt )2 = (10 - 7, 647)2 (10 -12, 353)2 (3 - 5, 353)2 L, L, nt 7,647 + 12,353 + 5,353 + (11- 8, 647) 2 5,537 5,537 5,537 5,537 + -'---------'--- = - - + - -- + - - + - - = 8,647 7,647 12,353 5,353 8,647 = o, 724 + o, 448 + 1,034 + o, 640 = 2,846 Ahora ya es posible calcular el coeficiente C de contingencia: e = ✓ x' x2 + n = 2,846 = 2, 846 + 34 ,Jo 077 ' = o 277 ' En este caso, se puede calcular cuál puede ser el valor máximo de C: cmax {k-=-i {2=-i ~ = \j-----¡- = v-2 2 - = ...,,o, 5 = o, 707 Lo que nos permite concluir que hay una relación entre las variables, que podría considerarse entre baja y moderada. 166 RELACIÓN ENTRE VARIABLES 1 4.2.3.3. Coeficiente V de Cramer El coeficiente V de Cramer es una modificación de x2 que alcanza un valor máximo de 1 en caso de máxima asociación o asociación perfecta y un valor mínimo de O en una situación de independencia perfecta. V -- (4 .5 ) donde m es el valor más pequeño entre el número de filas y el número de columnas. La experiencia muestra que con este estadístico es poco frecuente encontrar valores próximos a 1, de hecho pocas veces se alcanza un valor de 0,6. En términos empíricos, por tanto, se puede considerar al 0,6 prácticamente como un valor máximo habitual, por lo que un valor de 0,3, antes que considerarlo como bajo por su proximidad a O conviene interpretarlo más bien como un valor intermedio. Ejemplo 4.5. Con los datos de la tabla, calcule el coeficiente V de Cramer entre las variables sexo y grupo. Grupo (Y) Control Experimental Hombre 14 9 23 Mujer 6 11 17 20 20 40 Sexo (X) En este caso el número de filas y de columnas coincide, y es m = 2. El estadístico x2 ya ha sido calculado con anterioridad (x2 = 2,556). Sustituyendo: 167 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Según la interpretación de este estadístico, su valor es bajo, aunque está cercano a considerarse intermedio, lo que hace sospechar que el número de chicos y chicas no se ha repartido de manera proporcional entre los grupos control y experimental. 4.2.3.4. Coeficiente El coeficiente <p (phi) es una medida de asociación derivada de x2 que se aplica a variables dicotómicas (por tanto con tablas de contingencia 2x2). En este caso, al utilizarse en variables que solo pueden adoptar dos valores, la tabla de contingencia general (ver Tabla 4.4) queda reducida a: y X o 1 o n ll n 12 n l+ 1 n 21 n 22 n 2+ n +l n +2 n " El coeficiente <p se expresa como: (4.6) Con esta fórmula, <p puede adoptar valores entre -1 y 1: será positivo si el producto de n 11 x n 22 es mayor que el producto de n 12 x n 21 y negati vo en caso contrario. Así, para dos variables dicotómicas codificadas con O y 1, un valor positivo de phi indicará que los sujetos tienden a estar clasifi cados en 1 en las dos variables o en O en las dos variables; un coeficiente negativo quiere decir que la tendencia es a estar clasificado en 1 en una variable y en O en la otra variable. Esta fórmula es equivalente al coeficien te de correlación de Pearson aplicado a variables dicotómicas ( coeficiente que se verá en el próximo tema). En este tipo de variables, se obtiene el mismo resultado (en valo r absoluto) con la apl ica ci ón de V de Cramer. 168 RE LACIÓN ENTRE VARIABLES 1 Existe una variación de esta fórmula que puede aplicarse a variables politómicas (variable cualitativa con más de dos valores), pero en estos cas os no tiene valor máximo, lo que dificulta su interpretación, motivo por el cual se desaconseja su uso. Ejemplo 4.6. Con los datos del Ejemplo 4.5, calcule el coeficiente <p entre las variables sexo y grupo. ;l'!i;l,i Grupo (V) Control Experimental Hombre 14 9 23 Mujer 6 11 17 20 20 40 Sexo (X) <p n xn - n xn 22 11 12 21 = ---.============== = ✓ni + x n2 + x n+l x n+2 = lOO 395,474 14 x ll-9 x 6 .J23 x 17 x 20 x 20 = 154 - 54 ✓156400 = = O 253 ' Este valor coincide con el coeficiente V de Cramer, calculado en el Ejemplo 4.5. 4.3. RELACIÓN ENTRE VARIABLES ORDINALES Como se vio en el Tema 1, en las variables ordinales es posible establecer relaciones de orden entre los distintos valores de la variable, lo que lleva a establecer relaciones de tipo mayor, menor, o igual. Sin embargo, no se pueden evaluar las distancias entre los distintos valores de la variable. Por ejemplo, en la variable nivel socioeconómico, evaluada teniendo en cuenta tres niveles (bajo, medio y alto), se puede afirmar que una persona con un nivel socioeconómico bajo tiene un nivel menor que una persona con un nivel medio, pero no se puede evaluar cuánto menor es su nivel socioeconómico. 169 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Habitualmente, cuando se estudia la relación entre una variable cualitativa y una variable ordinal se utilizan las mismas estrategias que en el estudio de dos variables cualitativas, ya vistas en este tema. En el caso del estudio de dos variables ordinales, la estrategia dependerá del número de valores distintos que puedan adoptar esas variables: ■ Si ambas variables adoptan un número reducido de valores, se suelen utilizar tablas de contingencia para su estudio, de manera similar a lo visto en variables cualitativas. Cuando interesa estudiar la fuerza de la asociación, teniendo en cuenta el carácter ordinal de las variables, en lugar de los índices globales vistos, se utilizan otros desarrollados específicamente para este caso, como la d de Sommers, o el coeficiente Gamma, cuyo estudio excede los objetivos introductorios de este texto . ■ Si alguna de las dos variables (o ambas) adoptan un número amplio de valores, el estudio en tablas de contingencia deja de ser práctico, debido al elevado número de filas y columnas de las tablas. En estos casos se suele utilizar el coeficiente de correlación de Spearman o el coeficiente tau-b de Kendall. En este manual nos limitaremos al primero. 4.3.1. Coeficiente de correlación por ran os de Spearman El coeficiente de correlación de Spearman se basa en los rangos de los datos en lugar de hacerlo en los valores reales. Resulta apropiado en el caso de variables ordinales o de variables cuantitativas que no tengan una distribución normal (en el Tema 8 se explicará cuándo una variable cumple este requisito). Para calcular este coeficiente, primero hay que ordenar todos los ca sos para cada una de las variables de interés y asignar un rango con secutivo a cada observación de cada una de las variables por separado. Frecuentemente se producen empates o puntuaciones que son iguales, lo que da lugar a rangos empatados. En estos casos se asigna a las pun tuaciones el rango promedio que ocuparían las observaciones empatadas. Si la asociación entre ambas variables fuera perfecta, esperaríamos que el rango que corresponde a cada caso de la variable X fuera exacta mente igual al rango de la variable Y, por lo tanto el coeficiente se calcula en base a las diferencias registradas en los rangos entre ambas variables, 170 RELACIÓN ENTRE VARIABLES 1 esperando que estas diferencias fueran O. Conforme mayores son las diferencias observadas en las ordenaciones de ambas variables, más se aleja la relación de ser perfecta. Para evitar que las diferencias positivas anulen las diferencias negativas, el estadístico se calcula en función de la suma de las diferencias elevadas al cuadrado. (4.7) donde: d;= Rango(X;)- Rango(Y;) n = n° de sujetos Los valores del coeficiente de Spearman oscilan de -1 a + l. El signo del coeficiente indica la dirección de la relación y el valor absoluto del coeficiente de correlación indica la fuerza de la relación entre las variables. -1 o 1 ■ Si r5 > O, entonces existe una relación directa entre las variables, de forma que a mayores valores de la variable X nos encontraremos con valores altos de la variable Y, y a la inversa, los valores bajos de la variable X se corresponderán con valores bajos de la variable Y. Cuánto más se acerque a 1 el coeficiente de correlación, más fuerte será la relación existente entre las variables. ■ Si r5 < O, entonces existe una relación inversa entre las variables, de forma que los valores altos de X se corresponderán con valores bajos de Y, y viceversa. Cuánto más se acerque a -1 el coeficiente de correlación, más fuerte será la relación existente entre las variables. ■ Si r5 ::::: O, entonces apenas hay relación entre las variables, esto es, una variable poco o nada tiene que ver con la otra. 171 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 4.7. Calcule el coeficiente de correlación de Spearman entre las variables X e Y relativas a 10 estudiantes de Primaria con dificultades de aprendizaje de la lectura. X representa la puntuación obtenida en un test que mide sus dificultades lectoras e Y la nota final en la asignatura de Lengua. Ninguna de las variables se distribuye normalmente. 1Estudiante Test (X) Nota (Y) ' 1 2 3 4 5 6 7 8 9 10 35 47 85 65 49 33 92 55 27 71 l 6,7 5,8 4 2,5 7,5 9,5 3 6,5 7 5,5 Solución: En primer lugar hay que calcular los rangos de las variables. Para hacerlo, hay que ordenar los valores de menor a mayor. En la primera tabla se muestra el número de estudiante y la variable puntuación obtenida en el test (X). En la segunda tabla se han ordenado los datos de la variable puntuación obtenida en el test, por lo que ahora la columna relativa al n° de estudiante no aparece ordenada. En la última tabla se han asignado los rangos correspondientes: el menor valor (27) corresponde al estudiante número 9, por lo que se le asig na el rango l. El siguiente valor (33) le corresponde al estudiante n° 6 y así sucesivamente. 172 RELACIÓN ENTRE VARIABLES 1 i Estudiante 1 2 3 4 5 6 7 8 9 10 Test (X) 35 47 85 65 49 33 92 55 27 71 Estudiante 9 6 1 2 5 8 4 10 3 7 Test (X) 27 33 35 47 49 55 65 71 85 92 Estudiante Test (rangos X) 9 6 1 2 5 8 4 10 3 7 1 2 3 4 5 6 7 8 9 10 Siguiendo el mismo procedimiento se asignan los rangos correspondientes a la variable Nota (Y). Primero se ordenan los valores de la variable de menor a mayor (segunda tabla) y después se asignan los rangos correspondientes (tercera tabla). Estudiante Nota (Y) Estudiante Nota (Y) Estudiante Nota (rangos Y) 1 2 3 4 5 6 7 8 9 10 6,7 5,8 4 2,5 7,5 9,5 3 6,5 7 5,5 4 7 3 10 2 8 1 9 5 6 2,5 3 4 5,5 5,8 6,5 6,7 7 7,5 9,5 4 7 3 10 2 8 1 9 5 6 1 2 3 4 5 6 7 8 9 10 Ahora, se sitúan los rangos correspondientes en la misma tabla ordenada por el número de estudiante. Para cada uno de los estudiantes, hay que calcular la diferencia entre los rangos de ambas variables, y elevarlo al cuadrado. Estos cálculos aparecen en las dos últimas columnas de la tabla. 173 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 1Estudiante 1 2 3 4 5 6 7 8 9 10 Test (X) Nota (Y) Rangos¡ (X) 'R angas (Y) 35 47 85 65 49 33 92 55 6,7 5,8 4 2,5 7,5 9,5 3 6,5 7 5,5 3 4 9 7 5 2 10 6 1 8 7 5 3 1 9 10 2 6 8 4 27 71 d, d~ -4 -1 6 6 -4 -8 8 16 1 36 36 16 64 64 ' o o -7 4 49 16 298 Y sustituyendo en la fórmula: r5 = 1- ,, 6¿d¡ n(n 2 -1) = 1- 6 x 298 = 1 - 1788 = 1 - 1806 = - 0,806 10(102 - 1) 990 ' Se trata de un valor alto lo que indica que hay una gran relación entre la puntuación obtenida en la prueba de alteraciones en el aprendizaje de la lectura y la nota final obtenida en la asignatura de Lengu.,a. El signo del coeficiente es negativo, por lo que a mayores puntuaciones en la prueba de alteraciones en el aprendizaje de la lectura, en general hay menores valores en la nota obtenida en Lengua. El coeficiente de correlación de Spearman tiene idéntico valor al coeficiente de correlación de Pearson (que se explicará en el próximo tema) aplicado a las variables ya transformadas a rangos, siempre que no haya casos de empate. Cuando hay empates se recomienda utilizar el coeficiente de correlación de Pearson aplicado a los rangos, como se verá en el próximo tema. 174 RELACIÓN ENTRE VARIABLES 1 4.4. RESUMEN En este tema se han explicado los procedimientos adecuados para estudiar la relación entre dos variables cualitativas, y entre dos variables ordinales. En el caso de variables cualitativas se han desarrollado tres estudios complementarios: tabular, gráfico y analítico. En el estudio tabular, se explica cómo realizar una tabla de contingencia a partir de los datos de dos variables cualitativas, cómo interpretar los distintos tipos de porcentajes que pueden contener, y cómo interpretar las distribuciones condicionadas para valorar la relación entre ambas variables. En el estudio gráfico, se muestra la representación gráfica más habitual para este tipo de datos: el diagrama de barras conjunto, ya sea presentado en forma de barras adosadas o apiladas. El estudio analítico se basa en el cálculo de varios índices: el estadístico x2 para valorar la independencia entre las variables, y los coeficientes C de Contingencia, V de Cramer y q>, para valorar el grado de asociación entre las variables. En el caso de variables ordinales se ha explicado el cálculo y la interpretación del coeficiente de correlación por rangos de Spearman. 4.5. E ERCICIOS 4.1. En una tabla de contingencia con los valores de X en las filas y los valores de Y en las columnas, ¿cómo se denomina al número de casos de cada celdilla dividido por el total de casos de X y multi plicado por 100? A) Porcentaje condicionado a filas; B) Porcentaje condicionado a columnas; C) Porcentaje condicionado a Y. 4.2. El valor del coeficiente V de Cramer coincide con el del coeficiente q> cuando ambas variables X e Y son: A) dicotómicas; B) politómicas; C) condicionadas. 4.3. La representación gráfica de la Figura 4.3 (ver página siguiente) se denomina diagrama de barras: A) disjunto; B) adosadas; C) apiladas. 4.4. En la Figura 4.3 se muestran porcentajes: A) del total; B) condicionados por la variable PEC; C) condicionados por la variable asignatura. 175 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCI AS DE LA SALUD 4.5. 4.6. El número de alumnos que ha realizado la PEC es una frecuencia : A) marg inal ; B) conjunta; C) condicional. ■ Sí 90 80 ¿cu ántos alumnos de la asignatura B han realizado la PEC?: A) 30; B) 60; C) 70 60 50 70 . 4.7. I No O/o 100 40 Con los datos de la Figura 4.3, ¿cuál es el valor del coeficiente cp? A) -0,680; B) 0,289; C) -0,289. 30 20 10 o 4.8. Asignatura A Asignatura B Según el valor obtenido al calcular el coeficiente cp en Figura 4.3. Representación gráfica del porel ejercicio anterior, ¿exiscentaje de alumnos en dos asignaturas (A y B) según hayan realizado o no una PEC (Prueba de te asociación entre la asigevaluación continua). En la asignatura A hay manatura y el realizar o no la triculados 100 alumnos y, en la asignatura B, 200 alumnos. PEC? A) No, porque el valor de phi es negativo; B) No, porque el valor de phi es cero; C) Sí, porque el valor de phi es distinto de cero. 4.9. Para medir la asociación entre estado civil (soltero, casado y viudo) y sexo de una población determinada, ¿qué coeficiente evitaría utilizar? A) C de contingencia; B) V de Cramer; C) cp. 4.10. Con los datos de la Tabla 4.6, el valor de x2 está entre: A) O y 10; B) 20 y 30; C) 50 y 60. Tabla 4.6. Nivel de ansiedad previo a la realización del examen práctico de conducir y nota obtenida en el examen de 200 personas. Not~ ~~amen 4.11. Atendiendo a la Tabla 4.6, el coeficiente de contingencia, C, está comprendido entre: A) O y 0,3; B) 0,4 y 0,7; C) 0,8 y l. " ,, 1 Apto No Apto Normal 100 10 Alto 40 50 Ansiedad 4.12. ¿cuál es el valor máximo que puede adoptar el coeficiente de contingencia en este caso? A) 0,5; B) 0,707; C) l. 4.13. Con los datos de la Tabla 4.6, ¿cuál es el valor del coeficiente V? A) 0,203; B) 0,504; C) 0 ,689. 176 RELACIÓN ENTRE VARIABLES 1 4.14. Según los datos de la Tabla 4. 7, para saber si existe relación entre X e Y hay que utilizar el coeficiente de: A) Spearman; B) Kendall; C) Cramer. 4.15. El valor de x2 está comprendido entre: A) O y 10; B) 10 y 20; C) 20 y 30. Tabla 4.7. Datos de 100 personas en la variable Edad (X) dicotomizada en menores de 50 años y mayores de 51 y en la variable estrés ( Y) que toma los valores No padece estrés y Sí padece estrés. ¡ i! ! y No Sí . <51 12 38 >50 4 46 X m 4.16. El coeficiente de contingencia, C, está comprendido entre: A) O y 0,3; B) 0,4 y 0,7; C) 0,8 y 1. 4.17. Con los datos de la Tabla 4.7, ¿cuál es el valor del coeficiente cp? A) 0,150; B) 0,218; C) 0,436. 4.18. Con los datos de la Figura 4.4, el coeficiente de contingencia entre las dos variables está comprendido entre: A) O y 0,3; B) 0,4 y 0,7; C) 0,8 y 1. 4.19. Con los resultados del ejercicio anterior, podemos considerar que: A) siendo fumador, no merece la pena someterse al tratamiento; B) no tratarse tiene casi la misma relación con el resultado «dejar de fumar» que el tratamiento; C) existe una relación media-alta entre recibir el tratamiento y dejar de fumar. ■ Tratamiento No tratamiento 90 80 70 Ul o 60 r§ so QJ -o o z 40 30 20 10 o Sí No Figura 4.4. Datos de 200 fumadores, en el que la mitad han sido sometidos a tratamiento para dejar de fumar y la otra no y su resultado (S í = han dejado de fumar, No = no han dejado de fumar) . 4.20. En la siguiente tabla se muestra el ranking de la ATP masculino de Mayo de 2016 y Mayo de 2017. 177 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD .Jugadores Mayo2016 Mayo 2017 Novak Djokovic Roger Federer Andy Murray Stan Wawrinka Rafael Nadal 1 2 3 4 4 5 2 1 3 5 Para valorar la relación entre el ranking obtenido por los 5 jugadores en los dos años contemplados, ¿qué coeficiente utilizaría y cuál es su valor? A) El coeficiente V de Cramer, cuyo valor es 0,289; B) El coeficiente de Spearman, cuyo valor es 0,289; C) El coeficiente de Spearman, cuyo valor es 0,5. 4.6. SOLUCIONES DE LOS EJERCICIOS 4.1. Solución: A El porcentaje condicionado a filas es el número de casos de cada celdilla dividido por el total de casos por fila y multiplicado por 100. En el enunciado se informa de que los valores de X están situados en las filas de la tabla de contingencia. 4.2. Solución: A El coeficiente V de Cramer coincide con el valor del coeficiente phi únicamente en el caso de que ambas variables sean dicotómicas. Si se utiliza con variables politómicas, phi no tiene valor máximo. 4.3. Solución: e Se denomina diagrama de barras apiladas, ya que hay una única barra por cada asignatura, distinguiéndose los valores de la variable PEC (si/no) por el tono. 4.4. Solución: e Los porcentajes de la gráfica están condicionados por la variable asignatura, ya que los porcentajes de cada valor de esta variable (asignatura A y asignatura B) suman 100. 4.5. Solución: A El número de alumnos que ha realizado la PEC es una frecuencia marginal, ya que únicamente tiene en cuenta la variable PEC, sin tener en cuenta la asignatura cursada . 178 RELACIÓN ENTRE VARIABLES 1 4.6. Solución: B Según los datos del enunciado, el 30% de los 200 alumnos que han cursado la asignatura B han realizado la PEC, por tanto son 60 alumnos. 4.7. Solución: B La tabla de contingencia correspondiente a los datos de la Figura es: Asignatura "' :!'ti! A B Sí 60 60 120 No 40 140 180 100 200 300 ¡ PEC -·· Con los datos de la tabla, se calcula el coeficiente phi: nll x n22 - n1 2 x n21 ~=----;========= ✓n1+ x n2+ x = 6000 20784, 61 n +l x n+2 60 x 140 - 60 x 40 ✓120 x 180 x 100 x 200 = 8400 - 2400 ✓432000000 = = o 289 ' 4.8. Solución: c El valor de <p es distinto de cero, por lo que hay asociación entre ambas variables . 4.9. Solución: c El coeficiente <p no es apropiado porque la variable estado civil no es dicotómica. 4.10. Solución: c Con los datos de la tabla se calculan las frecuencias teóricas multiplicando los marginales correspondientes a cada celdilla y dividiendo por el total (en la tabla entre paréntesis). 179 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Nota en el examen Apto No apto Normal 100 (77) 10 (33) 110 Alto 40 (63) 50 (27) 90 140 60 200 ,, Nivel ansiedad 2 (100 - 77)2 (40- 63) (10- 33}2 (50- 27)2 X = 77 + 63 + 33 + 27 = 6187 + 81 4 + 2 +16, 03 + 19,593 = 50,893 4.11. Solución: B e= rT = ~~ 50 893 , 50,893 + 200 = ,Jo ' 203 = o 451 ' 4.12. Solución: B '' cmáx {k=-i /2=-T /ne = V1< = v-2 2 - = vo, 5 = o, 101 4.13. Solución: B V - ~- - ~n(rn-Tj - 5 o, 893 = 200 (2 - 1) ..jo ' 254 = O 504 ' 4.14. Solución: C El coeficiente de Spearman y el coeficiente de Kendall son apropiados en variables ordinales, y los datos de la tabla están dicotomizados, por lo que el único coeficiente apropiado en este caso (de los que aparecen en las opciones de respuesta) es el Coeficiente V de Cramer. 4.15. Solución: A Con los datos de la tabla se calculan las frecuencias teóricas multiplicando los marginales correspondientes a cada celdilla y dividien do por el total (en la tabla entre paréntesis). 180 RELACIÓN ENTRE VARIABLES 1 y 1,r A B <51 12 (8) 38 (42) 50 >50 4 (8) 46 (42) 50 16 84 100 X I•' 2 X = = (12 - 8)2 (38-42)2 (4-8)2 (46-42)2 8 + 42 + 8 + 42 = 2 + O, 381 + 2 + O, 381 = 4, 762 4.16. Solución: A 4 762 = ✓º 045 = o 212 , 4,762+100 ' ' e = 4.17. Solución: B 11r i:J y A B <51 12 38 >5 0 4 46 so so 16 84 100 X n cp x n - n x n 11 22 12 21 = ----;====================== = -Jn1 + X n2 + X n +1 X n +2 = 12 x 46 - 38 x 4 ✓50 X so X 16 X 84 = 552 - 152 ✓336 0000 = 400 = O 218 1833, 03 ' 4.18. Solución: B La tabla de contingencia correspondiente a los datos de la Figura es: 181 IN I DU ION AL ANALISIS DE DATOS: APLICACIO NES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 'I 'Y 11 ¡I Sí No Tratamiento 80 (55) 20 (45) 100 No tratamiento 30 (55) 70 (45) 100 110 90 200 X 1 1, Con los datos de la tabla se calculan las frecuencias teóricas multiplicando los marginales correspondientes a cada celdilla y dividiendo por el total (en la tabla entre paréntesis). 2 X = (80 - 55)2 (20 - 45)2 (30 - 55)2 (7o - 45)2 55 + 45 + 55 + 45 = = 11,364 + 13,889 + 11,364 + 13,889 = 50,506 e = 50 506 , = 200 + 50, 506 ✓o ' 202 = o 449 ' 4.19. Solución: e Existe una relación medio-alta entre someterse al tratamiento y dejar de fumar, puesto que C = 0,449 y Cmax = J½ = ..Jo:s = O, 707. 4.20. Solución: e El ranking de la ATP supone ordenar a los jugadores, otorgando el número 1 al mejor, y así sucesivamente, por lo que se trata de comprobar la relación de dos variables ordinales. Para ello se utiliza el coeficiente de Spearman. Jugadores Mayo 2016 Mayo 2017 d; d~1 Novak Djokovic 1 2 3 4 5 2 4 1 3 5 -1 -2 2 1 1 4 4 1 o o Roger Federer Andy Murray Stan Wawrinka Rafael Nadal 10 r =1s 182 6¿_d¡ =1- 6 x2 10 = 1 n(n 2 - 1) 5(5 - 1) 60 = 1 - 0,5 = 0,5 120 TEMAS Relación entre variables 11 5.1. INTRODUCCIÓN 5.2. RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS 5.2.1. Representación gráfica de la relación: diagrama de dispersión 5.2.2. Covarianza 5.2.3. Coeficiente de correlación lineal de Pearson 5.2.3.1. Cálculo 5.2.3.2. Interpretación y características 5.2.3.3. Casos particulares 5.2.3.3.1. Relación entre variables ordinales 5.2.3.3.2. Relación entre variables dicotómicas 5.2.3.3.3. Relación entre una variable dicotómica y otra cuantitativa 5.3. COEFICIENTES DE CORRELACIÓN EN FUNCIÓN DEL TIPO DE VARIABLE : TABLA RESUMEN 5.4. REGRESIÓN LINEAL SIMPLE 5.4.1. Cálculo de los coeficientes de regresión 5.4.2. Valoración del modelo 5.4.2.1. La varianza error 5.4.2.2. El coeficiente de determinación 5.4.3. Características del modelo de regresión S.S. REGRESIÓN LINEAL MÚLTIPLE 5.6. RESUMEN 5.7. EJERCICIOS 5.8. SOLUCIONES A LOS EJERCICIOS ,1. RELACIÓN ENTRE VARIABLES 11 5.1. INTRODUCCIÓN En el tema anterior, además de aprender a utilizar una tabla de contingencia y a interpretar los diagramas de barras conjuntos, se presentaron una serie de índices estadísticos para cuantificar la relación entre variables. Las variables para las que se presentaron los diferentes índices eran ambas cualitativas (coeficientes C de contingencia, <p y V de Cramer) o ambas ordinales (coeficiente de correlación de Spearman). En este tema se ofrecerá una primera aproximación a la relación entre dos variables cuantitativas de tipo gráfico, mediante el estudio del diagrama de dispersión. Con él se tratará de explicar los distintos tipos de relación que pueden existir entre dos variables. Después, para cuantificar la relación entre variables cuantitativas se presentará la covarianza y, vistos los problemas de interpretación de ésta, el coeficiente de correlación lineal de Pearson, que es el índice fundamental para el análisis de la relación lineal entre este tipo de variables. Se verán las propiedades fundamentales del coeficiente de correlación de Pearson, su cálculo, su interpretación y su aplicación a casos concretos. En su aplicación a casos concretos se mostrará, mediante ejemplos, que algunos de los coeficientes vistos en el tema pasado son derivaciones de éste, y se explicará el coeficiente de correlación biserial puntual, apropiado para estudiar la relación entre una variable dicotómica y una variable continua. Para terminar el bloque de índices que cuantifican la relación entre variables se ofrecerá una tabla resumen con el tipo de correlación a utilizar en función de los distintos tipos de variables. En el último bloque del tema se explicarán los modelos de regresión, o cómo utilizar la información contenida en las relaciones lineales observadas entre variables para, conociendo el valor de una variable, hacer predicciones sobre su valor en la otra. Correlación y regresión son dos conceptos muy próximos. La diferencia fundamental entre ambos radica en que la correlación es una medida simétrica, ya que el estatus de las dos variables es el mismo, mientras que en el análisis de la regresión el estatus de las dos variables es diferente, asumiendo una de las variables el estatus de predictora y la otra el de criterio. Se verán las etapas fundamentales de cualquier modelo lineal, como es el modelo de regresión: la identificación del modelo, su valoración y su aplicación. En la identificación del modelo se examinarán las fórmulas para calcular los coeficientes de regresión. Para la valoración de los modelos se estudiará la varianza error y el coeficiente de determinación, 185 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD y se analizarán las principales características de este tipo de modelos. Se comenzará con el caso más sencillo, en el que únicamente hay una variable predictora y una criterio, para terminar con un ejemplo sobre la conveniencia de utilizar más de una variable predictora para obtener mejores pronósticos. Objetivos del tema: ■ Distinguir entre los distintos tipos de variables, y saber elegir el índice apropiado para cuantificar la relación en cada caso. ■ Conocer un método gráfico para analizar la relación existente entre dos variables cuantitativas: el diagrama de dispersión. ■ Distinguir entre relaciones lineales directas e inversas, así como identificar otro tipo de relaciones, a partir de la información obtenida en el diagrama de dispersión. ■ Adquirir la capacidad para saber si dos variables están más o menos relacionadas entre sí, la forma de esa relación, y el significado de que dos variables estén relacionadas. ■ Saber cuantificar la relación entre dos variables cuantitativas utilizando la covarianza y el coeficiente de correlación lineal de Pearson. ■ Entender la interpretación del coeficiente de correlación de Pearson, así como sus características fundamentales. ■ Saber en qué casos procede aplicar el coeficiente de correlación de Pearson a variables ordinales y cómo se calcula. ■ Entender la relación entre el coeficiente phi y el coeficiente de correlación lineal de Pearson. ■ Calcular el coeficiente de correlación biserial-puntual, apropiado en los casos en los que una variable es dicotómica y la otra es cuantitativa. ■ En el caso de dos variables cuantitativas, entre las que hay relación lineal, aprender a hacer predicciones de los valores de la variable Y, correspondientes a cada valor de la variable X, mediante la recta de regresión. Para ello, se aprenderá a calcular los coeficientes de regresión. 186 RELACIÓN ENTRE VARIABLES 11 ■ Saber valorar un modelo de regresión mediante dos índices: el coeficiente de determinación y la varianza error. ■ Entender las características fundamentales de los modelos de regresión. ■ Entender, con un ejemplo, la relevancia del modelo de regresión lineal múltiple para conseguir mejores predicciones. 5.2. RELACIÓN ENTRE VARIABLES CUANTITATIVAS Según se vió en el primer tema, las variables cuantitativas son las que están en un nivel de medida de intervalo o de razón. Por tanto, poseen una unidad de medición común y constante. Al igual que se hizo en el t ema anterior con las variables cualitativas, su relación se estudiará mediante métodos gráficos y estadísticos. 5.2.1. Representación gráfica de la relación: el diagrama de dis ersión El diagrama de dispersión, también denominado nube de puntos, se utiliza en el caso de dos variables cuantitativas, ofreciendo una primera aproximación de la relación que existe entre ambas variables. En la siguiente tabla se muestran los datos de dos de las variables del Ejemplo 1.1 (ver Tabla 1.2 del Tema 1): la calificación obtenida en el examen de Lengua de la PAU y el n° de horas dedicadas al estudio semanales de los 40 estudiantes. 187 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla 5.1. Número de horas semanales dedicadas al estudio y calificación obtenida en el examen de Lengua de la PAU de 40 estudiantes. ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Horas de estudio semanales 7 11 16 5 14 10 12 10 2 15 10 10 15 9 9 8 14 8 18 8 Ca I ificación PAl,J 6 4 9 4 8 7 7 1 4 8 5 4 3 5 5 7 6 4 6 4 ID 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Horas de estudio semanales 4 8 10 12 16 15 13 10 12 18 14 9 11 3 10 9 14 10 9 4 Calificación PAU 6 4 7 8 10 8 7 7 7 8 8 6 6 4 6 5 7 8 5 2 Para realizar el diagrama de dispersión se sitúa una de las variables en el eje de abscisas ( en este caso se ha situado la variable n° de horas de estudio semanales) y la otra en el eje de ordenadas (Calificación PAU). Para cada par de datos, se localiza la intersección de ambas variables y se marca con un punto. Así, en este ejemplo para los tres primeros alumnos se localizarían los puntos (7,6) (11,4) y (16,9), y así sucesivamente hasta terminar con el punto correspondiente al último estudiante . 188 RELACIÓN ENTRE VARIABLES 11 - 10 s:::::, <( CL e -o 'ü ro u ~ ro u 9 8 7 6 5 4 3 2 ' • 1 • t ¡ 1- • • 1 • •- • • • • 1-- 1 o t 1 1 • ¡ • •• • l • • l 1 • • • 1 + • • • • + t t 1 2 3 4 5 6 7 8 9 10 1112 13 14 15 16 17 18 19 20 Horas de estudio semanales (X) Figura 5.1. Diagrama de dispersión de las variables horas de estudio semanales y califi cación PAU. Atendiendo al diagrama de dispersión, se puede observar que existe cierta relación lineal entre las variables, correspondiendo, en mayor medida, calificaciones altas a mayor n° de horas de estudio y viceversa. Hay, sin embargo, algunas excepciones como el estudiante con el ID 8, que ha estudiado un número de horas más bien alto (10) y ha obtenido un 1 en el examen de lengua de la PAU. Se dice, por tanto, que dos variables X e Y mantienen una relación lineal directa cuando los valores altos en Y tienden a emparejarse con valores altos en X, los valores intermedios en Ytienden a emparejarse con valores intermedios en X, y los valores bajos en Y tienden a emparejarse con valores bajos en X. Además de la relación lineal directa, también puede darse entre las variables una relación lineal inversa. Se dice que dos variables X e Y mantienen una relación lineal inversa cuando los valores altos en Y tienden a emparejarse con valores bajos en X, los valores intermedios en Y tienden a emparejarse con valores intermedios en X, y los valores bajos en Y tienden a emparejarse con valores altos en X. 189 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 5.1. Estudie, de manera gráfica, la posible relación entre el número de calorías diarias ingeridas por un grupo de pacientes con anorexia nerviosa y la gravedad de la enfermedad, evaluada mediante un test apropiado. Paciente I• 11' Calorías ingeridas CX) ', Gra'd o1anore.)!:ia ,,11 1 2 3 " (Y). . " 500 300 1000 700 2500 1500 500 1200 1700 3000 4 5 6 7 8 9 10 4 5 4 4 1 2 5 3 3 2 Solución: Dado que se trata de dos variables cuantitativas, la representación gráfica adecuada es el diagrama de dispersión. Para hacerlo, hay que marcar con un punto, en el eje de coordenadas, el cruce de las pun tuaciones en las dos variables de cada sujeto. 6 ---~--~------~---~--~--~ s:::- 5 ~ ro X QJ 4 o'e ro 3 QJ "O o 2 "O ro 'l'.) 1 o 500 1000 1500 2000 Calorías ingeridas (X) 190 2500 3000 3500 RELACIÓN ENTRE VARIABLES 11 Como se puede apreciar en el gráfico, los valores altos en X, (que corresponden con consumos altos o normales de calorías) tienden a emparejarse con valores bajos en Y, esto es, con puntuaciones bajas en anorexia y viceversa; los consumos más bajos de calorías (que son los valores más bajos de X) tienden a emparejarse con altas puntuaciones en el test que mide la gravedad de la enfermedad, esto es, con valores altos de Y. Este es un ejemplo de relación lineal inversa. Otra situación posible es que no haya relación lineal entre las dos variables estudiadas. Se dice que hay relación lineal nula cuando no hay un emparejamiento sistemático entre ellas en función de sus valores. Ejemplo 5.2. Realice un diagrama de dispersión con los datos de la tabla. ¿Hay relación lineal entre la edad de un grupo de estudiantes de la UNED y su motivación respecto a los estudios que están cursando? Estudiante Edad (X) Motivación ( Y) 1 19 2 3 4 5 6 42 55 32 23 26 48 33 40 52 6 4 4 8 5 7 8 9 10 1 7 3 9 3 Solución: Al igual que en el ejemplo anterior, para realizar el diagrama de dispersión hay que situar en el eje de coordenadas los datos (cada pun to representa un estudiante). 191 INTRODU CCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIEN CIAS DE LA SALUD 10 1, 9 8 $:' '--' e 'º·¡:; 7 6 5 ro > ¡:; 4 :E 3 o 2 1 o o 5 10 15 20 25 30 35 40 45 50 55 60 Edad (X) Atendiendo al diagrama de dispersión no se aprecia ningún tipo de relación lineal entre estas dos variables. '' 1 Por último, se presenta un ejemplo en el que se aprecia una relación entre las dos variables, pero esta relación no es lineal. Según la Ley de Yerkes-Dodson, la relación entre activación y rendimiento toma la forma de una U invertida. Para cada tipo de tarea se define un grado óptimo de activación en el cual el rendimiento para esa tarea es máximo. Por enci ma y por debajo de ese nivel óptimo, el rendimiento decrecerá tanto más cuanto más lejos se encuentre el nivel actual de activación del óptimo para la tarea. Ejemplo 5.3. En la tabla se presentan los datos correspondientes a las variables grado de activación o arousal (X) y rendimiento en un examen (Y) de un grupo de estudiantes . ¿Los datos reflejan algún tipo de relación entre ambas variables? 192 RELACIÓN ENTRE VARIABLES 11 .l:studiante 4rousaJ (X) Rendimiento ( Y) 1 2 3 4 5 6 4 3 5 8 9 6 5 4 8 5 1 7 6 7 8 9 1 5 2 1 9 3 10 7 Solución: Para comprobar gráficamente si se percibe algún tipo de relación entre las variables se realiza un diagrama de dispersión. 10 ,---.-----.-----.-----.-----.-----.----.----.----.------, o .µ e .9! E "O e QJ ex: 9 + - - - + - - - + - - - + - - - + - ----<---- f - - - t - - - + - - - + - - - - - - < 8 7 + - - - + - - - + - - - + - - - t - - ----<---- 1 - - - 1 - - - t - - - - t - - - - - - < 6 + - - - + - - - + - - - + - ---<---- 1 - - - f - - - t - - - t - - - f - - - - - - < 5 + - - - t - - - - + - ---<---- t - - - - 1 - - - 1 - - - 1 - ---<----t------< f - - - f - - - f - - - f - - - f - - - f - ----i- -1-----1-----1--------< 4 f - - - f - - - f - - - f - - - 1 - - - - - 1 - - - - - 1 - - - ----i- 3 f - - - f - ----<- 2 +---+---+---+---+---+---+---+---+---+------< 1 1 - -1---- + - - - + - - - + - - - t - - - t - - - t - - - + - ---<• -----< -l-----l--------< -f---l-----l-----1-----1-----1-----1--------< o '---'-----'-----'-----'-----'----'---'---'---'-------' 4 5 o 1 2 3 6 7 8 9 10 Arousal (X) En el diagrama de dispersión se aprecia cómo los estudiantes con muy bajo y muy alto nivel de activación (X) tienen un rendimiento bajo mientras que los rendimientos más altos se dan en los estudiantes con niveles de activación medios. Por tanto, parece que sí hay relación entre las variables, pero no se trata de una relación lineal. 193 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Se ha presentado de manera gráfica cómo interpretar la relación entre dos variables. Ahora se verán los índices estadísticos que se pueden utilizar para cuantificar esta relación: la covarianza y el coeficiente de correlación lineal de Pearson. Estos índices detectan relaciones lineales entre las variables, por lo que no podrían utilizarse en el Ejemplo 5.3, en el que la relación entre las dos variables es curvilínea. 5.2.2. Covarianza Es un índice que detecta la relación lineal entre X e Y. El término covarianza hace referencia a la variación conjunta de dos variables. Su valor es positivo si la relación es directa, negativo si es inversa, y en torno a cero si es nula; además, su valor absoluto será mayor cuanto más acu sada sea la tendencia a la linealidad en el diagrama de dispersión. Se designa por SXY, o Cov(X, Y) y su fórmula es: n ¿X;Y; I ¡ Sxy = Cov(X, Y) = i =l n - X y (5.1) donde: = valor de la variable X en el caso i. Y; = valor de la variable Y en el caso i. X = media de la variable X . Y = media de la variable Y. n = número de casos de la muestra X; Se retomará el Ejemplo 5.1, que considera la relación entre el número de calorías diarias ingeridas por un grupo de pacientes con anorexia nerviosa y la gravedad de la enfermedad, para calcular la covarianza. Para aplicar la fórmula, se añade una columna a la tabla de datos, que multiplica los valores de X e Y de cada paciente. 194 RELACIÓN ENTRE VARIABLES 11 Paciente Calorías ingeridas 1 2 3 4 5 6 7 8 9 10 X = 12900 = 1290 10 (X) Grado anorexia (Y) XY 500 300 1000 700 2500 1500 500 1200 1700 3000 4 5 4 4 1 2 5 3 3 2 2000 1500 4000 2800 2500 3000 2500 3600 5100 6000 12900 33 33000 y= 33 10 =3 3 ' n ¿X-Y1 1 Sxy = i= 1 n - X y =33 ooo 10 1290 x 3 3 = 3300 - 4257 = - 957 ' Ya en el Ejemplo 5.1 se vió que existe una relación inversa entre ambas variables, a través del diagrama de dispersión. Por este motivo, no es de extrañar, que el valor de la covarianza sea negativo. Sin embargo, la covarianza presenta una grave limitación, al igual que sucedía con el coeficiente x 2 (utilizado en variables cualitativas), y es que se desconocen los valores mínimo y máximo que puede adoptar, lo que merma su capacidad para interpretar el grado de relación entre las variables. Ejemplo 5.4. Con los datos del Ejemplo 5.2, calcule el valor de la covarianza entre la edad y la motivación en sus estudios de un grupo de estudiantes de la UNED. 195 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Estudiante Edad (X) Motivación ( Y) XY 1 2 3 4 5 6 7 8 9 19 42 55 32 23 26 48 33 40 52 6 4 4 8 5 1 7 3 9 3 114 168 220 256 115 26 336 99 360 156 370 50 1850 10 Solución: Se añade una columna a la derecha con la multiplicación de los va lores de X e Y de cada uno de los estudiantes, antes de aplicar la fórmula: X= 370 = 37 10 n sXY I,x-Y= i =1 n ' ' _ x y =1850 10 37 x 5 = 185 - 185 = o Al igual que sucedía con el diagrama de dispersión, el valor de la covarianza indica que no hay ningún tipo de relación lineal entre estas dos variables. 5.2.3. Coeficiente de correlación lineal de Pearson Es un índice que detecta la relación lineal entre X e Y, y lo hace superando los límites de interpretación de la covarianza, al tener establecido un valor máximo (1~ y mínimo (-1) . Como su nombre indica, solo es apropiado para el estudio de las relaciones lineales entre variables. 196 RELACIÓN ENTRE VARIABLES 11 5.2.3.1. Cálculo El coeficiente de correlación lineal de Pearson entre dos variables X e Y, (rxy), se calcula utilizando cualquiera de estas fórmulas: (5.2) (5.3) donde: = desviación típica de la variable X. S y = desviación típica de la variable Y. S XY = covarianza entre X e Y. Sx Atendiendo a la fórmula 5.2, el coeficiente de correlación lineal de Pearson es el cociente entre la covarianza entre X e Y y el producto de la desviación típica de X y la desviación típica de Y. Por tanto, esta fórmula será preferible, si ya se tienen alguno de los cálculos previos que contiene (la covarianza o las desviaciones típicas de X e Y). Cuando no haya ningún cálculo previo realizado sobre los datos, la fórmula 5.3 será más rápida de calcular. En la Tabla 5.2 se han registrado dos variables en un grupo de estudiantes de la UNED: al principio de curso se midió su nivel de motivación mediante un test apropiado, y al final del curso se ha evaluado su rendimiento mediante la nota media obtenida. Para calcular el coeficiente de correlación lineal de Pearson con la fórmula 5.2, se añaden tres columnas a la derecha (XY, X2 e Y2) para facilitar los cálculos intermedios. 197 INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla 5.2. Nivel de motivación y rendimiento de un grupo de estudiantes de la UNED. Estudiante Motivación (X) Rendimiento (Y) XY )(1. Y2 8 2 5 9 9 3 6 5 4 8 5 1 6 4 9 4 48 35 24 80 35 2 30 36 81 12 64 49 36 100 49 4 25 81 81 9 36 25 16 64 25 1 36 16 81 16 66 52 383 498 316 1 2 3 4 5 7 6 10 7 6 7 8 9 10 En el caso de utilizar la fórmula 5.2, hay que empezar calculando las medias y desviaciones típicas de X e Y, así como la covarianza. X = \ 66 =6 6 10 ' y =52 = 5 10 ' 2 498 - 6 6 2 = 49 8 - 43, 56 = 6, 24 10 ' ' Sx2 = LnXt Sx = jsf = ✓6,24 = 2,498 52 = Y LnY/ _y2 = 316 - 5 2 2 = 31 6 10 ' ' Sy = ~ = - X 2 = ✓4,56 = 27 04 = 4 56 ' ' 2,135 n "X.YI I 383 Sxy = ~ - - X Y = - 6,6 x 5,2 = 38,3 - 34,32 = 3,98 n 10 6 Una vez calculados estos estadísticos ya se puede sustituir directamente en la fórmula 5.2 . rxy = _S_X_Y_ = 3, 98 = 3, 98 = O 746 S x S y 2,498 x 2,135 5,333 ' 198 RELACIÓN ENTRE VARIABLES 11 Al utilizar la fórmula 5.3, se puede sustituir directamente, nada más añadir las columnas relativas a XY, )(2 e Y2. n¿,(XY) - L, X¿ Y rxy = -----; ✓n=¿,=X= 2 ==_==(I,=x=/~✓¡=:,n¿,====Y=2 =_=(¿,=Y)=2 = 10 X 383 - 66 X 52 =----;=======--;e====== = ✓10 X 498- 66 2 X ✓10 X 316 - 52 2 = 3830- 3432 ✓4980 - 4356 x ✓3160 - 2704 398 24,98 x 21,35 =------ 398 = O 746 533,323 ' Obviamente el resultado es idéntico utilizando las dos fórmulas. 5.2.3.2. Interpretación y características Para interpretar los resultados que se obtienen con el coeficiente de correlación de Pearson hay que tener en cuenta, en primer lugar, el valor absoluto. Cuanto mayor es el valor absoluto del coeficiente, la relación lineal entre las dos variables es más fuerte. En segundo lugar, hay que tener en cuenta el signo del coeficiente de correlación de Pearson. Cuando el signo es positivo, indica que a valores mayores de la variable X tienden a corresponder, en media, valores mayores de la variable Y, y a valores menores de la variable X tienden a corresponder, en media, valores menores de la variable Y. Por tanto, se trata de una relación lineal directa. Cuando el signo es negativo, indica que a valores mayores de la variable X tienden a corresponder, en media, valores menores de la variable Y, y a valores menores de la variable X tienden a corresponder, en media, valores mayores de la variable Y. Por tanto, indica una relación lineal inversa. El valor del coeficiente de correlación lineal de Pearson oscila siempre entre los valores de -1 y + 1: o -1 Relación inversa ■ +1 Relación directa Si rx y > O, entonces existe una relación lineal directa entre las variables. Cuanto más se acerque a 1 el coeficiente de correlación, más fuerte será la relación existente entre las variables, de forma que a ma - 199 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD yores valores de la variable X nos encontraremos con valores altos de la variable Y y, a la inversa, los valores bajos de la variable X se corresponderán con valores bajos de la variable Y. ■ Si rxy < O, entonces existe una relación lineal inversa entre las variables. Cuanto más se acerque a -1 el coeficiente de correlación, más fuerte será la relación existente entre las variables, de forma que los valores altos de X se corresponderán con valores bajos de Y y viceversa. Relación lineal directa Relación lineal inversa Motivación y rendimiento Calorías Ingeridas y grado de anorexia rxy= 0,746 rxy= -0,885 10 o .µ e Q) E "O e Q) o:: 9 8 7 6 5 4 3 2 1 O s::- 6 IO 5 ·x ~ 4 o ~ 3 o 1 2 3 4 5 6 7 8 9 10 10 e •O ·u IO > o :¡:; ~ O • L. l9 o ¡ • 3000 rXY=-0,079 10 1 ' • • 9 8 --;; 7 6 -~ 5 s::- • .l 5 1015202530354045505560 e • E 4 -g 3 ~ 2 1 O • • • ¡ • 1 •t • 12345678910 Arousal (X) Figura 5.2. Diagramas de dispersión y coeficientes de correlación de Pearson. 200 4000 Relaci6n no lineal • Edad (X) 2000 Arousal y rendimiento 1.1 ~ • 1000 Calorías ingeridas (X) Relación lineal nula Motivación y edad rx y= O s::- • 1 Motivación (X) 9 8 7 6 5 4 3 2 1 • • • ~ 2 -g [ •• ••-• RELACIÓN ENTRE VARIABLES 11 ■ Si rxy:::: O, entonces apenas si hay relación lineal entre las variables, esto es, una variable poco o nada tiene que ver con la otra. En el ejemplo sobre la motivación de los estudiantes y el rendimiento académico el coeficiente de correlación arroja un valor de O, 746. Este valor es positivo, por tanto hay una relación lineal directa entre ambas variables, tal y como se puede ver en el diagrama de dispersión, y está próximo a 1, por lo que se puede decir que esta relación es fuerte. En el ejemplo de las calorías ingeridas y el grado de anorexia, el valor del coefi ciente de correlación es negativo, indicando una relación lineal inversa. Como se aprecia en el diagrama de dispersión, a mayores valores de la variable X, corresponden menores valores de la variable Y. El ejemplo de la motivación y la edad responde a un coeficiente de correlación lineal de valor cero. No existe relación lineal entre ellas. El ejemplo sobre arousal y rendimiento responde también a un coeficiente de correlación lineal de valor cercano a cero. De hecho, no existe relación li neal, pero sí existe una relación curvilínea entre las dos variables. Esto nos indica también una limitación importante del coeficiente de correla ci ón lineal y es que sólo detecta relaciones lineales entre dos variables. Por tanto, un coeficiente de correlación lineal cercano a cero, indica que no existe relación lineal entre las variables, pero no excluye la posibilidad de que las variables tengan otras relaciones entre sí de carácter no lineal. Características del coeficiente de correlación lineal de Pearson: ■ Se trata de un índice simétrico, por tanto, es igual la correlación de X con Y que la de Y con X (rxy = r yx ). ■ El valor del coeficiente de correlación lineal de Pearson se encuentra comprendido entre - 1 y 1. Los valores - 1 y 1 indican una correlación lineal perfecta y el valor O indica ausencia de correlación lineal. ■ El valor absoluto del coeficiente de correlación lineal de Pea rson no se ve afectado por transformaciones lineales de las variables. Asimismo, rxy = ±1, si una variable es una transformación lineal de la otra (ver Ejemplo 5.5). ■ La correlación entre dos variables (por alta que sea) no implica que X sea la causa de Y, ni que Y sea la causa de X . Para poder hablar 201 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD de causalidad se tienen que cumplir unos requisitos relativos al diseño de la investigación (que debe ser experimental). ■ El coeficiente de correlación lineal de Pearson puede verse afectado por terceras variables. Por ejemplo, si se mide la estatura y el razonamiento abstracto de los niños de Primaria de un colegio, habrá una alta correlación entre ambas variables, debido a que los niños más altos tendrán más edad que los niños más bajos. Si el coeficiente de correlación se limita a los niños de la misma edad, posiblemente desaparezca la correlación entre estatura y razonamiento abstracto. Ejemplo S.S. En el apartado anterior se ha calculado la covarianza entre el número de calorías ingeridas y el grado de anorexia de 10 pacientes, obteniendo un valor de S xy = -957. A) Calcule e interprete el coeficiente de correlación lineal de Pearson entre ambas variables. Para calcular rxy es necesario conocer, además, las desviadones típicas de X e Y, por lo que se añaden las columnas de X2 e Y2 para facilitar su cálculo. ,, 202 1 Paciente Calor'ías ingeridas (X) Grado anorexia (Y) XY )(2 Y2 1 2 3 4 5 6 7 8 9 10 500 300 1000 700 2500 1500 500 1200 1700 3000 4 5 4 4 1 2 5 3 3 2 2000 1500 4000 2800 2500 3000 2500 3600 5100 6000 250000 90000 1000000 490000 6250000 2250000 250000 1440000 2890000 9000000 16 25 16 16 1 4 25 9 9 4 12900 33 33000 23910000 125 RELACIÓN ENTRE VARIABLES 11 X= 12900 = 1290 10 s1 = L nxl _x 52 Y = Sx = r XY I,Y/ _y2 n 2 = 33 Y =-=3,3 10 23910000 - 12902 = 2391000 - 1664100 = 726900 10 = 125 - 3 3 2 = 12 5-10 89 = 161 10 ' ' ' ' .jsf = ✓726900 = 852,584 Sy = jsf = ✓1,61 = 1,269 = S xy = - 957 = - 957 = _ 0 885 SxSy 852,584 x 1,269 1081, 929 ' El coeficiente de correlación lineal de Pearson es negativo, lo que indica que hay una relación lineal inversa entre las variables. Su valor está muy próximo a -1, por lo que existe un alto grado de relación entre ambas. B) Suponiendo que al test de anorexia se le aplica la siguiente transformación lineal a sus puntuaciones Y2 = 2Y + 3. ¿cuál sería la correlación entre el n° de calorías ingeridas y esta nueva variable Y2 ? Según sus propiedades, el coeficiente de correlación lineal de Pearson no se ve afectado por las transformaciones lineales entre variables, por lo que la correlación entre X y la variable Y2 debe ser igual a la correlación que había entre las variables originales X e Y. Para comprobarlo, en primer lugar se calculan las puntuaciones de Y2 multiplicando cada valor de Y por 2 y sumando 3 al valor resultante. Una vez hecho esto, hay que calcular las columnas XY2 e Yt 203 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Paciente Calorías ingeridas (X) Grado anorexia (Y) 1 2 3 4 5 6 7 8 9 10 500 300 1000 700 2500 1500 500 1200 1700 3000 4 5 4 4 1 2 5 3 3 2 12900 33 XY2 X2 y:2 2 9 9 7 5500 3900 11000 7700 12500 10500 6500 10800 15300 21000 250000 90000 1000000 490000 6250000 2250000 250000 1440000 2890000 9000000 121 169 121 121 25 49 169 81 81 49 96 104700 23910000 986 Y2 11 13 11 11 5 7 13 Con los datos de la tabla, ya se puede aplicar la fórmula 4.3 . 10 X 104700 - 12900 X 96 =.==========-,====== = ✓10 X 23910000 -12900 2 X ✓10 X 986 - 96 2 = = 1047000 -1238400 = ✓239100000 -166410000 X ✓9860 - 9216 -19140 0 = -1 91400 = - O 885 8525, 843 X 25,377 216360, 318 ' La correlación entre X y una variable que es una transformación lineal de Y, denominada Y 2 , es igual que la correlación entre X e Y. C) Teniendo en cuenta la transformación lineal aplicada a las puntuaciones del test de anorexia Y2 = 2Y + 3. ¿cuál es la correlación entre el test de anorexia (Y) y la nueva variable (Y2 )? Para calcular la correlación entre las variables Y e Y2 , hay que añadir a la tabla anterior la columna que multiplica ambas varia- 204 RELACIÓN ENTRE VARIABLES 11 bles antes de aplícar la fórmula. En este caso, ya no son necesarias las variables relativas a X, por lo que se eliminan de la tabla. Paciiente Grado anorexia Y2 Y2 4 5 4 4 1 2 5 3 3 2 16 25 16 16 1 4 25 9 9 4 11 33 125 01 1 2 3 4 5 6 7 8 9 10 y;2 1 2 YY2 5 7 13 9 9 7 121 169 121 121 25 49 169 81 81 49 44 65 44 44 5 14 65 96 986 349 13 11 11 27 27 14 nI, (YY2 ) - I, Y¿, Y2 = , ✓nI, y2 -(I, Y)2 ✓nI, Y22 - (I, Y2)2 ryy_ = = = 10 X 349 - 33 ✓10 X 125 - 33 2 X X 96 ✓10 X 986 - 96 2 = 3490 - 3168 322 =l = 12,689 X 25,377 = 322 322 ✓1250 - 1089 X ✓9860 - 9216 La correlación entre ambas variables es igual a 1, dado que Y2 es una transformación lineal de Y. 5.2.3.3. Casos particulares del coeficiente de correlación lineal de Pearson Hay varias fórmulas que se derivan del coeficiente de correlación lineal de Pearson, y se utilizan en algunos casos particu lares, como el estudio de la relación entre dos variables ordinales, el estudio de la relación entre 205 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD dos variables dicotómicas y el estudio de la relación entre una variable dicotómica y otra cuantitativa. Estas fórmulas se desarrollaron porque su cálculo es más rápido que utilizando Pearson, aunque con los programas informáticos existentes, esto no es un problema en la actualidad. 5.2.3.3.1. Relación entre variables ordinales En el tema anterior se presentó el coeficiente de correlación lineal de Spearman para estudiar la relación entre dos variables ordinales. Esta fórmula se deriva matemáticamente del coeficiente de correlación lineal de Pearson aplicado a rangos, por lo que su resultado es idéntico, como se puede comprobar en el siguiente ejemplo . 'J' Ejemplo 5.6. A continuación se muestran los datos del Ejemplo 4. 7 del tema anterior, en el que se calculó el coeficiente de Spearman, obteniendo un valor de r 5 = -0,806, entre las variables X (puntuación obtenida en un test que mide sus dificultades lectoras) e Y (nota final en la asignatura de Lengua). ¿coincide este valor con el del coeficiente de correlación lineal de Pearson (rxy)? Estudia,qte 1 2 3 4 5 6 7 8 9 10 Test Nota ' (Y-) Rangos X Rangos1 (~ 35 47 85 65 49 33 92 55 27 71 6,7 5,8 4 2,5 7,5 9,5 3 6,5 7 5,5 3 7 5 3 1 9 10 2 6 8 4 4 9 7 5 2 10 6 1 8 y Solución: Para facilitar el cálculo de Pearson se añaden a la derecha las columnas XY, X2 e Y2. 206 RELACIÓN ENTRE VARIABLES 11 'Estudiari't e test (X) Nota (Y) Rangos 1 2 3 4 5 6 7 8 9 10 35 47 85 65 49 33 92 55 27 71 6,7 5,8 4 2,5 7,5 9,5 3 6,5 7 5,5 3 4 9 7 5 2 10 6 1 8 X 55 ' Rangos Y,1¡ Rango$ Rangos XY )(2 y.z 7 5 3 1 9 2 6 8 4 21 20 27 7 45 20 20 36 8 32 9 16 81 49 25 4 100 36 1 64 49 25 9 1 81 100 4 36 64 16 55 236 385 385 10 Rángos .~ Y sustituyendo en la fórmula: n¿,(XY) - LX¿, Y rxy = , ✓ n=I, = x=2-==(==I,=x=)=-2✓-=;:~=L===y==2=_=(2, = Y)=2 = = = 10 X 236 - 55 X 55 ✓10 X 385 - 55 2 X ✓10 X 385 - 55 2 = 2360 - 3025 = - 665 = - 665 = - 0, 806 ✓3850 - 3025 X ✓3850 - 3025 ✓825 X ✓825 825 El resultado de ambas fórmulas es idéntico. El único caso en el que las fórmulas de Pearson y Spearman no coinciden es en el de empates en los rangos, en cuyo caso hay que utilizar el co eficiente de correlación lineal de Pearson entre los rangos de las variables. En caso de no haber empates se puede utilizar cualquiera de las dos (el resultado es idéntico) teniendo en cuenta que el coeficiente de correlación de Spearman simplifica bastante los cálculos. Ejemplo 5.7. En la Tabla 1.2 de la página 21 se muestran los datos de 40 estudiantes en diversas variables. De ellas, la variable nivel de estudios de la madre es la única que es ordinal. Suponiendo que la 207 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD variable Calificación en el examen de Lengua de la PAU no cumpliera el requisito de normalidad, calcule el coeficiente de correlación de Spearman y de Pearson entre ambas variables para los primeros 10 estudiantes de la Tabla. 1 ID 1 2 3 4 5 6 7 8 Nivel de estudios de la madre 3 2 3 2 2 3 4 Calificación PAY 6 4 9 4 8 7 7 1 9 1 2 4 10 4 8 Solución: En primer lugar hay que calcular los rangos de las variables. Para ha cerlo, hay que ordenar los valores de menor a mayor. En la primera tabla aparecen la variable de identificación del estudiante (ID) y la variable nivel de estudios de la madre. En la segunda tabla se han ordenado los datos de la variable nivel de estudios de menor a mayor, por lo que ahora la variable ID no aparece ordenada. En la última tabla se han asignado los rangos correspondientes: el menor valor (1) corresponde al estudiante con identificación (ID) número 8, por lo que se le asigna el rango l. El siguiente valor (2) es compartido por 4 estudiantes (ID 2, 4, 5 y 9), por lo que se calcula la media de los rangos que tendrían asignados (2 + 3 + 4 + 5) / 4 = 3,5 y se asigna el rango promedio 3,5. El siguiente valor (3) es compartido por tres estudiantes, por lo que se asigna el rango promedio que en este caso es (6 + 7 + 8)/3 = 7. El último valor que adopta esta variable (4) ha sido obtenido por 2 estudiantes, por lo que su rango promedio es (9 + 10) / 2 = 9,5. 208 RELACIÓN ENTRE VARIABLES 11 ID Nivel de estudios de la madre 1 2 3 4 5 6 7 8 9 10 3 2 3 2 2 3 4 1 2 4 ID Nivel de estudios de la madre 8 2 4 5 9 1 3 6 7 10 1 2 2 2 2 3 3 3 4 4 1 ♦ ID .N ivel de estudios de la madr~ (rangos) 8 2 4 5 9 1 3 6 7 10 1 3,5 3,5 3,5 3,5 7 7 7 9,5 9,5 1 Siguiendo el mismo procedimiento se asignan los rangos correspon dientes a la variable calificación obtenida en la prueba de Lengua de la PAU. Primero se ordenan los valores de la variable de menor a mayor (segunda tabla) y después se asignan los rangos correspondientes (tercera tabla), teniendo en cuenta que en caso de empate en la puntuación hay que calcular el rango promedio. Califi.cación l, ID 1 2 3 4 5 6 7 8 9 10 PAU 6 4 9 4 8 7 7 1 4 8 ID .l Calificadón PAU 1 4 4 4 6 7 7 8 8 9 8 2 4 9 1 6 7 5 10 3 Calificación ID PAU (rangos) 8 2 4 9 1 6 7 5 10 3 1 3 3 3 5 6,5 6,5 8,5 8,5 10 lllltjl 209 INTRODUCCIÓN A ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ah ora, se sitúan los rangos correspondientes en la misma tabla ordenada por el número de estudiante (ID). Para el cálculo del coeficiente de Spearman hay que hallar, para cada sujeto, la diferencia entre los rangos de ambas variables, y elevarlo al cuadrado. Para el cálculo del coeficiente de Pearson, se añaden a la derecha las columnas XY, X2 e Y2. Estos cálculos aparecen en las últimas columnas de la tabla. ID 1 2 3 4 5 6 7 8 9 10 Estudios Madre (X) Callflcaci6n 3 2 3 2 2 3 4 1 2 4 6 4 9 4 8 7 7 1 4 8 PAU (Y) Rangos (X) Rangos (Y) 7 3,5 7 3,5 3,5 7 9 ,5 1 3,5 9,5 5 3 10 3 8,5 6,5 6,5 1 3 8,5 55 55 d21 XY X2 4 0,25 9 0,25 25 0,25 9 49 12,25 49 12,25 12,25 49 90,25 1 12,25 90,25 25 9 100 9 72,25 42,25 42,25 1 9 72,25 377,5 382 d, 2 0,5 -3 0,5 -5 0,5 3 o o 0,5 1 0,25 1 35 10,5 70 10,5 29,75 45,5 61,75 1 10,5 80,75 49 355,25 Y2 Y sustituyendo en las fórmulas correspondientes: r =1s 6 Ldl n(n 2 - 1) =1- 294 6 49 = 1= 1 - 0,297 = 0,703 x 2 10(10 - 1) 990 n¿,(XY) - ¿,X¿,Y ~y=--;=========~========== ✓nI,x2 -(I,x)2✓nI, y2 - (I, Y)2 10 X 355, 25 - 55 X 55 =~=======-~======= ✓10 X 377, 5 - 55 2 X ✓10 X 382 - 552 = = 3552, 5 - 3025 527, 5 = = ✓3775- 3025 X ✓3820- 3025 ✓750 X ✓795 527,5 = 527,5 = O 683 27,386 x 28,196 772,176 ' En este caso, había varios empates por lo que el valor de ambos co eficientes no coincide, y hay que tener en cuenta el valor obtenido 210 RELACIÓN ENTRE VARIABLES 11 con el coeficiente de correlación lineal de Pearson. Este valor es alto, lo que indica que hay Una gran relación entre el nivel de estudios de la madre y la calificación obtenida en la prueba de Lengua de la PAU. El signo del coeficiente es positivo, por lo que a mayores valores en el nivel de estudios de la madre, en general hay mayores valores en la calificación obtenida. 5.2.3.3.2. Relación entre variables dicotómicas La fórmula del coeficiente cp vista en el tema anterior se deriva del coeficiente de correlación lineal de Pearson, por lo que el resultado de ambas es igual. Eso sí, el cálculo de cp se basa en la tabla de contingencia, por lo que es bastante más rápido que el de rxy que precisa de las puntuaciones de cada sujeto en ambas variables. Ejemplo 5.8. Con los datos del Ejemplo 4.5, el coeficiente cp entre las variables sexo y grupo arrojó un resultado de cp = 0,253. Compruebe que el valor del coeficiente de correlación lineal de Pearson es idéntico. Grupo (Y) Control Experimental Hombre 14 9 23 Mujer 6 11 17 20 20 40 Sexo (X) Solución: En primer lugar, se utilizará la tabla con las puntuaciones originales de los datos de las columnas relativas a grupo y sexo de la Tabla 1.2. Dado que cp se utiliza únicamente con puntuaciones O y 1, los valores de la variable sexo (que se había codificado como 1 = hombre y 2 = mujer) pasarán a codificarse como O= hombre y 1 = mujer. Lo mismo sucede con la variable grupo, que ahora será O = control y 1 = experimental. 211 INT ROOU IÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1,, 212 Sexo {X) Grupo { Y) o o 1 o 1 o o 1 o 1 1 o o o 1 o o o o o o 1 1 o o 1 o 1 1 1 1 1 1 o o o o 1 o 1 17 o o o o o o o o o o o o o o o o o o o o 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 20 XY )(2 Y2 o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o 1 1 1 1 o o o o 1 o 1 o o 1 o 1 1 o o o 1 1 1 o o 1 1 1 1 1 1 1 1 1 1 1 1 o o o o o o o o 1 1 o o 1 1 17 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 20 RELACIÓN ENTRE VARIABLES 11 nl(XY) - rxr y ~y=~ ✓n=L=X=2_=(=L=X=)~2✓~n=L=y=2=_=(L = Y)=2 = 40 X 11 - 17 X 20 = --;======----====== ✓40 X 17 - 17 2 X ✓40 X 20 - 20 2 = = 440 - 340 100 = = .,/680 - 289 x .,/800 - 400 .J391 x .J400 100 19,774 x 20 = 100 395,48 = O 253 ' El resultado es el mismo que con el coeficiente cp. .. 1 5.2.3.3.3. Relación entre una variable dicotómica y otra cuantitativa Como se vió en el Tema 1, una variable dicotómica es una variable categórica que solo puede adoptar dos valores posibles, que se suelen representan por O y 1. El coeficiente de correlación biserial puntual se utiliza cuando una de las variables es dicotómica y la otra es cuantita tiva. Como se verá en el curso que viene, se trata de un coeficiente muy utilizado en Psicometría . Se denota como r bp y su fórmula es: r bp = Xp - Xq 5X r:::----::: · vP · q (5.4) donde: X p es la media de las puntuaciones de la variable cuantitativa X obte nidas por el grupo al que se le ha asignado un 1 en la variable dicotó mica. X q es la media de las puntuaciones de la variable cuantitativa X obtenidas por el grupo al que se le ha asignado un O en la variable dicotómica. 213 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Sx es la desviación típica de la variable cuantitativa X. p es la proporción de casos del grupo al que se le ha asignado un 1 en la variable dicotómica. q es la proporción de casos del grupo al que se le ha asignado un O en la variable dicotómica. Ejemplo 5.9. En la Tabla 1.2 del Tema 1 se muestran los datos de 40 estudiantes en diversas variables. Teniendo en cuenta únicamente los 10 primeros estudiantes de la tabla, calcule la correlación entre las variables sexo y horas de estudio semanales mediante el coe ficiente de correlación biserial puntual y compruebe que este valor coincide con el del coeficiente de correlación lineal de Pearson. 1 ID Sexo 1 1 2 3 4 5 6 7 V 8 9 10 1 1 2 1 2 1 1 2 1 2 Horas de estudiQ semanales 7 11 16 5 14 10 12 10 2 15 Solución: El coeficiente de correlación biserial puntual asigna puntuaciones O y 1 a los va lores de la variable dicotómica, por lo que los valores de la variable sexo (que se había codificado como 1 = hombre y 2 = mujer), pasarán a codificarse como O= hombre y 1 = mujer. Para facilitar el cálculo de Pearson se añaden las columnas correspondientes a XY, )(2 e Y2. 214 RELACIÓN ENTRE VARIABLES 11 ID Sexo (Y} Horas de estudio semanales (X) 1 2 o o 7 3 1 4 5 6 o 1 4 102 o o 1 8 9 10 Y2 )(2 o o o o 16 1 o o o o 15 1 49 121 256 25 196 100 144 100 4 225 55 4 1220 11 16 5 14 10 12 10 2 15 1 7 XY o 14 1 o o o o 10 1 Para calcular X p tenemos en cuenta únicamente a las chicas (sexo = 1) Xp = I,XP = 16+14 + 10 + 15 = 55 = l3, 75 n 4 4 Para calcular X q tenemos en cuenta únicamente a los chicos (sexo= O) Xq = I,Xq = 7 + 11 + 5 + 10 + 12 + 2 = 47 = 7, 833 n 6 6 La desviación típica se calcula para todos los datos 5 2 X = I,Xt _ n Sx = p = ~ bp x 2 = 122 º -(110º2 ) 10 2 = 122 - 104 04 = 171 96 ' jsf = ✓17,96 = 4,238 4 = 0,4 10 q= 6 =0,6 10 = Xp - Xq _ ~=13,75 - 7,833 x ,04 x 0 6 = 5 \f p . q 4 238 '1 ' ' X I = 1,396 X 0, 49 = 0,684 215 INTRODUCCIÓN Al ANALISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Para calcular el coeficiente de correlación lineal de Pearson se aplica la fórmula 4.3. nl(XY)- L,XL,Y rxy = -, ✓n=r=x=2-==(===r=x=)=-2✓-";=n===L==y==2=_=(L=Y)=2 = = = = 10 x 55 - 102 x 4 ✓10 x 1220-102 2 x ✓10 x 4-4 2 = 550 - 408 142 = = ✓12200 - 10404 X ✓40 - 16 ✓1796 X .J24 142 42,379 x 4,899 = 142 207,615 = O 684 ' El resultado es el mismo que con el coeficiente , \. rbp· Si la variable en lugar de ser dicotómica es dicotomizada, el coeficiente que se debe utilizar es el coeficiente de correlación biserial (que no veremos aquí). Como se recordará, una variable se ha dicotomizado si hay un continuo latente entre las dos categorías, pero se han establecido dos únicos valores. En el Tema 1 se citaba como ejemplo el peso de una rata en un experimento. Se puede considerar su peso en gramos (hay una variable latente continua), pero también se podría dicotomizar esta variable considerando únicamente dos valores de peso (alto y bajo). En el caso del sexo, se trata de una variable dicotómica para la que no hay un continuo latente entre las dos categorías (no se ha dicotomizado). 5.3. COEFICIENTES DE CORRELACIÓN EN FUNCIÓN DEL TIPO DE VARIABLE: TABLA RESUMEN En la Tabla 5.3 se ofrece un resumen de los distintos índices o coeficientes que permiten expresar la relación que hay entre diferentes tipos de variables. Se ha señalado en negrita aquellos coeficientes que hemos visto en este curso, ya que es imprescindible hacer una selección. En el tema anterior se vió la relación que hay entre dos variables cualitativas y entre dos variables ordinales. En éste se ha examinado la relación entre dos variables cuantitativas y entre una cuantitativa y otra cualitativa. 216 RELACIÓN ENTRE VARIABLES 11 Tabla 5.3. Coeficientes de correlación apropiados en función del tipo de variable. Cualitativa dicotómica G:ualitativa politómica x2 Ordinal x2 Cuantitativa x2 Coef. C de Contingencia Coef. C de Contingencia Coef. C de Contingencia Correlación Biserial Puntual Coef. V de Cramer Coef. V de Cramer Coef. V de Cramer Correlación Biserial Estadístico Estadístico Estadístico Coeficiente <p Coef. Q de Yule Coeficiente Kappa Estadístico x2 Estadístico x2 Coef. C de Contingencia Coef. c de Contingencia Coef. V de Cramer Coef. V de Cramer Ordinal Coef. de Correlación de Spearman Coef. de Correlación de Spearman Coef. de correlación de Kendall Coef. de correlación de Goodman y Kruskal Coef. de correlación de Kendall Coef. de correlación de Goodman y Kruskal Covarianza Cuantitativa Coef. de correlación de Pearson 5.4. REGRESIÓN LINEAL SIMPLE El concepto de regresión proviene del ilustre psicólogo inglés Sir Francis Galton (1822-1911) que, analizando la estatura de una muestra numerosa de padres e hijos, advirtió que los hijos de padres altos eran también, en general, superiores en estatura al promedio de la población, pero no tan altos como sus progenitores. Algo parecido ocurría con los hi- 217 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD jos de padres bajos que, aún siendo más bajos que el promedio, no eran , por término general, tan bajos como ellos. De estas observaciones dedujo que se producía en los hijos lo que el llamó una regresión a la media de la distribución, esto es, que los valores tendían a regresar a la media de la variable. A partir de aquí, buscó una ecuación matemática que sirviera para estimar los valores que adoptarían en una variable sujetos para los que se conoce sus puntuaciones en otra variable y la relación entre ambas. Esta ecuación resultaría ser la ecuación de una recta. 1 Y,' a + bX; 1 (5.5) El modelo de regresión utiliza la información contenida en las relaciones lineales observadas entre las variables. Si dos variables X e Y se relacionan linealmente, entonces la representación gráfica de su distribución conjunta se aproximará visualmente bastante a una línea recta y, por consiguiente, podemos escribir una variable en función de la otra con la ecuación de una recta: Y= a + bX. Correlación y regresión son dos conceptos muy cercanos. La diferencia fundamental entre ambos estriba en su objetivo: en la regresión, el interés se centra en predecir los valores de una variable (Y) a partir de los valores conocidos en la otra variable (X), más que en la variación conjunta de las dos variables. En la correlación la relación entre las variables es simétrica, mientras que en la regresión la relación es asimétrica o direccional, ya que los resultados serán distintos según se trate de la ecuación de reg resión de Y sobre X, o de la de X sobre Y (que predice los valores de X a partir de Y). La forma de proceder cuando se utiliza un modelo de regresión implica tres fases: 1) la identificación del modelo de regresión, que supone obtener los coeficientes de regresión que le caracterizan; 2) la valoración del modelo, que supone el estudio de la capacidad predictiva del mismo ; y 3) la aplicación del modelo para predecir variables . 5.4.1. Cálculo de los coeficientes de regresión En la Figura 5.3 se ha dibujado la rect a que mejor ajusta a la nube de puntos del diagrama de dispersión del eje m plo con el que explicó el coefi - 218 RELACIÓN ENTRE VARIABLES 11 ciente de correlación de Pearson (ver Apartado 5.2.3.1), que relacionaba los datos del nivel de motivación y del rendimiento en una determinada asignatura. 10 1 r r 3 4 9 s::o .j..J 8 j • 1 L - 5 6 • 7 e a., 6 E 5 "O e a., o:: 4 3 2 • 1 o 1 2 7 8 9 10 Motivación (X) Figura 5.3. Diagrama de di spersión y recta de regresión . En aquel momento, el interés residía en cuantificar el grado de relación entre ambas variables, para lo que se calculó el coeficiente de correlación lineal de Pearson, que arrojó un valor rxy= 0,746. Este valor lo interpreta mos diciendo que hay una relación lineal alta entre ambas variables. Pues bien, conociendo la ecuación de la recta de regresión de Y sobre X, que en este ejemplo es Y/= a+ bX; = O, 989 + O, 638X, podemos predecir el rendimiento (Y') de otros estudiantes en esa misma situación, conociendo únicamente sus valores en motivación (X). La regresión se suele utilizar en situaciones en las que se dispone de la medida de dos variables X e Y en una muestra de participantes y, después, para otros sujetos de esa misma población, se predice cuáles serán los valores de Y, desconocidos en ese momento, en func ión de los valores de X, que sí son conocidos. En el ejemplo que nos ocupa, se puede predecir la puntuación en rendimiento que obtendrá un nuevo estudiante de esa población, sabiendo que ha obtenido un 5 en el test de motivación, aplicando la ecuación de regresión. 219 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Y/= a + bX; = O, 638X + O, 989 = O, 638 x 5 + O, 989 = 4, 179 Desde el punto de vista geométrico, la recta de regresión tiene la misma interpretación que cualquier otra recta, pero desde el punto de vista estadístico, tiene una característica fundamental: se trata de la recta que ajusta a la nube de puntos del diagrama de dispersión con menos error. La explicación de cada término de la ecuación de la recta de regresión es la siguiente: ■ a es una constante que se denomina origen, porque corresponde al valor que adopta la variable Y cuando la variable X vale cero. Por tanto, indica el origen, el punto en el que la recta corta al eje de ordenadas. ■ b es una constante que se denomina pendiente, porque de ella depende la inclinación de la recta. Indica en qué medida cambian los valores de Y por cada incremento de una unidad en los valores de X. ■ Y es la variable cuyo valor se desea conocer y va a ser pronosticado a partir del valor de la variable X. Se suele denominar variable pronosticada o criterio y denotarla como Y'. ■ X es la variable cuyo valor se conoce y va a ser utilizado para pronosticar el valor del criterio. Se suele denominar variable predictora o simplemente predictor. Obviamente, aunque ya se ha mostrado cuáles son los valores de a y de b en la recta de regresión de la Figura 5.3, estos valores se pueden calcular, conociendo los valores de X e Y. Para ello, se utilizan las siguientes fórmulas: b = --= n ¿=-(_X_Y)_-=¿_X=¿~Y n¿X 2 - (I,x)2 ~ ~ 220 (5 .6) (5. 7) . RE LACIÓN ENTRE VAR IABLES 11 a= Y - bX (5.8) Se han presentado dos fórmulas para calcular b. La primera es más rápid a cuando tenemos los datos directos y la segunda es preferible cuando ya t enemos realizados algunos cálculos previos. Conocido el valor de las dos constantes a y b de la ecuación anterior, tenemos ya completamente formulado el modelo de regresión. Habitualmente se suele poner Y' en lug ar de Y para denotar que nos estamos refiriendo a los valores pronostica dos en el criterio, no a los valores reales obtenidos por los sujetos. Y/= a+ bX; Además, hay que tener en cuenta que, dado que se trata de una predicción hay cierto nivel de error. De no haberlo, todos los puntos del diagrama de dispersión de la Figura 5.3 se encontrarían sobre la recta. Por ta nt o, para cada uno de los sujetos se comete cierta cantidad de error al asi gnarle la puntuación pronosticada Y' en lugar de la puntuación Y. En este sentido, a la ecuación anterior habría que añadirle un término que reflejase este error, de la siguiente manera: Y¡ = a + bX; + E; (5 .9) donde: (5.10) E; es una medida del error individual cometido para cada una de las observaciones. Al utilizar un modelo de regresión se utiliza el modelo lineal con el que se comete un error lo más pequeño posible para todos los sujetos. Para hacer esto, la regresión lineal se vale del denominado criterio de mínimos cuadrados, que es un procedimiento que proporciona valores tales que la suma de los errores al cuadrado (SCE) para los n participantes sea mínimo. Formalmente, se establece obteniendo los valores a y b que minimizan la siguiente expresión: 221 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD (5.11) Se puede demostrar (derivando parcialmente la función a m1nim1zar respecto de cada uno de los parámetros, igualando a O y despejando) que este criterio proporciona las ecuaciones para estimar a y b con el menor error posible, consiguiendo la recta que mejor ajusta a la nube de puntos. El lector interesado puede acudir a Amón (1999) para profundizar en esta cuestión. En el siguiente ejemplo, se explica cómo calcular la recta de regresión con los datos de la Figura 5.3. Ejemplo 5.10. Con los datos de la Figura 5.3 calcule la ecuación de la recta de regresión del rendimiento sobre la motivación en un grupo de 10 estudiantes. 10 ,,--., 9 s::o 8 v--- 7 .µ e 6 E 5 (].) ......--:: e (].) / / "O a'. ./ 4 / 3 V" V 2 1 o o 1 2 3 4 5 6 7 8 9 10 Motivación (X) Solución: En la Tabla 5.2 aparecen los datos utilizados para realizar este diagrama de dispersión. En caso de no conocerlos, bastaría con ir fiján- 222 RELACIÓN ENTRE VARIABLES 11 dese en cada uno de los puntos de la gráfica, y ver qué valor en cada una de las dos variables ha obtenido el estudiante. Así, por ejemplo, el punto que aparece más a la izquierda se corresponde con un estudiante que ha obtenido un 2 en X y un 1 en Y (2,1), que se correspende con los valores del estudiante 6. Estudiante 1 2 3 4 5 6 Motivación (X) Rendimiento (Y) XY )(2 y.z 8 2 5 9 9 3 6 5 4 8 5 1 6 4 9 4 48 35 24 80 35 2 30 36 81 12 64 49 36 100 49 4 25 81 81 9 36 25 16 64 25 1 36 16 81 16 66 52 383 498 316 7 6 10 7 7 8 9 10 Para calcular la recta de regresión, hay que conocer el valor de las constantes b y a: b_ n L (XY) - LX¿, Y _ 10 x 383 - 66 x 52 _ 3830 - 3432 _ 398 _ - n¿,X 2 - (I,x )2 - 10 x 498 - 66 2 - 4980 - 4356 - 624 - = o, 638 También podríamos calcular b utilizando la fórmula 5. 7. Sabemos (ver Apartado 5.2 .3. 1) que r xy= 0,746, S x= 2,498 y S y= 2, 135 b= r xy a= 2 135 S y = O 746 x ' = O 638 S ' 2 498 ' X Y - bX ' = 5, 2 - O, 638 x 6, 6 = 5, 2 - 4,211 = O, 989 223 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD La recta de regresión es: Y/= a+ bX; = O, 989 + O, 638X; 5.4.2. Valoración del modelo Una vez conocida la utilidad del modelo de regresión, y la forma de calcular la ecuación de una recta de regresión con unos datos concretos, queda una pregunta importante por responder: ¿hasta qué punto el modelo de regresión es un buen modelo para predecir la variable criterio? Hay que tener en cuenta que, aunque con el modelo de regresión se consiga el mejor ajuste posible a los datos disponibles, eso no es garantía de que ese ajuste sea óptimo para predecir la variable criterio. Como es obvio, cuanta mayor relación haya entre las variables mejor será el pronóstico realizado. Antes de realizar cálculos numéricos, lo ideal para valorar el ajuste es representar los datos mediante un diagrama de dispersión, para tener una primera aproximación de la posible relación entre las dos variables. En la Figura 5.4 se muestran las rectas de regresión de los ejemplos representados en la Figura 5.2 de este tema. En cada uno de los gráficos, la línea continua representa la ecuación de regresión lineal que mejor ajusta a la nube de puntos. Pero a simple vista se puede apreciar que, en algunos casos, utilizar este modelo lineal para predecir los datos de Y puede ser una mala opción. 224 RELACIÓN ENTRE VARIABLES 11 Relación lineal directa Motivación y rendimiento rxy= 0,746 Y/= O, 989 + O, 638X; s::...,o e (l/ E "O e (l/ o::: 10 9 8 7 6 5 4 3 2 1 ~ 1 \_,. 1 s::-6 ro 5 ·x (l/ l... o ¡ •• 4 e ro 3 (l/ "O • t , t 1 o • ]• Relación lineal inversa Caloría? y grado de anorexia rxy= -0,885 Y/ = 4, 59 - O, 00lX¡ j 1 2 3 4 5 6 7 8 9 10 o 2 "O ro 1 l... l9 o s::- '-' e -o ·u ro > o :¡:; ¿ o • • • • Y¡' = 4,485 + O, 083X; t• • • • r 5 1015202530354045505560 Edad (X) 4000 3000 Relación no lineal Arousal y rendimiento rxy= - 0,079 Relación lineal nula Motivación y edad rxy= O Y/ = 5 10 9 8 7 6 5 4 3 2 1 2000 1000 Calorías ingeridas (X) Motivación (X) 10 9 s::- 8 '-' 7 ...,o 6 e (l/ 5 E 4 "O e 3 (l/ o::: 2 1 o l ,. J·· · · • • ...... l·-.. 1 1 1 1 .. -1 · • \.l·,. ·. . . . ... ~ ; ·.·. ·.•J 1 2 3 4 5 6 7 8 9 10 Arousal (X) Figura 5.4. Diagramas de dispersión, coeficientes de correlación de Pearson y rectas de regresión. En el ejemplo sobre motivación y rendimiento se aprecia una tendencia lineal en los datos que hace que la mayoría de los puntos se encuentren próximos a la recta de regresión. Se trata de una relación directa y el coeficiente de correlación lineal de Pearson arroja un valor de rxy = O, 746. En el ejemplo sobre calorías ingeridas y grado de anorexia también se visualiza una clara tendencia lineal en el diagrama de dispersión, estando 225 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD la nube de puntos muy próxima a la recta de regresión correspondiente, con un rxy= -0,885. En los dos últimos ejemplos el modelo de regresión no parece ser la mejor opción para realizar pronósticos por distintos motivos. En el caso del ejemplo sobre edad y motivación, el diagrama de dispersión refleja que no hay ningún tipo de relación entre ambas variables (rxy = O), por lo que la recta de regresión no serviría para realizar pronósticos en la variable motivación . En el ejemplo sobre nivel de arousal y rendimiento se aprecia en el diagrama de dispersión que sí hay una relación entre ambas variables, pero curvilínea, por lo que la recta de regresión lineal del diagrama tampoco sirve para hacer buenos pronósticos (rxy = -0,079). Para examinar la utilidad predictiva de un modelo de regresión, además de la aproximación gráfica, se pueden utilizar dos índices: la varianza error y el coeficiente de determinación . 5.4.2.1. La varianza error La varianza error es la varianza de los errores cometidos al pronosticar la variable Y a partir de la variable X, definiendo estos errores (o residuos) como la diferencia entre la puntuación que realmente obtendría el sujeto en esa variable (Y) y la puntuación que se le ha pronosticado con el modelo de regresión a partir de su valor en la variable X (Y'), tal y como se ha visto en la fórmula 5.10. E; = Y,- - Yi La varianza error se calcula, simplemente, aplicando la fórmula de la varianza a estas puntuaciones error, y es conocida en la literatura como error cuadrático medio. Esta varianza se puede denotar como o más frecuentemente, como y se interpreta como la varianza de los errores cometidos al pronosticar la variable Y a partir de la variable X (o mediante la recta de regresión de Y sobre X ). Si, s;.x, 5 E2 226 "'E 2 2 = 5 y-x = -~-n ' - -2 E (5.12) RELACIÓN ENTRE VARIABLES 11 Para la recta de regresión de la Figura 5.3 se ha marcado con una llave la distancia entre cada uno de los valores asumidos por la variable Y' representada en la recta de regresión (pronosticada) y la variable Y (ob servada). Estas «distancias» son los errores cometidos al pronosticar el rendimiento en la asignatura (Y) a partir de los valores en motivación (X). 10 f Y'= ,989 + 0,f38X 9 8 $:' o 7 .µ e QJ 6 E 5 1 1 "O e QJ a::: 4 1 3 { 2 1 o r o 1 2 3 4 5 6 7 8 9 10 Motivación (X) Figura S.S. Diagrama de dispersión, recta de regresión y errores de pronóstico. En el gráfico se aprecian los errores cometidos. Por ejemplo, el estudiante n° 7 obtuvo en rendimiento académico (que es la variable Y) una puntuación de 6, mientras que la línea de la recta de regresión le pronostica una puntuación menor. Esta diferencia entre la puntuación real en Y y la puntuación pronosticada en Y es el error cometido en la predicción. En el segundo estudiante el error es menor, puesto que hay menor distancia entre la puntuación obtenida en Y (que es 5) y la puntuación que le pronosticaríamos, que según el gráfico está cercana a 5,5. Cuanto menor sea el valor de la varianza error, más similares serán las puntuaciones pronosticadas por el modelo y las puntuaciones que realmente obtendrían los sujetos en el criterio, esto es, mejores serán las predicciones realizadas por el modelo de regresión. En el próximo ejemplo se calculará la varianza error con estos datos. 227 INTROOUCCIÓN AL ANÁLISIS DE DATOS; APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 5.11. Con los datos de la Figura 5.3 calcule la varianza error de la ecuación de la recta de regresión del rendimiento sobre la motivación en un grupo de 10 estudiantes. 10 9 s::o .µ 8 e 6 E 5 QJ /' 7 V"'" ........-::: ~/ "O e QJ e:: / 4 / 3 V V 2 1 o o 1 2 3 4 5 6 7 8 9 10 Motivación (X) Solución: Los datos que corresponden a la Figura 5.3 se muestran en la siguiente tabla (ver ejemplo anterior). Para facilitar los cálculos se han añadido tres columnas con los valores pronosticados (Y'), los errores (E¡) y los errores al cuadrado (El). Estudiante 1 2 3 4 5 6 7 8 9 10 tfl<llri •#tt- lill'!' 228 (X) Rendimiento (Y) 8 7 6 10 7 2 5 9 9 3 6 5 4 8 5 1 6 4 9 4 66 52 Motivación .. "'" ''''"'""' Yí = O, 989 + O, 638X E1 = Y, - Y; 6,093 5,455 4,817 7,369 5,455 2,265 4,179 6,731 6,731 2,903 .... -0,093 -0,455 - 0,817 0,631 -0,455 -1,265 1,821 -2, 731 2,269 1,097 Ef 0,009 0,207 0,667 0,398 0,207 1,600 3,316 7,458 5,148 1,203 RELACIÓN ENTRE VARIABLES 11 52 = 52 E y .x = í:_El _ -¡j2 n = 20,213 - O = 2,021 10 5.4.2.2. El coeficiente de determinación En regresión lineal simple, el coeficiente de determinación es igual al coeficiente de correlación de Pearson elevado al cuadrado. Indica la proporción de varianza de la variable pronosticada o criterio (Y) que es explicada por el modelo lineal, esto es, por la variable predictora X . r}y ➔ Coeficiente de determinación (5.13) El coeficiente de determinación no depende de las unidades en que se ex presan los datos y toma valores entre O y l. Cuanto mayor sea el valor del coeficiente de determinación, más similares serán las puntuaciones pronosticadas por el modelo y las puntuaciones que realmente obtendrían los sujetos en el criterio, esto es, mejores serán las predicciones realizadas por el modelo de regresión. Si el coeficiente de determinación es igual a O, significa que la variable predictora tiene nula capacidad predictiva de la variable a predecir (Y) . Si llegara a ser igual a 1 la variable predictora explicaría toda la variación de Y, y las predicciones no tendrían error. Ejemplo 5.12. Sabiendo el valor de los coeficientes de correlación de Pearson de la Figura 5.4, calcule e interprete el valor del coeficiente de determinación en cada uno de los casos, valorando la idoneidad del modelo de regresión a los datos. Solución: Para calcular el coeficiente de determinación basta con elevar al cuadrado cada uno de los coeficientes de correlación. 229 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo rxv Motivación y rendimiento rXY = 0, 746 r;y = 0,557 Calorías ingeridas y grado de anorexia rxy = - 0, 885 r;y = O, 783 Edad y motivación rxy = O r;y = O r;y = O, 006 Nivel de arousal y rendimiento ,' 2 rxv rxy = - 0,079 La interpretación de los coeficientes de determinación es congruente con lo que se había visto en los diagramas de dispersión de la Figura 5.4. En el ejemplo sobre motivación y rendimiento, el coeficiente de determinación es 0,557, lo que indica que el 55,7% de la variabilidad del rendimiento se puede predecir con el test de motivación. En el caso del ejemplo sobre calorías ingeridas y grado de anorexia, el coeficiente de determinación alcanza el valor de 0,783, por lo que el 78,3% de la variabilidad del criterio (grado de anorexia) se puede explicar con el n° de calorías ingeridas. En los dos últimos ejemplos, la capacidad explicativa de los modelos es prácticamente nula (0% y 0,6%), por lo que en estos casos, el modelo de regresión no sirve para realizar predicciones. 5.4.3. Características del modelo de regresión A continuación se presentan algunas de las propiedades del modelo de regresión lineal simple: ■ La pendiente de la recta de regresión siempre será del mismo signo que el coeficiente de correlación lineal de Pearson, por lo que informará sobre el tipo de relación lineal entre las variables (directa o inversa). Dado que las desviaciones típicas siempre son positivas, b adopta el signo del coeficiente de correlación lineal de Pearson. ■ La media de los errores de predicción o residuos (E= Y- Y') es O. 230 RELACIÓN ENTRE VARIABLES 11 (5.15) ■ La media de las puntuaciones pronosticadas coincide con la media de las verdaderas puntuaciones en Y: (5.16) ■ La varianza de las puntuaciones en Y, es igual a la suma de la varian za de los pronósticos (hechos mediante la recta de regresión), más la varianza de los errores (o error cuadrático medio) . s~ = s;, + s~x ■ (5.14) El coeficiente de determinación es igual al cociente entre la varianza de las puntuaciones pronosticadas y la varianza de las puntuaciones en Y. De ahí, que sea un indicador de la proporción de varianza del criterio que queda explicada con el modelo de regresión lineal. (5.17) ■ El complementario del coeficiente de determ inación es igual al cociente entre la varian za de los errores y la va rianza de las puntua cion es en Y, e indica la proporción de la varian za del criterio que NO queda exp licada por el modelo de regresión lineal. 1 - r2 XY - s~.x $2 (5 . 18) y 231 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 5.13. Con los datos del Ejemplo 5.11, compruebe las propiedades del modelo de regresión lineal. Estudiante Motivación (X) Rendimiento . (Y) Y/ . E¡ =- Y1 - Y; Ef Yl 8 7 6 10 7 2 5 9 9 3 6 5 4 8 5 1 6 4 9 4 6,093 5,455 4,817 7,369 5,455 2,265 4,179 6,731 6,731 2,903 -0,093 -0,455 -0,817 0,631 -0,455 -1,265 1,821 -2,731 2,269 1,097 0,009 0,207 0,667 0,398 0,207 1,600 3,316 7,458 5,148 1,203 36 25 16 64 25 1 36 16 81 16 37,125 29,757 23,203 54,302 29,757 5,130 17,464 45,306 45,306 8,427 66 52 20,213 316 295,779 1 2 3 4 5 6 7 8 9 10 y•2 1 Solución: ■ La recta de regresión entre ambas variables es: Y/= O, 989 + O, 638X ' . Por tanto, b = 0,638, que es un valor positivo al igual que el coeficiente de correlación lineal de Pearson, que como se vió en el Ejemplo 5.12, es igual a 0,746. ■ E= O E= LE¡ - 0, 093 + -0, 455 + -0, 817 + ... + 1,097 = o, 002 "" O n 10 10 (el motivo por el que el valor no es exactamente O reside en restringir a 3 el n° de decimales). ■ Y'= = y Y' = 2,Y¡' = 6,093+5,455+4,817+ ... +2,903 = 52 = 5, 2 n 10 Y = I. Y¡ = 52 = 5, 2 n ■ 232 10 s; = s;, + s; x 10 RELACIÓN ENTRE VARIABLES 11 "'Y-2 -2 316 5; =-~-'--Y = - - -5,2 2 = 31,6- 27,04 = 4,56 n 10 2951 779 - 5 22 10 ' 52 = 52 E = Y ·X lEt -E2 = 20,213 n 10 = 29 ' 578 - 27 04 ' =2 ' 538 O = 2 021 , 5; = 5;, + 5;x = 2,538 + 2,022 = 4,56 5;, 2 ■ rxy =- r;y = 5; O, 746 2 = O, 557 r2 = 5;, = 2,538 = o 557 4 , 56 52y XY 2 ■ 1 - rXY 52 =~ 2 5y 2 022 , 1 - O 557 = 4,56 1 ' ➔ O 443 = O 443 1 1 S.S. REGRESIÓN LINEAL MÚLTIPLE Hasta ahora se ha presentado el modelo de regresión lineal simple, que trata de hacer pronósticos a partir de una única variable predictora X. Como es lógico, si se utiliza más de una variable predictora, la capacidad predictiva del modelo puede mejorar. Los modelos de regresión lineales múltiples suelen ser más realistas que los simples, ya que es raro encontrar criterios que se puedan predecir a partir de una única variable predictora. Dado que este es un manual introductorio, y que en la actualidad este tipo de análisis se suele realizar mediante software estadístico, aquí no se expondrán las fórmulas para el cálculo de los coeficientes de regresión múltiple. Simplemente se tratará de explicar con un ejemplo, el cambio que se produce en la valoración del modelo a partir del coeficiente de determinación, cuando se introduce una segunda variable predictora . 233 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD En la Tabla 5.4 se muestran tres de las variables del Ejemplo 1.1 (ver Tabla 1.2 del Tema 1). Como se recordará, estas tres variables son cuantitativas, y tiene sentido pensar que tanto el número de horas de estudio semanales como el nivel de ansiedad presentado en una situación de examen pueden influir (o predecir) la calificación obtenida en el examen. Tabla 5.4. Nº de horas de estudio, nivel de ansiedad ante los exámenes y calificación obtenida en el examen de Lengua de la PAU por los 40 estudiantes del Ejemplo 1.1. ID V ... ... 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Horas de estudio 7 11 16 5 14 10 12 10 2 15 10 10 15 9 9 8 14 8 18 8 Ansiedad ante exámenes Calificación PAU ID 10 7 25 15 5 12 17 30 9 12 4 8 19 15 17 4 14 9 8 5 6 4 9 4 8 7 7 1 4 8 5 4 3 5 5 7 6 4 6 4 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Horas de estudio 4 8 10 12 16 15 13 10 12 18 14 9 11 3 10 9 14 10 9 4 Ansiedad ante exámenes 3 10 7 5 5 5 12 17 3 10 10 6 2 9 22 10 7 25 15 5 Calificación PAU 6 4 7 8 10 8 7 7 7 8 8 6 6 4 6 5 7 8 5 2 Utilizando la regresión lineal simple, hay que considerar dos rectas de regresión, una para la variable predictora n° de horas de estudio y otra para el nivel de ansiedad ante los exámenes. A continuación se presenta rán ambas ( el lector interesado puede obtenerlas realizando los cálculos pertinentes explicados en el Apartado 5.4.1) . En el primer caso, la ecuación de la recta de regresión de la Calificación obtenida sobre el n° de horas de estudio es: Yi 234 = 2, 82 + O, 292X; RELACIÓN ENTRE VARIABLES 11 La correlación entre el n° de horas de estudio y la calificación obtenida es igual a 0,584, con lo que el coeficiente de determinación será igual a ese valor al cuadrado, que es 0,341. Por tanto, el 34, 1% de la variabilidad de la calificación se explica por el tiempo empleado para estudiar la asignatura. En el segundo caso, la ecuación de la recta de regresión de la calificación obtenida sobre el nivel de ansiedad ante los exámenes es: Yi = 8, 36 - O, 239X¡ La correlación entre el nivel de ansiedad ante los exámenes y la calificación obtenida es igual a -0, 793, con lo que el coeficiente de determinación será 0,629, lo que significa que 62,9% de la variabilidad de la calificación se explica por el nivel de ansiedad ante los exámenes. Al utilizar las dos variables predictoras (denominaremos X 1 al n° de hora s estudiadas y X 2 al nivel de ansiedad ante los exámenes), la ecuación de regresión sería: Yi = 5,714 + O, 226X 1 - O, 214X2 En este caso, al haber dos variables predictoras implicadas, el coeficiente de determinación varía. Se denota como R~_x1 x,1 y la fórmula para calcularlo es (5.19) Para facilitar la utilización de esta fórmula, se presentarán los datos en una matriz de correlaciones. Una matriz de correlaciones es una tabla con el mismo número de filas y columnas que de variables, en la que en cada casilla aparece la correlación entre las variables correspondientes a la fila y a la columna. Puede observarse en la Tabla 5.5. 235 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla S.S. Matriz de correlaciones 1 Horas de estudio (X1 ) Ansiedad ante los exámenes (X2 ) Calificación PAU (Y) 1 - 0.185 0,584 1 - o, 793 Horas de estudio (X1 ) Ansiedad ante los exámenes (X2 ) Calificación PAU (Y) 1 De las correlaciones presentadas en la tabla, la única con la que no se ha trabajado aún es la correlación entre el n° de horas de estudio y la ansiedad ante los exámenes, que adopta un valor de -0,185. Con los valores de la tabla, ya se puede calcular el coeficiente de determinación múltiple. R2 Y.XIX, 2 2 2 =-~-x~1_+_r._~~'------~-x~1_•r._Y~x,'-----•r_x~1x~, = 1 2 - rx1 x2 0, 5842 + (- 0, 793) 2 2 X 0, 584 X (- 0, 793) X (- 0, 185) 1 - (- 0, 185) - = - - - - - - - - - - - - -2- - - - - - - - = = o, 341 + o, 629 - o, 171 = o, 799 o, 966 o, 966 = O 827 ' El valor predictivo de este modelo de regresión múltiple es muy superior al de ambos modelos de regresión simples. Teniendo en cuenta am bas predictoras simultáneamente se explica el 82, 7% de la variabilidad de la calificación, a partir del tiempo de estudio y del nivel de ansiedad ante los exámenes. 5.6. RESUMEN Entre el tema anterior y éste se han presentado métodos gráficos y analíticos para el estudio de las relaciones ent re cua lquier tipo de varia bles. En este tema se ha estudiado la relació n entre dos variables cuantitativas mediante métodos gráficos (el diag ra m a de di spersión) y analíticos 236 RELACIÓN ENTRE VARIABLES 11 ( la covarianza y el coeficiente de correlación lineal de Pearson). Debido a su importancia, se ha profundizado en el estudio del coeficiente de correlación lineal de Pearson, aprendiendo las fórmulas apropiadas para su cálculo, su interpretación y sus características. También se ha presentado su aplicación a dos variables ordinales, a dos variables dicotómicas y al caso en el que una de las dos variables es dicotómica y la otra cuantita ti va. Este bloque termina con una tabla resumen de los coeficientes de correlación vistos. En el caso de la regresión lineal, se ha explicado la forma de identificar el modelo de regresión mediante el cálculo de los coeficientes de regresión, la forma de valorarlo mediante el coeficiente de determinación y la varianza error, y la forma de aplicarlo. Además, se han visto las caracte rísticas fundamentales de este modelo y se ha presentado con un ejemplo la utilidad del modelo de regresión lineal múltiple. 5.7. E ERCICIOS 5.1. Con los siguientes diagramas de dispersión, correspondientes a dos variables, X e Y, len qué caso debería utilizarse el coeficiente de correlación de Pearson para estudiar su relación? A) En la Figu ra 5.6 porque la relación «tiene forma de V» ; B) En la Figura 5. 7 porque la relación es «inversa »; C) En ninguno de los dos casos. .....-.. ♦ y ..- ....... .... . •• y ... . ... . . . ... . , ·. X Figura 5.6 5.2. X Figura 5.7 Con los datos de la Tabla 5.6, la covarianza entre X e Y es: A) 36; B) 6; C) 63. 237 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD La correlación de Pearson entre X e Y toma el valor: 5.3. Tabla 5.6. Puntuaciones en dos tests, uno de razonamiento abstracto (X), y otro de razonamiento espacial, ( Y'.) de cinco niños. A) 0,6; B) 0,8; C) 0,4. Con los datos de la Tabla 5.6, la pendiente de la ecuación de la recta de regresión que permite pronosticar las puntuaciones en Y, Y', a partir de las puntuaciones en X es: A) 2; B) 0,50; C) 0,16. 5.4. David 92,5 77,5 100 107,5 122,5 100,5 103,5 105 106,5 109,5 ¿ 500 525 Amaya Carlos Lucía Inés La ordenada en el origen de la ecuación de la recta de regresión de Y sobre X es: A) 20; B) 60; C) 89. S.S. j y Niños ¡, 5.6. Con los datos de la Tabla 5.6, la proporción de la varianza de Y explicada por la varianza de X es: A) 0,36; B) 0,64; C) 0,80. 5.7. En los siguientes gráficos se muestra la relación de los años transcurridos desde el diagnóstico de una enfermedad degenerativa con la percepción de bienestar percibido (Figura 5.8) y con el deterioro de las capacidades motoras (Figura 5.9). 12 -;:: 10( ,1.0) (3.!H) s;::- "'~ 8 :o e :g - 6 4 • ~ 2 1 Q. o 1 O 1 '' 1 2 4 6 ~ E 6 ~ 4 -~ 2 (T,T) 1 tO aí e O 8 10 12 ◄t 14 O srrs rs) t 1 o (L ,2) 1 ; 1 o 1 1 (-é, ,.. ) ' 0. cu . j 1 (6~5) ' ::l 8 tI:é -;g)- 1 1 1 T ~ cu S' 10 f 1 '~ (3,2) • 2 1 - 4 6 8 10 12 Años desde el diagnóstico (X) Años desde el diagnóstico (X) Figura 5.8 Figura 5.9 14 ¿Qué gráfica representa una relación lineal inversa entre dos variables? A) La Figura 5.8; B) La Figura 5.9; C) Ambas. S.S. 238 Con los datos del ejercicio anterior, el coeficiente de correlación lineal de Pearson entre las variables años transcurridos desde el diagnóstico (X) y deterioro de las capacidades motoras (V) es: A) -0,96; B) O, 735; C) 0,984. RELACIÓN ENTRE VARIABLES 11 5.9. Con los datos de la Tabla 5.7, la covarianza entre X e Y es: A) 25; B) 36; C) 40 . Tabla 5.7. Puntuaciones de 500 niños en un test de razonamiento numérico (X) y en la asignatura de matemáticas ( Y). 5.10. La correlación de Pearson y X entre X e Y toma el valor: A) 0,6; B) 0,8; C) 0,9. 5.11. Con los datos de la Tabla 11 ¿X =50000 ¿Y =3500 I, x 2 I, Y2 = 5112500 = 29000 5. 7: A) las puntuaciones alXY tas en el test se correspon den con bajas en matemá¿ XY = 368000 ticas; B) las puntuaciones bajas en el test se corresponden con bajas en matemáticas; C) las puntuaciones bajas en el test se corresponden con altas en matemáticas. 5.12. La ecuación de la recta de regresión es: A) Y'= 10 - 0,2X; B) Y' = 0,16X-9; C) Y'= 20 - 0,16X 5.13. Con los datos de la Tabla 5 . 7, ¿qué puntuación le pronosticaremos en la asignatura de matemáticas a final de curso, a un niño que obtuvo una puntuación de 90 en el test de ra zonamiento numérico?: A) 9; B) 5,4; C) 5,6. 5.14. En la siguiente tabla se presentan las puntuaciones obtenidas por 10 estudiantes en una de las preguntas de una prueba tipo test (1 = acierto y O = fallo) y en la puntuación total obtenida en el examen. ¿Qué coeficiente de correlación hay que utilizar y cuál es su valor? Estudiante Pregunta Examen 1 2 o o 3 6 10 2 9 5 7 5 1 8 3 1 4 o 5 6 7 8 9 10 1 o o 1 o 1 239 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD A) El coeficiente de correlación biserial puntual, con un valor de 0,691; B) El coeficiente phi con un valor de O, 715; C) El coeficiente V de Cramer con un valor de 0,565. 5.15. Con los datos de la Figura valor de la sión? 3,2. 5.8, ¿cuál es el de la pendiente recta de regreA) 0,2; B) 3; C) 5.16. ¿Qué puntuación pronosticamos en Y a un niño que ha tenido en X una puntuación de 20? A) 4; B) 7; C) 10. 5 . 17 . ¿cuál es la varianza de las puntuaciones pronosticadas? A) 2,56; B) 4,25; C) 5,36. 11 1 10 1 1 1 .1 Y'== 0,2X + 3 -- ~- 9 8 7 6 y 5 4 3 2 _,,,....- ~ 1 ~246810UMIBIBmll~~~~~~ X Figura 5.8. Puntuaciones obtenidas por 5 niños en dos variables, Xe Y, y ecuación de regresión de Y sobre X. 5.18 . El valor del coeficiente de correlación de Pearson es: A) 0,6; O, 7; C) 0,8. B) 5.19 . ¿Qué porcentaje del criterio es explicada por la variable X? A) 36%; B) 49%; C) 64%. 5 .20. En la siguiente Tabla se muestran las correlaciones entre las va riables ingresos anuales (X1 ), regulación afectiva (X2 ) y calidad de vida percibida (Y). Ingresos anuales Regulación afectiva Calidad de vida Ingresos anuales Regulación afectiva Calidad de vida 1 - 0,1 0,3 1 0,8 1 Si se utilizaran las variables ingresos anuales (X1 ) y regulación afectiva (X 2 ) para predecir la calidad de vida percibida (Y). ¿Qué 240 RELACIÓN ENTRE VARIABLES 11 porcentaje de la variabilidad en calidad de vida se puede explicar por el nivel de ingresos y la regulación afectiva? A) 66%; B) 80%; C) 79%. 5.8. SOLUCIONES DE LOS E ERCICIOS 5.1. Solución: e No debe utilizarse en ninguno de los dos casos porque no existe relación lineal. 5.2. Solución: A Niños X y XY )(2 y:z Amaya Carlos Lucía 92,50 77,50 100 107,50 122,50 100,50 103,50 105 106,50 109,50 9296,25 8021,25 10500 11448,75 13413,75 8556,25 6006,25 10000 11556,25 15006,25 10100,25 10712,25 11025 11342,25 11990,25 500 525 52680 51125 55170 Inés David X = 5 00 = 100 5 51125 y =525 = 105 - 1002 = 225 s} = Sx = ✓225 = 15 S~ = 55170 - 1052 = 9 5 5 5 S xy = 52680 - (100 x 105) 5 Sy = ✓9 = 3 = 10536 - 10500 = 36 241 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 5.3. Solución: B "' N'iños r s.s. Y2 Amaya Carlos Lucía Inés David 92,50 77,50 100 107, 50 122, 50 8556,25 6006,25 10000 11556,25 15006,25 10100,25 10712,25 11025 11342,25 11990,25 ~ 500 51125 55170 15 x 3 S x Sy Solución: e Sy 3 b = rxy = O, 8 x Sx 15 Solución: - - a= Y - bX 5.6. X2 = S xy = ~ = 36 = O 8 XY 5.4. ¡·¡ 45 ' = O, 16 e = 105 - (O, 16 x 100) = 105 - 16 = 89 Solución: B 5 ~, 2 = rxy = 0,8 2 = 0,64 2 Sy - 5.7. Solución : A Observando la Figura 5.8 se observa que a mayores valores en X le corresponden menores valores en Y y viceversa, por lo que se trata de una relación inversa. 5.8. Solución: e Paciente Años desde el diagnóstico (X) Deterioro c;ae,. motoras (V) XV X2 vz 1 2 3 4 5 1 3 6 8 12 1 2 5 5 9 1 6 30 40 108 1 9 36 64 144 1 4 25 25 81 ~ 30 22 185 254 136 242 RELACIÓN ENTRE VARIABLES 11 5 X 185-30 X 22 ----;======-===== 2 2 = ✓5 X 254 - 30 ✓5 X 136 - 22 = 925 - 660 = 265 = O 984 19,235 x 14 269,29 ' 5.9. Solución: B 5 = XY L XY _ (xY) = 368000 -( 50000 x 3500) = 736 _ (loo x 7 ) = n 500 500 500 = 736 - 700 = 36 5.10. Solución: B 5~ = 51 ~~~00 - 100 2 = 225 5 y2 = 29000 _ 72 = 9 500 rxy = S xy S x · Sy Sx = S ✓225 ~9 y = ',/'::J = = 15 3 = ~ = 36 = O 8 15 x 3 45 ' 5.11. Solución: B Puesto que rxy= 0,8, puntuaciones altas en X se corresponden con puntuaciones altas en Y y puntuaciones bajas en X se corresponden con puntuaciones bajas en Y. 5.12. Solución: B Y '= a+ bX b Sy Sx = rxy - a= Y - bX = O, 8 3 = O, 16 15 x- = 7 - (O, 16 x 100) = 7 - 16 = - 9 Por tanto: Y' = 0,16X - 9 5.13. Solución: B Y '= 0,16X - 9 ⇒ Y'= o, 16 x 90 - 9 = 14, 4 - 9 = 5, 4 5.14. Solución: A Dado que una de las variables es dicotómica y la otra cuantitativa, hay que calcular el coeficiente de correlación biserial-puntual. 243 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACION ES EN PSICOLOGÍA Y CIENCIAS OE LA SALUD Estudiante Pregunta (Y) Examen o o 3 6 10 2 9 5 1 2 3 4 5 6 (X) 1 o 1 o o 7 8 9 10 7 1 5 1 8 o 1 XY Y2 )(2 o o o o 10 1 o o 9 1 o o o o 5 1 o o 8 1 9 36 100 4 81 25 49 25 1 64 56 x p= I, xp n xq= I, xq n ·, = 10 + 9 + 5 + 8 = 32 = 8 4 4 = 3 + 6 + 2 + 5 + 7 + 1 = 24 = 4 6 6 394 56 - ( 10 10 52 = Lnx¡ _ x Sx = Jsf = .j8, 04 = 2,835 X 4 p = 10 = 0,4 r bp 394 2 = q = J = 39 1 4 - 31 1 36 = s1 04 6 = 0,6 10 X p- Xq ~ 8- 4 1 = - - - · .,_¡p -q = - - X ',/0,4 sx 2,835 X 0,6 = 1,411 X 0,49 = 0,691 5.15. Solución: A Es el término que multiplica a X en la ecuación que aparece en la gráfica . 5.16. Solución: B Puede observarse directamente en la gráfica que para X= 20 el pronóstico, utilizando la recta de regresión, es 7. También puede calcula rse así: Y' = 244 o, 2X + 3 ⇒ Y' = o, 2 x 20 + 3 = 4 + 3 = 7 RELACIÓN ENTRE VARIABLES 11 5.17. Solución: A Sujeto X y Y'=0,2X+ 3 (Y')2 1 2 3 4 5 8 16 20 24 32 6 4 7 8 10 4,6 6,2 7,0 7,8 9,4 21,16 38,44 49,00 60,84 88,36 ¿ 100 35 35 257,8 Y' = L Y' = 35 = 7 n 5 s~, = 25718 5 5.18. Solución: 72 (obsérvese que = 51,56 - 49 Y' = 7) = 2,56 e Sujeto X y )(2 Y2 1 2 3 4 5 8 16 20 24 32 6 4 7 8 10 64 256 400 576 1024 36 16 49 64 100 ¿ 100 35 2320 265 x = 100 = 20 S x = ✓23520 - 202 = J64- = 8 y = 35 = 7 Sy = ✓2~5 - 72 = ✓ 4 =2 5 5 Sy b = O, 2 = rxy · Sx 5.19. Solución: r}y = 0,8 2 ⇒ rxy = _o,_2_._S~x = o, 2 x 8 = 1, 6 = O 8 Sy 2 2 ' e = 0,64 245 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 5.20. Solución: e Ingresos anuales (X1 ) Regulación afectiva (X2 ) Calidad de vida (Y) 1 -0 , 1 0,3 1 0 ,8 Ingresos anuales (X1 ) Regulación afectiva (X2 ) Calidad de vida (Y) 1 1 - r} X 2 0, 3 + 0, 8 2 - 2 l 2 X 0, 3 X 0, 8 X (- 0, 1) 1 - (- 0, 1)2 = O, 09 + O, 64 + O, 048 0,99 = O, 778 0,99 = O 786 "' O 79 ' ' El 79% de la variabilidad en calidad de vida se puede explicar por el nivel de ingresos anuales y la regulación afectiva. 246 TEMA6 Nociones básicas de probabilidad 6.1. INTRODUCCIÓN 6.2. CONCEPTOS PREVIOS 6.2.1. 6.2.2. 6.2.3. 6.2.4. Experimento aleatorio Espacio muestra! Sucesos y tipos de sucesos Operaciones con sucesos 6.3. DEFINICIÓN DE PROBABILIDAD 6.4. TEOREMA DE LA SUMA 6.5. PROBABILIDAD CONDICIONADA 6.6. TEOREMA DEL PRODUCTO 6.7. TEOREMA DE LA PROBABILIDAD TOTAL 6.8. TEOREMA DE BAYES 6.9. ALGUNAS APLICACIONES DE LA PROBABILIDAD CONDICIONADA EN PSICOLOGÍA DE LA SALUD 6.10. RESUMEN 6.11. EJERCICIOS 6.12. SOLUCIONES A LOS EJERCICIOS NOCIONES BASICAS DE PROBABILIDAD 6.1. INTRODUCCIÓN En las Ciencias Sociales en general, y en la Psicología y Ciencias de la Salud en particular, es habitual la imposibilidad de prever el resultado de un fenómeno. Según los casos, esto puede ser debido a diversas causas. Por ejemplo: ■ Puede ocurrir que una persona tenga fiebre o le duela la cabeza (variaciones de la homeostasis interna) el día en el que participa en un experimento sobre estrés. Por lo cual, su situación y por ende sus respuestas serán diferentes a las que daría un día en el que esto no ocurriera. ■ Puede suceder que estemos empleando un instrumento de medi da (por ejemplo un termómetro) que esté afectado por condiciones medioambientales, dando lugar a resultados de medida diferentes (por ejemplo, por efecto del calor). Por otra parte, en nuestra vida cotidiana estamos expuestos conti nuamente a sucesos sobre los que no tenemos la certeza de que vayan a ocurrir, sino que pueden tener una mayor o menor probabilidad de que su cedan. Por ejemplo, es poco probable tener un hijo con una enfermedad rara, es igual de probable lanzar una moneda al aire y obtener cara o cruz y, finalmente, es muy probable que un coche en reserva se pare si no se echa gasolina. Por tanto, puede haber un rango amplio de probabilidades de que ocurran o no los sucesos. En todos estos casos se dice que el resultado está influenciado por el azar (se debe al azar) o, de forma más correct a, qu e estamos ante un fe nómeno aleatorio. Ante estas variaciones que no podemos controlar, y que producen una gran variabilidad e incertidumbre en los resultados, ¿cómo se puede actuar desde la perspectiva metodológi ca? En otras pa la bras, ¿qué hacer ante la incertidumbre? Existen herramientas metodológicas que pueden trabajar con este tipo de datos. Son las que constitu ye n parte del cuerpo de conocimiento s de la Est adísti ca: «La Estadística pe rmite esbozar conclusiones válidas en situaciones de incertidumbre y variabilidad » (Medhi, 1992) . Estas situaciones, en las que existe incertidumbre, son también obj eto de est ud io de la Probabilidad, ya que ésta es la teoría matemáti ca que permite desarrollar modelos matemát icos ad aptados al estudio de est e ti po de situaciones, med iante la asignación de probabilidades ( certidum bre) a dichas situaciones. 249 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Como ya se vio en el Tema 1, en el proceso de investigación hay que obtener conclusiones sobre las características de las variables en las poblaciones, de las cuales provienen las muestras en las que se toman los datos. Es decir, en general se dispone de información parcial de una población, que se obtiene seleccionando al «azar» algunos de sus elementos. Nuevamente estamos refiriéndonos al azar, lo que significa que nos encontramos ante un proceso con incertidumbre y, por tanto, habrá que recurrir a la probabilidad para valorar la calidad de las decisiones que se realicen. Este objetivo es el que define a la Estadística Inferencia! como un conjunto de métodos y técn icas que permiten inducir, a partir de la información empírica proporcionada por una muestra, cuál es el comportamiento de una determinada población, con un riesgo de error medible en términos de probabilidad. Probabilidad y Estadística son ramas de las matemáticas que se complementan. El objeto de la Probabilidad es el estudio de variables aleatorias, que son valores que dependen básicamente del azar o de la posibilidad de que puedan o no ocurrir. La Estadística, por su parte, es otra rama de las matemáticas cuyo objeto de estudio son los datos, entendidos como valores o atributos que tienen los objetos de estudio de interés, por ejemplo, las personas. De lo anterior se deduce que el cálculo de Probabilidades y la Estadística son disciplinas íntimamente relacionadas, en cuanto que ambas se refie ren al estudio de un mismo tipo de situaciones, las situaciones en las que hay incertidumbre . La Probabilidad aporta los modelos matemáticos (las distribuciones) para el estudio de la incertidumbre, y la Estadística adapta estos modelos a los datos reales (datos con incertidumbre). Objetivos del tema: ■ Conocer los conceptos de experimento aleatorio y espacio muestra!. ■ Distinguir los distintos tipos de sucesos que forman parte del espacio muestra! y las operaciones fundamentales que pueden realizarse con ellos . ■ Adquirir un concepto de probabilidad más preciso y desde diferentes enfoques. ■ Saber resolver problemas con probabilidades condicionadas. 250 NOCIONES BÁSICAS DE PROBABILIDAD ■ Comprender y saber aplicar de forma adecuada los teoremas de la Suma, Producto, Probabilidad Total y Bayes. ■ Conocer aplicaciones de la probabilidad en el ámbito de la Psicología y las Ciencias de la Salud. 6.2. CONCEPTOS PREVIOS En este epígrafe se definen algunos conceptos básicos que sirven para desarrollar posteriormente el concepto de probabilidad. 6.2.1. Experimento aleatorio Un experimento aleatorio es un proceso que se puede repetir indefinidamente en las mismas condiciones y cuyo resultado no se puede predecir con certeza. Un experimento es un proceso que conduce a la obtención de un resultado, se dice que es aleatorio porque en el resultado interviene el azar y no se puede predecir con certeza. Un experimento aleatorio presenta tres características: ■ Todos los resultados posibles son conocidos con anterioridad a su realización. Es decir, tiene un conjunto definido de resultados posibles. ■ No se puede predecir con certeza el resultado concreto del experimento, pudiéndose obtener cualquiera de los resultados posibles en función del azar. ■ El experimento puede repetirse teóricamente un número infinito de veces en idénticas condiciones . 251 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 6.1. Se lanza una vez un dado, cuyas caras están numeradas del 1 al 6. ¿Por qué es un experimento aleatorio? Para responder a la pregunta hay que comprobar si se presentan las tres características de un experimento aleatorio: ■ Antes de tirar el dado conocemos todos los resultados posibles, es decir, puede salir el 1, el 2, el 3, el 4, el 5 ó el 6. ■ No se puede predecir con certeza cuál de estos seis números en concreto va a salir, ya que va a depender del azar. ■ Se puede repetir la tirada del dado indefinidamente, siempre en idénticas condiciones Dado que se cumplen las tres características, se puede decir que sí se trata de un experimento aleatorio. 6.2.2. Espacio muestral El conjunto de todos los resultados posibles de un experimento alea torio se denomina espacio muestra/ o espacio de resultados. Habitualmente se representa por la letra mayúscula E. Algunos ejemplos de espacio muestra! son todos los resultados posi bles de: ■ Lanzar una moneda, donde C = cara y X = cruz. El espacio muestra! E= {C; X} ■ Lanzar un dado·• E= {1·I 2·I 3·I 4·I 5·I 6} ■ Lanzar 2 veces un dado: E= {(1,1); (1,2); (1,3); (1 ,4); (1,5); (1,6); (2,1); (2,2); (2,3); (2,4); (2,5); (2,6); (3,1); (3,2); (3,3); (3,4); (3,5); (3,6); (4,1); (4,2); (4,3); (4,4); (4,5); (4,6); (5,1); (5,2); (5,3); (5,4); (5,5); (5,6); (6,1); (6,2); (6,3); (6,4); (6,5); (6,6)} ■ Introducir tres ratas en un laberinto en forma de T (I = va hacia la izquierda; D = va hacia la derecha) : E = {(I,I,I); (I,I,D); (I,D,I); (D,I,I); (D,D,I); (D,I,D); (I,D,D); (D,D,D)} 252 NOCIONES BÁSICAS DE PROBABILIDAD Una forma sistemática y didáctica de construir espacios muestrales es mediante el diagrama de árbol, que no es más que una represen tación gráfica que muestra los resultados posibles de un experimento aleatorio. A continuación, representamos el ejemplo del espacio muestra! E correspondiente a lanzar una moneda tres veces mediante un diagrama de árbol: Prim er lanzami ento Resultado Segundo lan za mi ento Resultado Terce r Res ul ta do lanzam iento c< c < : : < x< xc cxc ex CXX XXX Figura 6.1. Diagrama de árbol correspondiente a lanzar una moneda tres veces . Como se puede observar en el diagrama, en el primer lanzamiento hay dos resultados posibles cara (C) o cruz (X), siendo en ese caso E = {C; X}. En el segundo lanzamiento, los resultados posibles son cuatro, ya que a los dos iniciales se les añaden otras dos posibilidades: que salga Coque salga X. El espacio muestra! E en los dos primeros lanzamientos estaría formado por E= {CC; CX; XC; XX} Finalmente, en el tercer lanzamiento también puede salir C o X, por lo que las combinaciones posibles al añadir C o X a los resultados del segundo lanzamiento son 8. Por tanto, el espacio muestra! al lanzar tres veces una moneda es E = {CCC; CCX; CXC; CXX; XCC; XCX; XXC; XXX} 253 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD En el caso de que un experimento tuviera solo un elemento en el espacio muestra!, no podríamos hablar de experimento aleatorio. Esto es así porque se puede predecir con certeza el resultado obtenido y, por tanto, no se cumple el segundo de los requisitos básicos visto anteriormente. 6.2.3. Sucesos y tipos de sucesos A los resultados de un experimento aleatorio, o subconjuntos del espacio muestra!, se les denomina sucesos y se representan por letras mayúsculas: A, B, .... Los sucesos, a su vez, pueden ser elementales o compuestos. Un suceso elemental o simple consta de un solo resultado del espacio muestra! E, mientras que un suceso compuesto consta de dos o más resultados del espacio muestra!. Por otra parte, un suceso seguro es aquel suceso que está formado por todos los elementos del espacio muestra! y, por tanto, siempre ocurre. Lo distinguimos del suceso imposible, que no contiene ningún elemento del espacio muestra! (se representa por 0 o conjunto vacío) y por ello nunca puede ocurrir. Tipos de sucesos: ■ Suceso elemental, suceso simple o punto muestra/ es cada uno de los resultados posibles del experimento aleatorio. Por tanto, un suceso elemental consta de un solo elemento del espacio muestra! E. ■ Suceso compuesto es el que consta de dos o más sucesos elementales. ■ Suceso seguro es aquel que ocurre siempre. Consta de todos los sucesos elementales del espacio muestra! y se identifica con el espacio muestra! total E. ■ Suceso posible es aquel que puede contener algún elemento del espacio muestra! E, por tanto, tiene posibilidad de que ocurra . ■ Suceso imposible es el que no ocurre nunca. No contiene ningún elemento del espacio muestra! y se identifica con 0 . 254 NOCIONES BÁSICAS DE PROBABILIDAD Ejemplo 6.2. Determina el tipo de suceso que se pide en cada apartado. A) Al lanzar dos veces una moneda al aire se definen dos sucesos: suceso A «sale cara al menos una vez» y suceso B «no sale ninguna cruz». ¿cuál de estos dos sucesos es compuesto? El espacio muestra! E= {CC; CX; XC; XX} A = {CC; B = {CC} CX; XC} El suceso A es compuesto, porque tiene más de un elemento del espacio muestra!. El suceso B, sin embargo, es un suceso simple o elemental, ya que consta de un solo elemento de E. B) Para el caso del lanzamiento de un dado se definen tres sucesos: A «obtener un 6»; B «obtener un número par»; y e «obtener un número impar». ¿cuáles de estos sucesos son compuestos? El espacio muestra! es: E= {l; 2; 3; 4; 5; 6} A= { 6} = { 2, e= { 1, B 4, 6} 3, 5} Los sucesos B y C son compuestos y el suceso A es simple C) En el lanzamiento de un dado se definen los siguientes sucesos: A «obtener un 6» y B «obtener un número mayor que 6». ¿cuál de estos sucesos es un suceso posible? El espacio muestra! es: E= {l; 2; 3; 4; 5; 6} El suceso A es un suceso posible, ya que contiene uno de los elementos del espacio muestra! E. Sin embargo, el suceso B es un suceso imposible, ya que no puede ocurrir nunca y no contiene ningún elemento del espacio muestra!. D) En el experimento de lanzar dos veces un dado, definimos el suceso D «en el segundo lanzamiento sale un número par». ¿cuáles son los elementos que componen dicho suceso? El resultado está formado por 18 elementos: = {(1,2); (1,4); (1,6); (2,2); (2,4); (2,6); (3,2); (3,4); (3,6); (4,2); (4,4); (4,6); (5,2); (5,4); (5,6); (6,2); (6,4); (6,6)} D 255 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD En resumen, un espacio muestra! o de resultados es un conjunto compuesto por sucesos que son, a su vez, subconjuntos del espacio muestra!. 6.2.4. O eraciones con sucesos Entre los sucesos se establecen las mismas operaciones que en la teoría de conjuntos, ya que las operaciones con sucesos son, en sí mismas, operaciones entre conjuntos teniendo en cuenta su definición. Los diagramas de Venn se emplean para representar los sucesos y estudiar visualmente propiedades y operaciones entre sucesos. El espacio muestra! o de resultados E se representa mediante un rectángulo, y dentro de él se incluyen los sucesos mediante círculos. ■ Unión: Llamaremos unión de dos sucesos A y B, y lo representaremos por A u B, al subconjunto de E formado por los sucesos elementales que pertenecen a A, a B, o a ambos a la vez. E Au B ,, ■ Intersección: Llamaremos intersección de dos sucesos A y B, y lo representaremos por A n B, al subconjunto de E formado solamente por los sucesos elementales que pertenecen a A y a B, simultáneamente. E Ana A 256 B NOCIONES BÁSICAS DE PROBABILIDAD Cuando la intersección de dos sucesos no contiene ningún elemento se dice que son sucesos incompatibles o excluyentes y, por tanto, no pueden verificarse a la vez. ■ Complementario: Llamaremos complementario de un suceso A, y lo representaremos por A, al subconjunto de E formado por los sucesos elementales que no pertenecen a A. E Las operaciones de unión e intersección pueden extenderse al caso de dos o más sucesos, por ejemplo A u B u C, e igualmente puede hablarse de complementario de la unión o de la intersección de dos sucesos. Ejemplo 6.3. Se lanza una vez un dado y se definen los siguientes sucesos: A «obtener un 6»; B «obtener un número par»; y C «obtener un número impar». A) ¿cuáles son los elementos que contiene la unión de A y B? A={[n]} = { [I), Ü, [n] } e = { 8, ~, [Z] } B La unión está formada por los elementos comunes que contienen a A, a B, o a ambos a la vez. A u B = { [I], [:), [n] } Representación gráfica de la unión A u B: 257 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD E Au B B [I] B) ¿cuáles son los elementos que contiene la intersección entre A y B? A={[n]} B = { [I], O, [n] } La intersección está formada por los elementos que pertenecen a A y a B, simultáneamente: A n B = { [n]} Representación gráfica de la intersección A n B: E An B '' fe::-1 u C) Para los sucesos B y C, ¿cuáles son los elementos que contiene su intersección? B = { [I], O, [n] } e = { ~J, ~, [Z] } Los sucesos B y C no tienen ningún elemento común, B n C = { 0 }. Su intersección es el conjunto vacío, por tanto, son incompatibles o excluyentes. 258 NOCIONES BÁSICAS DE PROBABILIDAD Representación gráfica de B n C: E Bn C [I] GJ e B □ r-:-1 iLll [;] D) Para el suceso A, ¿cuál sería su complementario? A={[il]} El complementario de A son todos aquellos elementos que no pertenecen a A. Dado que el elemento que forma A es el seis, el complementario está formado por los cinco elementos restantes del espacio muestra!. A = { GJ, [I], ~, □, r2l } Representación gráfica del complementario A: [I] E A . A [;] 6.3. DEFINICIÓN DE PROBABILIDAD En teoría de la probabilidad se toman todos los posibles resultados de un experimento aleatorio como elementos del espacio muestra! E ( espacio de resultados). Si E contiene un número finito de elementos, entonces a cada uno de ellos se le puede asociar un número no negativo, que es su 259 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD probabilidad de ocurrencia, tal que la suma de todos los números correspondientes a todos los elementos de E sea 1. La probabilidad de un suceso es una medida numérica que cuan tifica la posibilidad de que dicho suceso ocurra. Los valores de probabilidad se encuentran comprendidos entre O y 1, en función de su cuantía de probabilidad de ocurrencia. Sucesos muy probables estarán próximos al valor 1 y los menos probables próximos al O. En particular, el valor O se asigna a los sucesos imposibles (que no tienen posibilidad de ocurrencia) y el valor 1 para los sucesos seguros (que siempre ocurren). En función del enfoque desde el que se estudie la probabilidad se ha propuesto un tipo diferente de definición. Cada una de ellas tiene una definición operativa distinta, pero todas tienen un mismo objetivo: calcular la posibilidad de ocurrencia de un suceso. La definición clásica o a priori, también llamada Regla de Laplace, indica que la probabilidad de un suceso A es igual al cociente entre el número de casos favorables de que ocurra ese suceso y el número de casos posibles en el supuesto de que todos los casos tengan la misma oportunidad de ocurrir (sean equiprobables). (6.1) P(A) = Probabilidad de un suceso A nA = Número de casos favorables n = Número de casos posibles Se llama a priori porque antes de realizar el experimento aleatorio se conocen de antemano los posibles resultados del espacio muestra! E y sus probabilidades. 260 NOCIONES BÁSICAS DE PROBABILIDAD Ejemplo 6.4. En el lanzamiento de un dado: A) ¿cuál es la probabilidad de que ocurra el suceso A «obtener un 6» ? Hay que calcular la probabilidad de obtener el suceso A = {6}. El espacio muestra! o conjunto de todos los resultados posibles es·• E = {l·f 2·I 3 I· 4 I· s·I 6} Cada uno de los seis resultados posibles tiene la misma proba bilidad de ocurrencia, es decir, son equiprobables. Sin embargo, sólo hay un caso favorable, obtener un seis. Por tanto: P(A) n =~ = -1 n 6 B) ¿cuál es la probabilidad de ocurrencia del suceso C «obtener un número impar»? En este caso tenemos tres resultados favorables sobre el total de seis posibles. La probabilidad de C será igual a: P(C) = ne = n i =! 6 2 Esta definición de probabilidad plantea algunos problemas a la hora de su aplicación. En concreto, parte de la base de que los sucesos son equi probables (tienen la misma probabilidad de ocurrencia) y esto no siempre sucede. Una definición que no asume la equiprobabilidad es la definición estadística o a posteriori. Se basa en la estabilidad de las frecuencias relativas cuando el número de repeticiones de un suceso aleatorio es muy elevado y tiende a infinito. Por ejemplo, supongamos que lanzamos un dado al aire muchas veces, y anotamos las frecuencias relativas de un suceso. Podemos observar que estas frecuencias tienden a estabilizarse en un valor constante, comprendido entre O y 1, al que denominamos probabilidad del suceso. Desde la perspectiva estadística o a posteriori, podemos definir P(A) o probabilidad de un suceso A como el límite al que tiende la frecuencia relativa de aparición de un suceso A cuando el número de ensayos n o repeticiones tiende a infinito: 261 / INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD P(A) = lim nA n ---->= (6.2) n Esta definición de probabilidad se llama a posteriori porque las probabilidades se atribuyen a cada suceso después de un gran número de repeticiones del experimento aleatorio. Según la definición clásica, se sabe que la probabilidad de salir cara en el lanzamiento de una moneda es de un caso favorable dividido por dos casos posibles, es decir, 1/2. Supongamos que se realiza de forma práctica la experiencia de ir lanzando la moneda al aire, y se anota si sale cara o cruz en cada tirada, así como la frecuencia relativa en cada caso. Los resultados obtenidos podrían ser los que se presentan en la siguiente tabla. Tabla 6.1. Resultados de tirar 20 veces una moneda Nº de lanzamientos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Resultado Nº de caras e e 1 2 2 3 3 3 4 4 4 5 6 6 7 7 7 7 8 8 9 X e X X e X X e e X e X X X e X e e 10 Frecuencia relativa 1/1 = 1 2/2 = 1 2/3 = 0,6666 3/4 = 0,7500 3/5 = 0,6000 3/6 = 0,5000 4/7 = 0,5714 4/8 = 0,5000 4/9 = 0,4444 5/10 = 0,5000 6/11 = 0,5454 6/12 = 0,5000 7/13 = 0,5384 7/14 = 0,5000 7/15 = 0,4666 7/16 = 0,4375 8/17 = 0 ,4706 8/18 = 0,4444 9/19 = 0 ,4736 10/20 = 0,5000 Si se representan gráficamente los datos del ejemplo (ver Figura 6.2) se observa que, según aumenta el número de lanzamientos, la línea que- 262 NOCIONES BÁSICAS DE PROBABILIDAD brada que une las frecuencias se ajusta más a la horizontal trazada en la ordenada 1/2 (0,5) o valor teórico de la probabilidad definida por Laplace. Por tanto, la frecuencia relativa tiende a estabilizarse cuando el número de repeticiones del experimento es muy elevado. A este fenómeno de estabilización de las frecuencias se le conoce como «Ley del azar o ley de regularidad estadística». Frecuencia relativa 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Lan za mientos Figura 6.2. Ejemplo de frecuencia s relativas en función del núm ero de lan zam ientos. No obstante, no siempre es fácil aplicar este concepto de probabilidad estadística, ya que muchas veces no es posible repetir un experimento aleatorio un gran número de veces, y si lo es, no es práctico. En 1933, Andréi Nicoláyevich Kolmogórov desarrolla la teoría axiomáti ca1 de la probabilidad. Se puede estudiar como una aplicación de la teoría de conjuntos a los sucesos que componen el espacio muestra!. Tiene dos ventajas importantes: ■ Recoge las definiciones de probabilidad anteriores, ya que cumplen la axiomática propuesta. ■ Permite el desarrollo matemático de la teoría de la probabilidad. Definición axiomática de probabilidad. Dado un espacio muestra! E, se denomina probabilidad de un suceso A ;, definido en el espacio mues1 Los axiomas son las con diciones mínimas que se deben cumplir para que la función definida sobre los sucesos determine consistenteme nte sus valores de probabilidad. 263 INTROOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD tral E y designado por P(A¡), a un número real asignado al suceso A¡, tal que cumple las siguientes propiedades: ■ O :a; P(A¡) :a; 1 ■ P(E) ■ Si A 1 , A 2 .. .A k son sucesos incompatibles dos a dos, entonces: =1 (6.3) Las dos primeras propiedades indican que la probabilidad es cuantificable numéricamente con un número comprendido entre O y l. Como se dijo anteriormente, se asigna un O a un suceso imposible A: P(A) = nA = Q = O n 6 Asimismo, se otorga un 1 a un suceso seguro A, ya que se corresponde con el espacio muestra! E. P( A) = -nA = -n = P (E ) = 1 n n La tercera propiedad indica que la unión de sucesos incompatibles (aquellos cuya intersección es el conjunto vacío: A¡ n A1 = 0 ) es igual a la suma de sus probabilidades individuales. De estas propiedades se deriva que P(A) + P(A) = 1 siendo ambos sucesos exhaustivos y excluyentes (si no ocurre A, necesariamente lo hará su complementario A) . Esto implica que P(A) = 1 - P(A), o lo que es lo mismo, la probabilidad del suceso complementario de A, (A), es igual a 1 menos la probabilidad de ocurrencia de A. A partir de la definición axiomática se deducen una serie de teoremas, de entre los cuales se van a examinar el de la suma y el del producto. El teorema de la suma se basa en el concepto de unión de sucesos y el del producto en el concepto de intersección . 6.4. TEOREMA DE LA SUMA Partiendo del axioma 3, referido a la unión de sucesos, el teorema de la suma establece que la probabilidad de que ocu rra el suceso A o el 264 NOCIONES BÁSICAS DE PROBABILIOAD suceso 8 es igual a la probabilidad de que ocurra A más la probabilidad de que ocurra 8, menos la probabilidad de que ocurran A y 8 (la intersección de ambos sucesos). P(A u 8) = P(A) + P(8) - P(A n 8) (6.4) Si los sucesos A y 8 son mutuamente excluyentes (no pueden ocurrir simultáneamente) o si son complementarios (la ocurrencia de uno implica la no ocurrencia del otro), la regla de la suma se simplifica, resultando ser la suma de las probabilidades de cada suceso, de acuerdo con el axioma 3: = P(A) + P(8) P(A u 8) dado que P(A n (6.5) 8) = O Ejemplo 6.5. En el lanzamiento de un dado se han definido los sucesos: A «obtener un 6» ; 8 «obtener un número par» ; y C «obtener un número impar» . 1 A) ¿cuál es P(A u 8)? Utilizando la definición de probabilidad como casos favorables dividido entre casos posibles tenemos: P(A) = -1 ; 6 P(8) = -3 ; 6 P(A n 8) = -1 6 Sustituyendo: P(A u 8) = P(A) + P(8) - P(A n 8) = -1 + -3 6 6 1 6 = -3 6 B) lCuál es P(8 u C)? P(8) = -3 ; 6 P(C) = -3 6 B y C son sucesos incompatibles y complementarios, por lo que: P(B n C) = O 265 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Sustituyendo: P(B u C) 3 3 = P(B) + P(C) = + = 6 6 6 6 =1 6.5. PROBABILIDAD CONDICIONADA Hasta ahora hemos estado tratando sucesos independientes, donde la probabilidad de uno no altera la probabilidad del otro. Es decir, la probabilidad de que suceda A no se ve afectada porque haya sucedido o no B. Sin embargo, en la vida diaria las situaciones no siempre son tan simples, sino que la aparición de un suceso A puede depender de la aparición de otro suceso B. En estos casos, los sucesos A y B son dependientes, porque la probabilidad de A depende o está condicionada al suceso B, lo que se denota como: P (A JB) Para dos sucesos cualesquiera A y B, la probabilidad de A condicionada a B (o de A supuesto B) es igual a la probabilidad de la intersección dividida por la probabilidad de B. Es decir: siempre que P (B) (l) PAB- _P(A n B) P(B) (6.6) P(BIA)= P(B n A) P(A) (6.7) -:;; O De la misma forma: siempre que P (A)-:;; O Nótese que si los sucesos A y B son independientes: P(AIB) = P(A) y P(BIA) = P(B) (6.8) .! 266 NOCIONES BÁSICAS DE PROBABILIDAD Ejemplo 6.6. En un centro de atención temprana se atienden a 250 niños que presentan alteraciones en su desarrollo, en concreto, dificultades en el área motora, cognitiva o comunicativa. En la tabla siguiente se muestra la distribución de frecuencias en función del sexo y del tipo de alteración que presentan. Motora Niño (V) Niña (M) (Mt) Cognitiva (Cg) Comunicativa (C) Total 50 50 55 30 35 30 140 110 100 85 65 250 Si se elige aleatoriamente a uno de ellos: A) ¿cuál es la probabilidad de que sea niño? A partir de los datos de la tabla, y considerando la probabilidad como el cociente entre casos favorables y casos posibles, se obtiene que: P(V) = nv = 140 = O 56 n 250 ' B) ¿cuál es la probabilidad de que presente una alteración comu nicativa? P(C) = ne = n 65 250 = 0,26 C) ¿cuál es la probabilidad de que presente una alteración comu nicativa y sea niño? P(C n V) = ncnv = ~ = O, 14 n 250 D) Supongamos ahora que se ha elegido al azar un paciente y ha resultado ser niño, ¿cuál es la probabilidad de que presente una alteración comunicativa? En concreto nos estamos preguntando por la probabilidad P(C IV). Se parte de una condición que viene dada (ser niño) . 267 INTRODUCCIÓN AL ANA LISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD P(CIV) = P (C n V) = 35 / 250 P(V ) 140 / 250 =0 ' 25 Otra forma d.e resolver el ejercicio es a través de la definición clásica de probabilidad . En este caso hay que tener en cuenta que ya sabemos que se trata de un niño (V), por lo que el número de casos posibles es igual al número de niños (140). P(CIV) = ncnv = 35 = 0,25 nv 140 Ejemplo 6.7. En una muestra de 200 profesionales sanitarios se tie nen datos sobre el número de varones y mujeres que son médicos y psicólogos. Los sucesos «ser médico» (Md) y «ser mujer» (M), lson sucesos independientes? ,, li Medicina (Md) Psicología (Ps} Total 53 47 23 77 76 124 100 100 200 Varones (V) Mujeres (M) La forma de calcular la independencia o no de los dos sucesos puede realizarse aplicando la probabilidad condicionada. Es decir: Si A y B son independientes, entonces: P(A IB) = P(A) y P(B IA) = P(B) En este ejercicio, si «ser médico» (Md) y «ser mujer» (M) fueran in dependientes, entonces: P(MdlM) = P(Md) P(MdlM) = P(Md n M) P(M) P(Md) = 47 / 200 = 47 = 0 379 124 / 200 124 ' = lOO = O 50 200 ' 0,379 * 0,50; por tanto, no son sucesos independientes sino dependientes. 268 NOCIONES BÁSICAS DE PROBABILIDAD 6.6. TEOREMA DEL PRODUCTO Este teorema se aplica a situaciones en las que se quiere calcular la probabilidad de que aparezcan dos sucesos de forma simultánea. Es decir, sirve para calcular la probabilidad de intersección entre dos sucesos, o lo que es lo mismo, la probabilidad de que aparezca un suceso y otro suceso a la vez. Se ha visto en el epígrafe anterior que la probabilidad condicionada se define: _ P(A n B) p (l) B A - P(A) Despejando P(A n B) tendremos: P(A n B) == P(A) · P(B IA) que corresponde al teorema del producto. Teorema del Producto. La probabilidad de ocurrencia de A y B es igual a la probabilidad de ocurrencia de A por la probabilidad de ocurren cia de B, dado que A ha ocurrido previamente (condición previa). Es decir: P(A n B) == P(A) · P(B IA) (6.9) donde P(B IA) es «la probabilidad de que ocurra B dado que ha ocurrido A ». Cuando los sucesos A y B son independientes P(BIA) == P(B), por tanto: 1 P(A n 8) = P(A) . P(B) 1 (6 . 10) Un ejemplo ilustrativo de este teorema puede ser cuando se extraen bolas o papeletas de una urna. Cuando se realiza más de una extracción, la probabilidad de que ocurra B dado que ha ocurrido A va a verse afectada por el hecho de que el elemento extraído en A vuelva a reponerse o no a la urna para ser extraído de nuevo. Se denomina extracción con reposición cuando se mantiene siempre el mismo número de bolas o 269 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD papeletas, dado que las extraídas se devuelven la extracción sin reposición se refiere a que o papeletas extraídas a la urna, por lo que lo obtener una bola o papeleta concreta en esta depender de lo obtenido en la primera. a la urna. Por el contrario, no se devuelven las bolas que las probabilidades de segunda extracción van a Ejemplo 6.8. Supongamos que tenemos una urna con 10 bolas, de las cuales 5 son rojas, 3 verdes y 2 azules. Se define el suceso R como «sacar una bola roja», el suceso V como «sacar una bola verde», y el suceso A como «sacar una bola azul». A) Al sacar una primera bola, ¿cuál es la probabilidad de que sea roja? P(R) = nR = n 2-_ = ! = O, 50, es decir, hay un 50% de posibilida- 10 2 des de que con una sola extracción se obtenga una bola roja. B) Supongamos que se saca una segunda bola y la primera bola obtenida vuelve a meterse otra vez en la urna (extracción con reposición). ¿cuál sería la probabilidad de que las 2 bolas obtenidas sean rojas? Dado que se vuelve a introducir la bola primera en la urna, lo que se obtiene en la primera extracción no va a influir en lo que saquemos en la segunda, pues se mantienen las 10 bolas iniciales. En este caso: Es decir, tenemos un 25% de posibilidades de obtener bola roja en las dos extracciones. C) Si se saca una segunda bola y la primera no vuelve a meterse en la urna (extracción sin reposición), ¿cuál es la probabilidad de que las 2 sean rojas? Para este caso, lo que saquemos en la segunda extracción R2 va a depender de lo que hayamos sacado en la primera R1 . Es decir: 270 NOCIONES BÁSICAS DE PROBABILIDAD Lo que equivale a decir que hay un 22% de posibilidades de que ambas bolas obtenidas de la urna sean rojas. Ejemplo 6.9. En un hospital se va a aplicar un nuevo tratamiento para pacientes con fobia social. Con el fin de evaluar la eficacia del nuevo método, se han creado dos grupos, uno experimental (E) en el que se aplicará el nuevo tratamiento, y otro control (C) sin tratamiento. En las últimas semanas se han diagnosticado cinco nuevos casos de fobia social y se quiere seleccionar a tres sujetos aleatoriamente para asignarlos al grupo experimental (E) y dos al grupo control (C). Para que la asignación de los sujetos a los grupos sea al azar, se pondrán en una urna cinco papeletas (tres con una E y dos con una C). Se les va a ir asignando su pertenencia a uno u otro grupo en función de la papeleta que se saque. Se realiza la primera extracción, y sin devolver la papeleta a la urna (extracción «sin reposición ») se saca la siguiente papeleta, y así sucesivamente hasta coger las cinco pa peletas. A) lCuál es la probabilidad de que las dos primeras papeletas seleccionadas sean E? La probabilidad pedida será igual a la probabilidad de que en la primera extracción la papeleta sea E por la probabilidad de que en la segunda extracción la papeleta sea también E, supuesto que en la primera también lo ha sido P(E1 ) • P(E2 [E1 ). Los subíndices 1 y 2 hacen referencia a la extracción primera y segunda, respectivamente. Para la primera extracción tenemos 5 papeletas, 3 E y 2 C. Por tanto, la probabilidad de que la papeleta extraída sea E es 3/5. Para la segunda extracción sólo disponemos de 4 papeletas, 2 E y 2 C, puesto que una E ya ha sido extraída en la primera. Ahora la probabilidad de obtener la papeleta E es 2/4. 271 1 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD B) ¿cuál es la probabilidad de que las dos primeras papeletas sean C? Realizando un razonamiento análogo al anterior: C) ¿cuál es la probabilidad de que las papeletas sean distintas? La probabilidad de que las papeletas sean distintas es la probabilidad de que una sea E y la otra C. Sin embargo, esto puede ocurrir de dos maneras: que la primera sea E y la segunda C (E1 C2 ) o que la primera sea C y la segunda E (C 1E2 ). Por tanto, es preciso sumar ambas probabilidades. Obsérvese que la suma de las tres probabilidades anteriormente calculadas vale l. Esto es así porque estas tres probabilidades representan al conjunto de todos los resultados posibles y, por tanto, se corresponden con el espacio muestra!. Recordemos la propiedad de que la probabilidad del espacio muestra! es1:P(E)=1 ' 6.7. TEOREMA DE LA PROBABILIDAD TOTAL Para entender este teorema es necesario definir previamente en qué consiste la partición del espacio muestra!. En un espacio muestra! E, se dice que k sucesos A 1 , A 2 , ... , Ak forman una partición del espacio muestra! si se cumplen simultáneamente las siguientes condiciones: n Aj = 0 para cualquier par de sucesos A¡ y Ap es decir, son incompatibles y su intersección es el conjunto vacío. ■ A¡ ■ 272 A1 u A2 u ... u Ak = E lo que implica que la unión de todos los sucesos es igual al espacio muestra! (son exhaustivos). En términos de probabilidad se cumple que: P(A u A2 u ... u Ak) = P(A) + P(A2 ) + ... + P(Ak) = 1 NOCIONES BASICAS DE PROBABILIDAD Si sobre ese mismo espacio muestra! se define un nuevo suceso B, el teorema de la probabilidad total permite calcular la probabilidad de este su ceso B a partir de las P(A¡) y de las P(B [A¡). A continuación se muestra la Figura 6.3 ., correspondiente a la partición de l espacio muestra! en 3 sucesos Ai, A 2 y A 3 incompatibles entre sí, y otro suceso B en el mismo espacio muestra! E. E Figura 6.3. Ejemplo de partición del espacio muestra! E Para este caso concreto, la probabilidad de B se corresponde con la suma de las intersecciones de cada uno de los sucesos A¡ con el suceso B. O lo que es lo mismo: P(B) = P(A1 n B) + P(A2 n B) + P(A3 n B) Aplicando el teorema del producto se obtiene que: P(B) = P(A1 ) · P(B [A1 ) + P(A 2 ) · P(B [A2 ) + P(A 3 ) · P(B [A3 ) De manera general, el teorema de la probabilidad total se enuncia como: k P(B) = ¿_ P(A¡) · P(B [A¡) (6.11) i=l 273 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Este teorema proporciona el valor de la probabilidad de B en función de la probabilidad de los sucesos A; y de las probabilidades de B condicionadas a los A;. Otra forma de calcular estas probabilidades es utilizando el diagrama de árbol (ya visto previamente en el tema) y que representamos a continuación. B B B A2 B p (A3) B P(BIA3) A3 - B Figura 6.4. Diagrama de árbol. A la izquierda del diagrama tenemos las probabilidades correspondientes a los sucesos A 1 , A 2 y A 3 . Las probabilidades situadas más a_!a derecha son las probabilidades de los sucesos B y su complementario B condicionadas a los sucesos A 1 , A 2 y A 3 , respectivamente. Se debe cumplir siempre que la suma de las probabilidades que salen del mismo punto sea l. Así por ejemplo: P(A;) + P(A2 ) + P(A3 ) = 1; P(B jA1 ) + P(B jA1 ) = 1 Las probabilidades condicionadas vienen dadas (son las de la derecha del diagrama) y las probabilidades de intersección P(A1 n B), P(A2 n B) y P(A3 n B) se pueden calcular multiplicando las probabilidades de cada rama. De esta forma, la probabilidad del suceso B se determina como: P(B) 274 = P(A) · P(B IA) + P(A2) · P(B IA2) + P(A3 ) · P(B IA3) NOCIONES BÁSICAS DE PROBABILIDAD Ejemplo 6.10. Conocemos que en un determinado centro las pacientes que padecen anorexia nerviosa son sometidas a tres tipos de terapias: sistémica., cognitiva y farmacológ ica. Las pacientes se distribuyen entre los tres tipos de intervención de la siguiente forma: 35%, 28% y 37%, respectivamente. En un periodo de 3 meses presentan una mejoría notable el 18% de las sometidos a terapia sistémica, el 21 % de las de terapia cognitiva y el 14% de las pacientes sometidas a terapia farmacológica. ¿Qué probabilidad existe de que si elegimos una paciente al azar del centro haya presentado mejoría? Se denominan 5, C y Fa los sucesos de recibir terapia sistémica, cog nitiva y farmacológica, respectivamente. Estos tres sucesos son los sucesos incompatibles que forman la partición del espacio muestra!. El suceso M se define como presentar mejoría. P(S) = O, 35 P(C) = O, 28 o, 18 P(M IC) = o, 21 P(F) = 0,37 P(MIF) P(M IS) = = 0,14 Cogn itiva (C) Sistémi ca (5) 28 % 35% Farma cológica (F) Se puede comprobar que: P(S) + P(C) + P(F) 37 % = O, 35 + O, 28 + O, 37 = 1 Con estos datos, y aplicando el teorema de la probabilidad total, la probabilidad de presentar mejoría es: P(M) = P(S) · P(M IS) + P(C) · P(M IC) + P(F) · P(M IF) = o, 35 x o, 18 + + 0, 28 X 0, 21 + 0, 37 X 0, 14 = 0, 063 + 0, 0588 + 0, 0518 = 0, 1736 275 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Este resultado nos indica que un 17% de las pacientes del centro han presentado mejoría recibiendo este tipo de terapias. Se resuelve este mismo ejercicio por el diagrama de árbol, representado como: M s M 0,35 M ------e 0,28 M 0,37 M F M ,, ¡' 1, Sumando las probabilidades de intersecciones de M con cada una de las terapias (correspondientes a cada rama), se obtiene el mismo resultado que por el procedimiento anterior aplicando la fórmula de la probabilidad total. Primero se calcula la probabilidad de cada intersección multiplicando las probabilidades de las ramas correspondientes: ,, 276 NOCIONES BÁSICAS DE PROBABILIDAD M P (S n M) = 0, 35 x 0, 18 = 0, 063 s ~ ~ P (C n M) = O, 28 x O, 21 = O, 0588 e M CQdV M P(F n M) = 0,37 x 0,14 = 0,0518 F M La probabilidad de M se obtiene sumando las intersecciones. P(M) = P(S n M) + P(C n = o, 1736 M) + P(F n M) = O, 063 + O, 0588 + O, 0518 = 6.8. TEOREMA DE BAYES En sucesos dependientes, la probabilidad condicionada tiene en cuenta información de un suceso para conocer la probabilidad de otro. El teorema de Bayes va más allá y nos permite calcular cómo se modifican las probabilidades de determinados sucesos cuando se conoce alguna información adicional. Partiendo de las mismas condiciones anteriores (ver Figura 6.3), el teorema de la probabilidad total nos permitía obtener la probabilidad de un suceso B. El teorema de Bayes nos permite conocer las probabilidades condicionadas de los sucesos A; dado el suceso B. Teniendo en cuenta la definición de probabilidad condicionada (ver fórmula 6.6) P(A IB) I P(A n B) = - -1 - --'P(B) 277 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Se aplica el teorema del producto al numerador (ver fórmula 6. 9): (6.12) Y aplicando el teorema de la probabilidad total (ver fórmula 6.11) al denominador se obtiene el teorema de Bayes, que se formula como: P(AIB) = P(A-) . P(BIA) k I I (6.13) L p (A¡) . p (B IA i) i =l Donde: P (A;) son las probabilidades de cada suceso A; P(BIA;) es la probabilidad del suceso B condicionada a los sucesos A; k I P(A¡) -P(a IA¡) = P(a) i=l El teorema de Bayes nos proporciona las probabilidades de A; condicionadas por B en función de las probabilidades de los sucesos A; y de las probabilidades de B condicionadas por dichos sucesos. Ejemplo 6.11. En un centro de día para pacientes con esquizofrenia se sabe que 1/3 de los pacientes recibe medicación y terapia psicológica (MP) y el resto solo medicación (M). Uno de los síntomas de la esquizofrenia son las alucinaciones visuales (A). Tras la aplicación de la intervención seguían teniendo alucinaciones el 20% de los pacientes con medicación y terapia psicológica (MP), y el 60% de los que sólo estaban medicados (M). A) Dibuja el diagrama de árbol que represente la información de dicha situación. 278 NOCIONES BASICAS DE PROBABILIDAD P(MP) = 1 ·f P(AIM) = 0,60 P (AIMP) = 0,20; esto implica que: P(M) P 1 2 3 3 = 1- - = - (A IMP) = 1 - o, 20 = o, 80 P (A IM) = 1- o, 60 = o, 40 Con estos datos ya podemos dibujar el diagrama de árbol. 0,20 A MP A A M A B) ¿cuál es la probabilidad de que un paciente elegido al azar sufra alucinaciones? Tenemos que obtener P(A). Este ejercicio se puede resolver di rectamente del diagrama de árbol o bien aplicando el teorema de la probabilidad total. Para calcular P(A) a través del diagrama de árbol primero se calcula la probabilidad de cada intersección, multiplicando las probabilidades de las ramas correspondientes: 279 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 1 x 0,20 = 0,0667 A P(MP n A)= A A P(M n A) = 3 x 0,60 = 0, 6667 0,60 = 0,40 3 MP @ = M X 2 A La P(A) se obtiene sumando las intersecciones: P (A) = P (MP n A) + P (M n A) = O, 0667 + O, 40 = O, 4667 Para calcular P(A) mediante el teorema de la probabilidad total tenemos que: P(A) = P(MP) . P(AIMP) + P (M) . P(AIM) = 1 =) X 2 0, 20 + ) X 0, 60 = 0, 0667 + 0, 40 = 0, 4667 C) Se elige un paciente al azar y se observa que sufre alucinaciones. ¿cuál es la probabilidad de que se encuentre solo medicado? La probabilidad de que un paciente reciba únicamente medica ción (M), una vez que se ha observado que tiene alucinaciones (A), se obtiene mediante el teorema de Bayes (ver fórmula 6.12): Lo que se pide es 2 p (M IA) - p - (M) . p (A IM) - 3 X o, 60 = o, 40 = o 8571 P(A) - O, 4667 O, 4667 ' ➔ 86% Esta probabilidad de 0,8571 se interpret a como que hay el 86% de posibilidades de que escogido al azar un paci ente con alucinaciones, dicho paciente reciba únicamente medica ci ón ( M) . 280 NOCIONES BASICAS DE PROBABILIDAD 6.9. ALGUNAS APLICACIONES DE LA PROBABILIDAD CONDICIONADA EN PSICOLOGÍA DE LA SALUD En el ámbito de la Psicología de la Salud, y más en concreto en el ámbit o de la Epidemiología, se emplea con bastante frecuencia la probabilidad condicionada. Una situación habitual a la que se enfrenta un profesional de la salud podría ser una decisión planteada de la siguiente forma: diagnosticar a un paciente que presenta unos síntomas (suceso X), y que puede tener una enfermedad (suceso E). Por ejemplo, determinar la probabilidad de tener un infarto (E) si antes se ha tenido un dolor agudo del brazo derecho (síntoma) podría verse desde la óptica de la probabilidad condicionada. Comenzamos definiendo los conceptos de prevalencia e incidencia. Prevalencia: proporción de casos existentes de una enfermedad en un momento determinado. Nos indica la probabilidad de personas que tienen una característica o enfermedad en relación a la población. Incidencia: proporción de casos nuevos de una enfermedad en una población durante un período determinado. Representa la probabilidad de personas nuevas que pueden tener una característica o enfermedad en un periodo concreto. Así por ejemplo, para el caso de Trastorno por Déficit de Atención con Hiperactividad {TDAH) los datos nos muestran que la prevalencia es de 0,03 (3%) en la población infantil, lo que nos está indicando que 3 de cada 100 niños en edad infantil presentan TDAH. En relación a la inci dencia, supongamos que en el año 2014 fue del 0,04 (4%), y la del 2015 del 0,03 indicándonos que, de cada 100 niños, en 2014 se presentaban cuatro casos nuevos y en 2015, había bajado a tres casos nuevos de cada 100. Existe una relación entre incidencia y prevalencia, ya que si los casos nuevos (incidentes) no se resuelven, se hacen crónicos (prevalentes). Además, una disminución en la incidencia (número de casos nuevos) repercute en una menor prevalencia (número de casos existentes) y al revés. Otra de las aplicaciones de la probabilidad en la investigación clínica tiene que ver con el análisis de factores de riesgo o la probabilidad de 281 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD que aumente un problema o enfermedad al estar expuesto a un riesgo. Por tanto, este tipo de análisis parte de la base de que sujetos expuestos a un factor (X+) tienen más posibilidades o riesgo de sufrir una enfermedad o tener un problema psicológico (E+) en comparación con el grupo no expuesto (E-) a dicho factor (X-). Ejemplo 6.12. En una muestra de 100 cuidadores de personas mayores se quiere evaluar si padecen estrés (E+) o no (E-) en función de si la persona mayor que cuidan es gravemente dependiente (X+) o presenta una dependencia leve (X-) para las actividades de la vida diqria. En la siguiente tabla se muestran los datos obtenidos tras la evaluación. X+ X- Tptal E+ E- 33 17 10 40 43 57 Total 50 50 100 A) ¿cuál es el riesgo de tener estrés? >·· A partir de los datos de la tabla, y considerando la probabilidad como el cociente entre casos favorables y casos posibles (Fórmula 6.1), se obtiene que: n 43 =- = 0,43 n 100 P(E +) = __f_:t_ ➔ 43% B) ¿cuál es el riesgo de tener estrés al cuidar de personas mayores gravemente dependientes? P(E +IX+) = nE+n X+ nx + 33 50 = 0,66 ➔ 66% Por la Fórmula 6.6 de probabilidad condicionada: p (E+ 282 IX+)= p (E+ nX P(X+) +) = 33 / 100 = O 66 ➔ 66% 50/100 ' NOCIONES BASICAS DE PROBABILIDAD C) ¿cuál es el riesgo de tener estrés al cuidar de personas mayores levemente dependientes? P (E + IX - ) = nE+r,x - = lO = 0,20 ➔ 20% p (E + IX -) = p (E + n X - ) = 1 O / 50 nx _ 100 50/100 P(X - ) = O 20 ➔ 20% ' D) ¿cuál es el riesgo de NO tener estrés al cuidar de personas mayores levemente dependientes? P (E - p (E IX -) = nE-r.x - = 40 = O, 80 ➔ 80% nx _ 50 - IX -) = p (E - nX -) P(X - ) = 40 / 100 = O 80 ➔ 50/100 80% ' Como se puede comprobar en este ejemplo, el riesgo de tener estrés es mayor para los cuidadores de personas gravemente dependientes (66%) que el de los cuidadores de personas levemente dependientes (20%) . Este resultado podría deberse a que la mayor demanda de cuidados y atención que requieren las personas más dependientes está asociado a un mayor riesgo de tener estrés. Otra de las aplicaciones de la probabilidad en Psicología Clínica está re lacionada con la valoración de la calidad de las pruebas diagnósticas. Supongamos que tenemos una prueba para la evaluación diagnóstica de un trastorno (D, que nos va a permitir distinguir a las personas sanas o sin trastornos (ND de las que lo tienen en función de un punto de corte establecido previamente. Para ello, se supone que la prueba dispone de dos indicadores: uno (+)que indica que la persona tiene el trastorno (D y otro (-) que señala que la persona está sana y no tiene el trastorno (ND. En este tipo de análisis, los datos se presentan en una tabla de doble entrada como la que se muestra a continuación. 283 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Resultado de la prueba + Trastorno ( T) Verdaderos positivos Falsos negativos Falsos positivos Verdaderos negativos No Trastorno (NT) Una buena prueba diagnóstica sería aquella que presenta : ■ Una alta sensibilidad P (+ IT) o probabilidad de discriminar a los verdaderos positivos; o lo que es lo mismo, la probabilidad de que los que tengan un trastorno T den positivo (+)en la prueba diagnóstica. ■ Una alta especificidad P (- INT) o probabilidad de detectar a los verdaderos negativos; es decir, la probabilidad de los que no tienen trastorno (ND den negativo (-) en la prueba. Sin embargo, las pruebas nunca son exactas y siempre se trabaja con un margen de error en la evaluación. A consecuencia de ello, nos encontramos con dos tipos de valores predictivos: ■ Valor predictivo positivo P (TI+) o probabilidad de que todos los que den positivo ( +) tengan el trastorno (D. Pero, ocurre que hay sujetos que dan ( +) y no tienen el trastorno NT (falsos positivos), por lo que el valor predictivo positivo disminuye. ■ Valor predictivo negativo P (NT 1 -) o probabilidad de que todos los (-) estén sanos y no tengan trastorno (ND. Sin embargo, nos encontramos con sujetos que dan ( - ) y tienen el trastorno T (falsos negativos), dando lugar a que el valor predictivo negativo se vea reducido. De esta forma, si se determina el grado de sensibilidad, especificidad y valores predictivos de una prueba se puede conocer su calidad. En concreto, una prueba sería muy sensible si al aplicarse a un conjunto de personas que tienen el trastorno (D dan positivo ( +) en un porcentaje muy alto. Asimismo, sería muy específica si un porcentaje muy elevado de las personas sin trastorno (ND dan negativo (- ). Lo mismo se puede deducir en relación a los valores predictivos positivos y negativos, cuanto más próximos a 100 (o a 1 en términos de probabilidad) más valor predictivo tienen y mejor es su calidad. 284 NOCIONES BÁSICAS DE PROBABILIDAD Ejemplo 6.13. Se dispone de una nueva prueba para el diagnóstico de problemas de comprensión lectora en niños. Se ha pasado la prueba a un total de 500 niños de educación Primaria, de los cuales 70 tienen dislexia (D y 430 no presentan a priori ninguna dificultad. En la siguiente tabla se muestran los datos obtenidos tras su aplicación. Calcula la sensibilidad, especificidad y valores predictivos positivos y negativos de la prueba . Resultado de la prueba + Total NT 57 20 410 70 430 Total 77 423 500 T ■ Sensibilidad 13 = P (+ IT) Considerando la probabilidad como el cociente entre casos favorables y casos posibles (Fórmula 6.1), se obtiene que: P(+IT) = n+nT = nT 57 = 0,8143 70 ➔ 81% Por la Fórmula 6.6 de probabilidad condicionada: P(+IT) = P(+ n T) P(T) ■ Especificidad P(- INT) = = 57 / 500 = O 8143 70 / 500 ' ➔ 81% = P(-INT) 410 n-nNT = = nNT 430 P(-INT) = P(-n NT) P(NT) o, 9535 ➔ 95% = 410 / 500 = O 9535 430 / 500 ■ Valor predictivo positivo ' ➔ 95% = P (TI+) 285 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD P (TI+)= nrn+ n+ P(TI+) = 57 = O, 7403 77 ➔ 74% = P(T n+) = 57 / 500 = O 7403 ➔ 74% P(+) 77 /500 ' ■ Valor Predictivo negativo P(NTI-) = P (NT 1-) = nNTn- = 410 = 0,9693 ➔ 97% n_ 423 n-) = 410 / 500 = O 9693 ➔ 97% P(-) 423 / 500 ' P(NTI- ) = P(NT '\ De los datos obtenidos se puede decir que la prueba tiene un alto grado de sensibilidad y especificidad, ya que ambos valores se aproximan al 100%. Por tanto, se podría considerar que esta nueva prueba puede ser una buena herramienta para detectar problemas de dislexia en niños, puesto que discrimina muy bien entre aquellos que presentan dislexia y los que no (verdaderos positivos y negativos, respectivamente). Asimismo, tiene un alto valor predictivo negativo (97%) que indica que el 97% de los que han dado negativo no tienen trastorno. El valor predictivo positivo es algo menor (74%), señalando que un 26% ha dado positivo y no presenta el trastorno. Para estos casos sería conveniente confirmar el diagnóstico realizando algún tipo de prueba de evaluación complementaria. 6.10. RESUMEN En este tema se han definido una serie de conceptos básicos de probabilidad. En concreto, se comienza con los conceptos de experimento aleatorio (proceso que se puede repetir indefinidamente en las mismas condiciones y cuyo resultado no se puede predecir con certeza) y espacio muestra! (todos los resultados posibles de un experimento aleatorio). Otro de los conceptos que se ha abordado es el de suceso (resultado de un experimento aleatorio), así como los distintos tipos de sucesos 286 NOCIONES BÁSICAS DE PROBABILIDAD que pueden darse (simple, compuesto, posible, imposible o seguro) y las operaciones que pueden realizarse entre sucesos (unión, intersección y complementario). A continuación, y en función del enfoque desde el que se estudie, se han planteado tres definiciones de probabilidad: clásica, estadística y axiomática. Estas definiciones no se excluyen entre sí y, de hecho, el cociente entre los casos favorables y los posibles (definición clásica) no es más que una frecuencia relativa de aparición de un suceso, que se va aproximando a un valor constante a medida que el número de ensayos aumenta (definición estadística). Por otra parte, la probabilidad de un suceso, obtenido por cualquiera de estos dos procedimientos, tiene que cumplir los axiomas de la definición axiomática de la probabilidad. Seguidamente, se han expuesto una serie de teoremas, derivados de la definición axiomática, que permiten calcular probabilidades de sucesos. Se ha descrito el teorema de la suma, para calcular la probabilidad de que ocurra un suceso u otro. Posteriormente, se ha definido la probabilidad condicionada, donde la aparición de un suceso depende de la aparición de otro suceso. También se ha descrito el teorema del producto, que se aplica a situaciones en las que se requiere calcular la probabilidad de que aparezcan dos sucesos de forma simultánea. Finalmente, se han presentado el teorema de la probabilidad total y el teorema de Bayes, que tienen como punto de partida la partición del espacio muestra! en dos o más sucesos excluyentes. Se ha finalizado el capítulo definiendo algunos conceptos bastante utilizados en el ámbito de la Psicología de la Salud, y que están fundamentados en el cálculo de probabilidades, en su mayor parte condicionadas . En concreto, se han descrito los conceptos de prevalencia e incidencia, factores de riesgo, y se ha estudiado la valoración de la calidad de pruebas diagnósticas mediante los conceptos de sensibilidad, especificidad, y valor predictivo positivo y negativo. 6.10. E ERCICIOS 6.1. La definición de probabilidad que asume la equibrobabilidad o que dos sucesos tienen la misma probabilidad de ocurrencia es la definición: A) clásica; B) axiomática; C) estadística. 287 INTRODUCCIÓN Al ANALISIS DE DATOS: APLICACI ONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 6.2. En una urna tenemos 4 bolas naranjas y en otra urna 6 bolas amarillas. Si sacamos una bola de la primera urna y otra de la segunda urna, lSe trata de un experimento aleatorio? A) Sí; B) No; C) No puede determinarse si es o no un experimento aleatorio. 6.3. Si dos sucesos A y B son independientes: A) P(A n B) = P(A) . P(B); B) P(A n 8) = P(A) + P(B); C) P(A n B) = P(A) + P(B) - P(A u B). 6.4. En un espacio muestra! E hay dos sucesos A y Btales queP(A) = 2 / 3; P (B) = 1 / 2; P (A n B) = 1 / 5, ¿cuál es la probabilidad de la unión de A y B ?: A) 13/30; B) 17/30; C) 19/30. 6.5. En un experimento de detección de estímulos, se presenta la mitad de veces el estímulo A y la otra mitad el estímulo B. El A es detectado el 80% de las veces y el Bel 70 %. En un ensayo determinado sabemos que se ha presentado el estímulo A. ¿cuál es la probabilidad de que NO sea detectado? A) 0,20; B) 0,53; C) 0,80. 6.6. Se lanza simultáneamente un dado y una moneda, ¿cuál es la probabilidad de obtener un número par en el dado y una cara en la moneda? A) 0,25; B) 0,50; C) 0,75. 6.7. Los datos que se tienen de la Jefatura de Tráfico sobre las causas de los accidentes indican que el 65% se debe a la ingesta excesiva de alcohol, el 25% a la imprudencia del conductor y el resto a otras causas. En estos accidentes el resultado de que sea mortal es del 30% en el primer caso, el 20% en el segundo y el 5% en el tercero. ¿cuál es la probabilidad de que un determinado accidente sea mortal? A) 0,25; B) 0,33; C) 0,65. 6.8. Se conoce que un determinado trastorno mental puede estar provocado por causa psicológica (P) en el 50% de los casos ; por causa orgánica (O) en el 20% de los casos; y por la interacción (/) de ambos factores en el 30% de los casos. La intervención de este trastorno requiere tratamiento farmacológico (F) en el 10% de los casos si su causa es psicológica, en el 55% de los casos si la causa es orgánica y en el 20% de los casos si es producida por la interacción de ambos factores . ¿cuál es la probabilidad de que un paciente cualquiera con dicho trastorno necesite tratamiento farmacológico? A) 0,06; B) 0,11; C) 0,22. 6.9. Con la información del problema anterior, ¿cuál es la probabilidad de que un paciente cualquiera con dicho trast orno NO necesite tratamiento farmacológico? A) 0,24; B) 0,78; C) 0,82. ,,,i' 288 NOCIONES BASICAS OE PROBABILIDAD 6.10. Con la información del Ejercicio 6.8. ¿cuál es la probabilidad de que si NO está recibiendo tratamiento farmacológico la causa de su trastorno sea orgánica (O)? A) 0,04; B) 0,115; C) 0,325. 6.11. Por la sintomatología se sabe que la probabilidad de contraer una enfermedad A en un hospital es de 0,40 y la de contraer una enfermedad B es de 0,60. Un paciente es sometido a análisis clínico conociéndose que quienes padecen la enfermedad A dan resultado positivo (P) con probabilidad 0,90 y quienes padecen la enfermedad B, dan resultado positivo (P) en el análisis con probabilidad 0,05. Si a un enfermo se le hizo un análisis y el resultado fue positivo. ¿cuál es la probabilidad de que padezca la enfermedad A? A) O, 725; B) 0,532; C) 0,923. 6.12. Continuando con el ejercicio anterior, ¿cuál es la probabilidad de que padezca la enfermedad B dado que ha sido positivo el análisis? A) 0,077; B) 0,247; C) 0,532. 6.13. De acuerdo con los datos de la Tabla, ¿cuál es la probabilidad de que elegido un alumno al azar esté «expuesto al factor de riesgo »? A) 0,20; B) 0,25; C) 0,60. En la Tabla se recoge la información sobre la ansiedad (A) de un grupo de alumnos expuesto al factor de riesgo (R+) de hacer un examen y de otro grupo no expuesto a dicho factor (R-), ya que tienen evaluación continua y no realizan examen. A A Total R+ 160 240 R- 40 80 120 200 200 400 160 6.14. Según los datos de la Tabla anterior, elegido un alumno al azar, ¿cuál es la probabilidad de que « padezca ansiedad » y esté «expuesto al factor de riesgo examen » ? A) 0,10; B) 0,40; C) 0,70 . 6.15. Con la información presentada en la Tabla anterior, elegida una persona al azar ha resultado estar expuesta al factor de riesgo examen. ¿cuál es la probabilidad de que padezca ansiedad? A) 0,19; B) 0,25; C) 0,67. 289 ' INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 6.16. La depresión constituye un reto para la salud pública, ya que el número de personas que la sufren a lo largo de su vida se sitúa entre el 8% y el 15% de la población. Durante el último año, el porcentaje de personas que tuvo por primera vez un diagnóstico de depresión fue del 4% de la población. Este dato se refiere a: A) la prevalencia de la depresión; B) la sensibilidad para la detección de la depresión; C) la incidencia de la depresión. 6.17. Una prueba diagnóstica que muestra una alta probabilidad de detectar a los verdaderos negativos tiene: A) alto valor predictivo positivo; B) alta especificidad; C) alta sensibil idad. 6.18 . El cuestionario M-CHAT es una prueba para la detección del au tismo en niños preescolares. Fue modificada posteriormente para aumentar la capacidad de discriminación entre autismo y otros problemas en el desarrollo. En el estudio realizado para la valoración de la prueba, el M-CHAT clasificó correctamente a 33 de los 38 niños participantes en el estudio y diagnosticados de autismo y clasificó incorrectamente solo a 8 de los 1196 niños que no presentaban autismo. ¿cuál es la sensibilidad de la prueba? A) 0,8048; B) 0,8684; C) 0,9958. 6.19. Con los datos del ejercicio anterior, ¿cuál es la especificidad del M-CHAT? A) 0,8049; B) 8684; C) 0,9933. 6.20. Siguiendo con la información presentada en el Ejercicio 6.18. ¿cuál es el valor predictivo positivo de la prueba? A) 0,8049; B) 0,8684; C) 0,9933. 6 .10. SOLUCIONES A LOS E ERCICIOS 6.1. Solución: A Definición clásica 6.2. Solución: B No se trata de un experimento aleatori o, dado que el resultado puede predecirse con certeza. 6.3. Solución : A 6 .4. Solución : C Tenemos los siguientes datos : P (:A)= 2 / 3; P (8) = 1 / 2; P (A n 8) = 1 / 5 290 NOCIONES BÁSICAS DE PROBABILIDAD Sustituyendo en la fórmula del teorema de la suma: P(A u B) = P(A)+ P (B) - P (A n B) = 6.5. (l l1- P (A)j + P(8) - P(A n B) = -1)+ ½-½ = ½+½-½ = 10 \ l i - 6 = ~~ Solución: A P(A) = 0,50 P(DIA) = 0,80 P(B) = 0,50 P(DIB) P(D IA) 6.6. = = = o, 70 1- P(DIA) = 1 - 0,80 Solución: A Sea P « número par» y P(P) = 3 6 = 0,20 e «salir cara » = O, 5 Son sucesos independientes, ya que el resultado de tirar el dado no condiciona el que salga cara o cruz. Por tanto, se utiliza la fórmula del teorema del producto para sucesos independientes: P(P n C) = P(P) · P (C) 6.7. Solución: A Nos están pidiendo mortal. = O, 5 x O, 5 = 0, 25 P(M) o la probabilidad de que el accidente sea Definimos los siguientes sucesos: A «accidente por circular con una ingesta excesiva de alcohol » ; I «accidente por imprudencia del conductor» ; OC «accidente por otras causas» . Se trata de sucesos incompatibles y su unión es el espacio muestra!, por lo que se re suelve mediante el teorema de la probabilidad total. P(A) = 0,65 P(MIA) = 0,30 P(I) = 0,25 P(M II) = 0,20 P (OC) = 1 - O, 65 - O, 25 = O, 10 P(MIOC) = 0,05 291 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD M P(A) · P(MIA) = 0,65 x 0,30 = 0,195 (QdQ¿ A ~ M e@) M P(I) - P(MII) = 0,25 x 0,20 = 0,05 M M P(OC)-P(MIOC) = 0,10 x 0,05 = 0,005 I (@) oc M Aplicando el teorema de la probabilidad total tenemos: P(M) = P (A). P(M IA) + P(1). P(M 11) + P(oc). P(M ¡oc)= = 0,195 + 0,05 + 0,005 = 0,25 r 6.8. 't, Solución: C Dibujamos el diagrama de árbol con los datos proporcionados en el ejercicio. Nos piden P(F). Para ello, se calculan las intersecciones de cada rama de F y luego se suman . P(P) = 0,50 P(FIP) = 0,10 P(O) = 0,20 P(FIO) = 0,55 = o, 30 P (F II) = o, 20 P (1) 292 NOCIONES BÁSICAS DE PROBABILIDAD (QdQ¿ F P (P n F) = 0, 50 x 0, 10 = 0, 05 F F P (O n F) = O, 20 x O, 55 = O, 11 F F P (I n F) = O, 30 x O, 20 = O, 06 p ~ o e@¿ I F P (F) = P (P n F) + P (O n F) + P (In F) = O, 05 + O, 11 + O, 06 = O, 22 Otra forma de calcular P(F) es mediante el teorema de la probabilidad total: P (F) = P (P) · P (F IP) + P (O)· P (F ¡o)+ P (I) · P (F II) = = o, 05 + o, 11 + o, 06 = o, 22 6.9. Solución: B En este caso, se pregunta por P Para ell~ se calculan las intersecciones correspondientes a cada rama de F y luego se suman. (!=} F p ~ ~ 0,55 F P (P n F) = O, 50 x O, 90 = O, 45 F o ~ (@) F P(O n F) = 0,20 x 0,45 = 0,09 F I (Q&Q) F P(I nF)= 0,30 x 0,80 = 0,24 293 INTRODUCCIÓN AL ANÁLI I DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD P(F) = P(P n F) + P(On F) + P(I n F) = O, 45 + O, 09 + O, 24 = O, 78 Otra forma de calcular P (F) es mediante el teorema de la probabilidad total: = 0, 50 X 0, 90 + 0, 20 X 0, 45 + 0, 30 X 0, 80 = 0, 45 + 0, 09 + 0, 24 = 0, 78 También se puede calcular por el complementario: P (F) = 1 - P (F) = 1 - o, 22 = o, 78 6.10. Solución: B Se obtiene mediante el teorema de Bayes (Fórmula 6.12): P(ojF) = P(O) ·':__(FIO) P(F) ', • -< ', 6.11. Solución: = o,2o x 0,45 = 0,09 = O,ll 5 O, 78 O, 78 e Se pregunta por P(A IP). Los datos de los que disponemos son: P(A) =0,40 P(PIA) = 0,90 P(B) = 0,60 P (PI B) = O, 05 La representación gráfica es: p Q @ = A @ p p p 0, 40 X 0, 90 = 0, 36 P(P n B) = P (B) · P (P 1B) = = B 0,95 294 P(P n A) = P(A) · P(P IA) = 0, 60 X 0, 05 = 0, 03 NOCIONES BÁSICAS DE PROBABILIDAD p ( A IP) P(A n P) P(A) ·P(PIA) = - p (~P)~ = -P-(A-n-P~) +- P-(8 -n '--P ~) = 0, 4 X 0, 9 {O, 4 x o, 9) + (O, 6 x o, 05) = P(A) · P(PIA) - -~ - - - ~ - ~ ~ = p (A). p (P IA) + p (B). p (P IB) 0, 36 = 0, 36 = O, 92 3 o, 36 + o, 03 o, 39 6.12. Solución: A p ( 8 IP) p (B) . p (P IB) P(B n P) P(B) -P(PIB) -~------- = = - p (-P)~ = -P-(A_n_P _)_+_ P_(8----'n-P - ~) p (A) . p (P IA) + p (B). p (P IB) = 0, 60 X 0, 05 = 0, 03 = 0, 03 = O 07 7 (0,40 x 0,90) + {0,60 x 0,05) 0,36 + 0,03 0,39 ' También se puede calcular por el complementario: P (B IP) =1- P (A IP) =1- o, 923 = o, 077 6.13. Solución: c Considerando la probabilidad como el cociente entre casos favorables y casos posibles (Fórmula 6.1), se obtiene que: p (R ) = nR + = 240 = 0 60 + n 400 ' 6.14. Solución: B Considerando la probabilidad como el cociente entre casos favorables y casos posibles (Fórmula 6.1), se obtiene que: p (A n R +) = nA r. R+ = 160 = O 40 n 400 ' 6.15. Solución : c Considerando la probabilidad como el cociente entre casos favora bles y casos posibles (Fórmula 6.1), se obtiene que : P(AIR +) = n Ar. R+ = nR + 160 = 0, 6667 "" 0, 67 240 295 INTROOUCCIÓN AL ANÁLISIS DE DATO : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Por la órmul 6.6 de probabilidad condicionada: P (AIR+) = P(A n R+) = 160/400 = 0,4 = O 67 P(R + ) 240/400 0,6 ' 6.16. Solución: C La incidencia, ya que representa el número de casos nuevos de una enfermedad en una población durante un período determinado. 6.17. Solución: B Una alta especificidad P (- INT) o probabilidad de detectar a los verdaderos negativos; es decir, la probabilidad de los que no tienen trastorno (NT) den negativo (-) en la prueba. 6.18. Solución: B Se construye una tabla de doble entrada con la información que proporciona el enunciado del ejercicio: Total Estado + A (autismo) NA (no autismo) 33 5 38 8 1188 1196 Total 41 1193 1234 Sensibilidad = P(+ IA) Considerando la probabilidad como el cociente entre casos favora bles y casos posibles (Fórmula 6.1), se obtiene que: 33 P(+ IA) = n+r. A = = 0,8684 nA 38 ➔ 87% Por la Fórmula 6.6 de probabilidad condicionada: P (+I A ) = P (+ Í\ A ) = 33 / 1234 = P(A) 38/1234 o 8684 ➔ 87% ' 6.19. Solución : C Especificidad = P (- !NA ) Considerando probabil idad el cociente entre ca sos favorables y po sibles: 296 NOCIONES BÁSICAS DE PROBABILIDAD P(-INA) = n -n NA = 1188 = 0,9933 ➔ 99% nNA 1196 Calculándola mediante probabilidad condicionada: p (- INA) = p (- n NA) = 1188 / 1234 = O 9933 P(NA) 1196/1234 ' ➔ 99% 6.20. Solución: A Valor predictivo positivo = P (A I+) P(AI+) = nA n+ = 33 = 0,8049 ➔ 80% n+ 41 Por probabilidad condicionada: P(AI+) = P(A n +) = 33 / 1234 = O 8049 ➔ 80% P(+) 41/1234 ' 297 ,. ' TEMA7 Variables aleatorias y modelos discretos de probabilidad 7.1. INTRODUCCIÓN 7.2. CONCEPTO DE VARIABLE ALEATORIA 7.3. TIPOS DE VARIABLES ALEATORIAS 7.4. VARIABLES ALEATORIAS DISCRETAS 7.4.1. Función de probabilidad de una V.A. discreta 7.4.2. Función de distribución de una V.A. discreta 7.4.3. Media y varianza de una V.A. discreta 7.5. MODELOS DISCRETOS DE PROBABILIDAD 7.4.1. La distribución de Bernoulli 7.5.2. La distribución binomial 7.5.3. Otras distribuciones discretas 7.6. RESUMEN 7.7. EJERCICIOS 7.8. SOLUCIONES A LOS EJERCICIOS VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD 7.1. INTRODUCCIÓN En los primeros cinco temas (primera parte del libro) se han estudiado la s variables estadísticas, que son el conjunto de valores resultantes de m edir una característica de interés sobre cada elemento individual de una población o muestra. La medición se realiza a través de un procedimiento de asignación numérica mediante la aplicación de determinadas reglas, dando lugar a los valores de la variable estadística . Estos conjuntos de datos los hemos descrito mediante su correspondiente distribución de frecuencias, que es una tabla en la que se disponen los valores de la variable ju nto con su frecuencia correspondiente. Por otro lado, en el tema anterior se estudiaron los fundamentos de la t eoría de probabilidades. Se vió que un experimento se denomina aleat orio cuando su resultado no podemos predecirlo con certeza. Si el experi mento aleatorio se realiza una sola vez se obtendrá un único resultado del espacio muestra!. Pero, a medida que aumenta el número de ensayos irán apareciendo todos los resultados posibles, cada uno de ellos con su correspondiente probabilidad. Con los conocimientos adquiridos sobre distribuciones de frecuencias que corresponden a las muestras (primera parte del libro) y de probabilidad (Tema 6) ya es posible pasar del cálculo de probabilidades al estudio de las distribuciones de probabilidad . Éstas son las distribuciones teóricas correspondientes a la probabilidad de ocurrencia de un suceso si rep itiésemos el experimento un número infinito (muy grande) de veces y que se refieren a la población. Se inicia este tema con la definición de algunos conceptos nuevos, tales como el concepto de variable aleatoria y sus tipos, en función de su natu raleza. Para cada experimento se puede definir una o varias variables que pueden ser de naturaleza discreta o continua (de acuerdo a los mismos conceptos vistos en el Tema 1, referidos a las variables estadísticas) y que denominamos variables aleatorias. Este tema se centra en las variables aleatorias discretas, dejando para el tema siguiente el caso de las varia bles continuas. Se estudiará la función de probabilidad y de distribución en variables aleatorias discretas para, a continuación, presentar la forma de describir las características de la variable aleatoria mediante los valores numéricos que caracterizan su tendencia central y su dispersión o variabi lidad. Como se podrá apreciar, estos conceptos son similares a los ya vistos en los primeros temas cuando se estudiaban las variables estadísticas . 301 INTROOUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS OE LA SALUD Para finalizar, se describirán las principales características de dos modelos de distribución de probabilidad para variables aleatorias discretas. En primer lugar, la distribución de Bernoulli, que se aplica a variables que presentan dos únicos valores. En segundo lugar, y como una generalización de la anterior para n ensayos, se presentará la distribución binomial, en la que nos centraremos en su aplicación práctica y en el uso de las tablas del Formulario para la obtención de las probabilidades del modelo. Objetivos del tema: ■ ■ Conocer el concepto de variable aleatoria: aprender a definir variables aleatorias sobre los resultados de un experimento y a determinar los valores que toma. I/ Conocer las principales características de una variable aleatoria discreta, como son la función de probabilidad, la función de distribución, la esperanza matemática o media y la varianza. li ■ Obtener la función de probabilidad y de distribución de una variable aleatoria discreta y saber construir su representación gráfica. ■ Saber calcular la esperanza matemática y la varianza de una variable aleatoria discreta. ■ Conocer las condiciones de aplicación de la distribución de Bernoulli y de la binomial, sus valores esperados y varianzas. ■ Manejar con soltura las tablas de la distribución binomial para resolver problemas concretos. 7.2. CONCEPTO DE VARIABLE ALEATORIA Es un concepto esencial en la teoría de probabilidades que surge ante la necesidad de cuantificar los resultados de los experimentos aleatorios y así poder realizar un estudio matemático de los mismos. Intuitivamente puede definirse como cualquier característica medible que toma diferentes valores con probabilidades determinadas. 302 11 li ll : VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD Una variable aleatoria (v.a.), X, es una función que asigna un número real, y sólo uno, a cada resultado posible de un espacio muestra! E de un experimento aleatorio. En el tema anterior definimos el espacio muestra! E ( espacio de resulta dos) como el conjunto de todos los resultados posibles de un experimento aleatorio, entendiendo por este último un proceso que se puede re petir indefinidamente en las mismas condiciones y cuyo resultado no se puede predecir. Pues bien, cuando a cada suceso elemental o resultado posible del espacio muestra! le asignamos un valor numérico se obtiene una variable aleatoria denominada X. Las variables aleatorias toman valores numéricos, y se pueden definir diferentes variables sobre los resulta dos de un mismo experimento. Así por ejemplo, sobre el experimento de «lanzar una moneda al aire en tres ocasiones» podemos definir una variable aleatoria como número de caras obtenidas, como número de cruce s obtenidas, o también como una variable que toma el valor 1 cuando el número de caras obtenido es mayor que el número de cruces y toma el va lor O en el otro caso. El azar interviene en el resultado que obtenemos al realizar el experimento aleatorio y no en la variable o función. Las variables aleatorias se representan por letras mayúsculas del alfa beto latino, y se utilizan las letras minúsculas con subíndice para referi rnos a los valores concretos que toman estas variables aleatorias. Así X, Y, ... representan variables aleatorias, en tanto que x 1 , x 2 , ... y 1 , y 2 , ... re presentan los valores concretos que toman esas variables, respectivamente. Ejemplo 7.1. Sea el experimento aleatorio que consiste en lanzar una moneda al aire tres veces. El espacio muestra! de este experimento es: E = {XXX, XXC, XCX, CXX, XCC, CXC, CCX, CCC} Supongamos que a cada elemento del espacio muestra! le asignamos un número real, por ejemplo, el correspondiente al número de caras que presenta. En este caso, se ha definido la variable aleatoria X como el número de caras obtenidas en el experimento. lQué valores concretos toma X? 303 1 1 11 11 IN I IWOUCCIÓN AL ANALISIS DE DATOS: APLI CACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD O si no sale ninguna cara 1 si sale una cara 2 si salen dos caras 3 si salen las tres caras X= ·~ Por tanto, X1 = O; X2 = 1; X3 = 2; X4 =3 l Gráficamente se representa como: E XXX - ~ - - - - - / - --. xxc XCX - , - - - - - 1 - - =~ CXX - -+--- - - - i - -~ XCC - - t - - -----t- CXC CCX ccc --1------~~ 2 3 Figura 7.1. Espacio muestra! y valores de la variable aleatoria número de caras obtenidas . Ejemplo 7 .2. Para el experimento aleatorio de lanzar una vez un dado define dos posibles variables aleatorias. El espacio muestra! de lanzar un dado es E= {l, 2, 3, 4, 5, 6}. Sobre ese espacio muestra! podemos definir las dos siguientes variables aleatorias: X = número de puntos obtenidos en el lanzamiento de un dado. Y= obtener un número múltiplo de 3, donde Y 1 = O si no es múltiplo e Y2 = 1 si el número es múltiplo de 3. 304 VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD Representación gráfica de ambas variables: 8 - - - - - 1 - - - - - 1 - ---. 1 [I] - - - + - - - 1 - - - - - 2 8 [I] - - - + ---+- - o ü 0 Variable aleatoria X Variable aleatoria Y 7.3. TIPOS DE VARIABLES ALEATORIAS Las variables aleatorias pueden ser discretas o continuas. Tal y como vimos en el Tema 1, una variable discreta es aquella que adopta valo res enteros. Por tanto, fijados dos valores consecutivos, no puede tomar ninguno intermedio. Por su parte, una variable continua es aquella para la que, dados dos valores, siempre se puede encontrar un tercer valor que esté incluido entre los dos primeros. Teniendo en cuenta esta información, vamos a definir cada una de ellas aportando algunos ejemplos para su mejor comprensión. Una variable aleatoria X es discreta (v.a.d.) cuando sólo puede tomar un conjunto finito de valores o un conjunto infinito y numera ble de valores. Un ejemplo de v.a.d. es el número de caras que salen al lanzar dos veces una moneda, que puede adoptar los valores O, 1 y 2. Otro ejemplo es el conjunto de los números enteros, que puede adoptar un conjunto 305 IN rRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD infinito y numerable de valores (los números negativos, el cero y los números positivos). Una variable aleatoria X es continua (v.a.c.) cuando puede tomar infinitos valores o un conjunto de valores no numerable. Ejemplos de variables aleatorias continuas son el tiempo de reacción ante un estímulo, la estatura o el cociente intelectual. 7.4. VARIABLES ALEATORIAS DISCRETAS Este tema se limita exclusivamente al caso discreto, tratando el estudio de las variables continuas en el tema siguiente. 7.4.1. Función de probabilidad de una V.A. discreta La descripción del comportamiento matemático de una variable aleatoria discreta se realizará de forma similar a como se hizo en la primera parte del libro con las variables estadísticas. En el caso de una variable estadística, su distribución venía dada por los valores que toma la variable y su correspondiente frecuencia. En el caso de una variable aleatoria discreta X, vendrá dada por los valores que la variable puede tomar (x 1 , x 2 , ... , x n) y su correspondiente probabilidad . Se llama función de probabilidad de una variable aleatoria discreta X, y se representa por f (x) , a aquella función que asocia a cada valor de la variable la probabilidad de que ésta adopte ese valor. Es decir: 1 f (x) = P (X = x) 1 (7.1) Veamos un ejemplo. Consideremos un experimento aleatorio consistente en lanzar una moneda al aire en tres ocasiones. Si definimos una variable aleatoria X como número de caras obten idas como en el Ejemplo 7.1, obtenemos la siguiente tabla: 306 VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD i¡ Espacio muestra! EB EB EB EB EB © EB © EB © EB EB EB © © © EB © © © EB © © © p X 1/8 = 0,125 3/8 = 0,375 3/8 = 0,375 1/8 = 0,125 La primera columna recoge el espacio muestra! del experimento E = { XXX, XXC, XCX, CXX, XCC, CXC, CCX, CCC} , siendo cada fila un suceso. El número de sucesos o elementos del espacio muestra! es igual a ocho. En la segunda columna se muestran los valores que puede tomar la variable X anteriormente definida para cada suceso, y en la tercera sus correspondientes probabilidades . Éstas se pueden calcular fácilmente t en iendo en cuenta la definición clásica de probabilidad. Por ejemplo, la probabilidad de obtener tres cruces o ninguna cara (x 1 = O) será 1/8, ya qu e hay un resultado favorable de ocho posibles . Por tanto, la función de probabilidad de X es: X o 1 2 3 f(x) 0 , 125 0,375 0,375 0,125 La función de probabilidad de una variable aleatoria discreta puede representarse mediante un diagrama de barras donde en el eje de abscisas se recogen los valores que toma la variable y en el eje de ordenadas las correspondientes probabilidades. En la Figura 7.2 se recoge la represen ta ción gráfica de la función de probabilidad correspondiente al ejemplo que acabamos de ver. 307 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 0,5 0,375 ...... >e: .......... 0,25 -· 0,125 o o 1 2 3 X Figura 7.2. Diagrama de barras de la función de probabilidad. Las dos propiedades fundamentales que debe cumplir la función de probabilidad son: ■ Para cualquier valor de x, f (x) siempre toma valores positivos o nulos. Formalmente: V x E X f(x) ::::: O ■ La suma de todas las probabilidades correspondientes a cada valor de x es igual a uno. Formalmente: (x) = f (x1 ) + f (x2 ) + ... + f (xn) = 1 2/ >·1 Puede observarse que estas propiedades no son más que una adaptación de la definición axiomática de la probabilidad, aplicada al caso de variables aleatorias. 1 ' 7.4.2. Función de distribución de una V.A. discreta La función de distribución o función de distribución de probabilidad de una variable aleatoria X se representa con la misma letra que su función de probabilidad, pero en mayúscula: F(x). Nos indica cuál es la probabilidad de que la variable aleatoria tome un valor menor o igual que un valor concreto x. Su definición es la siguiente: Se llama función de distribución de una variable aleatoria discreta X, y se representa por F(x), a aquella función que asocia a cada valor de la variable la probabilidad de que ésta adopte ese valor o cualquier otro inferior. Es decir: 308 VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD 1 F(x) a P(X s x) (7.2) 1 Dicho de otra manera, si ordenamos de menor a mayor los valores x de la variable aleatoria discreta, la función de distribución se obtiene acum ulando (o sumando) los valores de la función de probabilidad, de forma que: (7.3) Es importante, para diferenciar el concepto de función de probabilidad y función de distribución, tener siempre presente que en el primero se le asigna a la probabilidad un valor concreto, mientras que la función de distribución es acumulativa, es decir, se le asigna la probabilidad a un valor concreto y todos los anteriores. Ejemplo 7 .3. En un experimento aleatorio, consistente en lanzar una moneda al aire en tres ocasiones, se define la variable X como número de caras. ¿cuál es su función de distribución? Según hemos visto anteriormente, la función de probabilidad de la variables es: X o 1 2 3 f(x) 0,125 0,375 0,375 0,125 Hay que calcular F(O), F(l), F(2) y F(3). Comenzamos por F(O), que es la probabilidad de que la variable aleatoria X «número de caras» tome un valor menor o igual a cero, esto es: F(O) = P(X so) = P(X = o) = 0,125 De forma similar, F(l) es la probabilidad de que el número de caras sea menor o igual a 1, por lo que incluye a los valores cero y uno: 309 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD F (1) = P (X 1) $; = P (X= O)+ P (X= 1) = f (O)+ f (1) = = 0,125 + 0,375 = 0,50 Para calcular I= (2) o la probabilidad de que el número de caras sea menor o igual a dos: F (2) = P (X $; 2) = P (X= O)+ P (X = 1) + P (X = 2) = = f (O)+ f (1) + f (2) = O, 125 + O, 375 + O, 375 = O, 875 Finalmente, F(3) o la probabilidad de que el número de caras sea menor o igual que tres es: F(3) = P(X $; 3) = P(X = 0)+P(X = l)+P(X = 2)+P(X = 3) = = f (O)+ f (1) + f (2) + f (3) = O, 125 + O, 375 + O, 375 + O, 125 = 1 Los valores obtenidos se suelen presentar resumidos en una tabla como la siguiente: F(x) o 1 2 3 0,125 0,500 0,875 1 En la siguiente tabla se muestran tanto la función de probabilidad f (x) como la función de distribución F(x). F(x) o 0,125 0,375 0,375 0,125 1 0,875 0,500 0,125 ¿ 1 3 2 1 310 1 f(x) X 1' VAR IABLES ALEATORIAS Y MOOELOS DISCRETOS DE PROBABILIDAD La representación gráfica de la función de distribución anterior es la siguie nte: F(x) • 1 • 0,875 o 0,75 0,625 0,5 • o 1 2 0,375 0,25 0,125 3 X Figura 7.3. Representación gráfica de la Función de Distribución del Ejemplo 7.3. Se puede apreciar que F (x) va «dando saltos» precisamente en los valores de la variable (O, 1, 2 y 3). El círculo blanco de la gráfica no incluye esos valores. Así, porejemploF(2) = 0,875 peroF(l,9999 ... ) = F(l) = 0,5. Observando la gráfica de la Figura 7 .3 se pueden deducir, sin necesidad de recurrir a demostraciones matemáticas, las propiedades fundamentales que debe cumplir la función de distribución de probabilidad. Éstas son: ■ Todos los valores que toma la función de distribución de probabilidad son positivos o nulos. Formalmente: Vx F(x) ?:: O ■ F(x) es nula o vale O, para todo valor inferior al menor valor de la variable aleatoria, x 1 : F ■ (x) = 0 si X < X1 F(x) es igual a uno para todo valor igual o superior al mayor valor de la variable aleatoria. Si llamamos xn al mayor valor de la variable: F (x) = 1 si 311 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD ■ La función F(x) es no decreciente ya que es una acumulación o suma de probabilidades que son siempre positivas o nulas. ■ La probabilidad P de que la variable aleatoria X tome valores x mayores que x 1 y menores o iguales que x 2 (x 1 < x ::s x 2 ) es la diferencia entre los valores de la función de distribución correspondientes a su valor superior menos su valor inferior. Formalmente: 7.4.3. Media y varianza de una V.A. discreta En los primeros temas del libro se aprendió a describir una distribución de frecuencias de una variable estadística a través de los índices de tendencia central y de dispersión. Lo mismo se puede hacer con una variable aleatoria: calcular su media y su varianza. Para una variable estadística discreta X se puede calcular su media obteniendo el sumatorio del producto de cada uno de los valores de la variable por su frecuencia relativa o proporción (ver Tema 2). Pues bien, para obtener la media (que designaremos por la letra griega «µ » ) de una variable aleatoria discreta X calcularemos el sumatorio de los productos de cada uno de los valores que toma la variable por su correspondiente probabilidad. Es decir: La media, µ, de una variable aleatoria discreta X viene definida por la siguiente expresión: µ = E(X) = I,x -f (x) (7.4) La media de una variable X, también se denomina esperanza matemática o valor esperado de X y se representa por E (x). Este término tiene sus raíces en los juegos de azar y fue introducido con el fin de poder estimar las ganancias esperadas, si se repitiese el juego un elevado número de veces. Referido a una variable aleatoria representa el promedio teórico que tomaría la variable aleatoria si se repitiese el experimento aleatorio infinitas veces. Por eso empleamos para representarlo las letras 312 VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD griegas (µ), ya que se trata del parámetro correspondiente a la población de resultados del experimento. Ejemplo 7 .4. ¿cuál es la media o esperanza matemática de la varia ble X del Ejemplo 7.1? X f(x) x·f(x) o 0,125 0,375 0,375 0,125 0,375 0,750 0,375 1 2 3 o 1,5 µ=E(X) = I,x -f(x) = x1 -f(x1 )+ x2 -f(x2 )+x3 -f(x 3 )+ x4 -f(x4 ) = ~ O x o, 125 + .l .x o, 375 + 2.x o, 375 ~ 3 x o, 125.. = 1,"5 •• ~, ""' "mtt,,m,_, •• 1 Para obtener la varianza de una variable aleatoria X, que designaremos po r cr 2 ó V (X), debemos calcular el sumatorio del producto de cada uno de los valores que toma la variable menos su media elevados al cuadrado m ultiplicados por su correspondiente valor de la función de probabilidad . Recordar la similitud con el índice estadístico correspond iente a la varian za de una variable estadística visto en el Tema 3. La varianza, cr 2 , de una variable aleatoria discreta X viene definida por la siguiente expresión: el = V (X) = I, (x - µ/ •f (x) (7.5) Una fó rmula al t ernativa para cal cular la va ri anza es: (7.6) 313 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD donde: 2 [ E (x)] es la media de la variable elevada al cuadrado, µ 2 . Por tanto, la varianza puede definirse también como la esperanza de los cuadrados de X, E ( X 2 ), menos el cuadrado de la esperanza de X, [ E (x)J De manera análoga a las variables estadísticas, la desviación típica cr de una variable aleatoria discreta X es la raíz cuadrada de la varianza, y viene definida por la siguiente expresión: (7. 7) Ejemplo 7 .s. Con los d¡:itos del Ejemplo 7 .1, ¿cuál es la varianza y la desviación típica sabiend o que µ = 1,5? Para aplicar la fórmula de la varianza es conveniente construir una tabla en la que se añaden las columnas tercera, cuarta y quinta para la fórmula 7.5, y las dos últimas columnas para la fórmula 7.6 . 1 Jc. ,:.,11 o 1 2 3 f(X') lir .¡ 0,125 0,375 0,375 0,125 . (x-µ) {x-µ):z -1,5 - 0,5 0,5 1, 5 2,25 0,25 0, 25 2,25 (x ..!í µ)2·f(x) t x:z x 2 · f(x) 0,28125 0,09375 0,09375 0,28125 o o 1 0,375 1,500 1,125 '¡ .. 4 9 0,75 3 Aplicando la fórmula 7.5: cr 2 = l(x -µ)2 -f(x )= 0,75 2 2 Aplicando la fórmula 7.6: cr 2 = E(x2 ) - [E (X)] =3 -(1,5) = = 3 - 2, 25 = o, 75 Obviamente, el resultado es el mismo con las dos fó rmulas . La desviación típica es igua l a: cr = 314 .J¿ = .Jo,75 = O, 866 VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD 7.5. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD En los apartados anteriores se ha mostrado cómo construir las funciones de probabilidad y de distribución de una variable aleatoria discreta, así como el cálculo de su media y de su varianza. Sin embargo, no siempre es necesario realizar estos cálculos, ya que en función de las condiciones de partida del experimento y de las características de la variable aleatori a, podemos ajustar estas distribuciones a alguna distribución (modelo teórico de probabilidad) ya conocida. Por tanto, el trabajo con variables aleatorias discretas se simplifica mucho cuando se puede encontrar algún modelo teórico que se ajuste a ellas según sus propiedades. Existen diversas distribuciones teóricas para variables discretas, bien conocidas, por utilizarse frecuentemente como modelo, o por su interés como instrumento estadístico. Entre ellas podríamos citar la distribución de Bernoulli, la distribución binomial, la distribución de Poisson, la distribución multinominal, etc. De muchas de ellas se han elaborado una serie de tablas que facilitan su aplicación a problemas concretos. Por lo general, en Psicología y Ciencias de la Salud se trabaja con varia bles aleatorias discretas que sólo pueden tomar dos valores (dicotómicas) y que habitualmente representaremos por 1 y O. En estos casos, resultan muy útiles la distribución de Bernoulli, y, especialmente, su generalización a n ensayos, que es la distribución binomial. Ambos modelos se analizara n en los siguientes apartados. 7.5.1. La distribución de Bernoulli La realización de un experimento aleatorio como lanzar una moneda al aire admite sólo dos resultados posibles. En este caso concreto, los resultados posibles son cara o cruz. Se trata de un experimento o ensayo denominado Bernoulli, en reconocimiento a este autor. El acierto o fallo a una pregunta con dos alternativas respondida al azar, el lado izquierdo o derecho de un laberinto en forma de T elegido por una rata no entrenada en el laberinto, ... son algunos de los múltiples ejemplos en los que sólo se presentan dos alternativas posibles de respuesta. A una de ellas se le denomina «éxito o acierto» (que, habitualmente, se codifica con 1) y a la otra «fracaso o error» (que se codifica como O), sin que estos términos t engan connotaciones ni positivas ni negativas, respectivamente. 315 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD De este modo, la variable aleatoria discreta que sigue el modelo de Bernoulli (también llamado experimento de Bernoulli) se define como una variable aleatoria dicotómica X, con dos posibles valores mutuamente exclusivos: 1 (éxito) con probabilidad p y O (fracaso) con probabilidad q, tal que la suma de ambas probabilidades sea igual a uno. Es decir: f (1) = P (X = 1) = p f (O) = P (X = O) = q p + q = 1, por lo que q = 1 - p Ejemplo 7 .6. Sea X la variable aleatoria «obtener cara» en el lan zamiento de una moneda al aire una vez. lSigue X la distribución de Bernoulli? El espacio muestra! es E= {C, X} donde se define la variable X (obtener cara) con dos posibles valores: 1 (éxito, sale cara) y O (fracaso, sale cruz). La probabilidad de cara es p = 0,5 y la de cruz es q = 1-p = 1-0,5 = 0,5. Por lo tanto: f (1) = P (X = 1) = p = O, 5 f (O)= P (X = O)= 1- p = q = O, 5 p +q = o, 5 + o, 5 = 1 De este modo, la variable aleatoria X sigue el modelo de Bernoulli, con parámetro p = 0,5. Una variable aleatoria X que sigue el modelo de Bernoulli con parámetro p, se denota abreviadamente como X ➔ Ber (P) y presenta las características recogidas en el siguiente recuadro. 316 VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD Características fundamentales de una distribución X ➔ Ber (p) ■ Función de probabilidad: (7.8) ■ Función de distribución: F (x) ■ Media: µ = P(X $; x) = ¿_pxql- x (7.9) =p ■ Varianza: 0 2 = p(l - p) ■ Desviación típica: 0 = pq = Jpq donde: x puede adoptar el valor O (fracaso) o 1 (éxito) p = la probabilidad de éxito en el único ensayo del experimento q = la probabilidad de fracaso ( 1-p) en el único ensayo del experimento Ejemplo 7.7. Se lanza un dado una vez al aire. Estamos interesados en saber la probabilidad de obtener un 5 y se define X como obtener un número 5 en el lanzamiento. A) ¿se distribuye X según la distribución Bernoulli? El espacio muestra! es E= {l, 2, 3, 4, 5, 6}. Se define el éxito (1) como sacar un número cinco con probabilidad p = 1/6. El fracaso (O) es el suceso complementario, es decir, obtener un número distinto de cinco (1, 2, 3, 4 ó 6), cuya probabilidad es q = 1-p = 1-1/6 = 5/6. 317 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Por tanto, la variable aleatoria X «obtener un número cinco» se distribuye según el modelo de Bernoulli, X ➔ Ber (1 / 6) B) ¿cuál es la media y la varianza de X? 1 6 µ = p= - 02 = p · q = p · (1 - p) = _! X~ = 2-_ 6 6 36 C) ¿cuánto vale f(1) y F(1)? F f (1) es la función de probabilidad para X f (1) = P (X = 1) = p 1 · ql- l = p = _! = 1: 6 (1) es la función de distribución para F (1) = p (X ~ X ~ 1: 1 1) = L p x . ql - x = pº . ql- 0 + pl . ql-1 = X=O 1 5 =1 x q +p x 1 = q+p =- + -= 1 6 6 1 ·, \, 1 La distribución de Bernoulli es el fundamento y la base de otras distribuciones discretas, entre las que destaca la distribución binomial. 7.5.2. La distribución binomial La distribución binomial es una generalización de la distribución de Bernoulli en la que el experimento se repite más de una vez. Así, un experimento binomial consiste en repetir n veces, y de forma independiente, un ensayo Bernoulli en el que la probabilidad de «éxito », p, se mantiene constante en cada uno de los n ensayos. Una variable aleatoria X sigue una distribución binomial (con parámetros n y p) si expresa el número de éxitos en n realizaciones independientes de un experimento con probabilidad p de obtener «éxito» y, por tanto, (1-p) de obtener «fracaso». Esta distribución suele representarse por la 318 VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD expresión B(n, p) donde B indica binomial, n (número de ensayos o veces que se repite un experimento Bernoulli) y p (probabilidad de «éxito»). La distribución de Bernoulli descrita previamente sería un caso particular de la binomial con parámetro n igual a uno (un único ensayo), el parámetro p sería la probabilidad de «éxito», y se representaría como una binomial B(1, p). Pues bien, una variable X que sigue un modelo de distribución binomial, con parámetros n y p, y que simbolizamos por X ➔ B (n, p), presenta las características fundamentales recogidas en el siguiente recuadro. Características fundamentales de una distribución B (n, p) ■ Función de probabilidad: (7 . 10) ■ Función de distribución: (7.11) ■ Media: µ ■ Varianza: = np 0 2 = npq ■ Desviación típica: cr = .Jnpq donde: = número de aciertos n = número de ensayos p = la probabilidad de éxito en cada uno de los ensayos q = la probabilidad de fracaso (1-p) en cada ensayo x 319 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD El número combinatorio ( : } que se lee «n sobre x», es igual a (xn) - x!(nn!- x)! sabiendo que: - el factorial de un número n es n ! = n •(n - 1) •(n - 2) •.. .. •(n - (n - 1)) - el factorial 1! = 1 y el factorial O!= 1 Aunque es relativamente fácil deducir las características anteriores no lo vamos a hacer aquí formalmente, sino que recurriremos a su aplicación en ejemplos concretos. Así, si se lanza una moneda al aire en tres ocasiones y definimos la variable aleatoria X como «número de caras obtenidas», esta variable seguirá el modelo de distribución binomial con parámetros n = 3 y p = 0,5. Diremos que X sigue un modelo 8(3, 0,5). Esto es así porque en cada lanzamiento sólo son posibles dos resultados: «éxito» (salir cara) y «fracaso » (salir cruz); los ensayos son independientes entre sí ( el resultado en un ensayo no depende de lo que haya salido o no en los ensayos anteriores) y la probabilidad de «éxito» ( en este caso «salir cara ») se mantiene constante a lo largo de los ensayos ( en este caso p = 0,5). Ejemplo 7 .8. Siguiendo con el experimento aleatorio de lanzar una moneda en tres ocasiones, presentado en el ejemplo 7 .1, y definida X como <<número de caras» se pregunta: A) lCuál es la probabilidad de obtener exactamente 2 caras?; B) lCuál es la probabilidad de obtener dos caras o menos? y C) lCuál es la probabilidad de obtener más de dos caras? Como se ha indicado en el Tema 6, se puede responder a estas preguntas desarrollando el espacio muestra! y aplícando, en cada caso, la conocida fó rmula de Laplace (cociente ent re casos favorables y casos posibles). Pero, se puede resolver t amb ién recurriendo a la función de probabilidad y de distribución binomial. 320 VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD La variable aleatoria X «número de caras en tres lanzamientos» se distribuye según la binomial, con parámetros n = 3 y p = 0,5, es decir X ➔ B (3, 0,5). A) f (2) = P(X = 2) = (3) x o, 2 5 2 x o, 5 3- 2 = ( -3!- ) X 0, 5 2 X 0, 5 = 3 X 0, 52 2! -1! B) F (2) = P (X :s; 2) 2 X 0, 5 5 2 x o, 5 = = 3 X 0, 25 X 0, 5 = 0, 375 3) (3) = P(X = O) = O x o, 5o x o, 5 3 - 0 = ( O x 1 x o, 5 3 = = f(l) 3)x o, = f (O) + f (1) + f (2) = O, 125 + O, 375 + O, 375 = O, 875 puesto que: f(O) =( (~)x 0! ·3! 1 X 0, 5 3 = P(X = 1) = = 1 X 1 X 0, 125 = 0, 125 (3)1 x o, 5 1 3) x o, 5 3 - 1 = ( l x o, 5 x o, 5 2 = = ( -3!- ) X 0, 5 X 0, 5 2 = 3 X 0, 5 X 0, 25 = 0, 375 1! ·2! f (2) = P (X = 2) = O, 375 C) P (X > 2) = 1 - P (X :s; 2) (Véase el Apartado A) = 1 - F (2) = 1 - O, 875 = O, 125 Puesto que F(2) ya lo hemos calculado en el apartado B). Puede observarse también que la media y la varianza coinciden con la calculada en los Ejemplos 7.4 y 7 .5, respectivamente: = np = 3 X 0, 5 = 1, 5 cr = npq = 3 X 0, 5 X 0, 5 = 0, 75 µ 2 321 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD La utilización de funciones de probabilidad y de distribución requiere cálculos tediosos. Las tablas de la función de probabilidad y de la función de distribución binomial, Tablas I y II que se incluyen en el Formulario, nos evitan, en muchos casos, el cálculo de las probabilidades a partir de la ecuación de esas funciones, facilitando considerablemente su obtención cuando tenemos un elevado número de ensayos (n). En la Tabla I, para la función de probabilidad binomial, la primera columna encabezada con la letra n se refiere al número de ensayos e incluye los valores desde 1 hasta 20. La segunda columna recoge el número de «éxitos » (x) que esperamos obtener para ese número de ensayos y que abarcan desde O hasta ese número de ensayos . La primera fila de la tabla recoge algunos valores de la probabilidad de «éxito » (p) que van desde 0,01 a 0,5. En el interior de la tabla se encuentran las probabilidades correspondientes . La probabilidad buscada, para unos valores concretos de n y x, se encuentra en la intersección de su fila con la correspondiente columna de p. Así, por ejemplo, la probabilidad de obtener dos éxitos en tres ensayos con una probabilidad de éxito de 0,3 se encuentra en la Tabla en la posición que se recoge en la Figura 7.4 y vale 0,1890. n X 1 O 1 1 2 O 3 3 1 2 0,01 0,05 0,10 Probabilidad de éxito (p) 0,30 0,45 0,50 1r .........--....--.........----.........--...... ~ ~ 0,3341 0,3750 Figura 7 .4. Obtención de las probabilidades a partir de la Tabla de la función de probabili dad binomial. La utilización de la Tabla II, función de distribución binomial, es idéntica a la anterior. Hay que tener en cuenta que, en este caso, las probabilidades que aparecen en el interior de la tabla son acumuladas. Veamos un ejemplo de la utilización de estas dos Tablas . 322 VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD Ejemplo 7.9. Con los mismos datos del ejemplo anterior: A) ¿cuál es la probabilidad de obtener exactamente 2 caras? f (2) = P (X = 2) = O, 375 Utilizando la Tabla I y recogiendo el valor que aparece en la intersección de la filan = 3; x = 2 con la colum na p = 0,5 B) ¿cuál es la probabilidad de obtener dos caras o menos? F (2) = P (X :s; 2) = O, 875 Utilizando la Tabla II y recogiendo el va lor que aparece en la intersección de la fila n = 3; x = 2 con la columna p = 0,5 C) ¿cuál es la probabilidad de obtener más de dos caras? P (X > 2) = 1 - P (X :s; 2) = 1 - F (2) = 1- O, 875 = O, 125 Puesto que F(2) ya lo hemos obtenido en el apartado anterior utilizando la Tabla 11. Sin embargo, las Tablas I y II sólo contienen valores de p desde O, 1 hasta 0,5. Entonces, ¿qué hacer cuando tengamos una p > 0,5? En casos como éste hay que intercambiar las condiciones de «éxito» y «fracaso ». Ejemplo 7.10. Sabemos, por la experiencia de años anteriores en el Servicio de Psiquiatría y Psicología Clínica, que un 60% de los pacien tes son tratados con Técnicas de Modificación de Conducta. Si un determinado día acuden 5 personas a consulta: ¿cuál es la probabilidad de que tres sean tratadas con Técnicas de Modificación de Conducta? En este caso, si la probabilidad de ser tratado con Técnicas de Modificación de Conducta es p = 0,6, la probabilidad de no ser tratado con tales técnicas es q = 1-p = 0,4. Por otro lado, que tres personas de un total de cinco, sean tratadas con Técnicas de Modificación de Conducta, es lo mismo que dos personas, de las cinco, no sean tratados con tales técnicas. Por tanto, el valor correspondiente, en la Tabla I, a la intersección de la filan= 5 y x = 2 con la columna p = 0,4 nos dará respuesta a la pregunta planteada. El resultado es 0,3456. 323 .l INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Finalmente, podemos observar que en las Tablas I y II el número de ensayos n sólo llega hasta 20. Este hecho no plantea ningún problema porque para valores superiores a ese podemos hacer una aproximación de la binomial a la distribución normal, como se verá en el próximo tema. 7.5.3. Otras distribuciones discretas Se ha descrito en las páginas anteriores la distribución de Bernoulli y con más detalle y profundidad la distribución binomial, por su amplia utilización en distintos ámbitos de la Ciencias Sociales y de la Salud. Sin embargo, existen otros muchos modelos de distribución para variables aleatorias discretas. El modelo de Poisson o de «los sucesos raros» se utiliza bajo las mismas condiciones de la binomial para variables dicotómicas, pero con un elevado número de ensayos y un valor de p muy pequeño. La distribución multinomial se utiliza para ensayos que ofrecen más de dos resultados posibles y, en cierto sentido, supone una generalización de la binomial o ésta puede considerarse un caso particular de aquella. No desarrollaremos ninguno de estos modelos y dejamos abierta la posibilidad, al lector interesado, de que pueda consultar bibliografía sobre ese tema . 7.6. RESUMEN En este tema hemos introducido el concepto de variable aleatoria, hemos distinguido entre variables aleatorias discretas y continuas, y hemos establecido el paralelismo entre la función de probabilidad de una variable aleatoria discreta y la distribución de proporciones ( o frecuencias relativas) de una variable estadística. El mismo paralelismo se produce entre la tabla de la función de distribución y la tabla de proporciones acumuladas. Hemos estudiado la función de probabilidad de una variable aleatoria discreta y la hemos caracterizado haciendo uso de su media y su varianza. Finalmente, se han presentado las distribuciones de Bernoulli y la binomial y se ha descrito el manejo de las Tablas de la distribución binomial y su utilidad para resolver los problemas planteados. 324 VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD 7.7. EJERCICIOS 7 .1. En el contexto de las variables aleatorias discretas la expresión f(x) representa: A) la probabilidad de que la variable aleatoria X tome un valor menor o igual que x; B) la probabilidad de que la variable aleatoria X tome un valor concreto x; C) la probabilidad de que la variable aleatoria X tome un valor menor que x. 7.2. ¿cuál de las siguientes afirmaciones es una propiedad básica de toda función de probabilidad de una variable aleatoria X discreta?: A) Para cualquier valor de la variable aleatoria su función de probabilidad puede tomar valores negativos; B) La función de probabilidad es siempre no decreciente; C) Para cualquier valor de la va riable aleatoria x, la función de probabilidad siempre toma valores positivos o nulos. 7.3. En la siguiente Tabla se muestra la función f(x) asignada a una variable aleatoria discreta X. X 1 2 3 4 5 f(x) o 10/60 24/60 20/60 4/60 La función f(x): A) es una función de probabilidad porque f (x) ~ O; B) no es una función de probabilidad porque f(l) es nula; C) no es una función de probabilidad porque no cumple alguna de las propiedades fundamentales. 7 .4. A) Para el diseño de un experimento de discriminación visual dispone mos de tres cuadros grises y dos azules. Seleccionamos de forma sucesiva y sin reposición dos de estos cinco estímulos y definimos la variable aleatoria X como «número de estímulos grises seleccionados» . La función de probabilidad de esta variable aleatoria es: B) C) X o 1 2 X o 1 2 3 X o 1 2 f(x) 1/2 1/3 1/3 f(x) 0,2 0,3 0,3 0,2 f(x) 0,1 0,6 0, 3 7 .S. Una variable aleatoria discreta X toma los valores O, 1 y 2, con probabilidades 0,7; 0,2; 0,1, respectivamente. La media o esperanza matemática de X vale: A) 0,2; B) 0,24; C) 0,4. 325 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 7 .6. Los valores de una variable aleatoria discreta X son O, 1, 2, 3, 4 y 5. Si se sabe que P(X $. 4) = 0,974 y que P(X $. 3) = 0,963, entonces P(X= 4) será: A) 0,011; B) 0,022; C) 0,001. 7. 7. Una urna contiene dos bolas negras y dos blancas. Se extraen dos bolas, una a una, con reposición. Sea la variable aleatoria X «número de bolas blancas extraídas». La función de distribución de esta variable para x = O, x = 1 y x = 2 será, respectivamente: A) 0,25; O, 75 y 1; B) 0,25; 0,50 y 1; C) 0,25; 0,50 y 0,25. 7 .8. La esperanza matemática de la variable aleatoria X cuya información aparece en la Tabla es: A) 2,4; B) 2,2; C) 2,6. 7 .9. Valores que toma una variable aleatoria discreta X y su función de probabilidad. Con los datos de la Tabla la varianza de la variable X vale: A) 6,3; B) 3,36; C) 1,63. 7 .10. Sea Y una variable aleatoria discreta con valores O, 1, 2, 3 y 4. Si los cinco valores de Y son equiprobables, su media es: A) 1,2; B) 1,5; C) 2,0. -1 0,2 2 0,4 0,4 4 7.11. Una variable aleatoria X toma dos valores (cero y uno). Sabiendo que E(X) = 0,2 ¿cuánto vale la probabilidad de que X tome el valor cero?: A) 0,2; B) 0,5; C) 0,8. 7.12. Teniendo en cuenta los datos de la tabla, la media de la variable aleatoria X vale: A) 2,7; B) 7; C) 2,4. X F(X¡) 1 3 0,2 0,5 0,9 4 1 2 7.13. En el lanzamiento de un dado una única vez se ha definido la variable X «obtener un número par». La variable X se distribuye según: A) La binomial con parámetros n = 6 y p = 1/6; B) Bernoulli con parámetro p = 1/6; C) Bernoulli con parámetro p = 1/2. 326 VARIABLES ALEATORIAS V MODELOS DISCRETOS DE PROBABILIDAD 7.14. Un estudiante responde al azar una pregunta con cinco alternativas de respuesta. Si se define la variable X «acertar el ítem », ¿cuál es la desviación típica de esa variable aleatoria ?: A) 0,05; B) 0,16; C) 0,40. 7.15. Con los datos del Ejercicio 7.4, pero siendo la selección con repo sición, y considerando «éxito » obtener cuadro gris, la probabilidad de que la variable X allí definida tome el valor 2 es: A) 0,36; B) 0,50; C) o, 75. 7.16. Se sabe que un 10% de la población española padece algún tipo de estrés. Si elegimos aleatoriamente una muestra de 8 personas, la probabilidad de que sólo una de ellas padezca estrés vale : A) 0,0026; B) 0,2638; C) 0,3826. 7.17. Continuando con los datos del problema anterior, la probabilidad de que más de una de ellas padezca estrés vale: A) 0,1869; B) 0,3826; C) 0,4305. 7.18. El examen de PIR (Psicólogo Interno Residente) consta de numerosas preguntas tipo test con 5 alternativas, de la que una sola es correcta. Si un aspirante a la admisión en el PIR contesta al azar 20 de ellas, la probabilidad de que acierte más de 5 vale: A) 0,1958; B) 0,6296; C) 0,9133. 7.19. Continuando con el ejercicio anterior, ¿cuál sería el número de aciertos más probable en esas 20 preguntas? : A) 2; B) 3; C) 4. 7 .20. Con los mismos datos del Ejercicio 7 .18, ¿cuál sería la probabilidad de que falle 13 o más preguntas?: A) 0,4114; B) 0,8265 ; C) 0,9679 . 7.8. SOLUCIÓN A LOS E ERCICIOS 7.1. Solución B La expresión f(x) se utiliza para representar la probabilidad de una variable aleatoria X tome un valor con creto qu e representamos por x, es deci r: f (x) = P (X = x) 7.2. Solución : c Ta l y como se ha visto en el Apartado 7.4 .1, una de las propiedad es fundamentales que debe cumplir la función de probabilidad es qu e, para cualquier valo r de x, f(x ) siemp re t oma valores positivos o nulos. Formalment e : V x E X f (x) ~ O 327 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 7 .3. Solución: e La función propuesta no cumple que I, f (x) = 1, que es una de las propiedades fundamentales de la función de probabilidad. En efecto: 10 60 24 60 20 4 58 +- = -:te 1 60 60 60 í:,f(x) =O+-+-+ 7 .4. Solución: e A) no es correcta porque de probabilidad. I, f (x) :te 1 y, por tanto, no es una función B) no es correcta porque X no puede tomar el valor 3. Por tanto, y por exclusión, la respuesta correcta es C. (Puede comprobar el lector que efectivamente esta es la solución correcta efectuando los cálculos oportunos). 7 .s. Solución: e ~L 7 .6. = E (X) = I, x . f (x) = Ox O, 7 + 1 x O, 2 + 2 x O, 1 =O+ O, 2 + O, 2 = O, 4 Solución: A P(X = 4) = F(4) - F(3) = P(X = 7.7. $ 4) - P(X $ 3) = 0,974 - 0,963 = 0,011 Solución: A f (O)= P (X = O) = ¡ x ¡ = l: = O, 25 f (1) = P (X = 1) = 2 X(~ X~) = 2 X(~) = ~ = 0 5 f (2) = P (X = 2) = 4 4 16 16 ¾x ¾= l: = 0, 25 Por tanto: F(O ) = f (O) = 0,25 328 F (1) = f (O) + f (1) = O, 25 + O, 5 = O, 75 F (2) = f (O)+ f (1) + f (2) = O, 25 + O, 5 + O, 25 = 1 ' VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD 7 .8. Solución: B µ= 7.9. I, xf (x) = (-1) x O, 2 + 2 x O, 4 + 4 x O, 4 = - 0, 2 + O, 8 + 1, 6 = 2, 2 Solución: B Hay dos fórmulas equivalentes para calcular la varianza de una variable aleatoria X: 0 0 µ)2 · f (x ) 2 = V(X ) = I,(x - 2 = V (X) = E(x 2 )- [E(x)J2 Vamos a utilizar las dos en la siguiente tabla: X f(x) X·f(X) (x-µ) (x- µ)2 (x-µ)2·f(x) xi x 2 ·f(x) -1 2 4 0,2 0,4 0,4 -0,2 0,8 1,6 -3,2 -0,2 1,8 10,24 0,04 3,24 2,048 0,016 1,296 1 4 16 0,2 1,6 6,4 2,2 3,36 8,2 Por tanto: 0 0 2 = V (X) = I, (x - µ) 2 = V ( X) = E ( X 2 ) - 2 . f [E (x) = 2,048 + O, 016 + 1,296 = 3, 36 ( X) ] 2 = 8, 2 - (2, 2 )2 = 8, 2 - 4, 84 = 3, 36 7.10. Solución: e La función de probabilidad es: y o 1 2 3 4 f(y) 0,2 0,2 0,2 0,2 0,2 Por tanto, µy = L, Y · f (y) = 0 X 0, 2 + 1 X 0, 2 + 2 X 0, 2 + 3 X 0, 2 + 4 X 0, 2 = = 0+0,2+0,4+0,6+0,8 = 2,0. 329 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 7.11. Solución: e E(X) = 0,2 es la Esperanza o Media de la variable X (también se representa porµ). Su fórmula es: E(X)=I,x-f(x) la función de probabilidad de la variable X es la siguiente: x o 1 f(x) f(O) f(l) puesto que los valores que toma la variable X son O y 1 y, donde f(x) representa las probabilidades asociadas a esos valores. Por tanto, f(O) es la probabilidad de que X tome el valor O y f(1) es la probabilidad de que X tome el valor 1. Entonces: E (X)= I, x · f (x) = O - f (O)+ 1- f (1) =O+ f (1) = f (1) = O, 2. Al tratarse de una función de probabilidad: ¿,f (x) = 1 y, por tanto, f (O)+ f (1) = 1 ⇒ f (O)+ O, 2 = 1 ⇒ f (O)= 1- O, 2 = O, 8. La probabilidad de que X tome el valor O es 0,8. 7.12. Solución: e Para calcular la media de X necesitamos conocer su función de probabilidad. Esta función la obtenemos (ver la tercera columna de la tabla) «desacumulando» las probabilidades que aparecen acumuladas en la función de distribución: 330 VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD X F(x) 1 2 3 0,2 0,5 0,9 1 4 f(x) f(l) f(2) f(3) f ( 4) X·f(x) = F(l) = 0,2 = F(2) - F(l) = 0,5 - 0,2 = 0,3 = F(3) - F(2) = 0,9 - 0,5 = 0,4 = F( 4) - F( 3) = 1 - O, 9 = O, 1 0,2 0,6 1,2 0,4 2,4 E(X) = ¿,X • f(x) = 2,4 7.13. Solución: e El espacio muestra! es E= {l, 2, 3, 4, 5, 6}. Para ello se define el éxito (1) como sacar un número par (2, 4 ó 6) con probabilidad p = 3/6 = ½. El fracaso (O) es el suceso complementario, es decir, obtener un número impar (1, 3 ó 5), cuya probabilidad es q = 1-p = 1 - 0,5 = 0,5. Por tanto, se define la variable aleatoria X: «obtener un número par» que se distribuye según el modelo de Bernoulli, X ~ Ber (O, 5). 7 .14. Solución: e X es una variable aleatoria con dos posibles resultados: acertar por azar (1) con p = 0,20 y fallar (O) con probabilidad q = 1 - p = 1 0,2 = 0,80. X se distribuye según Bernoulli con parámetro p = 0,20 por lo que la desviación típica de X, a, es: a = J;;i = fixi = Jo, 2 x o, s = Jo, 16 = o, 40. 7.15. Solución: A Como la selección es «con reposición » (p se mantiene constante a lo largo de los ensayos) podemos utilizar la binomial: Este mismo resultado lo podemos obtener mirando el valor de la Tabla l. Obtener 2 cuadros grises con p = 0,6 es lo mismo que obtener O cuadros azules con p = 0,4. Mirando la Tabla para n = 2, x = O y p = 0,4 obtenemos 0,36. 331 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 7.16. Solución: e Para resolver este ejercicio podemos aplicar la fórmula de la función de probabilidad de la binomial. Lo más práctico, sin embargo, es utilizar la Tabla I. El valor 0 ,3826 que se encuentra en la intersección de la filan= 8 y x = 1 con la columna p = 0,1 es la solución correcta. 7.17. Solución: A Se nos pide P (X > 1) y sabemos que: P (X > 1) Por otro lado: P(X ~ 1) = 1 - P (X ~ 1) = P(X = 0) + P(X = 1) Mirando la Tabla I, comprobamos que P(X =O)= 0,4305 y que P(X = 1) = 0,3826. Por tanto: P (X > 1) = 1 - (O, 4305 + O, 3826) = 1 - O, 8131 = O, 1869 Nótese que P (X ~ 1) podemos obtenerlo directamente a partir de la Tabla II (filan= 8, x = 1 y columna p = 0,1) haciendo más cómoda la resolución del ejercicio. 7.18. Solución: A P (X > 5) = 1- P (X ~ 5) Utilizando la Tabla II comprobamos (para n = 20, x = 5 y p = 0,2) que P (X ~ 5) = O, 8042. Por tanto, P (X > 5) = 1- O, 8042 = O, 1958. 7.19. Solución: e El número de respuestas acertadas más probable será la media o esperanza matemática de la variable para n = 20 y p = 0,2. Por tanto: µ = n . p = 20 x O, 2 = 4. (Nota: Obsérvese que en la Tabla I, paran= 20 y p = 0,2, el mayor valor de la probabilidad corresponde, efectivamente, ax= 4). 7.20. Solución: e La probabilidad de fallar 13 o más preguntas es la misma que la de acertar 7 preguntas o menos. Por tanto, se trata de obtener el valor P (X ~ 7) para n = 20 y p = 0,2. Utilizando la Tabla II obtenemos el resultado 0,9679 . 332 TEMAB Modelos continuos de probabilidad 8.1. INTRODUCCIÓN 8.2. CARACTERÍSTICAS DE LAS VARIABLES ALEATORIAS CONTINUAS 8.2.1. Función de densidad y función de distribución 8.2.2. Media y varianza de una variable aleatoria continua 8.3. LA DISTRIBUCIÓN NORMAL 8.3.1. 8.3.2. 8.3.3. 8.3.4. Características y propiedades Utilización de las tablas Histograma y distribución normal Aproximación de la binomial a la normal 8.4. LA DISTRIBUCION x2 DE PEARSON 8.5. LA DISTRIBUCIÓN t DE STUDENT 8.6. LA DISTRIBUCIÓN F DE FISHER-SNEDECOR 8.7. RESUMEN 8.8. EJERCICIOS 8 .9. SOLUCIONES A LOS EJERCICIOS MODELOS CONTINUOS DE PROBABILIDAD 8.1. INTRODUCCIÓN En el tema anterior se han estudiado las variables aleatorias discretas, unificando conceptos que ya se conocen como son la distribución de frecuencias y la probabilidad. La combinación de estos conocimientos nos ha permitido definir los conceptos de variable aleatoria discreta, su función de probabilidad, su esperanza matemática y su varianza teórica. De forma análoga se pueden definir estos mismos conceptos para las variables aleatorias continuas. Sin embargo, el problema que se presenta en el caso continuo es que la variable no toma un número finito de valores. Al tratarse de una variable continua (recuérdese lo visto en el Tema 1 sobre las variables continuas y las escalas de intervalo y razón) toma infinitos valores. Por ello, para describirla tenemos que acudir a un modelo probabi lístico que permite determinar, mediante el cálculo integral, la probabili dad de un intervalo de la variable y no de un valor concreto como ocurría en las discretas. El proceso del cálculo de integrales no se va a tratar en este libro ni es necesario conocerlo. Para estas distribuciones se han elaborado tablas que contienen los valores de las probabilidades corres pondientes. Por tanto, dedicaremos parte de este tema a la comprensión y uso de las tablas. Se comenzará el tema describiendo las principales características de una variable aleatoria continua, tales como su función de densidad, su función de distribución, su media y su varianza . A continuación, se estudiarán los modelos de distribución para variables aleatorias continuas más utilizados en el área de Psicología y Ciencias de la Salud. Conviene distinguir entre aquellas distribuciones de probabilidad a las que frecuentemente se ajustan las variables con las que trabajamos y, aquellas distribuciones que tienen una gran aplicación como instrumentos estadísticos. Entre las primeras se encuentra la distribución normal y, entre las segundas, la distribución x 2 de Pearson, la t de Student y la F de Fisher-Snedecor. Estas tres distribuciones se derivan de la distribución normal y tienen una gran importancia como instrumentos estadísticos en la estadística inferencia!, como se verá en los dos últimos temas de este texto y en el curso siguiente. En la presentación de los diferentes modelos de distribución se seguirá el mismo esquema: primero se verá su definición, posteriormente se pre sentará su media y su varianza y, finalmente, se tratará la forma práctica de trabajar con ellos utilizando las tablas estandarizadas existentes, que están incluidas en el Formulario. 335 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Se dedicará especial atención a la distribución normal porque, además de su relevancia como instrumento estadístico, responde al tipo de distribución que siguen la mayoría de las variables físicas y psicológicas (la estatura, el peso, la extraversión, el CI -Cociente Intelectual-, etc.). En este tema se resolverá también el problema que se indicó al final del tema anterior, que las Tablas I y II del Formulario no nos permitían resolver un problema binomial con más de 20 ensayos. Se abordará la solución recurriendo a la aproximación de la binomial a la normal. Objetivos del tema: ' ■ Conocer las principales características de una variable aleatoria continua. ■ Saber cuáles son las propiedades de la función de densidad de probabilidad y de la función de distribución de una variable aleatoria continua. ■ Saber calcular la media o esperanza matemática y la varianza de una variable aleatoria continua. ■ Conocer las características de la distribución normal y la aproximación de la binomial a dicha distribución. ■ Manejar con soltura las tablas de la distribución normal para resolver cuestiones relacionadas con este modelo de probabilidad. ■ Conocer las características de las distribuciones Student y F de Fisher-Snedecor. ■ Saber utilizar las tablas de las distribuciones x2 , t y F con el fin de obtener probabilidades asociadas a unos determinados intervalos de valores o bien a la inversa, obtener los intervalos de valores de estas variables asociados a unas determinadas probabilidades. x2 de Pearson, t de 8.2. CARACTERÍSTICAS DE LAS VARIABLES ALEATORIAS CONTINUAS En el tema anterior se definió una variable aleatoria continua como aquella variable aleatoria que puede adoptar infinitos valores o un conjunto de valores no numerables. Dado que estas variables pueden tomar 336 1 ¡ • MODELOS CONTINUOS DE PROBABILIDAD infinitos valores y que, dentro de cada intervalo de valores existen a su vez infinitos valores posibles, la probabilidad de que tome un valor determina do es nula. Es decir, en el caso de las variables aleatorias continuas, la probabilidad de obtener un determinado valor de X es igual a cero, por lo que, a diferencia de lo que ocurría con las variables discretas, las probabilidades se van a asignar a un determinado intervalo de la variable. Para ello, se acude al concepto de función de densidad de probabilidad en torn o a un valor, en lugar de función de probabilidad de un valor que se aplica ba en las variables aleatorias discretas. 8.2.1. Función de densidad función de distribución Se denomina función de densidad de probabilidad de una variable aleatoria continua, f(x), a aquella función que cumple las dos condiciones siguientes: a) f(x) b) J: ~ O f(x) dx =1 La primera condición indica que los valores de f(x) son siempre iguales a cero o positivos, nunca negativos. En la segunda condición aparece definida una integral, que en variables continuas es el análogo al sumatorio en variables discretas. Así, establece que el área total (que va desde -oo hasta + oo en la variable X) bajo la curva es igual a uno . De ahí que se aplique para la determinación de las probabilidades correspondientes a las variables continuas. Con la función de densidad de probabilidad de X podemos calcular la probabilidad de que X se encuentre en un determinado intervalo [a,b] mediante el cálculo integral con la siguiente expresión: P(a :s; X :s; b) = f: f(x) dx (8.1) donde: f(x) es la función de densidad de probabilidad de X y la integral está definida para el intervalo [a,b] 337 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 8.1. En l·a figura se presenta la función de densidad de probabilidad, f(x), para una variable aleatoria continua X. En el eje horizontal o abscisas tenemos la variable X, y en el eje vertical o eje de ordenada la función de densidad Y= f(x). 0,4 0,3 1 f(x) 0,2 0,1 b a X A) ¿Es f(x) una función de densidad? Sí porque se cumplen las dos condiciones necesarias: a) Todos los valores de f(x) son iguales o mayores que cero. No hay valores negativos en el eje vertical. b) El área bajo la curva es igual a la unidad: 0,3085+0,5328+0,1587 =1 B) ¿cuál es la probabilidad de que X se encuentre entre los valores a y b? Nos piden calcular la probabilidad del intervalo [a,b], es decir, P (a :e:; X :e:; b). Esta probabilidad se corresponde con el área bajo la curva que representa a la función f(x) entre a y b y eso equivale a determinar el valor de la integral entre a y b. Es decir: P(a :e:; X :e:; b) = s: f(x) dx En el caso de la estadística aplicada a la Psicología y Ciencias de la Salud no es necesario realizar este tipo de cálculos integrales. En su lugar disponemos de tablas para las principales distribuciones continuas de probabilidad, funciones implementadas en las calculadoras, y páginas web en internet que aportan estos valores de probabilidad. 338 MODELOS CONTINUOS DE PROBABILIDAD Queda claro que en las variables continuas, f(x) no se corresponde con un valor puntual de probabilidad como ocurría en las discretas. Se trata de una función de densidad que, aplicándole el cálculo de integrales, nos permite obtener la probabilidad para un intervalo de la variable X. Dicho de otro modo, f(x) no es una probabilidad, pero la integral de f(x) para un determinado intervalo [a, b] de X si nos proporciona un valor de probabilidad . Otra función que caracteriza a una variable aleatoria es la función de distribución, F(x). En el caso de variables continuas se define de la misma manera que para variables discretas, es decir, como la probabilidad acumulada hasta un cierto valor de la variable. Se denomina función de distribución acumulada o función de distribución de probabilidad de una variable aleatoria continua, F(x), a aquella función que asocia a cada valor de la variable X la probabilidad de obtener valores menores o iguales que un valor dado (lo que equivaldría a decir menor, ya que la probabilidad de ser igual al valor dado es O). Formalmente: (8.2) donde: f(x) es la función de densidad de probabilidad de X La representación gráfica de la función de distribución del Ejemplo 8.1 es la siguiente: 1,0 0,9 0,8 0,7 F(x) 0,6 0,5 0,4 0,3 0,2 0,1 0,0 X 339 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Para la función de distribución en el caso continuo se mantienen las mismas propiedades que en las variables aleatorias discretas, esto es: ■ F (x) 2 O es decir, todos los valores que toma la función de distribución son nulos o positivos F(x). ■ F(-oo) =Oy F(+oo) = 1 por lo que O s F(x) s 1 es decir, F(x), al ser una probabilidad, está acotada entre O y l. ■ '<:fasb, P(a s X s b) = F(b) - F(a) que indica que la probabilidad de que X se encuentre en el intervalo [a,b] es la diferencia entre la función de distribución para X= b, F(b) y la función de distribución para X= a, F(a). 8.2.2. Media y varianza de una variable aleatoria continua Como ocurría con las variables discretas, las variables aleatorias continuas también presentan una media o valor esperado y una varianza, que pueden obtenerse mediante procedimientos análogos a las variables discretas, pero adaptados para el caso continuo. Sea X una variable aleatoria continua, la media o valor esperado, µ o E(X), de X se define como: µ = E(X) = J: x-f (x)dx (8.3) La varianza de X se define como: (8.4) Las propiedades de la media y la varianza para variables continuas son las mismas que las descritas para el caso discreto en el tema anterior. Por otra parte, para el cálculo de la media y la varian za de las principales variables continuas que estudiaremos en este tema tampoco es nece- 340 MODELOS CONTINUOS DE PROBABILIDAD sario utilizar el cálculo integral, porque se han derivado fórmulas directas para la obtención de dichos parámetros como se verá en los siguientes apartados. La Tabla 8.1 presenta un resumen de las principales características de los dos tipos de variables aleatorias estudiadas: las discretas y las conti nuas. Tabla 8.1. Expresiones matemáticas correspondientes a las funcione s y parámetros de las variables aleatorias continuas y discretas. VARIABLES ALEATORIAS DISCRETAS VARIABLES ALEATORIAS CONTINUAS Probabilidad para X= x Probabilidad para el intervalo [a,b] f (x) = P(X = x) P(a $ X $ b) = J; r(x ) dx f (x) = función de probabilidad f(x) = función de densidad de probabilidad Función de Distribución F (xk) = P(X $ xk) = Función de Distribución F (x) = P (X ~ xk) = J..:: f (x) dx = f (x 1 )+ f( x2 )+ .. .. +f(xk ) Media o Valor Esperado Media o Valor Esperado µ = E(X) = I, x • f (x) µ = E (X) 2 = V (X)= I, (x - J: X .f (x) dx Varianza Varianza 0 = µ)2 f (x) 0 2 2 = V (X) = J: [x - µ] -f(x) dx A continuación se presentan los modelos de distribución de probabi lidad para variables aleatorias continuas más frecuentes en Psicología y Ci encias de la Salud. 8.3. LA DISTRIBUCIÓN NORMAL La distribución normal, ta mbi én llamada campana de Gauss o curva normal, fue definida por De Moivre en un intento de encontrar las pro - 341 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD babilidades acumuladas en una distribución binomial cuando n (número de ensayos) es grande. En este apartado se van a describir sus características fundamentales, la utilización de las tablas y, finalmente, se verá una aproximación intuitiva desde el histograma hasta la curva normal. 8.3.1. Caracteristicas propiedades La siguiente fórmula recoge la función de densidad de probabilidad para una variable X que tiene una distribución normal: f (x) = ~ e- l(X-µ) 2 -ª- 2 para - oo < x < oo (8.5) 0v2n donde: µ es el parámetro media o valor esperado de la distribución. cr es el parámetro desviación típica de la distribución. n = 3,1416 e= 2,718 (base de los logaritmos neperianos). Si una variable X tiene una función de densidad que se ajusta a la fórmula anterior, diremos que se distribuye normalmente y lo expresaremos por: X ~ N (µ, 0), indicando que tiene una distribución Normal (N) con parámetros µ y cr. En realidad, como señalaremos también para otras distribuciones, no se trata de una única distribución sino que corresponde a toda una familia caracterizada por sus parámetros media, µ, y desviación típica, cr. Como puede observarse en la Figura 8.1 su forma de «campana» es más apuntada cuanto menor es su desviación típica. 342 MODELOS CONTINUOS DE PROBABILIDAD Figura 8.1. Curva normal o campana de Gauss en función de sus parámetros. Su figura nos indica que la puntuación de la mayoría de los individuos, en una variable que sigue esta distribución, se encuentra en torno a la media y, a medida que nos alejamos de esa puntuación, por su lado izquierdo y derecho, va disminuyendo la frecuencia . Según una de sus propiedades fundamentales, si a una variable X que se distribuye normalmente, con media ~L y desviación típica cr, le aplicamos una transformación lineal de la forma Y = bX + a, la nueva variable Y ta mbién se distribuirá normalmente pero con media ~Ly = bµ x + a y desviación típica ay = 1 b I · cr x · Por otra parte, si restamos la media y dividimos por la desviación típica obtenemos una nueva variable que designamos por z. Es decir: (8.6) Esta nueva variable z se distribuirá normalmente con media igual a cero y desviación típica igual a 1, z ➔ N (O, 1). La demostración de µz = O = 1 excede el presente curso y para ampliar conocimientos se puede y consultar en Amón (1999). ªz La función de densidad de probabilidad de z vendrá dada por: 1 - -z2 ' f(z) = a.fh, e para - oo <z < oo (8.7) Su representación gráfica es la siguiente: 343 INTROOUCCIÓN AL ANÁLISIS OE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 0,50 0,45 0,40 0,35 f(z) 0,30 N (0,1) 0,25 0,20 0,15 0,10 0,05 o -4 -3 -2 o -1 1 2 3 4 z Figura 8.2. Distribución normal tipificada o estándar, N(0,l). Esta distribución se denomina normal tipificada o normal estandarizada. Nosotros no vamos a trabajar directamente con su función de densidad de probabilidad para obtener las probabilidades porque tendríamos que utilizar la fórmula 8.1, integrando la función para un intervalo determinado de X. En su lugar, para la aplicación a problemas concretos en que se siga esta distribución, recurriremos a las Tablas 111 y IV del Formulario. Si observamos la Figura 8.2, entre las propiedades fundamentales de una distribución normal podemos destacar las siguientes: ■ Es simétrica en torno a su media, µ, que coincide con su mediana y su moda. ■ La curva normal tiene dos puntos de inflexión, es decir, dos puntos donde la curva pasa de ser cóncava a convexa. Estos puntos están situados a una distancia de una desviación típica de la media. ■ Es asintótica en el eje de abscisas, es decir, se extiende desde - oo hasta + oo sin llegar nunca a tocar el eje X. Su función de distribución aparece recogida en la Figura 8.3. 344 MODELOS CONTINUOS DE PROBABILIDAD 1 0,9 0,8 0,7 0,6 F(z) 0,5 0,4 0,3 0,2 0,1 o -3,5 -3 -2,5 -2 -1,5 -1 -0,5 O 0,5 1 1,5 2 2,5 3 3,5 z Figura 8.3. Función de distribución N(0,1) . 8.3.2. Utilización de las tablas En las Tablas III y IV se recoge la función de distribución de la curva normal estándar. En ellas se presentan todas las puntuaciones típicas desde -3,59 hasta +3,59 con intervalos de 0,01. La primera columna, encabezada con la letra z, consta de un número con un decimal, que corresponde a la puntuación típica. Y la primera fila (a la derecha de la letra z) corresponde al segundo decimal de la puntuación z. Todos los valores interiores representan probabilidades y, por tanto, llevan un cero delante de la coma. La Tabla III corresponde a las puntuaciones típicas negativas (por debajo de la media) y la Tabla IV a las positivas (por encima de la media). Así por ejemplo, la puntuación típica z bajo de sí una probabilidad de 0,4013. z o,oo 0,01 0,02 ... , = -0,25 0,05 (Tabla III) deja por de- ... , 0,09 -3,S -3,4 1J -0,2--------------- ~ -0,0 Tabla III del Formulario 345 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD La puntuación típica z = 0,25 (Tabla IV) deja por debajo de sí una proporción de 0,5987. Al ser una distribución simétrica puede comprobarse que la proporción que queda por debajo de z = -0,25 es igual a la proporción que queda por encima de z = 0,25 (1- 0,5987 = 0,4013). Si la Tabla no recoge el valor exacto de z que se busca, se puede utilizar el valor más próximo. Algunos casos concretos son: 1. Cálculo de la probabilidad para valores menores o iguales que una determinada puntuación típica. En este caso se busca directamente en la Tabla. Ejemplo 8.2. Si una variable se distribuye normalmente, ¿cuál es la probabilidad de obtener valores menores o iguales que z = -0,25? Como el valor es negativo se encuentra a la izquierda de la media (ver zona gris de la gráfica) . En la Tabla III, buscamos en la primera columna el valor de -0,2 y en la primera fila el valor 0,05. - 0,25 O La probabilidad que deja por debajo de sí esa puntuación es precisa mente el valor que se encuentra en la intersección de esa fila y esa columna, en este caso 0,4013. 2. Cálculo de la probabilidad para valores mayores que una determinada puntuación. En este caso se mira en la tabla la probabilidad que esa puntuación deja por debajo y se resta de 1. 346 MODELOS CONTINUOS DE PROBABILIDAD Ejemplo 8.3. Si una variable se distribuye normalmente, ¿cuál es la probabilidad de obtener valores mayores que z = 0,50? Si se mira en la Tabla IV, la puntuación típica 0,50 deja por debajo de sí una probabilidad de 0,6915. 0,6915 O 0,5 Como lo que se pregunta es por la probabilidad que queda por enci ma, para calcularla restaremos esa probabilidad de 1 (probabilidad total incluida en la distribución normal): 1 - 0,6915 = 0,3085. 3. Cálculo de la probabilidad entre dos puntuaciones determinadas. En este caso se restan las probabilidades que dejan por debajo de sí las dos puntuaciones típicas. Ejemplo 8.4. Si una variable se distribuye normalmente, ¿cuál es la probabilidad de obtener valores comprendidos entre z = - 0,25 y z = 0,50? Esta probabilidad se puede determinar a partir de las puntuaciones típicas y las probabilidades ya obtenidas: bastará con restar a 0,6915 (probabilidad que deja por debajo de sí la puntuación típica 0,50) 0,4013 (probabilidad que deja por debajo de sí la puntuación típica -0,25). El resultado sería 0,2902. 347 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 1 - 0,25 0,5 ' .1 distribución normal Supongamos que tenemos los datos de una muestra en una variable X (Figura 8.4.A). Si se hacen los intervalos más pequeños (Figura 8.4.B) y dibujamos el polígono de frecuencias (Figura 8.4.C) llegamos a una distribución similar a la normal. A B e Figura 8.4. Representación gráfica desde el histograma a la curva normal. Su figura nos indica también que, en una variable que sigue esta distribución, la puntuación de la mayoría de los casos se encuentra en torno a la media y, a medida que nos alejamos de la media, por su lado izquierdo o derecho, va disminuyendo la frecuencia de casos. Este hecho va a permitir aplicar las propiedades de la curva normal a nuestros datos y utilizar las tablas de la misma forma que se ha visto anteriormente. Si se dispone de los datos originales de un grupo de sujetos en una determinada variable X, y ésta se distribuye normalmente, para resolver determinados cálculos se puede utilizar, como ya se ha señalado, las Tablas III y IV de la distribución normal estándar. Para ello, deberemos 348 MODELOS CONTINUOS DE PROBABILIDAD transformar las puntuaciones directas en puntuaciones típicas mediante la siguiente expresión ya utilizada: _ X; - X z . -~-- / s X Para aplicar las tablas de la curva normal a casos concretos que siguen una distribución normal vamos a considerar tres ejemplos prácticos: Ejemplo 8.5. Las puntuaciones en una determinada asignatura, X, de un grupo de 500 niños se distribuyen normalmente con media 6 y desviación típica 2. lCuántos niños no han alcanzado la puntuación 5? Se transforma la puntuación directa 5 en puntuación típica: 5- 6 -1 z = - - = - = -0, 5 2 2 - 0,5 O En la Tabla III se observa que esta puntuación deja por debajo de sí una proporción de 0,3085. Por tanto: O, 3085 x 500 = 154, 25 =154 niños 349 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 8.6. Con los mismos datos del ejemplo anterior (Ejemplo 8.5), ¿cuál será el Percentil 75, P75 , de la distribución? Tal como se definió en el Tema 2, el P75 es una puntuación directa que deja por debajo de sí el 75% de los casos. A este percentil le corresponde una puntuación típica que deja por debajo de sí una proporción de casos de O, 75. 0,75 75% O 0,67 El paso siguiente es buscar en el interior de la tabla la proporción 0,75 o, en su defecto, la más próxima (en este caso 0,7486). Seguidamente se ve a qué puntuación típica corresponde: 0,67 (lógicamente se trata de una puntuación típica positiva porque el percentil 75 deja por debajo de sí más del 50%, que se corresponde con la media). A partir de esta puntuación típica calculamos el P75 de la siguiente manera: P75 - X P75 - 6 Z=--- ⇒ 0,67 =--- ⇒ P75 = sx 2 ( 0,67 x 2 ) +6=7,34 Ejemplo 8.7. El peso de un grupo de 1000 niños se distribuye normalmente con un Coeficiente de variación de 10 (CVx = 10). Si el 84,13% de ellos no supera los 33 kg, ¿cuánto vale la media y la desviación típica de la distribución? 350 MODELOS CONTINUOS DE PROBABILIDAD 0,8413 33 Se establece el sistema de ecuaciones y se resuelve: 5 .!' -100 X 84,13% = 10 ➔ z =1 ⇒ 1 10x¡ {x = 30 _ ⇒ (33 - X) x 100=10X ⇒ sx x 100 = Sx = 33 - X Sx = 3 33 - X 1 =--- sx 8.3.4. Aproximación de la binomial a la normal Al finalizar el tema anterior se había planteado la pregunta de qué hacer cuando para la distribución binomial tenemos un n superior a 20 (las tablas de la binomial no recogen valores superiores a éste). La opción a realizar para valores grandes de n consiste en aproximar la distribución binomial a la normal. Esta aproximación mejora a medida que p (la probabilidad de éxito) se aproxima a 0,5 y n (número de ensayos) es grande, como podemos observar en la siguiente figura: 351 INTROOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 0,50 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 o j___ _ _ _____,,.,__________ 0,05 O 1 2 3 4 5 6 7 8 9 0,50 0,45 0,40 0,35 p = 0,5 0,30 0 , 25 n = 10 0,20 0,15 0,10 0,05 o.,_.-"'-_______ ___:::,__ 10 1234567891011 X X 0,50 0,45 0,40 p = 0,1 0,35 n = 20 0,30 0,25 0,20 0,15 0,10oj___ _ _.c,o,.,_ _ _ _ _ _ _ ___ 0,05 0123456789WllUDM~lliVIB~~ 0,50 0,45 0 ,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 p = 0,5 n=20 o,._---'""""'- -----~--123456789WllUDM~lliVIB~~~ X X Figura 8.5. Distribución binomial para distintos valores de p (0,1 y 0,5) y n (10 y 20). Se sabe que una variable, X, que sigue una distribución binomial tiene una media µ = np y una desviación típica cr = -Jnpq. Por tanto, se puede transformar su función de probabilidad (que es discreta) a la normal de la forma que se describe a continuación. La distribución normal es continua y, como para cualquier distribución continua, la probabilidad de que la variable X tome un valor concreto es cero: P (X= x) = O. Para aproximar la distribución binomial a la normal se establecerá un intervalo entre 0,5 unidades a la izquierda y a la derecha de la puntuación, es decir: P(X = x) = P[(x - 0,5) ::; x ::; (x + o,s)] A continuación, transformamos las puntuaciones en típicas: P (x = x) = P [ -(x_-_o_,s_)_-_µ ::; _x_-_µ ::; _(x_+_o_, s_)_-_µ] O' Debido a que µ = np y cr la normal se define como: 352 O' O' = -Jnpq, la aproximación de la binomial a MODELOS CONTINUOS DE PROBABILIDAD P (X = x) = P [-(x_-_o_,_ 5)_-_n_p ::::; .jnpq z :::; _(x_+_o=,=5)=--_n_p .jnpq l (8.8) Ejemplo 8.8. Se lanza una moneda al aire en 20 ocasiones, ¿cuál es la probabilidad de obtener 12 caras? Para contestar a esta pregunta se va a la Tabla I de la función de probabilidad binomial y se busca la probabilidad de que la variable aleatoria X «número de caras» tome el valor 12 (x = 12) con n = 20 y p = 0,5. Se obtiene el valor 0,1201 Ahora se resuelve el ejercicio haciendo una aproximación de la binomial a la normal. = np = 20 x O, 5 = 10 = .j20 x O, 5 x O, 5 = .Js = 2, 24 La media de esta distribución binomial es: µ y la desviación típica es: cr = .jnpq Para aproximar la distribución binomial a la normal se establece un intervalo entre 0,5 unidades a la izquierda y a la derecha de la puntuación, es decir: P[(12 - 0,5) ::::; X :::; (12 + 0,5)] A continuación se transforman las puntuaciones en típicas: P [-(1_2_-_o_,5_)_-_ µ : : ; _x _-_µ : : ; _(1_2_+_0_,5_)_-_µ] O" O" O" Resultando : (12 - O, 5) - µ (12 + O, 5) - µ] cr cr P -----:::; z :::;----[ Sustituyendo los valoresµ = 10 y cr = 2,24 se obtiene: (12 - 0,5) -1 0 (1 2 + 0,5)- 10] ( ) P - - - - - : : : ; z :::; - - - - - = P 0,67 : : ; z :::; 1,12 [ 2,24 2,24 353 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Utilizando las Tablas de la distribución Normal: P (O, 67 ::; z ::; 1, 12) = O, 8686 - O, 7486 = O, 12 Como se puede observar, la aproximación es muy buena, ya que hay una diferencia de solo una diezmilésima paran= 20. A medida que n aumenta mejora la aproximación. En el caso anterior, sumar y restar el valor 0,5 se llama corrección por continuidad, permitiendo así utilizar las puntuaciones discretas, X, como si fuesen continuas. Para ello, se interpreta cada puntuación, X, como si fuesen los puntos medios de sus intervalos. Con este procedimiento se intenta asegurar que el intervalo incluya los valores discretos de la binomial. Gráfica mente: 0,20 0,18 0,16 0,14 0,12 ><' '--' 4... 0,10 0,08 0,06 0,04 0,02 0,00 O 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X 11,5 12,5 Ejemplo 8.9. Un estudiante recién graduado en Psicología se presenta al examen PIR. En este examen cada pregunta consta de cinco alternativas de la que sólo una es correcta . De todas las preguntas que componen el examen, el estudiante desconoce completamente 40 de ellas y las responde al azar. 354 MODELOS CONTINUOS DE PROBABILIDAD A) ¿cuál es la probabilidad de que acierte entre 10 y 12 de esas preguntas? Para esta distribución binomial: p 1 = S = 0, 2 µ = np = 40 X 0, 20 = 8 a= ✓npq = ✓40 x 0,20 x 0,80 = 2,53 Por tanto: P(9,5 ~ X ~ 12,5) = p[(9,5 - 8) ~ 2,53 = P (O, 59 ~ z ~ (12,5-8)] = 2,53 z :s; 1, 78) = O, 9625 - O, 7224 = O, 2401 B) ¿cuál es la probabilidad de que acierte más de 10? La probabilidad de que acierte más de 10 es igual a la probabilidad de que acierte 11, 12, ... , 40. Por tanto: P (X > 10, 5) = 1 - P(z =P (z 5 8 > lO, - ) 2,53 ~ 0,99) 8.4. LA DISTRIBUCIÓN 2 =1- = P (z 0,8389 > O, 99) = = 0,1611 DE PEARSON Ya se ha visto en el Tema 4 el estadístico ji-cuadrado (x 2 ), que se utilizaba para referirse a la correlación entre variables cualitativas. A partir de ahora, x2 se va utilizar para hacer referencia a una distribución continua de probabilidad. Se puede definir de la siguiente manera: Sean X 1 , X 2 , .. ...... , Xn un conjunto de n variables aleatorias independientes con una distribución N(0,1), entonces una nueva variable aleatoria X = + + X~ sigue una distribución (se lee «Jicuadrado » con n grados de libertad) y se representa como X ~ X~· xf x?+ ... Los parámetros correspondientes a la distribución x~ x2 son: 355 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD ■ ■ Media o valor esperado µ Varianza cr 2 =n = 2n Los grados de libertad (n) indican que cada una de las n variables aleatorias puede tomar cualquier valor de sus posibles valores, sean cuales sean los valores tomados por las n-1 restantes. Su análisis más detallado escapa a los objetivos de este texto. Esta distribución se usa fundamentalmente en pruebas de bondad de ajuste (para contrastar si la distribución de una variable se ajusta a una distribución determinada, por ejemplo la normal). Al igual que otras distribuciones, es una familia de curvas como las presentadas en la siguiente Figura 8.6, que varían en función de los grados de libertad. 0,1 o 11,07 Figura 8.6. Representación gráfica de la distribución x2 en función de sus grados de libertad (5 y 15). Entre sus propiedades se pueden señalar las siguientes: ■ Nunca adopta valores menores de O. ■ Es asimétrica positiva pero a medida que aumentan sus grados de libertad se va aproximando a la distribución normal. ■ Para n > 30 la podemos aproximar a una distribución N (n, .fin). La Tabla V del Formulario permite obtener las probabilidades acumuladas a algunos valores de toda la familia de distribuciones, entre los que se encuentran los más usados habitualmente. 356 MODELOS CONTINUOS DE PROBABILIDAD La primera fila recoge las probabilidades o proporciones y la primera columna los grados de libertad correspondientes. En el interior de la tabla se encuentran los valores de la variable. Así, por ejemplo, para una variable que sigue una distribución x2 con 5 grados de libertad, X ➔ X~, el valor 11,07 deja por debajo de sí una proporción de 0,95. Por tanto, P (X s 11, 07) = O, 95. Esta puntuación se corresponde con el percentil 95. Suele presentarse de la siguiente manera: 0 , 9 sX~ = 11, 07 . En la siguiente gráfica se observa su situación en la Tabla: g.l. 1 0,001 0,005 0,02 0,950 0,999 2 3 4 5 - .. ...........................................................................................-~ ~ 100 Tabla V del Formulario Ahora bien, si lo que interesa es hallar P (X 2 11, 07) se haría lo siguiente: P(X 2 11,07) = 1 - P(X s 11,07) = 1 - 0,95 = 0,05 8.5. LA DISTRIBUCIÓN t DE STUDENT A la hora de definir este tipo de distribución de probabilidad, al igual que se hizo anteriormente con x2 , se hará en función de otras distribuciones ya conocidas. Sean X e Y dos variables aleatorias independientes, donde X sigue una distribución N(0,1) e Y una distribución Entonces, la variable aleatoria T = x~- F7n sigue una distribución t con n grados de libertad Y/n y se expresa por: T ➔ tn Sus parámetros son : ■ Media o valor esperado µ=O ■ Varianza cr 2 = _n__ n- 2 357 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Una distribución t se puede definir como el cociente entre una variable N(0,1) y la raíz cuadrada de una variable X~ dividida por sus grados de libertad. Su nombre se debe a su descubridor, el matemático Gosset, que publicó sus trabajos bajo el seudónimo de Student. En la Figura 8. 7 se representa la distribución t con dos grados de libertad, junto a la distribución normal estándar. 0,4 0,3 0,2 0,1 -2 o 2 Figura 8.7. Representación gráfica de la distribución tcon 2 grados de libertad. A partir de su definición y de su representación gráfica podemos señalar las siguientes características: ■ Es simétrica, conµ= O. Su forma es muy parecida a la N(0,1), aun que menos apuntada. ■ Puede tomar cualquier valor entre - oo y + oo. ■ A medida que aumentan los grados de libertad, la distribución se aproxima más y más a una distribución normal. ■ La curva es asintótica al eje de abscisas. Fundamentalmente esta distribución se utiliza en estadística inferencia!. En la Tabla VI del Formulario se presentan los valores positivos para esta distribución. En la primera columna se presentan los grados de li bertad y en la primera fila las distintas probabilidades o proporciones de valores menores o iguales que un valor positivo dado. Como se trata de una distribución simétrica podemos hallar las probabilidades asociadas a valores negativos a partir de los valores positivos de la Tabla VI. Veámoslo con un ejemplo. 358 MODELOS CONTINUOS DE PROBABILIDAD Ejemplo 8.10. Sea X una variable que se distribuye según t con 5 grados de libertad. A) Calcular la probabilidad de obtener valores menores o iguales a 2,015. Esa probabilidad se corresponde con la zona sombreada de la figura. Para ello, consultamos la Tabla VI. En la primera columna (grados de libertad) localizamos el valor 5. Los valores incluidos en su fila correspondiente son valores de t. Localizamos 2,015 y se ve que en la primera fila se corresponde con 0,95. Por tanto: P(X $; 2,015) = 0,95 2,015 B) Calcular P (X > O, 920). En la Tabla VI vemos que para t 5 : P(X $; 0,920) = 0,80 Por tanto, P (X > O, 920) = 1 - O, 80 = O, 20 0,920 359 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD C) Calcular P(X ~ - 2,571). Como se ve en las gráficas, los valores negativos se encuentran a la izquierda de la media (que vale cero) y los positivos, a la derecha . Al ser simétrica: P(X ~ -2,571) = P(X > 2,571) y P(X > 2,571) =1- P(X ~ 2,571) = 1-0,975 = 0,025 Por tanto: P(X ~ - 2,571) = 0,025 -2,571 2,571 8.6. LA DISTRIBUCIÓN F DE FISHER-SNEDECOR La distribución F de Fisher-Snedecor se define de la siguiente ma nera : Si X 1 y X 2 son variables aleatorias independientes, con distribución x 2 con n 1 y n 2 grados de libertad respectivamente, entonces una nueva variable F definida por F = Xi / n1 sigue una distribución F con n 1 y X2 / n2 n 2 grados de libertad (Fn,,n, ). Siendo n 1 los grados de libertad del numerador y n 2 los grados de libertad del denomin ado r. 360 1 MODELOS CONTINUOS DE PROBABILIDAD ■ Su media o valor esperado viene definido por: µ n2> 2 . ■ Su varianza por: cr 2 = 2n22 (n 1 + n2 - 2) n1 ( n2 - 4) (n2 - 2)2 n2 = n2 para 2- para n2 > 4 La distribución F de Fisher o de Snedecor se emplea fundamentalmente en el contraste de hipótesis (Análisis de Varianza ... ). En la Figura 8.8 aparece su representación según distintos grados de libertad. F10,10 2,978 F10,120 1,910 F 120,120 2,124 1,352 Figura 8.8. Distribuciones F con distintos grados de libertad. Sus características más importantes son: ■ Es asimétrica positiva, por lo que nunca toma valores menores que o. ■ Una importante propiedad de esta distribución es la llamada propiedad recíproca, por la que si X es una variable con distribución F con n 1 y n 2 grados de libertad, entonces la variable Y = 1/X es también una distribución F con n 2 y n 1 grados de libertad. Esta propiedad la podemos también expresar de la siguiente forma: 361 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD p F n,,n, = 1 1- p (8.9) F n, ,n, donde p y 1 - p son las probabilidades acumuladas asociadas al valor de la variable. Esta propiedad es útil para obtener algunos percentiles o probabilidades que no aparecen en la tabla, tal y como se verá en ejemplos posteriores. La Tabla VII recoge solamente la probabilidad de que X sea menor o igual que 0,900; 0,950; 0,975; 0,990 y 0,995, que son los valores utilizados habitualmente. Ejemplo 8.11. Sea X una variable que se distribuye según F5, 10 : A) Calcular P (X :;;; 3,326). Se busca en la Tabla VII, para 5 grados de libertad en el numerador y 10 para el denominador, encontrando el valor 3,326. Se observa en la parte superior de la tabla que se corresponde con una probabilidad de 0,95. Por tanto, 3,326 se corresponde con el percentil 95. 0,50 0,25 o 8 3,326 B) Determinar el valor del percentil 5 de X, es decir: 0, 05 F5,10 En este caso, tenemos que hacer uso de la propiedad recíproca . Es decir: 1 o,osFs,10 = (1- o,os/10,s 362 1 = F o,95 10,s MODELOS CONTINUOS DE PROBABILIDAD A partir de la Tabla VII vemos que: o,95F10,5 es igual a 4,735. Por tanto: o 05F5 10 ' ' 1 1 = O, 211 4,735 = - -- - = - 0, 95 F:10,5 . !' Puede verse gráficamente en la siguiente figura: 1 4, 735 0,50 = o, 211 0,25 o-4--------=::::~""""'------r 0,211 8 o 4,74 12 8.7. RESUMEN En este tema se han presentado las principales características de las variables aleatorias continuas: la función de densidad de probabilidad, la función de distribución, la media o valor esperado y la varianza de la distribución. Para ello, hemos utilizado como referencia la aplicación de estos conceptos en el caso discreto, estudiado en el tema anterior, destacando las similitudes y diferencias entre ambos tipos de variables. A continuación se han descrito los modelos continuos de probabili dad más relevantes para el análisis de datos en Psicología y Ciencias de la Salud: la distribución normal y tres distribuciones asociadas a ella como son la x 2 de Pearson, la t de Student y la distribución F de FisherSnedecor. La distribución x2 se ha definido en función de otras variables con distribución normal. La distribución t se ha definido en función de otras dos distribuciones: una normal y otra x 2 y, por último, la distribución F se ha definido en función de dos x2 , que a su vez se definen en función de la normal. Por tanto, no debe sorprender que todas ellas converjan en algún momento en la distribución normal. Se ha prescindido de incluir y utilizar la ecuación de sus respectivas funciones de densidad de probabilidad y distribución, por su complejidad 363 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD y porque podemos servirnos de unas tablas donde se recogen estas probabilidades. Además de la conveniencia de saber utilizar estas tablas, por su relevancia en los temas de inferencia, es necesario conocer sus características más importantes: el rango de valores en el que la función está definida, su media, varianza y aproximación a la normal, en su caso, bajo determinadas circunstancias. 8.8. EJERCICIOS 8.1. En una distribución normal: A) La media es mayor que la mediana; B) La media es menor que la mediana; C) media y mediana coinciden. 8.2. En una distribución normal ¿entre qué puntuaciones típicas se encuentra el 60 % de los casos centrales de la distribución? A) -0,84 y 0,84; B) - 1,96 y 1,96; C) -1,64 y 1,64. 8.3. Las puntuaciones de 1000 niños en un test de inteligencia, X, se distribuyen normalmente con media 100 y desviación típica 15. ¿cuál es la probabilidad de obtener puntuaciones menores o igua les que 85? A) 0,8413; B) 0,1587; C) 0,6826. 8.4. Con los datos del Ejercicio anterior, ¿cuántos niños obtienen puntuaciones superiores a 115? A) 115; B) 200; C) 159. S.S. Continuando con los datos del Ejercicio 8.3 Cuál es el Percentil 75 de la distribución?: A) 110,05; B) 75,00; C) 89,95. 8.6. Con la información dada en la Figura 1, ¿cuál es la media de X?: A) 7; B) 5; C) 6. 8.7. Con los datos de la Figura 1, lcuál es la desviación típica de X?: A) 3; B) 2; C) 4. 8.8. Con los datos la Figura 1, lcuál será el Percentil 33? A) 5,24; B) 8,76; C) 5,67. 8.9. Siguiendo con los datos de la Figura 1, y considerando suspendidos aquellos alumnos que no alcanzan la pun- 364 Figura l. Las calificaciones obtenidas en el examen de una asignatura (X) por 500 alumnos se distribuyen normalmente. De todos los alumnos 125 no alcanzan la puntuación 4,32 y otros 125 superan la puntuación 9,68. MODELOS CONTINUOS DE PROBABILIDAD tuación 5, ¿cuántos alumnos han suspendido? A) 250; B) 200; C) 154. 8.10. Sabiendo que X se distribuye normalmente, que X = 60 y que la puntuación directa 40,8 es superada por el 89,97 % de la distribución, la desviación típica vale: A) 15; B) 1,28; C) 17,87. 8.11. Una variable X se distribuye normalmente, con desviación típica 5. Sabiendo que la puntuación 45 deja por encima de sí el 84,13 % de los casos, su media valdrá: A) 40; B) 50; C) 60. 8.12. Las puntuaciones de 10000 niños españoles en una prueba de inteligencia (X) se distribuyen normalmente con media 100. Sabemos que 668 niños no alcanzan la puntuación 85 y otros 668 niños obtienen puntuaciones superiores a 115. Su varianza vale: A) 10; B) 200; C) 100. 8.13. El 20% de los niños en edad escolar presenta problemas de adaptación al colegio. Si en un determinado centro hay 225 niños, ¿cuál es la probabilidad de que 30 o menos presenten algún problema de adaptación? A) 0,0080; B) 0,3026; C) 0,0263. 8.14. Con los datos del ejercicio anterior, ¿cuál es la probabilidad de que más de 55 niños presenten algún problema de adaptación?: A) 0,1040; B) 0,0401; C) 0,4010 . 8.15. Con los mismos datos del Ejercicio 8.13, ¿cuál es la probabilidad de que entre 40 y 50 niños presenten problemas de adaptación? A) 0,4642; B) 0,2446; C) 0,6424. 8.16. En una distribución x2 con 28 grados de libertad, el valor 41,34 es: A) el percentil 5; B) el percentil 90; C) el percentil 95. 8.17. En una distribución F con 10 grados de libertad en el numerador y 20 grados de libertad en el denominador, ¿cuál es el valor del percentil 90?: A) 2,20; B) 2,35; C) 1,94. 8.18. En una distribución F con 10 grados de libertad en el numerador y 20 en el denominador, ¿cuál es el valor del percentil 10? A) 1,940; B) 2,200; C) 0,454. 8.19. ¿cuál de las siguientes distribuciones NO es simétrica? A) Normal con media 5 y desviación típica 2; B) x2 con 10 grados de libertad; C) t de Student con 10 grados de libertad. 8.20. El valor 0,86 se corresponde con: A) el percentil 80 de una distri bución t de Student con 20 grados de libertad; B) el percentil 5 de 365 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD una distribución x2 con 19 grados de libertad; C) el percentil 20 de una distribución t de Student con 20 grados de libertad. 8.9. SOLUCIONES A LOS E ERCICIOS 8.1. Solución: e (ver Apartado 8.2.1) 8.2. Solución: A (ver Tabla de la Curva Normal) 60% , - 0,84 8.3. 0,84 Solución: B Z = X - X = 85 - 100 =- l Sx 15 Tabla III: 0,1587 8 5 X = 100 8.4. Solución: e Z = X - X = 115 - l00 = l Sx 15 -~ Tabla IV: 0,8413 1 - o, 8413 = o, 1587 0, 1587 X 1000 = 158, 7 366 =159 X = 100 115 MODELOS CONTINUOS DE PROBABILIDAD S.S. Solución: A P75 ⇒ z = O, 67 (Tabla IV) O 67 = p75 - lOO ⇒ O 67 x 15 = ' 15 ' = P75 100 - ⇒ X = 100 P75 = = (O, 67 x 15) + 100 = 110, 05 8.6. Solución: A X = 4,32 + 9,68 = 14 = 7 2 8.7. Solución : 2 e - O 67 = 4,32 - X ' s 067 ' 8.8. ⇒ s - 0, 67Sx = 4, 32 - x¡ _ ⇒ X =7 0,67Sx = 9,68 - X = 9,68 - X X Solución : A - 0, 44 = 8.9. X P33 - 7 4 ⇒ P33 = 7 - 1, 76 = 5, 24 Solución: C 5- 7 - - = - O, 5 4 ⇒ (Tablas) O, 3085 0, 3085 X 500 = 154, 25 =154 8.10. Solución: A 1 - 0,8997 = 0,1003 ⇒ z = - 1,28 - 1 28 = 40, 8 - 60 ⇒ S = 40, 8 - 60 = 15 1 5X X - 1r 28 8.11. Solución: B 1- o, 8413 = o, 1587 ⇒ z -1= 45 - X 5 =-1 ⇒ X = 5 + 45 = 50 367 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 8.12. Solución: e Puesto que las puntuaciones son simétricas, su media vale: X=85+115=1 0 0 2 Su desviación típica es: -1 1 5 = 85 - 100 ⇒ S = - 15 = 10 5X X -1 1 5 Por tanto, su varianza es 10 2 = 100 . 8.13. Solución: A n = 225 P (X p = O, 2 30 ) = P $ (z = P (z $ $ q = 1 - p = O, 8 30, 5 - np) = P ✓npq (z 30 ' 5 - 45) = P(z 6 $ $ l x 30, 5 - (225 O, 2) = ✓225 X 0, 2 X 0, 8 - 2,41) = 0,0080. (Utilizando la Tabla 111 de la curva normal). 8.14. Solución: B l 55, 5 _ npq) ( 55, 5 - (225 x O, 2) P (X > 55 ) = P z > - ~ ~ - = P z > - ; = = = = = = - = ( ✓npq ✓225 X 0, 2 X 0, 8 = P ( z > 55 ' 5 - 45) = P (z > 1, 75) = 1 - P(z 6 $ 1, 75) = = 1 - o, 9599 = o, 0401 (Utilizando la Tabla IV de la curva normal). 8.15. Solución: P (40 $ X e $ 50 ) = P (39, 5 - np ✓npq $ z $ 50, 5 - npq) = ✓npq = p (39, 5 - (225 x o, 2) ✓225 X 0, 2 X 0, 8 = P(39,5 - 45 6 = P(-0,92 368 $ z $ Z $ $ $ z $ l 50, 5 - (225 x o, 2) = ✓225 X 0, 2 X 0, 8 50,5 - 45) = 6 0,92) = 0,8212 - 0,1788 = 0,6424. MODELOS CONTINUOS OE PROBABILIDAD (Utilizando las Tablas III y IV de la curva normal). 8.16. Solución: e (Ver Tabla V) 8.17. Solución: e (Ver Tabla VII) 8.18. Solución: e o 10F10 20 = _ _ l __ = , , o,90F20,10 _ l_ 2,201 =O 454 , 8.19. Solución: B Las distribuciones N(S,2) y t 10 son simétricas. 8.20. Solución: A (Ver tablas correspondientes). 369 TEMA9 Muestreo y distribución muestral de un estadístico 9.1. INTRODUCCIÓN 9.2. MUESTREO 9.2.1. Conceptos básicos en el muestreo 9.2.2. Tipos de muestreo 9.2.2.1. Métodos de muestreo probabilístico 9.2.2.1. Métodos de muestreo no probabilístico 9.3. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO 9.4. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO MEDIA 9.4.1. Distribución normal de la variable X con varianza conocida 9.4.2. Distribución normal de la variable X con varianza desconocida 9.4.3. La variable X no se distribuye normalmente 9.5. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO PROPORCIÓN 9.5.1. Distribución muestra! de P para muestras pequeñas 9.5.2. Distribución muestra! de P para muestras suficientemente grandes 9.6. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO VARIANZA 9.7. RESUMEN 9.8. EJERCICIOS 9.9. SOLUCIONES A LOS EJERCICIOS MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO 9.1. INTRODUCCIÓN En temas anteriores se ha presentado la materia correspondiente a la Estadística Descriptiva, que es la parte de la Estadística que se ocupa de la recogida, descripción y representación de los datos, tanto en forma numérica (a través de los índices estadísticos) como gráfica (a través de las representaciones gráficas). Se han visto también cuestiones básicas referentes a la Probabilidad y sus aplicaciones, que nos han permitido conocer: a) las distribuciones de probabilidad que presentan las variables aleatorias (discretas y continuas) atendiendo a los valores numéricos que asumen, y b) la descripción de estas distribuciones a través de los índices numéricos que las representan y que se corresponden con sus valores esperados o medias y sus varianzas. Se han presentado también los modelos teóricos de probabilidad (su formulación matemática y características definitorias) a los que se ajustan la mayoría de las variables con las que se trabaja en Psicología y Ciencias de la Salud. Estos modelos permiten resolver los problemas sin tener que hacer cálculos tediosos o de gran dificultad acudiendo, simplemente, a las tablas que informan de las probabilidades de un suceso según el modelo teórico correspondiente a la distribución de probabilidad de tal suceso. En este tema y en el siguiente se presentarán las bases sobre las que, junto con lo visto en temas anteriores de estadística descriptiva y probabilidad, se asienta la Inferencia Estadística. Hay que tener en cuenta que la información que obtenemos de las muestras permite estudiar el comportamiento de las variables aleatorias (discretas o continuas) y de los índices estadísticos que las representan (que son también variables aleatorias como veremos). Sobre esta base, apoyándonos en la teoría de muestreo, podremos estimar los valores de los parámetros a partir de los valores de los correspondientes índices estadísticos. Este proceso se enmarca en la llamada Inferencia Estadística, disciplina que abarca las técnicas y métodos que permiten deducir las propiedades desconocidas de la población a partir de los datos obtenidos en la muestra. A continuación se presenta un esquema que resume la relación jerárquica entre las tres materias que forman parte del análisis de datos que se estudian en este curso: la Estadística Descriptiva (Temas del 1 al 5), la Probabilidad y modelos de probabilidad (Temas del 6 al 8) y la Estadística Inferencia! (Temas 9 y 10). 373 INTROOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD ESTADÍSTICA DESCRIPTIVA: Recogida, organización y análisis de los datos. PROBABILIDAD: Permite y legitima el salto de las características (conocidas) de la muestra hasta las características desconocidas de la población. ESTADÍSTICA INFERENCIAL: Permite obtener información acerca de la población a partir de la aportada por la muestra mediante la combinación de los modelos de probabilidad y de los estadísticos. Los campos que comprende la Estadística Inferencia! son: estimación de parámetros y contraste de hipótesis. La piedra angular de ambos es el concepto de distribución muestra! de un estadístico, que establece la relación entre las características de la población y el comportamiento de los estadísticos de las muestras que las representan (Botella, Suero y Ximénez, 2012). Objetivos del tema: ■ Saber relacionar los conceptos de población, muestra, análisis descriptivo y análisis inferencia!. ■ Distinguir entre los conceptos de muestra aleatoria y muestra representativa, así como conocer los principales tipos de muestreo. ■ Conocer el concepto de distribución muestra! de un estadístico y su utilidad. ■ Conocer las distribuciones muestrales de los estadísticos media, proporción y varianza. 9.2. MUESTREO Al plantearse la recogida de datos para estudiar algún fenómeno, suele ocurrir que, por razones de coste económico, tiempo o incluso por impo- 374 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO sibilidad real, se hace muy difícil estudiar a todo el grupo sobre el que se quiere trabajar. Por lo general, en la mayoría de los casos, es imposible trabajar con el conjunto total población. Por tanto, tendremos que buscar una muestra (subconjunto) de la población para trabajar con ella. Lo ideal es elegir las muestras de tal forma y modo que representen y sean fiel reflejo de las características relevantes a la investigación en la población de trabajo. En el planteamiento anterior está implícito que es posible trabajar con «unos pocos» datos extraídos de un conjunto más amplio, de tal forma que las conclusiones que obtengamos de «esos pocos» datos sean válidas para el conjunto total del que provienen. Pero, ¿cuáles son los procedimientos de selección que garantizan que las muestras elegidas permitan generalizar los resultados pasando de la muestra a la población? Además, ¿es posible cuantificar el riesgo de equivocación o, más correctamente el riesgo de error al realizar afirmaciones sobre las poblaciones a partir de las muestras? A esta cuestión se dedicarán las páginas siguientes, para lo cual se definirán previamente una serie de conceptos claves. 9.2.1. Conceptos básicos en el muestreo POBLACIÓN Una población es una colección, finita o infinita, de elementos que comparten ciertas características comunes. Así, todos los seres humanos componen la población de hombres y mujeres; todas las personas que de forma habitual se expresan en francés componen la población de francófonos; todos los niños españoles de entre 2 y 6 años que se orinan en la cama al menos tres veces a la semana y que lo vienen haciendo desde hace más de seis meses, forman la población de niños españoles con enuresis; los rectores de las universidades españolas componen la población de españoles que presiden los claustros universitarios. Lo anterior indica que una población queda definida por una o varias características que tienen en común los elementos que la componen. El concepto de población es independiente de la cantidad de elementos que la compongan. Una población puede estar compuesta por un solo elemento, por ejemplo, la población de satélites de la Tierra está compuesta por un único elemento, la Luna. También puede ocurrir que un elemento pueda pertenecer a más de una población si cumple los criterios necesa- 375 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD rios que definen cada una de ellas, de tal forma que podrá considerarse elemento de una población A en un caso y/o elemento de una población B en otro. Por ejemplo, los niños con nacionalidad española que se expresan habitualmente en francés y cumplen los criterios para el diagnóstico de enuresis, son también vertebrados; es decir, estos niños, que cumplen las tres características, pertenecen a la población de vertebrados y también a la población de niños que sufren enuresis, así como a la población de niños francófonos. Un elemento pertenece a una población solo durante el tiempo que se cumplen las propiedades que la definen. Siguiendo con el ejemplo, un niño no puede dejar de pertenecer a la población de seres humanos, pero sí a la de niños con enuresis cuando, tras recib ir el adecuado tratamiento, aprende a controlar su esfínter. Atendiendo al número de elementos, las poblaciones pueden ser: a) finitas o formadas por un número finito de elementos; b) infinitas o formadas por un número infinito de elementos. En general, las poblaciones son muy grandes y esto hace que sea prácticamente inviable trabajar con ellas . Por esta razón, lo habitual es trabajar con muestras. Los índices que representan los valores que resumen las característi cas de las poblaciones, como ya se ha visto en el Tema 1, se denominan parámetros. Son constantes, ya que se calculan con todos los elementos de la población. CENSO En determinadas ocasiones resulta posible estudiar a todos y cada uno de los elementos que componen la población, realizándose lo que se denomina un censo, esto es, el estudio de todos los elementos que componen la población . Un ejemplo clásico es el censo poblacional. MUESTRA En todas las ocasiones en que no es posible o conveniente trabajar con la población, lo que se hace es trabajar con una muestra, entendiendo por tal una parte de la población. Se dice que una muestra es representativa cuando reúne las mismas características que la población. La representatividad de la muestra es la que garantiza que los resul tados del estudio realizado puedan ser generalizados a toda la población, es decir, que se puedan realizar estimaciones de la población. Generalizar, en este contexto, significa extrapolar los resultados desde la muestra a la población. 376 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Los índices que representan los valores que resumen las características de las muestras, ya mencionados en el Tema 1, se denominan estadísticos y son variables aleatorias cuyos valores varían en función de los elementos que compongan la muestra. MUESTREO El conjunto de procedimientos y técnicas que permiten extraer muestras de una población garantizando la representatividad es lo que se denomina teoría del muestreo. El muestreo es el conjunto de procedimientos y reglas que permiten extraer muestras de poblaciones garantizando su representatividad. A continuación se presenta un ejemplo a fin de aclarar de forma intui tiva lo anteriormente expuesto. Ejemplo 9.1. Un psicólogo de los servicios sociales de la Consejería de Educación de una Comunidad Autónoma ha recibido el encargo de evaluar el uso de las redes sociales en los estudiantes de Secundaria. Para realizar el estudio deberá entrevistar a los padres o tutores de los estudiantes. La Consejería le da como información un listado que contiene los nombres y direcciones de los 2854 estudiantes de esa Comunidad que están en Secundaria. El psicólogo estima que necesitará 45 minutos para realizar cada entrevista, lo que suponen aproximadamente 268 días de trabajo (de ocho horas diarias) de recogida de datos. Además, hay que contar el tiempo empleado para localizar los hogares, concertar una cita y el tiempo de desplazamiento por la Comunidad, lo que supondrá más de nueve meses de trabajo dedicado a esta tarea de forma exclusiva. ¿cómo puede el psicólogo resolver de forma más eficiente la recogida de información? Decide tomar una parte del total de estudiantes de Secundaria, y utilizar la información obtenida en ese conjunto para generalizarla a todos, es decir, trabajar con una muestra. A continuación, el psicólogo se pregunta: ¿cómo elijo a los niños que compondrán la muestra? A esta pregunta encontrará una respuesta una vez que se conozcan los tipos y métodos de muestreo y vea cuál es el más adecuado para ese estudio en concreto . 377 1 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Una muestra tiene que permitir hacernos una idea general de cómo es la población. Debe representar o ser una «imagen reducida» de las variables que pueden influir en el estudio para permitir la generalización. La generalización, desde la parte al todo, supone siempre un cierto error. En el ejemplo anterior, puede ocurrir que al formar la muestra por azar, haya un número de niños superior al de niñas. Es decir, que las niñas estén infra representadas y, por tanto, la muestra no es una fiel imagen de la población ya que teóricamente la probabilidad de niños y niñas es la misma, 0,5. Este error se puede cuantificar y controlar a través de la Estadística mediante dos conceptos: error máximo (Emax) y nivel de confianza (1- a). Sobre ambos conceptos se volverá en el tema siguiente. Dado que el muestreo es un procedimiento, los pasos a seguir son: a) Definir los casos (participantes u otros seres vivos, objetos, fenómenos o comunidades) sobre los cuales se habrán de recolectar los datos. b) Delimitar la población mediante una característica que defina, de forma exhaustiva y excluyente, a los individuos que la componen. c) Elegir el método de selección de la muestra. d) Calcular el tamaño de la muestra. e) Aplicar el procedimiento de selección. f) Obtener la muestra. En este tema se abordará el estudio de los métodos de selección de la muestra (paso c). Y, en el Tema 10 se abordará el cálculo del tamaño muestra! (paso d), dado que para su comprensión es necesario conocer el concepto de distribución muestra! de un estadístico. Los demás pasos no se van a desarrollar porque es evidente su significado y a qué hacen referencia. 9.2.2. Tipos de muestreo Se agrupan en dos categorías: ■ 378 Muestreo probabilístico: es aquel en el que se conoce la probabilidad que tiene cada elemento de la población de ser elegido para formar parte de la muestra y se conoce el marco muestra! (listado de elementos que componen la población). Su ventaja más impor- MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO tante es garantizar la representatividad y, por tanto, permitir hacer inferencias. ■ Muestreo no probabilístico: es aquel en el que no se conoce la probabilidad que tiene cada elemento de ser elegido. No garantiza la representatividad y, por tanto, las conclusiones que se pueden extraer quedan circunscritas a la situación en la que se realizó el trabajo sin posibilidad de generalizar más allá de ese contexto. Dentro de cada una de estas categorías hay diferentes métodos que se clasifican según la forma en que se extraen los elementos. En la Tabla 9.1 se indican los principales métodos de muestreo para los tipos de muestreo probabilístico y no probabilístico, que se describirán a continuación. Tabla 9.1. Tipos y métodos de muestreo. TIPOS DE MUESTREO Muestro Probabilístico MÉTODOS DE MUESTREO Aleatorio Simple Aleatorio Sistemático Aleatorio Estratificado Aleatorio por Conglomerados Muestreo No Probabilístico Por Cuotas Intencional ( opinático) Incidental ( casual) Bola de Nieve 9.2.2.1. Métodos de muestreo robabilístico MUESTREO ALEATORIO SIMPLE Consiste en tomar de una población de tamaño N una muestra de tamaño n, utilizando algún procedimiento que garantice que todos los elementos de la población tienen la misma probabilidad de ser elegidos. Podría utilizarse un procedimiento como el siguiente: ■ Se asigna un número a cada elemento de la población. ■ A través de algún medio mecánico o informático (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. 379 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Todas las muestras posibles son equiprobables, es decir, tienen la misma probabilidad de ser elegidas. Pero, la probabilidad de cada una de ellas y la probabilidad de pertenencia de los elementos será distinta en función de la forma en que se genere la muestra. Para formar la muestra se puede actuar de dos modos: Con reposición 1 . Tras elegir un elemento, éste se reincorpora a la población de forma que pueda ser elegido en la siguiente extracción, así la población siempre tiene el tamaño N. Cada elemento de la población (formada por N elementos) tiene la misma probabilidad (1/N) en cualquiera de las extracciones de pertenecer a la muestra (formada por n elementos). La probabilidad de obtener una muestra concreta den elementos es: (1/N)x(l/N)x(l/N)x ... x(l/N) = (1/Nn). Es decir, que de las Nn muestras posibles de tamaño n, todas tienen la misma probabilidad de ser elegidas siendo las extracciones independientes. Sin reposición. Una vez seleccionado un elemento de la población no se reintegra, de esta forma la población va perdiendo tamaño. Así, en la primera extracción, el tamaño es N, en la segunda es N - 1, en la tercera es N- 2 ... y en la extracción enésima el tamaño será N- (n - 1). El tamaño de la población cambia con cada extracción. Aunque todos los elementos tienen la misma probabilidad de ser elegidos, esa probabilidad va cambiando según se realizan las extracciones, por lo que en este tipo de muestreo, el resultado de una extracción no es independiente del resultado obtenido en las demás. En este caso, la función de probabilidad conjunta de las variables es diferente del producto de sus funciones de probabilidad individuales. Existen(~) muestras posibles de tamaño n, y 1 la probabilidad de una muestra concreta es (~)' Como se verá en el siguiente tema (y en la asignatura de segundo curso Diseños de Investigación y Análisis de Datos) la gran mayoría de los procedimientos de la Estadística Inferencia! exigen el principio de independencia en la obtención de las muestras, lo cual no se cumple en el muestreo aleatorio sin reposición (muy habitual en investigación). Este problema se resuelve considerando que, cuando el tamaño de la población (N) es grande con respecto al tamaño de la muestra (n), las pro1 380 En muchos textos, por ejemplo Amón (1999), referido como muestreo aleatorio simple. MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO babilidades calculadas con ambos muestreos (con y sin reposición) son prácticamente iguales. Finalmente, es necesario señalar que este tipo de muestreo, aunque resulta atractivo por su sencillez, tiene poca o nula utilidad práctica cuando la población que se está manejando es muy grande. MUESTREO ALEATORIO SISTEMÁTICO Cuando los elementos de la población están ordenados o pueden ordenarse, se puede utilizar el muestreo sistemático. Para la utilización de este procedimiento es necesario, como en el caso anterior, asignar un número a todos los elementos de la población, pero, en lugar de extraer n números aleatorios sólo se extrae uno (i). El número i del que se parte es un número elegido al azar, y los elementos que serán elegidos para componer la muestra son los que ocupan los lugares i, i + k, i + 2k, i + 3k, .. ., i + (n - l)k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra (k = N / n). Es decir, se toman los individuos de k en k partiendo del sujeto en la posición i. El número i que empleamos como punto de partida será un número al azar entre 1 y k. En este tipo de muestreo no todos los elementos tienen la misma probabilidad de ser extraídos, y las extracciones no son independientes. Ejemplo 9.2. Se dispone de una población de tamaño N = 5000 y se quiere obtener una muestra de 100 individuos. En primer lugar, se calcula el intervalo de selección dado por k = N/ n = 5000/ 100 = 50. Por azar, se obtiene un número entre 1 y 50 para seleccionar al primer sujeto. Se supone que dicho número es el 20 (i = 20), los 99 restantes que necesitamos serán los que ocupen los lugares: 70 (20 + 50), 120 (20 + 2 X 50 = 120), 170 (20 + 3 X 50) 1 ... 1 4970 (20 + (100 - 1) X 50). Es decir, la muestra está constituida por los 100 sujetos que ocupen en la lista las posiciones: 20, 70, 120, ... , y así hasta el sujeto 100 que ocupa el lugar 4970 de la lista. El riesgo de este tipo de muestreo está en aquellos casos en que se dan periodicidades en la población, ya que al seleccionar una periodicidad constante, los elementos seleccionados para la muestra pueden no ser representativos de la población. 381 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD MUESTREO ALEATORIO ESTRATIFICADO Este método de muestreo se utiliza cuando la población no es homogénea, debido a que existen grupos o estratos heterogéneos entre sí con gran homogeneidad dentro del estrato (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurar que todos los estratos de interés estén representados adecuadamente en la muestra. Cada estrato funciona de forma independiente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o sistemático para elegir los elementos concretos que formarán parte de la muestra. El procedimiento de composición de la muestra en los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: ■ Afijación simple: a cada estrato le corresponde igual número de elementos muestrales. ■ Afijación proporcional: la distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. La muestra total se forma por la suma de las muestras de cada estrato. Cada submuestra es independiente del resto. Permite aplicar técnicas de selección diferentes dentro de cada estrato y obtener estimaciones separadas en cada una de ellas. Ejemplo 9.3. Con el fin de conocer el grado de aceptación que las transferencias en educación han tenido entre los padres de los escolares de Madrid, se selecciona una muestra de 600 niños. Sabemos que de los 10.000 niños escolarizados en las edades que nos interesan, 6.000 acuden a colegios públicos, 3.000 a colegios privados concertados y 1.000 a colegios privados no concertados. Queremos que en la muestra estén representados todos los tipos de colegio, por lo que llevamos a cabo un muestreo estratificado utilizando como categoría de estratificación el tipo de centro. ¿cómo trabajar con cada tipo de muestra aleatoria estratificada? 382 ■ Afijación simple: elegiríamos en cada tipo de centro 200 niños. ■ Afijación proporcional (más recomendable ya que la diferencia en el tamaño de los estratos es bastante grande): calculamos qué proporción supone cada uno de los estratos respecto de la población total. MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADISTICO Colegios públicos: 6000/ 10000 = 0,60 = 0,30 1000/10000 = 0,10 Colegios privados concertados: 3000/10000 Colegios privados no concertados: El tamaño de cada estrato en la muestra se halla multiplicando esa proporción por el tamaño muestra!. 1 Colegios públicos: 0,60 x 600 = 360 estudiantes Colegios privados concertados: 0,30 x 600 = 180 estudiantes Colegios privados no concertados: 0,10 x 600 = 60 estudiantes MUESTREO ALEATORIO POR CONGLOMERADOS Los tres métodos de muestreo presentados hasta ahora están diseñados para seleccionar directamente los elementos de la población, es decir, las unidades muestrales (los sujetos) son los elementos de la población. En el muestreo por conglomerados, la unidad muestra! es un grupo de elementos de la población que conforman una unidad más amplia, a la que se llama conglomerado. Ejemplos de conglomerados son las áreas sanitarias, los departamentos universitarios, una caja de determinado producto, etc. 2 El procedimiento de muestreo, en este caso, consiste en seleccionar aleatoriamente un cierto número de conglomerados ( el necesario para alcanzar el tamaño muestra! establecido) y trabajar con todos los elementos pertenecientes a los conglomerados elegidos . Si el número de elementos del conglomerado es muy amplio seleccionamos algunos de ellos al azar, en este caso decimos que es un muestreo po r conglomera dos bietápico. En general se habla de muestreo por etapas o polietápi co cuando hay más de dos etapas . Para aplicarlo en cada etapa se van seleccionando conglomerados de menor tamaño hasta que en la última etapa se trabaja con los n elementos que componen esos conglomerados. Por ejemplo, en un estud io sobre la población universitaria española se seleccionan Universidades; dentro de ellas Facultades, dentro de ellas carreras específicas y dentro de las carreras los cursos, qu e sería el último conglom erado . La muestra estaría formada por todos los individuos de los cu rsos seleccionados. 2 Cuando el con glomerado se corresponde con una zona territorial co ncreta, como por ejemplo los barrios, el muestreo por conglomerad os reci be el nombre de muestreo por áreas. 383 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 9.4. Una investigación trata de conocer el grado de satisfacción de los alumnos con los estudios que se dan en un Centro Asociado de la UNED. En el centro el número de alumnos por carrera es aproximadamente de 25 y se ofertan 24 carreras. Dada la dificultad de acceder individualmente a todos los alumnos, se decide seleccionar una muestra con muestreo por conglomerados de unos 170 alumnos. Los pasos a seguir serían los siguientes: a) Recoger un listado de las 24 carreras. Cada carrera es un conglomerado. b) Asignar un número a cada una de ellas. c) Elegir por muestreo aleatorio simple o sistemático 7 carreras. d) Se aplica el cuestionario a los 25 estudiantes de cada carrera (conglomerado) seleccionada. Por tanto, la muestra constará de 25 x 7 = 175 alumnos. 9.2.2.2. Métodos de muestreo no robabilístico Hay ocasiones en las que no es posible realizar un muestreo probabilístico porque desconocemos la probabilidad de inclusión de cada elemento en la muestra y/o tiene un excesivo costo económico o de tiempo. En esos casos, se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones. Esto es así porque no se tiene certeza de que la muestra extraída es representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En general, se selecciona a los sujetos siguiendo determinados criterios, procurando que la muestra resultante sea lo más parecida posible a la población. MUESTREO POR CUOTAS También denominado en ocasiones muestreo accidental. Se asienta sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más adecuados para los fines de la investigación. Mantiene, como se verá, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. 384 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO En este tipo de muestreo se fijan unas «cuotas», que consisten en un número de individuos que reúnen unas determinadas condiciones. Una vez determinada la cuota, se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. Por ejemplo, se supone que la Consejería de Sanidad de una Comunidad Autónoma desea estudiar la incidencia de las drogas en la adolescencia. A través de los informes de la Consejería de Educación, se conoce cuáles son los centros educativos más afectados por el problema. Se fija un número de sujetos a entrevistar proporcional a cada uno de los centros fijados y, finalmente , se deja en manos de los encuestadores a qué sujetos concretos se entrevista. MUESTREO OPINÁTICO O INTENCIONAL Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras «representativas» mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. Un ejemplo muy conocido es el caso del Estado de Ohio (EEUU) en relación con las elecciones a presidente en los EEUU. Ohio es un estado cambiante (swing state), es decir, no tiene una tendencia del voto sino que unas veces votan a republicanos y otras a demócratas. Desde comienzos del siglo xx sólo en dos ocasiones falló la predicción, es decir no coincidió el presidente elegido según los resultados obtenidos en el estado de Ohio con el que el que realmente salió elegido . ¿Por qué los resultados de Ohio coinciden tantas veces con el resultado real? La respuesta viene determinada por la gran diversidad que presenta su población, en la que hay representantes de todos los tipos de votantes: de áreas rurales, de grandes ciudades, cristianos conservadores, afroamericanos y muchos trabajadores. Por tanto, es un Estado muy representativo, la gran mayoría de los diferentes tipos de votantes están presentes en él. MUESTREO CASUAL O INCIDENTAL Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento es utilizar como muestra los individuos a los que se tiene fác il acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). 385 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD MUESTREO DE BOLA DE NIEVE En este procedimiento de muestreo las unidades muestrales van incorporándose paulatinamente a la muestra, a partir de la referencias de los sujetos que ya han participado en la investigación. Se localizan algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo de muestreo se emplea muy frecuentemente cuando se hacen estudios con poblaciones << marginales», difíciles de identificar y de localizar. 9.3. DISTRIBUCION MUESTRAL DE UN ESTADÍSTICO Como se ha visto previamente, el procedimiento de extracción de sujetos de la población para componer la muestra es esencial en el sentido de garantizar la representatividad de la muestra. Sin embargo, aún falta por resolver el problema de cuántos elementos son necesarios para la muestra. Es decir, hemos definido el cómo y ahora falta el cuánto, de tal forma que además de representativos sean suficientes para garantizar un grado de certeza a las conclusiones. Para ello, es necesario explicar antes el concepto de distribución muestra! de un estadístico. Antes de entrar en la presentación del concepto de distribución muestra! de un estadístico es necesario recordar dos tipos de distribuciones de los que se habló en temas anteriores, la poblacional y la muestra!, ya que a ellas nos referiremos con gran frecuencia en los conceptos y cálculos que vamos a desarrollar en el tema que nos ocupa. Supongamos que a una población se le mide una característica, por ejemplo, la altura. Con estos datos se podrá hacer una distribución de frecuencias, tal y como se vio en el Tema 1 ( con la salvedad de que los resultados se referirán a toda la población). Se podrá calcular su media y varianza (ver Temas 2 y 3) que, como ya sabemos, se denominan parámetros poblacionales y se representan por las letras griegas µ y cr 2 . Si en lugar de trabajar con toda la población se hace con una muestra (obtenida mediante alguno de los procedimientos de muestreo visto en los apartados anteriores) la distribución así obtenida es la distribución muestra!. Con los datos de la variable altura, obtenidos de la muestra, se construye su distribución de frecuencias y se calcula la media y varianza, que son en este caso los estadísticos y se representan por X y S2. 386 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Por otra parte, en una población cualquiera es posible extraer más de una muestra diferente del mismo tamaño. Por tanto, el valor concreto de un estadístico dependerá de los valores concretos que tomen cada uno de los elementos de la muestra extraída. El estadístico obtenido ya no será una constante (como vimos en los temas anteriores) sino una variable, ya que su valor concreto dependerá de la muestra en la que se haya calculado. La distribución de probabilidad de todos los posibles valores del estadístico en las diferentes muestras es lo que se denomina distribución muestra! del estadístico. Dicho de otro modo, dada una población de tamaño N de la que se van a extraer varias muestras de tamaño n, y para cada muestra se calcula un estadístico (por ejemplo la X) de una variable aleatoria X cualquiera. Puesto que la media (X) toma diferentes valores, dependiendo de cada muestra, el conjunto de las distintas medias forman a su vez una variable aleatoria que tendrá su propia distribución de probabilidad con sus características: forma, media y varianza, esto es, los parámetros que la definen. Estos parámetros se representarán por letras griegas con un subíndice, que nos indica a qué estadístico nos estamos refiriendo. Por tanto, la distribución muestra! de un estadístico es la distribu ción de probabilidad teórica de los valores de un estadístico cuando estos se calculan sobre las k muestras (siendo k muy grande, teóricamente infinito) de tamaño n, extraídas de la población y obtenidas mediante muestreo aleatorio simple. Podemos ahora preguntarnos si cada vez que queramos estimar un parámetro (la media poblacional ~t de una variable aleatoria, por ejemplo de la altura de los españoles, o la proporción poblacional (n) de los sujetos que están de acuerdo con la integración, etc.), ¿debemos extraer tantas muestras como sea posible, calcular la media o la proporción en todas esas muestras y luego obtener la media de todas las medias o la media de todas las proporciones calculadas?¿ Y lo mismo debemos hacer con los estadísticos varianza, mediana o coeficiente de correlación de Pearson, por ejemplo? Para responder a esta pregunta se retomará el concepto de esperanza matemática de una variable aleatoria 3 , que como se verá es la mejor opción para estimar parámetros desconocidos utilizando los modelos de probabilidad ya conocidos del Tema 8. 3 Concepto introducido en el Tema 7 como esperanza matemática o valor esperado, que se define como el promedio teórico que tomaría una variable aleatoria si se repitiese el experimento infinitas veces. 387 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD En el siguiente apartado se estudiarán las distribuciones muestrales de los estadísticos media, proporción y varianza, obtenidas por procedimientos matemáticos. Pero, antes se presentará de manera intuitiva el concepto de distribución muestra! con ejemplos aplicados al estadístico media. Si de cualquier población con media µ y desviación típica cr, se toman todas las posibles muestras aleatorias con reposición, cada una de tamaño n, la distribución muestra! del estadístico media tiene como parámetros: ■ µx = µ, es decir, la media de las medias es igual a la media poblacional. ■ Desviación típica o error típico de la media, ª x = J¡; En el caso de muestras finitas y muestreo sin reemplazamiento, la desviación típica deberá multiplicarse por el factor de corrección definido por ~ donde N es el tamaño de la población y n el tamaño de la muestra. En este caso: ■ µx = µ ■ ª x = Jn ✓~=~ Se presentan a continuación varios ejemplos sencillos para comprobar que esto es realmente así. Ejemplo 9.5. Una urna contiene tres bolas numeradas con los valores 2, 4 y 6. La población se compone de esos tres números y extraemos todas las muestras posibles de tamaño dos con reposición. A) Calcular el valor de la media, la varianza y la desviación típica poblaciona 1. µ = (2 + 4 + 6)/3 = 4 cr 2 (2-4}2+(4-4)2+(6 - 4)2 = - - - - - - - -- - = 2,667 3 cr = -./2,667 = 1,633 fl 111 388 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO B) Construir la distribución muestra! de la media de las muestras definidas. En el muestreo aleatorio con reposición el número de muestras posibles es Nn. En este ejemplo es: 3 2 = 9 muestras posibles de tamaño n = 2. Muestras de tamaño 2 Medias correspondientes a cada muestra Muestreo con reposición 2;2 2;4 2;6 2 4 4;2 4;4 4;6 3 5 6;2 6;4 6;6 4 1 : 1 6 La variable aleatoria X (denominada media muestra!) presenta la siguiente distribución muestra!: X Frecuencia (n1) r(x) 2 3 4 5 6 1 2 3 2 1 1/9 = 0,1111 2/9 = 0,2222 3/9 = 0,3333 2/9 = 0,2222 1/9 = 0,1111 9 0,9997 ::::: 1 La representación gráfica de esta distribución muestra! es: 0,35 0,3 0,25 0,2 0,15 0,1 - 0,05 o 2 3 4 5 6 389 INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Como se observa, la distribución de la variable aleatoria media muestra! se intuye que se ajusta al modelo normal. C) Calcular la media, varianza y error típico de la distribución muestra! de las medias. 2 3 4 5 6 X-t(x) (x - µ) (x -µ)2 (x - µ)2 .t(x) f(X) X 0,1111 0,2222 0,3333 0,2222 0,1111 0,2222 0,6666 1,3332 1,1110 0,6666 -2 -1 4 1 0,4444 0,2222 o o o 1 2 1 4 0,2222 0,4444 1,3332 3,9996 µx = I, x. r (x) = (o, 2222 + o, 6666 + 1, 3332 + 1, 1110 + o, 6666) = = 3, 9996 "" 4 cr} = L (x - µ )2 •f ( x) = o, 4444 + o, 2222 + o + o, 2222 + o, 4444 = = 1,333 De donde ªx = M = .J1, 333 "" 1, 155 D) Comparar los valores obtenidos en A y C. La media poblacional es µ = 4 que coincide con la media de la distribución muestra! de la media µx = 4. Por lo tanto, se verifica que µx = µ La varianza y desviación típica poblacional son cr 2 = 2,67 y cr = 1,63 La varianza y error típico (desviación típica) de la distribución muestra! de la media son: cr} = 1,333 390 y ªx = M = ✓1,333 "" 1,155 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Como era de esperar, este valor no coincide con la desviación típica poblacional: 1,633 -=t= 1,155 Sin embargo, se puede comprobar que: cr 2 n ª x2 = - 2, 6 7 2 = - - = 1,333 por lo que Es decir, se cumple que ªx = ªx = cr 2 r::: vn 1, 633 = 1,155 1,414 = -- Fn Ejemplo 9.6. Una población se compone de los números 1; 2; 3; 5; 6 y 7, si se consideran todas las posibles muestras de tamaño 2 que se pueden extraer sin reemplazamiento. A) Calcular el valor de la media, la varianza y la desviación típica poblacional. µ= ¿ X¡ = 1 + 2 + 3 + 5 + 6 + 7 = 4 6 N 2 ¿(X¡ - µ)2 cr = - - - - = N 2 (1-4)2 +(2-4)2 +(3 - 4) +(5 - 4 )2 +(6-4)2 +(7 - 4)2 =---------------------= 6 = 9 + 4 + 1 + 1 + 4 + 9 = 4,667 6 cr = .j4, 667 = 2, 16 B) Construir la distribución muestra! de la media de las muestras definidas. En muestreo aleatorio sin reposición el número de muestras posi- . Io es (6) = ( 6!_ 2)! b les es (N) n . En este eJemp 21 6 2 = 26! , , = -6 x-5 = 15 2 4 391 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Muestras de tamaño 2. Muestreo sin reposición 1;2 1;3 1;5 1;6 2;3 2;5 2;6 2;7 3;5 3;6 3;7 5;6 5;7 Medias correspondientes a cada muestra 1;7 6;7 1,5 2 3 3,5 2,5 3,5 4 4,5 4 4,5 5 5,5 6 4 6,5 La variable aleatoria X (denominada media muestra!) presenta la siguiente distribución muestra!: X Frecuencia (n1) t(x) 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 1 1 1 1 2 3 2 1 1 1 1 1/15 = 0,0666 1/15 = 0,0666 1/15 = 0,0666 1/15 = 0,0666 2/15 = 0,1333 3/15 = 0 ,2000 2/15 = 0,1333 1/15 = 0,0666 1/15 = 0,0666 1/15 = 0,0666 1/15 = 0,0666 ¿ 15 0,9994~1 La representación gráfica correspondiente a esa distribución de frecuencias es: •l:t ,, 392 f MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO 3 .!2IJ 2 e cu ::::1 IJ cu ... u. 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 C) Calcular la media, varianza y error típico de la distribución muestra! de las medias. X Frecuencia (n,) t(x) 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 1 1 1 1 2 3 2 1 1 1 1 0,0666 0,0666 0,0666 0,0666 0,1333 0,2000 0,1333 0,0666 0,0666 0,0666 0,0666 0,0999 0,1332 0,1665 0,1998 0,4665 0,8000 0,5998 0,3330 0,3663 0,3996 0,4329 ¿ 15 1 3,9975 X· t(x) (x-µ) (x - µ)2 (x -µ)2. t(x) - 2,5 -2 - 1,5 -1 - 0,5 6,25 4 2,25 1 0, 2 5 0,4163 0,2664 0,1499 0,0666 0,0333 o o 0,5 1 1,5 2 2,5 0,25 1 2,25 4 6,25 0,0333 0,0666 o, 1499 0,2664 0,4163 o 27,5 1,865 µx =¿,X ·t(x) = 3,9975 "" 4 a} = (x De donde: ªx = µ}2 -t(x)=l,865 M = .Ji, 865 = 1, 366 393 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD D) Comparar los valores obtenidos en A y C. La media poblacional es µ = 4 que coincide con la media de la distribución muestra! de la media µx = 4. Por lo tanto, se verifica que µx = µ La varianza y desviación típica poblacional son cr 2 = 4,667 y cr = 2,16 La varianza y error típico (desviación típica) de la distribución muestra! de la media son: 1 o}= 1,865 crx = {af = ✓1,865 = 1,366 Valor que, como era de esperar, no coincide con la desviación típica poblacional: 2, 16 1,366 * Sin embargo, en este caso al ser un muestreo sin reemplazamiento hay que multiplicar por el factor de corrección: crx = -./1, 867 = 1,366 n Es decir, se cumple que: crx = cre · ✓N --- por lo que: -vn N -1 Hasta ahora se han visto dos ejemplos sencillos con poblaciones muy pequeñas. Pero, habitualmente, el tamaño de las poblaciones y de las muestras es mucho mayor. Por este motivo, se presenta a continuación un ejemplo basado en simulación en el que la población está formada por 1000 elementos (N = 1000) y se extraen muestras de tamaño igual a 30 (n = 30). 394 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Ejemplo 9.7. Simulación con N = 1000 y n = 30. Supongamos que existe una población de 1.000 elementos cuyos valores (sean estos «valores» edades, pesos, o cualquier otra variable) son los siguientes: X¡ 5 10 15 20 25 n, 200 200 200 200 200 Siendo sus parámetros: µ = 15; cr = 7,07 Se simula (mediante un software adecuado por muestreo aleatorio simple y con reposición) una muestra de 30 elementos de esta población. En el muestreo aleatorio simple con reposición el número de muestras posibles es Nn. En este ejemplo sería 1000 30 muestras posibles de tamaño n = 30, de ahí que se diga que la distribución muestra! de un estadístico se corresponde con un número teóricamente infinito de muestras. Dado el número tan elevado de muestras a extraer, vamos trabajar con 10 y 500 muestras para comprobar cómo, a medida que aumenta el número de muestras, la distribución muestra! de la media y las estimaciones de los parámetros se van aproximando más a lo que establece la teoría. Análisis con 10 muestras aleatorias de tamaño n = 30 La Tabla 9.2 reproduce los valores de los elementos de cada muestra. En las 10 columnas tenemos los valores observados en la variable para cada muestra, desde la Muestra 1 (Ml) hasta la muestra 10 (Ml0). En las dos últimas filas figuran la media y la desviación típica en cada muestra. 395 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla 9.2. Diez muestras de tamaño n = 30. M1 5 5 25 10 5 5 25 10 15 15 20 10 10 X sx 20 10 5 15 5 5 10 25 20 15 25 20 20 25 15 25 20 14,67 7,30 M2 M3 M4 10 10 25 20 15 5 25 15 25 5 10 15 25 15 25 25 15 25 20 25 20 20 25 20 5 10 25 20 15 20 5 20 20 5 10 5 15 25 25 17,17 7,15 15 5 20 20 25 15 15 10 5 15 25 5 25 10 15 5 10 25 10 25 25 20 5 20 25 5 10 25 10 15,17 7,47 10 15 15 10 25 10 15 5 10 15 20 20 10 15 5 15 15 25 20 20 5 25 15,5 6,50 MS , 5 10 15 25 15 15 25 15 25 10 25 15 20 10 20 5 10 10 15 15 5 5 10 10 5 10 5 15 15 10 13,17 6,26 M6 15 5 15 25 15 25 5 15 25 20 25 5 20 25 20 5 15 25 20 15 15 5 20 20 5 5 5 10 25 15 15,5 7,46 11 f/17 MS M9 M10 10 15 15 5 15 5 25 15 5 20 25 20 25 5 20 10 10 25 20 15 20 5 20 20 5 5 5 25 10 5 5 10 15 25 15 15 25 15 25 10 25 15 20 10 20 5 10 10 15 15 5 5 10 10 5 10 5 15 15 5 13 6,40 15 20 25 15 20 25 15 5 15 25 15 20 10 20 5 15 20 15 15 5 15 10 10 25 10 25 15 15 15 15,67 5,88 10 5 15 25 25 15,17 7,24 5 5 10 15 15 20 15 10 20 10 5 15 5 5 10 25 20 15 25 10 20 25 25 5 20 13,5 7,32 10 A continuación, se presentan los datos, la representación gráfica de la distribución de la variable X y los estadísticos muestrales de la Ml. 396 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Muestra 1 Gráfico distribución de frecuencias Distribución de frecuencias X1 n~ 5 7 6 5 6 6 10 15 20 25 Total 30 6 ~ ~ ¡, = RI ·u ~ 4 ::, V cu 1,,, IL 2 X = 14,67 s; = 53,22 o S x= l,30 5 10 15 20 25 Tras repetir el experimento nueve veces más se obtuvieron las nueve columnas siguientes de la tabla (en los gráficos se muestran las representaciones de cinco de estas muestras con los valores de sus estadísticos). Muestra 2 Distribución de frecuencias X2 n¡ 5 10 15 20 25 6 7 5 4 8 Total 30 Gráfico distribución de frecuencias - 8 6 RI ·u - - e cu a 4 cu ,----,--- 1,,, IL 2 X = 15,17 s; = 55,81 S x= l,47 o 5 10 15 20 25 397 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Muestra 3 Distribución de frecuencias X3 n; 5 10 15 20 25 4 6 Total 30 9 5 6 Gráfico distribución de frecuencias 10 ~ 8 IU '¡j - e 6 QJ :::, - u QJ a.. LL - 4 - 2 X = 15,5 s; = 42,25 o S x = 6,5 5 10 15 20 25 Muestra 4 Distribución de frecuencias X4 n; 5 10 15 20 25 5 3 5 8 9 Total 30 X = 17,17 s; = 51,14 S x = 7,15 398 Gráfico distribución de frecuencias 10 ~ .--- 8 IU '¡j e 6 QJ :::, QJ a.. LL - - u 4 2 o 5 10 15 20 25 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Muestra 5 Distribución de frecuencias Xs n; 5 15 20 25 6 9 9 2 4 Total 30 10 Gráfico distribución de frecuencias 10 8 lll 'ü ; 6 ::, IJ QI it 4 2 X = 13,17 s; = 39,14 S x = 6,26 5 15 10 20 25 Distribución muestra! de las 10 medias Distribución de frecuencias, representación gráfica y cálculos de estadísticos correspondientes a la media y desviación típica de las 10 medias. Distribución de frecuencias Gráfico distribución de frecuencias 5 X; 13,00 13,17 13,50 14,67 15,17 15,50 15,67 17,17 Total µ:X= 14,85 ª x = 1,23 1 1 1 1 2 2 1 1 4 lll ·g 3 - QI ::, IJ f u. 2 - 1 10 13 14 15 16 17 18 399 INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Como se puede observar, la media de todas las medias para 10 muestras (µx = 14, 85) se aproxima bastante a la media poblacional (µ = 15). Sin embargo, la desviación típica de las medias no tiene, en principio, nada que ver con la desviación típica poblacional 1,23 =t=- 7,07, como era de esperar. No obstante, se puede comprobar que el error típico de la media de este estudio empírico es ªx = 1, 23, siendo el teórico: ªx = Jnn 7.:./[; 30 = = 1, 29. La diferencia entre ambos se debe al número de muestras tan reducido que hemos utilizado para construir esta distribución muestra!. Análisis con 500 muestras aleatorias de tamaño n = 30 La Tabla 9.3 recoge las medias de 500 muestras simuladas sobre la población antes definida (ahora ya sin los datos de cada muestra), cuyo tamaño muestra! es den= 30. Tabla 9.3. Medias correspondientes a las 500 muestras simuladas. 11,00 12,30 13,17 13,20 13,20 13,20 13,50 13,50 13,55 13,70 13,90 14,00 14,11 14,20 14,20 14,30 14,50 14,60 14,70 14,70 14,70 14,80 14,90 14,90 15,00 15,10 15,17 15,20 400 11,50 12,50 13,17 13,20 13,20 13,20 13,50 13,50 13,60 12,50 13,90 14,00 14,17 14,20 14,20 14,30 14,50 14,66 14,70 14,70 14,80 14,80 14,90 14,90 15,00 15,10 15,17 15,20 11,90 12,50 13,17 13,20 13,20 13,23 13,50 13,50 13,60 13,70 13,90 14,00 14,17 14,20 14,20 14,30 14,50 14,66 14,70 14,70 14,80 14,80 14,90 14,90 15,00 15,10 15,17 15,20 12,00 12,50 11,50 13,20 13,20 13,23 13,50 13,50 13,60 13,70 13,90 14,00 14,17 14,20 14,20 14,30 14,50 14,66 14,70 14,70 14,80 14,80 14,90 14,90 15,10 15,10 15,17 15,20 12,00 12,70 11,50 12,50 13,20 13,23 13,50 13,50 13,67 13,70 13,90 14,00 14,17 14,20 14,20 14,30 14,55 14,67 14,70 14,70 14,80 14,80 14,90 15,00 15,10 15,10 15,17 15,20 12,10 12,90 13,17 13,20 13,20 13,30 13,50 13,50 13,67 13,70 13,90 14,00 14,20 14,20 14,20 14,30 14,60 14,67 14,70 14,70 14,80 14,80 14,90 15,00 15,10 15,10 15,17 15,20 12,20 12,90 13,20 13,20 13,20 13,30 13,50 13,50 13,70 13,70 14,00 14,00 14,20 14,20 14,20 14,40 14,60 14,67 14,70 14,70 14,80 14,80 14,90 15,00 15,10 15,10 15,20 15,20 12,20 13,00 13,20 13,20 13,20 13,30 13,50 13,50 12,50 13,70 14,00 14,10 14,20 14,20 14,21 14,40 14,60 14,70 14,70 14,70 14,80 14,80 14,90 15,00 15,10 15,10 15,20 15,20 12,20 12,50 13,20 13,20 13,20 13,44 13,50 13,50 13,70 13,80 14,00 14,10 14,20 14,20 14,30 14,44 14,60 14,70 14,70 14,70 14,80 14,80 14,90 12,50 15,10 15,10 15,20 15,20 12,30 13,17 13,20 13,20 13,20 13,50 13,50 13,50 13,70 13,80 14,00 14,10 14,20 14,20 14,30 14,50 14,60 14,70 14,70 14,70 14,80 14,90 14,90 15,00 15,10 15,12 15,20 15,20 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO 15,20 15,20 14,50 15,40 15,50 15,50 15,50 15,60 15,67 15,70 15,80 15,90 15,90 16,00 16,10 16,20 16,30 16,50 16,80 17,00 17,20 17 ,30 15,20 15,20 15,30 15,50 15,50 15,50 15,50 15,60 15,67 15,70 15,80 15,90 15,90 18,60 16,10 16,20 16, 30 16,60 16,80 17,00 17,20 17,60 15,20 15,20 15,30 15,50 14,50 15,50 15,50 15,60 15,70 15,70 15,80 15,90 15,90 16,00 16,10 16,22 16,30 16,60 16,80 17,00 17,20 17,90 15,20 15, 30 15,30 15,50 15, 50 15,50 16,60 15,60 15,70 15,70 15,80 15,90 15,90 16,00 16,10 16,30 16,30 16,66 16,90 17,00 17,20 17,90 15,20 15,30 15,30 15,50 15,50 15,50 16,70 15,60 15,70 15,70 15,80 15,90 15,90 16,00 16,10 16,30 16,30 16,70 16,90 17,00 17,26 17,90 15,20 15,30 15,30 15,50 15,50 15,50 15,50 15,60 15,70 15,70 15,80 15,90 15,90 16,00 16,10 16,30 16,43 16,70 16,90 17,10 17,26 17,90 15,20 15,30 15,34 14,00 15,50 17,70 15,50 15,67 15,70 15,70 15,80 15,90 16,00 16,10 16,20 16,30 16,50 16,70 16,90 17,10 17,30 17,90 15,20 15,30 15,40 15,50 15, 50 14,00 15,50 15,67 15,70 15,70 15,88 15,90 16,00 16,10 16,20 16,30 16,50 16,80 16,90 17, 10 17,30 18,00 15,20 15,30 15,40 18,40 15,50 13,50 15,50 15,67 15,70 15,70 15,90 15,90 16,00 16,10 16,20 16,30 16,50 16,80 17,00 17,13 17,30 18,00 15,20 15,30 15,40 15,50 15,50 15,50 15,50 15,67 15,70 15,70 15,90 15,90 16,00 16,10 16,20 16,30 16,50 16,80 17,00 17,20 17,30 18,80 Gráfico distribución de frecuencias 60 11:1 u ~ 40 ::::J . u a, LL 20 10 12 14 16 18 20 º x = 1,28 Como se puede observar, la media de todas las medias para 500 muestras (µ:x = 14, 96) se aproxima aún más a la media poblacional (µ = 15) 401 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD y el error típico de la media (cr x, = 1, 28) empírico también se aproxima bastante al error típico teórico crx = ~ "n 7 : ; = 1, 29. Se puede compro"30 bar que, a medida que aumenta el número de muestras, los valores de = los parámetros de la distribución muestra! de la media (µx y crx ) se aproximan más a la media poblacional (µ) y al error típico de la media antes definido (},;} Partiendo de los ejemplos anteriores, en los que hemos visto una demostración empírica de los valores que representan la distribución muestra! de la media y, retomando el concepto de esperanza matemática visto en el Tema 7, nos centraremos en los siguientes epígrafes en el estudio de la distribución muestra! de la media, la proporción y la varianza, ya que son los estadísticos que se utilizan con mayor frecuencia en la estadística inferencia! con la que se trabaja en el grado de Psicología. 9.4. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO MEDIA La distribución muestra! del estadístico media se puede caracterizar mediante su valor esperado o media (µ x ), su error típico (crx ) y la forma de la distribución. Para obtener esta información, hay que tener en cuenta la distribución de la variable de partida X en la población y si la varianza poblacional es conocida. Atendiendo a estos criterios se estudian tres casos: 1) la variable X se distribuye según la curva normal con varianza conocida; 2) la variable X se distribuye de forma normal con varianza desconocida; y 3) la variable X no sigue la distribución normal o no conocemos su distribución . 9.4.1. Distribucion normal de la variable X con varianza poblacional conocida Sea una variable aleatoria X con distribución normal y parámetros poblacionales µ y cr 2 • Si se extrae un número muy amplio de muestras de tamaño n, la distribución de sus medias tiende a una distribución normal definida como N cr/ ✓ n) a medida que n tiende a infinito. Esto significa que: (µ, 402 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO µ:X= µ O" (}"- = ✓ n X y que la distribución muestra! del estadístico media también se ajusta a la normal. J,; se tendrán que recordar las propie- Para verificar que µ:X =µy cr:x = dades de la media y varianza estudiadas en los Temas 2 y 3, aplicándolas a la esperanza matemática (valor esperado) y varianza teórica. La esperanza matemática de la variable aleatoria media muestra! será: E(x) =E(¼ ¿X¡)=; E(X1 + X2 + ... + Xn); [E(X1) + E(X2) + ... E(Xn)] = 1 1 = - (µ1 + µ2 + · · · + µn) = - 1 L)l,¡ = -n nµ n n =µ Es decir: (9.1) La varianza teórica será: 2 1 2 1 2 1 2 1 2 cr:x = - 2 O"x +x + .. +x = - 2 cr x +-2 O"x + ··· + -2 cr x = n 12 n n ' n 2 n n Es decir: 2 (}" - X (}" 2 =- n Desviación típica o error típico : (9 .2) 403 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Por tanto, la distribución muestra! de la media X es: X ➔ N(µ,cr/✓ n) que se lee: Normal con media µ y error típico ¡¡;· Consecuentemente, ya que se trata de una distribución normal, podremos tipificar la variable X, es decir, calcular su puntuación Z-x y la distribución sigue siendo normal. Zx = : ; µ que, como se sabe, se distribuye N(O, 1). i ✓n Supuestos: ■ La variable X; se distribuye según la normal. ■ Se conoce cr 2 ■ Se extraen muestras de tamaño n mediante muestreo aleatorio simple. Entonces la distribución muestra! de las medias forma una variable aleatoria que se distribuye N cr/ ✓ n). (µ, ¿Qué ventaja aporta saber que X ➔ N(µ,cr/✓ n)? Que permite aplicar todo lo que se conoce de la distribución normal y, por tanto, hacer todos los cálculos relativos a las probabilidades correspondientes a los valores de la media, aplicando el concepto de tipificación ya visto en el Tema 7. Su utilidad quedará claramente de manifiesto en el Tema 10. Ejemplo 9.8. La inteligencia general medida a través de un test al uso para adolescentes se distribuye en la población X ➔ N(180, 9). 1. Si se extrae una muestra aleatoria simple de 16 adolescentes, calcular la probabilidad de que su media sea: A) menor de 176; B) mayor de 186; C) que esté entre 178 y 185 . Dado que se cumplen los supuestos: ZX 404 = _X_-_µ = _X_-_1_8_0 Y✓n 7✓16 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO J A) P (-X < 176 ) = P ( z < 176-180] ✓ 16 = P (z < - 1, 77) = O, 0384 (ver Tabla III) B) P(X > 186) =p[z > 18 _;; ; = O, 0039 C) P(l 78 0 J= 1-P(z SZ,66) =1-0,9961 = (ver Tabla IV) ~ X ~ 185) = p(17Y✓ 180 s z s 189✓ 180] = ✓ 16 = P(-0,89 ✓ 16 ~ z ~ 2,22) = 0,9868 - 0,1867 = = 0,8001 2. Calcular la probabilidad de que la media sea menor de 176 para muestras de: A) n = 20; B) n = 30; C) n = 40 . Dado que se cumplen las condiciones enunciadas en el cuadro resumen tendremos: -180] = P (z < - 1, 99) A) P (-X < 176 ) = P [ z < 176 ( Ji.o lm B) P (-X < 176 ) = P [ z < 176-180 ] (- ) l C) P X < 176 l ! i< =P -180 z < 176 ( J,io = P (z < - 2, 43) = O, 0233 = o, 0075 J= P(z < - 2,81) = 0,0025 lil<I Con este ejemplo se puede observar una cuestión muy importante de la distribución muestra! de la media, y es que a medida que aumenta el tamaño de la muestra, el error típico de la media disminuye. En la distri- 405 INTRODUCCIÓN AL AN ÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD bución muestra! de la media el error típico es inversamente proporcional al tamaño de la muestra (n), por lo tanto, se puede afirmar que a medida que aumenta el tamaño muestra! la distribución muestra! de las medias se hace más homogénea (presenta menor variabilidad). 9.4.2. Distribución normal de la variable X con varianza poblacional desconocida En el caso anterior se parte del hecho de que se conoce la varianza poblacional, lo cual no es muy frecuente . Lo más habitual es que se desconozca dicha varianza. En estos casos, se deberá estimar el valor del error típico de la media mediante la cuasidesviación típica muestral 4 dada por: cr- x sn - 1 =- ✓ n En estas condiciones la distribución muestra! de la media ya no se ajusta a la normal, sino que sigue la distribución t de Student (ver Tema 8). Al no conocer la varianza poblacional, la transformación viene dada ya por la distribución: T ~ / ;¿ , que sigue una distribución t de Student con n - 1 gl. n- 1 ✓ n Supuestos: ■ La variable X; se distribuye N(µ,a) ■ Se desconoce el valor de cr 2 ■ Extraemos muestras mediante muestreo aleatorio simple de tamaño n. Entonces, la distribución muestra! de las medias forma una variable 5 aleatoria que se distribuye t con n- 1 grados de libertad. (µ, n-/Jn) Ejemplo 9.9. En población adulta, el t iempo de reacción ante estímulos dolorosos se distribuye normal con media 410 mseg. En un 4 406 Recordar la definici ón de cuasidesviación típi ca vista en el Tema 3 . MUESTREO Y DISTRIBUCIÓN MUEST RAL DE UN ESTADÍSTICO estudio con una muestra de 50 estudiantes de facultad, extraída al azar, a los que se les ha evaluado esta variable, se ha obtenido una cuasidesviación típica de 40 mseg. ¿cuál es la probabilidad de obtener medias iguales o mayores de 400? Dado que se cumplen las condiciones tendremos: T = X - µ sn-1/ = 400 - 410 = -10 = - l 77 l✓ n 40/ ~ / ✓ 50 5, 65 ' La tabla de t nos indica que con g.l. = 49 (dado que el valor no viene tomaremos el más próximo que es gl = 50). T = 1, 77 (también el más próximo) que se corresponde a P (x $ 400) = P (T $ 1,676) = 0,05. Por tanto, dado que el valor de T obtenido es - 1, 77 la probabilidad buscada es: P(x ~ 400) = 1- P(x $ 400) = 1 - 0,05 = o,95 9.4.3. La variable X no se distribu e normalmente Por lo general, la situación comentada en los apartados anteriores no es la habitual. Lo que ocurre generalmente es que las variables no se ajustan al modelo de la normal o simplemente se desconoce cuál es su varianza poblacional. En estas situaciones, la Estadística aporta un teo rema conocido como Teorema del Límite Central, que permite calcular las probabilidades asociadas a los valores de las medias sin necesidad de conocer la forma de la distribución de las variables, siempre que las muestras tengan tamaño suficiente (n ~ 30). Teorema del Límite Central: Sea X 1 , X 2 , . .. , Xn un conjunto de variables aleatorias, independientes e idénticamente distribuidas con media µ¡ y varianza crf O. Si n es suficientemente grande (n ~ 30) la distribu ción muestra! de la media de las X¡ se aproxima a la distribución normal N ✓ n ) a medida que n aumenta independientemente de las distri buciones que presenten X 1 , X 2 , . . . , Xn. * 5, (µ,0/ 5 Recu érd ese la variable X; en la pobla ción no sigu e la distribu ción norm al o se desconoce su fo rma, a medida que n crece la distribu ción de X ; se aproxima a la norm al (n 2'. 3 0) (según se vio en el Tema 7), siendo µx = µ y cr:x = jñ 407 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Este teorema establece que sí n es suficientemente grande, las variables que se combinan son independientes, tienen distribuciones idénticas y valor esperado y varianza finitas, entonces la distribución muestra! del estadístico tiende a N cr/ ✓ n). Una demostración del teorema se puede consultar en Ríos (1985). En caso de no conocer cr, se utiliza como estimador la cuasidesviación típica muestra! con X ➔ N Sn _1 / ✓ n) (µ, (µ, Ejemplo 9.10. Sea X una variable de distribución desconocida cuya medía poblacional µ = 40 y su deviacíón típica cr = 4. Se extraen, mediante muestreo aleatorio simple, muestras de tamaño n = 48 y n = 25 . ¿Qué se puede decir de las distribución de las medias de dichas muestras? A) Para el caso en que n = 48. Por el Teorema del Límite Central se sabe que cuando n > 30, la X se distribuye normalmente con µx = µ = 40 y su desviación típica o error típico es: (J - X cr 4 ✓ n ✓ 48 =-= - 4 = - - = 01 577 6,93 Por tanto, se puede decir que la distribución muestra! de la X se aproxima a N(40; 0,577). B) Para el caso en que n = 25. Como n < 30 únicamente se puede decir que la distribución muestra! de la medía tiene una medía µx = µ = 40 y desviación típica es: Esto se debe a que no cumple una de las condiciones del teorema (n > 30) para poder afirmar que se aproxima a la normal. ' ¡ • 9.5. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO PROPORCIÓN En Psicología y en Ciencias de la Salud son muy habituales estudios en los que están involucradas una o varias proporciones (o porcentajes) medidas en alguna variable de interés (por ejemplo : la proporción de uní- 408 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO versitarios varones frente a mujeres adictos a la cocaína; la comparación de las proporciones de votantes de diferentes partidos políticos, etc.). Para poder hacer los pertinentes estudios deberemos conocer cuál es la distribución muestra! de este estadístico, distinguiendo entre muestras pequeñas y muestras suficientemente grandes. Sea una población en la que se mide una variable que solo puede tomar dos valores: éxito (1) o fracaso (O) (variable que como sabemos del Tema 7 se ajusta al modelo de Bernoulli). Definimos re como la proporción de aciertos en la población. Si extraemos todas las posibles muestras de tamaño n y medimos en cada una de ellas la variable aleatoria X= número de éxitos en las n extracciones, y sea P = proporción de éxitos en las n extracciones, constante en todas las muestras, es decir, P 1 = P 2 = ... = Pn = re. Entonces, podemos definir las distribuciones muestrales de X y P según las muestras sean pequeñas o grandes. 9.5.1. Distribución muestral del estadístico P para muestras pequeñas Cuando las muestras son pequeñas (n < 30), la distribución muestra! del estadístico X (número de éxitos en n ensayos) es X ➔ B (nn, ✓nn (1 - n)) donde: µx = E(X) = nrc y ªx = ✓nrc(l - rc) (como se vio en el Tema 6 6 ). Dado que Pes una mera transformación lineal de X(P = X/ n), se demuestra que la distribución muestra! del estadístico P (proporción de aciertos en n ensayos) es P ➔ B ( •, En efecto, siendo P J• n)} (ln- donde: µp = E(P) = n y ºe = J• (ln •). = X, entonces: n E (P) 1 = - n nrc = re (9.3) 6 Fíjense que se ha cambiado la notación y, en lugar de llamar P a la probabilidad de éxito en la población, la denominamos n (letra griega correspondiente a P) . 409 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 2 La varianza: crp aP = n(l-n) , , = - - - cuya ra1z o error t1pico de medida es: n a ( -1 X ) n 1 ax = - n = 1 ✓~ -nn (1 - n) n = ✓1t(l-1t) n (9.4) En la tabla de la binomial se pueden determinar las probabilidades para diferentes tamaños muestrales y valores de n. Supuestos: ■ La variable aleatoria X es una variable Bernoulli (solo dos valores éxito o fracaso) ■ Se conoce n proporción en la población ■ Las n observaciones son independientes Entonces: La distribución muestra! de la variable Pes una distribución Binomial, definida por B [ •, J•(ln- n)) Ejemplo 9.11. Se dispone de un juego con utilidad diagnóstica para problemas atencionales. El juego consiste en levantar la cartulina correcta cuya imagen debe ser la del animal que el psicólogo nombra. Hay un total de 5 cartulinas y en el juego participan, de forma independiente, 15 niños con problemas de atención. Debido al déficit que tienen, responden por azar sin prestar atención a las instrucciones. Obtener las probabilidades de que: A) Ningún niño acierte; B) La proporción de aciertos no llegue al 50%; C) La proporción de aciertos sea superior al 20%. Supuestos: ■ Variable aleatoria: Proporción de niños que aciertan Variable de Bernoulli: Acierta al elegir la cartulina o no acierta. ■ Tamaño muestra!: pequeño. ■ Distribución muestra! de la proporción: Binomial con parámetros n = 15 y p = 1/5 = 0,20 Solución: (acudiendo a las Tablas de la Binomial) 410 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO A) Que ningún niño acierte: P(P¡ =O)= P(X =O)= 0,0352 B) Que el porcentaje de aciertos no llegue al 50%, es decir P; < 0,50 indica que acierten la mitad. La mitad de 15 es: 15/2 = 7, por tanto tendremos: P (P¡ < O, 50) = P (P; < O, 50) = P (X; :s; 7) = O, 9958 (ver Tabla II del Formulario). C) Probabilidad de aciertos superior al 0,20, es decir: O, 20 = donde X;= 3 P(P > 0,20) = P(X > 3) = 1 - P(X :s; 3) = 1 - 0,6482 Tabla II del Formulario). X;{5de = 0,3518 (ver 9.5.2. Distribución muestral del estadístico P para muestras suficientemente grandes Por regla general, las muestras con las que se trabaja suelen ser grandes. Por el Teorema del Límite Central se sabe que, a medida que n crece, la distribución de las proporciones se aproxima a la distribución normal con parámetros: µp = 2 0p E (P) = 1t n(1 - 1t) = -- - n Aplicando la tipificación tendremos: p - 1t Z =---- ✓1t (1n- n) (9.5) 411 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Supuestos: ■ La variable aleatoria X es una variable Bernoulli (solo dos valores éxito o fracaso) ■ Se conocen proporción en la población (o el valor P en la muestra) ■ Las n observaciones son independientes ■ La muestra es suficientemente grande, es decir, n 2'. 30 Si n < 30 deberá cumplirse que n x n 2'. 5 y n x (1- n) 2'. 5 Entonces, los valores de las proporciones se aproximan a una normal definida por: P ➔ N n, ( ~ (1- n)l n Ejemplo 9.12. Se sabe que el 85% de los estudiantes de la UNED no fuman. Si se selecciona una muestra aleatoria de 200 estudiantes de esta universidad, lcuál es la probabilidad de que menos del 80% de alumnos de la muestra no fume? Supuestos: ■ Variable de Bernoulli: Sólo dos posibilidades: éxito (no fumar), fracaso (fumar). ■ Tamaño muestra! grande : n = 200 (no resulta necesario el cálculo correspondiente a «suficientemente grande»). ■ Distribución de la proporción: Aproximación a la normal con parámetros: n = 0,85 y: crp = ✓n(ln- n) = 0,85(1 - 0,85) 200 = o, 0252 P - N (O, 85; O, 0252) Solución : z= P (Z 412 ~ p- 1t ✓n(ln- n) = o, 80 - o, 85 = - 1, 98 0,0252 - 1, 98) = O, 0239 (ver Tabla III) MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO 9.6. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO VARIANZA El razonamiento para obtener la distribución muestra! de la varianza es el mismo que el seguido para la media y la proporción. Si X es una variable que se distribuye en la población N(µ,cr), se extraen todas las muestras posibles de tamaño n con media X, varianzas; y cuasivarianza 1 2 . . n5 2 (n - 1)5 . . Entonces, las variables aleatorias y n - i siguen una d1s2 o o tribución x2 con n - 1 grados de libertad. Es decir, ambas variables se 5;_ -f distribuyen según X~ - i (n -1, ✓2 (n - 1) ), por lo que: µ típica, cr =n- 1 y desviación = ✓2 (n - 1) Conociendo la distribución de estas variables se deduce matemáticamente que las distribuciones muestrales de la varianza y la cuasivarianza son las siguientes: La distribución muestra! del estadístico varianza ( distribución X~- i con parámetros: s; ), sigue una - 1 2 cr ( 2) = -n n- (9.6) ✓2(n - 1) n (9.7) µ S! = E 5 Y error típico: (J 2 s; = (J La distribución muestra! del estadístico cuasivarianza ( 5~_1 ) sigue una distribución X~ - l con parámetros: (9.8) Y error típico: 413 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD ªs' = cr2 ✓ n 2- 1 (9.9) n- 1 En efecto, como se vio en el tema anterior, en una distribución x2 con n - 1 grados de libertad, la esperanza es E la varianza igual 1) = n - 1 a V 1 ) = 2 (n -1). Atendiendo a este resultado, podemos demostrar las fórmulas anteriores, recordando las propiedades de la media y la varianza estudiadas en el Tema 3: (x~_ (x~_ y En cuanto a la varianza muestra!: 2 n5 X a - -2- - 2 Xn - 1 ➔ 52 X - (J 2 2 Xn - 1 n Calculamos la esperanza y la varianza: (J4 -2(n-1) n2 = (J 2 ✓2 (n -1) n En cuanto a la cuasivarianza muestra!: (n -1)5;_1 cr 2 2 = Xn- 1 ➔ ª2 2 X~- 1 Sn- 1 = - -n- 1 Calculamos la esperanza y la varianza: 22) 2 2 E (s2- ) = E a Xn - 1 = _a_ E (x2 - ) = _cr_ (n - 1) ( n-1 nl n-1 nl n-1 414 = cr2 = MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO v(s;_1 ) == V ( o2x2 n- l n- 1 ) 04 == (n - 1)2 204 V(x~_ ) == (n 04 2(n - 1) ==-- ➔ o 5 , 2 - 1) n- 1 == 1 n- l Lo mostrado anteriormente determina los valores de los parámetros de las distribuciones muestrales de la varianza y de la cuasivarianza. Para calcular las probabilidades asociadas a las varianzas, mediante la tabla de ji-cuadrado, se utilizan directamente las expresiones: (9.10 y 9.11) que se distribuyen X~- i (n - 1, ✓2 (n - 1) ), siempre y cuando la variable X siga la distribución normal N(µ,cr) en la población. Ejemplo 9.13. Una urna contiene tres bolas numeradas con los valores 2, 4 y 6. La población se compone de esos tres números y se extraen todas las muestras posibles de tamaño dos con reposición. A) Calcular el valor de la media, la varianza y la desviación típica poblaciona 1. µ == (2 + 4 + 6)/3 == 4 o 2 == (2 - 4)2+(4 - 4)2+(6 - 4)2 == 2, 6 7 3 o == .)2, 67 == 1, 63 B) Construir la distribución muestra! de la varianza y cuasivarianza de las muestras defin idas y calcular los valores esperados correspondientes . En muestreo aleatorio con reposición el número de muestras posibles es Nn. En este ejemplo es 3 2 = 9 muestras posibles de tamaño n = 2. 415 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Muestras de tamaño 2 Muestreo con reposición Medias correspondientes a cada muestra 2;2 2;4 2;6 2 3 4 4;2 4;4 4;6 3 4 5 6;2 6;4 6;6 4 5 6 (s~_ Varianzas (s~) correspondientes a cada muestra Cuasivarianzas 1 ) correspondientes a cada muestra o 1 4 o 2 8 1 o 1 2 o 2 4 1 o 8 2 o Distribución muestra! de los estadísticos 52X o 1 4 1 4 I 3/9 4/9 2/9 o 3/9 4/9 2/9 s~. ,(s~) s~ f(s~) o ,(s~) S!-1 ,(s!-1) 3/9 = Ü 4/9 = 4/9 2/9 = 8/9 S!-1 ,(s!-1) o ÜX 1 4 X X 12/9 3/9 4/9 2/9 2 8 2 8 3/9 4/9 2/9 = 4/3 s!_1.,(s!_1) Ü X 3/9 = Ü 2 X 4/9 = 8/9 8 X 2/9 = 16/9 24/9 = 8/3 E(s}) = ~ = 1, 33 E(sLi) = J= 2,67 C) Calcular los valores esperados aplicando las expresiones (9.6) y (9.8). 416 1 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO E(s~)= ª: 2 7 (n-1)= ,; (2-1) = 1,33 D) Compara los resultados de los apartados By C. Como se puede comprobar, los valores obtenidos a partir de la distribución empírica (apartado B) son iguales a los obtenidos mediante la aplicación directa de las expresiones definidas (apartado C). Aproximación a la normal de la distribución muestra! de la varianza. Cuando la muestra es suficientemente grande, es decir valores mayores den= 100, la distribución de las variables aleatorias n5 2 ---f- y (n-1)5 2 n - l se cr cr 2 aproxima a la normal con mediaµ= n - 1 y desviación típica, cr = ,J,--2-(n---1-). En este caso podemos tipificar las variables, obteniendo: Varianza: (n~} )-(n - 1) z = -----;====--✓2 (n -1) (9.12) Cuasivarianza: ( (n -:;s,;_,) - (n - 1) z = -----;c===--- (9.13) ✓2 (n - 1) Ambas con distribución aproximada N(0,1) lo que facilita la búsqueda de las probabilidades asociadas en la tabla de la Normal. 417 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 9.14. En una población la variable motivación se distribuye N(µ,3). Si se extrae una muestra aleatoria de tamaño 120. lCuál es la probabilidad de obtener una cuasivarianza con valores comprendidos entre 6 y 8? Para 5~_1 ((n - =6 ~;s~_,)-(n- l) ((120 ;,1) x 6 )-(120 _ 1) z = --'-------;====- - = ✓2(n - 1) Para 5~_1 ✓2 x (120-1) = - 39, 66 = - 2 56 15,46 ' =8 z = ~((_n_-_:---.=~S=~=-1=)=-=-(n_ - _1) = ((120;,l) x B)-(120 - 1) = -13,22 =-0 86 ✓2(n-1) P (6 :; s~_1 :; 8) = P (- 2, 56 :; z :; ✓2 x (120 - 1) 15,46 ' - o, 86) = o, 1949 - o, 0052 = o, 1897 9.7. RESUMEN A lo largo de las páginas precedentes se ha presentado el concepto de muestreo y los métodos más habituales y entre ellos aquellos que se basan en el azar y salvaguardan la representatividad de las muestras, cuestión que legitiman el uso de la Inferencia Estadística. Se ha explicado el concepto de distribución muestra! de un estadístico que constituye, junto con el muestreo, la fundamentación de las técnicas de inferencia y se han expuesto las distribuciones muestrales de la media, de la proporción y la varianza por ser los índices estadísticos sobre los que descansan muchas de las técnicas que se verán posteriormente. Se podrían presentar las distribuciones de otros estadísticos como la correlación de Pearson o la diferencia de medias, pero excedería con mucho al t iempo disponible y la fi nalidad de un cu rso introductorio como es est e. 418 MUESTREO Y DISTRIBUCIÓN MUESTRAL OE UN ESTADÍSTICO 9.8. EJERCICIOS 9.1. Un estimador es: A) una variable aleatoria; B) un parámetro; C) el resultado del muestreo. 9.2. La Consejería de Salud de una comunidad autónoma desea conocer los hábitos de salud de los jubilados según los grupos de edad: 65 a 75 años; 75 a 85; mayores de 85. Para ello, van a encuestar a 300 personas elegidas al azar mediante muestreo aleatorio estratificado con afijación proporcional. Teniendo en cuenta que la población de interés está formada por 15.000 habitantes, de los cuales: 7.500 están entre 65-75 años (extracto A), 3.000 entre 75 y 85 (extracto B) y 4.500 entre 85 y 95 años (extracto C). Qué tamaños muestrales se corresponden con los extractos establecidos por la Consejería?: A) nA = 125; na= 85 y ne= 90; B) nA = 150; na= 60 y ne= 90; C) nA = 140; na= 60 y ne= 100. 9.3. Una muestra se considera aleatoria: A) si su grado de diversidad es igual al de su población; B) si sus elementos se han extraído al azar; C) si no conocemos su probabilidad asociada. 9.4. A partir de la población formada por el conjunto de números: {1; 2; 3; 4} se forman todas las muestras posibles de tamaño 2 con reposición. ¿cuál es el valor del error típico de la media de la distribución muestra! de las medias?: A) 1,11; B) 2,5; C) 0,79. 9.5. ¿cuál de los siguientes tipos de muestreo es probabilístico?: A) por cuotas; B) opinático; C) por conglomerados. 9.6. Un profesor de Análisis de Datos está interesado en saber la opinión que los 225 alumnos tienen de él. Proyecta realizar una encuesta a 25 de estos alumnos. El profesor posee el listado por orden alfabético de sus alumnos. El tipo de muestreo más apropiado a la situación es: A) Aleatorio sistemático; B) Cuotas; C) Bola de nieve. 9.7. Con los datos del ejercicio anterior, ¿cuál es el intervalo de selección? A) 10; B) 5; C) 9. 9.8. Con los datos del ejercicio anterior, teniendo en cuenta únicamente a los 5 primeros sujetos de la muestra, ¿qué secuencia de elección es correcta?· A) 9· 18·I 27·f 36·I 47·f B) 10·1 19·1 28·1 37·I 46·I C) 3·I 12; 21; 30; 39. • 9.9. • f En una cadena de clínicas de adelgazamiento trabajan 300 personas, de las cuales: 68 son médicos de familia, 80 cirujanos, 100 419 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD enfermeras y 52 administrativos. Se quiere hacer un estudio sobre el estrés laboral, para lo que se debe seleccionar una muestra representativa de los diferentes tipos de trabajadores. ¿cuál de los siguientes procedimientos de muestreo es el acertado a los intereses del estudio?: A) Aleatorio estratificado; B) Por conglomerados; C) Aleatorio simple. 9.10. En la población de adultos de Madrid capital se sabe que el porcentaje de personas que leen un periódico por internet (al menos 15 días de cada mes) es del 45%. Se extrae una muestra aleatoria de tamaño 125. ¿cuál es el error típico de estimación de la proporción?: A) 0,497; B) 0,045; C) 0,25. 9.11. Según el manual del Test AR4 la variable ansiedad-riesgo se distribuye en la población de adolescentes x - N(µ,16). Se selecciona un número amplio de muestras de tamaño 125. ¿cuál es el error típico de la distribución muestra! de las medias? A) 1,43 ; B) 19,4; C) No se puede determinar, ya que desconocemos el valor de la media poblacional. 9.12. En un aula de estudiantes de Psicología se ha preguntado en qué grado, en una escala de O a 10, piensan que se debe liberalizar el consumo de drogas. Los resultados obtenidos son: {4; 7; 5; 6; 3; 5; 3; O; 10; 5; O; 4; 6; 5; 4; 5; 6; 3; 10; 2; 6; 7; 4; 10; 5; O; 5; 7; 6; 10; 7; 6; 4; O; 7; 3; 5; 6; 5; 4}. ¿cuáles son los parámetros de la distribución muestra! de todas las muestras de tamaño 9 que se pueden formar? A) 50; 2,54; B) 5; 2,54; C) 5; 0,75. 9.13. Calcule el error típico de la proporción sabiendo que las muestras (extraídas por muestreo aleatorio simple) tienen un tamaño de 60 y el valor esperado es 0,6. A) No se puede calcular, ya que falta conocer el tamaño de la población; B) No se puede calcular dado que falta el valor de la media; C) Sí se puede calcular y su valor es 0,063. 9.14. Si una variable X tiene de media µ = 80 y desviación típica cr = 9 en la población, según la distribución muestra! de la media para un tamaño de muestran= 36, los valores deµ y ª :x son: A) 80 y 2,25; B) 80 y 1,5; C) 80 y 0,25. 9.15. La inteligencia práctica se distribuye N(llO; 15) en la población de niños de 8 años. Se seleccionan muestras aleatorias de 81 niños. 420 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO ¿Entre qué valores se encuentra el 70% central de las medias? A) 102,7; 115,6; B) 108,27; 111,72; C) 95,4; 115,82. 9.16. La distribución de las puntuaciones de un test de razonamiento numérico es normal con varianza 100. Se extraen muestras de tamaño 30. ¿cuál es la probabilidad de que las varianzas muestrales se encuentren entre 57 y 142?: A) 0,60; B) 0,30;C) 0,90 . 9.17. El 65% de los adultos de la Comunidad de Madrid tiene carnet de conducir. ¿cuál es la probabilidad de extraer una muestra de 100 en la que sólo la mitad o menos tengan carnet? A) 0,0008; B) 0,098; C) 0,0476. 9.18. Se sabe que la variable horas de estudio (correspondiente a la Tabla 1.2) se distribuye según la normal con varianza 12. La varianza de la muestra formada por 40 estudiantes es 10,55, ¿está entre el 90% de los valores centrales del estadístico? A) Sí; B) No; C) Con los datos disponibles no se puede responder a esta pregunta. 9.19. Se sabe que un 60% de la población tiene el hábito de fumar cigarrillos. Se selecciona una muestra aleatoria de 800 personas. Calcule la probabilidad de que el porcentaje de personas de la muestra que fuma cigarrillos sea menor del 55%: A) 2%; B) 0,20%; C) 0,48%. 9.20. La altura de 1000 soldados se distribuye N (174; 6,9). Se extraen 200 muestras aleatorias de tamaño 30, ¿cuántas de las medidas están entre los valores 172,5 y 175,8? A) 80; B) 94; C) 162. 9.9. SOLUCIONES A LOS EJERCICIOS 9.1. Solución: A 9.2. Solución: B Hay que calcular las correspondientes proporciones: = 150 personas de entre 65 y 75 años. 300 = 60 personas entre 75 y 85 años . 300 = 90 personas mayores de 85 y 95 años. (7500/15000) x 300 (3000/15000) x (4500/15000) x 9.3. Solución: B 421 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 9.4. Solución: e Media de la población: (1 Por tanto + 2 + 3 + 4)/4 = 2,5 E(x) = µ = 2,5 "X2 (12 +22 + 32 +42) cr 2 = -~ - ' - µ 2 = - -- - - - - - 2 52 = 7 5 - 6 25 = 1 25 N 4 ' ' ' ' Por tanto: cr ªx = ✓ n = 1,118 ✓ 2 = O, 79 e 9.5. Solución: 9.6. Solución: A 9.7. Solución: e Ya que: 225/25 =9 e 9.8. Solución: 9.9. Solución: A Aleatorio estratificado ya que se pretende garantizar que hay representantes de todos los tipos de trabajadores. 9.10. Solución: B La población es grande, aunque es necesario realizar el cálculo de «suficientemente grande». Lo hacemos a título de ejemplo: (n x n) = 125 x O, 45 = 56, 25 ~ 5 y (n (1 - n)) = 125 (1- O, 45) = 68, 75 ~ 5 Por tanto: cr = ✓n(l - n) Para calcular blación) crP se precisa conocer cr (desviación típica en la po- Se conoce el valor de re (Proporción poblacional) Por tanto: ✓n (1 Por tanto: crP = n) = ✓O, 45 (1- O, 45) cr O, 4975 "n "125 e= ~ = = O, = 0,45 4975 0,045 9.11. Solución: A Dado que se conoce la desviación típica, el error típico de la distribución muestra! de la media es: 422 MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO (J - ~ = ~ = ____!_§_ "" 1 = ✓ n X ✓125 11, 18 , 43 9.12. Solución: e Para hacer los cálculos más cómodos en primer lugar se establece la distribución de frecuencias (dado que en los datos se ve ningún encuestado dio los valores 1, 8, 9 no los incluiremos en la tabla). x2, ; .n, x, n; X; -n 1 o 4 1 4 6 o o 4 36 225 252 245 400 7 10 5 4 2 12 24 45 42 35 40 I 40 200 1258 cr 2, 54 2 3 4 5 6 - ) 9 7 E ( X ; = µ = 5; ªx 96 = ✓ n = ✓ 9 = O, 85 Dado que son poblaciones finitas: cr- = ~ ✓N - n = 2, 54 x ✓40 - 9 = 0 75 X ✓ n N - 1 ✓ 9 40 - 1 ' 9.13. Solución : = 7t e E(p) = 0,6; ap = ~= 6 6 0, (~ ~ 0, ) = 0, 063 9.14. So lución : B (J (J - X =✓ n 423 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD En el problema planteado los valores correspondientes son: µ:X = 80 ª :x O" 9 =✓ n =✓ 36 = 1,5 9.15. Solución: B Sabemos que la distribución muestra! de la media conocida la varianza poblacional sigue una distribución normal cuya tipificación es: X- µ = cr/ Z:x i ✓n , que es N (O, 1) El 70% de las medias muestrales va a estar entre una Z que deja por debajo de sí una probabilidad de 0,15 y la otra Z que deja por debajo de sí una probabilidad de 0,85. (Tablas III y IV del Formulario) = 0,15, P(z < Z) = 0,85, P(z < Z) Z:x= esto implica X - µ. X - 110 X - 110 . Y✓ , - 1,04 = ,7✓ = ,X = (-1,04) x l,67+110 = 108,26 cr e 1 rn:; 1, 6 7 -v n Z:x = -1,04 que Z = 1,04 esto implica que Z -v81 X - µ_ X - 110 X - 110. = Y✓ ,1,04 = l,7✓ = ,X = l,04 x l,67 + 110=111,74 cr e rn:; 1, 6 7 -vn -v81 9.16. Solución: C Sabemos que 2 x2 = n~x se distribuye x~_1 . Por tanto, calculamos los O" valores de X~- i para 424 s; = 57 y para s; = 142. 2 Xn - 1 = 2 Xn- 1 = ns; cr2 ns; cr2 = 30 x 57 = 17 1 100 , = 30 x 142 = 42 6 100 , MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO xª Para xª Para 9 = 17, 1 la probabilidad correspondiente según la tabla de ji-cuadrado es de 0,05 aproximadamente (ver Tabla V). 9 = 42, 6 la probabilidad correspondiente según la tabla de ji-cuadrado es de 0,95 aproximadamente (ver Tabla V). Por tanto, la probabilidad es: P(17,1 :=; s; :=; 42,6) = 0,95-0,05 = 0,90 9.17. Solución: A Supuestos: Variable de Bernoulli. Sólo dos posibilidades: éxito (tener carnet de conducir) fracaso (no tener carnet de conducir). n = 100 Tamaño muestra!: (grande). ya que (nrc) = 100 x 0,65 = 65 ~ 5 y (n(l - n)) = 100(1 - 0,65) = 35 ~ 5 Distribución de la proporción: Aproximación a la normal con parámetros: n N ➔ = O 65 ' y = 0, 65 (1 - o, 65) 100 -----= O ' 0476 (O, 65; O, 0476) p- n Z = o, 50 - o, 65 = - 3, 15 = ✓ n (ln- n) 0,0476 P (Z :=; - 3, 15) = O, 0008 o lo que es lo mismo un 0,08% 9.18. Solución: A Se trata de determinar los valores de ji-cuadrado que delimitan una probabilidad de 0,90 y comprobar si el valor de la muestra está dentro de esos valores. Sabemos que x2 = n~; se distribuye x~_ 1. Los 0 X~9,o,os 2 Xn - l = 26, 51; X~9,o,9s = 55, 76 ns; ,. 26,51 = 40 12 x 5;. , =7 52 = 26,51 x 12 = 7 95 X 40 , 55 76 = 40 X 5 ; . $2 = 55, 76 X 12 = 16 73 ' 12 ' X 40 ' 425 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD P (7, 95 s 5 2 s 16, 73) = O, 90. Dado que la varianza de nuestra muestra es 10,55, podemos decir que la varianza se encuentra, con una probabilidad de 0,90, dentro de esos valores calculados. 9.19. Solución: B Por aproximación a la normal: 800 x 0,55 = 440 número de sujetos de la muestra que tiene el hábito de fumar cigarrillo. µp = n · p = 800 Z = X P - 1t = ~ v~ P (Z s - 2, 89) 0, 60 = 480 o, 55 - o, 60 = 0,6 X 0,4 800 - 0, 05 = -0, 05 = - 2 89 1 .j0,0003 0,0173 = O, 0019 (Ver Tabla III del Formulario) Este valor significa que hay una probabilidad del 0,19% de que al extraer una muestra de 800 personas, menos de 440 fuman cigarrillos. 9.20. Solución: z = X - cr e µ = 172, 5 - 174 = - 1, 5 = - l 19 6,9 1,26 ' ✓ n z = X - cr ✓ 30 µ = 175,8 - 174 = ~ = l 43 6, 9 1, 26 ' ✓ n ✓ 30 P (Z s - 1, 19) Formulario) P (172, 5 = O, 1170; P (Z s 1, 43) = O, 9236 (Tablas 111 y IV del s X s 175, 8) = O, 9236 - O, 1170 = O, 8066 200 x O, 8066 = 161, 32 "" 162 muestras tendrán su altura entre 172,5 y 175,8. 426 TEMAlO Estimación de parámetros y cálculo del tamaño muestral 10.1. INTRODUCCIÓN 10.2. ESTIMACIÓN DE PARÁMETROS 10.2.1. 10.2.2. 10.2.3. 10.2.4. Propiedades de los estimadores Métodos de obtención de estimadores Estimación puntual Estimación por intervalos 10.3. CÁLCULO DEL INTERVALO DE CONFIANZA 10.3.1. Intervalo de confianza para el parámetroµ con 02 conocida 10.3.2. Intervalo de confian za para el parámetroµ con 0 2 desconocida 10.3.3. Intervalo de confianza para el parámetro re (aproximación a la normal) 10.3.4. Intervalo de confianza para el parámetro 0 2 10.4. SIGNIFICADO DEL NIVEL DE CONFIANZA 10.5. GENERALIZACIÓN DE LA CONSTRUCCIÓN DE INTERVALOS 10.6. FACTORES QUE AFECTAN AL INTERVALO DE CONFIANZA 10.7. TAMAÑO MUESTRAL 10.7.1. Tamaño muestra! para el parámetro media 10.7.1.1. Conocida la varianza poblacional 10.7 .1.2. Desconocida la varianza poblacional 10.7.2. Tamaño muestra! para el parámetro proporción 10.8. RESUMEN 10.9. EJERCICIOS 10.10. SOLUCIONES A LOS EJERCICIOS ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL 10.1. INTRODUCCIÓN En el Tema 9 se han estudiado el muestreo y el concepto de distribución muestra! de un estadístico. Ambos son la base de la Inferencia Estadística que, a su vez, es la que permite derivar, a partir de los resultados de la muestra, los resultados que con una cierta probabilidad se pueden determinar para la población. Para llevar a cabo su proceso de análisis, la Inferencia combina los modelos de probabilidad (de los que ya conocemos los de mayor uso en Psicología y Salud) con los modelos estadísticos (expresiones matemáticas que relacionan variables entre sí como por ejem plo la regresión que hemos estudiado en el Tema 5). La aplicación de estos modelos cuando se diseña una investigación, intervención etc., supone que el investigador se plantea preguntas con contenido teórico. Una vez formuladas las preguntas y evaluadas en relación con los conocimientos previos (a través del estudio y análisis crítico de la bibliografía sobre el tema), se traducen a términos estadísticos. Con estas formulaciones estadísticas se comprueba si la situación planteada se parece a algún modelo de los que nos ofrece la Estadística y la Probabilidad. Si es así, obtendremos una respuesta estadística a la pregunta , respuesta que debe llenarse con el contenido teórico que suscitó la pregunta inicial (Martínez-Arias, Castellanos- López y Chacón-Gómez, 2014). Esta forma de trabajo exige garantizar que la realidad que se investiga y los modelos matemáticos (probabilístico y/o estadístico) que se aplican son similares. Es decir, que la realidad representada en el modelo teórico se ajusta al modelo matemático elegido para dar la respuesta estadística. Esto significa que la comparación entre la pregunta estadística ( expresión matemática del modelo teórico) y los modelos de probabilidad y/o esta dísticos debe hacerse cumpliendo las exigencias matemáticas o supuestos referentes a 1 : ■ La métrica de las variables o nivel de medida : cuantitativas, cuasi cuantitativas, cualitativas y sus correspondientes escalas de medida . Como se sabe del Tema 1, en cada escala se pueden establecer determinadas relaciones matemáticas (igualdad en la escala nominal; orden de las posiciones en la escala ordinal; magnitud del intervalo, es decir, igualdad o desigualdad de diferencias en la escala de ínter- 1 Mencionamos aquellos a los qu e podemos responder con lo qu e ya se sabe. En general, cuand o se presenta una técn ica estadísti ca, se hace referenci a a los supuest os qu e ex ig e su aplicación. 429 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD valo; e igualdad o desigualdad de razones en la escala de razón). Estas operaciones matemáticas permiten cada una realizar unos determinados cálculos. ■ La forma de la distribución de la variable: Bernoulli, Binomial, Normal, Student, etc. Para entender mejor lo descrito anteriormente, se va a desarrollar el siguiente ejemplo. Ejemplo 10.1. En el Ejemplo 1.1 sobre el efecto de la ansiedad ante los exámenes se ha trabajado con una muestra seleccionada al azar, compuesta por 40 alumnos de segundo de Bachillerato a los que, entre otras, se les midió también la variable número de horas de estudio. Se sabe que, en la muestra, la media y la desviación típica del número de horas estudiadas semanalmente son X= 10,55 y Sx= 1,89, respectivamente. El equipo investigador quiere saber: A) ¿cuál es la media de las horas de estudio semanales de los alumnos de segundo de Bachillerato? La pregunta en términos estadísticos es: lla media de las horas de estudio que los alumnos de segundo de Bachillerato dedican el estudio es igual a 10,55? Cuya expresión matemática correspondiente es: µ = 10,55 B) ¿Entre que límites se encuentra la media de las horas de estudio que los alumnos de segundo de Bachillerato dedican el estudio con una confianza del 95%? Cuya expresión matemática probabilística es : p (X - Emax ~ µ ~ X + Emax ) Como se verá en breve, para resolver numéricamente las expresiones anteriores y dar respuestas al investigador habrá que com probar los siguientes supuestos del modelo probabilístico (tenien do en cuenta que no conocemos la desviación típica de la variable en la población). Supuestos: 430 ■ La muestra se extrajo por muestreo aleatorio simple. ■ La distribución de la variable horas de estudio semanales en la población sigue la distribución normal. ¡ ESTIMACIÓN DE PARÁMETROS Y CALCULO DEL TAMAÑO MUESTRAL ■ N~ 30 Si se cumplen las anteriores exigencias, podremos calcular P ( X - Emax s µ s X+ Emax) aplicando lo que conocemos de la distribución de probabilidad t de Student. Conviene recordar que la inferencia estadística es un conjunto de métodos y técnicas basadas en los modelos Estadísticos y de Probabilidad. Nos permiten inducir, a partir de la información que nos facilita la muestra, cuál es el comportamiento de las variables en la población, asumiendo un riesgo de error evaluable en términos de probabilidad. Se le denomina Inferencia Estadística porque emplea un razonamiento que va de lo particular a lo general (de muestra a población), es decir, «intenta extraer conclusiones generales de datos particulares» (Pardo, Ruiz y San Martin, 2009). La Inferencia Estadística tiene dos ramas, la estadística paramétrica y la estadística no paramétrica. La paramétrica es aquella en la que la distribución de las variables en la población es conocida (normal, binomial, etc.), la muestra se selecciona por muestreo aleatorio simple y los datos están medidos al menos en escala de intervalos. La no paramétrica es aquella en la que la distribución de las variables no se ajusta a ninguna distribución conocida o los datos están medidos en una escala inferior a la escala de intervalo. Para cumplir con sus objetivos, la estadística paramétrica emplea dos procedimientos: la estimación de parámetros y el contraste de hipótesis . Ambos se basan en el conocimiento teórico de la distribución muestra! del estadístico (que ya se presentó en el Tema 9), correspondiente al parámetro o parámetros que se quieren estimar. La estimación de parámetros consiste en asignar un valor numérico o determinar un intervalo de valores numéricos al parámetro o parámetros que deseamos conocer. Permite hacer conjeturas del tipo: si en una muestra seleccionada al azar de una población en la que se ha medido una variable X¡, siendo la media, X, ¿cuál será el valor más próximo o el intervalo de valores entre los que se encuentre el valor de media de la población µ con un cierto grado de confianza? Sí entre dos muestras seleccionadas al azar de una misma población la diferencia entre sus medias es un valor determinado, ¿cuál será el valor más próximo o el intervalo de 431 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD valores entre los que se encontrará el valor de la diferencia a nivel poblacional con un cierto grado de confianza? Por su parte, el contraste de hipótesis tiene como objetivo comprobar si un determinado supuesto, referido a un parámetro o parámetros poblacionales, es compatible con la evidencia empírica que nos proporciona la muestra. Responde a preguntas del tipo: ¿es el valor de la media poblacional de una variable X; un valor determinado según el grado de confianza que consideramos suficiente? o ¿1a diferencia entre los valores numéricos de las medias en una variable X; ( correspondiente a dos muestras seleccionadas al azar de una población) es relevante o simplemente se debe al azar según el grado de confianza que la conjetura nos merece? Estos dos procedimientos se basan en los mismos modelos probabilísticos y estadísticos, como se deduce del tipo de preguntas a las que responden. Sin embargo, en la estimación de parámetros se parte de los datos muestrales para responder a una pregunta sobre la población, mientras que en el contraste se hace una afirmación sobre la población que luego se contrasta con la realidad de los datos obtenidos en la muestra (Martínez-Arias et al., 2014 ). Una vez descritos estos conceptos, a lo largo del tema se estudiará solo una parte de la estadística inferencia!: la estimación de parámetros. También se desarrollará en el último apartado una cuestión que se había dejado pendiente en el Tema 9, el cálculo del tamaño muestra!. Objetivos del tema: ■ Entender los conceptos de estimación puntual y estimación por intervalos. ■ Definir las características que debe tener un estimador para ser considerado como «buen estimador». ■ Conocer los métodos de construcción de estimadores más ampliamente utilizados en Psicología y Ciencias de la Salud. ■ Estimar los parámetros correspondientes a los estadísticos de uso más habitual mediante los dos procedimientos: estimación puntual y estimación por intervalos. 432 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL ■ Saber interpretar correctamente los resultados de las estimaciones por intervalos. ■ Calcular los tamaños muestrales requeridos para hacer estimaciones poblacionales. 10.2. ESTIMACIÓN DE PARÁMETROS Básicamente, el proceso de estimación de parámetros consiste en inferir el valor desconocido de un parámetro. Existen cuatro tipos de estimaciones: ■ Estimación puntual. Se trata de un procedimiento mediante el cual asignamos un único valor al parámetro desconocido, a partir del resultado obtenido en una muestra. Por ejemplo, tras la aplicación de un programa de intervención dental para niños, encontramos que el 60% (P = 0,60) de los niños se lavan los dientes 3 veces al día. Una estimación puntual nos llevaría a suponer que la proporción re en la población de niños que se lavarían los dientes tres veces al día si participasen en el programa sería: re= 0,60. ■ Estimación por intervalos. En este caso, daremos un rango de posibles valores, dentro del cual estimamos se encuentra el verda dero valor del parámetro con un determinado grado de confianza. Siguiendo el ejemplo anterior, podríamos afirmar que después de participar en el programa de intervención, la proporción de niños que se lavan los dientes 3 veces al día se encuentra entre 0,50 y O, 70. Es decir, 0,50 <re< O, 70 con un cierto margen de confianza que definiremos más adelante. ■ Estimación Bayesiana. Desde esta perspectiva, en lugar de considerar a los parámetros como constantes, se presentan como variables aleatorias con una cierta distribución a priori. Las observaciones o datos aportan información que transforman las probabilidades a priori en probabilidades a posteriori. ■ Estimación Bootstrap. Se basan en el remuestreo y en las técnicas de simulación, por lo que requieren el uso de ordenadores (Martínez-Arias, et al., 2014). Esta estimación consiste en extraer de una misma muestra varias (muchas) muestras y estudiar el conjunto de 433 INTRODUCCIÓN AL ANALISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD muestras así obtenidas. Se puede asimilar a un muestro aleatorio simple con reposición que se realizase en una población de un tamaño pequeño. De cada muestra extraída se calcula el estadístico de interés y se estudia su distribución (es un procedimiento parecido al presentado para explicar la distribución muestra! de un estadístico en el Tema 9). En este tema se estudiarán la estimación puntual y la estimación por intervalos, ya que las otras dos exceden con mucho los límites de este manual. Sin embargo, antes de estudiar estos tipos de estimaciones se plantean una serie de cuestiones sobre si un estadístico es un buen estimador de un parámetro o no, tales como: ¿sirve cualquier estadístico para estimar un parámetro? O lo que es lo mismo, ¿cualquier estadístico es un buen estimador? Por ejemplo, ¿1a media es un buen estimador de la media poblacional?, ¿¡a proporción muestra! es un buen estimador de la proporción poblacional?, ¿1a varianza muestra! es un buen estimador de la varianza poblacional? Para que un estadístico pueda considerarse un buen estimador de un parámetro deberá cumplir las siguientes propiedades: carencia de sesgo, eficiencia, consistencia y suficiencia. A continuación se describen cada una de ellas. 10.2.1. Propiedades de los estimadores CARENCIA DE SESGO Sea 8 el parámetro a estimar y 0 el valor del estimador (valor obtenido en la muestra), diremos que 0 es un estimador insesgado o carente de = 0 para cualquier valor de 0. Es decir, un estimador insesgasesgo si E do es aquel en el que se cumple que la media de la distribución muestra! (esperanza matemática de la distribución) coincide con el parámetro estimado. Formalmente la carencia de sesgo se define como: (e) (10.1) A continuación, se comprueba si los principales estimadores (media, desviación típica, varianza y cuasivarianza) cumplen la propiedad de ca rencia de sesgo. 434 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL ■ ¿Es la media un estimador insesgado de la media poblacional? Se sabe que el estadístico media sigue una distribución normal o una t de Student (según conozcamos o no la varianza poblacional). Sus parámetros, según se recordará, son: Conocida cr No conocida cr En cualquiera de las dos distribuciones E(x) = µ(ver Tema 9). Por lo tanto, la media de la muestra es un estimador insesgado de la media poblacional. ■ ¿Es la proporción es un estimador insesgado de la proporción poblacional? Es decir, lE(P) = n? La distribución muestra! de la proporción (ver Tema 9) se define como: P ➔ +~l Como se observa, E(P) ■ = n por lo que Pes un estimador insesgado den. ¿son la varianza y la cuasivarianza estimadores insesgados de la varianza poblacional? Según se desprende de su distribución muestra! (ver Tema 9): E( s;) = n ~ 1 0 2 Es obvio que la esperan za matemática de la varianza de la muestra, s} , no es ex actamente su co rrespond iente valor poblacional cr 2 , por lo que decimos que se trata de un estimador sesgado, siendo preci samente su n- 1 n sesgo el factor - - . Por el contrario, la cuasivarianza sí es un estimador insesgado de la varianza de la población, ya que E = 0 2 . De aquí se deduce, que si queremos realizar una estimación puntual de cr 2 , es preferible utilizar la cuasivarianza en lugar de la varianza. (s;_i) EFICIENCIA Dados dos estimadores 01 y 02 del mismo 0 (parámetro), diremos que 01 es más eficiente que 02 si su varianza (la de su distribución muestra!) es menor. Es decir: ªª, 0ª < 2 435 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Por tanto, entre dos estimadores insesgados será preferible seleccionar el que presente una menor varianza (menor error típico de la distribución muestra! del estadístico). El error típico refleja el mayor o menor alejamiento de los posibles valores del estadístico a su esperanza matemática (media de la distribución muestra!). Un estimador es tanto mejor cuanto su distribución muestra! esté más concentrada, es decir, que tenga una varianza más pequeña. Por ejemplo, en relación con la varianza y la cuasivarianza, los errores típicos de ambos son: ªs'X = a 2 ✓2 (n - 1) n y 0 5, n- 1 = cr 2 ✓ n -1 , respectivamente. 2 Según las expresiones anteriores, el error típico de la cuasivarianza es mayor que el de la varianza, por lo que diremos que la varianza es un estimador más eficiente que la cuasivarianza. La eficiencia de un estimador siempre es relativa, ya que ninguno puede ser perfectamente eficiente, dado que el error típico acompaña a cualquier distribución muestra!. Se define la eficiencia relativa, ER, de un estimador 81 con respecto a otro 82, como la razón: (10.2) Se interpreta de la siguiente manera: ■ Si el cociente es igual a 1, ambos estimadores son igualmente eficientes. ■ Si ER > 1, el estimador del denominador es más eficiente. ■ Si ER < 1, el estimador del numerador es más eficiente. Ejemplo 10.2. Se supone que en una población la variable aleatoria X se ajusta a una distribución perfectamente simétrica. Se puede estimar µ, tanto con la media de la muestra como con la mediana, 436 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL ya que ambos son estimadores insesgados de la media poblacíonal. ¿cuál de ellas es más eficiente? Para muestras grandes, los errores típicos son: ■ Error típico de la medían a: ªr1d "" 1, 253 ln (valor que se obtiene del estudio de la distribución muestra! de la mediana) ■ Error típico de la media: crx = ln (J cr ER = _1_ = 1,253 e ª r1d = ªx ._¡n a = 1 253 > 1 ' ✓ n Por tanto, el estimador del denominador, en este caso la media, es más eficiente que la mediana, por lo que preferiremos la media muestra! para estimar la media de la población, a pesar de que ambos estimadores son igualmente insesgados. CONSISTENCIA La consistencia indica que, a medida que el tamaño muestra! se hace grande (que tiende a infinito), el valor del estadístico se aproxima al valor del parámetro. Por tanto, un estimador es consistente cuando la probabilidad de que su valor se acerque al del parámetro es mayor a medida que aumenta el tamaño de la muestra . Formalmente: (10.3) le- e¡ En otras palabras, si n tiende a infinito, la probabilidad de que sea menor que cualquier valor 8, por pequeño que sea éste, tiende a 1. 2 2 La demostración de esta pro pi edad excede los límites del texto . Cu alqui er interesado pu ede consultar Amón (1999) . 437 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD SUFICIENCIA La suficiencia se refiere a la capacidad del estimador de utilizar toda la información existente en la muestra en relación al parámetro. O lo que es lo mismo, que el estimador emplee todos los valores de los datos (información) para estimar el parámetro. Sabemos que la media de la muestra, X, es un buen estimador de la media poblacional, µ. También podríamos utilizar otros estimadores como: la mediana, el promedio de los valores extremos de la distribución, la media de los cuartiles primero y tercero, etc. Sin embargo, basta con observar las fórmulas de estos estadísticos para darse cuenta de que la media es un estimador suficiente. Así, si utilizamos el promedio de los extremos de la distribución sería: X.1 +X.1 '"' sólo empleamos en el cálculo el valor de la puntuación más alta '"P 2 y el de la más baja. Mientras que en la media X= es evidente que ¿/; n empleamos todos los valores de X;. Así pues, el estimador suficiente de µ es X. Del mismo modo, la varianza y la varianza insesgada, así como la proporción son estimadores suficientes de cr 2 y n, respectivamente. Como resumen, las propiedades de los estimadores media, proporción y cuasivarianza son: l. La media muestra! se considera buen estimador de la media poblacional ( X = Cumple las propiedades de ser insesgado, consistente y suficiente. µ,). 2. La proporción muestra! (P) se considera buen estimador de la proporción poblacional = ;), ya que cumple las propiedades de ser insesgado, consistente y suficiente. (P (s;) 3. La varianza muestra! cumple las propiedades de ser consistente y suficiente pero no es insesgado. Por esta razón, la cuasivarianza se considera un buen estimador de la varianza poblacional ( ; 2 = s;_1 } Cumple las propiedades de ser insesgada, consistente y suficiente, aunque su eficiencia (que compara dos estimadores) es menor en relación con la varianza muestra!. 438 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAf:jO MUESTRAL 10.2.2. Métodos de obtención de estimadores Una vez que ya se sabe qué propiedades han de cumplir los estadísticos para que se puedan emplear como estimadores, se estudia cómo se estima el parámetro, o lo que es lo mismo, cómo se determina su valor o los valores entre los que se encuentra. Existen varios métodos para la obtención de estimadores que garantizan las propiedades antes enunciadas y que se aplican en circunstancias específicas. Sin embargo, hay dos que son los más empleados para obtener los estimadores que habitualmente utilizamos en Psicología y Ciencias de la Salud. Estos métodos son mínimos cuadrados y máxima verosimilitud . ■ Método de mínimos cuadrados. Este método trata de obtener aquel estimador que minimice las distancias (al cuadrado) entre el valor estimado del parámetro y los resultados muestrales observados (Novo, 2010). Es decir que: I, (X; - 0)2 sea mínimo, donde i = 1, 2, ... , n No siempre es el mejor método, pero resulta muy útil para estimar los parámetros de la regresión, por ejemplo. ■ Método de máxima verosimilitud. Este método obtiene como estimador de un parámetro aquel valor del estadístico que hace lo más verosímil posible la muestra obtenida. En otras palabras, se trata de elegir, de entre todos los posibles valores del parámetro, aquel que maximice la probabilidad de obtener el resultado particular observado en la muestra. 10.2.3. Estimación puntual Independientemente del método escogido para la obtención de los estimadores, y partiendo de que el estimador seleccionado cumple las propiedades para ser un buen estimador, la estimación puntual consiste en dar un valor numérico único al parámetro desconocido. En otras palabras, consiste en utilizar el valor del estadístico para estimar el parámetro. Aunque parece muy práctico, este tipo de estimación no deja de tener inconvenientes. Teniendo en cuenta el elevado número de muestras que podemos extraer de la población y que de cada una de ellas podemos realizar una estimación, el número de estimaciones podría resultar excesivo. 439 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGIA Y CIENCIAS DE LA SALUD Además, aun cuando la muestra sea representativa de la población y el estimador cumpla con las características exigidas, no se puede establecer ni la fiabilidad de la estimación ni el error que se comete. En estos casos, lo único que podemos afirmar es que el error cometido en la estimación se hará menor a medida que aumente el tamaño de la muestra. En definitiva, la estimación puntual no siempre es la más aconsejable y útil. Ejemplo 10.3. Retomando el Ejemplo l. l. del Tema 1, la media en la muestra de la variable horas de estudio es 10,55. ¿cuál es la media de las horas de estudio de los alumnos de segundo curso de Bachillerato en la población? En términos estadísticos, les µ = 10,55? Ya que se trata de una estimación puntual diremos que la media de las horas de estudio de los estudiantes de segundo de Bachillerato es 10,55 y nada más podemos aportar. Evidentemente, este dato es poco informativo ya que nada nos dice del error de estimación que se comete (diferencia entre estadístico y parámetro) ni podemos asig nar ningún valor que indique la fiabilidad de la estimación hecha. 10.2.4. Estimación por intervalos La estimación por intervalos consiste en obtener una medida del error (diferencia entre el estimador y el parámetro) que se comete al rea lizar la estimación con una determinada probabilidad. Por tanto, estimar por intervalos es atribuir al parámetro un rango de valores posibles dentro del cual estará incluido el parámetro con una determinada probabilidad. Mediante la estimación por intervalos, en lugar de un solo valor (como en la estimación puntual), obtenemos un rango de posibles valores del parámetro, que se denomina intervalo de confianza y a cuyos límites se les llama límites del intervalo de confianza. En la Figura 10.1, los corchetes indican cuáles son los límites del intervalo y la llave los posibles valores estimados del parámetro 0. L;nr hace referencia al límite inferior y Lsup al límite superior del intervalo. 440 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL [ 0 ] Figura 10.1. Representación de los límites del intervalo y posibles valores del parámetro 0 en una distribución. A la zona sombreada se le denomina nivel de confianza (n.c.), y se corresponde con la probabilidad asociada al intervalo que contiene todos los posibles valores que puede tomar el parámetro 0. Se le llama nivel de confianza y no de probabilidad ya que, una vez extraída la muestra, el intervalo de confianza contendrá al verdadero valor del parámetro o no. Lo que sabemos es que si repitiésemos el proceso con muchas muestras podríamos afirmar que el (1- a )% de los intervalos así construidos contendría al verdadero valor del parámetro. a es el nivel de significación y hace referencia a la cuantía del margen de error que se asume a priori. La principal ventaja de este método es que se puede valorar la seguridad con la que se realizan las estimaciones mediante el nivel de confian za , el cual se expresa en términos de probabilidad. A continuación vamos a presentar algunas características del intervalo de confianza: ■ Relación entre amplitud del intervalo y nivel de confianza En la Figura 10 .2 se muestran tres distribuciones en las que se han establecido tres intervalos de confianza (zona sombreada en el grá fico) que van aumentado a medida que aument a 1 - a . Como se puede apreciar, cuanto mayor es el intervalo de valores mayor es la probabilidad de que se encuentre dentro de él el verdadero valor de 0 y la estimación es menos precisa . Lo anterior quiere decir que la 441 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD precisión de la estimación se relaciona de forma inversa con el nivel de confianza, a mayor confianza en la estimación, mayor será el intervalo (el rango de posibles valores del parámetro) y, como consecuencia, la estimación es menos precisa. En resumen, a mayor confianza menor precisión. a) 1- a = 0,60 b) e) l- a =0,95 1 - a = 0,99 Figura 10.2. Distribución con nivel de confianza : a) 0,60; b) 0,95; c) 0,99. ■ Fijación del nivel de confianza El investigador es quien decide y fija el valor del nivel de confianza en función de la valoración personal que hace sobre diversos aspectos: el diseño de su trabajo, la definición y obtención de la muestra, la recogida de información, etc. Por convenio, en general se adoptan los niveles del confianza de 1- a = 0,95 ó 1- a = 0,99. ■ Nivel de riesgo o significación a El opuesto al nivel de confianza se llama nivel de riesgo, margen de error o nivel de significación y se rep resenta por a . Indica la proba bilidad de que el valor del parámetro no se encuentre dentro de los límites definidos. Como se desprende de la Figura 10.3, a se reparte entre los dos extremos de la curva que delimitan el intervalo de confianza (1 - a ). Es decir, que el margen de error se divide en dos partes iguales siendo el área correspond iente a cada una a /2 (zonas sombreadas en la figura). 442 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL a/2 ~ Figura 10.3. Representación del nivel de riesgo (zonas sombreadas) de una distribución . Entre el nivel de confianza (1- a) y el nivel de riesgo o significación a existe una relación inversa. Como vemos en la Figura 10.4, cuanto mayor es el nivel de confianza menor es el margen de error. a) a = 0,05 Nivel de confianza= 1 - 0,05 = 0,95 0,95 b) a = 0,01 Nivel de confianza= 1- 0,01 = 0,99 0,005 0,99 Figura 10.4. Representación del nivel de riesgo a) a= 0,05; b) a= 0,01 443 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 10.3. CÁLCULO DEL INTERVALO DE CONFIANZA Para poder calcular el intervalo de confianza de un parámetro cualquiera es necesario conocer la distribución muestra! del estadístico correspondiente y los parámetros que la definen. Es decir, conocer la esperanza matemática y el error típico. En general, para construir un intervalo de confianza para un parámetro se suma y se resta al estimador, 0, una cantidad que llamamos error máximo de estimación, Emax , y que veremos en los apartados siguientes. Para comprender bien como se define el intervalo de confianza se retoma el concepto de puntuación Z (ver Tema 3) ya que, junto a la definición de error de típico (ver Tema 9) son los elementos necesarios para entender cómo se construyen los intervalos de confianza y cuál es su significado . En el tema anterior se ha expuesto cuál es la distribución muestra! de la media en función de las condiciones de la variable aleatoria X en la población . En las páginas siguientes vamos a presentar cómo se determinan los intervalos de confianza correspondientes a la media (con varianza poblacional conocida y desconocida), la proporción y la varianza. 10.3.1. Intervalo de confianza para el parámetroµ con cr2 conocida Si la variable aleatoria X sigue una distribución normal en la población, y se conoce la varianza poblacional, la distribución muestra! de la media X es X ➔ N(µ; J-¡;}siendo E(x) = µy ª x = Jn· Ya que la distribución muestra! de la media es normal, se tipifica sin más que aplicar la transformación a Z: X- E(x) X - µ Z- - - - - - - ªx - - a/ ✓ n donde Z es N(O,1). Acudiendo a las tablas de la distribución normal del Formulario ( explicada en el Tema 8), se puede calcular la probabilidad de que la variable Z 444 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL se encuentre entre dos valores concretos. Si a se corresponde al margen de error (o nivel de significación que se ha fijado) tendremos la representación que se muestra a continuación. Figura 10.5. Curva normal con la representación de la puntuación t ipificada Z, el intervalo de confianza y el nivel de significación. Sustituyendo Z por su valor: ( p Z a. / 2 :s; µ -X -✓ n :s; Z l - a/2 <J / ) == 1 - CX A partir de esta expresión, el objetivo es determinar los intervalos para µ: p ( za/2 1✓n :s; X - µ :s; z l - a/2 1✓n) == 1 - a Restando la media X en todos los términos: p (-x+ z a./2 1✓n :s; - µ :s; -X+ z l - a/2 1✓n) == 1 - a multiplicando por -1: 445 11 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD teniendo en cuenta que Z 012 = - Z 1 _ 012 : (10.4) donde los límites del intervalo son: (10.5) (10 .6) La semi -amplitud (la mitad de la amplitud) del intervalo de confianza se denomina Error máximo de estimación, siendo su valor E max = ¡ z012 l cr/✓n. Nos indica que el investigador asume con un nivel de confianza del (1 - a )% que la diferencia máxima entre el valor estimado a partir de la muestra y el valor real del parámetro es igual a: (10.7) Ejemplo 10.4. Se sabe que la subescala de Fluidez Verbal del Explorador Neuropsicológico de Fluidez Verbal en niños (ENFV) es una variable que se distribuye N Se selecciona una muestra de 100 niños superdotados y se les administra el test, obteniendo una media X = 23 y una desviación típica S x = 5. ¿Entre qué valores se encuentra la media de la población de niños superdotados con un nivel de confianza n.c. = 1- a= 0,95? (µ; .J4s). 446 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL Intervalo de confianza y nivel de confianza para a= 0,05 Intervalo a: [-1,96; 1,96] Por tanto, teniendo en cuenta que conocemos la desviación típica de la población, cr = J45 = 6, 71, los valores que delimitan el intervalo de confianza son: Linf : X - 1, 96 cr/ ✓ n = 23 -1, 96 x 6, 71/Jioo = 21, 68 Lsup: X+ 1, 96cr/✓ n = 23 + 1, 96 x 6, 71/✓100 = 24, 32 El intervalo de confianza de la media en fluidez de los niños superdotados es: P(21,68 ~ µ ~ 24,32) = 0,95 Siendo sus límites µ: [21,68; 24,32] Es decir, que con una confianza del 95% la media en la subescala de Fluidez del ENFV de los niños superdotados se encuentra entre 21,68 y 24,32. La obtención de los intervalos correspondientes a la media, conocida la varianza poblacional y siendo normal la distribución de la variable de estudio es aplicable también al caso en el que la variable no siga la distribución normal siempre y cuando el tamaño de la muestra sea grande (n > 30). Como se vio en el Tema 9, el Teorema del Límite Central establece que la distribución muestra! de la media se aproxima a la distribución normal a medida que el tamaño de la muestra va aumentando ( en la práctica con n > 30 el ajuste es bastante bueno) sin que necesariamente la variable aleatoria X tenga una distribución normal. De este modo, cuando el tamaño muestra! sea grande y queramos estimar la media poblacional, podemos utilizar el intervalo antes definido. 447 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 10.5. Sea X una variable de distribución desconocida y con desviación típica poblacional cr = 4. Se extrae, mediante muestreo aleatorio simple, una muestra de tamaño n = 50 y se obtiene una media X = 44. ¿Entre qué valores se encuentra la medía de la población con un nivel de confianza n.c. = 1 - a= 0,95? Por el Teorema del Límite Central se sabe que cuando n > 30 (en nuestro caso n = 50) la X tiende a la distribución normal con µx = µ y 4 4 · · ' t1p1ca ' . o error t1p1co ' . 1gua . 1 a: cr:x = fñ cr = .Jso d esv1ac1on = , = O, 57 7 07 Por tanto, se puede decir que la distribución muestra! de la X se aproxima a N(µ; 0,57) . Valores Zª 12 : [-1,96; 1,96] Por tanto, teniendo en cuenta que conocemos la desviación típica de la población, cr = 4, los valores que delimitan el intervalo de confianza son: L;nf : X - 1, 96cr/fñ = 44 - 1, 96 x 4/ .Jso = 42, 88 Lsup: X+ 1, 96cr/fñ = 44 + 1, 96 X 4/ .Jso = 45, 12 El intervalo de la media poblacional con un nivel de confianza de 0,95 es: P(42,88 < µ < 45,12) = 0,95, siendo sus límitesµ: [42,88; 45,12] 10.3.2. Intervalo de confianza para el parámetroµ con cr2 desconocida Si la variable aleatoria X tiene distribución normal en la población, pero la varianza cr 2 es desconocida, sabemos del Tema 9 que la distribución muestra! de la media X sigue la distribución t de Student definida por: X ~ t (µ; Esto implica que: 448 5 .7,; 1 ) con n - 1 grados de libertad. 1 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL T = / ;¿ , también sigue una distribución t con n- 1 g.l. n- 1 ✓ n El intervalo de confianza para T sería: p ( tn - l; a/2 :::; T ::,; tn - 1;1 - a/2 ) =1- a y sustituyendo en T: [ X- µ p tn - l;a/2 ::,; -5-:::; tn - l;l - a/2 n- 1 ] =1- (10.8) a ✓ n Siguiendo el mismo razonamiento que en el caso anterior (conocida a) se tiene: p ( -X - 5 1tn - l;a/2 1 Jn - µ -< ____il__::_!_ < 5 -X + 1tn - l;a/2 1 ____il__::_!_ Jn ) -- 1 - a (10.9) Los límites del intervalo de confianza son: Jn Linf = -X sn- 1 (10.10) Lsup = -X+ 1tn - l;a/2 1 sn Jn- 1 (10.11) 1 - tn - l; a/2 1 449 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 10.6. En un colegio se selecciona, por muestreo aleatorio simple, una muestra compuesta por 90 niños y se les adm inistra el Test de Raven de inteligencia. La media y la cuasidesviación típica obtenidas en la muestra fueron respectivamente 100 y 14. ¿Entre qué valores de encuentra la media de la población de niños en el Test de Raven de inteligencia con un nivel de confianza (n.c.) 1- a= 0,95, si se sabe que la distribución en la población es normal? Se trata del caso en el que debemos estimar el intervalo para la me día poblacional no conociendo la varianza poblacional y sabiendo que la distribución de la variable en la población es normal. Por tanto, buscamos el intervalo para µ: p (X - ltn - l; a/2 I s:¿ : ; µ ::; X + ltn - l; a/2 I s¡,t )= 1 - a Valores tn - l; a/ 2 de las tablas de t de Student (ver Formulario): tn - l ;a/2 = t89;0,02 5 = t89 ;0,975 = ±1, 987 Los límites del intervalo de confianza son: l,nf = -X - .Jri tn - l; a/2 1 sn - 1 1 14 = 100 - 2, 92 = 97, 08 = 100 - 1, 987 X .Jgo 14 = 100 + 2, 92 = 102, 92 ½up = -X + 1tn - l; a/ 2 1 sn .Jri- 1 = 100 + 1,987 X .Jgo Así pues, el intervalo de confianza de la media en el Test de Raven de los niños es: P (97, 08 < µ < 102, 92) = O, 95 y sus límitesµ: (97, 08; 102, 92] Es decir, que con una confianza del 95% la media en el test de Raven de los alumnos de Primaria se encuentra entre 97,08 y 102,92. 450 ~ ' ESTIMACIÓN DE PARAMETROS Y CALCULO DEL TAMAÑO MUESTRAL En caso de que la variable X tenga una distribución desconocida y el tamaño muestra! sea n 2 30, según el Teorema del Límite Central, la dis5 tribución muestra! de la media es normal X~ Z (µ; J~/} Por tanto, los límites de los intervalos en esta aproximación a la normal son: -1 l..;nf = -X - 1z a/2 1 sn ✓ n (10.12) (10.13) 10.3.3. Intervalo de confianza para el parámetro 1t (aproximación a la normal) La distribución muestra! del estadístico P cuando se cumple que la muestra es grande (n 2 30; o nP 2 5 y n (1 - P) 2 5) es N(0,1) aproximadamente, por lo que z = ~ - A partir de la tipificación de P podemos n(l - n) n construir el intervalo de confianza de la siguiente manera: 1 P- n p Z a/2 ~ ~ ~ Zl-a/2 = 1 - a P (1 - P) 1 (10.14) n Aplicando el mismo razonamiento que el visto en los estadísticos presentados y, haciendo las correspondientes transformaciones, se tiene que la probabilidad de obtener un intervalo de confianza que contenga el parámetro es: 451 INTRODUCCIÓN Al ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD (10.15) siendo sus correspondientes límites: (10.16) (10 .17) Ejemplo 10.7. En un Centro Asociado de la UNED se se leccionan al azar 120 estudiantes de diferentes carreras, de los cuales 54 son bilingües. Se desea conocer el intervalo de confianza al 95% relativo a la proporción de estudiantes bilingües en este Centro. P= L.;nf = P - z a12 f.;nf ½up v~ ~ = 0, 45 - 1, 96.j(O, 45 = 0, 45 54 = O 45 120 ' X 0, 55)/ 120 = 0, 45 - 0, 088 = 0, 362 + 1, 96.j(O, 45 X 0, 55)/120 = 0, 45 Por tanto, el intervalo es: P(0,36 ~ n ~ 0, 54) Los límites son: [0,36; 0,54] 'l'~ 452 + 0, 088 = 0, 538 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL Por ello, podemos decir que con una confianza del 95% la proporción de alumnos del Centro Asociado de Madrid que son bilingües se en cuentra entre 0,36 y 0,54. 10.3.4. Intervalo de confianza para el parámetro o-2 Al presentar la estimación puntual en el apartado 9.2.1 se vio que la varianza 5~ es un estimador sesgado de cr 2 , siendo la cuasivarianza el estimador insesgado . Por este motivo vamos a utilizar la cuasivarianza 2 muestra!, 1 como estimador de cr . 5;_ Además, sabemos que (n - 1)52 O' 2 n- l se distribuye x~_1 . Podemos construir el intervalo de confianza con un nivel de confianza de 1 - a : (n - 1)5; _1 2 p ( Xn - 1,a/2 :;; 0'2 2 :;; Xn - 1,1-a/2 l' (10.18) dividiendo por (n - 1) 5;_1 los términos de la desigualdad: P X~ - l, a/2 2 [ (n-1)5nl < - _.!,_ < a 2- X~ - 1,1 -a/2 ) 2 (n-1)5n- l =l _ ª Por tanto, el intervalo de confianza para la varianza queda definido por la expresión: P (n - 1)5; _1 [ 2 Xn - 1, a/2 2 cr 2 2 (n - 1)5;_1 ) 2 Xn - 1,1 -a/2 = 1 -a (10.19) Sus límites inferior y superior son: 453 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD L;nr = (n - 1)5,;_1 (10.20) 2 Xn - 1,1- a/2 (n -1) 5,;_ = __2 _ __1 Lsup (10.21) Xn - l ,a/2 El límite inferior se refiere a 1 - ½· Esto se debe a que se trata de una desigualdad dada por (10.17), que nos indica que cr 2 2'. que es lo mismo (n - 1)5 2 n- l 2 Xn - 1,1 -a/2 (n - 1)5 2 1 n- , 2 Xn - 1,1 -a/2 o lo :s; cr 2 es decir, el límite inferior. Ejemplo 10.8. La variable estrés en el trabajo se distribuye normalmente en una determinada población de trabajadores. En una muestra aleatoria de 20 trabajadores se obtuvo una cuasivarianza de 12,89. Calcular el intervalo de confianza de la varianza con un nivel de confianza del 95%. Dado que desconocemos la varianza poblacional debemos utilizar su estimador, que es la varianza insesgada: Por tanto, el intervalo de confianza para cr 2 es: p (n-1)5,; [ 2 - 1 2'. cr 2 2'. Xn- 1,a/ 2 (n - 1)5,; 2 - 1] Xn - 1,1-a/2 Cuyos límites son: '-; f n 4, = (n-1)5,;_1 = (20 X~ - 1,1- a/2 1) x 12,89 Xf 9,0,975 = 244,91 32, 8 523 = 7, 45 = (n-1)5,;_1 = (20 - 1) x 12,89 = 244,91 = 27 50 8 , 9065 X~ - 1, a/ 2 Xf 9,0,025 1 up 454 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL El intervalo de confianza para la varianza es: P (7, 45 $ cr 2 $ 27, 50) y los límites: [7,45; 27,50] Por tanto podemos decir que, con una confianza del 95%, la varianza de la variable estrés en el trabajo se encuentra entre 7,45 y 27,50. Cuando las muestras son grandes (se considera grande cuando n > 100), la distribución muestra! de la varianza insesgada se puede aproximar a la 2. 2 norma I N ( cr , Sn - l [2). ~n Por lo tanto, cuando n > 100 se puede construir el intervalo de confianza para la varianza definido como: (10.22) Los límites del intervalo son: (10.23) (10.24) Ejemplo 10.9. En una población, la variable motivación se distribuye normal. Se extrae una muestra aleatoria de tamaño 120 y se obtiene una cuasivarianza muestra! de 6. Construir el intervalo de confianza de la varianza para un nivel de confianza del 95%. 455 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 2¡¡.2f2 Í;nf = Sn- 1 - Za/2 Sn- 1\{,i =.6 -1, 96 '-sup =SL1 +Jza;2Js;_l ~ X 6 X íT" = 6 -1, 518 = 4, 48 VLlO =6+1,96 x 6 x ✓1~0 =6+1,518=7,52 P(4,48 ~ cr 2 ~ 7,52) y los límites: [4,48;7,52] 10.4. SIGNIFICADO DEL NIVEL DE CONFIANZA Según acabamos de ver, un intervalo tiene asociado un nivel de confianza que podría interpretarse, en principio, como la probabilidad de que el parámetro desconocido se encuentre entre los límites del intervalo. Sin embargo, esto no es del todo correcto, ya que el concepto de probabilidad solo es aplicable a variables y los valores de los límites del intervalo una vez calculados son valores constantes (no son variables). Para interpretar correctamente el nivel de confianza asociado al intervalo (por ejemplo 0,95) se debe pensar de la siguiente manera: si se extraen un número elevado de muestras (todas del mismo tamaño) y calculamos la media en cada una de ellas, obtendremos tantos intervalos de confianza como medias hayamos calculado. Pues bien, el 95% de todos los intervalos calculados tienen dentro al parámetro y el 5% no. O lo que es lo mismo, de cada 100 intervalos que construyamos, cabe esperar que 95 capten el valor del parámetro (intervalos correctos) y 5 no lo capten (intervalos incorrectos). Por tanto, una proporción de 1 - a , de todos los intervalos de confianza contendrá al parámetro poblacional y una proporción a no los contendrá. En la Figura 10.6 los intervalos correspondientes a X 1 y X 4 no cubren el valor del parámetro , mientras que los intervalos de X2 y X 3 sí lo hacen: 456 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL a/2 \ 11 • •µ • X3 X2 X4 X1 Figura 10.6. Representación _g_el ~rá!:!l_etrQ__J.-1 y los intervalos correspondientes a las medias muestrales X1, X2, X3 y X 4. Como puede observarse en la figura, las medias X 1 y X 4 están dentro de la zona sombreada y el intervalo de confianza NO contiene a la media poblacional. Sin embargo, X 2 y X 3 están en la zona no sombreada y contienen al parámetro. Por tanto, cualquier valor de la media que se encuentre en las zonas sombreadas da lugar a intervalos que NO con tienen al parámetro, siendo la probabilidad de que esto ocurra de 0,05 (0,025 + 0,025). Por el contrario, el valor de la media que se encuentre en la zona no sombreada contendrá al parámetro y la probabilidad de que ocurra es de 0,95. Se habla de probabilidad cuando se hace alusión a la variable media , por eso al referirnos al intervalo hablaremos de confianza y no de probabilidad. 10.5. GENERALIZACION DE LA CONSTRUCCIÓN DE INTERVALOS Se puede generalizar el procedimiento de construcción de intervalos representados por: 457 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD IC = [Estimador ± Error máximo de estimación]= [e± Emax ] (10.25) Para estimadores con distribución muestra! conocida, los pasos para construir el intervalo son: l. Determinar el parámetro que queremos estimar y el estadístico (estimador) que, cumpliendo con las propiedades que debe tener un buen estimador, lo estima. 2. Conocer la distribución muestra! del estadístico (estimador) y los parámetros que la definen (media y error típico). La distribución muestra! nos da las probabilidades asociadas a cada uno de los valores (ver Tema 9). 3. Fijar el nivel de significación a o el nivel de confianza 1- a . Recuérdese que a lo fija el investigador en virtud de la valoración personal que hace de la seguridad de sus datos y del empleado por otros investigadores en las mismas o muy similares circunstancias . Suele ser por convenio: a= 0,05 o a= 0,01. 4. Determinar el error máximo de estimación (Emax ) definido por el producto del error típico de la distribución muestra! del estadístico que estima al parámetro por el valor del estadístico (Z, T, F, etc.) correspondiente al nivel de significación prefijado. 10.6. FACTORES QUE AFECTAN AL INTERVALO DE CONFIANZA Entre los factores que pueden afectar al intervalo de confianza tene mos: ■ Nivel de confianza Según se ha visto en los apartados anteriores, la mayor o menor am plitud de un intervalo (o también, menor o mayor precisión) depende fundamentalmente del nivel de confianza con el que se decide trabajar. De este modo, con 1 - a= 0,95 tendremos intervalos menos amplios (o más precisos) que con la elección de 1 - a = 0,99 . 458 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL ■ Error típico El error típico no es más que una medida de la variabilidad de la distribución muestra! del estadístico (ver Tema 9). Por tanto, depende del tamaño muestra! n y de la homogeneidad de la muestra, afectando ambos factores al intervalo de confianza. ■ Tamaño muestra! El error típico es inversamente proporcional al tamaño muestra!, por tanto, a mayor tamaño muestra! n menor es el error típico y, por tanto, menor amplitud del intervalo y mayor precisión. ■ Homogeneidad de la muestra Sí las muestras son homogéneas eso quiere decir que la varianza es pequeña y por ende la desviación típica (ya sea poblacional o muestra!), en consecuencia el error típico será pequeño, consecuentemente la amplitud del intervalo es menor y por tanto la precisión será mayor. 10.7. CÁLCULO DEL TAMAÑO MUESTRAL En el Tema 9 se han descrito las distintas técnicas de muestreo, pero se dejó pendiente el cálculo del tamaño muestra!. Con los conocimientos abordados en este tema ya se puede hacer frente a esta cuestión, que será la última que se estud ie en este curso de Introducción al Análisis de Datos. Todo estudio en el que se trabaja con muestras, además de garantizar la representatividad de las mismas (que se consigue utilizando el procedimiento de muestreo acorde a la situación de investigación planteada), es imprescindible determinar el tamaño que ha de tener la muestra. El tamaño muestra! tiene que ser suficiente para garantizar la precisión deseada en la estimación de los parámetros y/o detectar de forma correcta diferencias entre los grupos en el caso de que existiesen, valorar la intensidad de la relación, etc. Como se ha comentado en la introducción a este tema, la Estadística Paramétrica (dentro de la Inferencia Estadística) tiene dos procedimientos de trabajo: la estimación de parámetros y el contraste de hipótesis. En ambos se parte de los datos muestrales. Sin embargo, en la estimación de parámetros se responde a una pregunta sobre la población, mientras que el contraste de hipótesis se hace una afirmación sobre la 459 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD población que luego se comprueba. Por tanto, hay dos situaciones que se deben considerar a la hora de determinar el tamaño muestra!. En la estimación de parámetros, los factores que influyen en la determinación del tamaño muestra! son: ■ El parámetro que se va a estimar. ■ El error máximo (Emax) que el investigador está dispuesto a admitir. ■ El nivel de confianza ( 1 - a) con el que se trabaja. ■ La precisión que se desea para el estudio. ■ La variabilidad que presenta la población en relación a la variable en estudio. En el contraste de hipótesis los factores son: ■ El error tipo I (a) y error tipo II (P) y la potencia estadística. ■ Magnitud de la diferencia (o tamaño del efecto). ■ Direccionalidad de la hipótesis. ■ Variabilidad de la población respecto a la variable en estudio. Estos factores no son objeto de estudio este curso. Se definirán y estudiarán con detalle en la asignatura Diseños de Investigación y Análisis de Datos de segundo curso. En ambos casos, el tamaño muestra! debe ser un número entero y, por tanto, cuando su cálculo de lugar a un número decimal debe redondearse siempre al inmediato superior. En el apartado siguiente se presentan los cálculos de los tamaños muestrales para la estimación de parámetros, en concreto, para el parámetro media y proporción. 10.7.1. Tamaño muestral para el parámetro media La determinación del tamaño muestra! gira en torno a los conceptos de error típico y de error máximo de estimación. Al igual que en la determinación del intervalo de confianza, hay dos posibles situaciones: conocer o desconocer la varianza poblacional. 460 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL 10.7.1.1. Conocida la varianza poblacional En este caso, el error máximo de estimación viene dado por: Emax 2 a12I =l ✓ n ª . Si elevamos al cuadrado y despejamos n tendremos: (10.26) En el caso de poblaciones finitas y muestreo sin reposición debe multiplicarse por el factor de corrección: ., 1a po bl ac1on . ✓NN -- n1 donde N es el tamaño de Entonces: E max = l2 a12lcr ✓N - n ¡¡:, N - l (10.27) Y, por tanto: (10.28) Ejemplo 10.10. Se sabe que la subescala de Fluidez del ENFV es una variable que se distribuye N (µ, .J4s). A) lQué tamaño muestra! es necesario para que el error cometido en la estimación de la media en Fluidez de la población de niños superdotados de Madrid (N = 20000) sea como máximo de 1,05 para un nivel de confianza de 0,99? 461 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD n= 2z2 _cr ___,aJ_ 2 = E~ax 2 45 X 2, 58 = 299,538 = 271 69 "" 27 2 (1, 05)2 1, 1025 ' B) Si se sabe que N = 20000 y que el muestreo es sin reposición, ¿cuánto sería el tamaño muestra! necesario? Dado que la población es finita: 2 n= = - 2, 58 2 Z~12 cr N 2 Emax (N - 1) + 2 2 = Z a ;2CJ 5990760 22348, 4355 = 268 ' 1,05 2 X x 45 x 20000 19999 + 2,58 2 X 45 = 06 "" 269 10.7.1.2. Desconocida la varianza poblacional Lo habitual en la investigación es que no se conozcan los parámetros media y varianza poblacional. En estos casos, la varianza también debe ser estimada, al mismo tiempo que la media, mediante su estimador insesgado, la cuasivarianza. La distribución muestra! del estadístico media (que es el que queremos estimar) se ajusta a una distribución t de Student con n - 1 grados de libertad (n = tamaño de la muestra). Según se vio al presentar los interva los de confianza, en el caso de la varianza, el error máximo de estimación , Emax vendrá dado por: (10.29) siendo tn - l ;a/ 2 el valor de la distribución t de Student con n - 1 grados de libertad . E~ax 462 = t2 . 52 n- l,a/ 2 n - l , n y despejando n: ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL 2 n = tn - l·,a/2 52 n- 1 (10.30) E~ax En el caso de poblaciones finitas o muestreo sin reposición habrá que multiplicar por el factor corrector siendo, en consecuencia, el valor n: (10.31) Como se ha dicho, t 1 _a; 2 ;n - l sería el valor de t de Student en la Tabla VI (ver Formulario) con n - 1 grados de libertad para la probabilidad (1- a ) especificada. Ahora bien, si no se conoce todavía n, ¿cómo buscar en las tablas t de Student con n - 1 grados de libertad? Existen dos soluciones posibles: a) trabajar mediante aproximaciones sucesivas por un procedimiento iterativo; b) aproximar la distribución t de Student mediante la curva normal. Se presentan ambas soluciones a través de un ejemplo . Ejemplo 10.11. Se está interesado en determinar el consumo diario medio de cigarrillos en una cierta población de fumadores . Sabemos por estudios anteriores que la cuasivarianza vale 23,48 y se supone la población infinita. En estas condiciones, ¿qué tamaño muestra! es necesario para que el error máximo cometido en la estimación sea menor de 0,75 cigarrillos con una probabilidad de 0,95? Solución a: Procedimiento iterativo Se parte de un número cualquiera de grados de libertad (po r ejemplo 26) y se obtiene el tamaño de n. A partir de este valor, se vuelven a calcular los grados de libertad y n, y así hasta que dos valores sucesivos de n sean iguales: iteración O: g.l. = 26 ; t 26 ; 0,0 25 = - 2,06 463 11 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD n = -2, 062 X 23, 48 0 1 75 2 = 177, 14 » 178 iteración 1: g.l. = 177 ; t 177 ; 0,025 = - 1,98 (aproximadamente) n = 1,982 X 23,48 o 75 2 =163 1 65 » 164 I iteración 2: g.l. = 163; t163 ;0,025= -1,98 n = 1,982 X 23, 48 = 163 65 » 164 0 1 75 2 ' Puesto que en dos iteraciones sucesivas se ha obtenido el mismo valor paran, se da por finalizado el proceso. El tamaño muestra! necesario es de 164. Solución b: Aproximación a la normal Para el segundo procedimiento se parte de la base de que la distri bución t de Student se aproxima a la normal a medida que se incrementa el número de grados de libertad. Por tanto, el error cometido al utilizar la distribución normal no será grande. Veamos: n = 1,962 X 23, 48 = 160, 35 » 161 o, 75 2 Como se puede apreciar, la diferencia entre uno y otro procedimiento es de sólo tres sujetos. Habitualmente los resultados obtenidos con ambos métodos son muy parecidos, por lo que cuando no se requiera una exactitud extrema, bastará con el procedimiento de la aproxi mación mediante la curva normal, que es considerablemente más sencillo y rápido. Otra cuestión es que, si aún no hemos obtenido la muestra (de hecho estamos determinando su tamaño), lcómo podemos saber cuál es la varianza insesgada en nuestra muestra? Existen diferentes posibilidades, 464 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL pero el procedimiento más cómodo y efectivo es obtener un valor aproximado para la desviación típica insesgada (Sn _1 ). A partir de estudios previos, o de la realización de un estudio piloto, partiendo de este valor de Sn- l se calcula el tamaño muestra! (n) y se procede a la selección de la muestra, medida de las variables, etc . 10.7.2. Tamaño muestral para el parámetro proporción Como ya se sabe la distribución muestra! de Pes: Cuando n > 30 el error máximo es: (10 .32) Por tanto: z; 12 P (1 - P) n =- --- 1 (10.33) E~ax Para la determinación del error típico de P su rge ahora un problema añadido a los comentados en el caso de la estimación de la media, puesto que p y q = (1 - p) dependen directamente de P, y es precisamente este parámetro el que hay que estimar. Lo que se suele hacer en la práctica es suponer que la varianza de la distribución muestra! es máxima (es decir, p = q = 1 - p = 0,5), con lo que la muestra será casi con toda seguridad su perior a lo estrictamente necesario pero, por contra, no habrá que hacer suposiciones arriesgadas sobre el valor de p. Si la población es finita, o el muestreo es sin reposición , habrá que corregir el tamaño muestra! multiplicado la expresión por el factor de . , ~-n correcc1on: -N - 1 465 INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD n = z;¡2P(l-P) ✓ N-n = N -1 E~ax z;¡2P(l-P)N E~ax (N - 1) + z; 12 P (1- P) (10.34) Ejemplo 10.12. Una muestra seleccionada al azar de alumnos de Psicología indica que el 30% no está de acuerdo con el nuevo plan de estudios. ¿cuál es tamaño muestra! necesario para que el error máximo de estimación asociado al intervalo de confianza al 95% sea 0,06? Se asume población infinita. Sabemos que p = 0,30 y que Emax = 0,06 Por tanto: n= z;12 P (1 - P) = 1,96 2 Emax 2 x O, 30 x O, 70 = » 224 17 225 2 ' 0,06 Si no se conoce el valor de P se supone varianza máxima, es decir: p = 0,5 n= z; 12 P (1- P) = 1,96 E2 max 2 x o, 5 x O, 5 = O, 9604 = » 266 78 267 O, 06 2 O, 0036 ' 10.8. RESUMEN A lo largo de este tema se ha expuesto una de las cuestiones esenciales de la Estadística Inferencia!, la estimación de parámetros. Se han presentado las propiedades que debe tener un estimador así como los procedimientos más habituales de estimación. Se ha estudiado la estimación puntual de parámetros y se ha centrado la exposición en la estimación por intervalos de confianza, exponiendo el procedimiento y su justificación. Se ha dedicado especial atención a la estimación correspondiente a aquellos estadísticos estudiados a lo largo de esta materia y que son el fundamento de todos los análisis estadísticos. Sobre la base de estos conocimientos se han presentado los métodos de cálculo del tamaño muestra! necesario para realizar la estimación de 466 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL parámetros conforme a los márgenes de error deseados y a las características del parámetro a estimar de forma que se garantice su validez. Se puede decir que con este tema se inicia el estudio de la Estadística Inferencia!, que es el contenido esencial de la materia Diseño y Análisis de Datos de segundo curso. 10.9. E ERCICIOS 10.1. La eficiencia relativa se define como ER CT · = _§_ ' si ER < 1, podemos CT • a, decir que: A) 8i es un estimador menos eficiente que 02; B) 01 es un estimador más eficiente que 02; C) sin conocer el sesgo no se puede decir nada de la eficiencia. A A A 10.2. Sabiendo que la varianza muestra! (S; ) cumple las propiedades de ser consistente, suficiente y sesgada y que la cuasivarianza muestra! (5~_1) es un estimador insesgado, consistente y suficiente, ¿qué estimador se debe emplear para estimar la varianza?: A) La varianza; B) El cociente de ambos estimadores; C) La cuasivarianza. 10.3. El nivel de confianza se corresponde con: A) la probabilidad asociada al intervalo que contiene todos los posibles valores que puede tomar el parámetro. B) la probabilidad de que el parámetro poblacional tome un valor distinto al estadístico muestra!; C) la probabilidad de que el parámetro tome el mismo valor que el estadístico. 10.4. La precisión de la estimación se relaciona con el nivel de confianza: A) de forma exponencial; B) de forma inversa; C) de forma directa . 10.5. Un psicólogo está interesado en conocer la tolerancia media a la frustración de la población de estudiantes de matemáticas de la Comunidad de Madrid. En un estudio previo se había obtenido que la cuasidesviación típica de esta variable era 13. ¿Qué tamaño muestra! es necesario para que el error máximo cometido en la estimación sea menor de 4 con una confianza del 95%? (Se supone muestreo con reposición y resolver mediante el procedimiento iterativo). A) 44; B) 68; C) 124 . 10.6. Con los datos del problema anterior, ¿cuál es el tamaño muestra! necesario si lo calculamos por aproximación a la normal? A) 124; B) 41; C) 76. 467 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 10.7. Se desea estimar la media en la variable ansiedad rasgo de la población de niños con TDAH. Se extrae por m.a .s. una muestra compuesta por 64 niños con TDAH. Se sabe que la población de niños con TDAH está formada por 3500 niños y que la variable ansiedad se distribuye en dicha población N(µ, 20). ¿Qué error máximo cometeremos con ese tamaño muestra! si el nivel de confianza es del 95% o del 99%? A) 4,86 para a= 0,05 y 6,39 para a= 0,01; B) 3,95 para a= 0,05 y 7,09 para a= 0,01; C) 6,85 para a= 0,05 y 2,39 para a= 0,01. 10.8. Un investigador considera que el Emax obtenido en las situaciones descritas en el ejercicio anterior es excesivo y quiere rebajarlo a 2. ¿Qué tamaño muestra! requiere para un nivel de confianza del 95 y 99% respectivamente? A) 145 para el 95% y 235 para el 99%; B) 187 para el 95% y 165 para el 99%; C) 347 para el 95% y 560 para el 99%. 10.9. Se quiere conocer cuál es la prevalencia de la depresión, con un error máximo del 3% y una confianza del 95%. ¿Qué tamaño muestra! es necesario asumiendo población infinita? A) 987; B) 1068; C) 1232. 10.10. Supongamos que la población de personas con depresión es de 15.000. ¿Qué tamaño muestra! necesitaremos para estudiar la prevalencia de la depresión con las mismas exigencias que en el ejercicio anterior con un error máximo de 3% y una confianza del 95%? A) 997; B) 1068; C) 2478. 10.11. Se sabe que la desviación típica de la altura de los edificios de la Comunidad Gallega es 350 cm . Se quiere estimar la altura media de estos edificios con un error máximo de 100 cm. Se selecciona una muestra de 81 edificios. ¿cuál es el nivel de confianza implicado? A) No se puede calcular; B) 99%; C) 95%. 10.12. Determinar el tamaño muestra! (asumiendo población infinita) de un estudio sobre el hábito de fumar para que, con una confianza del 95%, la proporción estimada de fumadores no difiera de la verdadera en más de un 4%. Se sabe, por estudios previos, que la proporción de fumadores es de 0,05. A) 180; B) 250; C) 115. 10.13. Un psicólogo mide el TR en una tarea de reconocimiento de caras y obtiene una cuasi desviación típica muestra! de 0,5 segundos. ¿cuál es el número de medidas que deberá hacer para que con un 468 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL n.c. del 95% el error de la estimación de la media no exceda de 0,05 segundos? (Resolver por el procedimiento iterativo). A) 385; B) 463; C) 275. 10.14. Un grupo de 144 alumnos de secundaria seleccionados mediante m.a.s. en una determinada Comunidad Autónoma realizan una prueba de conocimientos de matemáticas obteniendo una nota media de 6,3 puntos. La variable se distribuye normalmente N(µ, 6). Calcular el intervalo de confianza para µ con una confianza del 99%. A) (4,52; 5,65); B) (6,58; 7,52); C) (5,01; 7,59). 10.15. Se selecciona una m.a.s . de 400 personas que vieron un nuevo programa de TV. Cien de ellos declararon que les gustó el programa. Con estos datos determine el intervalo de confianza, al 95%, para la proporción de personas que les gusta el pro grama. A) (0,2076; 0,2924); B) (0,3064; 0,5963); C) (0,1164; 0,3963). 10.16. Se selecciona mediante m.a.s. 60 alumnos de primero de Psicología de la UNED y un tercio de ellos habla inglés. Calcule con a= 0,05 el intervalo de confianza para estimar la proporción de alumnos que hablan inglés de esta población. A) (0,418; 0,2419); B) (0,211; 0,449); C) (0,518; 0,6419) . 10.17. Si al lanzar 80 veces una moneda trucada se obtienen 45 caras, ¿cuál es el intervalo de confianza para estimar la proporción de caras, con un nivel de significación del 5%? A) (0,513; 0,624); B) (0,4547; 0,6703); C) (0,562; 0,794). 10.18. Se ha aplicado una prueba para medir el cociente intelectual a una muestra de 100 universitarios españoles elegida de forma aleatoria. Calculada la media de esta muestra se ha obtenido un valor de 98 y una cuasidesviación típica de 15. ¿cuáles son los límites del intervalo de confianza de la media poblacional con un nivel de significación del 1%? A) (105,84; 108,93); B) (85,10; 115,87); C) (94,06; 101,94). 10.19. Con los datos del ejercicio anterior, determine los límites del intervalo de confianza de la varianza poblacional con un nivel de significación del 1%. A) (51,17; 112,33); B) (158,91; 330,85); C) (164,02; 317,91). 10.20. El peso (en gramos) de los recién nacidos sigue una distribución normal. Se selecciona una m .a. de recién nacidos en un hospital 469 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD formada por 20 bebés, siendo la media en peso igual 3500 gramos. Determine el intervalo de confianza al 99% para la varianza y la media, sabiendo que la cuasivarianza muestra! es 36. A) intervalo para la varianza (17,73; 99,94) y para la media (3496,16; 3503,84); B) intervalo para la varianza (3496,17; 3503,83) y para la media (20,82; 76,80) C) intervalo para la varianza (18,62; 56,20) y para la media (3425,34; 3514,37). 10.10. SOLUCIÓN A LOS E ERCICIOS 10.1. Solución: B cr • Ya que ER = ____§_ < 1 ➔ cr 9 < cr 9 ➔ 01 es más eficiente que 02 <J • 1 2 A A e, e 10.2. Solución: 10.3. Solución: A 10.4. Solución: B 10.5. Solución: A Según lo visto en el Apartado 10. 7 .1.2, dado que desconocemos la varianza poblacional, y aplicando el método iterativo: n = t;_ l ,•a/2 S;_ l E~ax Para la primera iteración tomamos (arbitrariamente) n = 15 Iteración O: g .l. = 14; n = t14 ; 0,025 (-2, 145)2 = -2,145 2 X 42 13 = 4,601 X 169 = _ 48 60 49 16 ' Iteración 1: g.l. = 48; t 48 ; 0 , 025 = -2,009 (Dado que el valor de t para 48 grados de libertad no está tabulado tomamos el más cercano g.l. = 50) n 470 (-2, 009)2 X 169 4,036 X 169 16 = ------ = ---- = 4 2 42 63 - 43 ' ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL Iteración 2: g.l. = 42; t42 ; 0 , 025 = -2,021 (Dado que el valor de t para 42 grados de libertad no está tabulado tomamos el más cercano g.l. = 40) (-2, 021)2 x 169 42 4,084 x 169 = 43 14 - 44 16 ' n = - - - - , - - - = - -- Iteración 3: g.l. = 43; t 42 ; 0 , 0 25 = -2,021. El valor den será por lo tanto 44. Dado que las dos iteraciones sucesivas dan el mismo valor para n, el proceso ha finalizado . El tamaño muestra! necesario es 44. 10.6. Solución: B n= 2 5 2 Zi - a/2 n - 1 2 Emax 2 2 = 1, 96 x 13 = 3,842 x 169 = 40 58 "' 41 42 16 ' Como vemos se obtiene un resultado similar. 10.7. Solución: A Es una variable con distribución normal y varianza conocida y en población finita. a) a= 0,05 Emax = Zl - a/2 0 .Jr, = 1, 96 X -✓fA. 20 = 4 ,9 Ya que la población es finita habrá que corregir multiplicando ., por e 1 factor d e correcc,on _ z l - a/2 ª .Jr, E max - ✓N - n _ N - ✓N -n: 1 - 4, 9 N- 1 X 3500 - 64 3499 = 4 , 856 "' 4 , 86 b) a= 0,01 E max 10.8. = Z1 - a/2ª ✓N - n = 2,58 x 20 x 3500 - 64 = 639 .Jr, N - 1 -✓ fA. 3499 , Solución : e Al 95%: 471 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 20 2 22 = X X (-1, 96)2 3499 + 20 2 X 3500 (-1, 96) X 2 = 5378240 = 346 25 "" 347 15532, 64 ' Al 99%: 20 2 x (- 2, 58)2 x 3500 (;2 Z~¡2 N n 10.9. = E~ax (N -1) + <J 2 Z ;¡2 = 2 2 x 3499 + 20 2 x (- 2, 58) 2 = = 9318960 16658,56 = 559 41 "" 560 ' Solución : B Dado que no se conoce p, partimos del supuesto p tanto, q = 1 - 0,5 = 0,5. Supuesto población infinita: = 0,5 y, por Z; 12 P (1- P) n =- -- E~ax Por tanto: n= Z ;¡2 P (1 - P) (-1, 96 )2 x 0, 5 x (1 - 0, 5) E~ax O, 0009 - - - - = - -- -- - - - = 1067 11 "" 1068 ' 10.10. Solución: A Se trata de una población finita, por tanto los cálculos anteriores hay que corregirlos por el factor n= = = 472 Z ;¡ 2 P (1 - P) N 2 2 Emax (N - 1) + Zª 12 P (1 - P) (-1, 96)2 0, 0009 X 14406 14, 4595 X = 0, 5 X (1- 0, 5) X 15000 14999 + 1,96 2 = ~ X 996 30 - 997 ' 0, 5 X (1 - 0, 5) = ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL 10.11. Solución: B = Emax Z l -o./ 2 Zl -o./2CT .Jn = Emax.Jn = 100 X ✓ 81 = 21 57 CT 350 Para conocer el nivel de confianza hay que determinar: P(z $; Za.12) = P(z $; 2,57) = 0,9949 %= P(Z ~ 2,57) = 1 - 0,9949 = 0,0051 (X= 2 X 0,0051 = 0,0102 1- a= 1- O, 0102 = O, 9898 "' O, 99 El nivel de confianza es 99% 10.12. Solución: e Dado que P = 0,05; 1 - P = 1 - 0,05 Emax = O, 04 zª 12 = - 1, 96 = 0,95 n = Z ~12 P (1 - P) = - 1, 96 2 x O, 05 x O, 95 = 2 Emax = 2401 X O, 042 0,05 X 0,95 = 114,04 "' 115 10.13. Solución: A n= t n2- 1 a./2 5 n2- 1 , E~ax Calcularemos n por el proceso iterativo: Partimos de g.l. = 30 Iteración O: t 30;0,0S/2 n= = -2,0 42 - 2 1 042 2 X 0,05 2 0 52 I = 416,976 ,,, 417 473 INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Iteración 1: g.l. z a/2 n = 416. Por aproximación a la normal. = -1, 96 = -1 96 2 x 0 5 2 I o 05 2 I = 384, 16 "°' 385 I Iteración 2: g.l. z a/2 n = = 384 Por aproximación a la normal. = -1, 96 1 96 2 I X O 52 o, 05 2 I = 384, 16 "°' 385 Dado que ya convergen las dos iteraciones, n = 385 10.14. Solución: e Supuestos: Selección de la muestra por m.a.s . La variable X se distribuye en la población N(µ,cr) Conocemos la varianza poblacional. Por tanto, la distribución muestra! de la media es N intervalo de confianza para µ viene dado por: Linf = Lsup = 6,3- 2,58 6, 3 + 2, 58 X X 6/ 12 = 6,3 - 1,29 (µ, ~) y el vn = 5,01 6/ 12 = 6, 3 + 1, 29 = 7, 59 El intervalo es: (5,01; 7,59) 10.15. Solución: A Supuestos: La variable aleatoria X es una variable Bernoulli (sólo dos valores: éxito o fracaso). Se conocen proporción en la población (o el valor P en la muestra). Respecto al tamaño de la muestra: se cumple el criterio, ya que es suficientemente grande ( 400 > 30). 474 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL Por tanto, es u na aproximación a la normal P L ;n f ➔ N ( n, ✓• (ln- n)] = p - IZa/2 1 ~ = 100 - 1, 96 X O, 25 (1- O, 25) v~ 400 400 = o, 25 - o, 0424 = o, 2076 Lsup = p + 1za12I ~ =o, 25 + o, 0424 = o, 2924 El intervalo es: (0,2064; 0,2936) 10.16. Solución: B Supuestos: La variable aleatoria X es una variable Bernoulli (solo dos valores: éxito o fracaso). Se conoce n proporción en la población ( o el valor P en la muestra). Respecto al tamaño de la muestra, se cumple el criterio ya que es suficientemente grande (60 > 30). Por tanto, es una aproximación a la normal P ➔ N ( n, ✓•(ln- •J] P=l/3=0,33 Linf = P - IZa/21 ~ = Lsup = 0,33 - 0,119 p + 1za12I ~ = = !~ - 1,96 X 0,33(~~ 0,33) = 0,211 =o, 33 + o, 119 = o, 449 10.17. Solución: B Supuestos: La variable aleatoria X es una variable Bernoulli (solo dos valores: cara o no cara). Se conoce n proporción en la población ( o el valor P en la muestra) Respecto al tamaño de la muestra, se cumple el criterio ya que es suficientemente grande (80 > 30) . 475 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Por tanto, es una aproximación a la normal P P= 45 = O, 5625; (1 - a)= O, 95 80 L;nf = p - 1z a12 I ~ = :~ - 1, 96 = o, 5625 - o, 1078 = o, 4547 Lsup = p +1 za12I ➔ N ( •, J• (ln- • ) ] O, 5625 (1 - O, 5625) 80 X = V~ ~ = o, 5625 + o, 1078 = o, 6703 10.18. Solución: e Si la variable aleatoria X tiene distribución normal en la población, pero la varianza o- 2 es desconocida, sabemos del Tema 9 que la distribución muestra! de la media X sigue la distribución t de Student definida por: X ➔ t(µ; 5_ 7,/) con g.l. = n-1 grados de libertad Por tanto, con g.l. 1 = 99 t 99 ;o, oos = 2,626 ¡sn1 = 98 - 2,626 C L;nf = -X - Lsup 5 1 = X + ltn- 1·1- a/2 1 = 98 + 2,626 tn - l ·a/ 2 ' vn ' n¿ vn X 15 ~ = 94, 06 v100 X ~ = 101, 94 v lOO 10.19. Solución: B Dado que desconocemos la varianza poblacional deberemos utilizar su estimador que es la varianza insesgada. Sabemos que (n - 1) 5 2 - - -- n_ -_ i sigue una distribución X~ - i que da lugar a los intervalos 2 Ci de confianza definidos por: L r = (n - 1) 5 ~_1 = 99 x 225 = 99 x 15 in X~ - l ,(l-a/ 2 ) x~ 9 , 0 , 995 (n - 1) $ ~ - 1 99 Ls up = __ 2 ___ = Xn- 1,a/2 476 X 225 2 X99, 0,00S 2 140, 1695 = 22275 = 158 91 14 0, 1695 ' = 22275 = 330 67, 3276 ' 85 ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL 10.20. Solución: A Supuestos: Distribución normal de X Varianza poblacional: Desconocida Muestra: m.a.s. n = 20 A) Intervalo de confianza de la varianza (n - 1)5~_1 2 La varianza sigue una distribución Xn - l ,a/ 2 definida: - -2 - - Xn - l, a/ 2 Por tanto: L- r m L = (n - = 1)5~_1 X~ - l, (l - a/ 2) = (n - 1)5~_1 2 sup Xn - l, a./2 19 x 36 38, 5823 = l 7 , 73 = 19 x 36 = 99 6 8440 ' ' 94 B) Intervalo de confianza de la media X ➔ t (µ; 5-Fr,1 ) Lin f con n - 1 grados de libertad y por tanto: Jn - 1tn - l ;a./2 1 sn - 1 6 = 3500 - 6 = 3500 + 3, 88 = X ✓ 20 = -X + 1tn - l; a./ 2 1 sn Jn- 1 = 3500 + 2,861 X ✓ 20 = -X = 3500 - 2,861 3, 88 = = 3496, 16 Lsup = 3503,84 477 Referencias Bibliográficas Amón, J. (1999). Estadística para psicólogos. Estadística descriptiva. Vol. 1. Madrid: Ed. Pirámide. 15ª Edición. Botella, J., Suero, M., y Ximénez, M. C. (2012). Análisis de datos en psicología l. Madrid: Pirámide. Fontes, S., García, C., Quintanilla, L., Rodríguez, R., Rubio, P. y Sarriá, E. (2010). Fundamentos de investigación en Psicología. Madrid: UNED. Garriga, A. J., Lubin, P., Merino, J. M., Padilla, M., Recio, P. y Suárez, J.C. (2009). Introducción al análisis de datos. Madrid: UNED. Kolmogorov, A. N. (1933, 1956). Foundations of the Theory of Probability. Chelsea Publishing, Nueva York. 2ª edición. Martínez-Arias, R., Castellanos-López, M. Á., y Chacón-Gómez, J. C. (2014). Análisis de datos en Psicología y Ciencias de la Salud. Vol. I. Madrid: EOS. Martínez-Arias, R., Castellanos-López, M. Á., y Chacón-Gómez, J. C. (2014). Análisis de datos en Psicología y Ciencias de la Salud. Vol. II. Madrid: EOS. Medhi, J. (1992). Statistical methods: an introductory text. New York: Wiley. Merino, J. M., Moreno, E., Padilla, M., Rodríguez- Miñón, P. y Villarino, A. (2001). Análisis de datos en psicología l. Madrid: UNED. Navas, M.J. (2001). Métodos, diseños y técnicas de investigación psicológica (1ª ed.). Madrid: UNED. Novo, V. (2010). Estadística teórica y aplicada. Madrid: Sanz y Torres. Pardo, A., Ruiz, M. A., y San Martín, R. (2009). Análisis de datos en Ciencias Sociales y de la Salud l. Madrid: Síntesis. Ríos, S. ( 1985). Métodos estadísticos. Madrid: Ediciones del Castillo. Stevens, S.S. (1946). On the theory of scales of measurement. Science, 103, 677-680. Tukey, J. W. (1977). Exploratorydata analysis. Reading, MA: Addison-Wesley. 479 TABLAS ESTADÍSTICAS INTRODUCCIÓN AL ANALI SIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCI AS DE LA SALUD Tabla l. Función de probabilidad BINOMIAL B(n,p) n X 1 1 o 2 2 2 o 3 3 o 3 3 4 4 4 4 4 1 1 2 1 2 3 o 1 2 3 4 5 5 5 5 5 5 o 6 6 6 6 6 6 6 o 7 7 7 7 7 7 7 7 1 2 3 4 5 1 2 3 4 5 6 o 1 2 3 4 5 6 7 f(x) = P(X = x) = (:)px qn-x Probabilidad de éxito {p) 0 ,01 0 ,05 O,ló 0 , 15 0 ,20 0 , 25 0,30 0 , 35 0 ,40 0 ,45 0,, 50 0,9900 0,9500 0,9000 0,8500 0,8000 0,7500 0,7000 0,6500 0,6000 0,5500 0,5000 0,0100 0,0500 0,1000 0,1500 0,2000 0,2500 0,3000 0,3500 0,4000 0,4500 0,5000 0,9801 0,0198 0,0001 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000 0,0025 0,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500 0,9703 0,0294 0,0003 0,0000 0,8574 0,1354 0,0071 0,0001 0,5120 0,3840 0,0960 0,0080 0,4219 0,4219 0,1406 0,0156 0,3430 0,2746 0,2160 0,4410 0,4436 0,4320 0,1890 0,2389 0,2880 0 ,0270 0,0429 0,0640 0,1664 0,4084 0,3341 0,0911 0,1250 0,3750 0,3750 0,1250 0,9606 0,0388 0,0006 0,0000 0,0000 0,8145 0,6561 0,5220 0,4096 0,1715 0,2916 0,3685 0,4096 0,0135 0,0486 0,0975 0,1536 0,0005 0,0036 0,0115 0,0256 0,0000 0,0001 0,0005 0,0016 0,3164 0,4219 0,2109 0,0469 0,0039 0,2401 0,4116 0,2646 0,0756 0 ,0081 0,1785 0,3845 0,3105 0,1115 0,0150 0 ,0915 0,2995 0,3675 0,2005 0,0410 0,0625 0,2500 0,3750 0,2500 0,0625 0,9510 0,0480 0,0010 0,0000 0,0000 0,0000 0,7738 0,2036 0,0214 0,0011 0,0000 0,0000 0,5905 0,4437 0,3277 0,2373 0,1681 0,1160 0,0778 0,0503 0,0313 0,3281 0,0729 0,0081 0,0005 0,0000 0,3915 0,1382 0,0244 0,0022 0,0001 0,4096 0,2048 0,0512 0,0064 0,0003 0,3955 0,2637 0,0879 0,0146 0,0010 0,3602 0,3087 0,1323 0,0284 0,0024 0,3124 0,3364 0,1811 0,0488 0,0053 0,2592 0,3456 0,2304 0,0768 0,0102 0,2059 0,3369 0,2757 0,1128 0,0185 0,1563 0,3125 0 , 3125 0,1563 0,0313 0,9415 0,0571 0,0014 0,0000 0,0000 0,0000 0,0000 o, 7351 0,2321 0,0305 0,0021 0,0001 0,0000 0,0000 0,5314 0,3543 0,0984 0,0146 0,0012 0,0001 0,0000 0,3771 0,3993 0,1762 0,0415 0,0055 0,0004 0,0000 0,2621 0,3932 0,2458 0,0819 0,0154 0,0015 0,0001 0,1780 0,3560 0,2966 o, 1318 0,0330 0,0044 0,0002 0,1176 0,3025 0,3241 0,1852 0,0595 0,0102 0,0007 0,0754 0,2437 0,3280 0,2355 0,0951 0,0205 0,0018 0,0467 0,1866 0,3110 0,2765 0,1382 0,0369 0,0041 0,0277 0,1359 0,2780 0,3032 0,1861 0,0609 0,0083 0,0156 0,0938 0,2344 0,3125 0,2344 0,0938 0,0156 0,9321 0,0659 0,0020 0,0000 0,0000 0,0000 0,0000 0,0000 0,6983 0,2573 0,0406 0,0036 0,0002 0 ,0000 0,0000 0,0000 0,4783 0,3720 0,1240 0,0230 0,0026 0,0002 0,0000 0,0000 0,3206 0,3960 0,2097 0,0617 0,0109 0,0012 0,0001 0,0000 0,2097 0,3670 0,2753 0,1147 0,0287 0,0043 0,0004 0,0000 0,1335 0,0824 0,3115 0,2471 0,3115 0,3177 0,1730 0, 2269 0,0577 0,0972 0 , 0115 0,0250 0,0013 0 , 0036 0,0001 0,0002 0,0490 0,1848 0,2985 0,2679 0,1442 0,0466 0,0084 0,0006 0,0280 0,1306 0,2613 0,2903 0,1935 0,0774 0,0172 0,0016 0,0152 0,0078 0,0872 0,0547 0,2140 0,1641 0,2918 0 ,2734 0,2388 0,2734 0,1172 0,1641 0,0320 0,0547 0,0037 0 , 0078 0,7290 0,2430 0,0270 0,0010 0,6141 0,325 1 0,0574 0,0034 0,1296 0,3456 0,3456 0,1536 0,0256 Los valores interiores de la tabla indican la probabilidad de obtener x éxitos en n ensayos de un experimento binomial, donde p es la probabi lidad de éxito en un ensayo 482 TABLAS ESTADÍSTICAS Tabla 1(cont.) n 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 10 10 10 10 10 10 10 10 10 10 10 11 11 11 11 11 11 11 11 11 11 11 11 X o 1 2 3 4 5 6 7 8 o 1 2 3 4 5 6 7 8 9 o 1 2 3 4 5 6 7 8 9 10 o 1 2 3 4 5 6 7 8 9 10 11 0,01 Probabilidad d~ 0,20 0,25 0,1678 0,1001 0,3355 0,2670 0,2936 0,3115 0,1468 0,2076 0,0459 0,0865 0,0092 0,0231 0,0011 0,0038 0,0001 0,0004 0,0000 0,0000 éxito (p) 0,30 0,0576 0,1977 0,2965 0,2541 0,1361 0,0467 0,0100 0,0012 0,0001 0,35 0,0319 0,1373 0,2587 0,2786 0,1875 0,0808 0,0217 0,0033 0,0002 0,40 0,0168 0,0896 0,2090 0,2787 0,2322 0,1239 0,0413 0,0079 0,0007 0,45 0,0084 0,0548 0,1569 0,2568 0,2627 0,1719 0,0703 0,0164 0,0017 0,0039 0,0313 0,1094 0,2188 0,2734 0,2188 0,1094 0,0313 0,0039 0,0751 0,2253 0,3003 0,2336 0,1168 0,0389 0,0087 0,0012 0,0001 0,0000 0,0404 0,1556 0,2668 0,2668 0 , 1715 0,0735 0,0210 0,0039 0,0004 0,0000 0,0207 0,1004 0,2162 0,2716 0,2194 0,1181 0,0424 0,0098 0,0013 0,0001 0,0101 0,0605 0,1612 0,2508 0,2508 0,1672 0,0743 0,0212 0,0035 0,0003 0,0046 0,0339 0,1110 0,2119 0,2600 0,2128 0,1160 0,0407 0,0083 0,0008 0,0020 0,0176 0,0703 0,1641 0,2461 0,2461 0,1641 0,0703 0,0176 0,0020 0,1074 0,2684 0,3020 0,2013 0,0881 0,0264 0,0055 0,0008 0,0001 0,0000 0,0000 0,0563 0,1877 0,2816 0,2503 0,1460 0,0584 0,0162 0,0031 0,0004 0,0000 0,0000 0,0282 0,1211 0,2335 0,2668 0,2001 0,1029 0,0368 0,0090 0,0014 0,0001 0,0000 0,0135 0,0725 0,1757 0,2522 0,2377 0,1536 0,0689 0,0212 0,0043 0,0005 0,0000 0,0060 0,0025 0,0403 0,0207 0,1209 0,0763 0,2150 0,1665 0,2508 0,2384 0,2007 0,2340 0,1115 o, 1596 0,0425 0 ,0746 0,0106 0,0229 0,0016 0,0042 0,0001 0,0003 0,0010 0,0098 0,0439 0,1172 0,2051 0,2461 0,2051 0,1172 0,0439 0,0098 0,0010 0,0859 0,2362 0,2953 0,2215 0,1107 0,0388 0,0097 0,0017 0,0002 0,0000 0,0000 0,0000 0,0422 0,1549 0,2581 0,2581 0,1721 0,0803 0,0268 0,0064 0,0011 0,0001 0,0000 0,0000 0,0198 0,0932 0,1998 0,2568 0,2201 0,1321 0,0566 0,0173 0,0037 0,0005 0,0000 0,0000 0,0088 0,0518 0,1395 0,2254 0,2428 0,1830 0,0985 0,0379 0,0102 0,0018 0,0002 0,0000 0,0036 0,0266 0,0887 0,1774 0,2365 0,2207 0,1471 0,0701 0,0234 0,0052 0,0007 0,0000 0,0005 0,0054 0,0269 0,0806 0,1611 0,2256 0,2256 0,1611 0,0806 0,0269 0,0054 0,0005 0,9227 0,0746 0,0026 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,05 0,6634 0,2793 0,0515 0,0054 0,0004 0,0000 0,0000 0,0000 0,0000 0,10 0,4305 0,3826 0,1488 0,0331 0,0046 0,0004 0,0000 0,0000 0,0000 0,15 0,2725 0,3847 0,2376 0,0839 0,0185 0,0026 0 , 0002 0,0000 0,0000 0,9135 0,0830 0,0034 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,6302 0,2985 0,0629 0,0077 0,0006 0,0000 0,0000 0,0000 0,0000 0,0000 0,3874 0,3874 0,1722 0,0446 0,0074 0,0008 0,0001 0,0000 0,0000 0,0000 0,2316 0,3679 0,2597 0,1069 0,0283 0,0050 0,0006 0,0000 0,0000 0,0000 0,1342 0,3020 0,3020 0,1762 0,0661 0,0165 0,0028 0,0003 0,0000 0,0000 0,9044 0,0914 0,0042 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,5987 0,3151 0 ,0746 0,0105 0,0010 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,3487 0,3874 0,1937 0,0574 0,0112 0,0015 0,0001 0,0000 0,0000 0,0000 0,0000 0,1969 0,3474 0,2759 0,1298 0,0401 0,0085 0,0012 0,0001 0,0000 0,0000 0,0000 0,8953 0,0995 0,0050 0,0002 0 ,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,5688 0,3293 0,0867 0,0137 0,0014 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,3138 0,3835 0,2131 0,0710 0,0158 0,0025 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,1673 0,3248 0,2866 0,1517 0,0536 0,0132 0,0023 0,0003 0,0000 0,0000 0,0000 0,0000 0,0014 0,0125 0,0513 0,1259 0,2060 0,2360 0,1931 0,1128 0,0462 0,0126 0,0021 0,0002 0,50 483 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla 1(cont.) n Probabilidad de éxito (p) X 0,01 0,8864 0,1074 0,0060 0,0002 0,0000 0,0000 0 ,0000 0 ,0000 0,0000 0,0000 0 ,0000 0,0000 0,0000 0,05 0,5404 0,3413 0,0988 0 ,0173 0,0021 0,0002 0 ,0000 0 ,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,10 0,2824 0,3766 0,2301 0,0852 0,0213 0,0038 0,0005 0 , 0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,15 0,1422 0,3012 0,2924 0,1720 0,0683 0 ,0193 0,0040 0,0006 0 ,0001 0 ,0000 0,0000 0,0000 0,0000 0,20 0,0687 0, 2062 0,2835 0 ,2362 0, 1329 0,0532 0 ,0155 0,003 3 0,0005 0 ,0001 0,0000 0, 0000 0 ,0000 13 o 0,8775 13 1 0,1152 13 2 0 ,0070 13 3 0,0003 13 4 0,0000 13 5 0,0000 13 6 0 ,0000 13 7 0,0000 13 8 0,0000 13 9 0,0000 13 10 0,0000 13 11 0,0000 13 12 0 ,0000 13 13 0,0000 0,5133 0,3512 0,1109 0,0214 0,0028 0,0003 0,0000 0,0000 0,1209 0,2774 0,2937 0,1900 0,0838 0,0266 0,0063 0 , 0011 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0550 0,1787 0,2680 0, 2457 0 ,1535 0,0691 0,0230 0,0058 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,2542 0,3672 0,2448 0,0997 0,0277 0,0055 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,4877 0 , 3593 0,1229 0,0259 0,0037 0,0004 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,2288 0,3559 0,2570 0,1142 0,0349 0,0078 0,0013 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,1028 0,2539 0,2912 0,2056 0,0998 0,0352 0,0093 0,0019 0,0003 0,0000 0,0000 0 , 0000 0,0000 0,0000 0,0000 12 o 12 1 12 2 12 3 12 4 12 5 12 6 12 7 12 8 12 9 12 10 12 11 12 12 14 ;1.4 14 14 14 14 14 14 14 14 14 14 14 14 14 o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 484 0,8687 0,1229 0,0081 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,25 0 , 0317 0,1267 0,2323 0,2581 0 , 1936 0,1032 0,0401 0,0115 0 , 0024 0,0004 0,0000 0,0000 0,0000 0,30 0 ,0138 0,0712 0,1678 0,239 7 0,2311 0,1585 0 ,0792 0,0291 0,0078 0,0015 0,0002 0,0000 0,0000 .0 ,35 0,0057 0,0368 0 , 1088 0,1954 0,2367 0,2039 0,1281 0,0591 0,0199 0,0048 0, 0008 0 ,0001 0,0000 0,40 0,0022 0,0174 0,0639 0,1419 0,2128 0 , 2270 0 , 1766 0,1009 0,0420 0, 0125 0,0025 0, 000 3 0 ,0000 0,45 0,0008 0 , 0075 0 ,0339 0 ,0923 0,1700 0,2225 0,2124 0,1489 0,076 2 0,02 77 0,0068 0 ,0010 0,0001 0,50 0,0002 0,0029 0,0161 0 ,0537 0,1208 0,1934 0,2256 0,1934 0,1208 0 , 0537 0,0161 0 ,0029 0 , 0002 0,0238 0,1029 0,2059 0,2517 0,2097 0,1258 0 ,0559 0,0186 0,0011 0,0047 0,0001 0,0009 0,0000 0 , 0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0097 0,0540 0,1388 0,2181 0,2337 0,1803 0,1030 0,0442 0,0142 0,0034 0,0006 0,0001 0,0000 0,0000 0 ,0037 0,0259 0,0836 o,1651 0,2222 0,2154 0,1546 0,0833 0,0336 0,0101 0,0022 0 ,0003 0 ,0000 0,0000 0,0013 0, 0113 0, 0453 0 , 1107 0, 1845 0,2214 0 , 1968 0,1312 0,0243 0,0065 0,0012 0,0001 0,0000 0,0004 0,0045 0,0220 0,0660 0,1350 0,1989 0,2169 0,1775 0,1089 0,0495 0,0162 0,0036 0 ,0005 0,0000 0,0001 0,0016 0,0095 0,0349 0,0873 0,1571 0,2095 0,2095 0,1571 0 ,0873 0,0349 0,0095 0,0016 0,0001 0,0440 0,1539 0,2501 0,2501 0,1720 0,0860 0,0322 0,0092 0,0020 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0068 0,0407 0,1134 0,1943 0,2290 0,1963 0,1262 0,0618 0,0232 0,0066 0,0014 0,0002 0,0000 0,0000 0,0000 0,0024 0,0181 0,0634 0,1366 0,2022 0, 2178 0,1759 0,1082 0,0510 0,0183 0,0049 0,0010 0,0001 0,0000 0,0000 0,0008 0,0073 0,0317 0,0845 0,1549 0,2066 0,2066 0,1574 0,0918 0,0408 0,0136 0,0033 0,0005 0,0001 0,0000 0,0002 0,0027 0,0141 0,0462 0,1040 0,1701 0,2088 0,1952 0,1398 0,0762 0,0312 0,0093 0,0019 0,0002 0,0000 0,0001 0,0009 0,0056 0,0222 0,0611 0,1222 0,1833 0,2095 0,1833 0,1222 0,0611 0,0222 0,0056 0,0009 0,0001 0,0178 0,0832 0,1802 0,2402 0,2202 0,1468 0,0734 0,0280 0,0082 0,0018 0,0003 0,0000 0,0000 0,0000 0,0000 0 , 0656 TABLAS ESTADÍSTICAS Tabla 1(cont.) n 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 17 17 17 17 17 17 17 17 17 Probabilidad de éxito (p) X o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 o 0,01 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 Q,45 0,50 0,8601 0,1303 0,0092 0,0004 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,4633 0,3658 0,1348 0,0307 0,0049 0,0006 0,0000 0,0000 0 ,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,2059 0,3432 0,2669 0,1285 0,0428 0,0105 0,0019 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0 ,0000 0,0000 0,0874 0,2312 0,2856 0,2184 0,1156 0,0449 0,0132 0,0030 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0352 0,1319 0,2309 0,2501 0,1876 0,1032 0,0430 0,0138 0,0035 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0134 0,0668 0,1559 0,2252 0,2252 0,1651 0,0917 0,0393 0,0131 0,0034 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,0047 0,0305 0,0916 0,1700 0,2186 0,2061 0,1472 0,0811 0, 0348 0,0116 0,0030 0,0006 0,0001 0,0000 0,0000 0,0000 0,0016 0,0126 0,0476 0,1110 0,1792 0,2123 0,1906 0,1319 0,0710 0,0298 0,0096 0,0024 0,0004 0,0001 0,0000 0,0000 0,0005 0,0047 0,0219 0,0634 0,1268 0,1859 0,2066 0,1771 0,1181 0,0612 0,0245 0 ,0074 0,0016 0,0003 0,0000 0,0000 0,0001 0,0016 0,0090 0,0318 0,0780 0,1404 0,1914 0,2013 0,1647 0,1048 0,0515 0,0191 0,0052 0,0010 0,0001 0,0000 0,0000 0,0005 0,0032 0,0139 0,0417 0,0916 0,1527 0,1964 0,1964 0,1527 0,0916 0,0417 0,0139 0,0032 0,0005 0,0000 0,8515 0,1376 0,0104 0,0005 0,0000 0,0000 0,0000 0,0000 0,0000 0 ,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,4401 0,3706 0,1463 0 ,0359 0,0061 0,0008 0,0001 0,0000 0 ,0000 0,0000 0,0000 0,0000 0, 0000 0,0000 0,0000 0,0000 0,0000 0,1853 0,3294 0,2745 0,1423 0,0514 0,0137 0,0028 0,0004 0,0001 0,0000 0, 0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0743 0,209 7 0,2775 0,2285 0,1311 0,0555 0,0180 0,0045 0,0009 0,0001 0,0000 0,0000 0 ,0000 0,0000 0,0000 0, 0000 0,0000 0,0281 0,1126 0,2111 0, 2463 0,2001 0,1201 0 ,0550 0,0197 0, 0055 0,0012 0,0002 0,0000 0,0000 0,0000 0,0000 0 ,0000 0,0000 0,0100 0,0535 0,1336 0,2079 0,2252 0,1802 0 , 1101 0,0524 0 ,0197 0,0058 0,0014 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0033 0,0228 0,0732 0,1465 0,2040 0,2099 0,1649 0,1010 0,0487 0,0185 0,0056 0,0013 0,0002 0,0000 0,0000 0,0000 0,0000 0,0010 0,0087 0,0353 0,0888 0,1553 0,2008 0,1982 0,1524 0,0923 0,0442 0,0167 0,0049 0,0011 0,0002 0,0000 0,0000 0,0000 0,0003 0,0030 0,0150 0,0468 0,1014 0,0001 0,0009 0,0056 0,0215 0,0572 o, 1123 0,1684 0,1969 0 , 1812 0,1318 0,0755 0,0337 0,0115 0,0029 0,0005 0,0001 0,0000 0,0000 0,0002 0,0018 0,0085 0,0278 0,0667 0,1222 0,1746 0 , 1964 0,1746 o, 1222 0 ,0667 0,0278 0,0085 0,0018 0,0002 0,0000 0,8429 0,4181 0,1668 0,0631 0,0225 0,0075 0,0023 0 ,0007 0,0002 0,0000 0,0000 0,1623 0 , 1983 0 , 1889 0,1417 0,0840 0,0392 0,0142 0,0040 0,0008 0 ,0001 0,0000 0,0000 1 0,1447 0,3741 0,3150 0,1893 0,0957 0,0426 0,0169 0,0060 0,0019 0,0005 0,0001 2 3 4 5 6 7 8 0,0117 0,0006 0,0000 0,0000 0,0000 0,0000 0,0000 0,1575 0,0415 0,0076 0,0010 0,0001 0,0000 0,0000 0,2800 0, 1556 0,0605 0,0175 0,0039 0,0007 0,0001 0,2673 0,2359 0,1457 0,0668 0,0236 0,0065 0,0014 0,1914 0,2393 0,2093 0,1361 0,0680 0,0267 0,0084 0,1136 0 , 1893 0,2209 0,1914 0,1276 0,0668 0,0279 0,0581 0,1245 0,1868 0,2081 0,1784 0,1201 0,0644 0,0260 0,0701 0,1320 0,1849 0,1991 0,1685 0,1134 0,0102 0,0341 0,0796 0,1379 0,1839 0,1927 0,1606 0,0035 0,0144 0,0411 0,0875 0,1432 0,1841 0, 1883 0,0010 0,0052 0,0182 0,0472 0,0944 0,1484 0,1855 485 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla 1(cont.) n 17 17 17 17 17 17 17 17 17 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 19 19 19 19 19 19 19 19 19 1.9 19 19 19 19 Probabilidad de éxito (p) X 0,40 0,45 0,50 0,30 0,35 0,20 0,25 9 0,0000 0,0000 0,0000 0,0003 0,0021 0,0093 0,0276 0,0611 0,1070 0,1540 0,1855 10 0,0000 0,0000 0,0000 0,0000 0 ,0004 0,0025 0,0095 0,0263 0,0571 0,1008 0,1484 u 0,01 0,05 0,10 0,15 0,0000 0,0000 0,0000 0 ,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0 ,0000 0,0001 0 ,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0 ,0000 0,0000 0,0000 0, 0000 0,0000 0 ,0000 0,0000 0,0000 0,0000 0,0000 0 ,0000 0,0000 0,0000 0 ,0000 0,0000 0,0000 0,0000 0,8345 0,1517 0 ,0130 0,0007 0,0000 0,0000 0,0000 0,0000 0 ,0000 0,0000 0,0000 0,0000 0,0000 0 ,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,3972 0,3763 0,1683 0,0473 0,0093 0,0014 0,0002 0,0000 0,0000 0 , 0000 0,0000 0 ,0000 0 ,0000 0,0000 0,0000 0 ,0000 0,0000 0,0000 0,0000 0,1501 0,3002 0,2835 0,1680 0,0700 0,0218 0,0052 0,0010 0,0002 0,0000 0,0000 0,0000 0,0536 0,1704 0,2556 0, 2406 0,1592 0,0787 0,0301 0,0091 0,0022 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,8262 0,1586 0,0144 0,0008 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 11 0,0000 12 0,0000 13 0,0000 0,3774 0,3774 0,1787 0 ,0533 0,0112 0 ,0018 0, 0002 0,0000 0,0000 0,0000 0 ,0000 0,0000 0 , 0000 0,0000 0,1351 0,2852 0,2852 0,1796 0,0798 0,0266 0 , 0069 0,0014 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 12 13 14 15 16 17 o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 o 1 2 3 4 5 6 7 8 9 10 486 0,0005 0, 0026 0 ,0001 0,0006 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0, 0000 0,0000 0,0000 0,0090 0,0024 0,0005 0,0001 0,0000 0,0000 0 ,0000 0,0056 0,0338 0,0958 0,1704 0 ,2 130 0,1988 0,1436 0,0820 0 , 0376 0,0139 0,0042 0,0010 0,0242 0,0081 0,0021 0,0004 0,0001 0,0000 0,0000 0,0525 0,0215 0,0068 0,0016 0,0003 0,0000 0 ,0000 0,0944 0 ,0472 0,0182 0,0052 0,0010 0,0001 0,0000 0,0016 0 ,0126 0 ,0458 0,1046 0,1681 0,2017 0,1873 0,1376 0,0811 0,0386 0,0149 0,0046 0,0002 0,0012 0,0000 0,0002 0 , 0000 0,0000 0,0000 0,0000 0 , 0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0004 0,0042 0,0190 0,0547 0,1104 0,1664 0,1941 0,1792 0,1327 0,0794 0,0385 0,0151 0,0000 0,0000 0 ,0000 0,0000 0,0000 0,0000 0,0000 0,0180 0,0811 0,1723 0,2297 0 ,2 153 0,1507 0,0816 0, 0350 0,0120 0,0033 0,0008 0,0001 0,0000 0,0000 0,0000 0 ,0000 0,0000 0,0000 0,0000 0,0001 0,0012 0,0069 0,0246 0,0614 0,1146 0,1655 0,1892 0,1734 0,1284 0,0771 0,0374 0,0047 0,0145 0,0012 0 ,0045 0,0002 0,0011 0,0000 0,0002 0,0000 0,0000 0 ,0000 0 ,0000 0,0000 0,0000 0,0000 0,0003 0 ,0022 0,0095 0 , 0291 0,0666 0,1181 0,1657 0,1864 0,1694 0,1248 0,0742 0,0354 0,0134 0,0039 0,0009 0,0001 0,0000 0,0000 0,0000 0 , 0001 0,0006 0,0031 0, 0117 0,0327 0,07 08 0,1214 o, 1669 0,1855 0,1669 0 , 1214 0,0708 0,0327 0, 0117 0,0031 0,0006 0,0001 0,0000 0,0456 0,1529 0,2428 0 , 2428 0,1714 0,0907 0,0374 0,0122 0,0032 0,0007 0,0001 0,0000 0,0000 0,0000 0,0144 0,0685 0 , 1540 0,2182 0 ,2 182 0,1636 0,0955 0,0443 0 ,0166 0,0051 0,0013 0,0003 0,0000 0,0000 0,0042 0,0268 0 , 0803 o, 1517 0,2023 0 , 2023 o, 1574 0,0974 0,0487 0,0198 0,0066 0 , 0018 0,0004 0,0001 0 ,0011 0,0093 0,0358 0,0869 0,1491 0,1916 0,1916 0,1525 0 ,0981 0,0514 0 ,0220 0,0077 0 , 0022 0 ,0005 0 ,0003 0,0029 0,0138 0,0422 0,0909 0,1468 0,1844 0,1844 0 , 1489 0, 0980 0,0528 0,0233 0,0083 0,0024 0,0000 0 ,0002 0,0013 0,0062 0,0203 0,0497 0,0949 0,1443 0,1771 0,1771 0,1449 0,0970 0,0529 0,0233 0,0000 0,0000 0,0003 0,0018 0,0074 0,0222 0,0518 0 , 0961 0 , 1442 0,1762 0 , 1762 0,1442 0 ,0961 0 ,0518 0,0001 0,0008 0,0046 0,0175 0, 0467 0,0933 0,1451 0,1797 0,1797 0,1464 0,0976 0,0532 0,0237 0,0085 TABLAS ESTADÍSTICAS Tabla 1(con t.) n Probabilidad de éxito (p) X 19 ¡ 19 , 19 19 1'9 19 14 15 í6 17 18 19 20 20 20 20 20 20 20 20 20 201' 20 20 20 20 20 20 20 20 20 20 20 o 1 2 3 4 5 6 7 8 9 10 11 1:l 13 14 15 16 17 18 19 20 0,01 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,05 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,15 0,0000 0 ,00 00 0,0000 0,0000 0,0000 0,0000 0,20 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,25 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,30 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,35 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000 0,40 0,0024 0,0005 0,0001 0,0000 0,0000 0,0000 0,45 0,50 0,0082 0,0222 0,0022 0,0074 0,0005 0,0018 0,0001 0,0003 0,0000 0,0000 0,0000 0,0000 0,8179 0,1652 0,0159 0,0010 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,3585 0,3774 0,1887 0,0596 0,0133 0,0022 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,1216 0,2702 0,2852 0,1901 0,0898 0,0319 0,0089 0,0020 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0 ,0000 0,0000 0 ,0388 0,1368 0,2293 0,2428 0,1821 0,1028 0,0454 0,0160 0,0046 0,0011 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0115 0,0576 0,1369 0,2054 0,2182 0,1746 0,1091 0,0545 0,0222 0,0074 0,0020 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0032 0,0211 0,0669 0,1339 0,1897 0,2023 0,1686 0,1124 0,0609 0,0271 0,0099 0,0030 0,0008 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0008 0,0068 0,0278 0 ,0716 0,1304 0,1789 0,1916 0,1643 0,1144 0,0654 0,0308 0,0120 0,0039 0,0010 0,0002 0 ,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0020 0,0100 0,0323 0,0738 0,1272 0,1712 0,1844 0,1614 0,1158 0,0686 0,0336 0,0136 0,0045 0,0012 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0005 0,0031 0,0123 0,0350 0,0746 0,1244 0,1659 0,1797 o, 1597 0,1171 0,0710 0,0355 0,0146 0 , 0049 0,0013 0,0003 0,0000 0,0000 0,0000 0 ,0000 0,0000 0,0001 0 ,0008 0,0040 0,0139 0,0365 0,0746 0,1221 0,1623 0 ,1771 0,1593 0,1185 0,0727 0,0366 0,0150 0,0049 0,0013 0,0002 0,0000 0,0000 0,0000 0 ,0000 0,0000 0,0002 0 ,0 011 0,0046 0,0148 0,0370 0,0739 0,1201 0,1602 0,1762 0,1602 0,1201 0,0739 0,0370 0,0148 0,0046 0,0011 0,0002 0,0000 0,0000 487 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla 11. Función de distribución BINOMIAL B(n,p) n 1 ., 1 F (x) = P (X$ x) = 2, (: Jpx qn- x Probabilidad de éxito (p) 0,10, 0,01 0,05 .o,25 0,15 0,20 0,30 0,35 0,40 0,45 0,50 o 0,9900 0,9500 0,9000 0,8500 0,8000 0,7500 0,7000 0,6500 0,6000 0,5500 0,5000 1 1 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 X 2 2 2 o 3 3 3 3 o "4 o 1 2 1 2 3 0,9801 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500 0,9999 0,9975 0,9900 0,9775 0,9600 0,9375 0,9100 0,8775 0,8400 0,7975 0,7500 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9703 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430 0,9997 0,9928 0,9720 0,9393 0,8960 0,8438 0,7840 1,0000 0,9999 0,9990 0,9966 0,9920 0,9844 0,9730 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,2746 0,7183 0,9571 1,0000 0,2160 0,6480 0,9360 1,0000 0,1664 0,5748 0,9089 1,0000 0,1250 0,5000 0,8750 1,0000 0,9606 0,8145 0,9994 0,9860 1,0000 0,9995 1,0000 0,6561 0,9477 0,9963 0,9999 1,0000 0,5220 0,8905 0,9880 0,9995 1,0000 0,4096 0,8192 0,9728 0,9984 1,0000 0,3164 0,7383 0,9492 0,9961 1,0000 0,2401 0,6517 0,9163 0,9919 1,0000 0,1785 0,5630 0,8735 0,9850 1,0000 0,1296 0,4752 0,8208 0,9744 1,0000 0,0915 0,3910 0,7585 0,9590 1,0000 0,0625 0,3125 0,6875 0,9375 1,0000 0,9510 0,7738 0,9990 0,9774 1,0000 0,9988 1,0000 0,5905 0,9185 0,9914 0,9995 1,0000 0,4437 0,8352 0,9734 0,9978 0,9999 1,0000 0,3277 0,7373 0,9421 0,9933 0,9997 1,0000 0,2373 0,6328 0,8965 0,9844 0,9990 1,0000 0,1681 0,5282 0,8369 0,9692 0,9976 1,0000 0,1160 0,4284 0,7648 0,9460 0,9947 1,0000 0,0778 0,3370 0,6826 0,9130 0,9898 1,0000 0,0503 0,2562 0,5931 0,8688 0,9815 1,0000 0,0313 0,1875 0,5000 0,8125 0,9688 1,0000 4 4 4 1 2 3 4 5 o 5 5 5 5 5 1 2 3 4 5 6 6 6 6 6 6 6 o 1 2 3 4 5 6 0,9415 o, 7351 0,5314 0,9985 0,9672 0,8857 1,0000 0,9978 0,9842 0,9999 0,9987 1,0000 0,9999 1,0000 0,3771 0,7765 0,9527 0,9941 0,9996 1,0000 0,2621 0,6554 0,9011 0,9830 0,9984 0,9999 1,0000 0,1780 0,5339 0,8306 0,9624 0,9954 0,9998 1,0000 0,1176 0,4202 0,7443 0,9295 0,9891 0,9993 1,0000 0,0754 0,3191 0,6471 0,8826 0,9777 0,9982 1,0000 0,0467 0,2333 0,5443 0,8208 0,9590 0,9959 1,0000 0,0277 0,1636 0,4415 0,7447 0,9308 0,9917 1,0000 0,0156 0,1094 0,3438 0,6563 0,8906 0,9844 1,0000 7 o 1 2 3 4 5 6 7 0,9321 0,6983 0,9980 0,9556 1,0000 0,9962 0,9998 1,0000 0,4783 0,8503 0 ,9743 0,9973 0,9998 1,0000 0,3206 0,7166 0,9262 0,9879 0,9988 0, 9999 1,0000 0,2097 0,5767 0,8520 0,9667 0,9953 0,9996 1,0000 0,1335 0,4449 0,7564 0,9294 0,9871 0,9987 0,9999 1,0000 0,0824 0,3294 0,6471 0,8740 0,9712 0,9962 0,9998 1,0000 0,0490 0,2338 0,5323 0,8002 0,9444 0,9910 0,9994 1,0000 0,0280 0,1586 0,4199 0,7102 0,9037 0,9812 0, 9984 1,0000 0,0152 0,1024 0,3164 0,6083 0,8471 0,9643 0,9963 1,0000 0,0078 0,0625 0,2266 0,5000 0,7734 0,9375 0,9922 1,0000 7 7 7 7 7 7 7 Los valores interiores de la tabla indican las probabilidades acumuladas de obtener de O ax éxitos en n ensayos de un experimento binomial, donde p es la probabilidad de éxito en un ensayo. 488 TAB LAS ESTADÍSTICAS Tabla 11 (cont.) n X , 0,10 0,4305 0,8131 0, 9619 0,9950 0,9996 1,0000 0,1'5 0,2725 0,6572 0,8948 0,9786 0,99 71 0,9998 1,0000 0,6302 0 ,9288 0,9916 0,9994 1,0000 0,3874 0,7748 0,9470 0,9917 0,9991 0,9999 1,0000 0,2316 0,5995 0,8591 0,9661 0,9944 0,9994 1,0000 0,1342 0,4362 0,7382 0,9144 0,9804 0 ,9969 0,9997 1,0000 0,0751 0,3003 0,6007 0,8343 0,9511 0,9900 0 ,9987 0,9999 1,0000 0,0404 0,1960 0,4628 0,7297 0,9012 0,9747 0,9957 0,9996 1,0000 0 ,9044 0,5987 0,3487 0 , 1969 1 0,9957 0,9139 0,73 61 0,5443 2 0,9999 0,9885 0,9298 0,8202 3 1,0000 0,9990 0,9872 0,9500 0 ,9999 0,9984 0,9901 4 1,0000 0,9999 0,9986 5 6 1,0000 0,9999 1,0000 7 8 9 10 0,1074 0,37 58 0 ,6778 0 ,8791 0,9672 0,99 36 0,9991 0,9999 1,0000 0,0563 0,2440 0 ,5 256 0 ,7759 0,9 2 19 0 ,98 0 3 0,9965 0,9996 1,0000 0,895 3 0,5688 0,3138 0,1673 0,0859 1 0,9948 0,8981 0,6974 0,4922 0,3221 2 0,9998 0,9848 0,9104 0,7788 0,6174 3 1,0000 0,9984 0,9815 0,9306 0,8389 4 0,9999 0,9972 0,9841 0,9496 1,0000 0,9997 0,9973 0,9883 5 1,0000 0,9997 0 ,9980 6 1,0000 0,9998 7 1,0000 8 9 10 11 0,0422 0,1971 0 ,45 52 0,7133 0,8854 0,9657 0,9924 0,9988 0,9999 1,0000 o th 1 2 3 4 5 6 7 8 9 9 9 9 9 9 9 9 9 9 o 10 10 10 10 10 10 10 10 10 10 10 o 11 11 u 11 11 11 11 11 11 11 11 11 Probabilidad de éxito (p) ,0,20 o,.eo 0,65 0,25 0,1678 0,1001 0,0576 0,0319 0,5033 0,3671 0,2553 0,1691 0,7969 0,6785 0 ,5 518 0 ,4 278 0,9437 0,8862 0,8059 0,7064 0,9896 0,9727 0,9420 0,8939 0,9988 0,9958 0,9887 0,9747 0,9999 0,9996 0,9987 0,9964 1,0000 1,0000 0,9999 0,9998 1,0000 1,0000 0,05 0,6634 0,9428 0 ,9942 0,9996 1,0000 8 8 8 8 8 8 8 8 10,01 1 2 3 4 5 6 7 8 9 o 0,9227 0,9973 0 ,9999 1,0000 0,9135 0,9966 0,9999 1,0000 0,40 0,0168 0,1064 0 ,3 154 0,5941 0,8263 0,9502 0,9915 0,9993 1,0000 0 )45 0,0084 0,0632 0,2201 0,4770 0,7396 0,9115 0,9819 0,9983 1,0000 o,50 0,0039 0,035 2 0,1445 0,3633 0,6367 0,8555 0,9648 0,9961 1,0000 0,0207 0,1211 0,3373 0 ,6089 0,8283 0,9464 0,9888 0 ,9986 0,9999 1,0000 0,0101 0,0705 0,2318 0,4826 0,7334 0,9006 0,9750 0,9962 0,9997 1,0000 0,0046 0,0385 0,1495 0,3614 0,6214 0,8342 0,9502 0,9909 0,9992 1,0000 0,0020 0 ,0195 0,0898 0,2539 0,5000 0,7461 0 ,9102 0,9805 0,9980 1,0000 0,0282 0,1 49 3 0,3828 0,6496 0,8497 0,95 27 0,9894 0 ,9984 0,9999 1,0000 0 ,0135 0,0860 0 ,26 16 0,5138 o,7515 0,9051 0,9 740 0,995 2 0,9995 1,0000 0,0060 0,0464 0,1673 0,3823 0 ,633 1 0,8 338 0,9452 0,9877 0,9983 0,9999 1,0 000 0,0025 0,0233 0 ,0996 0,2660 0,5044 0,7384 0, 8980 0,9726 0,9955 0,9997 1,0000 0,0010 0,0107 0,0547 0,1719 0,3770 0,6230 0,8281 0,945 3 0 ,9893 0,9990 1,0000 0,0198 0,1130 0,3127 0,5696 0,7897 0,9218 0,9784 0,9957 0,9994 1,0000 0,0088 0,0606 0,2001 0,4256 0,6683 0,8513 0,9499 0,9878 0,9980 0,9998 1,0000 0,0036 0,0302 0,1189 0,2963 0,5328 0,7535 0,9006 0,9707 0 ,9941 0,9993 1,0000 0,0014 0,0139 0 ,0652 0,1911 0,3971 0,6331 0,8262 0,9390 0,9852 0,9978 0,9998 1,0000 0,0005 0,0059 0,0327 0,1133 0,2744 0,5000 0,7256 0,8867 0,9673 0,9941 0,9995 1,0000 489 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla 11 (cont.) n X 12 o 12 1 1·2 2 12 3 1,2 4 12 5 12 6 12 '1 12 8 12 9 12 10 12 11 12 12 13 13 13 13 13 13 13 13 13 13 13 13 13 13 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 o 1 2 3 4 5 6 Probabilidad de éxito (p) 0,01 0,8864 0,9938 0,9998 1,0000 0,05 0,5404 0,8816 0,9804 0,9978 0,9998 1,0000 0,10 0,2824 0,6590 0,8891 0,9744 0,9957 0,9995 0,9999 1,0000 0,15 0,1422 0,4435 0,7358 0,9078 0,9761 0,9954 0,9993 0,9999 1,0000 q,20 0,0687 0,2749 0,5583 0,7946 0,9274 0,9806 0,9961 0,9994 0,9999 1,0000 0,25 0,0317 0,1584 0,3907 0,6488 0,8424 0,9456 0,9857 0,9972 0,9996 1,0000 0,30 0,0138 0,0850 0,2528 0,4925 0,7237 0,8822 0,9614 0,9905 0,9983 0,9998 1,0000 0,35 0,0057 0,0424 0,1513 0,3467 0,5833 0,7873 0,9154 0,9745 0,9944 0,9992 0,9999 1,0000 P,40 0,0022 0,0196 0,0834 0,2253 0,4382 0,6652 0,8418 0,9427 0,9847 0,9972 0,9997 1,0000 o,,5 0,0008 0,0083 0,0421 0,1345 0,3044 0,5269 0,7393 0,8883 0,9644 0,9921 0,9989 0,9999 1,0000 0,50 0,0002 0,0032 0,0193 0,0730 0,1938 0,3872 0,6128 0,8062 0,9270 0,9807 0,9968 0,9998 1,0000 0,8775 0,9928 0,9997 1,0000 0,5133 0,8646 0,9755 0,9969 0,9997 1,0000 0,2542 0,6213 0,8661 0,9658 0,9935 0,9991 0,9999 1,0000 0,1209 0,3983 0,6920 0,8820 0,9658 0,9925 0,9987 0,9998 1,0000 0,0550 0,2336 0,5017 0, 7473 0,9009 0,9700 0,9930 0,9988 0,9998 1,0000 0,0238 0,1267 0,3326 0,5843 0,7940 0,9198 0,9757 0,9944 0,0097 0,0637 0,2025 0,4206 0,6543 0,8346 0,9376 0,9818 0,0037 0,0296 0,1132 0,2783 0,5005 0,7159 0,8705 0,9538 0,9874 0,9975 0,9997 1,0000 0,0013 0,0126 0,0579 0,1686 0,3530 0,5744 0,7712 0,9023 0,0004 0,0049 0,0269 0,0929 0,2279 0,4268 0,6437 0,8212 0,0001 0,0017 0,0112 0,0461 0,1334 0,2905 0,5000 0,7095 0,9679 0,9922 0,9987 0,9999 1,0000 0,9302 0,9797 0,9959 0,9995 1,0000 0,8666 0,9539 0,9888 0,9983 0,9999 1,0000 0,1028 0 ,3567 0,6479 0,8535 0,9533 0,9885 0,9978 0,9997 1,0000 0,0440 0,1979 0,4481 0,6982 0,8702 0,9561 0,9884 0,9976 0,9996 1,0000 0,0008 0 ,0081 0,0398 0,1243 0,2793 0,4859 0,6925 0,8499 0,9417 0 ,9825 0 ,9961 0,9994 0,9999 1,0000 0,0002 0,0029 0,0170 0,0632 0,1672 0,3373 0,5461 0,7414 0,8811 0,9574 0,9886 0,9978 0,9997 1,0000 0,0001 0,0009 0,0065 0,0287 0,0898 0,2120 0,3953 0,6047 0,7880 0,9102 0,9713 0,9935 0 ,9991 0,9999 1,0000 7 8 9 10 u 0,9990 0,9960 0,9999 0,9993 1,0000 0,9999 1,0000 12 13 o 0,8687 0,9916 2 0,9997 3 1,0000 4 l 5 6 7 8 9 10 11 12 13 14 490 0,4877 0,8470 0,9699 0,9958 0,9996 1,0000 0,2288 0,5846 0,8416 0,9559 0,9908 0,9985 0,9998 1,0000 0,0178 0,1010 0,2811 0,5213 0,7415 0,8883 0,9617 0,9897 0,9978 0,9997 1,0000 0,0068 0,0475 0,1608 0,3552 0,5842 0,7805 0 ,9067 0 ,9685 0,9917 0,9983 0,9998 1,0000 0,0024 0,0205 0,0839 0,2205 0,4227 0,6405 0,8164 0,9247 0 ,9757 0,9940 0 ,9989 0,9999 1,0000 TABLAS ESTADÍSTICAS Tabla 11 (cont.) n 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 17 17 17 17 17 17 17 17 17 Probabilidad de éxito (p) X o 1 2 3 4 5 6 7 0,01 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,8601 0,9904 0,9996 1,0000 0,4633 0,8290 0,9638 0,9945 0,9994 0,9999 1,0000 0,2059 0,5490 0,8159 0 ,9444 0,9873 0,9978 0,9997 1,0000 0,0874 0,3186 0,6042 0,8227 0,9383 0,9832 0,9964 0,9994 0,9999 1,0000 0,0352 0,1671 0,3980 0,6482 0,8358 0,9389 0,9819 0,9958 0,9992 0,9999 1,0000 0,0134 0,0802 0,2361 0,4613 0,6865 0,8516 0,9434 0,9827 0,9958 0,9992 0,9999 1,0000 0,0047 0,0353 0,1268 0,2969 0,5155 o, 7216 0,8689 0,9500 0,9848 0 ,9963 0,9993 0,9999 1,0000 0,0016 0,0142 0,0617 0,1727 0,3519 0,5643 0,7548 0,8868 0,9578 0,9876 0,9972 0,9995 0,9999 1,0000 0,0005 0,0052 0,0271 0,0905 0,2173 0,4032 0,6098 0,7869 0,9050 0,9662 0,9907 0,9981 0,9997 1,0000 1,0000 0,0001 0,0017 0,0107 0,0424 0,1204 0,2608 0,4522 0,6535 0,8182 0,9231 0,9745 0,9937 0,9989 0,9999 1,0000 0,0000 0,0005 0,0037 0,0176 0,0592 0,1509 0,3036 0,5000 0,6964 0,8491 0,9408 0,9824 0,9963 0,9995 1,0000 0,8515 0,4401 0,1853 0,0743 0,0281 0,0100 0,0033 0,0010 0,0098 0,0451 0,1339 0,2892 0,4900 0,6881 0,8406 0,9329 0,9771 0,9938 0,9987 0,9998 1,0000 0,0003 0,0033 0,0183 0,0651 0,1666 0,3288 0,5272 o, 7161 0,8577 0,9417 0,9809 0,9951 0,9991 0,9999 1,0000 0,0001 0,0010 0,0066 0,0281 0,0853 0,1976 0,3660 0,5629 0,7441 0,8759 0,9514 0,9851 0, 9965 0,9994 0,9999 1,0000 0,0000 0,0003 0,0021 0,0106 0,0384 0,1051 0,2272 0,4018 0,5982 0,7728 0,8949 0,9616 0,9894 0,9979 0,9997 1,0000 0,0007 0,0067 0,0327 0 , 1028 0,2348 0,4197 0 ,6188 0,7872 0,9597 0,9006 0,0002 0,0021 0,0123 0,0464 0,1260 0,2639 0,4478 0,6405 0,8011 0,0000 0,0006 0,0041 0,0184 0,0596 0,1471 0,2902 0,4743 0,6626 0,0000 0,0001 0,0012 0,0064 0,0245 0,0717 0,1662 0,3145 0,5000 8 9 10 11 12 13 14 15 o 1 0,9891 0,8108 0,5147 0,2839 0,1407 0,0635 0,0261 2 0,9995 0,9571 0,7892 0,5614 0,3518 0,1971 0,0994 3 1,0000 0,9930 0,9316 0,7899 0,5981 0,4050 0,2459 0,9991 0,9830 0,9209 0,7982 0,6302 0,4499 4 5 0,9999 0,9967 0,9765 0,9183 0,8103 0,6598 6 1,0000 0,9995 0,9944 0,9733 0,9204 0,8247 0,9999 0,9989 0,9930 0,9729 0,9256 7 8 9 10 11 12 13 14 15 16 o 0,8429 0,4181 1,0000 0,9998 0 ,9985 0,9925 1,0000 0,9998 0 ,9984 1,0000 0,9997 1,0000 0,9743 0,9929 0,9984 0,9997 1,0000 0,1668 0,0631 0,0023 0,0225 0,0075 1 0,9877 0,7922 0,4818 0,2525 0,1182 0,0501 0,0193 2 0,9994 0,9497 0,7618 0,5198 0,3096 0,1637 0,0774 3 1,0000 0,9912 0,9174 0,7556 0,5489 0,3530 0,2019 4 0,9988 0,9779 0,9013 0,7582 0,5739 0,3887 5 0,9999 0,9953 0,9681 0,8943 0,7653 0,5968 6 1,0000 0,9992 0,9917 0,9623 0,8929 0,7752 7 0,9999 0,9983 0,9891 0,9598 0,8954 8 1,0000 0, 9997 0,9974 0,9876 491 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla 11 (cont.) Probabilidad de éxito, (p) n X 17 17 17 17 17 17 17 17 17 9 10 18 18 18 18 18 18 18 18. 18 18 18 18 18 18 18 18 18 18 18 19 19 19 19 19 19 19 19 19 19 19 19 19 19 0,01 0,05 0,10 0,35 0,40 0,45 0,50 0,9617 0,9880 0,9970 0,9994 0,9999 1,0000 0,9081 0,9652 0,9894 0,9975 0,9995 0,9999 1,0000 0,8166 0,9174 0,9699 0,9914 0,9981 0,9997 1,0000 0,6855 0,8338 0,9283 0,9755 0,9936 0,9988 0,9999 1,0000 0,0536 0,0180 0,0056 0,0016 0 ,0004 0,0001 0,0000 0,0000 0,0001 0,0007 0,0038 0,0154 0,0481 0,1189 0,2403 0,4073 0,5927 0,7597 0 ,8811 0,20 0,25 1,0000 0,9995 0,9969 0,9999 0,9994 1,0000 0,9999 1,0000 11 12 13 14 15 16 17 o 0,30 0,9873 0,9968 0,9993 0 ,9999 1,0000 0,15 0 ,8345 0,3972 0,1501 1 0,9862 0,7735 0,4503 0,2241 0,0991 0,0395 0,0142 0 , 0046 0,0013 0,0003 2 0,9993 0,9419 0,7338 0,4797 0,2713 0,1353 0 ,0600 0,0236 0,0082 0,0025 3 1,0000 0,9891 0,9018 0,7202 0,5010 0,3057 0,1646 0,0783 0,0328 0,0120 4 0,9985 0,9718 0,8794 0,7164 0,5187 0,3327 0,1886 0,0942 0,0411 5 0,9998 0,9936 0,9581 0,8671 0,7175 0,5344 0,3550 0,2088 0,1077 6 1,0000 0,9988 0,9882 0,9487 0,8610 0,7217 0,5491 0,3743 0,2258 7 0,9998 0,9973 0,9837 0,9431 0,8593 0,7283 0,5634 0,3915 8 1,0000 0,9995 0,9957 0,9807 0,9404 0,8609 0,7368 0,5778 0,9999 0,9991 0,9946 0,9790 0,9403 0,8653 0,7473 9 1,0000 0,9998 0,9988 0,9939 0,9788 0,9424 0,8720 10 1,0000 0,9998 0,9986 0,9938 0,9797 1,0000 0,9997 0,9986 0,9942 1,0000 0,9997 0,9987 1,0000 0,9998 1,0000 11 12 13 14 15 16 17 18 o 0,8262 0,3774 0,1351 0,0456 0,0144 0,0042 0,0011 0,0003 0,9463 0,9817 0,9951 0,9990 0,9999 1,0000 0,0000 0,0000 0,0004 0 ,0022 0,0096 0,0318 0,0835 0,1796 0 ,3238 0,5000 0,6762 0,9648 0,9129 0,8204 0,9884 0,9658 0,9165 0,9969 0,9891 0,9682 0 ,0001 0,0000 1 0,9847 0,7547 0,4203 0,1985 0,0829 0,0310 0,0104 0,0031 0,0008 0,0002 2 0,9991 0,9335 0,7054 0,4413 0,2369 0,1113 0,0462 0,0170 0,0055 0,0015 3 1,0000 0,9868 0,8850 0,6841 0,4551 0,2631 0,1332 0,0591 0,0230 0,0077 4 0,9980 0,9648 0,8556 0,6733 0,4654 0,2822 0,1500 0,0696 0,0280 0,9998 0,9914 0,9463 0,8369 0,6678 0,4739 0,2968 0,1629 0,0777 5 1,0000 0 ,9983 0,9837 0,9324 0,8251 0,6655 0,4812 0,3081 0,1727 6 7 0,9997 0,9959 0,9767 0,9225 0,8180 0,6656 0,4878 0,3169 1,0000 0,9992 0 ,9933 0,9713 0,9161 0,8145 0,6675 0,4940 8 9 0,9999 0,9984 0,9911 0,9674 0,9125 0,8139 0,6710 1,0000 0,9997 0,9977 0,9895 0,9653 0,9115 0,8159 10 11 12 13 492 1,0000 0,9995 0,9972 0,9886 0,9999 0,9994 0,9969 1,0000 0,9999 0,9993 0,9519 0,9846 0 ,9962 0,9993 0,9999 1,0000 TABLAS ESTADÍSTICAS Tabla 11 (cont.) Probabilidad de é xito (p) n X 19 19 19 19 19 19 14 15 16 17 18 19 20 o 20 1 20 2 20 3 20 4 20 5 20 6 20 7 20 8 20 9 20 10 20 11 20 12 20 13 20 14 20 15 20 16 20 17 20 18 20 19 20 20 0 ,0 1 0, 05 0, 10 0,8179 0,9831 0,9990 1,0000 0,3585 0,7358 0,9245 0,9841 0,9974 0,9997 1,0000 0,1216 0,3917 0,6769 0,8670 0,9568 0,9887 0,9976 0, 15 0,0388 0,1756 0,4049 0 ,6477 0,8298 0,9327 0,9781 0,9996 0,9941 0,9999 0,9987 1,0000 0,9998 1,0000 0,20 0,25 0,0115 0,0692 0,2061 0,411 4 0,6296 0,8042 0,9133 0,9679 0 ,9900 0,9974 0,9994 0,9999 1,0000 0,0032 0,0243 0,0913 0,2252 0,4148 0,6172 0,7858 0,8982 0,9591 0,9861 0,9961 0,9991 0,9998 1,0000 0,35 0,40 0, 4 5 0,30 1,0000 0,9999 0,9994 0,9972 1,0000 0 ,9999 0,9995 1,0000 0,9999 1,0000 0,0008 0,0076 0,0355 0,1071 0,2375 0,4164 0,6080 0,7723 0,8867 0,9520 0,9829 0 ,9949 0,9987 0,9997 1,0000 0,0002 0,0021 0,0121 0,0444 0,1182 0,2454 0,4166 0 ,6010 0,7624 0,8782 0,9468 0,9804 0,9940 0,9985 0,9997 1,0000 0,0000 0,0005 0,0036 0,0160 0,0510 0,1256 0 ,2500 0,4159 0,5956 0,7553 0 ,8725 0,9435 0,9790 0,9935 0,9984 0,9997 1,0000 0,0000 0,0001 0,0009 0,0049 0,0189 0,0553 0,1299 0,2520 0,4143 0,5914 0 ,7507 0,8692 0,9420 0 ,9786 0,9936 0,9985 0,9997 1,0000 0,50 0,9904 0,9978 0,9996 1,0000 0,0000 0,0000 0,0002 0,0013 0,0059 0,0207 0,0577 0,1316 0,2517 0,4119 0,5881 0,7483 0,8684 0 ,9423 0,9793 0,9941 0,9987 0,9998 1, 0000 493 INTRODUCCIÓN Al ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla 111. Distribución NORMAL TIPIFICADA P(Z~z) -3 z o -3,50 -3,40 -3,30 - 3,20 -3,10 -3,00 -2,90 - 2,80 -2,70 -2,60 ·-2,50 - 2,40 -2,30 -2,20 -2,10 -2,00 -1,90 -1,80 -1,70 - 1,60 -1, 50 -1,40 -1,30 - 1,20 -1,10 -1,00 -0,90 -0,80 -0,70 -0,60 -0,50 -0,40 -0,30 -0,20 -0,10 0,0002 0,0003 0,0005 0,0007 0,0010 0,0013 0,0019 0,0026 0,0035 0,0047 0,0062 0,0082 0,0107 0,0139 0,0179 0,0228 0 ,0287 o,oo 0,0359 0,0446 0,0548 0 , 0668 0,0808 0,0968 0,1151 0 , 1357 0,1587 0,1841 0,2119 0,2420 0 , 2743 0,3085 0,3446 0,3821 0,4207 0 ,46 02 0 , 5000 0,01 0,0002 0,0003 0,0005 0,0007 -2 -1 0,02 0 , 0002 0,0003 0,0005 0,0006 0,0009 0,0013 0,0018 0,0024 0,0033 0,0044 0,0009 0,0013 0,0018 0,0025 0,0034 0,0045 0,0060 0,0080 0,0104 0,0136 0,0174 0,0222 0,0281 0,0059 0,0078 0,0102 0,0132 0,0170 0,0217 0 , 0274 0,0351 0 ,0436 0,0537 0,0655 0,0793 0,0951 0,1131 0,1335 0,1562 0,1814 0,2090 0,2389 0,2709 0,3050 0,3409 0,3783 0,4168 0,4562 0,4960 0,0344 0 , 0427 0,0526 0 ,0643 0,0778 0,0934 0,1112 0,1314 0 , 1539 0,1788 0 , 2061 0,2358 0,2676 0 , 3015 0,3372 0,3745 0,4129 0,4522 0 ,4920 O 2 3 0,03 0,0002 0,0003 0,0004 0,0006 0,0009 0,0012 0,0017 0,0023 0,0032 0,0043 0,0057 0,0075 0,0099 0,0129 0,0166 0,0212 0,0268 0,04 0,0002 0,0003 0,0004 0,0006 0,0008 0,0012 0,0016 0 ,0023 0,0031 0,0041 0,0055 0,0073 0,0096 0,0125 0 , 0162 0,0207 0,0262 0,05 0,0002 0,0003 0,0004 0,0006 0,0008 0,0011 0,0016 0,0022 0,0030 0,0040 0,0054 0,0071 0,0094 0 ,0122 0,0158 0,0202 0,0256 0 ,0336 0 ,0418 0,0516 0,0630 0,0764 0,0329 0,0409 0,0322 0,0401 0,0495 0,0606 0,0735 0 ,0885 0,1056 0, 1251 0,1469 0,1711 0,1977 0 ,2266 0, 2578 0,2912 0,3264 0,3632 0,4013 0,4404 0,4801 0,0918 0,1093 0,1292 0,1515 0,1762 0,2033 0,2327 0,2643 0,2981 0,3336 0,3707 0,4090 0,4483 0,4880 0,0505 0,0618 0,0749 0,0901 0 , 1075 0,1271 0,1492 0,1736 0,2005 0,2296 0 , 2611 0,2946 0,3300 0,3669 0,4052 0,4443 0,4840 0,06 0,0002 0,0003 0,0004 0,0006 0,0008 0,0011 0, 0015 0,0021 0 ,0029 0,0039 0,0052 0,0069 0,0091 0,0119 0 ,0154 0,0197 0,0250 0,0314 0,0392 0,0485 0,0594 0,0721 0,0869 0,1038 0 , 1230 0,1446 0,1685 0,1949 0 ,2236 0,2546 0,2877 0 ,3228 0,3594 0, 3974 0 ,4364 0 ,4761 0,07 0,0002 0,0003 0,0004 0,0005 0,0008 0,0011 0,0015 0,0021 0,0028 0,0038 0 ,0051 0,0068 0,0089 0 ,0116 0,0150 0,0192 0,0244 0,0307 0,0384 0 ,0475 0,0582 0 ,0708 0,0853 0,1020 0,1210 0,1423 0,1660 0,1922 0,2206 0,2514 0,2843 0,3192 0,3557 0, 3936 0,4325 0,47 2 1 0,08 0,0002 0,0003 0,0004 0,0005 0,0007 0,0010 0, 0014 0 ,0020 0,0027 0,0037 0,0049 0 ,0066 0,0087 0,0113 0,0146 0,0188 0,0239 0,09 0,0002 0,0002 0,0003 0,0005 0,0007 0,001 0 0, 0014 0,0019 0,0026 0,0036 0 ,0048 0 , 0064 0,0084 0,0110 0,0143 0,0183 0,0233 0,0301 0,0375 0,0465 0,0571 0 ,0694 0 ,0838 0,1003 0,1190 0,1401 0,1635 0, 1894 0,2177 0,2483 0,2810 0,3156 0,3520 0,3897 0,4286 0,4681 0,0294 0,0367 0,0455 0,0559 0,0681 0 , 0823 0,0985 o, 1170 0 , 1379 0,1611 0,1867 0,2148 0,2451 0,2776 0 ,3121 0,3483 0,3859 0,4247 0,4641 Los valores interiores representan la probabi lidad de obtener valores de Z menores o iguales que la puntuación típica, z, definida por el cru ce de la fila con la columna indicativa del segundo decimal. Así, por ejemp lo, la probabilidad de obtener puntuaciones menores o igua les que - 1,05 es 0,1469. Es decir P(Z:'S-l,05)=0,1469 494 TABLAS ESTADÍSTICAS Tabla IV. Distribución NORMAL TIPIFICADA P(Z5'z) -3 z o 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 1,10 1,20 1,30 1,40 1,50 1,60 1,70 1,80 1,90 2,00 2,10 2,20 2,30 2,40 2,50 2,60 2,70 2,80 2,90 3,00 3,10 3,20 3,30 3,40 3,50 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0 ,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 o, 7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997 0,9998 -2 -1 0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997 0,9998 O 0,03 0,5120 0,5517 0,5910 0,6293 0,6664 o, 7019 0,7357 o, 7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997 0,9998 2 0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9992 0,9994 0,9996 0,9997 0,9998 3 o,o~ 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0 ,9992 0,9994 0,9996 0,9997 0 , 9998 0,06 0,5239 0,5636 0,6026 0,6406 0,6772 o, 7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997 0,9998 0,08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0 ,9997 0, 9998 0,09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0 ,9993 0,9995 0,9997 0 ,9998 0,9998 Los valores interiores representan la probabilidad de obtener valores de Z menores o iguales que la puntuación típica, z, definida por e l cruce de la fila con la columna indicativa del segundo decimal. Así, por ejemplo, la probabilidad de obtener puntuaciones menores o iguales que 1,05 es 0,8531. Es decir P(Z5. 1,05) = 0,8531 495 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tabla V. Distribución x2 15,9872 ll g.l. 1 2 3 4 5 6 7 8 9 10 u 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 " 0 ,005 0,0000 0,0100 0,0717 0,2070 0,4117 0,6757 0,9893 1,3444 1,7349 2,1559 2,6032 3,0738 3,5650 4,0747 4,6009 5 , 1422 5, 6972 6,2648 6,8440 7,4338 8,0337 8,6427 9,2604 9,8862 10,5197 11,1602 11,8076 12,4613 13,1211 13,7867 20,7065 27,9907 35,5345 43,2752 51,1719 59,1963 67,3276 0 ,0 10 0,0002 0,0201 0,1148 0,2971 0,5543 0,8721 1,2390 1,6465 2,0879 2,5582 3,0535 3,5706 4,1069 4,6604 5,2293 5,8122 6,4078 7,0149 7,6327 8,2604 8,8972 9,5425 10, 1957 10,8564 11,5240 12,1981 12,8785 13,5647 14,2565 14,9535 22,1643 29, 7067 37,4849 45,4417 53,5401 61, 7541 70,0649 0,0 25 0,0010 0,0506 0,2158 0,4844 0,8312 1,2373 1,6899 2,1797 2,7004 3,2470 3,8157 4,4038 5,0088 5,6287 6,2621 6,9077 7,5642 8,2307 8,9065 9,5908 10,2829 10,9823 11,6886 12,4012 13,1197 13,8439 14, 5734 15,3079 16,0471 16,7908 24,4330 32,3574 40,4817 48 ,7576 57,1532 65,6466 74,22 19 0 ,050 0,0039 0,1026 0,3518 0,7107 1,1455 1,6354 2,1673 2,7326 3,3251 3,9403 4,5748 5,2260 5,8919 6,5706 7,2609 7,9616 8,6718 9,3905 10,1170 10,8508 11,5913 12,3380 13,0905 13,8484 14,6114 15,3792 16,1514 16,9279 17,7084 18,4927 26,5093 34,7643 43,1880 51,7393 60,3915 69,1260 77,9295 Prob'a'bilidad 0,100 0 ,900 0,0158 2,7055 0,2107 4,6052 0,5844 6,2514 1,0636 7,7794 1,6103 9,2364 2,2041 10,6446 2,8331 12,0170 3,4895 13,3616 4,1682 14,6837 4,8652 15,9872 5,5778 17,2750 6,3038 18,5493 7,0415 19,8119 7,7895 21,0641 8,5468 22,3071 9,3122 23,5418 10,0852 24,7690 10,8649 25,9894 11,6509 27,2036 12,4426 28,4120 13,2396 29,6151 14,0415 30,8133 14,8480 32,0069 15,6587 33,1962 16,4734 34,3816 17,2919 35,5632 18,1139 36, 7412 18,9392 37,9159 19,7677 39,0875 20,5992 40,2560 29,0505 51,8051 37, 6886 63,1671 46,4589 74,3970 55,3289 85, 5270 64,2778 96, 5782 73,291 1 107,5650 82,3581 118,4980 11 0 ,950 3,8415 5,9915 7,8147 9,4877 11,0705 12,5916 14,0671 15,5073 16,9190 18,3070 19,6751 21,0261 22,3620 23,6848 24,9958 26,2962 27, 5871 28,8693 30,1435 31,4104 32,6706 33,9244 35,1725 36,4150 37,6525 38,8851 40,1133 41,3371 42,5570 43 , 7730 55,7585 67,5048 79,0819 90,5312 101,8795 113,1453 124,3421 \¡ 0,975 5,0239 7,3778 9,3484 11,1433 12,8325 14,4494 16,0128 17,5345 19,0228 20,4832 21,9200 23,3367 24,7356 26,1189 27,4884 28,8454 30,1910 31,5264 32,8523 34,1696 35,4789 36,7807 38,0756 39,3641 40,6465 41,9232 43,1945 44,4608 45,7223 46,9792 59,3417 71,4202 83,2977 95,0232 106,6286 118,1359 129,5612 0 , 990 6,6349 9 ,2103 11,3449 13,2767 15,0863 16,8119 18,4753 20,0902 21,6660 23,2093 24,7250 26,2170 27,6882 29,1412 30,5779 31,9999 33,4087 34,8053 36,1909 37,5662 38,9322 40,2894 41,6384 42,9798 44,3141 45,6417 46,9629 48,2782 49,5879 50,8922 63,6907 76,1539 88,3794 100,4252 112,3288 124, 1163 135,8067 ,[I 0 ,995 7,8794 10,5966 12,8382 14,8603 16,7496 18,5476 20,2777 21,9 550 23,5894 25,1882 26,7 568 28,2995 29,8195 31,3193 32,8013 34,2672 35,7185 37,1565 38,5823 39 ,9968 41,4011 42, 7957 44,1813 45,5585 46,9279 48,2899 49,6449 50,9934 52,3356 53,6720 66,7660 79,4900 91,9517 104,2149 116,3211 128,2989 140,1695 Los números interiores representan valores de la variable x2 para una probabilidad menor o igual que la especificada, con g.l. grados de libertad. Por ejemplo, con 10 g.l. la probabilidad de obtener valores menores o iguales que 15,9872 es 0,90 496 TABLAS ESTADÍSTICAS Tabla VI. Distribución t de Student l\ tlO _J_a;K__ 1, 372 g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 '20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 0,550 0,158 0,142 0,137 0,134 0,132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,600 0,325 0,289 0,277 0,271 0,267 0,265 0,263 0,262 0,261 0,260 0,260 0,259 0,259 0,258 0,258 0,258 0,257 0,257 0,257 0,257 0,257 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,255 0,255 0,254 0,254 0,254 0,254 0,254 0,650 0,510 0,445 0,424 0,414 0,408 0,404 0,402 0,399 0,398 0,397 0,396 0,395 0,394 0,393 0,393 0,392 0,392 0,392 0,391 0,391 0,391 0,390 0,390 0,390 0,390 0,390 0,389 0,389 0,389 0,389 0,388 0,388 0,387 0,387 0,387 0,387 0,386 0 , 700 0,727 0,617 0,584 0,569 0,559 0,553 0,549 0,546 0,543 0,542 0,540 0,539 0,538 0,537 0,536 0,535 0,534 0,534 0,533 0,533 0,532 0,532 0,532 0,531 0,531 0,531 0,531 0,530 0,530 0,530 0,529 0,528 0,527 0,52 7 0,526 0,526 0,526 0,750 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,679 0,678 0,678 0,677 0,677 Probabilidad 0,800 0 ,850 1,376 1,963 1,061 1,386 0,978 1,250 0,941 1,190 0,920 1,156 0,906 1,134 0,896 1,119 0,889 1,108 0,883 1, 100 0,879 1,093 0,876 1,088 0,873 1,083 0,870 1,079 0,868 1,076 0,866 1, 0 74 0,865 1,071 0,863 1,069 0,862 1,067 0,861 1,066 0,860 1,064 0,859 1,063 0,858 1,061 0,858 1,060 0,857 1, 059 0,856 1,058 0,856 1,058 0,855 1,057 0,855 1,056 0,854 1,055 0,854 1,055 0,851 1,050 0,849 1,047 0,848 1,045 0,847 1,044 0,846 1,043 0,846 1,042 0,845 1,042 0,900 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,299 1,296 1,294 1,292 1,291 1,290 0 , 950 0 ,975 0.990 6,314 12,706 31,821 2,920 4,303 6,965 2,353 3,182 4,541 2,132 2,776 3,747 2,015 2,571 3,365 1,943 2,447 3,143 1,895 2,365 2,998 1,860 2,306 2,896 1,833 2,262 2,821 1,812 2,228 2,764 1,796 2,201 2,718 1,782 2,179 2,681 1,771 2,160 2,650 1,761 2,145 2,624 1,753 2,131 2,602 1,746 2,120 2,583 1,740 2,110 2,567 1,734 2,101 2,552 1,729 2,093 2,539 1,725 2,086 2,528 1,721 2,080 2,518 1,717 2,074 2,508 1,714 2,069 2,500 1,711 2,064 2,492 1,708 2,060 2,485 1,706 2,056 2,479 1,703 2,052 2,473 1,701 2,048 2,467 1,699 2,045 2,462 1,697 2,042 2,457 1,684 2,021 2,423 1,676 2,009 2,403 1,671 2,000 2,390 1,667 1,994 2,381 1,664 1,990 2,374 1,662 1,987 2,368 1,660 1,984 2,364 0,995 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3, 106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,678 2,660 2,648 2,639 2,632 2,626 Los números interiores re p resentan valores de la variabl e T para una probabilidad menor o igual que la es pecifica d a , co n g .l. g ra dos de libertad. Por eje mp lo , con 10 g. l. la probab ilidad de obtener valores menores o igua les q ue 1,372 es 0,90 . 497 Tabla VII. Distribución F z --i ;o o P(Fnn ~fnn)= 0,90 l 2 1 l o e R 5 1,94 z )> r- Grados de libertad del numerador (n 1 ) 1 2 3 4 5 6 7 8 1 39,863 49,500 53,593 55,833 57,240 58,204 58,906 )> 10 20 59,439 9 59,858 60,195 61,740 30 62,265 40 62,529 50 62,688 60 62,794 120 63,061 9,483 z )>, r- ¡¡¡ ¡¡¡ o m o 2 8,526 9,000 9,162 9,243 9,293 9,326 9,349 9,367 9,381 9,392 9,441 9,458 9,466 9,471 9,475 3 5,538 5,462 5,391 5,343 5,309 5,285 5,266 5,252 5,240 5,230 5,184 5, 168 5,160 5,155 5, 151 5,143 4 4,545 4 ,325 4,191 4,107 4,051 4,010 3,979 3,955 3,936 3,920 3,844 3,817 3,804 3,795 3,790 3,775 5 4,060 3,780 3,619 3,520 3,453 3,405 3,368 3,339 3,316 3,297 3,207 3,174 3,157 3,147 3,140 3,123 ~~ --;; 6 3,776 3,463 3,289 3,181 3,108 3,055 3,014 2,983 2,958 2,937 2,836 2,800 2,781 2,770 2,762 2,742 )> 1J 7 3,589 3,257 3,074 2,961 2,883 2,827 2,785 2,752 2,725 2,703 2,595 2,555 2,535 2,523 2,514 2,493 ;:; 8 3,458 3,113 2,924 2,806 2,726 2,668 2,624 2,589 2,561 2,538 2,425 2,383 2,361 2,348 2,339 2,316 ·e 109 e 3,360 3,006 2,813 2,693 2,611 2,551 2,505 2,469 2,440 2,416 2,298 2,255 2,232 2,218 2,208 2,184 o z 0 3,285 2,924 2,728 2,605 2,522 2,461 2,414 2,377 2,347 2,323 2,201 2,155 2,132 2,117 2,107 2,082 11 3,225 2,860 2,660 2,536 2,451 2,389 2,342 2,304 2,274 2,248 2,123 2,076 2,052 2,036 2,026 2,000 ,:, . . 0 '0 eQI '0 'ii 12 3,177 2,807 2,606 2,480 2,394 2,331 2,283 2,245 2,214 2,188 2,060 2,011 1,986 1,970 1,960 1,932 .13 3,136 2,763 2,560 2,434 2,347 2,283 2,234 2,195 2,164 2,138 2,007 1,958 1,931 1,915 1,904 1,876 2,122 2,095 1,962 1,912 1,88 5 1,869 1,857 1,828 2,059 1,924 1,873 1,845 1,828 1,817 1,787 1,751 '0 '0 . t:QI ª. 14 3,102 2,726 2,522 2,395 2,307 2,243 2,193 2,154 15 3,073 2,695 2,490 2,361 2,273 2,208 2,158 2,119 2,086 r- ,., )> m m V, z 1J V, 8 5 C1 :i,' 16 3,048 2,668 2,462 2,333 2,244 2,178 2,128 2,088 2,055 2,028 1,891 1,839 1,811 1,793 1,782 0 '0 .1 7 3,026 2,645 2,437 2,308 2,218 2,152 2,102 2,061 2,028 2,001 1,862 1,809 1,781 1,763 1,751 1,7 19 ,.,-< m ,.,z l.!I 18 3,007 2,624 2,416 2,286 2,196 2,130 2,079 2,038 2,005 1,977 1,837 1,783 1,754 1,736 1,723 1,691 V, 19 2,990 2,606 2,397 2,266 2,176 2,109 2,058 2,017 1,984 1,956 1,814 1,7 59 1,730 1,711 1,699 1,666 m r- 20 2,975 2,589 2,380 2,249 2,158 2,091 2,040 1,999 1,965 1,937 1,794 1,738 1,708 1,690 1,677 1,643 30 2,881 2,489 2,276 2,142 2,049 1,980 1,927 1,884 1,849 1,819 1,667 1,606 1,573 1,552 1,538 1,499 1,707 1,543 1,476 1,437 1,413 1,395 1,348 1,652 1,482 1,409 1,368 1,340 1,320 1,265 QI '0 . 60 2,791 2,393 2,177 2,041 1,946 1,875 1,819 1,775 1,738 120 2,748 2,347 2,130 1,992 1,896 1,824 1,767 1,722 1,684 Los números interiores corresponden a los valores de la variable F con n 1 grados de libertad del numerador y n 2 grados de libertad del denominador. Por ejemplo, P(F10 , 20 ~ 1,937) = 0,90 )> o )> V, )> E o Tabla VII. Distribución F P (Fnn s;fnn)=0, 95 1 2 1 2 Grados de libertad del .oumerador (n 1 ) - = 1 2- 3 4 5 6 7 8 9 10 20 30 40 50 60 120 161,448 199,500 215,707 224,583 230,162 233,986 236,768 238,883 240,543 24 1,882 248,013 250,095 251,143 251,774 252,196 253,253 2 18,513 19,000 19,164 19,247 19,296 19,330 19,353 19,371 19,385 19,396 19,446 19,462 19,471 19,476 19,479 19,487 3 10,128 9,552 9,277 9,117 9,013 8,941 8,887 8,845 8,812 8,786 8,660 8,617 8,594 8,581 8,572 8,549 4 7,709 6,944 6,591 6,388 6,256 6,163 6,094 6,041 5,999 5,964 5,803 5,746 5,717 5,699 5,688 5,658 5 6,608 5,786 5,409 5,192 5,050 4,950 4 ,876 4,818 4,772 4,735 4,558 4,496 4,464 4,444 4,431 4,398 6 5,987 5,143 4 ,757 4,534 4,387 4 , 284 4,207 4,147 4 ,099 4,060 3,874 3,808 3,774 3,754 3,740 3,705 7 5,591 4,737 4,347 4,120 3,972 3,866 3,787 3,726 3,677 3,637 3,445 3,376 3,340 3,319 3,304 3,267 ,:, 8 5,318 4,459 4,066 3,838 3,687 3,581 3,500 3,438 3,388 3,347 3,150 3,079 3,043 3,020 3,005 2,967 e 9 5,117 4,256 3,863 3,633 3,482 3,374 3,293 3,230 3, 179 3,137 2,936 2,864 2,826 2,803 2,787 2,748 e 10 4,965 4,103 3,708 3,478 3,326 3,217 3,135 3,072 3,020 2,978 2,774 2,700 2,661 2,637 2,621 2,580 11 4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 2,854 2,646 2,570 2,531 2,507 2,490 2,448 'ii ,:, 12 . 4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,796 2,753 2,544 2,466 2,426 2,401 2,384 2,341 13 4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 2,671 2,459 2,380 2,339 2,314 2,297 2,252 QI 14 4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 2,602 2,388 2,308 2,266 2,241 2,223 2,178 15 4,543 3,682 3,287 3,056 2,901 2,790 2,707 2,641 2,588 2, 544 2,328 2,247 2,204 2,178 2,160 2,114 2,059 1 I. . o E o QI ,:, ,:, ~ ,g . QI ,:, 16 4,494 3,634 3,239 3,007 2,852 2,741 2,657 2,591 2,538 2,494 2,276 2,194 2, 151 2,124 2,106 17 4,451 3,592 3,197 2,965 2,810 2,699 2,614 2,548 2,494 2,450 2,230 2, 148 2,104 2,077 2,058 2,011 1:1 1 8 4 ,414 3,555 3,160 2,928 2,773 2,661 2,577 2,510 2,456 2,412 2,19 1 2, 107 2,063 2,035 2,017 1,968 o ,:, l'! 19 4, 381 3,522 3,127 2,895 2,740 2,628 2,544 2,477 2,423 2,378 2,155 2,07 1 2,026 1,999 1,980 1,930 20 4 ,351 3,493 3,098 2,866 2,711 2,599 2, 514 2,447 2,393 2,348 2, 124 2,039 1,994 1,966 1,946 1,896 30 4,171 3,316 2,922 2,690 2, 534 2,421 2,334 2,266 2,211 2,165 1,932 1,841 1,792 1,761 1,740 1,683 60 4,001 3,150 2,758 2,525 2,368 2,254 2, 167 2,097 2,040 1,993 1,748 1,649 1,594 1,559 1,534 1,467 120 3,920 3,072 2,680 2,447 2,290 2,175 2,087 2,016 1,959 1,910 1,6 59 1,554 1,495 1,457 1,429 1,352 Los números interiores corresponden a los valores de la vari able F co n n 1 grados de libertad del num erador y n 2 grados de libertad del denominad or. Por ejemplo, P( F10, 20 $ 2,348) = O, 95 u, Tabla VII. Distribución F o o z --t ;JJ P (Fnn ~fnn)= 0,975 l 2 l 2 o o e n n 5, z ,...)> Grado.s. de libertad del numerador (n 1) )> 1 2 3 4 5 6 7 8 9 10 1 647,789 799,500 864,163 899,583 921,848 937,111 948,217 956,656 963,285 968,627 2 38,506 39,000 39,165 39,248 39, 298 39,331 39,355 39,373 39,387 39,398 39,448 39,465 39,473 39,478 39 ,481 39,490 20 40 120 30 50 60 993,103 1001 ,414 1005,598 1008,117 1009,800 1014,020 ¡¡; ¡¡; o m 3 17,443 16,044 15,439 15,101 14,885 14,735 14,624 14,540 14,473 14,419 14,167 14,081 14,037 14,010 13,992 13,947 4 12,218 10,649 9,979 9,605 9,364 9, 197 9,074 8,980 8,905 8,844 8,560 8,461 8,411 8,381 8,360 8,309 5 10,007 8,434 7,764 7,388 7,146 6,978 6,853 6,757 6,681 6,619 6,329 6,227 6,175 6,144 6,123 6,069 !".' 4,904 ,..."ti -;- 6 8,8 13 7,260 6,599 6,227 5,988 5,820 5,695 5,600 5,523 5,461 5,168 5,065 5,012 4,980 4,959 6,542 5,890 5,523 5,285 5,119 4,995 4,899 4,823 4 ,761 4,467 4,362 4,309 4,276 4,254 4,199 .:, z ,...)>, o ~ o )> a 7 8,073 8 7,571 6,059 5,416 5,053 4 ,8 17 4,652 4,529 4,433 4 ,357 4,295 3,999 3,894 3,840 3,807 3,784 3,728 e 9 7,209 5,715 5,0 78 4 ,718 4,484 4,320 4,197 4,102 4,026 3,964 3,667 3,560 3,505 3,472 3,449 3,392 6,937 5,456 4,826 4,468 4,236 4,072 3,950 3,855 3,779 3,717 3,419 3,311 3,255 3,221 3,198 3,140 V, 11 6,724 5,256 4,630 4,275 4,044 3,881 3,759 3,664 3,588 3,526 3,226 3,118 3,061 3,027 3,004 2,944 z 12 6,554 5,096 4,474 4,121 3,891 3,728 3,607 3,512 3,436 3,374 3,073 2,963 2,906 2,871 2,848 2,787 13 6,414 4 ,965 4 ,347 3,996 3,767 3,604 3,483 3,388 3,312 3,250 2,948 2,837 2,780 2,744 2,720 2,659 14 6,298 4,857 4,242 3,892 3,663 3,501 3,380 3,285 3,209 3,147 2,844 2,732 2,674 2,638 2,614 2,552 3,415 3,293 3,199 3,123 3,060 2,756 2,644 2,585 2,549 2,524 2,461 . '0 ·e 10 0 e QI '0 -¡j '0 '0 . t: QI ª 15 6,200 4,765 4 ,153 3,804 3,576 16 6,115 4,687 4,077 3,729 3,502 3,341 3,219 3,125 3,049 2,986 2,681 2,568 2,509 2,472 2,447 2,383 0 '0 17 6,042 4 ,619 4 ,011 3,665 3,438 3,277 3,156 3,061 2,985 2,922 2,616 2,502 2,442 2,405 2,380 2,315 llJ 18 5,978 4,560 3,954 3,608 3,382 3,221 3,100 3,005 2,929 2,866 2,559 2,445 2,384 2,347 2,321 2,2 56 3,051 2,956 2,880 2,817 2,509 2,394 2,333 2,295 2,270 2,203 QI '0 111 :? 19 5,922 4,508 3,903 3,559 3,333 3,172 20 5,871 4,461 3,859 3,515 3,289 3,128 3,007 2,913 2,837 2,774 2,464 2,349 2,287 2,249 2,223 2,156 30 5,568 4 , 182 3,589 3,250 3,026 2,867 2,746 2,651 2,575 2,511 2,195 2,074 2,009 1,968 1,940 1,866 60 5,286 3,925 3,343 3, 008 2,786 2,627 2,507 2,412 2,334 2,270 1,944 1,81 5 1,744 1,699 1,667 1,581 2,395 2,299 2,222 2,157 1,825 1,690 1,614 1,565 1,530 1,433 120 5,152 3,805 3,227 2,894 2,674 2,515 Los números interiores corresponden a los va lores de la variable F con n 1 grados de libertad del numerador y n 2 grados de libertad del denominador. Por ejemplo, P(F10 , 20 ~ 2,774) = 0,975 ¡:; )> n oz m m "ti V, 8 5 e, >' -< n ñi z n > V, o ,...m )> V, ,...)> e o Tabla VII. Distribución F P (Fnl n2 $ fn 1n2 ) = O, 990 Grados de libertad del numerador (n 1 ) 1 -1 5 6 7 8 9 10 20 30 40 50 60 120 4052,181 4999,500 5403,352 5624 ,583 5763,650 5858,986 5928,356 5981 ,070 6022,473 6055,847 6208,730 6260,649 6286,782 6302,517 6313,030 6339,391 98 ,503 99 ,000 99,166 99,249 99,299 99 ,333 99 ,356 99,374 99, 388 99 ,399 99 ,449 99 ,466 99,474 99 ,479 99,482 99,491 34 ,116 30,817 29,457 28, 710 28,237 27,911 27 ,672 27 ,489 27, 345 27,229 26,690 26,505 26,411 26,354 26 ,316 26,221 4 21 , 198 18,000 16,694 15,977 15,522 15, 207 14,976 14,799 14,659 14,546 14,020 13,838 13,745 13,690 13,652 13,558 5 16,258 13,274 12,060 11, 392 10,967 10,672 10,456 10, 289 10,158 10,051 9, 553 9,379 9,291 9, 238 9,202 9,112 6 13,745 10,925 9,78 0 9 , 148 8,746 8,466 8 ,260 8 ,102 7,976 7,874 7, 396 7 ,229 7, 143 7,091 7,057 6,969 7 12,246 9,547 8,451 7,84 7 7,460 7 , 191 6,993 6,840 6,719 6,620 6, 155 5,992 5,908 5,858 5,824 5,737 m 8 11 ,259 8, 64 9 7,591 7,006 6,632 6, 371 6, 178 6 ,029 5,911 5,814 5, 359 5,198 5,116 5,065 5,032 4,946 ·eo 9 10, 561 8,022 6,99 2 6 ,422 6,057 5,802 5,613 5,467 5,351 5,257 4 ,808 4,649 4 , 567 4 ,517 4,483 4,398 ~ o 10,044 7, 559 6,55 2 5 ,994 5,636 5, 386 5,200 5,057 4,942 4 ,849 4 ,405 4,247 4 , 165 4 , 115 4,082 3,996 'ti 11 9 ,646 7, 206 6 ,21 7 5,668 5,316 5,069 4,886 4 ,744 4 ,632 4,539 4 ,099 3 ,941 3,860 3,810 3,776 3,690 u 'ti 12 9 ,330 6,92 7 5,953 5,412 5,064 4 ,821 4 ,640 4 ,499 4,388 4 ,296 3,858 3,701 3,619 3, 569 3,535 3,449 'ti e ea, 10 . ª. 'ti t: a, a, 'ti o 'ti f! t, .... 4 3 o u, 3 2 I... . o 2 -13 9,074 6,701 5,739 5,205 4 ,862 4,620 4 ,441 4 ,302 4, 191 4 , 100 3,665 3,507 3,425 3,375 3,341 3,255 14 8 ,86 2 6,515 5,564 5,035 4 ,695 4 ,456 4 ,278 4,140 4,030 3,939 3,505 3,348 3,266 3,215 3,181 3,094 15 8 ,683 6,3 59 5,41 7 4,893 4 , 556 4 , 318 4,142 4,004 3,895 3,805 3,372 3 ,214 3,132 3,081 3,047 2,959 16 8 ,531 6,226 5,292 4, 773 4 ,437 4 , 202 4,026 3,890 3,780 3,69 1 3,259 3,101 3,0 18 2,967 2,933 2,845 17 8,400 6, 112 5,185 4,669 4 ,3 36 4 , 102 3,927 3,791 3,682 3,593 3, 162 3,003 2,920 2,869 2,835 2,746 18 8, 285 6 ,013 5,092 4, 579 4 ,248 4 ,015 3,841 3,705 3,597 3,508 3,077 2,919 2,835 2,784 2,749 2,660 19 8, 185 5,926 5,0 10 4 , 500 4 , 171 3,939 3,765 3 ,631 3,523 3,434 3,003 2,844 2,761 2,709 2,674 2, 584 20 8 ,096 5,849 4,938 4 ,4 3 1 4 , 103 3,871 3,699 3,564 3,457 3,368 2,938 2,778 2,695 2,643 2,608 2, 517 30 7, 562 5,390 4, 510 4,0 18 3,699 3,473 3,304 3, 173 3,067 2,979 2,549 2,386 2,299 2, 245 2,208 2, 111 60 7,077 4 ,977 4 ,1 26 3,649 3,339 3, 119 2,953 2,823 2,718 2,632 2, 198 2,028 1,936 1,877 1,836 1,726 120 6,8 5 1 4 ,787 3,949 3, 480 3, 174 2,9 56 2,792 2,663 2,559 2,472 2,035 1,860 1,763 1,700 1,656 1, 533 Los números interiores corresponden a los valores de la variable F con n 1 grados de libertad del numerador y n 2 grados de libertad del denominador. Por ejemplo, P(F10 ,20 s; 3,368) = 0,990 ~ CD ,.... );, VI VI ¡;;· -i ;:¡ );, VI u, Tabla VII. Distribución F o N z -t :X, P (Fnn :,;fnn)= 0,995 l 2 1 2 o o e R o z Grados de libertad del numerador ( n 1 ) 1 1 2 3 4 5 6 7 8 9 10 )> - r- = )> 20 30 40 50 120 60 16210,723 19999,500 21614,741 22499,583 23055,798 23437,111 23714,566 23925,406 24091,004 24224,487 24835,971 25043,628 25148,153 25211,089 25253, 137 25358,573 ? 2 198,501 199,000 199,166 199,250 199,300 199,333 199,357 199,375 199,388 199,400 199,450 199,466 199,475 199,480 199,483 199,491 3 55,552 49 ,799 47 ,467 46 ,195 45,392 44,838 44,434 44,126 43,882 43 ,686 42,778 42,466 42,308 42,213 42,149 41,989 4 31 ,333 26,284 24,259 23 ,155 22,456 21 ,975 21 ,622 21 , 352 21 ,139 20,967 20,167 19,892 19,752 19,667 19,611 19,468 ~ z )>, r- iii ¡¡; o m o ~ o 5 22,785 18,314 16,530 15,556 14,940 14,513 14,200 13,961 13,772 13,618 12,903 12,656 12,530 12,454 12,402 12,274 ¿ 6 18,635 14,544 12,917 12,028 11,464 11 ,073 10,786 10 ,566 10,391 10,250 9 ,589 9 ,358 9,241 9,170 9,122 9,001 ---¡; 7 16,236 12,404 10,882 10,050 9,522 9, 155 8 ,885 8,678 8, 514 8 ,380 7 ,754 7,534 7,422 7,354 7,309 7,193 8 14,688 11,042 9,596 8,805 8,302 7,952 7,694 7,496 7,339 7,211 6,608 6,396 6,288 6,222 6,177 6,065 13,614 10, 107 8,7 17 7,956 7,471 7, 134 6 ,885 6,693 6, 541 6,417 5,832 5,625 5,519 5,454 5,410 5,300 o z 12,826 9,427 8,081 7,343 6,872 6, 545 6 ,302 6, 116 5,968 5,847 5,274 5,071 4,966 4,902 4,859 4,7 50 V) 12,226 8,912 7,600 6,881 6,422 6 ,102 5,865 5 ,682 5,537 5,418 4,855 4,654 4,551 4,488 4,445 4,337 6,071 5,757 5, 525 5,345 5,202 5,085 4,530 4 ,331 4,228 4,165 4,123 4,015 . "0 e e 109 0 e Gl "0 -¡¡ "0 "0 . t: Gl ª., . ¡; Gl "0 0 "0 11 12 11 ,754 8,510 7,226 6,521 13 11, 374 8,186 6,926 6,233 5,791 5,48 2 5,253 5,076 4 ,935 4,820 4,270 4 ,073 3,970 3 ,908 3,866 3,758 14 11,060 7,922 6,680 5,998 5,562 5,257 5,031 4 ,857 4 ,717 4 ,603 4,059 3,862 3,760 3,698 3,655 3, 547 15 10,798 7,701 6,476 5,80 3 5,372 5,071 4 ,847 4 ,674 4 ,536 4 ,424 3,883 3,687 3,585 3, 523 3,480 3,372 4 ,692 4 ,521 4 ,384 4,272 3,734 3,539 3,437 3,375 3,332 3,224 !".' )> -e r- ñ ¡:; m m z -e V) 8 5 C1 > 16 10,575 7,514 6,303 5,638 5,212 4 ,913 17 10,384 7,354 6,156 5,497 5,075 4 ,779 4, 559 4 ,389 4 ,254 4,142 3,607 3,412 3,311 3,248 3,206 3,097 ,..,-< ¡;; ,..,z 18 10, 21 8 7, 215 6,028 5,375 4,956 4 ,663 4,445 4 ,276 4 , 141 4,030 3 ,498 3,303 3,201 3,139 3,096 2,987 V) 19 10,073 7,093 5,916 5,268 4 ,8 53 4 ,561 4,345 4 ,177 4 ,043 3,933 3,402 3,208 3,106 3,043 3,000 2,891 5, 174 4 ,762 4 ,472 4, 257 4 ,090 3,956 3,847 3,318 3,123 3,022 2,959 2,916 2,806 20 9,944 6,986 5,818 30 9,1 80 6,355 5,239 4 ,623 4 ,228 3,949 3,742 3,580 3,450 3 ,344 2,823 2,628 2,524 2,459 2,415 2,300 60 8,495 5,795 4 ,729 4 , 140 3,760 3,492 3,291 3, 134 3,008 2,904 2,387 2,187 2,079 2,010 1,962 1,834 120 8, 179 5,539 4 ,497 3,921 3,548 3,285 3 ,087 2,933 2,808 2 ,705 2,188 1,984 1,871 1,798 1,747 1,606 Los números interiores correspond en a los va lores de la vari able F con n 1 grados de libertad del numerador y n 2 grados de libertad del denominador. Por ejemplo, P(F10 , 20 :-; 3,847) = 0,995 )> o m r)> V) )> E o TEMAl Conceptos básicos y organización de datos Cualitativa • Dicotómica • Politómica - Cuantitativa -+Nominal Cuaslcuantitatlva -+Ordinal ■ Intervalo Discreta • Continua Razón Conceptos básicos Frecuencia absoluta (n¡). Proporción o frecuencia relativa (p¡). Porcentaje (P;), Frecuencia absoluta acumulada (n 0 ). Proporción acumulada o frecuencia relativa acumulada (p 0 ) . Porcentaje acumulado (P0 ). Intervalo. Límites aparentes. Límites exactos o reales. Punto medio del intervalo (PM): PM = LIE + LSE ó PM = LIA + L.SA 2 2 Amplitud del intervalo. Representación gráfica de una variable. Propiedades de la distribución de frecuencias. 1 TEMA2 índices de tendencia central y de posición ÍNDICES DE TENDENCIA CENTRAL MEDIA ARITMÉTICA: Media ponderada: Xp _ n1 • X 1 + n2 • X 2 + ... + n1 . X 1 - n MEDIANA:Hd n par: n impar: Md = Xn¡2 + X (n/2)+1 2 Md = x (n +l)/2 Datos agrupados: Md = L; + - - nd n2 ] [ ne ·I donde: L; es límite inferior exacto del intervalo crítico n es el número de observaciones nd es la frecuencia absoluta acumulada por debajo del intervalo crítico 2 TEMA 2: MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN ne es la frecuencia absoluta del intervalo crítico I es la amplitud del intervalo crítico ÍNDICES DE POSICIÓN PERCENTILES: k= l_(R_k_-_~,_·)n_·n~, + nd l 100 donde: nd es la frecuencia absoluta acumulada por debajo del intervalo crítico ne es la frecuencia absoluta del intervalo crítico k es el percentil L; es el límite inferior exacto del intervalo crítico J es la amplitud del intervalo 3 TEMA3 Medidas de variabilidad y forma MEDIDAS DE VARIABILIDAD Amplitud total o rango: Desviación media: DM = _I _jx;_-_ x¡ n Varianza: st = r(x;-x/ 2 ¿Xt -2 Sx =--- X n n 2 _ 5X - "n. L 1 (x.1 - x)2 n Desviación típica: 4 "n.X 2 ' ' n S x2 = L -2 - X 2 2 -2 Sx = ¿P;X; - X TEMA 3: MEDIDAS DE VARIABILIDAD Y FORMA Cuasidesviación típica: Cuasivarianza: s '1.::,n - 1 - \ 1 Amplitud intercuartil: Coeficiente de variación: CV -xt 's2 - r(x; n_ - n- 1 - 5 X = ! -100 MEDIDAS DE FORMA Índices de asimetría: Ap X-Mo AF = 1 =--- L n¡ ( X¡ - x/ Sx n -SI Índice de curtosis: "'n (x. - x) C=k,I r n 4 s: I · - 3 DIAGRAMA DE CAJA L5 = Q3 + ArQ x 1, 5 1 1 Lr = Q1 - ArQ x 1, 5 PUNTUACIONES DIFERENCIALES Y TÍPICAS X¡ X¡ - X Sx Sx zx=-= 5 TEMA4 Relación entre variables 1 MEDIDAS GLOBALES DE ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS Independencia: x,2 Total fila x Total columna 0 =--------n Coeficiente C de contingencia: Coeficiente cp: Coeficiente V de Cramer: RELACIÓN ENTRE VARIABLES ORDINALES Coeficiente de correlación de Spearman: r5 = 1 - 6 6I,dl n (n2 -1 ) 1 TEMAS Relación entre variables 11 Covarianza: n LX;Y; Sxy = Cov(X, Y) = i= l n - X y Coeficiente de correlación lineal de Pearson: Coeficiente de correlación biseral-puntual: r bp = Xp - Xq 5 ~ . '1/ p . q X REGRESIÓN LINEAL SIMPLE Recta de regresión: Y/= a+ bX; 1 Coeficientes de regresión: b = -= nL =-(_ X_ Y )_-= L _x = :_¿_y n:_¿x 2 -(:_¿x)2 BJB 7 FORMULARIO Y TABLAS ESTAOÍSTICAS DE INTRODUCCIÓN AL ANÁLISIS DE DATOS Error: Criterio de mínimos cuadrados: Coeficiente de determinación: Error cuadrático medio: 52 = E 52 Y·X "E2 -2 = _,¿_, __ , - E n Propiedades del modelo de regresión lineal simple: 1 E= o 11 Y· = Y I s~ = s~. + s~.x 2 rxy 5r =- 5 y2 REGRESIÓN LINEAL MÚLTIPLE 8 1- r2 XY - 5ix 52 y TEMA6 Nociones básicas de probabilidad Definiciones de probabilidad: ¡ P(A) = n: ¡ P(A) = lim n➔~ nA n Propiedades de la probabilidad: ■ O ~ P(A¡) ■ P(E) ■ p (Ai_ ~ 1 =1 U A2 U ..... U Ak ) = P( Ai_) + P( A2) + ..... + P( AK ) Teorema de la suma: 1 P(A u B) = P(A) + P(B) - Para sucesos mutuamente excluyentes: 1 P(A n B) P(A u B) 1 = P(A) + P(B) 1 Probabilidad condicionada: _ ( 1 ) PAB P (A n B) P(B) 1 P(BIA) = P(B n A) f(A) SilossucesosAyBsonindependientes:I P(AIB) = P(A) y P(BIA) = P(B) 1 9 FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANÁLISIS DE DATOS Teorema del producto: P(A n 8) = P(A) · P(8 IA) Si los sucesos A y 8 son independientes: 1 P(A n 8) Teorema de la probabilidad total: k P(8) = L P(A¡) . P(8 IA¡) i=l Teorema de Bayes: Aplicaciones en Psicología de la Salud: Sensibilidad: P (+ IT) Especificidad: P (- INT) Valor predictivo positivo: P (T I+) Valor predictivo negativo: 10 P(NT 1-) = P(A) · P(8) TEMA7 Variables aleatorias y modelos discretos de probabilidad VARIABLES ALEATORIAS DISCRETAS Función de probabilidad: 1 f (x) = P (X = x) 1 1 Función de distribución: Media: 1 Varianza: µ=E(X)=I,x f(x) 1 1 1 a 2 = V(X) = I,(x -µ) 2 f(x) 1 a'=V(X)=E(x') - [E(x)J' =E(x')-µ' I donde: E(x 2 ) = I,x 2 f (x); 2 [E(X)] es µ 2 Desviación típica: 1 a = ,la'= ,jI,(x - µ) 2 f (x) 1 11 FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANÁLISIS DE DATOS DISTRIBUCIONES DISCRETAS DE PROBABILIDAD Distribución de Bernoulli X ➔ Ber (p) ■ Función de probabilidad: ■ Función de distribución: ■ ■ =p Varianza: el f (x) = P(X = x) = p xq 1 - x 1 1 F(x) = P(X :$ x) = LPxql- x Medía: µ = p(l - p) = pq ■ Desviación típica: cr = Jpq Distribución binomial B(n,p) ■ Función de probabilidad : f (x) = P (X = x) = ( : ) p' q 0 - x donde: n) n! (x-x!(n-x)! n! = n • (n-1) • (n-2) • .... • (n-(n-1)) 1! = 1 ■ Función de distribución: ■ Medía : µ F(x) = np ■ Varianza: cr 2 = npq ■ Desviación típica: cr 12 0! = 1 = ✓npq = P(X s x) = L(: ) p'q 0 - x TEMAS Modelos continuos de probabilidad VARIABLES ALEATORIAS DISCRETAS Probabilidad para X= x f f(x) (x) = P (X = VARIABLES ALEATORIAS CONTINUAS Probabilidad para el intervalo [a,b] P (a x) Función de Distribución = P(X ~ xk) ~ b) = J; (x) f Función de Distribución F (x) = P(X ~ xk) = = = f (x1 ) + f (x2 ) + ... . + f dx f(x) = función de densidad de probabilidad = función de probabilidad F(xk) ~X J.:: f (x) dx (xk) Media o Valor Esperado Media o Valor Esperado µ= E(X) = I,x - f(x) µ = E(X) = s: X f(x)dx Varianza Varianza cr 2 = V (X)= I, (x - µ)2 •f (x) cr 2 = V (X)= J: [x - µ] 2 -f(x)dx DISTRIBUCIÓN NORMAL X ~ N(µ,a) Función de densidad de probabilidad: l(X-µ)' f(x) = - 1 - e- 2 -ª- para aih, -oc< x < oo 13 FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANÁLISIS DE DATOS Variable tipificada: z~N(0,1) Función de densidad de probabilidad de z: z' f 1 -(z) = - - e 2 cr✓'h para - oo < z < oo 0,50 0,45 0,40 0,35 f(z) 0,30 N (0,1) 0,25 0,20 0,15 0,10 0,05 o -4 -3 -2 o -1 1 2 z Aproximación de la binomial a la normal: P (X = x) = P [ -(x_-_o_,s_)_-_n_p .Jnpq 14 $; z $ _( x_+_o_, _s)_-_n_pl .Jnpq 3 4 TEMA 8: MODELOS CONTINUOS DE PROBABILIDAD DISTRIBUCION x2 DE PEARSON X ➔ X~ Media o valor esperado: µ =n Varianza: cr 2 = 2n 0,1 o 11,07 DISTRIBUCIÓN Media o valor esperado: µ Varianza: cr 2 t DE STUDENT X ➔ tn =O = _ n_ n- 2 0 ,4 0, 3 0, 2 0,1 -2 o 2 15 FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANALISIS DE DATOS DISTRIBUCIÓN F DE FISHER-SNEDECOR X ➔ Fn,, n2 Media o valor esperado: µ Varianza: o- 2 = = _!!L_ para n 2 > 2 n2 -2 2n22 (n1 + n2 - 2) para n2 n1 (n2 - 4) (n2 - 2)2 >4 F10,120 F10, 10 2,978 1,910 F120,120 1,352 2,124 Propiedad recíproca: pFn l' n2 16 1 F = 1- p n, ,n, TEMA9 Muestreo y distribución muestral de un estadístico Muestreo aleatorio simple ■ Con reposición: 0 ■ Sin reposición: N) (n N! = n !(N _ n)! Muestreo aleatorio sistemático DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO MEDIA Distribución normal de la variable X y varianza poblacional conocida Distribución normal de la variable X y varianza poblacional desconocida X +· ➔ sin' J con g . l. ~ n -1 1 E (X) ~ µ ~ ¡,;' 5 1 1 ªX 1 17 FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANALISIS DE DATOS X -µ T = / e sn - 1 vn ' T ➔ tn - 1 La variable X no se distribuye normalmente y n~ 30 (Teorema del límite central) a conocida: a desconocida: -X ➔ N ( µ, Sn ✓ n- 1 J , DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO PROPORCIÓN Muestras pequeñas P ➔ B n, ( ~ (1 - n)l n Muestras suficientemente grandes p - P ➔ N n, ( ~ (1 - n)l 1t z = ---==== n ✓n(ln- n) Z ➔ N(0,1) DISTRIBUCIÓN MUESTRAL DE VARIANZA Y CUASIVARIANZA Varianza: n -1 2 ( 2) = -na µs~ = E Sx ªs' = a X 18 2 ✓2 (n - 1) n TEMA 9: MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Cuasivarianza: ª s'n-, = a 2 ~ n --1 (n - 1)5;_ 1 se distribuyen según X~- l (n - 1, y X2 = - - - - cr2 .J2 (n - 1)) Aproximación a la normal de la distribución muestra! de la varianza para muestras grandes (n > 100) Z ➔ N(0,1) ( n~} l- (n - 1) z = ~---,======-- .J2 (n - 1) ! ((n-:;s~_,)-(n-l). z = -------;===---- .J2 (n - l ) 19 TEMAlO Estimación de parámetros y cálculo del tamaño muestral CÁLCULO DEL INTERVALO DE CONFIANZA Intervalo de confianza para el parámetro media con o-2 conocida Intervalo de confianza para el parámetro µ con o-2 desconocida P ( -X - 5 5 1tn- l;a/2 1----'l=.!_ -Jr, <- µ <- -X + 1tn- l;a/2 1----'l=.!_ -Jr, ) -- 1 - a 5n - 1 Linf = X - 1tn- l;a/2 1 -Jr, - Lsup = X + ltn- l;a/21 Aproximación a la normal (Teorema del Límite Central) 20 5 :;;t t TEMA 10: ESTIMACIÓN DE PARÁMETROS Y CALCULO DEL TAMAÑO MUESTRAL Intervalo de confianza para el parámetro 1t (aproximación a la normal) Intervalo de confianza para el parámetro cr2 Intervalo de confianza para la varianza: p (n - 1)5; _1 [ 2 ~cr 2 Xn - 1,a/2 = ---'------2-'---------'---1 Xn- 1,1- a/2 (n - 1)5; _1 ] 2 = 1 -a Xn - 1,(1- a/2) (n - 1)5; _ L;nf ~ Lsup , (n -1)5;_ = ---'-------2-----'-----'--'-----=--1 Xn- l,a/2 1 Para muestras grandes (n > 100) 11 21 FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANÁLISIS DE DATOS CÁLCULO DEL TAMAÑO MUESTRAL Parámetro media: conocida la varianza poblacional Poblaciones infinitas: 2 22 O" a/2 n=--- E~ax Poblaciones finitas y muestreo sin reposición: E max = l2 a12IO" ✓N - n Jri N- l - Desconocida la varianza poblacional Poblaciones infinitas: - 2 n = tn - 1,a/2 Emax Aproximación a la normal: 22 2 52 E~ax Poblaciones finitas y muestreo sin reposición: n= · t~- 1,a/2 · S~-1 N 2 2 (N -1) + tn - 1,a/2 · Sn - 1 n- 1 TEMA 10: ESTIMACIÓN DE PARÁMETROS Y CALCULO DEL TAMAÑO MUESTRAL Tamaño muestra! para el parámetro proporción Poblaciones infinitas: Z ~¡ P (1- P) n = -2 - - - E"fnax Poblaciones finitas y muestreo sin reposición: 23 Introducción al Análisis de Datos en Psicología y Ciencias de la Salud FORMULARIO Y TABLAS l SBN 978-84-17765-43-9

Introducción al Análisis de Datos 2ª 2019

Documentos relacionados

Productos

Apoyo

Introducción al Análisis de Datos 2ª 2019

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib