Subido por Maxi Drive

Introducción al Análisis de Datos 2ª 2019

Anuncio
2ª EDICIÓN
Introducción al
Análisis de Datos
Aplicaciones en Psicología y
Ciencias de la Salud
JUAN CARLOS SUÁREZ FALCÓN
PATRICIA RECIO SABOYA
MARÍA CONCEPCIÓN SAN LUIS COSTAS
MARÍA DEL PILAR POZO CABANILLAS
INCLUYE ACCESO A
CONTENIDOS ON LINE
..
sanz y torres
INTRODUCCIÓN AL ANÁLISIS DE DATOS
Aplicaciones en Psicología y Ciencias de la Salud
TE! editor no se hace responsable de las opiniones recogidas, comentarios y manifestaciones
vertidas por las autores. La presente obra recoge exclusivamente la opinión de su autor
como manifestación de su derecho de libertad de expresión.
La Editorial se opone expresamente a que cualquiera de las páginas de esta obra o partes
de ella sean utilizadas para la realización de resúmenes de prensa.
Cualquier forma de reproducción, distribución, comunicación pública o transformación de
esta obra solo puede ser realizada con la autorización de sus titulares, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos) si
necesita fotocopiar o escanear algún fragmento de esta obra.
Por tanto, este libro no podrá ser reproducido total o parcialmente, ni transmitirse por
procedimientos electrónicos, mecánicos, magnéticos o por sistemas de almacenamiento
y recuperación informáticos o cualquier otro medio, quedando prohibidos su préstamo,
alquiler o cualquier otra forma de cesión de uso del ejemplar, sin el permiso previo, por
escrito, del titular o titulares del copyright.
© Juan Carlos Suárez Falcón, Patricia Recio Saboya, María Concepción San Luis Costas y
María del Pilar Pozo Cabanillas
© EDITORIAL SANZ Y TORRES, S. L.
Vereda de los Barros, 17
Poi. Ind. Ventorro del Cano - 28925 Alcorcón (Madrid)
'@ 902 400 416 - 91 323 71 10
www .sa nzytorres. es
libreria@sanzytorres .com
www.editorialsanzytorres.com
[email protected]
ISBN: 978-84-17765-42 - 2
Depósito legal: M-20441-2019
Portada:
Javier Rojo Abuín
Composición:
Iván Pérez López
Impresión y encuadernación:
Edipack Gráfico
índice
Presentación .......................................................................... .
Tema l.
1.1.
1.2.
1.3.
1.4.
1.5.
1.6.
1.7.
1.8.
1.9.
Introducción ............................................................... .. . .
La investigación en Psicología .......................................... .
Concepto y funciones de la estadística: descripción e
inferencia . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . .
Variables : medición y clasificación.....................................
Descripción de variables: distribución de frecuencias y
representación gráfica . . .. . . . . .. . . . . .. . . .. .. . .. . . . .. . . . .. .. .. .. .. .. . .. . .. . .
1.5.1. Descripción de variables cualitativas.............. . ........
1.5.2. Descripción de variables ordinales o
cuasicuantitativas . . . . . . . . . . . . . .. . . . .. . . . . .. . . . . . . . . . . . . . . . . . . . . . .
1.5.3. Descripción de variables cuantitativas.....................
Tendencia central, variabilidad y forma de una variable:
aprox imación gráfica .. . .. .. .. . .. ... . . . .. . .. .. . . .. .. .. . . . . .. .. . . .. . . .. .. . . . .
Resumen.. .......... . ... .. ... .. ................... ........... . .................
Ejercicios. ...... . .... ........ ... ... .............................................
Soluciones a los ejercicios. ............ ... ...... ..........................
Tema 2.
2.1.
2.2.
2.3.
CONCEPTOS BÁSICOS V ORGANIZACIÓN DE DATOS
ÍNDICES DE TENDENCIA CENTRAL V DE POSICIÓN
Introducción............ . ........ . ......... .. .. .. .. ... ................. .. ......
Índices de tendencia central............. . ... .... ........................
2.2.1. Media aritmética . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . . .. . . . . .. . .
2.2.2. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.4. Elección de un índice de tendencia central .. . . . .. . . .. .. . .
Índices de posición .... . .. ... .................................... . ...........
2.3.1. Percentiles ..... ........ ...... .. ... . .... .. ........ . ... ... ...... ......
2.3.2. Cuartiles y deciles. ................ .......... . .. .. .. . . .. .. .. .. .. ..
XV
1
3
4
7
10
18
22
25
27
35
40
40
42
47
49
50
50
62
70
73
76
77
86
VII
INTRODUCCIÓN Al ANÁLISIS DE DATOS : APLICACIONES EN PS ICOLOGÍA Y CIENCIAS DE LA SALUD
2.4.
2.5.
2.6.
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios. .. ............................................. .......... .. ..... ..... .
Soluciones a los ejercicios... ...... .. ............. ... .... .......... . .... ..
Tema 3.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
MEDIDAS DE VARIABILIDAD Y FORMA
Introducción ...................................... . ..... ... ... ........ ... .......
Medidas de variabilidad ... ... .... ...... ... ...................... ....... .....
3.2.1. Amplitud total o rango................................. .. .. ......
3.2.2. Varianza y desviación típica... ..... ............ .. . .. .. .........
3.2.3. Coeficiente de variación . . . .. . . . . . . . . . . . . . .. . .. . . . . . . . . . . . . .. . . . .
3.2.4. Amplitud intercuartil ...... .... .... .. ..... .. .. ... .... .. . ..... .. ....
Medidas de forma .. ............ . .... . .................. .. .. ... ... ... .........
3.3.1. Asimetría de una distribución........ .. .. . ..... . ... .. ....... ...
3.3.2. Apuntamiento o curtosis de una distribución. ..... .. . ... .
Diagrama de caja.............................................................
Puntuaciones típicas......................... . ........... . ........... . ...... .
Resumen . .. .. .. . .. ..... ..... .... ... ....... ......... ... ... ... .. .... . .. ....... ....
Ejercicios ... .. .. ...... ................ ..... ...... . ... ..... . .. ....... ... .... ... .. .
Soluciones a los ejercicios... . ... ................ ..........................
Tema 4. RELACIÓN ENTRE VARIABLES 1
4.1.
4.2.
4.3.
VIII
Introducción.... . .. .... ......... .. ...... .. ............ . ............ . .. . .........
Asociación entre dos variables cualitativas. .... ..... .. ...............
4.2.1. Tabla de contingencia .. .. ... ..... .... ..... .. .. ....... . .. ... .. .. ..
4.2.2. Representación gráfica: diagrama de barras conjunto
4.2.2.1. Diagrama de barras adosadas..... .. .... ..... ...
4.2.2.2. Diagrama de barras apiladas....... .............
4.2.3. Medida s globales de asociación entre variables
cualitativas . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . .. . . .
4.2.3.1. Independencia y x 2 •• ••••• •• • ••• . ...... ... . ... . ... ...
4.2.3.2. Coeficiente C de Contingencia.... ......... .. ....
4.2.3.3. Coeficiente V de Cramer ...... .. ... .. .. ... .... ....
4.2.3.4. Coeficiente cp.... .. .. ... .... ...... .......... ...... .....
Relación entre variables ordinales . . . . . . . . . .. . . . . . . . . . .. .. . . . .. . . . . . .. . .
4.3.1. Coeficiente de correlación por rangos de S pe rm n .. .
88
88
90
99
101
102
104
105
112
115
117
117
121
123
127
130
131
133
141
143
146
147
155
156
156
159
159
164
167
168
169
170
ÍNDICE
4.4.
4.5.
4.6.
Resumen . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Ejercicios................................. . ................. .. ......... . ......... 175
Soluciones a los ejercicios ................................................. 178
Tema 5.
5.1.
5.2.
5.3.
5.4.
S.S.
5.6.
5.7.
S.S.
RELACIÓN ENTRE VARIABLES 11
Introducción.................... ............... .... ..... .. .. ... .... . .... ... ... ..
Relación entre dos variables cuantitativas .. .... .... .. .. .. .. .. .. ......
5.2.1. Representación gráfica de la relación: diagrama de
dispersión . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . .
5.2.2. Covarianza................ .. ............ ... ...... ............... . ....
5.2.3. Coeficiente de correlación lineal de Pearson ........ ......
5.2.3.1. Cálculo ...... ............................................
5.2.3.2. Interpretación y características.................
5.2.3.3. Casos particulares de coeficiente de
correlación lineal de Pearson........ .... .. .. .. ...
5.2.3.3.1. Relación entre variables
ordinales .................... ........ ...
5.2.3.3.2. Relación entre variables
dicotómicas .. .... .. ...................
5.2.3.3.3. Relación entre una variable
dicotómica y otra cuantitativa .. .
Coeficientes de correlación en función del tipo de variable:
tabla resumen . .... .. ........... ..... .. .... .. . .... .... ... . .................... .
Regresión lineal simple ............ .. .. .. .. ...... .... .. .....................
5.4.1. Cálculo de los coeficientes de regresión ................ ....
5.4.2. Valoración del modelo .............................. ........ ......
5.4.2.1. La varianza error ...................... .. .. .. .... .. ..
5.4.2.2. El coeficiente de determinación .. .. .. .......... .
5.4.3. Características del modelo de regresión .. .. .. .. .. .. .. .. .. .
Regresión lineal múltiple .. ...... .. ............ .. .. .. .. .... .. .. .............
Resumen . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . .. . . .. . . . . .. . . . . . . . . . . . . . . . . . . .. . . . .. .
Ejer cicios . ..... .. ... . ... ... .. . ...... .... .... ......... ... .. .. ... .. ... . .... . .......
Soluciones a los ejercicios.............. .. .... ........ .....................
183
185
187
187
194
196
197
199
205
206
211
213
216
217
218
224
226
229
230
233
236
237
24 1
IX
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tema 6.
NOCIONES BÁSICAS DE PROBABILIDAD
Introducción ... . ... .. ... . .................. . ....................................
Conceptos previos ... ................... .. ............ ... ........ .......... ...
6.2.1. Experimento aleatorio ............................................
6.2.2. Espacio muestra l. ..... ...... ....... .................. .. ... .........
6.2.3. Sucesos y tipos de sucesos ....... ................ . .............
6.2.4. Operaciones con sucesos ..... ... ....... ........... . .............
6.3. Definición de probabilidad .. . . . . . .. . .. . . .. . . . . . .. .. . . . . . . . . .. . . .. . . . . . .. . . .
6.4. Teorema de la suma .. . . . . . . . . .. . . . .. . .. . . .. . . . . . . . .. . . . .. . . .. .. . . .. . . . . . . . . .
6.5. Probabilidad condicionada . . .. . . . . .. . . .. . .. .. . . . . . .. . . .. . . . . . .. . . .. . . .. . . . .
6.6. Teorema del producto.. .... .... ... . ... . . .... . .... ... .. ... ........ .. . .... ... .
6.7. Teorema de la probabilidad total ................. . ......... .. .. ..... ....
6.8. Teorema de Bayes .... ............................ .... .... .. ..................
6.9. Algunas aplicaciones de la probabilidad condicionada en
Psicología de la Salud .. ....................... ... .. ........... . ......... ....
6.10. Resumen ...... .... ... .. . ........ ... ... . ........ . ................... . ............
6.11. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.12. Soluciones a los ejercicios.. .. ...... ... ....................................
6.1.
6.2.
Tema 7.
7.1.
7.2.
7.3.
7 .4.
7.5.
7 .6.
7.7.
7 .8.
X
VARIABLES ALEATORIAS Y MODELOS DISCRETOS
DE PROBABILIDAD
Introducción .. ............................. .. ............... ... .. ... ......... .. .
Concepto de variable aleatoria .............. .. ..... ..... ............ .. .. .
Tipos de variables aleatorias ....................... ...... .................
Va riables aleatorias discretas ...... . ......... ...... .... ................. ..
7.4.1. Función de probabilidad de una V.A. discreta . .... ... .....
7.4.2. Función de distribución de una V.A. discreta .... . ....... ..
7.4.3. Media y varianza de una V.A . discreta ......................
Distribuciones discretas de probabilidad .. ...... ........... . .... ......
7.4.1. La distribución de Bernoulli ..... ..... .. ... ... ......... . ....... . .
7.5.2. La distribución binomial ..... .... ....... ............ .... .........
7 .5.3. Otras distribuciones discretas . . .. .. . . . . . . . . .. . .. . . .. . . . . .. . .. .
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios .... .......... . ..................... . .. ... ..... .. ........... .. ..... ... ..
Soluciones a los ejercicios................... .. ...... .. ... .................
247
249
251
251
252
254
256
259
264
266
269
272
277
281
286
287
290
299
301
302
305
306
306
308
312
315
315
318
324
324
325
327
ÍNDI CE
Tema e.
8.1.
8.2.
8.3.
8.4.
8.5.
8.6.
8. 7.
8.8.
8.9.
Introducción ..................... .... ... ...... .... ..............................
Características de las variables aleatorias continuas ..............
8.2.1. Función de densidad y función de distribución ... ... .....
8.2.2. Media y varianza de una variable aleatoria continua. ..
La distribución normal ......................................................
8.3.1. Características y propiedades .. . ........ .... ... ..... ... ... ....
8.3.2. Utilización de las tablas ...... .. ... ....... ... ........ ... ......... .
8.3.3. Histograma y distribución normal ............................
8.3.4. Aproximación de la binomial a la normal ..................
La distribucion x2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La distribución t de Student...... ... .. ....... .................... .........
La distribución F de Fisher-Snedecor . ..................................
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Soluciones a los ejercicios....... ............................. ....... .. ... .
Tema 9.
9.1.
9.2.
9.3.
9.4.
9.5.
MODELOS CONTINUOS DE PROBABILIDAD
MUESTREO V DISTRIBUCIÓN MUESTRAL DE UN
ESTADÍSTICO
Introducción . ....... .. ... ..... . .................. .. .............................
Muestreo .......... .. .......... .......................... ... ... ..................
9.2.1. Conceptos básicos en el muestreo ........................ .. .
9.2.2. Tipos de muestreo .. ... .... ...... .. ...................... ...... ...
9.2.2.1. Métodos de muestreo probabilístico ...........
9.2.2.2. Métodos de muestreo no probabilístico .......
Distribución muestra! de un estadístico........ .. . ........ ............
Distribución muestra! del estadístico media .........................
9.4.1. Distribución normal de la variable X con varianza
poblacional conocida............... .............................. .
9.4.2. Distribución normal de la variable X con varianza
poblacional desconocida....................... . .. ...............
9.4.3. La variable X no se distribuye normalmente ..............
Distribución muestra! del estadístico proporción .. .. . . .. . . . . . . . . . . .
9.5.1. Distribución muestra! de P para muestras pequeñas ...
9.5.2. Distribución muestra! de P para muestras
suficientemente grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
333
335
336
337
340
341
342
345
348
351
355
357
360
363
364
366
371
373
374
375
378
379
384
386
402
402
406
407
408
409
411
XI
INTRODUCCIÓN A L ANÁLIS IS DE OATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
9.6.
9.7.
9.8.
9.9.
Distribución muestra! del estadístico varianza .. .. .. . .. .. . .. .. ... .. .
Resumen ........................................................................
Ejercicios ........................................................................
Soluciones a los ejercicios............. . ............................ .. .....
Tema 10. ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL
TAMAÑO MUESTRAL
413
418
419
421
427
10.1. Introducción ...... . ... .. ................... .... .......... .... ........ .. .......
10.2. Estimación de parámetros ...............................................
10.2.1. Propiedades de los estimadores ............................
10.2.2. Métodos de obtención de estimadores ....... . ...........
10.2.3. Estimación puntual .............................................
10.2.4. Estimación po r intervalos . ....................................
10.3. Cálculo del intervalo de confianza.....................................
10.3.1. Intervalo de confianza para el parámetro ~t con o- 2
conocida........... ............ ...... ... ... ....... ..................
10.3.2. Intervalo de confianza para el parámetro ~t con o- 2
desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.3.3. Intervalo de confianza para el parámetro n
(aproximación a la normal) ... . .... ..........................
10.3.4. Intervalo de confianza para el parámetro o- 2 .. • • .. • .. ..
10.4. Significado del nivel de confianza........... .. .. ...... ............. ....
10.5. Generalización de la construcción de intervalos... . .. .............
10.6. Factores que afectan al intervalo de confianza .. . . . . . .. . . .. . . . . . . .
10.7. Cálculo del tamaño muestra! ............................................
10.7.1. Tamaño muestra! para el parámetro media .............
10.7.1.1. Conocida la varianza poblacional ............
10.7.1.2. Desconocida la varianza poblacional ..... . .
10.7.2. Tamaño muestra! para el parámetro proporción ......
10.8. Resumen.................................................. .. .. ..... ..... .......
10.9. Ejercicios . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.10. Soluciones a los ejercicios . ..............................................
429
433
434
439
439
440
444
REFERENCIAS BIBLIOGRÁFICAS
479
TABLAS ESTADÍSTICAS
481
XII
444
448
451
453
456
457
458
459
460
461
462
465
466
467
470
Presentación
Este manual se ha escrito con la intención de hacer más fácil el estudio
del Análisis de Datos a los estudiantes que, por una u otra razón, cursan
estudios de Grado en la modalidad semipresencial; esos alumnos que,
como el corredor de fondo, afrontan la dura tarea de adquirir los conocimientos que los convertirán, al llegar a la meta, en profesionales de su
especialidad.
El libro está dirigido de forma muy especial a los alumnos de primer
curso de Grado en Psicología de la UNED, pero también pretende servir
de ayuda a aquellos otros que, en el ámbito de las Ciencias Sociales y de
la Salud, puedan encontrar en este texto el apoyo necesario para aclarar
conceptos, resolver dudas y refrescar las bases teóricas sobre las que se
asienta la metodología. A unos y otros, el equipo docente de esta materia hemos dedicado todo nuestro esfuerzo. El tiempo, testigo inexorable
de nuestro quehacer, dirá si hemos sido o no capaces de lograr nuestro
objetivo.
Esta materia forma parte del conjunto de asignaturas que componen la
metodología de trabajo de aquellas Ciencias que basan su conocimiento
en los datos empíricos y cuya finalidad es garantizar la calidad del proceso
investigador e integrar los resultados de la investigación en la praxis. La
formación correspondiente a esta materia en el Grado en Psicología de
la UNED se materializa en las siguientes asignaturas: Fundamentos de
Investigación, Introducción al Análisis de Datos, Diseños de Investigación y Análisis de Datos y Psicometría. Es importante reseñar aquí que,
el aprendizaje de estas materias está fuertemente relacionado entre sí y
sus contenidos se fundamentan unos en otros progresivamente no sólo
porque Introducción al Análisis de Datos (primer curso) y Diseños de Investigación y Análisis de Datos (seg undo curso) constituyen un continuo
de conocimientos (la división en dos asignaturas sólo indica un paréntesis
en el tiempo) sino porque toda s las materias metodológicas incardinan
unas en otras, dando lugar al m od o riguroso de trabajar con el Método
Científico, procedimiento esenci al e imprescindible del quehacer en una
correcta formación universitaria. Así pues, el estudiante debe aprender y
XIII
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
utilizar estas materias como un todo cuya transversalidad es básica en su
formación global.
Concretamente, el Análisis de Datos hace referencia al conjunto de
herramientas que la Estadística Teórica proporciona al investigador, con la
finalidad de facilitar el manejo de información numérica mediante resú menes numéricos, gráficos e índices y proporciona técnicas que, con un
grado de certeza, garantizan la validez de las conclusiones de los estudios
empíricos.
El texto presenta los conocimientos básicos sobre los que se fundamenta la Estadística Aplicada. Para su elaboración hemos seguido las recomendaciones del Instituto Universitario de Educación a Distancia (IUED),
empleando un lenguaje sencillo y conciso, organizando la presentación de
los conceptos en orden de complejidad creciente, apoyándonos en ejemplos y problemas resueltos y motivando el trabajo individual mediante el
uso de ejercicios de autoevaluación al final de cada tema, que facilitan la
comprobación personal del grado de consecución de los objetivos didácticos.
Los contenidos que recoge el texto son los que habitualmente componen la materia de un primer curso de introducción al Análisis de Datos. Se
presentan ordenados en 10 temas. Los cinco primeros están dedicados a
la Estadística Descriptiva para una y dos variables, presentando los procedimientos de ordenación de datos, gráficos e índices que resumen las características individuales y conjuntas de las variables, así como los índices
que valoran las posibles relaciones entre ellas. Los temas 6, 7 y 8 abordan
los conceptos básicos de Probabilidad y el estudio de las distribuciones
discretas y continuas. El conocimiento de la probabilidad es imprescindi ble en nuestro ámbito de trabajo, ya que es el recurso matemático que
permite trabajar sobre datos empíricos, los cuales contienen una cierta
incertidumbre inherente al azar. A continuación, el tema 9 presenta las
bases sobre las que se fundamenta la Inferencia Estadística: el muestreo
y el concepto de distribución muestra! de un estadístico. Por último, el
tema 10 se dedica a una de las técnicas fundamentales de la Inferencia
Estadística, la estimación de parámetros.
Un manual es el trabajo continuado y esforzado de uno o varios profesores que ponen su experiencia al servicio del estudiante, destilando
de todo lo aprendido aquello que consideran es lo más relevante para la
formación en la materia que se trate. Los firmantes de esta presentación
XIV
PRESENTACIÓN
somos el equipo docente que ha elaborado este libro, cuatro profesores
que compartimos la enseñanza de esta materia «Introducción al Análisis
de Datos en Psicología», que tanto sorprende a los estudiantes en el primer curso. Tras casi diez años de implantación del grado de Psicología en
la UNED se planteó la necesidad de actualizar el manual de esta asignatura. De la conveniencia docente, de las discusiones en grupo, de las sugerencias de otros colegas, de las cuestiones planteadas por los estudiantes
en el curso virtual y de la elaboración del material de apoyo surge este
libro. Todos y cada uno de nosotros hemos colaborado en todos y cada
uno de los temas aportando no sólo información sino también las oportunas críticas que siempre complementan y mejoran el resultado. Ha sido
un trabajo enriquecedor que comenzó como una aventura entre colegas y
terminó como un logro entre amigos.
Queremos finalizar esta presentación con el reconocimiento explícito
a aquellos que nos han precedido en esta tarea. De ellos hemos aprendido que nuestro trabajo es apasionante y gratificante, también nos han
hecho comprender que un profesor «se hace» con el transcurso del tiempo, sabiendo asumir consejos y críticas con humildad y agradecimiento
porque como decía Baltasar Gracián: «no hay maestro que no pueda ser
discípulo ».
Los autores,
Madrid, julio de 2019
XV
TEMAl
Conceptos básicos y organización de datos
1.1. INTRODUCCIÓN
1.2. LA INVESTIGACIÓN EN PSICOLOGÍA
1.3. CONCEPTO Y FUNCIONES DE LA ESTADÍSTICA:
DESCRIPCIÓN E INFERENCIA
1.4. VARIABLES: MEDICIÓN Y CLASIFICACIÓN
1.5. DESCRIPCIÓN DE VARIABLES: DISTRIBUCIÓN DE
FRECUENCIAS Y REPRESENTACIÓN GRÁFICA
1.5.1. Descripción de variables cualitativas
1.5.2. Descripción de variables ordinales o
cuasicuantitativas
1.5.3. Descripción de variables cuantitativas
1.6. TENDENCIA CENTRAL, VARIABILIDAD Y FORMA DE UNA
VARIABLE: APROXIMACIÓN GRÁFICA
1.7. RESUMEN
1.8. EJERCICIOS
1.9. SOLUCIONES A LOS EJERCICIOS
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
1.1. INTRODUCCIÓN
En la actualidad, la Estadística se aplica en casi todas las disciplinas . En
las ciencias sociales y de la salud su uso ha aumentado exponencialmente
en los últimos 30 años. Así, por ejemplo, se utiliza en estudios epidemiológicos (Medicina), en estudios tox icológicos relacionados con la eficacia
de los medicamentos (Farmacia), en estudios genéticos y de impacto ambiental (Biología), en muestreos en las prospecciones petrolíferas o hi dráulicas (Geolog ía) , en los censos de población e información demográfica (Sociología), y en estudios sobre la optimización del coste-beneficio
(Economía). En Psicología se utiliza para cualquier cuestión relacionada
con la medición de variables psicológicas y con la evaluación, ya sea diag nóstica, de tratamientos, de programas educativos, sociales, etc. ..
Se puede hacer una distinción entre Estadística teórica y aplicada; la
primera se ocupa de los aspectos matemáticos formales y normativos, y
la segunda constituye la aplicación a un campo concreto, como los ejem plos vistos. La estadística aplicada ha recibido distintas denominaciones
según su campo de aplicación, tales como bioestadística, psicoestadística o socioestadística. Algunos autores han propuesto para la estadística
aplicada la denominación de análisis de datos (Botella, Suero y Ximénez,
2012; Garriga et al., 2009; Merino et al., 2007), término cuyo uso se está
extendiendo y que da nombre a este libro.
A pesar de su diversidad de aplicaciones, esta disciplina no es popular
entre los estudiantes de ciencias sociales y de la salud, debido posible mente a la imagen de la Estadística como una rama de las matemáticas
de difícil comprensión y ajena a nuestro día a día. Sin embargo, diaria mente estamos sometidos a un bombardeo de datos estadísticos. El no
ser capaz de distinguir una interpretación rigurosa de unos datos de una
defectuosa, hace que se sea vulnerable a la manipulación. En ocasiones,
las estadísticas presentadas en distintos medios (de comunicación, políticos, publicidad, entorno laboral. .. ) son incorrectas o engañosas, ya sea
por falta de preparación o por voluntad de « maquillar» los resultados. De
ahí, la frase atribuida a Benjamín Disraeli (primer ministro del Reino Uni do) «hay tres tipos de mentiras: las mentiras, las grandes mentiras y las
estadísticas» . La Estadística nos proporciona las herramientas necesarias
para valorar de manera crítica la información que recibimos.
En este primer tema introductorio se aborda el papel que juega la Estadística en el análisis de los datos en Psicología , se define el concepto de
3
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
variable, así como su clasificación y notación simbólica y se analizan los
distintos niveles de medida de una variable (nominal, ordinal, de intervalo
y de razón). Asimismo, se explica cómo organizar la información en una
matriz de datos, y cómo a partir de ella se construye una distribución de
frecuencias y se realizan representaciones gráficas para considerar, de un
solo vistazo, las características del fenómeno estudiado.
Objetivos del tema:
■
Ubicar la materia Análisis de Datos en el plan de estudios del grado
en Psicología.
■
Establecer el papel del análisis de datos en Psicología.
■
Diferenciar y manejar los conceptos básicos, la nomenclatura y las
definiciones centrales de la estadística, a fin de poder aplicarlos en
el estudio formal de la materia.
■
Manejar con soltura las distintas denominaciones y clasificaciones
de las variables.
■
Entender la importancia de la medición en el ámbito psicológico,
distinguiendo entre las distintas escalas o niveles de medida (nominal, ordinal, de intervalo y de razón), y conociendo las relaciones
que pueden establecerse en cada una de ellas.
■
Saber elaborar, a partir de un conjunto de datos, una distribución
de frecuencias, adquiriendo y desarrollando la capacidad para recopilar, organizar, presentar, e interpretar datos numéricos.
■
Aplicar las técnicas de representación gráfica adecuadas en función
de los datos disponibles (diagrama de barras, diagrama de sectores, histograma y diagrama de líneas).
■
Entender, desde una perspectiva gráfica, la tendencia central, la
variabilidad y la forma de una variable.
1.2. LA INVESTIGACIÓN EN PSICOLOGÍA
A lo largo de la historia, el hombre se ha servido de diversas formas de
conocimiento, tales como el mito, el sentido común o el folclore popular.
Con la aparición de la ciencia moderna en el siglo XVII, el método científico
4
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
pasó a ser la fuente de conocimiento más utilizada (Navas, 2001). Las ciencias se distinguen entre sí por su objeto de estudio, pero tienen en común
el método científico. Al igual que la Biología tiene como objeto de estudio la
vida, y la Química las propiedades de las sustancias, la Psicología se sirve
del método científico para acercarse a su objeto de estudio: la conducta.
El método científico es un procedimiento estructurado que utiliza la
ciencia para la ampliación de sus conocimientos. El método científico se
caracteriza por ser sistemático y replicable. Sistemático porque es un
proceso que tiene unas etapas definidas y rep/icable porque los datos
obtenidos mediante su uso tienen que poder ser replicados o refutados ( en
las mismas circunstancias) por cualquier investigador interesado. El método científico, por tanto, proporciona una manera de actuar para afrontar
una investigación, a través de las siguientes fases interdependientes:
50
Planteamiento
del problema
Formulación
de hipótesis
• Cuestión sin
responder
que surge del
conocimiento
previo
• Solución
tentativa del
problema de
investigación
Procedimiento
para la
recogida de
datos: diseño
• Muestra
• Instrumentos,
materiales ...
• Recogida de
datos
Análisis de
datos
Discusión de
los resultados
Elaboración
Informe
Investigación
Figura 1.1. Fases de una investigación con el método científico
En primer lugar se define un problema, que puede surgir de teorías
ya establecidas, de la lectura de la bibliografía o de la experiencia directa
con los hechos. En la mayoría de los casos surgen de lagunas o contradicciones en investigaciones anteriores. A partir de ese problema se plantea
una hipótesis, que no es más que una solución tentativa al problema
planteado . Las siguientes tres fases tratan de contrastar si la hipótesis
planteada es compatible con los hechos. Para ello, es necesario establecer
un procedimiento adecuado de recogida de información, analizar los datos
obtenidos y discutir los resultados en busca de conclusiones. Por último,
hay que elaborar un informe de la investigación que se ha realizado para
dar a conocer los resultados obtenidos (Fontes et al., 2010).
5
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Esta asignatura se ocupa de las fases cuarta y quinta de una investigación: el análisis de los datos y la interpretación de los resultados obtenidos. Por tanto, aquí se trata de aprender a procesar los datos recogidos en
una investigación con el fin de obtener la información que se precisa para
contrastar la hipótesis formulada, y poder dar respuesta al problema planteado. En las asignaturas Fundamentos de Investigación y Diseños
de Investigación y Análisis de Datos se tratarán de manera detallada
el resto de las fases de una investigación científica, así como los posibles
diseños a utilizar y el análisis correspondiente a cada uno de ellos.
Ejemplo 1.1. Diversos estudios ponen de manifiesto el efecto que
la ansiedad ante los exámenes puede tener en la calificación obtenida en la Prueba de Acceso a la Universidad (PAU). Un equipo investigador ha diseñado un programa de tratamiento para paliar este
efecto, que combina técnicas de estudio con técnicas de relajación .
Para comprobar la eficacia del tratamiento en el examen de Lengua
de la PAU se ha seleccionado a una muestra de 40 estudiantes con
este problema de ansiedad, que participaron voluntariamente en el
estudio. De ellos, la mitad se ha asignado aleatoriamente al grupo 1
(sin tratamiento) y la otra mitad al grupo 2 (que pasará el tratamiento). Al finalizar el curso académico, se recogieron datos sobre las
variables relevantes de la investigación, además de algunas variables
sociodemográficas, como sexo, nivel de estudios de la madre, opción
de bachillerato elegido y horas de estudio semanales.
¿cómo relacionaría los datos de este ejemplo con las fases de una
investigación?
Solución:
Las dos primeras fases de la investigación son la definición del problema y la deducción de hipótesis contrastables. En el ejemplo, el
problema objeto de estudio es valorar la eficacia del programa de
tratamiento que se ha aplicado; para ello, se comprobará si el tratamiento influye en la calificación obtenida en la prueba de Lengua de la
PAU. Una hipótesis es una predicción del resultado de la investigación,
por lo que, en este caso, como hipótesis, el grupo investigador espera
que su tratamiento sea eficaz, lo que operativamente significa que
el grupo 2, (que ha pasado el tratamiento que combina técnicas de
estudio con técnicas de relajación), tenga un mayor rendimiento en el
examen que el grupo 1, que no ha pasado dicho tratamiento.
6
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
En la siguiente fase se encontraría la determinación de un plan de
trabajo o procedimiento para la recogida de datos, es decir la elección
de un diseño de investigación. Aquí, el investigador decide escoger
como muestra a 40 estudiantes con problemas de ansiedad ante los
exámenes asignándolos de manera aleatoria a los grupos 1 y 2 (para
que reciban o no el tratamiento) comparando después sus resultados.
Comparar los resultados conlleva el análisis de los datos obtenidos y
la discusión de dichos resultados. En esta investigación en concreto
se analizarían las calificaciones obtenidas en el examen de Lengua de
la PAU por ambos grupos para comprobar si realmente el grupo 2 que
ha recibido el tratamiento obtiene mejores puntuaciones que el grupo
1. Para ello se calcularía y se compararía la media de ambos grupos
(su cálculo se verá en el Tema 2). Además, en otras investigaciones
con otros objetivos, podría ser interesante plantear otro tipo de análisis, como cuantificar la relación entre el n° de horas estudiadas y la
calificación en el examen de Lengua, o realizar pronósticos en el rendimiento en el examen en función de la ansiedad ante los exámenes
y el n° de horas estudiadas (ambos procedimientos se estudiarán en
el Tema 5 del programa). Por último, para difundir los resultados de
la investigación se elabora un informe.
En este texto se exp lica rán de manera detallada los análisis de datos
básicos que pueden ser necesarios realizar, tanto en la investigación psicológica como en el ejercicio profesional. El análisis de datos constituye
una parte integral no solo de la actividad investigadora, sino también en
la práctica profesional. En este sentido, resulta crucial tener unos conocimientos básicos de Estadística para evaluar los resultados de una
investigación, y en general para leer de forma crítica las publicaciones
de carácter psicológico (ya sean artículos científicos, libros, informes de
investigación o notas de prensa).
1.3. CONCEPTO Y FUNCIONES DE LA ESTADÍSTICA:
DESCRIPCIÓN E INFERENCIA
La Estadística es la rama de las matemáticas que se encarga del estudio de determinadas características en una población, recogiendo los
7
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
datos, agrupándolos, organizándolos en tablas, representándolos gráficamente y analizándolos para sacar conclusiones de dicha población.
Teniendo en cuenta las funciones de la Estadística, podemos considerar
dos grandes áreas: la Estadística Descriptiva y la Estadística Inferencia!.
Mediante la Estadística Descriptiva se organizan y resumen conjuntos de observaciones cuantificadas procedentes de una muestra o de la
población total. Este resumen puede hacerse mediante tablas, gráficos o
valores numéricos . Así, se dispone de distintos procedimientos que nos
permiten estudiar las características de una o más variables:
■
En el caso de una variable, podemos recurrir a estadísticos que nos indicarán cuáles son los valores más habituales de esa variable (índices
de tendencia central), hasta qué punto esos valores son similares
o diferentes entre sí ( estadísticos de variabilidad), en qué grado las
observaciones se reparten equilibradamente por encima y por debajo
de la tendencia central ( estadísticos de asimetría) y cómo de apuntada es la distribución de las puntuaciones de la variable ( estadísticos
de curtosis). Estos conceptos se abordarán de manera intuitiva al
final de este tema, y de manera formal en los Temas 2 y 3.
■
En el caso de dos variables podemos utilizar índices que nos indiquen
hasta qué punto están ambas variables relacionadas entre sí (índices de asociación), así como procedimientos que nos permitirán
predecir el valor de una variable en función de otra ( ecuaciones de
regresión). Los Temas 4 y 5 abordarán de manera detallada ambos
procedimientos .
Mediante la Estadística Inferencia! se realizan inferencias acerca de
una población basándose en los datos obtenidos a partir de una muestra.
Estas generalizaciones de la muestra a la población se basan en el cálculo
de probabilidades . Los últimos temas de este texto tratarán sobre probabilidad e inferencia estadística.
En una investigación cualquiera, lo habitual es que se desee conocer un
parámetro o característica de los elementos de una población; sin embargo, la población suele ser demasiado extensa para estudiarla al completo (conllevaría un coste inabordable). Por este motivo, se realiza un muestreo con el que se obtiene un conjunto de elementos que representan a la
población y se estudia la característica deseada en la muestra mediant e
estadísticos que se util izarán para estimar los parámetros de la población.
8
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
En este sentido, en el Ejemplo 1.1 es de esperar que el investigador esté interesado en estudiar si el tratamiento es útil para tratar a los
estudiantes con ansiedad ante los exámenes en general. Por tanto, su
población objetivo serían los estudiantes que padecen ansiedad ante los
exámenes. Dado que no es posible acceder a todos los estudiantes con
este problema, escoge una muestra de 40 que son los que realmente participan en la investigación.
Es importante distinguir entre población y muestra: una población es
el conjunto de todos los elementos que cumplen una determinada característica objeto de estudio y una muestra es un subconjunto cualquiera de
una población . Estos elementos pueden ser personas, animales o cosas
que cumplan una definición compartida por la población. Por ejemplo,
una población podrían ser los niños con Trastorno por Déficit de Atención
e Hiperactividad (TDAH) de la Comunidad de Madrid. En este caso, los
elementos de esta población son personas y las características que tienen
en común son presentar un diagnóstico de TDAH, ser niños y residir en la
Comunidad de Madrid . Una muestra es un subconjunto de una población,
pero, ¿por qué elegir un subconjunto y no trabajar con la población completa? Pues en la gran mayoría de casos, es una cuestión de viabilidad, ya
que habitualmente no es posible trabajar con la población completa. En el
ejemplo que nos ocupa, el número de niños con TDAH puede ser demasiado grande como para trabajar con todos ellos, además de que puede
haber familias (elementos de la población) que no deseen participar en el
estudio. Por tanto, lo habitual es trabajar con muestras. Para asegurar la
representatividad de la muestra se han establecido algunas técnicas de
muestreo, como se verá en el Tema 9 de este manual.
En una investigación siempre se trata de caracterizar a la población;
en el ejemplo planteado nos puede interesar conocer la inteligencia de los
niños con TDAH. En este caso, utilizaríamos un test de inteligencia, por
ejemplo el WISC-IV; al no tener acceso a la población completa de niños
con TDAH se extrae una muestra de dicha población para obtener el nivel
de inteligencia de cada niño de la muestra .
Es preciso distinguir entre parámetro y estadístico. Un parámetro es un
índice medido en una población que la describe de alguna manera, mientras que un estadístico es un índice medido en una muestra. Utilizando la
estadística inferencia! se pronostica el valor de los parámetros poblacionales a partir de los estadísticos muestrales. Así, en el ejemplo de los niños
9
INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
con TDAH se calcula la media en inteligencia de los niños de la muestra,
que es el estadístico X, para pronosticar el valor medio en inteligencia de
la población, que es el parámetroµ (el valor que realmente nos interesa).
Habitualmente los parámetros se representan por letras griegas (µ para
la media, o} para la varianza y n para la proporción) y los estadísticos por
letras latinas (X para la media, s} para la varianza y P para la proporción).
Población: es el conjunto de todos los elementos que cumplen una
determinada característica objeto de estudio .
Muestra: es un subconjunto cualquiera de una población.
Parámetro: es una propiedad descriptiva (una medida) de una población. Se denota con letras griegas.
Estadístico: es una propiedad descriptiva (una medida) de una
muestra. Se denota con letras latinas.
1.4. VARIABLES: MEDICIÓN Y CLASIFICACIÓN
En el Ejemplo 1.1, para llevar a cabo su estudio, los investigadores
pueden registrar los datos de los 40 estudiantes en las variables sexo,
nivel educativo de la madre, bachillerato elegido, nivel de ansiedad ante
los exámenes, horas de estudio semanales, grupo asignado y calificación
en el examen de Lengua de la PAU.
Una variable es el conjunto de valores resultantes de medir una característica de interés sobre cada elemento individual de una población o muestra.
Para representar a las variables se utilizan letras latinas mayúsculas.
Para referirnos a un valor cualquiera de la variable X se utiliza el subíndice
i (X¡), siendo n el número de elementos que componen la muestra, por lo
que, de manera genérica, se designa la variable como:
X¡ siendo i
10
= 1,
2, 3 ... , n
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
Cuando se trata de objetos fís icos, el proceso de medición es directo y
generalmente senci llo porque es cuestión de seguir unas reglas prescritas ex presadas mediante determinadas escalas. Así por ejemplo, es fácil
med ir la estatura de una persona asignando el número correspondiente
de la cinta métrica a la distancia que hay desde sus pies hasta su cabeza.
Cuando se trata de medi r la tim idez de un estudiante en una situación de
interacción social, medir ya no es tan sencillo. El reto al que se enfrenta
la Psicología es su necesidad de medir en muchas ocasiones va ri ables que
no son directamente observables .
Medición es el proceso por el cua l se asignan núm eros a objetos o
sucesos seg ún determinadas regl as.
El proceso de medición es prev io al aná li sis de datos y especifica el
procedi miento de asig na ción de nú meros a los valores de la variab le. Por
ejemplo, a los dos valores de la varia ble sexo (hombre y mujer) se les
puede asignar los números 1 y 2, y al peso de una rata se le puede as ignar el número en gramos que da la ba lanza. Para medir variables psicológicas en muchas ocasiones se utilizan test psicológicos diseñados para
ese fin. Su aplicación proporciona una puntuación para cada persona en
esa variable .
Otro ejemplo podría ser la valoración de la calidad de vida de un pa ciente, medida a través de una pregunta que forma parte de un test am plio y que se incluye en bastantes investigaciones sobre sa lud:
¿cómo calificarías tu calidad de vida?
A) Muy mala.
B) Regular.
C) Normal.
D) Bastante buena.
E) Muy buena.
La regla consiste en asign ar un número a cada una de las opciones de
respuesta. Así se podría asignar un 1 a escoger la opción «muy mala >> , un
2 a «regular», un 3 a «normal », un 4 a «bastante buena » y un 5 a «muy
buena ».
11
INTRODUCCIÓN AL ANALI SIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS OE LA SALUD
ut il izan diferentes escalas de medida en función de
m edi r, entendiendo como escala de medida el conjunto de
r glas o modelos desarrollados para la asignación de números a las vari ables . Un ejemplo de escala de medida es la escala centígrada de temperatura, que se basa en asignar Oº a la temperatura de congelación del
agua y 100º a la de ebullición.
En función de las relaciones matemáticas que puedan verificarse empíricamente entre los distintos valores de una variable y, siguiendo la clasificación de Stevens (1946), pueden distinguirse cuatro tipos de niveles o
escalas de medida: nominal, ordinal, de intervalo y de razón.
En la escala nominal solo distinguiremos la igualdad o desigualdad entre dos valores, la escala ordinal añade la posibilidad de establecer un
orden, en la escala de intervalo se usa una unidad y tienen sentido las
diferencias y, por último, en la escala de razón se pueden comparar dos
medidas mediante un cociente.
Para cada tipo de variable existen unos procedimientos estadísticos
apropiados para hacer el mejor uso de la información que contienen los
valores de las variables.
A) ESCALA NOMINAL
La escala de medida nominal consiste en la asignación, puramente arbitraria de números o símbolos a cada uno de los valores de la variable.
Por tanto, la única relación que se tiene en cuenta es la de igualdad (y
la desigualdad), que implica la pertenencia o no a una categoría determinada. En la escala nominal los valores de la variable se denominan
categorías.
Usando una escala nominal podemos decidir si un sujeto es igual o diferente a otro, pero no podemos establecer relaciones de orden respecto
a esa variable, ni de cantidad. Por ejemplo, si utilizamos la variable enfermedad, distingu iendo entre: (1) «sanos» y (2) «enfermos», carece de
sentido establecer relaciones entre estos dos números del tipo 1 + 1 = 2,
ya que sería considerar algo así como que dos personas «sanas» es igual
a u na persona «enferma » .
En las variables nominales se puede asignar a cada valor de la variable
cualquier tipo de símbolo. En el ejemplo anterior, en lugar de números
podríamos haber utilizado (S) para designar a los «sanos» y (E) a los
«enfermos» .
12
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
A las variables que presentan un nivel de medida nominal se les denomina variables cualitativas o categóricas. Las variables cualitativas
se clasifican además, en función del número de categorías que presentan.
Si una variable presenta solo dos categorías se dice que es una variable
dicotómica (por ejemplo, el sexo); si presenta más de dos categorías se
dice que es una variable politómica (por ejemplo, el estado civil).
Ejemplo 1.2. ¿qué variables de las que aparecen en el Ejemplo 1.1
pueden considerarse nominales? De ellas, ¿hay alguna dicotómica?
En el Ejemplo l. l. son variables nominales el grupo, el sexo y el bachillerato elegido.
■
■
■
La variable grupo se utiliza para distinguir a los estudiantes que
han recibido el programa de entrenamiento (que combina técnicas de estudio con técnicas de relajación) de los estudiantes que
no han recibido dicho tratamiento.
-
Es una variable cualitativa porque pertenecer a un grupo u otro
no indica que se posea en mayor o menor grado la característica medida (grupo) simplemente que son grupos distintos.
-
Es una variable dicotómica porque únicamente puede adoptar dos valores distintos: grupo 1 y grupo 2.
La variable sexo se utiliza para distinguir a hombres y mujeres.
-
Es una variable cualitativa porque pertenecer a un grupo u
otro no indica que se posea la característica en mayor o menor grado, únicamente se distingue entre los distintos valores
de la variable.
-
Es una variable dicotómica porque únicamente puede adoptar dos valores distintos: hombre y mujer.
La variable bachillerato se utiliza para distinguir entre los estudiantes que han elegido las distintas opciones posibles de bachillerato.
Es una variable cualitativa porque elegir una opción determinada de bachillerato no significa tener un valor mayor o
menor de la variable .
-
Es una variable politómica porque puede adoptar más de dos
valores distintos.
13
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
En ocasiones se categorizan variables que podrían medirse a un nivel
superior; en este caso, decimos que una variable se ha dicotomizado si
se han establecido dos categorías, y politomizado si se han establecido
más de dos categorías. Un ejemplo sería la variable peso del roedor de un
experimento: aunque podríamos medir exactamente su peso en gramos,
puede resultar útil en una investigación dicotomizar la variable peso clasificando a las ratas en peso alto y bajo, o politomizarla, estableciendo tres
o más niveles de peso.
B) ESCALA ORDINAL
En la escala ordinal se asignan números a objetos para indicar la extensión relativa en que se posee una característica. Los datos pueden
utilizarse para jerarquizar u ordenar las observaciones, pero sin indicar
la distancia que hay entre las posiciones. Cuando se asignan números
es sólo para indicar el orden de las posiciones de lo que se está clasificando.
Esta escala no solo permite la identificación y diferenciación de los
sujetos sino que además permite establecer relaciones del tipo «mayor
que» o « menor que», aunque no se plantea una distancia entre unas medidas y otras. En este caso, la asignación de números a las distintas categorías no puede ser completamente arbitraria, debe hacerse atendiendo
al orden existente entre éstas.
Un ejemplo sería la va riable severidad de la enfermedad, que podría
adoptar tres valores: 1 leve, 2 moderado y 3 grave. Podemos decir que no
es lo mismo padecer una enfermedad con una intensidad leve o grave, y
que la intensidad de la enfermedad en el caso de grave es mayor.
Las variables ordinales también reciben el nombre de cuasicuantitativas .
Ejemplo 1.3. ¿Qué variables de las que aparecen en el Ejemplo 1.1
pueden considerarse ordinales?
La única variable ordinal de las que aparecen en el Ejemplo 1.1. es
la variable nivel de estudios de la madre. Se puede considerar que
esta variable adopta cinco valores: Primarios, Enseñanza Secunda ria Obligatoria (ESO), Bachillerato, Grado unive rsitario y Posgrado
14
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
universitario, que podríamos codificar con los números 1, 2, 3, 4 y 5
respectivamente (por supuesto, serían posibles otras codificaciones
alternativas). En este caso, los números no solo indican que son diferentes, sino también un mayor o menor nivel de estudios. Sin embargo, las distancias entre los distintos niveles de estudio no tienen
por qué ser iguales. Por tanto, únicamente se verifican las relaciones
de igualdad-desigualdad y orden.
C)ESCALADEINTERVALO
La s escalas de intervalos son aquellas que ordenan los objetos según
la magnitud del atributo que representa n y proveen intervalos iguales
entre las unidades de medida. Con la escala de intervalo, los números
asignados a los objetos, no solo permiten decidir si un objeto es igual o
diferente a otro o si posee en mayor o menor grado la característica de
interés; además, la distancia entre los distintos valores consecutivos de
la variable es la misma.
La inte ligencia medida con un test es un ejemplo de escala de intervalo. Si cuatro personas (A, B, C y D) han obtenido 80, 90, 150 y 160
puntos en un test de inteligencia, podemos decir que la diferencia en inteligencia entre A y Bes la misma que entre C y D (90-80 = 160-150), ya
que el test proporciona una unidad de medida estable. Sin embargo, no
se puede afirmar que D sea el doble de inteligente que A aunque tenga
el doble de puntuación en el test, ya que para realizar una afirmación de
ese tipo sería necesario que el cero de la escala fuera absoluto. En este
caso es arbitrario porque obtener un cero en un test de inteligencia no
refleja ausencia de la característica medida, no significa que no se posea
ni un ápice de inteligencia. Por convención, las puntuaciones obtenidas
de test psicológicos se consideran que están medidas en una escala de
intervalo.
Como se ha visto en el ejemplo, lo que caracteriza a una escala de intervalo es la existencia de una unidad de medición común y constante.
En la escala de intervalo el origen es arbitrario, y no refleja en ningún
momento ausencia de la magnitud que estamos midiendo.
15
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 1.4. lQué variables de las que aparecen en el Ejemplo 1.1
pueden considerarse de intervalo?
En el Ejemplo 1.1. la variable ansiedad ante los exámenes es una variable de intervalo porque se trata de una variable que se ha medido
con un test psicológico. Así, se puede afirmar que hay igualdad o desigualdad de ansiedad en las distintas puntuaciones del test, que las
puntuaciones más altas indican mayor ansiedad que las puntuaciones
más bajas y que la distancia en ansiedad entre, por ejemplo, las puntuaciones 14 y 16 es la misma que entre las puntuaciones 18 y 20. Lo
único que no se puede admitir en esta variable es que un estudiante
que haya obtenido un O en el test de ansiedad ante los exámenes no
posea en absoluto esta característica ya que el O en esta escala es
un valor arbitrario, que no refleja ausencia de la variable medida. Lo
mismo puede argumentarse de la variable calificación en Lengua
D) ESCALA DE RAZÓN
En la escala de razón los números asignados a los objetos admiten
como válidas las relaciones de igualdad-desigualdad, orden, suma, resta,
multiplicación y división.
Se caracteriza porque tiene todas las características de una medida de intervalo y, además, se le puede asignar un punto de origen verdadero de valor
cero, es decir, el valor cero de esta escala significa ausencia de la magnitud
que estamos midiendo. Dado que el cero ya no es arbitrario, sino un valor
absoluto, se puede afirmar que A tiene dos, tres o cuatro veces la magnitud
de la propiedad presente en B. La altura y el peso son dos ejemplos típicos
de escala de razón. Por ejemplo, si una rata de laboratorio pesa 350 gramos
y otra 175, podemos afirmar que la ia rata pesa el doble que la segunda.
Ejemplo 1.5. lQué variables de las que aparecen en el Ejemplo 1.1
pueden considerarse de razón?
La variable número de horas de estudio semanales es una variable de
razón. Sus puntuaciones admiten como válidas todas las relaciones:
las puntuaciones pueden ser iguales o diferentes, las puntuaciones
mayores indican mayor nº de horas estudiadas, la distancia entre
16
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
un alumno que ha estudiado 2 horas y otro que ha estudiado 4 es la
misma que entre otros dos alumnos que hayan estudiado 6 y 8 horas respectivamente, y si un alumno ha estudiado 6 horas, podemos
afirmar que ha estudiado el doble de horas que otro alumno que ha
estudiado 3 horas. Esta última relación se puede verificar porque en
esta escala el valor O es absoluto: si no se estudia ninguna hora se
trata de una ausencia completa de la característica medida.
Hay que tener en cuenta que en muchas ocasiones el nivel de medida
de una variable va a depender de cómo se haya definido. Por ejemplo, la
variable calificación obtenida en el examen de Lengua de la PAU puede
suscitar dudas razonables sobre su nivel de medida. Si la variable se define como el nivel de conocimientos de Lengua necesarios para ingresar
en la universidad se trataría de una variable de intervalo porque con esta
interpretación el cero sería arbitrario ( obtener un cero en el examen no
significa ausencia total de los conocimientos necesarios sino que se ha obtenido un rendimiento nulo en las preguntas en concreto con las que se ha
construido el examen). Sin embargo, si en lugar del nivel de conocimientos, nos interesa simplemente contar el número de aciertos (definiendo la
variable como el número de aciertos obtenidos en el examen de Lengua
de la PAU) se trataría de una variable de razón, ya que aquí el cero sí es
absoluto e indicaría ausencia absoluta de preguntas acertadas.
Es muy importante, por tanto, la definición operativa de una variable (cómo se define y se registra) porque puede determinar su nivel de
medida. La mayoría de las variables psicológicas se considera que están
medidas en una escala de intervalo. Así, si la variable perseverancia, que
es un rasgo de personalidad, se ha medido mediante una prueba psicológica o test, su nivel de medida es de intervalo. Sin embargo, si se define
perseverancia como el número de intentos o ensayos que realiza una persona para conseguir un objetivo se trata de una escala de razón. Si la variable discriminación visual sólo puede tomar dos valores (discrimina/no
discrimina) estamos en una escala nominal. Si definimos discriminación
visual como, por ejemplo, número de veces que una persona discrimina
en 20 ensayos, se trataría de una escala de razón.
Las variables medidas en escala de intervalo y de razón son variables
cuantitativas. Las variables cuantitativas se clasifican, además, en función
de los valores numéricos que pueden asignarse en continuas y discretas.
17
INTRODUCCIÓN AL ANÁLISIS OE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS OE LA SALUD
Una va ri able continua es aquella para la que, dados dos valores,
siempre se puede encontrar un tercer valor que esté incluido entre los
dos primeros . Un ejemplo de variable continua es el peso, ya que entre
los valores 79 y 80 kg. se pueden considerar uno, dos, tres o todos los
decimales que se quiera . Una variable discreta es aquella que adopta
valores aislados. Por tanto, fijados dos valores consecutivos, no se puede
tomar ninguno intermedio. Un ejemp lo de variable discreta es el número
de hijos (huelga decir que se pueden tener dos hijos o tres, pero nunca
un valor intermedio entre ambos) .
En la Tabla l. l. se resumen los t ipos de variabl es , las escalas de m edida , las caract erísticas bá sicas de cada una de ellas, las relaciones válidas
que admiten, y algunos ejemplos.
Tabla 1.1. Resum en de las escalas de med ida.
Tipo de
va riable
Cualitativa
Escala de
Medida
Características
básicas
Relaciones
válidas
Los núm eros
identifican y
clasifican objetos
Relaciones del
tipo «igual que»
o «distinto que»
Sexo, estado
civil, raza,
diagnóstico
clínico.
Además, los
números indican
las posiciones
relativas de los
objetos
Además,
relaciones del
tipo «mayor
que » o «menor
que »
Dureza, posición
en el ranking de
la ATP, grado de
satisfacción .
Intervalo
Ad emás, hay
una unidad de
medición común
Además,
igualdad o
desigualdad de
diferencias
Temperatura
en grados
centígrados,
inteligencia.
Razón
Además, el
punto cero es
absoluto
Además,
igualdad o
desigualdad de
razones
Longitud, peso,
altura, tiempo
de reacción.
-+Nominal
• Dicotómica
• Politómica
Cuasicuantitativa -+ Ordinal
Cuantitativa
-
• Di sc reta
• Continua
Ejemplos
1.5. DESCRIPCIÓN DE VARIABLES: DISTRIBUCIÓN DE
FRECUENCIAS Y REPRESENTACIÓN GRÁFICA
En el apartado anterior ha quedado de manifiesto que en Psicología se
trabaja con valores de variables que pueden ser nominales, ordinales, de
18
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
intervalo o de razón, con las características propias de cada escala. En
cualquier caso, una vez que el investigador ha recabado la información
a través del proceso de medida y recogido los datos correspondientes,
dispone de un listado o base, comúnmente llamado matriz de datos. La
generación de una base de datos supone la codificación previa de las observaciones, la introducción de los datos en algún programa informático,
la depuración de los datos ya grabados (detección y tratamiento de los
errores de grabación y valores perdidos), y eventualmente la realización
de transformaciones de variables que faciliten su posterior tratamiento
estadístico. Hay muchos programas estadísticos que se pueden utilizar
para organizar y analizar los datos. En concreto, en el curso virtual de
la asignatura hay disponibles tutoriales sobre el uso de Excel para hacer
distribuciones de frecuencia, gráficos y diversos análisis.
Codificar datos es asignar números a las variables cualitativas y cuasicuantitativas, y registrar los valores de las variables cuantitativas que
constituyen la base de datos, así como asignar un código (que puede ser
un espacio en blanco o un valor numérico) a los valores perdidos (aquellos que no han sido registrados u observados). En la matriz de datos, los
casos se sitúan en las filas y las variables en las columnas.
En la Tabla 1.2 se muestran los datos de los 40 estudiantes en las
variables sexo, nivel de estudios de la madre, bachillerato elegido, puntuación en un test de ansiedad ante los exámenes, calificación obtenida
en el examen de Lengua de la PAU y horas de estudio semanales, del
Ejemplo l. l. La codificación de las variables se hace en función de sus
características:
■
La variable ID es una variable de identificación que asigna un nú mero a cada estudiante . Se considera una variable nominal, ya que
estos números únicamente sirven para identificar a cada estudiante.
■
La variable grupo (cualitativa y dicotómica) se ha codificado asignando el valor 1 a los estudiantes sin tratamiento y el 2 a los estudiantes
con tratamiento.
■
La variable sexo es una variable cualitativa y dicotómica. Dado que
es nominal, para codificarla es posible asignar cualquier número a
estos dos valores siempre y cuando se asigne un número diferente
a hombres y mujeres. En la Tabla 1.1 a los hombres se les asigna el
valor 1 y a las mujeres el valor 2.
19
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
■
La variable nivel de estudios de la madre es una variable ordinal
que puede adoptar 5 valores distintos: Primarios, ESO, Bachillerato,
Grado universitario y Posgrado universitario. Para codificarla, además de asignar un número diferente a cada valor, hay que tener en
cuenta que los números deben cumplir la condición de orden (no se
puede asignar al nivel de estudios Primarios un número mayor que
el asignado a Bachillerato, por ejemplo). Los números asignados a
los distintos valores son: 1 Primarios, 2 ESO, 3 Bachillerato, 4 Grado
universitario y 5 Posgrado universitario.
■
La variable Bachillerato elegido es una variable cualitativa y politómica, que puede adoptar los valores Ciencias, Humanidades y Ciencias
Sociales y Arte. Al ser nominal el único requisito para codificarla es
asignar un número diferente a cada una de las modalidades. Así, se
ha asignado el valor 1 a los estud iantes que han elegido el Bachillerato de Ciencias, el 2 a Humanidades y Ciencias Sociales y el 3 al
Bachillerato de Artes.
■
En las tres últimas columnas de la tabla se sitúan las tres variables
cuantitativas de la investigación. La variable ansiedad ante los exámenes recoge las puntuaciones obtenidas en un test diseñado para
tal efecto. De manera similar se codifican la calificación en el examen
de Lengua de la PAU y el número de horas de estudio semanales,
recogiendo los valores correspondientes a estas variables.
Una vez que los datos están codificados es preciso realizar una depuración de la base de datos, que conlleva el procesamiento de los datos
perdidos y de los valores atípicos. Los datos perdidos son valores que no
han sido registrados, habitualmente porque el participante no ha consignado ese dato. Existen procedimientos de imputación de datos, basados
en los valores válidos de otros casos que se utilizan en ocasiones en variables cuantitativas. Un dato atípico es un valor muy diferente al resto
de valores de la misma variable. Suelen ser ocasionados por errores al
introducir los datos o por valores extremos. Los datos atípicos distorsionan los resultados de los análisis, y por esta razón hay que identificarlos
y tratarlos de manera adecuada, generalmente excluyéndolos del análisis.
La Tabla 1.2 se basa en un ejemplo ficticio con fines didácticos, en el que
no se han introducido datos perdidos.
Si los datos han sido registrados manualmente en un software es recomendable hacer un control de calidad de la grabación de los mismos,
20
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
Tabla 1.2. Datos recogidos en la investigación del ejemplo 1.1.
¡¡m¡t/tl' f
Horas de
estudio
semi!i:Í~les
""lD
"'i
'11
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
1
2
1
2
1
1
2
1
2
2
1
1
1
2
1
1
1
1
1
1
2
2
1
1
2
1
2
2
2
2
2
2
1
1
1
1
2
1
2
3
2
2
3
4
1
2
4
3
3
2
1
2
4
1
3
3
2
3
1
4
5
5
2
5
3
4
3
1
3
2
2
1
2
4
1
5
4
1
2
2
2
1
1
2
3
2
2
1
2
3
2
2
2
1
2
2
1
2
3
1
2
1
1
f
¡,
2
1
3
1
2
3
2
3
1
2
2
1
2
13
4
15
3
10
7
25
15
5
12
17
30
9
12
4
8
19
15
17
4
14
9
8
5
3
10
7
5
5
5
12
17
3
10
10
6
2
9
22
4
9
4
8
7
7
1
4
8
5
4
3
5
5
7
6
4
6
4
6
4
7
8
10
8
7
7
7
8
8
6
6
4
6
5
7
8
5
2
11
7
11
16
5
14
10
12
10
2
15
10
10
15
9
9
8
14
8
18
8
4
8
10
12
16
15
13
10
12
18
14
9
11
3
10
9
14
10
9
4
21
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
revisando la codificación de un porcentaje de los casos, habitualmente un
5% - 10% del total.
Una vez depurada, la base de datos se utiliza para extraer la información relevante. Si tenemos muy pocos datos es posible que la simple
inspección visual de los mismos sea suficiente para describir el fenómeno
estudiado. Pero esto no es nada frecuente. Habitualmente el número de
datos es elevado, por lo que se hace necesario organizar la información
mediante una distribución de frecuencias.
Una distribución de frecuencias es una tabla en la que se resume la información disponible de una variable. Se sitúan los valores de la variable
por filas y en las columnas se dispone el número de ocurrencias por cada
valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias
es facilitar la lectura de la información que contienen los datos. Además
de la organización de los datos, la distribución de frecuencias cumple dos
funciones fundamentales: ofrecer la información necesaria para realizar
representaciones gráficas y facilitar los cálculos para obtener los estadísticos que serán objeto de estudio en los próximos temas.
1.5.1. Descripción de variables cualitativas
La descripción de una variable cualitativa consiste básicamente en una
distribución de frecuencias y en su representación gráfica mediante un
diagrama de barras o de sectores.
En la quinta columna de la Tabla 1.2 aparece el Bachillerato elegido
por los participantes. Sin embargo, la simple inspección visual de estos
datos no es suficiente para que el investigador se haga una idea precisa
de cuántos estudiantes han elegido cada una de las modalidades de Ba chillerato existentes, por lo que es necesario construir una distribución de
frecuencias.
En la distribución de frecuencias de variables cualitativas habitualmente se muestran las frecuencias absolutas, las frecuencias relativas y los
porcentajes.
Para construir la tabla de distribución de frecuencias se inspeccionan en
primer lugar los valores que toma la variable. En este caso se trata de una
variable de carácter cualitativo (nominal) que puede adoptar tres valores
distintos. En la primera columna se especifican los valores que adopta la
22
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
variable X o el número asignado a ese valor (en la Tabla 1.3 se muestran
ambos) . En la segunda columna aparece la frecuencia absoluta (n¡) que
es el número de observaciones en cada categoría. En la siguiente columna
aparece la frecuencia relativa o proporción de cada categoría (p¡), que
se obtiene dividiendo la frecuencia absoluta , n¡, entre el número total de
observaciones, que se representa por n. La frecuencia relativa también se
expresa en términos de porcentaje (P¡) para lo cual hay que multiplicar
ca da una de las proporciones por cien (cuarta columna).
Tabla 1.3. Distribu ció n de frecuencias de la varia bl e Bachillera to elegido.
X
l. Ciencias y Tecnología
2. Humanidades y ce Sociales
3. Artes
¿
n;
P;
P;
13
21
0,325
32,5
0,525
52,5
6
0,15
15
40
1
100
Pues bien, ahora sí podemos hacernos una idea de la distribución de los
estudiantes según el Bachillerato que han elegido; sabemos que el más
demandado es el de Humanidades y Ciencias Sociales (un 52,5% de los
estudiantes lo eligen) y que el menos demandado es el de Artes ( elegido
por un 15% del total de estudiantes).
Los dos gráficos más habituales en la descripción de variables cualitativas son los gráficos de barras y los gráficos de sectores. En los
gráficos de barra los distintos valores de la variable se sitúan en el eje
horizontal y las frecuencias o los porcentajes en el eje de ordenadas.
Cada barra representa una categoría de la variable a representar, siendo
su altura igual a su frecuencia (o porcentaje). En los gráficos de sectores
cada sector representa una categoría de la variable y su ángulo central
debe ser proporcional a su frecuencia (o porcentaje). En la Figura 1.2 se
muestra el diagrama de barras y el diagrama de sectores de la variable
Bachillerato elegido. El diagrama de barras se ha construido sobre las
frecuencias absolutas de la variable y el diagrama de sectores sobre los
porcentajes.
23
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
(a)
n; 25
20
15
10
5
o
Ciencias
Humanidades
Sociales
Artes
y ce
(b)
Figura 1.2. Diagrama de barras (a) y diagrama de sectores (b) de la variable Bachillerato
elegido.
Como se verá en el Tema 2, el único índice apropiado para variables
cualitativas es la moda.
Ejemplo 1.6. Se muestra a continuación la distribución de frecuencias de la variable estado civil de una determinada muestra. ¿cuál es
la proporción de personas casadas?
24
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
X
n,
Soltero
6
Casado
Divorciado
24
Viudo
4
6
40
Hay 24 personas casadas (frecuencia absoluta). La proporción o frecuencia relativa de las personas casadas será:
1.5.2. Descripción de variables ordinales o cuasicuantitativas
En el caso de variables ordinales se procede de la misma manera,
aunque con los valores situados en la tabla de acuerdo a un determinado
orden. Por ejemplo, la variable nivel de estudios de la madre presenta los
valores : Primarios, ESO, Bachillerato, Grado universitario y Posgrado uni versitario . En la distribución de frecuencias hay que preservar este orden,
ya sea empezando por el valor más bajo o más alto de la variable:
Tabla 1.4. Distribución de frecuencias de la vari ab le nivel de estudios de la madre.
X
n;
P;
P,
n"
P,,
pa
l. Primarios
7
0,175
17,5
7
0,175
17,5
2. ESO
3. Bachillerato
11
11
7
0,275
0,275
27,5
27,5
18
29
0,450
0,725
45
72,5
0,175
17,5
90
0,1
10
36
40
0,900
4
1
100
40
1
100
4. Grado universitario
5. Posgrado universitario
¿
En esta tabla se han añadido tres columnas más: la frecuencia absoluta acumulada (na), la frecuencia relativa acumulada o proporción acumulada (pª ) y el porcentaje acumulado (Pª ), para cada una
25
INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
de las categorías de respuesta. Para obtener estos valores, simplemente
hay que ir acumulando (sumando), desde la categoría de menor valor de
la variable a la de mayor valor, las frecuencias absolutas, proporciones o
porcentajes, de cada categoría de respuesta. Por ejemplo, la frecuencia
absoluta acumulada en el caso de Bachillerato es 29, resultado de sumar
las frecuencias de los valores anteriores (7 + 11 = 18) y la suya propia
(18 + 11 = 29), indicando que 29 personas presentan un nivel de estudios
de Bachillerato o inferior. En las variables nominales carece de sentido el
cálculo de las frecuencias acumuladas, ya que sus valores no establecen
un orden determinado.
Los conceptos explicados hasta el momento son:
Frecuencia absoluta (n;}: número de veces que se repite cada uno
de los valores de una variable. La suma de todas las frecuencias absolutas representa el total de la muestra (n).
Proporción o frecuencia relativa (p¡): cociente entre la frecuencia
absoluta de cada valor de la variable (n;) y el número total de observaciones (n). Formalmente P; = n;fn.
Porcentaje (P¡): valor de la frecuencia relativa (P;) multiplicado por
cien. Formalmente P; = P; x 100
Frecuencia absoluta acumulada (n 0 ) : número de veces que se
repite cada valor o cualquiera de los valores inferiores.
Proporción acumulada o frecuencia relativa acumulada (p 11 ):
cociente entre la frecuencia absoluta acumulada y el total de observaciones. Formalmente Pa = n0 /n.
Porcentaje acumulado (P11 ): valor de la frecuencia relativa acumulada multiplicado por cien. Formalmente: Pª = Pa x 100.
Al igual que las variables cualitativas, las variables ordinales generalmente se representan con un diagrama de barras o un diagrama de
sectores. El diagrama de barras también se puede realizar sobre las frecuencias, proporciones o porcentajes acumulados, siempre teniendo en
cuenta que es necesario respetar el orden de los valores de la variable
representada. En este caso, se ha elegido un diagrama de barras que contiene en el eje horizontal la tabla con los datos que representa el gráfico.
26
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
(a)
n¡
12
10
8
6
4
2
o
Prim aria
ESO
Bachill.
Grado
Uni v.
Posg rado
Univ.
7
11
11
7
4
(b)
45
na 40
35
30
25
20
15
10
5
o
-
~
~
~
n
Prim ari a
ESO
Bachill.
Grado
Uni v.
Posg rado
Uni v.
7
18
29
36
40
Figura 1.3. Diagrama de barras (a) y diagrama de barras acumulado (b) de la variable nivel
de estudios de la madre.
Algunos índices apropiados para este tipo de variables son la mediana
y la moda (explicados en el Tema 2) y la amplitud intercuartil (explicada
en el Tema 3).
1.5.3. Descripción de variables cuantitativas
Al trabajar con variables cuantitativas puede suceder que el número de
valores que tome la variable sea reducido (como la variable n° de hijos,
que habitualmente no adopta valores mayores de 4) o sea muy amplio
(como las variables ansiedad ante los exámenes y horas de estudio semanales de la Tabla 1.2). En el primer caso, para elaborar la distribución de
27
INTRODUCCIÓN AL ANA LISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
frecuencias se procede de la forma indicada para variables ordinales y en
el segundo será necesario agrupar la variable en intervalos.
La variable ansiedad ante los exámenes de la Tabla 1.2 forma parte
de este segundo caso. El estudiante con menor puntuación en el test de
ansiedad ante los exámenes tiene una puntuación igual a 2 y el que tiene
una puntuación mayor ha obtenido una puntuación de 30. Si se actúa de
la misma manera que en los ejemplos anteriores, para hacer la distribución de frecuencias (utilizando una fila para cada valor) tendríamos una
tabla con una gran cantidad de filas, la mayoría de ellas con una frecuencia absoluta de O o de 1, por lo que esta distribución, así presentada, no
resultaría útil. En estos casos se recurre a la agrupación en intervalos,
que consiste en formar grupos de valores consecutivos de la variable.
Para ello, se sitúa cada uno de estos grupos en una fila, y se calculan las
frecuencias de cada grupo o intervalo de valores, y no de cada valor de
la variable.
En primer lugar, hay que decidir qué número de intervalos tendrá la
distribución de frecuencias. Siempre habrá varias posibilidades pudiendo optar desde establecer un número muy pequeño de intervalos muy
amplios hasta muchos intervalos de muy pequeña amplitud. A la hora
de tomar esta decisión hay que tener presente que al establecer intervalos siempre se pierde información, ya que ahora la frecuencia no estará
referida a un solo valor de la variable, sino a todos los contenidos en el
intervalo. Por tanto, esta decisión dependerá del tratamiento que el investigador quiera dar a la variable en su estudio, tratando de encontrar el
equilibrio entre la precisión que necesite y la manejabilidad de los datos.
En el Ejemplo 1.1 unos intervalos de amplitud 5 pueden ser apropiados para la variable ansiedad ante los exámenes (ver Tabla 1.5.). Así,
el primer intervalo contendrá las puntuaciones comprendidas entre 1 y
5, el segundo las puntuaciones comprendidas entre 6 y 10, y así sucesivamente hasta llegar al último intervalo que contiene las puntuaciones
comprendidas entre 26 y 30. Estos valores constituyen los límites aparentes del intervalo. Para cada intervalo existe un límite inferior y un
límite superior.
28
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
Tabla 1.5. Distribución de frecuencias con los datos agrupados en intervalos de la variable ansiedad ante los exámenes del Ejemplo 1.1.
X
1 6 11 16 21 26 -
¿
5
10
15
20
25
30
11;
P;
n"
Pa,
13
12
8
4
2
1
0,325
0,3
0,2
0,1
0,05
0,025
13
25
33
37
39
40
0,325
0,625
0,825
0,925
0,975
1
40
1
La variable ansiedad ante los exámenes adopta 29 valores distintos
(del 2 al 30). Dado que 29 no es múltiplo de 5, o el intervalo inferior
empieza en un valor que no es un valor observado de la variable, o el
intervalo superior termina en un valor que no es uno de los valores de la
variable. En este caso se ha empezado el primer intervalo (1 - 5) con el
valor 1, que no es un valor que aparezca en la Tabla 1.2 de datos, pero
esta distribución también podría empezar en el intervalo 2-6 y terminar
en el intervalo 27-31.
Estos límites aparentes tienen la misma unidad de medida que los valores de la variable. Esto es, si los datos son enteros, entonces los límites
aparentes son enteros. Si los datos contienen decimales, los límites aparentes tendrán el mismo número de decimales que los datos recogidos.
En nuestro ejemplo, los datos son números enteros, por lo que los límites
aparentes no contienen decimales.
Con los límites aparentes en la distribución existe discontinuidad entre un intervalo y el siguiente, ya que el límite superior de un intervalo
no coincide con el límite inferior del siguiente intervalo. Con los límites
exactos de una distribución no existe discontinuidad entre un intervalo y
el siguiente, ya que el límite superior exacto de un intervalo coincide con
el límite inferior exacto del intervalo siguiente. El Límite Inferior Exacto
(LIE) se calcula restando al valor del límite inferior aparente media unidad de medida y el Límite Superior Exacto (LSE) se calcula sumando
al valor del límite superior aparente media unidad de medida.
Por tanto, los límites exactos del intervalo 1-5 son 0,5-5,5, los del
intervalo 6-10 son 5,5-10,5 y así sucesivamente, de forma que el límite
29
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
superior exacto de un intervalo coincide con el límite inferior exacto del
siguiente (ver Tabla 1.6).
A partir de los límites aparentes o de los límites exactos se calcula el
punto medio del intervalo, que es la semisuma del límite superior e inferior del intervalo. Como se verá en los Temas 2 y 3, el punto medio del
intervalo es el valor que se utilizará para el cálculo de algunos índices
estadísticos con distribuciones agrupadas en intervalos. Con estos datos,
completamos la distribución de frecuencias de la variable ansiedad ante
los exámenes del Ejemplo l. l.
Tabla 1.6. Distribución de frecuencias con los datos agrupados en intervalos de la varia ble ansiedad ante los exámenes del Ejemplo 1.1
X
Límites
aparentes
16 11 16 21 26 -
¿
5
10
15
20
25
30
X
Límites
exactos
0,5 5,5 10,5 15,5 20,5 25,5 -
5,5
10,5
15,5
20,5
25,5
30,5
X
Punto
medio
n;
P;
n"
Pa
3
8
13
18
23
28
13
12
8
4
2
1
0,325
0,3
0,2
0,1
0,05
0,025
13
25
33
37
39
40
0,325
0,625
0,825
0,925
0,975
1
40
1
En este ejemplo, el cálculo de los límites exactos de los intervalos es
muy sencillo porque la unidad de medida de la variable ansiedad ante los
exámenes es l. Esto es así porque sus valores son números enteros (sin
decimales). Por tanto, sumar y restar media unidad de medida al límite
superior e inferior, respectivamente, supone sumar y restar 0,5 (que es la
mitad de 1). Sin embargo, cuando los límites aparentes contienen decimales, la unidad de medida de la variable ya no será 1, y el número que
habrá que sumar y restar para calcular los límites exactos dependerá del
número de decimales que contienen los valores de la variable. Así:
30
-
Si los límites aparentes son enteros, la unidad de medida de la variable
es 1, y su mitad es 0,5, que es la cantidad que habrá que restar al límite inferior y sumar al límite superior para calcular los límites exactos.
-
Si los límites aparentes son números con un decimal, la unidad de
medida de la variable es 0,1, por lo que la cantidad a sumar y restar
para calcular los límites exactos será 0,05.
CONCEPTOS BASICOS Y ORGANIZACIÓN OE DATOS
-
Si los límites aparentes son números con dos decimales, la unidad
de medida de la variable es 0,01, por lo que la cantidad a sumar y
restar para calcular los límites exactos será 0,00 5.
-
Y así sucesivamente .. .
Por ejemplo, si se mide el tiempo que se emplea en ejecutar una determinada tarea, y los valores resultantes oscilan ente 3,01 segundos y
3,30 segundos, se podría establecer una distribución de frecuencias con 6
intervalos, como se muestra en la Tabla l. 7:
Tabla 1.7. Límites aparentes de la variable tiempo empleado en ejecutar una determina da tarea.
X
3,01
3,06
3,11
3,16
3,21
3,26
-
3,05
3,10
3,15
3,20
3,25
3,30
En ese caso nuestra unidad de medida es 0,01, ya que los valores de
la variable contienen dos decimales. Por eso, para calcular los límites
exactos hay que sumar y restar la mitad de esta unidad de medida que es
0,005. Así, los límites exactos serían:
Tabla 1.8. Límites de la variable tiempo empleado en ejecutar una determinada tarea.
X
Límites
aparentes
3,01
3,06
3,11
3,16
3,21
3,26
-
3,05
3,10
3,15
3,20
3,25
3,30
X
Límites
exactos
3,005
3,055
3,105
3,155
3,205
3,255
-
3,055
3,105
3,155
3,205
3,255
3,305
Los nuevos conceptos que han aparecido son:
31
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Intervalo: cada uno de los grupos de valores que ocupan una fila en
una distribución de frecuencias.
Límites aparentes: son los valores que delimitan el grupo devalores que constituyen un intervalo. Para cada intervalo existe un Límite Inferior Aparente (LIA), que es el valor menor del intervalo y un
Límite Superior Aparente (LSA), que es el valor mayor incluido en el
intervalo.
Límites exactos o reales: son aquellos que no presentan discontinuidad entre un intervalo y el siguiente. Para cada intervalo existe
un Límite Inferior Exacto (LIE) y un Límite Superior Exacto (LSE). El
límite inferior exacto es el valor que resulta de restar al límite inferior
aparente media unidad de medida. El límite superior exacto es el
valor que resulta de sumar al límite superior aparente media unidad
de medida.
Punto medio del intervalo (PM): es la suma de los límites exactos
o de los límites aparentes de un intervalo dividido entre dos. Formalmente:
PM = LIE + LSE
2
ó PM = LIA + LSA
2
Amplitud del intervalo: es la diferencia entre el límite superior
exacto y el límite inferior exacto.
A un intervalo que no tiene límite inferior o límite superior se le denomina intervalo abierto. Por ejemplo, si en la variable ansiedad ante los
exámenes del Ejemplo l. l. hubiera dos sujetos con una puntuación de 41
y 43 respectivamente, se puede optar por establecer el intervalo abierto
«más de 30 », en lugar de añadir los tres intervalos correspondientes 3135, 36-40 y 41-45, dos de ellos con frecuencia nula.
Los gráficos más habituales para representar a una variable cuantitati va discreta son el diagrama de barras y el diagrama de líneas. En el caso
de variables cuantitativas continuas agrupadas en intervalos en lugar del
diagrama de barras se utiliza el histograma.
32
CONCEPTOS BASICOS Y ORGANIZACIÓN DE DATOS
El histograma es una extensión del diagrama de barras que dibuja
los rectángulos unidos entre sí, indicando de este modo que existe continuidad en los valores de las variables. Un histograma, es por tanto, un
gráfico de variable continua dividida en intervalos en los que se eleva un
rectángulo con área proporcional a su frecuencia. El histograma puede
construirse sobre frecuencias absolutas, frecuencias relativas o porcenta jes, ya sean o no acumulados. En la Figura 1.4 se muestra un histograma
(a) y un histograma acumulado (b) de la variable ansiedad ante los exámenes.
(a)
n ; 14
12
10
8
6
4
2
o!-'---'--~--~-~-~--~
0,5
5,5
10,5 15,5 20,5 25,5 30,5
(b)
na
45
40
35
30
25
20
15
10
5
o µ.._ _
_.___~~="-'--....i.....--'--.........,_
3
8
13
18
23
28
Figura 1.4. Histograma (a) e histograma acumulado (b) de la variable ansiedad ante los
exámenes.
En el eje horizontal de un histograma se sitúan los límites exactos de
los intervalos o su punto medio. El histograma (a) se ha realizado sobre
33
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
los límites exactos de los intervalos y el histograma acumulativo (b) se ha
realizado sobre los puntos medios de los intervalos.
El diagrama de líneas se construye situando un punto a una altura
proporcional a la frecuencia en cada valor o en el punto medio de cada
intervalo (si la variable está agrupada en intervalos). Finalmente se unen
los puntos para formar una línea. A este gráfico también se le denomina
polígono de frecuencias. En la Figura 1.5 se muestra el diagrama de líneas
de la variable ansiedad ante los exámenes en proporciones (a) y en proporciones acumuladas (b).
(a)
p 0,35
I 0,30
0,25
0,20
0,15
0,10
0,05
o
3
8
13
18
23
18
23
28
(b)
1,0
Pa OI 9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
o
3
8
13
28
Figura 1.5. Diagrama de líneas (a) y diagrama de líneas acumulativo (b) de la variable ansiedad ante los exámenes.
Ejemplo 1.7. Construye una distribución de frecuencias con los datos de la variable calificación obtenida en el examen de Lengua de la
PAU de la Tabla 1.2.
34
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
Hay variables con un número de valores determinado, que hace posi ble utilizar una distribución de frecuencias con o sin intervalos. Así sucede con la variable calificación obtenida en el examen de Lengua de la
PAU del Ejemplo l. l. Se puede trabajar con la distribución de frecuencias sin agrupar, tal y como aparece en la Tabla de la izquierda o con
la distribución de frecuencias agrupada de la Tabla de la derecha, en
la que se ha elegido agrupar los datos en 5 intervalos de amplitud 2.
(a)
(b)
X
n,
Pi
P;
1
2
3
5
6
7
8
9
10
1
1
1
8
5
7
8
7
1
1
0,025
0,025
0,025
0,200
0,125
0,175
0,200
0,175
0,025
0,025
2,5
2,5
2,5
20
12,5
17,5
20
17,5
2,5
2,5
¿
40
1
100
4
X
1 3 5 7 9 -
¿
2
4
6
8
10
n,
P,
P,
2
9
12
15
2
0,05
0,225
0,3
0,375
0,05
5
22,5
30
37,5
5
40
1
100
Finalmente, para describir una variable cuantitativa se utilizan algunos
índices estadísticos que se verán en los próximos temas, los más frecuentes son la media (Tema 2) y la desviación típica (Tema 3).
1.6. TENDENCIA CENTRAL, VARIABILIDAD V FORMA DE UNA
VARIABLE: APROXIMACIÓN GRÁFICA
En el apartado anterior se ha explicado cómo describir cualquier tipo
de variable mediante una tabla de datos (su distribución de frecuencias)
y la representación gráfica más adecuada . En los dos próximos temas se
explicará cómo describir las variables mediante los índices estadísticos
adecuados . Estos índ ices se utilizan para medir la tendencia central,
variabilidad y forma de la distribución de una variable. Pero, antes de
35
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
calcular estos índices se tratará de ver gráficamente qué característica de
la variable pretenden evaluar. Para hacerlo, se utilizarán curvas suavizadas, que son histogramas basados en un gran número de observaciones,
cuyos ángulos se han suavizado. Así, si disponemos de los datos de una
muestra en una variable X (Figura 1.6. A) y hacemos esos intervalos más
pequeños (Figura 1.6. B), y más pequeños aún (Figura 1.6. C), al trazar
un diagrama de líneas sobre los puntos medios de esos intervalos, la línea
resultante será una curva.
A
B
e
Figura 1.6. Histograma de una variable (A) disminuyendo la amplitud de los intervalos
(B), y disminuyendo aún más su amplitud (C).
A) TENDENCIA CENTRAL
La tendencia central de una distribución se refiere al lugar donde se
centra una distribución particular en la escala de valores.
La Figura l. 7 podría representar, por ejemplo, la estatura medida en
un grupo de 1000 hombres nacidos en 1950 (A) y en otro grupo de hombres nacidos en 1990 (B). Se puede apreciar, atendiendo al eje horizontal
en el que aparece la estatura en centímetros que, en líneas generales, los
hombres nacidos en 1990 son más altos que los nacidos en 1950. Eso no
significa que todos los nacidos en 1990 sean más altos (se puede observar que hay solapamiento entre las curvas).
36
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
155
A
B
170
180
210
Figura 1.7. Ejemplo de dos distribuciones con tendencias centrales distintas.
A la vista de los gráficos, se puede afirmar que la tendencia central
de los dos grupos es distinta (las curvas no se solapan completamente)
y que el grupo B (el nacido en 1990) tiene una estatura promedio mayor
que el grupo A (porque la curva del grupo B está situada a la derecha, en
puntuaciones más altas de estatura) .
Esta centralidad o tendencia central puede cuantificarse med iante unos
índices conocidos como estadísticos de tendencia central, que se explica rán en el próximo tema.
B) VARIABILIDAD
Esta propiedad se refiere al grado de concentración de los valores entre sí o con respecto a un valor central de la distribución. Una distribución
de frecuencias es homogénea (tiene poca variabilidad) si los valores
de la distribución están cercanos al promedio y es heterogénea (tiene
mucha variabilidad) si los valores se dispersan mucho con respecto al
promedio.
En la Figura 1.8 el grupo A representa, por ejemplo, las puntuaciones
en inteligencia medidas en un grupo de niños de distintos colegios de la
geografía española mientras que el grupo B representa las puntuaciones
en inteligencia de un grupo de niños de altas capacidades.
37
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
A
B
100
140
Figura 1.8. Ejemplo de dos distribuciones con tendencia central y variabilidad diferentes.
En este caso, además de una tendencia central distinta ( el grupo B
presenta, en líneas generales, un nivel mayor de inteligencia que el grupo
A) podemos apreciar que las puntuaciones en inteligencia del grupo de
estudiantes con altas capacidades están más próximas entre sí que las
del otro grupo. Por tanto, el grupo A presenta una mayor variabilidad en
inteligencia que el grupo B.
C) FORMA
Para estudiar la forma de una variable se analiza su asimetría y su
curtosis.
La asimetría se refiere al grado en que los datos se reparten equilibradamente por encima y por debajo de la tendencia central. Una distribución será simétrica cuando al dividirla en dos partes iguales, las dos mitades se superponen. Una distribución tiene asimetría positiva cuando
la mayor concentración de puntuaciones se produce en la parte baja de la
escala y asimetría negativa cuando la mayor parte de las puntuaciones
se sitúan en la parte alta de la escala.
En la Figura 1.9 se ha representado la puntuación obtenida por un grupo de alumnos en un examen muy difícil (A), en un examen de dificultad
intermedia (B) y en un examen muy fácil (C).
Como se puede ver en el gráfico, el conjunto de puntuaciones presenta
una distribución asimétrica positiva si la mayoría de las puntuaciones ob-
38
CONCEPTOS BASICOS Y ORGANIZACIÓN DE DATOS
Simetría
Asimetría
Positiva
e
A
1/
Asimetría
Negativa
\
2
5
8
Figura 1.9. Ejemplo de tres distribuciones con distinta asimetría. La distribución A es asimétrica positiva, la distribución Bes simétrica y la distribución Ces asimétrica
negativa.
tenidas son bajas (caso del examen A que es difícil), es simétrica cuando
hay un número similar de puntuaciones a ambos lados del centro de la
distribución (caso del examen B) y la distribución es asimétrica negativa si
la mayoría de las puntuaciones son altas (caso del examen C que es fácil).
La curtosis se refiere al grado de apuntamiento de los datos (ver Figura 1.10). Si la distribución de frecuencias es muy apuntada se llama
leptocúrtica (A), y si es muy aplastada se denomina platicúrtica (C). Si su
grado de apuntamiento es intermedio se denomina mesocúrtica (B).
A,~ - - - - Leptocúrtica
Figura 1.10. Ejemplo de tres distribuciones con distinta curtosis .
39
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
1.7. RESUMEN
En este capítulo se ha tratado el papel que juega el Análisis de datos
dentro del método general de la ciencia y algunos conceptos importantes
relacionados con el análisis de datos. Posteriormente, se ha abordado el
concepto de variable, su notación y clasificación, además de tratar el problema de la medición y los distintos tipos de escala: nominal, ordinal, de
intervalo y de razón. También se ha tratado la organización y tabulación
de los datos de variables cualitativas, cuasicuantitativas y cuantitativas,
mediante la confección de una distribución de frecuencias . Además, se
han presentado algunas formas de representar gráficamente una distri bución de frecuencias, de modo que su visión aporte una información de
carácter general acerca de la variable objeto de estudio. Por último, hemos adelantado de manera intuitiva los aspectos más relevantes que se
deben analizar en toda distribución de frecuencias: la tendencia central, la
variabilidad y la forma de la distribución (asimetría y curtosis), que serán
objeto de estudio en los próximos temas.
1.8. EJERCICIOS
1.1.
El número de aciertos en un examen es una variable: A) nominal;
B) ordinal; C) de razón.
1.2.
La variable número de caras obtenidas al lanzar al aire dos monedas es: A) dicotómica; B) discreta; C) continua.
1.3.
¿En qué escala de medida el origen no es arbitrario? A) En la esca la nominal; B) En la escala de intervalo ; C) En la escala de razón .
1.4.
¿cuál es el nivel de medida de un ítem cuyas opciones de respuesta
son: 1 = totalmente en desacuerdo, 2 = en desacuerdo, 3 = de
acuerdo y 4 = totalmente de acuerdo? A) Nominal; B) Ordinal; C)
De intervalo.
1.5.
Se han asignado los valores 1, 2 y 3 a pacientes con un problema de claustrofobia muy leve, moderado y alto, respectivamente.
¿Qué nivel de medida tiene la variable grado de claustrofobia ? A)
Nominal; B) Ordinal; C) De razón.
40
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
1.6.
Las variables dicotómicas: A) solo admiten dos valores posibles;
B) admiten como mínimo dos val ores posibles; C) admiten dos o
más valores siempre y cuando se trate de una variable nominal.
1. 7.
El Centro de Investigaciones Sociológicas (CIS) realiza de manera regular una encuesta a los ciudadanos españoles mayores de edad. En
una de ellas, preguntó a 1600 ciudadanos sobre el principal problema
que existe actualmente en España, encontrando que la mayoría de los
encuestados (el 52,5%) opinaron que el paro era el principal problema. ¿cuál es la población objeto de estudio? A) Los 1600 ciudadanos ;
B) La población española; C) La población española mayor de edad.
1.8.
Continuando con el ejercicio anterior, 52,5% es el valor de: A) un
parámetro; B) un estadístico; C) una muestra.
1.9.
La variable flexibilidad psicológica, recogida en la Gráfica 1, es: A)
politómica; B) cuasicuantitativa; C) cuantitativa.
1.10. ¿cuál es la amplitud de los
intervalos en los que está
agrupada la variable flexibilidad psicológica? A) 2;
B) 3; C) 4.
1.11. Los límites exactos del primer intervalo de la variable
flexibilidad psicológica son:
A) 10-12; B) 9,5-12,5; C)
10,5-12,5.
Gráfica l. Puntuaciones en un test de flexibili dad psicológica (X) de una muestra de 150 personas. En el eje horizontal se muestran los pun tos medios de los intervalos.
~
o ro
~E
.~E
~~
150
160
140
123
120
87
100
so
u
60
40
it_
20
36
1.12. Con los datos de la Gráfica
1, la frecuencia relativa del
tercer intervalo de puntuaciones es: A) 0,34; B) O, 76; C) 0,58.
1.13. Si queremos construir un intervalo para el valor 18,56 de una variable, ¿cuáles son los límites exactos de dicho intervalo? A) 18,5518,56; B) 18,555-18,565; C) 18,565-18,565.
1.14. En un experimento de atención visual focalizada se ha utilizado
como variable dependiente el tiempo de reacción en milisegundos
a un determinado estímulo visual presentado en la pantalla de un
ordenador. Los tiempos de reacción obtenidos han sido:
520,487,458,399,458,465,502,389,444,478,415,501,388,
466,438,474,458,468,479,511,458,499,487,468,423,415,
41
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CI ENCIAS DE LA SA LUD
429,473,426,409,450,410,439,490,480,417,432,491,451,
382,458,510,390,433,487,429,389,477,466,520.
¿Qué nivel de medida tiene la variable tiempo de reacción? A) Ordinal; B) De intervalo; C) De razón.
1.15. La distribución de frecuencias de la variable tiempo de reacción del
ejercicio anterior es:
A)
B)
X
n,
X
n,
381-400
401-420
421-440
441-460
461-480
481-500
501 -520
6
5
8
8
400 o menos
401-425
426-450
451-475
476-500
más de 500
6
6
11
6
6
C) cualquiera de las
dos anteriores
9
13
10
6
1.16. La amplitud de los intervalos de la distribución de frecuencias A del
ejercicio anterior es: A) 19; B) 20; C) 25.
1.17. Según los datos del ejercicio 1.15, ¿Qué porcentaje de sujetos tardó 450,5 milisegundos o menos? A) 42%; B) 54%; C) 68%.
1.18. ¿cuáles son los límites exactos del primer intervalo de la distribu ción de frecuencias de la alternativa A del ejercicio 1.15? A) 380,5
- 400,5; B) 380 - 401; C) 381,5 - 400,5.
1.19. Atendiendo a la distribución de frecuencias de la alternativa A del
Ejercicio 1.15., el punto medio del primer intervalo es: A) 390; B)
390,5; C) 391.
1.20. ¿Qué gráfico representaría de manera apropiada los valores de la
variable tiempo de reacción del Ejercicio 1.15? A) Diagrama debarras; B) Histograma; C) Diagrama de sectores.
1.9. SOLUCIONES A LOS EJERCICIOS
1.1.
42
Solución: e
Es una variable de razón, ya que se dispone de una unidad cons tante de medida y el cero es absoluto.
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
1 .2 .
Solución: B
Se trata de una variable discreta, ya que puede adoptar los valores
O, 1 y 2 pero no podría adoptar un valor intermedio entre ellos (al
lanzar al aire dos monedas nunca se podría sacar cara y media,
por ejemplo).
1.3.
Solución: e
En la escala de razón el origen de la escala no es arbitrario, sino
que representa un origen real que corresponde a la ausencia (valor
cero) de la característica que se está midiendo.
1.4.
Solución: B
El nivel de medida es ordinal, porque los números asignados a las
opciones de respuesta solo nos permiten diferenciarlas y ordenarlas. Si una persona escoge la opción 4, solo podemos afirmar que
está más de acuerdo con la cuestión planteada que otra persona
que ha escogido la opción 3, pero no podemos saber cuánto más
de acuerdo está.
1.5.
Solución: B
El nivel de medida es ordinal, ya que podemos diferenciar entre
tres niveles de claustrofobia y ordenarlos en función de su gravedad, pero no podemos precisar la distancia entre un nivel y otro.
1.6.
Solución: A
Una variable dicotómica se define como aquella que solo puede
presentar dos categorías o valores.
1.7.
Solución: e
A) es el tamaño muestra! y B) incluye a toda la población española,
cuando en el estudio solo interesan los mayores de edad.
1.8.
Solución: B
Es el valor de un estadístico, ya que 52,5 es un porcentaje obtenido
sobre los 1600 encuestados que forman parte de la muestra.
1.9.
Solución: e
La variable puntuaciones en un test de flexibilidad psicológica está
en una escala de intervalo, ya que hay una unidad de medición co mún y constante pero el cero es arbitrario. Todas las puntuaciones
que provienen de test psicológicos se consideran de intervalo. Por
tanto, se trata de una variable cuantitativa.
43
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
1.10. Solución: B
La diferencia entre cada dos puntos medios consecutivos es 3, por
lo que la amplitud de los intervalos es 3.
1.11. Solución: B
Por la distancia entre los puntos medios del histograma de la Gráfica, se sabe que los intervalos son de amplitud 3. El primer punto
medio es 11, por lo que para que la amplitud sea 3 sus límites
aparentes serán 10-12 y los límites exactos 9,5-12,5. Los límites
aparentes y exactos de la variable flexibilidad psicológica son:
X
Límites aparentes
X
Límites exactos
10-12
13-15
16-18
19-21
22 - 24
9,5-12,5
12,5 - 15,5
15,5-18,5
18,5-21,5
21,5 - 24,5
1.12. Solución: A
El Gráfico 1 se basa en las frecuencias absolutas acumuladas, para
calcular las frecuencias absolutas hay que restar la frecuencia acumulada anterior. Así, la frecuencia absoluta del intervalo 10-12
será 15 (no hay frecuencia acumulada anterior), la frecuencia absoluta del intervalo 13-15 será 36-15 = 21, y así sucesivamente.
Para calcular la frecuencia relativa del tercer intervalo se divide su
frecuencia absoluta por el total de observaciones, 51/150 = 0,34.
En la Tabla se muestran todas las frecuencias absolutas y relativas
de la variable.
44
X
na
n;
P;
10-12
13-15
16-18
19-21
22-24
15
36
87
123
150
15
21
51
36
0,10
0,14
0,34
0,24
0,18
27
CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
1.13. Solución: B
El valor 18,56 tiene dos decimales, por lo que la unidad de medida
de la variable es 0,01 habrá que sumar y restar la mitad de esta
cantidad que es 0,005 para calcular los límites exactos. Así,
Límites exactos = 18, 56 ± O, 005 =
¡
18, 555
18,565
1.14. Solución: e
De razón, porque el cero representa la ausencia total de la característica medida (del tiempo).
1.15. Solución:
e
Ambas reflejan adecuadamente los datos del ejerc1c10 1.14, diferenciándose únicamente en las decisiones tomadas respecto al
número y amplitud de los intervalos.
1.16. Solución: B
La amplitud es la diferencia entre el límite superior exacto y el límite inferior exacto, por tanto 400,5-380,5=20.
1.17. Solución: A
Si se utilizara la Tabla A el porcentaje de sujetos que tarda 450,5
milisegundos o menos estaría en el intervalo 441-460, que es un
intervalo que incluye valores superiores a 450,5 milisegundos, por
lo que la frecuencia absoluta de este intervalo puede incluir sujetos
con un tiempo de reacción superior. En este Tema no se ha estudiado aún el cálculo de los percentiles que resolvería este problema,
por lo que hay que utilizar la Tabla B.
Para obtener el porcentaje de sujetos que tardó 450,5 milisegun dos o menos hay que calcular el porcentaj e acumulado del intervalo 426-450 . Para facilitar este cálculo, se añaden además las co lumnas correspondientes a las frecuencias acumuladas (absolutas
y relat ivas).
45
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
X
n;
na
Pa
pa
400 o menos
401-425
426-450
451 -475
476-500
más de 500
6
6
6
12
21
34
44
50
0,12
0,24
0,42
0,68
0,88
1
12
24
42
68
88
100
9
13
10
6
El 42% de sujetos tardó 450,5 milisegundos o menos.
1.18. Solución: A
Dado que los valores de la variable no tienen decimales, basta con
restar y sumar 0,5 a los límites aparentes para obtener los límites
exactos. Así, 381 - 0,5 = 380,5 y 400 + 0,5 = 400,5 .
1.19. Solución: B
El Punto medio del intervalo es la suma de los límites exactos o de
los límites aparentes, dividido entre dos:
Con los límites aparentes:
PM = LIA + LSA = 381 + 400 =
2
2
3901 5
Con los límites exactos:
PM = LIE + LSE = 380, 5 + 400, 5 =
2
2
3901 5
1.20. Solución: B
El histograma representa adecuadamente los valores de esta variable, ya que es cuantitativa. El diagrama de barras (opción A)
no se puede utilizar en distribuciones de frecuencias agrupadas
en intervalos y el diagrama de sectores ( opción C) no se utiliza en
variables cuantitativas.
46
TEMA2
Índices de tendencia central y de posición
2.1. INTRODUCCIÓN
2.2. ÍNDICES DE TENDENCIA CENTRAL
2.2.1.
2.2.2.
2.2.3.
2.2.4.
Media aritmética
Mediana
Moda
Elección de un índice de tendencia central
2.3. ÍNDICES DE POSICIÓN
2.3.1. Percentiles
2.3.2. Cuartiles y deciles
2.4. RESUMEN
2.5. EJERCICIOS
2.6. SOLUCIONES A LOS EJERCICIOS
'
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
2.1. INTRODUCCIÓN
Como se ha mencionado en el tema anterior, una de las propiedades
más importantes a estudiar de una distribución de frecuencias es la tendencia central de las puntuaciones. Esta característica de la distribución
se puede resumir en un valor o puntuación que refleje esa tendencia
ce ntral de la distribución y que represente al conjunto de observaciones.
Con el fin de cuantificar esta propiedad , se han desarrollado una serie de
medidas o estadísticos de tendencia central que indican sobre qué puntu ación se concentran las observaciones.
En este tema se van a presentar los principales índices de tendencia
central: la media aritmética, la mediana y la moda. Además de exponer el
procedimiento de cálculo de estos estadísticos, se discuten las principales
ventajas e inconvenientes de cada uno de ellos y se ofrecen criterios para
su aplicación.
Posteriormente, se abordan las medidas de posición, las cuales son
útiles para informar sobre la posición relativa en la que se encuentra un
sujeto con respecto al conjunto al que pertenece, a partir de su puntuaci ón en la variable. Se describen los tres índices de posición más utilizados
en la práctica: los percentiles, los cuartiles y los deciles.
Objetivos del tema :
■
Conocer las características de las principales medidas de tendencia
central (media aritmética, mediana y moda) y de posición (percentiles, cuartiles y deciles).
■
Saber aplicar y calcular los índices estadísticos de tendencia central y de posición.
■
Seleccionar los índices de tendencia central y de posición adecua dos en cada caso .
■
Interpretar correctamente los valores obtenidos mediante los estadísticos de tendencia central y de posición.
49
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
2.2. ÍNDICES DE TENDENCIA CENTRAL
En el análisis descriptivo de la distribución de frecuencias de una variable, es habitual que el número de observaciones sea grande y que nos
planteemos resumi r, mediante valores numéricos, las principales propiedades de esa distribución . En lo que respecta a la tendencia cent ral
de la distribución, nos interesa calcular un valor central que actúe como
resumen numé rico para rep resentar al conj unto de datos. Estos valo res
centrales de la varia ble se denom ina n m edidas, índices o estadísticos de
t endencia centra l. Estos estad íst icos per m it en re prese nt ar t oda la dist ribuci ón de frecue ncia s con un único valo r y, ad emás, facilita n la com paración
de diferentes conj untos de puntuaciones de una variable. Por ejem pl o, si
medimos el nivel de autoestima en una muestra de 200 niñ os (1 00 niños
y 100 niñas) , además de estudiar la tendencia central en niños y niñas de
form a conjunta, los ín dices de tendencia central posibilitan la comparación
de niñ os y niñas en su grado de autoestima. Así, podemos averiguar si el
nivel medio de autoestima es mayor en los niños que en la s niñas, o viceversa. Trabajando directamente con las 200 observaciones iniciales, no
podríamos, de forma eficiente, ni describir la tendencia central de niños y
niñas, ni comparar las distribuciones de ambos en su grado de autoestima.
A continuación se van a describir las tres medidas de tendencia central,
representativas de la distribución, más utilizadas en el análisis de datos:
la media aritmética, la mediana y la moda.
2.2.1. Media aritmética
La media aritmética , también llamada promedio o simplemente media, es el estadístico de tendencia central más conocido y usado en la
práctica. Esto se debe, básicamente, a la sencillez de su cálculo y a que
es el fundamento de un gran número de técnicas estadísticas.
La media aritmética indica la tendencia general de una distribución
de frecuencias de una variable y es el valor central alrededor del cual
están la mayoría de las observaciones. De hecho, desde una perspectiva
geométrica, la media aritmética se puede interpretar como el «centro de
gravedad » de la distribución de frecuencias (Amón, 1999) . Por otro lado,
a diferencia de otros índices de tendencia central, sólo puede calcularse
para variables cuantitativas (nivel de medida de inte rvalo o de razón).
so
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
La media aritmética de una variable X, denotada por X, se define
co mo la suma de todos los valores observados de la variable divididos
por el número total de observaciones. Se expresa matemáticamente de
la siguiente manera:
X =
xl + X 2 + ... + Xn = ¿X¡
n
(2 .1)
n
donde:
X¡ es el valor que toma la variable en el sujeto i
n es el número total de observaciones
Ejemplo 2.1. ¿cuál es la media en ansiedad ante los exámenes de
los cinco prim eros alumnos de la Tabla 1.2 del Tema 1? En la t abla se
muestran sus puntuacion es.
Alumno
,Ar,siedad ( X),
1
2
5
13
3
4
4
15
5
3
La media aritmética de estas observaciones es:
X = ¿ X¡
5
=
5 + 13 + 4 + 15 + 3
5
=
40
5
=
S
Por lo general, el número de observaciones es mucho mayor que en
el Ejemplo 2.1. Por ese motivo, es usual que los datos se presenten en
tablas de distribución de frecuenci as agrupados o no en intervalos. En
este caso, la media aritmética se puede calcular a partir de las frecuencias
absolutas (n¡) o de las frecu encia s relativas o proporciones (p¡).
51
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Cálculo de la media en tablas de distribución de frecuencias
Media aritmética a partir de una distribución de frecuencias
absolutas:
"n,.x,.
~
-X = "n.X.
~ I I
¿n;
(2.2)
n
donde:
n es el número total de observaciones
X; es el valor í en la variable X o el punto medio del intervalo
n; es la frecuencia absoluta del valor o intervalo í
Esta es la expresión general de la media a partir de las frecuencias absolutas. La fórmula anterior, definida para pocas observaciones, no es más
que un caso particular en el que las frecuencias absolutas de cada valor
es igual a uno. En efecto, sin;= 1 para todos los valores de X, entonces:
X = ¿n;X;
n
¿1- X;
n
¿X;
n
Como se puede observar, es la fórmula definida previamente.
Media aritmética a partir de una distribución de frecuencias
relativas:
(2.3)
donde:
P; es la frecuencia relativa o proporción de observaciones
Como es de esperar, con una u otra fórmula se obtiene el mismo re sultado para la media. Su cálculo se ilustra con los siguientes ejemplos .
52
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
Ejemplo 2.2. En la tabla adjunta se muestra la distribución de frecuencias de las calificaciones en el examen de lengua de la PAU de
la Tabla 1.2 del Tema l. Calcule la media utilizando las frecuencias
absolutas y las relativas.
Nota (XJ
1
2
3
4
5
6
7
8
n,
n1X 1
1
1
2
3
32
25
42
56
56
1
10
1
8
5
7
8
7
1
1
I
40
9
9
10
236
En la tabla aparecen las frecuencias absolutas en la columna 2. Se
añade el producto de cada puntuación por su frecuencia absoluta en
la columna 3.
Si se aplica la fórmula de la media para las frecuencias absolutas, se
obtiene el siguiente resultado:
-
¿n;X; 236
X = ~-= = 59
n
40
'
Para aplicar la segunda fórmula se deben obtener las frecuencias relativas de cada puntuación:
53
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Nota (XJ
,:,,
p 1 = n1/n
1
2
3
4
6
7
8
9
10
1
1
1
8
5
7
8
7
1
1
0,025
0,025
0,025
0,2
0,125
0,175
0,2
0,175
0,025
0,025
0,025
0,05
0,075
0,800
0,625
1,05
1,400
1,400
0,225
0,250
L
40
1
5,9
5
X = ¿P¡X¡ = 5,9
Se comprueba que con ambas fórmulas se obtiene el mismo valor
para la media aritmética.
En el caso de una distribución de frecuencias agrupadas en intervalos
se calcula igual, teniendo en cuenta que los valores de X de la fórmula (X¡)
serán los puntos medios de cada intervalo.
Ejemplo 2.3. En las dos tablas adjuntas se muestran las puntuaciones
agrupadas en intervalos de la variable ansiedad antes los exámenes
para cada uno de los dos grupos de la Tabla 1.2 del Tema 1. Calcule la
media en cada grupo utilizando las frecuencias absolutas y las relativas.
Grupo 1
X
1 6 11 16 21 26 -
L
54
5
10
15
20
25
30
Grupo 2
X;
n,
P;
3
8
13
5
4
6
3
1
1
0,25
0,2
0,3
0,15
0,05
0,05
20
1
18
23
28
~
16 11 16 21 26 -
L
5
10
15
20
25
30
X;
n;
P1
3
8
8
8
2
1
1
0,4
0,4
0,1
0,05
0,05
o
o
20
1
13
18
23
28
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
El grupo 1 lo constituyen los participantes que no han recibido el tratamiento y su media se calcula de la siguiente manera:
Con frecuencias absolutas :
X = ¿n¡X¡ = 5 x 3 + 4 x 8 + 6 x l3 + 3 x 18 + 1 x 23 + 1 x 28 = 230 = l l
5
n
5 + 4 + 6 + 3 + 1+ 1
20
'
Con f recuenci as re lativas :
X = ¿ P;X¡ =
o, 25 x 3 + o, 2 x 8 + o, 3 x 13 + o, 15 x 18 + o, 05 x
x23 + 0, 05 X 28 = 11, 5
El grupo 2 est á fo rma do po r los partici pan t es que han reci bido el t rat am ient o y su media es:
Con frecuencias absol utas:
X = ¿n¡X¡ = 8 x 3 + 8 x 8 + 2 x 13 + l x l8 + l x 23 + 0 x 28 = 155 =
7 75
n
8 +8 + 2 + 1+1+O
20
'
Con frecuencias relativas:
X = ¿ P;X¡ =
o, 4 x 3 + o, 4 x 8 + o, 1 x 13 + o, 05 x 18 + o, 05 x
x23 + 0 x 28 = 7,75
Tal y como se esperaba, la media en ansiedad ante los exámenes
en el grupo que recibió el tratamiento (grupo 2) es menor que en el
grupo que no recibió el tratamiento (grupo 1). Este resultado podría
ser un indicio de la posible eficacia del programa de intervención para
reducir la ansiedad de los alumnos ante los exámenes.
En estos ejemplos se ha calculado la media a partir de las frecuencias
absolutas y las relativas. Sin embargo, con las frecuencias absolutas acumuladas (ne) no se puede calcular la media . Si se tiene una distribución de
frecuencias en las que sólo se dispone de las frecuencias absolutas acu muladas (n 0 ) y no de las frecuencias absolutas (n¡), es necesario obtener
las frecuencias absolutas a partir de la s frecuencias absolutas acumuladas
para, a continuación, calcular la media.
55
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Por otra parte, como se ha podido observar, la media aritmética aprovecha toda la información disponible en los datos, ya que para su cálculo
es necesario utilizar todas las puntuaciones de los participantes. Como se
verá posteriormente, esto no ocurre con otros estadísticos.
Propiedades de la media aritmética
La media aritmética presenta una serie de propiedades matemáticas,
de las que podemos destacar las siguientes:
1. En una distribución, la suma de las desviaciones de cada valor con res pecto a su media es igual a cero. Matemáticamente se expresa como:
En efecto, se demuestra que:
n
¿(X;
i =l
n
- X) =¿X; i =l
n
¿X = nX - nX = O
i= l
Esta propiedad se puede comprobar con los datos del Ejemplo 2.1 en
el que la media es igual a X = 8, n = 5, y el sumatorio de las desviaciones
se obtiene de la siguiente manera:
5
¿ (X; i =l
X) = (5 - 8) + (13 - 8) + ( 4 - 8) + ( 15 - 8) + ( 3 - 8) =
= (- 3) + 5 + (- 4) + 7 + (- 5) = O
Por otro lado, si se dispone de un número mayor de observaciones en
el que se repiten valores, y éstos se presentan mediante una distribución
de frecuencias agrupados o no en intervalos, la expresión que debemos
utilizar para comprobar la propiedad es la siguiente:
n
¿ n; ( X; -
X) = O
i =l
De esta forma hay que tener en cuenta la frecuencia absoluta de cada
valor (n¡), es decir, el número de veces que aparece cada puntuación o
intervalo. En el ejemplo 2.3 anterior, para el grupo 1 se tiene la siguiente
distribución con media igual a X = 11, 5:
56
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
,!, ¡¡;
'X
I
1- 5
6 - 10
11 - 15
16 - 20
21 - 25
26 - 30
I:
x ~'tl:1J! l1
3
8
13
18
23
28
'
n;
X; - X
5
4
6
3
1
1
-8,5
-3,5
1,5
6,5
11,5
16,5
20
:~:>te
o
n; ( X;
J..
X)'
-42,5
-14
9
19,5
11,5
16,5
o
Como se puede apreciar, el número de observaciones es de 20 (n =
20). Para obtener el sumatorio debemos restar cada punto medio de los
intervalos de la distribución ( columna 2) a la media de la distribución
(columna 4) y, a continuación, multiplicar esa diferencia por la frecuencia
absoluta de cada intervalo (columna 3), obteniendo los valores de la columna 5. Podemos comprobar que la suma de esa última columna es el
n
sum atorio
¿ n; ( X; -
X), que es igual a cero como establece la propiedad.
i=l
En cambio, si erróneamente no tenemos en cuenta la frecuencia absoluta
n
de cada intervalo y sumamos los valores de la columna 4
resultad o es igual a 24, distinto de cero.
(¿ (X; 1
x)),
el
=1
2. Si a cada puntuación X; de la variable X le sumamos una constante
a (elegida arbitrariamente), la media de las nuevas puntuaciones es
igual a la media de X más la constante. En términos matemáticos: si
Y¡ = X; + a, entonces Y = X+ a. Esto implica que, cuando se suma una
constante cualquiera (a) a las puntuaciones de una distribución (X;), la
media de esa distribución (X) se ve afectada, y para obtener la nueva
media (Y) también se debe sumar esa constante a la media original
(Y = X + a).
3. Si cada puntuación X; de la variable X se multiplica por una constante
b (elegida arbitrariamente), la media de las nuevas puntuaciones es
igual a la media de X multiplicada por la constante. En términos matemáticos: si Y; = b • X;, entonces Y = b • X. En otras palabras, podríamos
decir que cuando multiplicamos una constante cualquiera (b) por cada
una de las puntuaciones de una distribución (X;), la media de esa distribución (X) se ve afectada y para obtener la nueva media (Y) también
debemos multiplicar esa constante a la media original (Y = b . X) .
57
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Veamos la aplicación de estas dos últimas propiedades a los datos del
Ejemplo 2.1. Si se multiplican las puntuaciones en ansiedad por 10 (b =
10) y luego se le suma 5 (a = 5) y se obtiene la variable Y= lOX + 5.
Alumno
Ansiedad (X)
1
5
13
4
15
3
2
3
4
5
Ansiedad (Y)
= lQ X 5
Y2 = 10 x 13
Y3 = 10 x 4
Y4 = 10 x 15
Y5 = 10 X 3
yl
+
+
+
+
+
5
5
5
5
5
= 55
= 135
= 45
= 155
= 35
La variable Y sigue siendo una puntuación en ansiedad, pero en una
nueva escala. La media de Y calculada a partir de las puntuaciones es:
5
¿Y;
y =i = l
5
= 55 + 135 + 45 + 155 + 35 = 425 = 85
5
5
Si aplicamos la propiedad de la media, podemos obtener la media de
Y directamente con:
Y = bX +a = 10 x 8 + 5 = 85
Como se puede apreciar, esta propiedad nos permite conocer directamente la media de la nueva variable Y, utilizando las mismas operaciones
matemáticas que se han aplicado a las puntuaciones de X, pero en este
caso a la media de la variable original, X. Es decir, no es necesario calcular una a una cada Y; para conocer la media de la nueva variable Y. En
Psicología se utiliza con frecuencia este tipo de transformaciones de puntuaciones en la presentación de resultados para evitar valores negativos
y decimales en las variables de interés.
4. La media de J muestras o media ponderada:
Hasta ahora se ha hablado de la media de una variable en una muestra
con n casos u observaciones. Sin embargo, en ocasiones se cuenta con
la media de varios grupos en una variable e interesa conocer la media de
todas las observaciones juntas. Para ello, supongamos que disponemos
58
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
de las puntuaciones en la variable X en J muestras distintas o grupos con
n 1 , n 2 , ... ,n1 observaciones y con medias X1,X 2, ... ,X1, respectivamente.
La media total de los J grupos, que incluye las puntuaciones de todas las
mu estras, es igual a:
-X _ n1 · X 1 + n2 · X 2 + ... + n1 · X 1
p n1 + n2 + ... + n1
n1 · X 1 + n2 • X 2 + ... + n1 • X 1
(2.4)
n
En el numerador aparece la media de cada grupo o muestra multiplica da por el número de observaciones de dicho grupo, mientras que en el
denominador figura la suma del número de observaciones de los J gru pos, que es igual al número de observaciones total (n). Como se puede
apreciar, la media de los J grupos no es más que una ponderación de las
medias de cada grupo en base al número de observaciones de dicho grupo (n 1 ). Es decir, la media de cada grupo tiene un peso en la media total
que está en función del tamaño de la muestra o número de casos de cada
grupo. Po r ese motivo, a la media total (la media de todas las puntuaciones ) se le denomina media ponderada (X p).
Un aspecto relevante que refleja esta propiedad, y por ende el con cepto de media ponderada, es que no podemos calcular la media de una
variable medida en distintos grupos como, simplemente, la media de las
medias de los grupos. Es necesario tener en cuenta el peso de la media de
cada grupo a través del número de casos de cada grupo (n1 . X 1).
En el caso particular en el que todos los grupos presentan el mismo
número de observaciones (k), es decir, n 1 = n 2 = . . . = n1 = k, la fórmula
de la media ponderada se simplifica y es igual a :
X = X1 +X 2 + ... + X1
J
donde J es el número de grupos o muestras. En este situación en la que
los J grupos tienen el mismo número de observaciones (k), la media total
sí se corresponde con la media de las medias de los grupos. Cuando los
grupos difieren en el número de casos es necesari o aplicar la fórmula de
la media ponderada general descrita previ amente.
59
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Veamos la aplicación de esta propiedad con un ejemplo:
En la tabla se muestran el número de casos (n¡) y las medias de la va riable calificación en examen de lengua de la PAU (X J) en función del tipo
de Bachillerato cursado por los alumnos de la Tabla 1.2. En este caso hay
tres grupos (cada tipo de bachillerato) y la media en lengua de la PAU en
cada uno de ellos. Calculemos la media total en la nota de lengua de la
PAU a partir de estos datos.
Tipo de Bachillerato
Ciencias
Humanidades y ce Sociales
n;
XJ
13
6,15
5 ,71
6 ,0
Artes
21
6
¿;
40
La media total, de las 40 observaciones, se obtiene aplicando la fórmu la de la media ponderada:
Xp
_ n1 · X 1 + n2 · X 2 + n3 · X 3
-
n1 + n2 + n3
235186
= 5 8965
40
'
;::e;
13 X 6, 15 + 21 X 5, 71 + 6
13 + 21 + 6
X
6
5 90
'
Como era de esperar, el valor de la media ponderada es el mismo que
cuando se calcula la media directamente en las 40 puntuaciones, resultado que el alumno puede verificar consultando el Ejemplo 2.2 de este capítulo . Como en este caso los tres grupos no presentan el mismo número
de observaciones, no es posible obtener la media total a partir de la media
de las medias sin tener en cuenta el n de cada grupo.
Por otra parte, la media ponderada también se utiliza para obtener la
media global en una puntuación que se basa en distintas pruebas a las
que se les ha otorgado pesos diferentes, en función de su importancia en
la puntuación final. Por ejemplo, supongamos que a las prácticas realizadas en una asignatura se le ha otorgado un peso del 60%, y al examen un
peso del 40% en la calificación final. Si la media de las prácticas es igual
a 6 y en el examen es de 5, la nota media final en esta asignatura se obtiene mediante la fórmula de la media ponderada de la siguiente manera :
60
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
X
_ Pi · Xi + P2 · X2
Pi + P2
= 60 x 6 + 40 x 5 = S 6
100
P -
'
donde p 1 y p 2 son los pesos asignados a las prácticas y al examen, res pectivamente.
Li mitaciones de la media aritmética
A la hora de utilizar la media como medida representativa de la ten dencia central de la distribución, conviene tener en cuenta las siguientes
li mitaciones :
a) Cuando los datos están agrupados en intervalos, la media no se
puede calcular si el intervalo máximo no tiene límite superior y/o el
intervalo mínimo no tiene límite inferior. Por ejemplo, en la siguiente
distribución de frecuencias:
10
15
20
25
X
X;
n,
-
12
17
22
6
12
14
19
24
29
X ?: 30
I:
27
?
2
8
7
35
el intervalo máximo (X~ 30) no tiene límite superior, por lo que
no podemos determinar el punto medio de ese intervalo, necesario
para el cálculo de la media aritmética.
b) La media es sensible a la existencia de unas pocas observaciones
con valores extremos en la distribución de frecuencias. Esta circunstancia se da en distribuciones marcadamente asimétricas, por
lo que no es recomendable la utilización de la media en este tipo
de distribuciones debido a que afecta a su representatividad como
valor central de la distribución. Estos valores extremos pueden ser
bien producto de errores en la recogida o grabación de los datos,
o bien valores que aportan información relevante de la variable . En
el primer caso, se eliminan estas observaciones y la distribución se
vuelve más simétrica, por lo que podría calcularse la media arit-
61
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
mética. En el segundo caso, se recomienda aplicar otros índices de
tendencia central menos sensibles a los valores extremos como la
mediana, que se tratará en el siguiente epígrafe.
2.2.2. La mediana
Tal y como se ha mencionado en el apartado anterior, cuando la distribución es asimétrica una buena alternativa a la media aritmética para
resumir la tendencia central de las puntuaciones es la mediana. A diferencia de la media, la mediana no se ve afectada por los valores extremos
que pueda adoptar la variable debido a que en su cálculo no intervienen
todos los valores de la distribución sino únicamente los que ocupan las
posiciones centrales. Por tanto, en distribuciones asimétricas, la mediana
es un valor más apropiado para representar la tendencia central de la
distribución. Por otro lado, la mediana se puede obtener en todo tipo de
variables, excepto en variables cualitativas. Asimismo, conviene señalar
que el valor de la mediana no tiene por qué coincidir con un valor real de
la variable (especialmente en variables cuantitativas discretas). Se trata
de un valor que cuantifica la tendencia central de la distribución y que se
ajusta a la siguiente definición:
La mediana de una variable X, representada por Md, se define como
el valor que divide la distribución de frecuencias de la variable en dos
partes iguales, conteniendo cada una el 50% de las observaciones.
Supongamos que hemos obtenido la puntuación de n participantes en
una variable. Para el cálculo de la mediana con pocos casos se procede de
la siguiente manera:
1. En primer lugar, se ordenan las n puntuaciones de menor a mayor.
2. En segundo lugar, se observa si el número de observaciones n es
impar o par.
■
62
Si n es impar, el valor de la mediana es el de la observación que
ocupa la posición central, dentro de ese conjunto de observaciones ya ordenadas. Esa posición central coincide con la posición
(n+l)/2.
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
■
Sin embargo, si el número de observaciones n es par, la mediana
es la media aritmética de los dos valores centrales de la distribución. Los dos valores centrales son los que ocupan las posiciones
n/2 y (n/2)+ l. Por lo tanto, la mediana es igual a:
Md
= X n/2 + X (n/ 2)+1
(2.5)
2
donde Xn 12 es el valor de la variable en la posición n/2 y X (n/ 2 )+l es el
valor en la posición (n/2)+1.
A continuación se presenta un ejemplo de cada caso.
Ejemplo 2.4. Cálculo de la mediana con n impar.
Calcule la mediana en los datos del Ejemplo 2.1.
Alumno
Ansiedad (X)
1
5
2
13
3
4
5
4
15
3
En primer lugar se ordenan las puntuaciones de los alumnos en an siedad de menor a mayor valor:
X:
3
4
0
13
15
En segundo lugar, dado que n = 5 es un número impar, la mediana
es el valor o puntuación que ocupa la posición central (n + 1)/2 =
(5+1)/2 = 3 (la 3ª posición), en esa secuencia ordenada de observa ciones. Por lo tanto, Md = 5.
63
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 2.5. Cálculo de la mediana con n par.
Calcule la mediana para los 8 primeros alumnos de la Tabla 1.2 del
Tema 1, en la variable número de horas de estudio semanales que
figuran en la siguiente tabla:
Alumno
Horas de estudio semanales (XJ
1
2
11
7
16
5
14
3
4
5
6
10
12
7
8
10
En primer lugar, ordenamos las puntuaciones de menor a mayor:
X:
5
7
10
j
10
11
j
12
14
16
En segundo lugar, dado que n = 8 es un número par, la mediana es la
media aritmética de los dos valores centrales de la distribución, que
son las posiciones 4ª (n/2 = 8/2 = 4) y 5ª ( (n/2)+ 1 = (8/2)+ 1 = 5):
Md = lO + l1 = 10,5
2
Como ocurría con la media aritmética, lo normal es que el número de
observaciones no sea tan pequeño, que aparezcan valores de observaciones repetidos y, que por ello, los datos se presenten en tablas de distribución de frecuencias agrupados o no en intervalos. En este caso, el intervalo en el que se encuentra la mediana se denomina intervalo crítico y
se corresponde con aquél en el que la frecuencia absoluta acumulada n0
!2 o
la proporción acumulada (p 0 ) es igual o mayor a
2
0,50. La mediana se obtiene con la siguiente fórmula:
es igual o superior a
64
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
-
Md
= L;
+
[
- nd
n2 ne ] · I
(2.6)
donde:
= Límite inferior exacto del intervalo crítico
n = Número de observaciones
nd = Frecuencia absoluta acumulada por debajo
L;
del intervalo crítico
ne = Frecuencia absoluta del intervalo crítico
I
= Amplitud
del intervalo crítico
Ejemplo 2.6. En la tabla se muestran las puntuaciones agrupadas
en intervalos de la variable ansiedad ante los exámenes de los 40
alumnos de la Tabla 1.2 del Tema l. ¿cuál es la mediana de esta
distribución?
X
26
21
16
11
6
1
-
:E
30
25
20
15
10
5
X¡
n;
na
28
23
18
13
8
3
1
2
4
8
12
13
40
39
37
33
25
13
40
Para calcular la frecuencia acumulada (n 0 ) hay que empezar siempre
desde el valor más bajo de la variable hasta el más alto, porque se define como el número de veces que se repite cada valor o cualquiera de
los valores inferiores . Siempre que se tenga en cuenta acumular desde el valor más bajo de la variable hasta el valor más alto se hará de
manera correcta, con independencia de cómo esté ordenada la tabla.
Una vez obtenidas las frecuencias acumuladas, se calcula el intervalo crítico, que es el primer intervalo (empeza ndo por el intervalo
65
INTRODUCCIÓN AL ANÁLISIS DE DATOS: A PLI CACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
de valores de X más pequeño) cuya frecuencia acumulada sea igual
o mayor a 5-"' es decir, al 50% de
n. Por tanto, puesto que n
= 40,
tenemos que 5-" = ~O = 20. Ahora se busca, empezando desde abajo,
el intervalo cuya frecuencia acumulada contenga el valor 20 o lo supere. Para ello, hay que fijarse en las nª de la última columna de la
tabla. El valor 25 es la primera frecuencia acumulada mayor o igual a
20, por lo que el intervalo crítico es el intervalo [6-10].
Una vez averiguado el intervalo crítico se aplica la fórmula de la mediana:
-
- nd
2
Md = L¡ + n ne
[
: ·I
L¡ es el límite inferior exacto del intervalo crítico. El límite inferior
aparente es 6, por lo que el exacto es 6 - 0,5 = 5,5.
n es el número de participantes que es igual a 40.
nd es la frecuencia acumulada por debajo del intervalo crítico, por
tanto, la frecuencia acumulada del intervalo anterior, que es igual
a 13.
ne es la frecuencia absoluta del intervalo crítico, que es igual a 12.
I es la amplitud del intervalo, I = 10,5 - 5,5 = 5.
Sustituyendo, tenemos que:
= 5,5+2,9167 = 8,4167
~
8,42
El origen de la fórmula planteada se basa en el método de interpolación, en el que se asume la distribución homogénea de las puntuaciones
dentro de cada intervalo . Su estudio nos ayuda a entender el concepto y
66
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
la lógica que subyace a la fórmula que utilizamos para su cálculo. Veamos
cóm o se puede calcular directamente la mediana con este método utilizando los datos del Ejemplo 2.6. Se sabe que el número de observaciones
es n = 40 y que, por lo tanto, la mediana es el valor que deja por debajo
de sí a 20 casos. Se ha identificado el intervalo crítico en [6 - 10] y el
número de puntuaciones acumuladas hasta el límite superior del intervalo anterior al crítico [1- 5] es de n0 = 13. Por tanto, faltan 20 - 13 = 7
observaciones para llegar al 50% en el que se encuentra la mediana (ver
Fi gura 2.1).
X
26
21
16
11
10,5
-
-
30
25
20
15
X¡
n;
na
28
23
18
13
1
2
4
8
40
39
37
33
~
5
6 - 10
X
5,5
7
-
*
*
*
*
*
*
*
*
*
*
*
*
Median 9
= 5,5 + X
~
1-5
3
13
13
40
Figura 2.1. Representación del cálculo de la Mediana para los datos del Ejemplo 2.6.
Si asumimos que las puntuaciones se reparten a lo largo de cada intervalo de forma homogénea, entonces podemos afirmar que las 12 observaciones del intervalo crítico (n; = 12), se distribuyen homogéneamente
en una amplitud de 5 unidades (J = 5). Por lo tanto, si 12 observaciones
se reparten en una amplitud de 5, ¿qué amplitud o unidades dentro del
67
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
intervalo crítico ocuparán las 7 observaciones que faltan para llegar al
50%? Por una regla de tres:
12 observaciones ➔ 5 unidades de X }
7 observaciones ➔ x unidades de X
7x5
⇒ X = --
= 2, 916666667
s:::
2, 92
12
Estas 2,92 unidades debemos sumarlas al límite inferior del intervalo
crítico, obteniendo el mismo resultado que con la fórmula:
Md
=
5, 5 + 2, 92
=
8, 42
Por otra parte, cuando se trata de una distribución de frecuencias pero
los datos no están agrupados en intervalos, el cálculo de la mediana es
un caso particular de la fórmula anterior en la que la amplitud de los intervalos es igual a uno (I = 1) y los límites exactos de dicho intervalo se
obtienen sumando y restando 0,5 unidades a cada valor de la variable.
Ejemplo 2.7. Calcúlese la mediana en la distribución de frecuencias
del Ejemplo 2.2.
Nota '(X1)
na
1
2
3
4
5
6
7
9
10
1
1
1
8
5
7
8
7
1
1
í:
40
8
Como se puede apreciar,
"i
=
:o
=
1
2
3
11
16
23
31
38
39
40
20. Empezando desde los valores
inferiores de X, el valor de X cuya frecuencia acumulada (nª) contiene
el valor 20 o lo supere es el X = 6, con una nª = 23. Por lo tanto, el
intervalo crítico es el intervalo unitario [5,5 - 6,5], con nª = 23, ne =
7 y nd = 16. Aplicando la fórmula:
68
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
-- nd
2 ne
Md = L; + n
[
l [
11
- - 16
2
• I = 5, 5 + 40
= 5,5 + 0,571 = 6,071
a::
]
7
x
1 = 5, 5 + (;) x 1 =
6,07
La mediana se puede calcular en cualquier distribución de frecuencias de
variables, excepto cuando se trata de una variable cualitativa o de una variable agrupada en intervalos en la que existe un intervalo abierto y éste es
el intervalo crítico en el que se encuentra la mediana. El motivo de no poder
obtener la mediana en este último caso es que necesitamos conocer la amplitud del intervalo crítico, valor que se desconoce si el intervalo es abierto.
Ejemplo 2.8. Calcule la mediana con los datos de las Tablas 2.1 y 2.2.
Tabla 2.1.
1
Tabla2.2.
X
x,
X~ 30
·7
<'...
25
20
15
10
-
29
24
19
14
27
22
17
12
I
l'Í¡
na
X
x,
14
18
29
20
9
90
76
58
29
9
X~68
·7
<'...
61
54
47
40
-
67
60
53
46
64
57
50
43
I
90
n;
na
35
9
8
6
2
60
25
16
8
2
60
En la distribución de frecuencias de la izquierda (Tabla 2.1),
!2 =
2
90
2
=
= 45 por lo que el intervalo crítico es [20 - 24] con n0 = 58. En este
caso, como el intervalo crítico no es el intervalo abierto, se puede
calcular la mediana que es igual a:
-- nd
2 ne
Md = L; + n
[
-
2
] • I = 19, 5 + [ 90
- 29
29
] x5
= 22, 26
69
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
~=
°
6
= 30, por
2
lo que el intervalo crítico es el intervalo superior que está abierto
(X~ 68) y, por tanto, no se puede calcular la mediana.
Sin embargo, en la distribución de la Tabla 2.2,
2.2.3. La moda
Un tercer estadístico de tendencia central que se puede obtener, tanto
en variables cualitativas como en cuantitativas, es la moda.
La moda de una distribución, que se representa por Mo, se define
como el valor o categoría de la variable con mayor frecuencia absoluta.
Cuando en una variable existe un único valor con la frecuencia absoluta máxima, la distribución presenta una única moda y es unimodal.
Sin embargo, la distribución de una variable no tiene por qué tener una
única moda. De hecho, si son dos los valores con la frecuencia más alta
la distribución es bimodal, si son tres los valores sería trimodal, ... En la
Figura 2.2, la distribución de arriba es unimodal y la moda es el valor X 3 ,
mientras que la de abajo es bimodal, siendo las dos modas los valores X 2
y X 3 • También puede ocurrir que una distribución no tenga moda, lo que
se denomina distribución amodal. Esto sucede cuando todos los valores
tienen la misma frecuencia absoluta; en este caso no se puede calcular
la moda.
70
ÍND ICES DE TENDENCIA CENTRAL Y DE POSICIÓN
n¡ 18
16
14
12
10
8
6
4
2
o
X
n¡ 16
14
12
10
8
6
4
2
o
X
Figura 2.2. Distribución de frecuencias unimodal (arriba) y bimodal (abajo).
Cálculo de la moda según el tipo de variable:
En el caso de una distribución de una variable cualitativa, la moda es
la categoría con la máxima frecuencia.
Ejemplo 2.9. En la tabla adjunta se muestra la distribución de frecuencias del tipo de Bachillerato de la Tabla 1.2 del Tema l.
¡¡!'
'l
Tipo
'
de Bachillerato
Ciencias
13
Humanidades y CC Social es
21
Artes
6
71
INTROOUCCION AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
En esta variable, la categoría con mayor frecuencia absoluta es Humanidades y Ciencias Sociales con n¡ = 21. Por lo tanto, esa categoría es
la moda de esta distribución.
1
En una distribución de una variable cuantitativa con los datos no agrupados en intervalos, la moda es el valor con la mayor frecuencia absoluta.
Ejemplo 2.10. En la tabla se muestra la distribución de frecuencias
de los alumnos que han aprobado el examen de lengua de la PAU de
la Tabla 1.2 del Tema l.
Nota (X1J
n,
5
10
5
7
8
7
1
1
r
29
6
7
8
9
La mayor frecuencia absoluta se observa en la calificación de X= 7
con n¡ = 8. Por lo tanto, la moda es el valor de la variable X= 7, es
decir, Mo = 7. Sin embargo, si tuviésemos en cuenta todas las calificaciones en la PAU como en el Ejemplo 2.2, no habría una única
moda. Hay dos calificaciones: X= 4 y X= 7 que muestran la máxima
frecuencia absoluta (n¡= 8). En ese caso estaríamos ante una distribución bimodal.
Finalmente, si se trata de una distribución de una variable cuantitativa
con los datos agrupados en intervalos, se localiza el intervalo modal (que
es el intervalo con la frecuencia máxima) y la moda es el punto medio de
dicho intervalo.
72
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
Ejemplo 2.11. ¿cuál es la moda en la distribución de frecuencias del
Ejemplo 2.6?
x,
X
26 21 16 11 6 1-
¿
30
25
20
15
10
5
28
23
18
13
8
3
'
,n¡
1
2
4
8
12
13
40
El intervalo con la frecuencia más alta es el intervalo [1, 5] con
n; = 13, por lo que el intervalo modal es [1, 5] y la moda es su punto
medio, Mo = 3.
Por último, completando lo dicho hasta aquí, las principales características de la moda son las siguientes:
a) Es un índice de cálculo sencillo y de fácil interpretación.
b) De los tres índices de tendencia central estudiados, la moda es el
único que, además de aplicarse a variables cuantitativas, se puede
calcular en variables cualitativas.
c) Cuando los datos están agrupados en intervalos y existen intervalos
abiertos, la moda se puede calcular, excepto si el intervalo modal
coincide con el intervalo abierto. Si nos fijamos en las Tablas 2.1 y
2.2 del Ejemplo 2.8, la moda se puede calcular en el primer caso
y su valor es Mo = 22, mientras que no es posible calcularla en el
segundo caso debido a que el intervalo modal (el intervalo superior)
está abierto y no conocemos su punto medio.
2.2.4. Elección de un índice de tendencia central
Cuando se ha medido una variable en una muestra den observaciones,
y se desea seleccionar un valor que resuma adecuadamente la tendencia
73
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
central de la distribución de frecuencias, la primera pregunta a plantearse es: ¿qué medida de tendencia central se debe utilizar? Como primera
opción se recomienda la media aritmética, porque en ella están basadas
un gran número de técnicas estadísticas de gran importancia y de uso
frecuente que se estudiarán posteriormente. Únicamente se desaconseja
su utilización cuando la distribución es asimétrica, con unos pocos valores extremos que pueden dist orsionar la representatividad de la media
como tendencia central de la distribución . Para entende r mejor este punt o, veamos un ejemplo se ncillo con las puntuaciones en ansieda d ante
los exámenes que figuran en los Ej emplos 2.1 y 2.4. Las puntuaciones
ordenadas son: 3, 4, 5, 13, 15. En estos datos la media es 8 y la mediana
es igual a 5. Si ahora sustit uimos el valor más alto (X= 15) por un va lor
extre mo, po r ej emplo X= 74, las pu nt ua cion es ordenada s serían: 3, 4, 5,
13, 74 . Ahora la medi a au menta mu cho su valo r y es igual a 19,8, pero
la mediana no se ve afe ct ada por este valor extremo y sigue si endo ig ual
a 5. En est e caso, la med ia ya no sería un índice represent ati vo adecu ado
de los datos, mi en tras que la medi ana sigue resumi endo apropiad amente
la tendenci a central de la s puntua ciones.
Por otra parte, la media es un índice que no tiene sentido calcular,
tanto en el caso en el que el nivel de medida de la variable sea nominal u
ordinal, o cuando los datos estén agrupad os y existan intervalos abiertos
en los extremos de la distribución.
Cuando la media no se pueda aplicar (o no sea recomendable su utilización), la siguiente opción disponible es la mediana. Como se ha señalado previamente, la mediana es más resistente a los valores extremos
que generan asimetría en la distribución (como en el ejemplo anterior),
se puede obtener en variables con nivel de medida ordinal, y, además, se
puede calcular en distribuciones con datos agrupados en intervalos con
intervalos abiertos. Sin embargo, en ocasiones no se puede obtener la
mediana. Esto puede ocurrir por dos motivos: 1) el nivel de medida de la
variable es nominal o 2) con datos agrupados en intervalos, la mediana
se encuentra en el intervalo abierto. En esa situación, la única alternativa
posible es utilizar la moda. Por otro lado, como ya sabemos, la moda no
se puede calcular cuando la distribución sea amodal (no tiene moda) o el
intervalo abierto coincide con el intervalo modal.
Hoy en día, con el uso de programas informáticos para el análisis estadístico de los datos, se recomienda, siempre y cuando sea pertinente,
el cálculo de los tres índices para el estudio de la tendencia central de
74
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
la distribución. Cuando las variables son cualitativas únicamente puede
uti lizarse la moda como medida de tendencia central. Sin embargo, en el
caso de variables con nivel de medida ordinal, se pueden obtener tanto la
moda como la mediana. Por último, si la variable es cuantitativa se pueden calcular los tres índices de tendencia central, lo que implica disponer
de mayor información para estudiar esta propiedad de las distribuciones.
Es interesante resaltar que cuando la distribución de una variable
cuantitativa es simétrica y unimodal, coinciden los valores de la media,
mediana y moda. Un ejemplo se puede apreciar en la Figura 2.3, en la
que se muestra la distribución de frecuencias de la variable edad en un
determi nado centro educativo para adultos y su correspondiente histograma. La distribución es simétrica y unimodal. La media, moda y mediana
coincide n y su valor es igual a 42.
X
X;
n¡
60-64
55-59
50-54
45-49
40-44
35-39
30-34
25-29
20-24
62
57
52
47
42
37
32
5
10
15
20
30
20
15
10
5
27
22
35
30
25
20
15
10
5
o
//-~-+---+---t--'--1~--+--+-----lf--t----l
22
27 32 37 42 47 52 57 62
Figura 2.3. Medidas de tendencia central en una di stribución de frecuencias simétrica y
unimodal.
75
INTRODUCCIÓN AL ANÁLIS IS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
En el Cuadro 2.1 se resume la aplicación de los índices de tendencia
central en función del nivel de medida y el tipo de variable.
Cuadro 2.1. Índices de tendencia central.
!
Nivel de medida
Tipo de variable
Índice estadístico de
tendencia central
aplicable
Nominal
Cualitativa
Mo
Ordinal
Cuasicuantitativa
Mo, Md
De intervalo
Cuantitativa discreta
De razón
Cuantitativa continua
Mo, Md, X
2.3. ÍNDICES DE POSICIÓN
En la primera parte de este tema hemos definido medidas que representaban al conjunto de datos. Interesaba disponer de un indicador o resumen
numérico de la tendencia central de todas las puntuaciones. Pues bien, ahora la cuestión que nos planteamos va dirigida a un sujeto o dato particular
y la podríamos formular de la siguiente manera : en una distribución de
frecuencias de una variable, un sujeto «s» obtiene una puntuación X5 , ¿qué
posición ocupa este sujeto en la distribución con respecto al resto de partici pantes?, ¿qué puntuación tendría que obtener para superar a un porcentaje
determinado de participantes de la distribución? Por ejemplo, en un test de
creatividad administrado a los 30 niños de una clase, podemos plantearnos
las siguientes cuestiones: ¿qué puntuación debe alcanzar un alumno para
superar al 50% de sus compañeros?, ¿qué puntuación debe obtener para
estar entre el 25% de los más creativos? Imaginemos que un alumno obtiene una puntuación de 15, ¿qué posición le corresponde a X = 15 en el
conjunto de puntuaciones de los alumnos de la clase?, ¿está entre los más
creativos de la clase?, lqué porcentaje de sus compañeros están por debajo
de él en creatividad o qué porcentaje le superan en dicha variable?
Los índices estadísticos de posición responden a este tipo de preguntas . Informan acerca de la posición relativa de un sujeto con respecto
a su grupo de referencia, dentro de la distribución de frecuencias de la
variable. Es decir, indican la situación de una puntuación con respecto a
un grupo, utilizando al grupo como marco de referencia.
76
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
Dado que se trata de localizar la posición de un sujeto en una distribución , para construir un estadístico de posición, debemos dividir la distribución en un número de partes o secciones iguales entre sí en cuanto al número de observaciones. Por ejemplo, si queremos dividir una distribución
en dos partes iguales, necesitamos un único valor para esa partición, que
coin cide con la mediana de la distribución (recuerde que la mediana divide
la distribución en dos partes, cada una con el 50% de las observaciones).
En el caso de querer dividirla en tres partes, cada una con un tercio de las
observaciones, se necesitan dos valores de la variable, y así sucesivament e. Dependiendo de cuantos valores de la variable se utilicen para dividir
la distribución, se puede hablar de diferentes medidas de posición.
A continuación se describen tres índices estadísticos de posición: los
pe rcentiles, los cuartiles y los deciles. Se usan con mucha frecuencia en la
presentación de resultados estadísticos, especialmente los dos primeros.
En Psicología, por ejemplo, se utilizan para las normas de interpretación
de las puntuaciones de los tests o baremos, como se verá en la asignatura
de Psicometría el próximo curso. Asimismo, es conveniente señalar que
la aplicación de estos índices requiere al menos de un nivel de medida
ordinal en la variable objeto de estudio.
2.3.1. Percentiles
Los percentiles, también denominados centiles, son los 99 valores
que dividen en 100 partes iguales la distribución de frecuencias de la variable.
El percentil k, denotado por Pk, es un valor que deja por debajo
de sí un porcentaje k de observaciones, donde k = 1, 2, ... 99 de la
variable de interés.
En el Ejemplo 2. 7 de la distribución de frecuencias de la variable notas
en el examen de lengua de la PAU, la puntuación X= 8,5 deja por debajo
de sí al 95% de los alumnos de la distribución . Por ese motivo, podemos
afirmar que el percentil 95 de esa distribución es X= 8,5, P95 = 8,5, y que
los alumnos con X= 8,5 están por encima del 95% de los alumnos en la
nota de lengua de la PAU y son superados por el 5% de los alumnos . Otra
77
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
forma de expresarlo sería que un 95% de los alumnos no superan la puntuación 8,5 y un 5% sí superan dicha puntuación. Es necesario recalcar
que los percentiles no son porcentajes, sino valores que dejan por debajo
de sí un determinado tanto por ciento o porcentaje de las observaciones
o casos. En este ejemplo, el percentil 95 vale 8,5.
Aunque el concepto de percentil es sencillo y fácil de entender, lo cierto
es que no hay una única manera de calcularlo. En la literatura estadística
se recogen numerosos métodos que, por lo general, proporcionan valores
similares pero no idénticos entre sí. De hecho no es de extrañar que dependiendo del procedimiento aplicado y el software informático utilizado
obtengamos percentiles ligeramente distintos, aunque todos válidos según
la definición general de lo que es un percentil. En este capítulo se va a utilizar el método más sencillo para su realización a mano, que es la manera
en la que el alumno puede consolidar mejor el aprendizaje de la materia.
Como se deriva de la definición previa, el percentil 50, P50 , de una
distribución deja por debajo de sí al 50% de las observaciones y por en cima al otro 50%. El lector puede percatarse que esa definición coincide
con la de mediana de una distribución estudiada previamente. En efecto, el valor de la mediana coincide con el percentil 50 de la distribución.
De este modo, la mediana es uno de los 99 posibles percentiles de una
distribución, en concreto, el percentil 50. Por este motivo, el cálculo de
los percentiles lo vamos a realizar utilizando una extensión del método
expuesto para la mediana. La diferencia entre el cálculo de la mediana y
de los percentiles, estriba en que, en la mediana se trataba de localizar
la posición de
!2
en la columna de las frecuencias absolutas acumuladas.
2
En cambio, en los percentiles y de forma más general, se hace en base
al número n · k, donde n es el número de casos y k es el percentil que
100
n -k
deseamos obtener. - - es el número de casos que se correponden con
100
el k% del percentil y se obtiene a partir de una sencilla regla de tres: sin
obse rvaciones son el 100% de los participantes, ¿cuántas observaciones
serán el k% de los participantes?
n observaciones ➔ 100% de los participantes} ⇒ x = n x k
x ➔ k% de los participantes
78
100
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
Este número,
efecto, k
= 50
~~i,
es igual a
~
cuando calculamos el percentil 50. En
n •k
n • 50 n
por lo que - - = - - = - .
100
100
2
Cálculo de los percentiles con datos agrupados en intervalos:
El primer paso consiste en saber qué número de casos, de todos los
que tenemos (n), deja po r debajo de sí el percentil k. Ese valor lo obtenen -k
mos calculando el valor de - -.
100
A continuación locali zam os el interval o en el que se encuentra el percen til k. Este interval o se denomina interva lo crítico y se corresponde con
aquél en el que la frecuencia absoluta acumulada nª es igual o superior a
~~i,
es decir, al k% den.
Por último, obtenemos el percentil k aplicando la siguiente fórmula:
(2.7)
donde:
= Frecuencia absoluta acumulada por debajo
ne = Frecuencia absoluta del intervalo crítico
L; = Límite inferior exacto del intervalo crítico
I = Amplitud del intervalo
nd
del intervalo crítico
Ejemplo 2.12. En la tabla se muestran las puntuaciones agrupadas
en intervalos de la variable ansiedad antes los exámenes del Ejemplo
2.6. ¿cuál es el percentil 10 de esta distribución?
79
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
X
26 21 16 11 6 1-
30
25
20
15
10
5
Como se puede apreciar,
~~i
X;
n,
n,,
28
23
18
13
8
3
1
2
4
8
12
13
40
39
37
33
25
13
=
4
~~;o
= 4, es decir, el 10% den= 40
es 4. Por lo tanto, el intervalo crítico es el primer intervalo cuya frecuencia acumulada sea igual o mayor a 4. En este caso, se corresponde con el primer intervalo [1,5] cuya nª = 13 es mayor que 4.
Además, ne= 13 y nd = O (no existen intervalos por debajo del crítico). Aplicando la fórmula:
P10
=
L¡ +
l
n -10 - nd ]
100
ne
·I =
O, 5 +
[40100
x 10 13
º]
x5
=
O, 5 + 1,538
=
= 2,038 "" 2, 04
Cuando en la distribución de frecuencias los datos no están agrupados
en intervalos, se aplica la misma fórmula, pero con amplitud del intervalo
igual a uno (J = 1) .
Ejemplo 2.13. Calcule el percentil 95 en el Ejemplo 2.7, cuyos datos
figuran en la siguiente tabla.
80
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
Nota (XJ
n,
na
10
9
8
7
6
5
4
3
2
1
1
1
7
8
7
5
8
1
1
1
40
39
38
31
23
16
11
3
2
1
n-k 40 X 95
=
= 38, es decir, el 95% de
100
100
n = 40 es 38. Por lo tanto, el intervalo crítico es el primer intervalo
cuya frecuencia acumulada sea igual o mayor a 38. En este caso, se
corresponde con el intervalo [7,5-8,5] cuya nª es igual a 38. Además,
n e = 7 y nd= 31. Aplicando la fórmula:
Como se puede apreciar,
P95
~ L¡ +
=
~-n
:
[
100
ne
d
· I = 7, 5 +
[40100
x 95 _
7
31
:
x 1 = 7, 5 + (
7
7) x 1 =
7, 5 + 1 = 8, 5
Es interesante resaltar que cuando n · k es exactamente igual a la fre100
cuencia acumulada hasta un valor o intervalo, como en este caso, el percent il se corresponde directamente con el límite superior exacto del intervalo
crítico . En el Ejemplo 2.13,
~~~ = 38 y es
igual a la frecuencia acumulada
del intervalo crítico (nª = 38). El límite exacto superior de dicho intervalo es
8,5, que es el valor del percentil 95. Por tanto, cuando esto sucede se puede calcular directamente el percentil y no es necesario aplicar la fórmula.
Por otro lado, cuando se tienen muy pocos datos como en los Ejemplos
2.4 y 2.5 vistos anteriormente, no es habitual calcular percentiles porque
tienen poca utilidad. Sin embargo, si fuera necesario obtener un percentil
81
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
en esas circunstancias y para simplificar los cálculos, se aplicaría también
la fórmula general de los percentiles asumiendo intervalos con amplitud
igual a uno.
Ejemplo 2.14. Calculemos el percentil 70 en el Ejemplo 2.5 cuyos
datos figuran en la siguiente tabla .
1,A lumno
Horas de estudio s'emanales (X1)
2
1
7
11
3
16
4
5
5
14
10
12
10
6
7
8
En primer lugar, se ordenan los datos en una tabla de distribución de
frecuencias y se calculan las frecuencias acumuladas:
Horas de estudio (X;)
n,
16
14
12
5
1
1
1
1
2
1
1
¿
8
11
10
7
' Q.~
8
7
6
5
4
2
1
A continuación se aplica la misma fórmula que para datos agrupados
en intervalos. Es decir:
n-k 8 x 70
.
k= 70 y n = 8, por lo que - - = - - = 5,6, es decir, el 70% den= 8
100
100
es 5,6. Por lo tanto, el intervalo crítico es el primer intervalo cuya
frecuencia acumulada sea igual o mayor a 5,6. En este caso, se co-
82
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
rresponde con el intervalo [11,5-12,5] cuya
ne= 1 y nd= 5. Aplicando la fórmula:
n-70
P70 = L¡ +
nd ]
· I = 11, 5 +
~ e-
[
[8x70
~-
nª es igual a 6. Además,
5]
x
6
1 = 11, 5 + ( o~ )
x
1=
= 11, 5 + o, 6 = 12, 1
Con el método descrito se puede calcular el valor de cualquiera de los
99 percentiles de una distribución. Sin embargo, puede suceder que se
t enga un valor o puntuación de la variable, X;, y nos interese saber qué
percentil ocupa ese valor en la distribución. Es decir, ¿qué percentil le
corresponde a la puntuación X¡? Realmente se está pidiendo el valor de
k , dado el valor de X;, Para realizar ese cálculo hay que despejar k de la
ecuación anterior, obteniendo la siguiente fórmula:
Cálculo de k para X;:
(2.8)
Ejemplo 2.15. Con los datos del Ejemplo 2.12, si un estudiante obtiene una puntuación de X= 20, ¿qué percentil le corresponde?
X
26 21 16 11 6 1 -
¿
1
30
25
20
15
10
5
28
23
18
13
8
3
' n¡
na
1
2
4
8
12
13
40
39
37
33
25
13
40
83
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
La puntuación X= 20 está en el intervalo [16-20] que va a ser, por
tanto, el intervalo crítico. De esta forma, Pk =20, L;=15,5, nc=4,
I = 5 y nd= 33. Se aplica la fórmula y se obtiene lo siguiente:
-~¡) •ne +nd1
(Pk
r(20 - l;,5) x 4 + 331
k = - - - - - - -100 = - - - - - - - x 100 =
n
40
r
36 60] x 100 = 0,915 x 100 = 91,5 ~ 92
= [ -;fuPor lo tanto, a la puntuación X= 20, le corresponde el percentil 92,
P92 = 20.
Wt<
\
•
-
I! 1
t '"
1
Cuando se calcula a qué percentil corresponde una puntuación determinada, puede ocurrir que obtengamos un valor con decimales como en
el ejemplo anterior. En este caso, y dado que los percentiles son 99 valores enteros, tomamos la cantidad entera más próxima. Para ello seguimos
la siguiente regla: si el primer decimal es igual o mayor a cinco, entonces
tomamos el número entero superior; si es menor que cinco tomamos el
número entero inferior. En este ejemplo el resultado es P9 1 , 5 = 20, con
k = 91,5. La cantidad entera más próxima a 91,5 es 92, por lo que el percentil es 92, P92 = 20 .
Otra situación que nos podemos encontrar es que se pida el percentil
de una puntuación que es, al mismo tiempo, el límite exacto superior de
un intervalo y el límite exacto inferior del siguiente intervalo. En este caso
se puede elegir cualquiera de los dos intervalos como intervalo crítico y
obtendríamos el mismo resultado. Veámoslo con un ejemplo:
Ejemplo 2.16. Con los datos del Ejemplo 2.15, ¿qué percentil le co rresponde a un sujeto con una puntuación de X = 10,5?
84
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
X
26 21 16 11 6 1-
30
25
20
15
10
5
x,
n,
na
28
23
18
13
8
3
1
2
4
8
12
13
40
39
37
33
25
I
13
40
La puntuación X= 10,5 es el límite exacto superior del intervalo (610] y al mismo tiempo el límite exacto inferior del intervalo (11-15].
¿cuál de estos dos intervalos se utiliza como intervalo crítico? Se
puede utilizar cualquiera de los dos porque vamos a obtener el mismo
resultado.
Si calculamos el percentil considerando el intervalo crítico (6-10],
te nemos que:
Pk= 10,5
L;= 5,5
ne= 12
J= 5
(Pk - L¡) ·ne+ nd 1
k
=
I
n
-100 =
nd= 13, por lo que:
1
r(l 0,5 - 5,5) x 12 + 13
5
x 100 =
40
r
=
[!~] X100 = 0, 625 X100 = 62, 5 ,:; 63
Por lo tanto, a la puntuación X= 10,5, le corresponde el percentil 63,
= 10,5.
p63
Por otro lado, si lo calculamos atendiendo al intervalo [11-15], tenemos que:
Pk= 10,5
L;= 10,5
ne= 8
I
=5
nd= 25, por lo que:
85
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACION ES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
1
(Pk - L¡) •nc +nd ]
k =
I
r
=[
!~]
X
n
-100 =
'
r (10,5 -1 0,5) x 8 + 25
5
x 100 =
100 = 0, 625 X 100 = 6 2, 5
40
~ 63
Como puede obse rvarse, se obtiene de nu evo el m ismo result ado : a
la puntuación X = 10 , 5 le correspo nde el perce ntil 6 3, P63 = 10,5 .
2.3.2. Cuartiles
deciles
Los cuartiles y deciles son dos estadísticos de posición en los que las
seccio nes o partes en las que se divide la distribución de frecuencias son
muchas menos que en los percentiles.
Los cuartiles son tres valores de la distribución que dividen en cuatro partes de igual frecuencia a la distribución.
El primer cuartil, que se representa por Q 1 , deja por debajo de sí
al 25% de las observaciones y por encima al 75% restante. Como se
puede deducir fácilmente, se corresponde con el percentil 25 de la
distribución, esto es, Q 1 = P25 .
El segundo cuartil, Q 2 , deja por debajo de sí al 50% de las observaciones y por encima al otro 50%. Es equivalente al percentil 50, y,
por ende, a la mediana de la distribución, Q 2 = P50 = Md.
Por último, el tercer cuartil, Q 3 , deja por debajo de sí al 75% de las
observaciones y por encima al 25% restante. Se corresponde con el
percentil 75 de la distribución, Q 3 = P75 .
Debido a la equivalencia con los percentiles, para el cálculo de los
tres cuartiles se utilizan los métodos propuestos para los percentiles. En
concreto, Q 1 se calcula mediante P25 , Q 2 con P50 , y Q 3 con P75 . Por otra
parte, los cuartiles se utilizan para construir índices para el estudio de la
variabilidad de una distribución de frecuencias, como se verá en el próxi mo tema.
86
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
Por último, los deciles se definen de la siguiente manera:
Los deciles son nueve valores que dividen en diez partes iguales a la
distribución. Se representan por O¡, donde i = 1,2, ... ,9.
El primer decil, 0 1 deja por debajo de sí al 10% de las observaciones,
el 0 2 al 20%, el 0 3 al 30% y así hasta el 0 9 que deja por debajo de
sí al 90% de las observaciones. De este modo,
0
1
= P10 ,
0 2 = P20 ,
.. . ,
0 5 = P50
= Md,
.. . 0 9
= P90 .
Por lo tanto, también se pueden calcular los deciles a partir de los percentiles correspondientes. En la Figura 2.4 se representa la equivalencia
entre los diferentes índices de posición de una distribución de frecuencias
que se han estudiado.
Deciles - Percentiles
Cuartiles - Percentiles
Figura 2.4. Representación de la relación entre medidas de posición.
En definitiva, para calcular cualquier estadístico de posición (percentiles, cuartiles y deciles) en variables agrupadas en intervalos se utiliza la
fórmula propuesta en el apartado 2.3.1 y aplicada en el Ejemplo 2.12. En
distribución de frecuencias de variables cuantitativas discretas no agrupadas en intervalos se aplica la misma fórmula, pero considerándose como
un caso particular en el que la amplitud del intervalo es igual a uno (ver
Ejemplo 2.13).
87
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
2.4. RESUMEN
En este tema se ha presentado una de las propiedades o características
más relevantes de una distribución de frecuencias como es la tendencia
central de las puntuaciones. Se han descrito los tres estadísticos de tendencia central más empleados, que son la media aritmética, la mediana y
la moda. De cada índice se han expuesto sus principales características, los
métodos de cálculo y las ventajas y limitaciones de su aplicación al análisis
de datos. Esta primera parte del tema se ha concluido con la discusión de
una serie de criterios para la elección del índice más adecuado en cada caso.
Posteriormente, se han abordado las medidas o estadísticos de posición, con el fin de estudiar la posición relativa de los participantes con
respecto al conjunto de puntuaciones de la distribución. Dependiendo del
número de partes en las que se divida la distribución de frecuencias, se
pueden definir diferentes índices de posición. Se han descrito los tres más
relevantes como son los percentiles, los cuartiles y los deciles y se ha
explicado el procedimiento de cálculo según la configuración de los datos
y el tipo de cuestión a la que se quiere responder. Asimismo, se ha enfa tizado la equivalencia entre los tres tipos de estadísticos, y cómo, una vez
definidos los percentiles, se pueden obtener los cuartiles y deciles como
casos particulares de los percentiles.
2.5. EJERCICIOS
2.1.
El valor que divide la distribución de frecuencias de una variable
en dos partes con el mismo número de observaciones cada una se
denomina: A) media aritmética; B) mediana; C) moda.
2.2.
Para estudiar la tendencia central en una variable cualitativa, el
índice adecuado es: A) la media; B) la moda; C) la mediana.
2.3.
En una distribución de frecuencia s de una variable medida a nivel
ordinal, ¿qué índice resulta inadecuado utilizar? A) la media; B) la
moda; C) la mediana .
2.4.
En una distribución unimod al se obtienen los mismos valores en
los índices moda, media y mediana siempre y cuando: A) los datos
están agrupados en intervalos; B) 1 distribuci ón es simétrica; C)
el número de observacion es s p qu ño.
88
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
2.5.
En un conjunto de observaciones de una variable, la puntuación
que es superada por el 75% de los participantes se corresponde
con el: A) Ql; B) P75; C) º 2·
2.6.
El quinto decil de una distribución es equivalente al: A) percentil
40; B) percentil 5; C) percentil 50.
2. 7.
En una distribución de frecuencias, el número de observaciones entre
Q 1 y Q2 es el mismo que entre: A) 0 1 y 0 2 ; B) P25 y P50 ; C) Q 1 y Q 3 .
2.8.
En la siguiente tabla se muestran el número de alumnos y las medias en horas de estudio semanales (X) en función del nivel de
estudios materno de los alumnos de la Tabla 1.2 del Tema l. La
media total en el número de horas de estudio semanales de los 40
alumnos a partir de estos datos es: A) 10,55; B) 10,82 ; A) 10,91.
Nivel de estudios materno
X.1
10,71
9,27
10,91
10,71
12,50
Primarios
7
E.S.O .
11
Bachillerato
11
Grado Universitario
Posgrado Universitario
7
4
¿
2.9.
n;
40
La variable X toma los siguientes valores : 50, 26 , 35, 64, 34, 28,
73, 45, 48, 52, 54, 67. La media aritmética es igual a: A) 47; B)
48; C) 49.
2.10. El valor de la mediana en los datos del Ejercicio 2.9 es: A) 48; B)
49; C) 51.
2.11. En la tabla adjunta se muestra la variable
número de hijos (X) de las familias de una
determinada urbanización.
x,
La media del número de hijos en esa urbanización es igual a : A) 1; B) 1,48; C) 2, 32 .
1
2
2.12. Con los datos del ejercicio anterior, ¿cuál es
la moda?: A) 1; B) 2; C) 26.
4
o
3
n;
18
26
20
12
4
2.13. Continuando con el Ejercicio 2 . 11, el valor de
la mediana es igual a : A) 0 ,75; B) 1, 35; C) 1,5 0.
89
INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
2.14. Con los datos del Ejercicio 2.11, a la puntuación X= 2, ¿qué percentil le corresponde? A) P68 ; B) P80 ; C) P85 .
2.15. De acuerdo con los datos del Ejercicio 2.11, el primer cuartil de la
distribución es: A) 0,02; B) 0,50; C) 0,58.
2.16. En el histograma adjunto se muestra la distribución de la variable
edad (X) de los 100 participantes de una investigación. En el eje
horizontal, se recogen los límites exactos de los intervalos de X y
en el eje vertical la frecuencia absoluta (n;), La moda es: A) 46; B)
50,5; C) 55,5 .
n; 45
42
- -
40
35
30
25
20
21
20
15
10
10
7
1:
5
o //
1
25,5
35,5
45,5
55,5
65,5
75,5
2.17. Continuando con el histograma del ejercicio anterior, la edad media
de los participantes es: A) 50,5; B) 51 ; C) 52 .
2.18. Siguiendo con el histograma del Ejercicio 2.16, ¿cuál es el valor de
la mediana de la variable edad? A) 50; B) 50,74; C) 55,5.
2 . 19. Con los datos del Ejercicio 2.16, el percentil 90 es igual a: A) 60,5;
B) 65,5; C) 70,5.
2.20. De acuerdo a la distribución del Ejercicio 2.16, el valor del segundo
decil es: A) 35,5; B) 41,7; C) 45,2.
2.6. SOLUCIONES A LOS EJERCICIOS
2.1.
Solución: B
Véase la definición de mediana en el Apartado 2.2.2.
2.2.
Solución: B
90
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
Cuando la variable es cualitativa la única medida de tendencia central que se puede utilizar es la moda (ver Apartados 2.2.3 y 2.2.4).
2.3.
Solución: A
Cuando la variable está medida a nivel ordinal se puede utilizar la
moda y la mediana, pero no la media que requiere que sea de intervalo o de razón (ver Apartados 2.2 .1 y 2.2.4).
2.4.
Solución: B
Tal y como se señala en el Apartado 2.2.4, cuando la distribución
es unimodal y simétrica, los valores de la media, mediana y moda
coinciden.
2.5.
Solución: A
La puntuación que es superada por el 75% de las observaciones
es aquella que no supera el 25%, por lo que se corresponde con el
percentil 25 o el primer cuartil, Q 1 (ver Apartado 2.3.2).
2.6.
Solución: c
Los deciles son nueve valores que dividen en diez partes iguales la
distribución. De este modo, el decil 5 (0 5 ) deja por debajo de sí al
50% de las observaciones, por lo que equivale al percentil 50 (ver
Apartado 2.3.2).
2.7.
Solución: B
El número de observaciones entre Q 1 y el Q 2 es igual al 25% de la
distribución.
Entre 0 1 y 0 2 es el 10%
Entre P25 y P50 es el 25%
Entre Q 1 y Q 3 es el 50%
2.8.
Solución: A
,
"
'I",
,,
Nivel de estudios materno"
Primarios
7
E.S.0.
11
11
Bachillerato
Grado Universitario
7
Posgrado Universitario
4
10,71
9,27
10,91
10,71
12 , 50
40
91
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Para obtener la media total a partir de las medias de cada grupo
debemos utilizar la fórmula de la media ponderada :
Xp
_ n1 · X 1 + n2 • X 2 + .. . + n1 • X 1
-
=
2.9.
n1 + n2 + ... + n1 = n
7 X 10, 71 + 11 X 9, 27 + 11 X 10, 91 + 7 X 10, 71 + 4 X 12, 50
40
421192
= 10 548 "" 10 55
40
'
'
Solución: B
X = LX¡ = 50 + 26 + 35 + 64 + 34 + 28 + 73 + 45 + 48 + 52 + 54 + 67 =
12
=
576
12
12
=
48
2.10. Solución: B
Para el cálculo de la mediana, primero se ordenan los datos de
menor a mayor:
X:
26, 28, 34, 35, 45, 48, 50, 52, 54, 64, 67, 73
Dado que el número de observaciones es par (n = 12), la mediana es la media aritmética de los dos valores centrales de la
distribución, que son las posiciones 6ª (n/2 = 12/2 = 6) y 7ª
((n/2)+1 = (12/2)+1 = 7):
Md = 48 + 50 = 49
2
2.11. Solución: B
92
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
X.I
o
1
2
3
4
.
n1 "
n;X i
o
18
26
20
12
4
26
40
36
16
80
118
-
X =
¿n;X;
n
118
= 1,475 "" 1,48
80
=-
2.12. Solución : A
1
X;
n; ,1,
o
4
18
26
20
12
4
¿
80
1
2
3
El valor de X; con la frecuencia absoluta mayor es X;= 1 con n; = 26,
por lo que Mo = l.
2.13. Solución: B
La variable número de hijos es una variable cuantitativa discreta no
agrupada en intervalos por lo que, a la hora de obtener la mediana,
se trabaja con ella asumiendo que está agrupada en intervalos con
amplitud igual a uno (I = 1).
Para el cálculo de la mediana se obtiene la frecuencia absoluta acumulada para cada valor de la variable:
·11111uk ·
111' ' 1f ; /
n;
o
18
1
2
3
4
26
20
12
4
¿
80
;¡¡i
na,
18
44
64
76
80
93
INTRODUCCIÓN AL ANALISIS OE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Sabemos que
!2 = 80
2
2
= 40, por lo que el intervalo crítico es [0,5-
1,5] con n 0 = 44, ne= 26 y nd= 18. Aplicando la fórmula:
l
- - nd
2 ne
Md = L¡ + n
l
--18
2
] • I = O, 5 + 80
26
] x 1 = O, 5 + O, 846 = 1,346 ~ 1, 35
2.14. Solución: A
x,
n;
na
o
4
18
26
20
12
4
18
44
64
76
80
L
80
1
2
3
La puntuación X= 2 está en el intervalo unitario [1,5-2,5]. Tenemos
que Pk= 2, L;= 1,5, ne= 20 y nd= 44. Por lo tanto:
(Pk - L¡) · ne + nd
k =
I
l
n
1·100 = r(2 - 1,l5) x 20
80
= 0,675 x 100 = 67,5
~
+ 44
1
x l00 =
68
Por lo tanto, a la puntuación X= 2, le corresponde el percentil 68,
p68
= 2.
2.15. Solución: e
X¡
n;
na
o
4
18
26
20
12
4
18
44
64
76
80
L
80
1
2
3
94
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
n · 25 80 X 25
.
Q 1 = P25 , Sabemos que - - = - - - = 20, por lo que el intervalo
100
100
crítico es [0,5-1,5] con n0 = 44, ne= 26 y nd= 18. Aplicando la fórmula:
l
~
- n
P,s = L;+ 10~'
=
I
[
8
dJI = 0,5 +
25
- 18 ]
0x
10~6
xl =
o, 5 + o, 0769 = o, 5769 se o, 58
2.16. Solución: B
El histograma nos muestra los límites exactos de cada intervalo
y su frecuencia absoluta. Para obtener la moda localizamos el intervalo modal (el que tiene la máxima frecuencia absoluta), que
en este caso es el tercer intervalo [45,5-55,5]. El punto medio
de dicho intervalo es
Mo = 50,5 .
45 5 55 5
, 2+ , = 50 , 5 , por lo que la moda es
2.17. Solución: B
Para facilitar el cálculo de la media, primero se pasan los datos del
histograma a una tabla de distribución de frecuencias, calculando
el punto medio de cada intervalo como la semisuma de los límites
exactos y el producto de cada punto medio por su correspondiente
frecuencia absoluta:
Límites exactos de
los intervalos
X;
n;
n;X;
65,5-75,5
55,5-65,5
45,5-55,5
35,5-45,5
25,5-35,5
70,5
60,5
50,5
40,5
30,5
10
20
42
21
7
705
1210
2121
850,5
213,5
100
5100
~
-
¿n;X; 5100
X = =--'---'- = - - = 51
n
100
95
INTRODUCCIÓN AL ANALISI S DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
2.18. Solución : B
El histograma nos da los límites exactos de cada intervalo y su frecuencia absoluta. Para obtener la mediana se prepara la tabla con
la que se trabaja en la que figuran los intervalos aparentes, el punto medio (X;), la frecuencia absoluta y la acumulada. Para pasar de
intervalos exactos a aparentes sumamos 0,5 a cada límite inferior
y restamos 0,5 a cada límite superior. La amplitud del intervalo
es I = LSE-LIE = 10 y el punto medio de cada intervalo se obtiene
como la semisuma de los límites exactos o aparentes:
X
X;
n,
"ª
66-75
56-65
46 -55
36-45
26-35
70,5
60,5
50,5
40,5
30,5
10
20
42
21
7
100
90
70
28
7
¿
!!.. =
lOO
=
100
50, por lo que el intervalo crítico es [ 46-55] con n 0
2
2
ne= 42 y nd= 28. Aplicando la fórmula:
l
l
- -n
- - 28
2 ne d ] · I = 45, 5 + 100
2
] x 10 =
Md = L; + n
42
= 45, 5 + 5,238 = 50,738
e::
50, 74
2.19. Solución: B
X
X;
n;
"ª
66-75
56-65
46-55
36-45
26-35
70,5
60,5
50,5
40,5
30,5
10
20
42
21
7
100
90
70
28
¿
96
100
7
= 70,
ÍNDICES DE TENDENCIA CENTRAL Y DE POSICIÓN
100 -90
100
100
nª = 90, ne= 20 y nd = 70. Aplicando la fórmula:
n -k
- - - = 90, por lo que el intervalo crítico es [56-65] con
P,
90
=L +
'
n -k
100ne-
nd
J. I = 55 5 + [ 100l00x 90 - 70 ] x 10 = 65 5
,
l
20
,
Como se indicó para el Ejemplo 2.13 de este tema, cuando el valor
de n · k coincide con la frecuencia acumulada del intervalo crítico,
100
el percentil se corresponde directamente con el límite exacto superior de dicho intervalo . En este ejercicio n · k = 90 es igual a la
100
nª del intervalo crítico, por lo que el percentil 90 se podría calcular
directamente y su valor es el límite superior exacto del intervalo
crítico, que en este caso es 65,5.
2 .20. Solución: B
X
X;
n;
n,,
66-75
56-65
46 - 55
36-45
26- 35
70,5
60,5
50,5
40,5
30,5
10
20
42
21
7
100
90
70
28
7
L
100
100
.
1o critico
, .
0 2 = P20, -n . -k = -. 20
- = 20 , por 1o que e 1 1nterva
es [36 100
100
45] con na= 28 , ne= 21 y nd= 7 . Aplicando la fórmula:
l
n ·k
P20 = L; + ~
e-
nd J
-1 = 35, 5 +
l
100 x 20 7 ]
l O~l x lO =
= 3 5, 5 + 6, 19 = 41, 69 "" 41, 7
97
TEMA3
Medidas de variabilidad y forma
3.1. INTRODUCCIÓN
3.2. MEDIDAS DE VARIABILIDAD
3.2.1.
3.2.2.
3.2.3.
3.2.4.
Amplitud total o rango
Varianza y desviación típica
Coeficiente de variación
Amplitud intercuartil
3.3. MEDIDAS DE FORMA
3.3.1. Asimetría de una distribución
3.3.1.2. Índice de Pearson
3.3.1.3. Índice de Fisher
3.3.2. Índice de curtosis
3.4. DIAGRAMA DE CAJA
3.5. PUNTUACIONES TÍPICAS
3.6. RESUMEN
3.7. EJERCICIOS
3.8. SOLUCIONES A LOS EJERCICIOS
MEDIDAS DE VARIABILIDAD Y FORMA
3.1. INTRODUCCIÓN
En este tema se van a abordar dos nuevas propiedades de una distri bución de puntuaciones: la variabilidad o dispersión y la forma de la
dist ribución.
La segunda propiedad de una distribución de frecuencias, y de la misma importancia que la tendencia central estudiada en el tema anterior, es
la variabilidad o dispersión de los datos. La variabilidad hace referencia
al grado en que las puntuaciones se asemejan o diferencian entre sí, o se
aprox iman o alejan de una medida de tendencia central como la media
aritmética. Se han propuesto numerosos índices para medir la variabilidad de una distribución. En este tema se describen los índices de dispersi ón más habituales en la práctica como son la amplitud total, la varianza
y desviación típica, y la amplitud intercuartil. Además, se presenta un
índice, el coeficiente de variación, que resulta útil para comparar distintas
distribuciones de frecuencias en términos de su variabilidad.
Posteriormente, se analiza la forma de la distribución a través del estu dio de la asimetría y de la curtosis de la distribución de frecuencias.
Co mo se ha visto en el primer tema, mediante la representación gráfica
se puede analizar si una distribución es más o menos simétrica, qué tipo
de asimetría la caracteriza y el grado de apuntamiento de los datos. En
este tema se describen dos índices de asimetría así como un coeficiente
de curtosis que ofrecen resultados numéricos sobre ambos aspectos de la
forma de la distribución.
A continuación se presenta el diagrama de caja, un tipo de representaci ón gráfica que permite una inspección visual rápida de la asimetría y de
los posibles valores atípicos de la distribución.
Por último, con el fin de poder comparar a los sujetos entre sí y en
diferentes variables, se describen dos puntuaciones que se derivan de
las puntuaciones directas: las puntuaciones diferenciales y las típicas. Se
presentan sus principales propiedades y la información que proporcionan
ambos tipos de puntuaciones.
101
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Objetivos del tema:
■
Conocer las características de los principales índices para medir la
variabilidad en una distribución de frecuencias, con especial énfasis en la varianza y la desviación típica.
■
Saber aplicar los índices de variabilidad o dispersión a una determinada distribución.
■
Conocer y saber aplicar los índices de asimetría y de curtosis para
analizar el grado y el tipo de asimetría y de curtosis de una distribución.
■
Saber representar gráficamente algunas de las características de
una distribución mediante un diagrama de caja.
■
Distinguir entre los distintos tipos de puntuaciones (directas, diferenciales y típicas), la información que proporcionan y sus propiedades fundamentales.
3.2. MEDIDAS DE VARIABILIDAD
En el tema anterior vimos que uno de los aspectos más relevantes a
la hora de caracterizar una distribución de frecuencias es la tendencia
central de los datos y se presentaron las tres principales medidas que
resumen numéricamente esta característica . Sin embargo, el estudio de
una distribución resultaría incompleto sin el análisis de una segunda propiedad tan importante como la tendencia central; esto es, la variabilidad
de los datos. La variabilidad o dispersión hace referencia al grado de
variación que hay en un conjunto de puntuaciones. Por ejemplo, en la
Figura 3.1 se muestra la representación gráfica de dos distribuciones que
presentan la misma media aritmética pero que difieren en la variabilidad
de sus puntuaciones.
102
MEDIDAS DE VARIABILIDAD Y FO RMA
(a)
30 -- -
25
20
n 15
10
5
o
1
2
3
5
4
6
7
8
9
6
7
8
9
X
(b)
30
25
20
n 15
10
5
o
1
2
3
4
5
X
Figura 3.1. Representación gráfica de dos distribuciones: a) menos dispersión; b) más
dispersión.
En la Figura 3.l(a) las puntuaciones están muy próximas entre sí y
concentradas en torno al valor promedio, por lo que parece que existe
poca dispersión en los datos. En la Figura 3.l(b), las puntuaciones están
más alejadas entre sí y no están tan concentradas alrededor de la media,
existiendo mayor variabilidad. De este modo, cuanto menor es la variabilidad en una distribución, más homogénea es la muestra de sujetos en
la variable que estamos midiendo. En el caso extremo y poco habitual de
máxima homogeneidad, todos los valores de la variable serían iguales
entre sí y a la media, y no habría variabilidad en los datos. Por otro lado,
cuando existe cierta dispersión en los datos, la muestra es más o menos
heterogénea y las puntuaciones difieren entre sí.
Con el fin de cuantificar la dispersión presente en los datos, se han definido numerosas medidas o índices de variabilidad. Dos tipos de índices
103
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
se pueden distinguir: aquellos que miden el grado en el que las puntuaciones se asemejan o diferencian entre sí, y aquellos otros en los que la
dispersión se mide con respecto a alguna medida de tendencia central
como la media aritmética. En este tema se van a estudiar dos índices del
primer tipo: la amplitud total o rango y la amplitud intercuartil. Del segundo tipo, y de gran importancia en la estadística, se van a describir la
varianza y la desviación típica.
Tanto unos como otros son útiles para el estudio de la variabilidad de
una distribución de frecuencias, pero resultan poco adecuados cuando se
trata de comparar la dispersión de dos o más distribuciones. Para realizar
dicho análisis, un índice apropiado y que se presenta en este tema es el
coeficiente de variación, que se basa en la relación entre la desviación
típica y la media de cada distribución de frecuencias.
3.2.1. Amplitud total o rango
Una primera aproximación a la dispersión de los datos es el índice de
amplitud total, también denominado rango o recorrido de las observaciones.
La amplitud total, denotada como AT, de un conjunto de puntuaciones es la distancia que hay en la escala numérica entre los valores que
representan la puntuación máxima y la puntuación mínima. Es decir:
(3 . 1)
En variables agrupadas en intervalos la puntuación máxima es el límite
superior exacto del intervalo máximo y la puntuación mínima es el límite
inferior exacto del intervalo mínimo.
Ejemplo 3.1. La siguiente distribución de frecuencias corresponde a
las notas en el examen de Lengua de la PAU del Ejemplo 2.2 del tema
anterior. ¿cuál es la amplitud total de esta distribución?
104
MEDIDAS DE VARIABILIDAD Y FORMA
1Nota (X1)
n,
1
6
7
8
9
10
1
1
1
8
5
7
8
7
1
1
¿
40
2
3
4
5
La puntuación máxima es Xma x = 10 y la mínima es Xmin = 1. Por tan to, AT= Xmax-Xmin = 10- 1 = 9
Como se puede apreciar, este índice es muy sencillo de calcular y utiliza
muy poca información del conjunto de puntuaciones, ya que se trata sólo
de la diferencia entre el mayor valor (XmaJ y el menor valor (Xmin) de la
variable. Por otro lado, y como consecuencia de lo anterior, su principal
inconveniente es que es sensible únicamente a los valores extremos de
la distribución. Por esta razón, este índice no captura la poca o mucha
dispersión que pueda existir entre los restantes valores, que son la gran
mayoría de las puntuaciones. Aun así, en el análisis de los datos se recomienda incluir el valor de la amplitud total como información complementaria de otras medidas de dispersión más relevantes como la varianza y la
desviación típica, que se estudiarán a continuación.
3.2.2. Varianza y desviación típica
La medida de variabilidad también se puede basar en la distancia entre
las puntuaciones y un valor central de la distribución como la media aritmética. De este modo, una distribución con poca variabilidad es aquella
en la que la mayoría de las puntuaciones están muy próximas a la media,
mientras que en una distribución con mucha variabilidad, las puntuaciones
están alejadas o muy alejadas del valor medio de la variable.
105
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Un primer índice que se puede plantear de forma lógica es el promedio de las desviaciones o diferencias de cada puntuación con res pecto a su media.
_Xd =¿,d;
I,(x; - x)
--=---n
(3.2)
n
El problema de este índice es que, según vimos en la primera propiedad
de la media en el tema anterior, el sumatorio del numerador siempre es igual
a cero, por lo que carece de sentido como índice.
Con el fin de poder utilizar un índice con estas desviaciones, evitando
que sea igual a cero, se han propuesto dos soluciones. La primera consiste
en calcular el valor absoluto de cada desviación antes de realizar la suma,
obteniendo un índice denominado desviación media cuya expresión es:
jx1 - xj + jx2 - xj + ·· · + ¡xn - x¡ I,jx; - x¡
DM = ~ - - - - -- - - -- - - = - - - n
n
(3.3)
La desviación media se emplea muy poco en la actualidad, debido a que
es poco manejable matemáticamente por el uso del valor absoluto, lo que
ha llevado a que apenas existan técnicas estadísticas basadas en este índice.
Una segunda alternativa al problema del signo de las desviaciones con siste en basarnos en el cuadrado de las diferencias y así obtenemos la
varianza que se define de la siguiente manera:
La varianza de un conjunto de n puntuaciones en una variable X,
denotada por
se define como el promedio de los cuadrados de las
desviaciones de las puntuaciones con respecto a la media. Formalmente
se expresa como:
s;,
(x 1 -x)2+(x2 -x)2+ -··+ (xn-x)2
I,(x; - x)2
n
n
S x2 = - - - - - - - - - - - - - - - = - - -- -
106
(3.4)
MEDIDAS DE VARIABILIDAD V FORMA
Es importante resaltar que para el cálculo de la varianza primero se
elevan al cuadrado las diferencias y después se obtiene el promedio de
esas desviaciones al cuadrado.
Otra forma alternativa de calcular la varianza, que se deriva de la fórmula anterior y que simplifica los cálculos, es la siguiente:
LX¡
2
- 2
(3 .5 )
Sx = - - - X
n
Ejemplo 3.2. En la tabla adjunta figuran las puntuaciones de los
cinco alumnos en la variable ansiedad ante los exámenes del Ejemplo
2.1 del tema anterior. La media que se obtuvo fue de X= 8. Calcúlese
la varianza de las puntuaciones con las dos fórmulas propuestas.
Atumno
(x, - x)
Ansiedad (X;)
11
1
2
3
4
5
-3
5
-4
5
13
4
15
3
7
-5
I:
-xt
X~I
9
25
16
49
25
25
169
16
225
9
124
444
(x;
Según la fórmula 3.4:
Según la fórmula 3 .5:
s} = L x,2 _ x 2 = 444 - (8)2 = 88, 8 - 64 = 24, 8
n
5
-
107
INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Por otra parte, cuando los datos se presentan en tablas de distribución de frecuencias es necesario tener en cuenta la frecuencia de cada
intervalo. En estos casos, la varianza se puede obtener utilizando las dos
expresiones equivalentes siguientes:
Varianza a partir de una distribución de frecuencias absolutas:
52 x -
~n
,t..,
1
(x - x) 2
1
In¡
n
(3.6)
o bien:
S2 _
x -
~ nX 2
,t..,,
In¡
- 2
' - X
_I_n_¡X_,_2 - x 2
n
(3. 7)
donde:
n es el número total de observaciones
X¡ es el valor i en la variable X o el punto medio del intervalo
n¡ es la frecuencia absoluta del valor o del intervalo i
Varianza a partir de una distribución de frecuencias relativas:
(3.8)
donde:
p¡ es la frecuencia relativa o proporción de observaciones del valor
o del intervalo i
108
MEDIDAS DE VARIABILIDAD Y FORMA
Ejemplo 3.3. Calcúlese la varianza de la distribución de frecuencias
del Ejemplo 3.1, sabiendo que la media aritmética es igual a 5,9.
Nota
(x, - x) (x, -x)2
(X,)
n,
Pi
1
2
3
4
5
6
7
8
9
10
1
1
1
8
7
8
7
1
1
0,025
0,025
0 , 025
0,2
0,125
0,175
0,2
0,175
0,025
0,025
í:
40
1
5
-4,9
- 3,9
- 2,9
- 1,9
-0,9
0,1
1,1
2,1
3,1
4,1
n1(x 1
1
24,01
15,21
8,41
3,61
0,81
0,01
1,21
4,41
9,61
16,81
- x)2
24,01
15,21
8,41
28,88
4,05
0,07
9,68
30,87
9,61
16,81
x:
1
4
9
16
25
36
49
64
81
100
147,6
n,l(f
p,Xf
0,025
1
4
0,1
0,225
9
128 3,2
125 3,125
252 6,3
392 9,8
448 11,2
81 2,025
100 2,5
1540
38,5
Aplicando la fórmula 3.6:
s~ =
In¡
(x; - x)2
n
= 147,6 = 3 69
40
'
Aplicando la fórmula 3. 7:
s~ = r~x¡ - (x)2
=
1
!~º
- (5,9) 2
= 38,5 - 34,81 = 3,69
Aplicando la fórmula 3.8:
S x2
'°
= L..i p¡X;2
- -X
2
= 38, 5 - ( 5, 9 )2 = 38, 5 - 34, 81 = 3, 69
Ejemplo 3.4. En la siguiente tabla se muestran las puntuaciones
agrupadas en intervalos de la variable ansiedad antes los exámenes
para el grupo 1 del Ejemplo 2.3 del tema anterior. La media calculada
para esta distribución es igual a 11,5. Calcúlese la varianza de las
puntuaciones con las tres fórmulas.
109
INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
X
X¡
n,
P1
1-5
6-10
11-15
16-20
21-25
26-30
3
8
13
18
23
28
5
4
6
3
1
1
0,25
0,2
0,3
0,15
0,05
0,05
¿
20
1
(x, -x) (x,-x)2 n,(x, - x)2 xf
-8,5
-3,5
1,5
6,5
11,5
16,5
72,25
12,25
2,25
42,25
132,25
272,25
361,25
49
13,5
126,75
132,25
272,25
955
9
64
169
324
529
784
n1 Xf
p,xf
45
256
1014
972
529
784
2,25
12,8
50,7
48,6
26,45
39,2
3600
180
Según la fórmula 3.6:
s; = ¿,n;(X; - -X)2 = 955 = 47 75
n
20
'
Según la fórmula 3. 7:
5 2
X
= ¿,n;Xt
n
-(x) 2
=
36
ºº-(115) 2 =1 80 -132 1 25=47 1 75
20
'
Aplicando la fórmula 3.8:
2
"
2 -X
Sx2 =L,P;X;
=180 - ( 11,5)2 =180 - 132,25=47,75
Como se puede observar, la varianza, al basarse en diferencias al cuadrado, es un número positivo que se expresa en las unidades de la variable al cuadrado. Por ejemplo, supongamos que la variable X se mide en
metros. En este caso, las desviaciones de las puntuaciones con respecto
a la media
también vendr~n expresadas en metros, mientras
que al elevarlas al cuadrado, (x; - x) las unidades se elevan al cuadrado.
Por lo tanto, la varianza viene expresada en las mismas unidades que la
variable pero al cuadrado, en este ejemplo, en metros cuadrados. Con el
fin de lograr una medida de dispersión en las mismas unidades que la variable y que sea más fácilmente interpretable, se calcula la raíz cuadrada
de la varianza y se obtiene un índice que se denomina desviación típica.
(x; - x),
La desviación típica de un conjunto de n puntuaciones, que se representa por Sx, es la raíz cuadrada positiva de la varianza, y la fórmula
para calcularla es:
110
MEDIDAS DE VARIABILIDAD Y FORMA
Sx
= {sf = ~'I,(X;n- x)'
(3.9)
Tanto la varianza como la desviación típica son índices de dispersión
muy útiles en el desarrollo posterior de la estadística inferencia!, estando
en la base de numerosas técnicas estadísticas. Por lo general, a la hora de
cuantificar la variabilidad de los datos, la desviación típica se suele utilizar
más que la varianza debido a que se expresa en las mismas unidades de
medida que la variable objeto de estudio. Asimismo, ambos índices presentan una serie de propiedades de las que pueden destacarse las siguientes:
1. El cálculo de la varianza y la desviación típica, a diferencia de otros
índices de dispersión, requieren el uso de todas las puntuaciones
observadas en la distribución.
2. La varianza y la desviación típica miden la variabilidad de los datos
con respecto a la media aritmética, por lo que únicamente deben
aplicarse si es apropiado utilizar la media como medida de tendencia
central.
3. La varianza y la desviación típica siempre son no negativas, es decir,
pueden ser iguales o mayores que cero . Son iguales a cero únicamente si todas las puntuaciones son iguales entre sí . En este caso,
no habría variabilidad o dispersión en los datos. En el resto de los
casos, la varianza y la desviación típica son positivas, siendo sus
valores mayores a medida que aumenta la variabilidad de las puntuaciones.
4. Si a las puntuaciones de la variable X les aplicamos una transformación lineal: Y¡ = bX¡ + a la varianza de las nuevas puntuaciones
Y será 5 ~ = 2 5; y la desviación típica será S y =
S x · Es decir, si
a una variable X se le suma o resta una constante a , la varianza y
desviación típica de la variable original no se ven afectadas y siguen
siendo las mismas. En cambio, cuando multiplicamos los valores
de X por una constante b, la varianza queda multiplicada por la
constante al cuadrado y la desviación típica por el valor absoluto de
dicha constante.
b
lbl
Por último, otro índice de variabilidad relacionado con la varianza es la
cuasivarianza que se define como:
111
INTROOUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
2
I,(x¡ -x/
sn - 1 --- n -1
(3.10)
donde se divide por n - 1, en lugar den como en la varianza.
De forma análoga, la cuasidesviación típica se define como la raíz
cuadrada de la cuasivarianza.
5n - 1
_I _(x_i -_x_/
_ 1r2 _
- './~n -1 -
\
n- 1
(3.11)
La cuasivarianza y la cuasidesviación típica son medidas de dispersión
que se utilizan en inferencia estadística. En el Tema 10 se verá su utilidad
como estimadores de la varianza y de la desviación típica de la población,
respectivamente.
3.2.3. Coeficiente de variación
Es frecuente que uno de los objetivos del análisis descriptivo de los
datos sea la comparación del grado de variabilidad o dispersión entre
dos conjuntos de puntuaciones en una misma variable o en distintas variables. Debido a que, por lo general, las variables objeto de estudio se
miden en unidades distintas no tiene sentido compararlas en base a los
valores de sus varianzas o desviaciones típicas. Para paliar este inconveniente es necesario definir un índice de variabilidad relativa que no
dependa de las unidades de medida. Un coeficiente que cumple con estos
requisitos es el coeficiente de variación, que se expresa en porcentajes
y se define como:
CV
5
= .! -100
X
_ _ 11
112
(3.12)
MEDIDAS DE VARIABILIDAD Y FORMA
El coeficiente de variación está definido para variables con X > O y es
recomendable que su resultado se acompañe de la media y desviación
típica de la distribución a partir de las cuales ha sido calculado.
Es importante resaltar que, cuando comparamos dos conjuntos de
puntuaciones obtenidas de la misma variable, también es necesario el
coeficiente de variación para comparar la dispersión de ambas distribuciones. Únicamente es posible utilizar la desviación típica cuando la media
de ambos grupos es la misma y, en ese caso, llegaríamos a las mismas
conclusiones con ambos índices.
Ejemplo 3.5. En las siguientes tablas se muestran las puntuaciones
agrupadas en intervalos de la variable ansiedad ante los exámenes
para cada uno de los dos grupos del Ejemplo 2.3. del tema anterior.
Sabiendo que la media del Grupo 1 es 11,5 y la del Grupo 2 vale 7,75,
¿qué grupo presenta mayor variabilidad en su distribución con los
datos agrupados en intervalos?
Ansiedad ante los exámenes en el Grupo 1
x,
X
1 6 11 16 21 26 -
5
10
15
20
25
30
I
3
8
13
18
23
28
Ansiedad ante los exámenes en el Grupo 2
n;
X
5
6
3
1
1
1 6 11 16 21 26 -
20
I
4
5
10
15
20
25
30
X;
TI¡
3
8
13
18
23
28
8
8
2
1
1
o
20
Para comparar la variabilidad o dispersión de ambos grupos se utiliza
el coeficiente de variación. Para ello se necesita la media y la desviación típica en cada grupo.
Grupo 1 o grupo control:
X1
= 11,5 y
del ejemplo 3.4 se sabe que
S~ ¡ = 47, 75 ➔ Sx l = ,-!47, 75 = 6,91
Por tanto, el coeficiente de variación del Grupo 1 es igual a:
113
CV.1
5
61 91
X1
115
/
= 5 -100 =
x 100 = 60 089
'
Grupo 2 o grupo de tratamiento:
X2 = 7, 75
Para obtener el valor de la desviación típica, se calcula primero la
varianza del Grupo 2.
X
16 11 16 21 26 -
n,
x2¡
n,xf
3
8
13
18
23
28
8
8
2
1
1
9
64
169
324
529
784
512
338
324
529
L
20
X¡
5
10
15
20
25
30
o
72
o
1775
Según la fórmula 3.7:
2
¿,n-X
(- )2 1775 -(7,75)2=88,75-60,063=28,687
2
Sx =
~ ' - X =
20
2
5~ 2
= 28,687 ➔
5 X 2 = ✓28, 687 = 5, 35602 "' 5, 36
Por tanto, el coeficiente de variación del Grupo 2 es igual a:
CV2 =
5
5 36
x, -100 = ,
x 100 = 69, 16129 "' 69, 16
X2
7, 75
El porcentaje de variación del primer grupo en la variable ansiedad
ante los exámenes es del 60,09%, mientras que el del segundo grupo en la misma variable es del 69,16%. Por lo tanto, dado que el
coeficiente es mayor en el segundo grupo podemos concluir que el
grado de dispersión de los datos es mayor en el segundo grupo (el
que ha recibido el tratamiento o experimental), siendo el primer gru-
114
MEDIDAS DE VARIABILIDAD Y FORMA
po (grupo control) más homogéneo entre sí en las puntuaciones en
ansiedad ante los exámenes. Dicho de otra forma, los alumnos del
Grupo 2 difieren más entre sí en ansiedad ante los exámenes que los
del Grupo 1. Es interesante observar que si hubiésemos utilizado las
desviaciones típicas o las varianzas, que son superiores en el primer
grupo, se hubiese concluido erróneamente que la variabilidad es mayor en el primer grupo.
3.2.4. Am litud intercuartil
La varianza y la desviación típica, junto con la media aritmética, son
los estadísticos recomendados para estudiar la variabilidad y la tendencia central de una distribución de frecuencias. Sin embargo, como se ha
mencionado previamente, en ocasiones, y debido a la asimetría de la
distribución, no es aconsejable el uso de estos índices y debemos buscar
una alternativa. En estas circunstancias, un índice resistente de dispersión adecuado, que se utilizaría junto con la mediana como medida de
tendencia central, sería la amplitud intercuartil.
La amplitud intercuartil, A 1Q, o rango intercuartil es la diferencia
entre el tercer y el primer cuartil. Es decir:
(3.13)
Como se puede observar, este índice no informa de la variabilidad del
conjunto de puntuaciones, sino del 50% de las mismas comprendidas
entre el percentil 25 y el 75 de la distribución.
Ejemplo 3.6. En la siguiente tabla se muestran las puntuaciones
agrupadas en intervalos de la variable ansiedad ante los exámenes
de los 40 alumnos del Ejemplo 2.6 del Tema 2. ¿cuál es el valor de la
amplitud intercuartil de esta distribución?
115
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
X
26
21
16
11
6
1
-
30
25
20
15
10
5
x,
n,
n,,
28
23
18
13
8
3
1
2
4
8
12
13
40
39
37
33
25
I:
13
40
Cálculo del percentil 75:
n • k = 40 x 75 = 30
or lo que el intervalo crítico es [11-15] con
' p
na= 33, ne= 8 y nd= 25. Aplicando la fórmula:
100
100
= 10,5+ ( 30 - 25) x S=l0,5+3,125 = 13,625 "' 13,63
8
Cálculo del percentil 25:
n . k = 40 x 25 = 10 , por 1o que e1.1nterva 1o critico
, . es [1 -5 ] con
100
100
ne= 13 y nd=0
Aplicando la fórmula:
~
P2s= L;+
J· 1 = 0,5 + [ 4010~325 _ OJx 5 =
_n
lOOne
X
d
[
= 0, 5 +(~~) X 5 = 0, 5 + 3, 84615 = 4, 34615 "' 4, 35
Por lo tanto, la amplitud intercuartil es:
A1Q = Q3
116
-
Q1 =
P1s - P2s
= 13, 63 -
4, 35 = 9, 28
nª = 1 3 ,
MEDIDAS DE VARIABILIDAD Y FORMA
En el Apartado 3.4 de este capítulo se describirá un tipo de gráfico denominado diagrama de caja, que se basa precisamente en la amplitud intercuartil.
3.3. MEDIDAS DE FORMA
Otro aspecto importante a considerar en la distribución de frecuencias
es la forma que presenta la distribución. La forma se estudia a través de
dos propiedades, la asimetría y la curtosis. En el Tema 1 se ha visto como
mediante la representación gráfica se puede visualizar si una distribución
es más o menos simétrica, qué tipo de asimetría la caracteriza (positiva o
negativa) y el grado de apuntamiento de los datos. A continuación se van
a describir dos índices de asimetría y un coeficiente de curtosis, que aportan datos numéricos a ambas propiedades de la forma de la distribución.
3.3.1. Asimetría de una distribución
La asimetría de una distribución nos indica el grado en el que las puntuaciones se reparten por debajo y por encima de la medida de tendencia central. Existen diferentes índices para cuantificar esta propiedad, sin
embargo, en este apartado vamos a describir los dos índices de asimetría
que se utilizan con más frecuencia: el de Pearson y el de Fisher.
Índice de asimetría de Pearson: se basa en la relación entre la
media y la moda, y matemáticamente se expresa de la siguiente manera:
X - Mo
Ap = - - -
Sx
(3.14)
Se trata de un índice adimensional (no tiene unidades de med ida) que
se aplica a distribuciones unimodales (con una única moda). Cuando la
distribución es simétrica, la media y la moda co inciden, por lo que el
numerador se anula y el valor de Ap = O. En distribuciones con asimetría
positiva, la media es mayor que la moda, por lo que A p > O. Por otro lado,
cuando la asimetría es negativa, el valor de la moda es superior al de la
media y, en consecuencia Ap< O. En la Figu ra 3.2 se presenta la relación
117
INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
entre la representación gráfica de la asimetría de una distribución y el
índice de asimetría de Pearson.
30
25
20
n 15
10
5
o
1
2
3
4
6
X = Mo = 5
Distribución simétrica:
X=
7
9 X
8
Mo ⇒ Ap = O
30
25
20
n 15
10
5
o '-'-'----'---+--'--+'--'-'---'---+----'---'--~
1
4
Mo
5
6
7
8
9 X
= 2 X = 3,36
Asimetría positiva: X > Mo ⇒ Ap > O
30
25
20
n 15
10
5
L...._____.~-,
o '--"=--'---'-...c....__._....=.c+--=-'-==Y....'"""'-'""""t=-'----'
1
2
3
4
Asimetría negativa:
5
6
7
X = 6,64 Mo
X < Mo
9 X
=8
⇒ Ap < O
Figura 3.2. Relación entre la asimetría de una distribución y el índice de Pearson .
118
MEDIDAS DE VARIABILIDAD Y FORMA
Ejemplo 3.7. Con los datos del Ejemplo 3 .6, donde se muestran las
puntuaciones agrupadas en intervalos de la variable ansiedad ante
los exámenes para el total de los cuarenta alumnos, lcuál es el índice
de asimetría de Pearson y la representación gráfica de frecuencias?
X = 9, 625
Sx
= 6, 54
La moda Mo es el pu nt o med io del intervalo modal [1- 5] que es 3.
Por lo tanto,
Ap = X - Mo = 9,62 5 - 3 = 6,625 = l, Ol
Sx
6,54
6,54
El resu ltad o indica que la distribución presenta asimetría positiva,
resultado que concuerda con la inspección visual de la distribución de
frecuencias del diagrama de barras.
14
12
n;
10
8
6
4
2
o
3
Mo= 3
8
13
X = 9,625
18
23
28
A continuación se describe un segundo índice para cuantificar la asimetría de una distribución de frecuencias denominado Índice de asimetría
de Fisher. Se basa en las distancias de las puntuaciones respecto a su
media elevadas al cubo, por lo que su valor puede ser positivo, negativo
o cero. Su expresión matemática es:
119
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
(3.15)
Para el caso en que los datos se presenten en tablas de distribución de
frecuencias, su expresión es:
(3.16)
Este índice tiene en cuenta todas y cada una de las puntuaciones de
la muestra por lo que puede considerarse el mejor índice de asimetría. Al
igual que el índice de Pearson su valor es O si la distribución es simétrica
(AF= O); menor que O si la distribución es asimétrica negativa (A F< O); y
mayor que O si es asimétrica positiva (AF> O) .
Ejemplo 3.8. Partiendo de los datos del Ejemplo 3.3 de la distribución de frecuencias de la variable notas en el examen de lengua de
la PAU, calcule el índice de asimetría de Fisher para esa distribución.
Dado que los datos están agrupados en intervalos, se utiliza la fórmula 3.16
De los datos del Ejemplo 3.3 sabemos que X = 5, 9 y disponemos del
valor de la varianzas} = 3, 69, por lo que la desviación típica es:
S x = .j3, 69 =1, 92 ~ 5~ = 7,078
También se tiene la información de n; y de (x; - x). A partir de esa
información se construye una tabla con los datos que se van a necesitar para el cálculo del índice.
120
MEDIDAS DE VARIABILIDAD Y FORMA
Nota
(X,)
n,
1
2
4
5
6
7
8
9
10
1
1
1
8
5
7
8
7
1
1
L
40
3
(x, - x) (x, -xf n,(x, -x) 3
-4,9
-3,9
-2,9
-1,9
-0,9
0,1
1,1
2,1
3,1
4,1
-117,649
-59,319
-24,389
-6,859
-0,729
0,001
1,331
9,261
29,791
68,921
-117,649
-59,319
-24,389
-54,872
-3,645
0,007
10,648
64,827
29,791
68,921
-85,68
Sustituyendo:
AF =
~ n¡ (x; - ><)
L_;
n.
st
3
=
-
85 68
I
40 x 7,078
= - 85
I
68
283, 12
= - 0, 303
Su valor es negativo, y por lo tanto menor que O, por lo que es una
distribución asimétrica negativa.
3.3.2. A untamiento o curtosis de una distribución
Como ya se estudió en el primer tema, la curtosis se refiere al grado
de apuntamiento de los datos en la distribución de frecuencias. Tomando
como referencia la curva normal, que se estudiará en el Tema 8, la distribución puede adoptar tres formas diferentes: a) leptocúrtica: si la distribución es muy apuntada; b) platicúrtica: si es muy aplastada; y c) mesocúrtica: si muestra un grado de apuntamiento intermedi o.
A continuación se presenta un índice que cuantifica el grado de apuntamiento de la distribución de frecuencia s. El índice de curtosis se basa en
las distancias de cada puntuación respecto a la media elevadas a la cuarta
potencia, y matemáticamente se expresa co mo:
121
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
e =I
r
(X., - -X )4 n- 54X
3
i
(3.17)
Para el caso en que los datos se presentan en una distribución de frecuencias, su expresión es:
"'n-(x. - x)4 -
C = L..J,
r
1
n -54X
3
(3.18)
Una distribución en la que el índice sea O (Cr = O) se dice que es mesocúrtica y tiene un grado de apuntamiento similar al de la curva normal.
Si el índice es positivo (Cr > O) la distribución es leptocúrtica y el apuntamiento es mayor que en la distribución normal. Por el contrario, si el índice es negativo (Cr< O) la distribución es platicúrtica y el grado de curtosis
o apuntamiento es menor que en la curva normal.
Ejemplo 3.9. Siguiendo con los datos del Ejemplo 3.8, calcule el índice de curtosis para dicha distribución de frecuencias.
Disponemos de los siguientes datos:
5x
122
= 1, 92
por lo que 5i
= 13, 59; n = 40
MEDIDAS DE VARIABILIDAD Y FORMA
Nota
(X,J
n, (x, -X) (x,-x)4 n,(x, -x}4
1
2
3
4
5
6
7
8
9
10
1
1
1
8
5
7
8
7
1
1
¿
40
-4,9
-3,9
-2,9
-1,9
-0,9
0,1
1,1
2,1
3,1
4,1
576,48
231,344
70,728
13,032
0,656
0,0001
1,464
19,4480
92,352
282,576
576,48
231,344
70,728
104,256
3,281
0,0007
11,712
136,136
92,352
282,576
1508,866
Aplicando la fórmula 3 .18:
er =
¿,n; (x; - x)4
1508, 866
1508,866
-3=
-3=
- 3=
40
X
13,59
543,6
n •Si
= 2, 776 -
3
= - 0, 224 .
El índice es negativo (Cr< O), por lo que la distribución es platicúrtica y
el grado de curtosis o apuntamiento es menor que en la curva normal.
3.4. DIAGRAMA DE CA A
El diagrama de caja o también llamado gráfico de caja y bigotes (boxplots o box and whiskers) fue propuesto por Tukey ( 1977). Se trata de una
presentación visual que resulta útil para estudiar la asimetría de una variable cuantitativa, así como para detectar si hay valores extremos o atípicos (outliers) en la distribución de frecuencias (sin agrupar en intervalos).
El diagrama se representa mediante una caja rectangular (ver Figura
3 .3), cuya altura se corresponde con la amplitud o rango intercuartil
A1Q = Q 3 - Q 1 = P 7s - P 2s. Dentro de la caja se dibuja una línea para indicar
dónde se sitúa la mediana, que como ya se ha estudiado, coincide con el
segundo cuartil o Q 2 • La caja es atravesada por una línea vertical llamada
123
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
bigote, en cuyos extremos se sitúan los valores mínimos y máximos de
la variable (sin considerar los valores atípicos en caso de que existan).
Los límites que determinan si un valor es atípico se calculan multiplicando
la amplitud intercuartil (A 1Q) por 1,5 y restando este resultado al primer
cuartil Q 1 (cálculo del límite inferior) o sumándolo al tercer cuartil Q 3 (cálculo del límite superior). O lo que es lo mismo:
(3.19)
(3.20)
A continuación en la Figura 3.3, se representan la estructura y elementos que componen el diagrama de caja. Además de esta representación
vertical, el diagrama de caja también puede presentarse de forma horizontal girando la figura 90° hacia la derecha.
Atípico
.. o
max(X)lx:5 L5
1
1
Q3 (75%)
Mediana Q 2 (50%)
Q¡ (25%)
1
1
.L
min (X) lx
~ L1
Figura 3.3. Representación gráfica de un diagrama de caja y bigotes.
124
MEDIDAS DE VARIABILIDAD Y FORMA
Cuando existen casos extremos o atípicos, éstos aparecen como un
círculo pequeño por encima o por debajo de los bigotes del diagrama de
caja. En la Figura 3.3 se puede apreciar que en la parte baja de la distribución no hay casos atípicos (no figura ningún círculo por debajo del
bigote), mientras que se puede observar un caso atípico en los valores
altos, por encima del bigote superior.
Por otra parte, para estudiar la asimetría se va a tener en cuenta la
longitud de los bigotes y el número de casos atípicos en ambas colas de la
distribución: si los bigotes tienen la misma longitud y el mismo número de
casos atípicos en ambos lados, diremos que es aproximadamente simétrica. Por otro lado, si los bigotes son de igual longitud pero hay más casos
atípicos en un extremo en una cola de la distribución, entonces diremos
que la distribución presenta asimetría (Pardo, Ruiz y San Martín, 2009). Por
último, si los bigotes presentan diferente longitud estamos ante una distribución asimétrica, como es el caso que se ha representado en la Figura 3.3,
en el que la longitud del bigote superior es mayor que la del bigote inferior.
Ejemplo 3.10. Dibuje el diagrama de caja de la variable ansiedad
ante los exámenes para los Grupos 1 y 2 (ver Tabla 1.2 del Tema 1).
Se dispone de la siguiente información:
Grupo 1:
Grupo 2:
Ql = P25 = 5,5
Ql = P25 = 4,75
Q2 = Pso = 12
Q3 = P75 = 15,5
Q2=Psa=7,5
Q3 = P75 = 10,17
Amplitud Intercuartil:
A¡Q
= Q3 - Ql = 15,5 - 5,5 = 10
Amplitud Intercuartil:
A1Q=Q3-Q 1 = 10,17-4,75 = 5,42
Puntuación máxima= 30
Puntuación mínima= 3
Puntuación máxima = 22
Puntuación mínima = 2
Límites superior e inferior para el
cálculo de valores atípicos:
Límites superior e inferior para el
cálculo de valores atípicos:
L5 = Q 3 + A 1Q x 1,5 = 15,5 + 10 x
L5=Q3+A¡QX 1,5= 10,17+
X
1,5 = 30,5
+ 5,42
X
1,5 = 18,3
125
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
L1 = Q 1 - AIQ x 1, 5
X 1,5 = -9,5
= 5, 5 -
1Ox
L1 =Q 1 -A 1Qx 1,5=4,75- 5,42 X 1,5 = -3,38
Con esta información se pasa a dibujar el diagrama de caja de cada
grupo para la variable ansiedad ante los exámenes.
Diagrama de caja para la variable ansiedad ante los
exámenes Grupos 1 y 2
30
111
GJ
25
e
-
·-
.. -
GJ
E
,n:,
><
o
20
GJ
---
111
.5!
....eGJ
15
ra
"0
ra
"0
GJ
10
·¡¡¡
e
e(
5
o
1
2
Grupo
En el Grupo 1 no se observa ninguna puntuación fuera de los límites
inferior y superior, por lo que no hay ningún valor atípico. En el Grupo
2, sin embargo, la puntuación 22 está fuera del límite superior, siendo
un valor atípico. Por ello, la puntuación máxima que marca el límite
superior del bigote pasa a ser la inmediata inferior, la puntuación 17.
Con respecto a la asimetría, se observa que en ambos grupos la longitud del bigote superior es mayor que la del bigote inferior (especialmente en el Grupo 1). Esto indica asimetría en las distribuciones de
las puntuaciones en ansiedad en los dos grupos de personas.
126
MEDIDAS DE VARIABILIDAD Y FORMA
3.5. PUNTUACIONES TÍPICAS
Hasta ahora hemos tratado fundamentalmente con puntuaciones directas (puntuaciones de un sujeto en un test, etc.). Estos son los primeros datos de los que habitualmente disponemos, pero la comparación de
las puntuaciones directas de un mismo sujeto en dos variables distintas
puede llevarnos a confusión, ya que las puntuaciones directas nos ofrecen muy poca información. De hecho, conocida una puntuación directa
no sabemos si se trata de un valor alto o bajo porque esto depende del
promedio del grupo. Una solución a este problema es trabajar con puntuaciones diferenciales.
Si a una puntuación directa X; le restamos la media de su grupo obtenemos una puntuación diferencial o de diferencia, que representamos
por X; (minúscula) y que, por tanto, viene definida así:
1
x, =
x, -X
(3.21)
1
Las puntuaciones diferenciales aportan más información: nos indican si
la puntuación coincide con la media de su grupo, es inferior o es superior
a ella. Estas puntuaciones presentan las siguientes propiedades:
a) su media es cero: x
-
=O
LX; I(x; - x) LX; - IX LX; nX - = - - -- =--'---- = - - - - = X - X = o
n
n
n
n
n
X=-
b) la varianza de las puntuaciones diferenciales es igual a la varianza
de las puntuaciones directas:
2
S; = I(x; - x)2 = Ixf = _I_;_(x_;_-_x_;_)_ = si
n
n
n
Por tanto, al restar a las puntuaciones directas su media hemos obtenido una nueva escala con media O y con idéntica varianza a las puntua ciones directas. Sin embargo, dos puntuaciones diferenciales idénticas
pueden tener un significado muy diferente en función de la media y de
la varianza de las distribuciones de las que proceden. Para eliminar este
127
INTRODUCCIÓN A ANÁLISI DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
inconveniente se utilizan las puntuaciones típicas. Las puntuaciones típicas van más allá y nos permiten no sólo comparar las puntuaciones de
un sujeto en dos variables distintas, sino también comparar dos sujetos
distintos en dos pruebas o variables distintas.
Una puntuación típica o tipificada viene definida por:
X¡
z x=-=
5x
X; - X
(3.22)
5x
Al proceso de obtener puntuaciones típicas se llama tipificación. En
realidad una puntuación típica indica el número de desviaciones típicas
que se aparta de la media una determinada puntuación.
Las puntuaciones típicas tienen las siguientes propiedades:
a) su media es cero
b) su varianza es igual a 1
=
I(tJ
n
1 "
2
= ~ L.xi = _!_ ¿xf = _!_52 = 1
n
52
X
n
52
X
x
Las puntuaciones típicas reflejan las relaciones entre las puntuaciones
con independencia de la unidad de medida. Por este motivo permiten
hacer comparaciones entre distintos grupos e incluso entre distintas variables.
Ejemplo 3.11. Se presentan los datos del Ejemplo 3.2 de las puntuaciones de cinco alumnos en la variable ansiedad ante los exámenes, con media de X = 8. Se pide demostrar las propiedades de las
puntuaciones diferenciales y típicas señaladas anteriormente.
128
MEDIDAS DE VARIABILIDAD Y FORMA
Del Ejemplo 3.2 tenemos los siguientes datos de las puntuaciones
directas:
-
.
2
X= 8 , S x
= 24, 8
1 '
(x - i}2
X
ttl ~)
X == { X-X
5
13
4
15
3
-3
5
-4
7
-5
9
25
16
49
25
¿
o
124
Puntuaciones diferenciales:
a) su media es cero
- I,x
-3+5- 4 +7- 5
X = - - = - - -- - - = Ü
n
5
b) la varianza de las puntuaciones diferenciales es igual a la varianza de las puntuaciones directas
52
X
= I,(x - xf = 124 = 24,8
n
5
Como se puede observar, se cumplen las dos propiedades ind icadas
para las puntaciones diferenciales.
Puntuaciones típicas :
1
Z,t
,¡;
5
13
4
15
3
5
-4
7
-5
¿
o
-0 ,602
1,004
- 0 ,80 3
1,405
- 1, 0 04
o
2
(zx -zx)
0 ,362
1,008
0,645
1,974
1,008
4, 9 97
129
ION AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
x
X- X
Sx
Sx
zx=-=--
sx = -./24, 8 = 4, 98
a) su media es cero:
Zx = 2,Zx = - 0,602+1,004-0,803+1,405 n
5
1,004 =Q =O
5
b) su varianza es igual a 1:
s2
z
=
I. (z - z/
n
=
4, 997
=
o, 999 ,,,,
i
5
Se puede comprobar que también se cumplen las propiedades enunciadas para las puntuaciones típicas.
3.6. RESUMEN
En este tema se han examinado dos propiedades importantes de una
distribución de puntuaciones: la variabilidad o dispersión de los datos y la
forma de la distribución. Se han descrito las medidas de variabilidad que
se emplean habitualmente, haciendo hincapié en las dos más relevantes
en el campo de la estadística: la varianza y la desviación típica. Asimismo,
se ha presentado el coeficiente de variación, que resulta útil para el estudio comparativo de la variabilidad en diferentes conjuntos de puntuaciones. También se ha estudiado la amplitud intercuartil que es aconsejable
utilizar en el caso de distribuciones asimétricas.
La segunda propiedad descrita ha sido la forma de una distribución,
y se ha llevado a cabo a través del estudio de la asimetría o sesgo y
de la curtosis. Para cuantificar el grado de asimetría de una distribución
y determinar el tipo de asimetría, se han propuesto dos índices: el de
Pearson, basado en la relación entre la media y la moda del conjunto
de las puntuaciones, y el de Fisher, que se basa en las distancias de las
puntuaciones respecto a su media. A continuación, se ha presentado el
índice de curtosis, que evalúa el grado de apuntamiento de la distribución,
ofreciendo así otra manera de cuantificar la forma de una distribución.
130
MEDIDAS DE VARIABILIDAD Y FORMA
Seguidamente, se ha presentado el diagrama de caja que es un tipo
de gráfico que se basa en la amplitud intercuartil y tiene bastante utilidad
para estudiar la asimetría y los valores atípicos.
Por último, se han definido las puntuaciones diferenciales y las típicas
que se derivan de las puntuaciones directas de los sujetos a través de
una transformación. Se han estudiado las propiedades de cada tipo de
puntuación, así como la información que podemos obtener a partir de
ellas para poder comparar entre sí a los sujetos, o al mismo sujeto en
diferentes variables .
3.7. E ERCICIOS
3.1.
La varianza es una medida de dispersión que se basa en las desviaciones de cada puntuación con respecto a la: A) moda; B) mediana; C) media.
3.2.
La desviación típica de una distribución de frecuencias: A) se expresa en las mismas unidades de medida que las puntuaciones; B)
se expresa en las mismas unidades pero elevadas al cuadrado; C)
no tiene unidades de medida.
3.3.
En una distribución marcadamente asimétrica, se recomienda medir la dispersión de los datos con: A) la amplitud intercuartil; B) la
varianza; C) el coeficiente de variación.
3.4.
En el estudio de la asimetría de una distribución de frecuencias se
ha observado un A p= 0,80. La media de las puntuaciones es: A)
igual que la moda; B) menor que la moda; C) mayor que la moda .
3.5.
En una distribución en la que el índice de curtosis es negativo
(Cr < O), la distribución es: A) leptocúrtica y el apuntamiento es
mayor que en la distribución normal; B) mesocúrtica y el grado
de apuntamiento es similar al de la curva normal; C) platicúrtica
y tiene un menor grado de apuntamiento que la distribución normal.
3.6.
La variable X toma los siguientes valores: 50, 26, 35, 64, 34, 28 ,
73, 45, 48, 52, 54, 67. Sabiendo que la media es 48, la varianza es
igual a: A) 15; B) 213; C) 115.
3.7.
Con los datos de la Gráfica 1, la desviación t ípica es igual a: A) 1,98;
B) 2,53; C) 3,88 .
131
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
3.8.
3.9.
Con los datos de la
Gráfica 1, el valor del
índice de asimetría de
Pearson es: A) -0,09;
B) -0,19; C) -0,18.
Con los datos de la
Gráfica 1, el índice de
asimetría de Fisher es:
A) 0,28; B) 0,07; C)
0,37.
3.10. Con los datos de la
Gráfica 1, el índice de
curtosis tiene un valor
de: A) - 0,17; B) 0,38;
C) 0,08.
La sigu iente gráfica (Gráfica 1) se corresponde
con las notas en Lengua de 80 niños de una clase
de Primaria. Se sabe que la media es 4,625.
21
20
19
18
17
16
15
14
13
12
11
e: 10
9
8
7
6
3.11. Con los datos de la
Gráfica 1, a un sujeto
con una puntuación de
X= 7, ¿qué puntuación
típica le corresponde?:
A) 0,61; B) 1,20; C)
2,37.
s
4
3
2
2
3
4
5
6
7
8
9
10
X
3.12. Según la información
que se aporta en la Gráfica 1, ¿cuál es el coeficiente de variación
de la distribución de frecuencias?: A) 83,80; B) 46,32; C) 42,81.
3.13. De acuerdo con los datos de la
Gráfica 1, la amplitud intercuartil es
igual a: A) 3,56; B) 1,35; C) 2,69.
3.14. Con los datos de la Tabla 1, la desviación típica es: A) 13,96; B) 194,75;
C) 6,50.
3.15. Siguiendo con los datos de la Tabla 1,
¿es exactamente simétrica la distribución?: A) sí; B) no, es ligeramente
asimétrica positiva; C) no, es ligeramente asimétrica negativa.
132
En la tabla adjunta (Tabla 1) se
muestra la variable edad agru pada en intervalos. La media de
esta variable es de 50.
66-75
56-65
46-55
36-45
26- 35
7
7
13
3
10
MEDIDAS DE VARIABILIDAD Y FORMA
3.16. Según la distribución de la variable edad mostrada en la Tabla 1,
un sujeto con 55 años tiene una puntuación diferencial de: A) -5;
B) 5; C) O.
3.17. Si se compara la variabilidad de las distribuciones de frecuencias
en la variable notas en Lengua (Gráfica 1) y en la variable edad
(Tabla 1), se concluye que la dispersión: A) es mayor en la puntuación en Lengua; B) es mayor en la variable edad; C) es la misma
en ambas variables.
3.18. El índice de asimetría de Pearson NO se puede calcular cuando: A)
la variable es continua; B) la distribución es bimodal; C) la amplitud total es superior a diez.
3.19. Señala cuál de estas afirmaciones NO es correcta: A) la media de
las puntuaciones diferenciales es O; B) la varianza de las puntuaciones diferenciales es siempre igual a 1; C) la varianza de las puntuaciones diferenciales es igual a la varianza de las puntuaciones
directas.
3.20. Si realizamos la siguiente transformación lineal con las puntuaciones típicas, V= 14 + 4z, la varianza de la variable V será: A) 14; B)
4; C) 16.
3.8. SOLUCIONES A LOS EJERCICIOS
3.1.
Solución: e
La varianza mide la dispersión de los datos con respecto a la media,
tal y como se puede apreciar en su fórmula (ver Apartado 3.2.2)
3.2.
Solución: A
La desviación típica, a diferencia de la varianza, se expresa en las
mismas unidades que la variable medida (ver Apartado 3.2.2)
3.3.
Solución: A
En una distribución asimétrica no es recomendable utilizar la media
como medida de tendencia central. Como consecuencia, la varianza, que se basa en la variabilidad con respecto a la media, tampoco
es recomendable. Una alternativa es la amplitud intercuartil, un
índice resistente de dispersión (ver Apartado 3.2.4).
133
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
3.4.
Solución: e
Tal y como se indica en el Apartado 3.3.1, cuando el índice de asimetría de Pearson es positivo (Ap= 0,80), la media es mayor que
la moda.
3.5.
Solución: e
Tal y como se indica en el Apartado 3.3 .2, cuando el índice de curtosis es negativo (Cr< O), la distribución es platicúrtica y tiene un
menor grado de apuntamiento que la distribución normal.
3.6.
Solución: B
- X)
(X;
X;
(x; -x)2
x2¡
50
26
35
64
34
28
73
45
48
52
54
67
2
-22
- 13
16
- 14
-20
25
-3
4
484
169
256
196
400
625
9
o
o
4
6
19
16
36
361
2500
676
1225
4096
1156
784
5329
2025
2304
2704
2916
4489
¿
o
2556
30204
X = 48
52
X
= ¿_(X¡ - 48)2 = 2556 = 213
12
s; = L12x¡ - 48
134
12
2
= 30204 - 2304 = 2517 - 2304 = 213
12
MEDIDAS DE VARIABILIDAD Y FORMA
3.7.
Sol ución: A
X;
n;
x?-I
n;Xf
10
1
2
4
5
12
20
12
100
81
64
49
36
25
16
9
4
1
100
162
256
245
432
500
192
99
36
4
9
8
7
6
5
4
3
2
1
11
9
4
¿
80
2026
X = 4,625
52
X
= 2, n;X ;2 - (4 625)2 = 2026 - 21 39 = 3 935
80
1
1
80
1
Sx = ..}3, 935 = 1,984 "' 1, 98
3.8.
Solución: B
X = 4,625
Mo = 5
Í ndice de Pearson Ap
=
X - Mo
Sx
=
4, 625 - 5 - 0, 375
=
=
1, 98
1,98
= - 0, 189 "" - 0, 19
3.9.
Solución: A
X = 4,625;
Sx = 1, 98;
s; = 7,762
135
INII
AF =
1
NALI
NA
1 DAr
1
(X;)
n,
10
9
8
7
6
5
4
3
2
1
1
2
4
5
12
20
12
L
80
¿,n¡ (xi
11
9
4
- x)3
3
n . 5X
=
n;
10
1
2
4
5
12
20
12
11
9
4
9
8
7
6
5
4
3
2
1
L
80
A ION SEN PSICOLOGIA Y CIENCIAS DE LA SALUD
5,375
4,375
3,375
2,375
1,375
0,375
-0,625
-1,625
-2,625
-3,625
155,287
83,74
38,443
13,396
2,6
0,053
-0,244
-4,291
-18,088
-47,635
221,9
n;(X; -
x)3
155,287
167,48
153,772
66,98
31,2
1,06
-2,928
-47,201
-162,792
- 190,54
173,318
173,318 = 173,318 = O 279 "" O 28
1
1
80 X 7, 762
620, 96
1,98;
X;
I
(x; - x) (x; - x)3
3.10. Solución: A
X= 4,625; S x
!A
s:
=
15,37
(x 1 - x) (x; - x)4
5,375
4,375
3,375
2,375
1,375
0,3 75
- 0,625
-1,625
-2,625
- 3,625
834,668
366,364
129,746
31 ,817
3,574
0,02
0,153
6,973
47,48
172,676
n;(X;
- x)4
834,668
732,728
518,984
159,085
42,888
0,4
1,836
76,703
427,32
690,704
3485,316
Aplicando la fórmula del índice de curtosis tenemos que:
136
MEDIDAS DE VARIABILIDAD Y FORMA
C =
r
-xt
¿,n¡ (xí
n-s:
-3 = 3485, 316 -3 = 3485,316 -3 = 2 835 - 3 =
80 x 15,37
1229,6
'
= -0, 165 "" -0, 17
Dado que el índice se aproxima a O, el grado de apuntamiento es
muy próximo al de la curva normal.
3.11. Solución: B
X = 4,625; S x = 1,98;
3.12. Solución:
z x =X-X =
7
sx
X
1 98
•
x 100 = 42,81
4,625
e
X;
n;
n"
10
1
2
4
5
12
20
12
80
79
9
8
7
6
5
4
3
2
1
77
73
68
56
36
24
11
9
4
¿
Ql
4 625
,
= 1,199 "" 1,20
1, 98
e
X = 4,625; Sx= l,98; CV =~x lOO =
3.13. Solución:
-
13
4
80
= p 25 :
n . 25
80X 25
- = - =
20 , por 1o que e 1 interva
.
1o critico
, .
es [2 , 5 - 3 ,5 ] con
100
nª = 24, ne= 11 y nd = 13 (ver fila para X= 3 en la tabla):
100
p2 5
= L, + (
~ot
nd
} ¡
= 2,
s
8
+[-
1
13
- x 1 = 3, 136
-=~=~-=--i-:---
= 3, 14
137
INTRODUCCIÓN Al ANÁLI SIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
= P 75:
Q3
n. 75 = 80 . 75 = 60 , por 1o que e 1 1nterva
.
1o critico
, .
es [5 , 5 - 6 , 5] con
100
100
n 0 = 68, ne= 12 y nd = 56 (ver fila para X= 6 en la tabla):
P,s =
A¡Q =
f l
º~,-
½
n
'
8
I= 5, 5 + ( -
56
- ) x 1 = 5,833 = 5, 83
-~-~º-:-:---
Q3 - Ql = 5, 83 - 3, 14 = 2, 69
3.14. Solución: A
X;
X;
n;
x?-,
n;X{
66-75
56-65
46-55
36-45
26- 35
70,5
60,5
50,5
40,5
30,5
7
7
4970,25
3660,25
2550,25
1640,25
930,25
34791,75
25621,75
33153,25
4920,75
9302,50
I:
13
3
10
40
107790
X = 50
5 2 = ¿n;X( - (50 )2 = 107790 - 2500 = 1941 75
40
X
Sx
40
= ✓194, 75 = 13, 95528 "" 13, 96
3.15. Solución: e
A = X - Mo = 50 - 50, 5 = - O 036
Sx
P
13,96
'
3.16. Solución: B
X
=
50;
X; =
X; - X = 55 - 50
=
5
3.17. Solución: A
Coeficiente de variación de Lengua: CVL = 42 ,55 (ver Ejercicio 3.12)
138
MEDIDAS DE VARIABILIDAD Y FORMA
Coeficiente de variación de edad:
.
.
Sx
13,96
X= 50, Sx = 13,96, CVE =-=- -100 = - - x 100
X
50
= 27,92
Dado que CVL > CVE, existe mayor dispersión en la distribución de
las puntuaciones en Lengua.
3.18. Solución: B
El índice de asimetría de Pearson se puede calcular en variables
continuas y con cualquier valor en su amplitud total. En cambio, no
se puede calcular cuando la distribución es bimodal (ver Apartado
3.3.1.2).
3.19. Solución: B
La varianza igual a 1 se corresponde con una de las propiedades de
las puntuaciones típicas, no de las diferenciales (ver Apartado 3.5).
3.20. Solución: e
Tenemos una puntuación típica z y la transformamos en otra puntuación V. En concreto, hacemos una transformación lineal del
tipo: V= a +bz, donde a= 14 y b=4 .
Nos preguntan cuánto vale la varianza de esta nueva variable .
Según la propiedad 4 de la varianza: Si a las puntuaciones de la variable X les aplicamos la siguiente transformación lineal : Y¡ = bX¡ + a
la varianza de las nuevas puntuaciones Y será
= b2 S } .
s;
Además, la varianza de las puntuaciones típicas es 1 (propiedad de
las puntuaciones típicas).
Por tanto, si V = 14 + 4z ⇒
sB= 4 s; = 16 x 1 = 16
2
•
139
TEMA4
Relación entre variables 1
4.1. INTRODUCCIÓN
4.2. ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS
4.2.1. Tabla de contingencia
4.2.2. Representación gráfica: diagrama de barras
conjunto
4.2.2.1. Diagrama de barras adosadas
4.2.2.2. Diagrama de barras apiladas
4.2.3. Medidas globales de asociación entre variables
cualitativas
4.2.3.1. Independencia yx2
4.2.3.2. Coeficiente C de Contingencia
4.2.3.3. Coeficiente V de Cramer
4.2.3.4. Coeficiente <p
4.3. RELACIÓN ENTRE VARIABLES ORDINALES
4.3.1. Coeficiente de correlación por rangos de
Spearman
4.4. RESUMEN
4.5. EJERCICIOS
4.6. SOLUCIONES A LOS EJERCICIOS
RELACIÓN ENTRE VARIABLES 1
4.1. INTRODUCCIÓN
En los tres primeros temas del libro se ha presentado la manera de
describir las propiedades de una variable: la tendencia central, la variabilidad y la forma (asimetría y curtosis). En el Tema 1 se realizó un primer
acercam iento a estas propiedades de manera gráfica, y en los Temas 2
y 3 de manera analítica (mediante los índices que cuantifican estas propiedad es). Sin embargo, en Psicología como en cualquier otra ciencia , lo
m ás habitual es tratar de resolver problemas en los que están implicados
mú ltiples variables.
Est ud iar conj untam ente m ás de una variable nos va a perm iti r responder a preg untas com o : LHa y relación en t re el sexo de los pacientes y el
trastorno psicológico que padecen? ¿Hay relación entre la motivación y
el rendimiento académico de los estudiantes en una determinada asignatura? ¿La motivación de los estudiantes predice su rendimiento? ¿Hay
relación entre la puntuación obtenida por los estudiantes en una pregunta
del examen y la puntuación obtenida en todo el examen? ¿Hay relación
entre el tipo de terapia utilizada para combatir la ansiedad generalizada y
la mejoría de los pacientes?
Al igual que en la descripción de una única variable, el procedimiento a
utilizar es diferente en función del tipo de variables que se trate.
■
Ambas variables son cualitativas
¿Hay relación entre el sexo de los pacientes y el trastorno psicológico
que padecen?
Lo que se cuestiona aquí es si la proporción o porcentaje de hombres
y mujeres es igual en todos los trastornos. La pregunta es si existe
o no cierta relación o asociación entre las variables que hace que el
valor que adopte una de ellas (sexo) se asocie en alguna medida con
determinados valores de la otra (trastorno psicológico). El estadístico
que se utiliza para comprobar si existe esa relación o, por el contra rio, son variables independientes es x2 , junto a algunos coeficientes
que permiten valorar la fuerza de la asociación entre dichas variables.
■
Ambas variables son ordinales
Su tratamiento dependerá de la cantidad de valores que adopten
ambas variables: si es un número muy reducido, entonces se utilizarán los mismos procedimientos que para variables cualitativas y
143
IN II JU
Aro : APLICACIONES EN PSICOLOGÍA y CIENCIAS DE LA SALUD
si es amplio se utilizarán índices estadísticos adaptados para este
tipo de variables, como el coeficiente de correlación por rangos de
Spearman.
■
Ambas variables son cuantitativas
¿Hay relación entre la motivación y el rendimiento académico de los
estudiantes en una determinada asignatura?
- En este caso, lo que se realmente se cuestiona es si al aumentar
la motivación de los estudiantes se incrementa también su rendimiento y, a la inversa, si al disminuir su grado de motivación
también lo hace correlativamente su rendimiento académico. El
coeficiente de correlación momento-producto de Pearson es el
índice más utilizado para apresar la relación entre este tipo de
variables .
- En el caso de encontrar relación entre esas dos variables, se puede ir un paso más allá y predecir una variable en función de la
otra. Así, se podría pronosticar el rendimiento en una determinada
asignatura, en función de la motivación de los estudiantes, o mejor aún, en función de su motivación y Cociente Intelectual (CI)
mediante el análisis de la regresión.
■
Una variable es cualitativa y otra cuantitativa
- ¿Hay relación entre la puntuación obtenida por los estudiantes en
una pregunta del examen y la puntuación obtenida en todo el examen?
En este caso de lo que se trata es de saber en qué medida esa pregunta contribuye a medir lo mismo que el examen en su conjunto.
Para ello, se puede utilizar el coeficiente de correlación biserial
puntual, que está muy directamente relacionado con el coeficiente
que cuantifica la relación entre dos variables cuantitativas ( el coeficiente de correlación momento-producto de Pearson) .
- ¿Hay relación entre el tipo de terapia utilizada para combatir la
ansiedad generalizada y la mejoría de los pacientes?
Si se desea saber qué terapia resulta más eficaz se puede aplicar
a un grupo de pacientes la terapia cognitivo conductual (grupo
A) y a otro grupo de pacientes similares la terapia de aceptación
y compromiso (grupo B) y ver en qué grupo de pacientes se han
obtenido mejores resultados al finalizar el tratamiento. Para ello,
144
RELACIÓN ENTRE VARIABLES 1
habrá que comparar la ansiedad de los pacientes en los grupos A y
B (su media y/o variabilidad) para ver si hay diferencias relevantes
o significativas entre uno y otro grupo y, con ello, ver si la eficacia
de una terapia es mayor que la de la otra.
En este tema veremos la relación que hay entre dos variables cualitati vas y entre dos variables ordinales. En el próximo tema examinaremos
la relación entre dos variables cuantitativas y entre una cuantitativa y
otra cualitativa, introduciendo también el análisis de la regresión. En el
próximo curso se verán algunas técnicas de estadística inferencia! que,
basándose en los índices aquí aprendidos, permitirán tomar decisiones
sobre la relevancia del grado de relación entre las variables.
Para estudiar dos variables cualitativas, se utilizarán tres estrategias
relacionadas: la tabla de contingencia, el análisis gráfico y los índices globales de asociación.
■
La tabla de contingencia proporciona una forma resumida de repre sentar los datos de las dos variables que se quieren estudiar. Además
de informar sobre las frecuencias conjuntas (de ambas variables) y
marginales (de cada una de las dos variables por separado), permite
valorar la relación de ambas variables mediante el estudio de las
distribuciones condicionadas de una de las dos variables agrupadas
en función de los valores de la otra .
■
Los diagramas de barras conjuntos son la representación gráfica
apropiada para este tipo de variables. Se verán los dos más habituales, el diagrama de barras adosadas y el diagrama de barras apiladas.
■
El estadístico x2 se utilizará para comprobar la independencia entre
dos variables cualitativas. Además, se proponen varias medidas globales para valorar la fuerza de la asociación entre las variables estudiadas: el coeficiente C de Contingencia, el coeficiente V de Cramer,
y el coeficiente cp . Estos índices, basados en el estadístico x2 , tratan
de superar algunas de sus limitaciones.
En el caso de variables ordinales se estudiará el coeficiente de correla ción por rangos de Spearman y su interpretación.
145
IN IR
U CIÓN AL ANAUSIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Objetivos del tema:
■
Saber realizar una tabla de contingencia a partir de una tabla de
datos de dos variables cualitativas.
■
Adquirir la habilidad de leer la información proporcionada por una
tabla de contingencia, interpretando los datos que aparecen en
ella.
■
Distinguir y saber calcular los tres tipos de porcentajes que pueden
aparecer en una tabla de contingencia (porcentajes del total, condicionados a X y condicionados a Y).
■
Saber representar en diagramas de barras conjuntos los datos relativos a dos variables cualitativas.
■
Utilizar el índice
cualitativas.
■
Calcular algunos coeficientes de asociación entre variables cualitativas que superan las limitaciones de x2 , y se utilizan para valorar
el grado de relación entre las variables: C de Contingencia, V de
Cramer y <.p.
■
Saber utilizar un índice apropiado para valorar la relación entre
variables ordinales: el coeficiente de correlación de Spearman.
x2
para evaluar la independencia entre variables
4.2. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS
Según se vio en el primer tema, una variable es nominal o cualitativa
cuando a lo largo de ella sólo es posible establecer categorías no ordenadas; es decir, categorías cuyas posiciones pueden ser intercambiadas
arbitrariamente . Estas variables pueden ser a su vez dicótómicas, cuando
sólo presentan dos categorías (por ejemplo, el sexo), o politómicas cuando presentan un mayor número (por ejemplo, el estado civil). También se
considerarán cualitativas aquellas variables que, en un principio, tienen
un mayor nivel de medida (ordinal, intervalos o razón) pero, a posteriori,
han sido categorizadas.
Se dice que hay asociación entre dos variables si existe algún tipo de
tendencia o patrón de emparejamiento entre los distintos valores de esas
variables. De manera más formal, la existencia de asociación entre dos
variables indicaría que la distribución de los valores de una de las dos va-
146
RELACIÓN ENTRE VARIABLES 1
ri ables difiere en función de los valores de la otra. Por ejemplo, si nos inte resa conocer la relación entre la nacionalidad de los turistas que vienen
a veranear a España y el tipo de alojamiento que utilizan, podríamos decir
que hay relación entre ambas variables si el tipo de alojamiento elegido
varía en función de la nacionalidad.
En la presentación de los contenidos de este tema también se van a
utilizar algunas de las variables de la Tabla 1.2 del Tema 1, en la que se
m uestran los datos de 40 estudiantes. De esas variables hay cuatro que
son nominales: identificación (ID), grupo, sexo y bachillerato elegido . La
variable ID es una variable de identificación, por lo que no tiene interés
estudiar su relación con otra variable . Sin embargo, el estudio de la relación entre el resto de variables sí podría tener interés . En el Ejemplo
l. l. se ha asignado de manera aleatoria a la mitad de los estudiantes al
grupo control y a la otra mitad al grupo experimental. Es habitual que el
investigador compruebe que los dos grupos formados al azar están equili brados en alguna variable de interés. Por ejemplo, interesa comprobar
si hay algún tipo de asociación entre sexo y grupo, o dicho de otra forma,
ver si en ambos grupos hay un porcentaje similar de hombres y mujeres.
Si nos fijamos en la Tabla 1.2 hay 40 filas, una por cada estudiante, y en
cada columna se reflejan los valores de las variables del estudio (las varia bles grupo y sexo están situadas en las columnas 2 y 3). Los datos, tal y
como aparecen en esta tabla, resultan poco útiles para hacerse una idea del
reparto de hombres y mujeres entre los dos grupos. Tampoco serviría uti liza r una distribución de frecuencias (como las vistas en el Tema 1) ya que
se precisa información de las dos variables de manera conjunta. En estos
casos hay que utiliza r una tabla de contingencia o tabla de doble entrada .
4.2.1. Tabla de contingencia
Una tabla de contingencia es una forma de ordenar los datos para
estudiar la relación entre variables con pocas categorías . En realidad, no
es más que una distribución de frecuencias clasificada de acuerdo a los
valores que pueden tomar las dos variables. Por eso, se sitúan los valores
de una de las variables en las filas y los valores de la otra variable en las
columnas. En la Tabla 4.2 se han situado los dos posibles valores (hombre
y mujer) de la variable sexo en las filas, y los dos posibles valores (grupo
control y grupo experimental) de la variable gr upo en las columnas. Cada
147
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
celdilla representa la frecuencia o número de elementos que reúne a la
vez los valores de las dos variables que se cruzan en cada casilla.
En el ejemplo que nos ocupa, partimos de la tabla de resultados de la
izquierda ( con los datos de las columnas relativas a grupo y sexo de la
Tabla 1.2) para, contando los casos que corresponderían a cada celdilla,
ir construyendo la tabla de doble entrada. Según se codificaron los datos
de la Tabla 1.2, en la variable sexo se asignó el valor 1 a los hombres y el
valor 2 a las mujeres, y en la variable grupo se asignó el valor 1 al grupo
control y el valor 2 al grupo experimental.
Tablas 4.1 y 4.2. Datos de las variables sexo y grupo y su tabla de contingencia
correspondiente.
Sexo Gru~o
1
1
1
1
2
1
1
1
2
1
1
1
1
1
2
1
1
1
2
1
2
1
1
1
1
1
2
1
1
1
1
1
1
2
2
1
1
2
1
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
148
Grupo (Y)
♦
Control
Experimental
Hombre
14
9
23
Mujer
6
11
17
20
20
40
Sexo (X)
RELACIÓN ENTRE VARIABLES 1
Como puede observarse en la Tabla 4.2, hay 14 hombres asignados al
grupo de control, 9 al grupo experimental, 6 mujeres asignadas al grupo
control y 11 al experimental. Como se indica en la Tabla 4.3, estos cuatro
valores son frecuencias conjuntas, porque en ellas se toma en consideración uno de los valores de las dos variables; así, 14 son el número
de personas que adoptan el valor 1 (hombre) en la variable sexo y que
adoptan el valor 1 (control) en la variable grupo. Las frecuencias marginales son los totales de cada valor de una única variable. Por ejemplo, 23
es el total de hombres de la muestra (con independencia del grupo al que
han sido asignados) y 17 es el total de mujeres. En cuanto a la variable
grupo, sus frecuencias marginales son 20 y 20, que se corresponde con la
asignación al azar de la mitad de la muestra a cada grupo llevada a cabo
en el Ejemplo l. l. La suma de las frecuencias marginales de cada variable
tiene que ser igual al total de la muestra. Así, en el caso de la variable
sexo 23 + 17 = 40, y en el caso de la variable grupo 20 + 20 = 40.
Tabla 4.3. Frecuencias de la tabla de contingencia con las variables sexo y grupo.
Grupo (Y)
Control
Experimental
Sexo (X)
Frecuencias conjuntas
Frecuencias marginales de Y
Frecuencias marginales de X
Atendiendo a la tabla de contingencia se observa que hay más hombres
en el grupo control que en el grupo experimental, mientras que en el caso
de las mujeres, hay un mayor número asignado al grupo experimental.
Es muy frecuente tener más de dos categorías en alguna de las variables. El formato general de una tabla de contingencia es el mismo,
añadiendo filas o columnas, y calculándose las distintas frecuencias de la
forma indicada (ver Tabla 4.4).
149
INTRODUCCIÓN AL ANÁll I DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla 4 ,4,
bl de conting encia para el caso general.
¡
Variable Y
Total
Yi
n12
...
nlj
nl +
n22
...
n2j
n2+
nu
n;+
n+i
n
Y2
X¡
nu
X2
n 21
Variable X
,,
1
.. .
'~\¡
X¡
,11
Total
Siendo x 1 , ... ,
,;
''1
...
Y1
11¡
"
},),
"
X;,
n;1
n;2
n +l
n+2
...
...
los distintos valores de la variable X;
y 1 , .. . , Yj, los distintos valores de la variable Y
En la Tabla 4.4 aparecen varios tipos de frecuencias absolutas:
■
La frecuencia absoluta de cada casilla o celda que surge de la distribución conjunta por combinación de dos valores: número de casos
que comparten dos características a la vez (n;)·
■
La frecuencia absoluta total de cada valor o categoría de la variable.
El conjunto de estos valores dan la distribución marginal absoluta:
número de casos que tienen una característica, de la variable X o fila
(n;+) o de la variable Y o columna (n+)·
■
El total de casos analizados es n o n ++ , de una muestra de la pobla ción, o del total de unidades de la población.
Todas las frecuencias que aparecen en las tablas de contingencia anteriores son frecuencias absolutas (n ;), pero de manera habitual, las tablas
de contingencia se presentan además con información de los porcentajes.
Hay tres tipos de porcentajes conjuntos que se pueden utilizar en una
tabla de contingencia:
■
Porcentaje del total (P;): es el número de casos de cada celdilla dividido por el total de casos (n) y multiplicado por 100.
■
Porcentaje condicionado a X; o porcentaje por fila: es el número de
casos de cada celdilla dividido por el total de casos por fila y multiplicado por 100. El conjunto de estos valores se denomina distribución condicional de filas.
150
RELACIÓN ENTRE VARIABLES 1
■
Porcentaje condicionado a Y1 o porcentaje por columna: es el número
de casos de cada celdilla dividido por el total de casos por columna
y multiplicado por 100. El conjunto de estos valores se denomina
distribución condicional de columnas.
Tabla 4.5. Tabla de contingencia de las variables sexo y grupo con porcentajes.
Grupo (Y)
Total
Control
Experimental
Hombre
niJ
PiJ del total
P¡ por Sexo
Pj por Grupo
14
35%
60,87%
70%
9
22,5%
39,13%
45%
23
57,5%
100%
57,5%
Mujer
niJ
PiJ del total
P¡ por Sexo
Pj por Grupo
6
15%
35,3%
30%
11
27,5%
64,7%
55%
17
42,5%
100%
42,5%
niJ
20
50%
50%
100%
20
50%
50%
100%
40
100%
100%
100%
PiJ del total
P¡ por Sexo
Pj por Grupo
Para calcular el porcentaje condicionado a X; (o porcentaje por fila) hay
que establecer la condición previa de pertenecer a uno de los dos valores
de X;, Por ejemplo, en la Tabla 4.5, hay que fijarse en la primera fila, que
son 23 hombres. Calculando solamente dentro de esta fila, la distribución
de porcentajes para los dos grupos son 60,87% hombres asignados al
grupo control y 39,13% hombres asignados al grupo experimental. Estos
dos porcentajes suman 100, ya que para su cálculo estamos considerando únicamente a los hombres. Se puede hacer lo mismo para el total de
mujeres, que son 17, encontrando que, de ellas, el 35,3% han sido asignadas al grupo control y el 64,7% al grupo experimental.
Para calcular el porcentaje condicionado a y1 (o porcentaje por columna) hay que establecer la condición previa de pertenecer a uno de los dos
valores de y1. Por ejemplo, en la primera columna de la Tabla 4.5, hay 20
personas asignadas al grupo control. Calculando los porcentajes dentro
de esta columna, tenemos que el 70% son hombres y el 30% son mujeres. Al igual que en el caso anterior, estos dos porcentajes suman 100,
ya que para su cálculo estamos considerando únicamente a las personas
151
IN 11 111 UCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
asignadas al grupo control. Del total de personas asignadas al grupo experimental (20), el 45% son hombres y el 55% son mujeres.
Al considerar los porcentajes para interpretar la relación entre las variables hay que tener en cuenta si la relación entre las variables es simétrica o asimétrica. En una relación asimétrica una de las dos variables
se considera como factor explicativo de la distribución de la otra variable,
mientras que en una relación simétrica, no existe esa distinción. En el
Ejemplo de la Tabla 4.5, la relación entre las variables sexo y grupo es
simétrica, porque no cabe esperar que una de ellas influya en la otra {la
asignación a los dos grupos se hizo al azar).
En una relación asimétrica los porcentajes se calculan en el sentido de
la variable explicativa, por lo que la suma de los porcentajes en cada categoría de la variable explicativa referidos al total marginal de esa categoría
será el 100%. Dicho de otra forma, si la variable explicativa se sitúa en
las columnas de la tabla de contingencia, para hacer las comparaciones
se calcularán los porcentajes por columna. En una relación simétrica se
puede utilizar cualquiera de los porcentajes.
Cada uno de los tres tipos de porcentajes vistos pone el énfasis en una
distribución diferente y ofrece comparaciones distintas, según el sentido
de la predicción . La utilización de los porcentajes permite eliminar la influencia del tamaño de la muestra y del tamaño de los marginales, por lo
que se pueden realizar comparaciones entre valores de las distribuciones
condicionadas, y esta comparación indica la existencia de relación o no
entre las variables , así como la naturaleza de la relación.
Las definiciones de los conceptos más relevantes vistos son:
Frecuencias conjuntas (n;i) : número de individuos que toman el
valor X; en la variable X, e y1 en la variable Y. La suma de todas las
frecuencias conjuntas representa el total de la muestra (n).
Frecuencias marginales: son los totales de cada valor de una única
variable. Hay frecuencias marginales de la variable X y frecuencias
marginales de la variable Y.
Distribución marginal: distribución de frecuencias unidimensional
(marginal) que nos informan del número de observaciones para cada
valor de una de las variables, prescindiendo de la información sobre
los valores de las demás variables. Hay una distribución marginal
152
RELACIÓN ENTRE VARIABLES 1
de la variable X (que contiene todas las frecuencias marginales de
X ) y una distribución marginal de la variable Y (que contiene
t odas las frecuencias marginales de Y).
Distribución condicionada: distribución que especifica las observaciones que hay de cada valor de una de las variables al imponer
la condición de que la otra tome un valor determinado. Hay una dist ribución de Y condicionada a un valor de X;, que considera úni camente una fila de la tabla de contingencia, y una distribución de
X condicionada a un valor de Yi, que únicamente tiene en cuenta
una columna de la tabla.
Ejemplo 4.1. Diversos estudios ponen de manifiesto que la opción
de Bachillerato elegida difiere en chicos y chicas. Con los datos de la
Tabla 1.2 de la página 21:
A) Construya una tabla de contingencia de las variables sexo y Ba chillerato elegido. Recuerde que la variable sexo puede adoptar el
valor 1 (hombre) o 2 (mujer) y que la variable Bachillerato elegido
puede adoptar el valor 1 (Ciencias), 2 (Humanidades) o 3 (Artes).
153
INTRODUCCIÓN A L ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Sexo i(each.
(X) (Y)
1
1
2
1
2
1
1
2
1
2
2
1
1
1
2
1
2
2
2
1
1
2
3
2
2
1
2
2
3
2
1
1
1
1
1
1
2
2
2
1
2
2
1
2
2
3
1
1
2
1
2
Artes
Sexo
Hombre
10
10
3
23
(X)
Mujer
3
11
3
17
13
21
6
40
1
1
2
3
2
1
2
2
1
2
Humanidades
1
2
1
1
1
1
1
>
Ciencias
,,,
2
2
2
2
Bachillerato (Y)
3
2
3
1
2
2
1
"'
2
B) Calcule los porcentajes condicionados en la tabla de contingencia.
Se puede considerar que la relación entre estas dos variables es
asimétrica, siendo la variable sexo la que puede explicar la elección del tipo de Bachillerato y no al revés (uno no puede ser hom bre o mujer en función del Bachillerato que elija). En este caso,
la variable explicativa está situada en las filas, por lo que hay que
calcular el porcentaje condicional de X¡ o porcentaje por fila.
154
RELACIÓN ENTRE VARIABLES 1
,¡
Bachillerato (Y)
"
Ciencias
Humanidades
Artes
Sexo
Hombre
43,48%
43,48%
13,04%
100
(X)
Mujer
17,65%
64,70%
17,65%
100
Por ejemplo, en el caso de hombres que han elegido el Bachillerato
de Ciencias, el porcentaje 43,48% se obtiene dividiendo 10 entre 23
(que es el total de hombres) y multiplicando el resultado por 100.
Esta tabla de porcentajes por fila resulta especialmente útil para
visualizar las diferencias en elección de Bachillerato entre chicos y
chicas . Se aprecia que los chicos eligen en igual medida los Bachilleratos de Ciencias y Humanidades, muy por delante del Bachillerato de Artes. Las chicas, sin embargo, eligen mayoritariamente el
Bachillerato de Humanidades, muy por delante del Bachillerato de
Ciencias y el de Artes.
C) Diversos informes concluyen que la distribución por tipo de Bachillerato elegido no es igualitaria entre chicos y chicas, decantándose
los chicos por el Bachillerato de Ciencias en mayor medida que las
chicas. Los datos de esta muestra, ¿son acordes a esta conclusión?
En este caso se pide un dato concreto, la distribución por sexo de los
que han elegido el Bachillerato de Ciencias . Por tanto, hay que cal cular el porcentaje por columna, en la columna de Ciencias. Del total
de 13 estudiantes que han elegido el Bachillerato de Ciencias, 10
son chicos, lo que representa el 76,92%, mientras que únicamente
ha sido elegido por 3 chicas, lo que constituye el 23,08%. Por tanto,
los datos son consonantes con los informes previos sobre el tema.
4.2.2. Representación gráfica: diagrama de barras conjunto
El diagrama de barras conjunto es apropiado cuando al menos una de
las dos variables es cualitativa. Se construye sobre los datos de la tabla
de contingencia, situando una de las dos variables en el eje horizontal y
para identificar la otra variable se utilizan barras de distinto color o trama
155
IN
DUCCIÓN AL ANÁLISIS O DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
(especificado en la leyenda). Básicamente hay dos formas de representar
un diagrama de barras conjunto: el diagrama de barras adosadas y el
diagram a de barras apiladas. Para realizar ambas representaciones se utilizarán los datos de la tabla de contingencia construida sobre las variables
sexo y grupo de la Tabla 4.2.
4.2.2.1. Dia rama de barras adosadas
En este diagrama se muestra con barras colocadas horizontalmente o
verticalmente la frecuencia de cada casilla del interior de la tabla de contin gencia. Para cada valor de la variable X se representa, una al lado de otra,
la frecuencia con que se presenta cada valor de Y dentro de ese valor de
X . Al estar situadas unas junto a otras permite la comparación rápida entre
las variables y dentro de cada variable. Es habitual mostrar el diagrama
de barras en porcentajes del total o condicionales (por fila o por columna).
■
%
Hombre
Mujer
40
35
1 11
30
25
20
15
10
G. Control
G. Experimental
Figura 4.1. Diagrama de barras adosadas en porcentajes del total.
4.2.2.2. Diagrama de barras a iladas
Este gráfico muestra una barra por cada valor que toma la variable Y,
las cuales a su vez, se dividen en distintos colores que representa a cada
156
RELACIÓN ENTRE VARIABLES 1
valor de la variable X. Indica la frecuencia con la que aparece cada valor
de X en cada valor de Y, comparando entre categorías, la aportación de
cada valor al total.
Esta es la representación más adecuada para visualizar porcentajes condicionados. En la Figura 4.2 se muestra el diagrama de barras apilado en
porcentajes condicionales de Y (calculados sobre el total de cada columna).
■
%
Hombre
Mujer
100
90
30
80
SS
70
60
50
40
30
20
10
o
G. Control
G. Experimental
Figura 4.2. Diagrama de barras apiladas en porcentajes por columna.
Ejemplo 4.2. Con los datos del Ejemplo 4.1, realice un diagrama de
barras adosadas en frecuencias absolutas y un diagrama de barras
apiladas en porcentajes condicionados.
'[i
11
Bachillerato (Y)
Ciencias
Humanidades
Artes
Sexo
Hombre
10
10
3
23
(X)
Mujer
3
11
3
17
13
21
6
40
157
INTROOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Para hacer el diagrama de barras adosadas se suele situar la variable
con más valores (en este caso Bachillerato elegido) en el eje de abcisas, reservando la variable con menos valores para el color de las
barras.
12
"'e
'ü
■
cu
:::,
u
Hombre
Mujer
....f
3
Ciencias
I¡¡
Humanidades
Artes
En este gráfico se aprecia que el Bachillerato de Ciencias es elegido
mayoritariamente por chicos, estando prácticamente igualadas las
opciones de Humanidades y Artes.
Para hacer el diagrama de barras apiladas en porcentajes condicio nados, lo primero es considerar qué tipo de relación hay entre las
variables. Como se vio en el ejemplo anterior, se trata de una relación
asimétrica en la que el sexo podría influir en el Bachillerato elegido,
por lo que habrá que calcular los porcentajes por filas.
Bachillerato (Y}
158
Ciencias
Humanidades
Artes
Sexo
Hombre
4 3,48%
43,48 %
13,04%
100
(X}
Mujer
17,65%
64,70%
17,65%
100
RELACIÓN ENTRE VARIABLES 1
%
100
90 ·
80
70
60
Artes
■
Humanidades
■ Ciencias
50
40
30
20
10
o
Hombre
Mujer
En este gráfico se aprecia la diferente distribución de los porcentajes
en chicos y chicas:
■
Los chicos eligen las opciones de Ciencias y Humanidades en un
porcentaje similar, quedando en un porcentaje muy pequeño la
opción de Artes.
■
Las chicas eligen mayoritariamente el Bachillerato de Humanidades, quedando por igual y muy por detrás las opciones de
Ciencias y Artes.
4.2.3. Medidas globales de asociación entre variables
cualitativas
4.2.3.1. Independencia:
x2
La existencia de asociación entre dos variables indica que la distribución de las frecuencias de los valores de una de las dos variables difiere
en función de los valores de la otra . Por el contrario, se habla de indepen dencia entre variables cuando no existe tal patrón de relación entre los
valores de las mismas.
159
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Para saber si existe o no independencia entre dos variables se utiliza
el estadístico x2 , que se basa en la comparación de las frecuencias con juntas. Así, se comparan las frecuencias empíricas (u observadas) con las
frecuencias teóricas (o esperadas) suponiendo que no hubiera asociación,
es decir, suponiendo que fueran independientes. Al comparar estas frecuencias, si no existen diferencias entre ellas se concluye la ausencia de
asociación o de relación de interdependencia, por lo que se concluye que
las variables son independientes entre sí. Formalmente:
( 4.1)
donde:
ne es la frecuencia empírica (o también llamada frecuencia observada)
nt es la frecuencia teórica (o también llamada frecuencia esperada)
Una frecuencia teórica es la que aparece en cada casilla en caso de
independencia, y se calcula multiplicando las dos frecuencias marginales
y dividiendo por la frecuencia total n.
Por tanto:
Total fila x Total columna
nt = - - - - - - - - - - n
(4.2)
Como se ha visto en la Tabla 4 .3, estos totales de fila y de columna
de la fórmula ant erior se co rresponden con la s frecuencias marg inales.
Siguiendo con estos datos, se muestra la tabla de contingencia a partir de
las variables sex o y grupo.
..
Grupo (Y)
Control
Experimental
Hombre
14
9
23
Mujer
6
11
17
20
20
40
,Sexo (X)
160
RELACIÓN ENTRE VARIABLES 1
Una frecuencia empírica es la se corresponde con los datos observados. En esta tabla de contingencia las frecuencias empíricas son: neu =
14, n e12 = 9 , n e21 = 6 y n e22 = 11.
Las frecuencias teóricas hay que calcularlas a partir de la Fórmula 4.2.
n tll =
n t21 =
23
20
X
40
17
20
X
40
=
11,5
n t12 =
=
8,5
nt22 =
23
X
20
40
17
X
40
20
=
11,5
=
8,5
Empezando con la primera celdilla, que tiene una frecuencia empírica
de 14, su frecuencia teórica es igual 23 x 20 dividido entre 40 y que da
como resultado 11,5. En este caso, las frecuencias marginales de la varia ble grupo coinciden (hay 20 participantes en el grupo de control y 20 en
el experimental) por lo que las celdillas de la misma fila tienen la misma
f recuencia teórica. De igual manera, se calculan el resto de las frecuen ci as teóricas, que se situarán en la misma tabla entre paréntesis.
Gr1,1po (Y)
Control
Experimental
Hombre
14 (11,5)
9 (11,5)
23
Mujer
6 (8,5)
11 (8, 5)
17
20
20
40
Sexo (X)
Una vez conocidas las frecuencias empíricas y teóricas se puede cal cular x2 . El sumatorio engloba toda la fracción , por lo que se van a sumar cuatro fracc iones, una por cada celdilla . Sustituyendo, en la primera
fracción tenemos que la frecuencia empírica menos la frecuencia teórica
es 14 - 11 ,5, se eleva el resultado de esta resta al cuadrado y se divide
entre 11 ,5, con un resultado de 0,543. Y así su cesivament e con el rest o
de celdillas de la tabla. El resultado es 2, 556 .
x2 = L L (ne -
nt )2
nt
2
=
(14- 11, 5)2 + -(9_-_1_1,_5_) +-(6_-_8,_5_)2 + (11 - 8, 5)2
11, 5
11, 5
8, 5
8, 5
=
= 6 , 25 + 6 , 25 + 6 , 25 + 6 , 25 = O 54 3 + O 543 + O 735 + O 7 35 = 2 556
11, 5
11, 5
8, 5
8, 5
'
'
'
'
'
161
IN I ROOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA YCIENCIAS DE LA SALUD
El índice x2 toma el valor O cuando dos variables son independientes,
siendo mayor que O cuando exista asociación entre ellas, tanto mayor
cuanto más intensa sea esa relación. Ahora bien, no tiene un límite máximo, lo cual supone una dificultad a nivel interpretativo. En este ejemplo,
no podemos saber (sin aplicar técnicas de estadística inferencia! que se
verán el próximo curso) si el valor 2,556 está lo bastante próximo a O
como para considerar que la relación entre las variables es mínima, o si
por el contrario, se trata de un grado de relación considerable.
Otro inconveniente de este índice es que al multiplicar las frecuencias
de todas las casillas por una constante, el valor de x2 aumenta, a pesar de que las proporciones de todas las casillas sean las mismas antes
y después de dicha multiplicación. Esto hace que su valor solo pueda
compararse para variables en tablas de contingencia del mismo tamaño
(I x J) y con el mismo n.
Características del estadístico
■
x2 :
Adopta valores entre O y +oo. Dado que está definido por valores
elevado al cuadrado y las frecuencias nunca son negativas, no puede tomar valores negativos.
■ Únicamente adopta el valor O si la frecuencia empírica de la celdilla
es igual a la teórica que le corresponde, en todas las celdillas de la
tabla de contingencia.
■
El tamaño de la muestra, n, debe ser relativamente grande. El criterio que se utiliza habitualmente es que la frecuencia esperada mínima por casilla sea al menos de 5 en aproximadamente el 80% de las
casillas, considerando además que la frecuencia mínima esperada
en cada casilla sea 1.
■
Sirve para valorar la existencia o no de independencia, pero no resulta apropiado para medir la intensidad de la relación, pues el tamaño de la muestra y el número de categorías de las variables in fluyen sobre los valores de este estadístico .
162
RELACIÓN ENTRE VARIABLES 1
Ejemplo 4.3. Con los datos del Ejemplo 4.2, calcula el estadístico x, 2
entre las variables sexo y Bachillerato elegido.
,;:.1
Se:><O
"(X)
'
B~chiUera!o (Y)
Ciencias
Humanidades
Arte,s
Hombre
10
10
3
23
Mujer
3
11
3
17
13
21
6
40
Primero hay que calcular las frecuencias teóricas o esperadas, situándolas en su celdilla correspondiente entre paréntesis.
''I"
Bact,illerato (Y)
Ciencias
Humanidades
Artes
Se><o
Hombre
10 (7,475)
10 (12,075)
3 (3,45)
23
(X)
Mujer
3 (5,525)
11 (8,925)
3 (2,55)
17
13
21
6
40
Ya están disponibles todos los datos para sustituir directamente en
la fórmula:
x2 = LL (ne - nt)2
nt
2
=
2
(10 - 7, 475) +-(l_0_-_12_, 0_7_5_) +-(3_- _3_,4_5.c._)2 +
7,475
12,075
3, 45
2
(3 - 5, 525)2 (11 - 8, 925)
(3 - 2, 55)2 6,376
+----+ ----- + ---- =- - +
5,525
8,925
2, 55
7,475
4,306
O, 203 6,376 4,306 O; 203 _ O
o
+ - - - + - - + - - + - - + - - - 853 + 357 +
12,075 3, 45
5,525 8,925
2, 55
'
'
+O, 059 + 1,154 + O, 482 + O, 08 = 2,985
163
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
La asociación entre variables no debe entenderse como una cuestión
de todo o nada, sino como un continuo, que iría desde la ausencia de
relación (independencia) al nivel máximo de relación entre las variables,
que sería una relación determinista. Dado que x2 no resulta apropiado
para evaluar el grado de relación entre variables, se han desarrollado va rios índices que tratan de superar sus limitaciones. Aquí se verán algunos
de ellos, que están basados en x2 y no tienen en cuenta si la relación es
simétrica o no.
Estos coeficientes son índices globales del grado de intensidad de la
relación, que si bien, tienen la ventaja de simplificar la información que
proporcionan al resumir la tabla de contingencia en un único valor numérico, tienen la desventaja de no permitir ver el detalle de la relación entre
las categorías de las variables (lo que sí se puede apreciar con el estudio
de las distribuciones condicionadas ya vistas anteriormente).
4.2.3.2. Coeficiente C de Contingencia
il
El coeficiente de Contingencia es una medida de asociación derivada de
x que es aplicable a tablas de contingencia de cualquier dimensionalidad
(con independencia del nº de filas y columnas).
2
e--
(4.3)
El coeficiente de contingencia C puede asumir valores mayores o iguales a O y menores que 1. Cuanto mayor es el valor de C, mayor es la relación entre las dos variables, mientras que valores cercanos a O indican
ausencia de relación entre las variables. C adopta el valor O cuando x2 =
O, (lo que sucede si todas las frecuencias teóricas coinciden con las empíricas). Para adoptar el valor 1 el número de observaciones (n) tendría que
ser igual a O, motivo por el que nunca llega a ese valor.
Este coeficiente es especialmente útil cuando el número de filas y de
columnas de la tabla de contingencia coinciden porque, en ese caso, se
puede precisar más su valor máximo, lo que permite una interpretación
mejor con la siguiente fórmula:
164
RELACIÓN ENTRE VARIABLES 1
(4.4)
Siendo k
= número
de filas
= número
de columnas.
Ejemplo 4.4. Con los datos del Ejemplo 4.3:
Bachillerato (Y)
Ciencias
Humanidades
Artes
Sexo
Hombre
10
10
3
23
(X)
Mujer
3
11
3
17
13
21
6
40
A) Calcule el coeficiente C de Contingencia entre las variables sexo y
Bachillerato elegido.
En el ejemplo anterior tenemos ya calculado
to, sustituyendo:
21985
=
2,985+ 40
✓º ' 069
x2 = 2,985.
=
Por tan-
O 263
'
En este caso, el número de filas (2) es distinto del número de columnas (3) por lo que no es posible saber cuál es el valor máximo
que adopta el estadístico, lo que dificulta hacer una interpretación
clara de este valor en términos de la fortaleza de la relación entre
las variables. Este problema se resuelve haciendo uso de la estadística inferencia! que se verá en el próximo curso.
B) Si no existiera la opción de Bachillerato de Artes, ¿cuál sería su
valor?
Eliminando la opción de Artes del Bachillerato, tenemos una tabla
de contingencia con el mismo número de filas que de columnas
165
IN I OOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
(2x2). Primero se calculan las frecuencias teóricas multiplicando
los marginales y dividiendo por el total (se sitúan en la tabla entre
paréntesis).
1:
Bachillerato (Y)
Ciencias
Humanidades
Sexo
Hombre
10 (7,647)
10 (12,353)
20
(X)
Mujer
3 (5,353)
11 (8,647)
14
13
21
34
Después se calcula el estadístico
x2 :
X2 =""(ne - nt )2 = (10 - 7, 647)2 (10 -12, 353)2 (3 - 5, 353)2
L, L,
nt
7,647
+
12,353
+
5,353
+
(11- 8, 647) 2 5,537
5,537
5,537 5,537
+ -'---------'--- = - - + - -- + - - + - - =
8,647
7,647 12,353 5,353 8,647
= o, 724 + o, 448 + 1,034 + o, 640 = 2,846
Ahora ya es posible calcular el coeficiente C de contingencia:
e = ✓ x'
x2 + n
=
2,846
=
2, 846 + 34
,Jo
077
'
= o 277
'
En este caso, se puede calcular cuál puede ser el valor máximo
de C:
cmax
{k-=-i
{2=-i
~
= \j-----¡- = v-2 2 - = ...,,o, 5 = o, 707
Lo que nos permite concluir que hay una relación entre las variables, que podría considerarse entre baja y moderada.
166
RELACIÓN ENTRE VARIABLES 1
4.2.3.3. Coeficiente V de Cramer
El coeficiente V de Cramer es una modificación de x2 que alcanza un
valor máximo de 1 en caso de máxima asociación o asociación perfecta y
un valor mínimo de O en una situación de independencia perfecta.
V --
(4 .5 )
donde m es el valor más pequeño entre el número de filas y el número
de columnas.
La experiencia muestra que con este estadístico es poco frecuente encontrar valores próximos a 1, de hecho pocas veces se alcanza un valor
de 0,6. En términos empíricos, por tanto, se puede considerar al 0,6 prácticamente como un valor máximo habitual, por lo que un valor de 0,3,
antes que considerarlo como bajo por su proximidad a O conviene interpretarlo más bien como un valor intermedio.
Ejemplo 4.5. Con los datos de la tabla, calcule el coeficiente V de
Cramer entre las variables sexo y grupo.
Grupo (Y)
Control
Experimental
Hombre
14
9
23
Mujer
6
11
17
20
20
40
Sexo (X)
En este caso el número de filas y de columnas coincide, y es m = 2.
El estadístico x2 ya ha sido calculado con anterioridad (x2 = 2,556).
Sustituyendo:
167
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Según la interpretación de este estadístico, su valor es bajo, aunque
está cercano a considerarse intermedio, lo que hace sospechar que el
número de chicos y chicas no se ha repartido de manera proporcional
entre los grupos control y experimental.
4.2.3.4. Coeficiente
El coeficiente <p (phi) es una medida de asociación derivada de x2 que
se aplica a variables dicotómicas (por tanto con tablas de contingencia
2x2). En este caso, al utilizarse en variables que solo pueden adoptar dos
valores, la tabla de contingencia general (ver Tabla 4.4) queda reducida a:
y
X
o
1
o
n ll
n 12
n l+
1
n 21
n 22
n 2+
n +l
n +2
n
"
El coeficiente <p se expresa como:
(4.6)
Con esta fórmula, <p puede adoptar valores entre -1 y 1: será positivo
si el producto de n 11 x n 22 es mayor que el producto de n 12 x n 21 y negati vo en caso contrario. Así, para dos variables dicotómicas codificadas con O
y 1, un valor positivo de phi indicará que los sujetos tienden a estar clasifi cados en 1 en las dos variables o en O en las dos variables; un coeficiente
negativo quiere decir que la tendencia es a estar clasificado en 1 en una
variable y en O en la otra variable. Esta fórmula es equivalente al coeficien te de correlación de Pearson aplicado a variables dicotómicas ( coeficiente
que se verá en el próximo tema). En este tipo de variables, se obtiene el
mismo resultado (en valo r absoluto) con la apl ica ci ón de V de Cramer.
168
RE LACIÓN ENTRE VARIABLES 1
Existe una variación de esta fórmula que puede aplicarse a variables
politómicas (variable cualitativa con más de dos valores), pero en estos
cas os no tiene valor máximo, lo que dificulta su interpretación, motivo por
el cual se desaconseja su uso.
Ejemplo 4.6. Con los datos del Ejemplo 4.5, calcule el coeficiente <p
entre las variables sexo y grupo.
;l'!i;l,i
Grupo (V)
Control
Experimental
Hombre
14
9
23
Mujer
6
11
17
20
20
40
Sexo (X)
<p
n
xn
- n
xn
22
11
12
21
= ---.==============
=
✓ni + x n2 + x n+l x n+2
=
lOO
395,474
14 x ll-9 x 6
.J23 x 17 x 20 x 20
=
154 - 54
✓156400
=
= O 253
'
Este valor coincide con el coeficiente V de Cramer, calculado en el
Ejemplo 4.5.
4.3. RELACIÓN ENTRE VARIABLES ORDINALES
Como se vio en el Tema 1, en las variables ordinales es posible establecer relaciones de orden entre los distintos valores de la variable, lo que
lleva a establecer relaciones de tipo mayor, menor, o igual. Sin embargo,
no se pueden evaluar las distancias entre los distintos valores de la variable. Por ejemplo, en la variable nivel socioeconómico, evaluada teniendo
en cuenta tres niveles (bajo, medio y alto), se puede afirmar que una
persona con un nivel socioeconómico bajo tiene un nivel menor que una
persona con un nivel medio, pero no se puede evaluar cuánto menor es
su nivel socioeconómico.
169
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Habitualmente, cuando se estudia la relación entre una variable cualitativa y una variable ordinal se utilizan las mismas estrategias que en el
estudio de dos variables cualitativas, ya vistas en este tema.
En el caso del estudio de dos variables ordinales, la estrategia dependerá del número de valores distintos que puedan adoptar esas variables:
■
Si ambas variables adoptan un número reducido de valores, se suelen utilizar tablas de contingencia para su estudio, de manera similar a lo visto en variables cualitativas. Cuando interesa estudiar la
fuerza de la asociación, teniendo en cuenta el carácter ordinal de las
variables, en lugar de los índices globales vistos, se utilizan otros desarrollados específicamente para este caso, como la d de Sommers,
o el coeficiente Gamma, cuyo estudio excede los objetivos introductorios de este texto .
■
Si alguna de las dos variables (o ambas) adoptan un número amplio
de valores, el estudio en tablas de contingencia deja de ser práctico,
debido al elevado número de filas y columnas de las tablas. En estos
casos se suele utilizar el coeficiente de correlación de Spearman o
el coeficiente tau-b de Kendall. En este manual nos limitaremos al
primero.
4.3.1. Coeficiente de correlación por ran os de Spearman
El coeficiente de correlación de Spearman se basa en los rangos de
los datos en lugar de hacerlo en los valores reales. Resulta apropiado en
el caso de variables ordinales o de variables cuantitativas que no tengan
una distribución normal (en el Tema 8 se explicará cuándo una variable
cumple este requisito).
Para calcular este coeficiente, primero hay que ordenar todos los ca sos para cada una de las variables de interés y asignar un rango con secutivo a cada observación de cada una de las variables por separado.
Frecuentemente se producen empates o puntuaciones que son iguales,
lo que da lugar a rangos empatados. En estos casos se asigna a las pun tuaciones el rango promedio que ocuparían las observaciones empatadas.
Si la asociación entre ambas variables fuera perfecta, esperaríamos
que el rango que corresponde a cada caso de la variable X fuera exacta mente igual al rango de la variable Y, por lo tanto el coeficiente se calcula
en base a las diferencias registradas en los rangos entre ambas variables,
170
RELACIÓN ENTRE VARIABLES 1
esperando que estas diferencias fueran O. Conforme mayores son las diferencias observadas en las ordenaciones de ambas variables, más se aleja
la relación de ser perfecta. Para evitar que las diferencias positivas anulen
las diferencias negativas, el estadístico se calcula en función de la suma
de las diferencias elevadas al cuadrado.
(4.7)
donde:
d;= Rango(X;)- Rango(Y;)
n
= n°
de sujetos
Los valores del coeficiente de Spearman oscilan de -1 a + l. El signo
del coeficiente indica la dirección de la relación y el valor absoluto del coeficiente de correlación indica la fuerza de la relación entre las variables.
-1
o
1
■
Si r5 > O, entonces existe una relación directa entre las variables,
de forma que a mayores valores de la variable X nos encontraremos
con valores altos de la variable Y, y a la inversa, los valores bajos de
la variable X se corresponderán con valores bajos de la variable Y.
Cuánto más se acerque a 1 el coeficiente de correlación, más fuerte
será la relación existente entre las variables.
■
Si r5 < O, entonces existe una relación inversa entre las variables, de
forma que los valores altos de X se corresponderán con valores bajos de Y, y viceversa. Cuánto más se acerque a -1 el coeficiente de
correlación, más fuerte será la relación existente entre las variables.
■
Si r5 ::::: O, entonces apenas hay relación entre las variables, esto es,
una variable poco o nada tiene que ver con la otra.
171
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 4.7. Calcule el coeficiente de correlación de Spearman entre las variables X e Y relativas a 10 estudiantes de Primaria con
dificultades de aprendizaje de la lectura. X representa la puntuación
obtenida en un test que mide sus dificultades lectoras e Y la nota final
en la asignatura de Lengua. Ninguna de las variables se distribuye
normalmente.
1Estudiante
Test (X)
Nota (Y)
'
1
2
3
4
5
6
7
8
9
10
35
47
85
65
49
33
92
55
27
71
l
6,7
5,8
4
2,5
7,5
9,5
3
6,5
7
5,5
Solución:
En primer lugar hay que calcular los rangos de las variables. Para hacerlo, hay que ordenar los valores de menor a mayor. En la primera
tabla se muestra el número de estudiante y la variable puntuación
obtenida en el test (X). En la segunda tabla se han ordenado los datos de la variable puntuación obtenida en el test, por lo que ahora
la columna relativa al n° de estudiante no aparece ordenada. En la
última tabla se han asignado los rangos correspondientes: el menor
valor (27) corresponde al estudiante número 9, por lo que se le asig na el rango l. El siguiente valor (33) le corresponde al estudiante n°
6 y así sucesivamente.
172
RELACIÓN ENTRE VARIABLES 1
i Estudiante
1
2
3
4
5
6
7
8
9
10
Test
(X)
35
47
85
65
49
33
92
55
27
71
Estudiante
9
6
1
2
5
8
4
10
3
7
Test
(X)
27
33
35
47
49
55
65
71
85
92
Estudiante
Test
(rangos X)
9
6
1
2
5
8
4
10
3
7
1
2
3
4
5
6
7
8
9
10
Siguiendo el mismo procedimiento se asignan los rangos correspondientes a la variable Nota (Y). Primero se ordenan los valores de la
variable de menor a mayor (segunda tabla) y después se asignan los
rangos correspondientes (tercera tabla).
Estudiante
Nota
(Y)
Estudiante
Nota
(Y)
Estudiante
Nota
(rangos Y)
1
2
3
4
5
6
7
8
9
10
6,7
5,8
4
2,5
7,5
9,5
3
6,5
7
5,5
4
7
3
10
2
8
1
9
5
6
2,5
3
4
5,5
5,8
6,5
6,7
7
7,5
9,5
4
7
3
10
2
8
1
9
5
6
1
2
3
4
5
6
7
8
9
10
Ahora, se sitúan los rangos correspondientes en la misma tabla ordenada por el número de estudiante. Para cada uno de los estudiantes,
hay que calcular la diferencia entre los rangos de ambas variables,
y elevarlo al cuadrado. Estos cálculos aparecen en las dos últimas
columnas de la tabla.
173
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
1Estudiante
1
2
3
4
5
6
7
8
9
10
Test
(X)
Nota
(Y)
Rangos¡
(X)
'R angas
(Y)
35
47
85
65
49
33
92
55
6,7
5,8
4
2,5
7,5
9,5
3
6,5
7
5,5
3
4
9
7
5
2
10
6
1
8
7
5
3
1
9
10
2
6
8
4
27
71
d,
d~
-4
-1
6
6
-4
-8
8
16
1
36
36
16
64
64
'
o
o
-7
4
49
16
298
Y sustituyendo en la fórmula:
r5 = 1-
,,
6¿d¡
n(n 2 -1)
= 1-
6 x 298 = 1 - 1788 = 1 - 1806 = - 0,806
10(102 - 1)
990
'
Se trata de un valor alto lo que indica que hay una gran relación entre
la puntuación obtenida en la prueba de alteraciones en el aprendizaje
de la lectura y la nota final obtenida en la asignatura de Lengu.,a. El
signo del coeficiente es negativo, por lo que a mayores puntuaciones
en la prueba de alteraciones en el aprendizaje de la lectura, en general hay menores valores en la nota obtenida en Lengua.
El coeficiente de correlación de Spearman tiene idéntico valor al coeficiente de correlación de Pearson (que se explicará en el próximo tema)
aplicado a las variables ya transformadas a rangos, siempre que no haya
casos de empate. Cuando hay empates se recomienda utilizar el coeficiente de correlación de Pearson aplicado a los rangos, como se verá en
el próximo tema.
174
RELACIÓN ENTRE VARIABLES 1
4.4. RESUMEN
En este tema se han explicado los procedimientos adecuados para estudiar la relación entre dos variables cualitativas, y entre dos variables
ordinales.
En el caso de variables cualitativas se han desarrollado tres estudios
complementarios: tabular, gráfico y analítico. En el estudio tabular, se explica cómo realizar una tabla de contingencia a partir de los datos de dos
variables cualitativas, cómo interpretar los distintos tipos de porcentajes
que pueden contener, y cómo interpretar las distribuciones condicionadas
para valorar la relación entre ambas variables. En el estudio gráfico, se
muestra la representación gráfica más habitual para este tipo de datos:
el diagrama de barras conjunto, ya sea presentado en forma de barras
adosadas o apiladas. El estudio analítico se basa en el cálculo de varios
índices: el estadístico x2 para valorar la independencia entre las variables,
y los coeficientes C de Contingencia, V de Cramer y q>, para valorar el grado de asociación entre las variables.
En el caso de variables ordinales se ha explicado el cálculo y la interpretación del coeficiente de correlación por rangos de Spearman.
4.5. E ERCICIOS
4.1.
En una tabla de contingencia con los valores de X en las filas y los
valores de Y en las columnas, ¿cómo se denomina al número de
casos de cada celdilla dividido por el total de casos de X y multi plicado por 100? A) Porcentaje condicionado a filas; B) Porcentaje
condicionado a columnas; C) Porcentaje condicionado a Y.
4.2.
El valor del coeficiente V de Cramer coincide con el del coeficiente q>
cuando ambas variables X e Y son: A) dicotómicas; B) politómicas;
C) condicionadas.
4.3.
La representación gráfica de la Figura 4.3 (ver página siguiente) se
denomina diagrama de barras: A) disjunto; B) adosadas; C) apiladas.
4.4.
En la Figura 4.3 se muestran porcentajes: A) del total; B) condicionados por la variable PEC; C) condicionados por la variable asigna-
tura.
175
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCI AS DE LA SALUD
4.5.
4.6.
El número de alumnos que
ha realizado la PEC es una
frecuencia : A) marg inal ; B)
conjunta; C) condicional.
■ Sí
90
80
¿cu ántos alumnos de la
asignatura B han realizado
la PEC?: A) 30; B) 60; C)
70
60
50
70 .
4.7.
I No
O/o 100
40
Con los datos de la Figura
4.3, ¿cuál es el valor del
coeficiente cp? A) -0,680;
B) 0,289; C) -0,289.
30
20
10
o
4.8.
Asignatura A
Asignatura B
Según el valor obtenido al
calcular el coeficiente cp en
Figura 4.3. Representación gráfica del porel ejercicio anterior, ¿exiscentaje de alumnos en dos asignaturas (A y B)
según hayan realizado o no una PEC (Prueba de
te asociación entre la asigevaluación continua). En la asignatura A hay manatura y el realizar o no la
triculados 100 alumnos y, en la asignatura B, 200
alumnos.
PEC? A) No, porque el valor
de phi es negativo; B) No,
porque el valor de phi es cero; C) Sí, porque el valor de phi es distinto de cero.
4.9.
Para medir la asociación entre estado civil (soltero, casado y viudo) y sexo de una población determinada, ¿qué coeficiente evitaría
utilizar? A) C de contingencia; B) V de Cramer; C) cp.
4.10. Con los datos de la Tabla
4.6, el valor de x2 está entre: A) O y 10; B) 20 y 30;
C) 50 y 60.
Tabla 4.6.
Nivel de ansiedad previo a la realización del examen práctico de conducir y nota
obtenida en el examen de 200 personas.
Not~ ~~amen
4.11. Atendiendo a la Tabla 4.6,
el coeficiente de contingencia, C, está comprendido entre: A) O y 0,3; B) 0,4
y 0,7; C) 0,8 y l.
"
,,
1
Apto
No Apto
Normal
100
10
Alto
40
50
Ansiedad
4.12. ¿cuál es el valor máximo que puede adoptar el coeficiente de contingencia en este caso? A) 0,5; B) 0,707; C) l.
4.13. Con los datos de la Tabla 4.6, ¿cuál es el valor del coeficiente V? A)
0,203; B) 0,504; C) 0 ,689.
176
RELACIÓN ENTRE VARIABLES 1
4.14. Según los datos de la Tabla
4. 7, para saber si existe relación entre X e Y hay que
utilizar el coeficiente de: A)
Spearman; B) Kendall; C)
Cramer.
4.15. El valor de x2 está comprendido entre: A) O y 10;
B) 10 y 20; C) 20 y 30.
Tabla 4.7.
Datos de 100 personas en la variable Edad (X) dicotomizada en menores de 50
años y mayores de 51 y en la variable estrés ( Y)
que toma los valores No padece estrés y Sí padece estrés.
¡
i!
!
y
No
Sí .
<51
12
38
>50
4
46
X
m
4.16. El coeficiente de contingencia, C, está comprendido entre: A) O y 0,3; B) 0,4 y 0,7; C) 0,8 y 1.
4.17. Con los datos de la Tabla 4.7, ¿cuál es el valor del coeficiente cp? A)
0,150; B) 0,218; C) 0,436.
4.18. Con los datos de la Figura
4.4, el coeficiente de contingencia entre las dos variables está comprendido
entre: A) O y 0,3; B) 0,4 y
0,7; C) 0,8 y 1.
4.19. Con los resultados del ejercicio anterior, podemos
considerar que: A) siendo fumador, no merece la
pena someterse al tratamiento; B) no tratarse tiene casi la misma relación
con el resultado «dejar de
fumar» que el tratamiento;
C) existe una relación media-alta entre recibir el tratamiento y dejar de fumar.
■
Tratamiento
No tratamiento
90
80
70
Ul
o
60
r§ so
QJ
-o
o
z
40
30
20
10
o
Sí
No
Figura 4.4.
Datos de 200 fumadores, en el
que la mitad han sido sometidos a tratamiento
para dejar de fumar y la otra no y su resultado
(S í = han dejado de fumar, No = no han dejado
de fumar) .
4.20. En la siguiente tabla se muestra el ranking de la ATP masculino de
Mayo de 2016 y Mayo de 2017.
177
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
.Jugadores
Mayo2016
Mayo 2017
Novak Djokovic
Roger Federer
Andy Murray
Stan Wawrinka
Rafael Nadal
1
2
3
4
4
5
2
1
3
5
Para valorar la relación entre el ranking obtenido por los 5 jugadores en los dos años contemplados, ¿qué coeficiente utilizaría y cuál
es su valor? A) El coeficiente V de Cramer, cuyo valor es 0,289; B)
El coeficiente de Spearman, cuyo valor es 0,289; C) El coeficiente
de Spearman, cuyo valor es 0,5.
4.6. SOLUCIONES DE LOS EJERCICIOS
4.1.
Solución: A
El porcentaje condicionado a filas es el número de casos de cada
celdilla dividido por el total de casos por fila y multiplicado por 100.
En el enunciado se informa de que los valores de X están situados
en las filas de la tabla de contingencia.
4.2.
Solución: A
El coeficiente V de Cramer coincide con el valor del coeficiente phi
únicamente en el caso de que ambas variables sean dicotómicas.
Si se utiliza con variables politómicas, phi no tiene valor máximo.
4.3.
Solución: e
Se denomina diagrama de barras apiladas, ya que hay una única
barra por cada asignatura, distinguiéndose los valores de la variable PEC (si/no) por el tono.
4.4.
Solución: e
Los porcentajes de la gráfica están condicionados por la variable
asignatura, ya que los porcentajes de cada valor de esta variable
(asignatura A y asignatura B) suman 100.
4.5.
Solución: A
El número de alumnos que ha realizado la PEC es una frecuencia
marginal, ya que únicamente tiene en cuenta la variable PEC, sin
tener en cuenta la asignatura cursada .
178
RELACIÓN ENTRE VARIABLES 1
4.6.
Solución: B
Según los datos del enunciado, el 30% de los 200 alumnos que
han cursado la asignatura B han realizado la PEC, por tanto son 60
alumnos.
4.7.
Solución: B
La tabla de contingencia correspondiente a los datos de la Figura
es:
Asignatura
"'
:!'ti!
A
B
Sí
60
60
120
No
40
140
180
100
200
300
¡
PEC
-··
Con los datos de la tabla, se calcula el coeficiente phi:
nll x n22 - n1 2 x n21
~=----;=========
✓n1+ x n2+ x
=
6000
20784, 61
n +l
x n+2
60 x 140 - 60 x 40
✓120 x 180 x 100 x 200
=
8400 - 2400
✓432000000
=
= o 289
'
4.8.
Solución: c
El valor de <p es distinto de cero, por lo que hay asociación entre
ambas variables .
4.9.
Solución: c
El coeficiente <p no es apropiado porque la variable estado civil no
es dicotómica.
4.10. Solución: c
Con los datos de la tabla se calculan las frecuencias teóricas multiplicando los marginales correspondientes a cada celdilla y dividiendo por el total (en la tabla entre paréntesis).
179
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Nota en el examen
Apto
No apto
Normal
100 (77)
10 (33)
110
Alto
40 (63)
50 (27)
90
140
60
200
,,
Nivel
ansiedad
2
(100 - 77)2 (40- 63)
(10- 33}2 (50- 27)2
X =
77
+
63
+
33
+
27
= 6187 + 81 4 +
2
+16, 03 + 19,593 = 50,893
4.11. Solución: B
e=
rT =
~~
50 893
,
50,893 + 200
= ,Jo
'
203
= o 451
'
4.12. Solución: B
''
cmáx
{k=-i /2=-T /ne
= V1<
= v-2 2 - = vo, 5 = o, 101
4.13. Solución: B
V -
~-
- ~n(rn-Tj -
5 o, 893 =
200 (2 - 1)
..jo
'
254 = O 504
'
4.14. Solución: C
El coeficiente de Spearman y el coeficiente de Kendall son apropiados en variables ordinales, y los datos de la tabla están dicotomizados, por lo que el único coeficiente apropiado en este caso (de
los que aparecen en las opciones de respuesta) es el Coeficiente V
de Cramer.
4.15. Solución: A
Con los datos de la tabla se calculan las frecuencias teóricas multiplicando los marginales correspondientes a cada celdilla y dividien do por el total (en la tabla entre paréntesis).
180
RELACIÓN ENTRE VARIABLES 1
y
1,r
A
B
<51
12 (8)
38 (42)
50
>50
4 (8)
46 (42)
50
16
84
100
X
I•'
2
X =
=
(12 - 8)2 (38-42)2 (4-8)2 (46-42)2
8
+
42
+
8
+
42
=
2 + O, 381 + 2 + O, 381 = 4, 762
4.16. Solución: A
4 762
= ✓º 045 = o 212
,
4,762+100
'
'
e =
4.17. Solución: B
11r
i:J
y
A
B
<51
12
38
>5 0
4
46
so
so
16
84
100
X
n
cp
x
n
- n
x
n
11
22
12
21
= ----;======================
=
-Jn1 + X n2 + X n +1 X n +2
=
12 x 46 - 38 x 4
✓50 X
so X 16 X 84
=
552 - 152
✓336 0000
=
400
= O 218
1833, 03
'
4.18. Solución: B
La tabla de contingencia correspondiente a los datos de la Figura
es:
181
IN I
DU
ION AL ANALISIS DE DATOS: APLICACIO NES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
'I
'Y
11
¡I
Sí
No
Tratamiento
80 (55)
20 (45)
100
No tratamiento
30 (55)
70 (45)
100
110
90
200
X
1
1,
Con los datos de la tabla se calculan las frecuencias teóricas multiplicando los marginales correspondientes a cada celdilla y dividiendo por el total (en la tabla entre paréntesis).
2
X =
(80 - 55)2 (20 - 45)2 (30 - 55)2 (7o - 45)2
55
+
45
+
55
+
45
=
= 11,364 + 13,889 + 11,364 + 13,889 = 50,506
e =
50 506
,
=
200 + 50, 506
✓o
'
202 = o 449
'
4.19. Solución: e
Existe una relación medio-alta entre someterse al tratamiento y
dejar de fumar, puesto que C
= 0,449
y Cmax =
J½ = ..Jo:s = O, 707.
4.20. Solución: e
El ranking de la ATP supone ordenar a los jugadores, otorgando
el número 1 al mejor, y así sucesivamente, por lo que se trata de
comprobar la relación de dos variables ordinales. Para ello se utiliza
el coeficiente de Spearman.
Jugadores
Mayo 2016
Mayo 2017
d;
d~1
Novak Djokovic
1
2
3
4
5
2
4
1
3
5
-1
-2
2
1
1
4
4
1
o
o
Roger Federer
Andy Murray
Stan Wawrinka
Rafael Nadal
10
r =1s
182
6¿_d¡ =1- 6 x2 10 = 1 n(n 2 - 1)
5(5 - 1)
60 = 1 - 0,5 = 0,5
120
TEMAS
Relación entre variables 11
5.1. INTRODUCCIÓN
5.2. RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS
5.2.1. Representación gráfica de la relación: diagrama
de dispersión
5.2.2. Covarianza
5.2.3. Coeficiente de correlación lineal de Pearson
5.2.3.1. Cálculo
5.2.3.2. Interpretación y características
5.2.3.3. Casos particulares
5.2.3.3.1. Relación entre variables
ordinales
5.2.3.3.2. Relación entre variables
dicotómicas
5.2.3.3.3. Relación entre una
variable dicotómica y otra
cuantitativa
5.3. COEFICIENTES DE CORRELACIÓN EN FUNCIÓN DEL TIPO
DE VARIABLE : TABLA RESUMEN
5.4. REGRESIÓN LINEAL SIMPLE
5.4.1. Cálculo de los coeficientes de regresión
5.4.2. Valoración del modelo
5.4.2.1. La varianza error
5.4.2.2. El coeficiente de determinación
5.4.3. Características del modelo de regresión
S.S. REGRESIÓN LINEAL MÚLTIPLE
5.6. RESUMEN
5.7. EJERCICIOS
5.8. SOLUCIONES A LOS EJERCICIOS
,1.
RELACIÓN ENTRE VARIABLES 11
5.1. INTRODUCCIÓN
En el tema anterior, además de aprender a utilizar una tabla de contingencia y a interpretar los diagramas de barras conjuntos, se presentaron
una serie de índices estadísticos para cuantificar la relación entre variables. Las variables para las que se presentaron los diferentes índices eran
ambas cualitativas (coeficientes C de contingencia, <p y V de Cramer) o
ambas ordinales (coeficiente de correlación de Spearman).
En este tema se ofrecerá una primera aproximación a la relación entre
dos variables cuantitativas de tipo gráfico, mediante el estudio del diagrama de dispersión. Con él se tratará de explicar los distintos tipos de relación que pueden existir entre dos variables. Después, para cuantificar la
relación entre variables cuantitativas se presentará la covarianza y, vistos
los problemas de interpretación de ésta, el coeficiente de correlación lineal
de Pearson, que es el índice fundamental para el análisis de la relación lineal entre este tipo de variables. Se verán las propiedades fundamentales
del coeficiente de correlación de Pearson, su cálculo, su interpretación y su
aplicación a casos concretos. En su aplicación a casos concretos se mostrará, mediante ejemplos, que algunos de los coeficientes vistos en el tema
pasado son derivaciones de éste, y se explicará el coeficiente de correlación biserial puntual, apropiado para estudiar la relación entre una variable
dicotómica y una variable continua. Para terminar el bloque de índices que
cuantifican la relación entre variables se ofrecerá una tabla resumen con el
tipo de correlación a utilizar en función de los distintos tipos de variables.
En el último bloque del tema se explicarán los modelos de regresión,
o cómo utilizar la información contenida en las relaciones lineales observadas entre variables para, conociendo el valor de una variable, hacer
predicciones sobre su valor en la otra. Correlación y regresión son dos
conceptos muy próximos. La diferencia fundamental entre ambos radica
en que la correlación es una medida simétrica, ya que el estatus de las
dos variables es el mismo, mientras que en el análisis de la regresión el
estatus de las dos variables es diferente, asumiendo una de las variables
el estatus de predictora y la otra el de criterio.
Se verán las etapas fundamentales de cualquier modelo lineal, como
es el modelo de regresión: la identificación del modelo, su valoración y
su aplicación. En la identificación del modelo se examinarán las fórmulas para calcular los coeficientes de regresión. Para la valoración de los
modelos se estudiará la varianza error y el coeficiente de determinación,
185
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
y se analizarán las principales características de este tipo de modelos.
Se comenzará con el caso más sencillo, en el que únicamente hay una
variable predictora y una criterio, para terminar con un ejemplo sobre la
conveniencia de utilizar más de una variable predictora para obtener mejores pronósticos.
Objetivos del tema:
■
Distinguir entre los distintos tipos de variables, y saber elegir el
índice apropiado para cuantificar la relación en cada caso.
■
Conocer un método gráfico para analizar la relación existente entre
dos variables cuantitativas: el diagrama de dispersión.
■
Distinguir entre relaciones lineales directas e inversas, así como
identificar otro tipo de relaciones, a partir de la información obtenida en el diagrama de dispersión.
■
Adquirir la capacidad para saber si dos variables están más o menos relacionadas entre sí, la forma de esa relación, y el significado
de que dos variables estén relacionadas.
■
Saber cuantificar la relación entre dos variables cuantitativas utilizando la covarianza y el coeficiente de correlación lineal de Pearson.
■
Entender la interpretación del coeficiente de correlación de Pearson, así como sus características fundamentales.
■
Saber en qué casos procede aplicar el coeficiente de correlación de
Pearson a variables ordinales y cómo se calcula.
■
Entender la relación entre el coeficiente phi y el coeficiente de correlación lineal de Pearson.
■
Calcular el coeficiente de correlación biserial-puntual, apropiado en
los casos en los que una variable es dicotómica y la otra es cuantitativa.
■
En el caso de dos variables cuantitativas, entre las que hay relación
lineal, aprender a hacer predicciones de los valores de la variable
Y, correspondientes a cada valor de la variable X, mediante la recta
de regresión. Para ello, se aprenderá a calcular los coeficientes de
regresión.
186
RELACIÓN ENTRE VARIABLES 11
■
Saber valorar un modelo de regresión mediante dos índices: el
coeficiente de determinación y la varianza error.
■
Entender las características fundamentales de los modelos de regresión.
■
Entender, con un ejemplo, la relevancia del modelo de regresión
lineal múltiple para conseguir mejores predicciones.
5.2. RELACIÓN ENTRE VARIABLES CUANTITATIVAS
Según se vió en el primer tema, las variables cuantitativas son las que
están en un nivel de medida de intervalo o de razón. Por tanto, poseen
una unidad de medición común y constante. Al igual que se hizo en el
t ema anterior con las variables cualitativas, su relación se estudiará mediante métodos gráficos y estadísticos.
5.2.1. Representación gráfica de la relación: el diagrama de
dis ersión
El diagrama de dispersión, también denominado nube de puntos, se
utiliza en el caso de dos variables cuantitativas, ofreciendo una primera
aproximación de la relación que existe entre ambas variables.
En la siguiente tabla se muestran los datos de dos de las variables del
Ejemplo 1.1 (ver Tabla 1.2 del Tema 1): la calificación obtenida en el examen de Lengua de la PAU y el n° de horas dedicadas al estudio semanales
de los 40 estudiantes.
187
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla 5.1. Número de horas semanales dedicadas al estudio y calificación obtenida en el
examen de Lengua de la PAU de 40 estudiantes.
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Horas de
estudio
semanales
7
11
16
5
14
10
12
10
2
15
10
10
15
9
9
8
14
8
18
8
Ca I ificación
PAl,J
6
4
9
4
8
7
7
1
4
8
5
4
3
5
5
7
6
4
6
4
ID
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Horas de
estudio
semanales
4
8
10
12
16
15
13
10
12
18
14
9
11
3
10
9
14
10
9
4
Calificación
PAU
6
4
7
8
10
8
7
7
7
8
8
6
6
4
6
5
7
8
5
2
Para realizar el diagrama de dispersión se sitúa una de las variables en
el eje de abscisas ( en este caso se ha situado la variable n° de horas de
estudio semanales) y la otra en el eje de ordenadas (Calificación PAU).
Para cada par de datos, se localiza la intersección de ambas variables y se
marca con un punto. Así, en este ejemplo para los tres primeros alumnos
se localizarían los puntos (7,6) (11,4) y (16,9), y así sucesivamente hasta
terminar con el punto correspondiente al último estudiante .
188
RELACIÓN ENTRE VARIABLES 11
-
10
s:::::,
<(
CL
e
-o
'ü
ro
u
~
ro
u
9
8
7
6
5
4
3
2
'
•
1
•
t
¡
1-
•
•
1
•
•- •
• • •
1--
1
o
t
1
1
•
¡ • •• •
l
•
•
l
1
•
•
•
1
+
•
•
•
•
+
t
t
1 2 3 4 5 6 7 8 9 10 1112 13 14 15 16 17 18 19 20
Horas de estudio semanales (X)
Figura 5.1. Diagrama de dispersión de las variables horas de estudio semanales y califi cación PAU.
Atendiendo al diagrama de dispersión, se puede observar que existe cierta relación lineal entre las variables, correspondiendo, en mayor
medida, calificaciones altas a mayor n° de horas de estudio y viceversa.
Hay, sin embargo, algunas excepciones como el estudiante con el ID 8,
que ha estudiado un número de horas más bien alto (10) y ha obtenido
un 1 en el examen de lengua de la PAU.
Se dice, por tanto, que dos variables X e Y mantienen una relación
lineal directa cuando los valores altos en Y tienden a emparejarse con
valores altos en X, los valores intermedios en Ytienden a emparejarse con
valores intermedios en X, y los valores bajos en Y tienden a emparejarse
con valores bajos en X.
Además de la relación lineal directa, también puede darse entre las
variables una relación lineal inversa. Se dice que dos variables X e Y
mantienen una relación lineal inversa cuando los valores altos en Y tienden a emparejarse con valores bajos en X, los valores intermedios en Y
tienden a emparejarse con valores intermedios en X, y los valores bajos
en Y tienden a emparejarse con valores altos en X.
189
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 5.1. Estudie, de manera gráfica, la posible relación entre el
número de calorías diarias ingeridas por un grupo de pacientes con
anorexia nerviosa y la gravedad de la enfermedad, evaluada mediante un test apropiado.
Paciente
I•
11'
Calorías ingeridas
CX)
',
Gra'd o1anore.)!:ia
,,11
1
2
3
" (Y). . "
500
300
1000
700
2500
1500
500
1200
1700
3000
4
5
6
7
8
9
10
4
5
4
4
1
2
5
3
3
2
Solución:
Dado que se trata de dos variables cuantitativas, la representación
gráfica adecuada es el diagrama de dispersión. Para hacerlo, hay que
marcar con un punto, en el eje de coordenadas, el cruce de las pun tuaciones en las dos variables de cada sujeto.
6 ---~--~------~---~--~--~
s:::-
5
~
ro
X
QJ
4
o'e
ro
3
QJ
"O
o
2
"O
ro
'l'.)
1
o
500
1000
1500
2000
Calorías ingeridas (X)
190
2500
3000
3500
RELACIÓN ENTRE VARIABLES 11
Como se puede apreciar en el gráfico, los valores altos en X, (que
corresponden con consumos altos o normales de calorías) tienden a
emparejarse con valores bajos en Y, esto es, con puntuaciones bajas
en anorexia y viceversa; los consumos más bajos de calorías (que
son los valores más bajos de X) tienden a emparejarse con altas puntuaciones en el test que mide la gravedad de la enfermedad, esto es,
con valores altos de Y. Este es un ejemplo de relación lineal inversa.
Otra situación posible es que no haya relación lineal entre las dos variables estudiadas. Se dice que hay relación lineal nula cuando no hay
un emparejamiento sistemático entre ellas en función de sus valores.
Ejemplo 5.2. Realice un diagrama de dispersión con los datos de la
tabla. ¿Hay relación lineal entre la edad de un grupo de estudiantes
de la UNED y su motivación respecto a los estudios que están cursando?
Estudiante
Edad (X)
Motivación ( Y)
1
19
2
3
4
5
6
42
55
32
23
26
48
33
40
52
6
4
4
8
5
7
8
9
10
1
7
3
9
3
Solución:
Al igual que en el ejemplo anterior, para realizar el diagrama de dispersión hay que situar en el eje de coordenadas los datos (cada pun to representa un estudiante).
191
INTRODU CCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIEN CIAS DE LA SALUD
10
1,
9
8
$:'
'--'
e
'º·¡:;
7
6
5
ro
>
¡:;
4
:E
3
o
2
1
o
o
5
10
15
20
25
30
35
40
45
50
55
60
Edad (X)
Atendiendo al diagrama de dispersión no se aprecia ningún tipo de
relación lineal entre estas dos variables.
''
1
Por último, se presenta un ejemplo en el que se aprecia una relación
entre las dos variables, pero esta relación no es lineal. Según la Ley de
Yerkes-Dodson, la relación entre activación y rendimiento toma la forma
de una U invertida. Para cada tipo de tarea se define un grado óptimo de
activación en el cual el rendimiento para esa tarea es máximo. Por enci ma y por debajo de ese nivel óptimo, el rendimiento decrecerá tanto más
cuanto más lejos se encuentre el nivel actual de activación del óptimo
para la tarea.
Ejemplo 5.3. En la tabla se presentan los datos correspondientes a
las variables grado de activación o arousal (X) y rendimiento en un
examen (Y) de un grupo de estudiantes . ¿Los datos reflejan algún
tipo de relación entre ambas variables?
192
RELACIÓN ENTRE VARIABLES 11
.l:studiante
4rousaJ (X)
Rendimiento ( Y)
1
2
3
4
5
6
4
3
5
8
9
6
5
4
8
5
1
7
6
7
8
9
1
5
2
1
9
3
10
7
Solución:
Para comprobar gráficamente si se percibe algún tipo de relación entre las variables se realiza un diagrama de dispersión.
10 ,---.-----.-----.-----.-----.-----.----.----.----.------,
o
.µ
e
.9!
E
"O
e
QJ
ex:
9
+ - - - + - - - + - - - + - - - + - ----<---- f - - - t - - - + - - - + - - - - - - <
8
7
+ - - - + - - - + - - - + - - - t - - ----<---- 1 - - - 1 - - - t - - - - t - - - - - - <
6
+ - - - + - - - + - - - + - ---<---- 1 - - - f - - - t - - - t - - - f - - - - - - <
5
+ - - - t - - - - + - ---<---- t - - - - 1 - - - 1 - - - 1 - ---<----t------<
f - - - f - - - f - - - f - - - f - - - f - ----i-
-1-----1-----1--------<
4
f - - - f - - - f - - - f - - - 1 - - - - - 1 - - - - - 1 - - - ----i-
3
f - - - f - ----<-
2
+---+---+---+---+---+---+---+---+---+------<
1
1 - -1---- + - - - + - - - + - - - t - - - t - - - t - - - + - ---<• -----<
-l-----l--------<
-f---l-----l-----1-----1-----1-----1--------<
o '---'-----'-----'-----'-----'----'---'---'---'-------'
4
5
o
1
2
3
6
7
8
9
10
Arousal (X)
En el diagrama de dispersión se aprecia cómo los estudiantes con
muy bajo y muy alto nivel de activación (X) tienen un rendimiento
bajo mientras que los rendimientos más altos se dan en los estudiantes con niveles de activación medios. Por tanto, parece que sí hay
relación entre las variables, pero no se trata de una relación lineal.
193
INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Se ha presentado de manera gráfica cómo interpretar la relación entre
dos variables. Ahora se verán los índices estadísticos que se pueden utilizar para cuantificar esta relación: la covarianza y el coeficiente de correlación lineal de Pearson. Estos índices detectan relaciones lineales entre
las variables, por lo que no podrían utilizarse en el Ejemplo 5.3, en el que
la relación entre las dos variables es curvilínea.
5.2.2. Covarianza
Es un índice que detecta la relación lineal entre X e Y. El término covarianza hace referencia a la variación conjunta de dos variables. Su valor
es positivo si la relación es directa, negativo si es inversa, y en torno a
cero si es nula; además, su valor absoluto será mayor cuanto más acu sada sea la tendencia a la linealidad en el diagrama de dispersión. Se
designa por SXY, o Cov(X, Y) y su fórmula es:
n
¿X;Y;
I
¡
Sxy = Cov(X, Y) =
i =l
n
-
X y
(5.1)
donde:
= valor de la variable X en el caso i.
Y; = valor de la variable Y en el caso i.
X = media de la variable X .
Y = media de la variable Y.
n = número de casos de la muestra
X;
Se retomará el Ejemplo 5.1, que considera la relación entre el número
de calorías diarias ingeridas por un grupo de pacientes con anorexia nerviosa y la gravedad de la enfermedad, para calcular la covarianza. Para
aplicar la fórmula, se añade una columna a la tabla de datos, que multiplica los valores de X e Y de cada paciente.
194
RELACIÓN ENTRE VARIABLES 11
Paciente
Calorías ingeridas
1
2
3
4
5
6
7
8
9
10
X = 12900 = 1290
10
(X)
Grado anorexia
(Y)
XY
500
300
1000
700
2500
1500
500
1200
1700
3000
4
5
4
4
1
2
5
3
3
2
2000
1500
4000
2800
2500
3000
2500
3600
5100
6000
12900
33
33000
y=
33
10
=3 3
'
n
¿X-Y1 1
Sxy =
i= 1
n
-
X
y =33 ooo 10
1290 x 3 3 = 3300 - 4257 = - 957
'
Ya en el Ejemplo 5.1 se vió que existe una relación inversa entre ambas variables, a través del diagrama de dispersión. Por este motivo, no es
de extrañar, que el valor de la covarianza sea negativo. Sin embargo, la
covarianza presenta una grave limitación, al igual que sucedía con el coeficiente x 2 (utilizado en variables cualitativas), y es que se desconocen los
valores mínimo y máximo que puede adoptar, lo que merma su capacidad
para interpretar el grado de relación entre las variables.
Ejemplo 5.4. Con los datos del Ejemplo 5.2, calcule el valor de la
covarianza entre la edad y la motivación en sus estudios de un grupo
de estudiantes de la UNED.
195
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Estudiante
Edad (X)
Motivación ( Y)
XY
1
2
3
4
5
6
7
8
9
19
42
55
32
23
26
48
33
40
52
6
4
4
8
5
1
7
3
9
3
114
168
220
256
115
26
336
99
360
156
370
50
1850
10
Solución:
Se añade una columna a la derecha con la multiplicación de los va lores de X e Y de cada uno de los estudiantes, antes de aplicar la
fórmula:
X= 370 = 37
10
n
sXY
I,x-Y=
i =1
n
' ' _
x y =1850 10
37 x 5 = 185 - 185 =
o
Al igual que sucedía con el diagrama de dispersión, el valor de la covarianza indica que no hay ningún tipo de relación lineal entre estas
dos variables.
5.2.3. Coeficiente de correlación lineal de Pearson
Es un índice que detecta la relación lineal entre X e Y, y lo hace superando los límites de interpretación de la covarianza, al tener establecido
un valor máximo (1~ y mínimo (-1) . Como su nombre indica, solo es
apropiado para el estudio de las relaciones lineales entre variables.
196
RELACIÓN ENTRE VARIABLES 11
5.2.3.1. Cálculo
El coeficiente de correlación lineal de Pearson entre dos variables X e
Y, (rxy), se calcula utilizando cualquiera de estas fórmulas:
(5.2)
(5.3)
donde:
= desviación típica de la variable X.
S y = desviación típica de la variable Y.
S XY = covarianza entre X e Y.
Sx
Atendiendo a la fórmula 5.2, el coeficiente de correlación lineal de
Pearson es el cociente entre la covarianza entre X e Y y el producto de la
desviación típica de X y la desviación típica de Y. Por tanto, esta fórmula
será preferible, si ya se tienen alguno de los cálculos previos que contiene
(la covarianza o las desviaciones típicas de X e Y). Cuando no haya ningún
cálculo previo realizado sobre los datos, la fórmula 5.3 será más rápida
de calcular.
En la Tabla 5.2 se han registrado dos variables en un grupo de estudiantes de la UNED: al principio de curso se midió su nivel de motivación
mediante un test apropiado, y al final del curso se ha evaluado su rendimiento mediante la nota media obtenida. Para calcular el coeficiente de
correlación lineal de Pearson con la fórmula 5.2, se añaden tres columnas
a la derecha (XY, X2 e Y2) para facilitar los cálculos intermedios.
197
INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla 5.2. Nivel de motivación y rendimiento de un grupo de estudiantes de la UNED.
Estudiante
Motivación
(X)
Rendimiento
(Y)
XY
)(1.
Y2
8
2
5
9
9
3
6
5
4
8
5
1
6
4
9
4
48
35
24
80
35
2
30
36
81
12
64
49
36
100
49
4
25
81
81
9
36
25
16
64
25
1
36
16
81
16
66
52
383
498
316
1
2
3
4
5
7
6
10
7
6
7
8
9
10
En el caso de utilizar la fórmula 5.2, hay que empezar calculando las
medias y desviaciones típicas de X e Y, así como la covarianza.
X =
\
66
=6 6
10
'
y =52 = 5
10
'
2
498
- 6 6 2 = 49 8 - 43, 56 = 6, 24
10
'
'
Sx2 =
LnXt
Sx =
jsf = ✓6,24 = 2,498
52 =
Y
LnY/ _y2 = 316
- 5 2 2 = 31 6 10
'
'
Sy =
~
=
- X
2
=
✓4,56
=
27 04 = 4 56
'
'
2,135
n
"X.YI I
383
Sxy = ~ - - X Y = - 6,6 x 5,2 = 38,3 - 34,32 = 3,98
n
10
6
Una vez calculados estos estadísticos ya se puede sustituir directamente en la fórmula 5.2 .
rxy = _S_X_Y_ =
3, 98
= 3, 98 = O 746
S x S y 2,498 x 2,135 5,333
'
198
RELACIÓN ENTRE VARIABLES 11
Al utilizar la fórmula 5.3, se puede sustituir directamente, nada más
añadir las columnas relativas a XY, )(2 e Y2.
n¿,(XY) - L, X¿ Y
rxy = -----;
✓n=¿,=X=
2 ==_==(I,=x=/~✓¡=:,n¿,====Y=2 =_=(¿,=Y)=2 =
10 X 383 - 66
X
52
=----;=======--;e======
=
✓10 X 498- 66 2 X ✓10 X 316 - 52 2
=
3830- 3432
✓4980 - 4356 x ✓3160 - 2704
398
24,98 x 21,35
=------
398
= O 746
533,323
'
Obviamente el resultado es idéntico utilizando las dos fórmulas.
5.2.3.2. Interpretación y características
Para interpretar los resultados que se obtienen con el coeficiente de
correlación de Pearson hay que tener en cuenta, en primer lugar, el valor
absoluto. Cuanto mayor es el valor absoluto del coeficiente, la relación
lineal entre las dos variables es más fuerte. En segundo lugar, hay que
tener en cuenta el signo del coeficiente de correlación de Pearson. Cuando
el signo es positivo, indica que a valores mayores de la variable X tienden
a corresponder, en media, valores mayores de la variable Y, y a valores
menores de la variable X tienden a corresponder, en media, valores menores de la variable Y. Por tanto, se trata de una relación lineal directa.
Cuando el signo es negativo, indica que a valores mayores de la variable
X tienden a corresponder, en media, valores menores de la variable Y, y a
valores menores de la variable X tienden a corresponder, en media, valores mayores de la variable Y. Por tanto, indica una relación lineal inversa.
El valor del coeficiente de correlación lineal de Pearson oscila siempre
entre los valores de -1 y + 1:
o
-1
Relación inversa
■
+1
Relación directa
Si rx y > O, entonces existe una relación lineal directa entre las variables.
Cuanto más se acerque a 1 el coeficiente de correlación, más fuerte
será la relación existente entre las variables, de forma que a ma -
199
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
yores valores de la variable X nos encontraremos con valores altos
de la variable Y y, a la inversa, los valores bajos de la variable X se
corresponderán con valores bajos de la variable Y.
■
Si rxy < O, entonces existe una relación lineal inversa entre las variables.
Cuanto más se acerque a -1 el coeficiente de correlación, más fuerte
será la relación existente entre las variables, de forma que los valores altos de X se corresponderán con valores bajos de Y y viceversa.
Relación lineal directa
Relación lineal inversa
Motivación y rendimiento
Calorías Ingeridas y grado de anorexia
rxy= 0,746
rxy= -0,885
10
o
.µ
e
Q)
E
"O
e
Q)
o::
9
8
7
6
5
4
3
2
1
O
s::-
6
IO
5
·x
~ 4
o
~ 3
o
1 2 3 4 5 6 7 8 9 10
10
e
•O
·u
IO
>
o
:¡:;
~
O
•
L.
l9
o
¡
•
3000
rXY=-0,079
10
1
'
•
•
9
8
--;; 7
6
-~ 5
s::-
•
.l
5 1015202530354045505560
e
•
E 4
-g
3
~ 2
1
O
•
•
•
¡
•
1
•t
•
12345678910
Arousal (X)
Figura 5.2. Diagramas de dispersión y coeficientes de correlación de Pearson.
200
4000
Relaci6n no lineal
•
Edad (X)
2000
Arousal y rendimiento
1.1 ~
•
1000
Calorías ingeridas (X)
Relación lineal nula
Motivación y edad
rx y= O
s::-
•
1
Motivación (X)
9
8
7
6
5
4
3
2
1
• •
•
~ 2
-g
[
••
••-•
RELACIÓN ENTRE VARIABLES 11
■
Si rxy:::: O, entonces apenas si hay relación lineal entre las variables,
esto es, una variable poco o nada tiene que ver con la otra.
En el ejemplo sobre la motivación de los estudiantes y el rendimiento
académico el coeficiente de correlación arroja un valor de O, 746. Este
valor es positivo, por tanto hay una relación lineal directa entre ambas
variables, tal y como se puede ver en el diagrama de dispersión, y está
próximo a 1, por lo que se puede decir que esta relación es fuerte. En el
ejemplo de las calorías ingeridas y el grado de anorexia, el valor del coefi ciente de correlación es negativo, indicando una relación lineal inversa.
Como se aprecia en el diagrama de dispersión, a mayores valores de la
variable X, corresponden menores valores de la variable Y.
El ejemplo de la motivación y la edad responde a un coeficiente de
correlación lineal de valor cero. No existe relación lineal entre ellas. El
ejemplo sobre arousal y rendimiento responde también a un coeficiente
de correlación lineal de valor cercano a cero. De hecho, no existe relación
li neal, pero sí existe una relación curvilínea entre las dos variables. Esto
nos indica también una limitación importante del coeficiente de correla ci ón lineal y es que sólo detecta relaciones lineales entre dos variables.
Por tanto, un coeficiente de correlación lineal cercano a cero, indica que
no existe relación lineal entre las variables, pero no excluye la posibilidad de que las variables tengan otras relaciones entre sí de carácter no
lineal.
Características del coeficiente de correlación lineal de Pearson:
■
Se trata de un índice simétrico, por tanto, es igual la correlación de
X con Y que la de Y con X (rxy = r yx ).
■
El valor del coeficiente de correlación lineal de Pearson se encuentra comprendido entre - 1 y 1. Los valores - 1 y 1 indican una correlación lineal perfecta y el valor O indica ausencia de correlación
lineal.
■
El valor absoluto del coeficiente de correlación lineal de Pea rson
no se ve afectado por transformaciones lineales de las variables.
Asimismo, rxy = ±1, si una variable es una transformación lineal de
la otra (ver Ejemplo 5.5).
■
La correlación entre dos variables (por alta que sea) no implica que
X sea la causa de Y, ni que Y sea la causa de X . Para poder hablar
201
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
de causalidad se tienen que cumplir unos requisitos relativos al
diseño de la investigación (que debe ser experimental).
■
El coeficiente de correlación lineal de Pearson puede verse afectado
por terceras variables. Por ejemplo, si se mide la estatura y el razonamiento abstracto de los niños de Primaria de un colegio, habrá una
alta correlación entre ambas variables, debido a que los niños más
altos tendrán más edad que los niños más bajos. Si el coeficiente
de correlación se limita a los niños de la misma edad, posiblemente
desaparezca la correlación entre estatura y razonamiento abstracto.
Ejemplo S.S. En el apartado anterior se ha calculado la covarianza
entre el número de calorías ingeridas y el grado de anorexia de 10
pacientes, obteniendo un valor de S xy = -957.
A) Calcule e interprete el coeficiente de correlación lineal de Pearson entre ambas variables.
Para calcular rxy es necesario conocer, además, las desviadones típicas de X e Y, por lo que se añaden las columnas de X2
e Y2 para facilitar su cálculo.
,,
202
1
Paciente
Calor'ías
ingeridas
(X)
Grado
anorexia
(Y)
XY
)(2
Y2
1
2
3
4
5
6
7
8
9
10
500
300
1000
700
2500
1500
500
1200
1700
3000
4
5
4
4
1
2
5
3
3
2
2000
1500
4000
2800
2500
3000
2500
3600
5100
6000
250000
90000
1000000
490000
6250000
2250000
250000
1440000
2890000
9000000
16
25
16
16
1
4
25
9
9
4
12900
33
33000
23910000
125
RELACIÓN ENTRE VARIABLES 11
X= 12900 = 1290
10
s1 = L nxl _x
52
Y
=
Sx =
r
XY
I,Y/ _y2
n
2
=
33
Y =-=3,3
10
23910000
- 12902 = 2391000 - 1664100 = 726900
10
= 125 - 3 3 2 = 12 5-10 89 = 161
10
'
'
'
'
.jsf = ✓726900 = 852,584
Sy =
jsf = ✓1,61
= 1,269
= S xy =
- 957
= - 957 = _ 0 885
SxSy
852,584 x 1,269 1081, 929
'
El coeficiente de correlación lineal de Pearson es negativo, lo
que indica que hay una relación lineal inversa entre las variables. Su valor está muy próximo a -1, por lo que existe un alto
grado de relación entre ambas.
B) Suponiendo que al test de anorexia se le aplica la siguiente
transformación lineal a sus puntuaciones Y2 = 2Y + 3. ¿cuál sería la correlación entre el n° de calorías ingeridas y esta nueva
variable Y2 ?
Según sus propiedades, el coeficiente de correlación lineal de
Pearson no se ve afectado por las transformaciones lineales
entre variables, por lo que la correlación entre X y la variable
Y2 debe ser igual a la correlación que había entre las variables
originales X e Y.
Para comprobarlo, en primer lugar se calculan las puntuaciones de Y2 multiplicando cada valor de Y por 2 y sumando 3
al valor resultante. Una vez hecho esto, hay que calcular las
columnas XY2 e Yt
203
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Paciente
Calorías
ingeridas
(X)
Grado
anorexia
(Y)
1
2
3
4
5
6
7
8
9
10
500
300
1000
700
2500
1500
500
1200
1700
3000
4
5
4
4
1
2
5
3
3
2
12900
33
XY2
X2
y:2
2
9
9
7
5500
3900
11000
7700
12500
10500
6500
10800
15300
21000
250000
90000
1000000
490000
6250000
2250000
250000
1440000
2890000
9000000
121
169
121
121
25
49
169
81
81
49
96
104700
23910000
986
Y2
11
13
11
11
5
7
13
Con los datos de la tabla, ya se puede aplicar la fórmula 4.3 .
10 X 104700 - 12900 X 96
=.==========-,======
=
✓10 X 23910000 -12900 2 X ✓10 X 986 - 96 2
=
=
1047000 -1238400
=
✓239100000 -166410000 X ✓9860 - 9216
-19140 0
= -1 91400 = - O 885
8525, 843 X 25,377 216360, 318
'
La correlación entre X y una variable que es una transformación lineal de Y, denominada Y 2 , es igual que la correlación
entre X e Y.
C) Teniendo en cuenta la transformación lineal aplicada a las pun-
tuaciones del test de anorexia Y2 = 2Y + 3. ¿cuál es la correlación entre el test de anorexia (Y) y la nueva variable (Y2 )?
Para calcular la correlación entre las variables Y e Y2 , hay que
añadir a la tabla anterior la columna que multiplica ambas varia-
204
RELACIÓN ENTRE VARIABLES 11
bles antes de aplícar la fórmula. En este caso, ya no son necesarias las variables relativas a X, por lo que se eliminan de la tabla.
Paciiente
Grado
anorexia
Y2
Y2
4
5
4
4
1
2
5
3
3
2
16
25
16
16
1
4
25
9
9
4
11
33
125
01
1
2
3
4
5
6
7
8
9
10
y;2 1
2
YY2
5
7
13
9
9
7
121
169
121
121
25
49
169
81
81
49
44
65
44
44
5
14
65
96
986
349
13
11
11
27
27
14
nI, (YY2 ) - I, Y¿, Y2
=
, ✓nI, y2 -(I, Y)2 ✓nI, Y22 - (I, Y2)2
ryy_ =
=
=
10 X 349 - 33
✓10 X 125 - 33
2
X
X
96
✓10 X 986 - 96 2
=
3490 - 3168
322
=l
= 12,689 X 25,377 = 322
322
✓1250 - 1089 X ✓9860 - 9216
La correlación entre ambas variables es igual a 1, dado que Y2 es una
transformación lineal de Y.
5.2.3.3. Casos particulares del coeficiente de correlación
lineal de Pearson
Hay varias fórmulas que se derivan del coeficiente de correlación lineal
de Pearson, y se utilizan en algunos casos particu lares, como el estudio
de la relación entre dos variables ordinales, el estudio de la relación entre
205
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
dos variables dicotómicas y el estudio de la relación entre una variable
dicotómica y otra cuantitativa. Estas fórmulas se desarrollaron porque su
cálculo es más rápido que utilizando Pearson, aunque con los programas
informáticos existentes, esto no es un problema en la actualidad.
5.2.3.3.1. Relación entre variables ordinales
En el tema anterior se presentó el coeficiente de correlación lineal de
Spearman para estudiar la relación entre dos variables ordinales. Esta
fórmula se deriva matemáticamente del coeficiente de correlación lineal
de Pearson aplicado a rangos, por lo que su resultado es idéntico, como
se puede comprobar en el siguiente ejemplo .
'J'
Ejemplo 5.6. A continuación se muestran los datos del Ejemplo 4. 7
del tema anterior, en el que se calculó el coeficiente de Spearman,
obteniendo un valor de r 5 = -0,806, entre las variables X (puntuación
obtenida en un test que mide sus dificultades lectoras) e Y (nota final
en la asignatura de Lengua). ¿coincide este valor con el del coeficiente de correlación lineal de Pearson (rxy)?
Estudia,qte
1
2
3
4
5
6
7
8
9
10
Test
Nota
' (Y-)
Rangos
X
Rangos1
(~
35
47
85
65
49
33
92
55
27
71
6,7
5,8
4
2,5
7,5
9,5
3
6,5
7
5,5
3
7
5
3
1
9
10
2
6
8
4
4
9
7
5
2
10
6
1
8
y
Solución:
Para facilitar el cálculo de Pearson se añaden a la derecha las columnas XY, X2 e Y2.
206
RELACIÓN ENTRE VARIABLES 11
'Estudiari't e
test
(X)
Nota
(Y)
Rangos
1
2
3
4
5
6
7
8
9
10
35
47
85
65
49
33
92
55
27
71
6,7
5,8
4
2,5
7,5
9,5
3
6,5
7
5,5
3
4
9
7
5
2
10
6
1
8
X
55
' Rangos
Y,1¡
Rango$
Rangos
XY
)(2
y.z
7
5
3
1
9
2
6
8
4
21
20
27
7
45
20
20
36
8
32
9
16
81
49
25
4
100
36
1
64
49
25
9
1
81
100
4
36
64
16
55
236
385
385
10
Rángos
.~
Y sustituyendo en la fórmula:
n¿,(XY) - LX¿, Y
rxy = ,
✓ n=I,
=
x=2-==(==I,=x=)=-2✓-=;:~=L===y==2=_=(2,
=
Y)=2 =
=
=
10 X 236 - 55 X 55
✓10 X 385 - 55 2
X
✓10 X 385 - 55 2
=
2360 - 3025
=
- 665
= - 665 = - 0, 806
✓3850 - 3025 X ✓3850 - 3025
✓825 X ✓825
825
El resultado de ambas fórmulas es idéntico.
El único caso en el que las fórmulas de Pearson y Spearman no coinciden es en el de empates en los rangos, en cuyo caso hay que utilizar el co eficiente de correlación lineal de Pearson entre los rangos de las variables.
En caso de no haber empates se puede utilizar cualquiera de las dos (el
resultado es idéntico) teniendo en cuenta que el coeficiente de correlación
de Spearman simplifica bastante los cálculos.
Ejemplo 5.7. En la Tabla 1.2 de la página 21 se muestran los datos
de 40 estudiantes en diversas variables. De ellas, la variable nivel de
estudios de la madre es la única que es ordinal. Suponiendo que la
207
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
variable Calificación en el examen de Lengua de la PAU no cumpliera
el requisito de normalidad, calcule el coeficiente de correlación de
Spearman y de Pearson entre ambas variables para los primeros 10
estudiantes de la Tabla.
1 ID
1
2
3
4
5
6
7
8
Nivel de estudios
de la madre
3
2
3
2
2
3
4
Calificación
PAY
6
4
9
4
8
7
7
1
9
1
2
4
10
4
8
Solución:
En primer lugar hay que calcular los rangos de las variables. Para ha cerlo, hay que ordenar los valores de menor a mayor. En la primera
tabla aparecen la variable de identificación del estudiante (ID) y la
variable nivel de estudios de la madre. En la segunda tabla se han
ordenado los datos de la variable nivel de estudios de menor a mayor,
por lo que ahora la variable ID no aparece ordenada. En la última
tabla se han asignado los rangos correspondientes: el menor valor
(1) corresponde al estudiante con identificación (ID) número 8, por
lo que se le asigna el rango l. El siguiente valor (2) es compartido
por 4 estudiantes (ID 2, 4, 5 y 9), por lo que se calcula la media de
los rangos que tendrían asignados (2 + 3 + 4 + 5) / 4 = 3,5 y se asigna
el rango promedio 3,5. El siguiente valor (3) es compartido por tres
estudiantes, por lo que se asigna el rango promedio que en este caso
es (6 + 7 + 8)/3 = 7. El último valor que adopta esta variable (4) ha
sido obtenido por 2 estudiantes, por lo que su rango promedio es
(9 + 10) / 2 = 9,5.
208
RELACIÓN ENTRE VARIABLES 11
ID
Nivel de
estudios
de la madre
1
2
3
4
5
6
7
8
9
10
3
2
3
2
2
3
4
1
2
4
ID
Nivel de
estudios
de la madre
8
2
4
5
9
1
3
6
7
10
1
2
2
2
2
3
3
3
4
4
1
♦
ID
.N ivel de
estudios
de la madr~
(rangos)
8
2
4
5
9
1
3
6
7
10
1
3,5
3,5
3,5
3,5
7
7
7
9,5
9,5
1
Siguiendo el mismo procedimiento se asignan los rangos correspon dientes a la variable calificación obtenida en la prueba de Lengua
de la PAU. Primero se ordenan los valores de la variable de menor a
mayor (segunda tabla) y después se asignan los rangos correspondientes (tercera tabla), teniendo en cuenta que en caso de empate
en la puntuación hay que calcular el rango promedio.
Califi.cación
l, ID
1
2
3
4
5
6
7
8
9
10
PAU
6
4
9
4
8
7
7
1
4
8
ID
.l
Calificadón
PAU
1
4
4
4
6
7
7
8
8
9
8
2
4
9
1
6
7
5
10
3
Calificación
ID
PAU
(rangos)
8
2
4
9
1
6
7
5
10
3
1
3
3
3
5
6,5
6,5
8,5
8,5
10
lllltjl
209
INTRODUCCIÓN A ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ah ora, se sitúan los rangos correspondientes en la misma tabla ordenada por el número de estudiante (ID). Para el cálculo del coeficiente
de Spearman hay que hallar, para cada sujeto, la diferencia entre los
rangos de ambas variables, y elevarlo al cuadrado. Para el cálculo del
coeficiente de Pearson, se añaden a la derecha las columnas XY, X2 e
Y2. Estos cálculos aparecen en las últimas columnas de la tabla.
ID
1
2
3
4
5
6
7
8
9
10
Estudios
Madre
(X)
Callflcaci6n
3
2
3
2
2
3
4
1
2
4
6
4
9
4
8
7
7
1
4
8
PAU
(Y)
Rangos
(X)
Rangos
(Y)
7
3,5
7
3,5
3,5
7
9 ,5
1
3,5
9,5
5
3
10
3
8,5
6,5
6,5
1
3
8,5
55
55
d21
XY
X2
4
0,25
9
0,25
25
0,25
9
49
12,25
49
12,25
12,25
49
90,25
1
12,25
90,25
25
9
100
9
72,25
42,25
42,25
1
9
72,25
377,5
382
d,
2
0,5
-3
0,5
-5
0,5
3
o
o
0,5
1
0,25
1
35
10,5
70
10,5
29,75
45,5
61,75
1
10,5
80,75
49
355,25
Y2
Y sustituyendo en las fórmulas correspondientes:
r =1s
6
Ldl
n(n
2
- 1)
=1-
294
6 49
= 1= 1 - 0,297 = 0,703
x
2
10(10 - 1)
990
n¿,(XY) - ¿,X¿,Y
~y=--;=========~==========
✓nI,x2 -(I,x)2✓nI, y2 - (I, Y)2
10 X 355, 25 - 55 X 55
=~=======-~=======
✓10 X 377, 5 - 55 2 X ✓10 X 382 - 552
=
=
3552, 5 - 3025
527, 5
=
=
✓3775- 3025 X ✓3820- 3025 ✓750 X ✓795
527,5
= 527,5 = O 683
27,386 x 28,196 772,176
'
En este caso, había varios empates por lo que el valor de ambos co eficientes no coincide, y hay que tener en cuenta el valor obtenido
210
RELACIÓN ENTRE VARIABLES 11
con el coeficiente de correlación lineal de Pearson. Este valor es alto,
lo que indica que hay Una gran relación entre el nivel de estudios de
la madre y la calificación obtenida en la prueba de Lengua de la PAU.
El signo del coeficiente es positivo, por lo que a mayores valores en
el nivel de estudios de la madre, en general hay mayores valores en
la calificación obtenida.
5.2.3.3.2. Relación entre variables dicotómicas
La fórmula del coeficiente cp vista en el tema anterior se deriva del coeficiente de correlación lineal de Pearson, por lo que el resultado de ambas
es igual. Eso sí, el cálculo de cp se basa en la tabla de contingencia, por lo
que es bastante más rápido que el de rxy que precisa de las puntuaciones
de cada sujeto en ambas variables.
Ejemplo 5.8. Con los datos del Ejemplo 4.5, el coeficiente cp entre
las variables sexo y grupo arrojó un resultado de cp = 0,253. Compruebe que el valor del coeficiente de correlación lineal de Pearson
es idéntico.
Grupo (Y)
Control
Experimental
Hombre
14
9
23
Mujer
6
11
17
20
20
40
Sexo (X)
Solución:
En primer lugar, se utilizará la tabla con las puntuaciones originales
de los datos de las columnas relativas a grupo y sexo de la Tabla
1.2. Dado que cp se utiliza únicamente con puntuaciones O y 1, los
valores de la variable sexo (que se había codificado como 1 = hombre
y 2 = mujer) pasarán a codificarse como O= hombre y 1 = mujer. Lo
mismo sucede con la variable grupo, que ahora será O = control y
1 = experimental.
211
INT ROOU
IÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
1,,
212
Sexo {X) Grupo { Y)
o
o
1
o
1
o
o
1
o
1
1
o
o
o
1
o
o
o
o
o
o
1
1
o
o
1
o
1
1
1
1
1
1
o
o
o
o
1
o
1
17
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
20
XY
)(2
Y2
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
1
1
1
1
o
o
o
o
1
o
1
o
o
1
o
1
1
o
o
o
1
1
1
o
o
1
1
1
1
1
1
1
1
1
1
1
1
o
o
o
o
o
o
o
o
1
1
o
o
1
1
17
11
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
20
RELACIÓN ENTRE VARIABLES 11
nl(XY) -
rxr
y
~y=~
✓n=L=X=2_=(=L=X=)~2✓~n=L=y=2=_=(L
=
Y)=2 =
40
X
11 - 17 X 20
= --;======----======
✓40 X 17 - 17 2 X ✓40 X 20 - 20 2
=
=
440 - 340
100
=
=
.,/680 - 289 x .,/800 - 400 .J391 x .J400
100
19,774 x 20
=
100
395,48
= O 253
'
El resultado es el mismo que con el coeficiente cp.
.. 1
5.2.3.3.3. Relación entre una variable dicotómica y otra
cuantitativa
Como se vió en el Tema 1, una variable dicotómica es una variable
categórica que solo puede adoptar dos valores posibles, que se suelen
representan por O y 1. El coeficiente de correlación biserial puntual
se utiliza cuando una de las variables es dicotómica y la otra es cuantita tiva. Como se verá en el curso que viene, se trata de un coeficiente muy
utilizado en Psicometría . Se denota como r bp y su fórmula es:
r bp
=
Xp - Xq
5X
r:::----:::
· vP · q
(5.4)
donde:
X p es la media de las puntuaciones de la variable cuantitativa X obte nidas por el grupo al que se le ha asignado un 1 en la variable dicotó mica.
X q es la media de las puntuaciones de la variable cuantitativa X obtenidas por el grupo al que se le ha asignado un O en la variable dicotómica.
213
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Sx es la desviación típica de la variable cuantitativa X.
p es la proporción de casos del grupo al que se le ha asignado un 1 en
la variable dicotómica.
q es la proporción de casos del grupo al que se le ha asignado un O en
la variable dicotómica.
Ejemplo 5.9. En la Tabla 1.2 del Tema 1 se muestran los datos de
40 estudiantes en diversas variables. Teniendo en cuenta únicamente
los 10 primeros estudiantes de la tabla, calcule la correlación entre
las variables sexo y horas de estudio semanales mediante el coe ficiente de correlación biserial puntual y compruebe que este valor
coincide con el del coeficiente de correlación lineal de Pearson.
1
ID
Sexo
1
1
2
3
4
5
6
7
V
8
9
10
1
1
2
1
2
1
1
2
1
2
Horas de estudiQ
semanales
7
11
16
5
14
10
12
10
2
15
Solución:
El coeficiente de correlación biserial puntual asigna puntuaciones O
y 1 a los va lores de la variable dicotómica, por lo que los valores de
la variable sexo (que se había codificado como 1 = hombre y 2 = mujer), pasarán a codificarse como O= hombre y 1 = mujer. Para facilitar el cálculo de Pearson se añaden las columnas correspondientes a
XY, )(2 e Y2.
214
RELACIÓN ENTRE VARIABLES 11
ID
Sexo
(Y}
Horas de estudio
semanales (X)
1
2
o
o
7
3
1
4
5
6
o
1
4
102
o
o
1
8
9
10
Y2
)(2
o
o
o
o
16
1
o
o
o
o
15
1
49
121
256
25
196
100
144
100
4
225
55
4
1220
11
16
5
14
10
12
10
2
15
1
7
XY
o
14
1
o
o
o
o
10
1
Para calcular X p tenemos en cuenta únicamente a las chicas (sexo = 1)
Xp = I,XP = 16+14 + 10 + 15 = 55 = l3, 75
n
4
4
Para calcular X q tenemos en cuenta únicamente a los chicos (sexo= O)
Xq = I,Xq = 7 + 11 + 5 + 10 + 12 + 2 = 47 = 7, 833
n
6
6
La desviación típica se calcula para todos los datos
5 2
X
= I,Xt _
n
Sx =
p =
~
bp
x 2 = 122
º -(110º2 )
10
2
= 122 - 104 04 = 171 96
'
jsf = ✓17,96 = 4,238
4
= 0,4
10
q=
6
=0,6
10
= Xp - Xq _ ~=13,75 - 7,833 x ,04 x 0 6 =
5
\f p . q
4 238
'1 '
'
X
I
= 1,396 X 0, 49 = 0,684
215
INTRODUCCIÓN Al ANALISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Para calcular el coeficiente de correlación lineal de Pearson se aplica
la fórmula 4.3.
nl(XY)- L,XL,Y
rxy = -,
✓n=r=x=2-==(===r=x=)=-2✓-";=n===L==y==2=_=(L=Y)=2 =
=
=
=
10 x 55 - 102 x 4
✓10 x 1220-102 2 x ✓10 x 4-4 2
=
550 - 408
142
=
=
✓12200 - 10404 X ✓40 - 16 ✓1796 X .J24
142
42,379 x 4,899
=
142
207,615
=
O 684
'
El resultado es el mismo que con el coeficiente
,
\.
rbp·
Si la variable en lugar de ser dicotómica es dicotomizada, el coeficiente
que se debe utilizar es el coeficiente de correlación biserial (que no veremos aquí). Como se recordará, una variable se ha dicotomizado si hay
un continuo latente entre las dos categorías, pero se han establecido dos
únicos valores. En el Tema 1 se citaba como ejemplo el peso de una rata
en un experimento. Se puede considerar su peso en gramos (hay una variable latente continua), pero también se podría dicotomizar esta variable
considerando únicamente dos valores de peso (alto y bajo). En el caso del
sexo, se trata de una variable dicotómica para la que no hay un continuo
latente entre las dos categorías (no se ha dicotomizado).
5.3. COEFICIENTES DE CORRELACIÓN EN FUNCIÓN DEL TIPO
DE VARIABLE: TABLA RESUMEN
En la Tabla 5.3 se ofrece un resumen de los distintos índices o coeficientes que permiten expresar la relación que hay entre diferentes tipos
de variables. Se ha señalado en negrita aquellos coeficientes que hemos
visto en este curso, ya que es imprescindible hacer una selección. En el
tema anterior se vió la relación que hay entre dos variables cualitativas y
entre dos variables ordinales. En éste se ha examinado la relación entre
dos variables cuantitativas y entre una cuantitativa y otra cualitativa.
216
RELACIÓN ENTRE VARIABLES 11
Tabla 5.3. Coeficientes de correlación apropiados en función del tipo de variable.
Cualitativa
dicotómica
G:ualitativa
politómica
x2
Ordinal
x2
Cuantitativa
x2
Coef. C de
Contingencia
Coef. C de
Contingencia
Coef. C de
Contingencia
Correlación
Biserial
Puntual
Coef. V de
Cramer
Coef. V de
Cramer
Coef. V de
Cramer
Correlación
Biserial
Estadístico
Estadístico
Estadístico
Coeficiente <p
Coef. Q de
Yule
Coeficiente
Kappa
Estadístico
x2
Estadístico
x2
Coef. C de
Contingencia
Coef. c de
Contingencia
Coef. V de
Cramer
Coef. V de
Cramer
Ordinal
Coef. de
Correlación
de Spearman
Coef. de
Correlación
de Spearman
Coef. de
correlación de
Kendall
Coef. de
correlación de
Goodman y
Kruskal
Coef. de
correlación de
Kendall
Coef. de
correlación de
Goodman y
Kruskal
Covarianza
Cuantitativa
Coef. de
correlación
de Pearson
5.4. REGRESIÓN LINEAL SIMPLE
El concepto de regresión proviene del ilustre psicólogo inglés Sir Francis Galton (1822-1911) que, analizando la estatura de una muestra numerosa de padres e hijos, advirtió que los hijos de padres altos eran
también, en general, superiores en estatura al promedio de la población,
pero no tan altos como sus progenitores. Algo parecido ocurría con los hi-
217
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
jos de padres bajos que, aún siendo más bajos que el promedio, no eran ,
por término general, tan bajos como ellos. De estas observaciones dedujo
que se producía en los hijos lo que el llamó una regresión a la media de
la distribución, esto es, que los valores tendían a regresar a la media de
la variable. A partir de aquí, buscó una ecuación matemática que sirviera
para estimar los valores que adoptarían en una variable sujetos para los
que se conoce sus puntuaciones en otra variable y la relación entre ambas. Esta ecuación resultaría ser la ecuación de una recta.
1
Y,'
a + bX;
1
(5.5)
El modelo de regresión utiliza la información contenida en las relaciones lineales observadas entre las variables. Si dos variables X e Y se relacionan linealmente, entonces la representación gráfica de su distribución
conjunta se aproximará visualmente bastante a una línea recta y, por
consiguiente, podemos escribir una variable en función de la otra con la
ecuación de una recta: Y= a + bX.
Correlación y regresión son dos conceptos muy cercanos. La diferencia
fundamental entre ambos estriba en su objetivo: en la regresión, el interés se centra en predecir los valores de una variable (Y) a partir de los
valores conocidos en la otra variable (X), más que en la variación conjunta
de las dos variables. En la correlación la relación entre las variables es
simétrica, mientras que en la regresión la relación es asimétrica o direccional, ya que los resultados serán distintos según se trate de la ecuación
de reg resión de Y sobre X, o de la de X sobre Y (que predice los valores
de X a partir de Y).
La forma de proceder cuando se utiliza un modelo de regresión implica
tres fases: 1) la identificación del modelo de regresión, que supone obtener los coeficientes de regresión que le caracterizan; 2) la valoración del
modelo, que supone el estudio de la capacidad predictiva del mismo ; y 3)
la aplicación del modelo para predecir variables .
5.4.1. Cálculo de los coeficientes de regresión
En la Figura 5.3 se ha dibujado la rect a que mejor ajusta a la nube de
puntos del diagrama de dispersión del eje m plo con el que explicó el coefi -
218
RELACIÓN ENTRE VARIABLES 11
ciente de correlación de Pearson (ver Apartado 5.2.3.1), que relacionaba
los datos del nivel de motivación y del rendimiento en una determinada
asignatura.
10
1
r r
3
4
9
s::o
.j..J
8
j
•
1
L
-
5
6
•
7
e
a.,
6
E
5
"O
e
a.,
o::
4
3
2
•
1
o
1
2
7
8
9
10
Motivación (X)
Figura 5.3. Diagrama de di spersión y recta de regresión .
En aquel momento, el interés residía en cuantificar el grado de relación
entre ambas variables, para lo que se calculó el coeficiente de correlación
lineal de Pearson, que arrojó un valor rxy= 0,746. Este valor lo interpreta mos diciendo que hay una relación lineal alta entre ambas variables. Pues
bien, conociendo la ecuación de la recta de regresión de Y sobre X, que
en este ejemplo es Y/= a+ bX; = O, 989 + O, 638X, podemos predecir el
rendimiento (Y') de otros estudiantes en esa misma situación, conociendo
únicamente sus valores en motivación (X).
La regresión se suele utilizar en situaciones en las que se dispone de
la medida de dos variables X e Y en una muestra de participantes y, después, para otros sujetos de esa misma población, se predice cuáles serán
los valores de Y, desconocidos en ese momento, en func ión de los valores
de X, que sí son conocidos.
En el ejemplo que nos ocupa, se puede predecir la puntuación en rendimiento que obtendrá un nuevo estudiante de esa población, sabiendo
que ha obtenido un 5 en el test de motivación, aplicando la ecuación de
regresión.
219
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Y/= a + bX; = O, 638X + O, 989 = O, 638 x 5 + O, 989 = 4, 179
Desde el punto de vista geométrico, la recta de regresión tiene la misma interpretación que cualquier otra recta, pero desde el punto de vista
estadístico, tiene una característica fundamental: se trata de la recta que
ajusta a la nube de puntos del diagrama de dispersión con menos error.
La explicación de cada término de la ecuación de la recta de regresión es
la siguiente:
■
a es una constante que se denomina origen, porque corresponde al
valor que adopta la variable Y cuando la variable X vale cero. Por
tanto, indica el origen, el punto en el que la recta corta al eje de ordenadas.
■
b es una constante que se denomina pendiente, porque de ella depende la inclinación de la recta. Indica en qué medida cambian los
valores de Y por cada incremento de una unidad en los valores de X.
■
Y es la variable cuyo valor se desea conocer y va a ser pronosticado
a partir del valor de la variable X. Se suele denominar variable pronosticada o criterio y denotarla como Y'.
■
X es la variable cuyo valor se conoce y va a ser utilizado para pronosticar el valor del criterio. Se suele denominar variable predictora
o simplemente predictor.
Obviamente, aunque ya se ha mostrado cuáles son los valores de a y
de b en la recta de regresión de la Figura 5.3, estos valores se pueden
calcular, conociendo los valores de X e Y. Para ello, se utilizan las siguientes fórmulas:
b = --=
n ¿=-(_X_Y)_-=¿_X=¿~Y
n¿X 2 - (I,x)2
~
~
220
(5 .6)
(5. 7)
.
RE LACIÓN ENTRE VAR IABLES 11
a=
Y - bX
(5.8)
Se han presentado dos fórmulas para calcular b. La primera es más rápid a cuando tenemos los datos directos y la segunda es preferible cuando
ya t enemos realizados algunos cálculos previos. Conocido el valor de las
dos constantes a y b de la ecuación anterior, tenemos ya completamente
formulado el modelo de regresión. Habitualmente se suele poner Y' en
lug ar de Y para denotar que nos estamos refiriendo a los valores pronostica dos en el criterio, no a los valores reales obtenidos por los sujetos.
Y/= a+ bX;
Además, hay que tener en cuenta que, dado que se trata de una predicción hay cierto nivel de error. De no haberlo, todos los puntos del diagrama de dispersión de la Figura 5.3 se encontrarían sobre la recta. Por
ta nt o, para cada uno de los sujetos se comete cierta cantidad de error al
asi gnarle la puntuación pronosticada Y' en lugar de la puntuación Y. En
este sentido, a la ecuación anterior habría que añadirle un término que
reflejase este error, de la siguiente manera:
Y¡ = a + bX; + E;
(5 .9)
donde:
(5.10)
E; es una medida del error individual cometido para cada una de las
observaciones. Al utilizar un modelo de regresión se utiliza el modelo
lineal con el que se comete un error lo más pequeño posible para todos
los sujetos. Para hacer esto, la regresión lineal se vale del denominado
criterio de mínimos cuadrados, que es un procedimiento que proporciona valores tales que la suma de los errores al cuadrado (SCE) para los
n participantes sea mínimo. Formalmente, se establece obteniendo los
valores a y b que minimizan la siguiente expresión:
221
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
(5.11)
Se puede demostrar (derivando parcialmente la función a m1nim1zar
respecto de cada uno de los parámetros, igualando a O y despejando) que
este criterio proporciona las ecuaciones para estimar a y b con el menor
error posible, consiguiendo la recta que mejor ajusta a la nube de puntos.
El lector interesado puede acudir a Amón (1999) para profundizar en esta
cuestión.
En el siguiente ejemplo, se explica cómo calcular la recta de regresión
con los datos de la Figura 5.3.
Ejemplo 5.10. Con los datos de la Figura 5.3 calcule la ecuación de
la recta de regresión del rendimiento sobre la motivación en un grupo
de 10 estudiantes.
10
,,--.,
9
s::o
8
v---
7
.µ
e
6
E
5
(].)
......--::
e
(].)
/
/
"O
a'.
./
4
/
3
V"
V
2
1
o
o
1
2
3
4
5
6
7
8
9
10
Motivación (X)
Solución:
En la Tabla 5.2 aparecen los datos utilizados para realizar este diagrama de dispersión. En caso de no conocerlos, bastaría con ir fiján-
222
RELACIÓN ENTRE VARIABLES 11
dese en cada uno de los puntos de la gráfica, y ver qué valor en cada
una de las dos variables ha obtenido el estudiante. Así, por ejemplo,
el punto que aparece más a la izquierda se corresponde con un estudiante que ha obtenido un 2 en X y un 1 en Y (2,1), que se correspende con los valores del estudiante 6.
Estudiante
1
2
3
4
5
6
Motivación
(X)
Rendimiento
(Y)
XY
)(2
y.z
8
2
5
9
9
3
6
5
4
8
5
1
6
4
9
4
48
35
24
80
35
2
30
36
81
12
64
49
36
100
49
4
25
81
81
9
36
25
16
64
25
1
36
16
81
16
66
52
383
498
316
7
6
10
7
7
8
9
10
Para calcular la recta de regresión, hay que conocer el valor de las
constantes b y a:
b_ n
L (XY) - LX¿, Y _ 10 x 383 - 66 x 52 _ 3830 - 3432 _ 398 _
- n¿,X 2 - (I,x )2 -
10 x 498 - 66 2
-
4980 - 4356 - 624 -
= o, 638
También podríamos calcular b utilizando la fórmula 5. 7. Sabemos
(ver Apartado 5.2 .3. 1) que r xy= 0,746, S x= 2,498 y S y= 2, 135
b= r
xy
a=
2 135
S y = O 746 x '
= O 638
S
'
2 498
'
X
Y - bX
'
=
5, 2 - O, 638 x 6, 6
=
5, 2 - 4,211
=
O, 989
223
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
La recta de regresión es:
Y/= a+ bX;
= O, 989 + O, 638X;
5.4.2. Valoración del modelo
Una vez conocida la utilidad del modelo de regresión, y la forma de
calcular la ecuación de una recta de regresión con unos datos concretos,
queda una pregunta importante por responder: ¿hasta qué punto el modelo de regresión es un buen modelo para predecir la variable criterio?
Hay que tener en cuenta que, aunque con el modelo de regresión se consiga el mejor ajuste posible a los datos disponibles, eso no es garantía
de que ese ajuste sea óptimo para predecir la variable criterio. Como es
obvio, cuanta mayor relación haya entre las variables mejor será el pronóstico realizado.
Antes de realizar cálculos numéricos, lo ideal para valorar el ajuste es
representar los datos mediante un diagrama de dispersión, para tener
una primera aproximación de la posible relación entre las dos variables.
En la Figura 5.4 se muestran las rectas de regresión de los ejemplos representados en la Figura 5.2 de este tema.
En cada uno de los gráficos, la línea continua representa la ecuación de
regresión lineal que mejor ajusta a la nube de puntos. Pero a simple vista
se puede apreciar que, en algunos casos, utilizar este modelo lineal para
predecir los datos de Y puede ser una mala opción.
224
RELACIÓN ENTRE VARIABLES 11
Relación lineal directa
Motivación y rendimiento rxy= 0,746
Y/= O, 989 + O, 638X;
s::...,o
e
(l/
E
"O
e
(l/
o:::
10
9
8
7
6
5
4
3
2
1
~
1
\_,.
1
s::-6
ro 5
·x
(l/
l...
o
¡
••
4
e
ro 3
(l/
"O
•
t
,
t
1
o
• ]•
Relación lineal inversa
Caloría? y grado de anorexia rxy= -0,885
Y/ = 4, 59 - O, 00lX¡
j
1 2 3 4 5 6 7 8 9 10
o
2
"O
ro 1
l...
l9
o
s::-
'-'
e
-o
·u
ro
>
o
:¡:;
¿
o
•
•
•
•
Y¡' = 4,485 + O, 083X;
t•
•
•
•
r
5 1015202530354045505560
Edad (X)
4000
3000
Relación no lineal
Arousal y rendimiento rxy= - 0,079
Relación lineal nula
Motivación y edad rxy= O
Y/ = 5
10
9
8
7
6
5
4
3
2
1
2000
1000
Calorías ingeridas (X)
Motivación (X)
10
9
s::- 8
'-' 7
...,o 6
e
(l/
5
E 4
"O
e 3
(l/
o::: 2
1
o
l
,.
J·· · ·
•
•
......
l·-..
1
1
1
1
..
-1
·
• \.l·,.
·.
. . . ...
~ ;
·.·.
·.•J
1 2 3 4 5 6 7 8 9 10
Arousal (X)
Figura 5.4. Diagramas de dispersión, coeficientes de correlación de Pearson y rectas de
regresión.
En el ejemplo sobre motivación y rendimiento se aprecia una tendencia
lineal en los datos que hace que la mayoría de los puntos se encuentren
próximos a la recta de regresión. Se trata de una relación directa y el
coeficiente de correlación lineal de Pearson arroja un valor de rxy = O, 746.
En el ejemplo sobre calorías ingeridas y grado de anorexia también se
visualiza una clara tendencia lineal en el diagrama de dispersión, estando
225
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
la nube de puntos muy próxima a la recta de regresión correspondiente,
con un rxy= -0,885.
En los dos últimos ejemplos el modelo de regresión no parece ser la
mejor opción para realizar pronósticos por distintos motivos. En el caso
del ejemplo sobre edad y motivación, el diagrama de dispersión refleja
que no hay ningún tipo de relación entre ambas variables (rxy = O), por lo
que la recta de regresión no serviría para realizar pronósticos en la variable motivación . En el ejemplo sobre nivel de arousal y rendimiento se
aprecia en el diagrama de dispersión que sí hay una relación entre ambas
variables, pero curvilínea, por lo que la recta de regresión lineal del diagrama tampoco sirve para hacer buenos pronósticos (rxy = -0,079).
Para examinar la utilidad predictiva de un modelo de regresión, además de la aproximación gráfica, se pueden utilizar dos índices: la varianza
error y el coeficiente de determinación .
5.4.2.1. La varianza error
La varianza error es la varianza de los errores cometidos al pronosticar la variable Y a partir de la variable X, definiendo estos errores (o
residuos) como la diferencia entre la puntuación que realmente obtendría
el sujeto en esa variable (Y) y la puntuación que se le ha pronosticado con
el modelo de regresión a partir de su valor en la variable X (Y'), tal y como
se ha visto en la fórmula 5.10.
E; = Y,- - Yi
La varianza error se calcula, simplemente, aplicando la fórmula de la
varianza a estas puntuaciones error, y es conocida en la literatura como
error cuadrático medio. Esta varianza se puede denotar como
o
más frecuentemente, como
y se interpreta como la varianza de los
errores cometidos al pronosticar la variable Y a partir de la variable X (o
mediante la recta de regresión de Y sobre X ).
Si,
s;.x,
5 E2
226
"'E 2
2
= 5 y-x
= -~-n ' -
-2
E
(5.12)
RELACIÓN ENTRE VARIABLES 11
Para la recta de regresión de la Figura 5.3 se ha marcado con una llave la distancia entre cada uno de los valores asumidos por la variable Y'
representada en la recta de regresión (pronosticada) y la variable Y (ob servada). Estas «distancias» son los errores cometidos al pronosticar el
rendimiento en la asignatura (Y) a partir de los valores en motivación (X).
10
f
Y'= ,989 + 0,f38X
9
8
$:'
o
7
.µ
e
QJ
6
E
5
1
1
"O
e
QJ
a:::
4
1
3
{
2
1
o
r
o
1
2
3
4
5
6
7
8
9
10
Motivación (X)
Figura S.S. Diagrama de dispersión, recta de regresión y errores de pronóstico.
En el gráfico se aprecian los errores cometidos. Por ejemplo, el estudiante n° 7 obtuvo en rendimiento académico (que es la variable Y) una
puntuación de 6, mientras que la línea de la recta de regresión le pronostica una puntuación menor. Esta diferencia entre la puntuación real en Y y
la puntuación pronosticada en Y es el error cometido en la predicción. En
el segundo estudiante el error es menor, puesto que hay menor distancia
entre la puntuación obtenida en Y (que es 5) y la puntuación que le pronosticaríamos, que según el gráfico está cercana a 5,5.
Cuanto menor sea el valor de la varianza error, más similares serán las
puntuaciones pronosticadas por el modelo y las puntuaciones que realmente obtendrían los sujetos en el criterio, esto es, mejores serán las
predicciones realizadas por el modelo de regresión. En el próximo ejemplo
se calculará la varianza error con estos datos.
227
INTROOUCCIÓN AL ANÁLISIS DE DATOS; APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 5.11. Con los datos de la Figura 5.3 calcule la varianza
error de la ecuación de la recta de regresión del rendimiento sobre la
motivación en un grupo de 10 estudiantes.
10
9
s::o
.µ
8
e
6
E
5
QJ
/'
7
V"'"
........-:::
~/
"O
e
QJ
e::
/
4
/
3
V
V
2
1
o
o
1
2
3
4
5
6
7
8
9
10
Motivación (X)
Solución:
Los datos que corresponden a la Figura 5.3 se muestran en la siguiente tabla (ver ejemplo anterior). Para facilitar los cálculos se han
añadido tres columnas con los valores pronosticados (Y'), los errores
(E¡) y los errores al cuadrado (El).
Estudiante
1
2
3
4
5
6
7
8
9
10
tfl<llri •#tt- lill'!'
228
(X)
Rendimiento
(Y)
8
7
6
10
7
2
5
9
9
3
6
5
4
8
5
1
6
4
9
4
66
52
Motivación
..
"'" ''''"'""'
Yí = O, 989 + O, 638X E1 = Y, - Y;
6,093
5,455
4,817
7,369
5,455
2,265
4,179
6,731
6,731
2,903
....
-0,093
-0,455
- 0,817
0,631
-0,455
-1,265
1,821
-2, 731
2,269
1,097
Ef
0,009
0,207
0,667
0,398
0,207
1,600
3,316
7,458
5,148
1,203
RELACIÓN ENTRE VARIABLES 11
52 = 52
E
y .x
=
í:_El _ -¡j2
n
= 20,213 - O = 2,021
10
5.4.2.2. El coeficiente de determinación
En regresión lineal simple, el coeficiente de determinación es igual
al coeficiente de correlación de Pearson elevado al cuadrado. Indica la
proporción de varianza de la variable pronosticada o criterio (Y) que es
explicada por el modelo lineal, esto es, por la variable predictora X .
r}y
➔ Coeficiente de determinación
(5.13)
El coeficiente de determinación no depende de las unidades en que se
ex presan los datos y toma valores entre O y l. Cuanto mayor sea el valor
del coeficiente de determinación, más similares serán las puntuaciones
pronosticadas por el modelo y las puntuaciones que realmente obtendrían
los sujetos en el criterio, esto es, mejores serán las predicciones realizadas por el modelo de regresión. Si el coeficiente de determinación es igual
a O, significa que la variable predictora tiene nula capacidad predictiva de
la variable a predecir (Y) . Si llegara a ser igual a 1 la variable predictora
explicaría toda la variación de Y, y las predicciones no tendrían error.
Ejemplo 5.12. Sabiendo el valor de los coeficientes de correlación
de Pearson de la Figura 5.4, calcule e interprete el valor del coeficiente de determinación en cada uno de los casos, valorando la idoneidad
del modelo de regresión a los datos.
Solución:
Para calcular el coeficiente de determinación basta con elevar al cuadrado cada uno de los coeficientes de correlación.
229
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo
rxv
Motivación y rendimiento
rXY
=
0, 746
r;y
=
0,557
Calorías ingeridas y grado de anorexia
rxy
=
- 0, 885
r;y
=
O, 783
Edad y motivación
rxy
=
O
r;y
=
O
r;y
=
O, 006
Nivel de arousal y rendimiento
,'
2
rxv
rxy = - 0,079
La interpretación de los coeficientes de determinación es congruente
con lo que se había visto en los diagramas de dispersión de la Figura
5.4. En el ejemplo sobre motivación y rendimiento, el coeficiente de
determinación es 0,557, lo que indica que el 55,7% de la variabilidad del rendimiento se puede predecir con el test de motivación. En
el caso del ejemplo sobre calorías ingeridas y grado de anorexia, el
coeficiente de determinación alcanza el valor de 0,783, por lo que el
78,3% de la variabilidad del criterio (grado de anorexia) se puede
explicar con el n° de calorías ingeridas. En los dos últimos ejemplos,
la capacidad explicativa de los modelos es prácticamente nula (0%
y 0,6%), por lo que en estos casos, el modelo de regresión no sirve
para realizar predicciones.
5.4.3. Características del modelo de regresión
A continuación se presentan algunas de las propiedades del modelo de
regresión lineal simple:
■
La pendiente de la recta de regresión siempre será del mismo signo
que el coeficiente de correlación lineal de Pearson, por lo que informará sobre el tipo de relación lineal entre las variables (directa o
inversa). Dado que las desviaciones típicas siempre son positivas, b
adopta el signo del coeficiente de correlación lineal de Pearson.
■
La media de los errores de predicción o residuos (E= Y- Y') es O.
230
RELACIÓN ENTRE VARIABLES 11
(5.15)
■
La media de las puntuaciones pronosticadas coincide con la media de
las verdaderas puntuaciones en Y:
(5.16)
■
La varianza de las puntuaciones en Y, es igual a la suma de la varian za de los pronósticos (hechos mediante la recta de regresión), más
la varianza de los errores (o error cuadrático medio) .
s~ = s;, + s~x
■
(5.14)
El coeficiente de determinación es igual al cociente entre la varianza
de las puntuaciones pronosticadas y la varianza de las puntuaciones
en Y. De ahí, que sea un indicador de la proporción de varianza del
criterio que queda explicada con el modelo de regresión lineal.
(5.17)
■
El complementario del coeficiente de determ inación es igual al cociente entre la varian za de los errores y la va rianza de las puntua cion es en Y, e indica la proporción de la varian za del criterio que NO
queda exp licada por el modelo de regresión lineal.
1 - r2 XY -
s~.x
$2
(5 . 18)
y
231
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 5.13. Con los datos del Ejemplo 5.11, compruebe las propiedades del modelo de regresión lineal.
Estudiante
Motivación
(X)
Rendimiento
. (Y)
Y/
. E¡ =- Y1 - Y;
Ef
Yl
8
7
6
10
7
2
5
9
9
3
6
5
4
8
5
1
6
4
9
4
6,093
5,455
4,817
7,369
5,455
2,265
4,179
6,731
6,731
2,903
-0,093
-0,455
-0,817
0,631
-0,455
-1,265
1,821
-2,731
2,269
1,097
0,009
0,207
0,667
0,398
0,207
1,600
3,316
7,458
5,148
1,203
36
25
16
64
25
1
36
16
81
16
37,125
29,757
23,203
54,302
29,757
5,130
17,464
45,306
45,306
8,427
66
52
20,213
316
295,779
1
2
3
4
5
6
7
8
9
10
y•2
1
Solución:
■
La recta de regresión entre ambas variables es:
Y/= O, 989 + O, 638X
'
.
Por tanto, b = 0,638, que es un valor positivo al igual que el coeficiente de correlación lineal de Pearson, que como se vió en el
Ejemplo 5.12, es igual a 0,746.
■ E=
O
E= LE¡
- 0, 093 + -0, 455 + -0, 817 + ... + 1,097 = o, 002 "" O
n
10
10
(el motivo por el que el valor no es exactamente O reside en
restringir a 3 el n° de decimales).
■ Y'=
=
y
Y' = 2,Y¡' = 6,093+5,455+4,817+ ... +2,903 = 52 = 5, 2
n
10
Y = I. Y¡ = 52 = 5, 2
n
■
232
10
s; = s;, + s; x
10
RELACIÓN ENTRE VARIABLES 11
"'Y-2 -2 316
5; =-~-'--Y = - - -5,2 2 = 31,6- 27,04 = 4,56
n
10
2951 779
- 5 22
10
'
52 = 52
E
=
Y ·X
lEt
-E2 = 20,213
n
10
= 29
'
578 - 27 04
'
=2
'
538
O = 2 021
,
5; = 5;, + 5;x = 2,538 + 2,022 = 4,56
5;,
2
■
rxy
=-
r;y
=
5;
O, 746 2
=
O, 557
r2 = 5;, = 2,538 = o 557
4 , 56
52y
XY
2
■ 1 - rXY
52
=~
2
5y
2 022
,
1 - O 557 = 4,56
1
'
➔
O 443 = O 443
1
1
S.S. REGRESIÓN LINEAL MÚLTIPLE
Hasta ahora se ha presentado el modelo de regresión lineal simple, que
trata de hacer pronósticos a partir de una única variable predictora X. Como
es lógico, si se utiliza más de una variable predictora, la capacidad predictiva del modelo puede mejorar. Los modelos de regresión lineales múltiples
suelen ser más realistas que los simples, ya que es raro encontrar criterios
que se puedan predecir a partir de una única variable predictora.
Dado que este es un manual introductorio, y que en la actualidad este
tipo de análisis se suele realizar mediante software estadístico, aquí no
se expondrán las fórmulas para el cálculo de los coeficientes de regresión
múltiple. Simplemente se tratará de explicar con un ejemplo, el cambio
que se produce en la valoración del modelo a partir del coeficiente de determinación, cuando se introduce una segunda variable predictora .
233
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
En la Tabla 5.4 se muestran tres de las variables del Ejemplo 1.1 (ver
Tabla 1.2 del Tema 1). Como se recordará, estas tres variables son cuantitativas, y tiene sentido pensar que tanto el número de horas de estudio
semanales como el nivel de ansiedad presentado en una situación de
examen pueden influir (o predecir) la calificación obtenida en el examen.
Tabla 5.4. Nº de horas de estudio, nivel de ansiedad ante los exámenes y calificación obtenida en el examen de Lengua de la PAU por los 40 estudiantes del Ejemplo 1.1.
ID
V ...
...
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Horas de
estudio
7
11
16
5
14
10
12
10
2
15
10
10
15
9
9
8
14
8
18
8
Ansiedad
ante
exámenes
Calificación
PAU
ID
10
7
25
15
5
12
17
30
9
12
4
8
19
15
17
4
14
9
8
5
6
4
9
4
8
7
7
1
4
8
5
4
3
5
5
7
6
4
6
4
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Horas de
estudio
4
8
10
12
16
15
13
10
12
18
14
9
11
3
10
9
14
10
9
4
Ansiedad
ante
exámenes
3
10
7
5
5
5
12
17
3
10
10
6
2
9
22
10
7
25
15
5
Calificación
PAU
6
4
7
8
10
8
7
7
7
8
8
6
6
4
6
5
7
8
5
2
Utilizando la regresión lineal simple, hay que considerar dos rectas de
regresión, una para la variable predictora n° de horas de estudio y otra
para el nivel de ansiedad ante los exámenes. A continuación se presenta rán ambas ( el lector interesado puede obtenerlas realizando los cálculos
pertinentes explicados en el Apartado 5.4.1) .
En el primer caso, la ecuación de la recta de regresión de la Calificación
obtenida sobre el n° de horas de estudio es:
Yi
234
= 2, 82 + O, 292X;
RELACIÓN ENTRE VARIABLES 11
La correlación entre el n° de horas de estudio y la calificación obtenida
es igual a 0,584, con lo que el coeficiente de determinación será igual a ese
valor al cuadrado, que es 0,341. Por tanto, el 34, 1% de la variabilidad de la
calificación se explica por el tiempo empleado para estudiar la asignatura.
En el segundo caso, la ecuación de la recta de regresión de la calificación obtenida sobre el nivel de ansiedad ante los exámenes es:
Yi
= 8, 36 - O, 239X¡
La correlación entre el nivel de ansiedad ante los exámenes y la calificación obtenida es igual a -0, 793, con lo que el coeficiente de determinación será 0,629, lo que significa que 62,9% de la variabilidad de la
calificación se explica por el nivel de ansiedad ante los exámenes.
Al utilizar las dos variables predictoras (denominaremos X 1 al n° de hora s estudiadas y X 2 al nivel de ansiedad ante los exámenes), la ecuación
de regresión sería:
Yi = 5,714 + O, 226X
1 -
O, 214X2
En este caso, al haber dos variables predictoras implicadas, el coeficiente de determinación varía. Se denota como R~_x1 x,1 y la fórmula para
calcularlo es
(5.19)
Para facilitar la utilización de esta fórmula, se presentarán los datos en
una matriz de correlaciones. Una matriz de correlaciones es una tabla con
el mismo número de filas y columnas que de variables, en la que en cada
casilla aparece la correlación entre las variables correspondientes a la fila
y a la columna. Puede observarse en la Tabla 5.5.
235
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla S.S. Matriz de correlaciones
1
Horas de
estudio (X1 )
Ansiedad ante los
exámenes (X2 )
Calificación
PAU (Y)
1
- 0.185
0,584
1
- o, 793
Horas de
estudio (X1 )
Ansiedad ante los
exámenes (X2 )
Calificación
PAU (Y)
1
De las correlaciones presentadas en la tabla, la única con la que no
se ha trabajado aún es la correlación entre el n° de horas de estudio y
la ansiedad ante los exámenes, que adopta un valor de -0,185. Con los
valores de la tabla, ya se puede calcular el coeficiente de determinación
múltiple.
R2
Y.XIX,
2
2
2
=-~-x~1_+_r._~~'------~-x~1_•r._Y~x,'-----•r_x~1x~, =
1 2
- rx1 x2
0, 5842 + (- 0, 793) 2
2 X 0, 584 X (- 0, 793) X (- 0, 185)
1 - (- 0, 185)
-
= - - - - - - - - - - - - -2- - - - - - - - =
=
o, 341 + o, 629 - o, 171 = o, 799
o, 966
o, 966
= O 827
'
El valor predictivo de este modelo de regresión múltiple es muy superior al de ambos modelos de regresión simples. Teniendo en cuenta am bas predictoras simultáneamente se explica el 82, 7% de la variabilidad de
la calificación, a partir del tiempo de estudio y del nivel de ansiedad ante
los exámenes.
5.6. RESUMEN
Entre el tema anterior y éste se han presentado métodos gráficos y
analíticos para el estudio de las relaciones ent re cua lquier tipo de varia bles. En este tema se ha estudiado la relació n entre dos variables cuantitativas mediante métodos gráficos (el diag ra m a de di spersión) y analíticos
236
RELACIÓN ENTRE VARIABLES 11
( la covarianza y el coeficiente de correlación lineal de Pearson). Debido
a su importancia, se ha profundizado en el estudio del coeficiente de correlación lineal de Pearson, aprendiendo las fórmulas apropiadas para su
cálculo, su interpretación y sus características. También se ha presentado
su aplicación a dos variables ordinales, a dos variables dicotómicas y al
caso en el que una de las dos variables es dicotómica y la otra cuantita ti va. Este bloque termina con una tabla resumen de los coeficientes de
correlación vistos.
En el caso de la regresión lineal, se ha explicado la forma de identificar
el modelo de regresión mediante el cálculo de los coeficientes de regresión, la forma de valorarlo mediante el coeficiente de determinación y la
varianza error, y la forma de aplicarlo. Además, se han visto las caracte rísticas fundamentales de este modelo y se ha presentado con un ejemplo
la utilidad del modelo de regresión lineal múltiple.
5.7. E ERCICIOS
5.1.
Con los siguientes diagramas de dispersión, correspondientes a
dos variables, X e Y, len qué caso debería utilizarse el coeficiente
de correlación de Pearson para estudiar su relación? A) En la Figu ra 5.6 porque la relación «tiene forma de V» ; B) En la Figura 5. 7
porque la relación es «inversa »; C) En ninguno de los dos casos.
.....-..
♦
y
..- .......
....
.
••
y
... . ... . . . ... .
,
·.
X
Figura 5.6
5.2.
X
Figura 5.7
Con los datos de la Tabla 5.6, la covarianza entre X e Y es: A) 36;
B) 6; C) 63.
237
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
La correlación de Pearson
entre X e Y toma el valor:
5.3.
Tabla 5.6. Puntuaciones en dos tests,
uno de razonamiento abstracto (X), y otro
de razonamiento espacial, ( Y'.) de cinco niños.
A) 0,6; B) 0,8; C) 0,4.
Con los datos de la Tabla
5.6, la pendiente de la ecuación de la recta de regresión
que permite pronosticar las
puntuaciones en Y, Y', a partir de las puntuaciones en X
es: A) 2; B) 0,50; C) 0,16.
5.4.
David
92,5
77,5
100
107,5
122,5
100,5
103,5
105
106,5
109,5
¿
500
525
Amaya
Carlos
Lucía
Inés
La ordenada en el origen de
la ecuación de la recta de
regresión de Y sobre X es:
A) 20; B) 60; C) 89.
S.S.
j
y
Niños
¡,
5.6.
Con los datos de la Tabla 5.6, la proporción de la varianza de Y
explicada por la varianza de X es: A) 0,36; B) 0,64; C) 0,80.
5.7.
En los siguientes gráficos se muestra la relación de los años transcurridos desde el diagnóstico de una enfermedad degenerativa con
la percepción de bienestar percibido (Figura 5.8) y con el deterioro
de las capacidades motoras (Figura 5.9).
12
-;:: 10( ,1.0) (3.!H)
s;::-
"'~ 8
:o
e
:g
-
6
4
•
~
2
1
Q.
o
1
O
1
''
1
2
4
6
~
E
6
~
4
-~
2 (T,T)
1
tO
aí
e O
8
10
12
◄t
14
O
srrs rs)
t
1
o
(L ,2)
1
;
1
o
1
1
(-é, ,.. )
'
0.
cu
.
j
1
(6~5)
'
::l 8
tI:é -;g)-
1
1
1
T
~
cu
S' 10
f
1
'~
(3,2)
•
2
1
-
4
6
8
10
12
Años desde el diagnóstico (X)
Años desde el diagnóstico (X)
Figura 5.8
Figura 5.9
14
¿Qué gráfica representa una relación lineal inversa entre dos variables? A) La Figura 5.8; B) La Figura 5.9; C) Ambas.
S.S.
238
Con los datos del ejercicio anterior, el coeficiente de correlación
lineal de Pearson entre las variables años transcurridos desde el
diagnóstico (X) y deterioro de las capacidades motoras (V) es: A)
-0,96; B) O, 735; C) 0,984.
RELACIÓN ENTRE VARIABLES 11
5.9.
Con los datos de la Tabla
5.7, la covarianza entre X e
Y es: A) 25; B) 36; C) 40 .
Tabla 5.7. Puntuaciones de 500 niños
en un test de razonamiento numérico (X)
y en la asignatura de matemáticas ( Y).
5.10. La correlación de Pearson
y
X
entre X e Y toma el valor:
A) 0,6; B) 0,8; C) 0,9.
5.11. Con los datos de la Tabla
11
¿X =50000
¿Y =3500
I, x 2
I, Y2
= 5112500
= 29000
5. 7: A) las puntuaciones alXY
tas en el test se correspon den con bajas en matemá¿ XY = 368000
ticas; B) las puntuaciones
bajas en el test se corresponden con bajas en matemáticas; C) las puntuaciones bajas en el
test se corresponden con altas en matemáticas.
5.12. La ecuación de la recta de regresión es: A) Y'= 10 - 0,2X; B)
Y' = 0,16X-9; C) Y'= 20 - 0,16X
5.13. Con los datos de la Tabla 5 . 7, ¿qué puntuación le pronosticaremos
en la asignatura de matemáticas a final de curso, a un niño que obtuvo una puntuación de 90 en el test de ra zonamiento numérico?:
A) 9; B) 5,4; C) 5,6.
5.14. En la siguiente tabla se presentan las puntuaciones obtenidas por
10 estudiantes en una de las preguntas de una prueba tipo test (1 =
acierto y O = fallo) y en la puntuación total obtenida en el examen.
¿Qué coeficiente de correlación hay que utilizar y cuál es su valor?
Estudiante
Pregunta
Examen
1
2
o
o
3
6
10
2
9
5
7
5
1
8
3
1
4
o
5
6
7
8
9
10
1
o
o
1
o
1
239
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
A) El coeficiente de correlación biserial puntual, con un valor de
0,691; B) El coeficiente phi con un valor de O, 715; C) El coeficiente
V de Cramer con un valor de 0,565.
5.15. Con los datos de la Figura
valor
de la
sión?
3,2.
5.8, ¿cuál es el
de la pendiente
recta de regreA) 0,2; B) 3; C)
5.16. ¿Qué puntuación pronosticamos en Y a un
niño que ha tenido en
X una puntuación de
20? A) 4; B) 7; C) 10.
5 . 17 . ¿cuál es la varianza de
las puntuaciones pronosticadas? A) 2,56;
B) 4,25; C) 5,36.
11
1
10
1
1
1
.1
Y'== 0,2X + 3
-- ~-
9
8
7
6
y 5
4
3
2
_,,,....-
~
1
~246810UMIBIBmll~~~~~~
X
Figura 5.8. Puntuaciones obtenidas por 5
niños en dos variables, Xe Y, y ecuación de regresión de Y sobre X.
5.18 . El valor del coeficiente de correlación de Pearson es: A) 0,6;
O, 7; C) 0,8.
B)
5.19 . ¿Qué porcentaje del criterio es explicada por la variable X? A) 36%;
B) 49%; C) 64%.
5 .20. En la siguiente Tabla se muestran las correlaciones entre las va riables ingresos anuales (X1 ), regulación afectiva (X2 ) y calidad de
vida percibida (Y).
Ingresos
anuales
Regulación
afectiva
Calidad de
vida
Ingresos
anuales
Regulación
afectiva
Calidad de
vida
1
- 0,1
0,3
1
0,8
1
Si se utilizaran las variables ingresos anuales (X1 ) y regulación
afectiva (X 2 ) para predecir la calidad de vida percibida (Y). ¿Qué
240
RELACIÓN ENTRE VARIABLES 11
porcentaje de la variabilidad en calidad de vida se puede explicar
por el nivel de ingresos y la regulación afectiva? A) 66%; B) 80%;
C) 79%.
5.8. SOLUCIONES DE LOS E ERCICIOS
5.1.
Solución: e
No debe utilizarse en ninguno de los dos casos porque no existe
relación lineal.
5.2.
Solución: A
Niños
X
y
XY
)(2
y:z
Amaya
Carlos
Lucía
92,50
77,50
100
107,50
122,50
100,50
103,50
105
106,50
109,50
9296,25
8021,25
10500
11448,75
13413,75
8556,25
6006,25
10000
11556,25
15006,25
10100,25
10712,25
11025
11342,25
11990,25
500
525
52680
51125
55170
Inés
David
X = 5 00 = 100
5
51125
y =525 = 105
- 1002 = 225
s}
=
Sx
= ✓225 = 15
S~
= 55170 - 1052 = 9
5
5
5
S xy
=
52680
- (100 x 105)
5
Sy
= ✓9 = 3
= 10536 - 10500 = 36
241
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
5.3.
Solución: B
"'
N'iños
r
s.s.
Y2
Amaya
Carlos
Lucía
Inés
David
92,50
77,50
100
107, 50
122, 50
8556,25
6006,25
10000
11556,25
15006,25
10100,25
10712,25
11025
11342,25
11990,25
~
500
51125
55170
15 x 3
S x Sy
Solución: e
Sy
3
b = rxy = O, 8 x Sx
15
Solución:
-
-
a= Y - bX
5.6.
X2
= S xy = ~ = 36 = O 8
XY
5.4.
¡·¡
45
'
= O, 16
e
= 105 - (O, 16 x 100) = 105 -
16
= 89
Solución: B
5 ~,
2
= rxy
= 0,8 2 = 0,64
2
Sy
-
5.7.
Solución : A
Observando la Figura 5.8 se observa que a mayores valores en X le
corresponden menores valores en Y y viceversa, por lo que se trata
de una relación inversa.
5.8.
Solución:
e
Paciente
Años desde el
diagnóstico (X)
Deterioro c;ae,.
motoras (V)
XV
X2
vz
1
2
3
4
5
1
3
6
8
12
1
2
5
5
9
1
6
30
40
108
1
9
36
64
144
1
4
25
25
81
~
30
22
185
254
136
242
RELACIÓN ENTRE VARIABLES 11
5 X 185-30 X 22
----;======-=====
2
2 =
✓5 X 254 - 30 ✓5 X 136 - 22
=
925 - 660 = 265 = O 984
19,235 x 14 269,29
'
5.9.
Solución: B
5
=
XY
L XY _ (xY) = 368000 -( 50000 x 3500) = 736 _ (loo x 7 ) =
n
500
500
500
= 736 - 700 = 36
5.10. Solución: B
5~ =
51
~~~00 - 100 2 = 225
5 y2
= 29000 _ 72 = 9
500
rxy
= S xy
S x · Sy
Sx =
S
✓225
~9
y = ',/'::J =
=
15
3
= ~ = 36 = O 8
15 x 3
45
'
5.11. Solución: B
Puesto que rxy= 0,8, puntuaciones altas en X se corresponden con
puntuaciones altas en Y y puntuaciones bajas en X se corresponden con puntuaciones bajas en Y.
5.12. Solución: B
Y '= a+ bX
b
Sy
Sx
= rxy -
a= Y - bX
= O, 8
3
= O, 16
15
x-
= 7 - (O, 16 x 100) = 7 - 16 = - 9
Por tanto:
Y' = 0,16X - 9
5.13. Solución: B
Y '= 0,16X - 9
⇒
Y'=
o, 16 x 90 -
9 = 14, 4 - 9 = 5, 4
5.14. Solución: A
Dado que una de las variables es dicotómica y la otra cuantitativa,
hay que calcular el coeficiente de correlación biserial-puntual.
243
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACION ES EN PSICOLOGÍA Y CIENCIAS OE LA SALUD
Estudiante
Pregunta
(Y)
Examen
o
o
3
6
10
2
9
5
1
2
3
4
5
6
(X)
1
o
1
o
o
7
8
9
10
7
1
5
1
8
o
1
XY
Y2
)(2
o
o
o
o
10
1
o
o
9
1
o
o
o
o
5
1
o
o
8
1
9
36
100
4
81
25
49
25
1
64
56
x p=
I, xp
n
xq=
I, xq
n
·,
= 10 + 9 + 5 + 8 = 32 = 8
4
4
= 3 + 6 + 2 + 5 + 7 + 1 = 24 = 4
6
6
394
56
- (
10
10
52 =
Lnx¡ _ x
Sx =
Jsf = .j8, 04 = 2,835
X
4
p = 10 = 0,4
r bp
394
2
=
q =
J
= 39 1 4 - 31 1 36 = s1 04
6
= 0,6
10
X p- Xq
~
8- 4
1
= - - - · .,_¡p -q = - - X ',/0,4
sx
2,835
X
0,6 = 1,411 X 0,49 = 0,691
5.15. Solución: A
Es el término que multiplica a X en la ecuación que aparece en la
gráfica .
5.16. Solución: B
Puede observarse directamente en la gráfica que para X= 20 el
pronóstico, utilizando la recta de regresión, es 7. También puede
calcula rse así:
Y' =
244
o, 2X + 3
⇒
Y' =
o, 2 x 20 + 3 = 4 + 3 = 7
RELACIÓN ENTRE VARIABLES 11
5.17. Solución: A
Sujeto
X
y
Y'=0,2X+ 3
(Y')2
1
2
3
4
5
8
16
20
24
32
6
4
7
8
10
4,6
6,2
7,0
7,8
9,4
21,16
38,44
49,00
60,84
88,36
¿
100
35
35
257,8
Y' = L Y' = 35 = 7
n
5
s~, = 25718 5
5.18. Solución:
72
(obsérvese que
= 51,56 -
49
Y' = 7)
= 2,56
e
Sujeto
X
y
)(2
Y2
1
2
3
4
5
8
16
20
24
32
6
4
7
8
10
64
256
400
576
1024
36
16
49
64
100
¿
100
35
2320
265
x = 100 = 20
S x = ✓23520 - 202 = J64- = 8
y = 35 = 7
Sy = ✓2~5 - 72 = ✓
4 =2
5
5
Sy
b = O, 2 = rxy · Sx
5.19. Solución:
r}y = 0,8 2
⇒
rxy = _o,_2_._S~x = o, 2 x 8 = 1, 6 = O 8
Sy
2
2
'
e
= 0,64
245
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
5.20. Solución: e
Ingresos
anuales (X1 )
Regulación
afectiva (X2 )
Calidad de
vida (Y)
1
-0 , 1
0,3
1
0 ,8
Ingresos
anuales (X1 )
Regulación
afectiva (X2 )
Calidad de
vida (Y)
1
1 - r} X
2
0, 3 + 0, 8
2
-
2
l
2
X
0, 3 X 0, 8
X
(- 0, 1)
1 - (- 0, 1)2
=
O, 09 + O, 64 + O, 048
0,99
=
O, 778
0,99
=
O 786 "' O 79
'
'
El 79% de la variabilidad en calidad de vida se puede explicar por
el nivel de ingresos anuales y la regulación afectiva.
246
TEMA6
Nociones básicas de probabilidad
6.1. INTRODUCCIÓN
6.2. CONCEPTOS PREVIOS
6.2.1.
6.2.2.
6.2.3.
6.2.4.
Experimento aleatorio
Espacio muestra!
Sucesos y tipos de sucesos
Operaciones con sucesos
6.3. DEFINICIÓN DE PROBABILIDAD
6.4. TEOREMA DE LA SUMA
6.5. PROBABILIDAD CONDICIONADA
6.6. TEOREMA DEL PRODUCTO
6.7. TEOREMA DE LA PROBABILIDAD TOTAL
6.8. TEOREMA DE BAYES
6.9. ALGUNAS APLICACIONES DE LA PROBABILIDAD
CONDICIONADA EN PSICOLOGÍA DE LA SALUD
6.10. RESUMEN
6.11. EJERCICIOS
6.12. SOLUCIONES A LOS EJERCICIOS
NOCIONES BASICAS DE PROBABILIDAD
6.1. INTRODUCCIÓN
En las Ciencias Sociales en general, y en la Psicología y Ciencias de la
Salud en particular, es habitual la imposibilidad de prever el resultado de
un fenómeno. Según los casos, esto puede ser debido a diversas causas.
Por ejemplo:
■
Puede ocurrir que una persona tenga fiebre o le duela la cabeza (variaciones de la homeostasis interna) el día en el que participa en un experimento sobre estrés. Por lo cual, su situación y por ende sus respuestas serán diferentes a las que daría un día en el que esto no ocurriera.
■
Puede suceder que estemos empleando un instrumento de medi da (por ejemplo un termómetro) que esté afectado por condiciones
medioambientales, dando lugar a resultados de medida diferentes
(por ejemplo, por efecto del calor).
Por otra parte, en nuestra vida cotidiana estamos expuestos conti nuamente a sucesos sobre los que no tenemos la certeza de que vayan
a ocurrir, sino que pueden tener una mayor o menor probabilidad de que
su cedan. Por ejemplo, es poco probable tener un hijo con una enfermedad
rara, es igual de probable lanzar una moneda al aire y obtener cara o cruz
y, finalmente, es muy probable que un coche en reserva se pare si no se
echa gasolina. Por tanto, puede haber un rango amplio de probabilidades
de que ocurran o no los sucesos.
En todos estos casos se dice que el resultado está influenciado por el
azar (se debe al azar) o, de forma más correct a, qu e estamos ante un
fe nómeno aleatorio. Ante estas variaciones que no podemos controlar,
y que producen una gran variabilidad e incertidumbre en los resultados,
¿cómo se puede actuar desde la perspectiva metodológi ca? En otras pa la bras, ¿qué hacer ante la incertidumbre? Existen herramientas metodológicas que pueden trabajar con este tipo de datos. Son las que constitu ye n parte del cuerpo de conocimiento s de la Est adísti ca: «La Estadística
pe rmite esbozar conclusiones válidas en situaciones de incertidumbre y
variabilidad » (Medhi, 1992) .
Estas situaciones, en las que existe incertidumbre, son también obj eto
de est ud io de la Probabilidad, ya que ésta es la teoría matemáti ca que
permite desarrollar modelos matemát icos ad aptados al estudio de est e
ti po de situaciones, med iante la asignación de probabilidades ( certidum bre) a dichas situaciones.
249
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Como ya se vio en el Tema 1, en el proceso de investigación hay que
obtener conclusiones sobre las características de las variables en las poblaciones, de las cuales provienen las muestras en las que se toman los
datos. Es decir, en general se dispone de información parcial de una población, que se obtiene seleccionando al «azar» algunos de sus elementos. Nuevamente estamos refiriéndonos al azar, lo que significa que nos
encontramos ante un proceso con incertidumbre y, por tanto, habrá que
recurrir a la probabilidad para valorar la calidad de las decisiones que
se realicen. Este objetivo es el que define a la Estadística Inferencia!
como un conjunto de métodos y técn icas que permiten inducir, a partir
de la información empírica proporcionada por una muestra, cuál es el
comportamiento de una determinada población, con un riesgo de error
medible en términos de probabilidad.
Probabilidad y Estadística son ramas de las matemáticas que se complementan. El objeto de la Probabilidad es el estudio de variables aleatorias, que son valores que dependen básicamente del azar o de la posibilidad de que puedan o no ocurrir. La Estadística, por su parte, es otra
rama de las matemáticas cuyo objeto de estudio son los datos, entendidos como valores o atributos que tienen los objetos de estudio de interés,
por ejemplo, las personas.
De lo anterior se deduce que el cálculo de Probabilidades y la Estadística
son disciplinas íntimamente relacionadas, en cuanto que ambas se refie ren al estudio de un mismo tipo de situaciones, las situaciones en las que
hay incertidumbre . La Probabilidad aporta los modelos matemáticos (las
distribuciones) para el estudio de la incertidumbre, y la Estadística adapta
estos modelos a los datos reales (datos con incertidumbre).
Objetivos del tema:
■
Conocer los conceptos de experimento aleatorio y espacio muestra!.
■
Distinguir los distintos tipos de sucesos que forman parte del espacio muestra! y las operaciones fundamentales que pueden realizarse con ellos .
■
Adquirir un concepto de probabilidad más preciso y desde diferentes enfoques.
■
Saber resolver problemas con probabilidades condicionadas.
250
NOCIONES BÁSICAS DE PROBABILIDAD
■
Comprender y saber aplicar de forma adecuada los teoremas de la
Suma, Producto, Probabilidad Total y Bayes.
■
Conocer aplicaciones de la probabilidad en el ámbito de la Psicología y las Ciencias de la Salud.
6.2. CONCEPTOS PREVIOS
En este epígrafe se definen algunos conceptos básicos que sirven para
desarrollar posteriormente el concepto de probabilidad.
6.2.1. Experimento aleatorio
Un experimento aleatorio es un proceso que se puede repetir indefinidamente en las mismas condiciones y cuyo resultado no se puede
predecir con certeza.
Un experimento es un proceso que conduce a la obtención de un resultado, se dice que es aleatorio porque en el resultado interviene el azar y
no se puede predecir con certeza.
Un experimento aleatorio presenta tres características:
■
Todos los resultados posibles son conocidos con anterioridad a su
realización. Es decir, tiene un conjunto definido de resultados posibles.
■
No se puede predecir con certeza el resultado concreto del experimento, pudiéndose obtener cualquiera de los resultados posibles en
función del azar.
■
El experimento puede repetirse teóricamente un número infinito de
veces en idénticas condiciones .
251
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 6.1. Se lanza una vez un dado, cuyas caras están numeradas del 1 al 6. ¿Por qué es un experimento aleatorio?
Para responder a la pregunta hay que comprobar si se presentan las
tres características de un experimento aleatorio:
■
Antes de tirar el dado conocemos todos los resultados posibles,
es decir, puede salir el 1, el 2, el 3, el 4, el 5 ó el 6.
■
No se puede predecir con certeza cuál de estos seis números en
concreto va a salir, ya que va a depender del azar.
■
Se puede repetir la tirada del dado indefinidamente, siempre en
idénticas condiciones
Dado que se cumplen las tres características, se puede decir que sí se
trata de un experimento aleatorio.
6.2.2. Espacio muestral
El conjunto de todos los resultados posibles de un experimento alea torio se denomina espacio muestra/ o espacio de resultados.
Habitualmente se representa por la letra mayúscula E.
Algunos ejemplos de espacio muestra! son todos los resultados posi bles de:
■
Lanzar una moneda, donde C = cara y X = cruz. El espacio muestra!
E= {C; X}
■
Lanzar un dado·• E= {1·I 2·I 3·I 4·I 5·I 6}
■
Lanzar 2 veces un dado: E= {(1,1); (1,2); (1,3); (1 ,4); (1,5); (1,6);
(2,1); (2,2); (2,3); (2,4); (2,5); (2,6); (3,1); (3,2); (3,3); (3,4);
(3,5); (3,6); (4,1); (4,2); (4,3); (4,4); (4,5); (4,6); (5,1); (5,2);
(5,3); (5,4); (5,5); (5,6); (6,1); (6,2); (6,3); (6,4); (6,5); (6,6)}
■
Introducir tres ratas en un laberinto en forma de T (I = va hacia la
izquierda; D = va hacia la derecha) : E = {(I,I,I); (I,I,D); (I,D,I);
(D,I,I); (D,D,I); (D,I,D); (I,D,D); (D,D,D)}
252
NOCIONES BÁSICAS DE PROBABILIDAD
Una forma sistemática y didáctica de construir espacios muestrales
es mediante el diagrama de árbol, que no es más que una represen tación gráfica que muestra los resultados posibles de un experimento
aleatorio.
A continuación, representamos el ejemplo del espacio muestra! E correspondiente a lanzar una moneda tres veces mediante un diagrama de
árbol:
Prim er
lanzami ento
Resultado
Segundo
lan za mi ento
Resultado
Terce r
Res ul ta do
lanzam iento
c< c < : :
<
x< xc
cxc
ex
CXX
XXX
Figura 6.1. Diagrama de árbol correspondiente a lanzar una moneda tres veces .
Como se puede observar en el diagrama, en el primer lanzamiento hay
dos resultados posibles cara (C) o cruz (X), siendo en ese caso E = {C;
X}. En el segundo lanzamiento, los resultados posibles son cuatro, ya que
a los dos iniciales se les añaden otras dos posibilidades: que salga Coque
salga X. El espacio muestra! E en los dos primeros lanzamientos estaría
formado por E= {CC; CX; XC; XX} Finalmente, en el tercer lanzamiento
también puede salir C o X, por lo que las combinaciones posibles al añadir
C o X a los resultados del segundo lanzamiento son 8. Por tanto, el espacio muestra! al lanzar tres veces una moneda es E = {CCC; CCX; CXC;
CXX; XCC; XCX; XXC; XXX}
253
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
En el caso de que un experimento tuviera solo un elemento en el espacio muestra!, no podríamos hablar de experimento aleatorio. Esto es así
porque se puede predecir con certeza el resultado obtenido y, por tanto,
no se cumple el segundo de los requisitos básicos visto anteriormente.
6.2.3. Sucesos y tipos de sucesos
A los resultados de un experimento aleatorio, o subconjuntos del espacio muestra!, se les denomina sucesos y se representan por letras mayúsculas: A, B, .... Los sucesos, a su vez, pueden ser elementales o compuestos. Un suceso elemental o simple consta de un solo resultado del
espacio muestra! E, mientras que un suceso compuesto consta de dos o
más resultados del espacio muestra!.
Por otra parte, un suceso seguro es aquel suceso que está formado por
todos los elementos del espacio muestra! y, por tanto, siempre ocurre. Lo
distinguimos del suceso imposible, que no contiene ningún elemento del
espacio muestra! (se representa por 0 o conjunto vacío) y por ello nunca
puede ocurrir.
Tipos de sucesos:
■
Suceso elemental, suceso simple o punto muestra/ es cada
uno de los resultados posibles del experimento aleatorio. Por tanto,
un suceso elemental consta de un solo elemento del espacio muestra! E.
■
Suceso compuesto es el que consta de dos o más sucesos elementales.
■
Suceso seguro es aquel que ocurre siempre. Consta de todos los
sucesos elementales del espacio muestra! y se identifica con el espacio muestra! total E.
■
Suceso posible es aquel que puede contener algún elemento del
espacio muestra! E, por tanto, tiene posibilidad de que ocurra .
■
Suceso imposible es el que no ocurre nunca. No contiene ningún
elemento del espacio muestra! y se identifica con 0 .
254
NOCIONES BÁSICAS DE PROBABILIDAD
Ejemplo 6.2. Determina el tipo de suceso que se pide en cada apartado.
A) Al lanzar dos veces una moneda al aire se definen dos sucesos:
suceso A «sale cara al menos una vez» y suceso B «no sale ninguna cruz». ¿cuál de estos dos sucesos es compuesto?
El espacio muestra! E= {CC; CX; XC; XX}
A
= {CC;
B
= {CC}
CX; XC}
El suceso A es compuesto, porque tiene más de un elemento del
espacio muestra!. El suceso B, sin embargo, es un suceso simple
o elemental, ya que consta de un solo elemento de E.
B) Para el caso del lanzamiento de un dado se definen tres sucesos:
A «obtener un 6»; B «obtener un número par»; y e «obtener un
número impar». ¿cuáles de estos sucesos son compuestos?
El espacio muestra! es: E= {l; 2; 3; 4; 5; 6}
A= { 6}
= { 2,
e= { 1,
B
4, 6}
3, 5}
Los sucesos B y C son compuestos y el suceso A es simple
C) En el lanzamiento de un dado se definen los siguientes sucesos: A
«obtener un 6» y B «obtener un número mayor que 6». ¿cuál de
estos sucesos es un suceso posible?
El espacio muestra! es: E= {l; 2; 3; 4; 5; 6}
El suceso A es un suceso posible, ya que contiene uno de los elementos del espacio muestra! E. Sin embargo, el suceso B es un
suceso imposible, ya que no puede ocurrir nunca y no contiene
ningún elemento del espacio muestra!.
D) En el experimento de lanzar dos veces un dado, definimos el suceso D «en el segundo lanzamiento sale un número par». ¿cuáles
son los elementos que componen dicho suceso?
El resultado está formado por 18 elementos:
= {(1,2);
(1,4); (1,6); (2,2); (2,4); (2,6); (3,2); (3,4); (3,6);
(4,2); (4,4); (4,6); (5,2); (5,4); (5,6); (6,2); (6,4); (6,6)}
D
255
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
En resumen, un espacio muestra! o de resultados es un conjunto compuesto por sucesos que son, a su vez, subconjuntos del espacio muestra!.
6.2.4. O eraciones con sucesos
Entre los sucesos se establecen las mismas operaciones que en la teoría de conjuntos, ya que las operaciones con sucesos son, en sí mismas,
operaciones entre conjuntos teniendo en cuenta su definición.
Los diagramas de Venn se emplean para representar los sucesos y estudiar visualmente propiedades y operaciones entre sucesos. El espacio
muestra! o de resultados E se representa mediante un rectángulo, y dentro de él se incluyen los sucesos mediante círculos.
■
Unión: Llamaremos unión de dos sucesos A y B, y lo representaremos por A u B, al subconjunto de E formado por los sucesos elementales que pertenecen a A, a B, o a ambos a la vez.
E
Au B
,,
■
Intersección: Llamaremos intersección de dos sucesos A y B, y lo representaremos por A n B, al subconjunto de E formado solamente por
los sucesos elementales que pertenecen a A y a B, simultáneamente.
E
Ana
A
256
B
NOCIONES BÁSICAS DE PROBABILIDAD
Cuando la intersección de dos sucesos no contiene ningún elemento
se dice que son sucesos incompatibles o excluyentes y, por tanto, no pueden verificarse a la vez.
■
Complementario: Llamaremos complementario de un suceso A, y
lo representaremos por A, al subconjunto de E formado por los sucesos elementales que no pertenecen a A.
E
Las operaciones de unión e intersección pueden extenderse al caso de
dos o más sucesos, por ejemplo A u B u C, e igualmente puede hablarse
de complementario de la unión o de la intersección de dos sucesos.
Ejemplo 6.3. Se lanza una vez un dado y se definen los siguientes
sucesos: A «obtener un 6»; B «obtener un número par»; y C «obtener un número impar».
A) ¿cuáles son los elementos que contiene la unión de A y B?
A={[n]}
= { [I), Ü, [n] }
e = { 8, ~, [Z] }
B
La unión está formada por los elementos comunes que contienen
a A, a B, o a ambos a la vez. A u B = { [I], [:), [n] }
Representación gráfica de la unión A u B:
257
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
E
Au B
B
[I]
B) ¿cuáles son los elementos que contiene la intersección entre A
y B?
A={[n]}
B
= { [I], O, [n]
}
La intersección está formada por los elementos que pertenecen
a A y a B, simultáneamente: A n B = { [n]}
Representación gráfica de la intersección A n B:
E
An B
''
fe::-1
u
C) Para los sucesos B y C, ¿cuáles son los elementos que contiene
su intersección?
B
= { [I], O, [n]
}
e = { ~J, ~, [Z] }
Los sucesos B y C no tienen ningún elemento común, B n C =
{ 0 }. Su intersección es el conjunto vacío, por tanto, son incompatibles o excluyentes.
258
NOCIONES BÁSICAS DE PROBABILIDAD
Representación gráfica de B
n C:
E
Bn C
[I]
GJ e
B
□
r-:-1
iLll
[;]
D) Para el suceso A, ¿cuál sería su complementario?
A={[il]}
El complementario de A son todos aquellos elementos que no
pertenecen a A. Dado que el elemento que forma A es el seis,
el complementario está formado por los cinco elementos restantes del espacio muestra!.
A = { GJ, [I], ~,
□,
r2l }
Representación gráfica del complementario A:
[I]
E
A
.
A
[;]
6.3. DEFINICIÓN DE PROBABILIDAD
En teoría de la probabilidad se toman todos los posibles resultados de
un experimento aleatorio como elementos del espacio muestra! E ( espacio
de resultados). Si E contiene un número finito de elementos, entonces a
cada uno de ellos se le puede asociar un número no negativo, que es su
259
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
probabilidad de ocurrencia, tal que la suma de todos los números correspondientes a todos los elementos de E sea 1.
La probabilidad de un suceso es una medida numérica que cuan tifica la posibilidad de que dicho suceso ocurra. Los valores de probabilidad se encuentran comprendidos entre O y 1, en función de su
cuantía de probabilidad de ocurrencia.
Sucesos muy probables estarán próximos al valor 1 y los menos probables próximos al O. En particular, el valor O se asigna a los sucesos
imposibles (que no tienen posibilidad de ocurrencia) y el valor 1 para los
sucesos seguros (que siempre ocurren).
En función del enfoque desde el que se estudie la probabilidad se ha
propuesto un tipo diferente de definición. Cada una de ellas tiene una definición operativa distinta, pero todas tienen un mismo objetivo: calcular
la posibilidad de ocurrencia de un suceso.
La definición clásica o a priori, también llamada Regla de Laplace,
indica que la probabilidad de un suceso A es igual al cociente entre el número de casos favorables de que ocurra ese suceso y el número de casos
posibles en el supuesto de que todos los casos tengan la misma oportunidad de ocurrir (sean equiprobables).
(6.1)
P(A)
= Probabilidad
de un suceso A
nA = Número de casos favorables
n = Número de casos posibles
Se llama a priori porque antes de realizar el experimento aleatorio se
conocen de antemano los posibles resultados del espacio muestra! E y sus
probabilidades.
260
NOCIONES BÁSICAS DE PROBABILIDAD
Ejemplo 6.4. En el lanzamiento de un dado:
A) ¿cuál es la probabilidad de que ocurra el suceso A «obtener un
6» ?
Hay que calcular la probabilidad de obtener el suceso A = {6}.
El espacio muestra! o conjunto de todos los resultados posibles
es·• E = {l·f 2·I 3 I· 4 I· s·I 6}
Cada uno de los seis resultados posibles tiene la misma proba bilidad de ocurrencia, es decir, son equiprobables. Sin embargo, sólo hay un caso favorable, obtener un seis.
Por tanto: P(A)
n
=~
= -1
n
6
B) ¿cuál es la probabilidad de ocurrencia del suceso C «obtener
un número impar»?
En este caso tenemos tres resultados favorables sobre el total
de seis posibles.
La probabilidad de C será igual a:
P(C) = ne =
n
i =!
6
2
Esta definición de probabilidad plantea algunos problemas a la hora de
su aplicación. En concreto, parte de la base de que los sucesos son equi probables (tienen la misma probabilidad de ocurrencia) y esto no siempre
sucede. Una definición que no asume la equiprobabilidad es la definición
estadística o a posteriori. Se basa en la estabilidad de las frecuencias
relativas cuando el número de repeticiones de un suceso aleatorio es muy
elevado y tiende a infinito. Por ejemplo, supongamos que lanzamos un
dado al aire muchas veces, y anotamos las frecuencias relativas de un
suceso. Podemos observar que estas frecuencias tienden a estabilizarse
en un valor constante, comprendido entre O y 1, al que denominamos
probabilidad del suceso.
Desde la perspectiva estadística o a posteriori, podemos definir P(A)
o probabilidad de un suceso A como el límite al que tiende la frecuencia
relativa de aparición de un suceso A cuando el número de ensayos n o
repeticiones tiende a infinito:
261
/
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
P(A)
= lim
nA
n ---->=
(6.2)
n
Esta definición de probabilidad se llama a posteriori porque las probabilidades se atribuyen a cada suceso después de un gran número de
repeticiones del experimento aleatorio.
Según la definición clásica, se sabe que la probabilidad de salir cara en
el lanzamiento de una moneda es de un caso favorable dividido por dos
casos posibles, es decir, 1/2. Supongamos que se realiza de forma práctica la experiencia de ir lanzando la moneda al aire, y se anota si sale cara
o cruz en cada tirada, así como la frecuencia relativa en cada caso. Los resultados obtenidos podrían ser los que se presentan en la siguiente tabla.
Tabla 6.1. Resultados de tirar 20 veces una moneda
Nº de
lanzamientos
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Resultado
Nº de caras
e
e
1
2
2
3
3
3
4
4
4
5
6
6
7
7
7
7
8
8
9
X
e
X
X
e
X
X
e
e
X
e
X
X
X
e
X
e
e
10
Frecuencia
relativa
1/1 = 1
2/2 = 1
2/3 = 0,6666
3/4 = 0,7500
3/5 = 0,6000
3/6 = 0,5000
4/7 = 0,5714
4/8 = 0,5000
4/9 = 0,4444
5/10 = 0,5000
6/11 = 0,5454
6/12 = 0,5000
7/13 = 0,5384
7/14 = 0,5000
7/15 = 0,4666
7/16 = 0,4375
8/17 = 0 ,4706
8/18 = 0,4444
9/19 = 0 ,4736
10/20 = 0,5000
Si se representan gráficamente los datos del ejemplo (ver Figura 6.2)
se observa que, según aumenta el número de lanzamientos, la línea que-
262
NOCIONES BÁSICAS DE PROBABILIDAD
brada que une las frecuencias se ajusta más a la horizontal trazada en la
ordenada 1/2 (0,5) o valor teórico de la probabilidad definida por Laplace.
Por tanto, la frecuencia relativa tiende a estabilizarse cuando el número
de repeticiones del experimento es muy elevado. A este fenómeno de
estabilización de las frecuencias se le conoce como «Ley del azar o ley de
regularidad estadística».
Frecuencia
relativa
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
o
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
Lan za mientos
Figura 6.2. Ejemplo de frecuencia s relativas en función del núm ero de lan zam ientos.
No obstante, no siempre es fácil aplicar este concepto de probabilidad
estadística, ya que muchas veces no es posible repetir un experimento
aleatorio un gran número de veces, y si lo es, no es práctico.
En 1933, Andréi Nicoláyevich Kolmogórov desarrolla la teoría axiomáti ca1 de la probabilidad. Se puede estudiar como una aplicación de la teoría
de conjuntos a los sucesos que componen el espacio muestra!. Tiene dos
ventajas importantes:
■
Recoge las definiciones de probabilidad anteriores, ya que cumplen
la axiomática propuesta.
■
Permite el desarrollo matemático de la teoría de la probabilidad.
Definición axiomática de probabilidad. Dado un espacio muestra!
E, se denomina probabilidad de un suceso A ;, definido en el espacio mues1 Los axiomas son las con diciones mínimas que se deben cumplir para que la función
definida sobre los sucesos determine consistenteme nte sus valores de probabilidad.
263
INTROOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
tral E y designado por P(A¡), a un número real asignado al suceso A¡, tal
que cumple las siguientes propiedades:
■
O :a; P(A¡) :a; 1
■
P(E)
■
Si A 1 , A 2 .. .A k son sucesos incompatibles dos a dos, entonces:
=1
(6.3)
Las dos primeras propiedades indican que la probabilidad es cuantificable numéricamente con un número comprendido entre O y l. Como se
dijo anteriormente, se asigna un O a un suceso imposible A:
P(A) = nA = Q = O
n 6
Asimismo, se otorga un 1 a un suceso seguro A, ya que se corresponde
con el espacio muestra! E.
P( A) = -nA = -n = P (E ) = 1
n
n
La tercera propiedad indica que la unión de sucesos incompatibles
(aquellos cuya intersección es el conjunto vacío: A¡ n A1 = 0 ) es igual a la
suma de sus probabilidades individuales.
De estas propiedades se deriva que P(A) + P(A) = 1 siendo ambos sucesos exhaustivos y excluyentes (si no ocurre A, necesariamente lo hará su
complementario A) . Esto implica que P(A) = 1 - P(A), o lo que es lo mismo,
la probabilidad del suceso complementario de A, (A), es igual a 1 menos
la probabilidad de ocurrencia de A.
A partir de la definición axiomática se deducen una serie de teoremas,
de entre los cuales se van a examinar el de la suma y el del producto. El
teorema de la suma se basa en el concepto de unión de sucesos y el del
producto en el concepto de intersección .
6.4. TEOREMA DE LA SUMA
Partiendo del axioma 3, referido a la unión de sucesos, el teorema
de la suma establece que la probabilidad de que ocu rra el suceso A o el
264
NOCIONES BÁSICAS DE PROBABILIOAD
suceso 8 es igual a la probabilidad de que ocurra A más la probabilidad de
que ocurra 8, menos la probabilidad de que ocurran A y 8 (la intersección
de ambos sucesos).
P(A u 8)
= P(A) + P(8) - P(A n 8)
(6.4)
Si los sucesos A y 8 son mutuamente excluyentes (no pueden ocurrir
simultáneamente) o si son complementarios (la ocurrencia de uno implica
la no ocurrencia del otro), la regla de la suma se simplifica, resultando ser
la suma de las probabilidades de cada suceso, de acuerdo con el axioma 3:
= P(A) + P(8)
P(A u 8)
dado que P(A n
(6.5)
8) = O
Ejemplo 6.5. En el lanzamiento de un dado se han definido los sucesos: A «obtener un 6» ; 8 «obtener un número par» ; y C «obtener
un número impar» .
1
A) ¿cuál es P(A u 8)?
Utilizando la definición de probabilidad como casos favorables
dividido entre casos posibles tenemos:
P(A)
= -1 ;
6
P(8)
= -3 ;
6
P(A n 8)
= -1
6
Sustituyendo:
P(A u 8)
= P(A) + P(8) -
P(A n 8)
= -1 + -3 6
6
1
6
= -3
6
B) lCuál es P(8 u C)?
P(8)
= -3 ;
6
P(C)
= -3
6
B y C son sucesos incompatibles y complementarios, por lo
que: P(B n C) = O
265
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Sustituyendo:
P(B u C)
3
3
= P(B) + P(C) = + =
6
6 6 6 =1
6.5. PROBABILIDAD CONDICIONADA
Hasta ahora hemos estado tratando sucesos independientes, donde la
probabilidad de uno no altera la probabilidad del otro. Es decir, la probabilidad de que suceda A no se ve afectada porque haya sucedido o no B.
Sin embargo, en la vida diaria las situaciones no siempre son tan simples,
sino que la aparición de un suceso A puede depender de la aparición de
otro suceso B. En estos casos, los sucesos A y B son dependientes, porque la probabilidad de A depende o está condicionada al suceso B, lo que
se denota como: P (A JB)
Para dos sucesos cualesquiera A y B, la probabilidad de A condicionada a B (o de A supuesto B) es igual a la probabilidad de la intersección
dividida por la probabilidad de B. Es decir:
siempre que P (B)
(l)
PAB-
_P(A n B)
P(B)
(6.6)
P(BIA)= P(B n A)
P(A)
(6.7)
-:;; O
De la misma forma:
siempre que P (A)-:;; O
Nótese que si los sucesos A y B son independientes:
P(AIB) =
P(A)
y P(BIA) = P(B)
(6.8)
.!
266
NOCIONES BÁSICAS DE PROBABILIDAD
Ejemplo 6.6. En un centro de atención temprana se atienden a 250
niños que presentan alteraciones en su desarrollo, en concreto, dificultades en el área motora, cognitiva o comunicativa. En la tabla siguiente se muestra la distribución de frecuencias en función del sexo
y del tipo de alteración que presentan.
Motora
Niño (V)
Niña (M)
(Mt)
Cognitiva
(Cg)
Comunicativa
(C)
Total
50
50
55
30
35
30
140
110
100
85
65
250
Si se elige aleatoriamente a uno de ellos:
A) ¿cuál es la probabilidad de que sea niño?
A partir de los datos de la tabla, y considerando la probabilidad
como el cociente entre casos favorables y casos posibles, se
obtiene que:
P(V) = nv = 140 = O 56
n 250
'
B) ¿cuál es la probabilidad de que presente una alteración comu nicativa?
P(C) = ne =
n
65
250
= 0,26
C) ¿cuál es la probabilidad de que presente una alteración comu nicativa y sea niño?
P(C n V) = ncnv = ~
= O, 14
n
250
D) Supongamos ahora que se ha elegido al azar un paciente y ha
resultado ser niño, ¿cuál es la probabilidad de que presente
una alteración comunicativa?
En concreto nos estamos preguntando por la probabilidad
P(C IV). Se parte de una condición que viene dada (ser niño) .
267
INTRODUCCIÓN AL ANA LISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
P(CIV)
= P (C n
V) = 35 / 250
P(V )
140 / 250
=0
'
25
Otra forma d.e resolver el ejercicio es a través de la definición
clásica de probabilidad . En este caso hay que tener en cuenta
que ya sabemos que se trata de un niño (V), por lo que el número de casos posibles es igual al número de niños (140).
P(CIV)
= ncnv = 35 = 0,25
nv
140
Ejemplo 6.7. En una muestra de 200 profesionales sanitarios se tie nen datos sobre el número de varones y mujeres que son médicos y
psicólogos. Los sucesos «ser médico» (Md) y «ser mujer» (M), lson
sucesos independientes?
,,
li
Medicina (Md)
Psicología (Ps}
Total
53
47
23
77
76
124
100
100
200
Varones (V)
Mujeres (M)
La forma de calcular la independencia o no de los dos sucesos puede
realizarse aplicando la probabilidad condicionada. Es decir:
Si A y B son independientes, entonces:
P(A IB)
= P(A) y
P(B IA)
= P(B)
En este ejercicio, si «ser médico» (Md) y «ser mujer» (M) fueran in dependientes, entonces: P(MdlM) = P(Md)
P(MdlM)
= P(Md n
M)
P(M)
P(Md)
= 47 / 200 = 47 = 0 379
124 / 200
124
'
= lOO = O 50
200
'
0,379 * 0,50; por tanto, no son sucesos independientes sino dependientes.
268
NOCIONES BÁSICAS DE PROBABILIDAD
6.6. TEOREMA DEL PRODUCTO
Este teorema se aplica a situaciones en las que se quiere calcular la
probabilidad de que aparezcan dos sucesos de forma simultánea. Es decir,
sirve para calcular la probabilidad de intersección entre dos sucesos, o lo
que es lo mismo, la probabilidad de que aparezca un suceso y otro suceso
a la vez.
Se ha visto en el epígrafe anterior que la probabilidad condicionada se
define:
_ P(A n B)
p (l)
B A -
P(A)
Despejando P(A n B) tendremos:
P(A n B) == P(A) · P(B IA)
que corresponde al teorema del producto.
Teorema del Producto. La probabilidad de ocurrencia de A y B es
igual a la probabilidad de ocurrencia de A por la probabilidad de ocurren cia de B, dado que A ha ocurrido previamente (condición previa). Es decir:
P(A n B) == P(A) · P(B IA)
(6.9)
donde P(B IA) es «la probabilidad de que ocurra B dado que ha ocurrido
A ».
Cuando los sucesos A y B son independientes P(BIA) == P(B), por tanto:
1
P(A n 8) = P(A) . P(B)
1
(6 . 10)
Un ejemplo ilustrativo de este teorema puede ser cuando se extraen
bolas o papeletas de una urna. Cuando se realiza más de una extracción,
la probabilidad de que ocurra B dado que ha ocurrido A va a verse afectada por el hecho de que el elemento extraído en A vuelva a reponerse
o no a la urna para ser extraído de nuevo. Se denomina extracción con
reposición cuando se mantiene siempre el mismo número de bolas o
269
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
papeletas, dado que las extraídas se devuelven
la extracción sin reposición se refiere a que
o papeletas extraídas a la urna, por lo que lo
obtener una bola o papeleta concreta en esta
depender de lo obtenido en la primera.
a la urna. Por el contrario,
no se devuelven las bolas
que las probabilidades de
segunda extracción van a
Ejemplo 6.8. Supongamos que tenemos una urna con 10 bolas, de
las cuales 5 son rojas, 3 verdes y 2 azules. Se define el suceso R
como «sacar una bola roja», el suceso V como «sacar una bola verde», y el suceso A como «sacar una bola azul».
A) Al sacar una primera bola, ¿cuál es la probabilidad de que sea
roja?
P(R) = nR =
n
2-_ = ! = O, 50, es decir, hay un 50% de posibilida-
10 2
des de que con una sola extracción se obtenga una bola roja.
B) Supongamos que se saca una segunda bola y la primera bola
obtenida vuelve a meterse otra vez en la urna (extracción con
reposición). ¿cuál sería la probabilidad de que las 2 bolas obtenidas sean rojas?
Dado que se vuelve a introducir la bola primera en la urna, lo
que se obtiene en la primera extracción no va a influir en lo
que saquemos en la segunda, pues se mantienen las 10 bolas
iniciales. En este caso:
Es decir, tenemos un 25% de posibilidades de obtener bola roja
en las dos extracciones.
C) Si se saca una segunda bola y la primera no vuelve a meterse
en la urna (extracción sin reposición), ¿cuál es la probabilidad
de que las 2 sean rojas?
Para este caso, lo que saquemos en la segunda extracción R2 va
a depender de lo que hayamos sacado en la primera R1 . Es decir:
270
NOCIONES BÁSICAS DE PROBABILIDAD
Lo que equivale a decir que hay un 22% de posibilidades de
que ambas bolas obtenidas de la urna sean rojas.
Ejemplo 6.9. En un hospital se va a aplicar un nuevo tratamiento
para pacientes con fobia social. Con el fin de evaluar la eficacia del
nuevo método, se han creado dos grupos, uno experimental (E) en
el que se aplicará el nuevo tratamiento, y otro control (C) sin tratamiento.
En las últimas semanas se han diagnosticado cinco nuevos casos de
fobia social y se quiere seleccionar a tres sujetos aleatoriamente para
asignarlos al grupo experimental (E) y dos al grupo control (C). Para
que la asignación de los sujetos a los grupos sea al azar, se pondrán
en una urna cinco papeletas (tres con una E y dos con una C). Se
les va a ir asignando su pertenencia a uno u otro grupo en función
de la papeleta que se saque. Se realiza la primera extracción, y sin
devolver la papeleta a la urna (extracción «sin reposición ») se saca
la siguiente papeleta, y así sucesivamente hasta coger las cinco pa peletas.
A) lCuál es la probabilidad de que las dos primeras papeletas seleccionadas sean E?
La probabilidad pedida será igual a la probabilidad de que en la
primera extracción la papeleta sea E por la probabilidad de que
en la segunda extracción la papeleta sea también E, supuesto
que en la primera también lo ha sido P(E1 ) • P(E2 [E1 ). Los subíndices 1 y 2 hacen referencia a la extracción primera y segunda,
respectivamente.
Para la primera extracción tenemos 5 papeletas, 3 E y 2 C. Por
tanto, la probabilidad de que la papeleta extraída sea E es 3/5.
Para la segunda extracción sólo disponemos de 4 papeletas, 2
E y 2 C, puesto que una E ya ha sido extraída en la primera.
Ahora la probabilidad de obtener la papeleta E es 2/4.
271
1
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
B) ¿cuál es la probabilidad de que las dos primeras papeletas
sean C?
Realizando un razonamiento análogo al anterior:
C) ¿cuál es la probabilidad de que las papeletas sean distintas?
La probabilidad de que las papeletas sean distintas es la probabilidad de que una sea E y la otra C. Sin embargo, esto puede
ocurrir de dos maneras: que la primera sea E y la segunda C
(E1 C2 ) o que la primera sea C y la segunda E (C 1E2 ). Por tanto,
es preciso sumar ambas probabilidades.
Obsérvese que la suma de las tres probabilidades anteriormente calculadas vale l. Esto es así porque estas tres probabilidades representan al conjunto de todos los resultados posibles y,
por tanto, se corresponden con el espacio muestra!. Recordemos la propiedad de que la probabilidad del espacio muestra!
es1:P(E)=1
'
6.7. TEOREMA DE LA PROBABILIDAD TOTAL
Para entender este teorema es necesario definir previamente en qué
consiste la partición del espacio muestra!. En un espacio muestra! E, se
dice que k sucesos A 1 , A 2 , ... , Ak forman una partición del espacio muestra! si se cumplen simultáneamente las siguientes condiciones:
n Aj = 0 para cualquier par de sucesos A¡ y Ap es decir, son incompatibles y su intersección es el conjunto vacío.
■ A¡
■
272
A1 u A2 u ... u Ak = E lo que implica que la unión de todos los sucesos es igual al espacio muestra! (son exhaustivos). En términos de
probabilidad se cumple que: P(A u A2 u ... u Ak) = P(A) + P(A2 ) + ...
+ P(Ak) = 1
NOCIONES BASICAS DE PROBABILIDAD
Si sobre ese mismo espacio muestra! se define un nuevo suceso B, el
teorema de la probabilidad total permite calcular la probabilidad de este
su ceso B a partir de las P(A¡) y de las P(B [A¡).
A continuación se muestra la Figura 6.3 ., correspondiente a la partición
de l espacio muestra! en 3 sucesos Ai, A 2 y A 3 incompatibles entre sí, y
otro suceso B en el mismo espacio muestra! E.
E
Figura 6.3. Ejemplo de partición del espacio muestra! E
Para este caso concreto, la probabilidad de B se corresponde con la
suma de las intersecciones de cada uno de los sucesos A¡ con el suceso B.
O lo que es lo mismo:
P(B)
= P(A1 n
B) + P(A2 n B) + P(A3 n B)
Aplicando el teorema del producto se obtiene que:
P(B) = P(A1 ) · P(B [A1 ) + P(A 2 ) · P(B [A2 ) + P(A 3 ) · P(B [A3 )
De manera general, el teorema de la probabilidad total se enuncia
como:
k
P(B)
= ¿_ P(A¡) · P(B [A¡)
(6.11)
i=l
273
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Este teorema proporciona el valor de la probabilidad de B en función
de la probabilidad de los sucesos A; y de las probabilidades de B condicionadas a los A;.
Otra forma de calcular estas probabilidades es utilizando el diagrama
de árbol (ya visto previamente en el tema) y que representamos a continuación.
B
B
B
A2
B
p (A3)
B
P(BIA3)
A3
-
B
Figura 6.4. Diagrama de árbol.
A la izquierda del diagrama tenemos las probabilidades correspondientes a los sucesos A 1 , A 2 y A 3 . Las probabilidades situadas más a_!a derecha
son las probabilidades de los sucesos B y su complementario B condicionadas a los sucesos A 1 , A 2 y A 3 , respectivamente. Se debe cumplir siempre que la suma de las probabilidades que salen del mismo punto sea l.
Así por ejemplo: P(A;) + P(A2 ) + P(A3 )
= 1;
P(B
jA1 ) + P(B jA1 ) = 1
Las probabilidades condicionadas vienen dadas (son las de la derecha
del diagrama) y las probabilidades de intersección P(A1 n B), P(A2 n B) y
P(A3 n B) se pueden calcular multiplicando las probabilidades de cada
rama. De esta forma, la probabilidad del suceso B se determina como:
P(B)
274
= P(A) · P(B IA) + P(A2) · P(B IA2) + P(A3 ) · P(B IA3)
NOCIONES BÁSICAS DE PROBABILIDAD
Ejemplo 6.10. Conocemos que en un determinado centro las pacientes que padecen anorexia nerviosa son sometidas a tres tipos
de terapias: sistémica., cognitiva y farmacológ ica. Las pacientes se
distribuyen entre los tres tipos de intervención de la siguiente forma:
35%, 28% y 37%, respectivamente. En un periodo de 3 meses presentan una mejoría notable el 18% de las sometidos a terapia sistémica, el 21 % de las de terapia cognitiva y el 14% de las pacientes
sometidas a terapia farmacológica. ¿Qué probabilidad existe de que
si elegimos una paciente al azar del centro haya presentado mejoría?
Se denominan 5, C y Fa los sucesos de recibir terapia sistémica, cog nitiva y farmacológica, respectivamente. Estos tres sucesos son los
sucesos incompatibles que forman la partición del espacio muestra!.
El suceso M se define como presentar mejoría.
P(S)
= O, 35
P(C)
= O, 28
o, 18
P(M IC) = o, 21
P(F)
= 0,37
P(MIF)
P(M IS) =
= 0,14
Cogn itiva (C)
Sistémi ca (5)
28 %
35%
Farma cológica (F)
Se puede comprobar que: P(S) + P(C) + P(F)
37 %
= O, 35 + O, 28 + O, 37 = 1
Con estos datos, y aplicando el teorema de la probabilidad total, la
probabilidad de presentar mejoría es:
P(M)
= P(S) · P(M IS) + P(C) · P(M IC) + P(F) · P(M IF) = o, 35 x o, 18 +
+ 0, 28
X
0, 21 + 0, 37
X
0, 14
=
0, 063 + 0, 0588 + 0, 0518
=
0, 1736
275
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Este resultado nos indica que un 17% de las pacientes del centro han
presentado mejoría recibiendo este tipo de terapias.
Se resuelve este mismo ejercicio por el diagrama de árbol, representado como:
M
s
M
0,35
M
------e
0,28
M
0,37
M
F
M
,,
¡'
1,
Sumando las probabilidades de intersecciones de M con cada una
de las terapias (correspondientes a cada rama), se obtiene el mismo resultado que por el procedimiento anterior aplicando la fórmula
de la probabilidad total. Primero se calcula la probabilidad de cada
intersección multiplicando las probabilidades de las ramas correspondientes:
,,
276
NOCIONES BÁSICAS DE PROBABILIDAD
M
P (S n M) = 0, 35 x 0, 18 = 0, 063
s
~
~
P (C n M)
= O, 28 x O, 21 = O, 0588
e
M
CQdV
M
P(F n M) = 0,37 x 0,14
= 0,0518
F
M
La probabilidad de M se obtiene sumando las intersecciones.
P(M)
= P(S n M) + P(C n
= o, 1736
M)
+ P(F n M) = O, 063 + O, 0588 + O, 0518 =
6.8. TEOREMA DE BAYES
En sucesos dependientes, la probabilidad condicionada tiene en cuenta
información de un suceso para conocer la probabilidad de otro. El teorema
de Bayes va más allá y nos permite calcular cómo se modifican las probabilidades de determinados sucesos cuando se conoce alguna información
adicional.
Partiendo de las mismas condiciones anteriores (ver Figura 6.3), el
teorema de la probabilidad total nos permitía obtener la probabilidad de
un suceso B. El teorema de Bayes nos permite conocer las probabilidades
condicionadas de los sucesos A; dado el suceso B.
Teniendo en cuenta la definición de probabilidad condicionada (ver fórmula 6.6)
P(A IB)
I
P(A n B)
= - -1 - --'P(B)
277
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Se aplica el teorema del producto al numerador (ver fórmula 6. 9):
(6.12)
Y aplicando el teorema de la probabilidad total (ver fórmula 6.11) al
denominador se obtiene el teorema de Bayes, que se formula como:
P(AIB) =
P(A-) . P(BIA)
k
I
I
(6.13)
L p (A¡) . p (B IA i)
i =l
Donde:
P (A;) son las probabilidades de cada suceso A;
P(BIA;) es la probabilidad del suceso B condicionada a los sucesos A;
k
I
P(A¡) -P(a IA¡) = P(a)
i=l
El teorema de Bayes nos proporciona las probabilidades de A; condicionadas por B en función de las probabilidades de los sucesos A; y de las
probabilidades de B condicionadas por dichos sucesos.
Ejemplo 6.11. En un centro de día para pacientes con esquizofrenia
se sabe que 1/3 de los pacientes recibe medicación y terapia psicológica (MP) y el resto solo medicación (M). Uno de los síntomas de la
esquizofrenia son las alucinaciones visuales (A). Tras la aplicación de
la intervención seguían teniendo alucinaciones el 20% de los pacientes con medicación y terapia psicológica (MP), y el 60% de los que
sólo estaban medicados (M).
A) Dibuja el diagrama de árbol que represente la información de
dicha situación.
278
NOCIONES BASICAS DE PROBABILIDAD
P(MP) =
1
·f
P(AIM) = 0,60
P (AIMP) = 0,20;
esto implica que:
P(M)
P
1
2
3
3
= 1- - = -
(A IMP) = 1 - o, 20 = o, 80
P
(A IM) = 1- o, 60 = o, 40
Con estos datos ya podemos dibujar el diagrama de árbol.
0,20
A
MP
A
A
M
A
B) ¿cuál es la probabilidad de que un paciente elegido al azar sufra alucinaciones?
Tenemos que obtener P(A). Este ejercicio se puede resolver di rectamente del diagrama de árbol o bien aplicando el teorema
de la probabilidad total.
Para calcular P(A) a través del diagrama de árbol primero se
calcula la probabilidad de cada intersección, multiplicando las
probabilidades de las ramas correspondientes:
279
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
1
x 0,20
= 0,0667
A
P(MP n A)=
A
A
P(M n A) =
3 x 0,60 =
0, 6667
0,60 = 0,40
3
MP
@
=
M
X
2
A
La P(A) se obtiene sumando las intersecciones:
P (A) = P (MP n A) + P (M n A) = O, 0667 + O, 40 = O, 4667
Para calcular P(A) mediante el teorema de la probabilidad total
tenemos que:
P(A)
= P(MP) . P(AIMP) + P (M) . P(AIM) =
1
=)
X
2
0, 20 + )
X
0, 60 = 0, 0667 + 0, 40 = 0, 4667
C) Se elige un paciente al azar y se observa que sufre alucinacio-
nes. ¿cuál es la probabilidad de que se encuentre solo medicado?
La probabilidad de que un paciente reciba únicamente medica ción (M), una vez que se ha observado que tiene alucinaciones
(A), se obtiene mediante el teorema de Bayes (ver fórmula
6.12):
Lo que se pide es
2
p (M IA) - p
-
(M) . p (A IM) - 3 X o, 60 = o, 40 = o 8571
P(A)
- O, 4667 O, 4667
'
➔ 86%
Esta probabilidad de 0,8571 se interpret a como que hay el 86% de
posibilidades de que escogido al azar un paci ente con alucinaciones,
dicho paciente reciba únicamente medica ci ón ( M) .
280
NOCIONES BASICAS DE PROBABILIDAD
6.9. ALGUNAS APLICACIONES DE LA PROBABILIDAD
CONDICIONADA EN PSICOLOGÍA DE LA SALUD
En el ámbito de la Psicología de la Salud, y más en concreto en el ámbit o de la Epidemiología, se emplea con bastante frecuencia la probabilidad
condicionada. Una situación habitual a la que se enfrenta un profesional
de la salud podría ser una decisión planteada de la siguiente forma: diagnosticar a un paciente que presenta unos síntomas (suceso X), y que
puede tener una enfermedad (suceso E). Por ejemplo, determinar la probabilidad de tener un infarto (E) si antes se ha tenido un dolor agudo del
brazo derecho (síntoma) podría verse desde la óptica de la probabilidad
condicionada.
Comenzamos definiendo los conceptos de prevalencia e incidencia.
Prevalencia: proporción de casos existentes de una enfermedad en
un momento determinado. Nos indica la probabilidad de personas
que tienen una característica o enfermedad en relación a la población.
Incidencia: proporción de casos nuevos de una enfermedad en una
población durante un período determinado. Representa la probabilidad de personas nuevas que pueden tener una característica o enfermedad en un periodo concreto.
Así por ejemplo, para el caso de Trastorno por Déficit de Atención con
Hiperactividad {TDAH) los datos nos muestran que la prevalencia es de
0,03 (3%) en la población infantil, lo que nos está indicando que 3 de
cada 100 niños en edad infantil presentan TDAH. En relación a la inci dencia, supongamos que en el año 2014 fue del 0,04 (4%), y la del 2015
del 0,03 indicándonos que, de cada 100 niños, en 2014 se presentaban
cuatro casos nuevos y en 2015, había bajado a tres casos nuevos de cada
100.
Existe una relación entre incidencia y prevalencia, ya que si los casos
nuevos (incidentes) no se resuelven, se hacen crónicos (prevalentes).
Además, una disminución en la incidencia (número de casos nuevos) repercute en una menor prevalencia (número de casos existentes) y al revés.
Otra de las aplicaciones de la probabilidad en la investigación clínica
tiene que ver con el análisis de factores de riesgo o la probabilidad de
281
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
que aumente un problema o enfermedad al estar expuesto a un riesgo.
Por tanto, este tipo de análisis parte de la base de que sujetos expuestos
a un factor (X+) tienen más posibilidades o riesgo de sufrir una enfermedad o tener un problema psicológico (E+) en comparación con el grupo no
expuesto (E-) a dicho factor (X-).
Ejemplo 6.12. En una muestra de 100 cuidadores de personas mayores se quiere evaluar si padecen estrés (E+) o no (E-) en función
de si la persona mayor que cuidan es gravemente dependiente (X+)
o presenta una dependencia leve (X-) para las actividades de la vida
diqria. En la siguiente tabla se muestran los datos obtenidos tras la
evaluación.
X+
X-
Tptal
E+
E-
33
17
10
40
43
57
Total
50
50
100
A) ¿cuál es el riesgo de tener estrés?
>··
A partir de los datos de la tabla, y considerando la probabilidad
como el cociente entre casos favorables y casos posibles (Fórmula 6.1), se obtiene que:
n
43
=- = 0,43
n
100
P(E +) = __f_:t_
➔ 43%
B) ¿cuál es el riesgo de tener estrés al cuidar de personas mayores gravemente dependientes?
P(E +IX+) = nE+n X+
nx +
33
50
= 0,66 ➔ 66%
Por la Fórmula 6.6 de probabilidad condicionada:
p (E+
282
IX+)=
p (E+ nX
P(X+)
+) = 33 / 100 = O 66 ➔ 66%
50/100
'
NOCIONES BASICAS DE PROBABILIDAD
C) ¿cuál es el riesgo de tener estrés al cuidar de personas mayores levemente dependientes?
P (E + IX
- ) = nE+r,x - = lO = 0,20 ➔ 20%
p (E + IX
-) = p (E + n X - ) = 1 O /
50
nx _
100
50/100
P(X - )
= O 20 ➔ 20%
'
D) ¿cuál es el riesgo de NO tener estrés al cuidar de personas
mayores levemente dependientes?
P (E -
p (E
IX -) = nE-r.x - = 40 = O, 80 ➔ 80%
nx _
50
- IX -) = p (E -
nX -)
P(X - )
= 40 / 100 = O 80 ➔
50/100
80%
'
Como se puede comprobar en este ejemplo, el riesgo de tener estrés
es mayor para los cuidadores de personas gravemente dependientes
(66%) que el de los cuidadores de personas levemente dependientes
(20%) . Este resultado podría deberse a que la mayor demanda de
cuidados y atención que requieren las personas más dependientes
está asociado a un mayor riesgo de tener estrés.
Otra de las aplicaciones de la probabilidad en Psicología Clínica está
re lacionada con la valoración de la calidad de las pruebas diagnósticas. Supongamos que tenemos una prueba para la evaluación diagnóstica
de un trastorno (D, que nos va a permitir distinguir a las personas sanas
o sin trastornos (ND de las que lo tienen en función de un punto de corte
establecido previamente. Para ello, se supone que la prueba dispone de
dos indicadores: uno (+)que indica que la persona tiene el trastorno (D y
otro (-) que señala que la persona está sana y no tiene el trastorno (ND.
En este tipo de análisis, los datos se presentan en una tabla de doble
entrada como la que se muestra a continuación.
283
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Resultado de la prueba
+
Trastorno ( T)
Verdaderos
positivos
Falsos
negativos
Falsos
positivos
Verdaderos
negativos
No Trastorno (NT)
Una buena prueba diagnóstica sería aquella que presenta :
■ Una alta sensibilidad P (+ IT) o probabilidad de discriminar a los ver-
daderos positivos; o lo que es lo mismo, la probabilidad de que los
que tengan un trastorno T den positivo (+)en la prueba diagnóstica.
■ Una alta especificidad P (-
INT) o probabilidad de detectar a los ver-
daderos negativos; es decir, la probabilidad de los que no tienen
trastorno (ND den negativo (-) en la prueba.
Sin embargo, las pruebas nunca son exactas y siempre se trabaja con
un margen de error en la evaluación. A consecuencia de ello, nos encontramos con dos tipos de valores predictivos:
■ Valor predictivo positivo P (TI+) o probabilidad de que todos los
que den positivo ( +) tengan el trastorno (D. Pero, ocurre que hay
sujetos que dan ( +) y no tienen el trastorno NT (falsos positivos),
por lo que el valor predictivo positivo disminuye.
■ Valor predictivo negativo P (NT 1
-) o probabilidad de que todos
los (-) estén sanos y no tengan trastorno (ND. Sin embargo, nos
encontramos con sujetos que dan ( - ) y tienen el trastorno T (falsos
negativos), dando lugar a que el valor predictivo negativo se vea
reducido.
De esta forma, si se determina el grado de sensibilidad, especificidad
y valores predictivos de una prueba se puede conocer su calidad. En concreto, una prueba sería muy sensible si al aplicarse a un conjunto de personas que tienen el trastorno (D dan positivo ( +) en un porcentaje muy
alto. Asimismo, sería muy específica si un porcentaje muy elevado de las
personas sin trastorno (ND dan negativo (- ). Lo mismo se puede deducir
en relación a los valores predictivos positivos y negativos, cuanto más
próximos a 100 (o a 1 en términos de probabilidad) más valor predictivo
tienen y mejor es su calidad.
284
NOCIONES BÁSICAS DE PROBABILIDAD
Ejemplo 6.13. Se dispone de una nueva prueba para el diagnóstico
de problemas de comprensión lectora en niños. Se ha pasado la prueba a un total de 500 niños de educación Primaria, de los cuales 70
tienen dislexia (D y 430 no presentan a priori ninguna dificultad. En
la siguiente tabla se muestran los datos obtenidos tras su aplicación.
Calcula la sensibilidad, especificidad y valores predictivos positivos y
negativos de la prueba .
Resultado de la prueba
+
Total
NT
57
20
410
70
430
Total
77
423
500
T
■ Sensibilidad
13
= P (+ IT)
Considerando la probabilidad como el cociente entre casos favorables y casos posibles (Fórmula 6.1), se obtiene que:
P(+IT)
= n+nT =
nT
57
= 0,8143
70
➔
81%
Por la Fórmula 6.6 de probabilidad condicionada:
P(+IT)
=
P(+ n T)
P(T)
■ Especificidad
P(- INT) =
= 57 / 500 = O 8143
70 / 500
'
➔ 81%
= P(-INT)
410
n-nNT =
=
nNT
430
P(-INT) = P(-n NT)
P(NT)
o, 9535 ➔ 95%
= 410 / 500 = O 9535
430 / 500
■ Valor predictivo positivo
'
➔ 95%
= P (TI+)
285
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
P (TI+)= nrn+
n+
P(TI+)
=
57
= O, 7403
77
➔ 74%
= P(T n+) = 57 / 500 = O 7403 ➔ 74%
P(+)
77 /500
'
■ Valor Predictivo negativo
P(NTI-)
= P (NT 1-)
= nNTn- = 410 = 0,9693 ➔ 97%
n_
423
n-) = 410 / 500 = O 9693 ➔ 97%
P(-)
423 / 500
'
P(NTI- ) = P(NT
'\
De los datos obtenidos se puede decir que la prueba tiene un alto
grado de sensibilidad y especificidad, ya que ambos valores se aproximan al 100%. Por tanto, se podría considerar que esta nueva prueba puede ser una buena herramienta para detectar problemas de
dislexia en niños, puesto que discrimina muy bien entre aquellos que
presentan dislexia y los que no (verdaderos positivos y negativos,
respectivamente). Asimismo, tiene un alto valor predictivo negativo
(97%) que indica que el 97% de los que han dado negativo no tienen
trastorno. El valor predictivo positivo es algo menor (74%), señalando que un 26% ha dado positivo y no presenta el trastorno. Para estos casos sería conveniente confirmar el diagnóstico realizando algún
tipo de prueba de evaluación complementaria.
6.10. RESUMEN
En este tema se han definido una serie de conceptos básicos de probabilidad. En concreto, se comienza con los conceptos de experimento
aleatorio (proceso que se puede repetir indefinidamente en las mismas
condiciones y cuyo resultado no se puede predecir con certeza) y espacio
muestra! (todos los resultados posibles de un experimento aleatorio).
Otro de los conceptos que se ha abordado es el de suceso (resultado
de un experimento aleatorio), así como los distintos tipos de sucesos
286
NOCIONES BÁSICAS DE PROBABILIDAD
que pueden darse (simple, compuesto, posible, imposible o seguro) y las
operaciones que pueden realizarse entre sucesos (unión, intersección y
complementario).
A continuación, y en función del enfoque desde el que se estudie, se
han planteado tres definiciones de probabilidad: clásica, estadística y
axiomática. Estas definiciones no se excluyen entre sí y, de hecho, el
cociente entre los casos favorables y los posibles (definición clásica) no
es más que una frecuencia relativa de aparición de un suceso, que se va
aproximando a un valor constante a medida que el número de ensayos
aumenta (definición estadística). Por otra parte, la probabilidad de un
suceso, obtenido por cualquiera de estos dos procedimientos, tiene que
cumplir los axiomas de la definición axiomática de la probabilidad.
Seguidamente, se han expuesto una serie de teoremas, derivados de
la definición axiomática, que permiten calcular probabilidades de sucesos.
Se ha descrito el teorema de la suma, para calcular la probabilidad de que
ocurra un suceso u otro. Posteriormente, se ha definido la probabilidad
condicionada, donde la aparición de un suceso depende de la aparición
de otro suceso. También se ha descrito el teorema del producto, que se
aplica a situaciones en las que se requiere calcular la probabilidad de que
aparezcan dos sucesos de forma simultánea. Finalmente, se han presentado el teorema de la probabilidad total y el teorema de Bayes, que tienen
como punto de partida la partición del espacio muestra! en dos o más
sucesos excluyentes.
Se ha finalizado el capítulo definiendo algunos conceptos bastante utilizados en el ámbito de la Psicología de la Salud, y que están fundamentados en el cálculo de probabilidades, en su mayor parte condicionadas .
En concreto, se han descrito los conceptos de prevalencia e incidencia,
factores de riesgo, y se ha estudiado la valoración de la calidad de pruebas diagnósticas mediante los conceptos de sensibilidad, especificidad, y
valor predictivo positivo y negativo.
6.10. E ERCICIOS
6.1.
La definición de probabilidad que asume la equibrobabilidad o que
dos sucesos tienen la misma probabilidad de ocurrencia es la definición: A) clásica; B) axiomática; C) estadística.
287
INTRODUCCIÓN Al ANALISIS DE DATOS: APLICACI ONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
6.2.
En una urna tenemos 4 bolas naranjas y en otra urna 6 bolas amarillas. Si sacamos una bola de la primera urna y otra de la segunda
urna, lSe trata de un experimento aleatorio? A) Sí; B) No; C) No
puede determinarse si es o no un experimento aleatorio.
6.3.
Si dos sucesos A y B son independientes: A) P(A n B) = P(A) . P(B);
B) P(A n 8) = P(A) + P(B); C) P(A n B) = P(A) + P(B) - P(A u B).
6.4.
En un espacio muestra! E hay dos sucesos A y Btales queP(A) = 2 / 3;
P (B) = 1 / 2; P (A n B) = 1 / 5, ¿cuál es la probabilidad de la unión de
A y B ?: A) 13/30; B) 17/30; C) 19/30.
6.5.
En un experimento de detección de estímulos, se presenta la mitad
de veces el estímulo A y la otra mitad el estímulo B. El A es detectado el 80% de las veces y el Bel 70 %. En un ensayo determinado
sabemos que se ha presentado el estímulo A. ¿cuál es la probabilidad de que NO sea detectado? A) 0,20; B) 0,53; C) 0,80.
6.6.
Se lanza simultáneamente un dado y una moneda, ¿cuál es la probabilidad de obtener un número par en el dado y una cara en la
moneda? A) 0,25; B) 0,50; C) 0,75.
6.7.
Los datos que se tienen de la Jefatura de Tráfico sobre las causas
de los accidentes indican que el 65% se debe a la ingesta excesiva
de alcohol, el 25% a la imprudencia del conductor y el resto a otras
causas. En estos accidentes el resultado de que sea mortal es del
30% en el primer caso, el 20% en el segundo y el 5% en el tercero. ¿cuál es la probabilidad de que un determinado accidente sea
mortal? A) 0,25; B) 0,33; C) 0,65.
6.8.
Se conoce que un determinado trastorno mental puede estar provocado por causa psicológica (P) en el 50% de los casos ; por causa orgánica (O) en el 20% de los casos; y por la interacción (/)
de ambos factores en el 30% de los casos. La intervención de
este trastorno requiere tratamiento farmacológico (F) en el 10%
de los casos si su causa es psicológica, en el 55% de los casos si
la causa es orgánica y en el 20% de los casos si es producida por
la interacción de ambos factores . ¿cuál es la probabilidad de que
un paciente cualquiera con dicho trastorno necesite tratamiento
farmacológico? A) 0,06; B) 0,11; C) 0,22.
6.9.
Con la información del problema anterior, ¿cuál es la probabilidad
de que un paciente cualquiera con dicho trast orno NO necesite tratamiento farmacológico? A) 0,24; B) 0,78; C) 0,82.
,,,i'
288
NOCIONES BASICAS OE PROBABILIDAD
6.10. Con la información del Ejercicio 6.8. ¿cuál es la probabilidad de
que si NO está recibiendo tratamiento farmacológico la causa de su
trastorno sea orgánica (O)? A) 0,04; B) 0,115; C) 0,325.
6.11. Por la sintomatología se sabe que la probabilidad de contraer una
enfermedad A en un hospital es de 0,40 y la de contraer una enfermedad B es de 0,60. Un paciente es sometido a análisis clínico
conociéndose que quienes padecen la enfermedad A dan resultado
positivo (P) con probabilidad 0,90 y quienes padecen la enfermedad B, dan resultado positivo (P) en el análisis con probabilidad
0,05. Si a un enfermo se le hizo un análisis y el resultado fue positivo. ¿cuál es la probabilidad de que padezca la enfermedad A? A)
O, 725; B) 0,532; C) 0,923.
6.12. Continuando con el ejercicio anterior, ¿cuál es la probabilidad de
que padezca la enfermedad B dado que ha sido positivo el análisis?
A) 0,077; B) 0,247; C) 0,532.
6.13. De acuerdo con los datos de la Tabla, ¿cuál es la probabilidad de que
elegido un alumno al azar esté «expuesto al factor de riesgo »? A)
0,20; B) 0,25; C) 0,60.
En la Tabla se recoge la información sobre la ansiedad (A)
de un grupo de alumnos expuesto al factor de riesgo (R+)
de hacer un examen y de otro grupo no expuesto a dicho
factor (R-), ya que tienen evaluación continua y no realizan
examen.
A
A
Total
R+
160
240
R-
40
80
120
200
200
400
160
6.14. Según los datos de la Tabla anterior, elegido un alumno al azar,
¿cuál es la probabilidad de que « padezca ansiedad » y esté «expuesto al factor de riesgo examen » ? A) 0,10; B) 0,40; C) 0,70 .
6.15. Con la información presentada en la Tabla anterior, elegida una
persona al azar ha resultado estar expuesta al factor de riesgo examen. ¿cuál es la probabilidad de que padezca ansiedad? A) 0,19;
B) 0,25; C) 0,67.
289
'
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
6.16. La depresión constituye un reto para la salud pública, ya que el
número de personas que la sufren a lo largo de su vida se sitúa
entre el 8% y el 15% de la población. Durante el último año, el
porcentaje de personas que tuvo por primera vez un diagnóstico de
depresión fue del 4% de la población. Este dato se refiere a: A) la
prevalencia de la depresión; B) la sensibilidad para la detección de
la depresión; C) la incidencia de la depresión.
6.17. Una prueba diagnóstica que muestra una alta probabilidad de detectar a los verdaderos negativos tiene: A) alto valor predictivo
positivo; B) alta especificidad; C) alta sensibil idad.
6.18 . El cuestionario M-CHAT es una prueba para la detección del au tismo en niños preescolares. Fue modificada posteriormente para
aumentar la capacidad de discriminación entre autismo y otros
problemas en el desarrollo. En el estudio realizado para la valoración de la prueba, el M-CHAT clasificó correctamente a 33 de los
38 niños participantes en el estudio y diagnosticados de autismo y
clasificó incorrectamente solo a 8 de los 1196 niños que no presentaban autismo. ¿cuál es la sensibilidad de la prueba? A) 0,8048; B)
0,8684; C) 0,9958.
6.19. Con los datos del ejercicio anterior, ¿cuál es la especificidad del
M-CHAT? A) 0,8049; B) 8684; C) 0,9933.
6.20. Siguiendo con la información presentada en el Ejercicio 6.18. ¿cuál
es el valor predictivo positivo de la prueba? A) 0,8049; B) 0,8684;
C) 0,9933.
6 .10. SOLUCIONES A LOS E ERCICIOS
6.1.
Solución: A
Definición clásica
6.2.
Solución: B
No se trata de un experimento aleatori o, dado que el resultado
puede predecirse con certeza.
6.3.
Solución : A
6 .4.
Solución : C
Tenemos los siguientes datos :
P (:A)= 2 / 3; P (8) = 1 / 2; P (A n 8) = 1 / 5
290
NOCIONES BÁSICAS DE PROBABILIDAD
Sustituyendo en la fórmula del teorema de la suma:
P(A u B) = P(A)+ P (B) - P (A n B)
=
6.5.
(l
l1- P (A)j + P(8) - P(A n B) =
-1)+ ½-½ = ½+½-½ =
10 \ l i - 6 =
~~
Solución: A
P(A)
=
0,50 P(DIA) = 0,80
P(B) = 0,50 P(DIB)
P(D IA)
6.6.
=
=
=
o, 70
1- P(DIA) = 1 - 0,80
Solución: A
Sea P « número par» y
P(P) =
3
6
=
0,20
e «salir cara »
= O, 5
Son sucesos independientes, ya que el resultado de tirar el dado no
condiciona el que salga cara o cruz. Por tanto, se utiliza la fórmula
del teorema del producto para sucesos independientes:
P(P n C) = P(P) · P (C)
6.7.
Solución: A
Nos están pidiendo
mortal.
=
O, 5 x O, 5 = 0, 25
P(M) o la probabilidad de que el accidente sea
Definimos los siguientes sucesos: A «accidente por circular con
una ingesta excesiva de alcohol » ; I «accidente por imprudencia del
conductor» ; OC «accidente por otras causas» . Se trata de sucesos
incompatibles y su unión es el espacio muestra!, por lo que se re suelve mediante el teorema de la probabilidad total.
P(A) = 0,65
P(MIA) = 0,30
P(I) = 0,25
P(M II) = 0,20
P (OC) = 1 - O, 65 - O, 25 = O, 10
P(MIOC) = 0,05
291
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
M P(A) · P(MIA) = 0,65 x 0,30 = 0,195
(QdQ¿
A
~
M
e@)
M
P(I) - P(MII) = 0,25 x 0,20 = 0,05
M
M
P(OC)-P(MIOC) = 0,10 x 0,05 = 0,005
I
(@)
oc
M
Aplicando el teorema de la probabilidad total tenemos:
P(M) = P (A). P(M IA) + P(1). P(M 11) + P(oc). P(M ¡oc)=
= 0,195 + 0,05 + 0,005 = 0,25
r
6.8.
't,
Solución: C
Dibujamos el diagrama de árbol con los datos proporcionados en el
ejercicio. Nos piden P(F). Para ello, se calculan las intersecciones
de cada rama de F y luego se suman .
P(P) = 0,50
P(FIP) = 0,10
P(O) = 0,20
P(FIO) = 0,55
= o, 30
P (F II) = o, 20
P (1)
292
NOCIONES BÁSICAS DE PROBABILIDAD
(QdQ¿
F
P (P n F) = 0, 50 x 0, 10 = 0, 05
F
F
P (O n F) = O, 20 x O, 55 = O, 11
F
F
P (I n F) = O, 30 x O, 20 = O, 06
p
~
o
e@¿
I
F
P (F) = P (P n F) + P (O n F) + P (In F) = O, 05 + O, 11 + O, 06 = O, 22
Otra forma de calcular P(F) es mediante el teorema de la probabilidad total:
P (F) = P (P) · P (F IP) + P (O)· P (F ¡o)+ P (I) · P (F II) =
= o, 05 + o, 11 + o, 06 = o, 22
6.9.
Solución: B
En este caso, se pregunta por P
Para ell~ se calculan las intersecciones correspondientes a cada rama de F y luego se suman.
(!=}
F
p
~
~
0,55
F
P (P n
F) = O, 50 x O, 90 = O, 45
F
o
~
(@)
F
P(O n F) = 0,20 x 0,45 = 0,09
F
I
(Q&Q)
F
P(I nF)= 0,30 x 0,80 = 0,24
293
INTRODUCCIÓN AL ANÁLI I
DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
P(F) = P(P n F) + P(On F) + P(I n F)
= O, 45 + O, 09 + O, 24 = O, 78
Otra forma de calcular P (F) es mediante el teorema de la probabilidad total:
= 0, 50
X
0, 90 + 0, 20
X
0, 45 + 0, 30
X
0, 80 = 0, 45 + 0, 09 + 0, 24 = 0, 78
También se puede calcular por el complementario:
P (F) = 1 - P (F) = 1 -
o, 22 = o, 78
6.10. Solución: B
Se obtiene mediante el teorema de Bayes (Fórmula 6.12):
P(ojF) = P(O) ·':__(FIO)
P(F)
', •
-<
',
6.11. Solución:
= o,2o x 0,45 = 0,09 = O,ll 5
O, 78
O, 78
e
Se pregunta por
P(A IP).
Los datos de los que disponemos son:
P(A) =0,40
P(PIA) = 0,90
P(B) = 0,60
P (PI B) = O, 05
La representación gráfica es:
p
Q
@
=
A
@
p
p
p
0, 40
X
0, 90 = 0, 36
P(P n B) = P (B) · P (P 1B) =
=
B
0,95
294
P(P n A) = P(A) · P(P IA) =
0, 60
X
0, 05 = 0, 03
NOCIONES BÁSICAS DE PROBABILIDAD
p ( A IP)
P(A n P)
P(A) ·P(PIA)
= - p (~P)~ = -P-(A-n-P~) +- P-(8
-n
'--P
~)
=
0, 4
X
0, 9
{O, 4 x o, 9) + (O, 6 x o, 05)
=
P(A) · P(PIA)
- -~ - - - ~ - ~ ~ =
p (A). p (P IA) + p (B). p (P IB)
0, 36
= 0, 36 = O, 92 3
o, 36 + o, 03 o, 39
6.12. Solución: A
p ( 8 IP)
p (B) . p (P IB)
P(B n P)
P(B) -P(PIB)
-~------- =
= - p (-P)~ = -P-(A_n_P
_)_+_
P_(8----'n-P
- ~) p (A) . p (P IA) + p (B). p (P IB)
=
0, 60 X 0, 05
=
0, 03
= 0, 03 = O 07 7
(0,40 x 0,90) + {0,60 x 0,05) 0,36 + 0,03 0,39
'
También se puede calcular por el complementario:
P (B IP)
=1-
P (A IP)
=1-
o, 923 = o, 077
6.13. Solución: c
Considerando la probabilidad como el cociente entre casos favorables y casos posibles (Fórmula 6.1), se obtiene que:
p (R ) = nR + = 240 = 0 60
+
n
400
'
6.14. Solución: B
Considerando la probabilidad como el cociente entre casos favorables y casos posibles (Fórmula 6.1), se obtiene que:
p (A n R +) = nA r. R+ = 160 = O 40
n
400
'
6.15. Solución : c
Considerando la probabilidad como el cociente entre casos favora bles y casos posibles (Fórmula 6.1), se obtiene que :
P(AIR +) = n Ar. R+ =
nR +
160
= 0, 6667 "" 0, 67
240
295
INTROOUCCIÓN AL ANÁLISIS DE DATO : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Por la órmul
6.6 de probabilidad condicionada:
P (AIR+) = P(A n R+) = 160/400 = 0,4 = O 67
P(R + )
240/400 0,6
'
6.16. Solución: C
La incidencia, ya que representa el número de casos nuevos de una
enfermedad en una población durante un período determinado.
6.17. Solución: B
Una alta especificidad P (- INT) o probabilidad de detectar a los verdaderos negativos; es decir, la probabilidad de los que no tienen
trastorno (NT) den negativo (-) en la prueba.
6.18. Solución: B
Se construye una tabla de doble entrada con la información que
proporciona el enunciado del ejercicio:
Total
Estado
+
A
(autismo)
NA (no autismo)
33
5
38
8
1188
1196
Total
41
1193
1234
Sensibilidad = P(+ IA)
Considerando la probabilidad como el cociente entre casos favora bles y casos posibles (Fórmula 6.1), se obtiene que:
33
P(+ IA) = n+r. A =
= 0,8684
nA
38
➔
87%
Por la Fórmula 6.6 de probabilidad condicionada:
P (+I A ) = P (+
Í\
A ) = 33 / 1234 =
P(A)
38/1234
o 8684 ➔
87%
'
6.19. Solución : C
Especificidad = P (- !NA )
Considerando probabil idad el cociente entre ca sos favorables y po sibles:
296
NOCIONES BÁSICAS DE PROBABILIDAD
P(-INA) = n -n NA = 1188 = 0,9933 ➔ 99%
nNA
1196
Calculándola mediante probabilidad condicionada:
p (- INA) = p (- n NA) = 1188 / 1234 = O 9933
P(NA)
1196/1234
'
➔
99%
6.20. Solución: A
Valor predictivo positivo = P (A I+)
P(AI+) = nA n+ = 33 = 0,8049 ➔ 80%
n+
41
Por probabilidad condicionada:
P(AI+) = P(A n +) = 33 / 1234 = O 8049 ➔ 80%
P(+)
41/1234
'
297
,.
'
TEMA7
Variables aleatorias y modelos
discretos de probabilidad
7.1. INTRODUCCIÓN
7.2. CONCEPTO DE VARIABLE ALEATORIA
7.3. TIPOS DE VARIABLES ALEATORIAS
7.4. VARIABLES ALEATORIAS DISCRETAS
7.4.1. Función de probabilidad de una V.A. discreta
7.4.2. Función de distribución de una V.A. discreta
7.4.3. Media y varianza de una V.A. discreta
7.5. MODELOS DISCRETOS DE PROBABILIDAD
7.4.1. La distribución de Bernoulli
7.5.2. La distribución binomial
7.5.3. Otras distribuciones discretas
7.6. RESUMEN
7.7. EJERCICIOS
7.8. SOLUCIONES A LOS EJERCICIOS
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
7.1. INTRODUCCIÓN
En los primeros cinco temas (primera parte del libro) se han estudiado
la s variables estadísticas, que son el conjunto de valores resultantes de
m edir una característica de interés sobre cada elemento individual de una
población o muestra. La medición se realiza a través de un procedimiento
de asignación numérica mediante la aplicación de determinadas reglas,
dando lugar a los valores de la variable estadística . Estos conjuntos de
datos los hemos descrito mediante su correspondiente distribución de frecuencias, que es una tabla en la que se disponen los valores de la variable
ju nto con su frecuencia correspondiente.
Por otro lado, en el tema anterior se estudiaron los fundamentos de la
t eoría de probabilidades. Se vió que un experimento se denomina aleat orio cuando su resultado no podemos predecirlo con certeza. Si el experi mento aleatorio se realiza una sola vez se obtendrá un único resultado
del espacio muestra!. Pero, a medida que aumenta el número de ensayos
irán apareciendo todos los resultados posibles, cada uno de ellos con su
correspondiente probabilidad.
Con los conocimientos adquiridos sobre distribuciones de frecuencias
que corresponden a las muestras (primera parte del libro) y de probabilidad (Tema 6) ya es posible pasar del cálculo de probabilidades al estudio
de las distribuciones de probabilidad . Éstas son las distribuciones teóricas
correspondientes a la probabilidad de ocurrencia de un suceso si rep itiésemos el experimento un número infinito (muy grande) de veces y que se
refieren a la población.
Se inicia este tema con la definición de algunos conceptos nuevos, tales
como el concepto de variable aleatoria y sus tipos, en función de su natu raleza. Para cada experimento se puede definir una o varias variables que
pueden ser de naturaleza discreta o continua (de acuerdo a los mismos
conceptos vistos en el Tema 1, referidos a las variables estadísticas) y que
denominamos variables aleatorias. Este tema se centra en las variables
aleatorias discretas, dejando para el tema siguiente el caso de las varia bles continuas. Se estudiará la función de probabilidad y de distribución
en variables aleatorias discretas para, a continuación, presentar la forma
de describir las características de la variable aleatoria mediante los valores
numéricos que caracterizan su tendencia central y su dispersión o variabi lidad. Como se podrá apreciar, estos conceptos son similares a los ya vistos en los primeros temas cuando se estudiaban las variables estadísticas .
301
INTROOUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS OE LA SALUD
Para finalizar, se describirán las principales características de dos modelos de distribución de probabilidad para variables aleatorias discretas.
En primer lugar, la distribución de Bernoulli, que se aplica a variables que
presentan dos únicos valores. En segundo lugar, y como una generalización de la anterior para n ensayos, se presentará la distribución binomial,
en la que nos centraremos en su aplicación práctica y en el uso de las
tablas del Formulario para la obtención de las probabilidades del modelo.
Objetivos del tema:
■
■
Conocer el concepto de variable aleatoria: aprender a definir variables aleatorias sobre los resultados de un experimento y a determinar los valores que toma.
I/
Conocer las principales características de una variable aleatoria discreta, como son la función de probabilidad, la función de distribución, la esperanza matemática o media y la varianza.
li
■
Obtener la función de probabilidad y de distribución de una variable
aleatoria discreta y saber construir su representación gráfica.
■
Saber calcular la esperanza matemática y la varianza de una variable aleatoria discreta.
■
Conocer las condiciones de aplicación de la distribución de Bernoulli
y de la binomial, sus valores esperados y varianzas.
■
Manejar con soltura las tablas de la distribución binomial para resolver problemas concretos.
7.2. CONCEPTO DE VARIABLE ALEATORIA
Es un concepto esencial en la teoría de probabilidades que surge ante
la necesidad de cuantificar los resultados de los experimentos aleatorios
y así poder realizar un estudio matemático de los mismos. Intuitivamente
puede definirse como cualquier característica medible que toma diferentes valores con probabilidades determinadas.
302
11
li
ll
:
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
Una variable aleatoria (v.a.), X, es una función que asigna un número real, y sólo uno, a cada resultado posible de un espacio muestra! E de un experimento aleatorio.
En el tema anterior definimos el espacio muestra! E ( espacio de resulta dos) como el conjunto de todos los resultados posibles de un experimento aleatorio, entendiendo por este último un proceso que se puede
re petir indefinidamente en las mismas condiciones y cuyo resultado no se
puede predecir. Pues bien, cuando a cada suceso elemental o resultado
posible del espacio muestra! le asignamos un valor numérico se obtiene
una variable aleatoria denominada X. Las variables aleatorias toman valores numéricos, y se pueden definir diferentes variables sobre los resulta dos de un mismo experimento. Así por ejemplo, sobre el experimento
de «lanzar una moneda al aire en tres ocasiones» podemos definir una
variable aleatoria como número de caras obtenidas, como número de cruce s obtenidas, o también como una variable que toma el valor 1 cuando
el número de caras obtenido es mayor que el número de cruces y toma el
va lor O en el otro caso. El azar interviene en el resultado que obtenemos
al realizar el experimento aleatorio y no en la variable o función.
Las variables aleatorias se representan por letras mayúsculas del alfa beto latino, y se utilizan las letras minúsculas con subíndice para referi rnos a los valores concretos que toman estas variables aleatorias. Así
X, Y, ... representan variables aleatorias, en tanto que x 1 , x 2 , ... y 1 , y 2 , ...
re presentan los valores concretos que toman esas variables, respectivamente.
Ejemplo 7.1. Sea el experimento aleatorio que consiste en lanzar
una moneda al aire tres veces. El espacio muestra! de este experimento es: E = {XXX, XXC, XCX, CXX, XCC, CXC, CCX, CCC}
Supongamos que a cada elemento del espacio muestra! le asignamos
un número real, por ejemplo, el correspondiente al número de caras
que presenta. En este caso, se ha definido la variable aleatoria X
como el número de caras obtenidas en el experimento. lQué valores
concretos toma X?
303
1
1
11
11
IN I IWOUCCIÓN AL ANALISIS DE DATOS: APLI CACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
O
si no sale ninguna cara
1
si sale una cara
2
si salen dos caras
3
si salen las tres caras
X=
·~
Por tanto,
X1
= O;
X2
= 1;
X3
= 2;
X4
=3
l
Gráficamente se representa como:
E
XXX - ~ - - - - - / - --.
xxc
XCX - , - - - - - 1 - - =~
CXX - -+--- - - - i - -~
XCC - - t - - -----t- CXC
CCX
ccc --1------~~
2
3
Figura 7.1. Espacio muestra! y valores de la variable aleatoria número de caras obtenidas .
Ejemplo 7 .2. Para el experimento aleatorio de lanzar una vez un
dado define dos posibles variables aleatorias.
El espacio muestra! de lanzar un dado es E= {l, 2, 3, 4, 5, 6}.
Sobre ese espacio muestra! podemos definir las dos siguientes variables aleatorias:
X
= número
de puntos obtenidos en el lanzamiento de un dado.
Y= obtener un número múltiplo de 3, donde Y 1 = O si no es múltiplo
e Y2 = 1 si el número es múltiplo de 3.
304
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
Representación gráfica de ambas variables:
8
- - - - - 1 - - - - - 1 - ---.
1
[I] - - - + - - - 1 - - - - - 2
8
[I]
- - - + ---+-
-
o
ü
0
Variable aleatoria X
Variable aleatoria Y
7.3. TIPOS DE VARIABLES ALEATORIAS
Las variables aleatorias pueden ser discretas o continuas. Tal y como
vimos en el Tema 1, una variable discreta es aquella que adopta valo res enteros. Por tanto, fijados dos valores consecutivos, no puede tomar
ninguno intermedio. Por su parte, una variable continua es aquella para la
que, dados dos valores, siempre se puede encontrar un tercer valor que
esté incluido entre los dos primeros. Teniendo en cuenta esta información,
vamos a definir cada una de ellas aportando algunos ejemplos para su
mejor comprensión.
Una variable aleatoria X es discreta (v.a.d.) cuando sólo puede
tomar un conjunto finito de valores o un conjunto infinito y numera ble de valores.
Un ejemplo de v.a.d. es el número de caras que salen al lanzar dos
veces una moneda, que puede adoptar los valores O, 1 y 2. Otro ejemplo
es el conjunto de los números enteros, que puede adoptar un conjunto
305
IN rRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
infinito y numerable de valores (los números negativos, el cero y los números positivos).
Una variable aleatoria X es continua (v.a.c.) cuando puede tomar
infinitos valores o un conjunto de valores no numerable.
Ejemplos de variables aleatorias continuas son el tiempo de reacción
ante un estímulo, la estatura o el cociente intelectual.
7.4. VARIABLES ALEATORIAS DISCRETAS
Este tema se limita exclusivamente al caso discreto, tratando el estudio
de las variables continuas en el tema siguiente.
7.4.1. Función de probabilidad de una V.A. discreta
La descripción del comportamiento matemático de una variable aleatoria discreta se realizará de forma similar a como se hizo en la primera
parte del libro con las variables estadísticas. En el caso de una variable
estadística, su distribución venía dada por los valores que toma la variable y su correspondiente frecuencia. En el caso de una variable aleatoria
discreta X, vendrá dada por los valores que la variable puede tomar (x 1 ,
x 2 , ... , x n) y su correspondiente probabilidad .
Se llama función de probabilidad de una variable aleatoria discreta
X, y se representa por f (x) , a aquella función que asocia a cada valor de
la variable la probabilidad de que ésta adopte ese valor. Es decir:
1
f
(x) = P (X
=
x)
1
(7.1)
Veamos un ejemplo. Consideremos un experimento aleatorio consistente en lanzar una moneda al aire en tres ocasiones. Si definimos una
variable aleatoria X como número de caras obten idas como en el Ejemplo
7.1, obtenemos la siguiente tabla:
306
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
i¡
Espacio muestra!
EB
EB
EB
EB
EB
©
EB
©
EB
©
EB
EB
EB
©
©
©
EB
©
©
©
EB
©
©
©
p
X
1/8
= 0,125
3/8
= 0,375
3/8
= 0,375
1/8
= 0,125
La primera columna recoge el espacio muestra! del experimento E =
{ XXX, XXC, XCX, CXX, XCC, CXC, CCX, CCC} , siendo cada fila un suceso. El número de sucesos o elementos del espacio muestra! es igual a
ocho. En la segunda columna se muestran los valores que puede tomar
la variable X anteriormente definida para cada suceso, y en la tercera
sus correspondientes probabilidades . Éstas se pueden calcular fácilmente
t en iendo en cuenta la definición clásica de probabilidad. Por ejemplo, la
probabilidad de obtener tres cruces o ninguna cara (x 1 = O) será 1/8, ya
qu e hay un resultado favorable de ocho posibles .
Por tanto, la función de probabilidad de X es:
X
o
1
2
3
f(x)
0 , 125
0,375
0,375
0,125
La función de probabilidad de una variable aleatoria discreta puede representarse mediante un diagrama de barras donde en el eje de abscisas
se recogen los valores que toma la variable y en el eje de ordenadas las
correspondientes probabilidades. En la Figura 7.2 se recoge la represen ta ción gráfica de la función de probabilidad correspondiente al ejemplo
que acabamos de ver.
307
INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
0,5
0,375
......
>e:
..........
0,25
-·
0,125
o
o
1
2
3
X
Figura 7.2. Diagrama de barras de la función de probabilidad.
Las dos propiedades fundamentales que debe cumplir la función de
probabilidad son:
■
Para cualquier valor de x, f (x) siempre toma valores positivos o nulos. Formalmente: V x E X f(x) ::::: O
■
La suma de todas las probabilidades correspondientes a cada valor
de x es igual a uno. Formalmente:
(x) = f (x1 ) + f (x2 ) + ... + f (xn)
= 1
2/
>·1
Puede observarse que estas propiedades no son más que una adaptación de la definición axiomática de la probabilidad, aplicada al caso de
variables aleatorias.
1 '
7.4.2. Función de distribución de una V.A. discreta
La función de distribución o función de distribución de probabilidad de
una variable aleatoria X se representa con la misma letra que su función
de probabilidad, pero en mayúscula: F(x). Nos indica cuál es la probabilidad de que la variable aleatoria tome un valor menor o igual que un valor
concreto x. Su definición es la siguiente:
Se llama función de distribución de una variable aleatoria discreta
X, y se representa por F(x), a aquella función que asocia a cada valor de
la variable la probabilidad de que ésta adopte ese valor o cualquier otro
inferior. Es decir:
308
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
1
F(x) a P(X s x)
(7.2)
1
Dicho de otra manera, si ordenamos de menor a mayor los valores x
de la variable aleatoria discreta, la función de distribución se obtiene acum ulando (o sumando) los valores de la función de probabilidad, de forma
que:
(7.3)
Es importante, para diferenciar el concepto de función de probabilidad
y función de distribución, tener siempre presente que en el primero se le
asigna a la probabilidad un valor concreto, mientras que la función de distribución es acumulativa, es decir, se le asigna la probabilidad a un valor
concreto y todos los anteriores.
Ejemplo 7 .3. En un experimento aleatorio, consistente en lanzar
una moneda al aire en tres ocasiones, se define la variable X como
número de caras. ¿cuál es su función de distribución?
Según hemos visto anteriormente, la función de probabilidad de la
variables es:
X
o
1
2
3
f(x)
0,125
0,375
0,375
0,125
Hay que calcular F(O), F(l), F(2) y F(3). Comenzamos por F(O),
que es la probabilidad de que la variable aleatoria X «número de caras» tome un valor menor o igual a cero, esto es:
F(O)
= P(X so) = P(X = o) = 0,125
De forma similar, F(l) es la probabilidad de que el número de caras
sea menor o igual a 1, por lo que incluye a los valores cero y uno:
309
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
F (1) = P (X
1)
$;
= P (X= O)+ P (X= 1) = f (O)+ f (1) =
= 0,125 + 0,375 = 0,50
Para calcular I= (2) o la probabilidad de que el número de caras sea
menor o igual a dos:
F (2) = P (X
$;
2)
= P (X= O)+ P (X = 1) + P (X = 2) =
= f (O)+ f (1) + f (2) = O, 125 + O, 375 + O, 375 = O, 875
Finalmente, F(3) o la probabilidad de que el número de caras sea
menor o igual que tres es:
F(3)
= P(X
$;
3) = P(X = 0)+P(X = l)+P(X = 2)+P(X = 3) =
= f (O)+ f (1) + f (2) + f (3) = O, 125 + O, 375 + O, 375 + O, 125 = 1
Los valores obtenidos se suelen presentar resumidos en una tabla
como la siguiente:
F(x)
o
1
2
3
0,125
0,500
0,875
1
En la siguiente tabla se muestran tanto la función de probabilidad
f (x) como la función de distribución F(x).
F(x)
o
0,125
0,375
0,375
0,125
1
0,875
0,500
0,125
¿
1
3
2
1
310
1
f(x)
X
1'
VAR IABLES ALEATORIAS Y MOOELOS DISCRETOS DE PROBABILIDAD
La representación gráfica de la función de distribución anterior es la
siguie nte:
F(x)
•
1
•
0,875
o
0,75
0,625
0,5
•
o
1
2
0,375
0,25
0,125
3
X
Figura 7.3. Representación gráfica de la Función de Distribución del Ejemplo 7.3.
Se puede apreciar que F (x) va «dando saltos» precisamente en los valores de la variable (O, 1, 2 y 3). El círculo blanco de la gráfica no incluye
esos valores. Así, porejemploF(2) = 0,875 peroF(l,9999 ... ) = F(l) = 0,5.
Observando la gráfica de la Figura 7 .3 se pueden deducir, sin necesidad
de recurrir a demostraciones matemáticas, las propiedades fundamentales que debe cumplir la función de distribución de probabilidad. Éstas son:
■
Todos los valores que toma la función de distribución de probabilidad
son positivos o nulos. Formalmente:
Vx
F(x) ?:: O
■ F(x)
es nula o vale O, para todo valor inferior al menor valor de la
variable aleatoria, x 1 :
F
■
(x) = 0
si
X
<
X1
F(x) es igual a uno para todo valor igual o superior al mayor valor de
la variable aleatoria. Si llamamos xn al mayor valor de la variable:
F
(x) = 1
si
311
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
■
La función F(x) es no decreciente ya que es una acumulación o suma
de probabilidades que son siempre positivas o nulas.
■
La probabilidad P de que la variable aleatoria X tome valores x mayores que x 1 y menores o iguales que x 2 (x 1 < x ::s x 2 ) es la diferencia
entre los valores de la función de distribución correspondientes a su
valor superior menos su valor inferior. Formalmente:
7.4.3. Media y varianza de una V.A. discreta
En los primeros temas del libro se aprendió a describir una distribución
de frecuencias de una variable estadística a través de los índices de tendencia central y de dispersión. Lo mismo se puede hacer con una variable
aleatoria: calcular su media y su varianza.
Para una variable estadística discreta X se puede calcular su media
obteniendo el sumatorio del producto de cada uno de los valores de la
variable por su frecuencia relativa o proporción (ver Tema 2).
Pues bien, para obtener la media (que designaremos por la letra griega
«µ » ) de una variable aleatoria discreta X calcularemos el sumatorio de los
productos de cada uno de los valores que toma la variable por su correspondiente probabilidad. Es decir:
La media, µ, de una variable aleatoria discreta X viene definida por la
siguiente expresión:
µ = E(X) = I,x -f (x)
(7.4)
La media de una variable X, también se denomina esperanza matemática o valor esperado de X y se representa por E (x). Este término
tiene sus raíces en los juegos de azar y fue introducido con el fin de poder
estimar las ganancias esperadas, si se repitiese el juego un elevado número de veces. Referido a una variable aleatoria representa el promedio
teórico que tomaría la variable aleatoria si se repitiese el experimento
aleatorio infinitas veces. Por eso empleamos para representarlo las letras
312
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
griegas (µ), ya que se trata del parámetro correspondiente a la población
de resultados del experimento.
Ejemplo 7 .4. ¿cuál es la media o esperanza matemática de la varia ble X del Ejemplo 7.1?
X
f(x)
x·f(x)
o
0,125
0,375
0,375
0,125
0,375
0,750
0,375
1
2
3
o
1,5
µ=E(X) = I,x -f(x) = x1 -f(x1 )+ x2 -f(x2 )+x3 -f(x 3 )+ x4 -f(x4 ) =
~ O x o, 125 + .l .x o, 375 + 2.x o, 375 ~ 3 x o, 125.. = 1,"5
•• ~, ""' "mtt,,m,_, •• 1
Para obtener la varianza de una variable aleatoria X, que designaremos
po r cr 2 ó V (X), debemos calcular el sumatorio del producto de cada uno
de los valores que toma la variable menos su media elevados al cuadrado
m ultiplicados por su correspondiente valor de la función de probabilidad .
Recordar la similitud con el índice estadístico correspond iente a la varian za de una variable estadística visto en el Tema 3.
La varianza, cr 2 , de una variable aleatoria discreta X viene definida por
la siguiente expresión:
el = V (X) = I, (x -
µ/ •f (x)
(7.5)
Una fó rmula al t ernativa para cal cular la va ri anza es:
(7.6)
313
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
donde:
2
[ E (x)] es la media de la variable elevada al cuadrado, µ 2 .
Por tanto, la varianza puede definirse también como la esperanza de los
cuadrados de X, E ( X 2 ), menos el cuadrado de la esperanza de X, [ E (x)J
De manera análoga a las variables estadísticas, la desviación típica
cr de una variable aleatoria discreta X es la raíz cuadrada de la varianza,
y viene definida por la siguiente expresión:
(7. 7)
Ejemplo 7 .s. Con los d¡:itos del Ejemplo 7 .1, ¿cuál es la varianza y la
desviación típica sabiend o que µ = 1,5?
Para aplicar la fórmula de la varianza es conveniente construir una
tabla en la que se añaden las columnas tercera, cuarta y quinta para
la fórmula 7.5, y las dos últimas columnas para la fórmula 7.6 .
1 Jc. ,:.,11
o
1
2
3
f(X') lir
.¡
0,125
0,375
0,375
0,125
. (x-µ)
{x-µ):z
-1,5
- 0,5
0,5
1, 5
2,25
0,25
0, 25
2,25
(x ..!í µ)2·f(x)
t
x:z
x 2 · f(x)
0,28125
0,09375
0,09375
0,28125
o
o
1
0,375
1,500
1,125
'¡
..
4
9
0,75
3
Aplicando la fórmula 7.5: cr 2 = l(x -µ)2 -f(x )= 0,75
2
2
Aplicando la fórmula 7.6: cr 2 = E(x2 ) - [E (X)] =3 -(1,5) =
= 3 - 2, 25 = o, 75
Obviamente, el resultado es el mismo con las dos fó rmulas .
La desviación típica es igua l a: cr =
314
.J¿ = .Jo,75
=
O, 866
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
7.5. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
En los apartados anteriores se ha mostrado cómo construir las funciones de probabilidad y de distribución de una variable aleatoria discreta,
así como el cálculo de su media y de su varianza. Sin embargo, no siempre es necesario realizar estos cálculos, ya que en función de las condiciones de partida del experimento y de las características de la variable aleatori a, podemos ajustar estas distribuciones a alguna distribución (modelo
teórico de probabilidad) ya conocida. Por tanto, el trabajo con variables
aleatorias discretas se simplifica mucho cuando se puede encontrar algún
modelo teórico que se ajuste a ellas según sus propiedades.
Existen diversas distribuciones teóricas para variables discretas, bien
conocidas, por utilizarse frecuentemente como modelo, o por su interés
como instrumento estadístico. Entre ellas podríamos citar la distribución
de Bernoulli, la distribución binomial, la distribución de Poisson, la distribución multinominal, etc. De muchas de ellas se han elaborado una serie
de tablas que facilitan su aplicación a problemas concretos.
Por lo general, en Psicología y Ciencias de la Salud se trabaja con varia bles aleatorias discretas que sólo pueden tomar dos valores (dicotómicas)
y que habitualmente representaremos por 1 y O. En estos casos, resultan
muy útiles la distribución de Bernoulli, y, especialmente, su generalización
a n ensayos, que es la distribución binomial. Ambos modelos se analizara n en los siguientes apartados.
7.5.1. La distribución de Bernoulli
La realización de un experimento aleatorio como lanzar una moneda
al aire admite sólo dos resultados posibles. En este caso concreto, los
resultados posibles son cara o cruz. Se trata de un experimento o ensayo
denominado Bernoulli, en reconocimiento a este autor. El acierto o fallo a
una pregunta con dos alternativas respondida al azar, el lado izquierdo o
derecho de un laberinto en forma de T elegido por una rata no entrenada
en el laberinto, ... son algunos de los múltiples ejemplos en los que sólo
se presentan dos alternativas posibles de respuesta. A una de ellas se le
denomina «éxito o acierto» (que, habitualmente, se codifica con 1) y a la
otra «fracaso o error» (que se codifica como O), sin que estos términos
t engan connotaciones ni positivas ni negativas, respectivamente.
315
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
De este modo, la variable aleatoria discreta que sigue el modelo
de Bernoulli (también llamado experimento de Bernoulli) se define como
una variable aleatoria dicotómica X, con dos posibles valores mutuamente
exclusivos: 1 (éxito) con probabilidad p y O (fracaso) con probabilidad q,
tal que la suma de ambas probabilidades sea igual a uno. Es decir:
f
(1) = P (X = 1) = p
f
(O) = P (X = O) = q
p + q = 1, por lo que q = 1 - p
Ejemplo 7 .6. Sea X la variable aleatoria «obtener cara» en el lan zamiento de una moneda al aire una vez. lSigue X la distribución de
Bernoulli?
El espacio muestra! es E= {C, X} donde se define la variable X (obtener cara) con dos posibles valores: 1 (éxito, sale cara) y O (fracaso,
sale cruz). La probabilidad de cara es p = 0,5 y la de cruz es q = 1-p
= 1-0,5 = 0,5.
Por lo tanto:
f
(1) = P (X = 1) = p = O, 5
f
(O)= P (X = O)= 1- p = q = O, 5
p +q
= o, 5 + o, 5 = 1
De este modo, la variable aleatoria X sigue el modelo de Bernoulli,
con parámetro p = 0,5.
Una variable aleatoria X que sigue el modelo de Bernoulli con parámetro p, se denota abreviadamente como X ➔ Ber (P) y presenta las
características recogidas en el siguiente recuadro.
316
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
Características fundamentales de una distribución X ➔ Ber (p)
■
Función de probabilidad:
(7.8)
■
Función de distribución:
F (x)
■
Media: µ
=
P(X
$;
x)
=
¿_pxql- x
(7.9)
=p
■ Varianza:
0
2
=
p(l - p)
■ Desviación típica:
0
=
pq
= Jpq
donde:
x puede adoptar el valor O (fracaso) o 1 (éxito)
p
= la
probabilidad de éxito en el único ensayo del experimento
q = la probabilidad de fracaso ( 1-p) en el único ensayo del experimento
Ejemplo 7.7. Se lanza un dado una vez al aire. Estamos interesados
en saber la probabilidad de obtener un 5 y se define X como obtener
un número 5 en el lanzamiento.
A) ¿se distribuye X según la distribución Bernoulli?
El espacio muestra! es E= {l, 2, 3, 4, 5, 6}.
Se define el éxito (1) como sacar un número cinco con probabilidad p = 1/6.
El fracaso (O) es el suceso complementario, es decir, obtener un
número distinto de cinco (1, 2, 3, 4 ó 6), cuya probabilidad es
q = 1-p = 1-1/6 = 5/6.
317
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Por tanto, la variable aleatoria X «obtener un número cinco» se
distribuye según el modelo de Bernoulli, X ➔ Ber (1 / 6)
B) ¿cuál es la media y la varianza de X?
1
6
µ = p= -
02 = p · q = p · (1 -
p) =
_! X~ = 2-_
6
6
36
C) ¿cuánto vale f(1) y F(1)?
F
f
(1) es la función de probabilidad para X
f
(1) = P (X = 1) = p 1 · ql- l = p = _!
=
1:
6
(1) es la función de distribución para
F (1) = p (X
~
X ~
1:
1
1) =
L p x . ql - x = pº . ql- 0 + pl . ql-1 =
X=O
1 5
=1 x q +p x 1 = q+p =- + -= 1
6 6
1
·,
\,
1
La distribución de Bernoulli es el fundamento y la base de otras distribuciones discretas, entre las que destaca la distribución binomial.
7.5.2. La distribución binomial
La distribución binomial es una generalización de la distribución de
Bernoulli en la que el experimento se repite más de una vez. Así, un experimento binomial consiste en repetir n veces, y de forma independiente,
un ensayo Bernoulli en el que la probabilidad de «éxito », p, se mantiene
constante en cada uno de los n ensayos.
Una variable aleatoria X sigue una distribución binomial (con parámetros n y p) si expresa el número de éxitos en n realizaciones independientes de un experimento con probabilidad p de obtener «éxito» y, por tanto,
(1-p) de obtener «fracaso». Esta distribución suele representarse por la
318
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
expresión B(n, p) donde B indica binomial, n (número de ensayos o veces
que se repite un experimento Bernoulli) y p (probabilidad de «éxito»). La
distribución de Bernoulli descrita previamente sería un caso particular de
la binomial con parámetro n igual a uno (un único ensayo), el parámetro
p sería la probabilidad de «éxito», y se representaría como una binomial
B(1, p).
Pues bien, una variable X que sigue un modelo de distribución binomial, con parámetros n y p, y que simbolizamos por X ➔ B (n, p), presenta
las características fundamentales recogidas en el siguiente recuadro.
Características fundamentales de una distribución B (n, p)
■
Función de probabilidad:
(7 . 10)
■
Función de distribución:
(7.11)
■
Media: µ
■ Varianza:
= np
0
2
= npq
■ Desviación típica: cr
= .Jnpq
donde:
= número de aciertos
n = número de ensayos
p = la probabilidad de éxito en cada uno de los ensayos
q = la probabilidad de fracaso (1-p) en cada ensayo
x
319
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
El número combinatorio ( : } que se lee «n sobre x», es igual a
(xn) - x!(nn!- x)!
sabiendo que:
- el factorial de un número n es
n ! = n •(n - 1) •(n - 2) •.. .. •(n - (n - 1))
- el factorial 1! = 1 y el factorial O!= 1
Aunque es relativamente fácil deducir las características anteriores no
lo vamos a hacer aquí formalmente, sino que recurriremos a su aplicación en ejemplos concretos. Así, si se lanza una moneda al aire en tres
ocasiones y definimos la variable aleatoria X como «número de caras
obtenidas», esta variable seguirá el modelo de distribución binomial con
parámetros n = 3 y p = 0,5. Diremos que X sigue un modelo 8(3, 0,5).
Esto es así porque en cada lanzamiento sólo son posibles dos resultados:
«éxito» (salir cara) y «fracaso » (salir cruz); los ensayos son independientes entre sí ( el resultado en un ensayo no depende de lo que haya salido
o no en los ensayos anteriores) y la probabilidad de «éxito» ( en este caso
«salir cara ») se mantiene constante a lo largo de los ensayos ( en este
caso p = 0,5).
Ejemplo 7 .8. Siguiendo con el experimento aleatorio de lanzar una
moneda en tres ocasiones, presentado en el ejemplo 7 .1, y definida
X como <<número de caras» se pregunta: A) lCuál es la probabilidad
de obtener exactamente 2 caras?; B) lCuál es la probabilidad de
obtener dos caras o menos? y C) lCuál es la probabilidad de obtener
más de dos caras?
Como se ha indicado en el Tema 6, se puede responder a estas preguntas desarrollando el espacio muestra! y aplícando, en cada caso,
la conocida fó rmula de Laplace (cociente ent re casos favorables y
casos posibles). Pero, se puede resolver t amb ién recurriendo a la
función de probabilidad y de distribución binomial.
320
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
La variable aleatoria X «número de caras en tres lanzamientos» se
distribuye según la binomial, con parámetros n = 3 y p = 0,5, es decir
X ➔ B (3, 0,5).
A)
f
(2)
= P(X = 2) =
(3) x o,
2
5 2 x o, 5 3- 2
= ( -3!- ) X 0, 5 2 X 0, 5 = 3 X 0, 52
2! -1!
B) F (2)
= P (X
:s; 2)
2
X
0, 5
5 2 x o, 5
=
= 3 X 0, 25 X 0, 5 = 0, 375
3)
(3)
= P(X = O) = O x o, 5o x o, 5 3 - 0 = ( O x 1 x o, 5 3 =
=
f(l)
3)x o,
= f (O) + f (1) + f (2) = O, 125 + O, 375 + O, 375 = O, 875
puesto que:
f(O)
=(
(~)x
0! ·3!
1 X 0, 5 3
= P(X = 1) =
= 1 X 1 X 0, 125 = 0, 125
(3)1 x o, 5
1
3)
x o, 5 3 - 1 = ( l x o, 5 x o, 5 2 =
= ( -3!- ) X 0, 5 X 0, 5 2 = 3 X 0, 5 X 0, 25 = 0, 375
1! ·2!
f (2)
= P (X = 2) = O, 375
C) P (X > 2)
= 1 - P (X
:s; 2)
(Véase el Apartado A)
= 1 - F (2) = 1 - O, 875 = O, 125
Puesto que F(2) ya lo hemos calculado en el apartado B). Puede
observarse también que la media y la varianza coinciden con la
calculada en los Ejemplos 7.4 y 7 .5, respectivamente:
= np = 3 X 0, 5 = 1, 5
cr = npq = 3 X 0, 5 X 0, 5 = 0, 75
µ
2
321
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
La utilización de funciones de probabilidad y de distribución requiere
cálculos tediosos. Las tablas de la función de probabilidad y de la función
de distribución binomial, Tablas I y II que se incluyen en el Formulario,
nos evitan, en muchos casos, el cálculo de las probabilidades a partir de
la ecuación de esas funciones, facilitando considerablemente su obtención
cuando tenemos un elevado número de ensayos (n).
En la Tabla I, para la función de probabilidad binomial, la primera columna encabezada con la letra n se refiere al número de ensayos e incluye
los valores desde 1 hasta 20. La segunda columna recoge el número de
«éxitos » (x) que esperamos obtener para ese número de ensayos y que
abarcan desde O hasta ese número de ensayos . La primera fila de la tabla
recoge algunos valores de la probabilidad de «éxito » (p) que van desde
0,01 a 0,5. En el interior de la tabla se encuentran las probabilidades
correspondientes . La probabilidad buscada, para unos valores concretos
de n y x, se encuentra en la intersección de su fila con la correspondiente
columna de p. Así, por ejemplo, la probabilidad de obtener dos éxitos en
tres ensayos con una probabilidad de éxito de 0,3 se encuentra en la Tabla
en la posición que se recoge en la Figura 7.4 y vale 0,1890.
n
X
1
O
1
1
2
O
3
3
1
2
0,01
0,05
0,10
Probabilidad de éxito (p)
0,30
0,45
0,50
1r
.........--....--.........----.........--......
~ ~
0,3341 0,3750
Figura 7 .4. Obtención de las probabilidades a partir de la Tabla de la función de probabili dad binomial.
La utilización de la Tabla II, función de distribución binomial, es idéntica a la anterior. Hay que tener en cuenta que, en este caso, las probabilidades que aparecen en el interior de la tabla son acumuladas. Veamos un
ejemplo de la utilización de estas dos Tablas .
322
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
Ejemplo 7.9. Con los mismos datos del ejemplo anterior:
A) ¿cuál es la probabilidad de obtener exactamente 2 caras?
f (2) = P (X = 2) = O, 375 Utilizando la Tabla I y recogiendo el valor
que aparece en la intersección de la filan = 3; x = 2 con la colum na p = 0,5
B) ¿cuál es la probabilidad de obtener dos caras o menos?
F (2)
= P (X :s; 2) = O, 875 Utilizando la Tabla II y recogiendo el va lor que aparece en la intersección de la fila n = 3; x = 2 con la
columna p = 0,5
C) ¿cuál es la probabilidad de obtener más de dos caras?
P (X > 2) = 1 - P (X :s; 2) = 1 - F (2) = 1- O, 875 = O, 125
Puesto que F(2) ya lo hemos obtenido en el apartado anterior
utilizando la Tabla 11.
Sin embargo, las Tablas I y II sólo contienen valores de p desde O, 1
hasta 0,5. Entonces, ¿qué hacer cuando tengamos una p > 0,5? En casos
como éste hay que intercambiar las condiciones de «éxito» y «fracaso ».
Ejemplo 7.10. Sabemos, por la experiencia de años anteriores en el
Servicio de Psiquiatría y Psicología Clínica, que un 60% de los pacien tes son tratados con Técnicas de Modificación de Conducta. Si un determinado día acuden 5 personas a consulta: ¿cuál es la probabilidad
de que tres sean tratadas con Técnicas de Modificación de Conducta?
En este caso, si la probabilidad de ser tratado con Técnicas de
Modificación de Conducta es p = 0,6, la probabilidad de no ser tratado
con tales técnicas es q = 1-p = 0,4. Por otro lado, que tres personas
de un total de cinco, sean tratadas con Técnicas de Modificación de
Conducta, es lo mismo que dos personas, de las cinco, no sean tratados con tales técnicas. Por tanto, el valor correspondiente, en la
Tabla I, a la intersección de la filan= 5 y x = 2 con la columna p = 0,4
nos dará respuesta a la pregunta planteada. El resultado es 0,3456.
323
.l
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Finalmente, podemos observar que en las Tablas I y II el número de
ensayos n sólo llega hasta 20. Este hecho no plantea ningún problema
porque para valores superiores a ese podemos hacer una aproximación
de la binomial a la distribución normal, como se verá en el próximo tema.
7.5.3. Otras distribuciones discretas
Se ha descrito en las páginas anteriores la distribución de Bernoulli y
con más detalle y profundidad la distribución binomial, por su amplia utilización en distintos ámbitos de la Ciencias Sociales y de la Salud. Sin embargo, existen otros muchos modelos de distribución para variables aleatorias discretas. El modelo de Poisson o de «los sucesos raros» se utiliza
bajo las mismas condiciones de la binomial para variables dicotómicas,
pero con un elevado número de ensayos y un valor de p muy pequeño. La
distribución multinomial se utiliza para ensayos que ofrecen más de dos
resultados posibles y, en cierto sentido, supone una generalización de la
binomial o ésta puede considerarse un caso particular de aquella. No desarrollaremos ninguno de estos modelos y dejamos abierta la posibilidad,
al lector interesado, de que pueda consultar bibliografía sobre ese tema .
7.6. RESUMEN
En este tema hemos introducido el concepto de variable aleatoria, hemos distinguido entre variables aleatorias discretas y continuas, y hemos
establecido el paralelismo entre la función de probabilidad de una variable
aleatoria discreta y la distribución de proporciones ( o frecuencias relativas) de una variable estadística. El mismo paralelismo se produce entre la
tabla de la función de distribución y la tabla de proporciones acumuladas.
Hemos estudiado la función de probabilidad de una variable aleatoria
discreta y la hemos caracterizado haciendo uso de su media y su varianza. Finalmente, se han presentado las distribuciones de Bernoulli y la binomial y se ha descrito el manejo de las Tablas de la distribución binomial
y su utilidad para resolver los problemas planteados.
324
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
7.7. EJERCICIOS
7 .1.
En el contexto de las variables aleatorias discretas la expresión
f(x) representa: A) la probabilidad de que la variable aleatoria X
tome un valor menor o igual que x; B) la probabilidad de que la
variable aleatoria X tome un valor concreto x; C) la probabilidad de
que la variable aleatoria X tome un valor menor que x.
7.2.
¿cuál de las siguientes afirmaciones es una propiedad básica de
toda función de probabilidad de una variable aleatoria X discreta?:
A) Para cualquier valor de la variable aleatoria su función de probabilidad puede tomar valores negativos; B) La función de probabilidad es siempre no decreciente; C) Para cualquier valor de la va riable aleatoria x, la función de probabilidad siempre toma valores
positivos o nulos.
7.3.
En la siguiente Tabla se muestra la función f(x) asignada a una
variable aleatoria discreta X.
X
1
2
3
4
5
f(x)
o
10/60
24/60
20/60
4/60
La función f(x): A) es una función de probabilidad porque f (x) ~ O;
B) no es una función de probabilidad porque f(l) es nula; C) no es
una función de probabilidad porque no cumple alguna de las propiedades fundamentales.
7 .4.
A)
Para el diseño de un experimento de discriminación visual dispone mos de tres cuadros grises y dos azules. Seleccionamos de forma
sucesiva y sin reposición dos de estos cinco estímulos y definimos
la variable aleatoria X como «número de estímulos grises seleccionados» . La función de probabilidad de esta variable aleatoria es:
B)
C)
X
o
1
2
X
o
1
2
3
X
o
1
2
f(x)
1/2
1/3
1/3
f(x)
0,2
0,3
0,3
0,2
f(x)
0,1
0,6
0, 3
7 .S.
Una variable aleatoria discreta X toma los valores O, 1 y 2, con probabilidades 0,7; 0,2; 0,1, respectivamente. La media o esperanza
matemática de X vale: A) 0,2; B) 0,24; C) 0,4.
325
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
7 .6.
Los valores de una variable aleatoria discreta X son O, 1, 2, 3, 4 y
5. Si se sabe que P(X $. 4) = 0,974 y que P(X $. 3) = 0,963, entonces P(X= 4) será: A) 0,011; B) 0,022; C) 0,001.
7. 7.
Una urna contiene dos bolas negras y dos blancas. Se extraen dos
bolas, una a una, con reposición. Sea la variable aleatoria X «número de bolas blancas extraídas». La función de distribución de
esta variable para x = O, x = 1 y x = 2 será, respectivamente: A)
0,25; O, 75 y 1; B) 0,25; 0,50 y 1; C) 0,25; 0,50 y 0,25.
7 .8.
La esperanza matemática de la
variable aleatoria X cuya información aparece en la Tabla es:
A) 2,4; B) 2,2; C) 2,6.
7 .9.
Valores que toma una variable
aleatoria discreta X y su función
de probabilidad.
Con los datos de la Tabla la
varianza de la variable X vale:
A) 6,3; B) 3,36; C) 1,63.
7 .10. Sea Y una variable aleatoria
discreta con valores O, 1, 2, 3 y
4. Si los cinco valores de Y son
equiprobables, su media es: A)
1,2; B) 1,5; C) 2,0.
-1
0,2
2
0,4
0,4
4
7.11. Una variable aleatoria X toma dos valores (cero y uno). Sabiendo
que E(X) = 0,2 ¿cuánto vale la probabilidad de que X tome el valor
cero?: A) 0,2; B) 0,5; C) 0,8.
7.12. Teniendo en cuenta los datos de la tabla, la media de la variable
aleatoria X vale: A) 2,7; B) 7; C) 2,4.
X
F(X¡)
1
3
0,2
0,5
0,9
4
1
2
7.13. En el lanzamiento de un dado una única vez se ha definido la variable X «obtener un número par». La variable X se distribuye según:
A) La binomial con parámetros n = 6 y p = 1/6; B) Bernoulli con
parámetro p = 1/6; C) Bernoulli con parámetro p = 1/2.
326
VARIABLES ALEATORIAS V MODELOS DISCRETOS DE PROBABILIDAD
7.14. Un estudiante responde al azar una pregunta con cinco alternativas
de respuesta. Si se define la variable X «acertar el ítem », ¿cuál es
la desviación típica de esa variable aleatoria ?: A) 0,05; B) 0,16; C)
0,40.
7.15. Con los datos del Ejercicio 7.4, pero siendo la selección con repo sición, y considerando «éxito » obtener cuadro gris, la probabilidad
de que la variable X allí definida tome el valor 2 es: A) 0,36; B)
0,50; C) o, 75.
7.16. Se sabe que un 10% de la población española padece algún tipo
de estrés. Si elegimos aleatoriamente una muestra de 8 personas,
la probabilidad de que sólo una de ellas padezca estrés vale : A)
0,0026; B) 0,2638; C) 0,3826.
7.17. Continuando con los datos del problema anterior, la probabilidad
de que más de una de ellas padezca estrés vale: A) 0,1869; B)
0,3826; C) 0,4305.
7.18. El examen de PIR (Psicólogo Interno Residente) consta de numerosas preguntas tipo test con 5 alternativas, de la que una sola es
correcta. Si un aspirante a la admisión en el PIR contesta al azar 20
de ellas, la probabilidad de que acierte más de 5 vale: A) 0,1958;
B) 0,6296; C) 0,9133.
7.19. Continuando con el ejercicio anterior, ¿cuál sería el número de
aciertos más probable en esas 20 preguntas? : A) 2; B) 3; C) 4.
7 .20. Con los mismos datos del Ejercicio 7 .18, ¿cuál sería la probabilidad
de que falle 13 o más preguntas?: A) 0,4114; B) 0,8265 ; C) 0,9679 .
7.8. SOLUCIÓN A LOS E ERCICIOS
7.1.
Solución B
La expresión f(x) se utiliza para representar la probabilidad de una
variable aleatoria X tome un valor con creto qu e representamos por
x, es deci r: f (x) = P (X = x)
7.2.
Solución : c
Ta l y como se ha visto en el Apartado 7.4 .1, una de las propiedad es
fundamentales que debe cumplir la función de probabilidad es qu e,
para cualquier valo r de x, f(x ) siemp re t oma valores positivos o
nulos. Formalment e : V x E X f (x) ~ O
327
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
7 .3.
Solución: e
La función propuesta no cumple que I, f (x) = 1, que es una de
las propiedades fundamentales de la función de probabilidad. En
efecto:
10
60
24
60
20
4
58
+- = -:te 1
60 60 60
í:,f(x) =O+-+-+ 7 .4.
Solución: e
A) no es correcta porque
de probabilidad.
I, f (x) :te 1 y,
por tanto, no es una función
B) no es correcta porque X no puede tomar el valor 3.
Por tanto, y por exclusión, la respuesta correcta es C. (Puede comprobar el lector que efectivamente esta es la solución correcta
efectuando los cálculos oportunos).
7 .s.
Solución: e
~L
7 .6.
= E (X) = I, x . f (x) = Ox O, 7 + 1 x O, 2 + 2 x O, 1 =O+ O, 2 + O, 2 = O, 4
Solución: A
P(X = 4) = F(4) - F(3) = P(X
=
7.7.
$
4) - P(X
$
3) =
0,974 - 0,963 = 0,011
Solución: A
f
(O)= P (X = O) = ¡ x ¡ = l: = O, 25
f
(1) = P (X = 1) = 2 X(~ X~) = 2 X(~) = ~ = 0 5
f
(2) = P (X = 2) =
4
4
16
16
¾x ¾= l: = 0, 25
Por tanto:
F(O ) = f (O) = 0,25
328
F (1)
= f (O) + f (1) = O, 25 + O, 5 = O, 75
F (2)
= f (O)+ f (1) + f (2) = O, 25 + O, 5 + O, 25 = 1
'
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
7 .8.
Solución: B
µ=
7.9.
I, xf (x) =
(-1) x O, 2 + 2 x O, 4 + 4 x O, 4
=
- 0, 2 + O, 8 + 1, 6 = 2, 2
Solución: B
Hay dos fórmulas equivalentes para calcular la varianza de una
variable aleatoria X:
0
0
µ)2 · f (x )
2
= V(X ) = I,(x -
2
= V (X) = E(x 2 )- [E(x)J2
Vamos a utilizar las dos en la siguiente tabla:
X
f(x)
X·f(X)
(x-µ)
(x- µ)2
(x-µ)2·f(x)
xi
x 2 ·f(x)
-1
2
4
0,2
0,4
0,4
-0,2
0,8
1,6
-3,2
-0,2
1,8
10,24
0,04
3,24
2,048
0,016
1,296
1
4
16
0,2
1,6
6,4
2,2
3,36
8,2
Por tanto:
0
0
2
= V (X) = I, (x - µ)
2
= V ( X) = E ( X 2 ) -
2
. f
[E
(x) = 2,048 + O, 016 + 1,296 = 3, 36
( X) ]
2
= 8, 2 - (2, 2 )2 = 8, 2 - 4, 84 = 3, 36
7.10. Solución: e
La función de probabilidad es:
y
o
1
2
3
4
f(y)
0,2
0,2
0,2
0,2
0,2
Por tanto,
µy =
L, Y · f (y) =
0
X
0, 2 + 1 X 0, 2 + 2
X
0, 2 + 3 X 0, 2 + 4
X
0, 2
=
= 0+0,2+0,4+0,6+0,8 = 2,0.
329
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
7.11. Solución: e
E(X) = 0,2 es la Esperanza o Media de la variable X (también se
representa porµ). Su fórmula es:
E(X)=I,x-f(x)
la función de probabilidad de la variable X es la siguiente:
x
o
1
f(x)
f(O)
f(l)
puesto que los valores que toma la variable X son O y 1 y, donde
f(x) representa las probabilidades asociadas a esos valores. Por
tanto, f(O) es la probabilidad de que X tome el valor O y f(1) es la
probabilidad de que X tome el valor 1.
Entonces:
E (X)=
I, x · f (x) = O - f (O)+ 1- f (1) =O+ f (1) = f (1) = O, 2.
Al tratarse de una función de probabilidad:
¿,f (x) = 1
y, por tanto, f (O)+ f (1) = 1 ⇒ f (O)+ O, 2 = 1 ⇒ f (O)= 1- O, 2 = O, 8.
La probabilidad de que X tome el valor O es 0,8.
7.12. Solución: e
Para calcular la media de X necesitamos conocer su función de
probabilidad. Esta función la obtenemos (ver la tercera columna de
la tabla) «desacumulando» las probabilidades que aparecen acumuladas en la función de distribución:
330
VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD
X
F(x)
1
2
3
0,2
0,5
0,9
1
4
f(x)
f(l)
f(2)
f(3)
f ( 4)
X·f(x)
= F(l) = 0,2
= F(2) - F(l) = 0,5 - 0,2 = 0,3
= F(3) - F(2) = 0,9 - 0,5 = 0,4
= F( 4) - F( 3) = 1 - O, 9 = O, 1
0,2
0,6
1,2
0,4
2,4
E(X) = ¿,X • f(x) = 2,4
7.13. Solución:
e
El espacio muestra! es E= {l, 2, 3, 4, 5, 6}. Para ello se define
el éxito (1) como sacar un número par (2, 4 ó 6) con probabilidad p = 3/6 = ½. El fracaso (O) es el suceso complementario, es
decir, obtener un número impar (1, 3 ó 5), cuya probabilidad es
q = 1-p = 1 - 0,5 = 0,5. Por tanto, se define la variable aleatoria X:
«obtener un número par» que se distribuye según el modelo de
Bernoulli, X ~ Ber (O, 5).
7 .14. Solución: e
X es una variable aleatoria con dos posibles resultados: acertar por
azar (1) con p = 0,20 y fallar (O) con probabilidad q = 1 - p = 1 0,2 = 0,80. X se distribuye según Bernoulli con parámetro p = 0,20
por lo que la desviación típica de X, a, es:
a =
J;;i = fixi = Jo, 2 x o, s = Jo, 16 = o, 40.
7.15. Solución: A
Como la selección es «con reposición » (p se mantiene constante a
lo largo de los ensayos) podemos utilizar la binomial:
Este mismo resultado lo podemos obtener mirando el valor de la
Tabla l. Obtener 2 cuadros grises con p = 0,6 es lo mismo que
obtener O cuadros azules con p = 0,4. Mirando la Tabla para n = 2,
x = O y p = 0,4 obtenemos 0,36.
331
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
7.16. Solución: e
Para resolver este ejercicio podemos aplicar la fórmula de la función
de probabilidad de la binomial. Lo más práctico, sin embargo, es utilizar la Tabla I. El valor 0 ,3826 que se encuentra en la intersección
de la filan= 8 y x = 1 con la columna p = 0,1 es la solución correcta.
7.17. Solución: A
Se nos pide P (X > 1) y sabemos que: P (X > 1)
Por otro lado: P(X ~ 1)
= 1 - P (X
~ 1)
= P(X = 0) + P(X = 1)
Mirando la Tabla I, comprobamos que P(X =O)= 0,4305 y que
P(X = 1) = 0,3826.
Por tanto:
P (X > 1) = 1 - (O, 4305 + O, 3826) = 1 - O, 8131 = O, 1869
Nótese que P (X ~ 1) podemos obtenerlo directamente a partir de la
Tabla II (filan= 8, x = 1 y columna p = 0,1) haciendo más cómoda
la resolución del ejercicio.
7.18. Solución: A
P (X >
5) = 1- P (X
~
5)
Utilizando la Tabla II comprobamos (para n = 20, x = 5 y p = 0,2)
que P (X ~ 5) = O, 8042. Por tanto, P (X > 5) = 1- O, 8042 = O, 1958.
7.19. Solución: e
El número de respuestas acertadas más probable será la media
o esperanza matemática de la variable para n = 20 y p = 0,2. Por
tanto: µ = n . p = 20 x O, 2 = 4.
(Nota: Obsérvese que en la Tabla I, paran= 20 y p = 0,2, el mayor
valor de la probabilidad corresponde, efectivamente, ax= 4).
7.20. Solución: e
La probabilidad de fallar 13 o más preguntas es la misma que la de
acertar 7 preguntas o menos. Por tanto, se trata de obtener el valor P (X ~ 7) para n = 20 y p = 0,2. Utilizando la Tabla II obtenemos
el resultado 0,9679 .
332
TEMAB
Modelos continuos de probabilidad
8.1. INTRODUCCIÓN
8.2. CARACTERÍSTICAS DE LAS VARIABLES ALEATORIAS
CONTINUAS
8.2.1. Función de densidad y función de distribución
8.2.2. Media y varianza de una variable aleatoria
continua
8.3. LA DISTRIBUCIÓN NORMAL
8.3.1.
8.3.2.
8.3.3.
8.3.4.
Características y propiedades
Utilización de las tablas
Histograma y distribución normal
Aproximación de la binomial a la normal
8.4. LA DISTRIBUCION x2 DE PEARSON
8.5. LA DISTRIBUCIÓN
t DE STUDENT
8.6. LA DISTRIBUCIÓN F DE FISHER-SNEDECOR
8.7. RESUMEN
8.8. EJERCICIOS
8 .9. SOLUCIONES A LOS EJERCICIOS
MODELOS CONTINUOS DE PROBABILIDAD
8.1. INTRODUCCIÓN
En el tema anterior se han estudiado las variables aleatorias discretas,
unificando conceptos que ya se conocen como son la distribución de frecuencias y la probabilidad. La combinación de estos conocimientos nos ha
permitido definir los conceptos de variable aleatoria discreta, su función
de probabilidad, su esperanza matemática y su varianza teórica. De forma análoga se pueden definir estos mismos conceptos para las variables
aleatorias continuas. Sin embargo, el problema que se presenta en el
caso continuo es que la variable no toma un número finito de valores. Al
tratarse de una variable continua (recuérdese lo visto en el Tema 1 sobre
las variables continuas y las escalas de intervalo y razón) toma infinitos
valores. Por ello, para describirla tenemos que acudir a un modelo probabi lístico que permite determinar, mediante el cálculo integral, la probabili dad de un intervalo de la variable y no de un valor concreto como ocurría
en las discretas. El proceso del cálculo de integrales no se va a tratar
en este libro ni es necesario conocerlo. Para estas distribuciones se han
elaborado tablas que contienen los valores de las probabilidades corres pondientes. Por tanto, dedicaremos parte de este tema a la comprensión
y uso de las tablas.
Se comenzará el tema describiendo las principales características de una
variable aleatoria continua, tales como su función de densidad, su función
de distribución, su media y su varianza . A continuación, se estudiarán los
modelos de distribución para variables aleatorias continuas más utilizados
en el área de Psicología y Ciencias de la Salud. Conviene distinguir entre
aquellas distribuciones de probabilidad a las que frecuentemente se ajustan
las variables con las que trabajamos y, aquellas distribuciones que tienen
una gran aplicación como instrumentos estadísticos. Entre las primeras se
encuentra la distribución normal y, entre las segundas, la distribución x 2 de
Pearson, la t de Student y la F de Fisher-Snedecor. Estas tres distribuciones
se derivan de la distribución normal y tienen una gran importancia como
instrumentos estadísticos en la estadística inferencia!, como se verá en los
dos últimos temas de este texto y en el curso siguiente.
En la presentación de los diferentes modelos de distribución se seguirá
el mismo esquema: primero se verá su definición, posteriormente se pre sentará su media y su varianza y, finalmente, se tratará la forma práctica
de trabajar con ellos utilizando las tablas estandarizadas existentes, que
están incluidas en el Formulario.
335
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Se dedicará especial atención a la distribución normal porque, además
de su relevancia como instrumento estadístico, responde al tipo de distribución que siguen la mayoría de las variables físicas y psicológicas (la
estatura, el peso, la extraversión, el CI -Cociente Intelectual-, etc.). En
este tema se resolverá también el problema que se indicó al final del tema
anterior, que las Tablas I y II del Formulario no nos permitían resolver un
problema binomial con más de 20 ensayos. Se abordará la solución recurriendo a la aproximación de la binomial a la normal.
Objetivos del tema:
'
■
Conocer las principales características de una variable aleatoria continua.
■
Saber cuáles son las propiedades de la función de densidad de probabilidad y de la función de distribución de una variable aleatoria
continua.
■
Saber calcular la media o esperanza matemática y la varianza de
una variable aleatoria continua.
■
Conocer las características de la distribución normal y la aproximación de la binomial a dicha distribución.
■
Manejar con soltura las tablas de la distribución normal para resolver cuestiones relacionadas con este modelo de probabilidad.
■
Conocer las características de las distribuciones
Student y F de Fisher-Snedecor.
■
Saber utilizar las tablas de las distribuciones x2 , t y F con el fin de
obtener probabilidades asociadas a unos determinados intervalos
de valores o bien a la inversa, obtener los intervalos de valores de
estas variables asociados a unas determinadas probabilidades.
x2 de Pearson, t de
8.2. CARACTERÍSTICAS DE LAS VARIABLES ALEATORIAS
CONTINUAS
En el tema anterior se definió una variable aleatoria continua como
aquella variable aleatoria que puede adoptar infinitos valores o un conjunto de valores no numerables. Dado que estas variables pueden tomar
336
1
¡
•
MODELOS CONTINUOS DE PROBABILIDAD
infinitos valores y que, dentro de cada intervalo de valores existen a su
vez infinitos valores posibles, la probabilidad de que tome un valor determina do es nula. Es decir, en el caso de las variables aleatorias continuas,
la probabilidad de obtener un determinado valor de X es igual a cero, por
lo que, a diferencia de lo que ocurría con las variables discretas, las probabilidades se van a asignar a un determinado intervalo de la variable.
Para ello, se acude al concepto de función de densidad de probabilidad en
torn o a un valor, en lugar de función de probabilidad de un valor que se
aplica ba en las variables aleatorias discretas.
8.2.1. Función de densidad
función de distribución
Se denomina función de densidad de probabilidad de una variable aleatoria continua, f(x), a aquella función que cumple las dos
condiciones siguientes:
a) f(x)
b)
J:
~
O
f(x) dx
=1
La primera condición indica que los valores de f(x) son siempre iguales
a cero o positivos, nunca negativos. En la segunda condición aparece definida una integral, que en variables continuas es el análogo al sumatorio
en variables discretas. Así, establece que el área total (que va desde -oo
hasta + oo en la variable X) bajo la curva es igual a uno . De ahí que se
aplique para la determinación de las probabilidades correspondientes a
las variables continuas.
Con la función de densidad de probabilidad de X podemos calcular la
probabilidad de que X se encuentre en un determinado intervalo [a,b]
mediante el cálculo integral con la siguiente expresión:
P(a :s; X :s; b) =
f:
f(x) dx
(8.1)
donde:
f(x) es la función de densidad de probabilidad de X
y la integral está definida para el intervalo [a,b]
337
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 8.1. En l·a figura se presenta la función de densidad de
probabilidad, f(x), para una variable aleatoria continua X. En el eje
horizontal o abscisas tenemos la variable X, y en el eje vertical o eje
de ordenada la función de densidad Y= f(x).
0,4
0,3
1
f(x) 0,2
0,1
b
a
X
A) ¿Es f(x) una función de densidad?
Sí porque se cumplen las dos condiciones necesarias:
a) Todos los valores de f(x) son iguales o mayores que cero. No
hay valores negativos en el eje vertical.
b) El área bajo la curva es igual a la unidad: 0,3085+0,5328+0,1587
=1
B) ¿cuál es la probabilidad de que X se encuentre entre los valores a
y b?
Nos piden calcular la probabilidad del intervalo [a,b], es decir,
P (a :e:; X :e:; b). Esta probabilidad se corresponde con el área bajo la
curva que representa a la función f(x) entre a y b y eso equivale
a determinar el valor de la integral entre a y b. Es decir:
P(a :e:; X :e:; b)
=
s:
f(x) dx
En el caso de la estadística aplicada a la Psicología y Ciencias de la
Salud no es necesario realizar este tipo de cálculos integrales. En su
lugar disponemos de tablas para las principales distribuciones continuas de probabilidad, funciones implementadas en las calculadoras,
y páginas web en internet que aportan estos valores de probabilidad.
338
MODELOS CONTINUOS DE PROBABILIDAD
Queda claro que en las variables continuas, f(x) no se corresponde con
un valor puntual de probabilidad como ocurría en las discretas. Se trata
de una función de densidad que, aplicándole el cálculo de integrales, nos
permite obtener la probabilidad para un intervalo de la variable X. Dicho de
otro modo, f(x) no es una probabilidad, pero la integral de f(x) para un determinado intervalo [a, b] de X si nos proporciona un valor de probabilidad .
Otra función que caracteriza a una variable aleatoria es la función de
distribución, F(x). En el caso de variables continuas se define de la misma
manera que para variables discretas, es decir, como la probabilidad acumulada hasta un cierto valor de la variable.
Se denomina función de distribución acumulada o función de distribución de probabilidad de una variable aleatoria continua, F(x),
a aquella función que asocia a cada valor de la variable X la probabilidad
de obtener valores menores o iguales que un valor dado (lo que equivaldría a decir menor, ya que la probabilidad de ser igual al valor dado es O).
Formalmente:
(8.2)
donde:
f(x) es la función de densidad de probabilidad de X
La representación gráfica de la función de distribución del Ejemplo 8.1
es la siguiente:
1,0
0,9
0,8
0,7
F(x) 0,6
0,5
0,4
0,3
0,2
0,1
0,0
X
339
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Para la función de distribución en el caso continuo se mantienen
las mismas propiedades que en las variables aleatorias discretas, esto es:
■ F
(x)
2 O
es decir, todos los valores que toma la función de distribución son
nulos o positivos F(x).
■ F(-oo)
=Oy
F(+oo)
= 1 por lo
que O s F(x) s 1
es decir, F(x), al ser una probabilidad, está acotada entre O y l.
■ '<:fasb, P(a s X s b) = F(b) - F(a)
que indica que la probabilidad de que X se encuentre en el intervalo
[a,b] es la diferencia entre la función de distribución para X= b, F(b)
y la función de distribución para X= a, F(a).
8.2.2. Media y varianza de una variable aleatoria continua
Como ocurría con las variables discretas, las variables aleatorias continuas también presentan una media o valor esperado y una varianza,
que pueden obtenerse mediante procedimientos análogos a las variables
discretas, pero adaptados para el caso continuo.
Sea X una variable aleatoria continua, la media o valor esperado, µ
o E(X), de X se define como:
µ
= E(X) =
J:
x-f (x)dx
(8.3)
La varianza de X se define como:
(8.4)
Las propiedades de la media y la varianza para variables continuas
son las mismas que las descritas para el caso discreto en el tema anterior.
Por otra parte, para el cálculo de la media y la varian za de las principales variables continuas que estudiaremos en este tema tampoco es nece-
340
MODELOS CONTINUOS DE PROBABILIDAD
sario utilizar el cálculo integral, porque se han derivado fórmulas directas
para la obtención de dichos parámetros como se verá en los siguientes
apartados.
La Tabla 8.1 presenta un resumen de las principales características de
los dos tipos de variables aleatorias estudiadas: las discretas y las conti nuas.
Tabla 8.1. Expresiones matemáticas correspondientes a las funcione s y parámetros de
las variables aleatorias continuas y discretas.
VARIABLES ALEATORIAS
DISCRETAS
VARIABLES ALEATORIAS
CONTINUAS
Probabilidad para X= x
Probabilidad para el intervalo
[a,b]
f (x) = P(X = x)
P(a $ X $ b) = J; r(x ) dx
f (x) = función de probabilidad
f(x) = función de densidad de
probabilidad
Función de Distribución
F (xk) = P(X $ xk) =
Función de Distribución
F (x)
=
P (X ~ xk) =
J..:: f (x) dx
= f (x 1 )+ f( x2 )+ .. .. +f(xk )
Media o Valor Esperado
Media o Valor Esperado
µ = E(X) = I, x • f (x)
µ = E (X)
2
= V (X)= I, (x -
J:
X .f
(x) dx
Varianza
Varianza
0
=
µ)2
f
(x)
0
2
2
= V (X) = J: [x - µ] -f(x) dx
A continuación se presentan los modelos de distribución de probabi lidad para variables aleatorias continuas más frecuentes en Psicología y
Ci encias de la Salud.
8.3. LA DISTRIBUCIÓN NORMAL
La distribución normal, ta mbi én llamada campana de Gauss o curva normal, fue definida por De Moivre en un intento de encontrar las pro -
341
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
babilidades acumuladas en una distribución binomial cuando n (número
de ensayos) es grande. En este apartado se van a describir sus características fundamentales, la utilización de las tablas y, finalmente, se verá una
aproximación intuitiva desde el histograma hasta la curva normal.
8.3.1. Caracteristicas
propiedades
La siguiente fórmula recoge la función de densidad de probabilidad
para una variable X que tiene una distribución normal:
f
(x) =
~ e-
l(X-µ)
2
-ª-
2
para
-
oo
<
x
<
oo
(8.5)
0v2n
donde:
µ es el parámetro media o valor esperado de la distribución.
cr es el parámetro desviación típica de la distribución.
n = 3,1416
e= 2,718 (base de los logaritmos neperianos).
Si una variable X tiene una función de densidad que se ajusta a la fórmula anterior, diremos que se distribuye normalmente y lo expresaremos
por: X ~ N (µ, 0), indicando que tiene una distribución Normal (N) con
parámetros µ y cr.
En realidad, como señalaremos también para otras distribuciones, no
se trata de una única distribución sino que corresponde a toda una familia
caracterizada por sus parámetros media, µ, y desviación típica, cr. Como
puede observarse en la Figura 8.1 su forma de «campana» es más apuntada cuanto menor es su desviación típica.
342
MODELOS CONTINUOS DE PROBABILIDAD
Figura 8.1. Curva normal o campana de Gauss en función de sus parámetros.
Su figura nos indica que la puntuación de la mayoría de los individuos,
en una variable que sigue esta distribución, se encuentra en torno a la
media y, a medida que nos alejamos de esa puntuación, por su lado izquierdo y derecho, va disminuyendo la frecuencia .
Según una de sus propiedades fundamentales, si a una variable X que
se distribuye normalmente, con media ~L y desviación típica cr, le aplicamos una transformación lineal de la forma Y = bX + a, la nueva variable Y
ta mbién se distribuirá normalmente pero con media ~Ly = bµ x + a y desviación típica ay = 1 b I · cr x ·
Por otra parte, si restamos la media y dividimos por la desviación típica
obtenemos una nueva variable que designamos por z. Es decir:
(8.6)
Esta nueva variable z se distribuirá normalmente con media igual a
cero y desviación típica igual a 1, z ➔ N (O, 1). La demostración de µz = O
= 1 excede el presente curso y para ampliar conocimientos se puede
y
consultar en Amón (1999).
ªz
La función de densidad de probabilidad de z vendrá dada por:
1
- -z2 '
f(z) = a.fh, e
para -
oo
<z <
oo
(8.7)
Su representación gráfica es la siguiente:
343
INTROOUCCIÓN AL ANÁLISIS OE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
0,50
0,45
0,40
0,35
f(z) 0,30
N (0,1)
0,25
0,20
0,15
0,10
0,05
o
-4
-3
-2
o
-1
1
2
3
4
z
Figura 8.2. Distribución normal tipificada o estándar, N(0,l).
Esta distribución se denomina normal tipificada o normal estandarizada. Nosotros no vamos a trabajar directamente con su función de
densidad de probabilidad para obtener las probabilidades porque tendríamos que utilizar la fórmula 8.1, integrando la función para un intervalo
determinado de X. En su lugar, para la aplicación a problemas concretos
en que se siga esta distribución, recurriremos a las Tablas 111 y IV del
Formulario.
Si observamos la Figura 8.2, entre las propiedades fundamentales de
una distribución normal podemos destacar las siguientes:
■
Es simétrica en torno a su media, µ, que coincide con su mediana y
su moda.
■
La curva normal tiene dos puntos de inflexión, es decir, dos puntos donde la curva pasa de ser cóncava a convexa. Estos puntos
están situados a una distancia de una desviación típica de la media.
■
Es asintótica en el eje de abscisas, es decir, se extiende desde - oo
hasta + oo sin llegar nunca a tocar el eje X.
Su función de distribución aparece recogida en la Figura 8.3.
344
MODELOS CONTINUOS DE PROBABILIDAD
1
0,9
0,8 0,7
0,6
F(z)
0,5
0,4
0,3
0,2
0,1
o
-3,5 -3 -2,5 -2 -1,5 -1 -0,5 O 0,5
1
1,5 2
2,5
3
3,5
z
Figura 8.3. Función de distribución N(0,1) .
8.3.2. Utilización de las tablas
En las Tablas III y IV se recoge la función de distribución de la curva normal estándar. En ellas se presentan todas las puntuaciones típicas
desde -3,59 hasta +3,59 con intervalos de 0,01. La primera columna, encabezada con la letra z, consta de un número con un decimal, que corresponde a la puntuación típica. Y la primera fila (a la derecha de la letra z)
corresponde al segundo decimal de la puntuación z. Todos los valores interiores representan probabilidades y, por tanto, llevan un cero delante de
la coma. La Tabla III corresponde a las puntuaciones típicas negativas (por
debajo de la media) y la Tabla IV a las positivas (por encima de la media).
Así por ejemplo, la puntuación típica z
bajo de sí una probabilidad de 0,4013.
z
o,oo
0,01
0,02
... ,
= -0,25
0,05
(Tabla III) deja por de-
... ,
0,09
-3,S
-3,4
1J
-0,2--------------- ~
-0,0
Tabla III del Formulario
345
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
La puntuación típica z = 0,25 (Tabla IV) deja por debajo de sí una proporción de 0,5987. Al ser una distribución simétrica puede comprobarse
que la proporción que queda por debajo de z = -0,25 es igual a la proporción que queda por encima de z = 0,25 (1- 0,5987 = 0,4013). Si la Tabla
no recoge el valor exacto de z que se busca, se puede utilizar el valor más
próximo. Algunos casos concretos son:
1. Cálculo de la probabilidad para valores menores o iguales
que una determinada puntuación típica.
En este caso se busca directamente en la Tabla.
Ejemplo 8.2. Si una variable se distribuye normalmente, ¿cuál es
la probabilidad de obtener valores menores o iguales que z = -0,25?
Como el valor es negativo se encuentra a la izquierda de la media
(ver zona gris de la gráfica) . En la Tabla III, buscamos en la primera
columna el valor de -0,2 y en la primera fila el valor 0,05.
- 0,25 O
La probabilidad que deja por debajo de sí esa puntuación es precisa mente el valor que se encuentra en la intersección de esa fila y esa
columna, en este caso 0,4013.
2. Cálculo de la probabilidad para valores mayores que una determinada puntuación.
En este caso se mira en la tabla la probabilidad que esa puntuación
deja por debajo y se resta de 1.
346
MODELOS CONTINUOS DE PROBABILIDAD
Ejemplo 8.3. Si una variable se distribuye normalmente, ¿cuál es la
probabilidad de obtener valores mayores que z = 0,50?
Si se mira en la Tabla IV, la puntuación típica 0,50 deja por debajo de
sí una probabilidad de 0,6915.
0,6915
O 0,5
Como lo que se pregunta es por la probabilidad que queda por enci ma, para calcularla restaremos esa probabilidad de 1 (probabilidad
total incluida en la distribución normal): 1 - 0,6915 = 0,3085.
3. Cálculo de la probabilidad entre dos puntuaciones determinadas.
En este caso se restan las probabilidades que dejan por debajo de sí
las dos puntuaciones típicas.
Ejemplo 8.4. Si una variable se distribuye normalmente, ¿cuál es
la probabilidad de obtener valores comprendidos entre z = - 0,25 y
z = 0,50?
Esta probabilidad se puede determinar a partir de las puntuaciones
típicas y las probabilidades ya obtenidas: bastará con restar a 0,6915
(probabilidad que deja por debajo de sí la puntuación típica 0,50)
0,4013 (probabilidad que deja por debajo de sí la puntuación típica
-0,25). El resultado sería 0,2902.
347
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
1
- 0,25
0,5
' .1
distribución normal
Supongamos que tenemos los datos de una muestra en una variable X
(Figura 8.4.A). Si se hacen los intervalos más pequeños (Figura 8.4.B) y
dibujamos el polígono de frecuencias (Figura 8.4.C) llegamos a una distribución similar a la normal.
A
B
e
Figura 8.4. Representación gráfica desde el histograma a la curva normal.
Su figura nos indica también que, en una variable que sigue esta distribución, la puntuación de la mayoría de los casos se encuentra en torno a
la media y, a medida que nos alejamos de la media, por su lado izquierdo
o derecho, va disminuyendo la frecuencia de casos. Este hecho va a permitir aplicar las propiedades de la curva normal a nuestros datos y utilizar
las tablas de la misma forma que se ha visto anteriormente.
Si se dispone de los datos originales de un grupo de sujetos en una
determinada variable X, y ésta se distribuye normalmente, para resolver determinados cálculos se puede utilizar, como ya se ha señalado, las
Tablas III y IV de la distribución normal estándar. Para ello, deberemos
348
MODELOS CONTINUOS DE PROBABILIDAD
transformar las puntuaciones directas en puntuaciones típicas mediante
la siguiente expresión ya utilizada:
_ X; - X
z . -~--
/
s
X
Para aplicar las tablas de la curva normal a casos concretos que siguen
una distribución normal vamos a considerar tres ejemplos prácticos:
Ejemplo 8.5. Las puntuaciones en una determinada asignatura, X,
de un grupo de 500 niños se distribuyen normalmente con media 6
y desviación típica 2. lCuántos niños no han alcanzado la puntuación
5?
Se transforma la puntuación directa 5 en puntuación típica:
5- 6 -1
z = - - = - = -0, 5
2
2
- 0,5 O
En la Tabla III se observa que esta puntuación deja por debajo de sí
una proporción de 0,3085.
Por tanto:
O, 3085 x 500
= 154, 25 =154 niños
349
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 8.6. Con los mismos datos del ejemplo anterior (Ejemplo
8.5), ¿cuál será el Percentil 75, P75 , de la distribución?
Tal como se definió en el Tema 2, el P75 es una puntuación directa que
deja por debajo de sí el 75% de los casos. A este percentil le corresponde una puntuación típica que deja por debajo de sí una proporción
de casos de O, 75.
0,75
75%
O
0,67
El paso siguiente es buscar en el interior de la tabla la proporción
0,75 o, en su defecto, la más próxima (en este caso 0,7486). Seguidamente se ve a qué puntuación típica corresponde: 0,67 (lógicamente se trata de una puntuación típica positiva porque el percentil
75 deja por debajo de sí más del 50%, que se corresponde con la
media).
A partir de esta puntuación típica calculamos el P75 de la siguiente
manera:
P75 - X
P75 - 6
Z=--- ⇒ 0,67 =--- ⇒ P75 =
sx
2
(
0,67 x 2 ) +6=7,34
Ejemplo 8.7. El peso de un grupo de 1000 niños se distribuye normalmente con un Coeficiente de variación de 10 (CVx = 10). Si el
84,13% de ellos no supera los 33 kg, ¿cuánto vale la media y la desviación típica de la distribución?
350
MODELOS CONTINUOS DE PROBABILIDAD
0,8413
33
Se establece el sistema de ecuaciones y se resuelve:
5
.!' -100
X
84,13%
= 10
➔
z =1
⇒
1
10x¡
{x
= 30
_
⇒ (33 - X) x 100=10X ⇒
sx x 100 =
Sx
= 33 -
X
Sx = 3
33 - X
1 =---
sx
8.3.4. Aproximación de la binomial a la normal
Al finalizar el tema anterior se había planteado la pregunta de qué hacer cuando para la distribución binomial tenemos un n superior a 20 (las
tablas de la binomial no recogen valores superiores a éste). La opción a
realizar para valores grandes de n consiste en aproximar la distribución
binomial a la normal. Esta aproximación mejora a medida que p (la probabilidad de éxito) se aproxima a 0,5 y n (número de ensayos) es grande,
como podemos observar en la siguiente figura:
351
INTROOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
o j___ _ _ _____,,.,__________
0,05
O
1
2
3
4
5
6
7
8
9
0,50
0,45
0,40
0,35
p = 0,5
0,30
0 , 25
n = 10
0,20
0,15
0,10
0,05
o.,_.-"'-_______ ___:::,__
10
1234567891011
X
X
0,50
0,45
0,40
p = 0,1
0,35
n = 20
0,30
0,25
0,20
0,15
0,10oj___ _ _.c,o,.,_ _ _ _ _ _ _ ___
0,05
0123456789WllUDM~lliVIB~~
0,50
0,45
0 ,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
p
= 0,5
n=20
o,._---'""""'- -----~--123456789WllUDM~lliVIB~~~
X
X
Figura 8.5. Distribución binomial para distintos valores de p (0,1 y 0,5) y n (10 y 20).
Se sabe que una variable, X, que sigue una distribución binomial tiene
una media µ = np y una desviación típica cr = -Jnpq. Por tanto, se puede
transformar su función de probabilidad (que es discreta) a la normal de la
forma que se describe a continuación.
La distribución normal es continua y, como para cualquier distribución
continua, la probabilidad de que la variable X tome un valor concreto es
cero: P (X= x) = O. Para aproximar la distribución binomial a la normal se
establecerá un intervalo entre 0,5 unidades a la izquierda y a la derecha
de la puntuación, es decir:
P(X
=
x)
=
P[(x - 0,5) ::; x ::; (x + o,s)]
A continuación, transformamos las puntuaciones en típicas:
P (x
= x) = P [ -(x_-_o_,s_)_-_µ ::; _x_-_µ ::; _(x_+_o_, s_)_-_µ]
O'
Debido a que µ = np y cr
la normal se define como:
352
O'
O'
= -Jnpq, la aproximación de la binomial a
MODELOS CONTINUOS DE PROBABILIDAD
P (X
=
x)
=
P [-(x_-_o_,_
5)_-_n_p ::::;
.jnpq
z :::; _(x_+_o=,=5)=--_n_p
.jnpq
l
(8.8)
Ejemplo 8.8. Se lanza una moneda al aire en 20 ocasiones, ¿cuál es
la probabilidad de obtener 12 caras?
Para contestar a esta pregunta se va a la Tabla I de la función de
probabilidad binomial y se busca la probabilidad de que la variable
aleatoria X «número de caras» tome el valor 12 (x = 12) con n = 20 y
p = 0,5. Se obtiene el valor 0,1201
Ahora se resuelve el ejercicio haciendo una aproximación de la binomial a la normal.
= np = 20 x O, 5 = 10
= .j20 x O, 5 x O, 5 = .Js = 2, 24
La media de esta distribución binomial es: µ
y la desviación típica es: cr
= .jnpq
Para aproximar la distribución binomial a la normal se establece un
intervalo entre 0,5 unidades a la izquierda y a la derecha de la puntuación, es decir:
P[(12 - 0,5) ::::; X :::; (12 + 0,5)]
A continuación se transforman las puntuaciones en típicas:
P [-(1_2_-_o_,5_)_-_
µ : : ; _x _-_µ : : ; _(1_2_+_0_,5_)_-_µ]
O"
O"
O"
Resultando :
(12 - O, 5) - µ
(12 + O, 5) - µ]
cr
cr
P -----:::; z :::;----[
Sustituyendo los valoresµ = 10 y cr = 2,24 se obtiene:
(12 - 0,5) -1 0
(1 2 + 0,5)- 10]
(
)
P - - - - - : : : ; z :::; - - - - - = P 0,67 : : ; z :::; 1,12
[
2,24
2,24
353
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Utilizando las Tablas de la distribución Normal:
P (O, 67 ::;
z ::; 1, 12) = O, 8686 - O, 7486 = O, 12
Como se puede observar, la aproximación es muy buena, ya que hay
una diferencia de solo una diezmilésima paran= 20. A medida que n
aumenta mejora la aproximación.
En el caso anterior, sumar y restar el valor 0,5 se llama corrección por
continuidad, permitiendo así utilizar las puntuaciones discretas, X, como
si fuesen continuas. Para ello, se interpreta cada puntuación, X, como si
fuesen los puntos medios de sus intervalos. Con este procedimiento se intenta asegurar que el intervalo incluya los valores discretos de la binomial.
Gráfica mente:
0,20
0,18
0,16
0,14
0,12
><'
'--'
4...
0,10
0,08
0,06
0,04
0,02
0,00
O 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X
11,5
12,5
Ejemplo 8.9. Un estudiante recién graduado en Psicología se presenta al examen PIR. En este examen cada pregunta consta de cinco
alternativas de la que sólo una es correcta . De todas las preguntas
que componen el examen, el estudiante desconoce completamente
40 de ellas y las responde al azar.
354
MODELOS CONTINUOS DE PROBABILIDAD
A) ¿cuál es la probabilidad de que acierte entre 10 y 12 de esas preguntas?
Para esta distribución binomial:
p
1
= S = 0, 2 µ = np = 40 X 0, 20 = 8
a= ✓npq
= ✓40 x 0,20 x 0,80 = 2,53
Por tanto:
P(9,5
~ X ~ 12,5) = p[(9,5 -
8) ~
2,53
= P (O, 59
~
z
~ (12,5-8)] =
2,53
z :s; 1, 78) = O, 9625 - O, 7224 = O, 2401
B) ¿cuál es la probabilidad de que acierte más de 10?
La probabilidad de que acierte más de 10 es igual a la probabilidad de que acierte 11, 12, ... , 40. Por tanto:
P (X > 10, 5)
= 1 - P(z
=P
(z
5 8
> lO, - )
2,53
~ 0,99)
8.4. LA DISTRIBUCIÓN
2
=1-
= P (z
0,8389
> O, 99)
=
= 0,1611
DE PEARSON
Ya se ha visto en el Tema 4 el estadístico ji-cuadrado (x 2 ), que se utilizaba para referirse a la correlación entre variables cualitativas. A partir de
ahora, x2 se va utilizar para hacer referencia a una distribución continua
de probabilidad.
Se puede definir de la siguiente manera:
Sean X 1 , X 2 , .. ...... , Xn un conjunto de n variables aleatorias independientes con una distribución N(0,1), entonces una nueva variable
aleatoria X =
+
+ X~ sigue una distribución
(se lee «Jicuadrado » con n grados de libertad) y se representa como X ~ X~·
xf
x?+ ...
Los parámetros correspondientes a la distribución
x~
x2 son:
355
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
■
■
Media o valor esperado µ
Varianza
cr 2
=n
= 2n
Los grados de libertad (n) indican que cada una de las n variables aleatorias puede tomar cualquier valor de sus posibles valores, sean cuales
sean los valores tomados por las n-1 restantes. Su análisis más detallado
escapa a los objetivos de este texto.
Esta distribución se usa fundamentalmente en pruebas de bondad de
ajuste (para contrastar si la distribución de una variable se ajusta a una
distribución determinada, por ejemplo la normal). Al igual que otras distribuciones, es una familia de curvas como las presentadas en la siguiente
Figura 8.6, que varían en función de los grados de libertad.
0,1
o
11,07
Figura 8.6. Representación gráfica de la distribución x2 en función de sus grados de
libertad (5 y 15).
Entre sus propiedades se pueden señalar las siguientes:
■
Nunca adopta valores menores de O.
■
Es asimétrica positiva pero a medida que aumentan sus grados de
libertad se va aproximando a la distribución normal.
■ Para
n > 30 la podemos aproximar a una distribución N (n, .fin).
La Tabla V del Formulario permite obtener las probabilidades acumuladas a algunos valores de toda la familia de distribuciones, entre los que
se encuentran los más usados habitualmente.
356
MODELOS CONTINUOS DE PROBABILIDAD
La primera fila recoge las probabilidades o proporciones y la primera
columna los grados de libertad correspondientes. En el interior de la tabla se encuentran los valores de la variable. Así, por ejemplo, para una
variable que sigue una distribución x2 con 5 grados de libertad, X ➔ X~,
el valor 11,07 deja por debajo de sí una proporción de 0,95. Por tanto,
P (X s 11, 07) = O, 95. Esta puntuación se corresponde con el percentil 95.
Suele presentarse de la siguiente manera: 0 , 9 sX~ = 11, 07 . En la siguiente
gráfica se observa su situación en la Tabla:
g.l.
1
0,001
0,005
0,02
0,950
0,999
2
3
4
5
-
..
...........................................................................................-~ ~
100
Tabla V del Formulario
Ahora bien, si lo que interesa es hallar P (X 2 11, 07) se haría lo siguiente:
P(X 2 11,07) = 1 - P(X s 11,07) = 1 - 0,95 = 0,05
8.5. LA DISTRIBUCIÓN t DE STUDENT
A la hora de definir este tipo de distribución de probabilidad, al igual
que se hizo anteriormente con x2 , se hará en función de otras distribuciones ya conocidas.
Sean X e Y dos variables aleatorias independientes, donde X sigue
una distribución N(0,1) e Y una distribución
Entonces, la variable
aleatoria T =
x~-
F7n
sigue una distribución t con n grados de libertad
Y/n
y se expresa por: T
➔
tn
Sus parámetros son :
■
Media o valor esperado µ=O
■ Varianza cr 2
= _n__
n- 2
357
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Una distribución t se puede definir como el cociente entre una variable N(0,1) y la raíz cuadrada de una variable X~ dividida por sus grados
de libertad. Su nombre se debe a su descubridor, el matemático Gosset,
que publicó sus trabajos bajo el seudónimo de Student.
En la Figura 8. 7 se representa la distribución t con dos grados de libertad, junto a la distribución normal estándar.
0,4
0,3
0,2
0,1
-2
o
2
Figura 8.7. Representación gráfica de la distribución tcon 2 grados de libertad.
A partir de su definición y de su representación gráfica podemos señalar las siguientes características:
■
Es simétrica, conµ= O. Su forma es muy parecida a la N(0,1), aun que menos apuntada.
■
Puede tomar cualquier valor entre - oo y + oo.
■
A medida que aumentan los grados de libertad, la distribución se
aproxima más y más a una distribución normal.
■
La curva es asintótica al eje de abscisas.
Fundamentalmente esta distribución se utiliza en estadística inferencia!. En la Tabla VI del Formulario se presentan los valores positivos para
esta distribución. En la primera columna se presentan los grados de li bertad y en la primera fila las distintas probabilidades o proporciones de
valores menores o iguales que un valor positivo dado. Como se trata de
una distribución simétrica podemos hallar las probabilidades asociadas a
valores negativos a partir de los valores positivos de la Tabla VI. Veámoslo
con un ejemplo.
358
MODELOS CONTINUOS DE PROBABILIDAD
Ejemplo 8.10. Sea X una variable que se distribuye según t con 5
grados de libertad.
A) Calcular la probabilidad de obtener valores menores o iguales a
2,015.
Esa probabilidad se corresponde con la zona sombreada de la
figura. Para ello, consultamos la Tabla VI. En la primera columna
(grados de libertad) localizamos el valor 5. Los valores incluidos
en su fila correspondiente son valores de t. Localizamos 2,015 y
se ve que en la primera fila se corresponde con 0,95. Por tanto:
P(X
$;
2,015)
= 0,95
2,015
B) Calcular P (X > O, 920).
En la Tabla VI vemos que para t 5 : P(X
$;
0,920) = 0,80
Por tanto,
P (X > O, 920)
= 1 - O, 80 = O, 20
0,920
359
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
C) Calcular P(X ~ - 2,571).
Como se ve en las gráficas, los valores negativos se encuentran a
la izquierda de la media (que vale cero) y los positivos, a la derecha . Al ser simétrica:
P(X ~ -2,571) = P(X > 2,571) y
P(X > 2,571)
=1-
P(X ~ 2,571)
= 1-0,975 = 0,025
Por tanto:
P(X ~ - 2,571) = 0,025
-2,571
2,571
8.6. LA DISTRIBUCIÓN F DE FISHER-SNEDECOR
La distribución F de Fisher-Snedecor se define de la siguiente ma nera :
Si X 1 y X 2 son variables aleatorias independientes, con distribución x 2
con n 1 y n 2 grados de libertad respectivamente, entonces una nueva
variable F definida por F
= Xi / n1 sigue una distribución F con n 1 y
X2 / n2
n 2 grados de libertad (Fn,,n, ). Siendo n 1 los grados de libertad del numerador y n 2 los grados de libertad del denomin ado r.
360
1
MODELOS CONTINUOS DE PROBABILIDAD
■
Su media o valor esperado viene definido por: µ
n2> 2 .
■ Su varianza por: cr 2
=
2n22 (n 1 + n2 - 2)
n1 ( n2
-
4) (n2
-
2)2
n2
= n2
para
2-
para n2 > 4
La distribución F de Fisher o de Snedecor se emplea fundamentalmente en el contraste de hipótesis (Análisis de Varianza ... ). En la Figura 8.8
aparece su representación según distintos grados de libertad.
F10,10
2,978
F10,120
1,910
F 120,120
2,124
1,352
Figura 8.8. Distribuciones F con distintos grados de libertad.
Sus características más importantes son:
■
Es asimétrica positiva, por lo que nunca toma valores menores que
o.
■
Una importante propiedad de esta distribución es la llamada propiedad recíproca, por la que si X es una variable con distribución F con
n 1 y n 2 grados de libertad, entonces la variable Y = 1/X es también
una distribución F con n 2 y n 1 grados de libertad. Esta propiedad la
podemos también expresar de la siguiente forma:
361
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
p
F
n,,n,
=
1
1- p
(8.9)
F
n, ,n,
donde p y 1 - p son las probabilidades acumuladas asociadas al valor
de la variable. Esta propiedad es útil para obtener algunos percentiles o probabilidades que no aparecen en la tabla, tal y como se verá
en ejemplos posteriores.
La Tabla VII recoge solamente la probabilidad de que X sea menor o
igual que 0,900; 0,950; 0,975; 0,990 y 0,995, que son los valores utilizados habitualmente.
Ejemplo 8.11. Sea X una variable que se distribuye según F5, 10 :
A) Calcular P (X :;;; 3,326).
Se busca en la Tabla VII, para 5 grados de libertad en el numerador y 10 para el denominador, encontrando el valor 3,326. Se
observa en la parte superior de la tabla que se corresponde con
una probabilidad de 0,95. Por tanto, 3,326 se corresponde con el
percentil 95.
0,50
0,25
o
8
3,326
B) Determinar el valor del percentil 5 de X, es decir: 0, 05 F5,10
En este caso, tenemos que hacer uso de la propiedad recíproca .
Es decir:
1
o,osFs,10 =
(1- o,os/10,s
362
1
=
F
o,95 10,s
MODELOS CONTINUOS DE PROBABILIDAD
A partir de la Tabla VII vemos que:
o,95F10,5
es igual a 4,735.
Por tanto:
o 05F5 10
'
'
1
1
= O, 211
4,735
= - -- - = - 0, 95 F:10,5
. !'
Puede verse gráficamente en la siguiente figura:
1
4, 735
0,50
= o, 211
0,25
o-4--------=::::~""""'------r
0,211
8
o
4,74
12
8.7. RESUMEN
En este tema se han presentado las principales características de las
variables aleatorias continuas: la función de densidad de probabilidad, la
función de distribución, la media o valor esperado y la varianza de la distribución. Para ello, hemos utilizado como referencia la aplicación de estos
conceptos en el caso discreto, estudiado en el tema anterior, destacando
las similitudes y diferencias entre ambos tipos de variables.
A continuación se han descrito los modelos continuos de probabili dad más relevantes para el análisis de datos en Psicología y Ciencias
de la Salud: la distribución normal y tres distribuciones asociadas a ella
como son la x 2 de Pearson, la t de Student y la distribución F de FisherSnedecor. La distribución x2 se ha definido en función de otras variables
con distribución normal. La distribución t se ha definido en función de
otras dos distribuciones: una normal y otra x 2 y, por último, la distribución
F se ha definido en función de dos x2 , que a su vez se definen en función
de la normal. Por tanto, no debe sorprender que todas ellas converjan en
algún momento en la distribución normal.
Se ha prescindido de incluir y utilizar la ecuación de sus respectivas
funciones de densidad de probabilidad y distribución, por su complejidad
363
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
y porque podemos servirnos de unas tablas donde se recogen estas probabilidades. Además de la conveniencia de saber utilizar estas tablas, por
su relevancia en los temas de inferencia, es necesario conocer sus características más importantes: el rango de valores en el que la función está
definida, su media, varianza y aproximación a la normal, en su caso, bajo
determinadas circunstancias.
8.8. EJERCICIOS
8.1.
En una distribución normal: A) La media es mayor que la mediana; B)
La media es menor que la mediana; C) media y mediana coinciden.
8.2.
En una distribución normal ¿entre qué puntuaciones típicas se encuentra el 60 % de los casos centrales de la distribución? A) -0,84
y 0,84; B) - 1,96 y 1,96; C) -1,64 y 1,64.
8.3.
Las puntuaciones de 1000 niños en un test de inteligencia, X, se
distribuyen normalmente con media 100 y desviación típica 15.
¿cuál es la probabilidad de obtener puntuaciones menores o igua les que 85? A) 0,8413; B) 0,1587; C) 0,6826.
8.4.
Con los datos del Ejercicio anterior, ¿cuántos niños obtienen puntuaciones superiores a 115? A) 115; B) 200; C) 159.
S.S.
Continuando con los datos del Ejercicio 8.3 Cuál es el Percentil 75
de la distribución?: A) 110,05; B) 75,00; C) 89,95.
8.6.
Con la información dada en
la Figura 1, ¿cuál es la media de X?: A) 7; B) 5; C) 6.
8.7.
Con los datos de la Figura 1,
lcuál es la desviación típica
de X?: A) 3; B) 2; C) 4.
8.8.
Con los datos la Figura 1,
lcuál será el Percentil 33?
A) 5,24; B) 8,76; C) 5,67.
8.9.
Siguiendo con los datos de
la Figura 1, y considerando
suspendidos aquellos alumnos que no alcanzan la pun-
364
Figura l. Las calificaciones obtenidas en
el examen de una asignatura (X) por 500
alumnos se distribuyen normalmente. De
todos los alumnos 125 no alcanzan la puntuación 4,32 y otros 125 superan la puntuación 9,68.
MODELOS CONTINUOS DE PROBABILIDAD
tuación 5, ¿cuántos alumnos han suspendido? A) 250; B) 200; C)
154.
8.10. Sabiendo que X se distribuye normalmente, que X = 60 y que la
puntuación directa 40,8 es superada por el 89,97 % de la distribución, la desviación típica vale: A) 15; B) 1,28; C) 17,87.
8.11. Una variable X se distribuye normalmente, con desviación típica 5.
Sabiendo que la puntuación 45 deja por encima de sí el 84,13 %
de los casos, su media valdrá: A) 40; B) 50; C) 60.
8.12. Las puntuaciones de 10000 niños españoles en una prueba de inteligencia (X) se distribuyen normalmente con media 100. Sabemos
que 668 niños no alcanzan la puntuación 85 y otros 668 niños obtienen puntuaciones superiores a 115. Su varianza vale: A) 10; B)
200; C) 100.
8.13. El 20% de los niños en edad escolar presenta problemas de adaptación al colegio. Si en un determinado centro hay 225 niños, ¿cuál
es la probabilidad de que 30 o menos presenten algún problema de
adaptación? A) 0,0080; B) 0,3026; C) 0,0263.
8.14. Con los datos del ejercicio anterior, ¿cuál es la probabilidad de que
más de 55 niños presenten algún problema de adaptación?: A)
0,1040; B) 0,0401; C) 0,4010 .
8.15. Con los mismos datos del Ejercicio 8.13, ¿cuál es la probabilidad
de que entre 40 y 50 niños presenten problemas de adaptación? A)
0,4642; B) 0,2446; C) 0,6424.
8.16. En una distribución x2 con 28 grados de libertad, el valor 41,34 es:
A) el percentil 5; B) el percentil 90; C) el percentil 95.
8.17. En una distribución F con 10 grados de libertad en el numerador y
20 grados de libertad en el denominador, ¿cuál es el valor del percentil 90?: A) 2,20; B) 2,35; C) 1,94.
8.18. En una distribución F con 10 grados de libertad en el numerador y
20 en el denominador, ¿cuál es el valor del percentil 10? A) 1,940;
B) 2,200; C) 0,454.
8.19. ¿cuál de las siguientes distribuciones NO es simétrica? A) Normal
con media 5 y desviación típica 2; B) x2 con 10 grados de libertad;
C) t de Student con 10 grados de libertad.
8.20. El valor 0,86 se corresponde con: A) el percentil 80 de una distri bución t de Student con 20 grados de libertad; B) el percentil 5 de
365
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
una distribución x2 con 19 grados de libertad; C) el percentil 20 de
una distribución t de Student con 20 grados de libertad.
8.9. SOLUCIONES A LOS E ERCICIOS
8.1.
Solución: e
(ver Apartado 8.2.1)
8.2.
Solución: A
(ver Tabla de la Curva Normal)
60% ,
- 0,84
8.3.
0,84
Solución: B
Z = X - X = 85 - 100 =- l
Sx
15
Tabla III: 0,1587
8 5 X = 100
8.4.
Solución:
e
Z = X - X = 115 - l00 = l
Sx
15
-~
Tabla IV: 0,8413
1 - o, 8413 = o, 1587
0, 1587 X 1000 = 158, 7
366
=159
X = 100 115
MODELOS CONTINUOS DE PROBABILIDAD
S.S.
Solución: A
P75
⇒
z = O, 67 (Tabla IV)
O 67 = p75 - lOO ⇒ O 67 x 15 =
'
15
'
= P75
100
-
⇒
X = 100
P75 =
= (O, 67 x 15) + 100 = 110, 05
8.6.
Solución: A
X = 4,32 + 9,68 = 14 = 7
2
8.7.
Solución :
2
e
- O 67 = 4,32 - X
'
s
067
'
8.8.
⇒
s
- 0, 67Sx = 4, 32 -
x¡ _
⇒
X =7
0,67Sx = 9,68 - X
= 9,68 - X
X
Solución : A
- 0, 44 =
8.9.
X
P33 -
7
4
⇒
P33 = 7 - 1, 76 = 5, 24
Solución: C
5- 7
- - = - O, 5
4
⇒
(Tablas) O, 3085
0, 3085 X 500 = 154, 25
=154
8.10. Solución: A
1 - 0,8997 = 0,1003
⇒
z = - 1,28
- 1 28 = 40, 8 - 60 ⇒ S = 40, 8 - 60 = 15
1
5X
X
- 1r 28
8.11. Solución: B
1-
o, 8413 = o, 1587 ⇒ z
-1=
45
- X
5
=-1
⇒ X = 5 + 45 = 50
367
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
8.12. Solución: e
Puesto que las puntuaciones son simétricas, su media vale:
X=85+115=1 0 0
2
Su desviación típica es:
-1 1 5 = 85 - 100 ⇒ S = - 15 = 10
5X
X
-1 1 5
Por tanto, su varianza es 10 2 = 100 .
8.13. Solución: A
n = 225
P (X
p = O, 2
30 ) = P
$
(z
= P (z
$
$
q = 1 - p = O, 8
30, 5 - np) = P
✓npq
(z
30 ' 5 - 45) = P(z
6
$
$
l
x
30, 5 - (225 O, 2) =
✓225 X 0, 2 X 0, 8
- 2,41) = 0,0080.
(Utilizando la Tabla 111 de la curva normal).
8.14. Solución: B
l
55, 5 _ npq)
(
55, 5 - (225 x O, 2)
P (X > 55 ) = P z > - ~ ~ - = P z > - ; = = = = = = - =
(
✓npq
✓225
X
0, 2 X 0, 8
= P ( z > 55 ' 5 - 45) = P (z > 1, 75) = 1 - P(z
6
$
1, 75) =
= 1 - o, 9599 = o, 0401
(Utilizando la Tabla IV de la curva normal).
8.15. Solución:
P (40
$
X
e
$
50 ) = P (39, 5 - np
✓npq
$
z
$
50, 5 - npq) =
✓npq
= p (39, 5 - (225 x o, 2)
✓225 X 0, 2 X 0, 8
= P(39,5 - 45
6
= P(-0,92
368
$
z
$ Z $
$
$
z
$
l
50, 5 - (225 x o, 2) =
✓225 X 0, 2 X 0, 8
50,5 - 45) =
6
0,92) = 0,8212 - 0,1788 = 0,6424.
MODELOS CONTINUOS OE PROBABILIDAD
(Utilizando las Tablas III y IV de la curva normal).
8.16. Solución: e
(Ver Tabla V)
8.17. Solución: e
(Ver Tabla VII)
8.18. Solución:
e
o 10F10 20 = _ _
l __ =
,
,
o,90F20,10
_ l_
2,201
=O 454
,
8.19. Solución: B
Las distribuciones N(S,2) y t 10 son simétricas.
8.20. Solución: A
(Ver tablas correspondientes).
369
TEMA9
Muestreo y distribución muestral
de un estadístico
9.1. INTRODUCCIÓN
9.2. MUESTREO
9.2.1. Conceptos básicos en el muestreo
9.2.2. Tipos de muestreo
9.2.2.1. Métodos de muestreo probabilístico
9.2.2.1. Métodos de muestreo no probabilístico
9.3. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
9.4. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO MEDIA
9.4.1. Distribución normal de la variable X con varianza
conocida
9.4.2. Distribución normal de la variable X con varianza
desconocida
9.4.3. La variable X no se distribuye normalmente
9.5. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO
PROPORCIÓN
9.5.1. Distribución muestra! de P para muestras
pequeñas
9.5.2. Distribución muestra! de P para muestras
suficientemente grandes
9.6. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO VARIANZA
9.7. RESUMEN
9.8. EJERCICIOS
9.9. SOLUCIONES A LOS EJERCICIOS
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
9.1. INTRODUCCIÓN
En temas anteriores se ha presentado la materia correspondiente a la
Estadística Descriptiva, que es la parte de la Estadística que se ocupa
de la recogida, descripción y representación de los datos, tanto en forma
numérica (a través de los índices estadísticos) como gráfica (a través de
las representaciones gráficas). Se han visto también cuestiones básicas
referentes a la Probabilidad y sus aplicaciones, que nos han permitido
conocer: a) las distribuciones de probabilidad que presentan las variables
aleatorias (discretas y continuas) atendiendo a los valores numéricos que
asumen, y b) la descripción de estas distribuciones a través de los índices
numéricos que las representan y que se corresponden con sus valores esperados o medias y sus varianzas. Se han presentado también los modelos teóricos de probabilidad (su formulación matemática y características
definitorias) a los que se ajustan la mayoría de las variables con las que
se trabaja en Psicología y Ciencias de la Salud. Estos modelos permiten
resolver los problemas sin tener que hacer cálculos tediosos o de gran
dificultad acudiendo, simplemente, a las tablas que informan de las probabilidades de un suceso según el modelo teórico correspondiente a la
distribución de probabilidad de tal suceso. En este tema y en el siguiente
se presentarán las bases sobre las que, junto con lo visto en temas anteriores de estadística descriptiva y probabilidad, se asienta la Inferencia
Estadística.
Hay que tener en cuenta que la información que obtenemos de las
muestras permite estudiar el comportamiento de las variables aleatorias
(discretas o continuas) y de los índices estadísticos que las representan
(que son también variables aleatorias como veremos). Sobre esta base,
apoyándonos en la teoría de muestreo, podremos estimar los valores de
los parámetros a partir de los valores de los correspondientes índices estadísticos. Este proceso se enmarca en la llamada Inferencia Estadística, disciplina que abarca las técnicas y métodos que permiten deducir las
propiedades desconocidas de la población a partir de los datos obtenidos
en la muestra.
A continuación se presenta un esquema que resume la relación jerárquica entre las tres materias que forman parte del análisis de datos que
se estudian en este curso: la Estadística Descriptiva (Temas del 1 al 5), la
Probabilidad y modelos de probabilidad (Temas del 6 al 8) y la Estadística
Inferencia! (Temas 9 y 10).
373
INTROOUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
ESTADÍSTICA DESCRIPTIVA:
Recogida, organización y análisis de los datos.
PROBABILIDAD:
Permite y legitima el salto de las características (conocidas) de la
muestra hasta las características desconocidas de la población.
ESTADÍSTICA INFERENCIAL:
Permite obtener información acerca de la población a partir de la
aportada por la muestra mediante la combinación de los modelos de
probabilidad y de los estadísticos.
Los campos que comprende la Estadística Inferencia! son: estimación
de parámetros y contraste de hipótesis. La piedra angular de ambos
es el concepto de distribución muestra! de un estadístico, que establece la relación entre las características de la población y el comportamiento de los estadísticos de las muestras que las representan (Botella,
Suero y Ximénez, 2012).
Objetivos del tema:
■
Saber relacionar los conceptos de población, muestra, análisis descriptivo y análisis inferencia!.
■
Distinguir entre los conceptos de muestra aleatoria y muestra representativa, así como conocer los principales tipos de muestreo.
■
Conocer el concepto de distribución muestra! de un estadístico y su
utilidad.
■
Conocer las distribuciones muestrales de los estadísticos media,
proporción y varianza.
9.2. MUESTREO
Al plantearse la recogida de datos para estudiar algún fenómeno, suele
ocurrir que, por razones de coste económico, tiempo o incluso por impo-
374
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
sibilidad real, se hace muy difícil estudiar a todo el grupo sobre el que se
quiere trabajar. Por lo general, en la mayoría de los casos, es imposible
trabajar con el conjunto total población. Por tanto, tendremos que buscar una muestra (subconjunto) de la población para trabajar con ella. Lo
ideal es elegir las muestras de tal forma y modo que representen y sean
fiel reflejo de las características relevantes a la investigación en la población de trabajo.
En el planteamiento anterior está implícito que es posible trabajar con
«unos pocos» datos extraídos de un conjunto más amplio, de tal forma
que las conclusiones que obtengamos de «esos pocos» datos sean válidas
para el conjunto total del que provienen. Pero, ¿cuáles son los procedimientos de selección que garantizan que las muestras elegidas permitan
generalizar los resultados pasando de la muestra a la población? Además,
¿es posible cuantificar el riesgo de equivocación o, más correctamente el
riesgo de error al realizar afirmaciones sobre las poblaciones a partir de
las muestras? A esta cuestión se dedicarán las páginas siguientes, para lo
cual se definirán previamente una serie de conceptos claves.
9.2.1. Conceptos básicos en el muestreo
POBLACIÓN
Una población es una colección, finita o infinita, de elementos que
comparten ciertas características comunes. Así, todos los seres humanos
componen la población de hombres y mujeres; todas las personas que de
forma habitual se expresan en francés componen la población de francófonos; todos los niños españoles de entre 2 y 6 años que se orinan en la
cama al menos tres veces a la semana y que lo vienen haciendo desde
hace más de seis meses, forman la población de niños españoles con enuresis; los rectores de las universidades españolas componen la población
de españoles que presiden los claustros universitarios. Lo anterior indica
que una población queda definida por una o varias características que
tienen en común los elementos que la componen.
El concepto de población es independiente de la cantidad de elementos
que la compongan. Una población puede estar compuesta por un solo elemento, por ejemplo, la población de satélites de la Tierra está compuesta
por un único elemento, la Luna. También puede ocurrir que un elemento
pueda pertenecer a más de una población si cumple los criterios necesa-
375
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
rios que definen cada una de ellas, de tal forma que podrá considerarse
elemento de una población A en un caso y/o elemento de una población B
en otro. Por ejemplo, los niños con nacionalidad española que se expresan
habitualmente en francés y cumplen los criterios para el diagnóstico de
enuresis, son también vertebrados; es decir, estos niños, que cumplen las
tres características, pertenecen a la población de vertebrados y también
a la población de niños que sufren enuresis, así como a la población de
niños francófonos. Un elemento pertenece a una población solo durante
el tiempo que se cumplen las propiedades que la definen. Siguiendo con
el ejemplo, un niño no puede dejar de pertenecer a la población de seres
humanos, pero sí a la de niños con enuresis cuando, tras recib ir el adecuado tratamiento, aprende a controlar su esfínter.
Atendiendo al número de elementos, las poblaciones pueden ser: a)
finitas o formadas por un número finito de elementos; b) infinitas o formadas por un número infinito de elementos. En general, las poblaciones
son muy grandes y esto hace que sea prácticamente inviable trabajar con
ellas . Por esta razón, lo habitual es trabajar con muestras.
Los índices que representan los valores que resumen las característi cas de las poblaciones, como ya se ha visto en el Tema 1, se denominan
parámetros. Son constantes, ya que se calculan con todos los elementos
de la población.
CENSO
En determinadas ocasiones resulta posible estudiar a todos y cada uno
de los elementos que componen la población, realizándose lo que se denomina un censo, esto es, el estudio de todos los elementos que componen la población . Un ejemplo clásico es el censo poblacional.
MUESTRA
En todas las ocasiones en que no es posible o conveniente trabajar con
la población, lo que se hace es trabajar con una muestra, entendiendo por
tal una parte de la población. Se dice que una muestra es representativa cuando reúne las mismas características que la población.
La representatividad de la muestra es la que garantiza que los resul tados del estudio realizado puedan ser generalizados a toda la población,
es decir, que se puedan realizar estimaciones de la población. Generalizar,
en este contexto, significa extrapolar los resultados desde la muestra a la
población.
376
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Los índices que representan los valores que resumen las características
de las muestras, ya mencionados en el Tema 1, se denominan estadísticos y son variables aleatorias cuyos valores varían en función de los
elementos que compongan la muestra.
MUESTREO
El conjunto de procedimientos y técnicas que permiten extraer muestras de una población garantizando la representatividad es lo que se denomina teoría del muestreo. El muestreo es el conjunto de procedimientos y reglas que permiten extraer muestras de poblaciones garantizando
su representatividad.
A continuación se presenta un ejemplo a fin de aclarar de forma intui tiva lo anteriormente expuesto.
Ejemplo 9.1. Un psicólogo de los servicios sociales de la Consejería
de Educación de una Comunidad Autónoma ha recibido el encargo de
evaluar el uso de las redes sociales en los estudiantes de Secundaria.
Para realizar el estudio deberá entrevistar a los padres o tutores de
los estudiantes. La Consejería le da como información un listado que
contiene los nombres y direcciones de los 2854 estudiantes de esa
Comunidad que están en Secundaria.
El psicólogo estima que necesitará 45 minutos para realizar cada entrevista, lo que suponen aproximadamente 268 días de trabajo (de
ocho horas diarias) de recogida de datos. Además, hay que contar el
tiempo empleado para localizar los hogares, concertar una cita y el
tiempo de desplazamiento por la Comunidad, lo que supondrá más
de nueve meses de trabajo dedicado a esta tarea de forma exclusiva.
¿cómo puede el psicólogo resolver de forma más eficiente la recogida
de información?
Decide tomar una parte del total de estudiantes de Secundaria, y
utilizar la información obtenida en ese conjunto para generalizarla a
todos, es decir, trabajar con una muestra. A continuación, el psicólogo se pregunta: ¿cómo elijo a los niños que compondrán la muestra?
A esta pregunta encontrará una respuesta una vez que se conozcan
los tipos y métodos de muestreo y vea cuál es el más adecuado para
ese estudio en concreto .
377
1
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Una muestra tiene que permitir hacernos una idea general de cómo
es la población. Debe representar o ser una «imagen reducida» de las
variables que pueden influir en el estudio para permitir la generalización.
La generalización, desde la parte al todo, supone siempre un cierto
error. En el ejemplo anterior, puede ocurrir que al formar la muestra por
azar, haya un número de niños superior al de niñas. Es decir, que las niñas
estén infra representadas y, por tanto, la muestra no es una fiel imagen
de la población ya que teóricamente la probabilidad de niños y niñas es la
misma, 0,5. Este error se puede cuantificar y controlar a través de la Estadística mediante dos conceptos: error máximo (Emax) y nivel de confianza (1- a). Sobre ambos conceptos se volverá en el tema siguiente.
Dado que el muestreo es un procedimiento, los pasos a seguir son:
a) Definir los casos (participantes u otros seres vivos, objetos, fenómenos o comunidades) sobre los cuales se habrán de recolectar los
datos.
b) Delimitar la población mediante una característica que defina, de
forma exhaustiva y excluyente, a los individuos que la componen.
c) Elegir el método de selección de la muestra.
d) Calcular el tamaño de la muestra.
e) Aplicar el procedimiento de selección.
f) Obtener la muestra.
En este tema se abordará el estudio de los métodos de selección de
la muestra (paso c). Y, en el Tema 10 se abordará el cálculo del tamaño
muestra! (paso d), dado que para su comprensión es necesario conocer
el concepto de distribución muestra! de un estadístico. Los demás pasos
no se van a desarrollar porque es evidente su significado y a qué hacen
referencia.
9.2.2. Tipos de muestreo
Se agrupan en dos categorías:
■
378
Muestreo probabilístico: es aquel en el que se conoce la probabilidad que tiene cada elemento de la población de ser elegido para
formar parte de la muestra y se conoce el marco muestra! (listado
de elementos que componen la población). Su ventaja más impor-
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
tante es garantizar la representatividad y, por tanto, permitir hacer
inferencias.
■
Muestreo no probabilístico: es aquel en el que no se conoce la
probabilidad que tiene cada elemento de ser elegido. No garantiza
la representatividad y, por tanto, las conclusiones que se pueden
extraer quedan circunscritas a la situación en la que se realizó el
trabajo sin posibilidad de generalizar más allá de ese contexto.
Dentro de cada una de estas categorías hay diferentes métodos que se
clasifican según la forma en que se extraen los elementos. En la Tabla 9.1
se indican los principales métodos de muestreo para los tipos de muestreo probabilístico y no probabilístico, que se describirán a continuación.
Tabla 9.1. Tipos y métodos de muestreo.
TIPOS DE MUESTREO
Muestro Probabilístico
MÉTODOS DE MUESTREO
Aleatorio Simple
Aleatorio Sistemático
Aleatorio Estratificado
Aleatorio por Conglomerados
Muestreo No Probabilístico
Por Cuotas
Intencional ( opinático)
Incidental ( casual)
Bola de Nieve
9.2.2.1. Métodos de muestreo robabilístico
MUESTREO ALEATORIO SIMPLE
Consiste en tomar de una población de tamaño N una muestra de
tamaño n, utilizando algún procedimiento que garantice que todos los
elementos de la población tienen la misma probabilidad de ser elegidos.
Podría utilizarse un procedimiento como el siguiente:
■
Se asigna un número a cada elemento de la población.
■
A través de algún medio mecánico o informático (bolas dentro de
una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos
como sea necesario para completar el tamaño de muestra requerido.
379
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Todas las muestras posibles son equiprobables, es decir, tienen la misma probabilidad de ser elegidas. Pero, la probabilidad de cada una de
ellas y la probabilidad de pertenencia de los elementos será distinta en
función de la forma en que se genere la muestra. Para formar la muestra
se puede actuar de dos modos:
Con reposición 1 . Tras elegir un elemento, éste se reincorpora a la población de forma que pueda ser elegido en la siguiente extracción, así la
población siempre tiene el tamaño N. Cada elemento de la población (formada por N elementos) tiene la misma probabilidad (1/N) en cualquiera
de las extracciones de pertenecer a la muestra (formada por n elementos). La probabilidad de obtener una muestra concreta den elementos es:
(1/N)x(l/N)x(l/N)x ... x(l/N) = (1/Nn). Es decir, que de las Nn muestras
posibles de tamaño n, todas tienen la misma probabilidad de ser elegidas
siendo las extracciones independientes.
Sin reposición. Una vez seleccionado un elemento de la población
no se reintegra, de esta forma la población va perdiendo tamaño. Así,
en la primera extracción, el tamaño es N, en la segunda es N - 1, en la
tercera es N- 2 ... y en la extracción enésima el tamaño será N- (n - 1).
El tamaño de la población cambia con cada extracción. Aunque todos los
elementos tienen la misma probabilidad de ser elegidos, esa probabilidad
va cambiando según se realizan las extracciones, por lo que en este tipo
de muestreo, el resultado de una extracción no es independiente del resultado obtenido en las demás. En este caso, la función de probabilidad
conjunta de las variables es diferente del producto de sus funciones de
probabilidad individuales. Existen(~) muestras posibles de tamaño n, y
1
la probabilidad de una muestra concreta es (~)'
Como se verá en el siguiente tema (y en la asignatura de segundo
curso Diseños de Investigación y Análisis de Datos) la gran mayoría de
los procedimientos de la Estadística Inferencia! exigen el principio de independencia en la obtención de las muestras, lo cual no se cumple en el
muestreo aleatorio sin reposición (muy habitual en investigación). Este
problema se resuelve considerando que, cuando el tamaño de la población (N) es grande con respecto al tamaño de la muestra (n), las pro1
380
En muchos textos, por ejemplo Amón (1999), referido como muestreo aleatorio simple.
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
babilidades calculadas con ambos muestreos (con y sin reposición) son
prácticamente iguales.
Finalmente, es necesario señalar que este tipo de muestreo, aunque
resulta atractivo por su sencillez, tiene poca o nula utilidad práctica cuando la población que se está manejando es muy grande.
MUESTREO ALEATORIO SISTEMÁTICO
Cuando los elementos de la población están ordenados o pueden ordenarse, se puede utilizar el muestreo sistemático. Para la utilización de
este procedimiento es necesario, como en el caso anterior, asignar un
número a todos los elementos de la población, pero, en lugar de extraer n
números aleatorios sólo se extrae uno (i). El número i del que se parte es
un número elegido al azar, y los elementos que serán elegidos para componer la muestra son los que ocupan los lugares i, i + k, i + 2k, i + 3k, .. .,
i + (n - l)k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra (k = N / n). Es decir, se toman los individuos
de k en k partiendo del sujeto en la posición i. El número i que empleamos
como punto de partida será un número al azar entre 1 y k. En este tipo
de muestreo no todos los elementos tienen la misma probabilidad de ser
extraídos, y las extracciones no son independientes.
Ejemplo 9.2. Se dispone de una población de tamaño N = 5000 y se
quiere obtener una muestra de 100 individuos. En primer lugar, se
calcula el intervalo de selección dado por k = N/ n = 5000/ 100 = 50.
Por azar, se obtiene un número entre 1 y 50 para seleccionar al primer
sujeto. Se supone que dicho número es el 20 (i = 20), los 99 restantes que necesitamos serán los que ocupen los lugares: 70 (20 + 50),
120 (20 + 2 X 50 = 120), 170 (20 + 3 X 50) 1 ... 1 4970 (20 + (100 - 1) X
50). Es decir, la muestra está constituida por los 100 sujetos que
ocupen en la lista las posiciones: 20, 70, 120, ... , y así hasta el sujeto
100 que ocupa el lugar 4970 de la lista.
El riesgo de este tipo de muestreo está en aquellos casos en que se
dan periodicidades en la población, ya que al seleccionar una periodicidad
constante, los elementos seleccionados para la muestra pueden no ser
representativos de la población.
381
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
MUESTREO ALEATORIO ESTRATIFICADO
Este método de muestreo se utiliza cuando la población no es homogénea, debido a que existen grupos o estratos heterogéneos entre sí con
gran homogeneidad dentro del estrato (se puede estratificar, por ejemplo,
según la profesión, el municipio de residencia, el sexo, el estado civil,
etc.). Lo que se pretende con este tipo de muestreo es asegurar que todos
los estratos de interés estén representados adecuadamente en la muestra. Cada estrato funciona de forma independiente, pudiendo aplicarse
dentro de ellos el muestreo aleatorio simple o sistemático para elegir los
elementos concretos que formarán parte de la muestra. El procedimiento
de composición de la muestra en los diferentes estratos se denomina afijación, y puede ser de diferentes tipos:
■
Afijación simple: a cada estrato le corresponde igual número de
elementos muestrales.
■
Afijación proporcional: la distribución se hace de acuerdo con el
peso (tamaño) de la población en cada estrato.
La muestra total se forma por la suma de las muestras de cada estrato.
Cada submuestra es independiente del resto. Permite aplicar técnicas de
selección diferentes dentro de cada estrato y obtener estimaciones separadas en cada una de ellas.
Ejemplo 9.3. Con el fin de conocer el grado de aceptación que las
transferencias en educación han tenido entre los padres de los escolares de Madrid, se selecciona una muestra de 600 niños. Sabemos
que de los 10.000 niños escolarizados en las edades que nos interesan, 6.000 acuden a colegios públicos, 3.000 a colegios privados
concertados y 1.000 a colegios privados no concertados. Queremos
que en la muestra estén representados todos los tipos de colegio,
por lo que llevamos a cabo un muestreo estratificado utilizando como
categoría de estratificación el tipo de centro.
¿cómo trabajar con cada tipo de muestra aleatoria estratificada?
382
■
Afijación simple: elegiríamos en cada tipo de centro 200 niños.
■
Afijación proporcional (más recomendable ya que la diferencia
en el tamaño de los estratos es bastante grande): calculamos
qué proporción supone cada uno de los estratos respecto de la
población total.
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADISTICO
Colegios públicos: 6000/ 10000 = 0,60
= 0,30
1000/10000 = 0,10
Colegios privados concertados: 3000/10000
Colegios privados no concertados:
El tamaño de cada estrato en la muestra se halla multiplicando
esa proporción por el tamaño muestra!.
1
Colegios públicos: 0,60 x 600 = 360 estudiantes
Colegios privados concertados: 0,30 x 600
= 180 estudiantes
Colegios privados no concertados: 0,10 x 600
= 60 estudiantes
MUESTREO ALEATORIO POR CONGLOMERADOS
Los tres métodos de muestreo presentados hasta ahora están diseñados para seleccionar directamente los elementos de la población, es decir,
las unidades muestrales (los sujetos) son los elementos de la población.
En el muestreo por conglomerados, la unidad muestra! es un grupo de elementos de la población que conforman una unidad más amplia, a la que se
llama conglomerado. Ejemplos de conglomerados son las áreas sanitarias,
los departamentos universitarios, una caja de determinado producto, etc. 2
El procedimiento de muestreo, en este caso, consiste en seleccionar
aleatoriamente un cierto número de conglomerados ( el necesario para
alcanzar el tamaño muestra! establecido) y trabajar con todos los elementos pertenecientes a los conglomerados elegidos . Si el número de
elementos del conglomerado es muy amplio seleccionamos algunos de
ellos al azar, en este caso decimos que es un muestreo po r conglomera dos bietápico. En general se habla de muestreo por etapas o polietápi co cuando hay más de dos etapas . Para aplicarlo en cada etapa se van
seleccionando conglomerados de menor tamaño hasta que en la última
etapa se trabaja con los n elementos que componen esos conglomerados.
Por ejemplo, en un estud io sobre la población universitaria española se
seleccionan Universidades; dentro de ellas Facultades, dentro de ellas carreras específicas y dentro de las carreras los cursos, qu e sería el último
conglom erado . La muestra estaría formada por todos los individuos de los
cu rsos seleccionados.
2 Cuando el con glomerado se corresponde con una zona territorial co ncreta, como por
ejemplo los barrios, el muestreo por conglomerad os reci be el nombre de muestreo por áreas.
383
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 9.4. Una investigación trata de conocer el grado de satisfacción de los alumnos con los estudios que se dan en un Centro Asociado de la UNED. En el centro el número de alumnos por carrera es
aproximadamente de 25 y se ofertan 24 carreras. Dada la dificultad
de acceder individualmente a todos los alumnos, se decide seleccionar una muestra con muestreo por conglomerados de unos 170
alumnos. Los pasos a seguir serían los siguientes:
a) Recoger un listado de las 24 carreras. Cada carrera es un conglomerado.
b) Asignar un número a cada una de ellas.
c) Elegir por muestreo aleatorio simple o sistemático 7 carreras.
d) Se aplica el cuestionario a los 25 estudiantes de cada carrera
(conglomerado) seleccionada. Por tanto, la muestra constará
de 25 x 7 = 175 alumnos.
9.2.2.2. Métodos de muestreo no robabilístico
Hay ocasiones en las que no es posible realizar un muestreo probabilístico porque desconocemos la probabilidad de inclusión de cada elemento
en la muestra y/o tiene un excesivo costo económico o de tiempo. En esos
casos, se acude a métodos no probabilísticos, aun siendo conscientes de
que no sirven para realizar generalizaciones. Esto es así porque no se tiene certeza de que la muestra extraída es representativa, ya que no todos
los sujetos de la población tienen la misma probabilidad de ser elegidos.
En general, se selecciona a los sujetos siguiendo determinados criterios,
procurando que la muestra resultante sea lo más parecida posible a la
población.
MUESTREO POR CUOTAS
También denominado en ocasiones muestreo accidental. Se asienta
sobre la base de un buen conocimiento de los estratos de la población y/o
de los individuos más adecuados para los fines de la investigación. Mantiene, como se verá, semejanzas con el muestreo aleatorio estratificado,
pero no tiene el carácter de aleatoriedad de aquél.
384
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
En este tipo de muestreo se fijan unas «cuotas», que consisten en un
número de individuos que reúnen unas determinadas condiciones. Una
vez determinada la cuota, se eligen los primeros que se encuentren que
cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. Por ejemplo, se supone que la Consejería de Sanidad de
una Comunidad Autónoma desea estudiar la incidencia de las drogas en la
adolescencia. A través de los informes de la Consejería de Educación, se
conoce cuáles son los centros educativos más afectados por el problema.
Se fija un número de sujetos a entrevistar proporcional a cada uno de los
centros fijados y, finalmente , se deja en manos de los encuestadores a
qué sujetos concretos se entrevista.
MUESTREO OPINÁTICO O INTENCIONAL
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de
obtener muestras «representativas» mediante la inclusión en la muestra
de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado
tendencias de voto. Un ejemplo muy conocido es el caso del Estado de
Ohio (EEUU) en relación con las elecciones a presidente en los EEUU. Ohio
es un estado cambiante (swing state), es decir, no tiene una tendencia del
voto sino que unas veces votan a republicanos y otras a demócratas. Desde comienzos del siglo xx sólo en dos ocasiones falló la predicción, es decir
no coincidió el presidente elegido según los resultados obtenidos en el estado de Ohio con el que el que realmente salió elegido . ¿Por qué los resultados de Ohio coinciden tantas veces con el resultado real? La respuesta
viene determinada por la gran diversidad que presenta su población, en la
que hay representantes de todos los tipos de votantes: de áreas rurales,
de grandes ciudades, cristianos conservadores, afroamericanos y muchos
trabajadores. Por tanto, es un Estado muy representativo, la gran mayoría de los diferentes tipos de votantes están presentes en él.
MUESTREO CASUAL O INCIDENTAL
Se trata de un proceso en el que el investigador selecciona directa e
intencionadamente los individuos de la población. El caso más frecuente
de este procedimiento es utilizar como muestra los individuos a los que
se tiene fác il acceso (los profesores de universidad emplean con mucha
frecuencia a sus propios alumnos).
385
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
MUESTREO DE BOLA DE NIEVE
En este procedimiento de muestreo las unidades muestrales van incorporándose paulatinamente a la muestra, a partir de la referencias de
los sujetos que ya han participado en la investigación. Se localizan algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo de muestreo se emplea muy
frecuentemente cuando se hacen estudios con poblaciones << marginales»,
difíciles de identificar y de localizar.
9.3. DISTRIBUCION MUESTRAL DE UN ESTADÍSTICO
Como se ha visto previamente, el procedimiento de extracción de sujetos de la población para componer la muestra es esencial en el sentido
de garantizar la representatividad de la muestra. Sin embargo, aún falta
por resolver el problema de cuántos elementos son necesarios para la
muestra. Es decir, hemos definido el cómo y ahora falta el cuánto, de tal
forma que además de representativos sean suficientes para garantizar un
grado de certeza a las conclusiones. Para ello, es necesario explicar antes
el concepto de distribución muestra! de un estadístico.
Antes de entrar en la presentación del concepto de distribución muestra! de un estadístico es necesario recordar dos tipos de distribuciones de
los que se habló en temas anteriores, la poblacional y la muestra!, ya que
a ellas nos referiremos con gran frecuencia en los conceptos y cálculos
que vamos a desarrollar en el tema que nos ocupa.
Supongamos que a una población se le mide una característica, por
ejemplo, la altura. Con estos datos se podrá hacer una distribución de
frecuencias, tal y como se vio en el Tema 1 ( con la salvedad de que los
resultados se referirán a toda la población). Se podrá calcular su media y
varianza (ver Temas 2 y 3) que, como ya sabemos, se denominan parámetros poblacionales y se representan por las letras griegas µ y cr 2 .
Si en lugar de trabajar con toda la población se hace con una muestra
(obtenida mediante alguno de los procedimientos de muestreo visto en
los apartados anteriores) la distribución así obtenida es la distribución
muestra!. Con los datos de la variable altura, obtenidos de la muestra, se
construye su distribución de frecuencias y se calcula la media y varianza,
que son en este caso los estadísticos y se representan por X y S2.
386
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Por otra parte, en una población cualquiera es posible extraer más de
una muestra diferente del mismo tamaño. Por tanto, el valor concreto de
un estadístico dependerá de los valores concretos que tomen cada uno de
los elementos de la muestra extraída. El estadístico obtenido ya no será
una constante (como vimos en los temas anteriores) sino una variable, ya
que su valor concreto dependerá de la muestra en la que se haya calculado. La distribución de probabilidad de todos los posibles valores del estadístico en las diferentes muestras es lo que se denomina distribución
muestra! del estadístico.
Dicho de otro modo, dada una población de tamaño N de la que se van
a extraer varias muestras de tamaño n, y para cada muestra se calcula
un estadístico (por ejemplo la X) de una variable aleatoria X cualquiera.
Puesto que la media (X) toma diferentes valores, dependiendo de cada
muestra, el conjunto de las distintas medias forman a su vez una variable aleatoria que tendrá su propia distribución de probabilidad con sus
características: forma, media y varianza, esto es, los parámetros que la
definen. Estos parámetros se representarán por letras griegas con un subíndice, que nos indica a qué estadístico nos estamos refiriendo.
Por tanto, la distribución muestra! de un estadístico es la distribu ción de probabilidad teórica de los valores de un estadístico cuando estos
se calculan sobre las k muestras (siendo k muy grande, teóricamente
infinito) de tamaño n, extraídas de la población y obtenidas mediante
muestreo aleatorio simple.
Podemos ahora preguntarnos si cada vez que queramos estimar un
parámetro (la media poblacional ~t de una variable aleatoria, por ejemplo
de la altura de los españoles, o la proporción poblacional (n) de los sujetos
que están de acuerdo con la integración, etc.), ¿debemos extraer tantas
muestras como sea posible, calcular la media o la proporción en todas
esas muestras y luego obtener la media de todas las medias o la media
de todas las proporciones calculadas?¿ Y lo mismo debemos hacer con los
estadísticos varianza, mediana o coeficiente de correlación de Pearson,
por ejemplo? Para responder a esta pregunta se retomará el concepto de
esperanza matemática de una variable aleatoria 3 , que como se verá es la
mejor opción para estimar parámetros desconocidos utilizando los modelos de probabilidad ya conocidos del Tema 8.
3 Concepto introducido en el Tema 7 como esperanza matemática o valor esperado, que
se define como el promedio teórico que tomaría una variable aleatoria si se repitiese el experimento infinitas veces.
387
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
En el siguiente apartado se estudiarán las distribuciones muestrales
de los estadísticos media, proporción y varianza, obtenidas por procedimientos matemáticos. Pero, antes se presentará de manera intuitiva el
concepto de distribución muestra! con ejemplos aplicados al estadístico
media.
Si de cualquier población con media µ y desviación típica cr, se toman
todas las posibles muestras aleatorias con reposición, cada una de tamaño
n, la distribución muestra! del estadístico media tiene como parámetros:
■
µx = µ,
es decir, la media de las medias es igual a la media poblacional.
■ Desviación típica o error típico de la media, ª x =
J¡;
En el caso de muestras finitas y muestreo sin reemplazamiento, la desviación típica deberá multiplicarse por el factor de corrección definido por
~ donde N es el tamaño de la población y n el tamaño de la muestra.
En este caso:
■
µx = µ
■ ª x = Jn ✓~=~
Se presentan a continuación varios ejemplos sencillos para comprobar
que esto es realmente así.
Ejemplo 9.5. Una urna contiene tres bolas numeradas con los valores 2, 4 y 6. La población se compone de esos tres números y extraemos todas las muestras posibles de tamaño dos con reposición.
A) Calcular el valor de la media, la varianza y la desviación típica
poblaciona 1.
µ
= (2 + 4 + 6)/3 = 4
cr 2
(2-4}2+(4-4)2+(6 - 4)2
= - - - - - - - -- - = 2,667
3
cr = -./2,667 = 1,633
fl 111
388
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
B) Construir la distribución muestra! de la media de las muestras
definidas.
En el muestreo aleatorio con reposición el número de muestras
posibles es Nn. En este ejemplo es: 3 2 = 9 muestras posibles de
tamaño n = 2.
Muestras de tamaño 2
Medias correspondientes a cada muestra
Muestreo con reposición
2;2
2;4
2;6
2
4
4;2
4;4
4;6
3
5
6;2
6;4
6;6
4
1
:
1
6
La variable aleatoria X (denominada media muestra!) presenta la
siguiente distribución muestra!:
X
Frecuencia (n1)
r(x)
2
3
4
5
6
1
2
3
2
1
1/9 = 0,1111
2/9 = 0,2222
3/9 = 0,3333
2/9 = 0,2222
1/9 = 0,1111
9
0,9997 ::::: 1
La representación gráfica de esta distribución muestra! es:
0,35
0,3
0,25
0,2
0,15
0,1
-
0,05
o
2
3
4
5
6
389
INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Como se observa, la distribución de la variable aleatoria media
muestra! se intuye que se ajusta al modelo normal.
C) Calcular la media, varianza y error típico de la distribución mues-
tra! de las medias.
2
3
4
5
6
X-t(x) (x - µ) (x -µ)2 (x - µ)2 .t(x)
f(X)
X
0,1111
0,2222
0,3333
0,2222
0,1111
0,2222
0,6666
1,3332
1,1110
0,6666
-2
-1
4
1
0,4444
0,2222
o
o
o
1
2
1
4
0,2222
0,4444
1,3332
3,9996
µx = I, x. r (x) = (o, 2222 + o, 6666 + 1, 3332 + 1, 1110 + o, 6666) =
= 3, 9996
"" 4
cr} = L (x - µ )2 •f ( x) = o, 4444 + o, 2222 + o + o, 2222 + o, 4444 =
= 1,333
De donde
ªx =
M = .J1, 333 "" 1, 155
D) Comparar los valores obtenidos en A y C.
La media poblacional es µ = 4 que coincide con la media de la
distribución muestra! de la media µx = 4. Por lo tanto, se verifica
que µx = µ
La varianza y desviación típica poblacional son cr 2 = 2,67 y cr
= 1,63
La varianza y error típico (desviación típica) de la distribución
muestra! de la media son:
cr} = 1,333
390
y ªx
=
M
=
✓1,333
"" 1,155
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Como era de esperar, este valor no coincide con la desviación típica poblacional: 1,633 -=t= 1,155
Sin embargo, se puede comprobar que:
cr 2
n
ª x2
= -
2, 6 7
2
= - - = 1,333 por lo que
Es decir, se cumple que
ªx =
ªx
=
cr 2
r:::
vn
1, 633
= 1,155
1,414
= --
Fn
Ejemplo 9.6. Una población se compone de los números 1; 2; 3; 5;
6 y 7, si se consideran todas las posibles muestras de tamaño 2 que
se pueden extraer sin reemplazamiento.
A) Calcular el valor de la media, la varianza y la desviación típica
poblacional.
µ=
¿ X¡ = 1 + 2 + 3 + 5 + 6 + 7 = 4
6
N
2
¿(X¡ - µ)2
cr = - - - - =
N
2
(1-4)2 +(2-4)2 +(3 - 4) +(5 - 4 )2 +(6-4)2 +(7 - 4)2
=---------------------=
6
= 9 + 4 + 1 + 1 + 4 + 9 = 4,667
6
cr = .j4, 667 = 2, 16
B) Construir la distribución muestra! de la media de las muestras
definidas.
En muestreo aleatorio sin reposición el número de muestras posi-
.
Io es (6) = ( 6!_ 2)!
b les es (N)
n . En este eJemp
21 6
2
= 26!
, , = -6 x-5 = 15
2
4
391
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Muestras de tamaño 2.
Muestreo sin reposición
1;2
1;3
1;5
1;6
2;3
2;5
2;6
2;7
3;5
3;6
3;7
5;6
5;7
Medias correspondientes a cada muestra
1;7
6;7
1,5
2
3
3,5
2,5
3,5
4
4,5
4
4,5
5
5,5
6
4
6,5
La variable aleatoria X (denominada media muestra!) presenta la
siguiente distribución muestra!:
X
Frecuencia (n1)
t(x)
1,5
2
2,5
3
3,5
4
4,5
5
5,5
6
6,5
1
1
1
1
2
3
2
1
1
1
1
1/15 = 0,0666
1/15 = 0,0666
1/15 = 0,0666
1/15 = 0,0666
2/15 = 0,1333
3/15 = 0 ,2000
2/15 = 0,1333
1/15 = 0,0666
1/15 = 0,0666
1/15 = 0,0666
1/15 = 0,0666
¿
15
0,9994~1
La representación gráfica correspondiente a esa distribución de
frecuencias es:
•l:t ,,
392
f
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
3
.!2IJ
2
e
cu
::::1
IJ
cu
...
u. 1
1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5
C) Calcular la media, varianza y error típico de la distribución mues-
tra! de las medias.
X
Frecuencia
(n,)
t(x)
1,5
2
2,5
3
3,5
4
4,5
5
5,5
6
6,5
1
1
1
1
2
3
2
1
1
1
1
0,0666
0,0666
0,0666
0,0666
0,1333
0,2000
0,1333
0,0666
0,0666
0,0666
0,0666
0,0999
0,1332
0,1665
0,1998
0,4665
0,8000
0,5998
0,3330
0,3663
0,3996
0,4329
¿
15
1
3,9975
X·
t(x) (x-µ) (x - µ)2 (x -µ)2. t(x)
- 2,5
-2
- 1,5
-1
- 0,5
6,25
4
2,25
1
0, 2 5
0,4163
0,2664
0,1499
0,0666
0,0333
o
o
0,5
1
1,5
2
2,5
0,25
1
2,25
4
6,25
0,0333
0,0666
o, 1499
0,2664
0,4163
o
27,5
1,865
µx =¿,X ·t(x) = 3,9975 "" 4
a} = (x De donde:
ªx =
µ}2 -t(x)=l,865
M = .Ji, 865 = 1, 366
393
INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
D) Comparar los valores obtenidos en A y C.
La media poblacional es µ = 4 que coincide con la media de la
distribución muestra! de la media µx = 4. Por lo tanto, se verifica
que µx = µ
La varianza y desviación típica poblacional son cr 2 = 4,667 y cr
= 2,16
La varianza y error típico (desviación típica) de la distribución
muestra! de la media son:
1
o}= 1,865
crx = {af = ✓1,865
=
1,366
Valor que, como era de esperar, no coincide con la desviación típica poblacional: 2, 16 1,366
*
Sin embargo, en este caso al ser un muestreo sin reemplazamiento hay que multiplicar por el factor de corrección:
crx = -./1, 867 = 1,366
n
Es decir, se cumple que: crx = cre · ✓N
---
por lo que:
-vn
N -1
Hasta ahora se han visto dos ejemplos sencillos con poblaciones muy
pequeñas. Pero, habitualmente, el tamaño de las poblaciones y de las
muestras es mucho mayor. Por este motivo, se presenta a continuación
un ejemplo basado en simulación en el que la población está formada por
1000 elementos (N = 1000) y se extraen muestras de tamaño igual a 30
(n = 30).
394
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Ejemplo 9.7. Simulación con N = 1000 y n = 30. Supongamos que
existe una población de 1.000 elementos cuyos valores (sean estos
«valores» edades, pesos, o cualquier otra variable) son los siguientes:
X¡
5
10
15
20
25
n,
200
200
200
200
200
Siendo sus parámetros: µ
= 15;
cr
= 7,07
Se simula (mediante un software adecuado por muestreo aleatorio
simple y con reposición) una muestra de 30 elementos de esta población. En el muestreo aleatorio simple con reposición el número
de muestras posibles es Nn. En este ejemplo sería 1000 30 muestras
posibles de tamaño n = 30, de ahí que se diga que la distribución
muestra! de un estadístico se corresponde con un número teóricamente infinito de muestras. Dado el número tan elevado de muestras
a extraer, vamos trabajar con 10 y 500 muestras para comprobar
cómo, a medida que aumenta el número de muestras, la distribución
muestra! de la media y las estimaciones de los parámetros se van
aproximando más a lo que establece la teoría.
Análisis con 10 muestras aleatorias de tamaño
n = 30
La Tabla 9.2 reproduce los valores de los elementos de cada muestra.
En las 10 columnas tenemos los valores observados en la variable para
cada muestra, desde la Muestra 1 (Ml) hasta la muestra 10 (Ml0). En las
dos últimas filas figuran la media y la desviación típica en cada muestra.
395
INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla 9.2. Diez muestras de tamaño n = 30.
M1
5
5
25
10
5
5
25
10
15
15
20
10
10
X
sx
20
10
5
15
5
5
10
25
20
15
25
20
20
25
15
25
20
14,67
7,30
M2
M3
M4
10
10
25
20
15
5
25
15
25
5
10
15
25
15
25
25
15
25
20
25
20
20
25
20
5
10
25
20
15
20
5
20
20
5
10
5
15
25
25
17,17
7,15
15
5
20
20
25
15
15
10
5
15
25
5
25
10
15
5
10
25
10
25
25
20
5
20
25
5
10
25
10
15,17
7,47
10
15
15
10
25
10
15
5
10
15
20
20
10
15
5
15
15
25
20
20
5
25
15,5
6,50
MS ,
5
10
15
25
15
15
25
15
25
10
25
15
20
10
20
5
10
10
15
15
5
5
10
10
5
10
5
15
15
10
13,17
6,26
M6
15
5
15
25
15
25
5
15
25
20
25
5
20
25
20
5
15
25
20
15
15
5
20
20
5
5
5
10
25
15
15,5
7,46
11
f/17
MS
M9
M10
10
15
15
5
15
5
25
15
5
20
25
20
25
5
20
10
10
25
20
15
20
5
20
20
5
5
5
25
10
5
5
10
15
25
15
15
25
15
25
10
25
15
20
10
20
5
10
10
15
15
5
5
10
10
5
10
5
15
15
5
13
6,40
15
20
25
15
20
25
15
5
15
25
15
20
10
20
5
15
20
15
15
5
15
10
10
25
10
25
15
15
15
15,67
5,88
10
5
15
25
25
15,17
7,24
5
5
10
15
15
20
15
10
20
10
5
15
5
5
10
25
20
15
25
10
20
25
25
5
20
13,5
7,32
10
A continuación, se presentan los datos, la representación gráfica de la
distribución de la variable X y los estadísticos muestrales de la Ml.
396
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Muestra 1
Gráfico distribución de frecuencias
Distribución de frecuencias
X1
n~
5
7
6
5
6
6
10
15
20
25
Total
30
6
~
~
¡,
=
RI
·u
~ 4
::,
V
cu
1,,,
IL
2
X = 14,67
s; = 53,22
o
S x= l,30
5
10
15
20
25
Tras repetir el experimento nueve veces más se obtuvieron las nueve
columnas siguientes de la tabla (en los gráficos se muestran las representaciones de cinco de estas muestras con los valores de sus estadísticos).
Muestra 2
Distribución de frecuencias
X2
n¡
5
10
15
20
25
6
7
5
4
8
Total
30
Gráfico distribución de frecuencias
-
8
6
RI
·u
-
-
e
cu
a
4
cu
,----,---
1,,,
IL
2
X = 15,17
s; = 55,81
S x= l,47
o
5
10
15
20
25
397
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Muestra 3
Distribución de frecuencias
X3
n;
5
10
15
20
25
4
6
Total
30
9
5
6
Gráfico distribución de frecuencias
10
~
8
IU
'¡j
-
e 6
QJ
:::,
-
u
QJ
a..
LL
-
4
-
2
X = 15,5
s; = 42,25
o
S x = 6,5
5
10
15
20
25
Muestra 4
Distribución de frecuencias
X4
n;
5
10
15
20
25
5
3
5
8
9
Total
30
X = 17,17
s; = 51,14
S x = 7,15
398
Gráfico distribución de frecuencias
10
~
.---
8
IU
'¡j
e 6
QJ
:::,
QJ
a..
LL
-
-
u
4
2
o
5
10
15
20
25
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Muestra 5
Distribución de frecuencias
Xs
n;
5
15
20
25
6
9
9
2
4
Total
30
10
Gráfico distribución de frecuencias
10
8
lll
'ü
;
6
::,
IJ
QI
it
4
2
X = 13,17
s; = 39,14
S x = 6,26
5
15
10
20
25
Distribución muestra! de las 10 medias
Distribución de frecuencias, representación gráfica y cálculos de estadísticos correspondientes a la media y desviación típica de las 10 medias.
Distribución de frecuencias
Gráfico distribución de frecuencias
5
X;
13,00
13,17
13,50
14,67
15,17
15,50
15,67
17,17
Total
µ:X= 14,85
ª x = 1,23
1
1
1
1
2
2
1
1
4
lll
·g
3
-
QI
::,
IJ
f
u.
2
-
1
10
13
14
15
16
17
18
399
INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Como se puede observar, la media de todas las medias para 10 muestras
(µx = 14, 85) se aproxima bastante a la media poblacional (µ = 15). Sin
embargo, la desviación típica de las medias no tiene, en principio, nada que
ver con la desviación típica poblacional 1,23 =t=- 7,07, como era de esperar.
No obstante, se puede comprobar que el error típico de la media de este
estudio empírico es
ªx
= 1, 23, siendo el teórico:
ªx
=
Jnn 7.:./[;
30
=
= 1, 29.
La diferencia entre ambos se debe al número de muestras tan reducido
que hemos utilizado para construir esta distribución muestra!.
Análisis con 500 muestras aleatorias de tamaño n = 30
La Tabla 9.3 recoge las medias de 500 muestras simuladas sobre la
población antes definida (ahora ya sin los datos de cada muestra), cuyo
tamaño muestra! es den= 30.
Tabla 9.3. Medias correspondientes a las 500 muestras simuladas.
11,00
12,30
13,17
13,20
13,20
13,20
13,50
13,50
13,55
13,70
13,90
14,00
14,11
14,20
14,20
14,30
14,50
14,60
14,70
14,70
14,70
14,80
14,90
14,90
15,00
15,10
15,17
15,20
400
11,50
12,50
13,17
13,20
13,20
13,20
13,50
13,50
13,60
12,50
13,90
14,00
14,17
14,20
14,20
14,30
14,50
14,66
14,70
14,70
14,80
14,80
14,90
14,90
15,00
15,10
15,17
15,20
11,90
12,50
13,17
13,20
13,20
13,23
13,50
13,50
13,60
13,70
13,90
14,00
14,17
14,20
14,20
14,30
14,50
14,66
14,70
14,70
14,80
14,80
14,90
14,90
15,00
15,10
15,17
15,20
12,00
12,50
11,50
13,20
13,20
13,23
13,50
13,50
13,60
13,70
13,90
14,00
14,17
14,20
14,20
14,30
14,50
14,66
14,70
14,70
14,80
14,80
14,90
14,90
15,10
15,10
15,17
15,20
12,00
12,70
11,50
12,50
13,20
13,23
13,50
13,50
13,67
13,70
13,90
14,00
14,17
14,20
14,20
14,30
14,55
14,67
14,70
14,70
14,80
14,80
14,90
15,00
15,10
15,10
15,17
15,20
12,10
12,90
13,17
13,20
13,20
13,30
13,50
13,50
13,67
13,70
13,90
14,00
14,20
14,20
14,20
14,30
14,60
14,67
14,70
14,70
14,80
14,80
14,90
15,00
15,10
15,10
15,17
15,20
12,20
12,90
13,20
13,20
13,20
13,30
13,50
13,50
13,70
13,70
14,00
14,00
14,20
14,20
14,20
14,40
14,60
14,67
14,70
14,70
14,80
14,80
14,90
15,00
15,10
15,10
15,20
15,20
12,20
13,00
13,20
13,20
13,20
13,30
13,50
13,50
12,50
13,70
14,00
14,10
14,20
14,20
14,21
14,40
14,60
14,70
14,70
14,70
14,80
14,80
14,90
15,00
15,10
15,10
15,20
15,20
12,20
12,50
13,20
13,20
13,20
13,44
13,50
13,50
13,70
13,80
14,00
14,10
14,20
14,20
14,30
14,44
14,60
14,70
14,70
14,70
14,80
14,80
14,90
12,50
15,10
15,10
15,20
15,20
12,30
13,17
13,20
13,20
13,20
13,50
13,50
13,50
13,70
13,80
14,00
14,10
14,20
14,20
14,30
14,50
14,60
14,70
14,70
14,70
14,80
14,90
14,90
15,00
15,10
15,12
15,20
15,20
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
15,20
15,20
14,50
15,40
15,50
15,50
15,50
15,60
15,67
15,70
15,80
15,90
15,90
16,00
16,10
16,20
16,30
16,50
16,80
17,00
17,20
17 ,30
15,20
15,20
15,30
15,50
15,50
15,50
15,50
15,60
15,67
15,70
15,80
15,90
15,90
18,60
16,10
16,20
16, 30
16,60
16,80
17,00
17,20
17,60
15,20
15,20
15,30
15,50
14,50
15,50
15,50
15,60
15,70
15,70
15,80
15,90
15,90
16,00
16,10
16,22
16,30
16,60
16,80
17,00
17,20
17,90
15,20
15, 30
15,30
15,50
15, 50
15,50
16,60
15,60
15,70
15,70
15,80
15,90
15,90
16,00
16,10
16,30
16,30
16,66
16,90
17,00
17,20
17,90
15,20
15,30
15,30
15,50
15,50
15,50
16,70
15,60
15,70
15,70
15,80
15,90
15,90
16,00
16,10
16,30
16,30
16,70
16,90
17,00
17,26
17,90
15,20
15,30
15,30
15,50
15,50
15,50
15,50
15,60
15,70
15,70
15,80
15,90
15,90
16,00
16,10
16,30
16,43
16,70
16,90
17,10
17,26
17,90
15,20
15,30
15,34
14,00
15,50
17,70
15,50
15,67
15,70
15,70
15,80
15,90
16,00
16,10
16,20
16,30
16,50
16,70
16,90
17,10
17,30
17,90
15,20
15,30
15,40
15,50
15, 50
14,00
15,50
15,67
15,70
15,70
15,88
15,90
16,00
16,10
16,20
16,30
16,50
16,80
16,90
17, 10
17,30
18,00
15,20
15,30
15,40
18,40
15,50
13,50
15,50
15,67
15,70
15,70
15,90
15,90
16,00
16,10
16,20
16,30
16,50
16,80
17,00
17,13
17,30
18,00
15,20
15,30
15,40
15,50
15,50
15,50
15,50
15,67
15,70
15,70
15,90
15,90
16,00
16,10
16,20
16,30
16,50
16,80
17,00
17,20
17,30
18,80
Gráfico distribución de frecuencias
60
11:1
u
~ 40
::::J
.
u
a,
LL
20
10
12
14
16
18
20
º x = 1,28
Como se puede observar, la media de todas las medias para 500 muestras (µ:x = 14, 96) se aproxima aún más a la media poblacional (µ = 15)
401
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
y el error típico de la media (cr x,
= 1, 28) empírico también se aproxima
bastante al error típico teórico crx =
~
"n
7
: ; = 1, 29. Se puede compro"30
bar que, a medida que aumenta el número de muestras, los valores de
=
los parámetros de la distribución muestra! de la media (µx y crx ) se aproximan más a la media poblacional (µ) y al error típico de la media antes
definido (},;}
Partiendo de los ejemplos anteriores, en los que hemos visto una demostración empírica de los valores que representan la distribución muestra! de la media y, retomando el concepto de esperanza matemática visto
en el Tema 7, nos centraremos en los siguientes epígrafes en el estudio de
la distribución muestra! de la media, la proporción y la varianza, ya que
son los estadísticos que se utilizan con mayor frecuencia en la estadística
inferencia! con la que se trabaja en el grado de Psicología.
9.4. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO MEDIA
La distribución muestra! del estadístico media se puede caracterizar
mediante su valor esperado o media (µ x ), su error típico (crx ) y la forma
de la distribución. Para obtener esta información, hay que tener en cuenta
la distribución de la variable de partida X en la población y si la varianza poblacional es conocida. Atendiendo a estos criterios se estudian tres
casos: 1) la variable X se distribuye según la curva normal con varianza
conocida; 2) la variable X se distribuye de forma normal con varianza
desconocida; y 3) la variable X no sigue la distribución normal o no conocemos su distribución .
9.4.1. Distribucion normal de la variable X con varianza
poblacional conocida
Sea una variable aleatoria X con distribución normal y parámetros poblacionales µ y cr 2 • Si se extrae un número muy amplio de muestras de
tamaño n, la distribución de sus medias tiende a una distribución normal
definida como N
cr/ ✓
n) a medida que n tiende a infinito. Esto significa
que:
(µ,
402
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
µ:X= µ
O"
(}"- = ✓
n
X
y que la distribución muestra! del estadístico media también se ajusta a
la normal.
J,; se tendrán que recordar las propie-
Para verificar que µ:X =µy cr:x =
dades de la media y varianza estudiadas en los Temas 2 y 3, aplicándolas
a la esperanza matemática (valor esperado) y varianza teórica.
La esperanza matemática de la variable aleatoria media muestra! será:
E(x) =E(¼ ¿X¡)=; E(X1 + X2 + ... + Xn); [E(X1) + E(X2) + ... E(Xn)] =
1
1
= - (µ1 + µ2 + · · · + µn) = -
1
L)l,¡ = -n nµ
n
n
=µ
Es decir:
(9.1)
La varianza teórica será:
2
1 2
1 2
1 2
1 2
cr:x = - 2 O"x +x + .. +x = - 2 cr x +-2 O"x + ··· + -2 cr x =
n
12
n
n
' n
2
n
n
Es decir:
2
(}" -
X
(}" 2
=-
n
Desviación típica o error típico :
(9 .2)
403
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Por tanto, la distribución muestra! de la media X es: X ➔ N(µ,cr/✓
n)
que se lee: Normal con media µ y error típico
¡¡;·
Consecuentemente, ya que se trata de una distribución normal, podremos tipificar la variable X, es decir, calcular su puntuación Z-x y la distribución sigue siendo normal.
Zx
= : ; µ que, como se sabe, se distribuye
N(O, 1).
i ✓n
Supuestos:
■
La variable X; se distribuye según la normal.
■
Se conoce cr 2
■
Se extraen muestras de tamaño n mediante muestreo aleatorio simple.
Entonces la distribución muestra! de las medias forma una variable
aleatoria que se distribuye N
cr/ ✓
n).
(µ,
¿Qué ventaja aporta saber que X ➔ N(µ,cr/✓
n)? Que permite aplicar
todo lo que se conoce de la distribución normal y, por tanto, hacer todos
los cálculos relativos a las probabilidades correspondientes a los valores
de la media, aplicando el concepto de tipificación ya visto en el Tema 7.
Su utilidad quedará claramente de manifiesto en el Tema 10.
Ejemplo 9.8. La inteligencia general medida a través de un test al
uso para adolescentes se distribuye en la población X ➔ N(180, 9).
1. Si se extrae una muestra aleatoria simple de 16 adolescentes,
calcular la probabilidad de que su media sea: A) menor de 176; B)
mayor de 186; C) que esté entre 178 y 185 .
Dado que se cumplen los supuestos:
ZX
404
=
_X_-_µ = _X_-_1_8_0
Y✓n
7✓16
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
J
A) P (-X < 176 ) = P ( z < 176-180]
✓
16
= P (z < - 1, 77)
= O, 0384
(ver
Tabla III)
B)
P(X > 186) =p[z >
18
_;;
;
= O, 0039
C) P(l 78
0
J= 1-P(z SZ,66) =1-0,9961 =
(ver Tabla IV)
~ X ~ 185) = p(17Y✓ 180 s z s 189✓ 180] =
✓
16
= P(-0,89
✓
16
~ z ~ 2,22)
= 0,9868 -
0,1867
=
= 0,8001
2. Calcular la probabilidad de que la media sea menor de 176 para
muestras de: A) n = 20; B) n = 30; C) n = 40 .
Dado que se cumplen las condiciones enunciadas en el cuadro resumen tendremos:
-180] = P (z < - 1, 99)
A) P (-X < 176 ) = P [ z < 176
( Ji.o
lm
B) P (-X < 176 ) = P [ z < 176-180 ]
(- ) l
C) P X < 176
l !
i<
=P
-180
z < 176
( J,io
= P (z
< - 2, 43)
= O, 0233
= o, 0075
J= P(z < - 2,81) = 0,0025
lil<I
Con este ejemplo se puede observar una cuestión muy importante de
la distribución muestra! de la media, y es que a medida que aumenta el
tamaño de la muestra, el error típico de la media disminuye. En la distri-
405
INTRODUCCIÓN AL AN ÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
bución muestra! de la media el error típico es inversamente proporcional
al tamaño de la muestra (n), por lo tanto, se puede afirmar que a medida
que aumenta el tamaño muestra! la distribución muestra! de las medias
se hace más homogénea (presenta menor variabilidad).
9.4.2. Distribución normal de la variable X con varianza
poblacional desconocida
En el caso anterior se parte del hecho de que se conoce la varianza poblacional, lo cual no es muy frecuente . Lo más habitual es que se desconozca dicha varianza. En estos casos, se deberá estimar el valor del error
típico de la media mediante la cuasidesviación típica muestral 4 dada por:
cr-
x
sn - 1
=-
✓
n
En estas condiciones la distribución muestra! de la media ya no se ajusta a la normal, sino que sigue la distribución t de Student (ver Tema 8).
Al no conocer la varianza poblacional, la transformación viene dada ya
por la distribución:
T
~
/
;¿ ,
que sigue una distribución t de Student con n - 1 gl.
n- 1
✓
n
Supuestos:
■
La variable X; se distribuye N(µ,a)
■
Se desconoce el valor de cr 2
■
Extraemos muestras mediante muestreo aleatorio simple de tamaño n.
Entonces, la distribución muestra! de las medias forma una variable
5
aleatoria que se distribuye t
con n- 1 grados de libertad.
(µ, n-/Jn)
Ejemplo 9.9. En población adulta, el t iempo de reacción ante estímulos dolorosos se distribuye normal con media 410 mseg. En un
4
406
Recordar la definici ón de cuasidesviación típi ca vista en el Tema 3 .
MUESTREO Y DISTRIBUCIÓN MUEST RAL DE UN ESTADÍSTICO
estudio con una muestra de 50 estudiantes de facultad, extraída al
azar, a los que se les ha evaluado esta variable, se ha obtenido una
cuasidesviación típica de 40 mseg. ¿cuál es la probabilidad de obtener medias iguales o mayores de 400?
Dado que se cumplen las condiciones tendremos:
T
=
X - µ
sn-1/
= 400 - 410 = -10 = - l 77
l✓
n
40/ ~
/ ✓ 50
5, 65
'
La tabla de t nos indica que con g.l. = 49 (dado que el valor no viene
tomaremos el más próximo que es gl = 50). T = 1, 77 (también el más
próximo) que se corresponde a P (x $ 400) = P (T $ 1,676) = 0,05.
Por tanto, dado que el valor de T obtenido es - 1, 77 la probabilidad
buscada es:
P(x
~ 400) = 1-
P(x
$
400) = 1 - 0,05 = o,95
9.4.3. La variable X no se distribu e normalmente
Por lo general, la situación comentada en los apartados anteriores no
es la habitual. Lo que ocurre generalmente es que las variables no se
ajustan al modelo de la normal o simplemente se desconoce cuál es su
varianza poblacional. En estas situaciones, la Estadística aporta un teo rema conocido como Teorema del Límite Central, que permite calcular
las probabilidades asociadas a los valores de las medias sin necesidad
de conocer la forma de la distribución de las variables, siempre que las
muestras tengan tamaño suficiente (n ~ 30).
Teorema del Límite Central: Sea X 1 , X 2 , . .. , Xn un conjunto de variables aleatorias, independientes e idénticamente distribuidas con media
µ¡ y varianza crf O. Si n es suficientemente grande (n ~ 30) la distribu ción muestra! de la media de las X¡ se aproxima a la distribución normal
N
✓
n ) a medida que n aumenta independientemente de las distri buciones que presenten X 1 , X 2 , . . . , Xn.
*
5,
(µ,0/
5 Recu érd ese la variable X; en la pobla ción no sigu e la distribu ción norm al o se desconoce
su fo rma, a medida que n crece la distribu ción de X ; se aproxima a la norm al (n 2'. 3 0) (según
se vio en el Tema 7), siendo µx = µ y cr:x =
jñ
407
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Este teorema establece que sí n es suficientemente grande, las variables que se combinan son independientes, tienen distribuciones idénticas
y valor esperado y varianza finitas, entonces la distribución muestra! del
estadístico tiende a N
cr/ ✓
n). Una demostración del teorema se puede
consultar en Ríos (1985). En caso de no conocer cr, se utiliza como estimador la cuasidesviación típica muestra! con X ➔ N
Sn _1 / ✓
n)
(µ,
(µ,
Ejemplo 9.10. Sea X una variable de distribución desconocida cuya
medía poblacional µ = 40 y su deviacíón típica cr = 4. Se extraen,
mediante muestreo aleatorio simple, muestras de tamaño n = 48 y
n = 25 . ¿Qué se puede decir de las distribución de las medias de dichas muestras?
A) Para el caso en que n = 48. Por el Teorema del Límite Central
se sabe que cuando n > 30, la X se distribuye normalmente con
µx = µ = 40 y su desviación típica o error típico es:
(J -
X
cr
4
✓
n
✓
48
=-= -
4
= - - = 01 577
6,93
Por tanto, se puede decir que la distribución muestra! de la X se
aproxima a N(40; 0,577).
B) Para el caso en que n = 25.
Como n < 30 únicamente se puede decir que la distribución muestra! de la medía tiene una medía µx = µ = 40 y desviación típica es:
Esto se debe a que no cumple una de las condiciones del teorema
(n > 30) para poder afirmar que se aproxima a la normal.
'
¡
•
9.5. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO
PROPORCIÓN
En Psicología y en Ciencias de la Salud son muy habituales estudios
en los que están involucradas una o varias proporciones (o porcentajes)
medidas en alguna variable de interés (por ejemplo : la proporción de uní-
408
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
versitarios varones frente a mujeres adictos a la cocaína; la comparación
de las proporciones de votantes de diferentes partidos políticos, etc.).
Para poder hacer los pertinentes estudios deberemos conocer cuál es la
distribución muestra! de este estadístico, distinguiendo entre muestras
pequeñas y muestras suficientemente grandes.
Sea una población en la que se mide una variable que solo puede tomar dos valores: éxito (1) o fracaso (O) (variable que como sabemos del
Tema 7 se ajusta al modelo de Bernoulli). Definimos re como la proporción
de aciertos en la población. Si extraemos todas las posibles muestras de
tamaño n y medimos en cada una de ellas la variable aleatoria X= número de éxitos en las n extracciones, y sea P = proporción de éxitos en las n
extracciones, constante en todas las muestras, es decir, P 1 = P 2 = ... = Pn =
re. Entonces, podemos definir las distribuciones muestrales de X y P según
las muestras sean pequeñas o grandes.
9.5.1. Distribución muestral del estadístico P para muestras
pequeñas
Cuando las muestras son pequeñas (n < 30), la distribución muestra!
del estadístico X (número de éxitos en n ensayos) es X ➔ B (nn, ✓nn (1 -
n))
donde: µx = E(X) = nrc y ªx = ✓nrc(l - rc) (como se vio en el Tema 6 6 ).
Dado que Pes una mera transformación lineal de X(P = X/ n), se demuestra que la distribución muestra! del estadístico P (proporción de aciertos en
n ensayos) es P
➔ B ( •,
En efecto, siendo P
J• n)}
(ln-
donde: µp = E(P) = n y ºe =
J• (ln •).
= X, entonces:
n
E (P)
1
= -
n
nrc
= re
(9.3)
6 Fíjense que se ha cambiado la notación y, en lugar de llamar P a la probabilidad de éxito
en la población, la denominamos n (letra griega correspondiente a P) .
409
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
2
La varianza: crp
aP
=
n(l-n)
,
,
= - - - cuya ra1z o error t1pico de medida es:
n
a ( -1 X )
n
1 ax
= -
n
=
1 ✓~
-nn
(1 - n)
n
=
✓1t(l-1t)
n
(9.4)
En la tabla de la binomial se pueden determinar las probabilidades para
diferentes tamaños muestrales y valores de n.
Supuestos:
■
La variable aleatoria X es una variable Bernoulli (solo dos valores
éxito o fracaso)
■
Se conoce n proporción en la población
■
Las n observaciones son independientes
Entonces: La distribución muestra! de la variable Pes una distribución
Binomial, definida por B [ •,
J•(ln- n))
Ejemplo 9.11. Se dispone de un juego con utilidad diagnóstica para
problemas atencionales. El juego consiste en levantar la cartulina correcta cuya imagen debe ser la del animal que el psicólogo nombra.
Hay un total de 5 cartulinas y en el juego participan, de forma independiente, 15 niños con problemas de atención. Debido al déficit que
tienen, responden por azar sin prestar atención a las instrucciones.
Obtener las probabilidades de que:
A) Ningún niño acierte; B) La proporción de aciertos no llegue al
50%; C) La proporción de aciertos sea superior al 20%.
Supuestos:
■
Variable aleatoria: Proporción de niños que aciertan Variable de
Bernoulli: Acierta al elegir la cartulina o no acierta.
■
Tamaño muestra!: pequeño.
■
Distribución muestra! de la proporción: Binomial con parámetros n = 15 y p = 1/5 = 0,20
Solución: (acudiendo a las Tablas de la Binomial)
410
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
A) Que ningún niño acierte:
P(P¡ =O)= P(X =O)= 0,0352
B) Que el porcentaje de aciertos no llegue al 50%, es decir P; < 0,50
indica que acierten la mitad. La mitad de 15 es: 15/2 = 7, por
tanto tendremos:
P (P¡ < O, 50) = P (P; < O, 50) = P (X; :s; 7) = O, 9958 (ver Tabla II del
Formulario).
C) Probabilidad de aciertos superior al 0,20, es decir: O, 20 =
donde X;= 3
P(P > 0,20) = P(X > 3) = 1 - P(X :s; 3) = 1 - 0,6482
Tabla II del Formulario).
X;{5de
= 0,3518 (ver
9.5.2. Distribución muestral del estadístico P para muestras
suficientemente grandes
Por regla general, las muestras con las que se trabaja suelen ser grandes. Por el Teorema del Límite Central se sabe que, a medida que n crece,
la distribución de las proporciones se aproxima a la distribución normal
con parámetros:
µp =
2
0p
E (P)
=
1t
n(1 - 1t)
= -- -
n
Aplicando la tipificación tendremos:
p - 1t
Z =----
✓1t (1n- n)
(9.5)
411
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Supuestos:
■
La variable aleatoria X es una variable Bernoulli (solo dos valores
éxito o fracaso)
■
Se conocen proporción en la población (o el valor P en la muestra)
■
Las n observaciones son independientes
■
La muestra es suficientemente grande, es decir, n 2'. 30
Si n < 30 deberá cumplirse que n x n 2'. 5 y n x (1- n) 2'. 5
Entonces, los valores de las proporciones se aproximan a una normal
definida por:
P ➔ N
n,
( ~
(1- n)l
n
Ejemplo 9.12. Se sabe que el 85% de los estudiantes de la UNED no
fuman. Si se selecciona una muestra aleatoria de 200 estudiantes de
esta universidad, lcuál es la probabilidad de que menos del 80% de
alumnos de la muestra no fume?
Supuestos:
■
Variable de Bernoulli: Sólo dos posibilidades: éxito (no fumar),
fracaso (fumar).
■
Tamaño muestra! grande : n = 200 (no resulta necesario el cálculo correspondiente a «suficientemente grande»).
■
Distribución de la proporción: Aproximación a la normal con parámetros: n = 0,85 y:
crp
= ✓n(ln- n) =
0,85(1 - 0,85)
200
= o, 0252
P - N (O, 85; O, 0252)
Solución :
z=
P (Z
412
~
p-
1t
✓n(ln- n)
=
o, 80 - o, 85 = - 1, 98
0,0252
- 1, 98) = O, 0239 (ver Tabla III)
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
9.6. DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO VARIANZA
El razonamiento para obtener la distribución muestra! de la varianza es
el mismo que el seguido para la media y la proporción.
Si X es una variable que se distribuye en la población N(µ,cr), se extraen todas las muestras posibles de tamaño n con media X, varianzas;
y cuasivarianza
1
2
.
.
n5 2
(n - 1)5
.
.
Entonces, las variables aleatorias
y
n - i siguen una d1s2
o
o
tribución x2 con n - 1 grados de libertad. Es decir, ambas variables se
5;_
-f
distribuyen según X~ - i (n -1, ✓2 (n - 1) ), por lo que: µ
típica, cr
=n-
1 y desviación
= ✓2 (n - 1)
Conociendo la distribución de estas variables se deduce matemáticamente que las distribuciones muestrales de la varianza y la cuasivarianza
son las siguientes:
La distribución muestra! del estadístico varianza (
distribución X~- i con parámetros:
s; ), sigue una
- 1 2
cr
( 2) = -n n-
(9.6)
✓2(n - 1)
n
(9.7)
µ S! = E 5
Y error típico:
(J
2
s; = (J
La distribución muestra! del estadístico cuasivarianza ( 5~_1 ) sigue una distribución X~ - l con parámetros:
(9.8)
Y error típico:
413
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
ªs' = cr2 ✓ n 2- 1
(9.9)
n- 1
En efecto, como se vio en el tema anterior, en una distribución x2 con
n - 1 grados de libertad, la esperanza es E
la varianza igual
1) = n - 1
a V
1 ) = 2 (n -1). Atendiendo a este resultado, podemos demostrar las
fórmulas anteriores, recordando las propiedades de la media y la varianza
estudiadas en el Tema 3:
(x~_
(x~_
y
En cuanto a la varianza muestra!:
2
n5 X
a
-
-2- -
2
Xn - 1 ➔
52 X -
(J
2 2
Xn - 1
n
Calculamos la esperanza y la varianza:
(J4
-2(n-1)
n2
= (J 2
✓2 (n -1)
n
En cuanto a la cuasivarianza muestra!:
(n -1)5;_1
cr 2
2
= Xn- 1 ➔
ª2
2
X~- 1
Sn- 1 = - -n- 1
Calculamos la esperanza y la varianza:
22)
2
2
E (s2- ) = E a Xn - 1 = _a_ E (x2 - ) = _cr_ (n - 1)
( n-1
nl
n-1
nl
n-1
414
= cr2
=
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
v(s;_1 ) == V ( o2x2
n- l
n- 1
)
04
==
(n -
1)2
204
V(x~_ ) == (n 04
2(n - 1) ==-- ➔ o 5 ,
2
- 1)
n- 1
==
1
n- l
Lo mostrado anteriormente determina los valores de los parámetros
de las distribuciones muestrales de la varianza y de la cuasivarianza. Para
calcular las probabilidades asociadas a las varianzas, mediante la tabla de
ji-cuadrado, se utilizan directamente las expresiones:
(9.10 y 9.11)
que se distribuyen X~- i
(n - 1, ✓2 (n - 1) ), siempre y cuando la variable X
siga la distribución normal N(µ,cr) en la población.
Ejemplo 9.13. Una urna contiene tres bolas numeradas con los valores 2, 4 y 6. La población se compone de esos tres números y se
extraen todas las muestras posibles de tamaño dos con reposición.
A) Calcular el valor de la media, la varianza y la desviación típica
poblaciona 1.
µ == (2 + 4 + 6)/3 == 4
o 2 ==
(2 - 4)2+(4 - 4)2+(6 - 4)2
== 2, 6 7
3
o == .)2, 67 == 1, 63
B) Construir la distribución muestra! de la varianza y cuasivarianza
de las muestras defin idas y calcular los valores esperados correspondientes .
En muestreo aleatorio con reposición el número de muestras posibles es Nn. En este ejemplo es 3 2 = 9 muestras posibles de tamaño
n = 2.
415
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Muestras de tamaño 2
Muestreo con reposición
Medias correspondientes a cada muestra
2;2
2;4
2;6
2
3
4
4;2
4;4
4;6
3
4
5
6;2
6;4
6;6
4
5
6
(s~_
Varianzas (s~) correspondientes
a cada muestra
Cuasivarianzas
1 ) correspondientes
a cada muestra
o
1
4
o
2
8
1
o
1
2
o
2
4
1
o
8
2
o
Distribución muestra! de los estadísticos
52X
o
1
4
1
4
I
3/9
4/9
2/9
o
3/9
4/9
2/9
s~. ,(s~)
s~ f(s~)
o
,(s~) S!-1 ,(s!-1)
3/9 = Ü
4/9 = 4/9
2/9 = 8/9
S!-1 ,(s!-1)
o
ÜX
1
4
X
X
12/9
3/9
4/9
2/9
2
8
2
8
3/9
4/9
2/9
= 4/3
s!_1.,(s!_1)
Ü X 3/9 = Ü
2 X 4/9 = 8/9
8 X 2/9 = 16/9
24/9
= 8/3
E(s}) = ~ = 1, 33
E(sLi) =
J=
2,67
C) Calcular los valores esperados aplicando las expresiones (9.6) y
(9.8).
416
1
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
E(s~)=
ª:
2 7
(n-1)= ,; (2-1) = 1,33
D) Compara los resultados de los apartados By C.
Como se puede comprobar, los valores obtenidos a partir de la distribución empírica (apartado B) son iguales a los obtenidos mediante la aplicación directa de las expresiones definidas (apartado C).
Aproximación a la normal de la distribución muestra! de la varianza.
Cuando la muestra es suficientemente grande, es decir valores mayores
den= 100, la distribución de las variables aleatorias
n5 2
---f-
y
(n-1)5 2
n - l se
cr
cr 2
aproxima a la normal con mediaµ= n - 1 y desviación típica, cr = ,J,--2-(n---1-).
En este caso podemos tipificar las variables, obteniendo:
Varianza:
(n~} )-(n - 1)
z
= -----;====--✓2 (n -1)
(9.12)
Cuasivarianza:
( (n
-:;s,;_,) - (n - 1)
z = -----;c===---
(9.13)
✓2 (n - 1)
Ambas con distribución aproximada N(0,1) lo que facilita la búsqueda
de las probabilidades asociadas en la tabla de la Normal.
417
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 9.14. En una población la variable motivación se distribuye
N(µ,3). Si se extrae una muestra aleatoria de tamaño 120. lCuál es
la probabilidad de obtener una cuasivarianza con valores comprendidos entre 6 y 8?
Para 5~_1
((n -
=6
~;s~_,)-(n- l)
((120 ;,1) x 6 )-(120 _ 1)
z = --'-------;====- - =
✓2(n - 1)
Para 5~_1
✓2 x (120-1)
= - 39, 66 = - 2 56
15,46
'
=8
z = ~((_n_-_:---.=~S=~=-1=)=-=-(n_ - _1) = ((120;,l) x B)-(120 - 1) = -13,22 =-0 86
✓2(n-1)
P (6 :;
s~_1
:;
8) = P (- 2, 56 :; z :;
✓2 x (120 - 1)
15,46
'
- o, 86) = o, 1949 - o, 0052 = o, 1897
9.7. RESUMEN
A lo largo de las páginas precedentes se ha presentado el concepto de
muestreo y los métodos más habituales y entre ellos aquellos que se basan en el azar y salvaguardan la representatividad de las muestras, cuestión que legitiman el uso de la Inferencia Estadística. Se ha explicado el
concepto de distribución muestra! de un estadístico que constituye, junto
con el muestreo, la fundamentación de las técnicas de inferencia y se han
expuesto las distribuciones muestrales de la media, de la proporción y la
varianza por ser los índices estadísticos sobre los que descansan muchas
de las técnicas que se verán posteriormente. Se podrían presentar las
distribuciones de otros estadísticos como la correlación de Pearson o la
diferencia de medias, pero excedería con mucho al t iempo disponible y la
fi nalidad de un cu rso introductorio como es est e.
418
MUESTREO Y DISTRIBUCIÓN MUESTRAL OE UN ESTADÍSTICO
9.8. EJERCICIOS
9.1.
Un estimador es: A) una variable aleatoria; B) un parámetro; C) el
resultado del muestreo.
9.2.
La Consejería de Salud de una comunidad autónoma desea conocer los hábitos de salud de los jubilados según los grupos de edad:
65 a 75 años; 75 a 85; mayores de 85. Para ello, van a encuestar a
300 personas elegidas al azar mediante muestreo aleatorio estratificado con afijación proporcional. Teniendo en cuenta que la población de interés está formada por 15.000 habitantes, de los cuales:
7.500 están entre 65-75 años (extracto A), 3.000 entre 75 y 85
(extracto B) y 4.500 entre 85 y 95 años (extracto C). Qué tamaños
muestrales se corresponden con los extractos establecidos por la
Consejería?: A) nA = 125; na= 85 y ne= 90; B) nA = 150; na= 60 y
ne= 90; C) nA = 140; na= 60 y ne= 100.
9.3.
Una muestra se considera aleatoria: A) si su grado de diversidad
es igual al de su población; B) si sus elementos se han extraído al
azar; C) si no conocemos su probabilidad asociada.
9.4.
A partir de la población formada por el conjunto de números: {1;
2; 3; 4} se forman todas las muestras posibles de tamaño 2 con
reposición. ¿cuál es el valor del error típico de la media de la distribución muestra! de las medias?: A) 1,11; B) 2,5; C) 0,79.
9.5.
¿cuál de los siguientes tipos de muestreo es probabilístico?: A) por
cuotas; B) opinático; C) por conglomerados.
9.6.
Un profesor de Análisis de Datos está interesado en saber la opinión
que los 225 alumnos tienen de él. Proyecta realizar una encuesta
a 25 de estos alumnos. El profesor posee el listado por orden alfabético de sus alumnos. El tipo de muestreo más apropiado a la
situación es: A) Aleatorio sistemático; B) Cuotas; C) Bola de nieve.
9.7.
Con los datos del ejercicio anterior, ¿cuál es el intervalo de selección? A) 10; B) 5; C) 9.
9.8.
Con los datos del ejercicio anterior, teniendo en cuenta únicamente
a los 5 primeros sujetos de la muestra, ¿qué secuencia de elección
es correcta?· A) 9· 18·I 27·f 36·I 47·f B) 10·1 19·1 28·1 37·I 46·I C) 3·I
12; 21; 30; 39.
•
9.9.
•
f
En una cadena de clínicas de adelgazamiento trabajan 300 personas, de las cuales: 68 son médicos de familia, 80 cirujanos, 100
419
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
enfermeras y 52 administrativos. Se quiere hacer un estudio sobre
el estrés laboral, para lo que se debe seleccionar una muestra representativa de los diferentes tipos de trabajadores. ¿cuál de los
siguientes procedimientos de muestreo es el acertado a los intereses del estudio?: A) Aleatorio estratificado; B) Por conglomerados;
C) Aleatorio simple.
9.10. En la población de adultos de Madrid capital se sabe que el porcentaje de personas que leen un periódico por internet (al menos 15
días de cada mes) es del 45%. Se extrae una muestra aleatoria de
tamaño 125. ¿cuál es el error típico de estimación de la proporción?: A) 0,497; B) 0,045; C) 0,25.
9.11. Según el manual del Test AR4 la variable ansiedad-riesgo se distribuye en la población de adolescentes x - N(µ,16). Se selecciona
un número amplio de muestras de tamaño 125. ¿cuál es el error
típico de la distribución muestra! de las medias? A) 1,43 ; B) 19,4;
C) No se puede determinar, ya que desconocemos el valor de la
media poblacional.
9.12. En un aula de estudiantes de Psicología se ha preguntado en qué
grado, en una escala de O a 10, piensan que se debe liberalizar el
consumo de drogas. Los resultados obtenidos son: {4; 7; 5; 6; 3;
5; 3; O; 10; 5; O; 4; 6; 5; 4; 5; 6; 3; 10; 2; 6; 7; 4; 10; 5; O; 5;
7; 6; 10; 7; 6; 4; O; 7; 3; 5; 6; 5; 4}. ¿cuáles son los parámetros
de la distribución muestra! de todas las muestras de tamaño 9 que
se pueden formar? A) 50; 2,54; B) 5; 2,54; C) 5; 0,75.
9.13. Calcule el error típico de la proporción sabiendo que las muestras
(extraídas por muestreo aleatorio simple) tienen un tamaño de 60
y el valor esperado es 0,6. A) No se puede calcular, ya que falta
conocer el tamaño de la población; B) No se puede calcular dado
que falta el valor de la media; C) Sí se puede calcular y su valor es
0,063.
9.14. Si una variable X tiene de media µ = 80 y desviación típica cr = 9
en la población, según la distribución muestra! de la media para un
tamaño de muestran= 36, los valores deµ y ª :x son: A) 80 y 2,25;
B) 80 y 1,5; C) 80 y 0,25.
9.15. La inteligencia práctica se distribuye N(llO; 15) en la población de
niños de 8 años. Se seleccionan muestras aleatorias de 81 niños.
420
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
¿Entre qué valores se encuentra el 70% central de las medias? A)
102,7; 115,6; B) 108,27; 111,72; C) 95,4; 115,82.
9.16. La distribución de las puntuaciones de un test de razonamiento
numérico es normal con varianza 100. Se extraen muestras de tamaño 30. ¿cuál es la probabilidad de que las varianzas muestrales
se encuentren entre 57 y 142?: A) 0,60; B) 0,30;C) 0,90 .
9.17. El 65% de los adultos de la Comunidad de Madrid tiene carnet de
conducir. ¿cuál es la probabilidad de extraer una muestra de 100
en la que sólo la mitad o menos tengan carnet? A) 0,0008; B)
0,098; C) 0,0476.
9.18. Se sabe que la variable horas de estudio (correspondiente a la Tabla 1.2) se distribuye según la normal con varianza 12. La varianza
de la muestra formada por 40 estudiantes es 10,55, ¿está entre el
90% de los valores centrales del estadístico? A) Sí; B) No; C) Con
los datos disponibles no se puede responder a esta pregunta.
9.19. Se sabe que un 60% de la población tiene el hábito de fumar cigarrillos. Se selecciona una muestra aleatoria de 800 personas. Calcule la probabilidad de que el porcentaje de personas de la muestra
que fuma cigarrillos sea menor del 55%: A) 2%; B) 0,20%; C)
0,48%.
9.20. La altura de 1000 soldados se distribuye N (174; 6,9). Se extraen
200 muestras aleatorias de tamaño 30, ¿cuántas de las medidas
están entre los valores 172,5 y 175,8? A) 80; B) 94; C) 162.
9.9. SOLUCIONES A LOS EJERCICIOS
9.1.
Solución: A
9.2.
Solución: B
Hay que calcular las correspondientes proporciones:
= 150 personas de entre 65 y 75 años.
300 = 60 personas entre 75 y 85 años .
300 = 90 personas mayores de 85 y 95 años.
(7500/15000) x 300
(3000/15000) x
(4500/15000) x
9.3.
Solución: B
421
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
9.4.
Solución: e
Media de la población: (1
Por tanto
+ 2 + 3 + 4)/4 = 2,5
E(x) = µ = 2,5
"X2
(12 +22 + 32 +42)
cr 2 = -~ - ' - µ 2 = - -- - - - - - 2 52 = 7 5 - 6 25 = 1 25
N
4
'
'
'
'
Por tanto:
cr
ªx =
✓
n =
1,118
✓
2
= O, 79
e
9.5.
Solución:
9.6.
Solución: A
9.7.
Solución: e
Ya que: 225/25
=9
e
9.8.
Solución:
9.9.
Solución: A
Aleatorio estratificado ya que se pretende garantizar que hay representantes de todos los tipos de trabajadores.
9.10. Solución: B
La población es grande, aunque es necesario realizar el cálculo de
«suficientemente grande». Lo hacemos a título de ejemplo:
(n x n)
=
125 x O, 45
=
56, 25 ~ 5
y
(n (1 - n)) = 125 (1- O, 45) = 68, 75 ~ 5
Por tanto: cr
= ✓n(l - n)
Para calcular
blación)
crP
se precisa conocer cr (desviación típica en la po-
Se conoce el valor de re (Proporción poblacional)
Por tanto: ✓n (1 Por tanto:
crP =
n)
=
✓O, 45 (1- O, 45)
cr
O, 4975
"n
"125
e=
~
=
= O,
= 0,45
4975
0,045
9.11. Solución: A
Dado que se conoce la desviación típica, el error típico de la distribución muestra! de la media es:
422
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
(J -
~ = ~ = ____!_§_ "" 1
=
✓
n
X
✓125
11, 18
,
43
9.12. Solución: e
Para hacer los cálculos más cómodos en primer lugar se establece
la distribución de frecuencias (dado que en los datos se ve ningún
encuestado dio los valores 1, 8, 9 no los incluiremos en la tabla).
x2,
; .n,
x,
n;
X; -n 1
o
4
1
4
6
o
o
4
36
225
252
245
400
7
10
5
4
2
12
24
45
42
35
40
I
40
200
1258
cr
2, 54
2
3
4
5
6
- )
9
7
E ( X ; = µ = 5;
ªx
96
= ✓
n =
✓
9
= O, 85
Dado que son poblaciones finitas:
cr- = ~ ✓N - n = 2, 54 x ✓40 - 9 = 0 75
X
✓
n N - 1
✓
9
40 - 1
'
9.13. Solución :
=
7t
e
E(p) = 0,6;
ap =
~=
6
6
0, (~ ~ 0, )
=
0, 063
9.14. So lución : B
(J
(J -
X
=✓
n
423
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
En el problema planteado los valores correspondientes son:
µ:X = 80
ª :x
O"
9
=✓
n =✓
36 = 1,5
9.15. Solución: B
Sabemos que la distribución muestra! de la media conocida la varianza poblacional sigue una distribución normal cuya tipificación
es:
X- µ
= cr/
Z:x
i ✓n
, que es N (O, 1)
El 70% de las medias muestrales va a estar entre una Z que deja
por debajo de sí una probabilidad de 0,15 y la otra Z que deja por
debajo de sí una probabilidad de 0,85. (Tablas III y IV del Formulario)
= 0,15,
P(z < Z) = 0,85,
P(z < Z)
Z:x=
esto implica
X - µ.
X - 110
X - 110 . Y✓ , - 1,04 = ,7✓
=
,X = (-1,04) x l,67+110 = 108,26
cr e
1 rn:;
1, 6 7
-v n
Z:x
= -1,04
que Z = 1,04
esto implica que Z
-v81
X - µ_
X - 110 X - 110. = Y✓ ,1,04 = l,7✓
=
,X = l,04 x l,67 + 110=111,74
cr e
rn:;
1, 6 7
-vn
-v81
9.16. Solución: C
Sabemos que
2
x2 = n~x
se distribuye
x~_1 . Por tanto, calculamos los
O"
valores de X~- i para
424
s; = 57 y para s; = 142.
2
Xn - 1
=
2
Xn- 1
=
ns;
cr2
ns;
cr2
= 30 x 57 = 17 1
100
,
= 30 x 142 = 42 6
100
,
MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
xª
Para xª
Para
9 = 17, 1 la probabilidad correspondiente según la tabla de
ji-cuadrado es de 0,05 aproximadamente (ver Tabla V).
9 = 42, 6 la probabilidad correspondiente según la tabla de
ji-cuadrado es de 0,95 aproximadamente (ver Tabla V).
Por tanto, la probabilidad es:
P(17,1 :=;
s; :=; 42,6) = 0,95-0,05 = 0,90
9.17. Solución: A
Supuestos:
Variable de Bernoulli. Sólo dos posibilidades: éxito (tener carnet de
conducir) fracaso (no tener carnet de conducir).
n = 100
Tamaño muestra!:
(grande).
ya que (nrc) = 100 x 0,65 = 65 ~ 5 y
(n(l - n)) = 100(1 - 0,65) = 35 ~ 5
Distribución de la proporción: Aproximación a la normal con parámetros: n
N ➔
= O 65
'
y
=
0, 65 (1 - o, 65)
100
-----= O
'
0476
(O, 65; O, 0476)
p- n
Z =
o, 50 - o, 65 = - 3, 15
=
✓ n (ln- n)
0,0476
P (Z :=; - 3, 15) = O, 0008 o lo que es lo mismo un 0,08%
9.18. Solución: A
Se trata de determinar los valores de ji-cuadrado que delimitan
una probabilidad de 0,90 y comprobar si el valor de la muestra está
dentro de esos valores.
Sabemos que
x2
=
n~; se distribuye x~_
1.
Los
0
X~9,o,os
2
Xn - l
= 26, 51;
X~9,o,9s
= 55, 76
ns; ,. 26,51 = 40 12
x 5;.
,
=7
52 = 26,51 x 12 = 7 95
X
40
,
55 76 = 40 X 5 ; . $2 = 55, 76 X 12 = 16 73
'
12
' X
40
'
425
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
P (7, 95 s 5 2 s 16, 73) = O, 90. Dado que la varianza de nuestra
muestra es 10,55, podemos decir que la varianza se encuentra,
con una probabilidad de 0,90, dentro de esos valores calculados.
9.19. Solución: B
Por aproximación a la normal:
800 x 0,55 = 440 número de sujetos de la muestra que tiene el
hábito de fumar cigarrillo.
µp = n · p = 800
Z =
X
P - 1t =
~
v~
P (Z s - 2, 89)
0, 60 = 480
o, 55 - o, 60 =
0,6 X 0,4
800
- 0, 05 = -0, 05 = - 2 89
1
.j0,0003 0,0173
= O, 0019 (Ver Tabla III del Formulario)
Este valor significa que hay una probabilidad del 0,19% de que al
extraer una muestra de 800 personas, menos de 440 fuman cigarrillos.
9.20. Solución:
z
= X -
cr
e
µ = 172, 5 - 174 = - 1, 5 = - l 19
6,9
1,26
'
✓
n
z
= X -
cr
✓
30
µ = 175,8 - 174 = ~ = l 43
6, 9
1, 26
'
✓
n
✓
30
P (Z s - 1, 19)
Formulario)
P (172, 5
=
O, 1170; P (Z s 1, 43) = O, 9236 (Tablas 111 y IV del
s X s 175, 8) = O, 9236 - O, 1170 = O, 8066
200 x O, 8066 = 161, 32 "" 162 muestras tendrán su altura entre
172,5 y 175,8.
426
TEMAlO
Estimación de parámetros y
cálculo del tamaño muestral
10.1. INTRODUCCIÓN
10.2. ESTIMACIÓN DE PARÁMETROS
10.2.1.
10.2.2.
10.2.3.
10.2.4.
Propiedades de los estimadores
Métodos de obtención de estimadores
Estimación puntual
Estimación por intervalos
10.3. CÁLCULO DEL INTERVALO DE CONFIANZA
10.3.1. Intervalo de confianza para el parámetroµ con
02
conocida
10.3.2. Intervalo de confian za para el parámetroµ con
0 2 desconocida
10.3.3. Intervalo de confianza para el parámetro re
(aproximación a la normal)
10.3.4. Intervalo de confianza para el parámetro 0 2
10.4. SIGNIFICADO DEL NIVEL DE CONFIANZA
10.5. GENERALIZACIÓN DE LA CONSTRUCCIÓN DE
INTERVALOS
10.6. FACTORES QUE AFECTAN AL INTERVALO DE
CONFIANZA
10.7. TAMAÑO MUESTRAL
10.7.1. Tamaño muestra! para el parámetro media
10.7.1.1. Conocida la varianza poblacional
10.7 .1.2. Desconocida la varianza poblacional
10.7.2. Tamaño muestra! para el parámetro proporción
10.8. RESUMEN
10.9. EJERCICIOS
10.10. SOLUCIONES A LOS EJERCICIOS
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
10.1. INTRODUCCIÓN
En el Tema 9 se han estudiado el muestreo y el concepto de distribución muestra! de un estadístico. Ambos son la base de la Inferencia Estadística que, a su vez, es la que permite derivar, a partir de los resultados
de la muestra, los resultados que con una cierta probabilidad se pueden
determinar para la población. Para llevar a cabo su proceso de análisis, la
Inferencia combina los modelos de probabilidad (de los que ya conocemos
los de mayor uso en Psicología y Salud) con los modelos estadísticos (expresiones matemáticas que relacionan variables entre sí como por ejem plo la regresión que hemos estudiado en el Tema 5).
La aplicación de estos modelos cuando se diseña una investigación, intervención etc., supone que el investigador se plantea preguntas con contenido teórico. Una vez formuladas las preguntas y evaluadas en relación
con los conocimientos previos (a través del estudio y análisis crítico de la
bibliografía sobre el tema), se traducen a términos estadísticos. Con estas
formulaciones estadísticas se comprueba si la situación planteada se parece a algún modelo de los que nos ofrece la Estadística y la Probabilidad.
Si es así, obtendremos una respuesta estadística a la pregunta , respuesta
que debe llenarse con el contenido teórico que suscitó la pregunta inicial
(Martínez-Arias, Castellanos- López y Chacón-Gómez, 2014).
Esta forma de trabajo exige garantizar que la realidad que se investiga
y los modelos matemáticos (probabilístico y/o estadístico) que se aplican
son similares. Es decir, que la realidad representada en el modelo teórico
se ajusta al modelo matemático elegido para dar la respuesta estadística.
Esto significa que la comparación entre la pregunta estadística ( expresión
matemática del modelo teórico) y los modelos de probabilidad y/o esta dísticos debe hacerse cumpliendo las exigencias matemáticas o supuestos
referentes a 1 :
■
La métrica de las variables o nivel de medida : cuantitativas, cuasi
cuantitativas, cualitativas y sus correspondientes escalas de medida .
Como se sabe del Tema 1, en cada escala se pueden establecer determinadas relaciones matemáticas (igualdad en la escala nominal;
orden de las posiciones en la escala ordinal; magnitud del intervalo,
es decir, igualdad o desigualdad de diferencias en la escala de ínter-
1 Mencionamos aquellos a los qu e podemos responder con lo qu e ya se sabe. En general,
cuand o se presenta una técn ica estadísti ca, se hace referenci a a los supuest os qu e ex ig e
su aplicación.
429
INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
valo; e igualdad o desigualdad de razones en la escala de razón).
Estas operaciones matemáticas permiten cada una realizar unos determinados cálculos.
■
La forma de la distribución de la variable: Bernoulli, Binomial, Normal, Student, etc.
Para entender mejor lo descrito anteriormente, se va a desarrollar el
siguiente ejemplo.
Ejemplo 10.1. En el Ejemplo 1.1 sobre el efecto de la ansiedad
ante los exámenes se ha trabajado con una muestra seleccionada
al azar, compuesta por 40 alumnos de segundo de Bachillerato a los
que, entre otras, se les midió también la variable número de horas
de estudio. Se sabe que, en la muestra, la media y la desviación típica del número de horas estudiadas semanalmente son X= 10,55 y
Sx= 1,89, respectivamente. El equipo investigador quiere saber:
A) ¿cuál es la media de las horas de estudio semanales de los alumnos de segundo de Bachillerato?
La pregunta en términos estadísticos es: lla media de las horas
de estudio que los alumnos de segundo de Bachillerato dedican el
estudio es igual a 10,55? Cuya expresión matemática correspondiente es: µ = 10,55
B) ¿Entre que límites se encuentra la media de las horas de estudio
que los alumnos de segundo de Bachillerato dedican el estudio
con una confianza del 95%? Cuya expresión matemática probabilística es :
p (X - Emax ~ µ ~
X + Emax )
Como se verá en breve, para resolver numéricamente las expresiones anteriores y dar respuestas al investigador habrá que com probar los siguientes supuestos del modelo probabilístico (tenien do en cuenta que no conocemos la desviación típica de la variable
en la población).
Supuestos:
430
■
La muestra se extrajo por muestreo aleatorio simple.
■
La distribución de la variable horas de estudio semanales en
la población sigue la distribución normal.
¡
ESTIMACIÓN DE PARÁMETROS Y CALCULO DEL TAMAÑO MUESTRAL
■
N~ 30
Si se cumplen las anteriores exigencias, podremos calcular
P ( X - Emax s µ s X+ Emax) aplicando lo que conocemos de la distribución de probabilidad t de Student.
Conviene recordar que la inferencia estadística es un conjunto de
métodos y técnicas basadas en los modelos Estadísticos y de Probabilidad. Nos permiten inducir, a partir de la información que nos facilita la
muestra, cuál es el comportamiento de las variables en la población, asumiendo un riesgo de error evaluable en términos de probabilidad. Se le
denomina Inferencia Estadística porque emplea un razonamiento que va
de lo particular a lo general (de muestra a población), es decir, «intenta
extraer conclusiones generales de datos particulares» (Pardo, Ruiz y San
Martin, 2009).
La Inferencia Estadística tiene dos ramas, la estadística paramétrica y la estadística no paramétrica. La paramétrica es aquella en la
que la distribución de las variables en la población es conocida (normal,
binomial, etc.), la muestra se selecciona por muestreo aleatorio simple y
los datos están medidos al menos en escala de intervalos. La no paramétrica es aquella en la que la distribución de las variables no se ajusta a
ninguna distribución conocida o los datos están medidos en una escala
inferior a la escala de intervalo.
Para cumplir con sus objetivos, la estadística paramétrica emplea dos
procedimientos: la estimación de parámetros y el contraste de hipótesis . Ambos se basan en el conocimiento teórico de la distribución muestra! del estadístico (que ya se presentó en el Tema 9), correspondiente al
parámetro o parámetros que se quieren estimar.
La estimación de parámetros consiste en asignar un valor numérico
o determinar un intervalo de valores numéricos al parámetro o parámetros que deseamos conocer. Permite hacer conjeturas del tipo: si en una
muestra seleccionada al azar de una población en la que se ha medido
una variable X¡, siendo la media, X, ¿cuál será el valor más próximo o el
intervalo de valores entre los que se encuentre el valor de media de la
población µ con un cierto grado de confianza? Sí entre dos muestras seleccionadas al azar de una misma población la diferencia entre sus medias
es un valor determinado, ¿cuál será el valor más próximo o el intervalo de
431
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
valores entre los que se encontrará el valor de la diferencia a nivel poblacional con un cierto grado de confianza?
Por su parte, el contraste de hipótesis tiene como objetivo comprobar si un determinado supuesto, referido a un parámetro o parámetros poblacionales, es compatible con la evidencia empírica que nos
proporciona la muestra. Responde a preguntas del tipo: ¿es el valor de
la media poblacional de una variable X; un valor determinado según el
grado de confianza que consideramos suficiente? o ¿1a diferencia entre
los valores numéricos de las medias en una variable X; ( correspondiente
a dos muestras seleccionadas al azar de una población) es relevante o
simplemente se debe al azar según el grado de confianza que la conjetura nos merece?
Estos dos procedimientos se basan en los mismos modelos probabilísticos y estadísticos, como se deduce del tipo de preguntas a las que
responden. Sin embargo, en la estimación de parámetros se parte de
los datos muestrales para responder a una pregunta sobre la población,
mientras que en el contraste se hace una afirmación sobre la población
que luego se contrasta con la realidad de los datos obtenidos en la muestra (Martínez-Arias et al., 2014 ).
Una vez descritos estos conceptos, a lo largo del tema se estudiará solo
una parte de la estadística inferencia!: la estimación de parámetros.
También se desarrollará en el último apartado una cuestión que se había
dejado pendiente en el Tema 9, el cálculo del tamaño muestra!.
Objetivos del tema:
■
Entender los conceptos de estimación puntual y estimación por
intervalos.
■
Definir las características que debe tener un estimador para ser
considerado como «buen estimador».
■
Conocer los métodos de construcción de estimadores más ampliamente utilizados en Psicología y Ciencias de la Salud.
■
Estimar los parámetros correspondientes a los estadísticos de uso
más habitual mediante los dos procedimientos: estimación puntual
y estimación por intervalos.
432
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
■
Saber interpretar correctamente los resultados de las estimaciones
por intervalos.
■
Calcular los tamaños muestrales requeridos para hacer estimaciones poblacionales.
10.2. ESTIMACIÓN DE PARÁMETROS
Básicamente, el proceso de estimación de parámetros consiste en inferir el valor desconocido de un parámetro. Existen cuatro tipos de estimaciones:
■
Estimación puntual. Se trata de un procedimiento mediante el cual
asignamos un único valor al parámetro desconocido, a partir del resultado obtenido en una muestra. Por ejemplo, tras la aplicación de
un programa de intervención dental para niños, encontramos que el
60% (P = 0,60) de los niños se lavan los dientes 3 veces al día. Una
estimación puntual nos llevaría a suponer que la proporción re en la
población de niños que se lavarían los dientes tres veces al día si
participasen en el programa sería: re= 0,60.
■
Estimación por intervalos. En este caso, daremos un rango de
posibles valores, dentro del cual estimamos se encuentra el verda dero valor del parámetro con un determinado grado de confianza.
Siguiendo el ejemplo anterior, podríamos afirmar que después de
participar en el programa de intervención, la proporción de niños que
se lavan los dientes 3 veces al día se encuentra entre 0,50 y O, 70. Es
decir, 0,50 <re< O, 70 con un cierto margen de confianza que definiremos más adelante.
■
Estimación Bayesiana. Desde esta perspectiva, en lugar de considerar a los parámetros como constantes, se presentan como variables aleatorias con una cierta distribución a priori. Las observaciones
o datos aportan información que transforman las probabilidades a
priori en probabilidades a posteriori.
■
Estimación Bootstrap. Se basan en el remuestreo y en las técnicas
de simulación, por lo que requieren el uso de ordenadores (Martínez-Arias, et al., 2014). Esta estimación consiste en extraer de una
misma muestra varias (muchas) muestras y estudiar el conjunto de
433
INTRODUCCIÓN AL ANALISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
muestras así obtenidas. Se puede asimilar a un muestro aleatorio
simple con reposición que se realizase en una población de un tamaño pequeño. De cada muestra extraída se calcula el estadístico de
interés y se estudia su distribución (es un procedimiento parecido al
presentado para explicar la distribución muestra! de un estadístico
en el Tema 9).
En este tema se estudiarán la estimación puntual y la estimación por
intervalos, ya que las otras dos exceden con mucho los límites de este manual. Sin embargo, antes de estudiar estos tipos de estimaciones se plantean una serie de cuestiones sobre si un estadístico es un buen estimador de
un parámetro o no, tales como: ¿sirve cualquier estadístico para estimar un
parámetro? O lo que es lo mismo, ¿cualquier estadístico es un buen estimador? Por ejemplo, ¿1a media es un buen estimador de la media poblacional?,
¿¡a proporción muestra! es un buen estimador de la proporción poblacional?,
¿1a varianza muestra! es un buen estimador de la varianza poblacional?
Para que un estadístico pueda considerarse un buen estimador de un
parámetro deberá cumplir las siguientes propiedades: carencia de sesgo, eficiencia, consistencia y suficiencia. A continuación se describen
cada una de ellas.
10.2.1. Propiedades de los estimadores
CARENCIA DE SESGO
Sea 8 el parámetro a estimar y 0 el valor del estimador (valor obtenido
en la muestra), diremos que 0 es un estimador insesgado o carente de
= 0 para cualquier valor de 0. Es decir, un estimador insesgasesgo si E
do es aquel en el que se cumple que la media de la distribución muestra!
(esperanza matemática de la distribución) coincide con el parámetro estimado. Formalmente la carencia de sesgo se define como:
(e)
(10.1)
A continuación, se comprueba si los principales estimadores (media,
desviación típica, varianza y cuasivarianza) cumplen la propiedad de ca rencia de sesgo.
434
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
■
¿Es la media un estimador insesgado de la media poblacional?
Se sabe que el estadístico media sigue una distribución normal o una
t de Student (según conozcamos o no la varianza poblacional). Sus
parámetros, según se recordará, son:
Conocida cr
No conocida cr
En cualquiera de las dos distribuciones E(x) = µ(ver Tema 9). Por lo
tanto, la media de la muestra es un estimador insesgado de la media poblacional.
■
¿Es la proporción es un estimador insesgado de la proporción poblacional? Es decir, lE(P) = n?
La distribución muestra! de la proporción (ver Tema 9) se define como:
P ➔ +~l
Como se observa, E(P)
■
= n por lo que Pes un estimador insesgado den.
¿son la varianza y la cuasivarianza estimadores insesgados de la
varianza poblacional?
Según se desprende de su distribución muestra! (ver Tema 9):
E(
s;) = n ~ 1 0 2
Es obvio que la esperan za matemática de la varianza de la muestra,
s} , no es ex actamente su co rrespond iente valor poblacional cr 2 , por lo que
decimos que se trata de un estimador sesgado, siendo preci samente su
n- 1
n
sesgo el factor - - .
Por el contrario, la cuasivarianza sí es un estimador insesgado de la
varianza de la población, ya que E
= 0 2 . De aquí se deduce, que si
queremos realizar una estimación puntual de cr 2 , es preferible utilizar la
cuasivarianza en lugar de la varianza.
(s;_i)
EFICIENCIA
Dados dos estimadores 01 y 02 del mismo 0 (parámetro), diremos que
01 es más eficiente que 02 si su varianza (la de su distribución muestra!)
es menor. Es decir:
ªª, 0ª
<
2
435
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Por tanto, entre dos estimadores insesgados será preferible seleccionar
el que presente una menor varianza (menor error típico de la distribución
muestra! del estadístico). El error típico refleja el mayor o menor alejamiento de los posibles valores del estadístico a su esperanza matemática
(media de la distribución muestra!). Un estimador es tanto mejor cuanto
su distribución muestra! esté más concentrada, es decir, que tenga una
varianza más pequeña.
Por ejemplo, en relación con la varianza y la cuasivarianza, los errores
típicos de ambos son:
ªs'X = a
2
✓2 (n - 1)
n
y
0 5,
n- 1
= cr 2 ✓ n -1 , respectivamente.
2
Según las expresiones anteriores, el error típico de la cuasivarianza
es mayor que el de la varianza, por lo que diremos que la varianza es un
estimador más eficiente que la cuasivarianza.
La eficiencia de un estimador siempre es relativa, ya que ninguno puede ser perfectamente eficiente, dado que el error típico acompaña a cualquier distribución muestra!. Se define la eficiencia relativa, ER, de un
estimador 81 con respecto a otro 82, como la razón:
(10.2)
Se interpreta de la siguiente manera:
■
Si el cociente es igual a 1, ambos estimadores son igualmente eficientes.
■
Si ER > 1, el estimador del denominador es más eficiente.
■
Si ER < 1, el estimador del numerador es más eficiente.
Ejemplo 10.2. Se supone que en una población la variable aleatoria
X se ajusta a una distribución perfectamente simétrica. Se puede
estimar µ, tanto con la media de la muestra como con la mediana,
436
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
ya que ambos son estimadores insesgados de la media poblacíonal.
¿cuál de ellas es más eficiente?
Para muestras grandes, los errores típicos son:
■ Error típico de la medían a:
ªr1d
"" 1, 253
ln
(valor que se obtiene
del estudio de la distribución muestra! de la mediana)
■ Error típico de la media:
crx =
ln
(J
cr
ER = _1_ =
1,253 e
ª r1d =
ªx
._¡n
a
= 1 253 > 1
'
✓
n
Por tanto, el estimador del denominador, en este caso la media,
es más eficiente que la mediana, por lo que preferiremos la media
muestra! para estimar la media de la población, a pesar de que ambos estimadores son igualmente insesgados.
CONSISTENCIA
La consistencia indica que, a medida que el tamaño muestra! se hace
grande (que tiende a infinito), el valor del estadístico se aproxima al valor
del parámetro. Por tanto, un estimador es consistente cuando la probabilidad de que su valor se acerque al del parámetro es mayor a medida que
aumenta el tamaño de la muestra . Formalmente:
(10.3)
le- e¡
En otras palabras, si n tiende a infinito, la probabilidad de que
sea menor que cualquier valor 8, por pequeño que sea éste, tiende a 1. 2
2 La demostración de esta pro pi edad excede los límites del texto . Cu alqui er interesado
pu ede consultar Amón (1999) .
437
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
SUFICIENCIA
La suficiencia se refiere a la capacidad del estimador de utilizar toda
la información existente en la muestra en relación al parámetro. O lo que
es lo mismo, que el estimador emplee todos los valores de los datos (información) para estimar el parámetro.
Sabemos que la media de la muestra, X, es un buen estimador de
la media poblacional, µ. También podríamos utilizar otros estimadores
como: la mediana, el promedio de los valores extremos de la distribución,
la media de los cuartiles primero y tercero, etc. Sin embargo, basta con
observar las fórmulas de estos estadísticos para darse cuenta de que la
media es un estimador suficiente.
Así, si utilizamos el promedio de los extremos de la distribución sería:
X.1 +X.1
'"' sólo empleamos en el cálculo el valor de la puntuación más alta
'"P
2
y el de la más baja. Mientras que en la media X=
es evidente que
¿/;
n
empleamos todos los valores de X;. Así pues, el estimador suficiente de
µ es X.
Del mismo modo, la varianza y la varianza insesgada, así como la proporción son estimadores suficientes de cr 2 y n, respectivamente.
Como resumen, las propiedades de los estimadores media, proporción y cuasivarianza son:
l. La media muestra! se considera buen estimador de la media poblacional ( X =
Cumple las propiedades de ser insesgado, consistente y suficiente.
µ,).
2. La proporción muestra! (P) se considera buen estimador de la proporción poblacional
= ;), ya que cumple las propiedades de ser
insesgado, consistente y suficiente.
(P
(s;)
3. La varianza muestra!
cumple las propiedades de ser consistente
y suficiente pero no es insesgado. Por esta razón, la cuasivarianza se
considera un buen estimador de la varianza poblacional ( ;
2
= s;_1 }
Cumple las propiedades de ser insesgada, consistente y suficiente,
aunque su eficiencia (que compara dos estimadores) es menor en
relación con la varianza muestra!.
438
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAf:jO MUESTRAL
10.2.2. Métodos de obtención de estimadores
Una vez que ya se sabe qué propiedades han de cumplir los estadísticos para que se puedan emplear como estimadores, se estudia cómo se
estima el parámetro, o lo que es lo mismo, cómo se determina su valor o
los valores entre los que se encuentra.
Existen varios métodos para la obtención de estimadores que garantizan las propiedades antes enunciadas y que se aplican en circunstancias
específicas. Sin embargo, hay dos que son los más empleados para obtener
los estimadores que habitualmente utilizamos en Psicología y Ciencias de
la Salud. Estos métodos son mínimos cuadrados y máxima verosimilitud .
■
Método de mínimos cuadrados. Este método trata de obtener
aquel estimador que minimice las distancias (al cuadrado) entre el
valor estimado del parámetro y los resultados muestrales observados (Novo, 2010). Es decir que:
I, (X; - 0)2 sea
mínimo, donde i = 1, 2, ... , n
No siempre es el mejor método, pero resulta muy útil para estimar
los parámetros de la regresión, por ejemplo.
■
Método de máxima verosimilitud. Este método obtiene como estimador de un parámetro aquel valor del estadístico que hace lo más
verosímil posible la muestra obtenida. En otras palabras, se trata de
elegir, de entre todos los posibles valores del parámetro, aquel que
maximice la probabilidad de obtener el resultado particular observado en la muestra.
10.2.3. Estimación puntual
Independientemente del método escogido para la obtención de los estimadores, y partiendo de que el estimador seleccionado cumple las propiedades para ser un buen estimador, la estimación puntual consiste en
dar un valor numérico único al parámetro desconocido. En otras palabras,
consiste en utilizar el valor del estadístico para estimar el parámetro.
Aunque parece muy práctico, este tipo de estimación no deja de tener
inconvenientes. Teniendo en cuenta el elevado número de muestras que
podemos extraer de la población y que de cada una de ellas podemos realizar una estimación, el número de estimaciones podría resultar excesivo.
439
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGIA Y CIENCIAS DE LA SALUD
Además, aun cuando la muestra sea representativa de la población y el
estimador cumpla con las características exigidas, no se puede establecer
ni la fiabilidad de la estimación ni el error que se comete. En estos casos,
lo único que podemos afirmar es que el error cometido en la estimación
se hará menor a medida que aumente el tamaño de la muestra. En definitiva, la estimación puntual no siempre es la más aconsejable y útil.
Ejemplo 10.3. Retomando el Ejemplo l. l. del Tema 1, la media en
la muestra de la variable horas de estudio es 10,55. ¿cuál es la media
de las horas de estudio de los alumnos de segundo curso de Bachillerato en la población? En términos estadísticos, les µ = 10,55?
Ya que se trata de una estimación puntual diremos que la media de
las horas de estudio de los estudiantes de segundo de Bachillerato
es 10,55 y nada más podemos aportar. Evidentemente, este dato es
poco informativo ya que nada nos dice del error de estimación que se
comete (diferencia entre estadístico y parámetro) ni podemos asig nar ningún valor que indique la fiabilidad de la estimación hecha.
10.2.4. Estimación por intervalos
La estimación por intervalos consiste en obtener una medida del
error (diferencia entre el estimador y el parámetro) que se comete al rea lizar la estimación con una determinada probabilidad. Por tanto, estimar
por intervalos es atribuir al parámetro un rango de valores posibles dentro
del cual estará incluido el parámetro con una determinada probabilidad.
Mediante la estimación por intervalos, en lugar de un solo valor (como
en la estimación puntual), obtenemos un rango de posibles valores del
parámetro, que se denomina intervalo de confianza y a cuyos límites
se les llama límites del intervalo de confianza.
En la Figura 10.1, los corchetes indican cuáles son los límites del intervalo y la llave los posibles valores estimados del parámetro 0. L;nr hace
referencia al límite inferior y Lsup al límite superior del intervalo.
440
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
[
0
]
Figura 10.1. Representación de los límites del intervalo y posibles valores del parámetro
0 en una distribución.
A la zona sombreada se le denomina nivel de confianza (n.c.), y se
corresponde con la probabilidad asociada al intervalo que contiene todos
los posibles valores que puede tomar el parámetro 0. Se le llama nivel
de confianza y no de probabilidad ya que, una vez extraída la muestra,
el intervalo de confianza contendrá al verdadero valor del parámetro
o no. Lo que sabemos es que si repitiésemos el proceso con muchas
muestras podríamos afirmar que el (1- a )% de los intervalos así construidos contendría al verdadero valor del parámetro. a es el nivel de
significación y hace referencia a la cuantía del margen de error que se
asume a priori.
La principal ventaja de este método es que se puede valorar la seguridad con la que se realizan las estimaciones mediante el nivel de confian za , el cual se expresa en términos de probabilidad.
A continuación vamos a presentar algunas características del intervalo de confianza:
■
Relación entre amplitud del intervalo y nivel de confianza
En la Figura 10 .2 se muestran tres distribuciones en las que se han
establecido tres intervalos de confianza (zona sombreada en el grá fico) que van aumentado a medida que aument a 1 - a . Como se
puede apreciar, cuanto mayor es el intervalo de valores mayor es la
probabilidad de que se encuentre dentro de él el verdadero valor de
0 y la estimación es menos precisa . Lo anterior quiere decir que la
441
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
precisión de la estimación se relaciona de forma inversa con el
nivel de confianza, a mayor confianza en la estimación, mayor será
el intervalo (el rango de posibles valores del parámetro) y, como
consecuencia, la estimación es menos precisa. En resumen, a mayor confianza menor precisión.
a)
1- a
= 0,60
b)
e)
l- a =0,95
1 - a = 0,99
Figura 10.2. Distribución con nivel de confianza : a) 0,60; b) 0,95; c) 0,99.
■
Fijación del nivel de confianza
El investigador es quien decide y fija el valor del nivel de confianza
en función de la valoración personal que hace sobre diversos aspectos: el diseño de su trabajo, la definición y obtención de la muestra,
la recogida de información, etc. Por convenio, en general se adoptan
los niveles del confianza de 1- a = 0,95 ó 1- a = 0,99.
■
Nivel de riesgo o significación a
El opuesto al nivel de confianza se llama nivel de riesgo, margen de
error o nivel de significación y se rep resenta por a . Indica la proba bilidad de que el valor del parámetro no se encuentre dentro de los
límites definidos. Como se desprende de la Figura 10.3, a se reparte entre los dos extremos de la curva que delimitan el intervalo de
confianza (1 - a ). Es decir, que el margen de error se divide en dos
partes iguales siendo el área correspond iente a cada una a /2 (zonas
sombreadas en la figura).
442
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
a/2
~
Figura 10.3. Representación del nivel de riesgo (zonas sombreadas) de una distribución .
Entre el nivel de confianza (1- a) y el nivel de riesgo o significación a
existe una relación inversa. Como vemos en la Figura 10.4, cuanto mayor
es el nivel de confianza menor es el margen de error.
a)
a = 0,05
Nivel de confianza= 1 - 0,05 = 0,95
0,95
b)
a = 0,01
Nivel de confianza= 1- 0,01 = 0,99
0,005
0,99
Figura 10.4. Representación del nivel de riesgo a) a= 0,05; b) a= 0,01
443
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
10.3. CÁLCULO DEL INTERVALO DE CONFIANZA
Para poder calcular el intervalo de confianza de un parámetro cualquiera es necesario conocer la distribución muestra! del estadístico correspondiente y los parámetros que la definen. Es decir, conocer la esperanza
matemática y el error típico.
En general, para construir un intervalo de confianza para un parámetro se suma y se resta al estimador, 0, una cantidad que llamamos error
máximo de estimación, Emax , y que veremos en los apartados siguientes.
Para comprender bien como se define el intervalo de confianza se retoma el concepto de puntuación Z (ver Tema 3) ya que, junto a la definición de error de típico (ver Tema 9) son los elementos necesarios para
entender cómo se construyen los intervalos de confianza y cuál es su
significado .
En el tema anterior se ha expuesto cuál es la distribución muestra!
de la media en función de las condiciones de la variable aleatoria X en la
población . En las páginas siguientes vamos a presentar cómo se determinan los intervalos de confianza correspondientes a la media (con varianza
poblacional conocida y desconocida), la proporción y la varianza.
10.3.1. Intervalo de confianza para el parámetroµ con cr2
conocida
Si la variable aleatoria X sigue una distribución normal en la población,
y se conoce la varianza poblacional, la distribución muestra! de la media
X es X ➔ N(µ; J-¡;}siendo E(x) = µy ª x = Jn·
Ya que la distribución muestra! de la media es normal, se tipifica sin
más que aplicar la transformación a Z:
X- E(x)
X - µ
Z- - - - - -
-
ªx
-
-
a/ ✓
n
donde Z es N(O,1).
Acudiendo a las tablas de la distribución normal del Formulario ( explicada en el Tema 8), se puede calcular la probabilidad de que la variable Z
444
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
se encuentre entre dos valores concretos. Si a se corresponde al margen
de error (o nivel de significación que se ha fijado) tendremos la representación que se muestra a continuación.
Figura 10.5. Curva normal con la representación de la puntuación t ipificada Z, el intervalo
de confianza y el nivel de significación.
Sustituyendo Z por su valor:
(
p Z a. / 2 :s;
µ
-X -✓
n :s; Z l - a/2
<J /
)
== 1 -
CX
A partir de esta expresión, el objetivo es determinar los intervalos para
µ:
p ( za/2
1✓n :s; X - µ :s; z l - a/2 1✓n) == 1 -
a
Restando la media X en todos los términos:
p
(-x+
z a./2
1✓n :s; - µ :s; -X+ z l - a/2 1✓n) == 1 -
a
multiplicando por -1:
445
11
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
teniendo en cuenta que Z 012
= - Z 1 _ 012 :
(10.4)
donde los límites del intervalo son:
(10.5)
(10 .6)
La semi -amplitud (la mitad de la amplitud) del intervalo de confianza se denomina Error máximo de estimación, siendo su valor
E max
= ¡ z012 l cr/✓n. Nos indica que el investigador asume con un nivel de
confianza del (1 - a )% que la diferencia máxima entre el valor estimado a
partir de la muestra y el valor real del parámetro es igual a:
(10.7)
Ejemplo 10.4. Se sabe que la subescala de Fluidez Verbal del Explorador Neuropsicológico de Fluidez Verbal en niños (ENFV) es una
variable que se distribuye N
Se selecciona una muestra de
100 niños superdotados y se les administra el test, obteniendo una
media X = 23 y una desviación típica S x = 5. ¿Entre qué valores se
encuentra la media de la población de niños superdotados con un
nivel de confianza n.c. = 1- a= 0,95?
(µ; .J4s).
446
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
Intervalo de confianza y nivel de confianza para a= 0,05
Intervalo a: [-1,96; 1,96]
Por tanto, teniendo en cuenta que conocemos la desviación típica de
la población, cr = J45 = 6, 71, los valores que delimitan el intervalo de
confianza son:
Linf : X - 1, 96 cr/ ✓
n
= 23 -1, 96 x 6, 71/Jioo = 21, 68
Lsup: X+ 1, 96cr/✓
n
= 23 + 1, 96 x 6, 71/✓100 = 24, 32
El intervalo de confianza de la media en fluidez de los niños superdotados es:
P(21,68 ~ µ ~ 24,32) = 0,95
Siendo sus límites µ: [21,68; 24,32]
Es decir, que con una confianza del 95% la media en la subescala de
Fluidez del ENFV de los niños superdotados se encuentra entre 21,68
y 24,32.
La obtención de los intervalos correspondientes a la media, conocida
la varianza poblacional y siendo normal la distribución de la variable de
estudio es aplicable también al caso en el que la variable no siga la distribución normal siempre y cuando el tamaño de la muestra sea grande
(n > 30).
Como se vio en el Tema 9, el Teorema del Límite Central establece que
la distribución muestra! de la media se aproxima a la distribución normal
a medida que el tamaño de la muestra va aumentando ( en la práctica
con n > 30 el ajuste es bastante bueno) sin que necesariamente la variable aleatoria X tenga una distribución normal. De este modo, cuando el
tamaño muestra! sea grande y queramos estimar la media poblacional,
podemos utilizar el intervalo antes definido.
447
INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 10.5. Sea X una variable de distribución desconocida y con
desviación típica poblacional cr = 4. Se extrae, mediante muestreo
aleatorio simple, una muestra de tamaño n = 50 y se obtiene una media X = 44. ¿Entre qué valores se encuentra la medía de la población
con un nivel de confianza n.c. = 1 - a= 0,95?
Por el Teorema del Límite Central se sabe que cuando n > 30 (en
nuestro caso n = 50) la X tiende a la distribución normal con µx = µ y
4
4
· · ' t1p1ca
' . o error t1p1co
' . 1gua
.
1 a: cr:x = fñ
cr = .Jso
d esv1ac1on
= , = O, 57
7 07
Por tanto, se puede decir que la distribución muestra! de la X se
aproxima a N(µ; 0,57) .
Valores Zª 12 : [-1,96; 1,96]
Por tanto, teniendo en cuenta que conocemos la desviación típica de
la población, cr = 4, los valores que delimitan el intervalo de confianza
son:
L;nf : X - 1, 96cr/fñ
= 44 - 1, 96 x 4/ .Jso = 42, 88
Lsup: X+ 1, 96cr/fñ
= 44 + 1, 96 X 4/ .Jso = 45, 12
El intervalo de la media poblacional con un nivel de confianza de 0,95
es:
P(42,88 < µ < 45,12) = 0,95, siendo sus límitesµ: [42,88; 45,12]
10.3.2. Intervalo de confianza para el parámetroµ con cr2
desconocida
Si la variable aleatoria X tiene distribución normal en la población, pero
la varianza cr 2 es desconocida, sabemos del Tema 9 que la distribución
muestra! de la media X sigue la distribución t de Student definida por:
X ~
t (µ;
Esto implica que:
448
5
.7,;
1
)
con n - 1 grados de libertad.
1
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
T = /
;¿ ,
también sigue una distribución t con n- 1 g.l.
n- 1
✓
n
El intervalo de confianza para T sería:
p ( tn - l; a/2 :::; T ::,; tn - 1;1 - a/2 )
=1-
a
y sustituyendo en T:
[
X- µ
p tn - l;a/2 ::,; -5-:::; tn - l;l - a/2
n- 1
]
=1-
(10.8)
a
✓
n
Siguiendo el mismo razonamiento que en el caso anterior (conocida a)
se tiene:
p ( -X
-
5
1tn -
l;a/2 1
Jn - µ -<
____il__::_!_ <
5
-X + 1tn - l;a/2 1 ____il__::_!_
Jn )
-- 1 -
a
(10.9)
Los límites del intervalo de confianza son:
Jn
Linf
= -X
sn- 1
(10.10)
Lsup
= -X+ 1tn - l;a/2 1 sn
Jn- 1
(10.11)
1
- tn - l; a/2
1
449
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Ejemplo 10.6. En un colegio se selecciona, por muestreo aleatorio
simple, una muestra compuesta por 90 niños y se les adm inistra el
Test de Raven de inteligencia. La media y la cuasidesviación típica obtenidas en la muestra fueron respectivamente 100 y 14. ¿Entre qué
valores de encuentra la media de la población de niños en el Test de
Raven de inteligencia con un nivel de confianza (n.c.) 1- a= 0,95, si
se sabe que la distribución en la población es normal?
Se trata del caso en el que debemos estimar el intervalo para la me día poblacional no conociendo la varianza poblacional y sabiendo que
la distribución de la variable en la población es normal.
Por tanto, buscamos el intervalo para µ:
p (X -
ltn - l; a/2
I
s:¿ : ;
µ ::; X + ltn - l; a/2 I
s¡,t )=
1 - a
Valores tn - l; a/ 2 de las tablas de t de Student (ver Formulario):
tn - l ;a/2
= t89;0,02 5 = t89 ;0,975 = ±1, 987
Los límites del intervalo de confianza son:
l,nf = -X -
.Jri
tn - l; a/2 1 sn - 1
1
14 = 100 - 2, 92 = 97, 08
= 100 - 1, 987 X .Jgo
14 = 100 + 2, 92 = 102, 92
½up = -X + 1tn - l; a/ 2 1 sn
.Jri- 1 = 100 + 1,987 X .Jgo
Así pues, el intervalo de confianza de la media en el Test de Raven
de los niños es:
P (97, 08 < µ < 102, 92)
= O, 95 y sus límitesµ: (97, 08; 102, 92]
Es decir, que con una confianza del 95% la media en el test de Raven
de los alumnos de Primaria se encuentra entre 97,08 y 102,92.
450
~
'
ESTIMACIÓN DE PARAMETROS Y CALCULO DEL TAMAÑO MUESTRAL
En caso de que la variable X tenga una distribución desconocida y el
tamaño muestra! sea n 2 30, según el Teorema del Límite Central, la dis5
tribución muestra! de la media es normal X~ Z
(µ; J~/}
Por tanto, los límites de los intervalos en esta aproximación a la normal
son:
-1
l..;nf = -X - 1z a/2 1 sn
✓
n
(10.12)
(10.13)
10.3.3. Intervalo de confianza para el parámetro 1t
(aproximación a la normal)
La distribución muestra! del estadístico P cuando se cumple que la
muestra es grande (n 2 30; o nP 2 5 y n (1 - P) 2 5) es N(0,1) aproximadamente, por lo que
z
= ~ - A partir de la tipificación de P podemos
n(l - n)
n
construir el intervalo de confianza de la siguiente manera:
1
P- n
p Z a/2 ~ ~
~ Zl-a/2 = 1 - a
P (1 - P)
1
(10.14)
n
Aplicando el mismo razonamiento que el visto en los estadísticos presentados y, haciendo las correspondientes transformaciones, se tiene que
la probabilidad de obtener un intervalo de confianza que contenga el parámetro es:
451
INTRODUCCIÓN Al ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
(10.15)
siendo sus correspondientes límites:
(10.16)
(10 .17)
Ejemplo 10.7. En un Centro Asociado de la UNED se se leccionan
al azar 120 estudiantes de diferentes carreras, de los cuales 54 son
bilingües. Se desea conocer el intervalo de confianza al 95% relativo
a la proporción de estudiantes bilingües en este Centro.
P=
L.;nf = P - z a12
f.;nf
½up
v~
~
= 0, 45 - 1, 96.j(O, 45
= 0, 45
54
= O 45
120
'
X
0, 55)/ 120 = 0, 45 - 0, 088 = 0, 362
+ 1, 96.j(O, 45 X 0, 55)/120
= 0, 45
Por tanto, el intervalo es: P(0,36 ~ n ~ 0, 54)
Los límites son: [0,36; 0,54]
'l'~
452
+ 0, 088
= 0, 538
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
Por ello, podemos decir que con una confianza del 95% la proporción
de alumnos del Centro Asociado de Madrid que son bilingües se en cuentra entre 0,36 y 0,54.
10.3.4. Intervalo de confianza para el parámetro o-2
Al presentar la estimación puntual en el apartado 9.2.1 se vio que la
varianza 5~ es un estimador sesgado de cr 2 , siendo la cuasivarianza el
estimador insesgado . Por este motivo vamos a utilizar la cuasivarianza
2
muestra!,
1 como estimador de cr .
5;_
Además, sabemos que
(n - 1)52
O'
2
n- l se distribuye
x~_1 .
Podemos construir el intervalo de confianza con un nivel de confianza
de 1 - a :
(n - 1)5; _1
2
p ( Xn - 1,a/2
:;;
0'2
2
:;; Xn - 1,1-a/2
l'
(10.18)
dividiendo por (n - 1) 5;_1 los términos de la desigualdad:
P
X~ - l, a/2
2
[ (n-1)5nl
<
-
_.!,_ <
a
2-
X~ - 1,1 -a/2 )
2
(n-1)5n- l
=l _
ª
Por tanto, el intervalo de confianza para la varianza queda definido
por la expresión:
P
(n - 1)5; _1
[
2
Xn - 1, a/2
2 cr 2 2
(n - 1)5;_1 )
2
Xn - 1,1 -a/2
= 1 -a
(10.19)
Sus límites inferior y superior son:
453
INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
L;nr =
(n - 1)5,;_1
(10.20)
2
Xn - 1,1- a/2
(n -1) 5,;_
= __2 _ __1
Lsup
(10.21)
Xn - l ,a/2
El límite inferior se refiere a 1 -
½· Esto se debe a que se trata de una
desigualdad dada por (10.17), que nos indica que cr 2 2'.
que es lo mismo
(n - 1)5 2
n- l
2
Xn - 1,1 -a/2
(n - 1)5 2
1
n- ,
2
Xn - 1,1 -a/2
o lo
:s; cr 2 es decir, el límite inferior.
Ejemplo 10.8. La variable estrés en el trabajo se distribuye normalmente en una determinada población de trabajadores. En una
muestra aleatoria de 20 trabajadores se obtuvo una cuasivarianza de
12,89. Calcular el intervalo de confianza de la varianza con un nivel
de confianza del 95%.
Dado que desconocemos la varianza poblacional debemos utilizar su
estimador, que es la varianza insesgada:
Por tanto, el intervalo de confianza para cr 2 es:
p
(n-1)5,;
[
2
-
1
2'. cr 2 2'.
Xn- 1,a/ 2
(n - 1)5,;
2
-
1]
Xn - 1,1-a/2
Cuyos límites son:
'-; f
n
4,
= (n-1)5,;_1 = (20 X~ - 1,1- a/2
1) x 12,89
Xf 9,0,975
=
244,91
32, 8 523
= 7, 45
= (n-1)5,;_1 = (20 - 1) x 12,89 = 244,91 = 27 50
8 , 9065
X~ - 1, a/ 2
Xf 9,0,025
1
up
454
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
El intervalo de confianza para la varianza es: P (7, 45
$
cr 2
$
27, 50)
y los límites: [7,45; 27,50]
Por tanto podemos decir que, con una confianza del 95%, la varianza
de la variable estrés en el trabajo se encuentra entre 7,45 y 27,50.
Cuando las muestras son grandes (se considera grande cuando n > 100),
la distribución muestra! de la varianza insesgada se puede aproximar a la
2.
2
norma I N ( cr , Sn - l
[2).
~n
Por lo tanto, cuando n > 100 se puede construir el intervalo de confianza para la varianza definido como:
(10.22)
Los límites del intervalo son:
(10.23)
(10.24)
Ejemplo 10.9. En una población, la variable motivación se distribuye
normal. Se extrae una muestra aleatoria de tamaño 120 y se obtiene
una cuasivarianza muestra! de 6. Construir el intervalo de confianza
de la varianza para un nivel de confianza del 95%.
455
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
2¡¡.2f2
Í;nf = Sn- 1 - Za/2 Sn- 1\{,i =.6 -1, 96
'-sup
=SL1 +Jza;2Js;_l ~
X
6
X
íT" = 6 -1, 518 = 4, 48
VLlO
=6+1,96 x 6 x ✓1~0
=6+1,518=7,52
P(4,48 ~ cr 2 ~ 7,52) y los límites: [4,48;7,52]
10.4. SIGNIFICADO DEL NIVEL DE CONFIANZA
Según acabamos de ver, un intervalo tiene asociado un nivel de confianza que podría interpretarse, en principio, como la probabilidad de que
el parámetro desconocido se encuentre entre los límites del intervalo. Sin
embargo, esto no es del todo correcto, ya que el concepto de probabilidad
solo es aplicable a variables y los valores de los límites del intervalo una
vez calculados son valores constantes (no son variables).
Para interpretar correctamente el nivel de confianza asociado al intervalo (por ejemplo 0,95) se debe pensar de la siguiente manera: si se
extraen un número elevado de muestras (todas del mismo tamaño) y calculamos la media en cada una de ellas, obtendremos tantos intervalos de
confianza como medias hayamos calculado. Pues bien, el 95% de todos
los intervalos calculados tienen dentro al parámetro y el 5% no. O lo que
es lo mismo, de cada 100 intervalos que construyamos, cabe esperar que
95 capten el valor del parámetro (intervalos correctos) y 5 no lo capten
(intervalos incorrectos). Por tanto, una proporción de 1 - a , de todos los
intervalos de confianza contendrá al parámetro poblacional y una proporción a no los contendrá.
En la Figura 10.6 los intervalos correspondientes a X 1 y X 4 no cubren el
valor del parámetro , mientras que los intervalos de X2 y X 3 sí lo hacen:
456
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
a/2
\
11
•
•µ
•
X3
X2
X4
X1
Figura 10.6. Representación _g_el ~rá!:!l_etrQ__J.-1 y los intervalos correspondientes a las medias muestrales X1, X2, X3 y X 4.
Como puede observarse en la figura, las medias X 1 y X 4 están dentro
de la zona sombreada y el intervalo de confianza NO contiene a la media poblacional. Sin embargo, X 2 y X 3 están en la zona no sombreada
y contienen al parámetro. Por tanto, cualquier valor de la media que se
encuentre en las zonas sombreadas da lugar a intervalos que NO con tienen al parámetro, siendo la probabilidad de que esto ocurra de 0,05
(0,025 + 0,025). Por el contrario, el valor de la media que se encuentre
en la zona no sombreada contendrá al parámetro y la probabilidad de
que ocurra es de 0,95.
Se habla de probabilidad cuando se hace alusión a la variable media ,
por eso al referirnos al intervalo hablaremos de confianza y no de probabilidad.
10.5. GENERALIZACION DE LA CONSTRUCCIÓN DE
INTERVALOS
Se puede generalizar el procedimiento de construcción de intervalos
representados por:
457
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
IC = [Estimador
± Error máximo de estimación]= [e± Emax ]
(10.25)
Para estimadores con distribución muestra! conocida, los pasos
para construir el intervalo son:
l. Determinar el parámetro que queremos estimar y el estadístico (estimador) que, cumpliendo con las propiedades que debe tener un
buen estimador, lo estima.
2. Conocer la distribución muestra! del estadístico (estimador) y los
parámetros que la definen (media y error típico). La distribución
muestra! nos da las probabilidades asociadas a cada uno de los valores (ver Tema 9).
3. Fijar el nivel de significación a o el nivel de confianza 1- a . Recuérdese que a lo fija el investigador en virtud de la valoración personal
que hace de la seguridad de sus datos y del empleado por otros
investigadores en las mismas o muy similares circunstancias . Suele
ser por convenio: a= 0,05 o a= 0,01.
4. Determinar el error máximo de estimación (Emax ) definido por el
producto del error típico de la distribución muestra! del estadístico
que estima al parámetro por el valor del estadístico (Z, T, F, etc.)
correspondiente al nivel de significación prefijado.
10.6. FACTORES QUE AFECTAN AL INTERVALO DE CONFIANZA
Entre los factores que pueden afectar al intervalo de confianza tene mos:
■
Nivel de confianza
Según se ha visto en los apartados anteriores, la mayor o menor am plitud de un intervalo (o también, menor o mayor precisión) depende
fundamentalmente del nivel de confianza con el que se decide trabajar. De
este modo, con 1 - a= 0,95 tendremos intervalos menos amplios (o más
precisos) que con la elección de 1 - a = 0,99 .
458
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
■
Error típico
El error típico no es más que una medida de la variabilidad de la distribución muestra! del estadístico (ver Tema 9). Por tanto, depende del
tamaño muestra! n y de la homogeneidad de la muestra, afectando ambos
factores al intervalo de confianza.
■
Tamaño muestra!
El error típico es inversamente proporcional al tamaño muestra!, por
tanto, a mayor tamaño muestra! n menor es el error típico y, por tanto,
menor amplitud del intervalo y mayor precisión.
■
Homogeneidad de la muestra
Sí las muestras son homogéneas eso quiere decir que la varianza es
pequeña y por ende la desviación típica (ya sea poblacional o muestra!),
en consecuencia el error típico será pequeño, consecuentemente la amplitud del intervalo es menor y por tanto la precisión será mayor.
10.7. CÁLCULO DEL TAMAÑO MUESTRAL
En el Tema 9 se han descrito las distintas técnicas de muestreo, pero
se dejó pendiente el cálculo del tamaño muestra!. Con los conocimientos
abordados en este tema ya se puede hacer frente a esta cuestión, que será
la última que se estud ie en este curso de Introducción al Análisis de Datos.
Todo estudio en el que se trabaja con muestras, además de garantizar
la representatividad de las mismas (que se consigue utilizando el procedimiento de muestreo acorde a la situación de investigación planteada),
es imprescindible determinar el tamaño que ha de tener la muestra. El
tamaño muestra! tiene que ser suficiente para garantizar la precisión deseada en la estimación de los parámetros y/o detectar de forma correcta
diferencias entre los grupos en el caso de que existiesen, valorar la intensidad de la relación, etc.
Como se ha comentado en la introducción a este tema, la Estadística
Paramétrica (dentro de la Inferencia Estadística) tiene dos procedimientos
de trabajo: la estimación de parámetros y el contraste de hipótesis. En ambos se parte de los datos muestrales. Sin embargo, en la estimación de parámetros se responde a una pregunta sobre la población,
mientras que el contraste de hipótesis se hace una afirmación sobre la
459
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
población que luego se comprueba. Por tanto, hay dos situaciones que se
deben considerar a la hora de determinar el tamaño muestra!.
En la estimación de parámetros, los factores que influyen en la
determinación del tamaño muestra! son:
■
El parámetro que se va a estimar.
■
El error máximo (Emax) que el investigador está dispuesto a admitir.
■
El nivel de confianza ( 1 - a) con el que se trabaja.
■
La precisión que se desea para el estudio.
■
La variabilidad que presenta la población en relación a la variable en
estudio.
En el contraste de hipótesis los factores son:
■
El error tipo I (a) y error tipo II (P) y la potencia estadística.
■
Magnitud de la diferencia (o tamaño del efecto).
■
Direccionalidad de la hipótesis.
■
Variabilidad de la población respecto a la variable en estudio.
Estos factores no son objeto de estudio este curso. Se definirán y estudiarán con detalle en la asignatura Diseños de Investigación y Análisis
de Datos de segundo curso.
En ambos casos, el tamaño muestra! debe ser un número entero y, por
tanto, cuando su cálculo de lugar a un número decimal debe redondearse
siempre al inmediato superior.
En el apartado siguiente se presentan los cálculos de los tamaños
muestrales para la estimación de parámetros, en concreto, para el parámetro media y proporción.
10.7.1. Tamaño muestral para el parámetro media
La determinación del tamaño muestra! gira en torno a los conceptos de
error típico y de error máximo de estimación. Al igual que en la determinación del intervalo de confianza, hay dos posibles situaciones: conocer o
desconocer la varianza poblacional.
460
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
10.7.1.1. Conocida la varianza poblacional
En este caso, el error máximo de estimación viene dado por:
Emax
2 a12I
=l
✓
n
ª
.
Si elevamos al cuadrado y despejamos n tendremos:
(10.26)
En el caso de poblaciones finitas y muestreo sin reposición debe
multiplicarse por el factor de corrección:
.,
1a po bl ac1on .
✓NN -- n1
donde N es el tamaño de
Entonces:
E
max
= l2 a12lcr ✓N - n
¡¡:,
N -
l
(10.27)
Y, por tanto:
(10.28)
Ejemplo 10.10. Se sabe que la subescala de Fluidez del ENFV es una
variable que se distribuye N
(µ, .J4s).
A) lQué tamaño muestra! es necesario para que el error cometido
en la estimación de la media en Fluidez de la población de niños
superdotados de Madrid (N = 20000) sea como máximo de 1,05
para un nivel de confianza de 0,99?
461
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
n=
2z2
_cr ___,aJ_
2 =
E~ax
2
45 X 2, 58 = 299,538 = 271 69 "" 27 2
(1, 05)2
1, 1025
'
B) Si se sabe que N = 20000 y que el muestreo es sin reposición,
¿cuánto sería el tamaño muestra! necesario?
Dado que la población es finita:
2
n=
=
- 2, 58 2
Z~12 cr N
2
Emax (N - 1) +
2
2 =
Z a ;2CJ
5990760
22348, 4355
= 268
'
1,05
2
X
x
45
x
20000
19999 + 2,58 2
X
45
=
06 "" 269
10.7.1.2. Desconocida la varianza poblacional
Lo habitual en la investigación es que no se conozcan los parámetros
media y varianza poblacional. En estos casos, la varianza también debe
ser estimada, al mismo tiempo que la media, mediante su estimador insesgado, la cuasivarianza.
La distribución muestra! del estadístico media (que es el que queremos
estimar) se ajusta a una distribución t de Student con n - 1 grados de libertad (n = tamaño de la muestra). Según se vio al presentar los interva los de confianza, en el caso de la varianza, el error máximo de estimación ,
Emax vendrá dado por:
(10.29)
siendo tn - l ;a/ 2 el valor de la distribución t de Student con n - 1 grados de
libertad .
E~ax
462
=
t2 .
52
n- l,a/ 2 n - l ,
n
y despejando n:
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
2
n = tn - l·,a/2
52
n- 1
(10.30)
E~ax
En el caso de poblaciones finitas o muestreo sin reposición habrá que
multiplicar por el factor corrector siendo, en consecuencia, el valor n:
(10.31)
Como se ha dicho, t 1 _a; 2 ;n - l sería el valor de t de Student en la Tabla VI
(ver Formulario) con n - 1 grados de libertad para la probabilidad (1- a )
especificada.
Ahora bien, si no se conoce todavía n, ¿cómo buscar en las tablas t de
Student con n - 1 grados de libertad? Existen dos soluciones posibles: a)
trabajar mediante aproximaciones sucesivas por un procedimiento iterativo; b) aproximar la distribución t de Student mediante la curva normal.
Se presentan ambas soluciones a través de un ejemplo .
Ejemplo 10.11. Se está interesado en determinar el consumo diario
medio de cigarrillos en una cierta población de fumadores . Sabemos
por estudios anteriores que la cuasivarianza vale 23,48 y se supone
la población infinita. En estas condiciones, ¿qué tamaño muestra! es
necesario para que el error máximo cometido en la estimación sea
menor de 0,75 cigarrillos con una probabilidad de 0,95?
Solución a: Procedimiento iterativo
Se parte de un número cualquiera de grados de libertad (po r ejemplo
26) y se obtiene el tamaño de n. A partir de este valor, se vuelven a
calcular los grados de libertad y n, y así hasta que dos valores sucesivos de n sean iguales:
iteración O:
g.l. = 26 ;
t 26 ; 0,0 25
= - 2,06
463
11
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
n = -2, 062
X 23, 48
0 1 75 2
= 177, 14 »
178
iteración 1:
g.l. = 177 ; t 177 ; 0,025 = - 1,98 (aproximadamente)
n = 1,982
X
23,48
o 75 2
=163
1
65 » 164
I
iteración 2:
g.l. = 163; t163 ;0,025= -1,98
n = 1,982
X 23, 48 = 163 65 » 164
0 1 75 2
'
Puesto que en dos iteraciones sucesivas se ha obtenido el mismo
valor paran, se da por finalizado el proceso. El tamaño muestra! necesario es de 164.
Solución b: Aproximación a la normal
Para el segundo procedimiento se parte de la base de que la distri bución t de Student se aproxima a la normal a medida que se incrementa el número de grados de libertad. Por tanto, el error cometido
al utilizar la distribución normal no será grande. Veamos:
n = 1,962
X
23, 48 = 160, 35 » 161
o, 75 2
Como se puede apreciar, la diferencia entre uno y otro procedimiento
es de sólo tres sujetos. Habitualmente los resultados obtenidos con
ambos métodos son muy parecidos, por lo que cuando no se requiera
una exactitud extrema, bastará con el procedimiento de la aproxi mación mediante la curva normal, que es considerablemente más
sencillo y rápido.
Otra cuestión es que, si aún no hemos obtenido la muestra (de hecho
estamos determinando su tamaño), lcómo podemos saber cuál es la varianza insesgada en nuestra muestra? Existen diferentes posibilidades,
464
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
pero el procedimiento más cómodo y efectivo es obtener un valor aproximado para la desviación típica insesgada (Sn _1 ). A partir de estudios
previos, o de la realización de un estudio piloto, partiendo de este valor
de Sn- l se calcula el tamaño muestra! (n) y se procede a la selección de la
muestra, medida de las variables, etc .
10.7.2. Tamaño muestral para el parámetro proporción
Como ya se sabe la distribución muestra! de Pes:
Cuando n > 30 el error máximo es:
(10 .32)
Por tanto:
z;
12 P (1 - P)
n =- ---
1
(10.33)
E~ax
Para la determinación del error típico de P su rge ahora un problema
añadido a los comentados en el caso de la estimación de la media, puesto
que p y q = (1 - p) dependen directamente de P, y es precisamente este
parámetro el que hay que estimar. Lo que se suele hacer en la práctica es
suponer que la varianza de la distribución muestra! es máxima (es decir,
p = q = 1 - p = 0,5), con lo que la muestra será casi con toda seguridad su perior a lo estrictamente necesario pero, por contra, no habrá que hacer
suposiciones arriesgadas sobre el valor de p.
Si la población es finita, o el muestreo es sin reposición , habrá que
corregir el tamaño muestra! multiplicado la expresión por el factor de
. , ~-n
correcc1on:
-N - 1
465
INTRODUCCIÓN AL ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
n = z;¡2P(l-P) ✓ N-n =
N -1
E~ax
z;¡2P(l-P)N
E~ax (N - 1) +
z; 12 P (1- P)
(10.34)
Ejemplo 10.12. Una muestra seleccionada al azar de alumnos de
Psicología indica que el 30% no está de acuerdo con el nuevo plan
de estudios. ¿cuál es tamaño muestra! necesario para que el error
máximo de estimación asociado al intervalo de confianza al 95% sea
0,06? Se asume población infinita.
Sabemos que p
= 0,30
y que Emax = 0,06
Por tanto:
n=
z;12 P (1 - P) = 1,96
2
Emax
2
x O, 30 x O, 70 =
»
224 17 225
2
'
0,06
Si no se conoce el valor de P se supone varianza máxima, es decir:
p = 0,5
n=
z; 12 P (1- P) = 1,96
E2
max
2
x o, 5 x O, 5 = O, 9604 =
»
266 78 267
O, 06 2
O, 0036
'
10.8. RESUMEN
A lo largo de este tema se ha expuesto una de las cuestiones esenciales de la Estadística Inferencia!, la estimación de parámetros. Se han presentado las propiedades que debe tener un estimador así como los procedimientos más habituales de estimación. Se ha estudiado la estimación
puntual de parámetros y se ha centrado la exposición en la estimación
por intervalos de confianza, exponiendo el procedimiento y su justificación. Se ha dedicado especial atención a la estimación correspondiente a
aquellos estadísticos estudiados a lo largo de esta materia y que son el
fundamento de todos los análisis estadísticos.
Sobre la base de estos conocimientos se han presentado los métodos
de cálculo del tamaño muestra! necesario para realizar la estimación de
466
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
parámetros conforme a los márgenes de error deseados y a las características del parámetro a estimar de forma que se garantice su validez.
Se puede decir que con este tema se inicia el estudio de la Estadística
Inferencia!, que es el contenido esencial de la materia Diseño y Análisis
de Datos de segundo curso.
10.9. E ERCICIOS
10.1.
La eficiencia relativa se define como ER
CT ·
= _§_ ' si ER
< 1, podemos
CT •
a,
decir que: A) 8i es un estimador menos eficiente que 02; B) 01 es
un estimador más eficiente que 02; C) sin conocer el sesgo no se
puede decir nada de la eficiencia.
A
A
A
10.2.
Sabiendo que la varianza muestra! (S; ) cumple las propiedades de
ser consistente, suficiente y sesgada y que la cuasivarianza muestra! (5~_1) es un estimador insesgado, consistente y suficiente, ¿qué
estimador se debe emplear para estimar la varianza?: A) La varianza; B) El cociente de ambos estimadores; C) La cuasivarianza.
10.3.
El nivel de confianza se corresponde con: A) la probabilidad asociada al intervalo que contiene todos los posibles valores que puede
tomar el parámetro. B) la probabilidad de que el parámetro poblacional tome un valor distinto al estadístico muestra!; C) la probabilidad de que el parámetro tome el mismo valor que el estadístico.
10.4.
La precisión de la estimación se relaciona con el nivel de confianza:
A) de forma exponencial; B) de forma inversa; C) de forma directa .
10.5.
Un psicólogo está interesado en conocer la tolerancia media a la
frustración de la población de estudiantes de matemáticas de la
Comunidad de Madrid. En un estudio previo se había obtenido que
la cuasidesviación típica de esta variable era 13. ¿Qué tamaño
muestra! es necesario para que el error máximo cometido en la
estimación sea menor de 4 con una confianza del 95%? (Se supone muestreo con reposición y resolver mediante el procedimiento
iterativo). A) 44; B) 68; C) 124 .
10.6.
Con los datos del problema anterior, ¿cuál es el tamaño muestra!
necesario si lo calculamos por aproximación a la normal? A) 124;
B) 41; C) 76.
467
INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
10.7.
Se desea estimar la media en la variable ansiedad rasgo de la
población de niños con TDAH. Se extrae por m.a .s. una muestra
compuesta por 64 niños con TDAH. Se sabe que la población de
niños con TDAH está formada por 3500 niños y que la variable
ansiedad se distribuye en dicha población N(µ, 20). ¿Qué error
máximo cometeremos con ese tamaño muestra! si el nivel de confianza es del 95% o del 99%? A) 4,86 para a= 0,05 y 6,39 para
a= 0,01; B) 3,95 para a= 0,05 y 7,09 para a= 0,01; C) 6,85
para a= 0,05 y 2,39 para a= 0,01.
10.8.
Un investigador considera que el Emax obtenido en las situaciones
descritas en el ejercicio anterior es excesivo y quiere rebajarlo a
2. ¿Qué tamaño muestra! requiere para un nivel de confianza del
95 y 99% respectivamente? A) 145 para el 95% y 235 para el
99%; B) 187 para el 95% y 165 para el 99%; C) 347 para el 95%
y 560 para el 99%.
10.9.
Se quiere conocer cuál es la prevalencia de la depresión, con un
error máximo del 3% y una confianza del 95%. ¿Qué tamaño
muestra! es necesario asumiendo población infinita? A) 987; B)
1068; C) 1232.
10.10. Supongamos que la población de personas con depresión es de
15.000. ¿Qué tamaño muestra! necesitaremos para estudiar la
prevalencia de la depresión con las mismas exigencias que en el
ejercicio anterior con un error máximo de 3% y una confianza del
95%? A) 997; B) 1068; C) 2478.
10.11. Se sabe que la desviación típica de la altura de los edificios de la
Comunidad Gallega es 350 cm . Se quiere estimar la altura media
de estos edificios con un error máximo de 100 cm. Se selecciona
una muestra de 81 edificios. ¿cuál es el nivel de confianza implicado? A) No se puede calcular; B) 99%; C) 95%.
10.12. Determinar el tamaño muestra! (asumiendo población infinita) de
un estudio sobre el hábito de fumar para que, con una confianza
del 95%, la proporción estimada de fumadores no difiera de la
verdadera en más de un 4%. Se sabe, por estudios previos, que
la proporción de fumadores es de 0,05. A) 180; B) 250; C) 115.
10.13. Un psicólogo mide el TR en una tarea de reconocimiento de caras
y obtiene una cuasi desviación típica muestra! de 0,5 segundos.
¿cuál es el número de medidas que deberá hacer para que con un
468
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
n.c. del 95% el error de la estimación de la media no exceda de
0,05 segundos? (Resolver por el procedimiento iterativo). A) 385;
B) 463; C) 275.
10.14. Un grupo de 144 alumnos de secundaria seleccionados mediante
m.a.s. en una determinada Comunidad Autónoma realizan una
prueba de conocimientos de matemáticas obteniendo una nota
media de 6,3 puntos. La variable se distribuye normalmente
N(µ, 6). Calcular el intervalo de confianza para µ con una confianza del 99%. A) (4,52; 5,65); B) (6,58; 7,52); C) (5,01; 7,59).
10.15. Se selecciona una m.a.s . de 400 personas que vieron un nuevo programa de TV. Cien de ellos declararon que les gustó el
programa. Con estos datos determine el intervalo de confianza,
al 95%, para la proporción de personas que les gusta el pro grama. A) (0,2076; 0,2924); B) (0,3064; 0,5963); C) (0,1164;
0,3963).
10.16. Se selecciona mediante m.a.s. 60 alumnos de primero de Psicología de la UNED y un tercio de ellos habla inglés. Calcule con
a= 0,05 el intervalo de confianza para estimar la proporción de
alumnos que hablan inglés de esta población. A) (0,418; 0,2419);
B) (0,211; 0,449); C) (0,518; 0,6419) .
10.17. Si al lanzar 80 veces una moneda trucada se obtienen 45 caras,
¿cuál es el intervalo de confianza para estimar la proporción de
caras, con un nivel de significación del 5%? A) (0,513; 0,624); B)
(0,4547; 0,6703); C) (0,562; 0,794).
10.18. Se ha aplicado una prueba para medir el cociente intelectual a
una muestra de 100 universitarios españoles elegida de forma
aleatoria. Calculada la media de esta muestra se ha obtenido un
valor de 98 y una cuasidesviación típica de 15. ¿cuáles son los
límites del intervalo de confianza de la media poblacional con un
nivel de significación del 1%? A) (105,84; 108,93); B) (85,10;
115,87); C) (94,06; 101,94).
10.19. Con los datos del ejercicio anterior, determine los límites del intervalo de confianza de la varianza poblacional con un nivel de
significación del 1%. A) (51,17; 112,33); B) (158,91; 330,85);
C) (164,02; 317,91).
10.20. El peso (en gramos) de los recién nacidos sigue una distribución
normal. Se selecciona una m .a. de recién nacidos en un hospital
469
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
formada por 20 bebés, siendo la media en peso igual 3500 gramos. Determine el intervalo de confianza al 99% para la varianza
y la media, sabiendo que la cuasivarianza muestra! es 36. A) intervalo para la varianza (17,73; 99,94) y para la media (3496,16;
3503,84); B) intervalo para la varianza (3496,17; 3503,83) y
para la media (20,82; 76,80) C) intervalo para la varianza (18,62;
56,20) y para la media (3425,34; 3514,37).
10.10. SOLUCIÓN A LOS E ERCICIOS
10.1.
Solución: B
cr •
Ya que ER = ____§_ < 1 ➔ cr 9 < cr 9 ➔ 01 es más eficiente que 02
<J •
1
2
A
A
e,
e
10.2.
Solución:
10.3.
Solución: A
10.4. Solución: B
10.5.
Solución: A
Según lo visto en el Apartado 10. 7 .1.2, dado que desconocemos
la varianza poblacional, y aplicando el método iterativo:
n = t;_ l ,•a/2 S;_ l
E~ax
Para la primera iteración tomamos (arbitrariamente) n
= 15
Iteración O:
g .l. = 14;
n
=
t14 ; 0,025
(-2, 145)2
= -2,145
2
X
42
13 = 4,601 X 169 =
_
48 60 49
16
'
Iteración 1:
g.l. = 48; t 48 ; 0 , 025 = -2,009 (Dado que el valor de t para 48 grados
de libertad no está tabulado tomamos el más cercano g.l. = 50)
n
470
(-2, 009)2
X
169
4,036 X 169
16
= ------ = ---- =
4
2
42 63 - 43
'
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
Iteración 2:
g.l. = 42; t42 ; 0 , 025 = -2,021 (Dado que el valor de t para 42 grados
de libertad no está tabulado tomamos el más cercano g.l. = 40)
(-2, 021)2 x 169
42
4,084 x 169
= 43 14 - 44
16
'
n = - - - - , - - - = - -- Iteración 3:
g.l.
= 43;
t 42 ; 0 , 0 25 = -2,021. El valor den será por lo tanto 44.
Dado que las dos iteraciones sucesivas dan el mismo valor para
n, el proceso ha finalizado . El tamaño muestra! necesario es 44.
10.6.
Solución: B
n=
2
5 2
Zi - a/2 n - 1
2
Emax
2
2
= 1, 96 x 13 = 3,842 x 169 = 40 58 "' 41
42
16
'
Como vemos se obtiene un resultado similar.
10.7.
Solución: A
Es una variable con distribución normal y varianza conocida y en
población finita.
a) a= 0,05
Emax
=
Zl - a/2 0
.Jr,
= 1, 96
X
-✓fA.
20 =
4 ,9
Ya que la población es finita habrá que corregir multiplicando
.,
por e 1 factor d e correcc,on
_ z l - a/2 ª
.Jr,
E max -
✓N - n _
N -
✓N -n:
1 - 4, 9
N- 1
X
3500 - 64
3499
=
4 , 856 "' 4 , 86
b) a= 0,01
E
max
10.8.
= Z1 - a/2ª ✓N - n = 2,58 x 20 x 3500 - 64 = 639
.Jr,
N - 1
-✓
fA.
3499
,
Solución :
e
Al 95%:
471
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
20 2
22
=
X
X
(-1, 96)2
3499 + 20 2
X
3500
(-1, 96)
X
2
=
5378240
= 346 25 "" 347
15532, 64
'
Al 99%:
20 2 x (- 2, 58)2 x 3500
(;2 Z~¡2 N
n
10.9.
=
E~ax (N -1) + <J 2 Z ;¡2 = 2 2 x 3499 + 20 2 x (- 2, 58) 2 =
=
9318960
16658,56
=
559 41 "" 560
'
Solución : B
Dado que no se conoce p, partimos del supuesto p
tanto, q = 1 - 0,5 = 0,5. Supuesto población infinita:
= 0,5
y, por
Z; 12 P (1- P)
n =- -- E~ax
Por tanto:
n=
Z ;¡2 P (1 - P)
(-1, 96 )2 x 0, 5 x (1 - 0, 5)
E~ax
O, 0009
- - - - = - -- -- - - - =
1067 11 "" 1068
'
10.10. Solución: A
Se trata de una población finita, por tanto los cálculos anteriores
hay que corregirlos por el factor
n=
=
=
472
Z ;¡ 2 P (1 - P) N
2
2
Emax (N - 1) + Zª 12 P (1 - P)
(-1, 96)2
0, 0009
X
14406
14, 4595
X
=
0, 5 X (1- 0, 5) X 15000
14999 + 1,96 2
=
~
X
996 30 - 997
'
0, 5 X (1 - 0, 5)
=
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
10.11. Solución: B
=
Emax
Z
l -o./ 2
Zl -o./2CT
.Jn
= Emax.Jn = 100 X ✓
81 = 21 57
CT
350
Para conocer el nivel de confianza hay que determinar:
P(z
$;
Za.12) =
P(z
$;
2,57) = 0,9949
%= P(Z ~ 2,57) = 1 - 0,9949 = 0,0051
(X= 2
X
0,0051 = 0,0102
1- a= 1- O, 0102 = O, 9898 "' O, 99 El nivel de confianza es 99%
10.12. Solución: e
Dado que P = 0,05; 1 - P = 1 - 0,05
Emax
= O, 04
zª 12
= - 1, 96
= 0,95
n = Z ~12 P (1 - P) = - 1, 96 2 x O, 05 x O, 95 =
2
Emax
= 2401
X
O, 042
0,05
X
0,95 = 114,04 "' 115
10.13. Solución: A
n=
t n2- 1 a./2 5 n2- 1
,
E~ax
Calcularemos n por el proceso iterativo:
Partimos de g.l.
= 30
Iteración O:
t 30;0,0S/2
n=
= -2,0 42
- 2 1 042 2
X
0,05 2
0 52
I
= 416,976 ,,, 417
473
INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Iteración 1:
g.l.
z a/2
n
= 416.
Por aproximación a la normal.
= -1, 96
= -1
96 2 x 0 5 2
I
o 05 2
I
= 384, 16 "°' 385
I
Iteración 2:
g.l.
z a/2
n
=
= 384
Por aproximación a la normal.
= -1, 96
1 96 2
I
X
O 52
o, 05 2
I
=
384, 16 "°' 385
Dado que ya convergen las dos iteraciones, n
= 385
10.14. Solución: e
Supuestos:
Selección de la muestra por m.a.s .
La variable X se distribuye en la población N(µ,cr)
Conocemos la varianza poblacional.
Por tanto, la distribución muestra! de la media es N
intervalo de confianza para µ viene dado por:
Linf =
Lsup =
6,3- 2,58
6, 3 + 2, 58
X
X
6/ 12 = 6,3 - 1,29
(µ, ~) y el
vn
= 5,01
6/ 12 = 6, 3 + 1, 29 = 7, 59
El intervalo es: (5,01; 7,59)
10.15. Solución: A
Supuestos:
La variable aleatoria X es una variable Bernoulli (sólo dos valores:
éxito o fracaso).
Se conocen proporción en la población (o el valor P en la muestra).
Respecto al tamaño de la muestra: se cumple el criterio, ya que
es suficientemente grande ( 400 > 30).
474
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
Por tanto, es u na aproximación a la normal P
L ;n f
➔ N ( n, ✓• (ln- n)]
= p - IZa/2 1 ~ = 100 - 1, 96 X O, 25 (1- O, 25)
v~
400
400
= o, 25 - o, 0424 = o, 2076
Lsup =
p + 1za12I ~
=o, 25 + o, 0424 = o, 2924
El intervalo es: (0,2064; 0,2936)
10.16. Solución: B
Supuestos:
La variable aleatoria X es una variable Bernoulli (solo dos valores:
éxito o fracaso).
Se conoce n proporción en la población ( o el valor P en la muestra).
Respecto al tamaño de la muestra, se cumple el criterio ya que es
suficientemente grande (60 > 30).
Por tanto, es una aproximación a la normal P
➔ N ( n, ✓•(ln- •J]
P=l/3=0,33
Linf
= P - IZa/21 ~
=
Lsup =
0,33 - 0,119
p + 1za12I ~
=
=
!~
- 1,96
X
0,33(~~ 0,33) =
0,211
=o, 33 + o, 119 = o, 449
10.17. Solución: B
Supuestos:
La variable aleatoria X es una variable Bernoulli (solo dos valores:
cara o no cara).
Se conoce n proporción en la población ( o el valor P en la muestra)
Respecto al tamaño de la muestra, se cumple el criterio ya que es
suficientemente grande (80 > 30) .
475
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Por tanto, es una aproximación a la normal P
P=
45
= O, 5625; (1 - a)= O, 95
80
L;nf
= p - 1z a12 I
~ = :~ - 1, 96
= o, 5625 -
o, 1078 = o, 4547
Lsup
= p +1
za12I
➔ N ( •, J• (ln- • ) ]
O, 5625 (1 - O, 5625)
80
X
=
V~
~
= o, 5625 + o, 1078 = o, 6703
10.18. Solución: e
Si la variable aleatoria X tiene distribución normal en la población,
pero la varianza o- 2 es desconocida, sabemos del Tema 9 que la
distribución muestra! de la media X sigue la distribución t de Student definida por:
X ➔ t(µ; 5_
7,/) con g.l. = n-1 grados de libertad
Por tanto, con g.l.
1
= 99 t 99 ;o, oos = 2,626
¡sn1 = 98 - 2,626
C
L;nf
= -X -
Lsup
5 1
= X + ltn- 1·1- a/2 1
= 98 + 2,626
tn - l ·a/ 2
'
vn
'
n¿
vn
X
15
~ = 94, 06
v100
X
~ = 101, 94
v lOO
10.19. Solución: B
Dado que desconocemos la varianza poblacional deberemos utilizar su estimador que es la varianza insesgada. Sabemos que
(n - 1) 5 2
- - -- n_ -_
i sigue una distribución X~ - i que da lugar a los intervalos
2
Ci
de confianza definidos por:
L r = (n - 1) 5 ~_1 = 99 x 225 = 99 x 15
in
X~ - l ,(l-a/ 2 )
x~ 9 , 0 , 995
(n - 1) $ ~ - 1
99
Ls up = __
2 ___ =
Xn- 1,a/2
476
X
225
2
X99, 0,00S
2
140, 1695
=
22275 = 158
91
14 0, 1695
'
= 22275 = 330
67, 3276
' 85
ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL
10.20. Solución: A
Supuestos:
Distribución normal de X
Varianza poblacional: Desconocida
Muestra: m.a.s. n
= 20
A) Intervalo de confianza de la varianza
(n - 1)5~_1
2
La varianza sigue una distribución Xn - l ,a/ 2 definida: - -2 - - Xn - l, a/ 2
Por tanto:
L- r
m
L
= (n -
=
1)5~_1
X~ - l, (l - a/ 2)
= (n -
1)5~_1
2
sup
Xn - l, a./2
19 x 36
38, 5823
= l 7 , 73
= 19 x 36 = 99
6 8440
'
'
94
B) Intervalo de confianza de la media
X ➔ t (µ; 5-Fr,1 )
Lin f
con n - 1 grados de libertad y por tanto:
Jn
- 1tn - l ;a./2 1 sn - 1
6
= 3500 -
6
= 3500 + 3, 88 =
X
✓
20
= -X + 1tn - l; a./ 2 1 sn
Jn- 1 = 3500 + 2,861 X
✓
20
= -X
= 3500 -
2,861
3, 88
=
= 3496, 16
Lsup
= 3503,84
477
Referencias Bibliográficas
Amón, J. (1999). Estadística para psicólogos. Estadística descriptiva. Vol.
1. Madrid: Ed. Pirámide. 15ª Edición.
Botella, J., Suero, M., y Ximénez, M. C. (2012). Análisis de datos en psicología l. Madrid: Pirámide.
Fontes, S., García, C., Quintanilla, L., Rodríguez, R., Rubio, P. y Sarriá, E.
(2010). Fundamentos de investigación en Psicología. Madrid: UNED.
Garriga, A. J., Lubin, P., Merino, J. M., Padilla, M., Recio, P. y Suárez, J.C.
(2009). Introducción al análisis de datos. Madrid: UNED.
Kolmogorov, A. N. (1933, 1956). Foundations of the Theory of Probability.
Chelsea Publishing, Nueva York. 2ª edición.
Martínez-Arias, R., Castellanos-López, M. Á., y Chacón-Gómez, J. C.
(2014). Análisis de datos en Psicología y Ciencias de la Salud. Vol. I.
Madrid: EOS.
Martínez-Arias, R., Castellanos-López, M. Á., y Chacón-Gómez, J. C.
(2014). Análisis de datos en Psicología y Ciencias de la Salud. Vol. II.
Madrid: EOS.
Medhi, J. (1992). Statistical methods: an introductory text. New York:
Wiley.
Merino, J. M., Moreno, E., Padilla, M., Rodríguez- Miñón, P. y Villarino, A.
(2001). Análisis de datos en psicología l. Madrid: UNED.
Navas, M.J. (2001). Métodos, diseños y técnicas de investigación psicológica (1ª ed.). Madrid: UNED.
Novo, V. (2010). Estadística teórica y aplicada. Madrid: Sanz y Torres.
Pardo, A., Ruiz, M. A., y San Martín, R. (2009). Análisis de datos en Ciencias Sociales y de la Salud l. Madrid: Síntesis.
Ríos, S. ( 1985). Métodos estadísticos. Madrid: Ediciones del Castillo.
Stevens, S.S. (1946). On the theory of scales of measurement. Science,
103, 677-680.
Tukey, J. W. (1977). Exploratorydata analysis. Reading, MA: Addison-Wesley.
479
TABLAS ESTADÍSTICAS
INTRODUCCIÓN AL ANALI SIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCI AS DE LA SALUD
Tabla l. Función de probabilidad BINOMIAL
B(n,p)
n
X
1
1
o
2
2
2
o
3
3
o
3
3
4
4
4
4
4
1
1
2
1
2
3
o
1
2
3
4
5
5
5
5
5
5
o
6
6
6
6
6
6
6
o
7
7
7
7
7
7
7
7
1
2
3
4
5
1
2
3
4
5
6
o
1
2
3
4
5
6
7
f(x) = P(X = x) = (:)px qn-x
Probabilidad de éxito {p)
0 ,01
0 ,05
O,ló
0 , 15
0 ,20
0 , 25
0,30
0 , 35
0 ,40
0 ,45
0,, 50
0,9900 0,9500 0,9000 0,8500 0,8000 0,7500 0,7000 0,6500 0,6000 0,5500 0,5000
0,0100 0,0500 0,1000 0,1500 0,2000 0,2500 0,3000 0,3500 0,4000 0,4500 0,5000
0,9801
0,0198
0,0001
0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500
0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
0,0025 0,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500
0,9703
0,0294
0,0003
0,0000
0,8574
0,1354
0,0071
0,0001
0,5120
0,3840
0,0960
0,0080
0,4219
0,4219
0,1406
0,0156
0,3430 0,2746 0,2160
0,4410 0,4436 0,4320
0,1890 0,2389 0,2880
0 ,0270 0,0429 0,0640
0,1664
0,4084
0,3341
0,0911
0,1250
0,3750
0,3750
0,1250
0,9606
0,0388
0,0006
0,0000
0,0000
0,8145 0,6561 0,5220 0,4096
0,1715 0,2916 0,3685 0,4096
0,0135 0,0486 0,0975 0,1536
0,0005 0,0036 0,0115 0,0256
0,0000 0,0001 0,0005 0,0016
0,3164
0,4219
0,2109
0,0469
0,0039
0,2401
0,4116
0,2646
0,0756
0 ,0081
0,1785
0,3845
0,3105
0,1115
0,0150
0 ,0915
0,2995
0,3675
0,2005
0,0410
0,0625
0,2500
0,3750
0,2500
0,0625
0,9510
0,0480
0,0010
0,0000
0,0000
0,0000
0,7738
0,2036
0,0214
0,0011
0,0000
0,0000
0,5905
0,4437 0,3277 0,2373
0,1681
0,1160 0,0778 0,0503
0,0313
0,3281
0,0729
0,0081
0,0005
0,0000
0,3915
0,1382
0,0244
0,0022
0,0001
0,4096
0,2048
0,0512
0,0064
0,0003
0,3955
0,2637
0,0879
0,0146
0,0010
0,3602
0,3087
0,1323
0,0284
0,0024
0,3124
0,3364
0,1811
0,0488
0,0053
0,2592
0,3456
0,2304
0,0768
0,0102
0,2059
0,3369
0,2757
0,1128
0,0185
0,1563
0,3125
0 , 3125
0,1563
0,0313
0,9415
0,0571
0,0014
0,0000
0,0000
0,0000
0,0000
o, 7351
0,2321
0,0305
0,0021
0,0001
0,0000
0,0000
0,5314
0,3543
0,0984
0,0146
0,0012
0,0001
0,0000
0,3771
0,3993
0,1762
0,0415
0,0055
0,0004
0,0000
0,2621
0,3932
0,2458
0,0819
0,0154
0,0015
0,0001
0,1780
0,3560
0,2966
o, 1318
0,0330
0,0044
0,0002
0,1176
0,3025
0,3241
0,1852
0,0595
0,0102
0,0007
0,0754
0,2437
0,3280
0,2355
0,0951
0,0205
0,0018
0,0467
0,1866
0,3110
0,2765
0,1382
0,0369
0,0041
0,0277
0,1359
0,2780
0,3032
0,1861
0,0609
0,0083
0,0156
0,0938
0,2344
0,3125
0,2344
0,0938
0,0156
0,9321
0,0659
0,0020
0,0000
0,0000
0,0000
0,0000
0,0000
0,6983
0,2573
0,0406
0,0036
0,0002
0 ,0000
0,0000
0,0000
0,4783
0,3720
0,1240
0,0230
0,0026
0,0002
0,0000
0,0000
0,3206
0,3960
0,2097
0,0617
0,0109
0,0012
0,0001
0,0000
0,2097
0,3670
0,2753
0,1147
0,0287
0,0043
0,0004
0,0000
0,1335 0,0824
0,3115 0,2471
0,3115 0,3177
0,1730 0, 2269
0,0577 0,0972
0 , 0115 0,0250
0,0013 0 , 0036
0,0001 0,0002
0,0490
0,1848
0,2985
0,2679
0,1442
0,0466
0,0084
0,0006
0,0280
0,1306
0,2613
0,2903
0,1935
0,0774
0,0172
0,0016
0,0152 0,0078
0,0872 0,0547
0,2140 0,1641
0,2918 0 ,2734
0,2388 0,2734
0,1172 0,1641
0,0320 0,0547
0,0037 0 , 0078
0,7290
0,2430
0,0270
0,0010
0,6141
0,325 1
0,0574
0,0034
0,1296
0,3456
0,3456
0,1536
0,0256
Los valores interiores de la tabla indican la probabilidad de obtener x éxitos en n ensayos de un experimento binomial, donde p es la probabi lidad de éxito en un ensayo
482
TABLAS ESTADÍSTICAS
Tabla 1(cont.)
n
8
8
8
8
8
8
8
8
8
9
9
9
9
9
9
9
9
9
9
10
10
10
10
10
10
10
10
10
10
10
11
11
11
11
11
11
11
11
11
11
11
11
X
o
1
2
3
4
5
6
7
8
o
1
2
3
4
5
6
7
8
9
o
1
2
3
4
5
6
7
8
9
10
o
1
2
3
4
5
6
7
8
9
10
11
0,01
Probabilidad d~
0,20
0,25
0,1678 0,1001
0,3355 0,2670
0,2936 0,3115
0,1468 0,2076
0,0459 0,0865
0,0092 0,0231
0,0011 0,0038
0,0001 0,0004
0,0000 0,0000
éxito (p)
0,30
0,0576
0,1977
0,2965
0,2541
0,1361
0,0467
0,0100
0,0012
0,0001
0,35
0,0319
0,1373
0,2587
0,2786
0,1875
0,0808
0,0217
0,0033
0,0002
0,40
0,0168
0,0896
0,2090
0,2787
0,2322
0,1239
0,0413
0,0079
0,0007
0,45
0,0084
0,0548
0,1569
0,2568
0,2627
0,1719
0,0703
0,0164
0,0017
0,0039
0,0313
0,1094
0,2188
0,2734
0,2188
0,1094
0,0313
0,0039
0,0751
0,2253
0,3003
0,2336
0,1168
0,0389
0,0087
0,0012
0,0001
0,0000
0,0404
0,1556
0,2668
0,2668
0 , 1715
0,0735
0,0210
0,0039
0,0004
0,0000
0,0207
0,1004
0,2162
0,2716
0,2194
0,1181
0,0424
0,0098
0,0013
0,0001
0,0101
0,0605
0,1612
0,2508
0,2508
0,1672
0,0743
0,0212
0,0035
0,0003
0,0046
0,0339
0,1110
0,2119
0,2600
0,2128
0,1160
0,0407
0,0083
0,0008
0,0020
0,0176
0,0703
0,1641
0,2461
0,2461
0,1641
0,0703
0,0176
0,0020
0,1074
0,2684
0,3020
0,2013
0,0881
0,0264
0,0055
0,0008
0,0001
0,0000
0,0000
0,0563
0,1877
0,2816
0,2503
0,1460
0,0584
0,0162
0,0031
0,0004
0,0000
0,0000
0,0282
0,1211
0,2335
0,2668
0,2001
0,1029
0,0368
0,0090
0,0014
0,0001
0,0000
0,0135
0,0725
0,1757
0,2522
0,2377
0,1536
0,0689
0,0212
0,0043
0,0005
0,0000
0,0060 0,0025
0,0403 0,0207
0,1209 0,0763
0,2150 0,1665
0,2508 0,2384
0,2007 0,2340
0,1115 o, 1596
0,0425 0 ,0746
0,0106 0,0229
0,0016 0,0042
0,0001 0,0003
0,0010
0,0098
0,0439
0,1172
0,2051
0,2461
0,2051
0,1172
0,0439
0,0098
0,0010
0,0859
0,2362
0,2953
0,2215
0,1107
0,0388
0,0097
0,0017
0,0002
0,0000
0,0000
0,0000
0,0422
0,1549
0,2581
0,2581
0,1721
0,0803
0,0268
0,0064
0,0011
0,0001
0,0000
0,0000
0,0198
0,0932
0,1998
0,2568
0,2201
0,1321
0,0566
0,0173
0,0037
0,0005
0,0000
0,0000
0,0088
0,0518
0,1395
0,2254
0,2428
0,1830
0,0985
0,0379
0,0102
0,0018
0,0002
0,0000
0,0036
0,0266
0,0887
0,1774
0,2365
0,2207
0,1471
0,0701
0,0234
0,0052
0,0007
0,0000
0,0005
0,0054
0,0269
0,0806
0,1611
0,2256
0,2256
0,1611
0,0806
0,0269
0,0054
0,0005
0,9227
0,0746
0,0026
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,05
0,6634
0,2793
0,0515
0,0054
0,0004
0,0000
0,0000
0,0000
0,0000
0,10
0,4305
0,3826
0,1488
0,0331
0,0046
0,0004
0,0000
0,0000
0,0000
0,15
0,2725
0,3847
0,2376
0,0839
0,0185
0,0026
0 , 0002
0,0000
0,0000
0,9135
0,0830
0,0034
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,6302
0,2985
0,0629
0,0077
0,0006
0,0000
0,0000
0,0000
0,0000
0,0000
0,3874
0,3874
0,1722
0,0446
0,0074
0,0008
0,0001
0,0000
0,0000
0,0000
0,2316
0,3679
0,2597
0,1069
0,0283
0,0050
0,0006
0,0000
0,0000
0,0000
0,1342
0,3020
0,3020
0,1762
0,0661
0,0165
0,0028
0,0003
0,0000
0,0000
0,9044
0,0914
0,0042
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,5987
0,3151
0 ,0746
0,0105
0,0010
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,3487
0,3874
0,1937
0,0574
0,0112
0,0015
0,0001
0,0000
0,0000
0,0000
0,0000
0,1969
0,3474
0,2759
0,1298
0,0401
0,0085
0,0012
0,0001
0,0000
0,0000
0,0000
0,8953
0,0995
0,0050
0,0002
0 ,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,5688
0,3293
0,0867
0,0137
0,0014
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,3138
0,3835
0,2131
0,0710
0,0158
0,0025
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,1673
0,3248
0,2866
0,1517
0,0536
0,0132
0,0023
0,0003
0,0000
0,0000
0,0000
0,0000
0,0014
0,0125
0,0513
0,1259
0,2060
0,2360
0,1931
0,1128
0,0462
0,0126
0,0021
0,0002
0,50
483
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla 1(cont.)
n
Probabilidad de éxito (p)
X
0,01
0,8864
0,1074
0,0060
0,0002
0,0000
0,0000
0 ,0000
0 ,0000
0,0000
0,0000
0 ,0000
0,0000
0,0000
0,05
0,5404
0,3413
0,0988
0 ,0173
0,0021
0,0002
0 ,0000
0 ,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,10
0,2824
0,3766
0,2301
0,0852
0,0213
0,0038
0,0005
0 , 0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,15
0,1422
0,3012
0,2924
0,1720
0,0683
0 ,0193
0,0040
0,0006
0 ,0001
0 ,0000
0,0000
0,0000
0,0000
0,20
0,0687
0, 2062
0,2835
0 ,2362
0, 1329
0,0532
0 ,0155
0,003 3
0,0005
0 ,0001
0,0000
0, 0000
0 ,0000
13
o 0,8775
13
1 0,1152
13
2 0 ,0070
13
3 0,0003
13
4 0,0000
13
5 0,0000
13
6 0 ,0000
13
7 0,0000
13
8 0,0000
13
9 0,0000
13 10 0,0000
13 11 0,0000
13 12 0 ,0000
13 13 0,0000
0,5133
0,3512
0,1109
0,0214
0,0028
0,0003
0,0000
0,0000
0,1209
0,2774
0,2937
0,1900
0,0838
0,0266
0,0063
0 , 0011
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0550
0,1787
0,2680
0, 2457
0 ,1535
0,0691
0,0230
0,0058
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,2542
0,3672
0,2448
0,0997
0,0277
0,0055
0,0008
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,4877
0 , 3593
0,1229
0,0259
0,0037
0,0004
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,2288
0,3559
0,2570
0,1142
0,0349
0,0078
0,0013
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,1028
0,2539
0,2912
0,2056
0,0998
0,0352
0,0093
0,0019
0,0003
0,0000
0,0000
0 , 0000
0,0000
0,0000
0,0000
12
o
12
1
12
2
12
3
12
4
12
5
12
6
12
7
12
8
12
9
12 10
12 11
12 12
14
;1.4
14
14
14
14
14
14
14
14
14
14
14
14
14
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
484
0,8687
0,1229
0,0081
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,25
0 , 0317
0,1267
0,2323
0,2581
0 , 1936
0,1032
0,0401
0,0115
0 , 0024
0,0004
0,0000
0,0000
0,0000
0,30
0 ,0138
0,0712
0,1678
0,239 7
0,2311
0,1585
0 ,0792
0,0291
0,0078
0,0015
0,0002
0,0000
0,0000
.0 ,35
0,0057
0,0368
0 , 1088
0,1954
0,2367
0,2039
0,1281
0,0591
0,0199
0,0048
0, 0008
0 ,0001
0,0000
0,40
0,0022
0,0174
0,0639
0,1419
0,2128
0 , 2270
0 , 1766
0,1009
0,0420
0, 0125
0,0025
0, 000 3
0 ,0000
0,45
0,0008
0 , 0075
0 ,0339
0 ,0923
0,1700
0,2225
0,2124
0,1489
0,076 2
0,02 77
0,0068
0 ,0010
0,0001
0,50
0,0002
0,0029
0,0161
0 ,0537
0,1208
0,1934
0,2256
0,1934
0,1208
0 , 0537
0,0161
0 ,0029
0 , 0002
0,0238
0,1029
0,2059
0,2517
0,2097
0,1258
0 ,0559
0,0186
0,0011 0,0047
0,0001 0,0009
0,0000 0 , 0001
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0097
0,0540
0,1388
0,2181
0,2337
0,1803
0,1030
0,0442
0,0142
0,0034
0,0006
0,0001
0,0000
0,0000
0 ,0037
0,0259
0,0836
o,1651
0,2222
0,2154
0,1546
0,0833
0,0336
0,0101
0,0022
0 ,0003
0 ,0000
0,0000
0,0013
0, 0113
0, 0453
0 , 1107
0, 1845
0,2214
0 , 1968
0,1312
0,0243
0,0065
0,0012
0,0001
0,0000
0,0004
0,0045
0,0220
0,0660
0,1350
0,1989
0,2169
0,1775
0,1089
0,0495
0,0162
0,0036
0 ,0005
0,0000
0,0001
0,0016
0,0095
0,0349
0,0873
0,1571
0,2095
0,2095
0,1571
0 ,0873
0,0349
0,0095
0,0016
0,0001
0,0440
0,1539
0,2501
0,2501
0,1720
0,0860
0,0322
0,0092
0,0020
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0068
0,0407
0,1134
0,1943
0,2290
0,1963
0,1262
0,0618
0,0232
0,0066
0,0014
0,0002
0,0000
0,0000
0,0000
0,0024
0,0181
0,0634
0,1366
0,2022
0, 2178
0,1759
0,1082
0,0510
0,0183
0,0049
0,0010
0,0001
0,0000
0,0000
0,0008
0,0073
0,0317
0,0845
0,1549
0,2066
0,2066
0,1574
0,0918
0,0408
0,0136
0,0033
0,0005
0,0001
0,0000
0,0002
0,0027
0,0141
0,0462
0,1040
0,1701
0,2088
0,1952
0,1398
0,0762
0,0312
0,0093
0,0019
0,0002
0,0000
0,0001
0,0009
0,0056
0,0222
0,0611
0,1222
0,1833
0,2095
0,1833
0,1222
0,0611
0,0222
0,0056
0,0009
0,0001
0,0178
0,0832
0,1802
0,2402
0,2202
0,1468
0,0734
0,0280
0,0082
0,0018
0,0003
0,0000
0,0000
0,0000
0,0000
0 , 0656
TABLAS ESTADÍSTICAS
Tabla 1(cont.)
n
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
17
17
17
17
17
17
17
17
17
Probabilidad de éxito (p)
X
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
o
0,01
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
Q,45
0,50
0,8601
0,1303
0,0092
0,0004
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,4633
0,3658
0,1348
0,0307
0,0049
0,0006
0,0000
0,0000
0 ,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,2059
0,3432
0,2669
0,1285
0,0428
0,0105
0,0019
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0 ,0000
0,0000
0,0874
0,2312
0,2856
0,2184
0,1156
0,0449
0,0132
0,0030
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0352
0,1319
0,2309
0,2501
0,1876
0,1032
0,0430
0,0138
0,0035
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0134
0,0668
0,1559
0,2252
0,2252
0,1651
0,0917
0,0393
0,0131
0,0034
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000
0,0047
0,0305
0,0916
0,1700
0,2186
0,2061
0,1472
0,0811
0, 0348
0,0116
0,0030
0,0006
0,0001
0,0000
0,0000
0,0000
0,0016
0,0126
0,0476
0,1110
0,1792
0,2123
0,1906
0,1319
0,0710
0,0298
0,0096
0,0024
0,0004
0,0001
0,0000
0,0000
0,0005
0,0047
0,0219
0,0634
0,1268
0,1859
0,2066
0,1771
0,1181
0,0612
0,0245
0 ,0074
0,0016
0,0003
0,0000
0,0000
0,0001
0,0016
0,0090
0,0318
0,0780
0,1404
0,1914
0,2013
0,1647
0,1048
0,0515
0,0191
0,0052
0,0010
0,0001
0,0000
0,0000
0,0005
0,0032
0,0139
0,0417
0,0916
0,1527
0,1964
0,1964
0,1527
0,0916
0,0417
0,0139
0,0032
0,0005
0,0000
0,8515
0,1376
0,0104
0,0005
0,0000
0,0000
0,0000
0,0000
0,0000
0 ,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,4401
0,3706
0,1463
0 ,0359
0,0061
0,0008
0,0001
0,0000
0 ,0000
0,0000
0,0000
0,0000
0, 0000
0,0000
0,0000
0,0000
0,0000
0,1853
0,3294
0,2745
0,1423
0,0514
0,0137
0,0028
0,0004
0,0001
0,0000
0, 0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0743
0,209 7
0,2775
0,2285
0,1311
0,0555
0,0180
0,0045
0,0009
0,0001
0,0000
0,0000
0 ,0000
0,0000
0,0000
0, 0000
0,0000
0,0281
0,1126
0,2111
0, 2463
0,2001
0,1201
0 ,0550
0,0197
0, 0055
0,0012
0,0002
0,0000
0,0000
0,0000
0,0000
0 ,0000
0,0000
0,0100
0,0535
0,1336
0,2079
0,2252
0,1802
0 , 1101
0,0524
0 ,0197
0,0058
0,0014
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0033
0,0228
0,0732
0,1465
0,2040
0,2099
0,1649
0,1010
0,0487
0,0185
0,0056
0,0013
0,0002
0,0000
0,0000
0,0000
0,0000
0,0010
0,0087
0,0353
0,0888
0,1553
0,2008
0,1982
0,1524
0,0923
0,0442
0,0167
0,0049
0,0011
0,0002
0,0000
0,0000
0,0000
0,0003
0,0030
0,0150
0,0468
0,1014
0,0001
0,0009
0,0056
0,0215
0,0572
o, 1123
0,1684
0,1969
0 , 1812
0,1318
0,0755
0,0337
0,0115
0,0029
0,0005
0,0001
0,0000
0,0000
0,0002
0,0018
0,0085
0,0278
0,0667
0,1222
0,1746
0 , 1964
0,1746
o, 1222
0 ,0667
0,0278
0,0085
0,0018
0,0002
0,0000
0,8429 0,4181
0,1668
0,0631
0,0225
0,0075
0,0023 0 ,0007 0,0002 0,0000 0,0000
0,1623
0 , 1983
0 , 1889
0,1417
0,0840
0,0392
0,0142
0,0040
0,0008
0 ,0001
0,0000
0,0000
1 0,1447 0,3741 0,3150 0,1893 0,0957 0,0426 0,0169 0,0060 0,0019 0,0005 0,0001
2
3
4
5
6
7
8
0,0117
0,0006
0,0000
0,0000
0,0000
0,0000
0,0000
0,1575
0,0415
0,0076
0,0010
0,0001
0,0000
0,0000
0,2800
0, 1556
0,0605
0,0175
0,0039
0,0007
0,0001
0,2673
0,2359
0,1457
0,0668
0,0236
0,0065
0,0014
0,1914
0,2393
0,2093
0,1361
0,0680
0,0267
0,0084
0,1136
0 , 1893
0,2209
0,1914
0,1276
0,0668
0,0279
0,0581
0,1245
0,1868
0,2081
0,1784
0,1201
0,0644
0,0260
0,0701
0,1320
0,1849
0,1991
0,1685
0,1134
0,0102
0,0341
0,0796
0,1379
0,1839
0,1927
0,1606
0,0035
0,0144
0,0411
0,0875
0,1432
0,1841
0, 1883
0,0010
0,0052
0,0182
0,0472
0,0944
0,1484
0,1855
485
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla 1(cont.)
n
17
17
17
17
17
17
17
17
17
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
19
19
19
19
19
19
19
19
19
1.9
19
19
19
19
Probabilidad de éxito (p)
X
0,40
0,45
0,50
0,30
0,35
0,20
0,25
9 0,0000 0,0000 0,0000 0,0003 0,0021 0,0093 0,0276 0,0611 0,1070 0,1540 0,1855
10 0,0000 0,0000 0,0000 0,0000 0 ,0004 0,0025 0,0095 0,0263 0,0571 0,1008 0,1484
u
0,01
0,05
0,10
0,15
0,0000
0,0000
0,0000
0 ,0000
0,0000
0,0000
0,0000
0,0000 0,0000 0 ,0000 0,0001
0 ,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0 ,0000
0,0000 0,0000 0, 0000 0,0000
0 ,0000 0,0000 0,0000 0,0000
0,0000 0 ,0000 0,0000 0,0000
0 ,0000 0,0000 0,0000 0,0000
0,8345
0,1517
0 ,0130
0,0007
0,0000
0,0000
0,0000
0,0000
0 ,0000
0,0000
0,0000
0,0000
0,0000
0 ,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,3972
0,3763
0,1683
0,0473
0,0093
0,0014
0,0002
0,0000
0,0000
0 , 0000
0,0000
0 ,0000
0 ,0000
0,0000
0,0000
0 ,0000
0,0000
0,0000
0,0000
0,1501
0,3002
0,2835
0,1680
0,0700
0,0218
0,0052
0,0010
0,0002
0,0000
0,0000
0,0000
0,0536
0,1704
0,2556
0, 2406
0,1592
0,0787
0,0301
0,0091
0,0022
0,0004
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,8262
0,1586
0,0144
0,0008
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
11 0,0000
12 0,0000
13 0,0000
0,3774
0,3774
0,1787
0 ,0533
0,0112
0 ,0018
0, 0002
0,0000
0,0000
0,0000
0 ,0000
0,0000
0 , 0000
0,0000
0,1351
0,2852
0,2852
0,1796
0,0798
0,0266
0 , 0069
0,0014
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
12
13
14
15
16
17
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
o
1
2
3
4
5
6
7
8
9
10
486
0,0005 0, 0026
0 ,0001 0,0006
0,0000 0,0001
0,0000 0,0000
0,0000 0,0000
0,0000 0, 0000
0,0000 0,0000
0,0090
0,0024
0,0005
0,0001
0,0000
0,0000
0 ,0000
0,0056
0,0338
0,0958
0,1704
0 ,2 130
0,1988
0,1436
0,0820
0 , 0376
0,0139
0,0042
0,0010
0,0242
0,0081
0,0021
0,0004
0,0001
0,0000
0,0000
0,0525
0,0215
0,0068
0,0016
0,0003
0,0000
0 ,0000
0,0944
0 ,0472
0,0182
0,0052
0,0010
0,0001
0,0000
0,0016
0 ,0126
0 ,0458
0,1046
0,1681
0,2017
0,1873
0,1376
0,0811
0,0386
0,0149
0,0046
0,0002 0,0012
0,0000 0,0002
0 , 0000 0,0000
0,0000 0,0000
0 , 0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0004
0,0042
0,0190
0,0547
0,1104
0,1664
0,1941
0,1792
0,1327
0,0794
0,0385
0,0151
0,0000
0,0000
0 ,0000
0,0000
0,0000
0,0000
0,0000
0,0180
0,0811
0,1723
0,2297
0 ,2 153
0,1507
0,0816
0, 0350
0,0120
0,0033
0,0008
0,0001
0,0000
0,0000
0,0000
0 ,0000
0,0000
0,0000
0,0000
0,0001
0,0012
0,0069
0,0246
0,0614
0,1146
0,1655
0,1892
0,1734
0,1284
0,0771
0,0374
0,0047 0,0145
0,0012 0 ,0045
0,0002 0,0011
0,0000 0,0002
0,0000 0,0000
0 ,0000 0 ,0000
0,0000 0,0000
0,0000
0,0003
0 ,0022
0,0095
0 , 0291
0,0666
0,1181
0,1657
0,1864
0,1694
0,1248
0,0742
0,0354
0,0134
0,0039
0,0009
0,0001
0,0000
0,0000
0,0000
0 , 0001
0,0006
0,0031
0, 0117
0,0327
0,07 08
0,1214
o, 1669
0,1855
0,1669
0 , 1214
0,0708
0,0327
0, 0117
0,0031
0,0006
0,0001
0,0000
0,0456
0,1529
0,2428
0 , 2428
0,1714
0,0907
0,0374
0,0122
0,0032
0,0007
0,0001
0,0000
0,0000
0,0000
0,0144
0,0685
0 , 1540
0,2182
0 ,2 182
0,1636
0,0955
0,0443
0 ,0166
0,0051
0,0013
0,0003
0,0000
0,0000
0,0042
0,0268
0 , 0803
o, 1517
0,2023
0 , 2023
o, 1574
0,0974
0,0487
0,0198
0,0066
0 , 0018
0,0004
0,0001
0 ,0011
0,0093
0,0358
0,0869
0,1491
0,1916
0,1916
0,1525
0 ,0981
0,0514
0 ,0220
0,0077
0 , 0022
0 ,0005
0 ,0003
0,0029
0,0138
0,0422
0,0909
0,1468
0,1844
0,1844
0 , 1489
0, 0980
0,0528
0,0233
0,0083
0,0024
0,0000
0 ,0002
0,0013
0,0062
0,0203
0,0497
0,0949
0,1443
0,1771
0,1771
0,1449
0,0970
0,0529
0,0233
0,0000
0,0000
0,0003
0,0018
0,0074
0,0222
0,0518
0 , 0961
0 , 1442
0,1762
0 , 1762
0,1442
0 ,0961
0 ,0518
0,0001
0,0008
0,0046
0,0175
0, 0467
0,0933
0,1451
0,1797
0,1797
0,1464
0,0976
0,0532
0,0237
0,0085
TABLAS ESTADÍSTICAS
Tabla 1(con t.)
n
Probabilidad de éxito (p)
X
19 ¡
19 ,
19
19
1'9
19
14
15
í6
17
18
19
20
20
20
20
20
20
20
20
20
201'
20
20
20
20
20
20
20
20
20
20
20
o
1
2
3
4
5
6
7
8
9
10
11
1:l
13
14
15
16
17
18
19
20
0,01
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,05
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,10
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,15
0,0000
0 ,00 00
0,0000
0,0000
0,0000
0,0000
0,20
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,25
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,30
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,35
0,0006
0,0001
0,0000
0,0000
0,0000
0,0000
0,40
0,0024
0,0005
0,0001
0,0000
0,0000
0,0000
0,45
0,50
0,0082 0,0222
0,0022 0,0074
0,0005 0,0018
0,0001 0,0003
0,0000 0,0000
0,0000 0,0000
0,8179
0,1652
0,0159
0,0010
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,3585
0,3774
0,1887
0,0596
0,0133
0,0022
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,1216
0,2702
0,2852
0,1901
0,0898
0,0319
0,0089
0,0020
0,0004
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0 ,0000
0,0000
0 ,0388
0,1368
0,2293
0,2428
0,1821
0,1028
0,0454
0,0160
0,0046
0,0011
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0115
0,0576
0,1369
0,2054
0,2182
0,1746
0,1091
0,0545
0,0222
0,0074
0,0020
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0032
0,0211
0,0669
0,1339
0,1897
0,2023
0,1686
0,1124
0,0609
0,0271
0,0099
0,0030
0,0008
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0008
0,0068
0,0278
0 ,0716
0,1304
0,1789
0,1916
0,1643
0,1144
0,0654
0,0308
0,0120
0,0039
0,0010
0,0002
0 ,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0002
0,0020
0,0100
0,0323
0,0738
0,1272
0,1712
0,1844
0,1614
0,1158
0,0686
0,0336
0,0136
0,0045
0,0012
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0005
0,0031
0,0123
0,0350
0,0746
0,1244
0,1659
0,1797
o, 1597
0,1171
0,0710
0,0355
0,0146
0 , 0049
0,0013
0,0003
0,0000
0,0000
0,0000
0 ,0000
0,0000
0,0001
0 ,0008
0,0040
0,0139
0,0365
0,0746
0,1221
0,1623
0 ,1771
0,1593
0,1185
0,0727
0,0366
0,0150
0,0049
0,0013
0,0002
0,0000
0,0000
0,0000
0 ,0000
0,0000
0,0002
0 ,0 011
0,0046
0,0148
0,0370
0,0739
0,1201
0,1602
0,1762
0,1602
0,1201
0,0739
0,0370
0,0148
0,0046
0,0011
0,0002
0,0000
0,0000
487
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla 11. Función de distribución BINOMIAL
B(n,p)
n
1
., 1
F (x)
=
P (X$ x)
=
2, (: Jpx qn- x
Probabilidad de éxito (p)
0,10,
0,01
0,05
.o,25
0,15
0,20
0,30
0,35
0,40
0,45
0,50
o 0,9900 0,9500 0,9000 0,8500 0,8000 0,7500 0,7000 0,6500 0,6000 0,5500 0,5000
1 1 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
X
2
2
2
o
3
3
3
3
o
"4
o
1
2
1
2
3
0,9801 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500
0,9999 0,9975 0,9900 0,9775 0,9600 0,9375 0,9100 0,8775 0,8400 0,7975 0,7500
1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,9703 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430
0,9997 0,9928 0,9720 0,9393 0,8960 0,8438 0,7840
1,0000 0,9999 0,9990 0,9966 0,9920 0,9844 0,9730
1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,2746
0,7183
0,9571
1,0000
0,2160
0,6480
0,9360
1,0000
0,1664
0,5748
0,9089
1,0000
0,1250
0,5000
0,8750
1,0000
0,9606 0,8145
0,9994 0,9860
1,0000 0,9995
1,0000
0,6561
0,9477
0,9963
0,9999
1,0000
0,5220
0,8905
0,9880
0,9995
1,0000
0,4096
0,8192
0,9728
0,9984
1,0000
0,3164
0,7383
0,9492
0,9961
1,0000
0,2401
0,6517
0,9163
0,9919
1,0000
0,1785
0,5630
0,8735
0,9850
1,0000
0,1296
0,4752
0,8208
0,9744
1,0000
0,0915
0,3910
0,7585
0,9590
1,0000
0,0625
0,3125
0,6875
0,9375
1,0000
0,9510 0,7738
0,9990 0,9774
1,0000 0,9988
1,0000
0,5905
0,9185
0,9914
0,9995
1,0000
0,4437
0,8352
0,9734
0,9978
0,9999
1,0000
0,3277
0,7373
0,9421
0,9933
0,9997
1,0000
0,2373
0,6328
0,8965
0,9844
0,9990
1,0000
0,1681
0,5282
0,8369
0,9692
0,9976
1,0000
0,1160
0,4284
0,7648
0,9460
0,9947
1,0000
0,0778
0,3370
0,6826
0,9130
0,9898
1,0000
0,0503
0,2562
0,5931
0,8688
0,9815
1,0000
0,0313
0,1875
0,5000
0,8125
0,9688
1,0000
4
4
4
1
2
3
4
5
o
5
5
5
5
5
1
2
3
4
5
6
6
6
6
6
6
6
o
1
2
3
4
5
6
0,9415 o, 7351 0,5314
0,9985 0,9672 0,8857
1,0000 0,9978 0,9842
0,9999 0,9987
1,0000 0,9999
1,0000
0,3771
0,7765
0,9527
0,9941
0,9996
1,0000
0,2621
0,6554
0,9011
0,9830
0,9984
0,9999
1,0000
0,1780
0,5339
0,8306
0,9624
0,9954
0,9998
1,0000
0,1176
0,4202
0,7443
0,9295
0,9891
0,9993
1,0000
0,0754
0,3191
0,6471
0,8826
0,9777
0,9982
1,0000
0,0467
0,2333
0,5443
0,8208
0,9590
0,9959
1,0000
0,0277
0,1636
0,4415
0,7447
0,9308
0,9917
1,0000
0,0156
0,1094
0,3438
0,6563
0,8906
0,9844
1,0000
7
o
1
2
3
4
5
6
7
0,9321 0,6983
0,9980 0,9556
1,0000 0,9962
0,9998
1,0000
0,4783
0,8503
0 ,9743
0,9973
0,9998
1,0000
0,3206
0,7166
0,9262
0,9879
0,9988
0, 9999
1,0000
0,2097
0,5767
0,8520
0,9667
0,9953
0,9996
1,0000
0,1335
0,4449
0,7564
0,9294
0,9871
0,9987
0,9999
1,0000
0,0824
0,3294
0,6471
0,8740
0,9712
0,9962
0,9998
1,0000
0,0490
0,2338
0,5323
0,8002
0,9444
0,9910
0,9994
1,0000
0,0280
0,1586
0,4199
0,7102
0,9037
0,9812
0, 9984
1,0000
0,0152
0,1024
0,3164
0,6083
0,8471
0,9643
0,9963
1,0000
0,0078
0,0625
0,2266
0,5000
0,7734
0,9375
0,9922
1,0000
7
7
7
7
7
7
7
Los valores interiores de la tabla indican las probabilidades acumuladas de obtener de O ax éxitos en
n ensayos de un experimento binomial, donde p es la probabilidad de éxito en un ensayo.
488
TAB LAS ESTADÍSTICAS
Tabla 11 (cont.)
n
X
, 0,10
0,4305
0,8131
0, 9619
0,9950
0,9996
1,0000
0,1'5
0,2725
0,6572
0,8948
0,9786
0,99 71
0,9998
1,0000
0,6302
0 ,9288
0,9916
0,9994
1,0000
0,3874
0,7748
0,9470
0,9917
0,9991
0,9999
1,0000
0,2316
0,5995
0,8591
0,9661
0,9944
0,9994
1,0000
0,1342
0,4362
0,7382
0,9144
0,9804
0 ,9969
0,9997
1,0000
0,0751
0,3003
0,6007
0,8343
0,9511
0,9900
0 ,9987
0,9999
1,0000
0,0404
0,1960
0,4628
0,7297
0,9012
0,9747
0,9957
0,9996
1,0000
0 ,9044 0,5987 0,3487 0 , 1969
1 0,9957 0,9139 0,73 61 0,5443
2 0,9999 0,9885 0,9298 0,8202
3 1,0000 0,9990 0,9872 0,9500
0 ,9999 0,9984 0,9901
4
1,0000 0,9999 0,9986
5
6
1,0000 0,9999
1,0000
7
8
9
10
0,1074
0,37 58
0 ,6778
0 ,8791
0,9672
0,99 36
0,9991
0,9999
1,0000
0,0563
0,2440
0 ,5 256
0 ,7759
0,9 2 19
0 ,98 0 3
0,9965
0,9996
1,0000
0,895 3 0,5688 0,3138 0,1673 0,0859
1 0,9948 0,8981 0,6974 0,4922 0,3221
2 0,9998 0,9848 0,9104 0,7788 0,6174
3 1,0000 0,9984 0,9815 0,9306 0,8389
4
0,9999 0,9972 0,9841 0,9496
1,0000 0,9997 0,9973 0,9883
5
1,0000 0,9997 0 ,9980
6
1,0000 0,9998
7
1,0000
8
9
10
11
0,0422
0,1971
0 ,45 52
0,7133
0,8854
0,9657
0,9924
0,9988
0,9999
1,0000
o
th
1
2
3
4
5
6
7
8
9
9
9
9
9
9
9
9
9
9
o
10
10
10
10
10
10
10
10
10
10
10
o
11
11
u
11
11
11
11
11
11
11
11
11
Probabilidad de éxito (p)
,0,20
o,.eo 0,65
0,25
0,1678 0,1001 0,0576 0,0319
0,5033 0,3671 0,2553 0,1691
0,7969 0,6785 0 ,5 518 0 ,4 278
0,9437 0,8862 0,8059 0,7064
0,9896 0,9727 0,9420 0,8939
0,9988 0,9958 0,9887 0,9747
0,9999 0,9996 0,9987 0,9964
1,0000 1,0000 0,9999 0,9998
1,0000 1,0000
0,05
0,6634
0,9428
0 ,9942
0,9996
1,0000
8
8
8
8
8
8
8
8
10,01
1
2
3
4
5
6
7
8
9
o
0,9227
0,9973
0 ,9999
1,0000
0,9135
0,9966
0,9999
1,0000
0,40
0,0168
0,1064
0 ,3 154
0,5941
0,8263
0,9502
0,9915
0,9993
1,0000
0 )45
0,0084
0,0632
0,2201
0,4770
0,7396
0,9115
0,9819
0,9983
1,0000
o,50
0,0039
0,035 2
0,1445
0,3633
0,6367
0,8555
0,9648
0,9961
1,0000
0,0207
0,1211
0,3373
0 ,6089
0,8283
0,9464
0,9888
0 ,9986
0,9999
1,0000
0,0101
0,0705
0,2318
0,4826
0,7334
0,9006
0,9750
0,9962
0,9997
1,0000
0,0046
0,0385
0,1495
0,3614
0,6214
0,8342
0,9502
0,9909
0,9992
1,0000
0,0020
0 ,0195
0,0898
0,2539
0,5000
0,7461
0 ,9102
0,9805
0,9980
1,0000
0,0282
0,1 49 3
0,3828
0,6496
0,8497
0,95 27
0,9894
0 ,9984
0,9999
1,0000
0 ,0135
0,0860
0 ,26 16
0,5138
o,7515
0,9051
0,9 740
0,995 2
0,9995
1,0000
0,0060
0,0464
0,1673
0,3823
0 ,633 1
0,8 338
0,9452
0,9877
0,9983
0,9999
1,0 000
0,0025
0,0233
0 ,0996
0,2660
0,5044
0,7384
0, 8980
0,9726
0,9955
0,9997
1,0000
0,0010
0,0107
0,0547
0,1719
0,3770
0,6230
0,8281
0,945 3
0 ,9893
0,9990
1,0000
0,0198
0,1130
0,3127
0,5696
0,7897
0,9218
0,9784
0,9957
0,9994
1,0000
0,0088
0,0606
0,2001
0,4256
0,6683
0,8513
0,9499
0,9878
0,9980
0,9998
1,0000
0,0036
0,0302
0,1189
0,2963
0,5328
0,7535
0,9006
0,9707
0 ,9941
0,9993
1,0000
0,0014
0,0139
0 ,0652
0,1911
0,3971
0,6331
0,8262
0,9390
0,9852
0,9978
0,9998
1,0000
0,0005
0,0059
0,0327
0,1133
0,2744
0,5000
0,7256
0,8867
0,9673
0,9941
0,9995
1,0000
489
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla 11 (cont.)
n
X
12
o
12
1
1·2
2
12
3
1,2
4
12
5
12
6
12
'1
12
8
12
9
12 10
12 11
12 12
13
13
13
13
13
13
13
13
13
13
13
13
13
13
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
o
1
2
3
4
5
6
Probabilidad de éxito (p)
0,01
0,8864
0,9938
0,9998
1,0000
0,05
0,5404
0,8816
0,9804
0,9978
0,9998
1,0000
0,10
0,2824
0,6590
0,8891
0,9744
0,9957
0,9995
0,9999
1,0000
0,15
0,1422
0,4435
0,7358
0,9078
0,9761
0,9954
0,9993
0,9999
1,0000
q,20
0,0687
0,2749
0,5583
0,7946
0,9274
0,9806
0,9961
0,9994
0,9999
1,0000
0,25
0,0317
0,1584
0,3907
0,6488
0,8424
0,9456
0,9857
0,9972
0,9996
1,0000
0,30
0,0138
0,0850
0,2528
0,4925
0,7237
0,8822
0,9614
0,9905
0,9983
0,9998
1,0000
0,35
0,0057
0,0424
0,1513
0,3467
0,5833
0,7873
0,9154
0,9745
0,9944
0,9992
0,9999
1,0000
P,40
0,0022
0,0196
0,0834
0,2253
0,4382
0,6652
0,8418
0,9427
0,9847
0,9972
0,9997
1,0000
o,,5
0,0008
0,0083
0,0421
0,1345
0,3044
0,5269
0,7393
0,8883
0,9644
0,9921
0,9989
0,9999
1,0000
0,50
0,0002
0,0032
0,0193
0,0730
0,1938
0,3872
0,6128
0,8062
0,9270
0,9807
0,9968
0,9998
1,0000
0,8775
0,9928
0,9997
1,0000
0,5133
0,8646
0,9755
0,9969
0,9997
1,0000
0,2542
0,6213
0,8661
0,9658
0,9935
0,9991
0,9999
1,0000
0,1209
0,3983
0,6920
0,8820
0,9658
0,9925
0,9987
0,9998
1,0000
0,0550
0,2336
0,5017
0, 7473
0,9009
0,9700
0,9930
0,9988
0,9998
1,0000
0,0238
0,1267
0,3326
0,5843
0,7940
0,9198
0,9757
0,9944
0,0097
0,0637
0,2025
0,4206
0,6543
0,8346
0,9376
0,9818
0,0037
0,0296
0,1132
0,2783
0,5005
0,7159
0,8705
0,9538
0,9874
0,9975
0,9997
1,0000
0,0013
0,0126
0,0579
0,1686
0,3530
0,5744
0,7712
0,9023
0,0004
0,0049
0,0269
0,0929
0,2279
0,4268
0,6437
0,8212
0,0001
0,0017
0,0112
0,0461
0,1334
0,2905
0,5000
0,7095
0,9679
0,9922
0,9987
0,9999
1,0000
0,9302
0,9797
0,9959
0,9995
1,0000
0,8666
0,9539
0,9888
0,9983
0,9999
1,0000
0,1028
0 ,3567
0,6479
0,8535
0,9533
0,9885
0,9978
0,9997
1,0000
0,0440
0,1979
0,4481
0,6982
0,8702
0,9561
0,9884
0,9976
0,9996
1,0000
0,0008
0 ,0081
0,0398
0,1243
0,2793
0,4859
0,6925
0,8499
0,9417
0 ,9825
0 ,9961
0,9994
0,9999
1,0000
0,0002
0,0029
0,0170
0,0632
0,1672
0,3373
0,5461
0,7414
0,8811
0,9574
0,9886
0,9978
0,9997
1,0000
0,0001
0,0009
0,0065
0,0287
0,0898
0,2120
0,3953
0,6047
0,7880
0,9102
0,9713
0,9935
0 ,9991
0,9999
1,0000
7
8
9
10
u
0,9990 0,9960
0,9999 0,9993
1,0000 0,9999
1,0000
12
13
o
0,8687
0,9916
2 0,9997
3 1,0000
4
l
5
6
7
8
9
10
11
12
13
14
490
0,4877
0,8470
0,9699
0,9958
0,9996
1,0000
0,2288
0,5846
0,8416
0,9559
0,9908
0,9985
0,9998
1,0000
0,0178
0,1010
0,2811
0,5213
0,7415
0,8883
0,9617
0,9897
0,9978
0,9997
1,0000
0,0068
0,0475
0,1608
0,3552
0,5842
0,7805
0 ,9067
0 ,9685
0,9917
0,9983
0,9998
1,0000
0,0024
0,0205
0,0839
0,2205
0,4227
0,6405
0,8164
0,9247
0 ,9757
0,9940
0 ,9989
0,9999
1,0000
TABLAS ESTADÍSTICAS
Tabla 11 (cont.)
n
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
17
17
17
17
17
17
17
17
17
Probabilidad de éxito (p)
X
o
1
2
3
4
5
6
7
0,01
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,8601
0,9904
0,9996
1,0000
0,4633
0,8290
0,9638
0,9945
0,9994
0,9999
1,0000
0,2059
0,5490
0,8159
0 ,9444
0,9873
0,9978
0,9997
1,0000
0,0874
0,3186
0,6042
0,8227
0,9383
0,9832
0,9964
0,9994
0,9999
1,0000
0,0352
0,1671
0,3980
0,6482
0,8358
0,9389
0,9819
0,9958
0,9992
0,9999
1,0000
0,0134
0,0802
0,2361
0,4613
0,6865
0,8516
0,9434
0,9827
0,9958
0,9992
0,9999
1,0000
0,0047
0,0353
0,1268
0,2969
0,5155
o, 7216
0,8689
0,9500
0,9848
0 ,9963
0,9993
0,9999
1,0000
0,0016
0,0142
0,0617
0,1727
0,3519
0,5643
0,7548
0,8868
0,9578
0,9876
0,9972
0,9995
0,9999
1,0000
0,0005
0,0052
0,0271
0,0905
0,2173
0,4032
0,6098
0,7869
0,9050
0,9662
0,9907
0,9981
0,9997
1,0000
1,0000
0,0001
0,0017
0,0107
0,0424
0,1204
0,2608
0,4522
0,6535
0,8182
0,9231
0,9745
0,9937
0,9989
0,9999
1,0000
0,0000
0,0005
0,0037
0,0176
0,0592
0,1509
0,3036
0,5000
0,6964
0,8491
0,9408
0,9824
0,9963
0,9995
1,0000
0,8515
0,4401
0,1853
0,0743
0,0281
0,0100 0,0033
0,0010
0,0098
0,0451
0,1339
0,2892
0,4900
0,6881
0,8406
0,9329
0,9771
0,9938
0,9987
0,9998
1,0000
0,0003
0,0033
0,0183
0,0651
0,1666
0,3288
0,5272
o, 7161
0,8577
0,9417
0,9809
0,9951
0,9991
0,9999
1,0000
0,0001
0,0010
0,0066
0,0281
0,0853
0,1976
0,3660
0,5629
0,7441
0,8759
0,9514
0,9851
0, 9965
0,9994
0,9999
1,0000
0,0000
0,0003
0,0021
0,0106
0,0384
0,1051
0,2272
0,4018
0,5982
0,7728
0,8949
0,9616
0,9894
0,9979
0,9997
1,0000
0,0007
0,0067
0,0327
0 , 1028
0,2348
0,4197
0 ,6188
0,7872
0,9597 0,9006
0,0002
0,0021
0,0123
0,0464
0,1260
0,2639
0,4478
0,6405
0,8011
0,0000
0,0006
0,0041
0,0184
0,0596
0,1471
0,2902
0,4743
0,6626
0,0000
0,0001
0,0012
0,0064
0,0245
0,0717
0,1662
0,3145
0,5000
8
9
10
11
12
13
14
15
o
1 0,9891 0,8108 0,5147 0,2839 0,1407 0,0635 0,0261
2 0,9995 0,9571 0,7892 0,5614 0,3518 0,1971 0,0994
3 1,0000 0,9930 0,9316 0,7899 0,5981 0,4050 0,2459
0,9991 0,9830 0,9209 0,7982 0,6302 0,4499
4
5
0,9999 0,9967 0,9765 0,9183 0,8103 0,6598
6
1,0000 0,9995 0,9944 0,9733 0,9204 0,8247
0,9999 0,9989 0,9930 0,9729 0,9256
7
8
9
10
11
12
13
14
15
16
o
0,8429 0,4181
1,0000 0,9998 0 ,9985 0,9925
1,0000 0,9998 0 ,9984
1,0000 0,9997
1,0000
0,9743
0,9929
0,9984
0,9997
1,0000
0,1668 0,0631
0,0023
0,0225
0,0075
1 0,9877 0,7922 0,4818 0,2525 0,1182 0,0501 0,0193
2 0,9994 0,9497 0,7618 0,5198 0,3096 0,1637 0,0774
3 1,0000 0,9912 0,9174 0,7556 0,5489 0,3530 0,2019
4
0,9988 0,9779 0,9013 0,7582 0,5739 0,3887
5
0,9999 0,9953 0,9681 0,8943 0,7653 0,5968
6
1,0000 0,9992 0,9917 0,9623 0,8929 0,7752
7
0,9999 0,9983 0,9891 0,9598 0,8954
8
1,0000 0, 9997 0,9974 0,9876
491
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla 11 (cont.)
Probabilidad de éxito, (p)
n
X
17
17
17
17
17
17
17
17
17
9
10
18
18
18
18
18
18
18
18.
18
18
18
18
18
18
18
18
18
18
18
19
19
19
19
19
19
19
19
19
19
19
19
19
19
0,01
0,05
0,10
0,35
0,40
0,45
0,50
0,9617
0,9880
0,9970
0,9994
0,9999
1,0000
0,9081
0,9652
0,9894
0,9975
0,9995
0,9999
1,0000
0,8166
0,9174
0,9699
0,9914
0,9981
0,9997
1,0000
0,6855
0,8338
0,9283
0,9755
0,9936
0,9988
0,9999
1,0000
0,0536 0,0180 0,0056 0,0016 0 ,0004 0,0001
0,0000
0,0000
0,0001
0,0007
0,0038
0,0154
0,0481
0,1189
0,2403
0,4073
0,5927
0,7597
0 ,8811
0,20
0,25
1,0000 0,9995 0,9969
0,9999 0,9994
1,0000 0,9999
1,0000
11
12
13
14
15
16
17
o
0,30
0,9873
0,9968
0,9993
0 ,9999
1,0000
0,15
0 ,8345
0,3972
0,1501
1 0,9862 0,7735 0,4503 0,2241 0,0991 0,0395 0,0142 0 , 0046 0,0013 0,0003
2 0,9993 0,9419 0,7338 0,4797 0,2713 0,1353 0 ,0600 0,0236 0,0082 0,0025
3 1,0000 0,9891 0,9018 0,7202 0,5010 0,3057 0,1646 0,0783 0,0328 0,0120
4
0,9985 0,9718 0,8794 0,7164 0,5187 0,3327 0,1886 0,0942 0,0411
5
0,9998 0,9936 0,9581 0,8671 0,7175 0,5344 0,3550 0,2088 0,1077
6
1,0000 0,9988 0,9882 0,9487 0,8610 0,7217 0,5491 0,3743 0,2258
7
0,9998 0,9973 0,9837 0,9431 0,8593 0,7283 0,5634 0,3915
8
1,0000 0,9995 0,9957 0,9807 0,9404 0,8609 0,7368 0,5778
0,9999 0,9991 0,9946 0,9790 0,9403 0,8653 0,7473
9
1,0000 0,9998 0,9988 0,9939 0,9788 0,9424 0,8720
10
1,0000 0,9998 0,9986 0,9938 0,9797
1,0000 0,9997 0,9986 0,9942
1,0000 0,9997 0,9987
1,0000 0,9998
1,0000
11
12
13
14
15
16
17
18
o
0,8262 0,3774 0,1351
0,0456 0,0144 0,0042
0,0011
0,0003
0,9463
0,9817
0,9951
0,9990
0,9999
1,0000
0,0000
0,0000
0,0004
0 ,0022
0,0096
0,0318
0,0835
0,1796
0 ,3238
0,5000
0,6762
0,9648 0,9129 0,8204
0,9884 0,9658 0,9165
0,9969 0,9891 0,9682
0 ,0001
0,0000
1 0,9847 0,7547 0,4203 0,1985 0,0829 0,0310 0,0104 0,0031 0,0008 0,0002
2 0,9991 0,9335 0,7054 0,4413 0,2369 0,1113 0,0462 0,0170 0,0055 0,0015
3 1,0000 0,9868 0,8850 0,6841 0,4551 0,2631 0,1332 0,0591 0,0230 0,0077
4
0,9980 0,9648 0,8556 0,6733 0,4654 0,2822 0,1500 0,0696 0,0280
0,9998 0,9914 0,9463 0,8369 0,6678 0,4739 0,2968 0,1629 0,0777
5
1,0000 0 ,9983 0,9837 0,9324 0,8251 0,6655 0,4812 0,3081 0,1727
6
7
0,9997 0,9959 0,9767 0,9225 0,8180 0,6656 0,4878 0,3169
1,0000 0,9992 0 ,9933 0,9713 0,9161 0,8145 0,6675 0,4940
8
9
0,9999 0,9984 0,9911 0,9674 0,9125 0,8139 0,6710
1,0000 0,9997 0,9977 0,9895 0,9653 0,9115 0,8159
10
11
12
13
492
1,0000 0,9995 0,9972 0,9886
0,9999 0,9994 0,9969
1,0000 0,9999 0,9993
0,9519
0,9846
0 ,9962
0,9993
0,9999
1,0000
TABLAS ESTADÍSTICAS
Tabla 11 (cont.)
Probabilidad de é xito (p)
n
X
19
19
19
19
19
19
14
15
16
17
18
19
20
o
20
1
20
2
20
3
20
4
20
5
20
6
20
7
20
8
20
9
20 10
20 11
20 12
20 13
20 14
20 15
20 16
20 17
20 18
20 19
20 20
0 ,0 1
0, 05
0, 10
0,8179
0,9831
0,9990
1,0000
0,3585
0,7358
0,9245
0,9841
0,9974
0,9997
1,0000
0,1216
0,3917
0,6769
0,8670
0,9568
0,9887
0,9976
0, 15
0,0388
0,1756
0,4049
0 ,6477
0,8298
0,9327
0,9781
0,9996 0,9941
0,9999 0,9987
1,0000 0,9998
1,0000
0,20
0,25
0,0115
0,0692
0,2061
0,411 4
0,6296
0,8042
0,9133
0,9679
0 ,9900
0,9974
0,9994
0,9999
1,0000
0,0032
0,0243
0,0913
0,2252
0,4148
0,6172
0,7858
0,8982
0,9591
0,9861
0,9961
0,9991
0,9998
1,0000
0,35
0,40
0, 4 5
0,30
1,0000 0,9999 0,9994 0,9972
1,0000 0 ,9999 0,9995
1,0000 0,9999
1,0000
0,0008
0,0076
0,0355
0,1071
0,2375
0,4164
0,6080
0,7723
0,8867
0,9520
0,9829
0 ,9949
0,9987
0,9997
1,0000
0,0002
0,0021
0,0121
0,0444
0,1182
0,2454
0,4166
0 ,6010
0,7624
0,8782
0,9468
0,9804
0,9940
0,9985
0,9997
1,0000
0,0000
0,0005
0,0036
0,0160
0,0510
0,1256
0 ,2500
0,4159
0,5956
0,7553
0 ,8725
0,9435
0,9790
0,9935
0,9984
0,9997
1,0000
0,0000
0,0001
0,0009
0,0049
0,0189
0,0553
0,1299
0,2520
0,4143
0,5914
0 ,7507
0,8692
0,9420
0 ,9786
0,9936
0,9985
0,9997
1,0000
0,50
0,9904
0,9978
0,9996
1,0000
0,0000
0,0000
0,0002
0,0013
0,0059
0,0207
0,0577
0,1316
0,2517
0,4119
0,5881
0,7483
0,8684
0 ,9423
0,9793
0,9941
0,9987
0,9998
1, 0000
493
INTRODUCCIÓN Al ANALISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla 111. Distribución NORMAL TIPIFICADA
P(Z~z)
-3
z
o
-3,50
-3,40
-3,30
- 3,20
-3,10
-3,00
-2,90
- 2,80
-2,70
-2,60
·-2,50
- 2,40
-2,30
-2,20
-2,10
-2,00
-1,90
-1,80
-1,70
- 1,60
-1, 50
-1,40
-1,30
- 1,20
-1,10
-1,00
-0,90
-0,80
-0,70
-0,60
-0,50
-0,40
-0,30
-0,20
-0,10
0,0002
0,0003
0,0005
0,0007
0,0010
0,0013
0,0019
0,0026
0,0035
0,0047
0,0062
0,0082
0,0107
0,0139
0,0179
0,0228
0 ,0287
o,oo
0,0359
0,0446
0,0548
0 , 0668
0,0808
0,0968
0,1151
0 , 1357
0,1587
0,1841
0,2119
0,2420
0 , 2743
0,3085
0,3446
0,3821
0,4207
0 ,46 02
0 , 5000
0,01
0,0002
0,0003
0,0005
0,0007
-2
-1
0,02
0 , 0002
0,0003
0,0005
0,0006
0,0009
0,0013
0,0018
0,0024
0,0033
0,0044
0,0009
0,0013
0,0018
0,0025
0,0034
0,0045
0,0060
0,0080
0,0104
0,0136
0,0174
0,0222
0,0281
0,0059
0,0078
0,0102
0,0132
0,0170
0,0217
0 , 0274
0,0351
0 ,0436
0,0537
0,0655
0,0793
0,0951
0,1131
0,1335
0,1562
0,1814
0,2090
0,2389
0,2709
0,3050
0,3409
0,3783
0,4168
0,4562
0,4960
0,0344
0 , 0427
0,0526
0 ,0643
0,0778
0,0934
0,1112
0,1314
0 , 1539
0,1788
0 , 2061
0,2358
0,2676
0 , 3015
0,3372
0,3745
0,4129
0,4522
0 ,4920
O
2
3
0,03
0,0002
0,0003
0,0004
0,0006
0,0009
0,0012
0,0017
0,0023
0,0032
0,0043
0,0057
0,0075
0,0099
0,0129
0,0166
0,0212
0,0268
0,04
0,0002
0,0003
0,0004
0,0006
0,0008
0,0012
0,0016
0 ,0023
0,0031
0,0041
0,0055
0,0073
0,0096
0,0125
0 , 0162
0,0207
0,0262
0,05
0,0002
0,0003
0,0004
0,0006
0,0008
0,0011
0,0016
0,0022
0,0030
0,0040
0,0054
0,0071
0,0094
0 ,0122
0,0158
0,0202
0,0256
0 ,0336
0 ,0418
0,0516
0,0630
0,0764
0,0329
0,0409
0,0322
0,0401
0,0495
0,0606
0,0735
0 ,0885
0,1056
0, 1251
0,1469
0,1711
0,1977
0 ,2266
0, 2578
0,2912
0,3264
0,3632
0,4013
0,4404
0,4801
0,0918
0,1093
0,1292
0,1515
0,1762
0,2033
0,2327
0,2643
0,2981
0,3336
0,3707
0,4090
0,4483
0,4880
0,0505
0,0618
0,0749
0,0901
0 , 1075
0,1271
0,1492
0,1736
0,2005
0,2296
0 , 2611
0,2946
0,3300
0,3669
0,4052
0,4443
0,4840
0,06
0,0002
0,0003
0,0004
0,0006
0,0008
0,0011
0, 0015
0,0021
0 ,0029
0,0039
0,0052
0,0069
0,0091
0,0119
0 ,0154
0,0197
0,0250
0,0314
0,0392
0,0485
0,0594
0,0721
0,0869
0,1038
0 , 1230
0,1446
0,1685
0,1949
0 ,2236
0,2546
0,2877
0 ,3228
0,3594
0, 3974
0 ,4364
0 ,4761
0,07
0,0002
0,0003
0,0004
0,0005
0,0008
0,0011
0,0015
0,0021
0,0028
0,0038
0 ,0051
0,0068
0,0089
0 ,0116
0,0150
0,0192
0,0244
0,0307
0,0384
0 ,0475
0,0582
0 ,0708
0,0853
0,1020
0,1210
0,1423
0,1660
0,1922
0,2206
0,2514
0,2843
0,3192
0,3557
0, 3936
0,4325
0,47 2 1
0,08
0,0002
0,0003
0,0004
0,0005
0,0007
0,0010
0, 0014
0 ,0020
0,0027
0,0037
0,0049
0 ,0066
0,0087
0,0113
0,0146
0,0188
0,0239
0,09
0,0002
0,0002
0,0003
0,0005
0,0007
0,001 0
0, 0014
0,0019
0,0026
0,0036
0 ,0048
0 , 0064
0,0084
0,0110
0,0143
0,0183
0,0233
0,0301
0,0375
0,0465
0,0571
0 ,0694
0 ,0838
0,1003
0,1190
0,1401
0,1635
0, 1894
0,2177
0,2483
0,2810
0,3156
0,3520
0,3897
0,4286
0,4681
0,0294
0,0367
0,0455
0,0559
0,0681
0 , 0823
0,0985
o, 1170
0 , 1379
0,1611
0,1867
0,2148
0,2451
0,2776
0 ,3121
0,3483
0,3859
0,4247
0,4641
Los valores interiores representan la probabi lidad de obtener valores de Z menores o iguales que la
puntuación típica, z, definida por el cru ce de la fila con la columna indicativa del segundo decimal.
Así, por ejemp lo, la probabilidad de obtener puntuaciones menores o igua les que - 1,05 es 0,1469.
Es decir P(Z:'S-l,05)=0,1469
494
TABLAS ESTADÍSTICAS
Tabla IV. Distribución NORMAL TIPIFICADA
P(Z5'z)
-3
z
o
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
1,10
1,20
1,30
1,40
1,50
1,60
1,70
1,80
1,90
2,00
2,10
2,20
2,30
2,40
2,50
2,60
2,70
2,80
2,90
3,00
3,10
3,20
3,30
3,40
3,50
0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,8159
0,8413
0 ,8643
0,8849
0,9032
0,9192
0,9332
0,9452
0,9554
0,9641
0,9713
0,9772
0,9821
0,9861
0,9893
0,9918
0,9938
0,9953
0,9965
0,9974
0,9981
0,9987
0,9990
0,9993
0,9995
0,9997
0,9998
0,01
0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,7291
0,7611
o, 7910
0,8186
0,8438
0,8665
0,8869
0,9049
0,9207
0,9345
0,9463
0,9564
0,9649
0,9719
0,9778
0,9826
0,9864
0,9896
0,9920
0,9940
0,9955
0,9966
0,9975
0,9982
0,9987
0,9991
0,9993
0,9995
0,9997
0,9998
-2
-1
0,02
0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,7324
0,7642
0,7939
0,8212
0,8461
0,8686
0,8888
0,9066
0,9222
0,9357
0,9474
0,9573
0,9656
0,9726
0,9783
0,9830
0,9868
0,9898
0,9922
0,9941
0,9956
0,9967
0,9976
0,9982
0,9987
0,9991
0,9994
0,9995
0,9997
0,9998
O
0,03
0,5120
0,5517
0,5910
0,6293
0,6664
o, 7019
0,7357
o, 7673
0,7967
0,8238
0,8485
0,8708
0,8907
0,9082
0,9236
0,9370
0,9484
0,9582
0,9664
0,9732
0,9788
0,9834
0,9871
0,9901
0,9925
0,9943
0,9957
0,9968
0,9977
0,9983
0,9988
0,9991
0,9994
0,9996
0,9997
0,9998
2
0,04
0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,7389
0,7704
0,7995
0,8264
0,8508
0,8729
0,8925
0,9099
0,9251
0,9382
0,9495
0,9591
0,9671
0,9738
0,9793
0,9838
0,9875
0,9904
0,9927
0,9945
0,9959
0,9969
0,9977
0,9984
0,9988
0,9992
0,9994
0,9996
0,9997
0,9998
3
o,o~
0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,7422
0,7734
0,8023
0,8289
0,8531
0,8749
0,8944
0,9115
0,9265
0,9394
0,9505
0,9599
0,9678
0,9744
0,9798
0,9842
0,9878
0,9906
0,9929
0,9946
0,9960
0,9970
0,9978
0,9984
0,9989
0 ,9992
0,9994
0,9996
0,9997
0 , 9998
0,06
0,5239
0,5636
0,6026
0,6406
0,6772
o, 7123
0,7454
0,7764
0,8051
0,8315
0,8554
0,8770
0,8962
0,9131
0,9279
0,9406
0,9515
0,9608
0,9686
0,9750
0,9803
0,9846
0,9881
0,9909
0,9931
0,9948
0,9961
0,9971
0,9979
0,9985
0,9989
0,9992
0,9994
0,9996
0,9997
0,9998
0,07
0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,7486
0,7794
0,8078
0,8340
0,8577
0,8790
0,8980
0,9147
0,9292
0,9418
0,9525
0,9616
0,9693
0,9756
0,9808
0,9850
0,9884
0,9911
0,9932
0,9949
0,9962
0,9972
0,9979
0,9985
0,9989
0,9992
0,9995
0,9996
0,9997
0,9998
0,08
0,5319
0,5714
0,6103
0,6480
0,6844
0,7190
0,7517
0,7823
0,8106
0,8365
0,8599
0,8810
0,8997
0,9162
0,9306
0,9429
0,9535
0,9625
0,9699
0,9761
0,9812
0,9854
0,9887
0,9913
0,9934
0,9951
0,9963
0,9973
0,9980
0,9986
0,9990
0,9993
0,9995
0,9996
0 ,9997
0, 9998
0,09
0,5359
0,5753
0,6141
0,6517
0,6879
0,7224
0,7549
0,7852
0,8133
0,8389
0,8621
0,8830
0,9015
0,9177
0,9319
0,9441
0,9545
0,9633
0,9706
0,9767
0,9817
0,9857
0,9890
0,9916
0,9936
0,9952
0,9964
0,9974
0,9981
0,9986
0,9990
0 ,9993
0,9995
0,9997
0 ,9998
0,9998
Los valores interiores representan la probabilidad de obtener valores de Z menores o iguales que la
puntuación típica, z, definida por e l cruce de la fila con la columna indicativa del segundo decimal.
Así, por ejemplo, la probabilidad de obtener puntuaciones menores o iguales que 1,05 es 0,8531. Es
decir P(Z5. 1,05) = 0,8531
495
INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD
Tabla V. Distribución
x2
15,9872
ll
g.l.
1
2
3
4
5
6
7
8
9
10
u
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
"
0 ,005
0,0000
0,0100
0,0717
0,2070
0,4117
0,6757
0,9893
1,3444
1,7349
2,1559
2,6032
3,0738
3,5650
4,0747
4,6009
5 , 1422
5, 6972
6,2648
6,8440
7,4338
8,0337
8,6427
9,2604
9,8862
10,5197
11,1602
11,8076
12,4613
13,1211
13,7867
20,7065
27,9907
35,5345
43,2752
51,1719
59,1963
67,3276
0 ,0 10
0,0002
0,0201
0,1148
0,2971
0,5543
0,8721
1,2390
1,6465
2,0879
2,5582
3,0535
3,5706
4,1069
4,6604
5,2293
5,8122
6,4078
7,0149
7,6327
8,2604
8,8972
9,5425
10, 1957
10,8564
11,5240
12,1981
12,8785
13,5647
14,2565
14,9535
22,1643
29, 7067
37,4849
45,4417
53,5401
61, 7541
70,0649
0,0 25
0,0010
0,0506
0,2158
0,4844
0,8312
1,2373
1,6899
2,1797
2,7004
3,2470
3,8157
4,4038
5,0088
5,6287
6,2621
6,9077
7,5642
8,2307
8,9065
9,5908
10,2829
10,9823
11,6886
12,4012
13,1197
13,8439
14, 5734
15,3079
16,0471
16,7908
24,4330
32,3574
40,4817
48 ,7576
57,1532
65,6466
74,22 19
0 ,050
0,0039
0,1026
0,3518
0,7107
1,1455
1,6354
2,1673
2,7326
3,3251
3,9403
4,5748
5,2260
5,8919
6,5706
7,2609
7,9616
8,6718
9,3905
10,1170
10,8508
11,5913
12,3380
13,0905
13,8484
14,6114
15,3792
16,1514
16,9279
17,7084
18,4927
26,5093
34,7643
43,1880
51,7393
60,3915
69,1260
77,9295
Prob'a'bilidad
0,100
0 ,900
0,0158
2,7055
0,2107
4,6052
0,5844
6,2514
1,0636
7,7794
1,6103
9,2364
2,2041 10,6446
2,8331 12,0170
3,4895 13,3616
4,1682 14,6837
4,8652 15,9872
5,5778 17,2750
6,3038 18,5493
7,0415 19,8119
7,7895 21,0641
8,5468 22,3071
9,3122 23,5418
10,0852 24,7690
10,8649 25,9894
11,6509 27,2036
12,4426 28,4120
13,2396 29,6151
14,0415 30,8133
14,8480 32,0069
15,6587 33,1962
16,4734 34,3816
17,2919 35,5632
18,1139 36, 7412
18,9392 37,9159
19,7677 39,0875
20,5992 40,2560
29,0505 51,8051
37, 6886 63,1671
46,4589 74,3970
55,3289 85, 5270
64,2778 96, 5782
73,291 1 107,5650
82,3581 118,4980
11
0 ,950
3,8415
5,9915
7,8147
9,4877
11,0705
12,5916
14,0671
15,5073
16,9190
18,3070
19,6751
21,0261
22,3620
23,6848
24,9958
26,2962
27, 5871
28,8693
30,1435
31,4104
32,6706
33,9244
35,1725
36,4150
37,6525
38,8851
40,1133
41,3371
42,5570
43 , 7730
55,7585
67,5048
79,0819
90,5312
101,8795
113,1453
124,3421
\¡
0,975
5,0239
7,3778
9,3484
11,1433
12,8325
14,4494
16,0128
17,5345
19,0228
20,4832
21,9200
23,3367
24,7356
26,1189
27,4884
28,8454
30,1910
31,5264
32,8523
34,1696
35,4789
36,7807
38,0756
39,3641
40,6465
41,9232
43,1945
44,4608
45,7223
46,9792
59,3417
71,4202
83,2977
95,0232
106,6286
118,1359
129,5612
0 , 990
6,6349
9 ,2103
11,3449
13,2767
15,0863
16,8119
18,4753
20,0902
21,6660
23,2093
24,7250
26,2170
27,6882
29,1412
30,5779
31,9999
33,4087
34,8053
36,1909
37,5662
38,9322
40,2894
41,6384
42,9798
44,3141
45,6417
46,9629
48,2782
49,5879
50,8922
63,6907
76,1539
88,3794
100,4252
112,3288
124, 1163
135,8067
,[I
0 ,995
7,8794
10,5966
12,8382
14,8603
16,7496
18,5476
20,2777
21,9 550
23,5894
25,1882
26,7 568
28,2995
29,8195
31,3193
32,8013
34,2672
35,7185
37,1565
38,5823
39 ,9968
41,4011
42, 7957
44,1813
45,5585
46,9279
48,2899
49,6449
50,9934
52,3356
53,6720
66,7660
79,4900
91,9517
104,2149
116,3211
128,2989
140,1695
Los números interiores representan valores de la variable x2 para una probabilidad menor o igual que
la especificada, con g.l. grados de libertad. Por ejemplo, con 10 g.l. la probabilidad de obtener valores
menores o iguales que 15,9872 es 0,90
496
TABLAS ESTADÍSTICAS
Tabla VI. Distribución t de Student
l\ tlO
_J_a;K__
1, 372
g.l.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
'20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0,550
0,158
0,142
0,137
0,134
0,132
0,131
0,130
0,130
0,129
0,129
0,129
0,128
0,128
0,128
0,128
0,128
0,128
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,126
0,126
0,126
0,126
0,126
0,126
0,126
0,600
0,325
0,289
0,277
0,271
0,267
0,265
0,263
0,262
0,261
0,260
0,260
0,259
0,259
0,258
0,258
0,258
0,257
0,257
0,257
0,257
0,257
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,255
0,255
0,254
0,254
0,254
0,254
0,254
0,650
0,510
0,445
0,424
0,414
0,408
0,404
0,402
0,399
0,398
0,397
0,396
0,395
0,394
0,393
0,393
0,392
0,392
0,392
0,391
0,391
0,391
0,390
0,390
0,390
0,390
0,390
0,389
0,389
0,389
0,389
0,388
0,388
0,387
0,387
0,387
0,387
0,386
0 , 700
0,727
0,617
0,584
0,569
0,559
0,553
0,549
0,546
0,543
0,542
0,540
0,539
0,538
0,537
0,536
0,535
0,534
0,534
0,533
0,533
0,532
0,532
0,532
0,531
0,531
0,531
0,531
0,530
0,530
0,530
0,529
0,528
0,527
0,52 7
0,526
0,526
0,526
0,750
1,000
0,816
0,765
0,741
0,727
0,718
0,711
0,706
0,703
0,700
0,697
0,695
0,694
0,692
0,691
0,690
0,689
0,688
0,688
0,687
0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,683
0,681
0,679
0,679
0,678
0,678
0,677
0,677
Probabilidad
0,800 0 ,850
1,376 1,963
1,061 1,386
0,978 1,250
0,941 1,190
0,920 1,156
0,906 1,134
0,896 1,119
0,889 1,108
0,883 1, 100
0,879 1,093
0,876 1,088
0,873 1,083
0,870 1,079
0,868 1,076
0,866 1, 0 74
0,865 1,071
0,863 1,069
0,862 1,067
0,861 1,066
0,860 1,064
0,859 1,063
0,858 1,061
0,858 1,060
0,857 1, 059
0,856 1,058
0,856 1,058
0,855 1,057
0,855 1,056
0,854 1,055
0,854 1,055
0,851 1,050
0,849 1,047
0,848 1,045
0,847 1,044
0,846 1,043
0,846 1,042
0,845 1,042
0,900
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,299
1,296
1,294
1,292
1,291
1,290
0 , 950 0 ,975 0.990
6,314 12,706 31,821
2,920 4,303 6,965
2,353 3,182 4,541
2,132 2,776 3,747
2,015 2,571 3,365
1,943 2,447 3,143
1,895 2,365 2,998
1,860 2,306 2,896
1,833 2,262 2,821
1,812 2,228 2,764
1,796 2,201 2,718
1,782 2,179 2,681
1,771 2,160 2,650
1,761 2,145 2,624
1,753 2,131 2,602
1,746 2,120 2,583
1,740 2,110 2,567
1,734 2,101 2,552
1,729 2,093 2,539
1,725 2,086 2,528
1,721 2,080 2,518
1,717 2,074 2,508
1,714 2,069 2,500
1,711 2,064 2,492
1,708 2,060 2,485
1,706 2,056 2,479
1,703 2,052 2,473
1,701 2,048 2,467
1,699 2,045 2,462
1,697 2,042 2,457
1,684 2,021 2,423
1,676 2,009 2,403
1,671 2,000 2,390
1,667 1,994 2,381
1,664 1,990 2,374
1,662 1,987 2,368
1,660 1,984 2,364
0,995
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3, 106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,678
2,660
2,648
2,639
2,632
2,626
Los números interiores re p resentan valores de la variabl e T para una probabilidad menor o igual que
la es pecifica d a , co n g .l. g ra dos de libertad. Por eje mp lo , con 10 g. l. la probab ilidad de obtener valores
menores o igua les q ue 1,372 es 0,90 .
497
Tabla VII. Distribución F
z
--i
;o
o
P(Fnn
~fnn)=
0,90
l 2
1 l
o
e
R
5
1,94
z
)>
r-
Grados de libertad del numerador (n 1 )
1
2
3
4
5
6
7
8
1
39,863
49,500
53,593
55,833
57,240
58,204
58,906
)>
10
20
59,439
9
59,858
60,195
61,740
30
62,265
40
62,529
50
62,688
60
62,794
120
63,061
9,483
z
)>,
r-
¡¡¡
¡¡¡
o
m
o
2
8,526
9,000
9,162
9,243
9,293
9,326
9,349
9,367
9,381
9,392
9,441
9,458
9,466
9,471
9,475
3
5,538
5,462
5,391
5,343
5,309
5,285
5,266
5,252
5,240
5,230
5,184
5, 168
5,160
5,155
5, 151
5,143
4
4,545
4 ,325
4,191
4,107
4,051
4,010
3,979
3,955
3,936
3,920
3,844
3,817
3,804
3,795
3,790
3,775
5
4,060
3,780
3,619
3,520
3,453
3,405
3,368
3,339
3,316
3,297
3,207
3,174
3,157
3,147
3,140
3,123
~~
--;; 6
3,776
3,463
3,289
3,181
3,108
3,055
3,014
2,983
2,958
2,937
2,836
2,800
2,781
2,770
2,762
2,742
)>
1J
7
3,589
3,257
3,074
2,961
2,883
2,827
2,785
2,752
2,725
2,703
2,595
2,555
2,535
2,523
2,514
2,493
;:;
8
3,458
3,113
2,924
2,806
2,726
2,668
2,624
2,589
2,561
2,538
2,425
2,383
2,361
2,348
2,339
2,316
·e 109
e
3,360
3,006
2,813
2,693
2,611
2,551
2,505
2,469
2,440
2,416
2,298
2,255
2,232
2,218
2,208
2,184
o
z
0
3,285
2,924
2,728
2,605
2,522
2,461
2,414
2,377
2,347
2,323
2,201
2,155
2,132
2,117
2,107
2,082
11
3,225
2,860
2,660
2,536
2,451
2,389
2,342
2,304
2,274
2,248
2,123
2,076
2,052
2,036
2,026
2,000
,:,
.
.
0
'0
eQI
'0
'ii 12
3,177
2,807
2,606
2,480
2,394
2,331
2,283
2,245
2,214
2,188
2,060
2,011
1,986
1,970
1,960
1,932
.13
3,136
2,763
2,560
2,434
2,347
2,283
2,234
2,195
2,164
2,138
2,007
1,958
1,931
1,915
1,904
1,876
2,122
2,095
1,962
1,912
1,88 5
1,869
1,857
1,828
2,059
1,924
1,873
1,845
1,828
1,817
1,787
1,751
'0
'0
.
t:QI
ª.
14
3,102
2,726
2,522
2,395
2,307
2,243
2,193
2,154
15
3,073
2,695
2,490
2,361
2,273
2,208
2,158
2,119
2,086
r-
,.,
)>
m
m
V,
z
1J
V,
8
5
C1
:i,'
16
3,048
2,668
2,462
2,333
2,244
2,178
2,128
2,088
2,055
2,028
1,891
1,839
1,811
1,793
1,782
0
'0
.1 7
3,026
2,645
2,437
2,308
2,218
2,152
2,102
2,061
2,028
2,001
1,862
1,809
1,781
1,763
1,751
1,7 19
,.,-<
m
,.,z
l.!I
18
3,007
2,624
2,416
2,286
2,196
2,130
2,079
2,038
2,005
1,977
1,837
1,783
1,754
1,736
1,723
1,691
V,
19
2,990
2,606
2,397
2,266
2,176
2,109
2,058
2,017
1,984
1,956
1,814
1,7 59
1,730
1,711
1,699
1,666
m
r-
20
2,975
2,589
2,380
2,249
2,158
2,091
2,040
1,999
1,965
1,937
1,794
1,738
1,708
1,690
1,677
1,643
30
2,881
2,489
2,276
2,142
2,049
1,980
1,927
1,884
1,849
1,819
1,667
1,606
1,573
1,552
1,538
1,499
1,707
1,543
1,476
1,437
1,413
1,395
1,348
1,652
1,482
1,409
1,368
1,340
1,320
1,265
QI
'0
.
60
2,791
2,393
2,177
2,041
1,946
1,875
1,819
1,775
1,738
120
2,748
2,347
2,130
1,992
1,896
1,824
1,767
1,722
1,684
Los números interiores corresponden a los valores de la variable F con n 1 grados de libertad del numerador y n 2 grados de libertad del denominador. Por
ejemplo, P(F10 , 20 ~ 1,937) = 0,90
)>
o
)>
V,
)>
E
o
Tabla VII. Distribución F
P (Fnn s;fnn)=0, 95
1 2
1 2
Grados de libertad del .oumerador (n 1 )
-
=
1
2-
3
4
5
6
7
8
9
10
20
30
40
50
60
120
161,448
199,500
215,707
224,583
230,162
233,986
236,768
238,883
240,543
24 1,882
248,013
250,095
251,143
251,774
252,196
253,253
2
18,513
19,000
19,164
19,247
19,296
19,330
19,353
19,371
19,385
19,396
19,446
19,462
19,471
19,476
19,479
19,487
3
10,128
9,552
9,277
9,117
9,013
8,941
8,887
8,845
8,812
8,786
8,660
8,617
8,594
8,581
8,572
8,549
4
7,709
6,944
6,591
6,388
6,256
6,163
6,094
6,041
5,999
5,964
5,803
5,746
5,717
5,699
5,688
5,658
5
6,608
5,786
5,409
5,192
5,050
4,950
4 ,876
4,818
4,772
4,735
4,558
4,496
4,464
4,444
4,431
4,398
6
5,987
5,143
4 ,757
4,534
4,387
4 , 284
4,207
4,147
4 ,099
4,060
3,874
3,808
3,774
3,754
3,740
3,705
7
5,591
4,737
4,347
4,120
3,972
3,866
3,787
3,726
3,677
3,637
3,445
3,376
3,340
3,319
3,304
3,267
,:,
8
5,318
4,459
4,066
3,838
3,687
3,581
3,500
3,438
3,388
3,347
3,150
3,079
3,043
3,020
3,005
2,967
e
9
5,117
4,256
3,863
3,633
3,482
3,374
3,293
3,230
3, 179
3,137
2,936
2,864
2,826
2,803
2,787
2,748
e
10
4,965
4,103
3,708
3,478
3,326
3,217
3,135
3,072
3,020
2,978
2,774
2,700
2,661
2,637
2,621
2,580
11
4,844
3,982
3,587
3,357
3,204
3,095
3,012
2,948
2,896
2,854
2,646
2,570
2,531
2,507
2,490
2,448
'ii
,:, 12
.
4,747
3,885
3,490
3,259
3,106
2,996
2,913
2,849
2,796
2,753
2,544
2,466
2,426
2,401
2,384
2,341
13
4,667
3,806
3,411
3,179
3,025
2,915
2,832
2,767
2,714
2,671
2,459
2,380
2,339
2,314
2,297
2,252
QI
14
4,600
3,739
3,344
3,112
2,958
2,848
2,764
2,699
2,646
2,602
2,388
2,308
2,266
2,241
2,223
2,178
15
4,543
3,682
3,287
3,056
2,901
2,790
2,707
2,641
2,588
2, 544
2,328
2,247
2,204
2,178
2,160
2,114
2,059
1
I.
.
o
E
o
QI
,:,
,:,
~
,g
.
QI
,:,
16
4,494
3,634
3,239
3,007
2,852
2,741
2,657
2,591
2,538
2,494
2,276
2,194
2, 151
2,124
2,106
17
4,451
3,592
3,197
2,965
2,810
2,699
2,614
2,548
2,494
2,450
2,230
2, 148
2,104
2,077
2,058
2,011
1:1 1 8
4 ,414
3,555
3,160
2,928
2,773
2,661
2,577
2,510
2,456
2,412
2,19 1
2, 107
2,063
2,035
2,017
1,968
o
,:,
l'!
19
4, 381
3,522
3,127
2,895
2,740
2,628
2,544
2,477
2,423
2,378
2,155
2,07 1
2,026
1,999
1,980
1,930
20
4 ,351
3,493
3,098
2,866
2,711
2,599
2, 514
2,447
2,393
2,348
2, 124
2,039
1,994
1,966
1,946
1,896
30
4,171
3,316
2,922
2,690
2, 534
2,421
2,334
2,266
2,211
2,165
1,932
1,841
1,792
1,761
1,740
1,683
60
4,001
3,150
2,758
2,525
2,368
2,254
2, 167
2,097
2,040
1,993
1,748
1,649
1,594
1,559
1,534
1,467
120
3,920
3,072
2,680
2,447
2,290
2,175
2,087
2,016
1,959
1,910
1,6 59
1,554
1,495
1,457
1,429
1,352
Los números interiores corresponden a los valores de la vari able F co n n 1 grados de libertad del num erador y n 2 grados de libertad del denominad or. Por
ejemplo, P( F10, 20 $ 2,348) = O, 95
u,
Tabla VII. Distribución F
o
o
z
--t
;JJ
P (Fnn
~fnn)=
0,975
l 2
l 2
o
o
e
n
n
5,
z
,...)>
Grado.s. de libertad del numerador (n 1)
)>
1
2
3
4
5
6
7
8
9
10
1
647,789
799,500
864,163
899,583
921,848
937,111
948,217
956,656
963,285
968,627
2
38,506
39,000
39,165
39,248
39, 298
39,331
39,355
39,373
39,387
39,398
39,448
39,465
39,473
39,478
39 ,481
39,490
20
40
120
30
50
60
993,103 1001 ,414 1005,598 1008,117 1009,800 1014,020
¡¡;
¡¡;
o
m
3
17,443
16,044
15,439
15,101
14,885
14,735
14,624
14,540
14,473
14,419
14,167
14,081
14,037
14,010
13,992
13,947
4
12,218
10,649
9,979
9,605
9,364
9, 197
9,074
8,980
8,905
8,844
8,560
8,461
8,411
8,381
8,360
8,309
5
10,007
8,434
7,764
7,388
7,146
6,978
6,853
6,757
6,681
6,619
6,329
6,227
6,175
6,144
6,123
6,069
!".'
4,904
,..."ti
-;- 6
8,8 13
7,260
6,599
6,227
5,988
5,820
5,695
5,600
5,523
5,461
5,168
5,065
5,012
4,980
4,959
6,542
5,890
5,523
5,285
5,119
4,995
4,899
4,823
4 ,761
4,467
4,362
4,309
4,276
4,254
4,199
.:,
z
,...)>,
o
~
o
)>
a
7
8,073
8
7,571
6,059
5,416
5,053
4 ,8 17
4,652
4,529
4,433
4 ,357
4,295
3,999
3,894
3,840
3,807
3,784
3,728
e
9
7,209
5,715
5,0 78
4 ,718
4,484
4,320
4,197
4,102
4,026
3,964
3,667
3,560
3,505
3,472
3,449
3,392
6,937
5,456
4,826
4,468
4,236
4,072
3,950
3,855
3,779
3,717
3,419
3,311
3,255
3,221
3,198
3,140
V,
11
6,724
5,256
4,630
4,275
4,044
3,881
3,759
3,664
3,588
3,526
3,226
3,118
3,061
3,027
3,004
2,944
z
12
6,554
5,096
4,474
4,121
3,891
3,728
3,607
3,512
3,436
3,374
3,073
2,963
2,906
2,871
2,848
2,787
13
6,414
4 ,965
4 ,347
3,996
3,767
3,604
3,483
3,388
3,312
3,250
2,948
2,837
2,780
2,744
2,720
2,659
14
6,298
4,857
4,242
3,892
3,663
3,501
3,380
3,285
3,209
3,147
2,844
2,732
2,674
2,638
2,614
2,552
3,415
3,293
3,199
3,123
3,060
2,756
2,644
2,585
2,549
2,524
2,461
.
'0
·e 10
0
e
QI
'0
-¡j
'0
'0
.
t:
QI
ª
15
6,200
4,765
4 ,153
3,804
3,576
16
6,115
4,687
4,077
3,729
3,502
3,341
3,219
3,125
3,049
2,986
2,681
2,568
2,509
2,472
2,447
2,383
0
'0
17
6,042
4 ,619
4 ,011
3,665
3,438
3,277
3,156
3,061
2,985
2,922
2,616
2,502
2,442
2,405
2,380
2,315
llJ
18
5,978
4,560
3,954
3,608
3,382
3,221
3,100
3,005
2,929
2,866
2,559
2,445
2,384
2,347
2,321
2,2 56
3,051
2,956
2,880
2,817
2,509
2,394
2,333
2,295
2,270
2,203
QI
'0
111
:?
19
5,922
4,508
3,903
3,559
3,333
3,172
20
5,871
4,461
3,859
3,515
3,289
3,128
3,007
2,913
2,837
2,774
2,464
2,349
2,287
2,249
2,223
2,156
30
5,568
4 , 182
3,589
3,250
3,026
2,867
2,746
2,651
2,575
2,511
2,195
2,074
2,009
1,968
1,940
1,866
60
5,286
3,925
3,343
3, 008
2,786
2,627
2,507
2,412
2,334
2,270
1,944
1,81 5
1,744
1,699
1,667
1,581
2,395
2,299
2,222
2,157
1,825
1,690
1,614
1,565
1,530
1,433
120
5,152
3,805
3,227
2,894
2,674
2,515
Los números interiores corresponden a los va lores de la variable F con n 1 grados de libertad del numerador y n 2 grados de libertad del denominador. Por
ejemplo, P(F10 , 20 ~ 2,774) = 0,975
¡:;
)>
n
oz
m
m
"ti
V,
8
5
e,
>'
-<
n
ñi
z
n
>
V,
o
,...m
)>
V,
,...)>
e
o
Tabla VII. Distribución F
P (Fnl n2
$
fn 1n2 ) = O, 990
Grados de libertad del numerador (n 1 )
1
-1
5
6
7
8
9
10
20
30
40
50
60
120
4052,181 4999,500 5403,352 5624 ,583 5763,650 5858,986 5928,356 5981 ,070 6022,473 6055,847 6208,730 6260,649 6286,782 6302,517 6313,030 6339,391
98 ,503
99 ,000
99,166
99,249
99,299
99 ,333
99 ,356
99,374
99, 388
99 ,399
99 ,449
99 ,466
99,474
99 ,479
99,482
99,491
34 ,116
30,817
29,457
28, 710
28,237
27,911
27 ,672
27 ,489
27, 345
27,229
26,690
26,505
26,411
26,354
26 ,316
26,221
4
21 , 198
18,000
16,694
15,977
15,522
15, 207
14,976
14,799
14,659
14,546
14,020
13,838
13,745
13,690
13,652
13,558
5
16,258
13,274
12,060
11, 392
10,967
10,672
10,456
10, 289
10,158
10,051
9, 553
9,379
9,291
9, 238
9,202
9,112
6
13,745
10,925
9,78 0
9 , 148
8,746
8,466
8 ,260
8 ,102
7,976
7,874
7, 396
7 ,229
7, 143
7,091
7,057
6,969
7
12,246
9,547
8,451
7,84 7
7,460
7 , 191
6,993
6,840
6,719
6,620
6, 155
5,992
5,908
5,858
5,824
5,737
m
8
11 ,259
8, 64 9
7,591
7,006
6,632
6, 371
6, 178
6 ,029
5,911
5,814
5, 359
5,198
5,116
5,065
5,032
4,946
·eo
9
10, 561
8,022
6,99 2
6 ,422
6,057
5,802
5,613
5,467
5,351
5,257
4 ,808
4,649
4 , 567
4 ,517
4,483
4,398
~
o
10,044
7, 559
6,55 2
5 ,994
5,636
5, 386
5,200
5,057
4,942
4 ,849
4 ,405
4,247
4 , 165
4 , 115
4,082
3,996
'ti
11
9 ,646
7, 206
6 ,21 7
5,668
5,316
5,069
4,886
4 ,744
4 ,632
4,539
4 ,099
3 ,941
3,860
3,810
3,776
3,690
u
'ti
12
9 ,330
6,92 7
5,953
5,412
5,064
4 ,821
4 ,640
4 ,499
4,388
4 ,296
3,858
3,701
3,619
3, 569
3,535
3,449
'ti
e
ea, 10
.
ª.
'ti
t:
a,
a,
'ti
o
'ti
f!
t,
....
4
3
o
u,
3
2
I...
.
o
2
-13
9,074
6,701
5,739
5,205
4 ,862
4,620
4 ,441
4 ,302
4, 191
4 , 100
3,665
3,507
3,425
3,375
3,341
3,255
14
8 ,86 2
6,515
5,564
5,035
4 ,695
4 ,456
4 ,278
4,140
4,030
3,939
3,505
3,348
3,266
3,215
3,181
3,094
15
8 ,683
6,3 59
5,41 7
4,893
4 , 556
4 , 318
4,142
4,004
3,895
3,805
3,372
3 ,214
3,132
3,081
3,047
2,959
16
8 ,531
6,226
5,292
4, 773
4 ,437
4 , 202
4,026
3,890
3,780
3,69 1
3,259
3,101
3,0 18
2,967
2,933
2,845
17
8,400
6, 112
5,185
4,669
4 ,3 36
4 , 102
3,927
3,791
3,682
3,593
3, 162
3,003
2,920
2,869
2,835
2,746
18
8, 285
6 ,013
5,092
4, 579
4 ,248
4 ,015
3,841
3,705
3,597
3,508
3,077
2,919
2,835
2,784
2,749
2,660
19
8, 185
5,926
5,0 10
4 , 500
4 , 171
3,939
3,765
3 ,631
3,523
3,434
3,003
2,844
2,761
2,709
2,674
2, 584
20
8 ,096
5,849
4,938
4 ,4 3 1
4 , 103
3,871
3,699
3,564
3,457
3,368
2,938
2,778
2,695
2,643
2,608
2, 517
30
7, 562
5,390
4, 510
4,0 18
3,699
3,473
3,304
3, 173
3,067
2,979
2,549
2,386
2,299
2, 245
2,208
2, 111
60
7,077
4 ,977
4 ,1 26
3,649
3,339
3, 119
2,953
2,823
2,718
2,632
2, 198
2,028
1,936
1,877
1,836
1,726
120
6,8 5 1
4 ,787
3,949
3, 480
3, 174
2,9 56
2,792
2,663
2,559
2,472
2,035
1,860
1,763
1,700
1,656
1, 533
Los números interiores corresponden a los valores de la variable F con n 1 grados de libertad del numerador y n 2 grados de libertad del denominador. Por
ejemplo, P(F10 ,20 s; 3,368) = 0,990
~
CD
,....
);,
VI
VI
¡;;·
-i
;:¡
);,
VI
u,
Tabla VII. Distribución F
o
N
z
-t
:X,
P (Fnn
:,;fnn)=
0,995
l 2
1 2
o
o
e
R
o
z
Grados de libertad del numerador ( n 1 )
1
1
2
3
4
5
6
7
8
9
10
)>
-
r-
=
)>
20
30
40
50
120
60
16210,723 19999,500 21614,741 22499,583 23055,798 23437,111 23714,566 23925,406 24091,004 24224,487 24835,971 25043,628 25148,153 25211,089 25253, 137 25358,573
?
2
198,501
199,000
199,166
199,250
199,300
199,333
199,357
199,375
199,388
199,400
199,450
199,466
199,475
199,480
199,483
199,491
3
55,552
49 ,799
47 ,467
46 ,195
45,392
44,838
44,434
44,126
43,882
43 ,686
42,778
42,466
42,308
42,213
42,149
41,989
4
31 ,333
26,284
24,259
23 ,155
22,456
21 ,975
21 ,622
21 , 352
21 ,139
20,967
20,167
19,892
19,752
19,667
19,611
19,468
~
z
)>,
r-
iii
¡¡;
o
m
o
~
o
5
22,785
18,314
16,530
15,556
14,940
14,513
14,200
13,961
13,772
13,618
12,903
12,656
12,530
12,454
12,402
12,274
¿
6
18,635
14,544
12,917
12,028
11,464
11 ,073
10,786
10 ,566
10,391
10,250
9 ,589
9 ,358
9,241
9,170
9,122
9,001
---¡;
7
16,236
12,404
10,882
10,050
9,522
9, 155
8 ,885
8,678
8, 514
8 ,380
7 ,754
7,534
7,422
7,354
7,309
7,193
8
14,688
11,042
9,596
8,805
8,302
7,952
7,694
7,496
7,339
7,211
6,608
6,396
6,288
6,222
6,177
6,065
13,614
10, 107
8,7 17
7,956
7,471
7, 134
6 ,885
6,693
6, 541
6,417
5,832
5,625
5,519
5,454
5,410
5,300
o
z
12,826
9,427
8,081
7,343
6,872
6, 545
6 ,302
6, 116
5,968
5,847
5,274
5,071
4,966
4,902
4,859
4,7 50
V)
12,226
8,912
7,600
6,881
6,422
6 ,102
5,865
5 ,682
5,537
5,418
4,855
4,654
4,551
4,488
4,445
4,337
6,071
5,757
5, 525
5,345
5,202
5,085
4,530
4 ,331
4,228
4,165
4,123
4,015
.
"0
e
e 109
0
e
Gl
"0
-¡¡
"0
"0
.
t:
Gl
ª.,
.
¡;
Gl
"0
0
"0
11
12
11 ,754
8,510
7,226
6,521
13
11, 374
8,186
6,926
6,233
5,791
5,48 2
5,253
5,076
4 ,935
4,820
4,270
4 ,073
3,970
3 ,908
3,866
3,758
14
11,060
7,922
6,680
5,998
5,562
5,257
5,031
4 ,857
4 ,717
4 ,603
4,059
3,862
3,760
3,698
3,655
3, 547
15
10,798
7,701
6,476
5,80 3
5,372
5,071
4 ,847
4 ,674
4 ,536
4 ,424
3,883
3,687
3,585
3, 523
3,480
3,372
4 ,692
4 ,521
4 ,384
4,272
3,734
3,539
3,437
3,375
3,332
3,224
!".'
)>
-e
r-
ñ
¡:;
m
m
z
-e
V)
8
5
C1
>
16
10,575
7,514
6,303
5,638
5,212
4 ,913
17
10,384
7,354
6,156
5,497
5,075
4 ,779
4, 559
4 ,389
4 ,254
4,142
3,607
3,412
3,311
3,248
3,206
3,097
,..,-<
¡;;
,..,z
18
10, 21 8
7, 215
6,028
5,375
4,956
4 ,663
4,445
4 ,276
4 , 141
4,030
3 ,498
3,303
3,201
3,139
3,096
2,987
V)
19
10,073
7,093
5,916
5,268
4 ,8 53
4 ,561
4,345
4 ,177
4 ,043
3,933
3,402
3,208
3,106
3,043
3,000
2,891
5, 174
4 ,762
4 ,472
4, 257
4 ,090
3,956
3,847
3,318
3,123
3,022
2,959
2,916
2,806
20
9,944
6,986
5,818
30
9,1 80
6,355
5,239
4 ,623
4 ,228
3,949
3,742
3,580
3,450
3 ,344
2,823
2,628
2,524
2,459
2,415
2,300
60
8,495
5,795
4 ,729
4 , 140
3,760
3,492
3,291
3, 134
3,008
2,904
2,387
2,187
2,079
2,010
1,962
1,834
120
8, 179
5,539
4 ,497
3,921
3,548
3,285
3 ,087
2,933
2,808
2 ,705
2,188
1,984
1,871
1,798
1,747
1,606
Los números interiores correspond en a los va lores de la vari able F con n 1 grados de libertad del numerador y n 2 grados de libertad del denominador. Por
ejemplo, P(F10 , 20 :-; 3,847) = 0,995
)>
o
m
r)>
V)
)>
E
o
TEMAl
Conceptos básicos y organización de datos
Cualitativa
• Dicotómica
• Politómica
-
Cuantitativa -+Nominal
Cuaslcuantitatlva -+Ordinal
■
Intervalo
Discreta
• Continua
Razón
Conceptos básicos
Frecuencia absoluta (n¡).
Proporción o frecuencia relativa (p¡).
Porcentaje (P;),
Frecuencia absoluta acumulada (n 0 ).
Proporción acumulada o frecuencia relativa acumulada (p 0 ) .
Porcentaje acumulado (P0 ).
Intervalo.
Límites aparentes.
Límites exactos o reales.
Punto medio del intervalo (PM):
PM
= LIE + LSE
ó
PM
= LIA + L.SA
2
2
Amplitud del intervalo.
Representación gráfica de una variable.
Propiedades de la distribución de frecuencias.
1
TEMA2
índices de tendencia central y de posición
ÍNDICES DE TENDENCIA CENTRAL
MEDIA ARITMÉTICA:
Media ponderada:
Xp
_ n1 • X 1 + n2 • X 2 + ... + n1 . X 1
-
n
MEDIANA:Hd
n par:
n impar:
Md = Xn¡2 + X (n/2)+1
2
Md
= x (n +l)/2
Datos agrupados:
Md = L; +
- - nd
n2
]
[
ne
·I
donde:
L; es límite inferior exacto del intervalo crítico
n es el número de observaciones
nd es la frecuencia absoluta acumulada por debajo del intervalo crítico
2
TEMA 2: MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN
ne es la frecuencia absoluta del intervalo crítico
I es la amplitud del intervalo crítico
ÍNDICES DE POSICIÓN
PERCENTILES:
k=
l_(R_k_-_~,_·)n_·n~, + nd
l
100
donde:
nd es la frecuencia absoluta acumulada por debajo del intervalo crítico
ne es la frecuencia absoluta del intervalo crítico
k es el percentil
L; es el límite inferior exacto del intervalo crítico
J es la amplitud del intervalo
3
TEMA3
Medidas de variabilidad y forma
MEDIDAS DE VARIABILIDAD
Amplitud total o rango:
Desviación media:
DM =
_I _jx;_-_
x¡
n
Varianza:
st = r(x;-x/
2
¿Xt -2
Sx =--- X
n
n
2 _
5X
-
"n.
L 1 (x.1
- x)2
n
Desviación típica:
4
"n.X 2
' '
n
S x2 = L
-2
- X
2
2
-2
Sx = ¿P;X; - X
TEMA 3: MEDIDAS DE VARIABILIDAD Y FORMA
Cuasidesviación típica:
Cuasivarianza:
s
'1.::,n - 1 - \
1
Amplitud intercuartil:
Coeficiente de variación:
CV
-xt
's2 - r(x;
n_
-
n- 1 -
5
X
= ! -100
MEDIDAS DE FORMA
Índices de asimetría:
Ap
X-Mo
AF =
1
=---
L n¡ ( X¡ - x/
Sx
n -SI
Índice de curtosis:
"'n (x. - x)
C=k,I
r
n
4
s:
I
·
- 3
DIAGRAMA DE CAJA
L5
= Q3 + ArQ x 1, 5
1
1
Lr
= Q1 -
ArQ x 1, 5
PUNTUACIONES DIFERENCIALES Y TÍPICAS
X¡
X¡ - X
Sx
Sx
zx=-=
5
TEMA4
Relación entre variables 1
MEDIDAS GLOBALES DE ASOCIACIÓN ENTRE VARIABLES
CUALITATIVAS
Independencia: x,2
Total fila x Total columna
0 =--------n
Coeficiente C de contingencia:
Coeficiente cp:
Coeficiente V de Cramer:
RELACIÓN ENTRE VARIABLES ORDINALES
Coeficiente de correlación de Spearman:
r5 = 1 -
6
6I,dl
n (n2 -1 )
1
TEMAS
Relación entre variables 11
Covarianza:
n
LX;Y;
Sxy
= Cov(X, Y)
=
i= l
n
-
X y
Coeficiente de correlación lineal de Pearson:
Coeficiente de correlación biseral-puntual:
r bp
=
Xp - Xq
5
~
. '1/ p . q
X
REGRESIÓN LINEAL SIMPLE
Recta de regresión:
Y/= a+ bX; 1
Coeficientes de regresión:
b
= -=
nL
=-(_
X_
Y )_-=
L _x =
:_¿_y
n:_¿x 2 -(:_¿x)2
BJB
7
FORMULARIO Y TABLAS ESTAOÍSTICAS DE INTRODUCCIÓN AL ANÁLISIS DE DATOS
Error:
Criterio de mínimos cuadrados:
Coeficiente de determinación:
Error cuadrático medio:
52
=
E
52
Y·X
"E2
-2
= _,¿_,
__
, - E
n
Propiedades del modelo de regresión lineal simple:
1
E= o
11
Y· = Y
I
s~ = s~. + s~.x
2
rxy
5r
=-
5 y2
REGRESIÓN LINEAL MÚLTIPLE
8
1- r2 XY -
5ix
52
y
TEMA6
Nociones básicas de probabilidad
Definiciones de probabilidad:
¡ P(A) = n: ¡
P(A)
= lim
n➔~
nA
n
Propiedades de la probabilidad:
■
O ~ P(A¡)
■
P(E)
■ p (Ai_
~
1
=1
U
A2 U
..... U
Ak ) = P( Ai_) + P( A2) + ..... + P( AK )
Teorema de la suma:
1
P(A u B)
= P(A) + P(B) -
Para sucesos mutuamente excluyentes:
1
P(A n B)
P(A u B)
1
= P(A) + P(B)
1
Probabilidad condicionada:
_
(
1 ) PAB
P (A n B)
P(B)
1
P(BIA) = P(B n A)
f(A)
SilossucesosAyBsonindependientes:I P(AIB) = P(A) y P(BIA) = P(B)
1
9
FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANÁLISIS DE DATOS
Teorema del producto:
P(A n 8)
= P(A) · P(8 IA)
Si los sucesos A y 8 son independientes:
1
P(A n 8)
Teorema de la probabilidad total:
k
P(8) =
L P(A¡) . P(8 IA¡)
i=l
Teorema de Bayes:
Aplicaciones en Psicología de la Salud:
Sensibilidad: P (+ IT)
Especificidad: P (-
INT)
Valor predictivo positivo: P (T I+)
Valor predictivo negativo:
10
P(NT 1-)
= P(A) · P(8)
TEMA7
Variables aleatorias y modelos
discretos de probabilidad
VARIABLES ALEATORIAS DISCRETAS
Función de probabilidad:
1
f
(x) = P (X = x)
1
1
Función de distribución:
Media:
1
Varianza:
µ=E(X)=I,x f(x)
1
1
1
a 2 = V(X) = I,(x -µ)
2
f(x)
1
a'=V(X)=E(x') - [E(x)J' =E(x')-µ'
I
donde:
E(x 2 ) = I,x 2 f (x);
2
[E(X)] es µ 2
Desviación típica:
1
a = ,la'= ,jI,(x - µ)
2
f
(x)
1
11
FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANÁLISIS DE DATOS
DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
Distribución de Bernoulli X ➔ Ber (p)
■
Función de probabilidad:
■
Función de distribución:
■
■
=p
Varianza: el
f (x) = P(X = x) = p xq 1 - x
1
1
F(x) = P(X
:$
x) = LPxql- x
Medía: µ
= p(l - p) = pq
■ Desviación típica: cr
= Jpq
Distribución binomial B(n,p)
■
Función de probabilidad :
f
(x) = P (X = x) = ( : ) p' q 0 - x
donde:
n) n!
(x-x!(n-x)!
n! = n • (n-1) • (n-2) • .... • (n-(n-1))
1! = 1
■
Función de distribución:
■
Medía : µ
F(x)
= np
■ Varianza: cr 2
= npq
■ Desviación típica: cr
12
0! = 1
= ✓npq
=
P(X s x) =
L(: )
p'q 0 - x
TEMAS
Modelos continuos de probabilidad
VARIABLES ALEATORIAS
DISCRETAS
Probabilidad para X= x
f
f(x)
(x) = P (X
=
VARIABLES ALEATORIAS
CONTINUAS
Probabilidad para el intervalo [a,b]
P (a
x)
Función de Distribución
= P(X
~ xk)
~ b) =
J; (x)
f
Función de Distribución
F (x) = P(X ~ xk) =
=
= f (x1 ) + f (x2 ) + ... . + f
dx
f(x) = función de densidad de
probabilidad
= función de probabilidad
F(xk)
~X
J.::
f
(x) dx
(xk)
Media o Valor Esperado
Media o Valor Esperado
µ= E(X) = I,x - f(x)
µ
= E(X) =
s:
X
f(x)dx
Varianza
Varianza
cr 2 = V (X)= I, (x - µ)2 •f (x)
cr 2
= V (X)=
J: [x - µ] 2
-f(x)dx
DISTRIBUCIÓN NORMAL X ~ N(µ,a)
Función de densidad de probabilidad:
l(X-µ)'
f(x) = - 1 - e- 2 -ª- para
aih,
-oc<
x
< oo
13
FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANÁLISIS DE DATOS
Variable tipificada:
z~N(0,1)
Función de densidad de probabilidad de z:
z'
f
1
-(z) = - - e 2
cr✓'h
para -
oo
<
z < oo
0,50
0,45
0,40
0,35
f(z)
0,30
N (0,1)
0,25
0,20
0,15
0,10
0,05
o
-4
-3
-2
o
-1
1
2
z
Aproximación de la binomial a la normal:
P (X = x) = P [ -(x_-_o_,s_)_-_n_p
.Jnpq
14
$;
z
$ _(
x_+_o_,
_s)_-_n_pl
.Jnpq
3
4
TEMA 8: MODELOS CONTINUOS DE PROBABILIDAD
DISTRIBUCION x2 DE PEARSON X ➔ X~
Media o valor esperado: µ
=n
Varianza: cr 2 = 2n
0,1
o
11,07
DISTRIBUCIÓN
Media o valor esperado: µ
Varianza: cr 2
t DE STUDENT X
➔
tn
=O
= _ n_
n- 2
0 ,4
0, 3
0, 2
0,1
-2
o
2
15
FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANALISIS DE DATOS
DISTRIBUCIÓN F DE FISHER-SNEDECOR X ➔ Fn,, n2
Media o valor esperado: µ
Varianza: o- 2
=
= _!!L_ para n 2 > 2
n2 -2
2n22 (n1 + n2 - 2)
para n2
n1 (n2 - 4) (n2 - 2)2
>4
F10,120
F10, 10
2,978
1,910
F120,120
1,352
2,124
Propiedad recíproca: pFn l' n2
16
1
F
=
1- p
n, ,n,
TEMA9
Muestreo y distribución muestral
de un estadístico
Muestreo aleatorio simple
■
Con reposición:
0
■ Sin reposición:
N)
(n
N!
= n !(N _ n)!
Muestreo aleatorio sistemático
DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO MEDIA
Distribución normal de la variable X y varianza poblacional conocida
Distribución normal de la variable X y varianza poblacional desconocida
X
+·
➔ sin' J
con g . l.
~ n -1
1
E
(X) ~ µ
~ ¡,;'
5
1
1
ªX
1
17
FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANALISIS DE DATOS
X -µ
T =
/ e
sn - 1
vn
'
T ➔
tn - 1
La variable X no se distribuye normalmente y n~ 30 (Teorema del límite
central)
a conocida:
a desconocida:
-X
➔ N ( µ, Sn
✓
n- 1
J
,
DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO PROPORCIÓN
Muestras pequeñas
P
➔
B n,
( ~
(1 - n)l
n
Muestras suficientemente grandes
p -
P
➔
N n,
( ~
(1 - n)l
1t
z = ---====
n
✓n(ln- n)
Z ➔ N(0,1)
DISTRIBUCIÓN MUESTRAL DE VARIANZA Y CUASIVARIANZA
Varianza:
n -1 2
( 2) = -na
µs~ = E Sx
ªs' = a
X
18
2
✓2 (n - 1)
n
TEMA 9: MUESTREO Y DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Cuasivarianza:
ª s'n-, = a 2 ~ n --1
(n - 1)5;_
1
se distribuyen según X~- l (n - 1,
y X2 = - - - -
cr2
.J2 (n - 1))
Aproximación a la normal de la distribución muestra! de la varianza para
muestras grandes (n > 100)
Z ➔ N(0,1)
( n~}
l-
(n - 1)
z = ~---,======--
.J2 (n - 1)
!
((n-:;s~_,)-(n-l).
z = -------;===----
.J2 (n - l )
19
TEMAlO
Estimación de parámetros y
cálculo del tamaño muestral
CÁLCULO DEL INTERVALO DE CONFIANZA
Intervalo de confianza para el parámetro media con o-2 conocida
Intervalo de confianza para el parámetro µ con o-2 desconocida
P ( -X
-
5
5
1tn- l;a/2 1----'l=.!_
-Jr, <- µ <- -X + 1tn- l;a/2 1----'l=.!_
-Jr, ) -- 1 - a
5n - 1
Linf
= X - 1tn- l;a/2 1 -Jr,
-
Lsup
= X + ltn- l;a/21
Aproximación a la normal (Teorema del Límite Central)
20
5
:;;t
t
TEMA 10: ESTIMACIÓN DE PARÁMETROS Y CALCULO DEL TAMAÑO MUESTRAL
Intervalo de confianza para el parámetro 1t (aproximación a la normal)
Intervalo de confianza para el parámetro cr2
Intervalo de confianza para la varianza:
p
(n - 1)5; _1
[
2
~cr
2
Xn - 1,a/2
= ---'------2-'---------'---1
Xn- 1,1- a/2
(n - 1)5; _1 ]
2
= 1 -a
Xn - 1,(1- a/2)
(n - 1)5; _
L;nf
~
Lsup
,
(n -1)5;_
= ---'-------2-----'-----'--'-----=--1
Xn- l,a/2
1
Para muestras grandes (n > 100)
11
21
FORMULARIO Y TABLAS ESTADÍSTICAS DE INTRODUCCIÓN AL ANÁLISIS DE DATOS
CÁLCULO DEL TAMAÑO MUESTRAL
Parámetro media: conocida la varianza poblacional
Poblaciones infinitas:
2
22
O"
a/2
n=---
E~ax
Poblaciones finitas y muestreo sin reposición:
E
max
= l2 a12IO" ✓N - n
Jri
N- l
-
Desconocida la varianza poblacional
Poblaciones infinitas:
-
2
n = tn - 1,a/2
Emax
Aproximación a la normal:
22
2
52
E~ax
Poblaciones finitas y muestreo sin reposición:
n=
·
t~- 1,a/2 · S~-1 N
2
2
(N -1) + tn - 1,a/2 · Sn - 1
n- 1
TEMA 10: ESTIMACIÓN DE PARÁMETROS Y CALCULO DEL TAMAÑO MUESTRAL
Tamaño muestra! para el parámetro proporción
Poblaciones infinitas:
Z ~¡ P (1- P)
n = -2 - - - E"fnax
Poblaciones finitas y muestreo sin reposición:
23
Introducción al
Análisis de Datos
en Psicología y Ciencias de la Salud
FORMULARIO Y TABLAS
l SBN 978-84-17765-43-9
Descargar