11.4. Medidas de Dispersión en Distribuciones

Anuncio
Módulo 9: Medidas de Tendencia Central (I)
Bienvenido al Módulo 9. Para describir un conjunto de datos se requieren medidas que nos
indiquen dónde se tienden a ‘concentrar’ los datos en la distribución. En la jerga estadística,
estas medidas se llaman “medidas de tendencia central”. En este módulo se analizan estas
medidas, incluida la “mediana” y la “moda”, pero especialmente la “media”, normalmente la
medida más útil. (Para describir una distribución también se necesitan medidas que nos indiquen
cuan “dispersos” se encuentran los datos en dicha distribución; éstas medidas son llamadas
“medidas de dispersión” y son tratadas en el Módulo 10.)
Objetivos de aprendizaje:
Al término de este módulo, usted …
 Comprenderá mejor la importancia de las medidas de la tendencia central en la
descripción de datos;
 Entenderá mejor el concepto de la “media”, la forma de calcularla y su aplicabilidad;
 Comprenderá mejor la “moda” y la “mediana”.
Estructura del módulo:
9.1
9.2
9.3
9.4
9.5
9.6
Medidas de “tendencia central”
Cálculo de la media
Aplicación de la media
El Promedio ponderado
La moda
La mediana
9.1. Medidas de “Tendencia Central”
Si deseamos describir la distribución de una variable, como por ejemplo las calificaciones
nacionales en las pruebas de octavo año (tal vez para evaluar el grado en que se cumplen los
estándares nacionales de rendimiento), por lo menos necesitaríamos saber cuál es la calificación
promedio obtenida en dichas pruebas por los estudiantes. (Aunque para describir en forma más
completa también necesitaríamos describir la ‘variabilidad’ de las calificaciones de los
estudiantes, o sea, si la mayoría de los estudiantes obtuvo calificaciones alrededor del promedio
o si estas calificaciones fueron más ‘dispersas’.) Existen varios diferentes tipos de ‘promedios’
en estadística. Los más comunes son la media, la mediana y la moda.
La media de un conjunto de datos (o población) es lo que aprendemos en la escuela como el
promedio aritmético o sólo “promedio” y que de ahora en adelante llamaremos “media”. La
media de una población es la suma de los valores de todas las observaciones de una población
dada, dividida por el número total de observaciones de esa misma población. La media
representa el valor del promedio aritmético de todas las observaciones.
La moda es otro indicador estadístico que proporciona información descriptiva acerca del valor
‘promedio’ de un conjunto de datos. La moda simplemente es el valor que se da con mayor
frecuencia en las observaciones de una población. En una distribución continua, la moda está
representada por el punto ‘más alto’ en la curva de distribución.
47
La mediana es el valor en las observaciones que divide una distribución en dos mitades. Es
decir, la mediana es el valor de la observación que está ubicado en el centro de la distribución,
una vez que todas las observaciones se han ordenado de acuerdo a su valor. Así, cuando las
observaciones se ordenan de acuerdo a su valor, la mediana divide la distribución en dos partes
iguales, dejando el mismo número total de observaciones a cada lado de ella.
Ejercicio: En sus propias palabras, describa la media, la mediana y la moda. ¿Qué tipo de
información útil cree usted que proveen cada uno de estos descriptores? Compare.
9.2. Cálculo de la Media
El Cuadro 7 muestra las calificaciones ficticias obtenidas en una prueba de matemática por nueve
estudiantes primarios en Filipinas.
Cuadro 7. Calificaciones de una prueba de matemática obtenidas por
estudiantes primarios de una escuela pública de Filipinas.
Nombre del estudiante
Calificación de la prueba
Alfonso
Carlos
Emmanuel
Erwin
Fidel
Maria
Pearl
Sophia
Isabel
94
82
82
73
95
98
100
87
99
La media es el promedio aritmético de la calificación obtenida por los nueve estudiantes
primarios. Como usted sabe, el promedio aritmético es la suma de todas las calificaciones
dividida por el número de estudiantes, es decir:
94  82  82  73  95  98  100  87  99
9
Media =
810
= 9
= 90
Ahora apliquemos el concepto de la media para calcular el ingreso per cápita. Si el PNB de la
Laos es de US$1.400.000.000 (US$1.400 millones) y su población es de 5 millones de personas
(Banco Mundial, 2000: 274), ¿cuál es el ingreso promedio (conocido también como ‘ingreso per
cápita’) de los habitantes de Laos? A todo esto, el PNB es el ‘producto nacional bruto’ o suma
de todos los bienes y servicios producidos por un país en un año determinado. La cantidad de
bienes y servicios producida por un país equivale al ingreso de la población de ese país. Para
calcular el ingreso promedio de la Laos, se necesita dividir el ingreso total del país (representado
por su PNB) por su población total, esto es:
1, 4 0 0, 0 0 0,0 0 0
Media =
5,0 0 0, 0 0 0
= US$280 es el ingreso promedio en Laos
48
9.3. Aplicación de la Media
En el Cuadro 8 se muestra el producto nacional bruto (PNB) anual y la población total de varios
países de Europa Oriental.
Cuadro 8. Producto nacional bruto y población
para una selección de estados de Europa Oriental.
PNB *
País
(en millones de US$)
República Checa
Hungría
Polonia
Rumania
Eslovaquia
52.000
46.800
153.100
34.200
19.400
Población *
(en millones)
10
10
39
22
5
* Las cifras para el PNB y la población son aproximadas.
Fuente: Banco Mundial, 2000, págs. 274-275.
Observe los datos del cuadro y responda las siguientes preguntas:
(a) Sin hacer ningún cálculo matemático, ¿diría que el ingreso medio es mayor en la República
Checa o en Hungría?
(b) ¿Cuál es el ingreso medio o promedio en la República Checa, Rumania y Eslovaquia?
Calcúlelo.
(c) ¿El ingreso per cápita es mayor en Hungría o en Polonia?
(d) ¿Qué nos indica el cuadro sobre la distribución del ingreso en estos países?
Ahora que ha respondido estas preguntas, averigüemos sus resultados comparándolos con las
respuestas correctas.
Respuestas Correctas:
(a) Sin hacer ningún cálculo matemático, ¿diría que el ingreso medio es mayor en la República
Checa o en Hungría? En la República Checa.
(b) ¿Cuál es el ingreso medio o promedio en la República Checa, Rumania y Eslovaquia?
Calcúlelo. 4.200 en la República Checa, 1.555 en Rumania y 3.880 en Eslovaquia.
(c) ¿El ingreso per cápita es mayor en Hungría o en Polonia? Hungría.
(d) ¿Qué nos indica el cuadro sobre la distribución del ingreso en estos países? Nada. La media
no proporciona ninguna información sobre la dispersión.
9.4. El Promedio Ponderado
La media o promedio aritmético también se puede calcular usando el método del promedio
ponderado. El promedio ponderado es una forma un poco más compleja de calcular la media,
pero de gran utilidad práctica. Para explicar el concepto de promedio ponderado, recurriremos a
la ayuda siempre disponible y desinteresada del Dr. Math (Dr. Matemáticas), un valioso recurso
del Internet que entrega respuestas a preguntas matemáticas para estudiantes de primaria y
secundaria. (Para visitar al Dr. Math, vaya a: www.forum.swarthmore.edu/dr.math ).
49
A continuación, reproducimos un intercambio de correos electrónicos entre Jacobo Smith, un
estudiante de secundaria, y el Dr. Math.
Fecha: 02/11/98 a las 21:09:00
De: Jacobo Smith
Asunto: Ayuda con el "promedio ponderado"
Estimado Dr. Math:
Estoy en 9º año y nuestro maestro de matemática está explicando el "promedio
ponderado". ¿Podría ayudarme dando una explicación sencilla, pero detallada de esto?
Gracias por dedicarme su tiempo.
Atentamente,
Jacobo
Fecha: 03/11/98 a las 12:18:47
De: Doctor Peterson
Asunto: Re: Ayuda con el "promedio ponderado"
Hola, Jacob. Pienso que comenzaré por explicar lo que significa promedio ponderado con un
caso simple y luego consideraré un caso más general. Supongamos que tu maestro dice que el
examen final equivale a tres pruebas. Entonces, si tus calificaciones son:
pruebas: 70, 80, 90 examen final: 100
tu promedio será exactamente como si hubieras obtenido:
pruebas: 70, 80, 90, 100, 100, 100
70 + 80 + 90 + 100 + 100 + 100
540
promedio = ----------------------------------------- = ----- = 90
6
6
Si deseamos calcular esto en forma directa (usando el método del promedio ponderado),
simplemente podemos multiplicar la calificación del examen final por 3 cuando la sumamos,
pero también debemos recordar que tenemos que contarla tres veces en el denominador y no
sólo dividir por 4. Puedes hacer esto escribiéndolo de esta forma:
calificación ponderación valor
-------------70
1
70
80
1
80
90
1
90
100
3
300
-----6
540 --> promedio = 540/6 = 90
50
Esto es, divides la suma de los valores ponderados por la suma de las ponderaciones. De esto se
trata el cálculo del promedio ponderado.
Espero haberte ayudado.
-Doctor Math (Dr. Peterson)
The Math Forum
www.forum.swarthmore.edu/dr.math
A continuación exploraremos un ejemplo. Observe el cuadro 9 y trate de responder a la
siguiente pregunta utilizando el método del promedio ponderado antes de continuar leyendo.
¿Cuál es el ingreso medio, o ingreso per cápita, de los ciudadanos de los países de Europa
Oriental indicados en el Cuadro 9?
Cuadro 9. Producto nacional bruto per cápita y
población para una selección de estados de Europa Oriental.
PNB per cápita
Población
País
(en millones de US$)
(en millones)
República Checa
Hungría
Polonia
Rumania
República Eslovaca
5.200
4.680
3.926
1.555
3.880
10
10
39
22
5
Fuente de datos: Banco Mundial, 2000, págs. 274-275.
Recuerde que para calcular el ingreso medio o ingreso per cápita, sumamos el PNB de los cinco
países del cuadro y dividimos el total por la suma total de las poblaciones de los mismos cinco
países. Pero ahora los datos proporcionados no son el ingreso total (PNB), sino el ingreso per
cápita. No podemos sumar el ingreso per cápita para obtener un ingreso promedio regional,
porque cada país tiene una población diferente. Polonia, por ejemplo, tiene por sí misma una
población total casi equivalente a la de los otros cuatro países juntos. Por este motivo, cada país
debe tener una ‘ponderación’ distinta cuando se calcula el ingreso per cápita promedio regional.
Debemos entonces aplicar el método del promedio ponderado para calcular el ingreso promedio
de los cinco países representados en el Cuadro 9.
Para calcular el promedio ponderado, como explicaba el Dr. Math, se debe multiplicar el PNB
per cápita de cada país por su ‘ponderación’, esto es, por la correspondiente población del país.
A continuación, se debe sumar el resultado de estos productos y dividir el resultado por la suma
total de las poblaciones de los cinco países. Para facilitar los cálculos, usemos el práctico
formato sugerido por el Dr. Math:
Calificación
(a)
Ponderación
(b)
Valor
(a) x (b)
5.200
4.680
3.926
1.555
3.880
Total =
10
10
39
22
5
86
52.000
46.800
153.114
34.210
19.400
305.524
51
Por lo tanto, el ingreso medio para los seis países de Europa Oriental indicados en el Cuadro 9 es
el siguiente:
3 0 5,.5 2 4
Media =
86
= US$3.552,6 es el ingreso per cápita.
9.5. La Moda
Como ya sabemos, la “moda” no tiene nada que ver con tendencias en el mundo de la alta
costura, sino que en cambio representa el valor de la observación más frecuente en un conjunto
ordenado de datos o distribución. En el Cuadro 10 se muestra una lista ficticia de preferencias de
carreras por parte de un grupo de estudiantes de 16 años de edad que asisten a una escuela
secundaria vocacional en Tegucigalpa, Honduras.
Cuadro 10. Preferencias de carreras profesionales de parte de estudiantes
de 16 años en educación vocacional en Tegucigalpa.
Carrera Profesional
Preferencias
Mecánico de automóviles
Electricista
Conductor de camiones
Soldado
Estadístico
Otros
25
7
3
2
0
10
¿Cuál es la moda de la distribución? Para empezar, está absolutamente claro: no es la profesión
de ‘estadístico’. Entre estos niños Hondureños, la moda, es decir, la profesión más preferida o
popular, es lejos ‘mecánico de automóviles’. Podemos quizás inferir que, probablemente, su
adiestramiento profesional tiene algo que ver con la mecánica automotriz.
La moda es de particular utilidad para describir variables nominales, como las variables del
ejemplo del Cuadro 10. Por cierto, no se puede usar ninguna otra medida de la tendencia central
para describir variables nominales. Observe que la variable nominal ‘carrera profesional’ o
‘profesión’ simplemente representa nombres que se pueden ordenar para calcular, por ejemplo,
su media. En este caso, sólo la moda se puede usar como medida de una tendencia central. La
moda también es fundamental para describir distribuciones bimodales (vea el Módulo 8, sección
sobre otras formas de distribuciones continuas), puesto que hay dos modas en una distribución
‘bimodal’ que hacen que la media o mediana no sean buenos descriptores de esa distribución.
9.6. La Mediana
Como mencionamos anteriormente, la mediana es el valor de la observación ubicada al centro de
una distribución, una vez que se han ordenado todas las observaciones de esa distribución según
su valor numérico. Así, la mediana deja el mismo número de observaciones a cada lado de la
distribución, cortándola en dos partes iguales.
52
Para calcular la mediana, se debe identificar el número de observaciones (n) y luego dividir por
dos. Después se deben ordenar las observaciones de la distribución según su valor. La mediana
será el valor al centro de la distribución. Si hay un número impar de observaciones, la mediana
sería el promedio aritmético entre los valores de las dos observaciones contiguas que dividen la
distribución en dos.
En el Cuadro 11 se muestran las calificaciones obtenidas en una prueba de matemática por 9
estudiantes primarios en las Filipinas.
Cuadro 11. Calificaciones en una prueba de matemática y ordenadas de menor
a mayor de estudiantes primarios de una escuela pública en las Filipinas
Nombre del estudiante
Calificación de la prueba
Erwin
Carlos
Emmanuel
Sophia
Alfonso
Fidel
Maria
Ysabel
Pearl
73
82
82
87
94
95
98
99
100
Dado que n = 9 (es decir, hay 9 observaciones en el Cuadro 11), la mediana está ubicada en el
quinto lugar. O sea, la mediana es “82”. En este ejemplo, el número de observaciones es impar.
Cuando el número de observaciones es par, la mediana es el valor promedio entre la observación
n/2 y la observación (n+1)/2. Esto es todo de sentido común.
Observe el Cuadro 11 y responda lo siguiente. Si excluye a Erwin del cuadro, ¿cuál sería la
mediana de la distribución? ¿Y cuál es la moda?
53
Examen del Módulo 9
Use este examen para determinar si necesita regresar a algunas áreas para revisarlas. Las
respuestas las preguntas se encuentran al final de la página.
1.
¿Cuál de las siguientes afirmaciones define mejor la media?
a.
b.
c.
d.
2.
La media es el valor más común entre las observaciones.
La media de una distribución es la suma de los valores de todas las
observaciones, dividida por el número total de observaciones de la distribución.
La media es el valor donde se concentra la mayoría de las observaciones.
La media es el valor de las observaciones que divide una distribución en dos
mitades.
¿Cuál de las siguientes afirmaciones define mejor la moda?
a. La moda es el mayor valor entre las observaciones de una distribución.
b. La moda es el promedio geométrico de las observaciones de una distribución.
c. La moda es el valor más frecuente entre las observaciones de una distribución.
d. La moda simplemente es el promedio aritmético de los valores de la distribución.
3.
¿Cuál de las siguientes afirmaciones define mejor la mediana?
a. La mediana de una distribución es la suma de los valores de todas las observaciones,
dividida por el número total de observaciones de la distribución.
b. La mediana es el valor más ‘popular’ entre las observaciones de una distribución.
c. La mediana es el valor medio o promedio entre la media y la moda.
d. La mediana es el valor entre las observaciones que divide una distribución en dos
mitades.
Vea las respuestas abajo:
Respuestas:
1-b
2-c
3-d
54
Módulo 10: Medidas de Tendencia Central (II)
Bienvenido al Módulo 10. En el módulo anterior presentamos las principales “medidas de
tendencia central”, es decir, la media, la mediana y la moda. En este módulo compararemos
estas tres medidas entre ellas para comprender mejor su aplicabilidad, ventajas y desventajas.
Objetivos de aprendizaje:
Al término de este módulo, usted …
 Comprenderá mejor las relaciones entre la media, la mediana y la moda, además de los
diferentes tipos de distribución;
 Entenderá mejor las limitaciones y ventajas de la media como una herramienta para
describir datos.
Estructura del módulo:
10.1
10.2
Comparación de las Medidas de Tendencia Central
Mediana versus Media
10.1. Comparación de las Medidas de Tendencia Central
Las ventajas y limitaciones de usar la media, la moda y la mediana para describir un conjunto de
datos depende estrictamente de la forma (tipo) de la distribución de datos. Siempre que se pueda
usar, en general se prefiere la media para describir la tendencia central, aunque algunas
distribuciones se describen mejor por medio de la moda y la mediana. A continuación
evaluaremos la aplicabilidad de nuestros tres ‘promedios’ a diferentes tipos de distribuciones.
(1) En una distribución normal, la media, moda y mediana tienen un valor idéntico (Figura 15).
Esto en realidad es evidente, dado que una distribución normal es perfectamente simétrica, y la
curva tiene un sólo punto máximo (moda) que también se encuentra en el centro. Así, la media
debe ser nuestra medida preferida de tendencia central para los conjuntos de datos que se
distribuyen normalmente, puesto que es más fácil de calcular y de usar en forma matemática.
Figura 15.
Frecuencia
moda 1
moda 2
media, moda
y mediana
valor
Distribución
normal
Distribución
bimodal
55
(2) Una distribución bimodal tiene dos puntos máximos (Figura 15). Esto hace que la media y
la mediana no sean de utilidad, puesto que sus valores estarán en algún lugar entre los dos puntos
máximos y distorsionarán enormemente la descripción de la distribución. La moda, y observe
que en este caso hay dos modas, pasa a ser la única medida útil de tendencia central. Sin
embargo, una distribución bimodal es poco común y en general podemos decir que consta de dos
distribuciones que se pueden analizar en forma independiente.
(3)
Cuando se describen distribuciones asimétricas (sesgadas) positivas o negativas, la media
no es la mejor medida de tendencia central disponible. Mientras mayor sea la asimetría o sesgo
de los datos, mayor utilidad tendrá la mediana (y más engañosa será la media), porque la
mediana estará más cerca del ‘valor promedio’ real de las observaciones. Por ejemplo, en el caso
de una distribución asimétrica positiva, la media se encuentra ‘inflada’ por la minoría de las
observaciones que tienen un valor mayor. Esto sucede, por ejemplo, con el ingreso per cápita,
puesto que las distribuciones del ingreso son asimétricas positivas. En las siguientes figuras se
muestran las posiciones relativas de la media, la moda y la mediana en cuatro distribuciones
asimétricas.
Figura 16.
moda
moda
mediana
mediana
media
media
Distribución
asimétrica negativa
Distribución ‘J’
(asimétrica negativa)
moda
moda
mediana
mediana
media
media
‘J’ invertida
(asimétrica positiva)
Distribución
asimétrica positiva
Observe que cuando la distribución es asimétrica ‘positiva’, (es decir, el extremo más largo de la
distribución apunta hacia el este o hacia su derecha), la moda está a la izquierda de la mediana, y
a su vez, la mediana está a la izquierda del promedio. Sucede lo contrario cuando la distribución
es asimétrica negativa o sesgada negativamente. Esto nos lleva a una consideración final: si una
distribución es asimétrica, es decir, notoriamente sesgada, la mediana será mejor que la media
(promedio aritmético) para describir la tendencia central de la distribución de los datos. Observe
las figuras anteriores. Note que en todas las distribuciones asimétricas, la mediana efectivamente
56
se acerca más que la media al valor ‘promedio o ‘normal’ de las observaciones o, en otras
palabras, refleja mejor la existencia de un sesgo en los datos.
10.2. Mediana versus Media
Como sabemos, si la mediana es una mejor medida de la tendencia central para distribuciones
asimétricas que la media, ¿por qué casi siempre se usa la media y no la mediana para describir
este tipo de distribuciones? El caso típico es la medición del ingreso promedio de un país, es
decir, el ingreso per cápita. Las distribuciones del ingreso son asimétricas positivas y, por lo
tanto, la mediana constituye un mejor indicador que la media del ingreso ‘normal’ o ‘promedio’
de los residentes de cualquier país determinado. Cuando hablamos del ingreso per cápita,
tendemos a suponer que en realidad es el ingreso ‘normal’ de un ciudadano de ese país. Pero,
desde luego, esto no es efectivo. El hecho de que unas pocas personas adineradas ganen una
parte desproporcionada del ingreso nacional origina un ingreso promedio ‘inflado’, por decirlo
de algún modo.
Ejemplo. Según el Banco Mundial (1999), Brasil y la Eslovaquia tenían niveles de ingreso per
cápita comparables en 1997, pero al mismo tiempo sus distribuciones de ingreso eran una de las
más desiguales (Brasil) y más equitativas (Eslovaquia) del mundo (ver Cuadro 12).
Cuadro 12. Ingreso per cápita y distribución del ingreso en Brasil y Eslovaquia (1997).
Ingreso
per cápita
(media
nacional)
Brasil
US$4.716
Eslovaquia US$3.960
Ingreso
per cápita
(Q1 o 20%
más
pobre)
Ingreso
per cápita
(Q2 o 20%
siguiente
más pobre)
Ingreso
per cápita
(Q3 o
20%
medio)
Ingreso
per cápita
(Q4 o 20%
siguiente
más rico)
Ingreso
per cápita
(Q5 o
20% más
rico)
US$589
US$1.344
US$2.334
US$4.174
US$15.138
US$2.356
US$3.128
US$3.703
US$4.396
US$6.217
Observe que en el caso de Eslovaquia, el ingreso per cápita del país sólo es un poco mayor que el
ingreso per cápita del quintil de ingreso medio de la población y algo menor que el ingreso per
cápita del cuarto quintil. En términos estadísticos, esto significa que la media está relativamente
cerca de la mediana, la cual sabemos que está ubicada en el tercer quintil. (¿Por qué? Porque la
mediana divide a los datos, observados de mayor a menos, en dos partes iguales y por lo tanto es
la misma que la observación en medio del tercer quintil.) Sin embargo, en el caso de Brasil, el
ingreso promedio no sólo es mucho mayor que el ingreso per cápita del quintil de ingreso medio,
sino también mayor que el del cuarto quintil. Esto significa que en el caso de Brasil, la media es
significativamente mayor que la mediana. Esto se debe a que mientras que en Eslovaquia el 20%
más rico (Q5) gana el 31,4% del ingreso nacional total, esta cifra es 64,2% en el caso de Brasil.
A pesar de que Brasil tuvo en 1997 un ingreso per cápita superior en US$756 al de Eslovaquia
(es decir, casi 20% superior), el ingreso per cápita por quintil es mayor en la República Eslovaca
para cuatro de los cinco respectivos quintiles de ingreso (por favor observe y confirme esta
afirmación en el Cuadro 12). Esto significa que la medida del ingreso per cápita (media) es un
indicador inadecuado del ingreso promedio, y espectacularmente inadecuado si queremos
conocer el ingreso “medio” de un brasileño. La mediana es un indicador superior es este caso.
¿Pero entonces, por qué usamos la media en lugar de la mediana para describir el ingreso
‘promedio’ de un país? En primer lugar, porque es muy complicado calcular la mediana y, por
57
lo tanto, es muy difícil obtenerla. En segundo lugar, matemáticamente es mucho más difícil
trabajar estadística y matemáticamente con la mediana que con la media. Por último, y esto es
en extremo importante, la estadística nos proporciona otros instrumentos para que
complementemos la información obtenida por la media con información acerca de la forma de la
distribución, lo que evita que la media nos lleve a conclusiones erróneas, como en nuestro
ejemplo anterior (vea el Cuadro 12). En el caso del ingreso per capita, necesitamos
complementarlo con información sobre la distribución del ingreso, dato que en la práctica no es
siempre fácilmente accesible o que tendemos a no tomar en debida consideración.
La lección que no deja la comparación de Brasil y Eslovaquia es que los ‘promedios’ siempre
deben estar complementados con medidas de la dispersión cuando describen conjuntos de datos.
Los promedios por sí solos pueden llevar a conclusiones erróneas, puesto que entregan una
imagen sólo parcial de una distribución de datos. Nuevamente, en nuestro ejemplo, al
comprender cómo se distribuye el ingreso entre los distintos quintiles de la población, se conoce
el sesgo oculto en el promedio y se obtiene una descripción más exacta de la distribución del
ingreso.
58
Examen del Módulo 10
Use este examen para determinar si necesita regresar a algunas áreas para revisarlas. Las
respuestas las preguntas se encuentran al final de la página.
1.
¿Cuáles de las siguientes afirmaciones son verdaderas?
I.
II.
III.
En una distribución normal, la media, la moda y la mediana tienen el mismo valor.
La media es un buen indicador para describir una distribución bimodal.
La mediana es un mejor indicador de tendencia central que la media para
distribuciones asimétricas positivas y negativas.
a. Sólo I.
b. II y III.
c. I y III.
d. Todas.
2. ¿Por qué casi siempre se usa la media (es decir, ingreso per cápita) y no la mediana para
describir la tendencia central en las distribuciones del ingreso nacional?
a. Porque la media es un mejor indicador del ingreso ‘promedio’ de la población de
un país.
b. Porque es mucho más costoso calcular la mediana y más difícil de manipular
matemáticamente.
c. Todas las anteriores.
d. Ninguna de las anteriores.
Vea las respuestas a continuación
Respuestas:
1-c
2-b
59
Módulo 11: Medidas de Dispersión
Bienvenido al Módulo 11. En este módulo examinaremos la desviación estándar y la varianza.
Estas son las medidas de dispersión más importantes usadas en estadística para describir
distribuciones y complementar las medidas de la tendencia central. Tenga en mente que la
desviación estándar y la varianza se usan para describir distribuciones simétricas.
Objetivos de aprendizaje:
Al término de este módulo, usted …
 Comprenderá mejor el concepto de medida de dispersión;
 Entenderá mejor la desviación estándar y la varianza.
Estructura del módulo:
11.1
11.2
11.3
11.4
Medidas de dispersión
La desviación estándar
Desviación estándar y varianza
Medidas de dispersión en distribuciones asimétricas
11.1. Medidas de Dispersión
Las medidas de tendencia central no son suficientes para describir una distribución o conjunto de
datos. Una buena descripción de una distribución requiere, además de un valor ‘promedio’ de
las observaciones (es decir, una medida de tendencia central), alguna medida de la dispersión o
variabilidad de los valores observados. Esta información es proporcionada por indicadores que
se conocen como ‘medidas de dispersión’ (también ‘medidas de variabilidad’). Los más
comunes, que constituyen el contenido de esta sección, son la desviación estándar y la varianza.
Figura 17.
La media de los
resultados (puntaje
promedio) es la misma
en ambos países
País A
(menor variabilidad en
los resultados del
examen)
País B
(mayor variabilidad en los
resultados del examen)
Puntaje en
el examen
60
Para describir la forma real de una distribución, se debe tener, evidentement, alguna medida de la
dispersión o variabilidad de los datos; es decir, información acerca de cuán ‘dispersa’ es la
distribución. Por ejemplo, para describir el perfil de una colina que usted está observando a
través de la ventana, no será suficiente la altura de la colina, sino que también necesitará
observar su forma, es decir, si es más bien plana o empinada, si es más bien simétrica o no, si
tiene una o varias cumbres y dónde, etc. Desde este punto de vista, una distribución no es
diferente a una colina.
La manera más fácil de explicar el concepto de dispersión o variabilidad es con un ejemplo. En
la Figura 17 (arriba) se muestran dos distribuciones normales que representan las calificaciones
de exámenes internacionales de matemática correspondientes a muestras representativas de
estudiantes de octavo año de dos países ficticios: País A y País B. Dado que ambas
distribuciones son normales, la media de las calificaciones de las pruebas de los estudiantes de
ambos países es la misma (observe que también la mediana y la moda son las mismas). Pero,
naturalmente, las distribuciones de las calificaciones de las pruebas son diferentes. La
distribución es más ‘dispersa’ en el País A que en el País B. Esto nos entrega información
valiosa. Nos indica que en el octavo año existen diferencias considerables en la distribución del
aprendizaje matemático entre los Países A y B. Según los datos, y suponiendo que el examen
efectivamente mide nivel de aprendizaje en forma adecuada, la distribución del aprendizaje de
matemática es más ‘equitativo’ en el País A.
La figura 17-b (abajo) provee otro buen ejemplo de la importancia de las medidas de dispersión
cuando queremos describir distribuciones. Observe que el ejemplo es difiere del anterior en que
las medidas de tendencia central (media, mediana y moda) son ahora distintas en las dos
distribuciones (curvas I y II) de la figura, y mayores en valor en todos los casos para la
distribución II. La distribución I muestra una situación en la que la mayoría de los estudiantes de
un país se concentran alrededor del valor X, cuando se la compara con la distribución II, donde
la dispersión del nivel de conocimientos entre los estudiantes del país es mucho mayor.
Número de Estudiantes
Figura 17-b.
I
II
X
Nivel de Conocimientos
Finalmente, observe que, en la Figura 17-b, el país I presenta una menor dispersión y por lo tanto
un mayor grado de equidad relativa en la distribución del nivel de conocimientos. Pero, al
mismo tiempo, en el país I al menos la mitad de los estudiantes tiene un nivel de conocimientos
inferiores a X, mientras que en el país II la gran mayoría de los estudiantes (más del 80%) tienen
61
un nivel de conocimientos superiores a X. En términos técnicos, esto significa que el grado de
equidad absoluta de la distribución de conocimientos en el país II es superior a la del país I, si
consideramos X como un estándar mínimo en el nivel de conocimientos deseado. Esta
información es importante para la toma de decisiones de política educativa.
Como ya se mencionó, los descriptores o indicadores de dispersión o variabilidad más comunes
son la desviación estándar y la varianza. A continuación explicaremos estos dos importantísimos
indicadores, los cuales se usan en forma generalizada en investigación en ciencias sociales,
incluida la investigación sobre educación.
11.2. La Desviación Estándar
La desviación estándar es un índice numérico de la dispersión de un conjunto de datos (o
población).1 Mientras mayor es la desviación estándar, mayor es la dispersión de la población.
La desviación estándar es un promedio de las desviaciones individuales de cada observación
con respecto a la media de una distribución. Así, la desviación estándar mide el grado de
dispersión o variabilidad. En primer lugar, midiendo la diferencia entre cada valor del conjunto
de datos y la media del conjunto de datos. Luego, sumando todas estas diferencias individuales
para dar el total de todas las diferencias. Por último, dividiendo el resultado por el número total
de observaciones (normalmente representado por la letra “n”) para llegar a un promedio de las
distancias entre cada observación individual y la media. Este promedio de las distancias es la
desviación estándar y de esta manera representa dispersión.
Matemáticamente, la desviación estándar podría, a primera vista, parecer algo complicada. Sin
embargo, es en realidad un concepto extremadamente simple. En realidad no importa si usted
no sabe calcular con exactitud la desviación estándar, siempre y cuando usted comprenda
claramente el concepto.
La desviación estándar es un indicador en extremo valioso con muchas aplicaciones. Por
ejemplo, los estadísticos saben que cuando un conjunto de datos se distribuye de manera
“normal”, el 68% de las observaciones de la distribución tiene un valor que se encuentra a menos
de una desviación estándar de la media. También saben que el 96% de todas las observaciones
La desviación estándar de una población es normalmente representada por la letra griega  (sigma), cuando se
calcula sobre la base de toda la población; por la letra s (minúscula) cuando se infiere de una muestra; y por la letra
S (mayúscula) cuando simplemente corresponde a la desviación estándar de una muestra. La fórmula de la
x
2
 
x
N
desviación estándar es
, donde 
representa la suma de las diferencias al cuadrado entre cada
observación y la media y N representa el número total de observaciones. La aparente complicación de la fórmula
surge del hecho de que al restar la media a los valores de cada observación individual para calcular las diferencias
( x ), los valores de las observaciones que están bajo la media producirán diferencias negativas, mientras que los
valores de las observaciones que son mayores que la media proporcionarán valores positivos. Así, las diferencias
positivas y negativas se compensarán entre sí y, en el caso de una distribución simétrica, producirán una suma igual
a cero para la suma de las desviaciones individuales. Para evitar este problema, las desviaciones se elevan al
cuadrado, de modo que todas las desviaciones sean positivas y se puedan sumar. Después, se calcula la raíz
cuadrada para ‘compensar’, por decirlo así, la elevación al cuadrado anterior de los valores. Cuando no se incluye la
raíz cuadrada, el resultado es otro famoso indicador de dispersión conocido como la “varianza”.
1
2
62
tiene un valor no es mayor a la media más o menos dos desviaciones estándar (la Figura 18
grafica esta información).
Figura 18.
2%
14%
-2SD
34%
-1SD
34%
Media
2%
14%
+1SD
+2SD
Valor
11.3. Desviación Estándar y Varianza
Al igual que la desviación estándar, la varianza es un índice numérico de la dispersión de una
distribución o población. Mientras mayor es la varianza, mayor es la dispersión. La varianza es
un promedio elevado al cuadrado de las desviaciones individuales de cada observación con
respecto a la media de una distribución. Como promedio al cuadrado, la varianza en realidad
2
sólo es una variación de la desviación estándar. Por lo tanto, se representa con el símbolo S ,
lo que representa la desviación estándar, pero elevada al cuadrado.
La desviación estándar, y no la varianza, es la medida de dispersión de uso más generalizado en
estadística. No sólo porque el valor de la desviación estándar, para cualquier distribución
determinada, siempre es mucho menor que para la varianza, sino por encima de todo porque es
más conveniente para llevar a cabo operaciones matemáticas.
La desviación estándar es entre las medidas de dispersión lo que la media es entre las medidas de
tendencia central: ambas tienden a reinar en sus dominios. En conjunto, ambos indicadores
suelen proporcionar una buena descripción de distribuciones de datos cuando estas distribuciones
son simétricas, como por ejemplo, las distribuciones normales.
11.4. Medidas de Dispersión en Distribuciones Asimétricas
Con respecto a la medición de la dispersión en distribuciones asimétricas o sesgadas (muy
importantes en las ciencias sociales), el análisis estadístico es más complicado. Como
reformador de la educación, usted debe comprender al menos una de las herramientas utilizada
para analizar distribuciones asimétricas: el análisis de quintiles. Los quintiles son una
herramienta útil de uso común en las áreas de la economía y el financiamiento de la educación;
especialmente para abordar los problemas de equidad.
63
El Cuadro 12 (abajo) representa un análisis de quintiles que describe y compara la distribución
del ingreso en las poblaciones de Brasil y de Eslovaquia. La distribución del ingreso de un país
siempre se distribuye asimétricamente.
Cuadro 12. Ingreso per cápita y distribución del ingreso en Brasil y Eslovaquia (1997).
Ingreso
Ingreso
Ingreso
Ingreso per Ingreso
Ingreso
per cápita per cápita
per cápita
cápita (Q3 o per cápita per cápita
(media
(Q1 o el
(Q2 o 20% 20% medio) (Q4 o 20% (Q5 o 20%
nacional) 20% más
siguiente
siguiente
más rico)
pobre)
más pobre)
más rico)
US$ 4.716
US$ 589
US$ 1.344
US$ 2.334
US$ 4.174
US$ 15.138
Eslovaquia US$ 3.960
US$ 2.356
US$ 3.128
US$ 3.703
US$ 4.396
US$ 6.217
Brasil
Para representar gráficamente la dispersión en distribuciones asimétricas, se suele usar el índice
de Gini, que proporciona una medida numérica de la distribución de los recursos dentro de una
población, y su contraparte gráfica, la curva de Lorenz. (Para su información, el Gini de Brasil
es 60,1 y el de Eslovaquia 19,5. En la siguiente sección explicaremos el significado de estos
valores cuando estudiemos el índice de Gini y la curva de Lorenz).
64
Examen del Módulo 11
Use este examen para determinar si necesita regresar a algunas áreas para revisarlas. Las
respuestas las preguntas se encuentran al final de la página.
1.
¿Cuáles de las siguientes afirmaciones son verdaderas?
a.
b.
c.
d.
2.
¿Cuál de las siguientes afirmaciones define mejor la desviación estándar?
a.
b.
c.
d.
3.
Las medidas de dispersión, como la desviación estándar y la varianza, se usan
para describir el grado de variabilidad o dispersión de una población.
Las medidas de la tendencia central, como la media, la mediana y la moda, se
usan para describir dónde tienden a concentrarse las observaciones de una
población.
Para describir mejor una población, se necesitan tanto las medidas de dispersión
como las de tendencia central.
Todas las anteriores.
La desviación estándar es un índice numérico de la dispersión de un conjunto de
datos.
La desviación estándar es el promedio de todas las observaciones de una
población.
La desviación estándar es la observación que más se desvía del promedio de la
población.
Ninguna de las anteriores.
¿Cuáles de las siguientes afirmaciones son verdaderas acerca de la varianza?
I.
II.
III.
IV.
a.
b.
c.
d.
La varianza es el cuadrado de la desviación estándar.
La varianza es un promedio elevado al cuadrado de las desviaciones individuales
de cada observación con respecto a la media de una distribución.
La varianza es la medida de dispersión más ampliamente usada en estadística.
Mientras mayor sea la varianza, mayor será el grado de dispersión de la población.
Sólo I.
I, II y IV.
II, III y IV.
Todas.
Vea las respuestas a continuación:
1-d
2-a
3-b
65
Módulo 12: La Curva de Lorenz y el Índice de Gini
Bienvenido al Módulo 12. Como reformador de la educación, usted debe comprender como
interpretar un análisis de quintiles, una curva de Lorenz y un índice de Gini. Los tres son
herramientas importantes, e interrelacionadas, que se utilizan corrientemente para analizar
distribuciones asimétricas y especialmente para medir la equidad relativa de una distribución,
como por ejemplo, de recursos educativos entre los distintos sectores de ingreso de un país.
Estas herramientas, que usted utilizará extensamente en el curso Opciones Estratégicas para la
Reforma Educativa, constituyen el tema de este módulo.
Objetivos de aprendizaje:
Al término de este módulo, usted …
 Comprenderá mejor el concepto de distribución asimétrica y cómo analizarlas;
 Entenderá mejor el significado y aplicabilidad de la curva de Lorenz y el índice de Gini;
 Comprenderá la relación entre los siguientes tres conceptos: quintiles de ingreso, la curva
de Lorenz y el índice de Gini.
Estructura del módulo:
12.1
12.2
12.3
12.4
La curva de Lorenz
Índice de Gini
El índice de Gini y la curva de Lorenz
Ejercicio
12.1. La Curva de Lorenz
Un análisis de la distribución de recursos por quintil (el concepto de quintil se discute
brevemente en las últimas dos lecciones del Módulo 8) se utiliza para analizar la equidad
distributiva de los recursos en una población. Dicho análisis se puede representar en forma
gráfica mediante lo que se conoce como una “curva de Lorenz”. Una curvas de Lorenz es un
instrumento muy útiles para analizar los efectos sobre la equidad de distintas políticas de
educación. Examinemos un ejemplo de una Curva de Lorenz con más detalle y veamos cómo
podría servirnos. El Cuadro 13 (un subconjunto del Cuadro 6) representa el gasto público en
educación primaria y secundaria en Ecuador por quintil de ingreso.
Cuadro 13. Distribución de frecuencias relativa del gasto público en educación primaria en
Ecuador (por quintil de ingreso, 1998).
Q1
Q2
Q3
Q4
Q5
Nacional
Educación primaria
31,4
25,3
20,5
16,2
6,5
100
Educación superior
1,9
7,5
14,9
33,3
42,4
100
Fuente: ENV del Banco Mundial, 1998
En esta página presentamos dos ejemplos ilustrativos del uso de las curvas de Lorenz. La Figura
20 muestra dos curvas de Lorenz que representan los datos del Cuadro 13. Observe que la curva
para educación primaria está sobre la línea negra que corta la figura en forma diagonal, mientras
66
Porcentaje del
Gasto Público (%)
que la curva correspondiente a educación superior está por debajo de la misma diagonal.
Asegúrese de comprender la Figura 20.
Figura 20. Dos
curvas de Lorenz.
100%
Gasto público en
educación primaria
(Curva de Lorenz Nº 1)
80%
60%
40%
Gasto público en
educación superior
(Curva de Lorenz Nº 2)
20%
0%
20%
40%
60%
80%
100%
Porcentaje del
Gasto Público (%)
Porcentaje de la población (%) (ordenado
del quintil de ingreso menor al mayor)
Figura 21.
●E
100%
Diagonal
de igualdad
80%
●G
●
60%
F
Punto B
●D
40%
Punto A
●C
20%
●
0%
20%
●
40%
60%
80%
100%
Porcentaje de la población (%) (ordenado
del menor quintil de ingreso al mayor)
En la Figura 21, los puntos A, B, C, D y E representan el porcentaje acumulado del gasto público
que percibió cada quintil sucesivo de ingreso de la población. El eje X (eje horizontal)
representa el porcentaje de la población total ordenado por ingreso. El eje Y (eje vertical)
representa el porcentaje del gasto público total. Así, el punto A representa el porcentaje del
gasto público en educación superior que percibieron los estudiantes pertenecientes al 20% más
pobre de la población (es decir, Q1), mientras que el punto C representa el porcentaje del gasto
67
público percibido por el 60% más pobre de la población (es decir, Q1 + Q2 + Q3). El punto E
nos que la totalidad del gasto público (100%) es recibido por la totalidad de la población (100%).
Nótese que los puntos A, B, C y D están bajo la “diagonal de igualdad”. Recuerde que cualquier
punto en la diagonal de igualdad, como los puntos E y F de la Figura 21, indica que el
porcentaje de los recursos gastados (sobre el total de recursos disponibles) es igual al porcentaje
de la población total en que se emplearon esos recursos. Por ejemplo, el punto F nos indicaría
que el 60% del gasto público en educación es percibido por el 60% de la población. ¿Qué
significa que los puntos A, B, C y D estén por debajo de la diagonal? Significa simplemente que
la distribución del ingreso no es perfectamente igualitaria, es decir, los quintiles de ingreso más
bajo perciben una cantidad de recursos per capita menores que los que perciben los quintiles más
ricos. Por ejemplo, el punto C (Figura 21) indica que el 60% de la población (Q1+Q2+Q3)
recibe sólo un 24,3% del gasto público en educación superior (la cifra proviene del Cuadro 13).
Un punto ubicado por encima de la diagonal de igualdad representa una situación en la cual el
porcentaje de los recursos empleados es mayor que el porcentaje de la población en el cual se
emplea. En una Curva de Lorenz, en que la población está ordenada de más pobre a más rica,
esto supone un gasto progresivo de los recursos es decir, los quintiles más pobres perciben una
cantidad de recursos per capita mayores que la percibida por los quintiles más ricos. Por
ejemplo, el punto G representa el porcentaje del gasto público total en educación primaria que el
Gobierno de Ecuador dedica al 60% más pobre de la población , esto es, Q1+ Q2 + Q3; el
porcentaje es un 77,2% (vea el Cuadro 13). El hecho de que el punto esté sobre la línea sólo
indica que el porcentaje del gasto es mayor que el porcentaje de la población en el cual se gasta.
12.2. El Índice de Gini
Ahora que usted está más familiarizado con la Curva de Lorenz, el concepto de índice de Gini
debería serle muy fácil de comprender. El índice de Gini mide el grado en que una distribución
de recursos entre una población dada se desvía con respecto a la igualdad perfecta. Es el
instrumento de uso más generalizado para medir y comparar la desigualdad distributiva de
recursos. El Banco Mundial, por ejemplo, lo utiliza anualmente en sus Reportes de Desarrollo
Mundial para medir la desigualdad distributiva del ingreso en los países del mundo. El Cuadro
14 resume algunos datos extraídos de dicha publicación para un conjunto de países africanos.
Cuadro 14. Distribución del ingreso en algunos países africanos.
País (año)
Índice de Gini
Ghana (1992)
Guinea (1991)
Guinea-Bissau (1991)
Madagascar (1993)
Níger (1992)
Nigeria (1992-93)
Senegal (1991)
Sudáfrica (1993)
Uganda (1992)
Zambia (1993)
Zimbabwe (1990)
33,9
46,8
56,2
43,4
36,1
45,0
54,1
58,4
40,8
46,2
56,8
Fuente: Banco Mundial (1999b)
68
¿Cómo se mide y qué representa exactamente el índice de Gini? Sabemos que la Curva de
Lorenz representa la distribución real de los recursos, mientras que la “diagonal de igualdad”
representa una igualdad perfecta en la distribución (vea las Figuras 20 y 21, arriba). El índice de
Gini mide el grado en que una distribución de recursos se desvía con respecto a la igualdad
perfecta y su valor representa exactamente el área entre una curva de Lorenz y la diagonal de
igualdad, medida como porcentaje del área total bajo la diagonal de igualdad. Esto supone dos
cosas: (a) mientras mayor sea el área entre la Curva de Lorenz y la diagonal de igualdad, mayor
será la desigualdad de la distribución y mayor será el índice de Gini; y (b) el máximo valor
posible para el índice de Gini es 1 y el mínimo es 0.
El Gini tendrá un valor de 0 (cero) cuando el área entre las curvas no exista o sea cero, es decir,
cuando la curva y la diagonal de igualdad coincidan. El Gini valdrá 1 cuando el área entre la
curva de Lorenz y la diagonal de igualdad sea igual al área total bajo la diagonal de igualdad. Un
índice de Gini de 1 representa una desigualdad absoluta. En este caso, la Curva de Lorenz se
encontrará sobre los bordes sur y este del cuadro (vea la Figura 22). Un Gini de 1 significa que
sólo un individuo (el más rico) recibe todos los recursos, mientras que el resto de la sociedad no
recibe nada. Por otra parte, un Gini de 0 representa una igualdad perfecta. En este caso, la
Curva de Lorenz coincide con la diagonal de igualdad perfecta o es igual a ella.
Figura 22.
Curvas de Lorenz y el índice de Gini.
100%
Porcentaje del
Gasto Público (%)
Gini = 1
Gini = 0
Gini = 1
Curva de Lorenz
si Gini = 1
Curva de Lorenz
si Gini = 0
0%
100%
Porcentaje de la población (%) (ordenada
del menor quintil de ingreso al mayor)
Nótese que cuando la distribución del ingreso es progresiva, es decir, cuando la Curva de Lorenz
está por encima de la diagonal de igualdad, el índice de Gini también es mayor que cero. Esto se
debe a que la distribución de recursos en este caso, aunque progresiva y probablemente
equitativa, no es igualitaria, puesto que los individuos más pobres reciben relativamente más
recursos que los ricos. Esto sucede con el gasto público en educación primaria en Ecuador (vea
la Figura 20). En el límite, un extremo absoluto de progresividad significa que la Curva de
Lorenz coincide con los bordes oeste y norte de la Figura 22 (la línea punteada). Nótese que en
69
este caso, el valor del índice de Gini también es 1 (aunque por convención, podríamos desear
medirlo como número negativo (–1) para distinguirlo de la situación regresiva).
Basándose en los índices de Gini representados en el Cuadro 14, ¿cree usted que es más
igualitaria la distribución del ingreso en Ghana o en Nigeria?
12.4. Ejercicio
Para profundizar en su comprensión de la Curva de Lorenz, observe la Figura 23 y responda a las
preguntas.
Figura 23.
●E
Procentaje del
Gasto Público (%)
100%
Diagonal
de igualdad
80%
●
60%
F
Punto B
40%
●D
?
Punto A
●C
20%
●
0%
20%
14,9%
●
40%
60%
80%
100%
Porcentaje de la población (%) (ordenada
del menor quintil de ingreso al mayor)
(a) ¿Qué representa el punto B?
(b) ¿Qué representa el número 14,9%? ¿Qué significa este número en términos de igualdad de
gasto educacional en educación superior en Ecuador?
(c) ¿Cuál es el valor del segmento FC (representado por un signo de interrogación)?
70
Examen del Módulo 12
Ahora que ha terminado el Módulo 12, es la oportunidad de ver cuánto ha aprendido. Puede usar
este examen para determinar si necesita regresar a algunas áreas para revisarlas. Las respuestas a
estas preguntas se encuentran al final de la página.
1.
¿Cuáles de las siguientes afirmaciones son verdaderas?
a.
b.
c.
d.
2.
Con respecto al índice de Gini, ¿cuáles de las siguientes afirmaciones son verdaderas?
a.
b.
c.
d.
3.
El índice de Gini mide el grado en que una distribución de recursos dentro de una
población se desvía con respecto a la igualdad perfecta.
La Curva de Lorenz es una representación gráfica del grado de desigualdad
distributiva de los recursos dentro de una población.
La diagonal de igualdad en una Curva de Lorenz representa la igualdad perfecta
en la distribución de recursos dentro de una población.
Todas las anteriores.
Un Gini de valor cero representa desigualdad perfecta.
El índice de Gini es un índice numérico de la Curva de Lorenz.
Un Gini de valor uno representa igualdad perfecta.
Todas las anteriores.
¿Cuáles de las siguientes afirmaciones acerca de la Figura 23 son verdaderas (vea la
sección titulada ‘Aplicación: Curva de Lorenz’)?
I.
II.
III.
IV.
a.
b.
c.
d.
El punto F nos indica que el 60% más pobre de la población recibe el 60% del
gasto público total.
El punto B nos indica que el 40% más pobre de la población recibe menos del
10% del gasto público total.
La Curva de Lorenz representada en la Figura 23 describe una situación en la cual
existe una desigualdad significativa en la distribución de recursos.
Si alguien calculara el índice de Gini para la Curva de Lorenz representada en la
Figura 23, concluiría que el valor es mayor que 1.
I, II y III.
I, II y IV.
II y III.
Todas.
Vea las respuestas a continuación
Respuestas:
1-d
2-b
3-a
71
Módulo 13: Correlación
El Módulo 13 presenta una introducción al concepto fundamental de correlación, que por
primera vez introduce el tema de la “predicción” en estadística.
Objetivos de aprendizaje:
Al término de este módulo, usted …
 Comprenderá mejor el importante concepto de correlación y su aplicabilidad;
 Entenderá mejor las limitaciones que enfrenta la estadística en la determinación de
causalidad.
Estructura del módulo:
13.1
13.2
13.3
Correlación
Correlación y causalidad
Variables dependientes e independientes
13.1. Correlación
En último término, son las relaciones entre las variables las que interesan a los reformadores de
la educación. Los estadísticos miden lo que denominan ‘correlación’ para tratar de determinar la
fuerza de la relación entre dos variables. Por ejemplo, la “fuerza” de la relación entre: (a) el
número de maestras mujeres y la proporción de niñas que asisten a las escuelas; o (b) las
calificaciones en las partes matemática y verbal de una prueba; o (c) entre la autonomía de las
escuelas y el nivel de aprendizaje de los estudiantes.
La correlación se mide en forma numérica mediante un índice o coeficiente de correlación. El
más común se denomina ‘coeficiente de Pearson’ y está representado como ‘ r ’.
Al tratar de describir la relación entre dos variables, necesitamos responder al menos cuatro
preguntas:
(1) ¿Están relacionadas las variables entre sí? Dos variables parecen estar relacionadas
cuando los cambios en el valor de una de las variables van acompañados de cambios en el
valor de la otra.
(2) Si las variables parecen estar relacionadas, ¿qué tan fuerte es la relación entre las
variables? En otras palabras, ¿las variables estarían estrechamente relacionadas o tan
sólo en forma leve?
(3) ¿La relación entre las variables es ‘positiva’ o ‘negativa’? Una relación ‘positiva’
implica que cuando el valor de una variable aumenta, el valor de la otra también aumenta.
En el caso de una relación ‘negativa’, los incrementos en el valor de una variable
producen reducciones en el valor de la otra.
72
(4) ¿Cuál es la relación causal? Por último, estamos interesados en determinar la “relación
de causalidad” entre las variables. En otras palabras, deseamos saber si es que
efectivamente y cómo una variable causa el comportamiento de la otra. La variable que
‘causa’ o explica el comportamiento de la otra variable se llama variable “independiente”
y la que está ‘causada’ por la otra se llama variable “dependiente”, puesto que ‘depende’
o está explicada por la otra.
Es de extraordinaria importancia tener absolutamente claro que la existencia de correlación entre
variables no implica necesariamente que exista una relación de causalidad entre esas variables.
Como ejercicio, trate de pensar en un ejemplo de dos variables que estén correlacionadas
positivamente, pero obviamente no tengan relación causal entre ellas.
13.2. Correlación y Causalidad
Con respecto a la determinación de causalidad, debemos ser siempre extremadamente cautelosos.
Como ya dijimos la existencia de correlación no implica causalidad. En el mejor de los casos,
los estadísticos pueden establecer una ‘correlación’ entre diferentes elementos, esto es, que los
elementos que se están midiendo se comportan como si estuvieran relacionados. Y por cierto,
también pueden establecer que no hay ninguna relación entre los objetos estudiados. Pero la
estadística no puede establecer causalidad. En otras palabras, no se puede inferir causalidad
sobre la base de una correlación empírica.
El hecho de que dos variables parezcan estar correlacionadas no necesariamente significa que
una esté causando a la otra. Para empezar, la relación podría ser falsa o casual. Pero la relación
entre las variables también puede ser el resultado de una tercera variable que ‘causa’ o explica
las otras dos, y que por lo tanto lleva a que las dos variables causadas por esta tercera parezcan
estar relacionadas entre sí. Por ejemplo, si en una escuela primaria uno midiera la relación entre
las habilidades aritméticas de los estudiantes y las estaturas de estos, se concluiría que, de hecho,
existe una correlación positiva entre estatura y habilidades aritméticas, es decir, mientras mayor
es la estatura de los estudiantes, mayores son sus habilidades aritméticas. Sin embargo, sabemos
que la altura no hace que los estudiantes aprendan matemática ni que el aprendizaje de la
aritmética hace que los estudiantes sean más altos. En este caso, que es muy evidente, hay un
tercer factor que explica la correlación entre las mejores habilidades aritméticas y la estatura de
los estudiantes: la “edad” de los estudiantes. De modo que no es que los estudiantes más altos
sean mejores para la aritmética, sino que los estudiantes de más edad, o sea en los niveles más
altos, tienden a ser más altos y a tener mayores habilidades aritméticas. Hay un tercer factor que
explica las dos variables y que por este motivo parecen estar relacionadas, pero en realidad no
hay ninguna relación entre ellas.
Desafortunadamente, la mayoría de nosotros tenemos la tendencia a inferir automáticamente una
relación de causalidad sobre la base de una correlación. Pero para sostener una causalidad se
debe siempre ir más allá de los hechos empíricos y buscar una explicación o “teoría” aceptable
que conecte convincentemente las variables involucradas. Una teoría es a un conjunto de hechos
o datos, lo que un edificio es a un montón de ladrillos. Una teoría, que desde luego debe resistir
sistemáticamente las pruebas empíricas, es la que proporciona la base para hablar de una relación
causal entre variables y así darle significado real a los datos.
73
En los siguientes párrafos presentamos algunos ejemplos específicos para la educación que
deberían ayudarlo a pensar un poco más acerca de las relaciones de causalidad entre las
variables. Los ejemplos tratan de subrayar la necesidad, como usted bien sabe, de ser muy
cautelosos al extraer conclusiones sobre la base de una correlación.
(1) Los cambios a largo plazo en la remuneración de los maestros primarios y las tasas de
matrícula primaria están correlacionados. En la mayor parte del mundo, a partir de los años
sesenta han aumentado tanto las remuneraciones reales de los maestros primarios como las tasas
de matrícula, ¿pero significa esto que el aumento de los salarios de los maestros constituye la
“causa” del aumento de las matrículas en educación primaria? No necesariamente.
En primer lugar, una tercera causa podría explicar la correlación entre las dos variables. En
general, tres décadas de desarrollo económico a su vez han originado mayores presupuestos para
la educación y esto ha permitido que los países aumenten simultáneamente las remuneraciones
de los maestros primarios y las matrículas.
En segundo lugar, y lo que es muy importante, hay explicaciones más plausibles para el
crecimiento simultáneo de las tasas de matrícula primaria y la remuneración real de los maestros
primarios, aunque esto último podría tener algún efecto indirecto al mejorar la calidad de la
enseñanza.
(2) En muchos países en desarrollo, aunque no en todos, los alumnos de las escuelas privadas
tienden a tener mejor rendimiento que los estudiantes de escuelas públicas en pruebas de
rendimiento en matemática y lectura. ¿Significa esta correlación entre el tipo de escuela y el
rendimiento de los estudiantes que las escuelas privadas (escuelas relativamente autónomas,
manejadas en forma relativamente autónoma por administradores privados) imparten una mejor
enseñanza de matemáticas y lectura a los niños que las escuelas públicas (escuelas con poca
autonomía, manejadas por funcionarios públicos supervisados atentamente y regulados en forma
rigurosa)? No necesariamente.
La autonomía de la administración de las escuelas y el conjunto de incentivos asociados con ello
podría constituir una parte de la explicación, pero otras variables tendrían también gran peso en
ayudar a explicar las diferencias en los resultados de aprendizaje de los estudiantes en escuelas
privadas y públicas en países en desarrollo. Una explicación alternativa, y bastante razonable, es
el hecho de que en los países en desarrollo, los niños de las escuelas privadas tienden a provenir
de estratos socioeconómicos más altos que los niños de las escuelas públicas y por lo tanto son
factores independientes de las escuelas los que tienden a explicar las diferencias en los
resultados. Otra explicación razonable es que las escuelas privadas tienen mayores recursos por
estudiante que las públicas. Desde luego, esto no descarta que la autonomía de las escuelas
privadas para determinar la política educacional, junto con su mayor responsabilidad frente a las
familias de los estudiantes, también ayude a explicar porqué los estudiantes de las escuelas
privadas obtienen, en gran parte de los países en desarrollo, mejores resultados.
Ejercicio: La Ministra de Educación de Enrolia se ha empeñado en comprender por qué, a pesar
de un considerable esfuerzo financiero en mejorar el rendimiento escolar, el rendimiento de los
estudiantes ha empeorado. Encargó un estudio en el que se concluyó que los esfuerzos del
Ministerio generaron, por un lado, una reducción del rendimiento promedio de los estudiantes y,
por otro, un aumento significativo en el acceso a la educación en zonas rurales. En su opinión,
¿la correlación entre el aumento en matrículas rurales y la calidad de la educación es positiva o
negativa? ¿Se relaciona esto con el problema que enfrenta la Ministra de Enrolia?
74
13.3. Variables Dependientes e Independientes
Analizaremos en esta sección el tema de la dirección de una relación de causalidad.
Comenzamos con algunas observaciones acerca de las variables dependientes e independientes.
Las variables involucradas en una relación causal se pueden clasificar como dependientes e
independientes. Los términos “dependiente” e “independiente” representan una relación entre
las variables. Un cambio en la variable dependiente es causado por (o ‘depende’ de) un cambio
ocurrido en la variable independiente. Los cambios en la variable independiente, por su parte,
‘causan’ cambios en la variable dependiente. Por ejemplo, un buen maestro hace que los niños
aprendan. Así, en este caso, “buen maestro” es la variable independiente, mientras que el
“aprendizaje” que ocurre en la cabeza de los estudiantes es la variable dependiente.
Así como una correlación no puede decir nada definitivo en términos de causalidad, tampoco
puede decir nada acerca de la dirección de la causalidad. En otras palabras, aun cuando parezca
haber una relación directa entre dos variables, un análisis de correlación no nos indica cuál
variables es dependiente y cuál independiente, es decir, no nos indica qué variable es “la que
causa” y cual es “la causada”.
Por ejemplo, existe una clara correlación empírica entre educación y desarrollo económico.
¿Pero es el desarrollo económico el que causa un mejoramiento en la educación de un país o son
las mejoras en la educación las que causan el desarrollo económico? A esta pregunta, que se
sigue debatiendo hasta el día de hoy, la estadística, incluido el análisis de correlación, no pueden
proveer una respuesta definitiva. Es el viejo ‘problema del huevo o la gallina’.
¿Podemos al menos realizar algún tipo de afirmación causal? Una causalidad recién se puede
sostener en forma razonable después de haber propuesto una teoría aceptable y respaldada por
los hechos que explique la relación entre las variables. Además, en rigor, aun cuando se haya
propuesto una teoría aceptable para explicar una relación (y que también se encuentre respaldada
por los hechos), seguirá siendo simplemente una hipótesis hasta que el momento en que sea
rebatida y superada por otra hipótesis alternativa. Por lo tanto, la estadística sólo puede respaldar
o rechazar cierta hipótesis acerca de las relaciones causales entre determinados elementos. La
estadística, ni ninguna ciencia, pueden jamás probar relaciones de causalidad. Las
explicaciones científicas son siempre tentativas; lo que las hace científicas no es su certidumbre,
sino que el hecho de que se proponen sobre la base de una metodología que toma adecuadamente
en consideración toda la información factual disponible y que permite que a su vez la hipótesis
pueda ser refutadas también refutada por lo hechos. En otras palabras, en ciencias sociales, y a
diferencia de los sistemas judiciales democráticos modernos, toda hipótesis se “presume
culpable” hasta que de hecho se pruebe que su culpabilidad.
El análisis empírico por sí mismo nunca se puede usar como base para sostener una causalidad.
En términos de esta sección, esto significa que usted siempre debe tener en cuenta el hecho de
que una correlación no significa ni implica una causalidad. Sin embargo, es evidente que el
análisis de correlación tiene la capacidad de refutar afirmaciones acerca de alguna relación
causal entre variables, al igual que de identificar la base objetiva sobre la cual fundamentar las
hipótesis y teorías. Todo esto hace que la correlación sea una herramienta de análisis muy
poderosa.
75
Examen del Módulo 13
Use este examen para determinar si necesita regresar atrás para revisar los contenidos de este
módulo. Las respuestas a las preguntas se encuentran al final de la página.
1.
¿Cuáles de las siguientes afirmaciones son verdaderas?
a.
b.
c.
d.
2.
La correlación no nos puede ayudar a refutar una hipótesis.
La correlación se usa para determinar la dirección de causalidad entre las variables.
Los estadísticos miden la correlación para determinar la fortaleza empírica de la
relación entre dos variables.
Todas las anteriores.
¿Cuáles de las siguientes afirmaciones son verdaderas?
a.
El ‘coeficiente de Pearson’ generalmente se usa para medir una correlación.
b.
Dos variables parecen estar relacionadas cuando los cambios en el valor de una de
las variables van acompañados de cambios en el valor de la otra.
c.
Una relación ‘positiva’ implica que cuando el valor de una variable aumenta, el
valor de la otra también aumenta.
d.
Todas las anteriores.
Las respuestas se encuentran a continuación:
Respuestas:
1-c
2-d
76
Módulo 14: Correlación y el Coeficiente de Pearson
En este módulo examinaremos el coeficiente de Pearson y profundizaremos nuestra comprensión
del concepto de correlación. El coeficiente de Pearson es importante, puesto que es una
herramienta que se usa con frecuencia en el análisis técnico de políticas de educación.
Objetivos de aprendizaje:
Al término de este módulo, usted …
 Comprenderá mejor el concepto de correlación;
 Entenderá mejor el significado y aplicabilidad del coeficiente de Pearson;
 Se familiarizará con los diagramas de dispersión.
Estructura del módulo:
14.1
14.2
14.3
14.4.
Coeficiente de Pearson
Representación gráfica de la correlación
Una nota sobre análisis de regresión
Ejercicio
14.1. Coeficiente de Pearson
El índice numérico más común usado para medir una correlación es el “coeficiente de Pearson”.
El coeficiente de Pearson (también llamado coeficiente de correlación del producto-momento),
se representa con el símbolo ‘r’ y proporciona una medida numérica de la correlación entre dos
variables.
Es útil reconocer la fórmula usada para calcular el coeficiente de Pearson (es posible que vea
documentos en que se haga referencia a ella). Le entregamos la fórmula en una nota al pie de
esta página. No deje que la fórmula lo intimide. No necesita comprender la fórmula para
comprender el concepto de correlación. Aunque si hace un esfuerzo va a comprender la fórmula
en poco tiempo y con claridad.2
Recuerde que al describir la relación entre dos variables, necesitamos responder al menos cuatro
preguntas:
(1) ¿Están relacionadas las variables entre sí? Si los cambios en el valor de una de las variables
van acompañados de cambios en el valor de la otra, las variables parecen estar relacionadas.
(2) Si las variables parecen estar relacionadas, ¿qué tan fuerte es la relación entre las
variables? En otras palabras, ¿ están estrechamente o sólo levemente relacionadas?

xy
xy
y
La fórmula para el coeficiente de Pearson de correlación es la siguiente: r =
, donde 
es la
y
y
x
x
sumatoria del producto de
e , donde
e son las desviaciones con respecto a la media de cada observación
(es decir, la diferencia entre el valor de la observación y la media de su respectiva distribución), n es el número de
S
S
xy
observaciones para cualquiera de las variables (en rigor, el número de productos
) y x y y son las
desviaciones estándar de cada distribución variable.
nS x S
2
77
(3) ¿La relación entre las variables es ‘positiva’ o ‘negativa’?
(4) ¿Cuál es la relación causal entre las variables?
El coeficiente de Pearson no entrega respuestas a tres de estas cuatro preguntas: (1) sobre la
pregunta uno, nos indica si dos variables parecen estar correlacionadas o no; (2) con respecto a la
pregunta dos, el coeficiente de Pearson indica la fuerza de la aparente relación; y (3) el
coeficiente, por último, nos indica si la aparente relación es positiva o negativa. Como ya
sabemos, el análisis de correlación no puede responder a la última pregunta.
El coeficiente de correlación de Pearson ( r ) se mide en una escala de 0 a 1, tanto en dirección
positiva como negativa. Un valor de “0” indica que no hay relación lineal entre las variables.
Un valor de “1” o “–1” indica, respectivamente, una correlación positiva perfecta o negativa
perfecta entre dos variables. Normalmente, el valor de r se ubicará en alguna parte entre 0 y 1 o
entre 0 y –1.
En las ciencias sociales en general y en educación en particular, donde la mayoría de las
variables son simultáneamente afectadas por una gran multitud factores, una correlación positiva
de 0,7 o una correlación negativa de –0,7 se considera muy fuerte. (Por último, tenga en mente
el coeficiente de Pearson mide sólo relaciones lineales entre variables, y no es útil para medir
relaciones que no son lineales.)
Cuadro 15. El coeficiente de Pearson de correlación.
Valor del
Grado de Correlación
Coeficiente de Pearson
entre las Variables
r
=0
Ninguna correlación
r
=1
Correlación positiva perfecta
0<
r
-1 <
r
<1
= -1
r
<0
Correlación positiva
Correlación negativa perfecta
Correlación negativa
Nótese que una correlación negativa no es menos fuerte que una correlación positiva. Así, por
ejemplo, un r de 0,5 es tan ‘grande’ o fuerte como un r de –0,5. Los signos positivos y
negativos sólo indican si el valor de una variable aumenta o disminuye, respectivamente, con el
aumento en el valor de la otra variable. Como usted sabe, cuando los aumentos (disminuciones)
de una variable producen aumentos (disminuciones) en la otra, la relación es positiva. Es
negativa cuando los aumentos (disminuciones) de una variable producen disminuciones
(aumentos) en la otra.
Según su opinión, ¿las calificaciones profesionales de los maestros están correlacionadas en
forma positiva o negativa con el rendimiento de los estudiantes? ¿Qué sucede con el tamaño de
la clase? ¿Y el gasto en educación?
78
14.2. Representación Gráfica de la Correlación
La mejor forma de explicar la correlación es con la ayuda de gráficos o lo que los estadísticos
llaman “diagrama de dispersión”. Un diagrama de dispersión representa la relación gráfica entre
dos variables mediante puntos que representan pares de observaciones. En los cinco diagramas
de dispersión siguientes, se representan los diferentes posibles valores de r indicados en el
Cuadro 15. Asegúrese de comprender muy bien cada uno de los cinco gráficos (Figuras 24, 25,
26, 27 y 28) antes de continuar. Si es necesario, no dude en volver atrás y revisar las secciones
anteriores de este módulo, así como el módulo anterior.
Figura 24.
Correlación positiva
perfecta ( r = 1)
Figura 26.
Sin correlación
r =0
Figura 25.
Correlación negativa
perfecta ( r = -1)
Figure 27.
Correlación positiva
0< r <1
Figure 28.
Correlación negativa
-1 < r < 0
14.3. Una Nota sobre Análisis de regresión
El análisis de regresión es otra herramienta estadística utilizada en forma generalizada para
medir relaciones entre variables; y está estrechamente relacionado con el análisis de correlación.
El objetivo del análisis de regresión no sólo es medir la fuerza de una relación, sino también
generar un modelo de esa relación (llamado ‘función), de modo de predecir el comportamiento
de una de las variable sobre la base del comportamiento de la otra (o de las otras, por medio de
un análisis de regresión múltiple”.). Por ejemplo, se puede usar un análisis de regresión para
tratar de predecir la oferta de maestros en base a la remuneración que ellos reciben. Esta
regresión entre el salario y la oferta de trabajo es de uso habitual en la economía y se denomina
“curva de oferta de trabajo”. (En términos generales, las relaciones entre el precio y la cantidad
ofrecida y demandada de un bien se estudian bajo el título de “análisis de oferta y de demanda”.)
79
14.4. Ejercicio
El siguiente ejercicio le ofrece la oportunidad de poner a prueba su comprensión del concepto de
correlación. El Cuadro 16 muestra el ingreso per cápita y las tasas brutas de matrícula en
educación secundaria para varios países del Asia Oriental y el Pacífico. Estos datos son a su vez
representados en la Figura 30 en la forma de un “diagrama de dispersión”.
Cuadro 16. Ingreso per cápita y tasas brutas de matrícula en educación
Secundaria en países de la Región de Asia Oriental y el Pacífico.
Tasa brutas de matrícula en la educación
País
Ingreso per cápita
secundaria
(US$—1994)
(%—1994)
Camboya
China
Fiji
Indonesia
RDP Lao
Malasia
Tailandia
Vietnam
US$300
US$860
US$2.470
US$1.110
US$400
US$4.680
US$2.800
US$320
25
55
61
45
25
61
49
41
Fuente: Banco Mundial (1998b)
Figura29.
30.
Figura
Ingreso Per Cápita y Matrícula Bruta en Educación Secundaria
en Países Seleccionados de EAP
70
Fiji
60
Malasia
China
50
Vietnam
40
Tailandia
Indonesia
30
20
Laos
Cambodia
10
0
$0
$1,000
$2,000
$3,000
Ingreso Per Capita
(1997)
80
$4,000
$5,000
Por favor observe el Cuadro 16 y la Figura 30 y responda a las siguientes preguntas:
(1) De acuerdo con los datos entregados, ¿piensa usted que existe algún tipo de correlación
entre las tasas brutas de matrícula en educación secundaria y el ingreso per cápita en los países
considerados?
(2) ¿Diría usted que el ingreso per cápita mayor pareciera estar asociado a tasas brutas de
matrícula en la educación secundaria en los países del Asia Oriental y el Pacífico?
(3) Con respecto al coeficiente de Pearson de correlación entre las variables representadas en la
Figura 30, ¿diría usted que este es positivo o negativo? ¿Por qué?
(4) ¿Cree usted que basándonos exclusivamente en la información proporcionada por el
“diagrama de dispersión” deberíamos concluir que los incrementos en el ingreso per cápita de un
país producen tasas brutas de matrícula más altas en la educación secundaria? Explique.
(5) ¿Le sorprendería saber que en 1994, con un ingreso anual de US$8.460 per cápita, la
República de Corea tuvo una tasa bruta de matrícula en la educación secundaria del 96%? ¿Qué
hay sobre el hecho de que en 1994, Papua Nueva Guinea, con un ingreso per cápita de
US$1.240, tenía una tasa bruta de matrícula en educación secundaria de 15%? Explique.
Vea las respuestas a continuación:
Respuestas:
(1) Existe una correlación.
(2) Sí.
(3) Un ingreso per cápita más alto parece estar asociado a matrículas más altas en la educación
secundaria, por lo que el coeficiente de correlación de Pearson es positivo.
(4) En principio, la respuesta es sí. Sin embargo, por motivos específicos de un país, esto podría
no suceder en el corto plazo. Esta respuesta sólo pretende servir como punto de partida para un
análisis de mayor profundidad.
(5) Los datos proporcionados no son sorprendentes, puesto que en general son consecuentes
con una correlación positiva entre el ingreso per cápita y las matrículas en la educación
secundaria. Sin embargo, dado su ingreso per cápita, Papua Nueva Guinea estaría con niveles
de matrícula significativamente más bajos que países comparables de la muestra indicada en la
Figura 30. China e Indonesia, por ejemplo, con niveles de ingreso per cápita comparables,
tienen tasas de matrícula significativamente más altas.
81
Examen del Módulo 14
Utilice este examen para determinar si necesita regresar a algunas de las áreas del módulo para
revisarlas. Las respuestas se encuentran al final de la página.
1.
¿Cuáles de las siguientes afirmaciones son verdaderas acerca del coeficiente de Pearson?
I.
II.
III.
IV.
Un coeficiente de Pearson de valor uno representa una correlación perfecta entre
dos variables.
En investigación sobre educación, con frecuencia se producen coeficientes de
Pearson de uno.
Un coeficiente de Pearson de cero representa una correlación negativa entre dos
variables.
Un coeficiente de Pearson de 0,5 representa un mayor grado de correlación entre
dos variables que un coeficiente de Pearson de –0,5.
a. Sólo I.
b. I y III.
c. I, III y IV.
d. II, III y IV.
2.
¿Cuáles de las siguientes afirmaciones acerca de la Figura 30 son verdaderas (de la sección
denominada ‘Aplicación: correlación)?
I.
II.
III.
La figura representa lo que se llama un diagrama de dispersión.
La figura representa una correlación negativa entre tasas de matrícula en educación
secundaria y PNB per cápita.
Si alguien calculara el coeficiente de Pearson para los datos de la Figura 30, su
valor sería mayor que cero.
a. Sólo I.
b. I y II.
c. I y III.
d. Sólo III.
Vea las respuestas correctas a continuación:
Respuestas:
1-c
2-c
82
Recursos Adicionales
En caso de que esté interesado en incrementar sus habilidades en estadística más allá del nivel de
este curso, a continuación le proporcionamos algunos recursos impresos adicionales que podrían
serle de utilidad.

Beiger, George, y Gail Gerlach (1992), Educational Research: A Practical Approach
(Nueva York: Wadsworth Publishing Company).

Ravids, Ruth (2000), Practical Statistics for Educators (Nueva York: University Press of
America).

Freund, Rudolf, y William Wilson (1997), Statistical Methods (San Diego: California
Academic Press).

Huff, Darrell (1954), How to Lie with Statistics (Nueva York: W.W. Norton and
Company Inc.).

Katzer, Jeffrey, Kenneth Cook y Wayne Crouch (1998), Evaluating Information: A Guide
for Users of Social Science Research (Nueva York: McGraw-Hill).

Phillips, John L. (1996), How to Think About Statistics (Nueva York: W.N. Freeman and
Company).

Slavin, Robert (1996), Research Methods in Education (Nueva York: Allyn and Bacon).

Stockburge, David (1998), Introductory Statistics: Concepts, Models and Applications
(Cincinnati: Atomic Dog Publishing).
83
Bibliografía del Curso
Anzar, Uzma (1999), “Education Reforms in Balochistan, 1990-1998: A Case Study in
Improving Management and Gender Equity in Primary Education” (Washington, DC: Banco
Mundial).
Banco Mundial (1998), “Education in the Middle East & North Africa: A Strategy Towards
Learning for Development,” Education Sector Strategy Note (Sector de Desarrollo Humano,
Región Oriente Medio y África Septentrional).
Banco Mundial (1998b), “Education and Training in the East Asia and Pacific Region,” (Unidad
del Sector Educacional, Región Asia Oriental y el Pacífico).
Banco Mundial (1999), “Educational Change in Latin America and the Caribbean,” (Sector de
Desarrollo Social y Humano, Región América Latina y el Caribe).
Banco Mundial (1999b), World Development Report 1998/1999: Knowledge for Development
(Nueva York: Oxford University Press).
Banco Mundial (2000), World Development Report 2000/2001: Attacking Poverty (Nueva York:
Oxford University Press).
Freund, Rudolf, y William Wilson (1997), Statistical Methods (San Diego, California: Academic
Press).
Huff, Darrell (1954), How to Lie with Statistics (Nueva York: W. W. Norton & Company Inc.).
Katzer, Jeffrey, Kenneth Cook y Wayne Crouch (1998), Evaluating Information: A Guide for
Users of Social Science Research (Nueva York: McGraw-Hill).
Phillips, John L. (1996), How to Think About Statistics (Nueva York: W. H. Freeman and
Company).
84
Descargar