Medidas de Deformación y Apuntamiento

Anuncio
ANGEL FRANCISCO ARVELO LUJAN
Angel Francisco Arvelo Luján es un Profesor Universitario Venezolano en el área
de Probabilidad y Estadística, con más de 40 años de experiencia en las más
reconocidas universidades del área metropolitana de Caracas.
Universidad Católica “Andrés Bello” : Profesor Titular Jubilado 1970 a 2003
Universidad Central de Venezuela: Profesor por Concurso de Oposición desde
1993 al presente
Universidad Simón Bolívar: Profesor desde 2005 al presente
Universidad Metropolitana: Profesor desde 1973 a 1987
Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004
Sus datos personales son :
Lugar y Fecha de Nacimiento: Caracas, 16-02-1947
Correo electrónico: [email protected]
Teléfono: 58 416 6357636
Estudios realizados:
Ingeniero Industrial. UCAB Caracas 1968
Máster en Estadística Matemática CIENES , Universidad de Chile 1972
Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan
1982
Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al
Presente
El Profesor Arvelo fue Director de la Escuela de Ingeniería Industrial de la
Universidad Católica “Andrés Bello”
(1974-1979) , Coordinador de los
Laboratorios de esa misma Universidad especializados en ensayos de Calidad,
Auditor de Calidad, y autor del libro “Capacidad de Procesos Industriales” UCAB
1998.
En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales
en el área de “Estadística General” y “Control Estadístico de Procesos”.
Para consultar otras publicaciones, ir la página web. www.arvelo.com.ve
2
Medidas de Deformación
Angel Francisco Arvelo L.
MEDIDAS DE DEFORMACION Y
DE APUNTAMIENTO.
El término “Momento” se aplica en Física, para indicar el
producto entre una fuerza y su distancia a un punto, llamada “brazo” ,y así existen
“Momentos Estáticos”, “Momentos de Inercia”, etc., según se multiplique la fuerza
por la distancia, por el cuadrado de la distancia, etc.
En Estadística existen muchas fórmulas y expresiones matemáticas, en donde es
necesario incluir el desvío o distancia de un dato a un cierto punto llamado “origen
de trabajo”, y cuya escritura puede simplificarse con la introducción del concepto
de “Momento de los Datos”.
Cuando se tiene un conjunto de datos sin agrupar { x1, x2 ,x3 , ......, xn} , se define
como Momento de orden “r” respecto de un valor “A”, a la media aritmética de las
potencias de grado “r” , de sus desvíos respecto a ese valor “A” , es decir :
1 Momentos:
I n
( xi
m r ,A
A)r
i 1
n
El valor “A” con respecto al cual se está calculando este momento de orden “r” ,
puede ser cualquiera , y recibe el nombre de “origen de trabajo”.
Desde el punto de vista descriptivo, los momentos respecto de un origen de
trabajo cualquiera no pueden ser interpretados como una característica especial
de los datos, a excepción de algunos de ellos que serán analizados a lo largo de
este capítulo.
La principal utilidad práctica que tienen los diferentes momentos, es simplificar la
escritura de ciertas fórmulas y expresiones matemáticas.
Ejemplo 8.1: Dados los datos 2, 5, 8 y 13, calcular el momento de orden 2
respecto del valor 10.
Solución: Se calculan los desvíos respecto del origen de trabajo, en este caso
A=10, que resultan ser: 2-10 = -8 , 5-10 = -5 , 8-10 = -2 y 13 – 10 = 3 .
El momento de orden 2 respecto del valor 10, es entonces por definición, la media
( 8) 2 ( 5) 2 ( 2) 2 (3) 2
de los cuadrados de estos desvíos: m 2,10
= 25,50.
4
Para calcular el momento de orden 3, se promedian las potencias cúbicas de los
desvíos y así sucesivamente.
El resultado obtenido no tiene en general una interpretación estadística, salvo en
ciertos casos particulares que se analizaran luego, y por lo tanto debe ser visto
simplemente como el resultado de un cálculo definido por una fórmula matemática.
Aunque el origen de trabajo “A” puede ser cualquiera, los más utilizados son la
media X y el cero, en cuyo caso se tienen los siguientes momentos:
3
Medidas de Deformación
Angel Francisco Arvelo L.
i n
( xi
Momento de orden “r” respecto de la media X = m r =
A= X
i n
xi
Momento de orden “r” respecto del origen = X r =
A=0
La nomenclatura X
r
X)r
i 1
n
r
i 1
n
significa media de las potencias de orden “r”, diferente de
( X) , que significa potencia “r” de X , es decir: X r
( X)r .
Algunas de las expresiones ya conocidas en los capítulos anteriores, pueden ser
escritas en función de los momentos, y así por ejemplo tenemos que:
X = Primer momento respecto del origen.
r
i n
2
=
( xi
X) 2
I 1
= m2 = Segundo Momento respecto de la media
n
i n
o también :
2
xi2
=
2
X = X2 - X
I 1
n
2
m2 = X 2 - X
2
lo que equivale a decir que la varianza poblacional es igual al momento de
segundo orden respecto del origen, menos el cuadrado del primer momento
respecto del origen.
Como consecuencia de las propiedades de la media, se tiene que para cualquier
conjunto de datos, su primer momento respecto de la media siempre es nulo.
i n
( xi
X)
i 1
=0
n
Entre los momentos respecto de la media y los momentos respecto del origen,
existen ciertas relaciones, y es posible obtener uno a partir de los otros.
Así por ejemplo, se verifica:
m1
m3 = X 3
3 X 2 X 2 ( X )3
m4 = X 4 4 X 3 X 6 X 2 ( X ) 2 3 ( X ) 4
Para demostrar estas identidades, basta partir de la definición:
i n
i n
( xi
m3 =
i 1
n
X) 3
(xi
=
3
3 xi2 X + 3 xi X 2 - X 3 )
i 1
n
=
X 3 3 X 2 X 3 X (X) 2 - ( X ) 3 = X 3 3 X 2 X 2 ( X ) 3
La demostración de la segunda identidad está hecha en general en el Ejercicio 3
Las consideraciones anteriores deben ser vistas como una simple manipulación
matemática de las fórmulas y propiedades ya conocidas, que introducen un nuevo
4
Medidas de Deformación
Angel Francisco Arvelo L.
lenguaje en las expresiones estadísticas, y no como un hecho que le concede a
los diferentes momentos un significado especial.
Para el caso de datos agrupados, los momentos se calculan a través del
procedimiento ya conocido de reemplazar cada dato por la marca de clase del
intervalo donde cae, y se obtiene:
i k
(L*i
mr,A
A)r fi
= Momento de orden “r” respecto de un valor “A”.
i 1
i k
fi
i 1
i k
(L*i
mr
X)r fi
= Momento de orden “r” respecto de la media.
i 1
i k
fi
i 1
i k
(L*i )r fi
Xr
= Momento de orden “r” respecto del origen.
i 1
i k
fi
i 1
Tal como se ha explicado en capítulos anteriores, al agrupar los datos se introduce
un error en el cálculo de sus diferentes medidas descriptivas, pues el supuesto de
cada dato es igual a la marca de clase del intervalo donde cae, es una simple
aproximación.
El cálculo de los diferentes momentos para datos agrupados no escapa de este
error, y por ello han sido desarrolladas una serie de fórmulas, que pretenden
corregir parcialmente el cálculo de los momentos, hecho mediante las fórmulas
convencionales con la marca de clase.
Estas fórmulas se conocen bajo el nombre de “Correcciones de Sheppard”, se
utilizan para corregir los momentos respecto de la media, y se fundamentan en el
supuesto de que el error de agrupamiento para cada dato es aleatorio, y
c
c
; +
distribuido uniformemente en el intervalo
, pues el verdadero valor del
2
2
c
dato cae en el intervalo L*i
.
2
Las correcciones de Sheppard no serán tomadas en consideración aqui, y se
dejan como tema de investigación para el lector.
LM
N
IJ
K
Ejemplo 2 : Si los primeros cuatro momentos de un conjunto de datos respecto del
número 3 , son –2,10,-25 y 50 .Determinar los correspondiente momentos
respecto de . a) la media, b) el número 5 c) el cero.
Solución : Si el primer momento respecto del número 3 es –2 , esto significa que :
5
Medidas de Deformación
Angel Francisco Arvelo L.
i n
i n
( xi
m´1,3 =
3)
i n
xi
i 1
3n
i n
xi
i 1
xi
i 1
i 1
= -2
=-2
=1
X=
3 = -2
n
n
n
n
El primer momento respecto de cero es X =1 , respecto de la media es siempre
i n
i n
( xi
5)
xi
i 1
cero, y respecto del número 5: m´1,5 =
i 1
=
n
n
Para hallar los segundos momentos, se tiene: m´2,3 = 10
i n
i n
3) 2
( xi
m´2,3 =
i 1
6 xi
xi
9n
i 1
= 10
n
i n
x i2
x i2
i 1
por tanto:
6
i 1
=
n
i n
i n
xi2
9)
i 1
= 10
n
i n
( xi2
- 5 = 1-5 = - 4.
X2 =
-6 X +9 = 10
n
= 10 – 9 + 6 X = 7 pues X =1
i 1
n
Conocido X 2 , se pueden determinar los demás momentos de segundo orden
i n
m2 =
2
i n
( xi
X)
2
i 1
=
x i2
=
n
i n
n
i n
( xi
m´2,5 =
2
- X 2 = X 2 - X 2 = 7-1 = 6
i 1
5) 2
i 1
i n
( xi2
10 xi
x i2
25)
i 1
=
=
n
n
Con los terceros momentos:
i n
-10 X +25 = 7-10+25 = 22
n
i n
( xi
m´3,3 =
i 1
3) 3
i n
( xi3
i 1
27 xi
=
n
i n
i n
i 1
n
n
-9
i 1
n
+27 X - 27
x i2
-9
i 1
n
+27 X -27 = -25
i n
x i3
Por lo tanto : X 3 =
i 1
x i2
i n
x i3
Como m´3,3 = - 25
i n
x i3
27)
i 1
=
n
9 xi2
x i2
-27 X + 2 = 9 (7) – 27 (1) + 2 = 38
n
n
Los restantes momentos de tercer orden son:
i n
=9
i 1
i n
( xi
m3 =
i 1
i 1
n
X) 3
( xi3
=
3 xi2 X 3 xi X 2
i 1
Simplificando: m3 = X
n
3
3X
2
X
X3 )
= X3
3 X2 X
3 X X2 - X3
3
2 X 3 = 38 - 3 (7) (1) + 2 (1) = 19
6
Medidas de Deformación
Angel Francisco Arvelo L.
i n
i n
( xi
5)
3
( xi3
15 xi2
75 xi
125)
=
= X 3 15 X 2 + 75 X 125
n
n
por lo tanto : m´3,5 = 38 – 15 (7) + 75 (1) –125 = -117
Procediendo de manera análoga para los cuartos momentos, y a partir de
m´3,5 =
i 1
i 1
m´4,3 = 50 se obtiene: X 4 = 155 , m4 = 42 y m´3,5 = 560 .
Ejemplo 3 Demostrar la siguiente identidad entre momentos:
2
4
m4 = m´4,A – 4 m´1,A m´3,A + 6 (m´1,A ) m´2,A –3 (m´1,A)
i n
I n
( xi
Solución: Por definición
m4 =
X) 4
( xi
i 1
y m r ,A
A)r
i 1
n
n
Se suma y se resta “A” dentro de la expresión de m4 se obtiene:
i n
I n
( xi
m4 =
A
A
X) 4
i 1
( xi
X)
4
i 1
=
n
A) ( A
n
Al desarrollar el binomio ( xi
A) ( A
4
X ) se obtiene:
i n
( xi
A) 4
4( xi
A) 3 ( A
X ) 6( xi
A) 2 ( A
X) 2
4( xi
A )( A
X) 3
(A
X) 4
i 1
y al dividir entre “n” se obtiene el lado derecho de la identidad , teniendo en
i n
( xi
cuenta que: m´1,A =
i 1
n
A)
= X -A.
……………………………….
Momentos adimensionales: Los diferentes momentos de orden “r” de un
conjunto de datos vienen expresados en unidades a la potencia “r” de los datos, y
así por ejemplo, el cuarto momento respecto del origen de unos datos expresados
4
en centímetros, viene en cm .
En algunas oportunidades se deben comparar estos momentos con los de otro
conjunto de datos, y cuando estos vienen en diferentes unidades, tal comparación
no es posible de realizar.
Para poder hacer estas comparaciones, se utilizan los momentos adimensionales,
que se definen como el correspondiente momento de orden “r”, dividido entre la
potencia “r” de alguna medida de dispersión de las mismas unidades de los datos,
que generalmente es la desviación típica.
Así por ejemplo, se define como momento adimensional de orden “r” respecto de
m
r
la media a:
ar=
r
El uso y utilidad práctica de los momentos será analizada a lo largo de este
capítulo.
7
Medidas de Deformación
Angel Francisco Arvelo L.
2. Datos Simétricos : Un conjunto de datos { x1, x2 ,x3 , ......, xn} se dice que es
simétrico respecto de un valor “A” , cuando se verifican dos condiciones:
1ª Condición: El número de datos menores que “A” es igual al número de datos
mayores que ese mismo valor “A”.
2ª Condición : Entre los datos menores que “A” y los mayores que “A” existe una
correspondencia biunívoca (uno a uno), de manera que para cada dato menor que
“A” existe otro mayor que “A” con igual desvío absoluto con relación a “A”, es decir
a la misma distancia.
Ejemplos de datos simétricos son los conjuntos { 3 , 7 , 9 , 11 ,13 , 17 } respecto
del valor 10, y { 4, 11, 14, 15 , 16 , 19 , 26 } con relación a 15.
El valor “A” recibe el nombre de “eje de simetría”, y no necesariamente debe
pertenecer al conjunto de datos, como por ejemplo en el primero de los conjuntos
anteriores, donde el valor 10 no pertenece al conjunto.
Cuando una distribución de frecuencias es simétrica, el histograma queda dividido
en dos mitades iguales por el eje de simetría, como por ejemplo:
Intervalo
20 a 25
25 a 30
30 a 35
35 a 40
40 a 45
45 a 50
frecuencia
15
50
80
80
50
15
la cual es simétrica respecto del valor 35, tal como puede apreciarse en el
histograma.
Propiedades de los datos simétricos
Propiedad N°1 : Cuando un conjunto de datos es simétrico respecto de un valor
“A” , entonces la media coincide con el eje de simetría, es decir : X = A .
Para demostrarlo, sea xp < A , y xq> A , su simétrico.
Sean dp y dq sus correspondientes desvíos absolutos con relación al eje de
simetría “A”.
Se tiene entonces: xp= A – dp , y xq= A + dq .
Pero, por definición de simetría: dp = dq .
xp + xq= 2A
8
Medidas de Deformación
Angel Francisco Arvelo L.
Como además el número de datos a la izquierda de “A” es igual al número de
i n
datos a su derecha, se concluye entonces que:
xi = n A
X =A
i 1
Propiedad N° 2 : Cuando un conjunto de datos es simétrico respecto de un valor
“A” , entonces la mediana también coincide con el eje de simetría, y por lo tanto :
Med = A .
Para demostrarlo basta aplicar el principio de reducción al absurdo, pues si se
supone que el conjunto es simétrico con relación al valor “A” y que Med A, se
obtiene como conclusión que existe simetría pero que el número de datos
menores que “A” es diferente del número de datos mayores que “A”, lo que
obviamente contradice la definición de simetría.
Corolario: Como consecuencia de estas dos primeras propiedades, se deduce
entonces que en distribuciones simétricas: X = Med, es decir:
X = Med
Simetría
Es importante destacar que esta implicación no es válida en sentido recíproco, es
decir que si se verifica X = Med , no necesariamente es simétrica, tal como ocurre
en el siguiente conjunto de datos: {3, 8,9,11,13,16}, en donde se verifica X = Med,
pero no existe simetría.
Propiedad N° 3 : Cuando una distribución es unimodal y simétrica, entonces la
moda coincide con eje de simetría.
La demostración de esta propiedad es también por reducción al absurdo, pues si
se supone que es simétrica y que la moda es única pero que no coincide con el
eje de simetría ,se concluiría de que la moda no tiene simétrico por ser única, lo
que obviamente contradice la definición de simetría.
La única manara como la distribución puede ser simétrica con una sola moda, es
que el simétrico de la moda sea ella misma, lo que solamente puede ocurrir
cuando la moda coincide con el eje de simetría.
De estas tres propiedades, se concluye que en distribuciones simétricas
unimodales, moda mediana y media coinciden con el eje de simetría, tal como
ocurre en la curva normal.
Propiedad N° 4 : En distribuciones simétricas todos los momentos de orden impar
respecto de la media X son nulos.
En efecto, el momento de orden “r” respecto de la media X viene dado por:
9
Medidas de Deformación
Angel Francisco Arvelo L.
i n
( xi
mr=
X)r
i 1
n
Cuando existe simetría X coincide con el eje de simetría, y por lo tanto la
diferencia xi X representa el desvío de cada dato con relación a dicho eje.
Cuando xi X , este desvío es negativo, y cuando xi X es positivo, pero en
ambos casos, igual en valor absoluto al de su simétrico.
Si la potencia “r” es impar el signo del desvío se mantiene, y por lo tanto al sumar
sobre todos los datos el resultado es cero, pues cada potencia del desvío se anula
con la de su simétrico, que es igual en valor absoluto pero de signo contrario.
En resumen:
Simetría
m r = 0 cuando “r” es impar
Lamentablemente, esta propiedad no es recíproca, y existen casos donde m r = 0
con “r” impar, y sin embargo, no existe simetría.
Tal es el caso por ejemplo, del primer momento respecto de X , el cual siempre es
nulo exista o no simetría, y por ejemplo el de los siguientes datos:
{0,0,0,0,6,6,6,6,6,10}, en donde no existe simetría y sin embargo al calcular el
tercer momento respecto de X , se obtiene:
(0 4) 3 4 + ( 6 - 4) 3 5 + (10 - 4) 3
X = 4 , m3 =
=0
10
Conclusiones De las cuatro propiedades anteriores, se pueden obtener las
siguientes conclusiones:
1°) Si existe simetría se verifica: X = Med , y además todos los momentos de
orden impar respecto de X nulos.
El hecho de que se verifique alguna de estas propiedades no garantiza la simetría.
La única manera de verificar la simetría es aplicar la definición, y analizar si entre
los datos menores que X y los mayores que X existe una correspondencia uno a
uno, de manera para cada dato menor que X exista otro mayor que X igualmente
desviado en forma absoluta con relación a X .
2°) Si alguna de estas propiedades no se verifica, se llega a la conclusión de que
los datos no son simétricos, es decir.
X Med
No existe simetría.
m r 0 para algún “r” impar
No existe simetría.
Ejemplo 4 Se tienen cuatro datos simétricos respecto del valor 8. Si el rango de
los datos es 14, y la varianza 37, determine los cuatro datos.
Solución: X =8 por simetría, y su distancia a los datos extremos es la mitad del
rango, es decir 7.
Por tanto, los datos extremos son : x1 = 8 -7 = 1 y x4 = 8+7 = 15.
Falta determinar los dos datos centrales x2 y x3, pero como son simétricos
respecto del valor 8, sus desvíos absolutos son iguales.
Por simetría: x2 = 8 – d , x3 = 8 +d, y como la varianza es 37 se obtiene:
2
(1 8) 2 ( x 2 8) 2 ( x 3 8) 2 (15 8) 2 49 d2 d2 49
=
=
= 37
4
4
10
Medidas de Deformación
Angel Francisco Arvelo L.
2
2
Por lo tanto: 98 + 2d = 148
d = 25
d= 5 .
En consecuencia: x2 = 8 – 5 = 3 ,y x3 = 8 +5 = 13.
Los cuatro datos buscados son entonces { 1 , 3 , 13 , 15 }
3 Medidas de deformación : Cuando un conjunto de datos no es simétrico,
se dice que es “deforme o sesgado”, y el objetivo de estas medidas es analizar su
grado de deformidad.
Un problema que van a confrontar estas medidas es que el grado de deformidad
de un conjunto de datos es un concepto algo subjetivo, y por ello difícil de medir
de manera precisa.
En las medidas de dispersión ocurre que cuando los datos son todos iguales,
todas ellas se anulan, y viceversa cuando cualquiera de las medidas de dispersión
se anula, la conclusión es que todos los datos son iguales.
Con las medidas de deformación no va a ocurrir esta circunstancia, y por lo tanto
cuando exista simetría se anulan, pero el hecho de que se anule alguna de ellas
no garantiza la simetría.
Las principales medidas de deformación son:
1°) Coeficientes de sesgo o de asimetría: Estas medidas propuestas por Carl
Pearson son exclusivas para distribuciones unimodales, y se fundamentan en la
coincidencia entre moda, mediana y media cuando la distribución es simétrica.
También reciben el nombre de “Coeficientes de asimetría de Pearson”.
X Moda
1er coeficiente de sesgo de Pearson ó Sesgo1 = S.K1=
2° coeficiente de sesgo de Pearson = S.K2=
3 (X Med)
Aunque estos dos coeficientes son números reales sin unidades, cuyo valor
numérico es prácticamente igual como consecuencia de la relación empírica
X - Moda 3 ( X - Med), su interpretación es diferente.
El primer coeficiente representa la distancia relativa entre la media y la moda
expresada en términos de la desviación típica; y así por ejemplo, si su valor es 0,5,
esto significa que la media se encuentra a la derecha de la moda, a 0,5
desviaciones típicas de ella.
El signo del primer coeficiente indica si la media está a la derecha o a la izquierda
de la moda, según sea positivo o negativo respectivamente.
Cuando es positivo, se dice que la curva de frecuencias está sesgada hacia la
derecha es decir, que la cola a la derecha de la moda es más larga que la cola a
su izquierda; mientras que cuando el signo es negativo, se dice que está sesgada
hacia la izquierda, lo que se interpreta como la cola a la izquierda de la moda más
larga que a su derecha.
1
La abreviatura S.K viene del inglés “Skewness” que se traduce como “Sesgo”.
11
Medidas de Deformación
Angel Francisco Arvelo L.
El segundo coeficiente de sesgo, expresa la posición de la media con relación a la
mediana, de manera que cuando resulta positivo indica que la media es mayor
que la mediana, y que por lo tanto más del 50% de los datos son menores que la
media; mientras que cuando resulta negativo, señala que la media es menor que
la mediana, y que más del 50% de los datos son mayores que la media, tal como
puede apreciarse en la siguiente figura:
Sesgo > 0
Menos del 50 % de datos mayores que X .
Sesgo < 0
Mas del 50 % de datos mayores que X
2°) El coeficiente momento de sesgo. Debido a que todos los momentos
impares respecto de la media se anulan en una distribución simétrica, otra medida
importante de deformación propuesta por Fisher, es el
tercer momento
m3
adimensional respecto de la media dado por:
a3 = 3 .
El primer momento respecto de la media siempre se anula aunque no exista
simetría, y por ello no sirve para medir deformación. De allí que se tome el tercero,
que es el siguiente impar, para definir a este coeficiente.
3
Se divide entre
para obtener una cifra relativa sin unidades, que permita
comparar grados de deformidad entre conjuntos de datos de distintas unidades.
Cuando a3 >0, los desvíos a la derecha de X predominan sobre los desvíos a su
izquierda, mientras que cuando a3 < 0 es justamente lo contrario.
Cuando a3= 0 , puede ser que exista simetría, pero no puede garantizarse.
b1 = a 3 , que es
Algunos textos utilizan la nomenclatura: b1 a23 , y otros g1
una medida del grado de deformación, sin indicar en cual dirección.
12
Medidas de Deformación
Angel Francisco Arvelo L.
3°) El Coeficiente de sesgo cuartílico: En una distribución simétrica, el primero y
el tercer cuartil son simétricos respecto del segundo o mediana, y por lo tanto
debe verificarse: Q3 – Q2 = Q2 – Q1.
De allí que A. L. Bowley haya propuesto como medida de deformación al siguiente
(Q 3 Q 2 ) (Q 2 Q 1 )
Q 3 2 Q 2 Q1
coeficiente adimensional: gQ =
=
.
(Q 3 Q 2 ) (Q 2 Q 1 )
Q 3 Q1
Su valor esta siempre comprendido entre –1 y +1. Cuando resulta positivo, se
interpreta que la distancia del segundo cuartil al tercero es mayor que del segundo
al primero, y cuando resulta negativo que es menor.
Según Bowley, cuando la asimetría es leve este coeficiente debe estar entre –0,10
y + 0,10 , mientras que valores absolutos de 0,30 ó más, reflejan una fuerte
asimetría.
Los casos extremos +1 ó -1 revelan una asimetría tan fuerte que el primero o el
tercer cuartil coincide con la mediana respectivamente.
4°) El coeficiente de sesgo percentílico 10-90: En forma análoga al anterior,
puede decirse que en una distribución simétrica, la distancia desde la mediana o
percentil 50 hasta el percentil 90, debe ser igual a la distancia hasta el percentil
10, y por lo tanto para distribuciones simétricas: P90 – P50 = P50 – P10.
(P90 P50 ) (P50 P10 )
P
2 P50 P10
gP=
= 90
(P90 P50 ) (P50 P10 )
P90 P10
Al igual que el anterior, es un coeficiente adimensional, cuyo valor oscila entre
–1 y +1, y que debe anularse para distribuciones simétricas.
Ejemplo 5 Los siguientes datos corresponden al área de un conjunto de
apartamentos expresada en metros cuadrados.
Area
Frecuencia
40 a 60
Area
Frecuencia
< 60
< 80
< 100
< 120
< 140
< 160
< 180
< 200
38
192
398
500
572
593
599
600
60 a 80
80 a 100
100 a 120
120 a 140
140 a 160
160 a 180
180 a 200
38
154
206
102
72
21
6
1
Calcular los coeficientes de sesgo, el coeficiente momento de sesgo, y los
coeficientes cuartílico y percentílico de sesgo.
Solución : Se comienza calculando la media, la mediana , la moda, percentiles y
cuartiles, para lo que se necesita la tabla acumulada de frecuencias:
10
100
P10 = 60 +
Q1 = 60 +
1
4
600 - 38
154
600 - 38
154
1
2
20 = 62,86 ;
20 = 74,55 ;
600 - 192
P90 = 120 +
Q3 = 100 +
20 = 90,49 ;
206
206 - 154
Moda = 80 +
20 = 86,58
(206 - 154) + (206 - 102)
Q2 = Med = 80 +
90
100
3
4
600 - 500
72
600 - 398
102
20 = 131,11
20 = 110,20
Medidas de Deformación
Angel Francisco Arvelo L.
13
A continuación , se calculan los momentos.
2
3
Area
fi
( L*i ) fi
L*i
( L*i ) fi
( L*i ) fi
40 - 60
38
50
1.900
95.000
4.750.000
60 - 80
154
70
10.780
754.600
52.822.000
80 - 100
206
90
18.540
1.668.600 150.174.000
100 - 120
102
110
11.220
1.234.200 135.762.000
120 - 140
72
130
9.360
1.216.800 158.184.000
140 - 160
21
150
3.150
472.500
70.875.000
160 - 180
6
170
1.020
173.400
29.478.000
180 - 200
1
190
190
36.100
6.859.000
Sumatoria
600
56.160
5.651.200 608.904.000
2
2
56.160
5.651200
.
X=
= 93,60 ;
=
- (93,60 ) = 657,71
= 25,65
600
600
Para calcular el tercer momento respecto de X , resulta más cómodo aplicar la
identidad ya demostrada, según la cual :
m3 = X 3 3 X 2 X 2 ( X ) 3
3
608.904.000
5.651200
.
m3 =
-3
( 93,60 ) + 2 (93,60) = 10.130,11
600
600
Una vez hechos estos cálculos, se procede a determinar las diferentes medidas de
deformación.
93,60 86,58
1° coeficiente de Pearson = S.K1 =
= 0,27
25,65
3 (93,60 90,49)
2° coeficiente de Pearson = S.K2 =
= 0,36
25,65
10.130,11
Coeficiente momento de sesgo = a3 =
= 0,60
(25,65) 3
110,20 - 2 ( 90,49 ) + 74,55
Coeficiente cuartílico de sesgo = gQ =
= 0,13
110,20 74,55
131,11- 2 ( 90,49 ) + 62,86
Coeficiente percentílico de sesgo = gP =
= 0,19
131,11 62,86
Todas las medidas de asimetría resultan positivas, por lo que evidentemente se
trata de una distribución sesgada hacia la derecha, en donde más de la mitad de
los datos son menores que la media.
Comentarios con relación a las medidas de deformación : Es importante hacer
las siguientes advertencias con relación a las diferentes medidas de deformación
propuestas anteriormente:
a) Como cada una de ellas mide la deformidad desde puntos de vista diferentes,
estas medidas no son comparables.
Por lo general, cuando la distribución es marcadamente asimétrica en cualquiera
de los dos sentidos, los signos de las diferentes medidas de deformación
Medidas de Deformación
Angel Francisco Arvelo L.
14
coinciden, pero cuando es el grado de deformidad es leve, ocurre en muchos
casos que algunas de las medidas resultan positivas y otras negativas.
b) Por lo explicado en la sección 2, no debe olvidarse que la implicación:
Simetría
Medida de deformación = 0
es en un solo sentido, y que su reciproco no es cierto.
Por lo tanto, no es válido concluir que si una medida de deformación resulta dar
cero, entonces la distribución es simétrica.
La única conclusión válida, es que si la medida de deformación no se anula,
entonces la distribución no es simétrica.
Para demostrar la simetría hay que verificar que se cumple la definición, dada en
la sección 2.
Toda esta confusión que se presenta alrededor de las medidas de deformación es
producto, de que si bien es cierto que la noción de simetría es clara y definida, no
lo es tanto la de grado o intensidad de la asimetría, ya que algunos casos
podemos referirnos al grado de asimetría respecto de la media, en otros con
respecto a la mediana, etc.
4 Gráficos de Caja: En el Capítulo anteriores, se estudió el “Gráfico de tallo y
hoja” desarrollado por el estadístico John Tukey en su trabajo “ Exploratory Data
Analysis”.
El “Gráfico de caja” denominado por algunos autores “Box and whiskers Plot”, es
decir gráfico de caja y bigotes, es también una nueva técnica del “Análisis
Exploratorio de datos”, y constituye una novedosa manera de representar los
datos, en donde se puede ver, entre otras cosas si existe o no simetría.
Para construirlo es necesario calcular los siguientes valores:
La mediana.
El “cuarto” inferior y el “cuarto” superior.
El límite inferior y el límite superior.
El término “cuarto” viene de una traducción del inglés “hinge” (bisagra) o también
“fourths”, y corresponde aproximadamente a “cuartil”; de manera que el “cuarto”
inferior es aproximadamente “el primer cuartil” y el “cuarto” superior el tercer
cuartil. Algunos autores también los llaman “goznes”.
Estos “cuartos” se designan por Hi el inferior, y por Hs el superior, y la forma de
calcularlos exactamente, se dejará como tema de investigación para el lector.
Siempre que no existan valores atípicos o fuera de escala, el límite inferior es el
menor valor de los datos y se designa por Li; mientras que el límite superior es el
mayor valor de los datos, y se designa por Ls.
Una vez calculados estos valores, se procede a construir el gráfico, tal como se
explica en el siguiente ejemplo:
Ejemplo 6 : Representar en un diagrama de caja, las calificaciones obtenidas por
un grupo de estudiantes en un examen de ingreso a la Universidad, en una escala
sobre100 puntos.
34 56 78 45 86 67 76 80 52 71 68 55 54 66 71 77 59 70 64 62
54 73 93 55 68 77 80 61 44 57 62 79 82 66 56 43 60 73 71 64
49 60 51 66 70 74 63 55 60 78 76 64 69 47 51 53 76 67 60 56
15
Medidas de Deformación
Angel Francisco Arvelo L.
50
59
54
78
56
67
54
54
62
71
56
60
54
39
76
67
64
65
72
73
56
57
59
58
79
65
81
53
65
61
57
56
76
70
73
61
73
82
75
89
68
76
69
77
78
66
73
53
77
88
40
44
60
80
72
80
74
63
63
37
63
94
64
47
74
49
80
65
56
88
76
71
56
62
74
87
61
80
68
70
90
32
72
70
70
59
84
77
87
64
47
62
66
54
68
67
46
65
56
75
65
53
55
70
76
55
90
68
73
78
55
75
58
57
53
71
46
53
59
70
66
47
60
76
54
62
46
64
51
45
55
67
79
52
59
66
71
51
72
54
Solución: Al calcular la mediana, los “cuartos” y los límites, se obtiene:
Med= 65 , Hi= 56 , Hs = 73 , Li = 32 , Ls= 94
Los datos comprendidos entre el cuarto inferior y el superior quedan
empaquetados dentro de la caja, la que a su vez queda dividida en dos partes por
la línea gruesa interior que representa a la mediana.
El ancho de la caja no tiene ninguna interpretación, y su altura es
aproximadamente el rango intercuartil, o longitud del intervalo 50% central.
Los brazos o colas de la caja representan la distancia entre el menor de los datos
y el cuarto inferior, y entre el cuarto superior y el mayor de los datos.
El eje horizontal no tiene significado alguno, y solo se usa se usa para señalar
categorías en caso de que existan más de una.
En este ejemplo hay una sola categoría, pero es posible que existan dos o más,
como sería por ejemplo el caso en que los alumnos que presentaron este examen
de admisión sean clasificados por sexo, o por zona de procedencia, etc., y se
quiera hacer una comparación entre las calificaciones obtenidas por estos grupos.
En estos casos, el gráfico se llama “Gráfico de Cajas Múltiples”, y será analizado
más adelante, en un próximo capitulo.
16
Medidas de Deformación
Angel Francisco Arvelo L.
Cuando existe simetría en los datos, la mediana divide a la caja en dos partes
iguales, y la longitud de los dos brazos o colas del diagrama son iguales.
Cuando en el conjunto de datos existen valores atípicos o fuera de escala, sobre
los cuales podría pensarse que existe algún error de medición o de transcripción,
el gráfico de caja suele representarlo aparte, y lo designa como “outside” (lejano) o
“far outside” (muy lejano), según se encuentre fuera de la ”cerca interna” o de la
“cerca externa” respectivamente.
La forma como se calculan estas “cercas”, se deja como tema de investigación
para el lector.
En el caso de existir valores atípicos, los brazos de la caja van desde el “cuarto”
hasta el último valor dentro de la cerca interna, el cual se denomina “valor
adyacente”, y estos valores atípicos aparecen señalados con símbolos especiales,
para alertar que se trata de valores lejanos, o muy lejanos.
5 Medidas de Apuntamiento: Cuando se tiene un conjunto de datos, resulta
muy importante verificar si su comportamiento sigue una “Distribución Normal” ,
pues sobre esta hipótesis de normalidad se apoya la validez de muchos
procedimientos, utilizados principalmente en “Inferencia Estadística” .
A lo largo de este capítulo y también de los precedentes, hemos visto diversas
propiedades descriptivas de la curva normal, tales como la simetría, el porcentaje
de datos comprendido en los intervalos μ
, μ 2 , etc.
2
2
Otra propiedad de la curva normal es: m4= 3 m2 ,
i n
(Xi
m4 = Cuarto momento respecto de la media =
X) 4
i 1
n
i n
(X i
m2 =
2
= Segundo momento respecto de la media o Varianza =
X) 2
i 1
n
Basado en esta propiedad, surgió la idea de tomar al cuarto momento
m
adimensional respecto de la media, definido por : a 4 = 42 como una medida de
m2
la normalidad para los datos, pues en ese caso debería verificarse a 4 = 3 .
A este coeficiente a4 se le dio el nombre de “coeficiente momento de curtosis” ,
se aplica exclusivamente a distribuciones unimodales, y lo que hace es comparar
la frecuencia de los valores centrales en la distribución considerada, con la
frecuencia que debería tener una distribución normal con igual media e igual
varianza en la misma zona, de manera que si a 4 > 3 , esto podría interpretarse
como una mayor concentración de los datos en su zona central, por lo tanto la
curva de frecuencias resultante es más puntiaguda que la curva normal; mientras
que cuando a4 < 3 ocurre justamente lo contrario, existe una menor concentración
2
Ver la demostración N° 4 del Anexo.
Medidas de Deformación
Angel Francisco Arvelo L.
17
en la zona central, y la curva de frecuencias es mas aplastada que la curva
normal.
El término “curtosis” es derivado de la arquitectura griega, y se utilizaba para
comparar la esbeltez de una columna con otra que servía de patrón o de
referencia que era llamada “cúrtica”; de manera que si la columna en cuestión era
más esbelta que aquella, se llamaba “ leptocúrtica”, y si no era , se llamaba
“planticúrtica”.
De la misma manera, en Estadística, la curva normal es una referencia para las
demás curvas de frecuencia, y cuando ésta resulta igual de puntiaguda que la
normal se denomina ”mesocúrtica”, más puntiaguda que la normal se le llama
“leptocúrtica”, y cuando resulta mas achatada “planticúrtica”, tal como puede
apreciarse en la siguiente figura:
Para no tener que recordar el valor 3 como referencia para la curva normal ,
algunos autores sugieren el uso del coeficiente de curtosis definido como:
g2 = a4 - 3
de manera que g2 > 0 para curvas leptocúrticas , g2 < 0 para planticúrticas , y
g2 = 0 para mesocúrticas.
Otra medida de apuntamiento, es el coeficiente percentílico de curtosis dado por:
1
(Q 3 Q 1 )
2
=
P90 P10
La siguiente gráfica interpreta esta medida:
Cuando la distribución tiene la mayoría de sus observaciones concentradas en el
centro, la curva de frecuencias es muy puntiaguda, el rango intercuartílico Q 3 –Q1
18
Medidas de Deformación
Angel Francisco Arvelo L.
y el percentílico P90 – P10
tienden a ser casi iguales , la relación
Q 3 Q1
P90 P10
aproximadamente igual a 1, y por lo tanto” ” ligeramente menor que 0,5.
Por el contrario, cuando la curva es aplastada, el rango percentílico P 90 – P10 es
considerablemente mayor que el rango cuartílico Q3 –Q1 , y por tanto la relación
Q 3 Q1
es cercana a cero.
P90 P10
Puede demostrarse3 mediante el uso de las tablas normales que se estudiaran
posteriormente, que para la curva normal = 0,2630, que es aproximadamente la
media entre los valores extremos 0 y 0,5 , y de allí que:
Para curvas leptocúrticas:
> 0,2630
Para curvas mesocúrticas:
= 0,2630
Para curvas planticúrticas:
< 0,2630
1
En la fórmula de “ “ se toma 2 (Q 3 Q 1 ) también llamado “rango semi-intercuartil”
y no directamente el rango intercuartil Q3 –Q1 , pues no necesariamente la
distribución es simétrica, y esta es una manera de promediar las distancias Q3 –Q2
y Q2 –Q1 .
Ejemplo 7 : Calcularle el coeficiente momento de curtosis y el coeficiente
percentilico de curtosis , a los datos del Ejercicio 5 .
Solución: Como se trata de datos agrupados, el cuarto momento respecto de la
i k
(L*i
media debe ser calculado a través de la expresión:
m4
X ) 4 fi
i 1
, que a
i k
fi
i 1
su vez resulta más sencillo de calcular en función de sus momentos respecto al
origen, según lo explicado en la sección 8.1
m4 = X 4 4 X 3 X 6 X 2 ( X ) 2 3 ( X ) 4
En los cálculos hechos en el ejemplo 8.5, se encontró:
608.904.000
5.651200
.
X3 =
= 1.014.840 ; X 2 =
= 9.418,67 ; X = 93,60
600
600
i k
(L*i ) 4 fi
Sólo falta hallar:
X4 =
i 1
, para lo cual hay que añadir a la tabla una
i k
fi
i 1
4
nueva columna con los valores de ( L*i ) fi :
3
Ver Demostración N°4 del Anexo.
19
Medidas de Deformación
Angel Francisco Arvelo L.
Area
fi
40 - 60
60 - 80
80 - 100
100 - 120
120 - 140
140 - 160
160 - 180
180 - 200
Sumatoria
38
154
206
102
72
21
6
1
600
L*i
50
70
90
110
130
150
170
190
4
( L*i ) fi
237.500.000
3.697.540.000
13.515.660.000
14.933.820.000
20.563.920.000
10.631.250.000
5.011.260.000
1.303.210.000
69.894.160.000
69.894.160.000
= 116.490.266, 7
600
2
Sustituyendo se obtiene : m4 = 1.370.457,00 , y dado que
= 657,71 , se
1.370.457,00
obtiene que: a4 =
= 3,17 , lo que significa que la curva de
(657,71) 2
frecuencia correspondiente a estos datos es ligeramente más puntiaguda que una
curva normal de igual media e igual varianza, debido a que presenta una mayor
concentración de datos en su zona central, en comparación con la curva normal,
tal como puede apreciarse en el histograma correspondiente:
De donde : X 4 =
400
Frecuencia
300
200
100
0
50,0
75,0
100,0
125,0
150,0
175,0
200,0
Area de los Apartamentos
En este gráfico puede apreciarse que la distribución a pesar de tener igual media e
igual varianza que una normal, presenta mayor frecuencia que aquella, tanto en la
zona central como en las zonas extremas, y una menor frecuencia en las zonas
intermedias.
Las zonas extremas tienen mayor influencia en el cálculo de a4 , pues sus desvíos
aparecen elevados a la cuarta potencia, y de allí a4 > 3 .
20
Medidas de Deformación
Angel Francisco Arvelo L.
En cuanto al coeficiente percentílico de curtosis, según los cálculos del ejemplo
8.5 , se tiene: P10 = = 62,86 ; P90 = = 131,11 ; Q1 = 74,55 ; Q3 = = 110,20
1
(110,20 74,55)
2
=
= 0,2612 < 0,263
13111
,
62,86
En este ejemplo, se confirman los comentarios hechos con relación a la
subjetividad de estas medidas, pues por un lado la curva resulta ligeramente
leptocúrtica, y por el otro ligeramente planticúrtica .
La contradicción se debe a que se está midiendo el grado de apuntamiento desde
dos puntos de vista diferentes.
En casos como este, en donde existen dudas acerca de la normalidad de los
datos, hay que recurrir a las llamadas pruebas de bondad del ajuste, que se
estudian en Inferencia Estadística.
EJERCICIOS RESUELTOS
Ejemplo 8 La siguiente distribución de frecuencias, representa la duración de las
llamadas telefónicas hechas desde una oficina
Minutos
0a2
2a4
4a6
6a8
8 a 10
10 a 12 12 a 14
Frecuencia
48
77
37
22
10
4
2
Determine los coeficientes de asimetría y de apuntamiento. Comente los
resultados.
Solución: Es conveniente organizar los cálculos en la siguiente tabla:
Clase
fi
0a2
2a4
4a6
6a8
8 a 10
10 a 12
12 a 14
Sumatoria
48
77
37
22
10
4
2
200
L*i
1
3
5
7
9
11
13
( L*i ) fi
48
231
185
154
90
44
26
778
2
( L*i ) fi
48
693
925
1078
810
484
338
4376
3
( L*i ) fi
48
2079
4625
7546
7290
5324
4394
31306
Los diferentes momentos respecto al origen son:
778
4376
X2 =
= 3.89
;
= 21.88 ;
X =
200
200
31306
263528
X3
X4
= 156.53
;
=1317.64
200
200
Los momentos respecto de la media resultan:
2
2
2
= m2 = X 2 - X = 21.88 – ( 3.89) = 6.75
m3 = X 3
m4 = X 4
3
3 X 2 X 2 ( X ) 3 = 156.53 – 3 (21.88) ( 3.89) + 2 (3.89) = 18.92
4 X 3 X 6 X 2 ( X )2
3 ( X ) 4 = 181.63
4
( L*i ) fi
48
6237
23125
52822
65610
58564
57122
263528
21
Medidas de Deformación
Angel Francisco Arvelo L.
y por lo tanto: a3 =
18.92
= 1.08 ; a4 =
18163
.
= 3.99
(6.75) 2
( 6.75 )
Por el resultado a3 =1.08 , se puede concluir que se trata de una distribución
fuertemente sesgada hacia la derecha, tal como puede verse en su
correspondiente polígono de frecuencias:
3
Poligono de Frecuencias
80
Frecuencia
60
40
20
0
0
2
4
6
8
10
12
14
16
Duracion de las llamadas
En cuanto a los demás coeficientes, se tiene:
Moda = 2+
77 48
2 = 2.84
(77 48) (77 37)
200
48
Mediana = 2 + 2
2 = 3.35
77
200
3
48
200 125
4
Q1= 2 +
. 2 = 2.05
Q3= 4 + 4
2 = 5.35
37
77
10
90
200 162
200
100
100
P10=
. 2 = 0.83
P90= 6+
. 2 = 7.64
22
48
3.89 2.84
X Moda
S.K1=
=
= 0.40 > 0 Sesgada hacia la derecha
S
6.75
3 (3.89 3.35)
3 ( X Med)
S.K2=
=
= 0.62 > 0
S
6.75
Por tanto, mas del 50 % de las llamadas duran menos de X = 3.89
Q 3 2 Q 2 Q1
5.35 2 (3.35) 2.05
gQ =
=
= 0,21 > 0
Q 3 Q1
5.35 2.05
P
2 P50 P10 7.64 2(3.35) 0.83
gP= 90
=
= 0.26 > 0
P90 P10
7.64 0.83
Medidas de Deformación
Angel Francisco Arvelo L.
22
En ambos casos, los coeficientes de Bowley resultan positivos, lo que revela una
asimetría hacia la derecha.
El coeficiente percentílico de curtosis resulta:
1
1
(Q 3 Q 1 )
(5.35 2.05)
2
2
=
=
= 0,2423
P90 P10
7.64 0.83
No es posible llegar a una conclusión definitiva acerca de la esbeltez de la curva
de frecuencia, pues a4 > 3 y < 0,263 .
Ejemplo 9: De un conjunto de datos se sabe que la mediana es 12 , el segundo
coeficiente de asimetría de Pearson es 1,5 , y la desviación típica 2.
a)¿ Puede ser simétrica esta distribución? .
b)¿ Cual es su media ? .
c) ¿A qué conclusión se puede llegar, acerca del porcentaje de datos que son
mayores que la media ? .
Solución : a) Cuando en una distribución existe simetría, todas las medidas de
deformación deben anularse, y dado que en este caso una de ellas como lo es
S.K2 0, se concluye que esta distribución no puede ser simétrica.
3 ( X Med)
b) Para hallar X , basta con despejarla de la expresión: S.K 2=
, de
S
S (S.K 2 )
2 (1,5)
donde se obtiene : X = Med +
= 12 +
= 13
3
3
c) La distribución es sesgada hacia la derecha pues X > Med , y por lo tanto
menos del 50% de los datos son mayores que X .
Ejemplo 10 Analice si en los datos {1 , 1 , 2 , 2, 2 , 3, 3 ,3, 4, 4} existe o no
simetría .
Solución : Se cumple X = Med = 2,50 ; sin embargo, esto no garantiza la simetría.
Hay que aplicar la definición, a ver si se cumplen las dos condiciones de simetría:
La primera condición se cumple, pues existen cinco datos menores que 2,5, y
también cinco mayores que 2,5.
Para cada dato menor que 2,5 existe otro mayor que 2,5 , con el mismo desvío
absoluto, y por tanto se cumple la segunda condición.
En conclusión, el conjunto es simétrico con respecto al valor 2,5.
Ejemplo 11: De una distribución simétrica de frecuencias para 200 datos, en cinco
intervalos de clase con igual amplitud, se tiene la siguiente información:
Rango = 50
Mediana = 75
Frecuencia del tercer intervalo doble de frecuencia del segundo, y ésta a su vez
doble del primero.
a) Construya la tabla de frecuencias.
b) ¿Qué porcentaje de los datos cae en el intervalo X ± ?
c) Si se eliminaran los datos inferiores al percentil 15, y los superiores al percentil
92 , ¿ cual sería la media de los datos resultantes ? .
23
Medidas de Deformación
Angel Francisco Arvelo L.
Solución: Por simetría se tiene f2 = f4 , y f5 = f1 , y según las condiciones del
problema : f3 = 2 f2 , y f2 = 2f1 .
Además f1 + f2 + f3 + f4 + f5 = 200
f1 +2 f1 +2(2 f1)+ 2f1 + f1 = 200
10 f1 = 200
f1 = 20
f2 = 40 y f3 = 80 .
No se conocen los límites de clase, ni la amplitud.
Sea : L= Límite Real inferior de la primera clase, y c = Amplitud
La distribución de frecuencias es entonces:
L a L +c
L+ c a L + 2c L+2c a L + 3c L+3c a L + 4c L+4c a L + 5c
Clase
Frecuencia
20
40
80
40
20
Acumulada
20
60
140
180
200
Rango = L + 5c – L = 5c = 50
c = 10
1
200 60
Med = L +2c + 2
c = L + 2,5 c = 75
L = 75 – 2,5 (10) = 50
80
La distribución de frecuencias es por consiguiente:
50 a 60
60 a 70
70 a 80
80 a 90
90 a 100
Clase
Frecuencia
20
40
80
40
20
Por simetría X = 75, y al hacer los demás cálculos, se obtiene:
= 10,95 ,
P15 = 62,50 y P92 = 92,00
Para hallar el porcentaje de datos comprendido en el intervalo X ± S , que
corresponde a 75,00 ± 10,95 = [ 64,05 ; 85,95] , se determina el porcentaje de
datos por debajo de cada límite, encontrándose:
100
85,95 80
140
10 = 81,90 %
p2 = % por debajo de 85,95 =
200
40
FG
H
100 F
= % por debajo de 64,05 =
G 20
200 H
IJ
K
IJ
K
64,05 60
10 = 18,10 %
40
En el intervalo [ 64,05 ; 85,95] se encuentran 81,90% - 18,10% = 63,80 % .
Si se eliminan os datos inferiores a P15 = 62,50 y los superiores a P92 = 92,00 ,
los intervalos de 60 a 70 y de 90 a 100 resultan truncados, y hay que hallar la
frecuencia proporcional que les corresponde.
70 62,50
40 = 30
Al intervalo 62,50 a 70 le corresponde una frecuencia de :
10
92 90
20 = 4
Y a 90 a 92 una frecuencia de :
10
La distribución recortada resultante es :
Clase
62,50 a 70
70 a 80
80 a 90
90 a 92
Frecuencia
30
80
40
4
62,50 70
92 90
30 75(80) 85(40)
4
2
2
cuya media es: X 15 92
= 76,31 .
30 80 40 4
p1
Ejemplo 12: Se tienen dos distribuciones de frecuencia, de las cuales se tiene la
siguiente información:
24
Medidas de Deformación
Angel Francisco Arvelo L.
Segundo momento respecto de la media: 9 y 16
Tercer momento respecto de la media: -8.1 y - 12.8.
¿Cuál de las dos presenta una mayor asimetría? .
Solución : A partir del segundo y tercer momento respecto de la media, se puede
m3
m
calcular el coeficiente momento de sesgo, pues : a3 = 33 =
.
(m 2 ) 3
Para la primera distribución se tiene : a3 =
Para la segunda distribución se tiene : a3 =
8,1
(9) 3
= -0,30 .
12,8
= -0,20 .
(16) 3
Ambas distribuciones son sesgadas hacia la izquierda, pero la primera presenta
un mayor grado de deformidad, pues el valor absoluto de su coeficiente momento
de sesgo es mayor.
Ejemplo 13: Hallar el coeficiente cuartílico de sesgo para los siguientes datos sin
agrupar: 1 , 3 , 5 , 5 , 11 , 12 , 12 , 15 . Interprete el resultado.
Solución: Los datos se encuentran ya ordenados de menor a mayor , y como son
12 12
3 5
5 11
ocho, Q1 =
= 4 ; Q2 =Med =
= 8 y Q3 =
= 12
2
2
2
Q 3 2 Q 2 Q1
12 2 (8) 4
gQ =
=
= 0
Q 3 Q1
12 4
Por el resultado, se podría pensar que existe simetría, pero al aplicar la definición,
encontramos que en realidad no lo es , pues no cumple la segunda condición.
Ejemplo 14: Hallar el sesgo o 1er coeficiente de sesgo de Pearson para los
siguientes datos sin agrupar: { 2 , 5 , 9 , 9 , 9 , 20 } . Interprete el resultado.
Solución: Para estos datos: X = 9 , Moda = 9 , S = 5.57
9 9
X Moda
Sesgo = S.K1=
=
=0
5.57
Sin embargo, no existe simetría al no verificarse ninguna de las dos condiciones.
Preguntas de Revisión
1°) ¿Puede una distribución bimodal ser simétrica? . Si su respuesta es positiva de
un ejemplo, y si es negativa justifíquela.
2°) ¿Es posible que alguno de los momentos de orden par, respecto de cualquier
origen de trabajo sea negativo?
3°) Si todos los datos son iguales, ¿qué ocurre con las diferentes medidas de
deformación y apuntamiento?.
Medidas de Deformación
Angel Francisco Arvelo L.
25
4°) ¿Por qué se toma al tercer momento adimensional respecto de la media, como
medida de asimetría?
5°) Analice si al multiplicar un conjunto de datos por una constante, se alteran los
coeficientes momento de sesgo, y de curtosis. ¿Se alteran esos mismos
coeficientes, si los datos se someten a una transformación lineal? .
6°) ¿En qué caso, los coeficientes de asimetría de Bowley no pueden ser
calculados, y por lo tanto no existen? . En caso de existir, ¿entre qué valores
pueden variar?.
7°) ¿Puede garantizarse la simetría, cuando una de las medidas de deformación
se anula?. Justifique su respuesta.
8°) ¿Cual es la diferencia entre escribir X r y ( X)r ?.
9°) ¿Para qué se utilizan los momentos de orden impar respecto de la media? .
10°) ¿En qué casos los coeficientes de asimetría de Pearson no existen?.
11°) Obtenga una expresión para el tercer momento respecto de un origen de
trabajo “A”, m 3,A ( X A ) 3 , en función de los tres primeros momentos respecto
del origen, y en función de los tres primeros momentos respecto de la media.
12°) ¿ A qué conclusión puede llegarse si en una distribución, los momentos
respecto de la media son iguales a los momentos respecto del origen? .
13°) ¿Qué puede decirse de una distribución cuyo cuarto momento respecto de la
media sea nulo? .
14°) Si en una distribución, más del 50% de los datos son menores que su media,
¿qué tipo de deformación presenta? .
15°) En una distribución que sólo presente dos valores, ¿qué condición debe
cumplirse para que sea simétrica?. ¿Cuál es el eje de simetría?.
16°) Si se tienen dos distribuciones con segundo coeficiente de sesgo S.K 2,
ambos negativos, pero diferentes. ¿ En cual de las dos existe un menor porcentaje
de datos inferiores que la media?.
17°) ¿ En qué caso el coeficiente percentílico de curtosis no existe? . En caso de
existir, ¿ entre qué valores puede variar?.
Medidas de Deformación
Angel Francisco Arvelo L.
26
18°) Suponga que en la siguiente distribución, que solo presenta dos valores:
Xi x1 x2
se encuentra S.K2 = 0 .
fi f1 f2
¿ Se puede concluir que es simétrica? .
19°) Suponga que en una distribución, una de las medidas de deformación se
anula y otra no. ¿Existe duda acerca de su simetría?.
Temas complementarios para investigar
1°) Investigue la forma exacta de construir un “Gráfico de Caja”. ¿Qué significa el
término “Profundidad de un dato”? . ¿Qué son los valores letra?. ¿ Como se hallan
“los cuartos” , las “cercas internas y externas”, etc.?.
2°) Investigue acerca de las correcciones de Sheppard, su fundamento, y las
fórmulas para corregir el cálculo de los momentos en el caso de datos agrupados.
3°) Investigue acerca de los métodos abreviados para calcular los diferentes
momentos de una distribución, en especial cuando se trata de datos agrupados.
Investigue el fundamento teórico de estos métodos, y aplíquelos en el cálculo de
a3 y a4 , en los ejercicios 8.5 , 8.7 y 8.8 .
Problemas Propuestos
I. Nivel Elemental
15) Dado el conjunto de datos {2,3,7,8,10} . Halle sus cuatro primeros momentos
respecto de: a) el origen . b) la media . c) el número 4 . Analice si existe simetría.
Solución: a) 6, 45.2 , 378 y 3318.8 b) 0 , 9.2 , -3.6 y 122 . c) 2 , 13.2 , 59.6 y 330
8.16) Encuentre la media de un conjunto de datos, sabiendo que el primer momento
respecto del número 4 es 12.
Solución: X = 16
16) La siguiente distribución, representa el número de inasistencias durante un año,
para los empleados de una empresa:
Intervalo
0a4
5a9
10 a 14
15 a 19
20 a 24
25 a 29
frecuencia
5
10
8
1
0
1
Calcule los coeficientes momento de asimetría y de curtosis.
Solución: a3 = 1.3 a4 = 5.6
17) La siguiente distribución, representa el número de aparatos de T.V en una
encuesta entre viviendas. Use métodos abreviados.
Aparatos
1
2
3
4
5
6
frecuencia
2241
3272
264
47
6
3
Calcule los coeficientes momento de asimetría y de curtosis.
Solución: a3 = 0.8 a4 = 5.4
27
Medidas de Deformación
Angel Francisco Arvelo L.
18) La siguiente tabla de frecuencias se refiere a la longitud en milímetros de una
cierta pieza mecánica:
Longitud
9.3 a 9.7
9.8 a 10.2 10.3 a 10.7 10.8 a 11.2 11.3 a 11.7 11.8 a 12.2 12.3 a 12.7 12.8 a 13.2
Frecuencia
2
5
12
17
14
6
3
1
Calcule todas las medidas de deformación y de apuntamiento. Interprete los
resultados.
Solución: a3 = 0.9190 S.K1 = 0.040 S.K2 = 0.074 gq= –0.02 gp= –0.13
a4 = 2.94
= 0,313
19) Para una distribución se tiene que su media es 20 , y su coeficiente de
variación del 30% . Halle su segundo momento respecto del origen y respecto del
número 3 , es decir ( X 3) 2 .
Solución : 436 y 325
20) Para la distribución del ejercicio anterior, halle la moda y la mediana, si sabe
que los coeficientes de sesgo de Pearson, tienen un valor de 0,10 y 0,15
respectivamente.
Solución. Moda = 19.40 . Mediana = 19.70
21) De una distribución con media 15 y moda 18, se sabe que sus coeficientes de
sesgo de Pearson tienen un valor de –1 y de – 0,80 . Encuentre la mediana.
Solución: Mediana = 15,80
22) Analice si en los datos {6, 10, 12, 14, 15, 16, 17, 21, 24} existe simetría.
23) Dados los siguientes datos sin agrupar:
15 , 20, 7, 10, 30, 14, 19, 9, 27, 5, 14, 38, 12, 21, 20, 29, 14, 25, 24 ,7
Calcule los coeficientes de sesgo de Bowley, y de Pearson. Interprételos.
Solución: gq = 0,11 gp = 0,11 S.K1= 0.46 S.K2= 0.35
24) En la siguiente tabla de frecuencias para datos sin agrupar, calcule los
diferentes coeficientes de asimetría:
Valor
3
5
0
4
2
1
Frecuencia
18
20
2
24
10
6
Solución : S.K1= -0.42 , S.K2= - 1.25 gq = -0.33 gp = - 0.43 ; a3 = - 0,68
25) a) Sabiendo que la media y el coeficiente momento de sesgo son ambos iguales
a cero, complete la siguiente tabla de frecuencia para datos sin agrupar:
Xi
1
-4
5
fi
?
?
1
b) ¿ Es realmente simétrica la distribución ? . Justifique
Solución: a) f(1) = 3 ; f(-4) = 2 b) No
26) Calcule el coeficiente momento de sesgo para la siguiente distribución:
Xi
-3
2
6
Analice si existe simetría.
fi
2
3
1
¿Existe contradicción entre los dos resultados anteriores?.
Solución: a3 = 0 . No es simétrica.
Medidas de Deformación
Angel Francisco Arvelo L.
28
27) En una distribución, el intervalo que contiene al 50% central tiene amplitud 48, y
el intervalo que contiene al 80% central tiene amplitud 64.
Calcule el coeficiente percentílico de curtosis.
Solución: 0.375
28) En una distribución, la mediana es 40, el intervalo 50% central tiene amplitud
25, y el coeficiente cuartílico de sesgo es – 0.20 . Halle el primer y tercer cuartil.
Solución: Q1 = 25
Q3 = 50
II. Nivel Intermedio
29) Suponga que en un conjunto formado por 5 datos, se sabe que es simétrica,
que su media aritmética es 10 , que su rango es 14 y que su varianza es 29,60 .
Determine los 5 datos que lo integran .
Solución: 3 , 5 , 10 , 15 y 17 .
30) De una distribución de frecuencias simétrica, que considera cinco clases de
igual amplitud, se tiene la siguiente información:
Número total de datos = 400
Media = 300
Rango intercuartil = Q3 - Q1 = 80
La frecuencia del tercer intervalo es el doble de la del primero .
La frecuencia del cuarto intervalo es 80 .
a) Construya la tabla de frecuencias .
b) Calcule el porcentaje de datos que caen en el intervalo [ 234 ; 358]
Solución: a) c= 40. Límite inferior = 200 . fi= 60,80,120,80,60 b) 71,50%
31) Se tiene una distribución simétrica de frecuencias con cinco intervalos, de la
cual se sabe que : X = 150 , n= 200 , f3 = 100 , f2 = f1 + 10 , D7 = 158 .
a) Construya la tabla de frecuencias .
b) Calcule el porcentaje de observaciones que caen en el intervalo: X ± .
Solución: a) c= 40. Límite inferior = 100 . fi= 20,30,100,30,20 b) 66,46 %
32) Si los dos primeros momentos de un conjunto de datos respecto al número 5
son : -4 y 22 respectivamente.
Determine los dos primeros momentos de ese conjunto de datos , respecto de :
a) la media , b) el numero 3 . c) el origen .d) Calcule también la varianza .
Solución : a) 0 y 6 , b) -2 y 10 . c) 1 y 7 . d) S2 = 6 .
33) ¿Cuál debe ser el cuarto momento respecto de la media , de una distribución
simétrica con desviación típica 15 , para que sea: a) leptocúrtica , b) mesocúrtica ,
c) planticúrtica .
Solución : a) mayor que 151875 . b) igual a 151875 . c) menor que 151875
Medidas de Deformación
Angel Francisco Arvelo L.
29
34) Se tiene la siguiente distribución simétrica, que considera 150 valores puntuales
de la variable "X":
Valores de "X"
?
4
8
?
15
Frecuencia
15 ?
70
?
?
a) Complete la tabla de frecuencias .
b) Calcule la desviación típica de la distribución .
c) Encuentre los percentiles 40 y 90 de la distribución.
d) Calcule el 5º momento respecto de la media .
Solución: b) S = 3,89 c) P40 = 8 P90 = 13,50 d) m5 = 0
35) De una distribución de frecuencias simétrica, que considera 7 intervalos de igual
amplitud para agrupar 400 datos, se tiene la siguiente información:
Intervalo 80% central = [170 ; 230 ]
Frecuencia de la clase modal = 184
La frecuencia de la sexta clase es siete veces la de la primera clase.
La frecuencia de la tercera clase es 68 .
a) Construya la tabla de frecuencias .
b) Encuentre el porcentaje de observaciones en el intervalo X ± S .
Solución: a) c= 20. Límite inferior = 130 . fi= 5,35,68,184,68,35,5 b) 67,23 %
36) Una distribución simétrica de frecuencias para 240 datos, empieza en 100,
termina en 350, considera cinco intervalos de igual amplitud, su tercer cuartil es
270 , y además la frecuencia del tercer intervalo es igual a la suma de las
frecuencias del primero y del segundo.
a) Construya la tabla de frecuencias.
b) Calcule el porcentaje de datos que se encuentran en el intervalo [215 ; 316].
Solución: a) c= 50.. fi=30,50,80,50,30 b) 48,17 %
37) En una distribución de frecuencias simétrica, para 300 datos agrupados en
cinco intervalos de igual amplitud, se tiene :
f3 = f1 + f 4 ; P40 = 166 ; P90 = 220 ; h5 = 10 % .
a) Construya la tabla de frecuencias .
b) Calcule el porcentaje de datos que caen en el intervalo X D.M .
c) Calcule la media de la cuarta parte superior.
Solución: a) c= 30. Empieza en 100. fi=30,70,100,70,30 b) 50.44% c)220,21
38) Encuentre el primero y segundo momento respecto al valor “6” , para una
distribución de frecuencias que tenga media 8 y varianza 2. Solución: 2 y 6
39) En una distribución, la mediana es 31,20 , el intervalo 80% central tiene
amplitud 82, el coeficiente cuartílico de sesgo 0,60 , y el coeficiente percentílico de
curtosis 0,25 . Determine el primer y tercer cuartil.
Solución: Q1 = 23 Q3 = 64
40) De un conjunto con 30 datos cuantitativos, se sabe que la suma es 150, la
suma de sus cuadrados 860, y la suma de sus cubos 5400. ¿ Puede afirmarse que
la media y la mediana son iguales ?.
30
Medidas de Deformación
Angel Francisco Arvelo L.
Solución: Es posible pues m3 = 0 , pero no necesariamente se puede llegar a esa
conclusión.
III. Nivel Avanzado
41) Demuestre que a4
1 . ¿En qué caso a4 = 1? .
42) Demuestre que: –3< S.K2 < +3
43) Encuentre el tercero y cuarto momento respecto de la media, para “n” datos que
se encuentran en progresión aritmética: a, a +r , a +2r , ....., a + (n -1)r .
i n
n (n 1) (2n 1) (3n 2 3n 1)
i4
¿Existe simetría? .
Sugerencia :
30
i 1
Solución: m3 = 0 , m4 =
(n 2
1) (3n 2
240
7) r 4
. Si existe simetría
44) En un conjunto de “n” datos , “m” de ellos son iguales a 1 , y los restantes “n –
m” son iguales a 0 . Encuentre los cuatro primeros momentos respecto de la media.
Solución: m2 =
m (n - m)
n2
; m3 =
m (n - m) (n - 2m)
45) Si en una distribución se verifica:
n3
X3
3X
X4
3
4
2
; m4 =
m (n - m) (3m 2 + n 2 - 3mn)
n4
+ X3
+ 6X2
2
X4
Determine los coeficientes momento de sesgo, y de curtosis.
Solución: a3 = 0 , a4 = 3 .
Descargar