Para los datos de colegiaturas de Pennsylvania

Anuncio
Unidad N° 2
Medidas de dispersión
Una segunda propiedad importante que describe una serie de datos numéricos
es una variación. La variación es la cantidad de dispersión o “propagación” en los
datos. Dos series de datos puedan diferir tanto en la tendencia central como en la
variación o puede darse el caso que dos series pueden tener la misma tendencia
central, pero diferir grandemente en términos de variación. Las mediciones de variación
son la varianza, la desviación estándar y el coeficiente de variación.
2.1 La varianza
Una medición de variación comúnmente usada que toma en cuenta cómo se
distribuyen todos los valores en los datos es la varianza. Esta medición evalúa la forma
en que los valores fluctúan alrededor de la media.

Definición
de
la
varianza
de
muestra:
La
varianza
de muestra
es
aproximadamente (o casi) el promedio de las diferencias cuadradas entre cada una
de las observaciones en una serie de datos y la media. Así, para una muestra que
contiene n observaciones, X, X, ..., X, la varianza de muestra (dada por el símbolo
S2)
puede escribirse como
_
_
_
(Xl -X)2 + (X2 -X)2 + ...+ (Xn -X)2
S2 =
n-1
Usando nuestra notación de sumatoria, la formulación anterior puede expresarse de
manera más simple como:
n
Σ
(Xl -X)2
1
Estadística Aplicada
S2 =
i=1
n-1
donde
_
X = media aritmética de muestra
n = tamaño de muestra
X = iésimo valor de la variable aleatoria X
n
Σ (X¡ -X )2 = sumatoria de todas las-diferencias cuadradas
____
i=1
entre los valores Xi y X
Si el denominador hubiera sido n en lugar de n -1, se hubiera obtenido el promedio de
las diferencias cuadradas alrededor de la media. Sin embargo, n -1 se usa aquí debido
a ciertas propiedades matemáticas deseables que la estadística S 2 posee que la hacen
apropiada para la inferencia estadística. Si tamaño de muestra es grande, la división
entre n o n -1 realmente no hace mucha diferencia.
La variación de la población o Varianza Poblacional está dada por el símbolo σ 2x,
la letra griega sigma, subíndice x cuadrada, es decir:
donde:
N: tamaño de la población
Xi: iésimo valor de la variable aleatoria
N
2
Estadística Aplicada
Σ
(Xi -μx)2: sumatoria de todas las diferencias entre los valores Xi y μx.
i=1
Σ Xi Sumatoria de todos los valores Xi de la población
2.2 Desviación Estándar
Se dijo anteriormente que una medición de variación comúnmente usada que
toma en cuenta cómo se distribuyen todos los valores en los datos es la varianza, a ella
le sumamos la Desviación Estándar, ya que esta medición evalúa también la forma en
que los valores fluctúan alrededor de la media.

Definición de la desviación estándar de muestra: La desviación estándar de
muestra (dada por el símbolo S) es simplemente la raíz cuadrada de la varianza de
muestra. Esto es:
n
Σ
S=
(Xl -X)2
i=1
n-1
Cálculo de S2 y de S: Para calcular la varianza
1) Obtenemos la diferencia entre cada observación y la media
2) Elevamos al cuadrado cada diferencia
3) Sumamos los resultados cuadrados
4) Dividimos la sumatoria entre n -1
Para calcular la desviación estándar simplemente tomamos la raíz cuadrada de la
varianza.
Para nuestra muestra de seis establecimientos de cría de ganado caprino, los datos sin
procesar (en cabezas de ganado) son
3
Estadística Aplicada
678
1199 408
233
224
960
_
y X = 617 cabezas
La varianza de muestra se calcula como
n
Σ
S2 =
(Xl -X)2
i=1
n-1
=
(678 – 617)2 + (1199 – 617)2 + ...+ (960 – 617)2
6-1
= 401.42
=
y la desviación estándar se calcula como
S = √S2 = 20.03
La desviación estándar de la población está dado por el símbolo griego σ x. Esto
es:
Obtención de S2 y de S:
4
Estadística Aplicada
Puesto que en los cálculos anteriores elevamos al cuadrado las diferencias, ni la
varianza ni la desviaci6n estándar pueden ser negativas. La única vez en que S2 y S
podrían ser cero sería cuando no hubo variación alguna en los datos, cuando cada
observación de la muestra fuera exactamente igual. En este inusual caso el alcance
también sería cero.
Pero los datos numéricos son inherentemente variables, no constantes. Cualquier
fenómeno de interés aleatorio que pudiéramos imaginar generalmente toma una
variedad de valores.
Lo que indican la varianza y la desviación estándar:
La varianza y la desviación estándar miden la dispersión "promedio" alrededor
de la media, es decir, cómo las observaciones mayores fluctúan por encima de ésta y
cómo las observaciones menores se distribuyen por debajo de ésta.
La varianza posee ciertas propiedades matemáticas útiles. Sin embargo, su cálculo da
como resultado unidades, cuadradas, miles de pesos cuadrados, pesos cuadrados,
metros cuadrados, etc. Por lo tanto, para un trabajo práctico, nuestra principal medición
de variación será la desviación estándar, cuyo valor está en las unidades originales de
los datos, miles de pesos, pesos, metros, etcétera.
Por qué cuadramos las desviaciones: Las fórmulas para varianza desviación
estándar no podrían simplemente usar
n
_
Σ (Xi-X) =
i=1
como numerador, porque tal vez recuerde que la media actúa como un punto de
equilibrio para observaciones mayores y menores que ésta. Por tanto, la suma de las
desviaciones alrededor de la media siempre es cero; es decir
n
_
Σ (Xi-X) = 0
i=1
Para demostrar esto, refirámonos nuevamente a los datos de las cabezas de ganado
de los establecimientos 678,1199,408, 233, 224, 960:
En consecuencia,
5
Estadística Aplicada
_
n
Σ (Xi-X) = (678 – 617) + (1199 – 617) + (408 – 617) +
( 233- 617) + ( 224 – 617) + (960 – 617)
i=1
= 0
Como ya se observó tres de las observaciones son menores que la media y tres son
mayores. Aunque la suma de las seis desviaciones es cero, la suma de las
desviaciones cuadradas nos permite estudiar la variación en los datos. Por tanto,
usamos
n
_
Σ (Xi-X)2 =
i=1
al calcular la varianza y la desviación estándar. En el proceso de elevación al cuadrado,
las observaciones que están más allá de la media obtienen más peso que las
observaciones que están más cerca de la media.
Por tanto, podemos generalizar de la siguiente manera:
1) Mientras más propagados o dispersos estén los datos, mayor será la varianza y la
desviación estándar.
2) Mientras más concentrados u homogéneos sean los datos, menor será la varianza y
la desviación estándar.
3) Si las observaciones son todas iguales (de tal forma que no hay variación en los
datos), la varianza y la desviación estándar son todas cero.
Uso de la desviación estándar: La regla empírica
En la mayor parte de las series de datos, una gran porción de las observaciones
tienden a agruparse de alguna manera cerca de la mediana. En las series de datos
sesgadas a la derecha este agrupamiento ocurre a la izquierda (es decir, debajo) de la
mediana y en series de datos sesgadas a la izquierda las observaciones tienden a
agruparse a la derecha (es decir, arriba) de la mediana. En series de datos simétricas,
donde la mediana y la media son iguales, las observaciones tienden a distribuirse
igualmente alrededor de estas mediciones de tendencia central. Cuando el sesgado
6
Estadística Aplicada
extremo no se presenta y tal agrupamiento se observa en una serie de datos, podemos
usar la denominada regla empírica para examinar la propiedad de variabilidad de datos
y obtener una mejor idea de lo que la desviación estándar está midiendo.
La regla empírica establece que en la mayoría de las series de datos
encontraremos que aproximadamente dos de cada tres observaciones (es decir, 67%)
están contenidas en una distancia de una desviación estándar alrededor de la media y
aproximadamente 90 a 95% de las observaciones están contenidas en una distancia de
2 desviaciones estándar alrededor de la media.
Así pues, la desviación estándar, como una medición de la variación promedio
alrededor de la media, nos ayuda a comprender cómo se distribuyen las observaciones
por encima y por debajo de la media y nos ayuda a enfocar y señalar observaciones
inusuales (es decir, externas) al analizar una serie de datos numéricos.
Uso de la desviación estándar: La regla de Bienaymé Chebyshev
Hace más de un siglo, los matemáticos Bieriaymé y Chebyshev examinaron de
manera independiente la propiedad de variabilidad de los datos alrededor de la media.
Encontraron que, sin importar cómo se distribuye una serie de datos, el porcentaje de
observaciones que están contenidas dentro de las distancias de k desviaciones
estándar alrededor de la media debe ser al menos:
(
1-
1
)100%
K2
Por tanto, para datos con cualquier forma:
1) Al menos [1- (1/22] 100% = 75.0% de las observaciones deben estar contenidas
dentro de distancias de ± 2 desviaciones estándar alrededor de la media.
2) Al menos [1- (1/32] 100% = 88.89% de las observaciones deben estar contenidas
dentro de distancias de ± 3 desviaciones estándar alrededor de la media.
7
Estadística Aplicada
3) Al menos [1- (1/42] 100% = 93.75% de las observaciones deben estar contenidas
dentro de distancias de ± 4 desviaciones estándar alrededor de la media.
Aunque la regla de Bienaymé-Chebyshev es general en naturaleza y se aplica a
cualquier tipo de distribución de datos, se verá que si los datos forman la distribución
normal de "campana"o gaussiana, 68.26% de todas las observaciones estarán
contenidas dentro de distancias de ± 1 desviaciones estándar alrededor de la media,
mientras que 95.44%, 99.73% y 99.99% de las observaciones estarán incluidas,
respectivamente, dentro de distancias de
± 2, ± 3 y ± 4 desviaciones estándar
alrededor de la media. Estos resultados se resumen en la tabla siguiente:
Tabla: Cómo varían los datos alrededor de la media.
Porcentaje de observaciones contenidas entre la
media y k desviaciones estándar basadas en
Número de unidades de
Regla de Bienaymé-Chebyshev Distribución
Datos
establecimientos
desviaciones estándar k
para cualquier distribución
gaussiana
de ganado
1
No calculable
Exacta
68.26%
Exacta 64.4%
2
Al menos 75.00%
Exacta 95.44%
Exacta
3
Al menos 88.89%
Exacta 99.73%
Exacta
Al menos 93.75%
Exacta 99.99%
Exacta
96.7%
100.0%
4
100.0%
Específicamente, si se supiera que un fenómeno aleatorio particular sigue el
patrón de la distribución de campana, como muchos lo hacen, al menos
aproximadamente, entonces se sabría exactamente qué tan probable es que cualquier
8
Estadística Aplicada
observación particular estuviera cerca o lejos de su media. Por lo general, sin embargo,
para cualquier tipo de distribución, la regla de Bienaymé-Chebyshev nos dice al menos
qué tan posible debe ser que cualquier observación particular caiga dentro de una
distancia dada alrededor de la media.
De la tabla anterior recordar que para la población de 40 establecimientos de
cría de ganado caprino, lo posesión
media de los mismos es 617 cabezas y la
desviación estándar, es 20.03. Resulta importante destacar que aunque los datos de
los establecimientos están sesgados a la derecha en forma, los porcentajes de los
establecimientos que caen dentro de una o más desviaciones estándar alrededir de
una media no son muy distintos de lo que se esperaría si los datos se distribuyeran
como una distribución gaussiana de campana, simétrica.
El coeficiente de variación
A diferencia de las mediciones previas que se han mostrado, el coeficiente de
variación es una medición relativa de variación. Se expresa como un porcentaje antes
que en términos de las unidades de los datos principales.
El coeficiente de variación, denotado por el símbolo CV, mide la dispersión en loS
datos relativa a la media. Puede calcularse mediante:
CV =
S . 100%
____
X
donde
S = desviación estándar en una serie de datos numéricos
_____
X = media aritmética en una serie de datos numéricos
9
Estadística Aplicada
Regresando a los datos de los establecimientos de cría de ganado caprino, en el caso
de la muestra de 6 de ellos, el coeficiente de variación es
CV =
S . 100%
=
X
897 . 100% =
617
Es decir, para esta muestra el tamaño relativo de la “propagación promedio alrededor
de la media" con respecto a la media es
%.
Como una medición relativa, el coeficiente de variación es particularmente útil al
comparar la variabilidad de dos o más series de datos que se expresan en distintas
unidades de medición.
El coeficiente de variación también es muy útil al comparar dos o más conjuntos
de datos que son medidos en las mismas unidades pero difieren hasta tal punto que
una comparación directa de las respectivas desviaciones estándar no es muy útil.
Como ejemplo, suponga que un inversionista potencial estuviera considerando comprar
acciones de valores en una de dos compañías, A o B, que se enumeran en la Bolsa de
Valores de Buenos Aires. Si ninguna compañía ofreciera dividendos a sus accionistas y
si ambas compañías estuvieran igualmente calificadas (por diversos servicios de
inversión) en términos de crecimiento potencial, el inversionista potencial podría desear
considerar la volatilidad (variabilidad) de los dos valores para ayudar en la decisión de
inversión. Ahora suponga que cada acción de valores de la compañía A ha promediado
$50 durante los meses pasados con una desviación estándar de $10. Además,
suponga que en ese mismo periodo, el precio por acción de los valores de la compañía
B promedió $12 con una desviación estándar de $4. En términos de las desviaciones
estándar reales, el precio de las acciones de la compañía A parece ser más volátil que
el de las acciones de la compañía B. Sin embargo, puesto que los precios promedio por
acción de los dos valores son tan diferentes, sería más apropiado para el inversionista
potencial considerar la variabilidad en el precio relativa al precio promedio con el fin de
examinar la volatilidad/estabilidad de los dos valores. Para la compañía A el coeficiente
de variación es CV = ($10/$50)100% = 20.0%; Para la compañía B el coeficiente de
variación es CV= ($4/$12)100% = 33.3%. Por tanto, en cuanto a la media, el precio del
valor B es mucho más variable que el precio del valor A.
10
Estadística Aplicada
Forma: Asimetría y puntiagudes
Una tercera propiedad importante de una serie de datos es "forma”, la manera
en que los datos se distribuyen. Ya sea que la distribución sea simétrica o que no lo
sea.
Si la distribución de los datos no es simétrica, se denomina simétrica o sesgada.
Para describir la forma sólo necesitamos comparar la media y la mediana. Si
estas dos mediciones son iguales, por lo general podemos considerar, que los datos
son simétricos (o de sesgo cero). Por otra parte, si la media excede la mediana, los
datos pueden escribirse por lo común como de sesgo positivo o sesgados a la derecha.
Si la media es excedida por la mediana, esos datos generalmente pueden llamarse de
sesgo negativo o sesgados a la izquierda. Esto es,
Media > Mediana: sesgo positivo o derecho
Media = Mediana: simetría o de sesgo cero
Media < Mediana: sesgo negativo o izquierdo
El sesgo positivo surge cuando la media se incrementa en algunos valores
inusualmente altos; el sesgo negativo ocurre cuando la media se reduce en algunos
valores extremos reales en una dirección particular de forma tal que los valores bajos y
altos se compensan entre sí.
11
Estadística Aplicada
Descargar