4. Medidas de tendencia central

Anuncio
4.
Medidas de tendencia central
A veces es conveniente reducir la información obtenida a un solo valor
o a un número pequeño de valores, las denominadas medidas de tendencia central.
Sea X una variable estadı́stica con valores x1 , x2 , . . . , xk y frecuencias
n 1 , n2 , . . . , n k .
Media aritmética (x)
x1 n1 + x2 n2 + . . . + xk nk
=
x=
N
Pk
i=1
xi ni
N
=
k
X
xi fi
i=1
• La media es muy sensible a los valores extremos de la variable,
por lo que no es conveniente usar la media aritmética como
medida central en distribuciones muy asimétricas.
• El valor de la media aritmética puede no pertenecer al conjunto
de valores que puede tomar una variable aleatoria discreta. Por
ejemplo, el número medio de hijos en las familias españolas es
x = 1,2.
Media geométrica (xG )
xG =
q
N
xn1 1 · xn2 2 . . . xnk k
Esto implica que:
k
1 X
log xG =
ni log xi
N 1
Observamos que si ∃ i t.q. xi = 0 ⇒ xG = 0.
Media cuadrática (xQ )
p
xQ =
x21 n1
+
x22 n2
√
+ ... +
N
10
x2k nk
s
=
Pk
x2i ni
N
1
Media armónica (xA )
N
xA = Pk
ni
i=1 xi
Esta media no tiene sentido si ∃ i t.q. xi = 0.
Prop. xA ≤ xG ≤ x ≤ xQ
Mediana (Me).- Es la medida central que, supuestos los valores de
la variable ordenados en forma creciente, deja igual número de observaciones inferiores que superiores a ella. Veamos cómo calcularla:
• En caso de que la frecuencia de cada valor es 1.
- no impar de valores: la mediana es el valor central. Ej. {1, 3, 7, 10, 15},
Me=7.
- no par de valores: la mediana es la media aritmética de las
=15.5
dos centrales. Ej. X = {1, 3, 5, 10, 21, 27, 36, 42}, Me= 10+21
2
• Mediana de una variable discreta.
1. Dividimos el número de observaciones entre 2, N/2.
2. Comprobamos si N/2 está en la tabla de frecuencias absolutas acumuladas.
11
3. Si no está, estará comprendido entre dos. La mediana es
el valor de la variable que corresponde al mayor.
4. Si está, la mediana vendrá dada por:
Me= xk +x2 k+1 .
• Mediana de una variable agrupada.
1. Dividimos el número de observaciones entre 2, N/2.
2. Comprobamos si N/2 está en la tabla de frecuencias absolutas acumuladas.
3. Si no está, N/2 estará entre Nk y Nk+1 . Para conocer la
posición exacta de la mediana hay que interpolar:
x
ak+1 − ak
=
⇒ Me = ak + x
Nk+1 − Nk
N/2 − Nk
4. Si está, N/2 será la frecuencia absoluta acumulada de un
cierto intervalo, y la mediana será el extremo superior del
mismo.
12
Moda (Md).- Es el valor de la variable que tiene más frecuencia.
No tiene por qué ser única. Si hay dos modas, la distribución se
llama bimodal. Si hay tres, trimodal, etc. Cuando la variable viene
agrupada en intervalos de clase se habla de intervalo modal, que
es el intervalo tal que en su histograma es el intervalo al que le
corresponde al rectángulo de mayor área por unidad de base. La
situación puntual viene dada por:
Md = a + (b − a)
δ1
δ1 + δ2
Cuartiles.- Son tres valores de la variable que dividen las observaciones en cuatro partes iguales.
1. Primer cuartil (P 1 ): es el valor de la variable que deja la cuarta
4
parte de las observaciones menores o iguales a él y las tres
cuartas partes superiores a él. Se calcula de manera análoga a
la mediana.
2. Segundo cuartil (P 2 ): es la mediana.
4
3. Tercer cuartil (P 3 ): deja inferiores o iguales a él las tres cuar4
tas partes de las observaciones, y la cuarta parte restante es
superior a él. Se calcula de manera análoga a la mediana.
13
Deciles.- El decil k−ésimo (Dk ) es el valor de la variable que deja
k
partes de las observaciones. Es decir,
inferiores o iguales a él las 10
el 10 × k por 100, donde k = 1, 2, . . . , 9. Se calcula de forma análoga
a la mediana.
Centiles o percentiles.- El percentil k−ésimo (Pk ) es el valor de
k
partes de las
la variable que deja inferiores o iguales a él las 100
observaciones, es decir, el k por 100, donde k = 1, 2, . . . , 99. Su
cálculo se realiza como el de la mediana, los cuartiles y deciles.
5.
Medidas de dispersión o concentración
Las medidas de tendencia central reducen la información de la muestra
a un solo valor, pero este valor a veces estará más próximo a la realidad y
a veces menos. Por ejemplo, consideremos la variable estadı́stica X que
toma los valores 0, 100, 200, cada uno de ellos con frecuencia absoluta
1. La media aritmética será:
x=
0 + 100 + 200
= 100.
3
Si tomamos ahora otra variable Y que toma los valores 99, 101, cada
una de ellas una sola vez. En este caso la media aritmética será:
y=
99 + 101
= 100.
2
Vemos que la media aritmética de las dos variables es 100. Sin embargo, la variable X está mucho más dispersa que la Y , por lo que la
representatividad de y es mayor que la de x.
Las medidas de dispersión o concentración nos van a cuantificar la representatividad de los valores centrales. Notemos que los términos concentración y dispersión pueden ser utilizados indistintamente, pues alta
dispersión es equivalente a baja concentración y baja dispersión equivale a alta concentración.
14
Varianza y desviación tı́pica
• Varianza.- Viene dada por
Pk
2
2
i=1 (xi − x) ni
σ =
N
La varianza toma siempre valores positivos. En caso de ser
σ 2 = 0, todos los xi coinciden con la media aritmética , es decir, todas las observaciones están concentradas en un mismo
punto, por lo que la dispersión es nula.
Como sus unidades son las del cuadrado de la variable, se suele usar su raı́z cuadrada, como vemos a continuación.
• Desviación tı́pica.- Se define como la raı́z cuadrada positiva
de la varianza:
s
Pk
2
√
i=1 (xi − x) ni
σ = σ2 =
N
• Propiedades:
1. La varianza y la desviación tı́pica son sensibles a la variación de cada uno de los valores que toma la variable. Es
decir, si una puntuación cambia, también ellas cambiarán.
La razón es que la varianza es función de cada uno de los
valores xi de la variable.
2. La desviación tı́pica tiene la propiedad de que en el intervalo
(x − 2σ, x + 2σ)
se encuentra, al menos, el 75 % de las observaciones.
3. No es recomendable el uso de ninguno de ellas cuando
tampoco lo sea el de la media como medida de tendencia
central.
15
Coeficiente de variación Estas medidas de dispersión vienen dadas por números concretos (unidades en las que viene medida la
variable), por tanto no son útiles para comparar las dispersiones de
dos muestras expresadas en unidades diferentes. Por ejemplo, si
medimos la masa de dos poblaciones, pero una de ellas la medimos
en kilogramos (para una población de felinos) y otra en miligramos
(para una población de hormigas) se tiene que habrá una diferencia enorme entre las medias de ambas poblaciones. También puede
ocurrir que queramos comparar dos variables distintas, como el peso
y la altura de una población de elefantes. Para esos casos utilizaremos medidas de dispersión dadas por números abstractos.
• Coeficiente de variación de Pearson.- Elimina la dimensionalidad de las variables, y tiene en cuenta la proporción existente
entre medias y desviación tı́pica. Viene dado por
C.V. =
σ
x
• Propiedades:
1. Sólo se debe calcular para variables con todos los valores
positivos. Todo ı́ndice de variabilidad debe ser no negativo.
Sólo trabajamos con variables positivas para tener la seguridad de que x > 0.
2. Este coeficiente no puede hallarse si x = 0.
3. Este coeficiente a veces aparece multiplicado por 100.
4. No es invariante frente a cambios de origen. Es decir, si
a los resultados de una medida le sumamos una cantidad
positiva, b > 0, para tener Y = X + b, entonces C.V.Y <
C.V.X .
5. Es invariante a cambios de escala. Ası́ por ejemplo el coeficiente de variación de una variable medida en kilogramos
es una cantidad adimensional, que no cambiará si la medición se realiza en miligramos.
16
Tipificación.- Este proceso consiste en restar la media x y dividir
por su desviación tı́pica σ a una variable dada X. Ası́ se obtiene una
nueva variable
X −x
Z=
σ
de media z = 0 y desviación tı́pica σZ = 1 denominada variable
tipificada.
La variable tipificada Z carece de unidades, y permite comparar medidas que no son directamente comparables. Por ejemplo, nos podemos preguntar si un elefante es más grueso que una hormiga
determinada, cada uno en relación a su población.
Los coeficientes de variación sirven para comparar las variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras
que si queremos comparar dos individuos de cada uno de estos conjuntos, es necesario usar los valores tipificados.
6.
Medidas de asimetrı́a y apuntamiento
Estudiamos ahora cómo saber si los datos que tenemos están distribuidos de forma simétrica son respecto a un valor central, o bien si la
gráfica que representa la distribución de frecuencias no es simétrica. En
caso de tener una distribución simétrica, cabe preguntarnos si la distribución es más o menos apuntada (larga y estrecha). Este apuntamiento
lo mediremos comparando con cierta distribución de frecuencias que se
considera normal.
1. Asimetrı́a
Distribuciones simétricas.- Una distribución de frecuencias
es simétrica cuando valores equidistantes de un valor central
tienen las mismas frecuencias. Un buen candidato para ese valor central es la mediana, ya que para variables continuas divide al histograma de frecuencias en dos partes de igual área.
17
Descargar