La media Sea un conjunto de datos de n observaciones x1,

Anuncio
Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia
La media Sea un conjunto de n observaciones x1, ... , xn, no agrupados.
Se define la media o promedio, X mediante:
n
∑ xi
X = i=1
n
La media utiliza todas las observaciones, y cada observación afecta la media.
Aunque la media es sensible a los valores extremos; es decir, los datos
extremadamente grandes o pequeños pueden causar que la media se ubique más
cerca de uno de los datos extremos; A pesar de esto, la media sigue siendo la
medida lo más usada para medir la localización. Esto se debe a que la media
posee valiosas propiedades matemáticas que la hacen conveniente para el uso en
el análisis estadístico de inferencia o deductivo.
Si los datos se encuentran agrupados en k clases, entonces la media es:
k
∑ ni mi
X = i=1
n
donde ni es la frecuencia absoluta
mi es la marca de clases.
Si los datos son discretos y se encuentran agrupados en k clases, entonces
k
∑ nixi
X = i=1
n
Nota: Cualquiera de estas tres expresiones, puede ser calculada directamente por
una calculadora científica que tenga modo estadístico (mode SD).
La mediana: Sea x(1), x(2),...,x(n), un conjunto de n observaciones ordenados en
orden creciente, la mediana, Me, se define como aquel valor que divide al conjunto
de datos ordenados en dos partes iguales.
Así, si n es impar, la mediana corresponde a la observación ubicada en la posición
j, siendo j = n + 1 .
2
Si n es par, la mediana corresponde al promedio de las observaciones ubicadas
en la posición j y j+1, siendo j = n . Por esto:
2

n +1
 X
con j =
si n es impar
(j)
2

Me = 
X
+X
n
( j + 1)
 ( j)
con j =
si n es par

2
2
13
Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia
Cuando los datos se encuentran agrupados en k clases una tabla de distribución
de frecuencias, la mediana es calculada mediante la expresión:
Me = lim. inf j +
n


2
−N
n


j − 1
A
j
donde:
j, es la clase de la mediana y se obtiene observando desde la primera clase hacia
delante, en que clase la frecuencia absoluta acumulada alcanza o supera el valor
n
, es decir, N j ≥ n .ç
2
2
lim.infj, es el limite inferior de la clase de la mediana.
nj, es la frecuencia absoluta de la clase de la mediana.
Nj-1, es la frecuencia absoluta acumulada de la clase anterior.
A es la amplitud.
La moda: Sea un conjunto de datos de n observaciones x1, ... , xn, no agrupados.
Se define la moda, Mo como aquel valor que más se repite.
Observación, cuando nos refiramos a la moda, lo haremos en ese contexto, en
caso contrario diremos que no existe moda.
Si los datos se encuentran agrupados en k clases, la moda corresponde a la
marca de clases del intervalo que más se repite.
Media
(punto de equilibrio)
50%
del
área
50%
del
área
Mediana
frecuencia relativa
frecuencia relativa
frecuencia relativa
Si un conjunto de datos tiene una moda, diremos que su distribución es unimodal,
dos modas, bimodal y más de dos modas, multimodal.
Moda
(punto máximo)
Cuando la media y la mediana son conocidas, es posible estimar la moda para la
distribución unimodal usando los otros dos promedios como se muestra a
continuación:
Moda ≈ 3(medianas) - 2(medias)
Esta estimación es aplicable a ambos, conjuntos agrupado y no agrupado de
datos.
14
Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia
Siempre que exista más de una moda, la población de la cual la muestra es
obtenida es una mezcla de más de una población. Sin embargo, note que una
distribución Uniforme tiene un incontable número de modas que tienen igual valor
de densidad; por lo tanto se considera como población homogénea.
Una pregunta frecuente es ¿qué medida usar como indicador del centro de los
datos?.
La respuesta esta pregunta podemos verla en el siguiente diagrama de flujo:
si
¿Son datos
categóricos?
Use la Moda
no
¿El total de las
observaciones
tiene algún
interés?
si
Use la Media
no
¿Es la distribución
simétrica?
si
Use la Media
no
Use la Mediana
Principales características entre los tres estadísticos:
Moda
Mediana
Es el valor mas frecuente en la Es el valor del punto medio de
distribución. Es el punto de mas la selección (no del rango), tal
alto densidad.
que la mitad de los datos están
por arriba y por debajo de ella.
Su valor es establecido por la El valor de la mediana es fijado
frecuencia predominante, no por su posición en la selección,
por
los
valores
en
la y no refleja valores individuales.
distribución.
Media
Es el valor en algún agregado,
el cual se obtendría si todos los
valores fueran iguales.
La suma de las desviaciones en
cualquier lado de la media son
iguales; por lo tanto la suma
algebraica de sus desviaciones
es cero.
Una distribución puede tener Cada selección tiene solo una Una muestra tiene solo una
mas de 2 modas, pero no existe mediana.
media.
moda en una distribución
rectangular.
No puede ser manipulada No puede ser manipulada Pueden
ser
manipuladas
algebraicamente. Modas de algebraicamente. Medianas de algebraicamente. Medias de
subgrupos no pueden ser subgrupos no pueden ser subgrupos
pueden
ser
ponderadas o combinadas.
ponderadas o combinadas.
combinadas
cuando
son
ponderadas apropiadamente.
15
Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia
Las medidas de tendencia central también nos proporcionan una idea de la forma
de la distribución:
Mo
Me
X
X
X
Me
Mo
Me
Mo
Promedios Especializados: La media ponderada, La media geométrica y la
media armónica.
La media ponderada: En el cálculo de la media anterior se supone que cada
observación tiene igual peso dentro del conjunto total, sin embargo en algunos
casos se requiere dar distinta ponderación a las observaciones. En este caso la
media ponderada X w es calculada mediante al expresión:
c
Xw =
∑w x
i =1
c
i
∑w
i =1
i
i
Ejemplo: Un vendedor tiene la representación de 5 artículos. En el último mes sus
ventas registran lo siguiente:
Artículo
A
B
C
D
E
Utilidad
artículo
(US$)
2.0
3.5
5.0
7.5
6.0
por Volumen
ventas
artículos
3
7
15
12
15
de
en
Determine la utilidad promedio.
Solución:
24
=4.8, es decir, sin tomar en cuenta el
5
volumen vendido encontramos que la utilidad promedio es de 4.8 dólares.
Como primera solución tendríamos:
X=
16
Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia
285.5
= 5.49 dólares, es decir, tomando
52
en cuenta el volumen vendido encontramos una utilidad promedio de 5.49 dólares.
¿Cuál de los dos promedios refleja mejor la utilidad promedio?
Como segunda solución tenemos: X w =
La Media Geométrica: La media geométrica (G) puede utilizarse para mostrar los
cambios porcentuales de n valores no negativos.
G = n x1 x 2 ...x n
Si algunos valores son muy grandes en magnitud y otros muy pequeños, la media
geométrica proporciona una mejor representación de los datos que un simple
promedio. En una “serie geométrica”, el promedio mas significativo es la media
geométrica (G). La media aritmética es muy favorecida por valores grandes de la
serie.
Ejemplo: Suponga que las ventas de un determinado producto incrementan en
110% en el primer año y en 150% en el segundo.
Por simplicidad, supongamos que inicialmente se vendió 100 unidades. Entonces
el número de unidades vendidas en el primer año fueron 110 y en el segundo
fueron 150% x110= 165. Usando la media aritmética de 110% y 150% que es
130%, estimaríamos incorrectamente las unidades vendidas en el primer año de
130 y las del segundo año de 169. Mediante la media geométrica de 110% y 150%
obtendríamos G = (1,65)1/2 = 1.28452 la cual es la estimación correcta, por lo cual
el primer año venderíamos 100 G = 128 unidades y en el segundo año
venderíamos (100G)G=100G2 =165 unidades.
La Media Armónica: La media armónica es otro promedio especializado, el cual
es útil para calcular promedios de variables expresadas en proporciones de
unidades por tiempo, tales como kilómetros por hora, número de unidades de
producción por día. La media armónica (H) de n valores no nulos xi es:
1
H= n
1
∑
i =1 x i
Ejemplo: Suponga que cuatro máquinas en un taller son usadas para producir la
misma pieza, cada una de las máquinas demora 2.5, 2.0, 1.5 y 6.0 minutos para
realizar dicha pieza. ¿ Cuál es la velocidad promedio de producción?
4
=2.31 minutos
La media armónica es H =
1
1
1
1
+
+
+
2. 5 2. 0 1 . 5 6 . 0
Si todas las maquinas trabajaran una hora, ¿cuántas unidades serán producidas?
Una hora de trabajo de las cuatro maquinas, representan 4*60=240 minutos de
240
= 104 piezas serán producidas.
operación, luego se obtiene que:
2.31
17
Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia
El Orden entre las Medias: Si la media, la media geométrica y la media armónica
existen, la media nunca es menor que las otras dos, además, la media armónica
nunca es mayor que las otras.
Medidas de variación o de dispersión.
Las medidas de tendencia central por si sola no dan una buena idea acerca del
comportamiento de los datos, por ejemplo, suponga que tenemos dos grupos de
tres alumnos cada uno y que en un certamen dado obtuvieron las notas
siguientes:
Grupo 1: 5,0 4,0 y 6,0
Grupo 2: 7,0 3,0 y 5,0
Observe que en ambos grupos la media y la mediana son iguales e igual a 5,0
luego a partir de estas medidas ¿podemos decir que ambos grupos son iguales?
Es obvio que no puesto que las desviaciones de sus notas respecto del promedio
son:
Grupo 1: 0 -1 y 1
Grupo 2: 2 -2 y 0
Es decir los alumnos del grupo 1 son más parecido entre si comparativamente
con el grupo dos que tienen una mayor dispersión respecto del promedio, luego
necesitamos una medida que permita cuantificar dicha desviación.
Las mediciones estadísticas de variación son valores numéricos que indican la
variabilidad inherente en un grupo de mediciones de datos. Observe que un valor
pequeño para la medida de dispersión indica que los datos están concentrados
alrededor de la media; por lo tanto, la media es una buena representación de los
datos. Por otra parte, una medida grande de dispersión indica que la media no es
una buena representación de los datos. Adicionalmente, las medidas de dispersión
pueden ser utilizadas cuando deseamos comparar las distribuciones de dos o más
conjuntos de datos. La calidad de un conjunto de datos es medida por su
variabilidad: variabilidad grande indica baja calidad. Esta es la razón del porque
gerentes se preocupan cuando encuentran grandes variaciones. El trabajo de un
estadístico, es medir la variación, y si es demasiado alto e inaceptable, entonces
es trabajo del personal técnico, tal como ingenieros, en ajustar el proceso.
Las medidas de mayor uso para medir la variación son el rango y la desviación
estándar.
El rango: Como vimos anteriormente el rango es la diferencia entre el valor
máximo y el valor mínimo. Aunque es un cálculo muy simple de realizar, el gran
problema del rango es que basa su información en sólo dos valores.
18
Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia
La varianza: Sea un conjunto de n observaciones x1, ... , xn, no agrupados. Se
define la varianza, S2, mediante la expresión:
n
S2 =
∑(x
i =1
− X )2
i
n −1
Observe que la varianza es calculada como una suma de las desviaciones al
cuadrado de cada observación respecto de la media, luego, la varianza queda
expresada en unidades al cuadrado lo que dificulta su interpretación. Una medida
de la variabilidad del conjunto de datos es la desviación estándar o desviación
típica, S, donde S=+ S 2 .
Si el conjunto de datos se encuentra agrupado en k clases entonces la varianza es
calculada mediante:
k
S2 =
∑ n (m
i =1
i
i
− X )2
n −1
Nota: Muchas calculadoras científicas calculan directamente la desviación
estándar tanto para datos agrupados como sin agrupar, generalmente bajo el
símbolo σ n −1 o xσ n −1 o simplemente como S.
La desviación estándar no tiene una interpretación única como otras medidas sino
que se interpreta en combinación con la media. Una regla practica se conoce
como Regla empírica y dice lo siguiente:
Si un conjunto de datos tiene una distribución aproximadamente simétrica
entonces:
1.- Aproximadamente el 68% de las observaciones quedan dentro del intervalo
(x − S ; x + S ) .
2.- Aproximadamente el 95% de las observaciones quedan dentro del intervalo
(x − 2S ; x + 2S ) .
3.- Aproximadamente el 99,7% de las observaciones quedan dentro del intervalo
(x − 3S ; x + 3S ) .
X-3S X-2S
X-S
X
X+S
X+2S X+3S
68%
95%
99,7%
19
Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia
Cuando el conjunto de datos no presenta una distribución simétrica, la relación
entre la media y la desviación estándar puede expresarse en términos de la
desigualdad de Chebyshev que establece que dentro del intervalo
(x − kS ; x + kS ) , se encuentra al menos el 100(1 − 12 )% de las observaciones, con
k
k>1.
Observe que la desigualdad de Chebyshev proporciona una cota inferior para la
proporción de observaciones que caen dentro del intervalo (x − kS ; x + kS ) .
Otra medida de variabilidad usada junto a los estadísticos tradicionales es la
MEDA, que es utilizada principalmente cuando hay presencia de valores atípicos.
La MEDA corresponde a la mediana de las desviaciones absolutas respecto a la
mediana.
En algunas ocasiones se necesita la comparación de distintos conjuntos de datos
en términos de su variabilidad, lo cual generalmente no es posible porque pueden
tener distintos tamaños, distintos promedios o porque tienen distintas unidades,
luego para su comparación necesitamos de una medida de variabilidad relativa
adimensional. El coeficiente de variación en este sentido es una medida
adecuada.
Coeficiente de variación, CV, expresado porcentualmente es calculado como:
S
CV =
x100
X
El coeficiente de variación es usado entre otros como una medida de la
representatividad de la media. Si CV< 50% se dice que la media es representativa
como medida de tendencia central para ese conjunto de datos, en cambio si
CV>100% entonces decimos que la media no representa para nada al conjunto de
datos.
Medidas de posición relativa.
En el cálculo de la mediana dividimos un conjunto de datos ordenados en orden
creciente en dos partes iguales, cada una representando el 50% de las
observaciones. Hay ocasiones que necesitamos medidas que subdividan al
conjunto de datos ordenados en más partes.
Por ejemplo, si subdividimos al conjunto en cuatro partes iguales, cada división
contiene el 25% de las observaciones y las tres medidas que se generan de esta
partición se llaman cuartiles y se denotan por Q1, Q2 y Q3.
25%
Q3
Q2
50%
Q3
75%
20
Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia
Q1:es llamado primer cuartil o cuartil inferior.
Q2 : segundo cuartil o mediana.
Q3 : tercer cuartil o cuartil superior.
Si dividimos nuestro conjunto de datos ordenados en diez partes iguales
obtenemos los deciles, denotados por D1, D2, ..., D9.
10%
D1
20%
D2
D9
90%
En general, cuando dividimos un conjunto de datos en 100 partes iguales cada
medida se llama percentil y se denota por pk.
Definición: El k-ésimo percentil de un conjunto de datos ordenados, es un valor
situado de modo que el k% de las observaciones son inferiores o iguales a pk y el
(100-k)% son mayores o iguales a pk.
Observe que tanto los cuartiles como los deciles u otras medidas obtenida por
subdivisión es equivalente a un percentil, asi, Q1 ⇔ p25, D7 ⇔ p70, etc.
Para calcular el k-ésimo percentil pk se siguen los siguientes pasos:
Sea x(1), x(2),...,x(n), un conjunto de n observaciones ordenados en orden creciente.
nk
i)
Calcule el número
,
100
nk
ii)
Pregunte si
es o no entero.
100
nk
- Si es entero entonces obtenga la posición j del percentil donde j =
y
100
x ( j ) + x ( j +1)
pk =
2
-
nk
no es entero obtenga la posición j del percentil como el entero
100
nk
siguiente a
y
100
pk = x ( j )
Si
21
Descargar