Métodos Estadísticos aplicados a la Ingeniería

Anuncio
Métodos
Estadísticos
aplicados a la
Ingeniería
1º Ingeniería Industrial
2º cuatrimestre 2008/2009
Introducción - ¿Qué es la Estadística?
La estadística es la ciencia que se ocupa del diseño de experimentos o encuestas
mediante muestras, para obtener una cantidad determinada de información lo más
eficazmente posible, y del uso óptimo de esta información para hacer inferencias con
respecto a una población.
Objectivos importantes de la estadística
• Muestreo
• Descripción de datos
• Estimación
• Contraste de hipótesis
• Medición de relaciones
• Predicción
1
Tema 1 - Estadística Descriptiva
La estadística descriptiva engloba los procedimientos que resumen la información que
contiene un conjunto de datos.
1.1 Conceptos generales
1.1.1 Población estadística o colectivo
Conjunto de referencia sobre el cual se van a recoger las observaciones. Puede ser
finita o infinita.
1.1.2 Unidad estadística o individuo
Un elemento de la población (persona, objeto, algo abstracto, ...)
1.1.3 Muestra
Subconjunto de elementos de la población. El número de elementos es el tamaño de la
muestra.
1.1.4 Variables Estadísticas
Una característica inherente al individuo o unidad estadística. Por ejemplo: Una
persona tiene las características: altura, peso, tamaño de zapato, color de los ojos, sexo,
.... Pueden ser medibles (variables cuantitativas (peso, altura, tamaño de zapato,...)) o
no medibles (variables cualitativas (color de los ojos, sexo)).
Las diferentes formas que puede mostrar una variable cualitativa se llaman
modalidades. Por ejemplo: el estado civil tiene las modalidades casado, soltero y viudo;
el sexo tiene las modalidades varón y hembra.
Una variable estadística puede ser discreta o continua. Una variable estadística se
llama discreta cuando el conjunto de sus valores posibles es numerable. Por ejemplo,
el número de automóviles fabricados diariamente en una fábrica, el número de fallos de
una máquina a la hora, .... Una variable estadística se llama continua cuando puede
tomar valores entre dos distintos, por muy próximos que los fijemos. Por ejemplo, el
tiempo de duración de un suceso, el peso de un objeto, ....
En lo que sigue, supondremos que el orden en que se recogen los datos es irrelevante (si
no, tenemos que utilizar métodos especiales para series temporales).
1.2 Distribuciones de frecuencias para datos numéricos
Supongamos que tenemos un conjunto de datos numéricos de tamaño n,
{ x1 , x2 ,..., xn } , de una variable X. Entre los datos hay m (m ≤ n) distintos valores
{ x1' , x2' ,..., xm' } .
Podemos resumir un conjunto de datos por una tabla de valores
observados de la variable y sus frecuencias de aparición tanto absolutas como relativas.
1.2.1 Frecuencia absoluta
La frecuencia absoluta de x 'j , f a x 'j , es el número de veces que se observa x 'j en el
( )
conjunto de datos.
2
1.2.2 Frecuencia relativa
La frecuencia relativa de x 'j , f r x 'j , es
( )
fr (x ) =
'
j
nùmero de veces que se observa x 'j entre los datos
n
1.2.3 Frecuencia acumulada
Suele ser útil también incluir frecuencias acumuladas (tanto absolutas, Fa x 'j , como
( )
( )
relativas, Fr x 'j ). Estas frecuencias acumuladas son simplemente sumas de las
frecuencias definidas antes.
1.2.4 Tabla de frecuencias
Podemos resumir los valores observados y sus frecuencias en una tabla como en el
siguiente ejemplo.
Ejemplo 1.1
Los siguientes 120 datos se han obtenido al observar el número de fallos de un sistema
eléctrico.
1
1
1
1
0
3
1
2
1
4
3
4
2
2
1
0
1
0
1
0
6
2
1
1
1
3
2
1
3
2
2
1
2
2
5
1
2
3
1
0
2
3
3
2
4
0
2
0
1
0
2
1
1
2
1
2
2
2
1
1
2
3
2
3
2
3
4
1
0
2
2
0
2
2
3
2
3
0
0
0
3
4
4
0
2
3
3
2
3
1
2
5
2
2
3
2
2
1
1
1
0
2
3
0
4
1
1
0
4
2
1
0
2
0
2
0
2
3
4
3
Podemos construir la siguiente tabla para resumirlos.
( ) ( )
( ) ( )
x 'j
f a x 'j f r x 'j
Fa x 'j Fr x 'j
0
1
2
3
4
5
6
20
30
38
20
9
2
1
20
50
88
108
117
119
120
0,1667
0,2500
0,3167
0,1667
0,0750
0,0167
0,0833
0,1667
0,4167
0,7334
0,9000
0,9750
0,9917
1,0000
En esta tabla se observa que 31,67% de los datos tienen el valor 2 y que 97,50% tienen
un valor menor o igual a 4.
1.2.5 Agrupamiento
Cuando el número de valores distintos que tome una variable discreta sea grande, o
cuando la variable sea continua, conviene agrupar los datos en intervalos de clases,
elegidos de forma que no se pierda mucha información.
3
1.2.6 Elección de los intervalos
• Decidir el número de clases a considerar. Este número debe ser entre 5 y 20. Una
regla frecuentemente utilizada en la práctica es escoger el entero más próximo a n ,
siendo n el número de datos, pero conviene probar con distintos números de clases y
escoger aquel que proporcione una descripción más clara (cuando representamos las
frecuencias en una gráfica, como un histograma).
• Para simplificar es usual seleccionar los límites de clase que definen los intervalos,
de manera que éstos sean de la misma longitud. Cada observación tiene que
clasificarse sin ambigüedad en un solo intervalo. Por ejemplo [1-7), [7-13), [13-19),
... Los números extremos de los intervalos se llaman limites reales de clase. Al
centro del intervalo le llamaremos marca de clase.
Ejemplo 1.2
Los siguientes 90 datos representan el tiempo (en horas) entre dos fallos consecutivos
de una máquina.
0,2527
0,1082
2,3640
0,2925
0,3109
2,6660
4,1283
0,7033
0,8398
2,8120
5,9698
1,4029
1,0275
2,6449
0,4149
1,2292
2,2976
0,0127
1,9646
1,5422
6,0150
8,1102
0,5318
1,7856
1,0304
0,2239
6,1265
0,5707
4,0653
0,5801
0,7033
5,2857
1,5169
1,5780
2,6781
0,9573
0,1958
1,8654
0,4995
4,5410
0,2918
0,8548
7,4964
0,1094
1,8982
9,0298
0,0703
3,5947
0,1659
0,4735
1,6724
6,0339
1,4612
0,9541
1,0826
8,3350
0,7881
5,9078
2,7487
1,7483
0,0466
0,9490
1,1176
0,5541
0,1470
7,2789
4,6069
0,5520
0,9409
0,5582
1,1430
0,5175
3,5367
1,6817
0,2411
0,8949
2,0238
1,4001
2,2691
0,6177
10,1949
1,5376
3,8023
0,7350
1,8357
0,0300
0,8994
0,7002
0,0760
0,8956
Para estos datos el recorrido de los datos es x má x − x mín = 10,1949 − 0,0127 = 10,1822 . Si
definimos intervalos con una amplitud de una unidad, y empezamos con un primer
intervalo con marca de clase de 0,5, 11 intervalos abarcan el campo de los datos. Con
estos intervalos podemos producir la siguiente tabla:
Intervalo
0,00-1,00
1,00-2,00
2,00-3,00
3,00-4,00
4,00-5,00
5,00-6,00
6,00-7,00
7,00-8,00
8,00-9,00
9,00-10,00
10,00-11,00
Marca de Clase(x)
0,5
1,5
2,5
3,5
4,5
5,5
6,5
7,5
8,5
9,5
10,5
4
f a ( x) f r ( x)
Fa ( x) Fr ( x)
41
21
9
3
4
3
3
2
2
1
1
41
62
71
74
78
81
84
86
88
89
90
0,4555
0,2333
0,1000
0,0333
0,0444
0,0333
0,0333
0,0222
0,0222
0,0111
0,0111
0,4556
0,6889
0,7889
0,8222
0,8667
0,9000
0,9333
0,9556
0,9778
0,9889
1,0000
Vemos que 45,55% de los datos tienen un valor menor de 1,00 y que 78,89% tienen un
valor menor que 3,00.
1.3 Representaciones gráficas
En la Estadística las representaciones gráficas tienen un papel muy importante, puesto
que para los seres humanos, es mucho más fácil interpretar una representación gráfica
de información numérica, que un gran conjunto de números.
1.3.1 Representaciones gráficas para datos numéricos
Si tenemos un conjunto de datos numéricos, podemos representar la información que
contiene utilizando varias representaciones gráficas. A continuación consideramos las
más utilizadas.
1.3.1.1 Diagrama de barras
Utilizado para datos de variables discretas y en general para distribuciones de
frecuencias de datos sin agrupar en intervalos. Se traza un par de ejes cartesianos y los
distintos valores de la variable se colocan en la abscisa. Sobre cada uno de ellos se
levanta una barra cuya altura es la frecuencia (absoluta o relativa) de dicho valor. Para
los datos de Ejemplo 1.1 podemos producir el siguiente diagrama de barras (con
frecuencias absolutas).
40
Frecuencia
absoluta
30
20
10
0
0
1
2
3
4
5
6
x
1.3.1.2 Histograma
La representación gráfica más frecuente para datos agrupados es el histograma. Sobre
cada intervalo de clase se levanta un rectángulo cuya área sea igual a la frecuencia de
la clase. A la altura de un rectángulo se le llama densidad del intervalo de clase. Para
los datos de Ejemplo 1.2 tenemos el siguiente histograma.
5
0.5
Densidad
0.4
0.3
0.2
0.1
0.0
0.5
1.5
2.5 3.5
4.5 5.5 6.5
7.5 8.5 9.5 10.5
x
1.3.1.5 Polígono de frecuencias
Si no hemos agrupado los datos en intervalos, el polígono de frecuencias se obtiene
uniendo los extremos superiores de las barras del diagrama de barras. Si hemos
utilizado intervalos de agrupamiento el polígono de frecuencias se obtiene uniendo los
puntos medios de las bases superiores de cada rectángulo del histograma.
Ejercicio 1.1
Producir los polígonos de frecuencias para los datos de Ejemplos 1.1 y 1.2.
1.3.1.3 Diagrama de tallo y hojas
Un método semi-gráfico de representar datos numéricos, especialmente útil cuando el
tamaño del conjunto de datos es pequeño (menor que 50), es el diagrama de tallo y
hojas de Tukey. Para construir dicho diagrama:
• Redondear los valores a dos o tres cifras significativas, expresándolos en unidades
convenientes.
• Representarlos en una tabla con dos columnas separadas por una línea vertical como
sigue:
1. Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos de
las decenas. Estos dígitos forman el tallo del diagrama. A la derecha,
escribir las unidades. Estas últimas forman las hojas. Por ejemplo, 95 se
escribe 9|5.
2. Para datos con tres dígitos el tallo se forma con los dígitos de las centenas y
decenas (escritos a la izquierda) separados por la línea de las unidades. Por
ejemplo, 264 se escribe 26|4.
• Cada tallo define una clase, y se escribe solo una vez. Es usual también ordenar los
valores en el tallo en el orden que crecen. El número de hojas representa la
frecuencia de dicha clase.
• Si el primer dígito de la clasificación varía poco, la mayoría de los datos se agrupan
alrededor de un tallo y el diagrama resultante tiene poco detalle. En este caso es
conveniente subdividir cada tallo en dos o más partes.
Ejemplo 1.3
Los siguientes 34 datos representan el peso de 34 distintos cerrojos del mismo tipo en
kg.:
0,4819
0,5025
0,4208
0,4301
0,4351
0,4413
0,4742
0,3860
0,3770
0,4673
0,3528
0,3998
0,3936
0,4607
0,4532
0,4204
6
0,4126
0,4630
0,4579
0,5072
0,4725
0,3697
0,4528
0,3758
0,4327
0,3119
0,3903
0,4293
0,4100
0,3482
0,4307
0,4132
0,3717
0,4200
Para estos datos podemos producir el siguiente diagrama de tallo y hojas.
Tallo-y-hoja de Peso Kg.
Unidad de hoja = 0,010
1
1
3
7
11
14
(8)
12
8
3
2
3
3
3
3
3
4
4
4
4
4
5
N
= 34
1
45
6777
8999
111
22223333
4555
66677
8
00
1.3.1.4 Diagrama de puntos
Otro gráfico muy útil para representar la distribución de un número pequeño de datos
(menor que 50) es el diagrama de puntos. En un diagrama de este tipo, empezamos con
una línea horizontal suficientemente larga para representar al recorrido de los datos.
Después, incluimos una escala con suficiente detalle para localizar el lugar de cada dato
respecto la línea. Para los datos de Ejemplo 1.3 podemos construir el siguiente diagrama
de puntos.
. . .
.
..
..: .: . : : .:.. :.......
..
-----+---------+---------+---------+---------+---------+-Peso
Kg.
0,320
0,360
0,400
0,440
0,480
0,520
1.3.1.6 Diagrama de frecuencias acumuladas
Podemos construir un diagrama de este tipo utilizando frecuencias acumuladas (tanto
absolutas como relativas) para datos no agrupados. En la abscisa, empleamos una
escala suficientemente amplia para el recorrido de los datos. Sobre cada distinto valor
numérico, colocamos un punto cuya altura sobre la abscisa corresponde a la frecuencia
acumulada correspondiente a este valor. Desde cada uno de estos puntos trazamos una
recta horizontal que termina en el punto cuya abscisa es el siguiente valor numérico
observado. Finalmente, conectamos los extremos de estas rectas horizontales con rectas
verticales.
Para los datos de Ejemplo 1.1 podemos construir el siguiente diagrama de frecuencias
acumuladas.
7
Frecuencia acumulada (relativa)
1,0
0,8
0,6
0,4
0,2
0,0
0
1
2
3
4
Número de fallos
8
5
6
1.3.1.7 Polígono de frecuencias acumuladas
Esta representación gráfica es válida para variables estadísticas agrupadas en
intervalos. En la abscisa representamos los distintos intervalos de clase (solapados).
Sobre el extremo superior de cada intervalo colocamos un punto cuya ordenada es la
frecuencia acumulada (absoluta o relativa) del intervalo correspondiente. Finalmente,
conectamos con una línea recta cada punto y el que sigue para conseguir el polígono de
frecuencias acumuladas. Si utilizamos frecuencias acumuladas absolutas, la máxima
altura del ultimo intervalo tendrá frecuencia n. Análogamente, si las frecuencias
acumuladas utilizadas son relativas, la máxima altura alcanzada será la unidad.
Frecuencia acumulada (absoluta)
Para los datos de Ejemplo 1.2 podemos construir el siguiente polígono de frecuencias
acumuladas.
90
80
70
60
50
40
30
20
10
0
0
1
2
3
4
5
6
7
8
9
10 11
Tiempo (horas)
1.3.2 Representaciones gráficas para variables cualitativas no ordenables
Consideramos el siguiente ejemplo.
Ejemplo 1.4
Los siguientes datos representan los números de coches de distintos colores vendidos
en España durante el año 1996 por una empresa. (La pintura más barata es la blanca.)
Pintura
Número de coches
Blanca
Verde
Azul
Roja
2764
672
865
927
En este ejemplo la variable estadística es cualitativa y no hay un orden natural para las
modalidades que muestra. Decimos que la variable estadística (el color de un coche) es
no ordinable. A continuación vamos a introducir las representaciones gráficas más
útiles para resumir la información contenida en datos de variables de este tipo.
9
1.3.2.1 Diagrama de rectángulos
Este diagrama es muy parecido a un diagrama de barras. En la abscisa se representan
las distintas modalidades. La gráfica puede ser más útil si ordenamos las modalidades
de forma que sus modalidades sean no crecientes. Para los datos de Ejemplo 1.4
podemos construir el siguiente diagrama de rectángulos utilizando las frecuencias
absolutas.
3000
Número de
Coches
2000
1000
0
Blanca
A zul
Roja
Verde
Pintura
1.3.2.2 Diagrama de sectores
Empezando con un círculo, se asigna un sector circular a cada una de las modalidades
siendo la área del sector proporcional a la frecuencia de la modalidad. El ángulo
asociado con el sector de la i-ésima modalidad, en grados, α io , viene dado por:
α i °=
f a (i )
× 360°
n
donde f a (i ) es la frecuencia absoluta asociada con la i-ésima modalidad y n es el
número de observaciones. También suele ser útil ordenar los sectores en el diagrama
según el tamaño de las frecuencias (para facilitar la comparación de las frecuencias).
Para los datos de Ejemplo 1.4 tenemos
Modalidad
Frecuencia
α°
Blanca
Roja
Azul
Verde
2764
927
865
672
190,3
63,8
59,6
46,3
5228
360
El diagrama de sectores asociado a estas frecuencias es el siguiente.
10
Total
A zul ( 865, 16,5%)
Roja ( 927, 17,7%)
Verde ( 672, 12,9%)
Blanca (2764, 52,9%)
1.4 Medidas de centralización
Hemos visto en la sección 1.3 que podemos obtener una descripción gráfica de un
conjunto de datos utilizando varios formas de gráfico. Estos gráficos darnos un sumario
global de la distribución de los datos contenidos en un conjunto. También hay varios
valores numéricos que podemos usar para resumir las características de un conjunto de
datos (numéricos). Nos llamamos estos valores numéricos estadísticos y facilitan el
estudio y comparación de muestras. Dos tipos de estadísticos muy importantes son ellos
que proporcionen sumarios del “centro” de la distribución de los datos y el nivel de la
“gama” de los datos (o su variabilidad). Las medidas que resumen estos dos
características se llaman medidas de centralización y medidas de dispersión,
respectivamente. También hay medidas que resumen el nivel de asimetría y
apuntamiento de una muestra como veremos en la sección 1.6.
Es importante tener en cuenta que estas medidas son informativas para datos
homogéneos y no tienen mucho sentido si tenemos un conjunto de datos formado por
datos de distintos poblaciones. Si los datos de una muestra vienen de distintos
poblaciones es más adecuado dividir los datos en distinto grupos (asociados con los
distinto poblaciones) y calcular las medidas características para cada uno de los
grupos.
En el resto de esta sección consideramos en más detalle las medidas de centralización
más frecuentemente usadas. Supongamos en lo sucesivo que tenemos las observaciones
{x i ,..., x n } de una variable estadística X.
1.4.1 La media aritmética
1.4.1.1 Definición
La media de centralización que es más frecuentemente utilizada en la estadística
(sobre todo en la estadística clásica) es la media aritmética, x , que se define como:
n
x + x 2 +...+ x n
x= 1
=
n
11
∑x
i =1
n
i
Si tenemos la distribución de frecuencias de los distintos valores tomados por los datos
(es decir, {x i' ,..., x m' } ), vemos que:
∑ x f (x )
m
x=
x1' fa ( x1' ) +...+ x 'm fa ( x m' )
n
'
j a
=
'
j
j =1
n
m
= ∑x
j =1
'
j
( )=
fa x 'j
n
∑ x f (x )
m
'
j r
'
j
j =1
Es decir, equivalentemente, podemos calcular el valor de x utilizando la fórmula
( )
m
x = ∑ x 'j f r x 'j
j =1
Considerando esta ultima fórmula vemos que la media aritmética es una suma
ponderada (o combinación lineal) de los distintos valores, con los “pesos” definidos por
sus frecuencias de observación.
Utilizando las frecuencias asociadas con los datos de Ejemplo 1.1, la media aritmética
de estos datos es x = 0(0,1667) + ... + 6(0,0833) = 218 120 = 1,8167 . En el caso de
Ejemplo 1.2 tenemos 90 datos distintos, entonces: x = (0,2527 + 2,6449 + ... +
1,4001)/90 = 188,35/90 = 2,093.
1.4.1.2 Propiedades de la media aritmética
• La suma de las desviaciones de un conjunto de datos respecto de la media es cero. Es
n
decir,
∑ (x
i
− x) = 0 .
i =1
• La suma de los cuadrados de las desviaciones de los valores respecto de su media es
n
mínima. Es decir que Q( s) = ∑ ( x i − s) es mínima cuando s = x .
2
i =1
• Si una muestra de n1 datos tiene una media x1 , una segunda muestra de n2 datos
tiene una media x2 ,... una k-ésima muestra de nk datos tiene media x k , entonces la
k
media aritmética, x , de todos los N = ∑ ni datos es:
i =1
k
k
x=
∑ ni x i
i =1
k
∑n
=
ni
∑∑ x
i =1 j =1
N
i
i =1
donde x ij es el j-ésimo dato de la i-ésimo muestra.
12
ij
• Supongamos que observamos los valores de las dos variables estadísticas X e Y para
n individuos. Es decir, tenemos los datos { x i ,..., x n } e {yi ,..., y n } , entonces
x+y= x+y.
• Si a es un constante, ax = ax .
• Si x ∗ =
x+a
x+a
.
, entonces x ∗ =
b
b
1.4.2 La mediana
La mediana también tiene un papel muy importante en la estadística (sobre todo en los
métodos non-parametricos y los nuevos métodos robustos). Ordenando los datos en
forma creciente, la mediana se define como el valor que deja igual número de
observaciones inferiores que superiores a el. Si hay un número par de datos esta
definición no proporciona un valor único y para esta caso tomamos como valor mediano
la media aritmética de los dos centrales. Por ejemplo, si tenemos el conjunto de datos
{4,1,4,2,4,2,5,3} , ordenando los datos en forma creciente tenemos {1,2,2,3,4,4,4,5} . Los
dos valores centrales son 3 y 4 y su media aritmética es 3,5.
Ordenando los 120 datos de Ejemplo 1.1 en forma creciente, obtenemos:
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
4
4
4
4
4
4
4
4
4
5
5
0
1
1
2
2
3
3
6
Los dos valores centrales son ambos 2. Entonces, la mediana es su media aritmética (2
+ 2)/2 = 2.
1.4.3 La moda
La moda se define como el valor de una muestra de datos que tiene la mayor
frecuencia. Para los datos de Ejemplo 1.1 la moda es el valor 2 (con una frecuencia
absoluta de 38). En Ejemplo 1.2 tenemos 90 valores distintos de una variable continua
entonces la moda no es única (cada una de los 90 observaciones tiene una frecuencia de
uno). No obstante, utilizando agrupamiento para esto tipo de datos, podemos definir el
intervalo modal como el intervalo con la frecuencia máxima. Por los datos de Ejemplo
1.2 el intervalo modal es [0,1) (con una frecuencia absoluta de 41).
1.5 Medidas de dispersión
A cada medida de centralización podemos asociarle una medida de la variabilidad de
los datos respecto a ella.
13
1.5.1 La varianza
Una medida asociada con la media es la varianza de una muestra, ~
s 2 , definido por:
n
~
s2 =
∑ (x
i
− x)
2
i =1
n
Si tenemos la distribución de frecuencias de los distintos valores que toman los datos,
s 2 utilizando la fórmula:
podemos calcular el valor de ~
m
(
~
s 2 = ∑ x 'j − x
j =1
) f (x )
2
'
j
r
(Muchos autores definen la varianza de una muestra como:
n
s2 =
∑(x
i
− x)
2
i =1
n −1
porque tiene ciertas propiedades importantes. Minitab, por ejemplo, utiliza esta
s 2 y s 2 serán muy parecidas.)
definición. Obviamente, si n es grande, ~
Como podemos ver, la varianza es la media de los cuadrados de las desviaciones de los
valores respecto de su media. Es 0 cuando todos los valores coinciden con la media.
En realidad no es necesario calcular las desviaciones para calcular la varainza porque:
n
∑ (x
i
− x)
i =1
2
⎛ n ⎞
⎜ ∑ xi ⎟
n
⎝
⎠
2
= ∑ xi − i =1
n
i =1
2
1.5.2 La desviación típica
1.5.2.1 Definición
Es simplemente la raíz cuadrada positiva de la varianza, es decir:
n
~
s=
∑(x
i
− x)
2
i =1
n
ó
n
s=
∑ (x
i
− x)
i =1
n −1
14
2
(que es la fórmula utilizada por Minitab)
La desviación típica tiene las mismas dimensiones que los datos originales.
n
Para los datos de Ejemplo 1.2
∑x
i =1
2
i
= 873,62 ,
n
∑ x = 188,35 y n = 90. Entonces:
i =1
873,62 − ( 188,35) 90
~
s2 =
= 5,327
90
2
873,62 − ( 188,35) 90
s =
= 5,387
89
s= ~
s 2 = 2,308
y ~
2
2
y s = s 2 = 2,321
1.5.2.2 Propiedades
• Es invariante ante un cambio de origen. Es decir, si Y = X + c, ~
sy = ~
s x . También,
sy = sx .
~
s
s
X
(k un constante), ~
sy = x . También, s y = x .
k
k
k
• Utilizando las propiedades arriba y las de la media, tenemos el siguiente resultado
importante:
Tipificación de una variable: Sea {x i ,..., x n } una muestra de datos (de una
variable estadística X) con media x y desviación típica ~
s y definimos la
• Si Y =
X−x
variable Y = ~ , entonces: y = 0 y s y = 1 .
sx
x
1.5.3 El coeficiente de variación de Pearson
Se denomina coeficiente de variación al cociente:
Cv =
~
s
x
que es una medida relativa de variabilidad (y que no tiene sentido si x = 0). En la
x
ingeniería se utiliza mucho el coeficiente inverso, ~ , que se conoce como coeficiente
s
2,308
s = 2,308 y Cv =
señal-ruido. Para los datos de Ejemplo 1.2, x = 2,093, ~
= 110
, .
2,093
1.5.4 La mediana de las desviaciones absolutas
Una medida de dispersión asociada a la mediana, M, es la mediana de las
desviaciones absolutas (MEDA) definida por:
MEDA = mediana x i − M
Si conocemos la mediana y la MEDA de un conjunto de datos sabemos que, al menos, el
50% de los datos están en el intervalo (M ± MEDA).
15
Esta medida (como la mediana) no es afectado por datos extremos (es decir, muy
grandes o muy pequeños). Lamamos medidas que tienen esta propiedad medidas
robustas o resistentes.
Ordenando los datos de Ejemplo 1.2 en forma creciente, tenemos:
0,0127
0,1470
0,2925
0,5520
0,7033
0,8956
1,0304
1,4612
1,7483
2,2691
2,8120
4,6069
7,2789
0,0300
0,1659
0,3109
0,5541
0,7033
0,8994
1,0826
1,5169
1,7856
2,2976
3,5367
5,2857
7,4964
0,0466
0,0703
0,0760
0,1082
0,1094
0,1958
0,2239
0,2411
0,2527
0,2918
0,4149
0,4735
0,4995
0,5175
0,5318
0,5582
0,5707
0,5801
0,6177
0,7002
0,7350
0,7881
0,8398
0,8548
0,8949
0,9409
0,9490
0,9541
0,9573
1,0275
1,1176 1,1430 1,2292
1,4001
1,4029
1,5376
1,5422
1,5780
1,6724
1,6817
1,8357
1,8654
1,8982
1,9646
2,0238
2,3640
2,6449
2,6660
2,6781
2,7487
3,5947
3,8023
4,0653
4,1283
4,5410
5,9078
5,9698
6,0150
6,0339
6,1265
8,1102
8,3350
9,0298
10,1949
La mediana de los datos es la media de los datos 1,1176 y 1,1430, es decir, 1,1303. Los
valores de las desviaciones absolutas ordenados en forma creciente son:
0,0127
0,1762
0,1813
0,2755
0,2905
0,4270
0,4270
0,5596
0,5721
0,6553
0,6568
0,8385
0,9833
1,0209
1,1388
1,1673
2,4064
2,4644
4,7775
4,8395
7,2047
7,8995
0,0127
0,0477
0,0989
0,0999
0,1028
0,1730
0,1894
0,2309
0,2347
0,2354
0,2698
0,2726
0,3309
0,3422
0,3866
0,3953
0,4073
0,4119
0,4301
0,4477
0,5126
0,5421
0,5502
0,5514
0,5762
0,5783
0,5985
0,6128
0,6180
0,6308
0,7054
0,7154
0,7351 0,7679 0,8194 0,8343
0,8378
0,8776
0,8892
0,8935
0,9064
0,9345
0,9644
1,0221
1,0543
1,0600
1,0837
1,1003
1,1176
1,2337
1,5146
1,5357
1,5478
1,6184
1,6817
2,6720
2,9350
2,9980
3,4107
3,4766
4,1554
4,8847
4,9036
4,9962
6,1486
6,3661
6,9799
9,0646
La mediana de estos valores es la media de los dos valores centrales 0,7679 y 0,8194 =
0,7937. Es decir, en este caso la MEDA = 0,7937.
1.5.5 El recorrido
Como indicado antes, el recorrido (o rango) de un conjunto de datos es la diferencia
entre sus valores máximo y mínimo.
1.5.6 Percentiles, cuartiles y el rango intercuartílico
Si ordenamos los datos en forma creciente podemos identificar los percentiles y
cuartiles de su distribución. Llamamos percentil α, Pα , al valor que deja inferiores o
iguales a él α% de los datos. Por ejemplo, si el número de datos es impar la mediana es
el percentil 50, P50 . Llamamos cuartiles a aquellos valores que dividen la distribución
de un conjunto de dato en cuatro partes iguales. Entonces, el primer cuartil, Q1 , es
16
igual al percentil 25, el segundo, Q2 , es la mediana (y percentil 50), el tercero, Q3 , el
percentil 75. Por ultimo, el rango intercuartílico es la diferencia entre Q1 y Q3 .
Utilizando los datos ordenados en forma creciente de Ejemplo 1.2 vemos que el rango
es 10,1949 - 0,0127 = 10,1822; Q1 = P25 = ( 0,5520 + 0,5541) 2 = 0,5531;
Q2 = P50 = 11303
,
; Q3 = P75 = ( 2,6660 + 2,6781) 2 = 2,6721 y entonces el rango
intercuartílico en este caso viene dado por Q3 − Q1 = 2.119 .
1.6 Medidas de asimetría y apuntamiento
Hay varios medidas que podemos usar para resumir la asimetría o apuntamiento de
una distribución. A continuación consideramos medidas relativas a la media.
1.6.1 Distribuciones simétricas y asimétricas
Decimos que la distribución de frecuencias asociada con un conjunto de datos es
simétrica cuando valores de la variable equidistantes de un valor central tienen las
mismas frecuencias. En este caso, x = mediana. Como podemos ver desde las
distribuciones de frecuencias de los datos de Ejemplos 1.1 y 1.2, las dos distribuciones
no son simétricas (son asimétricas). El diagrama de barras de la primera y el histograma
del segundo representan distribuciones asimétricas a la derecha (con colas a la
derecha). En este caso x ≥ mediana .
También podemos encontrar distribuciones asimétricas a la izquierda (con colas a la
izquierda). Para una distribución de este tipo x ≤ mediana .
1.6.2 Coeficiente de asimetría de Fisher
En un conjunto de datos con una distribución simétrica respecto a su media, x , la
n
suma
∑ (x
i
− x)
3
será nula, mientras para una distribución asimétrica esta suma
i =1
crecerá con el nivel de la asimetría. Se define el coeficiente de asimetría de Fisher,
Cas , como:
n
Cas =
∑(x
i =1
i
− x)
3
ns~ 3
que es una media de asimetría adimensional.
1.6.3 Coeficiente de agrupamiento o curtosis
Consideramos los siguientes cuatro distribuciones de frecuencias relativas:
Distribución 1
x
− 10 / 9
0
10 / 9
Distribución 2
x
fr ( x )
0,45 − 10 / 7
0,1
0
0,45
10 / 7
Distribución 3
fr ( x )
0,35
0,3
0,35
x
− 2
0
2
17
fr ( x )
0,25
0,5
0,25
Distribución 4
x
− 10 / 3
0
10 / 3
fr ( x )
0,15
0,7
0,15
Vemos que todas son simétricas con medio 0 y ~
s 2 = 1. No obstante, en la primera la
frecuencia relativa del valor central es muy baja, en la segunda es casi la misma que la
de los otros dos valores, en la tercera el valor central es el más frecuente y en la cuarta
el valor central es mucho más frecuente que los otras dos valores. La distribución de las
frecuencias relativas entre los valores centrales y los valores extremos define la
característica llamada apuntamiento o curtosis. Las dos primeras distribuciones tiene
poco apuntamiento, la tercera más y la cuarto mucho. Podemos medir esta propiedad de
una distribución mediana el coeficiente de apuntamiento, definido como:
n
∑ (x
Cap =
i =1
− x)
i
4
ns~ 4
Para las cuatro distribuciones tenemos los siguientes valores de *.
Distribución
Cap
1
2
3
4
1,11
1,43
2
3,33
1.7 Momentos
Se define el momento de orden k respecto del origen como:
n
mk' =
∑x
k
i
i =1
n
Los momentos respecto a la media se define por:
n
∑ (x
mk =
i
− x)
k
i =1
n
Con estas definiciones, vemos que:
n
m0' =
∑x
i =1
n
0
i
n
=1
m1' =
i
i =1
n
=x
m1 =
∑x
i =1
n
∑(x
m2 =
− x)
1
i
n
∑ (x
i
0
=1
i =1
n
2
i
− x)
n
n
n
m2' =
i
i =1
m0 =
n
∑x
∑ (x
− x)
i =1
n
También vemos que:
18
=0
2
=~
s2
n
Cas =
∑ (x
i =1
− x)
i
∑ (x
i =1
m
= ~ 33 =
s
ns~ 3
n
Cap =
3
− x)
i
(
m3
m2
)
3
4
ns~ 4
m
= ~ 44 =
s
(
m4
m2
)
4
s = 2,308,
Para los datos de Ejemplo 1.2 tenemos: x = 2,093, ~
n
∑ (x
− x ) = 1823,09,
3
i
i =1
n
∑ (x
− x ) = 12773,9. Entonces Cas =
4
i
i =1
1823,09
90( 2,308)
3
= 1,648 y Cap =
12773,9
90( 2,308)
4
= 5,002 .
1.8 Ejercicios matemáticos
n
1.8.1 Encuentre el valor de a para que
∑ (x
i
− a) = 0 .
i =1
n
1.8.2 Encuentre el valor a que minimiza
∑ (x
− a) .
2
i
i =1
n
1.8.3 Encuentre el valor a que minimiza
∑x
i
−a .
i =1
1.8.4 Demuestre que si multiplicamos todos los valores de una variable por k, la
media y la desviación típica quedarán multiplicadas también por k (k > 0).
1.8.5 ¿Qué transformación sufre el coeficiente de variación de Pearson de una
variable X cuando se multiplican sus valores por un constante k (k > 0)? ¿Y si
se dividen por k?
1.8.6 Demuestre que si construimos una variable Z mezclando n1 valores de X y n2
valores de Y, la media de Z, es:
z=
n2
n1
x+
y
n1 + n2
n1 + n2
siendo x e y las medias de las variables iniciales.
1.8.7 Se tienen dos discos con radios 10 y 5 cm, respectivamente. Se construye otra
disco cuya área es la media de las áreas de los dos discos originales. ¿Será su
radio también la media de los radios dados?
19
1.8.8 Se tienen n valores de una variable estadística, {x i ,..., x n } que arrojan una
media de 8 y una desviación típica de 5. Se construye los nuevos valores
2
yi = ( x i − 2) . ¿Cuanto vale y ?
n
1.8.9 ¿Es cierta la igualdad
n
∑ ( xi − x ) = ∑ ( xi − a) − n( x − a) para cualquier
i =1
2
2
2
i =1
número real a?
1.8.10 Dadas las seis observaciones -10, 3, x, 10, 1, 0, se sabe que su desviación típica
es igual a su coeficiente de variación de Pearson. Se pide:
a) Encontrar el valor de x.
b) Encontrar la media de la distribución.
c) ¿Es la distribución simétrica?
20
Descargar