Estadística Descriptiva - Campus Virtual

Anuncio
Estadística Descriptiva
Álvaro José Flórez
1 Escuela
de Ingeniería Industrial y Estadística
Facultad de Ingenierías
Febrero - Junio 2012
Estadística Descriptiva
Es una etapa de la metodología estadística, en la que no se involucra
la teoría de la probabilidad como herramienta para realizar inferencias
a toda la población, sin embargo se construyen indicadores, se hacen
gráficos, se realizan comparaciones, siempre con el interés de conocer
sobre la población de donde fue tomada la muestra. Permite procesar
los datos de una muestra y obtener información que puede ser usada
con fines exploratorios, para plantear hipótesis o como materia prima
de la etapa de inferencia estadística (Behar and Yepes, 1996)
Algunas definiciones
La materia prima de la estadística son los datos, los cuales son
el resultado de la observación de alguna(s) característica(s) de los
elementos de interés en cierto estudio (Variables). La naturaleza de
la característica y el instrumento que se dispone para registrar la
misma, definirá el tipo de escala de medición que se ajusta.
Medición: proceso por el cual asignamos un valor a una variable a
determinada unidad de análisis.
Variable: Característica medible de la población, la cual es de interés
Tipos de Variables
Variables cualitativas:
Son también llamados atributos, y se refiere a variables no pueden
expresarse numéricamente.
Ejemplo: El genero o la raza de una persona, estado civil, clasificación
de un articulo como defectuosos o no,...
Variables cuantitativas:
asumen valores numéricos que poseen un orden inherente.
Ejemplo: la edad o estatura de un grupo de personas, temperatura,
diámetro de un tornillo (mm),...
Escalas de medición (Variables cualitativas)
Escala Nominal:
Hace uso de números para dar nombre a los elementos que han sido
clasificados en distintos grupos, clases o categorías de acuerdo con
alguna propiedad cualitativa.
Ejemplo: Genero (1: Femenino, 2: Masculino), Color (1: Azul, 2:
Rojo, 3: Verde, 4: Otro)
El número asignado a una clase solo actúa como un rotulo o código
para diferenciar los elementos de esa clase con otra.
Escalas de medición (Variables cualitativas)
Escala Ordinal:
Hace uso de números para clasificar los elementos de un conjunto
en categorías en las cuales los números no sólo sirven para nombrar
sino que el valor de la medida se usa para indicar el orden que ocupa
un elemento al comparar el tamaño relativo de su medidas.
Ejemplo: Calificación de un producto (1: Excelente, 2: Bueno, 3:
Regular, 4: Malo, 5: Pésimo)
El número asignado sugiere un orden de las categorías, sin informar
sobre la magnitud de sus distancias.
Escalas de medición (Variables
cuantitativas)
Escala intervalo:
Hace uso de números no solo para determinar orden entre las
categorías sino también distancia entre ellas. Las mediciones por
intervalo emplean constantes de medición y el cero es considerado
como punto de referencia (no significa ausencia de característica).
Ejemplo: Temperatura: 0◦ no significa ausencia de temperatura
La escala de intervalo requiere un punto cero, como también, una
unidad de distancia, pero no importa cual punto se define como cero
ni cual unidad es la unidad de distancia.
Escalas de medición (Variables
cuantitativas)
Escala de razón:
Es usad cuando no solamente el orden y la distancia exacta entre
categorías son importante, sino también la razón (o el cociente)
entre dos medidas. Esta escala tiene un punto cero natural (significa
ausencia), a diferencia de la escala de intervalo que éste es arbitrario.
Ejemplo: Dinero, peso, velocidad
En general puede decirse que la escala de razón es la que tiene a su
disposición una mayor cantidad de herramientas estadísticas para su
tratamiento.
Variables discretas y continuas
En las escalas de intervalo y de razón algunas veces es necesario
establecer las diferencias de las variables por su naturaleza (variables
discretas y continuas).
Variable discreta, es aquella cuya naturaleza hace que el conjunto
de valores que puede tomar la variable sea finito o infinito numerable,
ejemplo:
Número de personas por hogar: 1, 2, 3, 4,...
Variable continua, es aquella cuya naturaleza hace que exista un
intervalo de puntos infinitos entre dos valores de la variable, ejemplo:
Estatura de una persona, (entre 1.60 cm y 1.70 cm, hay infinitos
valores)
Ejemplos
Para cada una de las siguientes variables determine su tipo y escala
de medición:
• Número telefónico
• Estrato socioeconómico
• Calificación del primer parcial de fundamentos de estadística
• Concentración de calcio en la sangre
Estadística Descriptiva
¿Cómo hago un análisis
de datos?
Distribución de datos
En una población del Cauca se tomó una muestra de 50 familias para
observar el número de personas menores de 12 años con el propósito
de estimar algunos indicadores sobre demanda potencial de educación
escolar. Esta arrojó los siguientes resultados:
4
3
0
2
2
0
2
2
1
2
1
1
3
4
5
2
2
0
2
0
3
1
1
3
3
0
3
4
1
3
2
0
2
2
2
5
3
1
0
0
3
0
5
1
1
1
1
4
3
5
Distribución de datos
En una población del Cauca se tomó una muestra de 50 familias para
observar el número de personas menores de 12 años con el propósito
de estimar algunos indicadores sobre demanda potencial de educación
escolar. Esta arrojó los siguientes resultados:
4
3
0
2
2
0
2
2
1
2
1
1
3
4
5
2
2
0
2
0
3
1
1
3
3
0
3
4
1
3
2
0
2
2
2
5
3
1
0
0
3
0
5
1
1
1
1
4
3
5
Se comienza organizando la información escribiendo los datos distintos de
que consta la muestra y haciendo un conteo para determinar el número de
veces que aparece cada dato
Distribución de datos
En una población del Cauca se tomó una muestra de 50 familias para
observar el número de personas menores de 12 años con el propósito de
estimar algunos indicadores sobre demanda potencial de educación escolar.
Esta arrojó los siguientes resultados:
xi
0
1
2
3
4
5
Total
ni
9
11
12
10
4
4
50
ni : es la frecuencia absoluta del dato xi
Distribución de datos
En una población del Cauca se tomó una muestra de 50 familias para
observar el número de personas menores de 12 años con el propósito de
estimar algunos indicadores sobre demanda potencial de educación escolar.
Esta arrojó los siguientes resultados:
xi
0
1
2
3
4
5
Total
fi =
ni
n:
ni
9
11
12
10
4
4
50
fi
0.18
0.22
0.24
0.2
0.08
0.08
1
es la frecuencia relativa del dato xi
f3 = 12
50 = 0,24 indica que el 24 % de las familias muestreadas presentan
2 personas menores de 12 años
Distribución de datos
En una población del Cauca se tomó una muestra de 50 familias para
observar el número de personas menores de 12 años con el propósito de
estimar algunos indicadores sobre demanda potencial de educación escolar.
Esta arrojó los siguientes resultados:
xi
0
1
2
3
4
5
Total
ni
9
11
12
10
4
4
50
fi
0.18
0.22
0.24
0.2
0.08
0.08
1
Ni
9
20
32
42
46
50
Ni = n1 + n2 + . . . + ni : es la frecuencia absoluta acumulada hasta el dato
xi
N3 = 9 + 11 + 12 = 32 Lo que indica que de acuerdo con la muestra, 32
familias presentan 2 o menos personas menores de 12 años
Distribución de datos
En una población del Cauca se tomó una muestra de 50 familias para
observar el número de personas menores de 12 años con el propósito de
estimar algunos indicadores sobre demanda potencial de educación escolar.
Esta arrojó los siguientes resultados:
xi
0
1
2
3
4
5
Total
Fi =
ni
n:
ni
9
11
12
10
4
4
50
fi
0.18
0.22
0.24
0.2
0.08
0.08
1
Ni
9
20
32
42
46
50
Fi
0.18
0.4
0.64
0.84
0.92
1
es la frecuencia relativa acumulada hasta el dato xi
32
F3 = 50
= 0,64 Lo que indica que de acuerdo con la muestra, el 64 % de
las familias presentan 2 o menos personas menores de 12 años
Propiedades y relaciones
Si se toma una muestra de n datos, de los cuales hay m distintos,
que ordenados en forma creciente son x1 , x2 , . . . , xm , entonces:
• 0 ≤ ni ≤ n
Pm
•
i=1 ni = n
• Nm = n
• 0 ≤ fi ≤ 1
Pm
•
i=1 fi = 1
•
•
Pj
i=1 ni
= Nj
• n1 = N1 ≤ N2 ≤ . . . ≤ Nm = n
Pj
i=1 fi
= Fj
• f1 = F1 ≤ F2 ≤ . . . ≤ Fm = 1
Representación gráfica
Cuando se trate de frecuencias absolutas o de frecuencias relativas,
se realizará la representación por medio del llamado diagrama de
frecuencias.
8
6
4
2
0
Frecuencia absoluta
10
12
Fig: Diagrama de frecuencias absolutas para el número de personas
menores de 12 por familia
0
1
2
3
Número de niños menores de 12 años por familia
4
5
Representación gráfica
Cuando se trate de frecuencias absolutas o de frecuencias relativas,
se realizará la representación por medio del llamado diagrama de
frecuencias.
0.15
0.10
0.05
0.00
Frecuencia relativa
0.20
0.25
Fig: Diagrama de frecuencias relativa para el número de personas
menores de 12 por familia
0
1
2
3
Número de niños menores de 12 años por familia
4
5
Representación gráfica
Las frecuencias acumuladas pueden definirse como funciones sobre
todos los números reales.
F (x) = fracción (o porcentaje) de los datos que son menores o
iguales que x
xi
0
1
2
3
4
5
Total
ni
9
11
12
10
4
4
50
fi
0.18
0.22
0.24
0.2
0.08
0.08
1
Ni
9
20
32
42
46
50
Fi
0.18
0.4
0.64
0.84
0.92
1


0,





0,18,





0,4,
F (x) = 0,64,


0,84,





0,92,




1,
si
si
si
si
si
si
si
x < 0,
0 ≤ x < 1,
1 ≤ x < 2,
2 ≤ x < 3,
3 ≤ x < 4,
4 ≤ x < 5,
x≥5
Representación gráfica
Las frecuencias acumuladas pueden definirse como funciones sobre
todos los números reales.
F (x) = fracción (o porcentaje) de los datos que son menores o
iguales que x
●
●
0.6
●
0.4
Frecuencia relativa acumulada
0.8
●
●
0.2
x < 0,
0 ≤ x < 1,
1 ≤ x < 2,
2 ≤ x < 3,
3 ≤ x < 4,
4 ≤ x < 5,
x≥5
●
0.0
si
si
si
si
si
si
si
1.0
Fig: Gráfico de frecuencias acumuladas


0,





0,18,





0,4,
F (x) = 0,64,



0,84,





0,92,




1,
−1
0
1
2
3
4
Número de personas menores de 12 años por familia
5
6
Estadística Descriptiva
¿Qué pasa si los datos
son continuos?
Distribución de datos
Una compañía constructora resuelve estudiar la resistencia a la
compresión de una mezcla de concreto, con el objetivo de hacer
control de calidad. Para ello tomaron 50 cilindros de prueba de
acuerdo con las normas establecidas. Los resultados en kg/cm2 de
presión obtenidos al cabo de 28 días de curado se encuentran a
continuación:
295
265
240
212
250
282
253
230
241
268
221
237
312
234
289
240
290
226
226
277
328
251
335
309
283
191
199
232
226
273
275
254
220
221
214
253
217
214
248
269
259
247
272
264
253
206
296
245
268
252
Distribución de datos
Una compañía constructora resuelve estudiar la resistencia a la
compresión de una mezcla de concreto, con el objetivo de hacer
control de calidad. Para ello tomaron 50 cilindros de prueba de
acuerdo con las normas establecidas. Los resultados en kg/cm2 de
presión obtenidos al cabo de 28 días de curado se encuentran a
continuación:
295
265
240
212
250
282
253
230
241
268
221
237
312
234
289
240
290
226
226
277
328
251
335
309
283
191
199
232
226
273
275
254
220
221
214
253
217
214
248
269
259
247
272
264
253
206
296
245
268
252
En estos casos, es más fácil agrupar la información en los llamados
intervalos de clase
Construcción de los intervalos de clases
1
Determinar los valores extremos (mínimo y máximo) y el rango de
los valores de la muestra:
Rango = máx(xi ) − mı́n(xi )
2
Determinar el número de intervalos de clase (m), la longitud de las
clases (C) y sus limites (L0 , L1 , . . . , Lm )
jemplo: m = 6(intervalos de clase
Límites de las clases:
Longitud de las clases:
L1 = L0 + C
L2 = L1 + C
Rango
C≈
...
m
Lm = Lm−1 + C
Distribución de datos
Una compañía constructora resuelve estudiar la resistencia a la
compresión de una mezcla de concreto, con el objetivo de hacer
control de calidad. Para ello tomaron 50 cilindros de prueba de
acuerdo con las normas establecidas. Los resultados en kg/cm2 de
presión obtenidos al cabo de 28 días de curado se encuentran a
continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
Total
ni
fi
50
1
Ni
Fi
Distribución de datos
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
Total
ni
6
11
14
11
5
3
50
fi
0.12
0.22
0.28
0.22
0.10
0.06
1
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
Distribución de datos
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
Total
¿Cómo se interpreta f3 ?
ni
6
11
14
11
5
3
50
fi
0.12
0.22
0.28
0.22
0.10
0.06
1
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
Distribución de datos
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
Total
ni
6
11
14
11
5
3
50
fi
0.12
0.22
0.28
0.22
0.10
0.06
1
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
El 28 % de los cilindros de concreto muestreados presentaron una
resistencia entre 239 kg/cm2 y 263kg/cm2
Distribución de datos
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
Total
¿Cómo se interpreta N4 ?
ni
6
11
14
11
5
3
50
fi
0.12
0.22
0.28
0.22
0.10
0.06
1
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
Distribución de datos
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
Total
ni
6
11
14
11
5
3
50
fi
0.12
0.22
0.28
0.22
0.10
0.06
1
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
42 cilindros de concreto presentaron una resistencia inferior o igual a
287kg/cm2
Representación gráfica
Cuando se trate de frecuencias relativas, se realizará la representación
por medio del llamado Histograma de frecuencias usando la
densidad fi0 del i-ésimo intervalo.
fi0 =
fi
Ci
Si se expresa la densidad como una función para cualquier número
real x, se obtiene la llamada función empírica de densidad, la cual
se expresa de forma general como:


0, si x < L0 ,
0
f x = Cfii si Li−1 < x ≤ Li


0, si x > Lm ,
Representación gráfica
Para el conjunto de datos se obtuvo:


0,
si x < 191,




0,12

si 191 ≤ x ≤ 215

24



0,22

si 215 < x ≤ 239

24


 0,28 si 239 < x ≤ 263
24
f 0 x = 0,22


 24 si 263 < x ≤ 287

0,10


si 287 < x ≤ 311

24


0,06


si 311 ≤ x ≤ 335

24


0,
si x > 335,
Representación gráfica
Para el conjunto de datos se obtuvo:
0.006
0.004
0.002
0.000
Densidad
0.008
0.010
0.012
Fig: Histograma de frecuencias absolutas para la resistencia de cilindros
de concreto
200
220
240
260
Resistencia
280
300
320
340
Distribución de datos
Es posible calcular en forma aproximada el porcentaje de datos que hay en
un intervalo cualquiera
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
Total
ni
6
11
14
11
5
3
50
fi
0.12
0.22
0.28
0.22
0.10
0.06
1
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
¿Cuál es el porcentaje de cilindros de prueba que obtuvieron una
resistencia igual o inferior a 245 kg/cm2 ?
¿Cuál es el porcentaje de cilindros de prueba que obtuvieron una
resistencia entre 265kg/cm2 y 300kg/cm2 ?
Distribución de datos
La función empírica de distribución acumulativa describe de forma general,
para cualquier x, el porcentaje de datos que son menores o iguales que x.
Se denota por F (x) y se plantea como:


0,
F x = F (Li−1 ) +


1,
fi
Ci (x
para x < L0 ,
− Li−1 ) para Li−1 < x ≤ Li
para x > Lm ,
Distribución de datos
La función empírica de distribución acumulativa describe de forma general,
para cualquier x, el porcentaje de datos que son menores o iguales que x.
Se denota por F (x) y se plantea como:
Para el ejemplo se tiene:


0,




0 + 0,12

24 (x − 191)


0,12 + 0,22 (x − 215)

24


0,34 + 0,28 (x − 239)
24
Fx =
0,22

0,62
+

24 (x − 263)


0,10


0,84 + 24 (x − 287)



0,94 + 0,06

24 (x − 311)


1,
para
para
para
para
para
para
para
para
x < 191,
191 < x ≤ 215
215 < x ≤ 239
239 < x ≤ 263
263 < x ≤ 287
287 < x ≤ 311
311 < x ≤ 335
x > 335,
Distribución de datos
De la función F(x), se observa que en cada intervalo, F(x), representa
un segmento de la recta, cuya pendiente es la densidad del intervalo
respectivo. Esto da origen al siguiente gráfico con el nombre de ojiva
0.6
0.4
0.2
0.0
% acumulado
0.8
1.0
Fig: Gráfico de frecuencias acumuladas
191
215
239
263
Resistencia
287
311
335
Algunas consideraciones
• Cuando los datos se agrupan en intervalos de clase, se produce
pérdida de información, puesto que no se dispone de los datos
en forma individual.
• No deben existir intervalos de clase que no contengan datos.
Cuando esto ocurre deberán reagruparse los datos (los
intervalos pueden ser de diferente tamaño)
• Cuando sea posible debe procurarse que todos los intervalos
sean de igual longitud (facilidad de calculo e interpretación)
Bibliografía
Behar, R. and Yepes, M. (1996). Estadística, un enfoque descriptivo.
Oficina de publicaciones de la Facultad de Ingeniería de la
Universidad del Valle, Cali, Colombia, vol. 2 edition.
Devore, J. L. (2008). Probabilidad y estadística para ingeniería y
ciencias. Thomson Paraninfo, México, vol. 7 edition.
Descargar