Subido por Emanuel Suarez Merino

Cuader EInferencial UVP

Anuncio
CUADERNILLO DE ESTADISTICA INFERENCIAL
UNIVERSIDAD DEL VALLE DE PARRAS
ESTADISTICA
INFERENCIAL
*
IBQ. Gustavo Salas A
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
La estadística es el conjunto de métodos o técnicas que se aplican a la
recolección, organización, presentación, análisis e interpretación de
datos numéricos.
La estadística consiste en cuatro pasos
1. Recolección de datos
2. Organizar los datos
3. Realización de Tablas
4. Interpretación de los datos
La estadística o métodos estadísticos son de gran utilidad en muchas
disciplinas, ya que en la vida práctica frecuentemente se necesita
extraer conclusiones válidas y confiables respecto de un grupo de
individuos u objetos.
La medicina, la biología, la economía, la sociología, los deportes, la
astronomía, la docencia, etc., aplican los métodos estadísticos en
diferentes niveles de complejidad, desde aquellos que utilizan
técnicas muy elaboradas hasta los que solamente requieren tablas de
información.
En la actualidad la mayoría de las ciencias deben recurrir a la
estadística de manera indispensable para su enriquecimiento.
UNA POBLACIÓN es el conjunto total de individuos u objetos con
una característica común, acerca del cual se quiere saber algo.
Es el conjunto universal o el todo.
UNA MUESTRA es una parte representativa de la población.
Es un subconjunto de la población.
A veces no es conveniente analizar uno a uno todos los elementos de
una población, ya sea por razones de costo, de tiempo o de
posibilidad, en cuyos casos se seleccionan de manera representativa
algunos integrantes de la población. Esos son la muestra.
Existen también ciertos eventos que dependen del tiempo, siendo la
población total los eventos del pasado, los del presente y los que
acontecerán en el futuro, por lo tanto resulta imposible analizar a
los del futuro.
En tales casos la muestra vienen siendo los sucesos ya verificados (del
pasado).
2
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
Las dos características más importantes que debe tener una muestra
son:

Ser aleatorias, esto es que cada miembro de la población tenga igual
oportunidad de salir en la muestra, o sea la misma probabilidad de ser
escogido;

Ser representativas de la población.
Al proceso de seleccionar o de obtener una muestra se le llama
muestreo
Explique brevemente porque es necesario tomar muestras:
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
LA ESTADÍSTICA DESCRIPTIVA
Es la que analiza a toda la población y sus conclusiones están en
función de los rasgos o datos extraídos de dicha población.
Es la que trabaja con toda la población, no con muestras.
LA ESTADÍSTICA INFERENCIAL
Es la que a partir del análisis de una muestra, sus conclusiones se
generalizan sobre todos los individuos de la población.
De tal forma que la estadística sirve fundamentalmente para tres
cosas:
1. Para describir el comportamiento o ciertos rasgos de una población a
partir del estudio realizado a cada uno de los integrantes de dicha
población
2. Para hacer generalizaciones sobre toda una población a partir de
rasgos comunes en una muestra
3. Para "predecir" características de sucesos futuros.
Nota importante:
Debe entenderse que cuando se habla de "predicción" es en cierto
sentido un tanto simbólica, pues la interpretación de los datos no va
3
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
a llevar a contemplar de manera infalible el futuro, sino
simplemente con un alto grado de certeza que así sucederá.
DEFINICIONES
 VARIABLE CONTINUA: Es aquella que puede tomar cualquier valor
dentro un rango especificado, es decir, valores enteros y no enteros.
Ejemplo:
Si x representa el peso de las personas, x es una variable continua
porque puede tomar cualquier valor dentro de un rango específico,
como 20 ≤ x ≤ 120. Significa que la variable x puede tomar
cualquier valor entre 20 y 120, como x = 35; x = 56.3; x = 77.8, etc.
De otros ejemplos de variables continuas
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________

VARIABLE DISCRETA o DISCONTINUA es aquella que solo toma
valores no continuos, es decir valores enteros solamente.
Ejemplo:
El número de personas con casa propia no puede ser 4.5, sino que
debe ser un número entero necesariamente.
El número de materias reprobadas de un alumno es una variable
discreta porque debe ser un número entero, no puede ser decimal.
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
 UN PARÁMETRO es todo valor numérico obtenido a partir de una
característica que sea medible de una población.
Ejemplo:
4
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
En una fábrica de 970 trabajadores, el salario promedio es de
$7500.00 mensuales; Se trata de un parámetro porque ese dato
numérico resultó de un análisis hecho a una población.
 UN ESTADÍSTICO es todo valor numérico obtenido a partir de una
característica que sea medible de una muestra.
Ejemplo:
Un medicamento provoca reacción alérgica en tres de cada veinte
pacientes que lo toman. Es un estadístico porque esa información
numérica resultó de un estudio sobre una muestra.
Cuestionario de Repaso
1. ¿Qué es la estadística?
2. ¿Cuáles son las cuatro etapas de la estadística?
3. ¿Qué es una población?
4. Citar dos ejemplos, diferentes a los del libro, de poblaciones.
5. ¿Qué es una muestra?
6. Citar dos ejemplos, diferentes a los del libro, de muestras.
7. Citar un ejemplo, diferente al del libro, en el que no resulta
costeable analizar a todos los individuos de una población.
8. Citar un ejemplo, diferente al del libro, en el que no se pueden
analizar a todos los individuos de una población porque ésta se
destruiría.
5
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
9. Al conjunto universal, es decir, al todo, al que abarca a todos los
individuos, ¿cómo se le llama?
10. Al subconjunto de la población, ¿cómo se le llama?
11. ¿Qué es la estadística descriptiva?
12. ¿Qué es la estadística inferencial?
13. Cuando se hace estadística analizando a todos los individuos de
una población, ¿qué tipo de estadística es?
14. Cuando se hace estadística analizando una muestra de la que se
generaliza hacia toda la población, ¿qué tipo de estadística es?
15. ¿Qué es un una variable continua?
16. ¿Qué es una variable discreta?
17. ¿Qué es un estadístico?
18. ¿Qué es un parámetro?
6
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
ORGANIZACIÓN DE DATOS
Siendo el dato el material que se debe procesar, es decir, la materia
prima de la estadística, el primer paso es entonces la recolección de
datos, para lo cual se emplean diferentes técnicas, como la entrevista
personal, el cuestionario, la observación, etc.
El segundo paso es la organización y ordenamiento de los datos, lo
que se hace a través de tablas, las cuales pueden ser por medio de
una distribución de frecuencias simples o una distribución de
frecuencias con intervalos, en ambos casos agrupando todos aquellos
que corresponden a una mismo dato nominal o variable y
expresando en una columna el número de veces que aparece esa
variable.
LA FRECUENCIA es el número de veces que aparece cada variable
o dato nominal.
Ejemplo, se desea hacer una tabla que muestre las calificaciones en
Matemáticas de un grupo escolar.
Se ve que hubo dos alumnos que sacaron 10 de calificación, siete
estudiantes sacaron 9, etc.; se dice entonces que la frecuencia del
dato nominal 10 es de dos; la frecuencia de la variable 9 es siete, etc.
DISTRIBUCIÓN DE FRECUENCIAS: es el resultado de organizar los
datos recolectados en grupos, mostrando la frecuencia de cada uno.
Esta puede ser simple o por intervalos.
DISTRIBUCIÓN DE FRECUENCIAS SIMPLE
Es la organización de los datos recolectados, ya sea de menor a
mayor o viceversa, de manera que se muestre la frecuencia de cada
uno de ellos.
Ejemplo: Ordenar y construir una tabla de frecuencias simple del
siguiente conjunto de datos recolectados.
Dato nominal
Frecuencia
x
F
Dato nominal
Frecuencia
24 20 32 32 29 21
28
2
x
F
29
4
21 22 33 30 27 26
20
2
23
28
31
27
24
22
28
21
20
29
32
33
25
29
35
29
26
33
33
25
32
35
32
24
21
22
23
24
25
26
27
3
2
1
3
2
2
2
30
31
32
33
34
35
Total
1
1
5
4
0
2
36
7
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
Cuestionario de Repaso
1. ¿Cuál es la “materia prima” de la estadística?
2. ¿Cuál es el primer paso que se verifica en la estadística?
3. ¿Cuáles son las diferentes técnicas que se emplean en la
recolección de datos?
4. ¿Cuál es el segundo paso en la estadística?
5. Para llevar a cabo el segundo paso, ¿qué se utilizan?
6. ¿Cómo pueden ser las tablas?
7. ¿Qué es frecuencia?
8. ¿Qué es una distribución de frecuencias?
9. ¿Cuántas clases de distribución de frecuencias existen y cuáles
son?
10. ¿En qué consiste la distribución de frecuencias simple?
11. ¿En qué consiste la distribución de frecuencias por intervalos?
12. Describir los pasos que deben seguirse para hacer una
distribución de frecuencias
8
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
13. simple.
14. Organizar el siguiente conjunto de datos en una tabla de
frecuencias simple:
1
8
5
4
5
6
3
2
4
5
3
5
4
2
8
7
9
9
7
7
8
9
7
9
Dato nominal
x
Frecuencia
f
total
FRECUENCIAS ACUMULADAS
Muchas veces resulta de gran utilidad tener información sobre la
frecuencia que a partir del inicio de la tabla se tiene hasta cierto
dato nominal determinado.
A lo anterior de se le conoce con el nombre de frecuencias
acumuladas (fa) y se añade en una columna en la misma tabla.
Dato Nominal
Frecuencia
Frecuencia acumulada
X
f
fa
20
2
2
21
3
5
22
2
7
23
1
8
24
3
11
25
2
13
26
2
15
27
2
17
28
2
19
29
4
23
30
1
24
31
1
25
32
5
30
33
4
34
34
0
34
35
2
36
Total
36
9
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
CURVA NORMAL
Cuando se trata de una variable discreta, o sea que solamente puede tomar
valores como 1, 2, 3, 4, etc., pero no 2.04 ó 5.6, el histograma correspondiente
está formado por un conjunto de barras como se muestra en la figura 16.1 a).
Si, en cambio, la variable es continua, el histograma es una curva como la
mostrada en la figura 16.1 b), llamada curva normal
En una curva normal lo que se utiliza es el área bajo la curva entre dos valores
X1 y, X2 ver figura 16.1b, cuyo valor se emplea para obtener diferentes
informaciones de los datos que conforman dicha curva.
El procedimiento para obtener esa área es la que se va a estudiar en este
tema.
Además, en una curva normal las tres medidas de tendencia central coinciden
en el centro: la media, la moda la mediana
También es simétrica respecto de la media,
que es el punto más elevado de la curva y,
por lo tanto, el área bajo la curva hacia la
izquierda de la media es del 50% y el otro
50% se localiza a la derecha. Ver figura
16.2.
Una característica muy importante de la curva
normal es que a partir de su eje de simetría se
puede dividir como lo muestra la figura 16.3, de
tal manera que el valor igual a cero de la gráfica
corresponda siempre a la media aritmética de la
distribución normal de datos, y luego los datos
nominales se pueden transformar a uno equivalente de la escala de − 3 a + 3 de
la figura 16.3.
Por eso, a los datos comprendidos en la escala de - 3 a + 3 se les llama dato
estándar.
10
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
En esa escala estandarizada, el 1 representa una desviación estándar, el 2
representa dos desviaciones estándares, y así sucesivamente.
El signo positivo solamente indica que está a la derecha del cero y el signo
negativo significa que está a la izquierda.
ESTANDARIZACIÓN DE DATOS
Por lo dicho en el párrafo anterior, los datos pertenecientes a una distribución
normal se pueden estandarizar o normalizar, lo cual se consigue utilizando la
fórmula.
𝑋 − 𝑋̅
𝑧=
𝜎
En donde:
z = dato estandarizado o normalizado
x = valor nominal del dato a estandarizar
𝑥̅ = media aritmética del conjunto de datos
σ = desviación estándar. Σ
Ejemplo 1: Convertir cada uno
datos estandarizados.
x
x
f
f
6
1
6
1
7
2
7
2
8
3
8
3
9
5
9
5
10
9
10
9
11 15
11 15
12 18
12 18
13 15
13 15
14
9
14
9
15
5
15
5
16
3
16
3
17
2
17
2
18
1
18
1
n=
88
n=
de los datos nominales de la siguiente tabla a
fa (x)(f) x-x̅ (x-x )2 f (x-x ̅)2
1
6 -6
36
36
3
14 -5
25
50
6
24 -4
16
48
11
45 -3
9
45
20
90 -2
4
36
35 165 -1
1
15
53 216
0
0
0
68 195
1
1
15
77 126
2
4
36
82
75
3
9
45
85
48
4
16
48
87
34
5
25
50
88
18
6
36
36
88 ΣX= 1056
v=
5,23
x ̅=
M=
Md=
12
12
12
σ=
Z=(x-x̅ )/σ
-2,6243
-2,1869
-1,7495
-1,3122
-0,8748
-0,4374
0,0000
0,4374
0,8748
1,3122
1,7495
2,1869
2,6243
2,29
11
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
El significado, a partir de que la media aritmética del conjunto es x = 12 y la
desviación estándar es s = 2.2863 , es el siguiente:
Un valor estandarizado z = 1 significa una distancia a partir de la media
aritmética igual a una desviación estándar a la derecha, es decir una distancia
de 2.2863.
Un valor estandarizado z = − 2 significa una distancia a partir de la media
aritmética igual a dos desviaciones estándar a la izquierda, es decir, una
distancia de 4.5988.
Ahora bien, si al dato nominal x = 6 le corresponde un dato estándar
z = - 2.609, significa que ese 6 se alejó de la media 2.609 desviaciones
estándares a la izquierda. Y así con cada uno de los datos nominales.
GRAFICAMENTE:
EJERCICIOS
Convertir los valores nominales a estándar de las siguientes tablas:
12
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
13
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
AÉREAS BAJO LA CURVA NORMAL
En una curva normal, el área bajo la curva desde el extremo izquierdo hasta la
media, es decir, hasta el eje de simetría, es del 50% y, obviamente, el otro
50% está en la parte derecha.
Una característica importante de la curva normal y de los datos normalizados
es que el área bajo la curva desde la media hasta una desviación estándar, es
decir desde z = 0 hasta z = 1, ya sea a la izquierda o a la derecha, siempre es
del 34.13% respecto del área total que puede haber bajo la curva.
Ver parte superior de la figura 16.5.
De la misma forma, el área bajo la curva desde la media hasta dos desviaciones
estándar, es decir desde z = 0 hasta z = 2, ya sea a la izquierda o a la derecha,
es del 47.72%. Ver parte inferior de la figura 16.5.
Como la curva normal sale de graficar los datos recolectados, es obvio que esos
porcentajes de áreas bajo la curva también lo son para dichos datos, es decir,
para una desviación estándar, el porcentaje de datos entre la media y z = 1 es
de 34.13% aproximadamente; para dos desviaciones estándar el porcentaje de
datos entre la media y z = 2 es también aproximadamente de 47.72%.
Por lo tanto, es posible obtener el porcentaje de área bajo la curva entre la
media y cualquier valor estandarizado z, lo cual se ha concentrado en una tabla
que expresa el porcentaje de área desde la media hasta cada correspondiente
valor z.
14
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
15
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
Ejemplo 1: Al recolectar 250 datos, se obtuvo que la media es x = 7.65 y la
desviación estándar σ = 2.24 Calcular el número de datos aproximados que hay
entre la media y el dato nominal x = 8.1.
Primero se calcula el valor de Z del valor nominal X
(𝑋̅ − 𝑋)
𝑍=
𝜎
7.65 − 8.1 −0.45
𝑍8.1 =
=
= −0.20
2.24
2.24
Buscar en la tabla el valor de 0.20
Se busca el valor de 0.2 y una vez localizado se busca el siguiente número en
este caso es el 0 por lo que en la intersección tendremos el valor de 7.93 %
Que corresponde al porcentaje del Área bajo la curva
Se procede a hacer una regla de tres:
Si 250 Datos es el 100 % de los datos
X Datos
7.93% de los datos
(7.93) ∗ (250)
= 19.82
100
El número de datos que se encuentran entre la media y el valor nominal 8.1 es
de 19.82; Pero como es un número fraccionario se aproximará al valor más
cercano 20 la solución quedará expresada como:
Hay aproximadamente 20 datos entre la media x = 7.65 y el dato nominal
x = 8.1
Ejemplo 2:
Al recolectar 850 datos con una distribución normal, se obtuvo una media de
x = 27 y una desviación estándar s = 5.34. Calcular el número de datos
aproximados que hay entre la media y el dato nominal x = 20.
𝑋=
16
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
Ejemplo 3: De un conjunto de datos con una distribución normal, se obtuvo una
media de x = 33.2 y una desviación estándar s = 9.4. Calcular el porcentaje de
área bajo la curva que hay entre el dato nominal 1 y el dato nominal.
x1 =14 x2 = 45
Ejemplo 4: De un conjunto de datos con una distribución normal, se obtuvo una
media de x = 43.2 y una desviación estándar s = 8.9
Calcular el porcentaje de área bajo la curva que hay entre el dato nominal y el
dato nominal. x1= 53 x2 = 68
17
Del Escritorio del Ing. Gustavo Salas A
CUADERNILLO DE ESTADISTICA INFERENCIAL
Ejemplo 5: De un conjunto de datos con una distribución normal, se obtuvo una
media de x = 20.4 y una desviación estándar s = 8.9
Calcular el porcentaje de área bajo la curva que hay entre el dato nominal y el
dato nominal. x 1= 5 x 2= 25
Ejemplo 6: De un conjunto de datos con una distribución normal, se obtuvo una
media de x = 33 y una desviación estándar s = 4.5.
Calcular el porcentaje de área bajo la curva que hay entre el dato nominal
x = 38 y el dato nominal más grande.
Ejercicio para reafirmar los conocimientos
1) Al recolectar 450 datos con una distribución normal se obtuvo una media de
x = 50 y una desviación estándar s = 17.4.
Calcular el número de datos aproximados que hay entre el dato nominal y el
dato nominal. x1= 34 x2= 62
2) Al recolectar 270 datos con una distribución normal se obtuvo una media de
x = 400 y una desviación estándar s = 14.
Calcular el número de datos aproximados que hay entre el dato nominal y el
dato nominal. x1= 387 x2= 430
3) Al recolectar 500 datos con una distribución normal se obtuvo una media de
x = 225 y una desviación estándar s = 12.
Calcular el número de datos aproximados que hay entre el dato nominal y el
dato nominal. x1= 203 x 2= 221
4) Al recolectar 940 datos con una distribución normal se obtuvo una media de
x = 120 y una desviación estándar s = 16.
Calcular el número de datos aproximados que hay entre el dato nominal y el
dato nominal. x 1= 128 x2 = 160
5) Al recolectar 873 datos con una distribución normal se obtuvo una media de
x = 220.1 y una desviación estándar s = 15.
Calcular el número de datos aproximados que hay entre el dato nominal y el
dato nominal. x 1= 229 x 2= 296.6
18
Del Escritorio del Ing. Gustavo Salas A
Descargar