CUADERNILLO DE ESTADISTICA INFERENCIAL UNIVERSIDAD DEL VALLE DE PARRAS ESTADISTICA INFERENCIAL * IBQ. Gustavo Salas A Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL La estadística es el conjunto de métodos o técnicas que se aplican a la recolección, organización, presentación, análisis e interpretación de datos numéricos. La estadística consiste en cuatro pasos 1. Recolección de datos 2. Organizar los datos 3. Realización de Tablas 4. Interpretación de los datos La estadística o métodos estadísticos son de gran utilidad en muchas disciplinas, ya que en la vida práctica frecuentemente se necesita extraer conclusiones válidas y confiables respecto de un grupo de individuos u objetos. La medicina, la biología, la economía, la sociología, los deportes, la astronomía, la docencia, etc., aplican los métodos estadísticos en diferentes niveles de complejidad, desde aquellos que utilizan técnicas muy elaboradas hasta los que solamente requieren tablas de información. En la actualidad la mayoría de las ciencias deben recurrir a la estadística de manera indispensable para su enriquecimiento. UNA POBLACIÓN es el conjunto total de individuos u objetos con una característica común, acerca del cual se quiere saber algo. Es el conjunto universal o el todo. UNA MUESTRA es una parte representativa de la población. Es un subconjunto de la población. A veces no es conveniente analizar uno a uno todos los elementos de una población, ya sea por razones de costo, de tiempo o de posibilidad, en cuyos casos se seleccionan de manera representativa algunos integrantes de la población. Esos son la muestra. Existen también ciertos eventos que dependen del tiempo, siendo la población total los eventos del pasado, los del presente y los que acontecerán en el futuro, por lo tanto resulta imposible analizar a los del futuro. En tales casos la muestra vienen siendo los sucesos ya verificados (del pasado). 2 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL Las dos características más importantes que debe tener una muestra son: Ser aleatorias, esto es que cada miembro de la población tenga igual oportunidad de salir en la muestra, o sea la misma probabilidad de ser escogido; Ser representativas de la población. Al proceso de seleccionar o de obtener una muestra se le llama muestreo Explique brevemente porque es necesario tomar muestras: _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ LA ESTADÍSTICA DESCRIPTIVA Es la que analiza a toda la población y sus conclusiones están en función de los rasgos o datos extraídos de dicha población. Es la que trabaja con toda la población, no con muestras. LA ESTADÍSTICA INFERENCIAL Es la que a partir del análisis de una muestra, sus conclusiones se generalizan sobre todos los individuos de la población. De tal forma que la estadística sirve fundamentalmente para tres cosas: 1. Para describir el comportamiento o ciertos rasgos de una población a partir del estudio realizado a cada uno de los integrantes de dicha población 2. Para hacer generalizaciones sobre toda una población a partir de rasgos comunes en una muestra 3. Para "predecir" características de sucesos futuros. Nota importante: Debe entenderse que cuando se habla de "predicción" es en cierto sentido un tanto simbólica, pues la interpretación de los datos no va 3 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL a llevar a contemplar de manera infalible el futuro, sino simplemente con un alto grado de certeza que así sucederá. DEFINICIONES VARIABLE CONTINUA: Es aquella que puede tomar cualquier valor dentro un rango especificado, es decir, valores enteros y no enteros. Ejemplo: Si x representa el peso de las personas, x es una variable continua porque puede tomar cualquier valor dentro de un rango específico, como 20 ≤ x ≤ 120. Significa que la variable x puede tomar cualquier valor entre 20 y 120, como x = 35; x = 56.3; x = 77.8, etc. De otros ejemplos de variables continuas _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ VARIABLE DISCRETA o DISCONTINUA es aquella que solo toma valores no continuos, es decir valores enteros solamente. Ejemplo: El número de personas con casa propia no puede ser 4.5, sino que debe ser un número entero necesariamente. El número de materias reprobadas de un alumno es una variable discreta porque debe ser un número entero, no puede ser decimal. _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ UN PARÁMETRO es todo valor numérico obtenido a partir de una característica que sea medible de una población. Ejemplo: 4 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL En una fábrica de 970 trabajadores, el salario promedio es de $7500.00 mensuales; Se trata de un parámetro porque ese dato numérico resultó de un análisis hecho a una población. UN ESTADÍSTICO es todo valor numérico obtenido a partir de una característica que sea medible de una muestra. Ejemplo: Un medicamento provoca reacción alérgica en tres de cada veinte pacientes que lo toman. Es un estadístico porque esa información numérica resultó de un estudio sobre una muestra. Cuestionario de Repaso 1. ¿Qué es la estadística? 2. ¿Cuáles son las cuatro etapas de la estadística? 3. ¿Qué es una población? 4. Citar dos ejemplos, diferentes a los del libro, de poblaciones. 5. ¿Qué es una muestra? 6. Citar dos ejemplos, diferentes a los del libro, de muestras. 7. Citar un ejemplo, diferente al del libro, en el que no resulta costeable analizar a todos los individuos de una población. 8. Citar un ejemplo, diferente al del libro, en el que no se pueden analizar a todos los individuos de una población porque ésta se destruiría. 5 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL 9. Al conjunto universal, es decir, al todo, al que abarca a todos los individuos, ¿cómo se le llama? 10. Al subconjunto de la población, ¿cómo se le llama? 11. ¿Qué es la estadística descriptiva? 12. ¿Qué es la estadística inferencial? 13. Cuando se hace estadística analizando a todos los individuos de una población, ¿qué tipo de estadística es? 14. Cuando se hace estadística analizando una muestra de la que se generaliza hacia toda la población, ¿qué tipo de estadística es? 15. ¿Qué es un una variable continua? 16. ¿Qué es una variable discreta? 17. ¿Qué es un estadístico? 18. ¿Qué es un parámetro? 6 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL ORGANIZACIÓN DE DATOS Siendo el dato el material que se debe procesar, es decir, la materia prima de la estadística, el primer paso es entonces la recolección de datos, para lo cual se emplean diferentes técnicas, como la entrevista personal, el cuestionario, la observación, etc. El segundo paso es la organización y ordenamiento de los datos, lo que se hace a través de tablas, las cuales pueden ser por medio de una distribución de frecuencias simples o una distribución de frecuencias con intervalos, en ambos casos agrupando todos aquellos que corresponden a una mismo dato nominal o variable y expresando en una columna el número de veces que aparece esa variable. LA FRECUENCIA es el número de veces que aparece cada variable o dato nominal. Ejemplo, se desea hacer una tabla que muestre las calificaciones en Matemáticas de un grupo escolar. Se ve que hubo dos alumnos que sacaron 10 de calificación, siete estudiantes sacaron 9, etc.; se dice entonces que la frecuencia del dato nominal 10 es de dos; la frecuencia de la variable 9 es siete, etc. DISTRIBUCIÓN DE FRECUENCIAS: es el resultado de organizar los datos recolectados en grupos, mostrando la frecuencia de cada uno. Esta puede ser simple o por intervalos. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE Es la organización de los datos recolectados, ya sea de menor a mayor o viceversa, de manera que se muestre la frecuencia de cada uno de ellos. Ejemplo: Ordenar y construir una tabla de frecuencias simple del siguiente conjunto de datos recolectados. Dato nominal Frecuencia x F Dato nominal Frecuencia 24 20 32 32 29 21 28 2 x F 29 4 21 22 33 30 27 26 20 2 23 28 31 27 24 22 28 21 20 29 32 33 25 29 35 29 26 33 33 25 32 35 32 24 21 22 23 24 25 26 27 3 2 1 3 2 2 2 30 31 32 33 34 35 Total 1 1 5 4 0 2 36 7 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL Cuestionario de Repaso 1. ¿Cuál es la “materia prima” de la estadística? 2. ¿Cuál es el primer paso que se verifica en la estadística? 3. ¿Cuáles son las diferentes técnicas que se emplean en la recolección de datos? 4. ¿Cuál es el segundo paso en la estadística? 5. Para llevar a cabo el segundo paso, ¿qué se utilizan? 6. ¿Cómo pueden ser las tablas? 7. ¿Qué es frecuencia? 8. ¿Qué es una distribución de frecuencias? 9. ¿Cuántas clases de distribución de frecuencias existen y cuáles son? 10. ¿En qué consiste la distribución de frecuencias simple? 11. ¿En qué consiste la distribución de frecuencias por intervalos? 12. Describir los pasos que deben seguirse para hacer una distribución de frecuencias 8 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL 13. simple. 14. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple: 1 8 5 4 5 6 3 2 4 5 3 5 4 2 8 7 9 9 7 7 8 9 7 9 Dato nominal x Frecuencia f total FRECUENCIAS ACUMULADAS Muchas veces resulta de gran utilidad tener información sobre la frecuencia que a partir del inicio de la tabla se tiene hasta cierto dato nominal determinado. A lo anterior de se le conoce con el nombre de frecuencias acumuladas (fa) y se añade en una columna en la misma tabla. Dato Nominal Frecuencia Frecuencia acumulada X f fa 20 2 2 21 3 5 22 2 7 23 1 8 24 3 11 25 2 13 26 2 15 27 2 17 28 2 19 29 4 23 30 1 24 31 1 25 32 5 30 33 4 34 34 0 34 35 2 36 Total 36 9 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL CURVA NORMAL Cuando se trata de una variable discreta, o sea que solamente puede tomar valores como 1, 2, 3, 4, etc., pero no 2.04 ó 5.6, el histograma correspondiente está formado por un conjunto de barras como se muestra en la figura 16.1 a). Si, en cambio, la variable es continua, el histograma es una curva como la mostrada en la figura 16.1 b), llamada curva normal En una curva normal lo que se utiliza es el área bajo la curva entre dos valores X1 y, X2 ver figura 16.1b, cuyo valor se emplea para obtener diferentes informaciones de los datos que conforman dicha curva. El procedimiento para obtener esa área es la que se va a estudiar en este tema. Además, en una curva normal las tres medidas de tendencia central coinciden en el centro: la media, la moda la mediana También es simétrica respecto de la media, que es el punto más elevado de la curva y, por lo tanto, el área bajo la curva hacia la izquierda de la media es del 50% y el otro 50% se localiza a la derecha. Ver figura 16.2. Una característica muy importante de la curva normal es que a partir de su eje de simetría se puede dividir como lo muestra la figura 16.3, de tal manera que el valor igual a cero de la gráfica corresponda siempre a la media aritmética de la distribución normal de datos, y luego los datos nominales se pueden transformar a uno equivalente de la escala de − 3 a + 3 de la figura 16.3. Por eso, a los datos comprendidos en la escala de - 3 a + 3 se les llama dato estándar. 10 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL En esa escala estandarizada, el 1 representa una desviación estándar, el 2 representa dos desviaciones estándares, y así sucesivamente. El signo positivo solamente indica que está a la derecha del cero y el signo negativo significa que está a la izquierda. ESTANDARIZACIÓN DE DATOS Por lo dicho en el párrafo anterior, los datos pertenecientes a una distribución normal se pueden estandarizar o normalizar, lo cual se consigue utilizando la fórmula. 𝑋 − 𝑋̅ 𝑧= 𝜎 En donde: z = dato estandarizado o normalizado x = valor nominal del dato a estandarizar 𝑥̅ = media aritmética del conjunto de datos σ = desviación estándar. Σ Ejemplo 1: Convertir cada uno datos estandarizados. x x f f 6 1 6 1 7 2 7 2 8 3 8 3 9 5 9 5 10 9 10 9 11 15 11 15 12 18 12 18 13 15 13 15 14 9 14 9 15 5 15 5 16 3 16 3 17 2 17 2 18 1 18 1 n= 88 n= de los datos nominales de la siguiente tabla a fa (x)(f) x-x̅ (x-x )2 f (x-x ̅)2 1 6 -6 36 36 3 14 -5 25 50 6 24 -4 16 48 11 45 -3 9 45 20 90 -2 4 36 35 165 -1 1 15 53 216 0 0 0 68 195 1 1 15 77 126 2 4 36 82 75 3 9 45 85 48 4 16 48 87 34 5 25 50 88 18 6 36 36 88 ΣX= 1056 v= 5,23 x ̅= M= Md= 12 12 12 σ= Z=(x-x̅ )/σ -2,6243 -2,1869 -1,7495 -1,3122 -0,8748 -0,4374 0,0000 0,4374 0,8748 1,3122 1,7495 2,1869 2,6243 2,29 11 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL El significado, a partir de que la media aritmética del conjunto es x = 12 y la desviación estándar es s = 2.2863 , es el siguiente: Un valor estandarizado z = 1 significa una distancia a partir de la media aritmética igual a una desviación estándar a la derecha, es decir una distancia de 2.2863. Un valor estandarizado z = − 2 significa una distancia a partir de la media aritmética igual a dos desviaciones estándar a la izquierda, es decir, una distancia de 4.5988. Ahora bien, si al dato nominal x = 6 le corresponde un dato estándar z = - 2.609, significa que ese 6 se alejó de la media 2.609 desviaciones estándares a la izquierda. Y así con cada uno de los datos nominales. GRAFICAMENTE: EJERCICIOS Convertir los valores nominales a estándar de las siguientes tablas: 12 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL 13 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL AÉREAS BAJO LA CURVA NORMAL En una curva normal, el área bajo la curva desde el extremo izquierdo hasta la media, es decir, hasta el eje de simetría, es del 50% y, obviamente, el otro 50% está en la parte derecha. Una característica importante de la curva normal y de los datos normalizados es que el área bajo la curva desde la media hasta una desviación estándar, es decir desde z = 0 hasta z = 1, ya sea a la izquierda o a la derecha, siempre es del 34.13% respecto del área total que puede haber bajo la curva. Ver parte superior de la figura 16.5. De la misma forma, el área bajo la curva desde la media hasta dos desviaciones estándar, es decir desde z = 0 hasta z = 2, ya sea a la izquierda o a la derecha, es del 47.72%. Ver parte inferior de la figura 16.5. Como la curva normal sale de graficar los datos recolectados, es obvio que esos porcentajes de áreas bajo la curva también lo son para dichos datos, es decir, para una desviación estándar, el porcentaje de datos entre la media y z = 1 es de 34.13% aproximadamente; para dos desviaciones estándar el porcentaje de datos entre la media y z = 2 es también aproximadamente de 47.72%. Por lo tanto, es posible obtener el porcentaje de área bajo la curva entre la media y cualquier valor estandarizado z, lo cual se ha concentrado en una tabla que expresa el porcentaje de área desde la media hasta cada correspondiente valor z. 14 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL 15 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL Ejemplo 1: Al recolectar 250 datos, se obtuvo que la media es x = 7.65 y la desviación estándar σ = 2.24 Calcular el número de datos aproximados que hay entre la media y el dato nominal x = 8.1. Primero se calcula el valor de Z del valor nominal X (𝑋̅ − 𝑋) 𝑍= 𝜎 7.65 − 8.1 −0.45 𝑍8.1 = = = −0.20 2.24 2.24 Buscar en la tabla el valor de 0.20 Se busca el valor de 0.2 y una vez localizado se busca el siguiente número en este caso es el 0 por lo que en la intersección tendremos el valor de 7.93 % Que corresponde al porcentaje del Área bajo la curva Se procede a hacer una regla de tres: Si 250 Datos es el 100 % de los datos X Datos 7.93% de los datos (7.93) ∗ (250) = 19.82 100 El número de datos que se encuentran entre la media y el valor nominal 8.1 es de 19.82; Pero como es un número fraccionario se aproximará al valor más cercano 20 la solución quedará expresada como: Hay aproximadamente 20 datos entre la media x = 7.65 y el dato nominal x = 8.1 Ejemplo 2: Al recolectar 850 datos con una distribución normal, se obtuvo una media de x = 27 y una desviación estándar s = 5.34. Calcular el número de datos aproximados que hay entre la media y el dato nominal x = 20. 𝑋= 16 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL Ejemplo 3: De un conjunto de datos con una distribución normal, se obtuvo una media de x = 33.2 y una desviación estándar s = 9.4. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 1 y el dato nominal. x1 =14 x2 = 45 Ejemplo 4: De un conjunto de datos con una distribución normal, se obtuvo una media de x = 43.2 y una desviación estándar s = 8.9 Calcular el porcentaje de área bajo la curva que hay entre el dato nominal y el dato nominal. x1= 53 x2 = 68 17 Del Escritorio del Ing. Gustavo Salas A CUADERNILLO DE ESTADISTICA INFERENCIAL Ejemplo 5: De un conjunto de datos con una distribución normal, se obtuvo una media de x = 20.4 y una desviación estándar s = 8.9 Calcular el porcentaje de área bajo la curva que hay entre el dato nominal y el dato nominal. x 1= 5 x 2= 25 Ejemplo 6: De un conjunto de datos con una distribución normal, se obtuvo una media de x = 33 y una desviación estándar s = 4.5. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x = 38 y el dato nominal más grande. Ejercicio para reafirmar los conocimientos 1) Al recolectar 450 datos con una distribución normal se obtuvo una media de x = 50 y una desviación estándar s = 17.4. Calcular el número de datos aproximados que hay entre el dato nominal y el dato nominal. x1= 34 x2= 62 2) Al recolectar 270 datos con una distribución normal se obtuvo una media de x = 400 y una desviación estándar s = 14. Calcular el número de datos aproximados que hay entre el dato nominal y el dato nominal. x1= 387 x2= 430 3) Al recolectar 500 datos con una distribución normal se obtuvo una media de x = 225 y una desviación estándar s = 12. Calcular el número de datos aproximados que hay entre el dato nominal y el dato nominal. x1= 203 x 2= 221 4) Al recolectar 940 datos con una distribución normal se obtuvo una media de x = 120 y una desviación estándar s = 16. Calcular el número de datos aproximados que hay entre el dato nominal y el dato nominal. x 1= 128 x2 = 160 5) Al recolectar 873 datos con una distribución normal se obtuvo una media de x = 220.1 y una desviación estándar s = 15. Calcular el número de datos aproximados que hay entre el dato nominal y el dato nominal. x 1= 229 x 2= 296.6 18 Del Escritorio del Ing. Gustavo Salas A