UNIDAD 1: ESTADISTICA DESCRIPTIVA. INTRODUCCION, NOTACION SUMATORIA. Habitualmente el propósito de la Estadística Aplicada es el de sacar conclusiones de una población en estudio, examinando solamente una parte de ella denominada muestra. Este proceso, denominado Inferencia Estadística, suele venir precedido de otro, denominado Estadística Descriptiva, en el que los datos son ordenados, resumidos y clasificados con objeto de tener una visión más precisa y conjunta de las observaciones, intentando descubrir de esta manera posibles relaciones entre los datos, viendo cuales toman valores parecidos, cuales difieren grandemente del resto, destacando hechos de posible interés, etc. También están entre los objetivos de la Estadística Descriptiva el presentarlos de tal modo que permitan sugerir o aventurar cuestiones a analizar en mayor profundidad, así como estudiar si pueden mantenerse algunas suposiciones necesarias en determinadas inferencias como la de simetría,, normalidad, homocedasticidad, etc. El propósito de este libro es el de dar conceptos y explicar técnicas que permitan realizar ambos procesos, a los cuales de forma conjunto se les suele denominar Análisis de Datos. FUENTE: http://thales.cica.es/rd/Recursos/rd99/ed99-0278-01/est_des1.html Una de las ramas de la Estadística más accesible a la mayoría de la población es la Descriptiva. Esta parte se dedica única y exclusivamente al ordenamiento y tratamiento mecánico de la información para su presentación por medio de tablas y de representaciones gráficas, así como de la obtención de algunos parámetros útiles para la explicación de la información. La Estadística Descriptiva es la parte que conocemos desde los cursos de educación primaria, que se enseña en los siguientes niveles y que, por lo general, no pasa a ser un análisis más profundo de la información. Es un primer acercamiento a la información y, por esa misma razón, es la manera de presentar la información ante cualquier lector, ya sea especialista o no. Sin embargo, lo anterior no quiere decir que carezca de metodología o algo similar, sino que, al contrario, por ser un medio accesible a la mayoría de la población humana, resulta de suma importancia considerar para así evitar malentendidos, tergiversaciones o errores. FUENTE: http://www.uaq.mx/matematicas/estadisticas/xu3.html La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas variables. Las variables pueden ser de dos tipos: Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo). Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales). Las variables también se pueden clasificar en: Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alunmos de una clase). Variables bidimensionales: recogen información sobre dos características de la población (por ejemplo: edad y altura de los alumnos de una clase). Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo: edad, altura y peso de los alumnos de una clase). Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas: Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podrá ser 3,45). Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc. Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos: Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo. Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeo que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad. Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo. FUENTE: http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas variables. Las variables pueden ser de dos tipos: Variables cualitativas o atributos: no se pueden medir numéricamente, representan caracteristicas de las variables (por ejemplo: nacionalidad, color de la piel, sexo). Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales). Las variables también se pueden clasificar en: Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alunmos/as de una clase). Variables bidimensionales: recogen información sobre dos características de cada elemento de la población simultaneamente (por ejemplo: edad y altura de los alumnos/as de una clase). Variables multidimensionales: recogen información sobre tres o más características de cada elemnto (por ejemplo: edad, altura y peso de los alumnos/as de una clase). Por su parte, las variables cuantitativas se pueden clasificar atendiendo a los valores que pueden tomar en discretas y continuas: Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podrá ser 3,45). Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc. Independientemente del tipo de variable con el que se este trabajando, cuando se estudia el comportamiento de las mismas hay que distinguir claramente los siguientes conceptos: Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno o alumna es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo. Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeo que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad. Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo.Una muestra representativa será un subconjunto de elementos de una población obtenidos de forma aleatoria de ella (al azar), es decir habiendo sido elegidos sin ningún criterio de selección. FUENTE: http://nutriserver.com/Cursos/Bioestadistica/Estadistica_Descriptiva.html DATOS NO AGRUPADOS. MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN Estadística sumaria. Podemos usar una serie de números conocidos como estadística sumaria para describir las características del conjunto de datos. Dos de estas características son de particular importancia para los responsables de tomar decisiones: la de tendencia central y la de dispersión. Tendencia central: la tendencia central se refiere al punto medio de una distribución. Las medidas de tendencia central se conocen como medidas de posición. Dispersión: se refiere a la extensión de los datos en una distribución, es decir, al grado en que las observaciones se distribuyen. Sesgo: las curvas que representan los puntos de datos de un conjunto de datos pueden ser simétricas o sesgadas. Las curvas simétricas, tienen una forma tal que una línea vertical que pase por el punto más alto de la curva dividirá el área de ésta en dos partes iguales. Cada parte es una imagen espejo de la otra. En las curvas sesgadas, los valores de su distribución de frecuencias están concentrados en el extremo inferior o en el superior de la escala de medición del eje horizontal. Los valores no están igualmente distribuidos. Las curvas pueden estar sesgadas hacia la derecha (positivamente sesgadas) o sesgadas hacia la izquierda (negativamente sesgadas). Curtosis: cuando medimos la curtosis de una distribución, estamos midiendo su grado de agudeza. La media aritmética. Cuando nos referimos al "promedio" de algo, estamos hablando de la media aritmética. Para encontrar la media aritmética, sumamos los valores y el resultado lo dividimos entre el número de observaciones. Símbolos convencionales. Una muestra de una población consiste en n observaciones, con una media de x (léase equis testada). Las medidas que calculamos para una muestra se conocen como estadística. La notación es diferente cuando calculamos medidas para la población entera, es decir, para el grupo que contiene a todos los elementos que estamos describiendo. La media de una población se simboliza con μ (letra griega mi). El número de elementos de una población se denota con la letra mayúscula cursiva N. Por lo general, en estadística utilizamos letras del alfabeto latino para simbolizar la información sobre las muestras y letras del griego para referirnos a la información sobre poblaciones. Cálculo de la media a partir de datos no agrupados. Media de la población: μ = ∑x / N x = ∑x / n Para calcular esta media, sumamos todas las observaciones. Los estadísticos se refieren a este tipo de datos como datos no agrupados. Cálculo de la media de datos agrupados: Una distribución de frecuencias consta de datos agrupados en clases. Cada valor de una observación cae dentro de alguna de las clases. No sabemos el valor individual de cada observación. A partir de la información de la tabla, podemos calcular fácilmente una estimación del valor de la media de estos datos agrupados. De haber usado los datos originales sin agrupar, podríamos haber calculado el valor real de la media. Para encontrar la media aritmética de datos agrupados, primero calculamos el punto medio de cada clase. Para lograr que los puntos medios queden en cifras cerradas, redondeamos las cantidades. Después, multiplicamos cada punto medio por la frecuencia de las observaciones de dicha clase, sumamos todos los resultados y dividimos esta suma entre el número total de observaciones de la muestra. x = (f x) / n f = frecuencia de observaciones de cada clase x= punto medio de cada clase de la muestra n = número de observaciones de la muestra Codificación: Mediante esta técnica, podemos eliminar el problema de tener puntos medios muy grandes o inconvenientes. En lugar de utilizar los puntos medios reales para llevar a efecto nuestros cálculos, podemos asignar enteros consecutivos de valor pequeño, conocidos como códigos, a cada uno de los puntos medios. El entero cero puede ser asignado a cualquier punto medio, pero para que nuestros enteros sean pequeños, asignaremos cero al punto medio de la parte media de la distribución (o la parte más cercana a ésta). Podemos asignar enteros negativos a los valores menores a dicho punto medio y enteros positivos a los valores más grandes. Los estadísticos usan xo para representar el punto medio al que se le ha asignado el código 0 y u para el punto medio codificado: x = xo + w [(u f)] / n w = ancho numérico del intervalo de clase u = código asignado a cada punto medio de clase Ventajas y desventajas de la media aritmética. La media aritmética, en su carácter de un solo número que representa a un conjunto de datos completo, tiene importantes ventajas: 1. Se trata de un concepto familiar para la mayoría de las personas y es intuitivamente claro. 2. Cada conjunto de datos tiene una media, es una medida que puede calcularse y es única debido a que cada conjunto de datos posee una y sólo una media. 3. Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos. Desventajas: 1. Puede verse afectada por valores extremos que no son representativos del resto de los datos. 2. Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de dato de nuestro cálculo. 3. Somos incapaces de calcular la media para un conjunto de datos que tiene clases de extremo abierto, ya sea en el inferior o en el superior de la escala. SUGERENCIA: La media aritmética, a menudo, puede mal interpretarse si los datos no entran en un grupo homogéneo. La mediana. La mediana es un solo valor calculado a partir del conjunto de datos que mide la observación central de éstos. Esta sola observación es la más central o la que está más en medio en el conjunto de números. La mitad de los elementos están por encima de este punto y la otra mitad está por debajo. Cálculo de la mediana a partir de datos no agrupados: Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden descendente o ascendente. Si el conjunto de datos contiene un número impar de elementos, el de en medio en el arreglo es la mediana. Si hay un número par de observaciones, la mediana es el promedio de los dos elementos de en medio. Mediana = (n + 1) / 2 Cálculo de la mediana a partir de datos agrupados: 1. Encontrar qué observación de la distribución está más al centro (Mediana = (n + 1) / 2). 2. Sumar las frecuencias de cada clase para encontrar la clase que contiene a ese elemento más central. 3. Determinar el número de elementos de la clase y la localización de la clase que contiene al elemento mediano. 4. Determinar el ancho de cada paso para pasar de una observación a otra en la clase mediana, dividiendo el intervalo de cada clase entre el número de elementos contenido en la clase. 5. Determinar el número de pasos que hay desde el límite inferior de la clase mediana hasta el elemento correspondiente a la mediana. 6. Calcular el valor estimado del elemento mediano multiplicando el número de pasos que se necesitan para llegar a la observación mediana por el ancho de cada paso. Al producto sumarle el valor del límite inferior de la clase mediana. 7. Si existe un número par de observaciones en la distribución, tomar el promedio de los valores obtenidos para el elemento mediano calculados en el paso número 6. Un método más sencillo: m = {[(n + 1) / 2 – (F + 1)] / fm} w + Lm m = mediana de la muestra n = número total de elementos de la distribución F = suma de todas las frecuencias de clase hasta, pero sin incluir, la clase mediana fm = frecuencia de la clase mediana w = ancho de intervalo de clase Lm = límite inferior del intervalo de clase mediano Ventajas y desventajas de la mediana: Los valores extremos no afectan a la mediana tan intensamente como a la media. La mediana es fácil de entender y se puede calcular a partir de cualquier tipo de datos – incluso a partir de datos agrupados con clases de extremo abierto – a menos que la mediana entre en una clase de extremo abierto. Podemos encontrar la mediana incluso cuando nuestros datos son descripciones cualitativas, en lugar de números. Ciertos procedimientos estadísticos que utilizan la mediana son más complejos que aquellos que utilizan la media. Debido a que la mediana es una posición promedio, debemos ordenar los datos antes de llevar a cabo cualquier cálculo. Esto implica consumo de tiempo para cualquier conjunto de datos que contenga un gran número de elementos. Por consiguiente, si deseamos utilizar una estadística de muestra para estimar un parámetro de población, la media es más fácil de usar que la mediana. La moda. La moda es una medida de tendencia central diferente de la media, pero un tanto parecida a la mediana, pues en realidad no se calcula mediante algún proceso aritmético ordinario. La moda es aquel valor que más se repite en el conjunto de datos. En ocasiones, el azar hace que un solo elemento no representativo se repita lo suficiente para ser el valor más frecuente del conjunto de datos. Es por esta razón que rara vez utilizamos la moda de un conjunto de datos no agrupados como medida de tendencia central. Por esta razón, siempre que utilizamos la moda como medida de tendencia central de un conjunto de datos, debemos calcular la moda de datos agrupados (buscar la clase modal). Cálculo de la moda de datos agrupados: Cuando los datos ya se encuentran agrupados en una distribución de frecuencias, podemos poner que la moda está localizada en la clase que contiene el mayor número de elementos, es decir, en la clase que tiene mayor frecuencia. Para determinar un solo valor para la moda a partir de esta clase modal: Mo = Lmo + [d1 / (d1 + d2 )] w Lmo = límite inferior de la clase modal. d1 = frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente por debajo de ella. d2 = frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente por encima de ella. w = ancho del intervalo de la clase modal. Ventajas y desventajas de la moda: La moda, al igual que la mediana, se puede utilizar como una posición central para datos tanto cualitativos como cuantitativos. También, al igual que la mediana, la moda no se ve mayormente afectada por los valores extremos. Incluso si los valores extremos son muy altos o muy bajos, nosotros escogemos el valor más frecuente del conjunto de datos como el valor modal. Podemos utilizar la moda sin importar qué tan grandes o qué tan pequeños sean los valores del conjunto de datos, e independientemente de cuál sea su dispersión. La podemos utilizar aun cuando una o más clases sean de extremo abierto. Muy a menudo, no existe un valor modal debido a que el conjunto de datos no contiene valores que se presenten más de una vez. En otras ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo número de veces. Otra desventaja consiste en que cuando los datos contienen dos, tres o más modas, resultan difíciles de interpretar y comparar. Comparación entre la media, la mediana y la moda. Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar la media, la mediana o la moda como medidas de tendencia central. Las distribuciones simétricas que sólo contienen una moda, siempre tienen el mismo valor para la media, la mediana y la moda. En tales casos, no es necesario escoger la medida de tendencia central, pues ya está hecha la selección. En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la moda todavía se encuentra en el punto más alto de la distribución, la mediana está hacia la derecha de la moda y la media se encuentra todavía más a la derecha de la moda y la mediana. En una distribución negativamente sesgada, la moda sigue siendo el punto más alto de la distribución, la mediana está hacia la izquierda de ella y la media se encuentra todavía más a la izquierda de la moda y la mediana. Cuando la población está sesgada negativa o positivamente, con frecuencia la mediana resulta ser la mejor medida de posición, debido a que siempre está entre la moda y la media. La mediana no se ve altamente influida por la frecuencia de aparición de un solo valor como es el caso de la moda, ni se distorsiona con la presencia de valores extremos como la media. SUGERENCIA La selección de la media, la mediana o la moda, en ocasiones, depende de la práctica común de una industria en particular (salario medio de los obreros, precio mediano de una casa, familia modal para el diseño de automóviles). La dispersión. Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una parte de la información que necesitamos acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad. La dispersión es importante porque: 1. Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos. 2. Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersión antes de abordar esos problemas. 3. Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de valores con respecto al centro de distribución o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones más grandes. Medidas de dispersión. La dispersión puede medirse en términos de la diferencia entre dos valores seleccionados del conjunto de datos. Las medidas de distancia son: el alcance, el alcance interfractil y el alcance intercuartil. Alcance. Es la diferencia entre el más alto y el más pequeño de los valores observados. Alcance = valor de la observación más alta – valor de la observación más pequeña El alcance es fácil de entender y de encontrar, pero su utilidad como medida de dispersión es limitada. Sólo toma en cuenta los valores más alto y más bajo de una distribución y no considera ninguna otra observación del conjunto de datos. Ignora la naturaleza de la variación entre todas las demás observaciones, y se ve muy influido por los valores extremos. Las distribuciones de extremo abierto no tienen alcance, pues no existe un valor más alto o más bajo en la clase de extremo abierto. Alcance interfractil. En una distribución de frecuencias, una fracción o proporción dada de los datos cae en un fractil o por debajo de éste. La mediana, por ejemplo, es el fractil 0,5, puesto que la mitad de los datos es menor o igual a este valor. Los fractiles son parecidos a los porcentajes. En una distribución cualquiera, el 25% de los datos está en el fractil 0,25 o por debajo de éste; igualmente, 25% de los datos cae en el vigésimo quinto percentil o por debajo de éste. El alcance interfractil es una medida de la dispersión entre dos fractiles de una distribución de frecuencias, es decir, la diferencia entre los valores de los dos fractiles. Los fractiles tienen nombres especiales, dependiendo del número de partes iguales en que se dividen los datos. Los fractiles que los dividen en 10 partes iguales se conocen como deciles. Los cuartiles dividen los datos en cuatro partes iguales. Los percentiles dividen el conjunto de datos en 100 partes iguales. Alcance intercuartil. El alcance intercuartil mide aproximadamente qué tan lejos de la mediana tenemos que ir en cualquiera de las dos direcciones antes de que podamos recorrer una mitad de los valores del conjunto de datos. Para calcular este alcance, dividimos nuestros datos en cuatro partes, cada una de las cuales contiene 25% de los elementos de la distribución. Los cuartiles son, entonces, los valores más alto y más bajo de estas cuatro partes, y el alcance intercuartil es la diferencia entre los valores del primer cuartil y el tercer cuartil. SUGERENCIA El punto fractil es siempre el punto en el o debajo del cual cae la proporción establecida de valores. Medidas de desviación promedio. Las descripciones más comprensivas de la dispersión son aquellas que tratan con la desviación promedio con respecto a alguna medida de tendencia central. Dos de tales medidas son la varianza y la desviación estándar. Ambas medidas nos dan una distancia promedio de cualquier observación del conjunto de datos con respecto a la media de la distribución. Varianza de la población. Cada población tiene una varianza, que se simboliza con 2 (sigma cuadrada). Para calcular la varianza de una población, dividimos la suma de las distancias al cuadrado entre la media y cada elemento de la población entre el número total de observaciones de dicha población. 2 = (x - )2 / N 2 = varianza de la población. x = elemento u observación. = media de la población. N = número total de elementos de la población. Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas unidades no son intuitivamente claras o fáciles de interpretar. Por esta razón, tenemos que hacer un cambio significativo en la varianza para calcular una medida útil de la desviación, que sea menos confusa. Esta medida se conoce como la desviación estándar, y es la raíz cuadrada de la varianza. La desviación estándar, entonces, está en las mismas unidades que los datos originales. Desviación estándar de la población. La desviación estándar de la población, o , es simplemente la raíz cuadrada de la varianza de la población. Como la varianza es el promedio de las distancias al cuadrado que van desde las observaciones a la media, la desviación estándar es la raíz cuadrada del promedio de las distancias al cuadrado que van desde las observaciones a la media. La desviación estándar está en las mismas unidades que las que se usaron para medir los datos. La raíz cuadrada de un número positivo puede ser tanto positiva como negativa. Cuando tomamos la raíz cuadrada de la varianza para calcular la desviación estándar, los estadísticos solamente consideran la raíz cuadrada positiva. Para calcular la varianza o la desviación estándar, construimos una tabla utilizando todos los elementos de la población. Usos de la desviación estándar. La desviación estándar nos permite determinar, con un buen grado de precisión, dónde están localizados los valores de una distribución de frecuencias con relación a la media. El teorema de Chebyshev dice que no importa qué forma tenga la distribución, al menos 75% de los valores caen dentro de + 2 desviaciones estándar a partir de la media de la distribución, y al menos 89% de los valores caen dentro de + 3 desviaciones estándar a partir de la media. Con más precisión: Aproximadamente 68% de los valores de la población cae dentro de + 1 desviación estándar a partir de la media. Aproximadamente 95% de los valores estará dentro de + 2 desviaciones estándar a partir de la media. Aproximadamente 99% de los valores estará en el intervalo que va desde tres desviaciones estándar por debajo de la media hasta tres desviaciones estándar por arriba de la media. Resultado estándar: La desviación estándar es también útil para describir qué tan lejos las observaciones individuales de una distribución de frecuencias se apartan de la media de la distribución. Una medida que se conoce como resultado estándar nos da el número de desviaciones estándar que una observación en particular ocupa por debajo o por encima de la media: Resultado estándar = (x - ) / Cálculo de la varianza y la desviación estándar utilizando datos agrupados: 2 = f(x - )2 / N 2 = varianza de la población. x = punto medio de cada una de las clases. = media de la población. N = número total de elementos de la población. f = frecuencia de cada una de las clases. = √ desviación estándar de una muestra: 2 Para calcular la varianza y la desviación estándar de una muestra, utilizamos las mismas fórmulas, sustituyendo por x y N con n – 1. s2 = (x - x)2 / (n – 1) ¿Por qué utilizamos n – 1 como denominador en lugar de N? Los especialistas en estadística pueden demostrar que si tomamos muchas muestras de una población dada, si encontramos la varianza de la muestra para cada muestra y promediamos los resultados, entonces este promedio no tiende a tomar el valor de la varianza de la población, a menos que tomemos n – 1 como denominador de los cálculos. Al igual que utilizamos la desviación estándar de la población para derivar los resultados estándar de la misma, podemos también usar la desviación estándar de la muestra para calcular los resultados estándar de la muestra. Estos resultados indican a cuántas desviaciones estándar se halla una observación en particular por arriba o por debajo de la media de la muestra. Resultado estándar de la muestra = (x – x) / s SUGERENCIAS Las letras griegas siempre se refieren a parámetros de la población y las letras latinas se refieren a estadísticas de la muestra. Recordar utilizar N como denominador cuando se calcula la desviación estándar de la población, pero n – 1 para calcular la desviación estándar de la muestra. Dispersión relativa: el coeficiente de variación. La desviación estándar es una medida absoluta de la dispersión que expresa la variación en las mismas unidades que los datos originales. La desviación estándar no puede ser la única base para la comparación de dos distribuciones. Si tenemos una desviación estándar de 10 y una media de 5, los valores varían en una cantidad que es el doble de la media misma. Si, por otro lado, tenemos una desviación estándar de 10 y una media de 5.000, la variación con respecto a la media es insignificante. En consecuencia, no podemos conocer la dispersión de un conjunto de datos hasta que conocemos su desviación estándar, su media y cómo se compara la desviación estándar con respecto a la media. Lo que necesitamos es una medida relativa que nos proporcione una estimación de la magnitud de la desviación con respecto a la magnitud de la media. El coeficiente de variación es una de estas medidas relativas de dispersión. Se relaciona la desviación estándar y la media, expresando la desviación estándar como porcentaje de la media. Coeficiente de variación = ( / ) * 100 FUENTE: http://www.aulafacil.com/CursoEstadistica/Lecc-4-est.htm Medidas de posición central Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas características de esta serie de datos. Las medidas de posición son de dos tipos: a) Medidas de posición central: informan sobre los valores medios de la serie de datos. b) Medidas de posición no centrales: informan de como se distribuye el resto de los valores de la serie. a) Medidas de posición central Las principales medidas de posición central son las siguientes: 1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas: a) Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra: (X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn) Xm = --------------------------------------------------------------------------------------- n b) Media geométrica: se eleva cada valor al número de veces que se ha repetido. Se multiplican todo estos resultados y al producto fiinal se le calcula la raíz "n" (siendo "n" el total de datos de la muestra). Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica. La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada. Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información. Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad. 2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores). No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido). 3.- Moda: es el valor que más se repite en la muestra. Ejemplo: vamos a utilizar la tabla de distribución de frecuencias con los datos de la estatura de los alumnos que vimos en la lección 2ª. Variable (Valor) x Frecuencias absolutas Simple Acumulada x x Frecuencias relativas Simple Acumulada x x 1,20 1 1 3,3% 3,3% 1,21 1,22 4 4 5 9 13,3% 13,3% 16,6% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1 2 3 3 4 3 3 12 14 17 20 24 27 30 3,3% 6,6% 10,0% 10,0% 13,3% 10,0% 10,0% 40,0% 46,6% 56,6% 66,6% 80,0% 90,0% 100,0% Vamos a calcular los valores de las distintas posiciones centrales: 1.- Media aritmética: Xm = (1,20*1) + (1,21*4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3) ------------------------------------------------------------------------------------------------30 Luego: Xm = 1,253 Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm. 2.- Media geométrica: X= ((1,20^ 1) * (1,21^4) * (1,22^ 4) * .....* (1,29^3)* (1,30^3)) ^ (1/30) Xm = 1,253 Luego: En este ejemplo la media aritmética y la media geométrica coinciden, pero no tiene siempre por qué ser así. 3.- Mediana: La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas acumuladas. En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la media se situaría exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la división entre el 50% inferior y el 50% superior. 4.- Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modas. FUENTE: http://www.aulafacil.com/CursoEstadistica/Lecc-4-est.htm MEDIDAS DE TENDENCIA CENTRAL O MEDIDAS DE POSICION, LOCALIZACION, CENTRALIZACION. Una medida de posición o tendencia central es un valor que se calcula para un grupo de datos y que se utiliza para describirlos de alguna manera. Media aritmética (valor promedio). Es el valor típico de la serie. Se define como la división de la suma de todos los valores entre el número de elementos o valores. x n X X Media Aritmetica x Suma de las muestras n numero total de las muestras Propiedades. La media es única. Si se suma o se resta un elemento, la media también cambia Si se le suma una constante a la muestra original, la media se modifica de igual magnitud. La suma algebraica de las variables con respecto a la media es = 0. (X i X) 0 25 5 5 2 6 7 8 2 x 25 X (2 5) (6 5) (7 5) (8 5) (2 5) 3 1 2 3 ( 3) 0 Calculo de la media aritmética. a) Serie simple o datos no agrupados X 1 X 2 .... X n x N N 399 X 13.3 30 X b) Datos organizados: X Pm1 f 1 Pm2 f 2 .... Pmn f n Pmf f 1 f 2 ... f n f Lim. Clase 9-10.5 10.6-12.1 12.2-13.7 Front. clase 8.5-10 10-11.5 11.5-13 f 4 8 3 Pmf 39 90.8 38.85 13.8-15.3 15.4-16.9 17-18.5 X 13-14.5 14.5-16 17.75 9 3 3 x=30 130.95 48.45 53.25 401.3 Pmf 4013 . 13.37 f 30 MODA= MODO= Mo Dato estadístico que se repite con mayor frecuencia. a) Serie simple. Unimodal: cuando se repite un solo número varias veces Bimodal: serie se repiten 2 veces igual número de veces. Multimodal: serie se repiten más de 2 veces Nula: cuando no hay ningún número que se repita. b) Datos agrupados. 1 i M 0 L1 1 2 93 M 0 13 .) (15 (9 3) (9 3) 6 13 . ) 13 0.75 13.75 (15 6 6 MEDIANA = Md. Es el dato que divide a la serie en 2 partes iguales. a) Serie simple: Md n 1 30 1 31 155 . 2 2 2 b) Datos agrupados: n Md Li 2 fm 115 . 15 . 13 30 f 12 (i ) 115 (15 . 2 .) 3 MEDIA GEOMETRICA = G = GM a) Serie simple: G G X 1 * X 2 *.....* X n log X 1 log X 2 ... log X n 33.45 111 . Anti log 12.88 13 n 30 b) Datos agrupados: log Pm1 f 1 log Pm2 f 2 ..... log pmn f n log Pmf f 1 f 2 .... f n N log 9.75(4) log 1135 . (8) log 12.95(3) lg 14.55(9) log 1615 . (3) log 17.75(3) G 30 3.95 8.93 3.33 10.46 3.62 3.74 3353 . G 111 . Anti log 12.88 13 30 30 G MEDIA ARMONICA = Ho a) Datos no organizados: Ho n 1 X1 Ho 1 1 ..... X2 Xn n 1 x 30 1 1 1 1 1 1 1 1 1 1 2 2 4 4 3 5 4 3 2 9 10 11 12 13 14 15 16 17 18 30 12.5 13 240 b) Datos agrupados Ho Ho N f1 f f 2 ..... n Pm1 Pm2 Pmn N f Pm 30 4 8 3 9 3 3 4.75 1135 . 12.95 14.55 1615 . 17.75 30 30 13.04 13 0.41 0.70 0.23 0.621 018 . 017 . 2.30 FUENTE: http://www.micromegas.com.mx/apuntes/documents/estadis1-1/esta04.doc MEDIDAS DE DISPERSIÓN: Breve Introducción Hasta el momento hemos estudiado los valores centrales de la distribución, pero también es importante conocer si los valores en general están cerca o alejados de estos valores centrales, es por lo que surge la necesidad de estudiar medidas de dispersión. Rango: Es la primera medida que vamos a estudiar, se define como la diferencia existente entre el valor mayor y el menor de la distribución,. Lo notaremos como R. Realmente no es una medida muy significativa e la mayoría de los casos, pero indudablemente es muy fácil de calcular. Hemos estudiado varias medidas de centralización, por lo que podemos hablar de desviación con respecto a cualquiera de ellas, sin embargo, la mas utilizada es con respecto a la media. Desviación: Es la diferencia que se observa entre el valor de la variable y la media aritmética. La denotaremos por di . No es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente desviación, por lo que precisaremos una medida que resuma dicha información. La primera solución puede ser calcular la media de todas las desviaciones, es decir, si consideramos como muestra la de todas las desviaciones y calculamos su media. Pero esta solución es mala pues como veremos siempre va a ser 0. Luego por lo tanto esta primera idea no es valida, pues las desviaciones positivas se contrarrestan con las negativas. Para resolver este problema, tenemos dos caminos: Tomar el valor absoluto de las desviaciones. Desviación media Elevar al cuadrado las desviaciones. Varianza. Desviación media: Es la media de los valores absolutos de las desviaciones, y la denotaremos por d m. Varianza: Es la media de los cuadrados de las desviaciones, y la denotaremos por o también por . Aunque también es posible calcularlo como: Este estadístico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendrá en cm 2. Desviación típica: Es la raíz cuadrada de la varianza, se denota por Sx o x. Este estadístico se mide en la misma unidad que la variable por lo que se puede interpretar mejor. Otros dos estadísticos importantes son la cuasivarianza y la cuasidesviación típica, que como veremos cuando estudiemos el tema de estimación estadística, son los estimadores de la varianza y desviación típica poblacionales respectivamente. Cuasivarianza: Es una medida de dispersión, cuya única diferencia con la varianza es que dividimos por N-1, la representaremos por o y la calcularemos de la siguiente forma: Cuasidesviación típica: La raíz cuadrada de la cuasivarianza y la denotaremos por SN—1 o N-1. Todas estas medidas de dispersión vienen influidas por la unidad en la que se mide la variable, esto implica que si cambiamos de unidad de medida, los valores de estos estadísticos se vean a su vez modificados. Además, no permite comparar por ejemplo, en un grupo de alumnos si los pesos o las alturas presentan mas dispersión. Pues no es posible comparar unidades de distinto tipo. Precisamos por lo tanto, una medida "escalar", es decir, que no lleve asociado ninguna unidad de medida. Coeficiente de Variación: Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. La denotaremos por C.V. Ejemplo Veamos por último un ejemplo de cómo se calculan todas estas medidas. 45 55 6 6 50 300 -19,4 116,4 2258,16 15000 55 65 10 16 60 600 -9,4 94 883,6 36000 65 75 19 35 70 1330 0,6 11,4 6,84 93100 75 85 11 46 80 880 10,6 116,6 1235,96 70400 85 95 4 N= 50 50 90 360 3470 20,6 82,4 1697,44 32400 420,8 6082 246900 = Dm= = C.V.= FUENTE: http://thales.cica.es/rd/Recursos/rd97/UnidadesDidacticas/53-1-upunt152.html Caracterización de las Distribuciones A.- Medidas de Tendencia Central Media aritmética Suma de los valores de una serie de medidas respecto del número de valores existentes. Su cálculo equivale a xi/n, siendo n el tamaño de la muestra y xi cada uno de los valores. Mediana Valor que queda en el centro tras la división de una serie de valores ordenados en dos partes iguales, una superior y una inferior. Para determinarla debe seguirse los siguientes pasos: -ordenar los datos de menor a mayor -si el número de datos es impar corresponde al que queda en el centro -si el número de datos es par corresponde al valor medio de los dos datos centrales Moda Valor que se presenta con más frecuencia en una serie de mediciones. B.- Medidas de Dispersión Amplitud Diferencia entre los valores mayor y menor de un conjunto de datos obtenidos en una medición. Coeficiente de variación Equivale a la desviación típica expresada en porcentaje respecto de la media aritmética. Es la desviación típica partido por la media aritmética. Desviación estandar Medida de la dispersión de una distribución de frecuencias respecto de su media. Equivale a la raiz cuadrada de la varianza. Se expresa como si corresponde a la población total o como s si corresponde a una muestra de la población Rango Medida equivalente a la amplitud Valor Z Medida del número de desviaciones estandar que un valor se aleja de la media Z= (xi - X) / s o Z= (xi - ) / Varianza Medida de la variación de una serie de observaciones respecto de la media. Equivale a la dispersión respecto de la media en una serie de datos continuos. Su cálculo corresponde a: (xi- )2/n si corresponde a la población total o (xi- X)2/(n-1) si corresponde a una muestra de esa población, siendo o X la media, n el tamaño de la población o de la muestra y xi cada uno de los valores. C.- Divisiones en una Distribución Percentiles Números que dividen una distribución de frecuencias obtenida en una medición, en cien partes ordenadas y de igual área. Cuartil División de una distribución en 4 subgrupos iguales y ordenados. Desviación intercuartiles Valor de la distancia entre el primer cuartil y el tercer cuartil D.- Otras Caracterizaciones de la Distribución Intervalo de confianza Rango de valores dentro del cual se encuentra un parámetro con una determinada probabilidad (esta probabilidad es el denominado nivel de confianza) Kurtosis Parámetro que indica lo apuntada o aplanada que ésta una distribución observada con respecto a una distribución normal. Límite de confianza Puntos extremos de un intervalo de confianza. Su cálculo se realiza según la fórmula: Limites = medida de tendencia central (Z x Dispersión/ n); siendo la medida de tendencia central la media para datos continuos o la proporción medida para discontinuos, la dispersión será la desviación estandar en datos continuos y el valor proporción x (1-proporción) para datos discontinuos, Z es el valor de la t de Student para un determinado nivel de confianza y n es el tamaño de la muestra estudiada. FUENTE: http://eie.unizar.es/RATIO/formC/formCa6.htm MEDIDAS DE DISPERSION Son medidas que indican la variación que tienen los datos con respecto a la media. 1) 1) Para un conjunto de datos el RANGO se obtiene como la diferencia de los valores del dato mayor menos el dato menor. Esta es una medida que es poco utilizada debido a que únicamente considera el valor de los datos extremos sin considerar el comportamiento de los demás datos. Ejemplo: 1,2,100 = 99 15,17,16,18,21,18,16,19,20,16,15,20 R=6 2) 2) DESVIACION DE LA MEDIA Cuando se tiene un conjunto de n datos ( no agrupados ) la desviación de la n DM X1 X i 1 N media se obtiene mediante la siguiente expresión: Y representa el promedio de los valores con los cuales cada dato se aleja de la media. Ejemplo: Obtener la desviación media para el siguiente conjunto de datos: 4,13,20,14,17,15,11,30,6,10. n DM i 1 n 1 Xi X X1 X i 1 N N n X Xi i 1 N X 14 4 13 20 14 17 15 11 30 6 10 10 1 4 14 13 14 20 14 14 14 17 14 10 15 14 11 14 30 14 6 14 10 14 1 (10 1 6 0 3 1 16 8 4) 10 1 (52) 10 DM 5.2 Significa que los datos que se encuentran alejados en promedio 5.2 unidades de la media, es decir, que la mayoría de los datos están comprendidos entre: X 8.8 – 5.2 14 5.2 19.2 Para obtener la desviación media cuando se tiene un conjunto de datos agrupados se emplea la siguiente fórmula: k DM Mi X i 1 k fi i 1 Donde: k = número de subintervalos fi = frecuencia del intervalo i Mi = marca de clase del intervalo i Ejemplo: Determine la desviación media para el siguiente conjunto de datos: Intervalo 0-20 20-40 40-60 60-80 80-100 100-120 120-140 fi 7 12 35 17 22 11 3 107 Mi 10 30 50 70 90 110 130 fiMi 70 360 1750 1190 1980 1210 390 6950 Mi-X -54.95 -34.95 -14.95 5.05 25.05 45.05 65.05 fi|Mi-X| 384.65 419.4 523.25 85.85 551.1 495.55 195.15 2654.95 6950 107 X 64.95 X 1. Se calcula la media: k fiMi X Mi X 1 DM i kfi fi 2654.95 107 DM 24.81 DM i 1 2. Significa que la mayoría de datos están en el intervalo: X -24.81 64.95 24.81 3) 3) VARIANZA Y DESVIACION ESTANDAR. 2 Xi X 2 n Cuando se tiene un conjunto de n datos la varianza se determina mediante la siguiente expresión: ( Varianza = ², s² ). Cuando se tiene una muestra ( Xi X ) 2 S2 n 1 Cuando se tiene una población. 2 S S2 La desviación estandar es igual a la raíz cuadrada de la varianza, ( desviación estándar = , S). Ejemplo: Obtener la varianza y la desviación estándar para los siguientes datos: 4,13,10,18,22,19,14,17,25,33. 4 13 10 18 22 19 14 17 25 33 Xi X X 10 n X 17.5 4 17.5 2 (13 17.5) 2 (10 17.5) 2 2 2 2 ( 18 17 . 5 ) ( 22 17 . 5 ) ( 19 17 . 5 ) 1 S2 10 (14 17.5) 2 (17 17.5) 2 (25 17.5) 2 (33 17.5) 2 S2 1 182.25 20 25 56.25 0.25 20.25 2.25 10 12.25 0.25 56.25 240.25 S 2 59.05 Varianza: S2 1 ( Xi X ) 2 n Desviación Estándar: S 2 59.05 S 7.68 VARIANZA Y DESVIACION ESTANDAR PARA DATOS AGRUPADOS. Cuando se tiene un conjunto de datos agrupados, la varianza se determina ( para el siguiente conjunto ) mediante la siguiente expresión: ( Xi X ) 2 S S2 2 S n Ejemplo: Calcular la varianza y desviación estándar para el siguiente conjunto de datos: Intervalo 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 X S 2 fi 3 12 20 14 18 7 10 8 92 fiMi n Mi 2 7 12 17 22 27 32 37 fiMi 6 84 240 238 396 189 320 296 1769 Mi-X -17.22 -12.22 -7.22 -2.22 2.78 7.78 12.78 17.78 (Mi-X)² 296.52 149.52 52.12 4.98 7.72 60.52 163.32 316.12 fi(Mi-X)² 889.56 1791.84 1042.4 68.88 138.96 423.64 1633.2 2528.96 8517.44 1769 92 X 19.22 X fi ( Mi X ) 2 n 8517.44 S2 92 2 S 92.58 S 2 92.58 S 9.62 CARACTERISTICAS DE LA DESVIACION ESTANDAR. 1) 1) Cuando se tiene un conjunto de datos que son aprox. simétricos, es decir que su gráfica se acerca o la siguiente: 50% 50% ~ X X X El intervalo que se encuentra en: [ X-; X+ ] contiene aproximadamente el 68.27% del total de los datos: 68.27% X- X X + 2) 2) En el intervalo [ X-2; X+2 ] se encuentra el 95.45% de los datos aproximadamente. 95.45% 2 X ( X 2 ) 2 ( X 2 ) 3) 3) En el intervalo [X-3; X+3 ] se encuentran el 99.63% del total de datos. 99.63% 3 2 X 2 3 4) 4) Cuando se tienen varios conjuntos de datos que tienen el mismo valor de la desviación estándar, sus gráficas se encuentran desplazadas hacia la izquierda o hacia la derecha una con respecto a las otras dependiendo del valor que tengan sus medias: X3 X1 X2 X 3 X1 X 2 X1 5) 5) Cuando se tienen varios conjuntos de datos, cuyo valor de la desviación estándar varia y el valor de la media es el mismo, sus gráficas se aprox. a las siguientes: X 1 2 3 1 2 3 COEFICIENTE DE VARIACION. Para un conjunto de datos el coeficiente de variación se define como la desviación estándar dividida entre las medias, es decir: CV X Gráficamente se representa como porcentaje. Ejemplo: Determine el coeficiente de variación para el siguiente conjunto de datos: Intervalo 0-20 20-40 40-60 60-80 80-100 100-120 120-140 140-160 Fi 7 19 35 70 80 67 40 20 338 Mi 10 30 50 70 90 110 130 150 fiMi 70 570 1750 2900 7200 7370 5200 3000 30,060 Mi-X -78.9 -58.9 -38.9 -18.9 1.1 21.1 41.1 61.1 (Mi-X)² 6225.2 3469.2 1513.2 357.2 1.21 445.2 1689.2 3732.2 fi(Mi-X)² 43575.4 65914.8 52962 25004 96.8 29828.4 67568 74664 359,613.4 CV X CV 36% S 2 32.6 0.36 88.9 fi ( Mi X ) 2 n 359613.4 S2 338 2 S 1063.9 X fiMi fi 30060 338 X 88.9 X S 32.6 Constituyen el porcentaje comprendido Hasta el 1er. Intervalo. 68.27% X- Intervalo 100-150 150-200 200-250 250-300 300-350 350-400 400-450 Fi 15 40 75 114 97 62 37 CV Mi 125 175 225 275 325 375 425 X X + FiMi 1875 7000 16875 31350 31525 23250 15725 Mi-X -173.8 -123.8 -73.8 -25.8 26.2 76.2 126.2 (Mi-X)² 30206.44 15326.44 5446.44 566.44 686.44 5806.44 15926.44 fi(Mi-X)² 453096.6 613057.6 408483 64574.16 66584.16 359999.28 589278.28 176.2 31046.44 683021.68 3238095.28 83.71 0.28 298.8 X CV 28% 450-500 22 475 462 10450 138050 138050 462 X 298.80 X Mi X ) fi (fiMi S X fin 2 2 3238095.28 462 2 S 7008.86 S2 S 83.71 FUENTE: http://www.micromegas.com.mx/apuntes/documents/estadistica/estadis8.htm MEDIA, MEDIANA Y MODA PARA DATOS AGRUPADOS MEDIA ARITMÉTICA Cuando los datos se presentan en una distribución de frecuencias, todos los valores que caen dentro de un intervalo de clase dado se consideran iguales a la marca de clase, o punto medio, del intervalo. Las fórmulas k X = f1X1 + f2X2 + ...+fkXk = fjXj = fX = fX j=1 ----------------------------f1 + f2 + ...+ fk ------ ------k f fj ------N j=1 k X = A + fjdj = A + fd j=1 -----------k fj -----------N j=1 son válidas para tales datos agrupados si interpretamos Xj como la marca de clase, fj con su correspondiente frecuencia de clase, A como cualquier marca de clase conjeturada y dj = Xj – A como las desviaciones Xj con respecto de A. Los cálculos con las dos ecuaciones anteriores se llaman métodos largos y cortos, respectivamente . Si todos los intervalos de clase tienen idéntica anchura c, las desviaciones dj = Xj - A pueden expresarse como cuj, donde uj pueden ser 0, 1, 2, 3,..., y la segunda fórmula se convierte en k X = A + fjuj = A+ fu c j=1 -------N ------------N que es equivalente a la ecuación X = A + cu. Esto se conoce como método de compilación para calcular la media. Es un método muy breve y debe usarse siempre para datos agrupados con intervalos de clase de anchuras iguales. Se debe notar que en el método de compilación los valores de la variable X se transforman en los valores de la variable u de acuerdo con X = A + cu. LA MEDIANA La mediana de un conjunto de números en magnitud es o el valor central o la media de los dos valores centrales. Para datos agrupados, la mediana obtenida por interpolación viene dada por Mediana = L1 + N/2 - (f)1 -------------fmediana c donde: L1 = frontera inferior de la clase de la mediana. N = Número de datos (frecuencia total) (f)1 = suma de frecuencias de las clases inferiores a la de la mediana. fmediana = frecuencia de la clase de la mediana. c = anchura del intervalo de clase de la mediana. Geométricamente la mediana es el valor de X (abscisa) que corresponde a la recta vertical que divide un histograma en dos partes de igual área. Ese valor de X se suele denotar por X. LA MODA La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir, el valor más frecuente. La moda puede no existir, e incluso no ser única en caso de existir. En el caso de datos agrupados donde se haya construido una curva de frecuencias para ajustar los datos, la moda será el valor (o los valores) de X correspondiente al máximo (o máximos) de la curva. Ese valor de X se denota por X. La moda puede deducirse de una distribución de frecuencias o de un histograma a partir de la fórmula Moda = L1 + 1 c ----------1 + 2 donde: L1 = frontera inferior de la clase modal. 1 = exceso de la frecuencia modal sobre la de la clase inferior inmediata. 2 = exceso de la frecuencia modal sobre la clase superior inmediata. c = anchura del intervalo de clase modal FUENTE: http://html.rincondelvago.com/media-mediana-y-moda-para-datosagrupados.html Cálculo de las medidas de posición en datos agrupados Cuando los datos están agrupados en distribución de frecuencias las fórmulas varían un poco. Clases x f F fx 29.5-34.5 32 1 1 32 34.5-39.5 37 3 4 111 39.5-44.5 42 8 12 336 44.5-49.5 47 9 21 423 49.5-54.5 52 7 28 364 54.5-59.5 57 4 32 228 59.5-64.5 62 3 35 186 64.5-69.5 67 3 38 201 69.5-74.5 72 2 40 144 40 2025 Total Donde: x es el punto medio de clase f es la frecuencia absoluta F es la frecuencia acumulada fx es el producto del punto medio por la frecuencia absoluta Moda (datos agrupados) Donde : L = Limite inferior de la clase modal. d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior. d2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase posterior. C = Intervalo de clase. Por ejemplo : Primero se localiza la clase modal que es aquella en la que hay la mayor densidad de frecuencia por unidad de intervalo y luego aplicar la formula. La clase es : 44.5 - 49.5 Entonces: Mo = 44.5 + 1 * 5 1+2 = 44.5 + 1.67 = 46.17 Mediana (datos agrupados) Donde : n = Número total de observaciones. L = Limite inferior de la clase que contiene la mediana. f = Frecuencia de la clase que contiene la mediana. F = Frecuencia acumulada "menos de" de la clase anterior. C = Intérvalo de clase. La determinación de la clase que contiene la mediana se hace dividiendo n/2 y viendo en cual clase quedó este acumulado. En el ejemplo es la clase 44.5 - 49.5 ya que en ésta quedó el 20° dato. Media aritmética (datos agrupados) Es la suma de los productos de la frecuencia por el punto medio divididos por la frecuencia acumulada total. x = fx = 2025 = 50.62 n 40 Percentiles (datos agrupados) Donde: Pm = Percentil m. m = Número del percentil deseado. n = Número total de observaciones. L = Limite inferior de la clase donde esta el percentil. f = Frecuencia de la clase que contiene el percentil. F = Frecuencia acumulada de la clase anterior a la que contiene el percentil C = Intervalo de clase. Cálculo del P72 Primero se determina la clase donde esta el percentil deseado así : m/100 * n = 72/100 * 40 = 28.8 O sea que el P72 es el 28.8° término de la serie y éste queda en la clase 54.5 - 59.5. P72 = 54.5 + 28.8 - 28 * 5 = 55.5 4 FUENTE: http://cosmech.tripod.com/Estadistica/medidas1.htm A PARTIR DE UN CONJUNTO DADO DE DATOS REPRESENTARLOS MEDIANTE UN HISTOGRAMA, POLIGONO DE FRECUENCIAS, OJIVAS, ETC. HISTOGRAMA Un histograma es un resumen gráfico de la variación de un conjunto de datos. La naturaleza gráfica del histograma nos permite ver pautas que son difíciles de observar en una simple tabla numérica. Esta herramienta se utiliza especialmente en la Comprobación de teorías y Pruebas de validez. Cómo interpretar los histogramas: Sabemos que los valores varían en todo conjunto de datos. Esta variación sigue cierta pauta. El propósito del análisis de un histograma es, por un lado, identificar y clasificar la pauta de variación, y por otro desarrollar una explicación razonable y relevante de la pauta. La explicación debe basarse en los conocimientos generales y en la observación de las situaciones específicas y debe ser confirmada mediante un análisis adicional. Las pautas habituales de variación más comunes son la distribución en campana, con dos picos, plana, en peine, sesgada, truncada, con un pico aislado, o con un pico en el extremo. Construcción de un histograma: PASO 1 Determinar el rango de los datos: RANGO es igual al dato mayor menos el dato menor; R = > - < PASO 2 Obtener en número de clases, existen varios criterios para determinar el número de clases ( o barras). Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de como estén los datos y cuántos sean. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente ala raíz cuadrada del número de datos, por ejemplo, la raíz cuadrada de 30 ( número de artículos) es mayor que cinco, por lo que se seleccionan seis clases. PASO 3 Establecer la longitud de clase: es igual al rango entre el número de clases. PASO 4 Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en relación al resultado del PASO 2 en intervalos iguales. PASO 5 Graficar el histograma: se hace un gráfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias. Ejemplo : A una fabrica de envases de vidrio, un cliente le está exigiendo que la capacidad de cierto tipo de botella sea de13 ml, con una tolerancia de más menos 1 ml. La fábrica establece un programa de mejora de calidad para que las botellas que se fabriquen cumplan con los requisitos del cliente. Ejemplos de otros tipos de representaciones gráficas: Hay histogramas donde se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en cada una de ellas. En algunas variables ( variables cualitativas) las clases están definidas de modo natural, p.e sexo con dos clases: mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas, las clases hay que definirlas explícitamente (intervalos de clase). Se representan los intervalos de clase en el eje de abscisas (eje horizontal) y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical). A veces es más útil representar las frecuencias acumuladas. O representar simultáneamente los histogramas de una variable en dos situaciones distintas. Otra forma muy frecuente, de representar dos histogramas de la misma variable en dos situaciones distintas. Otra forma En las variables cuantitativas o en las cualitativas ordinales se pueden representar polígonos de frecuencia en lugar de histogramas, cuando se representa la frecuencia acumulativa, se denomina ojiva. FUENTE: http://www.gestiopolis.com/recursos/documentos/fulldocs/ger/histograma.htm Ejemplos de tipos de representaciones gráficas Histogramas: Se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables cualitativas) las clases están definidas de modo natural, p.e sexo con dos clases: mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas, las clases hay que definirlas explícitamente (intervalos de clase). Se representan los intervalos de clase en el eje de abcisas (eje horizontal) y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical). A veces es más útil representar las frecuencias acumuladas. O representar simultáneamente los histogramas de una variable en dos situaciones distintas. Otra forma muy frecuente, de representar dos histogramas de la misma variable en dos situaciones distintas. Otra más En las variables cuantitativas o en las cualitativas ordinales se pueden representar polígonos de frecuencia en lugar de histogramas, cuando se representa la frecuencia acumulativa, se denomina ojiva. FUENTE: http://www.hrc.es/bioest/Ejemplos_histo.html Un histograma es un diagrama de barras que se utiliza para representar una distribución de frecuencias agrupadas de datos cuantitativos. Un histograma debe tener: o o o Un título para identificar la población de donde salen los datos. El eje horizontal en donde se colocan los valores de las clases. El eje vertical en donde se representa el número de datos en cada una de las clases. También se puede utilizar la frecuencia relativa para hacer el histograma. FUENTE: http://ciencias.bc.inter.edu/ohernand/internet/drmg1010/estadistica/graficas/tsld011.htm El histograma es un tipo de gráfica de barras verticales donde las clases o intervalos aparecen en el eje horizontal y la frecuencia absoluta o relativa de cada clase en el eje vertical. En el eje horizontal cada barra se extiende desde el límite inferior de cada clase hasta el límite inferior de la próxima clase. Por lo tanto el ancho de las barras corresponde a la amplitud de los intervalos. Los valores de la variable para los límites inferiores de cada intervalo aparecen en el eje horizontal. El eje vertical indica la frecuencia absoluta o relativa de los datos incluidos en los intervalos. La altura de cada barra corresponde a la frecuencia absoluta o relativa del intervalo. Nota: Algunos autores establecen los llamados límites exactos de cada intervalo para calcular la amplitud del intervalo y por ende el ancho de las barras que componen el histograma. (Véase Hinkle capt.2) El histograma se utiliza para representar datos que corresponden a los valores de una variable cuantitativa continua. Para indicar esta continuidad de la variable no se dejan espacios entre las barras. En ciertas ocasiones la forma del histograma se parece mucho a la del diagrama de tallo y hoja. Esto ocurre cuando los tallos corresponden con las clases del histograma de forma que cada tallo incluya los mismos datos de la clase correspondiente. En dichos casos si se gira el diagrama de tallo y hoja 90 grados en contra de las manecillas del reloj se puede observar una gráfica muy semejante a la del histograma. El histograma permite visualizar la forma de la distribución de frecuencias. Sin embargo, cuando se quieren comparar dos distribuciones diferentes es necesario recurrir a otro tipo de gráfica que facilite más la comparación. 2. Gráfica del Histograma FUENTE : http://rrpac.upr.clu.edu:9090/~amenend/histograma.htm Distribución de frecuencias acumuladas Frecuencia Relativa acumulada: Es la suma de las frecuencias relativas anteriores más la frecuencia relativa en que se encuentre. Polígono de frecuencias relativas: Se obtiene el histograma de las frecuencias relativas y se traza una línea recta a la mitad de cada rectángulo formando un polígono (no cerrado). Ojiva del diagrama de frecuencia relativa acumulada: Es un diagrama de líneas de las frecuencias relativas acumuladas. Ejemplo : a) El primer día de clases del semestre pasado se les preguntó a 50 estudiantes, a cerca del tiempo (en mínutos) que tardan para desplazarse de su casa a la universidad. Datos 20 35 25 15 5 20 25 30 20 20 30 15 15 20 20 25 25 20 20 10 20 25 45 20 5 25 40 25 25 20 30 25 35 20 30 15 30 25 20 10 10 5 10 15 25 40 25 10 20 15 1. Construya un histograma de frecuencias relativas 2. Construya un polígono de frecuencias relativas 3. Construya un histograma de frecuencia relativa acumulada 4. Construya un ojiva Diagrama de frecuencia relativa acumulada Solución: P1) Se calcula el número de clases : , donde n = número de clase donde: K = Número de clases N = Número de datos = 50 por lo que el Número de clases K = 6. P2) Se calcula el ancho de la clase: 1. Construya un histograma de frecuencias relativas P1) Se construye la tabla con los datos anteriores. Ancho de clase (7) Límite de clase Clases Límite Límite Marca Frecuencia Frecuencia Frecuencia inferior superior de Relativa clase Relativa Acumulada 1 5 11 8 8 0.16 0.16 2 12 18 15 10 0.2 0.36 3 19 25 22 22 0.44 0.8 4 26 32 29 5 0.1 0.9 5 33 39 36 4 0.08 0.98 6 40 46 43 1 0.02 1 50 1 P2) Con los datos de la tabla se construye el histograma de frecuencias relativas. 2. Construya un polígono de frecuencias relativas En el histograma de frecuencias relativas se traza el polígono de frecuencias relativas, como sigue: 3. Se construye un histograma de frecuencia relativa acumulada 4. Se construye la ojiva del Diagrama de las frecuencias relativas acumuladas FUENTE: http://mailweb.udlap.mx/~ccastane/Syllabus_Mat_Estadistica/Notas_Mat_Estadistica/Ca pitulo_4/Cap_4_5/Cap_4_5.html Gráficos para variables continuas Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polígonos de frecuencias. Un histograma se construye a partir de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos. El polígono de frecuencias se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante lineas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase. Obsérvese que de este modo, el polígono de frecuencias tiene en común con el histograma el que las áreas de la gráficas sobre un intervalo son idénticas. Veanse ambas gráficas diferenciales representadas en la parte superior de la figura 1.8. El diagrama integral para una variable continua se denomina también polígono de frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de otro modo, el polígono de frecuencias absolutas es una primitiva del histograma. Véase la parte inferior de la figura 1.8, en la que se representa a modo de ilustración los diagramas correspondientes a la variable cuantitativa continua expresada en la tabla siguiente: Intervalos ci ni Ni 0 -- 2 1 2 2 2 -- 4 3 1 3 4 -- 6 5 4 7 6 -- 8 7 3 10 8 - 10 9 2 12 12 Figura: Diagramas diferenciales e integrales para una variable continua. 1.9.4.5 Ejemplo La siguiente distribución se refiere a la duración en horas (completas) de un lote de 500 tubos: Duración en horas Número de tubos 300 -- 500 50 500 -- 700 150 700 -- 1.100 275 más de 1.100 25 Total 500 Representar el histograma de frecuencias relativas y el polígono de frecuencias. Trazar la curva de frecuencias relativas acumuladas. Determinar el número mínimo de tubos que tienen una duración inferior a 900 horas. Solución: En primer lugar observamos que la variable en estudio es discreta (horas completas), pero al tener un rango tan amplio de valores resulta más conveniente agruparla en intervalos, como si de una variable continua se tratase. La consecuencia es una ligera perdida de precisión. El último intervalo está abierto por el límite superior. Dado que en él hay 25 observaciones puede ser conveniente cerrarlo con una amplitud ``razonable''. Todos los intervalos excepto el tercero tienen una amplitud de 200 horas, luego podríamos cerrar el último intervalo en 1.300 horas1.2. Antes de realizar el histograma conviene hacer una observación importante. El histograma representa las frecuencias de los intervalos mediante áreas y no mediante alturas. Sin embargo nos es mucho más fácil hacer representaciones gráficas teniendo en cuenta estas últimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los conceptos de área y altura, pero en este caso el tercer intervalo tiene una amplitud doble a los demás, y por tanto hay que repartir su área en un rectángulo de base doble (lo que reduce su áltura a la mitad). Así será conveniente añadir a la habitual tabla de frecuencias una columna que represente a las amplitudes ai de cada intervalo, y otra de frecuencias relativas rectificadas, fi', para representar la altura del histograma. Los gráficos requeridos se representan en las figuras 1.9 y 1.10. Intervalos ai ni fi fi ' Fi 300 -- 500 200 50 0,10 0,10 0,10 500 -- 700 200 150 0,30 0,30 0,40 700 -- 1.100 400 275 0,55 0,275 0,95 1.100 -- 1.300 200 25 0,05 0,05 1,00 n=500 Figura: Histograma. Obsérvese que la altura del histograma en cada intervalo es fi' que coincide en todos con fisalvo en el intervalo 700 -1.100 en el que ya que la amplitud de ese intervalo es doble a la de los demás. Figura: Diagrama acumulativo de frecuencias relativas Por otro lado, mirando la figura 1.9 se ve que sumando frecuencias relativas, hasta las 900 horas de duración hay 0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos. Esta cantidad se obtiene de modo más directo viendo a qué altura corresponde al valor 900 en el diagrama de frecuencias acumuladas (figura 1.10). Como en total son 500 tubos, el número de tubos con una duración igual o menor que 900 horas es , redondeando, 338 tubos. Tabla: Principales diagramas según el tipo de variable. Tipo de variable Diagrama V. Cualitativa Barras, sectores, pictogramas V. Discreta Diferencial (barras) Integral (en escalera) V. Continua Diferencial (histograma, polígono de frecuencias) Integral (diagramas acumulados) FUENTE: http://ftp.medprev.uma.es/libro/node10.htm La representación gráfica de una distribución de frecuencias depende del tipo de datos que la constituya. a. Datos correspondientes a un carácter cualitativo La representación gráfica de este tipo de datos está basada en la proporcionalidad de las áreas a las frecuencias absolutas o relativas. Veremos dos tipos de representaciones: 1. Diagrama de sectores: Está representación gráfica consiste en dividir un círculo en tantos sectores circulares como modalidades presente el carácter cualitativo, asignando un ángulo central a cada sector circular proporcional a la frecuencia absoluta ni, consiguiendo de esta manera un sector con área proporcional también a ni. Ejemplo: Así, los ángulos que corresponden a las cuatro modalidades de la tabla adjunta serán: Número de casos Ángulo(grados) Rehusaron cirugía 26 234° Rehusaron radiación 3 27° Empeoraron por una enfermedad ajena al cáncer 10 90° Otras causas 1 9° Y su representación en un diagrama de sectores será: 2. Diagrama de rectángulos: Esta representación gráfica consiste en construir tantos rectángulos como modalidades presente el carácter cualitativo en estudio, todos ellos con base de igual amplitud. La altura se toma igual a la frecuencia absolua o relativa (según la distribución de frecuencias que estemos representando), consiguiendo de esta manera rectángulos con áreas proporcionales a las frecuencias que se quieren representar. Ejemplo: La representación gráfica de la distribución de frecuencias absolutas del ejemplo anterior será de la forma: b. Datos sin agrupar correspondientes a un carácter cuantitativo Estudiaremos dos tipos de representaciones gráficas, correspondientes a distribuciones de frecuencias (absolutas o relativas) no acumuladas y acumuladas. 1. Diagrama de barras: Consiste en levantar, para cada valor de la variable, una barra cuya altura sea su frecuencia absoluta o relativa, dependiendo de la distribución de frecuencias que estemos representando. Ejemplo: Así, la representación gráfica de la distribución de frecuencias del ejemplo del nº de hijos será: 2. Diagrama de frecuencias acumuladas: Esta representación gráfica se corresponde con la de una función constante entre cada dos valores de la variable a representar, e igual en cada tramo a la frecuencia relativa acumulada (o absoluta acumulada si se trata de representar una distribución de frecuencias absolutas) hasta el menor de los dos valores de la variable que construyen el tramo en el que es constante. Ejemplo: También para el ejemplo del Número de Hijos, se tendrá un diagrama de frecuencias acumuladas como el del siguiente gráfico: c. Datos agrupados en intervalos correspondientes a un carácter cuantitativo Al igual que antes, existen también dos tipos de representaciones gráficas dependiendo de si la distribución de frecuencias en estudio es de datos acumulados o de datos sin acumular. 1. Histograma: Al ser esta representación una representación por áreas, hay que distinguir si los intervalos en los que aparecen agrupados los datos son de igualamplitud o no. Si la amplitud de los intervalos es constante, dicha amplitud puede tomarse como unidad y al ser Frecuencia (área) = amplitud del intervalo · altura la altura correspondiente a cada intervalo puede tomarse igual a la frecuencia. Si los intervalos tienen diferente amplitud, se toma alguna de ellas como unidad (generalmente la menor) y se levantan alturas para cada intervalo de forma que la ecuación anterior se cumpla. Ejemplo: En el ejemplo de los Niveles de Colinesterasa, al tener los intervalos igual amplitud, la representación gráfica será: Ejemplo: Si tuviéramos una distribución de frecuencias como la siguiente, correspondiente a puntuaciones obtenidas en un test psicológico y en la que los intervalos son de diferente amplitud Ii ni fi 0-20 8 8/70 20-30 9 9/70 30-40 12 12/70 40-45 10 10/70 45-50 9 9/70 50-60 10 10/70 60-80 8 8/70 80-100 4 4/70 ?ni= 70 ?fi=1 Tomando la amplitud 5 como unidad, deberemos levantar para el primer intervalo una altura de 2/70 para que el área sea la freceuncia relativa 8/70. Procediendo de la misma manera con el resto de los intervalos obtendríamos como representación gráfica la figura siguiente: Obsérvese que la suma de todas las áreas debe ser 1, tanto si los intervalos de la distribución de frecuencias relativas son o no de igual amplitud. 2. Polígono de frecuencias acumuladas: Se utiliza para representar distribuciones de frecuencias (relativas o absolutas) acumuladas. Consiste en representar la gráfica de una función que una por segmentos las alturas correspondientes a los extremos superiores de cada intervalo, tengan o no todos igual amplitud, siendo dicha altura igual a la frecuencia acumulada, dando una altura cero al extremo inferior del primer intervalo y siendo constante a partir del extremo superior del último. Ejemplo: Así, para el ejemplo de los Niveles de Colinesterasa, el polígono de frecuencias relativas acumuladas tendrá una representación gráfica de la forma: FUENTE: http://thales.cica.es/rd/Recursos/rd99/ed99-0278-01/est_des4.html Polígonos de frecuencias. Son otra forma de representar gráficamente distribuciones tanto de frecuencias simples como relativas. Para construir un polígono de frecuencias señalamos éstas en el eje vertical y los valores de la variable que estamos midiendo en el eje horizontal. A continuación, graficamos cada frecuencia de clase trazando un punto sobre su punto medio y conectamos los resultantes puntos sucesivos con una línea recta para formar un polígono. Se añaden dos clases, una en cada extremo de la escala de valores observados. Estas dos nuevas clases que contienen cero observaciones permiten que el polígono alcance el eje horizontal en ambos extremos de la distribución. Un polígono de frecuencias es sólo una línea que conecta los puntos medios de todas las barras de un histograma. Por consiguiente, podemos reproducir el histograma mediante el trazado de líneas verticales desde los límites de clase y luego conectando tales líneas con rectas horizontales a la altura de los puntos medios del polígono. Un polígono de frecuencias que utiliza frecuencias relativas de puntos de dato en cada una de las clases, en lugar del número real de puntos, se conoce como polígono de frecuencias relativas. Este polígono tiene la misma forma que el polígono de frecuencias construido a partir del mismo conjunto de datos, pero con una escala diferente en los valores del eje vertical. Ventajas de los histogramas: Los rectángulos muestran cada clase de la distribución por separado. El área de cada rectángulo, en relación con el resto, muestra la proporción del número total de observaciones que se encuentran en esa clase. Ventajas de los polígonos de frecuencias: Es más sencillo que su correspondiente histograma. Traza con más claridad el perfil del patrón de datos. Se vuelve cada vez más liso y parecido a una curva conforme aumentamos el número de clases y el número de observaciones. Un polígono alisado mediante el aumento de clases y de puntos de dato se conoce como curva de frecuencias. Ojivas. Una distribución de frecuencias acumuladas nos permite ver cuántas observaciones están por encima de ciertos valores, en lugar de hacer un mero registro del número de elementos que hay dentro de los intervalos. La gráfica de una distribución de frecuencias acumuladas se conoce como ojiva. En ocasiones, la información que utilizamos se presenta en términos de frecuencias acumuladas "mayores que". La ojiva adecuada para tal información tendría una inclinación hacia abajo y hacia la derecha, en lugar de tener una inclinación hacia arriba y a la derecha. Podemos construir una ojiva de una distribución de frecuencias relativas de la misma manera en que trazamos la ojiva de una distribución de frecuencias absolutas. Sólo habrá un cambio: la escala del eje vertical. Del ordenamiento de datos podemos construir distribuciones de frecuencias. A partir de las distribuciones de frecuencias podemos construir distribuciones de frecuencias acumuladas. A partir de éstas podemos trazar una ojiva. Y de esta ojiva podemos aproximar los valores que tenemos en el ordenamiento de datos. Sin embargo, no podemos recobrar de manera normal los datos originales exactos a partir de cualquiera de las representaciones gráficas que hemos analizado. FUENTE: http://server2.southlink.com.ar/vap/datos.htm Polígonos de frecuencia: El polígono de frecuencias es una representación gráfica de la distribución de frecuencias que resulta esencialmente equivalente al histograma y se obtiene uniendo mediante segmentos los centros de las bases superiores de los rectángulos del histograma (es decir, los puntos de las marcas de clase). Véase que para cerrar la figura, se une la línea quebrada con lo que sería la marca de clase (sobre la superficie del eje horizontal) anterior a la primera y posterior a la última registrada Ojiva: La misma idea de unir los centros de las bases superiores de los rectángulos de la distribución del histograma de frecuencias acumuladas, da lugar al polígono de frecuencias acumuladas u ojiva. FUENTE: http://www.liccom.edu.uy/bedelia/cursos/metodos/material/estadistica/var_cuanti.html Generalmente se parte de la información representada en tablas antes de de poder llevar a cabo el aspecto gráfico. La representación más común utilizada en la estadística descriptiva se encuentra la siguiente: Diagramas de barras. Se utiliza para representar datos cualitativos y cuantitativos, con datos de tipo discreto. En el eje x se representan los datos ordenados en clases mientras que en el eje y se pueden representar frecuencias absolutas o relativas. Gráfica o diagramas de barras 25 20 Frecuencias 15 10 5 0 primera tercera quinta clases primera segunda tercera cuarta quinta sexta Histogramas. Los histogramas de frecuencias son gráficas que representan un conjunto de datos que se emplean para representar datos de una variable cuantitativa. En el eje horizontal o de las abscisas se representan los valores tomados por la variable, en el caso de que los valores considerados sean continuos la forma de representar los valores es mediante intervalos de un mismo tamaño llamados clases. En el eje vertical se representan los valores de las frecuencias de los datos. Las barras que se levantan sobre la horizontal y hasta una altura que representa la frecuencia. Un punto importante en el manejo de la información bajo el uso de histogramas es el hecho de poder comparar, bajo un proceso en control, que a medida que se crecen las clase tiene aproximadamente la forma de una campana centrada, que como veremos posteriormente, es la de una de las distribuciones mas importantes conocidas como frecuencia normal o gaussiana. Histograma de frecuencias 25 Frecuencias 20 15 10 5 0 pr i mer a t er cer a qui nt a clases primera Polígono de frecuencias segunda tercera cuarta quinta sexta Alternativo al histograma de frecuencias podemos representar la información a través de los llamados polígonos de frecuencias. Estos se construyen a partir de los puntos medios de cada clase. La utilización de los puntos medios o marcas de clase son llevados al escenario gráfico mediante la utilización de los polígonos de frecuencias. Se construye uniendo los puntos medios de cada clase localizados en las tapas superiores de los rectángulos utilizados en los histogramas de las gráficas. Su utilidad se hace necesaria cuando desean destacarse las variables de tendencia central, como son media, modas y medianas. Poligonos de frecuencias 25 Frecuencias 20 15 10 5 0 pr i mer a t er cer a qui nt a clases Diagrama de sectores primera segunda tercera cuarta quinta sexta Este tipo de diagramas puede ser de dos tipo, se puede considerar una figura geométrica en la que la información se distribuye dentro de la figura como puede ser una dona o un anillo en el que cada porción dentro de la figura representa la información porcentual del total de datos. La segunda opción es la utilización de pasteles en los que una porción del pastel determinada por sectores individuales la información para ese sector especifico. Frecuencias a través de sectores, los cuales pueden ser como el que se muestra a continuación 5% 4% 3% 16% 15% 10% 11% 15% 21% primera segunda tercera cuarta sexta septima octava novena quinta Cartogramas. Son gráficos en los que se puede agrupar para una misma clase diferentes frecuencias, por lo que se hace apropiado su uso cuando se desea analizar tres diferentes resultados obtenidos, con diferentes frecuencias pero con una misma clase. 18 16 14 Pirámides de población. Este gráfico se construye utilizando pirámides para construir la representación de los datos bajo cierta clase, la diferencia de información considerada entre cada clase será dada por el tamaño de la pirámide. En ocasiones la frecuencia de cada clase se coloca en el extremo superior de cada clase, sin embargo también, al igual que en las anteriores puede resultar útil colocar información, como el porcentaje de información en la punta de cada pirámide. Pirámides de frecuencias 25 21 Frecuencias 20 15 15 14 16 10 8 5 0 3 primera t ercera quint a clases primera segunda tercera cuarta quinta sexta Diagramas lineales. El diagrama lineal representa la información comparando las clases y frecuencias. En cierta forma el polígono de frecuencias corresponde a un diagrama lineal, esto debido a que se utilizan este tipo de diagramas para obtener la gráfica de la información. En otras ocasiones la comparación de las clases son números con respecto a números, como el ejemplo que se muestra a continuación. Los diagramas lineales suelen utilizarse para destacar la dependencia entre dos variables, como veremos en le tema de dependencia lineal. 2500 2000 1500 1000 500 0 1965 1970 1975 1980 1985 Serie1 Pictogramas El pictograma consiste en la utilización de símbolos utilizados para representar un conjunto de datos, en el caso de la representación de datos individuales a través de barras hemos utilizado los pictogramas, sin embargo en áreas especificas convendría analizar el conjunto de datos. FUENTE: http://148.216.10.83/estadistica/graficas.htm UNIDAD 2: FUNDAMENTOS DE PROBABILIDAD. CONJUNTOS Y TECNICAS DE CONTEO. En muchos problemas podemos establecer un espacio muestral equiprobable y entonces el problema de calcular probabilidades se convierte en un problema de contar de cuántas maneras se puede hacer algo. Para empezar con algo sencillo, veamos este problema. Tengo tres progamas para ver correo electrónico: Mail, Pine y ZMail; además recibo dos tipos de mensajes: de trabajo y personales. Ud. me sorprende viendo un mensaje y anota el tipo de programa y el tipo de mensaje que estoy viendo. ¿Cuántos puntos tiene el espacio muestral? Casi automáticamente hemos contestado que son 6. Si alguien no nos cree, podemos escribirle cuales son. Sin saberlo hemos estado haciendo uso de lo que se llama Principio Fundamental del Conteo. Copio aquí la forma en que se expone en la página 11 del libro de texto: Si una operación puede realizarse en n1 formas y si por cada una de éstas, una segunda operación puede llevarse a cabo en n2 formas, entonces las dos operaciones pueden realizarse juntas en n1n2 formas. Aquí tiene un problema que nos puede ayudar a ejemplificar su uso. Para hacer un código se van a usar 3 letras distintas y 4 dígitos distintos a cero. ¿Cuántos códigos diferentes se pueden hacer? Consideramos elaborar uno de estos códigos como si hubiera siete huecos, los primeros tres a llenar con letras, los otros cuatro con números. El primer hueco puede ser llenado con cualquiera de las 27 letras con que contamos, pensemos que ya ha sido llenado. No importa con cuál letra haya sido llenado, para el siguiente hueco tenemos de nuevo 27 letras que podemos usar; es decir que hay 272 formas diferentes de llenar los primeros dos huecos. Esto que razonamos aquí es el contenido del principio fundamental. Habiéndolo razonado, podemos ahora aplicarlo de manera automática, pero teniendo cuidado con su hipótesis ... y si por cada una ... Aplicándolo al resto de los huecos llegamos a que hay: 27394 códigos distintos posibles. FUENTE: http://w3.mor.itesm.mx/~cmendoza/ma835/ma83507.html Técnicas de conteo Las técnicas de conteo para encontrar el numero de arreglos posibles de objetos en un conjunto o conjuntos son esenciales en el estudio de la probabilidad. Al contar los arreglos se puede enlistar o representar todos en forma ramificada es decir esta representación se hace en la forma de un árbol denominado diagrama de árbol. Ej.- Un contador tiene dos sacos negro y beige y 4 camisas: celeste, café, blanca y azul de cuantas manera puede combinarse y representar con un diagrama de árbol. Saco Negro Contador Beige 2 Camisas Posibles arreglos: Celeste Café Blanco Azul Negro-celeste Negro-café Negro-blanco Negro-azul Celeste Café Blanco Azul Beige-celeste Beige-café Beige-blanco Beige-azul x 4 = 8 Principio Fundamental del Proceso de Contar De la sección anterior se puede establecer una manera eficiente de contar considerando el principio de multiplicación, el cual llamaremos: Principio fundamental del proceso de contar quedando explícitamente de la siguiente manera: Si en una primera decisión se puede hacer de “n” formas diferentes y una segunda decisión en “m” formas diferentes entonces las dos decisiones se pueden hacer en “n” por “m” o sea “nm” formas diferentes en el orden dado. Ej.- Cuantas palabras de 4 letras (sin significado) se puede formar con las letras de la palabra verónica, sin usar mas de una vez cada una de las letras, 8 x 7 x 6 x 5 = 1680 Ej.- Cuantos números de 3 dígitos se pueden formar con los dígitos 6,7,8,9 si : a) no deben repetirse los dígitos 4 x 3 x 2 = 24 b) deben repetirse los dígitos. 4 x 4 x 4 = 64 Compruébalo a) 678 679 687 689 697 698 b) 666 667 668 669 676 677 678 679 686 687 688 689 696 697 698 699 768 769 786 789 796 798 867 869 876 879 896 897 967 968 976 978 986 987 766 767 768 769 776 777 778 779 786 787 788 789 796 797 798 799 866 867 868 869 876 877 878 879 886 887 888 889 896 897 898 899 966 967 968 969 976 977 978 979 986 987 988 989 996 997 998 999 Ej.- cuántos números de cuatro dígitos de pueden formar con los dígitos del 0-9 si: a) los dígitos pueden repetirse 9 x 10 x 10 x 10 = 9000 b) los dígitos no pueden repetirse 9x9x8x7 = 4536 c) el ultimo digito debe ser ocho y no pueden repetirse 8 x 8 x 7 x 1 = 448 Ej.- Cuántos juegos de placas para autos que contengan tres letras seguidas de tres dígitos utilizando para ello las 27 letras del alfabeto y los números del 0-9 si: a) las letras y dígitos no deben repetirse 27 x 26 x 25 x 10 x 9 x 8 = 12636000 b) las letras y dígitos pueden repetirse 27 x 27 x 27 x 10 x 10 x 10 c) debe iniciar con la letra R 1 x 26 x 25 x 10 x 10 x 10 1 x 26 x 25 x 10 x 9 x 8 650000 + 468000 = 19683000 = 650000 = 468000 = 1118000 Ej.- Se tienen seis hombres y cinco mujeres y se quieren acomodar en una hilera de butacas de tal manera que las mujeres ocupen los lugares pares , en cuantas formas se pueden acomodar? 6 x 5 x 5 x 4 x 4 x 3 x 3 x 2 x 2 x 1 x 1 = 86400 FUENTE: http://apuntes.rincondelvago.com/probabilidad_8.html# Técnicas de Conteo De manera general se considera la probabilidad de un evento, como el número de eventos positivos partido el número eventos global en el espacio muestral. Pero para determinar este último valor, hay varias formas para hacerlo, en esto consisten las técnicas de conteo. Principio fundamental del conteo: Hipótesis: Un evento puede realizarse de n1 maneras, un segundo de n2 maneras y un késimo evento de nk maneras. Conclusión: El número de maneras en que puede suceder una sucesión de los k eventos en el orden indicado es de: n1*n2*...*nk Demostración: Por inducción sobre el número de eventos tenemos que para el primer evento, tenemos n1 formas de hacerlo y no hay nada que probar. Supongamos que para k-1 eventos el número de maneras en que suceden es n1n2...nk-1 entonces, para los k eventos, tenemos que para cada uno de los nk eventos tenemos n1n2...nk-1 maneras de realizarlos, por lo que existen n1n2...nk formas de que los eventos sucedan, por lo tanto queda probado el principio fundamental de conteo. Ejemplo: Supongamos que existe un código de seguridad que intercala dos letras con dos números y deseamos saber el número de códigos que se pueden emitir en total: Tomemos 26 letras y 10 números, entonces el número sería de: 26*10*26*10=676,000 códigos Permutaciones En ocasiones es necesario tomar de una lista de n objetos, r elementos y colocarlos en un orden determinado, a esto se le llama una permutación de los n objetos r tomados. La notación que utilizaremos será nPr, que dice que de n objetos permutamos r de ellos, claro está que esta función está definida en los números enteros y que no es posible que r>n, porque no podríamos tomar más objetos que los n disponibles. Teorema: Hipótesis: Existen n elementos de los cuales se eligen en orden r. Conclusión: Entonces el número de posibles formas en que se elijan los elementos es nPr=n!/(n-r)!=(n-r+1)*(n-r+2)*…*(n) Demostración : Por inducción, si deseamos tomar un solo elemento, existen efectivamente n formas de hacerlo que coincide con la hipótesis del teorema, supongamos que para r-1 elementos a tomar, en realidad existen n!/(n-r+1)! formas de hacerlo. Desarrollemos esta última expresión: 1*2*3*...(n-r+1)*(n-r+2)*...*n/(1*2*3*...*(nr+1))=(n-r+2)* (n-r+3)*...*n, entonces para tomar el r-ésimo elemento tendríamos el número de formas en que suceden los eventos anteriores y el número de formas en que sucede el último evento (de acuerdo con el principio general de conteo) por lo tanto, para tomar el r-ésimo elemento, existen n-r+1 formas de hacerlo, debido a que se han sacado (r1) elementos (n-(r-1))=n-r+1, por lo tanto, obtenemos que el número de formas para tomar los r elementos es: (n-r+1)*(n-r+2)*…*(n)=nPr Con lo que queda mostrado el teorema. Corolario: Hipótesis: Se tienen n elementos y se eligen n al azar Conclusión: La forma en que se pueden extraer es n! La demostración es obvia sustituyendo n en lugar de r en el teorema precedente. Permutaciones con repeticiones Teorema: Hipótesis: Sea el número de objetos de los cuales hay n1 iguales entre sí, n2, ... nk iguales entre sí. Conclusión: n!/(n1!...nk!) Es el número de permutaciones distintas de dichos objetos. Demostración: Supongamos que tenemos 1 objeto que se repite n1 veces y que n es un número cualquiera, entonces tenemos que existen r=n-n1 objetos distintos entre sí, los cuales se agrupan en n!/(n-r)! formas distintas, con lo que tenemos que el teorema cumple para el caso 1. Supongamos que hay k-1 objetos que se repiten n1, n2, ..., nk-1 veces respectivamente y que el número de formas en que se permutan es m!/(n1!*n2!*...*nk-1!) Donde m=n1+n2+...+nk-1, entonces, si ahora introducimos nk-1 elementos de un késimo objeto, entonces tenemos que el mismo se repite nk veces, por el principio fundamental de conteo, entonces habría m!/(n1!*n2!*...*nk-1!), multiplicado por el número de formas en que se puede permutar dicho elemento, lo cual es n!/(n-nk)!, pero si tomamos n= n1+n2+...+nk, tendremos que n=m+nk m=n-nk , de donde el número de formas en que se pude agrupar es (m!/(n1!*n2!*...*nk-1!))*( n!/(n-nk)!)= (m!/(n1!*n2!*...*nk-1!))*( n!/(m)!)= n!/(n1!...nk!) que es lo que se deseaba mostrar. Combinaciones: Para estudiar este problema, démonos una colección de n objetos. Entonces si tomamos r elementos sin importar el orden en que los tomemos, decimos que hemos realizado una combinación de r elementos de los n disponibles. El número posible de combinaciones de r elementos de n disponibles lo denotaremos por: nCr Teorema: Hipótesis: Existen n elementos en un conjunto de los cuales se toman r. Conclusión: El número de posibles combinaciones es: nCr=n!/(r!*(n-r)!) Demostración Sabemos que si tomamos r elementos de una colección de n, si nos fijamos del ordenen que lo tomamos, tenemos n!/(n-r)!, pero a la vez, si consideramos que en una combinación no importa el orden. Sabemos que para colocar r elementos en r posiciones hay r! formas de hacerlo, así que para cada una de las n!/(n-r)! formas en que se pueden tomar los elementos hay que quitar r!, tenemos que precisamente hay n!/(r!*(n-r)!) distintas combinaciones de r elementos de n posibles. FUENTE: http://www.doschivos.com/Stat1/Stat0.htm TÉCNICAS DE CONTEO A) A) CONCEPTO. Suponga que se encuentra al final de una línea de ensamble final de un producto y que un supervisor le ordena contar los elementos de un lote que se ha manufacturado hace unas horas y del que se desconoce el número de productos que lo constituyen, de inmediato usted empezará a contar un producto tras otro y al final informará al supervisor que son, 48, 54 u otro número cualquiera. Ahora suponga que ese mismo supervisor le plantea la siguiente pregunta ¿cuántas muestras o grupos será posible formar con los productos del lote, si las muestras o grupos a formar son de ocho elementos cada una de ellas?. En el primer caso el cuantificar los elementos del lote no presenta dificultad alguna para la persona encargada de hacerlo, pero cuando se le hace el segundo planteamiento, al tratar de formar las muestras o grupos de ocho elementos la persona encargada empezará a tener dificultad para hacerlo, en casos como este es necesario hacer uso de las técnicas de conteo para cuantificar los elementos del evento en cuestión (el número de muestras posibles a formar de ocho elementos), luego, ¿qué son las técnicas de conteo? Las técnicas de conteo son aquellas que son usadas para enumerar eventos difíciles de cuantificar. Ejemplos en los que definitivamente haremos uso de las técnicas de conteo serían: -¿Cuántas comisiones pro limpieza del instituto se pueden formar si hay 150 alumnos que desean ayudar en esta tarea y se desea formar comisiones de ocho alumnos? -¿Cuántas representaciones de alumnos pueden ser formadas a) si se desea que estas consten solo de alumnos de Ingeniería Química?, b) se desea que el presidente sea un químico?, c) se desea que el presidente y tesorero sean químicos? Para todos los casos, se desea que las representaciones consten de once alumnos. -¿Cuántas maneras tiene una persona de seleccionar una lavadora, una batidora y dos licuadoras, si encuentra en una tienda 8 modelos diferentes de lavadoras, 5 modelos diferentes de batidoras y 7 modelos diferentes de licuadoras? Se les denomina técnicas de conteo a: las combinaciones, permutaciones y diagrama de árbol, las que a continuación se explicarán y hay que destacar que éstas nos proporcionan la información de todas las maneras posibles en que ocurre un evento determinado. Las bases para entender el uso de las técnicas de conteo son el principio multiplicativo y el aditivo, los que a continuación se definen y se hace uso de ellos. FUENTE: http://www.doschivos.com/Stat1/Stat0.htm PRINCIPIO MULTIPLICATIVO. Si se desea realizar una actividad que consta de r pasos, en donde el primer paso de la actividad a realizar puede ser llevado a cabo de N1 maneras o formas, el segundo paso de N2 maneras o formas y el r-ésimo paso de Nr maneras o formas, entonces esta actividad puede ser llevada a efecto de; N1 x N2 x ..........x Nr maneras o formas El principio multiplicativo implica que cada uno de los pasos de la actividad deben ser llevados a efecto, uno tras otro. Ejemplos: 1) 1) Una persona desea construir su casa, para lo cuál considera que puede construir los cimientos de su casa de cualquiera de dos maneras (concreto o block de cemento), mientras que las paredes las puede hacer de adobe, adobón o ladrillo, el techo puede ser de concreto o lámina galvanizada y por último los acabados los puede realizar de una sola manera ¿cuántas maneras tiene esta persona de construir su casa? Solución: Considerando que r = 4 pasos N1= maneras de hacer cimientos = 2 N2= maneras de construir paredes = 3 N3= maneras de hacer techos = 2 N4= maneras de hacer acabados = 1 N1 x N2 x N3 x N4 = 2 x 3 x 2 x 1 = 12 maneras de construir la casa El principio multiplicativo, el aditivo y las técnicas de conteo que posteriormente se tratarán nos proporcionan todas las maneras o formas posibles de como se puede llevar a cabo una actividad cualquiera. 2) 2) ¿Cuántas placas para automóvil pueden ser diseñadas si deben constar de tres letras seguidas de cuatro números, si las letras deben ser tomadas del abecedario y los números de entre los dígitos del 0 al 9?, a. Si es posible repetir letras y números, b. No es posible repetir letras y números, c. Cuántas de las placas diseñadas en el inciso b empiezan por la letra D y empiezan por el cero, d. Cuantas de las placas diseñadas en el inciso b empiezan por la letra D seguida de la G. Solución: a. a. Considerando 26 letras del abecedario y los dígitos del 0 al 9 26 x 26 x 26 x 10 x 10 x 10 x 10 = 75,760,000 placas para automóvil que es posible diseñar b. b. 26 x 25 x 24 x 10 x 9 x 8 x 7 = 78,624,000 placas para automóvil c. c. 1 x 25 x 24 x 1 x 9 x 8 x 7 = 302,400 placas para automóvil d. d. 1 x 1 x 24 x 10 x 9 x 8 x 7 = 120,960 placas para automóvil 3) 3) ¿Cuántos números telefónicos es posible diseñar, los que deben constar de seis dígitos tomados del 0 al 9?, a. Considere que el cero no puede ir al inicio de los números y es posible repetir dígitos, b. El cero no debe ir en la primera posición y no es posible repetir dígitos, c. ¿Cuántos de los números telefónicos del inciso b empiezan por el número siete?, d. ¿Cuántos de los números telefónicos del inciso b forman un número impar?. Solución: a. a. 9 x 10 x 10 x 10 x 10 x 10 = 900,000 números telefónicos b. b. 9 x 9 x 8 x 7 x 6 x 5 = 136,080 números telefónicos c. c. 1 x 9 x 8 x 7 x 6 x 5 = 15,120 números telefónicos d. d. 8 x 8 x 7 x 6 x 5 x 5 = 67,200 números telefónicos PRINCIPIO ADITIVO. Si se desea llevar a efecto una actividad, la cuál tiene formas alternativas para ser realizada, donde la primera de esas alternativas puede ser realizada de M maneras o formas, la segunda alternativa puede realizarse de N maneras o formas ..... y la última de las alternativas puede ser realizada de W maneras o formas, entonces esa actividad puede ser llevada a cabo de, M + N + .........+ W maneras o formas Ejemplos: 1) 1) Una persona desea comprar una lavadora de ropa, para lo cuál ha pensado que puede seleccionar de entre las marcas Whirpool, Easy y General Electric, cuando acude a hacer la compra se encuentra que la lavadora de la marca W se presenta en dos tipos de carga ( 8 u 11 kilogramos), en cuatro colores diferentes y puede ser automática o semiautomática, mientras que la lavadora de la marca E, se presenta en tres tipos de carga (8, 11 o 15 kilogramos), en dos colores diferentes y puede ser automática o semiautomática y la lavadora de la marca GE, se presenta en solo un tipo de carga, que es de 11 kilogramos, dos colores diferentes y solo hay semiautomática. ¿Cuántas maneras tiene esta persona de comprar una lavadora? Solución: M = Número de maneras de seleccionar una lavadora Whirpool N = Número de maneras de seleccionar una lavadora de la marca Easy W = Número de maneras de seleccionar una lavadora de la marca General Electric M = 2 x 4 x 2 = 16 maneras N = 3 x 2 x 2 = 12 maneras W = 1 x 2 x 1 = 2 maneras M + N + W = 16 + 12 + 2 = 30 maneras de seleccionar una lavadora 2 ) Rafael Luna desea ir a las Vegas o a Disneylandia en las próximas vacaciones de verano, para ir a las Vegas él tiene tres medios de transporte para ir de Chihuahua al Paso Texas y dos medios de transporte para ir del Paso a las Vegas, mientras que para ir del paso a Disneylandia él tiene cuatro diferentes medios de transporte, a) ¿Cuántas maneras diferentes tiene Rafael de ir a las Vegas o a Disneylandia?, b) ¿Cuántas maneras tiene Rafael de ir a las Vegas o a Disneylandia en un viaje redondo, si no se regresa en el mismo medio de transporte en que se fue?. Solución: a) V = maneras de ir a las Vegas D = maneras de ir a Disneylandia V = 3 x 2 = 6 maneras D = 3 x 4 = 12 maneras V + D = 6 + 12 = 18 maneras de ir a las Vegas o a Disneylandia b) V = maneras de ir y regresar a las Vegas D = maneras de ir y regresar a Disneylandia V = 3 x 2 x 1 x 2 = 12 maneras D = 3 x 4 x 3 x 2 = 72 maneras V + D = 12 + 72 = 84 maneras de ir a las Vegas o a Disneylandia en un viaje redondo ¿Cómo podemos distinguir cuando hacer uso del principio multiplicativo y cuando del aditivo? Es muy simple, cuando se trata de una sola actividad, la cual requiere para ser llevada a efecto de una serie de pasos, entonces haremos uso del principio multiplicativo y si la actividad a desarrollar o a ser efectuada tiene alternativas para ser llevada a cabo, haremos uso del principio aditivo. PERMUTACIONES. Para entender lo que son las permutaciones es necesario definir lo que es una combinación y lo que es una permutación para establecer su diferencia y de esta manera entender claramente cuando es posible utilizar una combinación y cuando utilizar una permutación al momento de querer cuantificar los elementos de algún evento. COMBINACIÓN Y PERMUTACION. COMBINACIÓN: Es todo arreglo de elementos en donde no nos interesa el lugar o posición que ocupa cada uno de los elementos que constituyen dicho arreglo. PERMUTACIÓN: Es todo arreglo de elementos en donde nos interesa el lugar o posición que ocupa cada uno de los elementos que constituyen dicho arreglo. Para ver de una manera objetiva la diferencia entre una combinación y una permutación, plantearemos cierta situación. Suponga que un salón de clase está constituido por 35 alumnos. a) El maestro desea que tres de los alumnos lo ayuden en actividades tales como mantener el aula limpia o entregar material a los alumnos cuando así sea necesario. b) El maestro desea que se nombre a los representantes del salón (Presidente, Secretario y Tesorero). Solución: a) a) Suponga que por unanimidad se ha elegido a Daniel, Arturo y a Rafael para limpiar el aula o entregar material, (aunque pudieron haberse seleccionado a Rafael, Daniel y a Enrique, o pudo haberse formado cualquier grupo de tres personas para realizar las actividades mencionadas anteriormente). ¿Es importante el orden como se selecciona a los elementos que forma el grupo de tres personas? Reflexionando al respecto nos damos cuenta de que el orden en este caso no tiene importancia, ya que lo único que nos interesaría es el contenido de cada grupo, dicho de otra forma, ¿quiénes están en el grupo? Por tanto, este ejemplo es una combinación, quiere decir esto que las combinaciones nos permiten formar grupos o muestras de elementos en donde lo único que nos interesa es el contenido de los mismos. b) b) Suponga que se han nombrado como representantes del salón a Daniel como Presidente, a Arturo como secretario y a Rafael como tesorero, pero resulta que a alguien se le ocurre hacer algunos cambios, los que se muestran a continuación: CAMBIOS PRESIDENTE: Daniel SECRETARIO: Arturo TESORERO: Rafael Arturo Daniel Rafael Rafael Daniel Arturo Daniel Rafael Arturo Ahora tenemos cuatro arreglos, ¿se trata de la misma representación? Creo que la respuesta sería no, ya que el cambio de función que se hace a los integrantes de la representación original hace que definitivamente cada una de las representaciones trabaje de manera diferente, ¿importa el orden de los elementos en los arreglos?. La respuesta definitivamente sería sí, luego entonces las representaciones antes definidas son diferentes ya que el orden o la forma en que se asignan las funciones sí importa, por lo tanto es este caso estamos tratando con permutaciones. A continuación obtendremos las fórmulas de permutaciones y de combinaciones, pero antes hay que definir lo que es n! (ene factorial), ya que está involucrado en las fórmulas que se obtendrán y usarán para la resolución de problemas. n!= al producto desde la unidad hasta el valor que ostenta n. n!= 1 x 2 x 3 x 4 x...........x n Ejem. 10!=1 x 2 x 3 x 4 x.........x 10=3,628,800 8!= 1 x 2 x 3 x 4 x.........x 8=40,320 6!=1 x 2 x 3 x 4 x..........x 6=720, etc., etc. Obtención de fórmula de permutaciones. Para hacer esto, partiremos de un ejemplo. ¿Cuántas maneras hay de asignar los cuatro primeros lugares de un concurso de creatividad que se verifica en las instalaciones de nuestro instituto, si hay 14 participantes? Solución: Haciendo uso del principio multiplicativo, 14x13x12x11 = 24,024 maneras de asignar los primeros tres lugares del concurso Esta solución se debe, a que al momento de asignar el primer lugar tenemos a 14 posibles candidatos, una vez asignado ese lugar nos quedan 13 posibles candidatos para el segundo lugar, luego tendríamos 12 candidatos posibles para el tercer lugar y por último tendríamos 11 candidatos posibles para el cuarto lugar. Luego si n es el total de participantes en el concurso y r es el número de participantes que van a ser premiados, y partiendo de la expresión anterior, entonces. 14x13x12x11= n x (n - 1) x (n - 2) x .......... x (n – r + 1) si la expresión anterior es multiplicada por (n – r)! / (n – r)!, entonces = n x (n –1 ) x (n – 2) x ......... x (n – r + 1) (n – r)! / (n – r)! = n!/ (n – r)! Por tanto, la fórmula de permutaciones de r objetos tomados de entre n objetos es: n Pr n! ( n r )! Esta fórmula nos permitirá obtener todos aquellos arreglos en donde el orden es importante y solo se usen parte (r) de los n objetos con que se cuenta, además hay que hacer notar que no se pueden repetir objetos dentro del arreglo, esto es, los n objetos son todos diferentes. Entonces, ¿ qué fórmula hay que usar para arreglos en donde se utilicen los n objetos con que se cuenta? Si en la fórmula anterior se sustituye n en lugar de r, entonces. nPn= n!/ (n –n)! = n! / 0! = n! / 1 = n! Como 0! = 1 de acuerdo a demostración matemática, entonces nPn= n! Ejemplos: 1) 1) ¿Cuantas representaciones diferentes serán posibles formar, si se desea que consten de Presidente, Secretario, Tesorero, Primer Vocal y Segundo Vocal?, sí esta representación puede ser formada de entre 25 miembros del sindicato de una pequeña empresa. Solución: Por principio multiplicativo: 25 x 24 x 23 x 22 x 21 = 6,375,600 maneras de formar una representación de ese sindicato que conste de presidente, secretario, etc., etc. Por Fórmula: n = 25, 25P5 r=5 = 25!/ (25 –5)! = 25! / 20! = (25 x 24 x 23 x 22 x 21 x....x 1) / (20 x 19 x 18 x ... x 1)= = 6,375,600 maneras de formar la representación 2) a. ¿Cuántas maneras diferentes hay de asignar las posiciones de salida de 8 autos que participan en una carrera de fórmula uno? (Considere que las posiciones de salida de los autos participantes en la carrera son dadas totalmente al azar) b. ¿Cuántas maneras diferentes hay de asignar los primeros tres premios de esta carrera de fórmula uno? Solución: a. Por principio multiplicativo: 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1= 40,320 maneras de asignar las posiciones de salida de los autos participantes en la carrera Por Fórmula: n = 8, r = 8 8P8= 8! = 8 x 7 x 6 x 5 x 4 x......x 1= 40,320 maneras de asignar las posiciones de salida ......etc., etc. b. Por principio multiplicativo: 8 x 7 x 6 = 336 maneras de asignar los tres primeros lugares de la carrera Por fórmula: n =8, r = 3 = 8! / (8 – 3)! = 8! / 5! = (8 x 7 x 6 x 5 x ........x1)/ (5 x 4 x 3 x......x1) = 336 maneras de asignar los tres primeros lugares de la carrera 8P3 3) 3) ¿Cuántos puntos de tres coordenadas ( x, y, z ), será posible generar con los dígitos 0, 1, 2, 4, 6 y 9?, Si, a. No es posible repetir dígitos, b. Es posible repetir dígitos. Solución: a. Por fórmula n = 6, r = 3 6P3 = 6! / (6 – 3)! = 6! / 3! = 6 x 5 x 4 x 3! / 3! = 6 x 5 x 4 = 120 puntos posibles Nota: este inciso también puede ser resuelto por el principio multiplicativo b. Por el principio multiplicativo 6 x 6 x 6 = 216 puntos posibles ¿Cuál es la razón por la cuál no se utiliza en este caso la fórmula?. No es utilizada debido a que la fórmula de permutaciones sólo se usa cuando los objetos no se repiten, esto quiere decir que en el inciso a. Los puntos generados siempre van a tener coordenadas cuyos valores son diferentes ejem. (1, 2, 4), (2, 4, 6), (0, 4, 9), etc. etc., mientras que los puntos generados en el inciso b. Las coordenadas de los puntos pueden tener valores diferentes o repeticiones de algunos valores o pueden tener todas las coordenadas un mismo valor ejem. (1, 2, 4), (1, 2, 2), (1, 1, 1), etc., etc. 4) 4) a. ¿Cuántas maneras hay de asignar las 5 posiciones de juego de un equipo de básquetbol, si el equipo consta de 12 integrantes?, b. ¿Cuántas maneras hay de asignar las posiciones de juego si una de ellas solo puede ser ocupada por Uriel José Esparza?, c. ¿Cuántas maneras hay de que se ocupen las posiciones de juego si es necesario que en una de ellas este Uriel José Esparza y en otra Omar Luna? Solución: a. Por fórmula: n = 12, r=5 12P5 = 12! / (12 – 5 )! = 12 x 11 x 10 x 9 x 8 = 95,040 maneras de asignar las cinco posiciones de juego a. Por principio multiplicativo: 1 x 11 x 10 x 9 x 8 =7,920 maneras de asignar las posiciones de juego Por fórmula: 1 x 11P4 = 1 x 11! / (11 – 4)! = 11! / 7! = 11 x 10 x 9 x 8 = 7,920 maneras de asignar las posiciones de juego con Uriel José en una determinada posición a. Por principio multiplicativo 1 x 1 x 10 x 9 x 8 = 720 maneras de ocupar las diferentes posiciones de juego Por fórmula: 1 x 1 x 10P3 = 1 x 1 x 10! / (10 – 3)! = 10! / 7! = 10 x 9 x 8 = 720 maneras de ocupar las posiciones de juego con Uriel José y Omar Luna en posiciones previamente definidas 5) 5) Cuántas claves de acceso a una computadora será posible diseñar, si debe constar de dos letras, seguidas de cinco dígitos, las letras serán tomadas del abecedario y los números de entre los dígitos del 0 al 9. a. Considere que se pueden repetir letras y números, b. Considere que no se pueden repetir letras y números, c. ¿Cuántas de las claves del inciso b empiezan por la letra A y terminan por el número 6?, d. ¿Cuántas de las claves del inciso b tienen la letra R seguida de la L y terminan por un número impar? Solución: a. Por principio multiplicativo: 26 x 26 x 10 x 10 x 10 x 10 x 10 = 67,600,000 claves de acceso Por fórmula: 26P2 x 10P5 = 26 x 25 x 10 x 9 x 8 x 7 x 6=19,656,000 claves de acceso a. a. Por fórmula: 1 x 25P1 x 9P4 x 1 = 1 x 25 x 9 x 8 x 7 x 6 x 1 = 75,600 claves de acceso que empiezan por la letra A y terminan por el número 6 b. b. Por fórmula: 1 x 1 x 9P4 x 5 = 1 x 1 x 9 x 8 x 7 x 6 x 5 =15,120 claves de acceso que tienen la letra R seguida de la L y terminan por un número impar. PERMUTACIONES CON REPETICION. En los casos anteriores se han obtenido permutaciones en donde todos los elementos utilizados para hacer los arreglos son diferentes. A continuación se obtendrá una fórmula que nos permite obtener las permutaciones de n objetos, cuando entre esos objetos hay algunos que son iguales. Ejemplo: Obtenga todas las permutaciones posibles a obtener con las letras de la palabra OSO. Solución: Para obtener la fórmula, es necesario primero suponer que todas las letras de la palabra OSO son diferentes y para diferenciarlas pondremos subíndices a las letras O, por lo que quedaría, O1SO2, y las permutaciones a obtener serían: 3P3 = 3! = 6 definiendo las permutaciones tenemos que estas serían, O1SO2, O2SO1, SO1O2, SO2O1, O1O2S, O2O1S ¿Pero realmente podemos hacer diferentes a las letras O?, eso no es posible, luego entonces ¿cuántos arreglos reales se tienen? Como: O1SO2 = O2SO1 SO1O2 = SO2O1 O1O2S= O2O1S Arreglos reales OSO SOO OOS Entonces se observa que en realidad sólo es posible obtener tres permutaciones con las letras de la palabra OSO debido a que las letras O son idénticas, ¿pero qué es lo que nos hizo pensar en seis arreglos en lugar de tres?, el cambio que hicimos entre las letras O cuando las consideramos diferentes, cuando en realidad son iguales. Para obtener los arreglos reales es necesario partir de la siguiente expresión: El número de arreglos reales = No. de permutaciones considerando a todos los objetos como diferentes Los cambios entre objetos iguales El número de arreglos reales = 3! / 2! = 3 x 2! / 2! = 3 Por tanto la fórmula a utilizar sería; nPx1 , x2 ........,xk n! x1! x2 !.......xk ! Donde: nPx1,x2,......, xk = Número total de permutaciones que es posible obtener con n objetos, entre los que hay una cantidad x1 de objetos de cierto tipo, una cantidad x2 de objetos de un segundo tipo,...... y una cantidad xk de objetos del tipo k. n = x1 + x2 + ...... + xk Ejemplos: 1) 1) Obtenga todas las señales posibles que se pueden diseñar con seis banderines, dos de los cuales son rojos, tres son verdes y uno morado. Solución: n = 6 banderines x1 = 2 banderines rojos x2 = 3 banderines verdes x3 = 1 banderín morado 6P2,3,1 = 6! / 2!3!1! = 60 señales diferentes 2) 2) a.¿Cuántas claves de acceso a una computadora será posible diseñar con los números 1,1,1,2,3,3,3,3?, b.¿cuántas de las claves anteriores empiezan por un número uno seguido de un dos?, c. ¿cuántas de las claves del inciso a empiezan por el número dos y terminan por el número tres? Solución: a. n = 8 números x1 = 3 números uno x2 = 1 número dos x3 = 4 números cuatro 8P3,1,4 = 8! / 3!1!4! = 280 claves de acceso b. n = 6 (se excluye un número uno y un dos) x1 = 2 números uno x2 = 4 números tres 1 x 1 x 6P2,4 = 1 x 1 x 6! / 2!4! = 15 claves de acceso El primer número uno nos indica el número de maneras como es posible colocar en la primera posición de la clave de acceso un número uno, debido a que todos los números uno son iguales, entonces tenemos una sola manera de seleccionar un número uno para la primera posición, el siguiente número uno nos indica el número de maneras como se colocaría en la segunda posición el número dos y la expresión siguiente nos indica todos los arreglos posibles que es posible diseñar con los números restantes. c. n = 6 (se excluye un número dos y un tres) x1 = 3 números uno x2 = 3 números tres 1 x 6P3,3 x1 = 1 x 6! / 3!3! = 20 claves de acceso El número uno inicial nos indica que existe una sola manera de seleccionar el número dos que va en la primera posición del arreglo, mientras que el número uno final nos indica que hay una sola manera de seleccionar el número tres que va al final del arreglo aún y cuando haya cuatro números tres, como estos son iguales al diseñar una permutación es indistinto cuál número tres se ponga, ya que siempre se tendrá el mismo arreglo y la expresión intermedia nos indica todos los arreglos posibles a realizar con los números restantes. 3) 3) ¿De cuántas maneras es posible plantar en una línea divisoria de un terreno dos nogales, cuatro manzanos y tres ciruelos? Solución: n = 9 árboles x1 = 2 nogales x2 = 4 manzanos x3 = 3 ciruelos 9P2,4,3 = 9! / 2!4!3! = 1260 maneras de plantar los árboles 4) 4) Si un equipo de fútbol soccer femenil participa en 12 juegos en una temporada, ¿cuántas maneras hay de que entre esos doce juegos en que participa, obtenga 7 victorias, 3 empates y 2 juegos perdidos? Solución: n = 12 juegos x1 = 7 victorias x2 = 3 empates x3 = 2 juegos perdidos 12P7,3,2 = 12! / 7!3!2! = 7,920 maneras de que en la temporada este equipo logre siete victorias, tres empates y dos juegos perdidos. PRUEBAS ORDENADAS. Se le llama prueba ordenada al hecho de seleccionar r objetos de entre n objetos contenidos en una urna uno tras otro. Una prueba ordenada puede ser llevada a efecto de dos maneras: 1) 1) Con sustitución (con reemplazo).- En este caso se procede a seleccionar el primer objeto de entre los n que hay, se observa de qué tipo es y se procede a regresarlo a la urna, luego se selecciona el siguiente objeto, lo anterior se repite hasta que se han extraído los r objetos de la prueba, por tanto el número de pruebas ordenadas de con sustitución se obtiene: Número total de pruebas ordenadas con sustitución = n x n x n x .........x n = nr Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo objeto, dado que se ha regresado a la urna el primer objeto, también se tendrán n objetos y así sucesivamente. 2) 2) Sin sustitución (sin reemplazo).- En este caso se procede a seleccionar el primer objeto, el cual no es regresado a la urna, luego se selecciona el segundo objeto, lo anterior se repite hasta completar los r objetos de la prueba, por lo que el número total de pruebas ordenadas sin sustitución se obtiene: Número total de pruebas ordenadas sin sustitución = n(n-1)(n-2).........(n-r +1) = nPr Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo objeto, hay n –1 maneras, dado que el primer objeto no se regresa a la urna, luego cuando se extrae el r-ésimo objeto, hay (n –r +1) de que sea seleccionado. Ejemplos: 1) 1) ¿Cuántas maneras hay de que se asignen tres premios de un sorteo en donde el primer premio es una departamento, el segundo premio es un auto y el tercer premio es un centro de cómputo, si los participantes en este sorteo son 120 personas, a.sí la asignación se puede hacer con sustitución, b.sí la asignación se puede hacer sin sustitución. Solución: a. Por principio multiplicativo: 120 x 120 x 120 = 1,728,000 maneras de asignar los premios Por fórmula: n =120, r = 120 nr = 1203 = 1,728,000 maneras de asignar los tres premios Hay que considerar que en este caso, al regresar cada boleto que es extraído de la urna, las personas que participan en el sorteo tienen la posibilidad de no ganar uno solo de los premios, de ganar un premio, dos de los premios o los tres premios. Cosa que generalmente no ocurre. b. Por principio multiplicativo: 120 x 119 x 118 = 1,685,040 maneras de asignar los premios Por fórmula: n = 120, r=3 = 120! / (120 – 3)! = 120! / 117! = 120 x 119 x 118 = 1,685,040 maneras de asignar los premios 120P3 Hay que hacer notar que en este caso, como los boletos que son seleccionados ya no regresan a la urna de donde fueron extraídos, los participantes solo pueden recibir un premio en caso de que fueran de los afortunados. Esta es la forma en que generalmente se efectúa un sorteo. 2) 2) ¿Cuántas formas hay de asignar las primeras cinco posiciones de una carrera de autos de fórmula K, si participan 26 autos en esta carrera?. Considere que la asignación es totalmente al azar. Solución: Esta asignación debe ser sin sustitución, esto es, se trata de una prueba ordenada sin sustitución, por lo que la solución es la que se muestra. n = 26, r=5 26P5 = 26! / (26 – 5)! = 26! / 21! = 26 x 25 x 24 x 23 x 22 = 7,893,600 maneras de asignar las cinco primeras posiciones de salida 3) 3) ¿Cuántas formas hay de asignar el orden de participación de las primeras 5 concursantes de 11 finalistas de un concurso de Miss Mundo? Solución: Esta asignación debe realizarse sin sustitución, por lo que se trata de una prueba ordenada sin sustitución. n = 11, r = 5 = 11! / (11 – 5)! = 11! / 6! = 11 x 10 x 9 x 8 x 7 = 55,440 maneras de asignar la participación 11P5 PARTICIONES ORDENADAS. Se le llama partición ordenada al hecho de repartir n objetos en células de una cantidad de x1 objetos, x2 objetos,......y xk objetos. Para deducir la fórmula de particiones ordenadas partiremos de un ejemplo. ¿Cuántas maneras hay de repartir 10 libros diferentes entre tres alumnos, si al primero le daremos 2, al segundo 3 y el resto al tercer alumno? Ejemplos de esta partición serían las siguientes si se numeran los libros del 1 al 10; 2 1 4 2 4 5 3 8 7 9 10 8 1 5 3 6 7 9 10 Solución: Lo primero que debemos hacer es seleccionar 2 libros de los 10 que se tienen para el primer alumno, esto es; 10C2 = 10! / (10 – 2)!2! = 10! / 8!2! = 45 maneras de seleccionar los libros Luego se seleccionan 3 libros de los 8 que quedan para el segundo alumno; 8C3 = 8! / (8 – 3)!3! = 8! / 5!3! = 56 maneras Y por último se procederá a seleccionar cinco libros de los cinco que quedan para el tercer alumno, lo que se muestra a continuación; 5C5 = 5! / (5 –5)!5! = 5! / 0!5! = 1 manera Por tanto el número total de particiones ordenadas en células de 2, 3 y 5 elementos se determina: 10C2*8C3*5C5 = (10! / (10 – 2)!2!)*(8! / (8 – 3)!3!)*(5! / (5 – 5)!5!) = 10! /2!3!5! La expresión anterior nos recuerda a la fórmula utilizada para encontrar las permutaciones de n objetos, entre los cuales hay algunos objetos que son iguales, por lo que usaremos la misma fórmula para encontrar las particiones ordenadas. Por tanto la fórmula para las particiones ordenadas sería: nPx1 , x2 .........., xk n! x1! x2 !.......xk ! Esta fórmula sólo puede ser utilizada cuando se reparten todos los objetos, no parte de ellos, en ese caso se usarán combinaciones. Donde: nPx1,x2,.....,xk = Total de particiones ordenadas o reparticiones que es posible hacer cuando los n objetos son repartidos en grupos de x1 objetos, x2 objetos ...... y xk objetos. n = x1 + x2 + ......+ xk Ejemplos: 1) 1) ¿Cuántas maneras hay de repartir 9 juguetes entre tres niños, si se desea que al primer niño le toquen 4 juguetes, al segundo 2 y al tercero 3 juguetes? Solución: Por combinaciones, 9C4*5C2*3C3 = 126*10*1= 1260 maneras de repartir los juguetes Por fórmula, n=9 x1 = 4 x2 = 2 x3 =3 9P4,2,3 = 9! / 4!2!3! = 1,260 maneras de repartir los juguetes 2) 2) ¿Cuántas maneras hay de repartir los mismos 9 juguetes entre tres niños, si se desea darle 3 al primer niño, 2 al segundo niño y 2 al tercer niño? Solución: En este caso únicamente se puede dar solución por combinaciones, ya que no es posible usar la fórmula debido a que se reparten solo parte de los juguetes. 9C3*6C2*4C2 = 84*15*6 = 7,560 maneras de repartir los juguetes (solo se reparten 7 y quedan dos juguetes) 3) 3) a. ¿Cuántas maneras hay de que se repartan 14 libros diferentes entre 3 alumnos, si se pretende que al primer alumno y al segundo les toquen 5 libros a cada uno y al tercero le toque el resto?, b. ¿Cuántas maneras hay de que se repartan los libros si se desea dar 5 libros al primer alumno, 3 al segundo y 2 libros al tercer alumno? Solución: a. a. Por fórmula: n = 14 x1 = 5 x2 = 5 x3 = 4 14P5,5,4 = 14! / 5!5!4! = 21,021 maneras de repartir los libros en grupos de 5, 5 y 4 libros b. b. Por combinaciones: 14C5*9C3*6C2 = 2,002*84*15 = 2,522,520 maneras de repartir 10 de los 14 libros en grupos de 5, 3 y 2 libros 4) 4) a.¿Cuántas maneras hay de repartir a 12 alumnos en 4 equipos de 3 personas cada uno de ellos para que realicen prácticas de laboratorio diferentes?, b. ¿Cuantas maneras hay de que se repartan los 12 alumnos en 4 equipos de 3 personas si se va a realizar una misma práctica? Solución: a. a. En este caso al ser prácticas de laboratorio diferentes, es posible resolver el problema por combinaciones o por la fórmula, dado que se reparten todos los alumnos Por fórmula: n = 12 x1 = 3 práctica 1 x2 = 3 práctica 2 x3 = 3 práctica 3 x4 = 3 práctica 4 12P3,3,3,3 = 12! / 3!3!3!3! = 369,600 maneras de repartir a los estudiantes en cuatro equipos de 3 personas para realizar prácticas diferentes b. b. En este caso lo más probable es que se crea que la solución es igual que la que se ha dado al inciso a, pero esto no puede ser debido a que si se desea repartir a los alumnos para realizar una misma práctica, el orden en el que se hace la repartición no tiene importancia, ya que al equipo de tres personas les da lo mismo quedar en el primer equipo a quedar en el segundo o tercero, ya que la práctica a realizar es la misma, entonces la solución es; 12P3,3,3,3 * 1 /4! = 12! / 3!3!3!3! * 1 / 4! = 369,600 / 4! = 15,400 maneras de repartir a los alumnos en equipos de 3 personas para realizar una misma práctica Al multiplicar la solución que se da al inciso a, por 1/4! se está quitando el orden de los grupos, que en este caso no nos interesa. DIAGRAMA DE ARBOL. Un diagrama de árbol es una representación gráfica de un experimento que consta de r pasos, donde cada uno de los pasos tiene un número finito de maneras de ser llevado a cabo. Ejemplos: 1.Un médico general clasifica a sus pacientes de acuerdo a: su sexo (masculino o femenino), tipo de sangre (A, B, AB u O) y en cuanto a la presión sanguínea (Normal, Alta o Baja). Mediante un diagrama de árbol diga en cuantas clasificaciones pueden estar los pacientes de este médico? Solución: A B M AB O N A B N A B N A B A F B N A B AB O B A B Si contamos todas las ramas terminales, nos damos cuenta que el número de clasificaciones son 2 x 4 x 3 = 24 mismas que podemos enumerar; MAN, MAA, MAB, MBN, MBA, MBB, etc, etc. 2) 1) Dos equipos denominados A y B se disputan la final de un partido de baloncesto, aquel equipo que gane dos juegos seguidos o complete un total de tres juegos ganados será el que gane el torneo. Mediante un diagrama de árbol diga de cuantas maneras puede ser ganado este torneo, Solución: A = gana el equipo A B = gana el equipo B A A A A B A B B B A A A A B B B B B En este diagrama se muestran que hay solo diez maneras de que se gane el torneo, que se obtienen contando las ramas terminales de este diagrama de árbol, las que es posible enumerar; AA, ABB, ABAA, ABABA, ABABB, etc, etc. 3) 2) Un hombre tiene tiempo de jugar ruleta cinco veces como máximo, él empieza a jugar con un dólar, apuesta cada vez un dólar y puede ganar o perder en cada juego un dólar, él se va a retirar de jugar si pierde todo su dinero, si gana tres dólares (esto es si completa un total de cuatro dólares) o si completa los cinco juegos, mediante un diagrama de árbol, diga cuántas maneras hay de que se efectué el juego de este hombre. Solución: $4 G $3 G P $2 P $2 $1 $2 G G $4 $3 G G$3 P $1 $3 G $2 G P $1 P $0 P $0 P $0 G $4 P $2 G $2 P $1 P $0 Si contamos las ramas terminales nos daremos cuenta que hay 11 maneras de que este hombre lleve a cabo sus apuestas, en este diagrama se han representado los cinco juegos o apuestas que este hombre tiene tiempo de jugar. PROBLEMAS PROPUESTOS 1. Si una prueba se compone de 12 preguntas de verdadero-falso, a. ¿de cuantas maneras diferentes un estudiante puede dar una respuesta para cada pregunta?, b. Sí de antemano el maestro le dice que la primera pregunta es verdadera, ¿cuántas maneras tiene de contestar esta prueba?. a. r=4,096 maneras b. r=2,048 maneras 2. Un fabricante tiene dificultades para obtener registros consistentes de resistencias a la tensión entre tres máquinas localizadas en la planta de producción, el laboratorio de investigación y el laboratorio de control de calidad , respectivamente, al mismo tiempo hay cuatro posibles técnicos –Tomás, Enrique, Rafael y Javier- quienes operan al menos una de las máquinas a prueba regularmente, a. ¿cuántos pares operadormáquina deben incluirse en un experimento planeado en el que cada operador maneje todas las máquinas?, b. Si se requiere que cada par operador-máquina pruebe ocho especimenes, ¿cuántos especimenes de prueba se necesitan para el procedimiento íntegro? Nota: un espécimen se destruye cuando se mide su resistencia a la tensión. a. a. r=12 pares b. r=96 especimenes 3. Un inspector de construcciones tiene que revisar el cableado de un nuevo de departamentos, ya sea el lunes, el martes, miércoles o jueves, a las 8 A. M., a las 10 A. M. o a las 2 P. M. , a. ¿cuántas maneras tiene este inspector de hacer las revisiones del cableado?, b. Obtenga las maneras en que el inspector puede realizar las revisiones del cableado, haciendo uso ahora de un diagrama de árbol. a y b. r=12 maneras 4. Si los cinco finalistas de un torneo internacional de golf son España, Estados Unidos, Portugal, Uruguay y Japón, a. Diga de cuantas maneras es posible que se otorgue un primero, segundo lugar y tercer lugar, b. Considerando que el primer lugar lo gana Portugal y el segundo lo gana Estados Unidos, ¿cuantas maneras hay de que se otorguen los lugares antes mencionados?. a. r=60 maneras, b. r=3 maneras 5. Una computadora de propósito especial contiene tres conmutadores, cada uno de los cuáles puede instalarse de tres maneras diferentes. ¿De cuantas maneras diferentes puede instalarse el banco de conmutadores de la computadora? r= 27 maneras 6. ¿De cuantas maneras ordenadas puede programar un director de televisión seis comerciales en los seis intermedios para comerciales durante la transmisión televisiva del primer tiempo de un partido de hockey?, si, a. los comerciales son todos diferentes, b. dos de los comerciales son iguales, c. Si hay cuatro comerciales diferentes, uno de los cuales debe aparecer tres veces, mientras que cada uno de los otros debe aparecer una sola vez. a. r=720 maneras b. r=360 maneras c. r=120 maneras 7. Determine el número de maneras en las que un fabricante puede seleccionar dos de las quince ubicaciones para un almacén. r=105 maneras 8. Una caja de 12 baterías recargables, contiene una defectuosa, ¿de cuantas maneras un inspector puede seleccionar tres de las baterías y, a. obtener la defectuosa, b. no obtener la defectuosa. a. r=55 maneras, b. r=165 maneras 9. El departamento de suministros tiene ocho diferentes motores eléctricos y cinco diferentes interruptores de arranque. ¿De cuantas maneras pueden seleccionarse dos motores y dos conmutadores para un experimento de una antena de rastreo?, r=280 maneras 10. A los participantes de una convención se les ofrecen 6 recorridos por día para visitar lugares de interés durante los tres días de duración del evento. ¿ En cuantas formas puede una persona acomodarse para hacer alguno de ellos? r=18 formas 11. Un determinado zapato se fabrica en 5 estilos diferentes y en 4 colores distintos para cada uno. Si la zapatería desea mostrar a su clientela pares de zapatos en todos los estilos y colores, ¿cuántos pares distintos deberán colocar en el aparador? r=20 12. Un estudiante de primer año debe tomar un de ciencia, uno de humanidades y otro de matemáticas. Si puede escoger entre cualquiera de 6 cursos de ciencias, 4 de humanidades y 4 de matemáticas, ¿cuántas maneras tiene de seleccionar las materias? r=96 maneras 13. Un urbanista de una nueva subdivisión ofrece a los clientes prospectos para la compra de una casa, la posibilidad de seleccionar cualquiera de 4 diseños diferentes, tres sistemas de calefacción, cochera con puertas o sin ellas, y patio o pórtico, ¿cuántos planes distintos están disponibles para el comprador? r= 48 planes 14. Si una prueba de selección múltiple consta de 5 preguntas, cada una con 4 posibles respuestas, de las cuales solo una es correcta, a. ¿en cuantas formas diferentes puede un estudiante escoger una respuesta para cada pregunta?, b. ¿en cuantas formas puede un estudiante escoger una alternativa para cada pregunta y tener todas las respuestas incorrectas? a. r= 1024 b. r=243 15. Un testigo de un accidente de tránsito en el que el causante huyó, le indica al policía que el número de matrícula del automóvil tenía las letras DUH seguidas por tres dígitos, el primero de los cuales era un cinco. Sí el testigo no puede recordar los otros dos dígitos, pero está seguro de que los tres eran diferentes, encuentre el número máximo de registros de automóvil que debe verificar la policía. r=72 registros 16. a) ¿De cuantas maneras pueden formarse 6 personas para subir a un autobús?, b.si tres de ellas insisten en seguirse una a la otra, ¿en cuantas formas es esto posible?,c.Si dos personas se rehúsan a seguirse una a la otra? a. r=720 b. r=144 c. r=480 maneras 17. a) ¿cuántos números de tres dígitos pueden formarse con los dígitos 0, 1, 2, 3, 4, 5, y 6, si cada uno solo puede usarse solo una vez?, b) ¿cuántos de estos números son nones?, c) ¿cuántos son mayores que 330? a. r=180 b. r=75 c. r=105 números 18. ¿En cuantas formas pueden sentarse en una línea 4 niños y 5 niñas, si deben colocarse alternadamente? r=2880 formas 19. Cuatro matrimonios compraron 8 lugares para un concierto. ¿En cuantas formas diferentes pueden sentarse a. sin restricciones?, b. si se sientan por parejas?, c. si todos los hombres se sientan juntos a la izquierda de todas las mujeres? a. r=40,320 b. r=384 c. r=576 20. ¿Cuántos menús que consisten de sopa, emparedado, postre y un refresco se puede ofrecer si se puede seleccionar entre 4 sopas diferentes, 3 clases de emparedados, 5 postres y 4 refrescos? r=240 menús 21. ¿En cuantas formas pueden llenarse las 5 posiciones iniciales de un equipo de baloncesto con 8 jugadores que pueden ocupar cualquiera de ellas? r=6720 formas 59280 22. Se sacan tres boletos de la lotería, de un grupo de 40, para el primero, segundo y tercer premios. Encuentre el número de puntos muestrales en para otorgarlos si cada concursante conserva solo un boleto. r=59,280 puntos 23. ¿En cuantas formas pueden plantarse, a lo largo de la línea divisoria de una propiedad, 3 robles, 4 pinos y 2 arces, si no se distingue entre los árboles de la misma clase? r=1,260 formas 24. Nueve personas salen de viaje para esquiar en tres vehículos cuyas capacidades son de 2, 4 y 5 pasajeros, respectivamente. ¿En cuántas formas es posible transportar a las 9 personas hasta el albergue con todos los vehículos? r=4,410 formas 25. ¿Cuántas formas hay de seleccionar a 3 candidatos de un total de 8 recién graduados y con las mismas capacidades para ocupar vacantes en una firma contable? R=56,,21,,10 formas 26. En un estudio que realizaron en california, el decano Lester Breslow y el doctor James Enstrom de la School of Public Health de la University of California en los Angeles, se concluyó que al seguir 7 sencillas reglas de salud, la vida de un hombre puede alargarse, en promedio 11 años, y la de las mujeres siete. Estas 7 reglas son: no fumar, hacer ejercicio regularmente, tomar alcohol solo en forma moderada, dormir siete u ocho horas, conservar un peso apropiado, desayunar y no comer entre alimentos. ¿En cuantas formas puede una persona adoptar cinco de estas reglas, a. si actualmente las viola todas?, b. si nunca toma bebidas alcohólicas y siempre desayuna? a. r=21 formas b.r=10 formas 27. Un dispositivo Biomecánico para emergencias médicas puede operar 0, 1 o 2 veces por noche. Trace un diagrama de árbol para demostrar que existen 10 maneras diferentes en las que puede operar para un total de 6 veces en cuatro noches. FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html CONCEPTO CLASICO DE FRECUENCIA RELATIVA. FRECUENCIA RELATIVA ACUMULADA: La frecuencia relativa acumulada de un intervalo se obtiene sumando la frecuencia relativa del intervalo con la frecuencia relativa de los intervalos anteriores ( la frecuencia relativa acumulada del último intervalo es igual a 1 ). Si la frecuencia relativa acumulada de cada intervalo se multiplica por 100 se obtiene la “ FRECUENCIA RELATIVA ACUMULADA PORCENTUAL “. Ejemplo: Completar la siguiente tabla de distribución: Intervalo 0-9 11-20 22-31 33-42 44-53 55-64 66-75 77-86 Frecuencia Intervalo Marca Tamaño Frecuencia Real de Acumulada clase 4 1-10 4.5 11 4 15 10-21 15.5 11 19 23 21-32 26.5 11 42 45 32-43 37.5 11 87 30 43-54 48.5 11 117 18 54-65 59.5 11 135 12 65-76 70.5 11 147 7 76-87 81.5 11 154 Frecuencia Frec. Rel. Frec. Rel. Relativa Porcentual Acumulada 0.02 0.09 0.14 0.29 0.19 0.11 0.07 0.04 2% 9% 14% 29% 19% 11% 7% 4% 0.02 0.02 0.11 0.12 0.25 0.27 0.54 0.56 0.73 0.75 0.84 0.87 0.91 0.95 0.95 0.100 Frec. Rel. Acum. Porcentual 2% 12% 27% 56% 75% 87% 95% 100% REPRESENTACION GRAFICA. Los datos que se tienen en una tabla de frecuencia se pueden representar gráficamente mediante algunas de las siguientes formas: Barras +Histograma ( de frecuencia ) Polígonos ( de frecuencia ) Circulograma Curvas Cartogramas Pictogramas Tabla de Valores Localización Gráfica FUENTE: http://www.micromegas.com.mx/apuntes/documents/estadistica/estadis4.htm La frecuencia relativa es la proporción del valor de la frecuencia absoluta de cada clase en relación al total de las observaciones de la variable. Dicho de otra manera, la frecuencia relativa de la clase (con , siendo k el número de categorías de la variable) es el cociente , entre las frecuencias absolutas de dicha clase y el número total de observaciones Categorías de la variable Frecuencia Absoluta Frecuencia Relativa ... ... ... ... ... ... 1 Si se multiplica la frecuencia relativa por cien, obtenemos el porcentaje de cada categoría en relación al total de casos. Categorías de la variable Frecuencia Absoluta Frecuencia Relativa ... ... ... ... ... ... Porcentajes 1 La tabla que presenta las clases o categorías de las variable y sus respectivas frecuencias se llama distribución de frecuencias (indica cómo la frecuencia total se distribuye entre las clases). FUENTE: http://www.liccom.edu.uy/bedelia/cursos/metodos/material/estadistica/var_cuali.html FRECUENCIA RELATIVA: Es el porcentaje que representa la frecuencia absoluta de determinado intervalo con respecto al total de datos proporcionados. FRECUENCIA ACOMULADA: Es la suma acumulativa de las frecuencias absolutas de cada uno de los intervalos. FRECUENCIA ACUMULADA RELATIVA: Es el porcentaje que expresa la frecuencia acumulada con respecto al total de datos proporcionados. Los números extremos 60 y 62 de la tabla anterior se conocen como los limites de clase. El numero menor 60 es el limite inferior de la clase y el 62 es el superior. El punto medio de clase que también se llama marca de clase se obtiene sumando los limites inferior y superior y dividiendo entre dos. A veces se necesita obtener lo que llamamos frontera de clase o limites exactos y esto se logra efectuando una suma entre el límite inferior de la clase inmediata cuyo resultado se divide entre dos. FUENTE: http://html.rincondelvago.com/datos-estadisticos.html ESPACIO MUESTRAL Y EVENTOS. La Estadística, y por tanto el Cálculo de Probabilidades, se ocupan de los denominados fenómenos o experimentos aleatorios. El conjunto de todos los resultados posibles diferentes de un determinado experimento aleatorio se denomina Espacio Muestral asociado a dicho experimento y se suele representar por Ω. A los elementos de Ω se les denomina sucesos elementales. Así por ejemplo, el espacio muestral asociado al experimento aleatorio consistente en el lanzamiento de una moneda es Ω= {Cara, Cruz}; el espacio muestral asociado al lanzamiento de un dado es Ω={1, 2, 3, 4, 5, 6}, siendo Cara y Cruz los sucesos elementales asociados al primer experimento aleatorio y 1, 2, 3, 4, 5 y 6 los seis sucesos elementales del segundo experimento aleatorio. A pesar de la interpretación que tiene el espacio muestral, no es más que un conjunto abstracto de puntos (los sucesos elementales), por lo que el lenguaje, los conceptos y propiedades de la teoría de conjuntos constituyen un contexto natural en el que desarrollar el Cálculo de Probabilidades. Sea A el conjunto de las partes de , es decir, el conjunto de todos los subconjuntos de Ω. En principio, cualquier elemento de A, es decir, cualquier subconjunto del espacio muestral contendrá una cierta incertidumbre, por lo que trataremos de asignarle un número entre 0 y 1 como medida de su incertidumbre. En Cálculo de Probabilidades dichos subconjuntos reciben en el nombre de sucesos, siendo la medida de la incertidumbre su probabilidad. La tripleta (Ω,A,P) recibe el nombre de espacio probabilístico. Por tanto, asociado a todo experimento aleatorio existen tres conjuntos: El espacio muestral , la clase de los sucesos, es decir, el conjunto de los elementos con incertidumbre asociados a nuestro experimento aleatorio A, y una función real, P:A [0, l], la cual asignará a cada suceso (elemento de A) un número entre cero y uno como medida de su incertidumbre. Advertimos no obstante, que la elección del espacio muestral asociado a un experimento aleatorio no tiene por qué ser única, sino que dependerá de que sucesos elementales queramos considerar como distintos y del problema de la asignación de la probabilidad sobre esos sucesos elementales. Ejemplo: : "Urna" Consideremos el experimento aleatorio consistente en extraer una bola al azar de una urna compuesta por tres bolas rojas, dos blancas y una verde. Podemos considerar como espacio muestral Ω1= {ω1, ω2, ω3} en donde sea ω1 = bola roja, ω2= bola blanca y ω3 = bola verde, aunque también podíamos haber considerado como espacio muestral el conjunto Ω1= {ω1, ω2, ω3, ω4, ω5, ω6} en donde ωi = bola roja, i = 1,2,3, ωi = bola blanca, i= 4,5 y ω6= bola verde, haciendo las bolas distinguibles. Ambos pueden ser considerados espacios muéstrales del experimento descrito, eligiendo el que más nos convenga, por ejemplo, a la hora de asignar la probabilidad a los sucesos elementales de uno u otro espacio muestral. Respecto a la clase de los sucesos A, es natural que ésta tenga una estructura tal que permita hablar no solo de sucesos sino también de su unión, intersección, diferencia, complementario, etc., debiendo ser la clase A, en consecuencia, cerrada a dichas operaciones entre "conjuntos" (entre sucesos). Esta es la situación del conjunto de las partes cuando es finito o inclusive numerable (caso, por ejemplo, del espacio muestral asociado al experimento aleatorio consistente en lanzar una moneda hasta que salga cara por primera vez). En otras ocasiones en las que sea un conjunto continuo (por ejemplo, cuando estudiamos el tiempo que tarda un isótopo radioactiva en volverse inestable), deberá ser A un conjunto estrictamente más pequeño que el conjunto de las partes de Ω. En todo caso podemos pensar en A como en el conjunto que contiene todos los elementos de interés, es decir, todos los sucesos a los que les corresponde una probabilidad. Apuntemos además algunas peculiaridades del Cálculo de Probabilidades respecto a la teoría de conjuntos. Aquí, el conjunto vacio 0 recibe el nombre de suceso imposible, definido como aquel subconjunto de que no contiene ningún suceso elemental y que corresponde a la idea de aquel suceso que no puede ocurrir. De forma análoga, el espacio total recibe el nombre de suceso seguro al recoger dicha denominación la idea que representa. Llamaremos sucesos incompatibles a aquellos cuya intersección sea el suceso imposible. Por último, digamos que la inclusión de sucesos, A B, se interpreta aquí como que siempre que se cumpla el suceso A se cumple el B; por ejemplo, siempre que salga el 2 (suceso A) sale par (suceso B). Ejemplo: "Lanzamiento de un dado" El espacio probabilístico asociado al experimento aleatorio consistente en el lanzamiento de un dado, tendrá como espacio muestras Ω={1,2,3,4,5,6} y como espacio de sucesos el conjunto de las partes por ser Ω finito, el cual contiene 26 elementos, A = { Φ, {1}, {2}, {3}, {4}, {5}, {6}, {1,2}, {1,3}, {1,4}, {1,5}, {1,6}, {2,3}, {2,4}, {2,5}, {2,6}, {3,4}, {3,5}, {3,6}, {4,5}, {4,6}, {5,6}, {1,2,3}, {1,2,4}, {1,2,5}, {1,2,6}, {1,3,4}, {1,3,5}, {1,3,6}, {1,4,5}, {1,4,6}, {1,5,6}, {2,3,4}, {2,3,5}, {2,3,6}, {2,4,5}, {2,4,6}, {2,5,6}, {3,4,5}, {3,4,6}, {3,5,6}, {4,5,6}, {1,2,3,4}, {1,2,3,5}, {1,2,3,6}, {1,2,4,5}, {1,2,4,6}, {1.,2,5,6}, {1,3,4,5}, {1,3,4,6}, {1,3,5,6}, {1,4,5,6}, {2,3,4,5}, {2,3,4,6}, {2,3,5,6}, {2,4,5,6}, {3,4,5,6}, {1,2,3,4,5}, {1,2,3,4,6}, {1,2,3,5,6}, {1,2,4,5,6}, {1,3,4,5,6}, {2, 3, 4, 5, 6}, Ω }. Obsérvese que este conjunto contiene los sucesos sobre los que habitualmente se tiene incertidumbre, como por ejemplo que salga un número par, {2,4,6}, o un número mayor que cuatro, {5,6}, o simplemente que salga un seis, {6}, y que como se ve es cerrado respecto de las operaciones entre conjuntos. El último elemento del espacio probabilístico es la probabilidad, que como antes dijimos está definida sobre A, asignando a cada suceso un número entre 0 y 1. Este es el objetivo de la siguiente sección. FUENTE: http://thales.cica.es/rd/Recursos/rd99/ed99-0278-01/probab1.html Formalización de la probabilidad Convenios: Los textos en color malva corresponden a un mayor nivel de formalización y pueden ser omitidos en una primera lectura. Experimento Aleatorio: experimento que puede ser repetido bajo "las mismas condiciones", del que puede establecerse el conjunto de sus posibles resultados, pero no predecir un resultado concreto. Espacio muestral: conjunto de posibles resultados. Punto muestral: elemento del espacio muestral. Suceso: cualquier subconjunto del espacio muestral. Si representamos el espacio muestral por y a los sucesos por A: A Dado que el conjunto vacío es subconjunto de cualquier conjunto (y que todo conjunto es subconjunto de sí mismo (, tanto el conjunto vacío como el espacio muestral son sucesos. Un problema a tener en cuenta es que dado un experimento, podemos encontrar más de un espacio muestral. Ejemplo 1: una mujer portadora de hemofilia tiene 3 hijos ¿Cuál es el espacio muestral apropiado para estudiar la posible hemofilia de estos? Opción a: Cada hijo puede padecer hemofilia (s) o no (n), por tanto 1={sss, ssn, sns, nss, snn, nsn, nns, nnn} Donde, por ejemplo, 'sns' significa el primero y el tercero la padecen y el segundo no. Hay que asegurarse que no se olvida ninguno. En este espacio muestral, el suceso "dos hijos padecen hemofilia" se representa como A1={ssn, sns, nss} y el suceso "los dos primeros no la padecen" como A 2={nns, nnn} Opción b: Pueden padecer hemofilia los tres hijos (3), dos (2), ... 2={3, 2, 1, 0} En este espacio muestral, el suceso "dos hijos padecen hemofilia" es A 1={2} y el suceso "los dos primeros no la padecen" no se puede representar porque en el espacio muestral no está contemplado el orden. FUENTE: http://www.hrc.es/bioest/Probabilidad_12.html Eventos Cuando se realiza un experimento, que es cualquier proceso que produce un resultado o una observación, se van a obtener un conjunto de valores. A este conjunto de valores que puede tomar una variable se le denomina espacio muestral. Por ejemplo: Si se tiene un dado cualquiera, el espacio muestral (EM) es EM={1,2,3,4,5,6}. Si existen más de una variable, el espacio muestral está formado por las combinaciones de valores de cada una de las variables. Si tomamos un subconjunto cualquiera del espacio muestral tenemos lo que se denomina un evento, y si éste consta de un solo elemento entonces es un evento elemental. Como se puede uno imaginar, existen eventos que siempre, no importa el número de experimentos o su situación, ocurren, y en cambio existen otros que nunca ocurren. Los que siempre ocurren son los eventos seguros, y los que nunca son los eventos imposibles. Sin embargo, no todos los resultados son al azar, pues si un experimento es cualquier proceso entonces los resultados pueden tomar cualquier tipo de valor. Por esta razón, se define como experimento aleatorio al proceso en el que se pueden predecir con certeza la ocurrencia de sus eventos, con excepción del seguro o del imposible. Hay que hacer la observación que esta definición habla en términos generales y no específicamente sobre algún experimento en particular. A aquélla variable que está asociada a un experimento de este tipo se le denomina variable aleatoria. En cambio, a un experimento no aleatorio se le denomina experimento determinístico. Cuando hablamos de varios eventos dentro del mismo experimento se pueden dar varios casos. Si dos o más eventos no pueden ocurrir simultáneamente, se llaman eventos mutuamente excluyentes, es decir, que la intersección de ambos eventos es vacía. Por otro lado, en ocasiones un evento o más eventos dependen de otro evento previo, es decir, un evento A ocurre dado que ocurrió un evento B. Si existe este tipo de relación entre eventos se dice que son eventos dependientes o condicionados (el evento A depende del evento B, o el resultado del evento A está condicionado al resultado del evento B). Por otro lado, si no existe tal relación entre eventos se dice que son eventos independientes. Los criterios de dependencia o de independencia se definirán más adelante, en términos de probabilidad condicional. 4. Probabilidad de eventos Para calcular la probabilidad de eventos es necesario que éstos se comporten de una maner más o menos estable. Precisamente, se echa mano de la regularidad estadística, que es la propiedad de los fenómenos aleatorios, y que consiste en que al aumentar el número de repeticiones de un experimento en condiciones prácticamente constantes, la frecuencia relativa de ocurrencia para cada evento tiende a un valor fijo. Sin embargo, al momento de definir la probabilidad de un evento podemos tomar en cuenta los siguientes criterios: 1. La probabilidad subjetiva de un evento se la asigna la persona que hace el estudio, y depende del conocimiento que esta persona tenga sobre el tema. Precisamente por su carácter de subjetividad no se considera con validez científica, aunque en la vida diaria es de las más comúnes que se utilizan al no apoyarse más que en el sentido común y los conocimientos previos, y no en resultados estadísticos. 2. La probabilidad frecuencial de un evento es el valor fijo al que tienden las frecuencias relativas de ocurrencia del evento de acuerdo a la regularidad estadística. Esta definición sería la más real, pero proporciona probabilidades aproximadas, es decir, proporciona estimaciones y no valores reales. Además, los resultados son a posteriori, pues se necesita realizar el experimento para poder obtenerlo. (Para ver un ejemplo haz click aquí.) 3. La probabilidad clásica de un evento E, que denotaremos por P(E), se define como el número de eventos elementales que componen al evento E, entre el número de eventos elementales que componen el espacio muestral: Es la definición más utilizada porque supone de antemano, y se necesita como requisito indispensable, que todos los eventos elementales tienen la misma probabilidad de ocurrir. FUENTE: http://www.uaq.mx/matematicas/estadisticas/xu4.html AXIOMAS Y TEOREMAS. AXIOMAS Y TEOREMAS. Para el cálculo de probabilidades hay que tomar en cuenta los Axiomas y Teoremas que a continuación se enumeran. 1)La probabilidad de que ocurra un evento A cualquiera se encuentra entre cero y uno. 0 p(A) 1 2)La probabilidad de que ocurra el espacio muestral debe de ser 1. p() = 1 3)Si A y B son eventos mutuamente excluyentes, entonces la p(AB) = p(A) + p(B) Generalizando: Si se tienen n eventos mutuamente excluyentes o exclusivos A1, A2, A3,.....An, entonces; p(A1A2.........An) = p(A1) + p(A2) + .......+ p(An) TEOREMAS TEOREMA 1. Si es un evento nulo o vacío, entonces la probabilidad de que ocurra debe ser cero. A p()=0 DEMOSTRACIÓN: Si sumamos a un evento A cualquiera, como y A son dos eventos mutuamente excluyentes, entonces p(A)=p(A) +p()=p(A). LQQD TEOREMA 2. La probabilidad del complemento de A, Ac debe ser, p(Ac)= 1 – p(A) A Ac DEMOSTRACIÓN: Si el espacio muestral , se divide en dos eventos mutuamente exclusivos, A y Ac luego =AAc, por tanto p()=p(A) + p(Ac) y como en el axioma dos se afirma que p()=1, por tanto, p(Ac)= 1 - p(A) .LQQD TEOREMA 3. Si un evento A B, entonces la p(A) p(B). B A B\A DEMOSTRACIÓN: Si separamos el evento B en dos eventos mutuamente excluyentes, A y B \ A (B menos A), por tanto, B=A(B \ A) y p(B)=p(A) +p(B \ A), luego entonces si p(B \ A)0 entonces se cumple que p(A)p(B). LQQD TEOREMA 4. La p( A \ B )= p(A) – p(AB) A B A\B AB DEMOSTRACIÓN: Si A y B son dos eventos cualquiera, entonces el evento A se puede separar en dos eventos mutuamente excluyentes, (A \ B) y AB, por tanto, A=(A \ B)(AB), luego p(A)=p(A \ B) + p(AB), entonces, p(A \ B) = p(A) – p(AB). LQQD TEOREMA 5. Para dos eventos A y B, p(AB)=p(A) + p(B) – p(AB). A B AB DEMOSTRACIÓN: Si AB = (A \ B) B, donde (A \ B) y B son eventos mutuamente excluyentes, por lo que p(A B) = p(A \ B) + p(B) y del teorema anterior tomamos que p(A \ B) = p(A) – p(AB), por tanto, p(AB) = p(A) + p(B) – p(AB). LQQD COROLARIO: AB C Para tres eventos A, B y C, p(ABC) = p(A) + p(B) + p(C) AB – p(AB) – p(AC) – (BC) + p(ABC). A B C AC FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html AXIOMAS El término axioma, originariamente significó dignidad; y por derivación se ha llamado axioma a lo que es digno de ser estimado, creído y valorado. En su acepción más clásica el vocablo axioma equivale al de principio que, por su dignidad misma, es decir, por ocupar cierto lugar en un sistema de proposiciones, debe estimarse como verdadero. Para Aristóteles los axiomas son principios evidentes que constituyen el funcionamiento de toda ciencia. En suma, Aristóteles define el axioma como una proposición que se impone inmediatamente al espíritu y que es indispensable, a diferencia de la tesis, que no puede demostrarse y que no es indispensable. En tal caso los axiomas son proposiciones irreductibles, principios generales a los que se reducen todas las demás proposiciones y en los cuales éstas se apoyan necesariamente. El axioma posee, por así decirlo, un imperativo que obliga al asentimiento una vez que ha sido enunciado y entendido. Los axiomas pueden ser llamados también BC nociones comunes como los enunciados del tipo siguiente: "dos cosas iguales a una tercera son iguales entre sí", y "el todo es mayor que la parte". Al no lograrse demostrar esos axiomas se tendió cada vez más a definir los axiomas mediante las dos notas ya antes apuntadas: indemostrabilidad y evidencia. Las proposiciones que podían ser demostradas y no eran evidentes se llamaron teoremas. Y las que no podían ser demostradas ni eran evidentes por sí mismas recibieron el nombre de postulados. Esta terminología tradicional ha experimentado grandes modificaciones. En efecto, está basada en gran parte en una concepción del axioma como proposición "evidente" y, por lo tanto, está teñida de cierto "intuicionismo" (en sentido sicológico) que no todos los autores admiten. Se ha impuesto el cambio en la terminología desde el momento en que se ha rechazado que los axiomas fuesen nociones comunes y en que se ha visto que pueden elegirse diversos postulados, cada uno de los cuales da origen a un sistema deductivo diferente. Esto ha producido un primer efecto: atenuar y hasta borrar por entero la distinción entre axioma y postulado. A estos cambios han contribuido sobre todo la matemática y la metalógica contemporáneas. Estas distinguen entre axiomas y teoremas. Los primeros son enunciados primitivos (a veces llamados también postulados) aceptados como verdaderos sin probar su validez; los segundos son enunciados cuya validez se somete a prueba. Axiomas y teoremas son, por lo tanto, elementos integrantes de todo sistema deductivo. Usualmente la definición del concepto de teorema requiere el uso del concepto de axioma (así como el uso de los conceptos de regla de inferencia y de prueba) mientras que el concepto de axioma es definido por enumeración. Podemos manifestar que ha habido dos distintas orientaciones en la concepción de los axiomas. Una de estas orientaciones destaca la intuitividad y autoevidencia de los axiomas; la otra destaca su formalidad e inclusive se resiste a adscribir a ningún axioma el predicado "es verdadero". Esta última orientación, llamada formalista, es la que más se ha impuesto hoy día. 3.2. VERDAD RELATIVA Y OBJETIVA El término verdad, desde su acepción más general, expresa una igualdad o conformidad entre inteligencia (el conocimiento intelectual) y el ser (Adaequatio intellectus et rei [adecuación del entendimiento y de la cosa]), y, en su sentido más profundo, una total interpenetración de ambos. A nosotros, la verdad se nos presenta en primer lugar como verdad de nuestro conocer; esta verdad del conocimiento (verdad lógica) es propia del juicio y consiste en que el pensamiento se asimila al ser, en cuanto que expresa como existente el objeto real. Nuestra verdad humana no sirve de norma al ser, sino al revés: es medida por él (al menos en el conocimiento especulativo), se indica que el pensamiento está determinado por el ser, "legitimado" por éste. Esta conformidad no exige que el pensamiento reproduzca el objeto según todos los aspectos posibles y, en este sentido, haya de constituir un conocimiento adecuado, antes bien, basta un conocimiento inadecuado con tal que los aspectos y notas del objeto pensado en el juicio se encuentren realmente en aquel; en otros términos: la verdad exige sólo una adecuación o igualación (adaequatio) al objeto formal (objeto) considerado en cada caso. La verdad auténtica es "universalmente válida", o sea, vale para todo intelecto cognoscente; lo que es verdadero para uno no puede ser falso para otro; en este sentido toda verdad es "absoluta" (objetiva) y no hay verdad alguna "relativa", es decir, de sentido diverso según la diversidad de sujetos. 3.2.1. VERDAD RELATIVA? El relativismo se caracteriza por una cierta interpretación del concepto de verdad. La verdad finita, como conformidad del conocimiento con su objeto implica, sin duda, esencialmente una relación, y en este aspecto es relativa. Pero sólo cabe hablar de relativismo cuando se considera como norma de la verdad no el objeto acerca del cual se emite un juicio sino cualquier otra cosa, por ejemplo, la estructura del sujeto, la índole especial de las condiciones culturales. Mientras el objeto es una medida de la verdad válida para todos los sujetos, enteramente igual sean cuales fueren las condiciones en que se verifique el conocimiento, este módulo común desaparece tan pronto como se le busca en sitio distinto del objeto mismo. La verdad deviene entonces relativa en el sentido particular de que existe para un sujeto y puede simultáneamente no existir para otro. Con ello el relativismo renuncia al principio de contradicción y a la validez universal de la verdad. En cambio, no hay relativismo cuando se admite que nuestro conocimiento puede, según sean la fuerza y demás condiciones del conocer, comprender el objeto con mayor o menor perfección, pero nunca de manera exhaustiva. Debemos añadir que frecuentemente y de hecho en nuestros conocimientos se dan influencias distintas del puro objeto, pero tales influencias no constituyen el fundamento de ninguna verdad relativa. No es argumento en favor del relativismo la variabilidad de nuestro conocimiento sensorial, según las circunstancias de situación y tiempo, pues el conocimiento intelectual puede elevarse sobre ellas indicando la posición espacial y temporal del observador. Habría conocimiento desde el punto de vista, con sentido de relativismo o perspectivismo, si sobre un objeto unívocamente determinado pudieran, desde un mismo punto de vista, formularse juicios diversos y, a la vez, verdaderos. El relativismo, en la acepción aquí enunciada nada tiene que ver con la teoría de la relatividad. Asimismo ha de distinguirse del relacionismo que disuelve el ser en meras relaciones. Contra el relativismo universal hablan: 1) El hecho de que indudablemente poseemos conocimientos verdaderos absolutamente, es decir, válidos para todo entendimiento, por ejemplo, los juicios sobre hechos simples de conciencia; 2) El que el relativismo universal incurre en contradicción interna cuando afirma haber descubierto la naturaleza relativa de la verdad. Pues si la conoce como es en sí, la conoce de manera universalmente válida. Si el relativismo estuviese en lo cierto, nunca podríamos descubrir que así ocurre. 3.2.2. VERDAD OBJETIVA El término verdad se usa primariamente en dos sentidos: para referirse a una proposición y para referirse a una realidad. En el primer caso se dice de una proposición que es verdadera diferenciándose de la falsa. En el segundo caso se dice de una realidad que es verdadera diferenciándose de la aparente, ilusoria, irreal, inexistente, etc. No siempre es fácil distinguir entre dos sentidos de verdad porque una proposición verdadera se refiere a una realidad y de una realidad se dice que es verdadera. Pero puede destacarse un aspecto de la verdad sobre el otro. Es lo que ocurrió en la idea de verdad que predominó en los comienzos de la filosofía. Los filósofos griegos comenzaron por buscar la verdad frente a la falsedad, la ilusión, la apariencia, etc. La verdad era en este caso idéntica a la realidad, y ésta última era considerada como idéntica a la permanencia, a lo que es. Los griegos no solamente se ocuparon de la verdad como realidad. Igualmente se ocuparon de la verdad como propiedad de ciertos enunciados, de los cuales se dice que son verdaderos. Aunque antes de Aristóteles ya se había concebido la verdad como propiedad de ciertos enunciados, la más celebrada fórmula al respecto es la que se encuentra en Aristóteles: "Decir de lo que es que no es, o de lo que no es que es, es falso; decir de lo que es que es, y de lo que no es que no es, es verdadero". Aristóteles expresó por primera vez límpidamente lo que luego se llamará "concepción lógica", y que sería más adecuado llamar "concepción semántica" de la verdad. Por tanto, no hay verdad sin enunciado. En rigor, no hay enunciado como tal, pues un enunciado lo es siempre de algo. Para que un enunciado sea verdadero es menester que haya algo de lo cual se afirme que es verdad: sin la cosa no hay verdad, pero tampoco la hay sólo con la cosa. Esta relación del enunciado con la cosa enunciada ha sido llamada luego correspondencia o adecuación; la verdad es verdad del enunciado en cuanto corresponde con algo que se adecua al enunciado. Los autores para quienes la proposición es fundamentalmente una serie de signos, han sostenido que la verdad es la conjunción o separación de signos; por ejemplo, la conjunción del signo "oro" con el signo "amarillo" o la separación del signo "oro" del signo "verde", lo que da las proposiciones estimadas verdaderas: "el oro es amarillo", "el oro no es verde". Es una concepción de la verdad que puede llamarse, según los casos, nominal o literal; si la verdad reside pura y simplemente en el modo como se hallan unidos o separados ciertos signos, el que una serie de signos sea declarada verdadera y otra falsa dependerá únicamente de los mismos signos. Ahora bien, el signo puede ser considerado como expresión física de un concepto mental, el cual puede ser considerado como manifestación de un concepto formal, el mismo que puede ser considerado como apuntado a una cosa, a una situación, a un hecho, etc. La verdad aparece, entonces, como conveniencia de signos con signos, de pensamientos con pensamientos, de conceptos con conceptos y de realidades con realidades, y a su vez como adecuación de una serie dada de signos, pensamientos y conceptos con un hecho real. Los escolásticos trataron de conjugar los diversos modos de entender la verdad, considerando que la verdad es una propiedad trascendental del ente y es convertible con el ente. La verdad como verdad trascendental, llamada también a veces verdad metafísica y luego verdad ontológica, es definida como la conformidad o conveniencia del ente con la mente, pues el verum como uno de los trascendentales es la relación del ente con el intelecto. Ello presupone que el ente es inteligible, ya que de lo contrario no podría haber la conformidad mentada. La verdad puede entenderse como la conformidad de la mente con la cosa, o adecuación de la mente con la cosa. Este tipo de verdad se ha llamado verdad lógica, y ésta puede entenderse como conocimiento o como unión del juicio con lo juzgado, distinguiéndose una verdad gnoseológica y una propiamente lógica. La verdad trascendental es lo verdadero como realidad; la verdad gnoseológica es la verdad en cuanto se halla en el intelecto; la verdad lógica es la verdad en cuanto adecuación del enunciado con la cosa; la verdad que puede llamarse nominal es la conformidad del signo con otro. Jorge Guillermo Hegel (1770-1831) intenta, desde el idealismo, llegar hasta la verdad absoluta, llamada por él la verdad filosófica. La verdad es matemática o formal cuando se reduce al principio de contradicción; es histórica o concreta cuando concierne a la existencia singular, es decir, a las determinaciones no necesarias del contenido de esta existencia. Pero es verdad filosófica o absoluta cuando se opera una síntesis de lo formal con lo concreto, de lo matemático con lo histórico. Así, lo falso y negativo existen, no como un momento de la verdad, sino como una existencia separada que queda anulada y absorbida cuando, con el devenir de lo verdadero, se alcanza la idea absoluta de la verdad en y para sí misma. La fenomenología del espíritu es de este modo la preparación para la lógica como ciencia de lo verdadero en la forma de lo verdadero. La verdad absoluta es la filosofía misma, el sistema de la filosofía. Es propio del concepto de verdad sustentado por Hegel el hecho de que la verdad sea, en cuanto ontológica, una totalidad indivisible sobre la cual se destaca cualquier enunciado parcial de lo verdadero o de su negación: el hecho, en suma, de que lo "verdadero sea el todo". La indagación de la verdad, realizada por Edmund Husserl (1859-1938) al hilo del estudio de las relaciones entre la verdad y la evidencia conduce al concepto de verdad como una situación objetiva (en cuanto correlato de un acto identificador) y a una identidad o plena concordancia entre lo mentado y lo dado como tal (en cuanto correlato de una identificación de coincidencia), pero este concepto se refiere a lo objetivo, en tanto que en las relaciones ideales entre las esencias significativas de los actos coincidentes hay que entender la verdad como la idea correspondiente a la forma de acto, es decir, la idea de la adecuación absoluta como tal. En un tercer sentido, la verdad puede designarse como el vivir en la evidencia el objeto dado, en el modo del objeto mentado, y, finalmente, desde el punto de vista de la intención, la verdad es el resultado de la aprehensión de la relación de evidencia. Martín Heidegger (1889-1976) niega que la verdad sea primariamente la adecuación del intelecto con la cosa y sostiene, de acuerdo con el primitivo significado griego, que la verdad es el descubrimiento. La verdad queda convertida en un elemento de la existencia, la cual descubre el ser en su estado de degradación y lo descubre en su estado de autenticidad. La verdad como descubrimiento puede darse sólo en el fenómeno de estar en el mundo propio de la Existencia y en él radica el fundamento del fenómeno originario de la verdad. El descubrimiento de lo velado es así una de las formas de ser del estar en el mundo. Pero el descubrimiento no es sólo el descubridor sino lo descubierto. La verdad es, en un sentido originario, la revelación de la Existencia a la cual pertenece primitivamente tanto la verdad como la falsedad. Por eso la verdad se descubre únicamente cuando la Existencia se revela a sí misma en cuanto manera de ser propia. Y toda verdad no es verdadera en tanto que no haya sido descubierta. Por eso hay verdad sólo en tanto hay Existencia, y ser únicamente en tanto que hay verdad. Cierta porción de la filosofía contemporánea va aproximándose a una noción de verdad que, sin caer en un completo irracionalismo, procura solucionar o evitar los conflictos que el intelectualismo tradicional había suscitado. La verdad resulta ser así, según William James (1842-1910), no una adecuación de la vida a su satisfacción, sino de toda noción y de todo acto al bien. La verdad es, por consiguiente, una forma o especie del bien; el juicio de existencia es al mismo tiempo un juicio de valor. Por eso, las "consecuencias prácticas" de que habla William James no son solamente utilitarias, sino también mentales y teóricas. La única diferencia entre un pragmatista y un antipragmatista en el problema de la verdad radica sólo, según James, en el hecho de que cuando los pragmatistas hablan de verdad se refieren exclusivamente a algo acerca de las ideas, es decir, a su practicabilidad o posibilidad de funcionamiento, en tanto que cuando los pragmatistas hablan de la verdad quieren decir frecuentemente algo acerca de los objetos. Debemos decir que el pensamiento actual busca por diversos caminos una noción de verdad que, superando el relativismo y el utilitarismo manifiestos en las primeras reacciones contra la abstracción, valga a su vez como absoluta. José Ortega y Gasset (1883-1955) examina por qué se da por supuesto que hay un ser o verdad de las cosas que el hombre parece tener que averiguar, hasta el punto de que el hombre ha sido definido como el ser que se ocupa de conocer el ser que las cosas o, en otros términos, como el animal racional que hace funcionar su razón por el mero hecho de poseerla. El hombre necesita justificar por qué en algunas ocasiones se dedica a averiguar el ser de las cosas. Tal averiguación no puede proceder simplemente de una curiosidad; por el contrario, mientras la filosofía tradicional afirmaba que el hombre es curioso y rebajaba así la ciencia al nivel de una afición, el pensamiento actual, que niega la supuesta intelectualidad esencial del hombre, sostiene que éste se ve obligado a conocer porque el conocimiento es el acto que le salva del naufragio en la existencia. El saber se convierte de esta forma en saber a qué atenerse. De ahí que sea erróneo (según dicho pensador) suponer sin más que las cosas poseen un ser y que el hombre tiene que descubrirlo; lo cierto es que las cosas no tienen por sí mismas un ser y por eso, para no verse perdido, el hombre tiene que inventárselo. Ser es, por consiguiente, lo que hay que hacer. Pero entonces la verdad no será simplemente la tradicional adecuación entre el ser y el pensar. Verdad será aquello sobre lo cual el hombre sabrá a qué atenerse, el ponerse en claro consigo mismo respecto a lo que cree de las cosas. En la época contemporánea los lógicos han presentado un concepto de verdad llamado concepto semántico; según el cual la expresión "es verdadera" (así como la expresión "es falso") es un predicado metalógico. Esto significa que una definición adecuada de la verdad tiene que ser dada en un metalenguaje. Este metalenguaje debe contener las expresiones del lenguaje acerca del cual se habla. Según esto, se trata de construir una definición objetivamente justificada, concluyente y formalmente correcta de la expresión "proposición verdadera", y esto requiere, además de una demostración de las ambigüedades adscritas al lenguaje conversacional, un análisis del concepto de verdad o, mejor dicho, de la definición de "proposición verdadera". Según Jaime Balmes (1810-1848) podemos hablar de verdades fundamentales, que según el parecer de varios escolásticos, deben suponerse sin justificación crítica en toda investigación gnoseológica, admitiéndose tres: el principio de contradicción (primum principium), la existencia del yo que investiga (primum factum) y la capacidad de la razón para la verdad (prima conditio). Tales verdades no son ciertamente susceptibles de una demostración propiamente dicha ni la necesitan; pero no pueden substrarse a la reflexión crítica ni a la justificación. Nosotros, ratificando lo indicado al introducir este tema, debemos manifestar que por analogía con la verdad del juicio, puede también llamarse verdadero un concepto en cuanto supone un juicio verdadero, y una percepción sensorial en cuanto que por su conformidad con la realidad conduce a un juicio asimismo verdadero. Distinta de la verdad del conocimiento es la verdad del ser (verdad ontológica u óntica, según otros) que conviene al ser mismo y denota una conformidad de éste con el conocimiento intelectual. Cuando la verdad ontológica se considera, junto con la unidad y la bondad, como uno de los atributos "trascendentales", es decir, propios sin excepción de todo ente, con ello se significa primariamente aquella conformidad de todo ente con el pensamiento, en cuya virtud puede devenir objeto de éste; y considerando este aspecto, tenemos por fundamento firme de la inclusión de la verdad ontológica entre los atributos trascendentales del ente, el que nuestra razón se encuentre ordenada ilimitadamente a él. En el orden ontológico, esta inteligencia del ente se halla motivada por el hecho de que todo ser no divino está formado según las ideas de la mente de Dios. Verdad ontológica denota, en último término, que el ente tiene su medida en una idea divina y que, por lo tanto, desde este punto de vista, está impregnado de inteligencia. Así, las verdades del conocimiento y del ser de las criaturas tienen su supremo fundamento ontológico en la verdad divina, en la que el ser y el conocer son una misma cosa; la frase "Dios es luz" expresa simbólicamente estas ideas. El fundamento de la verdad está en Dios: aunque en las cosas hay muchas esencias o formas, y por tanto muchas verdades individuales, la verdad de todas ellas estriba en Dios. La verdad de nuestro entendimiento depende de su conformidad con las cosas; pero la verdad de las cosas nace de su conformidad con el entendimiento divino. El alma juzga de la verdad de las cosas por la verdad primera, la cual se refleja en nuestro espíritu a la manera que la luz en un espejo. Esto se realiza por la facultad que se nos ha dado para conocer los principios tan pronto como se nos ofrecen. Así se explica cómo la verdad es eterna. No lo es, si se la considera únicamente en cuanto está en nuestro entendimiento; pero lo es, en cuanto se funda en el entendimiento divino. Si no hubiese un entendimiento eterno, no habría verdad eterna. De esta teoría resulta lo que debe pensarse de la cuestión sobre las ideas que dividió a las escuelas de Platón y Aristóteles. La esencia divina incluye la representación inteligible de todas las cosas: así, pues, las ideas de todo están en Dios; o más bien, hay en Dios una idea innata que equivale a todas las reales y posibles. La idea en Dios no es otra cosa que la esencia divina. De aquel manantial de luz, dimana por la creación la fuerza intelectual de todos los entendimientos finitos; pues el convenir todos estos en las primeras verdades, prueba la existencia de un entendimiento superior que a todos los ilumina. FUENTE: http://www.ucsm.edu.pe/rabarcaf/procon03.htm ESPACIO FINITO EQUIPROBABLE. ESPACIOS FINITOS EQUIPROBABLES. Sea un espacio muestral que contiene n elementos, = a1, a2, a3,....,an, si a cada uno de los elementos de le asignamos una probabilidad igual de ocurrencia, pi = 1/n por tener n elementos , entonces estamos transformando este espacio muestral en un espacio finito equiprobable, el que debe cumplir con las siguientes condiciones: 1. Las probabilidades asociadas a cada uno de los elementos del espacio muestral deben ser mayores o iguales a cero, pi 0. 2. La sumatoria de las probabilidades asociadas a cada elemento del espacio muestral debe de ser igual a 1. pi = 1 En caso de que no se cumpla con las condiciones anteriores, entonces no se trata de un espacio finito equiprobable. Solo en el caso de espacios finitos equiprobables, si deseamos determinar la probabilidad de que ocurra un evento A cualquiera, entonces; p(A) = r*1/n = r/n p(A) = maneras de ocurrir el evento A/ Número de elementos del espacio muestral r = maneras de que ocurra el evento A 1/n = probabilidad asociada a cada uno de los elementos del espacio muestral n = número de elementos del espacio muestral Ejemplos: 1. Se lanza al aire una moneda normal (una moneda perfectamente equilibrada) tres veces, determine la probabilidad de que: a. Aparezcan puros sellos, b. Aparezcan dos águilas, c. Aparezcan por lo menos dos águilas. Solución: Para calcular las probabilidades de este problema, hay que definir el espacio muestral en cuestión; si representamos los tres lanzamientos de la moneda mediante un diagrama de árbol, encontraremos que el espacio muestral o el conjunto de todos los resultados posibles es: = AAA, ASS, SAS, SSA, AAS, SAA, ASA, SSS a. A = evento de que aparezcan puros sellos = SSS p(A) = p(aparezcan puros sellos) = p(SSS) = 1/8 = 0.125 ¿Porqué un octavo?, sí el espacio muestral consta de 8 elementos como se ha observado, entonces la probabilidad asociada a cada uno de los elementos del espacio muestral es de 1/8, por ser un espacio finito equiprobable ya que cada uno de los elementos mostrados tiene la misma probabilidad de ocurrencia. b. B = evento de que aparezcan dos águilas = AAS, SAA, ASA p(B) = p(aparezcan dos águilas) = p(AAS, SAA, ASA) = 1/8 + 1/8 + 1/8 = 3/8 = 0.375 c. C = evento de que aparezcan por lo menos dos águilas = AAS, SAA, ASA, AAA p(C) = p(AAS, SAA, ASA, AAA)=p(aparezcan dos águilas) + p(aparezcan tres águilas) p(C) = 4/8 = 1/2 = 0.5 2. En un lote de producción que consta de 20 computadoras personales de cierta marca, se ha detectado que 4 tienen defectos de tipo operacional. 1. Si se selecciona al azar una computadora, a. Determine la probabilidad de que la computadora seleccionada tenga defectos de tipo operacional, b. ¿cuál es la probabilidad de que no tenga defectos de tipo operacional?. 2. Si se seleccionan al azar 4 computadoras de este lote, determine la probabilidad de que: a. Solo tres tengan defectos de tipo operacional, b. Por lo menos dos tengan defectos de tipo operacional, c. Como máximo una tenga defectos de tipo operacional. Solución: Para el punto 2.1, cuando se selecciona de un lote un solo elemento, entonces el espacio muestral está compuesto de entes unitarios, que son cada una de las computadoras, = 20 computadoras a. A = evento de que una computadora tenga defectos de tipo operacional p(A) = 5/20 = 0.25 b. B = evento de que una computadora no tenga defectos de tipo operacional p(B) = 1 - p(A) = 1 – 0.25 = 0.75 2.2 2.2 Al seleccionar del lote más de una computadora, el espacio muestral ya no estará compuesto por entes unitarios, estará formado por todos los grupos que se puedan formar de 4 computadoras seleccionadas de entre 20 que se tienen, 20C4 = 4,845 maneras de seleccionar las cuatro computadoras al azar Dicho de otra forma serían 4,845 muestras de cuatro computadoras, entre estas muestras hay algunas que contienen puras computadoras defectuosas o puras sin defectos y otras muestras que tienen una mezcla de computadoras con defectos y sin defectos. a. C = evento de que tres de las computadoras seleccionadas tengan defectos de tipo operacional C = 4C3*16C1 = 4*16 = 64 muestras de cuatro computadoras que contienen tres defectuosas p(C) = 64/ = 64/4,845 = 0.013209 b. D = evento de que dos o más computadoras tengan defectos de tipo operacional D = 2 con defectos, 3 con defectos o 4 con defectos D = 4C2*16C2 + 4C3*16C1 + 4C4*16C0 = 6*120 + 4*16 + 1 = 720 + 64 + 1 = 785 El evento D consta de 785 muestras, en las que por lo menos dos de las cuatro computadoras seleccionadas tienen defectos. p(D) = número de elementos del evento D/ número de elementos del espacio muestral p(D) = 785/ = 785/4,845 = 0.162022 c. E = evento de que como máximo una de las computadoras seleccionadas tenga defectos de tipo operacional E = 0 con defectos o 1 con defectos E = 4C0*16C4 + 4C1*16C3 = 1*1,820 + 4*560 = 1820 + 2240 = 4,060 muestras El evento E contiene 4,060 muestras que contienen una o ninguna computadora defectuosa, por lo que; p(E) = 4,060/ = 4,060/4,845 = 0.83797 ¿Porqué utilizar combinaciones para obtener la probabilidad en lugar de permutaciones?, en este caso no se habla de algún orden para seleccionar las computadoras es el motivo por el cual se usaron combinaciones, pero si decimos que se toman cuatro computadoras del lote y se pregunta, ¿cuál es la probabilidad de que la primera y segunda computadora seleccionada tengan defectos de tipo operativo y que la tercera y cuarta no tengan defecto alguno? En este caso el espacio muestral se determina haciendo uso de permutaciones ya que se trata de una prueba ordenada; como se observa a continuación: = 20P4 = 20!/(20 – 4)! = 20!/16! = 116,280 maneras de seleccionar cuatro computadoras una tras otra F = evento de que la primera y segunda computadora tengan defectos y que la tercera y cuarta no tengan defectos F = 4P2*16P2 = 4 x 3 x 16 x 15 = 2,880 muestras en donde la primera y segunda computadora tienen defectos y la tercera y cuarta no tienen defectos p(F) = 2,880/116,280 = 0.024767 3. Se seleccionan dos números al azar de entre los dígitos del 1 al 9, a. Determine la probabilidad de que ambos números seleccionados sean pares, b. Determine la probabilidad de que ambos números sean impares. Solución: Para obtener el espacio muestral de este problema podemos hacer uso de un diagrama de árbol en donde se represente la selección del primer número y luego la del segundo número, encontrándose que los pares de números a elegir serían 36, como se muestran a continuación. (1,2) (1,3) = (1,4) (1,5) (1,6) (1,7) (1,8) (1,9) (2,3) (2,4) (2,5) (2,6) (2,7) (2,8) (2,9) (3,4) (3,5) (3,6) (3,7) (3,8) (3,9) (4,5) (4,6) (4,7) (4,8) (4,9) (5,6) (6,7) (7,8) (8,9) (5,7) (6,8) (7,9) (5,8) (6,9) (5,9) a. Definiendo un evento A = evento de que los dos números seleccionados sean pares Luego, A = (2,4, (2,6), (2,8), (4,6), (4,8), (6,8) p(A) = 6/36 = 1/6 = 0.1667 b. B = evento de que los dos números seleccionados sean impares Luego, B = (1,3), (1,5), (1,7), (1,9), (3,5), (3,7), (3,9), (5,7), (5,9), (7,9) p(B) = 10/36 = 5/18 = 0.2778 Otra forma de resolver este problema es haciendo uso de combinaciones, donde; = 9C2 = 36 maneras de seleccionar los dos números a. A = selección de dos números de entre (2, 4, 6 y 8), 4C2 = 6 maneras de seleccionar dos números pares p(A) = 4C2/9C2 = 6/36 = 1/6 = 0.1667 b. B = selección de dos números impares, se seleccionan de entra (1, 3, 5, 7 y 9), 5C2 = 10 maneras de hacer la selección p(B) = 10/36 = 5/18 = 0.2778 4. Dada la siguiente tabla referente a la producción de flechas para camión de carga pesada; se inspeccionan 200 flechas del tipo A y B, 300 del tipo C y 400 del tipo D, a continuación se presentan los resultados obtenidos en la inspección: DEFECTO A B I 54 23 II 28 12 S-DEF 118 165 TOTAL 200 200 TIPO DE FLECHA C D TOTAL 40 15 132 14 5 59 246 380 909 300 400 1100 Se selecciona una flecha al azar de las inspeccionadas, determine la probabilidad de que: a. La flecha seleccionada sea del tipo B, b. La flecha seleccionada no tenga defectos, c. La flecha seleccionada tenga defectos del tipo II, d. La flecha seleccionada tenga cualquier tipo de defecto. Solución: a. p( flecha sea tipo B) = 200/1,100 = 0.18182 b. p(flecha no tenga defectos) = 909/1,100 = 0.82636 c. p(flecha con defectos del tipo II) = 59/1,100 = 0.05363 d. p(flecha tenga cualquier tipo de defecto) = p(def tipo I) + p(def tipo II) = = 132/1,100 + 59/1,100 = (132 +59)/1,100 = 191/1,100 = 0.17364 5. Se diseñan placas para automóvil que consten de tres letras seguidas de cuatro dígitos, las letras se toman del abecedario y los números de los dígitos del 0 al 9, no se repiten letras y números, si se selecciona una placa al azar de las que se han diseñado, determine la probabilidad de que: a. La placa empiece por la letra D, b. La placa empiece por la letra D seguida de E, c. La placa termine por el número 4, d. La placa termine por el número 43, e. Si a un tránsito se le ha dado a la fuga un infractor, y recuerda que las placas empiezan por la letra E y terminan por el número 9¿cuántas placas tendrá que revisar el tránsito?, él alcanzó a ver que no se repetían letras y números, determine también la probabilidad de que encuentre al infractor. Solución: a. El espacio muestral será: = 26P3*10P4 = 26 x 25 x 24 x 10 x 9 x 8 x 7 = 78, 624,000 placas El espacio muestral está formado por todas las placas que es posible diseñar, A = evento de que una placa empiece por la letra D A = 1*25P2*10P4 = 1 x 25 x 24 x 10 x 9 x 8 x 7 = 3,024,000 placas p(A) = 3,024,000/78,624,000 = 0.03846 b. B = evento de que la placa empiece por la letra D seguida de la E B = 1 x 1 x 24 x 10P4 = 1 x 1 x 24 x 10 x 9 x 8 x 7 = 120,960 placas p(B) = 120,960/78,624,000 = 0.0015385 c. C = evento de que la placa termine por el número cuatro C = 26P3*9P3*1 = 26 x 25 x 24 x 9 x 8 x 7 x 1= 7,862,400 placas p(C) = 7,862,400/78,624,000 = 0.10 d. D = evento de que la placa termine por el número 43 D = 26P3*8P2 x 1 x 1 = 26 x 25 x 24 x 8 x 7 x 1 x 1 = 873,600 placas p(D) = 873,600/78,624,000 = 0.01111 6. Se lanza al aire un dado normal dos veces, a. ¿cuál es la probabilidad de que la suma de los números que aparecen sea de por lo menos siete?, b. ¿cuál es la probabilidad de que la suma de los números que aparecen sea mayor de siete?, c. ¿cuál es la probabilidad de que la suma de los números que aparecen sea de cómo máximo cinco?, d. ¿cuál es la probabilidad de que en el primer lanzamiento aparezca el número tres? Solución: a. Lo primero que hay que hacer es definir el espacio muestral correspondiente, si hacemos uso de un diagrama de árbol en donde representemos el primer lanzamiento del dado y luego su segundo lanzamiento y obtendremos lo siguiente: (1,1) (2,1) (3,1) (4,1) (5,1) (6,1) (1,2) (2,2) (3,2) (4,2) (5,2) (6,2) = (1,3) (2,3) (3,3) (4,3) (5,3) (6,3) (1,4) (2,4) (3,4) (4,4) (5,4) (6,4) (1,5) (2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6) Como se observa, = 36 elementos cada uno de los cuales tiene la misma probabilidad de ocurrir, por lo que; a. A = evento de que la suma de los números que aparecen sea de por lo menos siete A = 21 elementos que son los que suman siete o más (6,1) (5,2) A = (4,3) (3,4) (2,5) (1,6) (6,2) (5,3) (4,4) (3,5) (2,6) (6,3) (5,4) (6,4) (4,5) (5,5) (6,5) (3,6) (4,6) (5,6) (6,6) p(A) = 21/36 = 0.58333 b. B = evento de que la suma de los números que aparecen sea mayor de siete B = 15 elementos, que son los que suman más de siete, 8 o más B= (6,2) (5,3) (4,4) (3,5) (2,6) (6,3) (5,4) (6,4) (4,5) (5,5) (6,5) (3,6) (4,6) (5,6) (6,6) p(B) = 15/36 = 0.41667 c. C = evento de que la suma de los números que aparecen sea de cómo máximo cinco C = 10 elementos, los que suman 5 o menos (1,1) (2,1) (3,1) (4,1) C = (1,2) (2,2) (3,2) (1,3) (2,3) (1,4) p(C) = 10/36 = 5/18 = 0.27778 d. D = evento de que en el primer lanzamiento aparezca el número tres D = (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) p(D) = 6/36 = 1/6 = 0.16667 FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html PROBABILIDAD CONDICIONAL E INDEPENDENCIA. PROBABILIDAD CONDICIONAL Sea un espacio muestral en donde se ha definido un evento E, donde p(E)0, si deseamos determinar la probabilidad de que ocurra un evento A (el que también es definido en el mismo espacio muestral), dado que E ya ocurrió, entonces deseamos determinar una probabilidad de tipo condicional, la que se determina como se muestra; p( A | E ) p( A E ) p( E ) E Donde: AE A p(AE) = probabilidad de que ocurra A dado que E ya ocurrió p(AE) = probabilidad de que ocurra A y E a un mismo tiempo p(E) = probabilidad de que ocurra E Luego; P( A E ) P( E ) A E E Por tanto: P( A | E ) A E E Donde: AE= número de elementos comunes a los eventos A y E E= número de elementos del evento E Luego entonces podemos usar cualquiera de las dos fórmulas para calcular la probabilidad condicional de A dado que E ya ocurrió. Ejemplos: 1. Se lanza al aire dos dados normales, si la suma de los números que aparecen es de por lo menos siete, a. determine la probabilidad de que en el segundo dado aparezca el número cuatro, b. Determine la probabilidad de que ambos números sean pares, c. Determine la probabilidad de que en el primer dado aparezca el numero dos. Solución: El espacio muestral es el mismo que cuando se lanza un dado dos veces y se muestra a continuación; (1,1) (2,1) (3,1) (4,1) (5,1) (6,1) (1,2) (2,2) (3,2) (4,2) (5,2) (6,2) = (1,3) (2,3) (3,3) (4,3) (5,3) (6,3) (1,4) (2,4) (3,4) (4,4) (5,4) (6,4) (1,5) (2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6) a. a. Para calcular una probabilidad condicional es necesario definir los eventos A y E, siendo estos, A = evento de que en el segundo dado aparezca el número cuatro, E = evento de que la suma de los números que aparecen sea de por lo menos siete, (que es que es el evento que está condicionando) E = 21 elementos, los que suman siete o más (6,1) (5,2) (6,2) E = (4,3) (5,3) (6,3) (3,4) (4,4) (5,4) (6,4) (2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6) A = 6 elementos, los que en el segundo dado aparece el cuatro A = (1,4) (2,4) (3,4) (4,4) (5,4) (6,4) Luego, AE = (3,4) (4,4) (5,4) (6,4), AE= 4 elementos Por tanto; p(AE) = AE/ E= 4/21 = 0.19048 b. b. E = evento de que la suma de los números que aparecen sea de por lo menos siete (6,1) (5,2) (6,2) E = (4,3) (5,3) (6,3) (3,4) (4,4) (5,4) (6,4) (2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6) A = evento de que ambos números sean pares (2,2) (4,2) (6,2) A = (2,4) (4,4) (6,4) (2,6) (4,6) (6,6) (6,2) AE = (4,4) (6,4) AE= 6 elementos (2,6) (4,6) (6,6) p(AE) = AE/ E = 6/ 21 = 0.28571 c. c. E = evento de que la suma de los números que aparecen sea de por lo menos siete (6,1) (5,2) (6,2) E = (4,3) (5,3) (6,3) (3,4) (4,4) (5,4) (6,4) (2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6) A = evento de que en el primer dado aparezca el número dos (2,1) (2,2) A = (2,3) (2,4) (2,5) (2,6) AE = (2,5), AE= 1 elemento P(AE) = AE/E = 1/21 = 0.04762 2.Se seleccionan al azar dos números de entre los números del 1 al 9, si la suma de los números que aparecen es par, a. Determine la probabilidad de que ambos números sean pares, b. Determine la probabilidad de que ambos números sean impares. Solución: = 9C2 = 36 maneras de seleccionar dos números de entre nueve que se tienen (1,2) (1,3) (2,3) (1,4) (2,4) (3,4) = (1,5) (2,5) (3,5) (4,5) (1,6) (2,6) (3,6) (4,6) (5,6) (1,7) (2,7) (3,7) (4,7) (5,7) (6,7) (1,8) (2,8) (3,8) (4,8) (5,8) (6,8) (7,8) (1,9) (2,9) (3,9) (4,9) (5,9) (6,9) (7,9) (8,9) a. a. E = evento de que la suma de los números que se seleccionan sea par (1,3) (2,4) E = (1,5) (3,5) (2,6) (4,6) (1,3) (3,7) (5,7) (2,8) (4,8) (6,8) (1,9) (3,9) (5,9) (7,9) E = 16 elementos A = evento de que ambos números sean pares (2,4) A = (2,6) (4,6) (2,8) (4,8) (6,8) A = 6 elementos (2,4) AE = (2,6) (4,6) (2,8) (4,8) (6,8) AE = 6 elementos , p(AE) = AE/ E= 6/16 = 0.375 b. b. E = evento de que la suma de los números seleccionados es par (1,3) (2,4) E = (1,5) (3,5) (2,6) (4,6) (1,3) (3,7) (5,7) (2,8) (4,8) (6,8) (1,9) (3,9) (5,9) (7,9) A = evento de que ambos números sean impares (1,3) A = (1,5) (3,5) (1,7) (3,7) (5,7) (1,9) (3,9) (5,9) (7,9) A = 10 elementos, (1,3) AE = (1,5) (3,5) (1,7) (3,7) (5,7) (1,9) (3,9) (5,9) (7,9) AE= 10 elementos; p(AE)= AE/ E= 10/16 = 0.625 Este ejercicio también puede ser resuelto haciendo uso de las combinaciones; el espacio muestral puede ser definido; = 9C2 = 36 maneras de seleccionar los dos números a. a. E = evento de que la suma de los números seleccionados sea par Para que la suma de dos números sea par, forzosamente ambos deben ser pares o impares, por tanto, E = selección de dos números pares o de dos impares = 4C2 + 5C2 A = evento de que ambos números sean pares A = 4C2 AE = 4C2 = 6 maneras de seleccionar dos números pares AE= 6 elementos p(AE) = AE/E= 6/16 = 0.375 b. b. E = evento de que la suma de los números seleccionados sea par E = 4C2 + 5C2 = 16 maneras de seleccionar dos números de entre nueve A = evento de que ambos números sean impares A = 5C2 = 10 maneras de seleccionar dos números impares AE= 5C2 = 10 p(AE= AE/E= 10/16 = 0.625 3. Dada la siguiente tabla referente a la producción de flechas para camión de carga pesada; se inspeccionan 200 flechas del tipo A y B, 300 del tipo C y 400 del tipo D, a continuación se presentan los resultados obtenidos en la inspección; DEFECTO I II S - DEF TOTAL A 54 28 118 200 TIPO B 23 12 165 200 FLECHA C D 40 15 14 5 246 380 300 400 TOTAL 132 59 909 1100 a. a. Si se selecciona una flecha al azar y resulta que es una flecha del tipo B, ¿cuál es la probabilidad de que no tenga defectos, b. Si la flecha seleccionada es del tipo C, ¿cuál es la probabilidad de que tenga defectos del tipo II?, c. Si la flecha seleccionada tiene defectos del tipo I, ¿cuál es la probabilidad de que sea del tipo A, d. ¿cuál es la probabilidad de que una flecha no tenga defectos?, e. ¿cuál es la probabilidad de que una flecha tenga defectos? Solución: a. Definiremos los eventos; E = evento de que la flecha seleccionada sea del tipo B = 200 elementos o flechas A = evento de que la flecha seleccionada no tenga defectos = 909 flechas o elementos AE = 165 elementos del tipo B y que no tienen defectos p(AE) = AE/E= 165/200 = 0.825 b. b. E = evento de que la flecha sea del tipo C =300 flechas A = evento de que la flecha tenga defectos del tipo II =59 flechas AE = 14 flechas del tipo C y que tienen defectos del II p(AE) =AE/E= 14/300 = 0.04667 c. c. E = evento de que la flecha tenga defectos del tipo I = 132 flechas A = evento de que la flecha sea del tipo A = 200 flechas AE = 54 flechas con defectos del tipo I y del tipo A p(AE) = AE/E= 54 / 132 = 0.40901 d. En este caso se trata de una probabilidad simple, ya que no hay un evento que esté condicionando al evento del cual se desea determinar su probabilidad D = evento de que una flecha no tenga defectos = 909 flechas = 1100 flechas p(D) = 909/1100 = 0.82636 d. d. F = evento de que una flecha tenga defectos = 132 + 59 = 191 flechas = 1100 flechas p(F) = 191 / 1100 = 0.17364 4. Una pareja de recién casa dos ha decidido formar una familia de solo tres hijos, a. determine la probabilidad de que tenga puros hijos varones, b. ¿cuál es la probabilidad de que tenga como máximo un hijo varón, c. ¿cuál es la probabilidad de que su segundo hijo sea varón, d. Si esta familia tiene por lo menos una hija, ¿cuál es la probabilidad de que el segundo hijo sea varón?, e. Si esta familia tiene como máximo un hijo varón, ¿cuál es la probabilidad de que tenga puras hijas? Solución: Lo primero que hay que obtener para resolver este problema es el espacio muestral, para lo cual nos podemos ayudar con un diagrama de árbol en donde representemos uno tras otro el nacimiento de cada uno de sus hijos, en donde solo consideraremos partos de un solo bebé, no múltiples y se considera que existe la misma probabilidad de que nazca un varón o una niña. Y el espacio muestral obtenido es: H = niño M = niña = HHH, HHM, HMH, MHH, HMM, MHM, MMH, MMM a. a. A = evento de que la familia tenga puros hijos varones A = HHH p(A) = 1/8 = 0.125 b. b. B = evento de que la familia tenga como máximo un hijo varón B = ningún hijo varón o un hijo varón= MMM, HMM, MHM, MMH p(B) = 4/8 = 1/2 =0.5 c. c. C = evento de que el segundo hijo de la familia sea varón C = HHH, HHM, MHH, MHM P(C) = 4/8 =1/2 = 0.5 d. d. Como en este caso se trata de calcular una probabilidad de tipo condicional, se requiere definir dos eventos, el evento E que es el que condiciona y el evento A; E = evento de que la familia tenga por lo menos una hija E = tenga una o más hijas E = HHM, HMH, MHH, HMM, MHM, MMH, MMM= 7 elementos A = evento de que el segundo hijo sea varón A = HHH, HHM, MHH, MHM AE = HHM, MHH, MHM = 3 elementos Luego; p(AE) = AE/E= 3/7 = 0.42857 e. e. E = evento de que la familia tenga como máximo un hijo varón A = evento de que la familia tenga puras hijas E = MMM, MHM, MMH, HMM= 4 elementos A = MMM AE = MMM = 1 elemento P(AE) = AE/E= 1/4 = 0.25 5. Según las estadísticas, la probabilidad de que un auto que llega a cierta gasolinera cargue gasolina es de 0.79, mientras que la probabilidad de que ponga aceite al motor es de 0.11 y la probabilidad de que ponga gasolina y aceite al motor es de 0.06, a. Sí un auto carga gasolina, ¿cuál es la probabilidad de que ponga aceite?, b. Sí un auto pone aceite al motor, ¿cuál es la probabilidad de que ponga gasolina? Solución: a. a. E = evento de que un auto cargue gasolina b. b. p(E) = 0.79 A = evento de que un auto ponga aceite al motor P(A) = 0.11 AE = evento de que un auto ponga gasolina y aceite p(AE) = 0.07 p(AE) = p(AE)/p(E) = 0.07/ 0.79 = 0.0881 c. c. E = evento de que un auto ponga aceite al motor P(E) = 0.11 A = evento de que un auto ponga gasolina P(A) = 0.79 AE = evento de que un auto ponga aceite al motor y ponga gasolina P(AE) = 0.07 P(AE) = p(AE)/ p(E) = 0.07/0.11 = 0.63636 6.- La probabilidad de que un auto de carreras cargue gasolina en cierto circuito en la primera media hora de recorrido es de 0.58, la probabilidad de que cambie de neumáticos en esa primera media hora de recorrido es de 0.16, la probabilidad de que cargue gasolina y cambie de neumáticos en la primera media hora de recorrido es de 0.05, a. ¿Cuál es la probabilidad de que cargue gasolina o cambie de neumáticos en la primera media hora de recorrido?, b. ¿cuál es la probabilidad de que no cargue combustible y de neumáticos en la primera media hora de recorrido, c. Si el auto cambia de neumáticos en la primera media hora de recorrido, ¿cuál es la probabilidad de que cargue combustible también?, d. Si el auto carga combustible en la primera media hora de recorrido, ¿cuál es la probabilidad de que cambie de neumáticos también? Solución: a. a. A = evento de que cargue gasolina en la primera media hora de recorrido P(A) = 0.58 B = evento de que cambie de neumáticos en la primera hora de recorrido P(B) = 0.16 AB = evento de que cargue combustible y cambie de neumáticos en la primera hora de recorrido P(AB) = 0.05 P(cargue gasolina o cambie de neumáticos) = p(AB) = p(A) + p(B) – p(AB) = 0.58 + 0.16 – 0.05 = 0.69 b. b. p( no cargue combustible y no cambie de neumáticos) = 1 – p(AB) = 1 – 0.69 = 0.31 c. c. E = evento de que el auto cambie de neumáticos en la primera media hora de recorrido A = evento de que el auto cargue combustible en la primera media hora de recorrido p(AE) = p(AE)/ p(E) = 0.05/0.16 = 0.3125 d. d. E = evento de que el auto cargue combustible en la primera media hora de recorrido A = es el evento de que el auto cambie de neumáticos en la primera media hora de recorrido p(AE) = p(AE)/p(E) = 0.05/0.58 = 0.08621 FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html Probabilidades bajo condiciones de independencia estadística. Cuando se presentan dos eventos, el resultado del primero puede tener un efecto en el resultado del segundo, o puede no tenerlo. Esto es, los eventos pueden ser dependientes o independientes. Existen tres tipos de probabilidades que se presentan bajo independencia estadística: Marginal. Conjunta. Condicional. Probabilidades marginales bajo independencia estadística. Una probabilidad marginal o incondicional es la probabilidad simple de presentación de un evento. Probabilidades conjuntas bajo condiciones de independencia estadística. La probabilidad de dos o más eventos independientes que se presentan juntos o en sucesión es el producto de sus probabilidades marginales: P (AB) = P(A) X P(B) Un árbol de probabilidad muestra los resultados posibles y su respectiva probabilidad. Probabilidades condicionales bajo independencia estadística. Simbólicamente, la probabilidad condicional se escribe: P(B/A) Y se lee "la probabilidad de que se presente el evento B, dado que el evento A se ha presentado". La probabilidad condicional es la probabilidad de que un segundo evento (B) se presente, si un primer evento (A) ya ha sucedido. Para eventos estadísticamente independientes, la probabilidad condicional de que suceda el evento B dado que el evento A se ha presentado, es simplemente la probabilidad del evento B: P(B/A) = P(B) SUGERENCIA: Una buena verificación de los cálculos para obtener la probabilidad conjunta consiste en recordar que para cada intento, el total de probabilidades resultantes debe sumar 1. Probabilidades bajo condiciones de dependencia estadística. La dependencia estadística existe cuando la probabilidad de que se presente algún suceso depende o se ve afectada por la presentación de algún otro evento. Los tipos de probabilidad bajo condiciones de dependencia estadística son: Condicional. Conjunta. Marginal. Probabilidad condicional bajo dependencia estadística. P(B/A) = P(BA) / P(A) Probabilidades conjuntas bajo condiciones de dependencia estadística. P(BA) = P(B/A) x P(A) O P(BA) = P(A/B) x P(B) Probabilidades marginales bajo condiciones de dependencia estadística. Las probabilidades marginales bajo dependencia estadística se calculan mediante la suma de las probabilidades de todos los eventos conjuntos en los que se presenta el evento sencillo. FUENTE: http://server2.southlink.com.ar/vap/PROBABILIDAD.htm Probabilidad Condicional y Teorema de Bayes Util en diagnóstico, i.e., probabilidad de H dado E. Para cada , con , la probabilidad condicional de h dado e o (probabilidad a posteriori) es: En la práctica Defn: los eventos no se obtiene fácilmente, sin embargo son (mutuamente) independientes si: sí: Defn: los eventos son condicionalmente independientes dado un evento , si: Si h y e son independientes: . Eduardo Morales 1999-06-18 FUENTE: http://dns1.mor.itesm.mx/~emorales/Cursos/RdeC/node147.html FORMULAS DE PROBABILIDAD CONDICIONAL: FUENTE: http://www.elosiodelosantos.com/sergiman/div/forcond.html Probabilidad condicionada. En el cálculo de las probabilidades de algunos sucesos, el valor de dicha probabilidad vará en función del conocimiento de determinadas informaciones relativas a estos sucesos. Veamos un ejemplo. Si disponemos de una urna que contiene cuatro bolas numeradas del 1 al 4, extraemos una bola y seguidamente la volvemos a introducir para realizar una segunda extracción, la probabilidad de extraer, por ejemplo, la bola número 3 en la segunda extracción es la misma que en la primera. Si realizamos el mismo proceso sin reemplazar la bola extraída la probabilidad de extraer, por ejemplo, la bola número 3 en la segunda extracción dependerá de la bola extraída en primer lugar. Sean A y B dos sucesos tal que P( A ) 0, se llama probabilidad de B condicionada a A, P(B/A), a la probabilidad de B tomando como espacio muestral A, es decir, la probabilidad de que ocurra B dado que ha sucedido A. De esta igualdad se deduce: P( B A ) = P( B/A ) · P( A ) La fórmula anterior adopta la forma para tres sucesos, A, B y C: P( A B C ) = P( A ) · P( B/A ) · P( C/A B ) Esta fórmula admite una generalización para un número cualquiera de sucesos. Ejemplo: Consideremos el experimento de "lanzar un dado al aire". Calculemos, por ejemplo, la probabilidad de obtener un 3 sabiendo que ha salido un número impar: Definimos los sucesos A="sacar 3" y B= {1,3,5}; entonces, P(A/B)=1/3 puesto que si sabemos que ha salido un número impar, los casos posibles ahora son 3 y los casos favorables al suceso A sólo 1. Probabilidad condicionada. El conocimiento de que ha ocurrido el suceso A modifica, en algunas ocasiones, la probabilidad del suceso B, pero en otras no. Los sucesos en los que, conociendo que uno ha ocurrido, no se modifica la probabilidad del otro, decimos que son independientes y, si se modifica, decimos que son dependientes entre sí. Decimos que dos sucesos A y B son independientes entre sí si la ocurrencia de uno de ellos no modifica la probabilidad del otro, es decir, si P( B/A ) = P( B ) ó P( A/B ) = P( A ) Decimos que dos sucesos A y B son dependientes entre sí si la ocurrencia de uno de ellos modifica la probabilidad del otro, es decir, si P( B/A ) P( B ) ó P( A/B ) P( A ) Como consecuencia inmediata de la definición se tiene: Dos sucesos A y B son independientes si se cumple: P( A B ) = P( A ) · P( B ) Tres sucesos A, B y C son independientes si se cumplen a la vez: P( A P( A B ) = P( A ) · P( B ) P( A C ) = P( A ) · P( C ) P( B C ) = P( B ) · P( C ) B C ) = P( A ) · P( B ) · P( C ) FUENTE: http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/matematicas-28.html TEOREMA DE BAYES. TEOREMA DE BAYES Sea un espacio muestral que está formado por los eventos A1, A2, A3,.....,An mutuamente excluyentes, luego, = A1A2A3.....An A1 A3 B A2 A4 An Luego si ocurre un evento B definido en , observamos que; B = B (A1B)(A2B)(A3B).....(AnB) = (A1A2A3.....An)B = Donde cada uno de los eventos AiB son eventos mutuamente excluyentes, por lo que p(B) = p(A1B) + p(A2B) + p(A3B) +......+ p(AnB) y como la p(AiB) = p(Ai)p(BAi) , o sea que la probabilidad de que ocurra el evento Ai y el evento B es igual al teorema de la multiplicación para probabilidad condicional, luego; p(B) = p(A1)p(BA1) + p(A2)p(BA2) + p(A3)p(BA3) + p(An)p(BAn) Si deseamos calcular la probabilidad de que ocurra un evento A i dado que B ya ocurrió, entonces; P( Ai | B ) p( Ai B ) p( Ai ) p( BAi ) p( B ) p( A1 ) p( BA1 ) p( A2 ) p( BA2 ) .... p( An ) p( BAn ) La expresión anterior es el teorema de Bayes, que como se observa es una simple probabilidad condicional. Ejemplos: 1. 1. Tres máquinas denominadas A, B y C, producen un 43%, 26% y 31% de la producción total de una empresa respectivamente, se ha detectado que un 8%, 2% y 1.6% del producto manufacturado por estas máquinas es defectuoso, a. Se selecciona un producto al azar y se encuentra que es defectuoso, ¿cuál es la probabilidad de que el producto haya sido fabricado en la máquina B?, b. Si el producto seleccionado resulta que no es defectuoso, ¿cuál es la probabilidad de que haya sido fabricado en la máquina C? Solución: Para resolver este problema nos ayudaremos con un diagrama de árbol; 8% D 43% A 92% ND 26% B 2% D 98% ND 31% C 1.6% D 98.4% ND a. a. Definiremos los eventos; D = evento de que el producto seleccionado sea defectuoso (evento que condiciona) A = evento de que el producto sea fabricado en la máquina A B = evento de que el producto sea fabricado por la máquina B C = evento de que el producto sea fabricado por la máquina C P(BD) = p(BD)/p(D) = p(B)p(DB)/p(A)p(DA) + p(B)p(DB) + p(C)p(DC) P(BD) = (0.26*0.02)/(0.43*0.08 + 0.26*0.02 + 0.31*0.016) = 0.0052/0.04456 =0.116697 b. b. ND = evento de que el producto seleccionado no sea defectuoso (evento que condiciona) A = evento de que el producto sea fabricado en la máquina A B = evento de que el producto sea fabricado por la máquina B C = evento de que el producto sea fabricado por la máquina C P(CND)=p(CND)/p(ND)=p(C)p(NDC)/p(A)p(NDA) p(B)p(NDB) + p(C)p(NDC) + = 0.31*0.984/(0.43*0.92 + 0.26*0.98 + 0.31*0.984) = 0.30504/0.95544 =0.31927 2. 2. Una empresa recibe visitantes en sus instalaciones y los hospeda en cualquiera de tres hoteles de la ciudad; Palacio del Sol, Sicomoros o Fiesta Inn, en una proporción de 18.5%, 32% y 49.5% respectivamente, de los cuales se ha tenido información de que se les ha dado un mal servicio en un 2.8%, 1% y 4% respectivamente, a. Si se selecciona a un visitante al azar ¿cuál es la probabilidad de que no se le haya dado un mal servicio?,b. Si se selecciona a un visitante al azar y se encuentra que el no se quejó del servicio prestado, ¿cuál es la probabilidad de que se haya hospedado en el Palacio del Sol?, c. Si el visitante seleccionado se quejó del servicio prestado, ¿cuál es la probabilidad de que se haya hospedado en e hotel Fiesta Inn? 3. 3. Solución: Haciendo uso de un diagrama de árbol; 2.8% Q 18.5% PS 97.2% NQ 1.0% Q 32% S 99.0% NQ 4.0% Q 49.5% FI 96.0% a. a. NQ NQ = evento de que un visitante no se queje del servicio PS = evento de que un visitante haya sido hospedado en el hotel Palacio del Sol S = evento de que un visitante haya sido hospedado en el hotel Sicómoro FI = evento de que un visitante haya sido hospedado en el hotel Fiesta Inn P(NQ) = p(PS)p(NQPS) + p(S)p(NQS) + p(FI)p(NQFI) = = 0.185*0.972 + 0.32*0.99 + 0.495*0.96 = 0.17982 + 0.3168 + 0.4752 = 0.97182 b. b. NQ = evento de que un visitante no se queje del servicio PS = evento de que un visitante haya sido hospedado en el hotel Palacio del Sol S = evento de que un visitante haya sido hospedado en el hotel Sicomoro FI = evento de que un visitante haya sido hospedado en el hotel Fiesta Inn P(PSNQ)=p(PSNQ)/p(NQ) =(0.185*0.972)/(0.185*0.972+0.32*0.99+0.495*0.96)= = 0.17982/(0.17982 + 0.3168 + 0.4752) = 0.17982/0.97182 = 0.1850342 c. c. Q = evento de que un visitante se queje del servicio FI = evento de que un visitante haya sido hospedado en el hotel Fiesta Inn P(FIQ) = p(FIQ)/p(Q) = 0.495*0.04/(0.185*0.028 + 0.32*0.01 + 0.495*0.04) =0.0198/( 0.00518 + 0.0032 + 0.0198) = 0.0198/0.02818 = 0.7026 FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html Teorema de Bayes. En el año 1763, dos años después de la muerte de Thomas Bayes (1702-1761), se publicó una memoria en la que aparece, por vez primera, la determinación de la probabilidad de las causas a partir de los efectos que han podido ser observados. El cálculo de dichas probabilidades recibe el nombre de teorema de Bayes. Teorema de Bayes Sea A1, A2, ...,An un sistema completo de sucesos, tales que la probabilidad de cada uno de ellos es distinta de cero, y sea B un suceso cualquier del que se conocen las probabilidades condicionales P(B/Ai). entonces la probabilidad P(Ai/B) viene dada por la expresión: En los problemas relacionados con la probabilidad, y en particular con la probabilidad condicionada, así como con la probabilidad total y el teorema de Bayes, es aconsejable que, con la información del problema, construyas una tabla de contingencia o un diagrama de árbol. Ejercicio 8-1: Tres máquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total de las piezas producidas en una fábrica. Los porcentajes de producción defectuosa de estas máquinas son del 3%, 4% y 5%. a. Seleccionamos una pieza al azar; calcula la probabilidad de que sea defectuosa. b. Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la probabilidad de haber sido producida por la máquina B. c. ¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza defectuosa? Solución: Sea D= "la pieza es defectuosa" y N= "la pieza no es defectuosa". La información del problema puede expresarse en el diagrama de árbol adjunto. a. Para calcular la probabilidad de que la pieza elegida sea defectuosa, P(D), por la propiedad de la probabilidad total, P(D) = P(A) · P(D/A) + P(B) · P(D/B) + P(C) · P(D/C) = = 0.45 · 0.03 + 0.30 · 0.04 + 0.25 · 0.05 = 0.038 b. Debemos calcular P(B/D). Por el teorema de Bayes, c. Calculamos P(A/D) y P(C/D), comparándolas con el valor de P(B/D) ya calculado. Aplicando el teorema de Bayes, obtenemos: La máquina con mayor probabilidad de haber producido la pieza defectuosa es A Ejercicio 8-2: Tenemos tres urnas: A con 3 bolas rojas y 5 negras, B con 2 bolas rojas y 1 negra y C con 2 bolas rojas y 3 negras. Escogemos una urna al azar y extraemos una bola. Si la bola ha sido roja, ¿cuál es la probabilidad de haber sido extraída de la urna A? Solución: Llamamos R= "sacar bola roja" y N= "sacar bola negra". En el diagrama de árbol adjunto pueden verse las distintas probabilidades de ocurrencia de los sucesos R o N para cada una de las tres urnas. La probabilidad pedida es P(A/R). Utilizando el teorema de Bayes, tenemos: FUENTE: http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/8.html Teorema de Bayes Si los sucesos Ai son una partición y B un suceso tal que p(B) 0 Demostración Aplicaciones Diagnóstico médico (en general clasificaciones no biunívocas): El diagnóstico consiste en establecer la enfermedad de un paciente, a partir de una serie de síntomas. Pero los síntomas y las enfermedades no están ligados de un modo biunívoco. Llamemos Ei al conjunto de enfermedades E1: tuberculosis pulmonar; E2 :cáncer de pulmón; E3: bronquitis obstructiva; etc. y Si a los síntomas y síndromes asociados con las mismas. S1: tos; S2: estado febril; S3: hemotisis; etc. La información accesible en los libros de patología, o en un archivo de historias clínicas es del tipo. Para E1: algunos (digamos el 20%) tienen hemotisis; muchos (80%) tienen tos; etc. y lo mismo para las demás enfermedades. En términos de probabilidad condicionada, esta información es p(S3|E1) = 0,2; p(S1|E1) = 0,8 etc. para diagnosticar la tuberculosis se ha de evaluar, para los síntomas que presenta el paciente p(E1|Si) para lo que se puede usar el teorema de Bayes si las enfermedades forman una partición (son mutuamente excluyentes y se consideran todas las enfermedades compatibles con el síntoma) y se conocen sus prevalencias. Nótese que un mismo conjunto de síntomas podría dar lugar a un diagnóstico diferente en poblaciones en las que las prevalencias fueran diferentes. Pruebas diagnósticas: Supóngase una prueba diagnóstica, por ejemplo nivel de glucosa en sangre, en ayunas, para diagnosticar la diabetes. Se considera que la prueba es positiva si se encuentra un nivel por encima de un cierto valor, digamos 120 mg/l. Para evaluar la prueba, (habrá que hacerlo para distintos valores de corte) se somete a la misma a una serie de individuos diabéticos diagnosticados por otro procedimiento (el patrón de oro o "gold standar") y a una serie de individuos no diabéticos. Los resultados se pueden representar en una tabla de doble entrada Patrón de oro Prueba NE E - a b r + c d s t u Si la prueba fuera perfecta b=c=0, desgraciadamente nunca ocurre. Se denomina coeficiente falso-positivo (CFP) al cociente c/t, y es una estimación de la probabilidad condicionada p(+|NE), se denomina coeficiente falso-negativo (CFN) al cociente b/u, y es una estimación de la probabilidad condicionada p(-|E). Estos dos coeficientes cuantifican los dos errores que la prueba puede cometer y caracterizan a la misma. Simétricamente, los coeficientes que cuantifican los aciertos son la sensibilidad, p(+|E), y la especificidad p(-|NE). Cuando la prueba se usa con fines diagnósticos (o de "screening") interesa calcular p(E|+) y/o p(NE|-). Como E y NE son una partición, usando el Teorema de Bayes y Nótese que ambas dependen de la prevalencia de la enfermedad: una prueba diagnóstica que funciona muy bien en la clínica Mayo, puede ser inútil en el Hospital Ramón y Cajal. Ejemplo 9: una prueba diagnóstica para la diabetes tiene un CFP de 4% y un CFN del 5%. Si la prevalencia de la diabetes en la población donde se usa es del 7% ¿cuál es la probabilidad de que sea diabético un individuo en el que la prueba dé positiva? y ¿de que no lo sea uno en el que dé negativo? p(+|NE) = 0,04 p(-|NE) = 0,96 p(-|E) = 0,05 p(+|E) = 0,95 p(E) = 0,07 p(NE) = 0,93 y Pruebas en serie: Cuando se aplican pruebas en serie, para cada prueba p(E) y p(NE), serán la p(E|+) y p(NE|+) de la prueba anterior (si dio positiva) o p(E|-) y p(NE|-) si dio negativa. FUENTE: http://www.hrc.es/bioest/Probabilidad_18.html UNIDAD 3: MODELOS ANALITICOS DE FENOMENOS ALEATORIOS DISCRETOS. DEFINICION DE VARIABLE ALEATORIA DISCRETA. VARIABLE ALEATORIA DISCONTINUA O DISCRETA. Se dice que una Variable aleatoria Discreta o Discontinua X, tiene un conjunto definido de valores posibles x1,x2,x3,…..xn con probabilidades respectivas p1,p2,p3,…..pn., Es decir que sólo puede tomar ciertos valores dentro de un campo de variación dado. Como X ha de tomar uno de los valores de este conjunto, entonces p1 + p2 +…+ pn=1. En general, una variable aleatoria discreta X representa los resultados de un espacio muestral en forma tal que por P(X = x)se entenderá la probabilidad de que X tome el valor de x. De esta forma, al considerar los valores de una variable aleatoria es posible desarrollar una función matemática que asigne una probabilidad a cada realización x de la variable aleatoria X. Esta función recibe el nombre de función de la probabilidad. Ejemplo.- Sea el experimento aleatorio consistente en lanzar una moneda al aire. Los sucesos elementales del experimento, <<que salga cara>>, <<que salga cruz>>, no vienen representados por los números, por lo que casa suceso elemental se le hace corresponder un número real. Así al suceso elemental <<que salga cara>> se le hace corresponder el número “1” y al suceso elemental <<que salga cruz>> se le hace corresponder el número “2”. La variable aleatoria será: X = (1,2). Se trata de una variable aleatoria discontinua o discreta, ya que únicamente puede adoptar los valores 1 y 2. FUENTE: http://html.rincondelvago.com/variables-aleatorias.html VARIABLE ALEATORIA DISCRETA. DISTRIBUCIÓN BINOMIAL. Concepto de variable aleatoria. Se llama variable aleatoria a toda aplicación que asocia a cada elemento del espacio muestral de un experimento, un número real. Ejemplo: Sea el experimento que consiste en lanzar tres monedas al aire. El espacio muestral será: E ccc, ccx, cxc, xcc, cxx, xcx, xxc, xxx Si a cada elemento de E le hacemos corresponder, por ejemplo, el número de caras, hemos definido una variable aleatoria. ccc 3; xcc 2; xxc 1; ccx 2 cxx 1; xxx 0; cxc 2; xcx 1 Se utilizan letras mayúsculas para designar las v.a. y sus respectivas letras minúsculas para los valores concretos de las mismas. Variable aleatoria discreta. Es la que solo puede tomar determinados valores. La variable aleatoria número de caras en el lanzamiento de tres monedas sólo puede tomar los valores 0, 1, 2 y 3. (Es discreta). La variable aleatoria suma de las caras superiores en el lanzamiento de dos dados puede tomar solamente los valores 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 y 12. (Es también discreta) Función de probabilidad de una v.a. discreta. Es la aplicación que asocia a cada valor x de la v.a. X su probabilidad p. Los valores que toma una v.a. discreta X y sus correspondientes probabilidades suelen disponerse en una tabla con dos filas o dos columnas llamada tabla de distribución de probabilidad: X P( X x i ) x1 x2 x3 xn p1 p2 p3 pn En toda función de probabilidad se verifica que p1 p2 p3 pn 1 Ejemplo: La v.a. “número de caras en el lanzamiento de tres monedas” tiene la siguiente función de probabilidad: Nº de caras f(x)= P( X xi ) 0 1 1 3 8 8 2 3 8 3 1 8 Función de distribución de una v.a. discreta. Sea X una v.a. cuyos valores suponemos ordenados de menor a mayor. Se llama función de distribución de la variable X a la función que asocia a cada valor de la v.a. la probabilidad acumulada hasta ese valor, es decir, F ( x) p( X x) Media, varianza y desviación típica de una variable aleatoria discreta. Se llama de una v.a. discreta X, que toma los valores x1 , x2 , x3 ........x n con probabilidades p1 , p2 , p3 ............ pn al valor de la siguiente expresión: xi . pi La varianza viene dada por la siguiente fórmula: 2 xi2 . pi 2 , bien 2 ( xi ) 2 . pi La desviación típica es la raiz cuadrada de la varianza. Ejercicio. La distribución de probabilidad de una v.a. X viene dada por la siguiente tabla: xi pi 1 0,1 2 0,3 3 4 0,2 5 0,3 ¿Cuánto vale p(X=3) Calcula la media y la varianza. Solución: La suma de todas las probabilidades es 1, por tanto, 0,1 0,3 p( X 3) 0,2 0,3 1 luego p(X=3)=0,1 Formamos la siguiente tabla: xi 1 2 3 4 5 pi 0,1 0,3 0,1 0,2 0,3 xi . p i 0,1 0,6 0,3 0,8 1,5 xi2 . p i 0,1 1,2 0,9 3,2 7,5 xi . pi 0,1 0,6 0,3 0,8 1,5 3,3 2 xi2 . pi 2 12,9 (3,3) 2 2,01 Experimento de Bernoulli Es un experimento que tiene las siguientes características: 1. En cada prueba del experimento sólo son posibles dos resultados: el suceso ha llamado A llamado éxito y el suceso A llamado fracaso. 2. El resultado obtenido en cada prueba es independiente de los resultados anteriores. 3. La probabilidad del suceso A es constante y no varía de unas pruebas a otras. La distribución de probabilidad de este experimento recibe el nombre de distribución binomial de parámetros n y p n es el número de pruebas del experimento y p es la probabilidad del éxito. Si representamos por X la variable aleatoria binomial que representa el número de éxitos obtenidos en las n del experimento, podemos escribir: n p(obtener r éxitos )=p(X=r)= p r .(1 p) n r r Esta expresión recibe el nombre de función de probabilidad de una distribución binomial o de Bernoulli. Dado que en este tipo de experiencias los cálculos pueden ser laboriosos, se han construido unas tablas que nos proporcionan la probabilidad de que la variable X tome distintos valores, según los distintos valores de n y r. Media y varianza de una distribución binomial. Media: n. p Varianza: 2 n. p.q; q 1 p Desviación típica: n. p.q Ejercicios resueltos. 1.- Calcula la probabilidad de que una familia que tiene 4 hijos, 3 de ellos sean varones. Solución: Se trata de un experimento de Bernoulli donde n=4 y p=1/2 4 1 p(obtener 3 varones)=P(X=3)= .0.5 3.0,51 4 3 Recuerda: 4 es un número combinatorio cuyo valor se obtiene así: 3 4 4.3.2 3 3.2.1 m m.(m 1).(m 2)......hasta tener n factoresen el numerador m! En general n.(n - 1).(n - 2).....3.2.1 n!.(m n)! n 2.- Se tiene una moneda trucada de modo que la probabilidad de sacar cara es cuatro veces la de sacar cruz. Se lanza 6 veces la moneda. Calcula las siguientes probabilidades: Obtener dos veces cruz. Obtener a lo sumo dos veces cruz. Solución: Calculamos en primer lugar la probabilidad de cara y de cruz: p(cara)+p(cruz)=1. Si llamamos x a la probabilidad de sacar cruz, podemos escribir: 4x+x=1; 5x=1; x=0,2 Así resulta: p(cruz)=0,2 y p(cara)=0,8 Es una distribución binomial de parámetros n=6 y p=0,2 Probabilidad de obtener dos veces cruz: 6 p( X 2) .(0,2) 2 .(0,8) 4 15.(0,04).(0,4096) 0,24 2 Probabilidad de obtener a lo sumo dos veces cruz: p( X 2) p( X 0) p( X 1) p( X 2) 6 6 6 = .(0,2) 0 .(0,8) 6 .(0,2)1 .(0,8) 5 .(0.2) 2 .(0.8) 4 0,90 0 1 2 3.- La probabilidad de que un alumno de 1º de Bachillerato repita curso es de 0,3. Elegimos 20 alumnos al azar. ¿Cuál es la probabilidad de que haya exactamente 4 alumnos repetidores? Solución: Se trata de una binomial de parámetros 20 y 0,3, es decir, B(20; 0,3) Si X es el número de alumnos que repiten, 20 20! p( X 4) .0,3 4.0,716 .0,3 4.0,716 0,13 4!.16! 4 4.- Calcula la esperanza matemática, la varianza y la desviación típica de la variable aleatoria X, cuya función de probabilidad viene dada por la siguiente tabla: xi p( X x i ) -4 0,1 -1 0,5 2 0,3 5 0,1 Solución: La esperanza matemática es la media: (4).0,1 (1).0,5 2.0,3 5.0,1 0,2 2 xi2 . pi 2 (4) 2 .0,1 (1) 2 .0,5 2 2.0,3 52.0,1 0,2 2 5,76 5,76 2,4 5.- Sea la siguiente función de probabilidad: xi pi 1 0,2 3 0,2 5 0,4 7 0,1 9 0,1 Escribe la función de distribución y calcula: p( X 5) y p(3 X 7) Solución: xi F(x)=P(X ≤ xi) 1 0,2 3 0,4 5 0,8 7 0,9 9 1 FUENTE: http://www.mundofree.com/fsanchezf/prob_est.htm FUNCION DE PROBABILIDAD Y DE DISTRIBUCION, VALOR ESPERADO, VARIANZA Y DESVIACION ESTANDAR. Función de Probabilidad f(x) Consideremos una v.a. discreta X, que toma los valores x1, x2, ..., xn. Supongamos que conocemos la probabilidad de que la variable X tome dichos valores, es decir, se conoce que p(X=x1) = p1 , p(X=x2) = p2, p(X=x3) = p3, ..., p(X=x1) = pn , en general p(X=xi) = pi La función de probabilidad f(x) de la v.a. X es la función que asigna a cada valor xi de la variable su correspondiente probabilidad pi. La representación gráfica más usual de la función de probabilidad es un diagrama de barras no acumulativo. Función de Distribución F(x) En muchas ocasiones no nos interesa tanto conocer la probabilidad de que la v.a. X tome exactamente un determinado valor xi, cuanto la probabilidad de que tome valores menores o iguales que un cierto valor xi. En tales casos es necesario acumular los distintos valores de la función de probabilidad hasta el valor deseado. Se trata de una nueva aplicación llamada función de distribución. Sea X una variable aleatoria discreta, cuyos valores se suponen ordenados de menor a mayor. Se llama función de distribución de la variable X, y se simboliza por F(x), a la función es decir, asocia a cada valor de la v.a. discreta la probabilidad acumulada hasta ese valor (la probabilidad de que la v.a. tome valores menores o iguales a xi). Podemos expresar la función de distribución de la siguiente forma: Su representación gráfica tiene forma escalonada, siendo los saltos coincidentes con las probabilidades pi correspondientes a los valores xi de la variable X. Parámetros de una Variable Aleatoria Discreta Tanto la varianza como la desviación típica son medidas de dispersión, de tal manera que cuanto menores son estos dos parámetros más agrupados se encuentran los valores de la distribución entorno a los valores centrales. Por contra, para valores grandes de la varianza o la desviación típica los datos de la distribución se encuentran muy dispersos. FUENTE: http://personal5.iddeo.es/ztt/Tem/t18_variable_aleatoria_discreta.htm Supongamos que un experimento aleatorio tiene las siguientes características: En cada prueba del experimento sólo son posibles dos resultados: el suceso A (éxito) y su contrario(fracaso). El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente. La probabilidad del suceso A es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad de es 1- p y la representamos por q . El experimento consta de un número n de pruebas. Todo experimento que tenga estas características diremos que sigue el modelo de la distribución Binomial. A la variable X que expresa el número de éxitos obtenidos en cada prueba del experimento, la llamaremos variable aleatoria binomial. La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas. Como hay que considerar todas las maneras posibles de obtener k-éxitos y (n-k) fracasos debemos calcular éstas por combinaciones (número combinatorio n sobre k). La distribución Binomial se suele representar por B(n,p) siendo n y p los parámetros de dicha distribución. Función de Probabilidad de la v.a. Binomial Función de probabilidad de la distribución Binomial o también denominada función de la distribución de Bernoulli (para n=1). Verificándose: 0 p 1 Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido tablas para algunos valores de n y p que nos facilitan el trabajo. Ver Tabla de la Función de Probabilidad de la Binomial Parámetros de la Distribución Binomial Función de Distribución de la v.a. Binomial siendo k el mayor número entero menor o igual a xi. Esta función de distribución proporciona, para cada número real xi, la probabilidad de que la variable X tome valores menores o iguales que xi. El cálculo de las F(x) = p( X x) puede resultar laborioso, por ello se han construido tablas para algunos valores de n y p que nos facilitan el trabajo. Sea X una variable aleatoria discreta correspondiente a una distribución binomial. Ejemplo 1 Una máquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas defectuosas. Hallar la probabilidad de que al examinar 50 piezas sólo haya una defectuosa. Solución : Se trata de una distribución binomial de parámetros B(50, 0'007) y debemos calcular la probabilidad p(X=1). Ejemplo 2 La probabilidad de éxito de una determinada vacuna es 0,72. Calcula la probabilidad de a que una vez administrada a 15 pacientes: a) Ninguno sufra la enfermedad b) Todos sufran la enfermedad c) Dos de ellos contraigan la enfermedad Solución : Se trata de una distribución binomial de parámetros B(15, 0'72) Ejemplo 3 La probabilidad de que el carburador de un coche salga de fábrica defectuoso es del 4 por 100. Hallar : a) El número de carburadores defectuosos esperados en un lote de 1000 b) La varianza y la desviación típica. Solución : FUENTE: http://personal5.iddeo.es/ztt/Tem/t19_distribucion_binomial.htm DISTRIBUCION BINOMIAL. DISTRIBUCIÓN BINOMIAL Las características de esta distribución son: a) a) En los experimentos que tienen este tipo de distribución, siempre se esperan dos tipos de resultados, ejem. Defectuoso, no defectuoso, pasa, no pasa, etc, etc., denominados arbitrariamente “éxito” (que es lo que se espera que ocurra) o “fracaso” (lo contrario del éxito). b) b) Las probabilidades asociadas a cada uno de estos resultados son constantes, es decir no cambian. c) c) Cada uno de los ensayos o repeticiones del experimento son independientes entre sí. d) d) El número de ensayos o repeticiones del experimento (n) es constante. A partir de un ejemplo. Desarrollaremos una fórmula que nos permita cualquier problema que tenga este tipo de distribución. Ejemplo: Se lanza al aire una moneda normal 3 veces, determine la probabilidad de que aparezcan 2 águilas. Solución: Antes de empezar a resolver este problema, lo primero que hay que hacer es identificarlo como un problema que tiene una distribución binomial, y podemos decir que efectivamente así es, ya que se trata de un experimento en donde solo se pueden esperar dos tipos de resultados al lanzar la moneda, águila o sello, cutas probabilidades de ocurrencia son constantes, cada uno de los lanzamientos es independiente de los demás y el número de ensayos o repeticiones del experimento son constantes, n = 3. Para dar solución a este problema, lo primero que hay que hacer es un diagrama de árbol, en donde representaremos los tres lanzamientos, de ahí se obtendrá el espacio muestral y posteriormente la probabilidad pedida, usando la fórmula correspondiente. A = águila, S = sello 1/2 1/2 A A 1/2 S 1/2 A 1/2 S A 1/2 S 1/2 A 1/2 S A 1/2 1/2 S 1/2 A 1/2 S 1/2 S =AAA, AAS, ASA, ASS, SAA, SAS, SSA, SSS Para obtener la fórmula, definiremos lo siguiente: n = número de lanzamientos de moneda x = número de “éxitos” requeridos = número de águilas = 2 p = probabilidad de “éxito”= p(aparezca águila) =1/2 q = probabilidad de “fracaso”= p(aparezca sello) =1/2 Entonces podemos partir de la siguiente expresión para desarrollar la fórmula; P(aparezcan 2 águilas)=(No. De ramas del árbol en donde ap. 2 águilas)(probabilidad asociada a cada rama) Entonces el número de ramas en donde aparecen dos águilas se puede obtener; Enumerando las ramas de interés, estas serían: AAS, ASA, SAA, ¿QUÉ TIPO DE ARREGLOS SON ESTOS ELEMENTOS DEL ESPACIO MUESTRAL?, Son permutaciones en donde algunos objetos son iguales, entonces, el número de ramas se puede obtener con la fórmula correspondiente, nPx1,x 2 ,...xk n! x1 ! x2 !...xk ! donde n = x1+x2+...+xk sustituyendo en esta fórmula, tenemos lo siguiente; nPx ,n x n! x! ( n x )! esta fórmula puede ser sustituida por la de combinaciones, solo en el caso de dos tipos de objetos, si hay más de dos tipos de objetos, definitivamente solo se usa la fórmula original, como se observará en el caso de la distribución multinomial, pero ¿porqué vamos a cambiar de fórmula?, simplemente porque en todos los libros de texto que te encuentres vas a encontrar la fórmula de combinaciones en lugar de la de permutaciones, que es la siguiente, nCx n! x! ( n x )! y sustituyendo valores, nos damos cuenta de que efectivamente son 3 las ramas de interés, que son donde aparecen dos águilas, donde n = 3, x = 2. 3 C2 3! 3! 3x 2! 3ram as 2! ( 3 2 )! 2! !1! 2!1! ¿Y la probabilidad asociada a cada rama? Probabilidad asociada a cada rama = p(águila)*p(águila)*p(sello)= p*p*q = p2q= x n x =p q Luego la fórmula de la distribución Binomial sería: p( n, x, p )n Cnx p x q nx donde: p(x, n, p) = probabilidad de obtener en n ensayos x éxitos, cuando la probabilidad de éxito es p Dando solución al problema de ejemplo tenemos lo siguiente: n = 3, x = 2, p = ½ p( n 3, x 2, p 1 / 2 ) 3 C 2 ( 1 / 2 )2 ( 1 / 2 )32 3! 1 1 1 3 * * 3* 2!1! 4 2 8 8 Para calcular la media y la desviación estándar de un experimento que tenga una distribución Binomial usaremos las siguientes fórmulas: Media o valor esperado. nP Donde: n = número de ensayos o repeticiones del experimento P = probabilidad de éxito o la probabilidad referente al evento del cual se desea calcular la media que se refiere la media Q = complemento de P Desviación estándar. nPQ Ejemplos: 1. Se dice que el 75% de los accidentes de una planta se atribuyen a errores humanos. Si en un período de tiempo dado, se suscitan 5 accidentes, determine la probabilidad de que; a) dos de los accidentes se atribuyan a errores humanos, b) como máximo 1 de los accidentes se atribuya a errores de tipo humano, c) tres de los accidentes no se atribuyan a errores humanos. Solución: a) n = 5 x = variable que nos define el número de accidentes debidos a errores humanos x = 0, 1, 2,...,5 accidentes debidos a errores de tipo humano p = p(éxito) = p(un accidente se deba a errores humanos) = 0.75 q = p(fracaso) = p(un accidente no se deba a errores humanos) = 1-p = 0.25 p( x 2,n 5, p 0.75)5 C2( 0.75)2( 0.25)52 (10 )( 0.5625)( 0.015625) 0.08789 b) p( x 0,1,n 5, p 0.75) p( x 0 ) p( x 1 )5 C0( 0.75)0( 0.25)50 5 C1( 0.75)1( 0.25)51 0.000976 0.014648 0.015624 c) En este caso cambiaremos el valor de p; n =5 x = variable que nos define el número de accidentes que no se deben a errores de tipo humano x = 0, 1, 2,...,5 accidentes debidos a errores humanos p = p(probabilidad de que un accidente no se deba a errores humanos) = 0.25 q = p(probabilidad de que un accidente se deba a errores humanos) = 1-p = 0.75 p( x 3,n 5, p 0.25)5 C3( 0.25)3( 0.75)53 (10 )( 0.015625)( 0.5625) 0.08789 2. Si la probabilidad de que el vapor se condense en un tubo de aluminio de cubierta delgada a 10 atm de presión es de 0.40, si se prueban 12 tubos de ese tipo y bajo esas condiciones, determine la probabilidad de que: a) el vapor se condense en 4 de los tubos, b) en más de 2 tubos se condense el vapor, c) el vapor se condense en exactamente 5 tubos. Solución: a) n =12 x = variable que nos define el número de tubos en que el vapor se condensa x = 0, 1, 2, 3,...,12 tubos en el que el vapor se condensa p =p(se condense el vapor en un tubo de Al a 10 atm)= 0.40 q = p(no se condense el vapor en un tubo de Al a 10 atm) = 1-p=0.60 p( x 4,n 12, p 0.40 )12 C4 ( 0.40 )4 ( 0.60 )12 4 ( 495)( 0.0256)( 0.016796) = 0.21284 b) p(X=3, 4, ...,12, n=12, p=0.40) = p(x=3)+p(x=4)+…+p(x=12)= 1-p(x=0,1,2)= 1 12 C0 ( 0.40 )0 ( 0.60 )12 0 12 C1( 0.40 )1( 0.60 )12 1 12 C2 ( 0.40 )2 ( 0.60 )122 1 0.002176 ( 12 )( 0.4 )( 0.003627) ( 66 )( 0.16 )( 0.006047) = 1-0.002176+0.0174096+0.06385632= 1- 0.08344192= 0.91656 c) p( x 5,n 12, p 0.40 )12 C5( 0.40 )5( 0.6 )125 ( 792)( 0.01024)( 0.0279936) = 0.22703 3. La probabilidad de que el nivel de ruido de un amplificador de banda ancha exceda de 2 dB (decibeles) es de 0.15, si se prueban 10 amplificadores de banda ancha, determine la probabilidad de que; a) en solo 5 de los amplificadores el nivel de ruido exceda los 2 dB, b) por lo menos en 2 de los amplificadores, el ruido exceda de 2 dB, c)que entre 4 y 6 amplificadores no se excedan de los 2 dB, d)encuentre el número esperado de amplificadores que se exceden de un nivel de ruido de 2dB y su desviación estándar. Solución: a)n =10 x =variable que nos define el número de amplificadores de banda ancha que su nivel de ruido excede de 2 dB x = 0, 1, 2,...,10 amplificadores en los que el nivel de ruido excede de los 2 dB p = P(un amplificador exceda su nivel de ruido de 2 dB) = 0.15 q = p(un amplificador no exceda su nivel de ruido de 2 dB =1-p= 0.85 p( x 5,n 10, p 0.15)10 C5( 0.15)5( 0.85)105 ( 252)( 0.00007593)( 0.4437053) = 0.00849 b)p(x=2,3,...,10, n=10, p=0.15)= 1- p(x = 0,1) = 1 10 C0 ( 0.15 )0 ( 0.85 )100 10 C1 ( 0.15 )1 ( 0.85 )101 = 1 – (0.19687+(10)(0.15)(0.231617)=1-0.544296 = 0.455705 c) n=10 x= variable que nos define el número de amplificadores de banda ancha que su nivel de ruido no excede de 2 dB x= 0, 1, 2,...,10 amplificadores que su nivel de ruido no excede de los 2 dB p = p(un amplificador no exceda su nivel de ruido de 2 dB) = 0.85 q = p(un amplificador exceda su nivel de ruido de 2 dB) = 1- p = 0.15 p( x 4,5,6,n 10, p 0.085)10 C4( 0.85)4( 0.15)104 10 C5( 0.85)5( 0.15 )105 10 C6( 0.85)6( 0.15)106 =(210)(0.522)(0.00001139)+(252)(0.4437)(0.000075937)+(210)(0.3771495)(0.00005063)= =0.001249 + 0.00849 + 0.00400997 = 0.01374897 d)n=10, p=0.15, q=1-p=0.85 np ( 10 )( 0.15 ) 1.5 2amplificadores Interpretación: Se espera que 2 de los 10 amplificadores probados se excedan de un nivel de ruido de 2 Db npq (10 )( 0.15)( 0.85) 1.1291 1amplificador Interpretación: Este experimento puede variar en 2 1 amplificador, esto es, de 1 a 3 amplificadores que se excedan de un nivel de ruido de 2 dB FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html DISTRIBUCIONES BIDIMENSIONALES RESULTAN DE ESTUDIAR FENÓMENOS EN LOS QUE PARA CADA OBSERVACIÓN SE OBTIENE UN PAR DE MEDIDAS Y, EN CONSECUENCIA, DOS VARIABLES. Ejemplos. Talla y peso de los soldados de un regimiento. Calificaciones en Física y Matemáticas de los alumnos de una clase. Gastos de publicidad y ventas de una fábrica. Etc. Estas variables resultantes de la observación de un fenómeno respecto de dos modalidades se llaman variables estadísticas bidimensionales. Los valores de una variable estadística bidimensional son pares de números reales de la forma (xi, yi). Representados en un sistema de ejes cartesianos se obtiene un conjunto de puntos llamado diagrama de dispersión o nube de puntos. Ejemplo: Nube de puntos de la distribución dada por la tabla siguiente: Notas de Matemáticas y Física de 10 alumnos Matemáticas 5 6 2 9 4 Física 4 5 3 8 4 5 5 1 2 3 2 7 6 Notas de Física Notas de Matemáticas Parámetros estadísticos. Media de la variable X: x Media de la variable Y: y n x Varianza de la variable X: s x2 Varianza de la variable Y: s y2 Covarianza: s xy Correlación. n x y i N i i i i N ni y i N ni xi2 N ni yi2 x. y N x 2 y 2 7 8 Estudia la relación o dependencia que existe entre dos variables que intervienen en una distribución bidimensional. Coeficiente de correlación lineal. Es un número que mide el grado de dependencia entre las variables X e Y. s xy Se mide mediante la siguiente fórmula: r s x .s y Su valor está comprendido entre – 1 y 1. Si r = -1 ó r = 1 todos los valores de la variable bidimensional se encuentran situados sobre una recta. Si – 1< r < 0 se dice que las variables X e Y están también en dependencia aleatoria. La correlación es negativa. Si 0 < r < 1 la correlación es positiva. Las variables X e Y están también en dependencia aleatoria. La correlación es tanto más fuerte a medida que r se aproxima a –1 ó 1 y es tanto más débil a medida que se aproxima a 0. Recta de regresión. Tenemos una distribución bidimensional y representamos la nube de puntos correspondiente. La recta que mejor se ajusta a esa nube de puntos recibe el nombre de recta de regresión. Su ecuación es la siguiente: Recta de regresión de y sobre x: yy s xy xx s xy s x2 ( x x) ( y y) s y2 A partir de esta recta podemos calcular los valores de x conocidos los de y. La fiabilidad que podemos conceder a los cálculos obtenidos viene dada por el coeficiente de correlación: si r es muy pequeño no tiene sentido realizar ningún tipo de estimaciones. Si r es próximo a – 1 ó 1, las estimaciones realizadas estarán cerca de los valores reales. Si r = 1 o r = -1 , las estimaciones realizadas coincidirán con los valores reales. Recta de regresión de x sobre y: Ejercicios resueltos. 1.- Una compañía de seguros considera que el número de vehículos (Y) que circulan por una determinada autopista a más de 120 kms/h, puede ponerse en función del número de accidentes (X) que ocurren en ella. Durante 5 días obtuvo los siguientes resultados: X 5 7 2 1 9 Y 15 18 10 8 20 a) Calcula el coeficiente de correlación lineal. b) Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que circulaban por la autopista a más de 120 kms/h? c) ¿Es buena la predicción? Solución: Disponemos los cálculos de la siguiente forma: (Accidente Vehículos s) yi xi2 xi 5 15 25 7 18 49 2 10 4 1 8 1 9 20 81 24 71 160 x x i N s y2 24 4,8 ; 5 y N a) 2 i 2 y r s xy s x .s y y y i N 71 14,2 ; 5 s 1113 14,2 2 20,96 ; s xy 5 13,64 8,96. 20,96 yi2 xiyi 225 324 100 64 400 1113 75 126 20 8 180 409 x 2 x N x y i i N 2 i 2 x x. y 160 4,8 2 8,96 5 409 4,8.14,2 =13,64 5 0,996 b) Recta de regresión de y sobre x: yy s xy s x2 ( x x) 13,64 ( x 4,8) ; y 14,2 1,53( x 4,8) 8,96 Para x = 6, y 14,2 1,53(6 4,8) , es decir, y = 16,04. Podemos suponer que ayer circulaban 16 vehículos por la autopista a más de 120 kms/h. c) La predicción hecha es buena ya que el coeficiente de correlación está muy próximo a 1. 2.- Las calificaciones de 40 alumnos en psicología evolutiva y en estadística han sido las siguientes: y 14,2 X calif. en psicol. 3 4 5 6 6 7 7 Y calif. en estad. 2 5 5 6 7 6 7 Número de alumnos. 4 6 12 4 5 4 2 8 10 9 10 1 2 Obtener la ecuación de la recta de regresión de calificaciones de estadística respecto de las calificaciones de psicología. ¿Cuál será la nota esperada en estadística para un alumno que obtuvo un 4,5 en psicología? Solución: Se pide la recta de regresión de y sobre x: yy s xy ( x x) s x2 Disponemos los datos de la siguiente forma: xi yi ni nixi 3 2 4 12 4 5 6 24 5 5 12 60 6 6 4 24 6 7 5 30 7 6 4 28 7 7 2 14 8 9 1 8 10 10 2 20 40 220 x n x s xy s 2 x i i N n x y i i N n x i N 2 i 220 5,5 ; 40 i x. y 2 x nixi2 36 96 300 144 180 196 98 64 200 1314 niyi 8 30 60 24 35 24 14 9 20 224 y n y i N i niyi2 16 150 300 144 245 144 98 81 200 1378 nixiyi 24 120 300 144 210 168 98 72 200 1336 224 5,6 40 1336 (5,3).(5,6) 33,4 30,8 2,6 40 1314 (5,6) 2 32,85 30,25 2,6 40 Sustituyendo en la ecuación de la recta de regresión, resulta: 2,6 y x 0,1 y 5,6 ( x 5,5) , es decir, 2,6 Si un alumno que tiene una nota de 4,5 en psicología, la nota esperada en estadística será: y(4,5) = 4,5 + 0,1 = 4,6 Se sustituye en la recta de regresión. La fiabilidad viene dada por el coeficiente de correlación: r s xy s x .s y s x s x2 2,6 1,61 s xy 2,6 ; s 2 y n y i 2 i N y resulta r 2 y 1378 (5,6) 2 3,09 ; 40 s y 3,09 1,75 2,6 0,92 (1,61).(1,75) La correlación es positiva, es decir, a medida que aumenta la nota de estadística aumenta también la nota en psicología. Su valor está próximo a 1 lo que indica que se trata de una correlación fuerte, las estimaciones realizadas están cerca de los valores reales. Tablas de doble entrada. En las distribuciones bidimensionales, cuando hay pocos pares de valores, se procede como hemos hecho, es decir, enumerándolos. Si algún par está repetido se pone dos veces, pero cuando el número de datos es grande, se recurre a las tablas de doble entrada. En cada casilla se pone la frecuencia correspondiente al par de valores que definen esa casilla. Ejemplo: x y 0 1 2 0 2 3 0 1 1 4 5 2 0 1 3 Lo que indica el número de veces que está cada par. El par (0, 1) está 3 veces. El par (1, 2) está 5 veces. Etc. Ejercicios propuestos. 1.- Las notas obtenidas por 10 alumnos en Matemáticas y en Música son: Alumnos Mat. Mús. 1 6 6,5 2 4 4,5 3 8 7 4 5 5 5 3,5 4 6 7 8 7 5 7 8 10 10 9 5 6 10 4 5 a) Calcula la covarianza, las varianzas y el coeficiente de correlación. b) ¿Existe correlación entre las dos variables? c) Calcula la recta de regresión. ¿Cuál será la nota esperada en Música para un alumno que hubiese obtenido un 8,3 en Matemáticas? (Soluc. 3,075; 3,76; 2,96; 0,92; y = 1,6 + 0,817x; 8,38) 2.- Cinco niñas de 2, 3, 5, 7 y 8 años de edad pesan respectivamente 14, 20, 30, 42 y 44 Kg. Halla la ecuación de la recta de regresión de la edad sobre el peso. ¿Cuál sería el peso aproximado de una niña de 6 años?. ( Sol. x = 0,192y-0,76; 35,2 Kg.) 3.- La tabla adjunta da el índice de mortalidad de una muestra de población en función del consumo diario de cigarrillos: Número de cigarrillos x 3 5 6 15 20 Índice de mortalidad y 0,2 0,3 0,4 0,5 0,7 a) Determina el coeficiente de correlación e interpreta el resultado. b) Halla la recta de regresión de y sobre x c) ¿Cuál será el índice de mortalidad para un consumidor de 40 cigarrillos diarios? FUENTE: http://www.mundofree.com/fsanchezf/prob_est.htm DISTRIBUCION HIPERGEOMETRICA. DISTRIBUCIÓN HIPERGEOMÉTRICA. Los experimentos que tienen este tipo de distribución tienen las siguientes características: a) a) Al realizar un experimento con este tipo de distribución, se esperan dos tipos de resultados. b) b) Las probabilidades asociadas a cada uno de los resultados no son constantes. c) c) Cada ensayo o repetición del experimento no es independiente de los demás. d) d) El número de repeticiones del experimento (n) es constante. Ejemplo: En una urna o recipiente hay un total de N objetos, entre los cuales hay una cantidad a de objetos que son defectuosos, si se seleccionan de esta urna n objetos al azar, y sin reemplazo, ¿cuál es la probabilidad de obtener x objetos defectuosos? Solución: Luego; p( x ,n ) a C x * N a Cn x N Cn donde: p(x,n) = probabilidad de obtener x objetos defectuosos de entre n seleccionados a Cx* N a Cn x muestras de n objetos en donde hay x que son defectuosos y n-x buenos N Cn todas las muestras posibles de seleccionar de n objetos tomadas de entre N objetos en total = espacio muestral Considerando que en la urna hay un total de 10 objetos, 3 de los cuales son defectuosos, si de seleccionan 4 objetos al azar, ¿cuál es la probabilidad de que 2 sean defectuosos? Solución: N = 10 objetos en total a = 3 objetos defectuosos n = 4 objetos seleccionados en muestra x = 2 objetos defectuosos deseados en la muestra p( x 2,n 4 ) 3 C2*10 3 C4 2 10 C4 3! 7! * C* C ( 3 2 )!2! ( 7 2 )!2! 3 2 7 2 10! 10 C4 ( 10 4 )!4! 3! 7! 3x2 x1! 7 x6 x5! * * 5!2! 3x2 x7 x6 * 4! 1!2! 5!2! 1!2! 10! 10x9 x8 x7 x6! 10x9 x8 x7 2!2! 6!4! 6!4! donde: 3x 2 x7 x6 10 x9 x8 x 7 probabilidad asociada a cada muestra de 4 objetos que se seleccionaron, con lo que se demuestra que las probabilidades no son constantes 4! 2!2! formas o maneras de obtener 2 objetos defectuosos entre los 4 seleccionados = muestras de 4 objetos entre los que 2 son defectuosos Como se observa en el desarrollo de la solución del problema, la pretensión es demostrar que las probabilidades asociadas a cada uno de los resultados no son constantes. Luego la probabilidad de obtener 2 objetos defectuosos entre los 4 seleccionados al azar sería: 3x 2 x7 x6 4! 252 24 6048 * * 0.30 10 x9 x8 x7 2!2! 5040 4 20160 Ejemplos: 1. Para evitar que lo descubran en la aduana, un viajero ha colocado 6 tabletas de narcótico en una botella que contiene 9 píldoras de vitamina que son similares en apariencia. Si el oficial de la aduana selecciona 3 tabletas aleatoriamente para analizarlas, a) ¿Cuál es la probabilidad de que el viajero sea arrestado por posesión de narcóticos?, b) ¿Cuál es la probabilidad de que no sea arrestado por posesión de narcóticos?. Solución: a) N = 9+6 =15 total de tabletas a = 6 tabletas de narcótico n = 3 tabletas seleccionadas x = 0, 1, 2, o 3 tabletas de narcótico = variable que nos indica el número de tabletas de narcótico que se puede encontrar al seleccionar las 3 tabletas p(viajero sea arrestado por posesión de narcóticos) = p(de que entre las 3 tabletas seleccionadas haya 1 o más tabletas de narcótico) p( x 1,2ó3tabletas; n 3 ) 6 C1* 9 C2 6 C2* 9 C1 6 C3* 9 C0 15 C3 15 C3 15 C3 ( 6 )( 36 ) ( 15 )( 9 ) ( 20 )( 1 ) 216 135 20 371 0.81538 455 455 455 455 455 otra forma de resolver; p(el viajero sea arrestado por posesión de narcóticos) = 1 – p(de que entre las tabletas seleccionadas no haya una sola de narcótico) 1 p( x 0; n 3 ) 1 6 C0* 9 C3 15 C3 ( 1 )( 84 ) 0.184615 0.815385 455 b) b) p(no sea arrestado por posesión de narcóticos) 1 p( x 0; n 3 ) 6 C0* 9 C3 15 C3 ( 1 )( 84 ) 0.184615 455 2. De un lote de 10 proyectiles, 4 se seleccionan al azar y se disparan. Si el lote contiene 3 proyectiles defectuosos que no explotarán, ¿cuál es la probabilidad de que , a) los 4 exploten?, b) al menos 2 no exploten? Solución: a) N = 10 proyectiles en total a = 7 proyectiles que explotan n = 4 proyectiles seleccionados x = 0, 1, 2, 3 o 4 proyectiles que explotan = variable que nos define el número de proyectiles que explotan entre la muestra que se dispara p( x 4; n 4 ) b) N = 10 proyectiles en total a = 3 proyectiles que no explotan 7 C4* 3C0 ( 35 )(1 ) 35 0.16667 210 210 10 C4 n = 4 proyectiles seleccionados x = 0, 1, 2 o 3 proyectiles que no explotan p(al menos 2 no exploten) = p( 2 o más proyectiles no exploten) = p(x = 2 o 3; n=4) = 3 C2* 7 C2 3 C3* 7 C1 ( 3 )( 21) ( 1 )( 7 ) 63 7 70 0.333333 210 210 210 10 C4 3. a)¿Cuál es la probabilidad de que una mesera se rehúse a servir bebidas alcohólicas únicamente a dos menores de edad si verifica aleatoriamente solo 5 identificaciones de entre 9 estudiantes, de los cuales 4 no tienen la edad suficiente?, b) ¿Cúal es la probabilidad de que como máximo 2 de las identificaciones pertenezcan a menores de edad? Solución: a) N = 9 total de estudiantes a = 4 estudiantes menores de edad n = 5 identificaciones seleccionadas x = variable que nos define el número de identificaciones que pertenecen a personas menores de edad x = 0, 1, 2, 3 o 4 identificaciones de personas menores de edad p( x 2,n 5 ) 4 C2 * 5 C3 9 C5 ( 3 )(10 ) 0.238095 126 b) N = 9 total de estudiantes a = 4 estudiantes menores de edad n = 5 identificaciones seleccionadas x = variable que nos define el número de identificaciones que pertenecen a personas menores de edad x = 0, 1, 2, 3 o 4 identificaciones de personas menores de edad p( x 0,1,2; n 5 ) 4 C0* 5 C5 4 C1* 5 C4 4 C2* 5 C3 ( 1 )(1 ) ( 4 )( 5 ) ( 6 )(10 ) 126 9 C5 1 20 60 81 0.64286 126 126 4. Una compañía manufacturera utiliza un esquema para la aceptación de los artículos producidos antes de ser embarcados. El plan es de dos etapas. Se preparan cajas de 25 para embarque y se selecciona una muestra de 3 para verificar si tienen algún artículo defectuoso. Si se encuentra uno, la caja entera se regresa para verificarla al 100%. Si no se encuentra ningún artículo defectuoso, la caja se embarca. a)¿Cuál es la probabilidad de que se embarque una caja que tiene tres artículos defectuosos?, b)¿Cuál es la probabilidad de que una caja que contiene solo un artículo defectuoso se regresa para verificación? DISTRIBUCIÓN HIPERGEOMETRICA GENERALIZADA. Características: a) a) Al realizar un experimento con este tipo de distribución, se esperan más de dos tipos de resultados. b) b) Las probabilidades asociadas a cada uno de estos resultados no son constantes. c) c) Los ensayos o repeticiones del experimento no son independientes entre sí. d) d) El número de repeticiones del experimento n, es constante. Entonces en este caso se tienen más de dos tipos de objetos, por lo que la fórmula a utilizar sería: p( x , y ,n ) a Cx* b C y* N a b Cn x y N Cn donde: N = x + y + z = total de objetos a = total de objetos del primer tipo b = total de objetos del segundo tipo c = N-a-b = total de objetos del tercer tipo n = objetos seleccionados en la muestra x = objetos del primer tipo en la muestra y = objetos del segundo tipo en la muestra z = n-x-y = objetos del tercer tipo en la muestra Ejemplos: 1.En un lote de productos se tienen 20 productos sin defectos, 3 con defectos menores y 2 con defectos mayores, se seleccionan al azar 5 productos de este lote, determine la probabilidad de que a) 3 de los productos seleccionados no tengan defectos y 1 tenga defectos menores, b) 4 de los productos seleccionados no tengan defectos y 1 tenga defectos menores. Solución: a)N= 20+3+2 =25 total de artículos a=20 productos sin defectos b= 3 productos con defectos menores N-a-b= 2 productos con defectos mayores n= 5 productos seleccionados en la muestra x = 3 productos sin defectos en la muestra = variable que nos define el # de productos sin defectos en la muestra y = 1 producto con defectos menores en la muestra = variable que nos define el # de productos con defectos menores en la muestra z = n-x-y = 5-3-1 = 1 producto con defectos mayores en la muestra = variable que nos define el # de productos con defectos mayores en la muestra C * C* C ( 1140)( 3 )( 2 ) 6840 p( x 3, y 1,n 5 ) 20 3 3 1 2 1 0.128741 53130 53130 25 C5 b)N= 25 a=20 productos sin defectos b= 3 productos con defectos menores N-a-b= 2 productos con defectos mayores n= 5 productos seleccionados en la muestra x = 4 productos sin defectos en la muestra = variable que nos define el # de productos sin defectos en la muestra y = 1 producto con defectos menores en la muestra = variable que nos define el # de productos con defectos menores en la muestra z = n-x-y = 5-4-1 = 0 productos con defectos mayores en la muestra = variable que nos define el # de productos con defectos mayores en la muestra p( x 4 , y 1; n 5 ) 20 C 4 * 3 C1* 2 C 0 25 C 5 ( 4845)( 3 )(1 ) 14535 0.27357 53130 53130 3.Un club de estudiantes extranjeros tiene en sus listas a 2 canadienses, 3 japoneses, 5 italianos y 2 alemanes. Si se selecciona aleatoriamente un comité de 4 estudiantes, encuentre la probabilidad de que: a)estén representadas todas las nacionalidades, b)estén representadas todas las nacionalidades, excepto la italiana. Solución: a) N = 12 estudiantes a = 2 Canadienses b = 3 Japoneses c = 5 Italianos N-a-b-c = 2 Alemanes n = 4 estudiantes seleccionados para formar comité x = 1 estudiante Canadiense en el comité seleccionado y = 1 estudiante Japonés en el comité seleccionado z = 1 estudiante Italiano en el comité seleccionado n-x-y-z = 1 estudiante Alemán en el comité seleccionado p( x 1, y 1, z 1; n 4 ) 2 C1* 3 C1* 5 C1* 2 C1 12 C4 ( 2 )( 3 )( 5 )( 2 ) 60 0.121212 495 495 b) N = 7 estudiantes quitando a los Italianos a = 2 Canadienses b = 3 Japoneses N-a-b = 2 Alemanes n = 4 estudiantes seleccionados para formar comité x = 1 o 2 estudiantes Canadienses en el comité seleccionado y = 1 o 2 estudiantes Japoneses en el comité seleccionado n-x-y= 1 o 2 estudiantes Alemanes en el comité seleccionado p(estén representadas todas las nacionalidades, excepto la italiana) p( x 1, y 1,n 4 ) p( x 1, y 2,n 4 ) ( x 2, y 1,n 4 ) C* C* C C* C * C C * C* C 2 1 3 1 2 22 1 3 2 2 12 2 3 1 2 1 7 C4 7 C4 7 C4 FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html DISTRIBUCIÓN HIPERGEOMETRICA La distribución Binomial es importante en muestreos con reemplazo. Supongamos que queremos conocer el # de elementos defectuosos presentes en una muestra de ‘n’ elementos, extraídos de una urna que contiene ‘N’ elementos de los cuales ‘M’ están defectuosos. Si la extracción es con reemplazo entonces la probabilidad de escoger x elementos defectuosos tendrá un comportamiento Binomial, es decir: Sin embargo, lo correcto en un caso como el de inspección, sería hacer la selección sin reemplazo, en cuyo caso en la 1ª. selección la probabilidad de que salga defectuoso es M/N, pero la segunda vez seria (M-1)/(N-1) ó M/(N-1) si antes salió defectuoso o no (# de casos favorables / # de casos posibles). - Los casos posibles son . - En cuanto a los casos favorables se debe considerar lo siguiente: Los x éxitos (defectuosos) pueden ser elegidos desde los M posibles de formas diferentes y cada forma de estas es combinada con las formas diferentes de escoger ‘n-x’ elementos no defectuosos que son: . En consecuencia x éxitos y n-x fracasos pueden elegir de formas o maneras diferentes. Luego, la probabilidad de escoger x elementos defectuosos en una muestra de n elementos sin reemplazo será: la cual da lugar a la distribución conocida como Hypergeométrica. Esperanza matemática de la Hypergeométrica: Supongamos que n elementos de la muestra son seleccionados desde los N de la población manera secuencial. Si definimos la VA: Entonces, Luego, , nos señala el # de elementos defectuosos de la muestra de n elementos. y como E[Xi] = 1. p(Xi=1) + 0 . p(Xi=0) = p(Xi=1) = M/N, se tiene que: E[ X ] = n . M/N El calculo de la Varianza es problemático porque las Xi no son independientes y en consecuencia hay que considerar indicadores no considerados hasta ahora (Covarianzas). El resultado es: COMPARACIÓN DE LA HYPERGEOMETRICA Y LA BINOMIAL Para que la probabilidad de éxito (p=M/N) se mantenga mas o menos constante y en ese caso se pueda aplicar la Binomial, la N debe ser muy grande (tender a infinito). En algunos casos prácticos, usualmente se acepta esta aproximación cuando n N/10 . Por otro lado en otras situaciones practicas no importa demasiado muestrar con o sin reemplazo cuando N, M y N-M son mayores que n. FUENTE: http://strix.ciens.ucv.ve/~teorprob/guiasteoricas/cap4/cap4.html DISTRIBUCION GEOMETRICA. DISTRIBUCIÓN GEOMÉTRICA. Esta distribución es un caso especial de la Binomial, ya que se desea que ocurra un éxito por primera y única vez en el último ensayo que se realiza del experimento, para obtener la fórmula de esta distribución, haremos uso de un ejemplo. Ejemplo: Se lanza al aire una moneda cargada 8 veces, de tal manera que la probabilidad de que aparezca águila es de 2/3, mientras que la probabilidad de que aparezca sello es de 1/3, Determine la probabilidad de que en el último lanzamiento aparezca una águila. Solución: Si nosotros trazamos un diagrama de árbol que nos represente los 8 lanzamientos de la moneda, observaremos que la única rama de ese árbol que nos interesa es aquella en donde aparecen 7 sellos seguidos y por último una águila; como se muestra a continuación: SSSSSSSA Sí denotamos; x = el número de repeticiones del experimento necesarias para que ocurra un éxito por primera y única vez = 8 lanzamientos p = probabilidad de que aparezca una águila = p( éxito) = 2/3 q = probabilidad de que aparezca un sello = p(fracaso) = 1/3 Entonces la probabilidad buscada sería; P(aparezca una águila en lanzamiento)=p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(A) = el último x1 =q*q*q*q*q*q*q*p = q p Luego, la fórmula a utilizar cuando se desee calcular probabilidades con esta distribución sería; p( x ) q x1 p Donde: p(x) = probabilidad de que ocurra un éxito en el ensayo x por primera y única vez p = probabilidad de éxito q = probabilidad de fracaso Resolviendo el problema de ejemplo; x = 8 lanzamientos necesarios para que aparezca por primera vez una águila p = 2/3 probabilidad de que aparezca una águila q = 1/3 probabilidad de que aparezca un sello 81 p(x=8) = ( 1 / 3 ) ( 2 / 3 ) 0.0003048 Ejemplos: 1. Sí la probabilidad de que un cierto dispositivo de medición muestre una desviación excesiva es de 0.05, ¿cuál es la probabilidad de que; a) el sexto de estos dispositivos de medición sometidos a prueba sea el primero en mostrar una desviación excesiva?, b) el séptimo de estos dispositivos de medición sometidos a prueba, sea el primero que no muestre una desviación excesiva?. Solución: a) a) x = 6 que el sexto dispositivo de medición probado sea el primero que muestre una variación excesiva p = 0.05 =probabilidad de que un dispositivo de medición muestre una variación excesiva q = 0.95 =probabilidad de que un dispositivo de medición no muestre una variación excesiva 61 p(x = 6) = ( 0.95 ) ( 0.05 ) 0.03869 b) b) x = 5 que el quinto dispositivo de medición probado, sea el primero que no muestre una desviación excesiva p = 0.95 = probabilidad de que un dispositivo de medición no muestre una variación excesiva q = 0.05 = probabilidad de que un dispositivo de medición muestre una variación excesiva 51 p(x = 5) = ( 0.05 ) ( 0.95 ) 0.0000059 2. Los registros de una compañía constructora de pozos, indican que la probabilidad de que uno de sus pozos nuevos, requiera de reparaciones en el término de un año es de 0.20. ¿Cuál es la probabilidad de que el quinto pozo construido por esta compañía en un año dado sea el primero en requerir reparaciones en un año?. Solución: x = 5 que el quinto pozo sea el primero que requiera reparaciones en un año p = 0.20 = probabilidad de que un pozo requiera reparaciones en el término de un año q = 0.80 = probabilidad de que un pozo no requiera reparaciones en el término de un año 51 p(x = 5) = ( 0.80 ) ( 0.20 ) 0.08192 FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html Distribución geométrica ( o de fracasos) Consideramos una sucesión de v.a. independientes de Bernouilli, Una v.a. X sigue posee una distribución geométrica, , si esta es la suma del número de fracasos obtenidos hasta la aparición del primer éxito en la sucesión Por ejemplo . De este modo tenemos que la ley de probabilidad de X es 6.4.6.1 Observación Es sencillo comprobar que realmente f es una ley de probabilidad, es decir, . Para ello basta observar que la sucesión es una progresión geométrica de razón q, a la que podemos aplicar su fórmula de sumación: 6.4.6.2 Observación En la distribución geométrica el conjunto de posibles valores que puede tomar la variable ( ) es infinito numerable, mientras que en la de Bernouilli y en la binomial, estos eran en número finito. La función característica se calcula teniendo en cuenta que de nuevo aparece la sumación de los términos de una progresión geométrica, pero esta vez de razón eit q: La media y varianza de esta variable aleatoria son: 6.4.6.3 Ejemplo Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el nacimiento de una hija. Calcular el número esperado de hijos (entre varones y hembras) que tendrá el matrimonio. Calcular la probabilidad de que la pareja acabe teniendo tres hijos o más. Solución: Este es un ejemplo de variable geométrica. Vamos a suponer que la probabilidad de tener un hijo varón es la misma que la de tener una hija hembra. Sea X la v.a. Es claro que Sabemos que el número esperado de hijos varones es esperado en total entre hijos varones y la niña es 2. , por tanto el número La probabilidad de que la pareja acabe teniendo tres o más hijos, es la de que tenga 2 o más hijos varones (la niña está del tercer lugar en adelante), es decir, Hemos preferido calcular la probabilidad pedida mediante el suceso complementario, ya que sería más complicado hacerlo mediante la suma infinita 6.4.6.4 Observación La distribución exponencial también puede ser definida como el número de pruebas realizadas hasta la obtención del primer éxito (como hubiese sido más adecuado en el ejemplo anterior). En este caso es un ejercicio sencillo comprobar que X sólo puede tomar valores naturales mayores o iguales a 1, y que: FUENTE: http://ftp.medprev.uma.es/libro/node71.htm En estadística la distribución geométrica es una distribución probabilidad discreta con un parámetro p cuya función de densidad para valores discretos es P(X = x) = p(1 - p)x - 1 Su función de distribución es El parámetro p (la probabilidad de éxito de un experimento) fija la media estadística E(X) = 1 / p y la varianza V(X) = (1 - p) / p2. Ejemplo El número de tirar una cifra determinada con un dado x veces seguidas es una distribución geométrica con el parámetro p = 1 / 6. FUENTE: http://es.wikipedia.org/wiki/Distribuci%C3%B3n_geom%C3%A9trica DISTRIBUCION GEOMETRICA. Para describir esta distribución se debe considerar un experimento aleatorio de Bernoulli. Cuando en un experimento de esta naturaleza existen observaciones independientes y deseamos conocer la probabilidad de que hasta la observación X aparezca por primera ocasión el éxito, se usa la función de probabilidad conocida como geométrica. Con razonamientos similares y funciones, llegamos a concluir que la probabilidad de que se tenga el primer evento exitoso en el n_ésimo experimento es: P ( X x ) q x 1 p f ( x ) q * q * q*......*q * p q x 1 p p( x x ) q x 1 P x 1,2,3,...... pq 1 Para que exista el primer éxito, es necesario que anteriormente haya x-1 fracasos. TEORIA DEL MUESTREO. Muestra: es parte de una población de objetos, personas, empresas o cosas que es representativa del total de elementos que conforma el universo. Población: es la totalidad de las posibles observaciones o medidas que se estén considerando en alguna investigación de cuyo conjunto, se toma una muestra. Parámetro: es una medida que describe alguna característica de la población. Estadístico: es una medida que describe alguna característica de la muestra. Símbolos más usuales Tamaño de la muestra Media aritmética Varianza Desviación estándar Proporción Población Parámetro N M ² P Muestra Estadistico n x S² S p Errores en datos estadísticos. La precisión de los datos estadísticos es un requisito importante para su uso efectivo en el análisis de los problemas de negocios y económicos. Se pueden distinguir 2 tipos de errores en los datos provenientes de una encuesta. Error de muestreo: es la diferencia obtenida entre los resultados de una encuesta por muestreo y los que se hubiesen obtenido de un censo de la población, conducido bajos los mismos procedimientos. 17 Promed=142.4 / 17 = 8.4 5 Promed= 40.8 / 5 = 8.1 Cuando se hace una investigación en lugar de encuestar a todo el universo o la población, se toma una muestra que sea representativa del universo. Se supone que la distribución de la población puede aproximarse de manera considerable siempre y cuando la muestra sea lo suficiente grande, siendo por lo tanto la distribución de frecuencias de la muestra satisfactoriamente representativa de la población muestreada. Con respecto a la teoría de muestreo se conocen 2 teoremas para 2 casos diferentes de la distribución de la media muestral. FUENTE: http://www.micromegas.com.mx/apuntes/documents/estadis1-1/esta10.doc DISTRIBUCION MULTINOMIAL DISTRIBUCIÓN MULTINOMIAL. Características: a) a) Al llevar a cabo un experimento con esta distribución se esperan más de dos tipos de resultados. b) b) Las probabilidades asociadas a cada uno de los resultados son constantes. c) c) Cada uno de los ensayos o repeticiones del experimento son independientes. d) d) El número de repeticiones del experimento, n es constante. Al igual que hicimos con la distribución binomial, en este caso partiremos de un ejemplo para obtener la fórmula general para resolver problemas que tengan este tipo de distribución. Ejemplo: Se lanza al aire un dado normal, 5 veces, determine la probabilidad de que aparezca dos números uno, dos números tres y un número cinco. Solución: Si pensamos en la forma que se han resuelto otros problemas, lo primero que se me ocurre es trazar un diagrama de árbol que nos muestre los 5 lanzamientos del dado; esto sería muy laborioso, y se muestra parte del mismo a continuación; 1 2 1 1 3 2 4..... 3 5 2º lanzamiento 4 6 5 5ºlanzamiento 6 2 3 a 4 1 2 1er lanzamiento 5 3 4 6 6 2º lanzamiento 5 Del diagrama de árbol se obtendría el espacio muestral y enseguida se determinarían las probabilidades requeridas. En lugar de lo anterior, obtendremos una fórmula a partir de la siguiente expresión: p(aparezcan dos unos, dos tres y un cinco)=(número de ramas en donde haya dos unos, dos tres y un cinco)(probabilidad asociada a cada una de las ramas) Para esto definiremos lo siguiente: n = número de lanzamientos del dado x1 = número de veces que aparece el número 1 = 2 x2 = número de veces que aparece el número 2 = 0 x3 = número de veces que aparece el número 3 = 2 x4 = número de veces que aparece el número 4 = 0 x5 = número de veces que aparece el número 5 = 1 p1 = probabilidad de que aparezca el número 1 = 1/6 p2 = probabilidad de que aparezca el número 2 = 1/6 p3 = probabilidad de que aparezca el número 3 = 1/6 p4 = probabilidad de que aparezca el número 4 = 1/6 p5 = probabilidad de que aparezca el número 5 = 1/6 p6 = probabilidad de que aparezca el número 6 = 1/6 Luego, ¿cómo obtendremos el número de ramas donde aparecen dos números 1, dos números 3 y un número 5? Enunciando algunas de las ramas, tenemos lo siguiente; (1, 1, 5, 3, 3), (5, 1, 1, 3, 3), (1, 3, 3, 1, 5), ... etc, etc. ¿Qué tipo de arreglos son estos, combinaciones, permutaciones o que? SON PERMUTACIONES EN DONDE HAY OBJETOS IGUALES. Por tanto el número de ramas se puede obtener de la siguiente manera: El número de ramas = Y en forma general, 5 P2 ,2 ,1 5! 120 30 2!2!1! 4 n Px1 ,x2 ,...xk n! x1 ! x2 !...xk ! Luego la probabilidad asociada a cada una de las ramas, sería; p(asociada a cada una de las ramas) = p(#1)p(#1)p(#3)p(#3)p(#5)=p1*p1*p3*p3*p5= =p12*p32*p5 Por tanto la fórmula general será: p( x1 , x2 ,...xk ,n ) n! x x xk p1 1 p 2 2 ....pk x1 ! x2 !...xk ! donde: p(x1, x2,....,xk, n) = probabilidad de que en n ensayos aparezcan x1 objetos del primer tipo, x2 objetos del segundo tipo.......y xk objetos del último tipo. n = x1+x2+....xk Resolviendo el ejemplo; n=5 x1 = número de veces que aparece el número 1 = 2 x2 = número de veces que aparece el número 3 = 2 x3 = número de veces que aparece el número 5 = 1 p1= probabilidad de que aparezca el número 1 = 1/6 p2 = probabilidad de que aparezca el número 2 = 1/6 p3 = probabilidad de que aparezca el número 3 = 1/6 p ( x1 1, x2 2, x3 1,n 5 ) 5! ( 1 / 6 )2 ( 1 / 6 )2 ( 1 / 6 )1 ( 30 )( 0.0001286 ) 0.003858 2!2!1! Ejemplos: 1. Las probabilidades son de 0.40, 0.20, 0.30 y 0.10, respectivamente, de que un delegado llegue por aire a una cierta convención, llegue en autobús, en automóvil o en tren. ¿Cuál es la probabilidad de que entre 9 delegados seleccionados aleatoriamente en esta convención a) 3 hayan llegado por aire, 3 en autobús, 1 en auto y 2 en tren?, b) 4 hayan llegado por aire, 1 en autobús y 2 en auto?, c) 5 hayan llegado en auto? Solución: a) n = 9 x1= # de delegados que llegan por aire = 3 x2= # de delegados que llegan en autobús = 3 x3= # de delegados que llegan en auto = 1 x4= # de delegados que llegan en tren = 2 p1 = probabilidad de que un delegado llegue por aire = 0.40 p2 = probabilidad de que un delegado llegue en autobús = 0.20 p3 = probabilidad de que un delegado llegue en auto = 0.30 p4 = probabilidad de que un delegado llegue en tren = 0.10 p( x1 3, x2 3, x3 1, x4 2; n 9 ) b) n=9 x1 = 4 por aire; x2 = 1 en autobús; x3 = 2 en auto; x4 = 2 en tren; 9! ( 0.40 )3 ( 0.20 )3 ( 0.30 )1( 0.10 )2 0.0077414 3!3!1!2! p1 = 0.40 p2 = 0.20 p3 = 0.30 p4 = 0.10 p( x1 4, x2 1, x3 2, x4 2; n 9 ) 9! ( 0.40 )4 ( 0.20 )1( 0.30 )2 ( 0.30 )2 0.15676 4!1!2!2! c) n=9 x1= 5 lleguen en auto; p1 = 0.30 x2 = 4 (lleguen por aire o autobús o tren); p2 = 0.40+0.20+0.10 = 0.70 p( x1 5, x2 4; n 9 ) 9! ( 0.30 )5 ( 0.70 )4 0.073514 5!4! 2. De acuerdo con la teoría de la genética, un cierto cruce de conejillo de indias resultará en una descendencia roja, negra y blanca en la relación 8 : 4 : 4. Encuentre la probabilidad de que entre 8 descendientes, a) 5 sean rojos, 2 negros y un blanco, b) 3 sean rojos y 2 sean negros. Solución: a) n=8 x1 = 5 rojos; x2 = 2 negros; x3 = 1 blanco; p1= prob. Sean rojos = 8/16 = 0.50 p2 = prob. Sean negros = 4/16 = 0.25 p3 = prob. Sean blancos = 4/16 = 0.25 p( x1 5, x2 2, x3 1; n 8 ) b) n=8 x1 = 3 rojos; x2 = 2 negros; p1 = 0.50 p2 = 0.25 8! ( 0.50 )5 ( 0.25 )2 ( 0.25 )1 0.082031 5!2!1! x3 = 3 blancos; p3 = 0.25 p( x1 3, x2 2, x3 3; n 8 ) 8! ( 0.50 )3 ( 0.25 )2 ( 0.25 )3 0.068359 3!2!3! 3.Según una encuesta preliminar acerca del voto que los ciudadanos darán por los candidatos para gobernador del estado se ha detectado que aproximadamente un 52% votará por el partido verde, un 40% por el partido azul y un 8% por los partidos restantes, si se seleccionan aleatoriamente 6 personas con edad de votar, determine la probabilidad de que: a) 2 voten por el partido verde, 1 por el azul y 3 por el resto de los partidos, b) 2 voten por el partido verde y 4 por el azul. Solución: a) n = 6 x1= 2 voten por partido verde; p1= prob. de que una persona vote por partido verde = 0.52 x2= 1 vote por partido azul; p2 = prob. de que una persona vote por partido azul = 0.40 x3= 3 voten por otros partidos; p3 = prob. de que una persona vote por otros partidos = 0.08 p( x1 2, x2 1, x3 3 : n 6 ) 6! ( 0.52 )2 ( 0.40 )1( 0.08 )3 0.0033226 2!1!3! b)n = 6 x1= 2 voten por el partido verde; p1= prob. de que una persona vote por partido verde=0.52 x2= 4 vote por partido azul; p2 = prob. de que una persona vote por partido azul = 0.40 x3= 0 voten por otros partidos; p3 = prob. de que una persona vote por otros partidos = 0.08 FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html DISTRIBUCION MULTINOMIAL. Si los sucesos E1, E2, ....., Ek pueden ocurrir con frecuencias P1, P2,.....,Pk respectivamente, entonces la probabilidad, entonces la probabilidad de E1, E2, ....., Ek ocurran hasta X1, X2, ....., Xk veces, respectivamente es: X 1 ! X 2 !... X k ! 1 2 P x1 P x 2 ..... Pk x1 N! Donde: X 1 X 2 ... X k N Esta distribución, que es una generalización de la distribución binomial, se llama distribución multinomial, ya que la fórmula es el término general en el desarrollo multinomial: ( P1 P2 ..... Pk ) N Ejemplo: ¿Cuál es la probabilidad si se lanza un dado 12 veces, cuál es la probabilidad de obtener 1,2,3,4,5,6 puntos exactamente 2 veces cada uno. X 1 ! X 2 !... X k ! 1 2 P x1 P x 2 ..... Pk x1 N! 0.289% 64 (0.000000000387) 7484400(0.000000000387) 0.00289 * 100 479001600 (2 * 1)(2 * 1)(2 * 1)(2 * 1)(2 * 1)(2 * 1) (0.027)(0.027)(0.027)(0.027)(0.027)(0.027) 12 * 11 * 10 * 9 * 8 * 7 * 6 * 5 * 4 * 3 * 2 * 1 2! 2! 2! 2! 2! 2! 6 6 6 6 6 6 1 1 1 1 1 1 12! 2 2 2 2 2 2 FUENTE: http://www.micromegas.com.mx/apuntes/documents/estadis1-1/esta09.doc La distribución multinomial es similar a la distribución binomial, con la diferencia de que en lugar de dos posibles resultados en cada ensayo, puede haber múltiples resultados: Ejemplo de distribución binomial: a unas elecciones se presentaron 2 partidos políticos: el POPO obtuvo un 70% de los votos y el JEJE el 30% restante. ¿Cuál es la probabilidad de que al elegir 5 ciudadanos al azar, 4 de ellos hallan votado al JEJE? Ejemplo de distribución multinomial: a esas elecciones se presentaron 4 partidos políticos: el POPO obtuvo un 40% de los votos, el JEJE el 30%, el MUMU el 20% y el LALA el 10% restante. ¿Cuál es la probabilidad de que al elegir 5 ciudadanos al azar, 3 hayan votado al POPO, 1 al MUMU y 1 al LALA? La distribución multinomial sigue el siguiente modelo: Donde: X1 = x1: indica que el suceso X1 aparezca x1 veces (en el ejemplo, que el partido POPO lo hayan votado 3 personas) n: indica el número de veces que se ha repetido el suceso (en el ejemplo, 5 veces) n!: es factorial de n (en el ejemplo: 5 * 4 * 3 * 2 * 1) p1: es la probabilidad del suceso X1 (en el ejemplo, el 40%) Veamos el ejemplo: Luego: P = 0,0256 Es decir, que la probabilidad de que las 5 personas elegidas hayan votado de esta manera es tan sólo del 2,56% Nota: 0! es igual a 1, y cualquier número elevado a 0 es también igual a 1 Veamos otro ejemplo: En una fiesta, el 20% de los asistentes son españoles, el 30% franceses, el 40% italiano y el 10% portugueses. En un pequeño grupo se han reunido 4 invitados: ¿cual es la probabilidad de que 2 sean españoles y 2 italianos? Aplicamos el modelo: Luego P = 0,0384 Por lo tanto, la probabilidad de que el grupo esté formado por personas de estos países es tan sólo del 3,84%. FUENTE: http://www.aulafacil.com/CursoEstadistica/Lecc-31-est.htm DISTRIBUCION DE POISSON DISTRIBUCIÓN DE POISSON. Características: En este tipo de experimentos los éxitos buscados son expresados por unidad de área, tiempo, pieza, etc, etc,: - # de defectos de una tela por m2 - # de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc, etc. - # de bacterias por cm2 de cultivo - # de llamadas telefónicas a un conmutador por hora, minuto, etc, etc. - # de llegadas de embarcaciones a un puerto por día, mes, etc, etc. Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo, área, o producto, la fórmula a utilizar sería: p( x , ) x x! donde: p(x, ) = probabilidad de que ocurran x éxitos, cuando el número promedio de ocurrencia de ellos es = media o promedio de éxitos por unidad de tiempo, área o producto = 2.718 x = variable que nos denota el número de éxitos que se desea que ocurra Hay que hacer notar que en esta distribución el número de éxitos que ocurren por unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de tiempo es independiente de otro intervalo dado, así como cada área es independiente de otra área dada y cada producto es independiente de otro producto dado. Ejemplos: 1. Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las probabilidades de que reciba, a) cuatro cheques sin fondo en un día dado, b) 10 cheques sin fondos en cualquiera de dos días consecutivos? Solución: a) a) x = variable que nos define el número de cheques sin fondo que llegan al banco en un día cualquiera = 0, 1, 2, 3, ....., etc, etc. = 6 cheques sin fondo por día = 2.718 ( 6 )4 ( 2.718)6 ( 1296)( 0.00248) p( x 4, 6 ) 0.13392 4! 24 b) x= variable que nos define el número de cheques sin fondo que llegan al banco en dos días consecutivos = 0, 1, 2, 3, ......, etc., etc. = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos días consecutivos Nota: siempre debe de estar en función de x siempre o dicho de otra forma, debe “hablar” de lo mismo que x. p( x 10, 12 ) ( 12 )10 ( 2.718)12 ( 6.191736410 )( 0.000006151) 0.104953 10! 3628800 2. En la inspección de hojalata producida por un proceso electrolítico continuo, se identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de identificar a) una imperfección en 3 minutos, b) al menos dos imperfecciones en 5 minutos, c) cuando más una imperfección en 15 minutos. Solución: a) a) x = variable que nos define el número de imperfecciones en la hojalata por cada 3 minutos = 0, 1, 2, 3, ...., etc., etc. = 0.2 x 3 =0.6 imperfecciones en promedio por cada 3 minutos en la hojalata p( x 1, 0.6 ) ( 0.6 )1( 2.718)0.6 ( 0.6 )( 0.548845) 0.329307 1! 1 b) b) x = variable que nos define el número de imperfecciones en la hojalata por cada 5 minutos = 0, 1, 2, 3, ...., etc., etc. = 0.2 x 5 =1 imperfección en promedio por cada 5 minutos en la hojalata ( 1 )0 ( 2.718)1 ( 1 )( 2.718)1 p( x 2,3,4,etc.... 1 ) 1 p( x 0,1, 1 ) 1 0 ! 1 ! =1-(0.367918+0.367918) = 0.26416 c) c) x = variable que nos define el número de imperfecciones en la hojalata por cada 15 minutos = 0, 1, 2, 3, ....., etc., etc. = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la hojalata p( x 0,1, 3 ) p( x 0, 3 ) p( x 1, 3 ) ( 3 )0 ( 2.718)3 ( 3 )1( 2.718)3 0! 1! = 0.0498026 + 0.149408 = 0.1992106 FUENTE: www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html En estadística la distribución de Poisson es una distribución de probabilidad discreta con un parámetro λ < 0 cuya función de masa para sucesos es Aquí e significa el número e y x! significa el factorial de x. La distribución de Poisson describe el número de sucesos en una unidad de tiempo de un proceso de Poisson. Muchos fenómenos se modelan como un proceso de Poisson, por ejemplo las llamadas en una empresa o los accidentes en una carrera. El valor esperado y la varianza de una variable aleatoria X de distribución Poisson son E[X] = V[X] = λ FUENTE: http://es.wikipedia.org/wiki/Distribuci%C3%B3n_Poisson La Distribución de Poisson se llama así en honor a Simeón Dennis Poisson (1781-1840), francés que desarrolló esta distribución basándose en estudios efectuados en la última parte de su vida. La distribución de Poisson se emplea para describir varios procesos, entre otros la distribución de las llamadas telefónicas que llagan a un conmutador, la demanda (necesidades) de servicios en una institución asistencial por parte de los pacientes, los arribos de los camiones y automóviles a la caseta de cobro y el número de accidentes en un cruce. Los ejemplos citados tienen un elemento en común, pueden ser descritos por una variable aleatoria discreta que asume valores enteros (0,1,2,3,4,5 y así sucesivamente). El número de enfermos que llegan a un consultorio en cierto intervalo de tiempo será de 0,1,2,3,4,5 o algún otro número entero. De manera análoga, si se cuenta el número de automóviles que llegan a una caseta de cobro durante un periodo de diez minutos, el número será entero. Características de los procesos que producen una distribución de la probabilidad de Poisson. El número de vehículos que pasan por una caseta de cobro en las horas de mayor tráfico sirve como ejemplo para mostrar las características de una distribución de probabilidad de Poisson. El promedio (media) de los arribos de vehículos por hora de gran tráfico puede estimarse a partir de los datos anteriores del tráfico. Si dividimos las horas de gran tráfico en periodos (intervalos) de un segundo cada uno, encontraremos que los siguientes enunciados son verdaderos: a) La probabilidad de que exactamente un vehículo llegue por segundo a una caseta individual es un número muy pequeño y es constante para que cada intervalo de un segundo. b) La probabilidad de que dos o más vehículos lleguen en un intervalo de un segundo es tan reducida que podemos asignarle un valor cero. c) El número de vehículos que llegan en determinado intervalo de un segundo es independiente del momento en que el intervalo de un segundo ocurre durante la hora de gran tráfico. d) El número de llegadas en cualquier intervalo de un segundo no depende del número de arribos de cualquier otro intervalo de un segundo. Ahora bien, podemos generalizar partiendo de las cuatro condiciones que hemos descrito en este ejemplo, si estas condiciones se cumplen nos apoyaremos en una distribución de probabilidad de Poisson para describirlos. Cálculo de probabilidades mediante la distribución de Poisson. La distribución de Poisson, según hemos señalado, se refiere a ciertos procesos que pueden ser descritos con una variable aleatoria discreta. La letra X suele representar esa variable y puede además asumir valores enteros (0,1,2,3 etc..) . Utilizamos la letra X mayúscula para representar la variable aleatoria y la x minúscula para designar un valor específico que puede asumir la X mayúscula. La probabilidad de exactamente x ocurrencias en una distribución de Poisson se calcula mediante la fórmula: P(x) = x * e- / x! x = Lambda (número medio de ocurrencias por intervalo de tiempo) elevada a la potencia x. e- = e= 2.71828 elevado a la potencia de lambda negativa. x! = x factorial. Ejemplo : Supóngase que estamos investigando la seguridad de un crucero muy peligroso. Los archivos de la policía indican una media de cinco accidentes por mes en él. El número de accidentes está distribuido conforme a la distribución de Poisson, y la división de seguridad en carreteras quiere calcular la probabilidad de exactamente 0,1,2,3 y 4 accidentes en un mes determinado. Aplicando la fórmula anterior: P(0) = (5)0 (e-5) /0! = 0.00674 P(1) = (5)1 (e-5) /1! = 0.03370 P(2) = (5)2 (e-5) /2! = 0.08425 P(3) = (5)3 (e-5) /3! = 0.14042 P(4) = (5)4 (e-5) /4! = 0.17552 Para saber cual es la probabilidad en 3 o menos, sumaremos las probabilidades de 0,1,2,3 lo que será igual a : P(0) = 0.00674 P(1) = 0.03370 P(2) = 0.08425 P(3) = 0.14042 P(3 o menos) = 0.26511 Dado que la probabilidad de que haya 3 o menos accidentes es de 0.26511 entonces la probabilidad de que ocurran más de tres debe ser = 1 –0.26511 = 0.73489. La distribución de Poisson como una aproximación a la distribución binomial. Algunas veces, si se desea evitar el tedioso trabajo de calcular las distribuciones binomiales, se puede usar a cambio la de Poisson, pero debe cumplir con ciertas condiciones como : n=>20 p=<0.05 En los casos en que se satisfacen tales condiciones, podemos sustituir la media de la distribución binomial en lugar de la media de la distribución de Poisson de modo que la fórmula quedaría así: P(x) = (np) X * e-np /x! FUENTE: http://www.gestiopolis.com/recursos/experto/catsexp/pagans/eco/44/distripoisson.htm Distribución de Poisson (o de los sucesos raros) Una v.a. X posee una ley de distribución de probabilidades del tipo Poisson cuando Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir, obteniéndose como la distribución límite de una sucesión de variable binomiales, ,y (por tanto , donde ). La demostración de esto consiste en En general utilizaremos la distribución de Poisson como aproximación de experimentos binomiales donde el número de pruebas es muy alto, pero la probabilidad de éxito muy baja. A veces se suele utilizar como criterio de aproximación: La ley de Poisson la podemos encontrar tabulada en la tabla número 2, para ciertos valores usuales de . La función característica de es de lo que se deduce que valor esperado y varianza coinciden 6.4.12.1 Ejemplo Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p=1/100.000. Calcular la probabilidad de que en una ciudad con 500.000 habitantes haya más de 3 personas con dicha enfermedad. Calcular el número esperado de habitantes que la padecen. Solución: Si consideramos la v.a. X que contabiliza el número de personas que padecen la enfermedad, es claro que sigue un modelo binomial, pero que puede ser muy bien aproximado por un modelo de Poisson, de modo que Así el número esperado de personas que padecen la enfermedad es . Como , existe una gran dispersión, y no sería extraño encontrar que en realidad hay muchas más personas o menos que están enfermas. La probabilidad de que haya más de tres personas enfermas es: FUENTE: http://ftp.medprev.uma.es/libro/node74.htm Distribución de Poisson Los experimentos que resultan en valores numéricos de una variable aleatoria X, misma que representa el número de resultados durante el intervalo de tiempo dado o una región específica, frecuentemente se llaman experimentos de Poisson. El intervalo de tiempo dado puede ser de cualquier duración de tiempo, por ejemplo un minuto, un día, una semana, un mes o inclusive un año. De aquí que un experimento de Poisson puede generar observaciones para la variable aleatoria X que representa el número de algún evento en un lapso de tiempo dado. Un experimento de Poisson sugiere del proceso de Poisson y tiene las siguientas propiedades: 1. El número de resultados que ocurren en un intervalo de tiempo o región específicos es independiente de el número que ocurre en cualquier otro intervalo disjunto de tiempo o región del espacio disjunto. 2. La probabilidad de que un resultado muy sencillo ocurra en un intervalo de tiempo muy corto o en una región pequeña es proporcional a la longitud del intervalo de tiempo o al tamaño de la región. 3. La probabilidad de que más de un resultado ocurra en un intervalo de tiempo tan corto o en esa región tan pequeña es despreciable. La distribución de probabilidad de la variable aleatoria de Poisson X que representa el número de resultados que ocurren en un intervalo de tiempo dado, indicado por t es: FUENTE: http://delta.cs.cinvestav.mx/~mcintosh/oldweb/s1998/alejandro/node3.html APROXIMACIÓN DE POISSON A LA BINOMIAL. En este caso se determinarán probabilidades de experimentos Binomiales, pero que dadas sus características, es posible aproximarlas con la distribución de Poisson, estas características son, n ( n es muy grande) y p0 (p es muy pequeña), por lo que: x p( x ,n, p )n Cx p q x n x x! La expresión anterior solo se cumple cuando n y p0, solo en este caso, si esto no se cumple, la aproximación no se puede llevar a efecto, por lo que la fórmula a utilizar en este caso sería: p( x , ) x x! Donde: == np = número esperado de éxitos = tasa promedio de éxitos n = número de repeticiones del experimento p = probabilidad de éxito = p(éxito) Una regla general aceptable es emplear esta aproximación si n20 y p0.05: sí n100, la aproximación es generalmente excelente siempre y cuando np10. Ejemplos: 1. 1. Se sabe que el 5% de los libros encuadernados en cierto taller tienen encuadernaciones defectuosas. Determine la probabilidad de que 2 de 100 libros encuadernados en ese taller, tengan encuadernaciones defectuosas, usando, a) la fórmula de la distribución Binomial, b) la aproximación de Poisson a la distribución Binomial. Solución: a) n = 100 p = 0.05 = p(encuadernación defectuosa) = p(éxito) q = 0.95 = p(encuadernación no defectuosa) = p(fracaso) x = variable que nos define el número de encuadernaciones defectuosas en la muestra = = 0, 1, 2, 3,....,100 encuadernaciones defectuosas P( x 2,n 100, p 0.05)100 C2( 0.05)2( 0.95)98 ( 4950)( 0.05)2( 0.95)98 0.0812 b)n = 100 encuadernaciones p = 0.05 = np = (100)(0.05)= 5 x = variable que nos define el número de encuadernaciones defectuosas en la muestra = = 0, 1, 2, 3,....,100 encuadernaciones defectuosas p( x 2, 5 ) x x! ( 5 )2 ( 2.718)5 0.0843 2! Al comparar los resultados de las probabilidades con una y otra distribución, nos damos cuenta de que la diferencia entre un cálculo y otro es de tan solo 0.0031, por lo que la aproximación de Poisson es una buena opción para calcular probabilidades Binomiales. 2.Un fabricante de maquinaria pesada tiene instalados en el campo 3840 generadores de gran tamaño con garantía. Sí la probabilidad de que cualquiera de ellos falle durante el año dado es de 1/1200 determine la probabilidad de que a) 4 generadores fallen durante el año en cuestión, b) que más 1 de un generador falle durante el año en cuestión. Solución: a) n = 3840 generadores p = 1/1200 = probabilidad de que un generador falle durante el año de garantía = np = (3840)(1/1200) = 3.2 motores en promedio pueden fallar en el año de garantía x = variable que nos define el número de motores que pueden fallar en el año de garantía = = 0, 1, 2, 3,....,3840 motores que pueden fallar en el año de garantía p( x 4, 3.2 ) ( 3.2 )4 ( 2.718)3.2 0.17815 4! b) p(x=2,3,4,....,3840;=3.2)=1-p(x=0,1;=3.2) = ( 3.2 )0 ( 2.718)3.2 ( 3.2 )1( 2.718)3.2 1 0! 1! =1- (0.04078 + 0.13048) = 0.82874 3. En un proceso de manufactura, en el cual se producen piezas de vidrio, ocurren defectos o burbujas, ocasionando que la pieza sea indeseable para la venta. Se sabe que en promedio 1 de cada 1000 piezas tiene una o más burbujas. ¿Cuál es la probabilidad de que en una muestra aleatoria de 8000 piezas, menos de 3 de ellas tengan burbujas? Solución: n = 8000 piezas p = 1/1000= 0.001 probabilidad de que una pieza tenga 1 o más burbujas = np = (8000)(1/1000) = 8 piezas en promedio con 1 o más burbujas x = variable que nos define el número de piezas que tienen 1 o más burbujas = = 0,1, 2, 3,....,8000 piezas con una o más burbujas p( x 0,1,2; 8 ) ( 8 )0 ( 2.718)8 ( 8 )1( 2.718)8 ( 8 )2 ( 2.718)8 0! 1! 2! = 0.000336 + 0.002686 + 0.010744 = 0.013766 FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html UNIDAD 4: MODELOS ANALITICOS DE FENOMENOS ALEATORIOS CONTINUOS. DEFINICION DE VARIABLE ALEATORIA CONTINUA. Variable aleatoria continua. Es aquella que puede tomar infinitos valores dentro de un intervalo de la recta real. Por ejemplo, la duración de las bombillas de una determinada marca y modelo. En el caso de variables aleatorias continuas no tiene sentido plantearse probabilidades de resultados aislados, por ejemplo, probabilidad de que una bombilla dure 100 horas, 22 minutos y 16 segundos. La probabilidad sería 0. El interés de estas probabilidades está en conocer la probabilidad correspondiente a un intervalo. Dicha probabilidad se conoce mediante una curva llamada función de densidad y suponiendo que bajo dicha curva hay un área de una unidad. Conociendo esta curva, basta calcular el área correspondiente para conocer la probabilidad de un intervalo cualquiera. La función de densidad de una v.a. continua cumple las siguientes condiciones: Sólo puede tomar valores comprendidos entre 0 y 1: 0 f ( x) 1 El área encerrada bajo la curva es igual a la unidad: f ( x).dx 1 . Ejercicio: x con x 0,6. Comprueba que es una función de densidad y calcula 18 p(2 x 5) Sea f ( x) Solución: Para que sea función de densidad 6 0 x dx tiene que valer 1. Veamos: 18 6 x 1 x2 1 36 0 18 dx 18 2 18 2 0 1 0 6 5 x 1 x2 1 25 4 21 7 p(2 x 5) dx 2 18 18 2 2 18 2 2 36 12 5 Función de distribución. Como en el caso de la v.a. discreta, la función de distribución proporciona la probabilidad acumulada hasta un determinado valor de la variable, es decir, F ( x) p( X x) . Cumple las siguientes condiciones: Su valor es cero para todos los puntos situados a la izquierda del menor valor de la variable. Su valor es 1 para todos los puntos situados a la derecha del mayor valor de la variable. Media y varianza de una v.a. continua. Existe cierta correspondencia entre la variable aleatoria discreta y la continua: Variable aleatoria discreta xi . p i Variable aleatoria continua x pi x 2 f ( x)dx 2 2 Lo que es 2 i pasa a ser 2 b x. f ( x).dx a 2 y lo que es pi pasa a ser f (x) b a Ejercicio 1. La función de densidad de una v.a. continua viene definida por : 2 x si 0 x 1 f ( x) 0 en el resto a) Halla la función de distribución. b) Calcula la media y la varianza. Solución: a) La función de distribución se obtiene integrando la función de densidad, es decir, A la izquierda de 0, su valor 0. A la derecha de 1, su valor es 1 x Entre 0 y 1: F ( x) p( X x) 2 xdx x 2 0 x 0 x2 0 si x 0 es decir, F ( x) x 2 si 0 x 1 1 para x 1 b 1 a 0 b) Cálculo de la media: x. f ( x).dx x.2 x.dx b 1 a 0 2 3 Cálculo de la varianza: 2 x 2 f ( x)dx 2 x 2 .2 x.dx 4 1 9 18 Ejercicio 2. Calcula la media, la varianza y la desviación típica de una v.a. que tiene como función de x3 con x 1,5 densidad: f ( x) 24 Solución: 5 b Media: x. f ( x).dx a b x3 1 5 2 1 x 3 3x 2 29 x. dx ( x 3x)dx 1 24 24 24 3 2 1 9 Varianza: x f ( x)dx 2 2 2 a 5 5 1 x3 1 5 29 29 x dx ( x 3 3x 2 )dx 24 24 1 9 9 1 x4 104 29 3 1,28 . x 24 4 81 1 9 2 Desviación típica: 1,28 1,13 2 2 2 Ejercicio 3. x2 1 con x 2,5 , una función de densidad. 36 a) Calcula su función de distribución. b) Calcula p(3 x 4) . Sea f ( x) Solución: x2 1 1 x 1 3 x 3 3x 2 a) F ( x) p( X x) dx ( x 2 1)dx ( x x) 3 2 36 36 2 36 108 2 Su valor es cero para todos los puntos situados a la izquierda de 2 Su valor es 1 para todos los puntos situados a la derecha de 5 x x 4 b) p(3 x 4) 4 3 x2 1 1 4 2 1 x3 1 x 3 3x 17 dx ( x 1)dx x 3 36 36 36 3 3 36 3 3 54 4 FUENTE: http://www.mundofree.com/fsanchezf/prob_est.htm Variables aleatorias continuas Definición 3.6 Sea una variable aleatoria con valores en y una densidad de probabilidad sobre . Se dice que es una variable aleatoria continua de densidad de se tiene: La ley de la variable aleatoria densidad si para todo intervalo es la ley continua sobre , de . Para determinar la ley de una variable aleatoria continua, hay que calcular su densidad. De manera equivalente, la ley de una variable continua se determina dando la probabilidad de que ella pertenezca a un intervalo cualquiera. Es lo que hemos hecho para nuestro ejemplo de base, el llamado a Random, que es una variable aleatoria continua, de densidad continua igual a : de densidad . Una variable aleatoria , cae entre y con una probabilidad Mientras más grande sea la densidad en un segmento, mayores serán las probabilidades de que caiga en ese segmento, lo cual justifica el término ``densidad''. Como ya hemos observado para Random, la probabilidad de que una variable aleatoria continua caiga en un punto cualquiera es nula. En consecuencia: Observemos también que el modificar una densidad en un número finito o numerable de puntos, no cambia de las integrales sobre los segmentos y en consecuencia la ley de probabilidad asociada tampoco cambia. El valor que toma la densidad en un punto particular, no es importante. Por ejemplo Random tiene como densidad a pero da lo mismo usar . Como en los casos discretos, debemos conocer algunos ejemplos básicos. Las densidades se dan en un punto cualquiera de . Ley uniforme. La ley uniforme sobre un intervalo es la ley de ``sorteos al azar'' en un intervalo. Si el intervalo función: son dos números reales, la ley uniforme sobre se denota por . Ella tiene por densidad a la Random es una variable aleatoria de ley uniforme . Ley exponencial. Las leyes exponenciales modelan intervalos de tiempo o duraciones aleatorias, como la vida de una partícula en física. La ley exponencial de parámetro densidad a la función: se denota por . Ella tiene por Ley normal. La ley normal, ley de Gauss o Laplace-Gauss es la más célebre de las leyes de probabilidad. Su éxito y su omnipresencia en las ciencias de la vida vienen del Teorema del Límite Centrado que estudiaremos más adelante. La ley normal de parámetros se denota por y . Ella tiene por densidad a la función: Las leyes exponenciales y normales constituyen el núcleo de las familias de leyes clásicas que se encuentran mas frecuentemente en estadística. Ley de Weibull. La ley de Weibull de parámetros y , denotada por , tiene por densidad: Se la emplea como modelo de duración aleatoria, principalmente en fiabilidad (duración de funcionamiento sin roturas, duración de reparación). La ley es la ley . Ley gamma. La ley gamma de parámetros tiene por densidad: y , denotada por donde es la ``función gamma'', definida por . Para entero, y , la ley es llamada ley de chi cuadrado con grados de libertad y se denota por . Esta es la ley de la suma de los cuadrados de variables aleatorias independientes de ley , se emplea para las varianzas empíricas de muestras gaussianas. La ley exponencial . es la ley Ley beta. La ley beta de parámetros por densidad: y , denotada por tiene Esta familia de leyes nos provee de modelos no uniformes para variables aleatorias acotadas. Si unas variables aleatorias independientes siguen la ley uniforme , sus estadígrafos de orden (valores reordenadas) siguen leyes beta. Ley log-normal. La ley log-normal es la ley de una variable aleatoria, de valores positivos, cuyo logaritmo sigue la ley densidad a la función: . Ella tiene por En medicina, numerosos parámetros fisiológicos son modelados empleando leyes log-normales. Ley de Student. La ley de Student con relación grados de libertad, , es la ley de la , donde las variables aleatorias independientes, de ley densidad a la función: , de ley e son . Ella tiene por Se la utiliza para estudiar la media empírica de una muestra gaussiana. Ley de Fisher. La ley de Fisher de parámetros la relación y , donde independientes de leyes por densidad a la función: (enteros positivos) es la ley de e son dos variables aleatorias y respectivamente. Ella tiene Se la emplea para comparar las varianzas de muestras gaussianas. FUENTE: http://www.math-info.univ-paris5.fr/~ycart/emel/cours/mp/node13.html FUNCION DE DENSIDAD Y ACOMULATIVA. La función de densidad de probabilidad normal Es bien conocido que el clasificador de Bayes minimiza la probabilidad de error de clasificación. Recordando la regla de clasificación de Bayes, Seleccionar si P( | X) > P( | X) para toda j i. o de otra forma, Seleccionar si P(X| ) > P(X| ) para toda j i. esta regla está determinada por la función de densidad de probabilidad, p (X| ). Así, suponiendo conocidas las probabilidades a priori, el cálculo de la densidad de probabilidad es un requisito indispensable para poder clasificar por esta regla cualquier patrón X y si se conoce la forma funcional de P(X| ) el problema es trivial. Entre las funciones de densidad de probabilidad, la función de densidad normal (gaussiana) es la más tratada en la Literatura por su tratabilidad analítica y sus interesantes propiedades. Algunas de ellas son: 1. Parámetros que especifican la distribución. La función de densidad normal queda completamente especificada por pocos parámetros. En el caso unidimensional, bastan únicamente dos parámetros: la media y la varianza. En el caso multidimensional, el vector medio y la matriz de covarianza. 2. Incorrelación e independencia. Dado un conjunto de patrones que siguen una distribución normal, si las variables asociadas están incorreladas, entonces son independientes. 3. Justificación física. La suposición de normalidad es una aproximación razonable para la mayor parte de los datos tomados de la Naturaleza. Esto es cierto, en particular, para variables aleatorias que son suma de otras variables y el teorema central del límite puede aplicarse. La función de densidad normal es acertada en situaciones en las que un conjunto de patrones de una determinada clase toman valores en un rango contínuo y alrededor de un patrón promedio. Esto es, considera que los patrones de clases diferentes tienen distintos valores pero los valores de los patrones de una clase son lo más parecidos posible. 4. Densidades marginales y condicionadas. Las densidades marginales y condicionadas de una distribución normal son también normales. 5. Invarianza frente a transformaciones lineales. La distribución que sigue cualquier combinación lineal de una variable aleatoria normal es también normal (con diferentes parámetros). Además, siempre es posible encontrar una transformación lineal y no singular que hace que la nueva matriz de covarianza sea diagonal, esto es, siempre puede encontrarse, para una distribución normal, un nuevo conjunto de ejes tal que las nuevas variables son independientes en este nuevo sistema. Esta propiedad es particularmente interesante cuando se aplican transformaciones lineales a los datos, con objeto de resaltar algunas características que se ponen de manifiesto con estas transformaciones. Además, desde un punto de vista práctico (dada su tratabilidad analítica) la relación calidad-costo de la clasificación es mucho mejor que con otros modelos más complejos y los clasificadores diseñados bajo esta suposición son clasificadores robustos. 2.1 La función de densidad de probabilidad normal unidimensional La forma de funcional de la función de densidad de probabilidad normal para una variable es la siguiente: (1) P (x| )= exp - que inidica la probabilidad de que, asumiendo que la clase cierta sea observado tenga el valor x. En la ecuación 1, = E [ x| , el patrón ] es la media de la clase i. )2| = E [ (x - ] es la varianza de la clase i. La función de densidad de probabilidad normal (unidimensional) está completamente especificada por dos parámetros: por P (x| ) N( , y . Por simplicidad, la ecuación 1 se suele abreviar ). En la figura 2 representamos tres funciones de densidad de probabilidad normales de media 0 y varianzas: 0.15, 1 y 2. Observar la forma simétrica y de ``campana'' que caracteriza a estas funciones. Recordar que el área bajo cada campana es 1 por lo que, informalmente hablando, las campanas bajas serán anchas mientras que las campanas estrechas serán altas. La ``anchura'' de las campanas está en relación inversa con el valor de la varianza: a menor varianza, los datos estarán más concentrados alrededor de la media y por lo tanto, la probabilidad de encontrar un valor cercano a la media aumenta: la altura de la campana es mayor. Figura 2: Tres fdp normales de media 0 y varianzas: 0.15, 1 y 2 Una propiedad interesante y útil de la función de densidad normal es la siguiente: el área bajo la curva de la función de densidad de probabilidad normal puede calcularse de forma precisa según el número de desviaciones típicas (ver figura 3). Figura 3: Areas bajo la curva de la fdp gaussiana en función del número de desviaciones típicas Este valor indica la proporción de la población que se encuentra en determinados intervalos centrados en la media. Así, si es el valor medio y es la desviación típica, El 68.3% de las observaciones están en el intervalo [ - El 95.4% de las observaciones están en el intervalo [ -2 , + 2 ]. El 99.7% de las observaciones están en el intervalo [ -3 , + 3 ]. En la práctica, y , + ]. son desconocidos y deben estimarse a partir de los prototipos de la clase . En la literatura pueden encontrarse diferentes estimadores para estos parámetros. Nosotros utilizaremos los siguientes estimadores, que tienen la propiedad de no estar sesgados: (2) xj = (3) (xj- = )2 donde: Ni es el número de prototipos de la clase i. xj es el j-ésimo prototipo de la clase i. 2.2 La función de densidad de probabilidad normal multidimensional La forma de funcional de la función de densidad de probabilidad normal para d variables es una extensión directa de la expresión dada en la ecuación 4: (4) P (X| )= exp - (X- T ) (X- ) donde: = E [ X| ] es el vector medio de la clase i, = E [ (X | )(X - )T| | es el determinante de ] es la matriz de covarianza de la clase i, ;/DD> es la matriz inversa de (X - , )T es el vector traspuesto de (X - ). La función de densidad de probabilidad normal multivariante está completamente especificada por los parámetros recogidos en suele abreviar por P (X| ) N( , y . Por simplicidad, la ecuación 4 se ). En la figura 4 mostramos la representación de una función de densidad de probabilidad normal para un conjunto de patrones bidimensionales Figura 4: Representación de una fdp normal bidimensional En la práctica, los parámetros que definen la distribución, = = son desconocidos y deben estimarse a partir del conjunto de prototipos. Estimadores no sesgados de y son: (5) = Xl (6) = (Xl )(Xl- )T donde Ni es el número de prototipos de la clase i y Xl es el l-ésimo prototipo de esa clase. Ejemplo Disponemos de un conjunto de 5 prototipos de una clase ( ). Los patrones (bidimensionales) correspondientes son los siguientes: X1 = [10, 10]T, X2 = [9, 9]T, X3 = [11, 11]T, X4 = [11, 9]T, X5 = [9, 11]T Se trata de calcular el vector medio y la matriz de covarianza utilizando los estimadores dados en 5 y 6. El cálculo del vector medio es directo: = Xl = + + + + = = mientras el cálculo de la matriz de covarianza requiere el cálculo previo de los vectores (Xl - (X1 - )= (X2 - )= ): - = - = (X3 y de las matrices (Xl - (X1 - (X2 - )= )(Xl- )(X1- )(X2- - (X4 - )= - = (X5 - )= - = = )T: )T = )T = [ 0, 0 ] = [- 1, - 1 ] = (X3 - )(X3- )T = [ 1, 1 ] = (X4 - )(X4- )T = [ 1, - 1 ] = (X5 - )(X5- )T = [- 1, 1 ] = Finalmente, = + + + + = = = = Así, los parámetros que definen la densidad de probabilidad de esta clase, estimados a partir del conjunto de prototipos disponibles son: = = Pueden calcularse individualmente los elementos de la matriz de covarianza a partir de la siguiente expresión: (7) = (Xjl - )(Xkl - ) j, k = 1, 2,..., d donde Xjl es la componente j-ésima del prototipo l-ésimo de la clase componente j-ésima del vector medio de la clase y es la . De esta manera los cálculos se pueden implementar sin necesidad de realizar cálculos matriciales. Ejemplo Sobre el ejemplo anterior, = {(10 - 10)(10 - 10) + (9 - 10)(9 - 10) + (11 - 10)(11 - 10) + + (11 - 10)(11 - 10) + (9 - 10)(9 - 10)} = = {(10 - 10)(10 - 10) + (9 - 10)(9 - 10) + (11 - 10)(11 - 10) + + (11 - 10)(9 - 10) + (9 - 10)(11 - 10)} = = {0 + 1 + 1 - 1 - 1} = 0 {(10 - 10)(10 - 10) + (9 - 10)(9 - 10) + (11 - 10)(11 - 10) + + (9 - 10)(11 - 10) + (11 - 10)(9 - 10)} = = {0 + 1 + 1 + 1 + 1} = 1 {0 + 1 + 1 - 1 - 1} = 0 {(10 - 10)(10 - 10) + (9 - 10)(9 - 10) + (11 - 10)(11 - 10) + + (9 - 10)(9 - 10) + (11 - 10)(11 - 10)} = {0 + 1 + 1 + 1 + 1} = 1 Los resultados obtenidos son, obviamente, iguales que los anteriores. A continuación enumeraremos algunas propiedades interesantes y muy útiles de la matriz de covarianza. 1. La matriz de covarianza es simétrica y (semi)definida positiva. Que la matriz sea simétrica indica que = por lo que si la estimación se realiza utilizando la expresión 7 tan sólo habrá que calcular las componentes de la diagonal y las de uno de los dos triángulos. En definitiva, de calcular d2 componentes se pasa a calcular únicamente d (d + 1)/2. El hecho de que sea definida positiva implica que | | > 0 por lo que la expresión 4 puede calcularse sin problemas, al ser el radicando del denominador estrictamente positivo. 2. El valor de covarianza es la covarianza de la clase i entre las variables j y k ( j, k = 1, 2,..., d j k) y se interpreta como la relación o dependencia entre estas dos variables. 3. Los valores de la diagonal de la matriz de covarianza son las varianzas de las variables individuales. De la expresión 7, para un j fijo y cuando k = j tenemos que (Xjl - = = con lo que = (Xjl- )(Xjl - ) = )2 . 4. Si = 0, las variables j y k son estadísticamente independientes. Si no, existe correlación entre ellas. Figura 5: A) Variables independientes. B) Variables correladas FUENTE: http://www-etsi2.ugr.es/depar/ccia/rf/www/tema2_00-01_www/node3.html Distribución uniforme o rectangular Se dice que una v.a. X posee una distribución uniforme en el intervalo [a,b], si su función de densidad es la siguiente: Con esta ley de probabilidad, la probabilidad de que al hacer un experimento aleatorio, el valor de X este comprendido en cierto subintervalo de [a,b] depende únicamente de la longitud del mismo, no de su posición. Cometiendo un pequeño abuso en el lenguaje, podemos decir que en una distribución uniforme la probabilidad de todos los puntos del soporte es la misma 6.2. Teniendo en cuenta que si la función de distribución de , es: Figura: Función de densidad y de distribución de La función característica es Como esta distribución es muy simple, vamos a calcular sus momentos más usuales directamente a partir de la definición, en lugar de usar la función característica: FUENTE: http://ftp.medprev.uma.es/libro/node77.htm Distribución exponencial La distribución exponencial es el equivalente continuo de la distribución geométrica discreta. Esta ley de distribución describe procesos en los que: Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende del tiempo transcurrido anteriormente en el que no ha pasado nada. Ejemplos de este tipo de distribuciones son: El tiempo que tarda una partícula radiactiva en desintegrarse. El conocimiento de la ley que sigue este evento se utiliza en Ciencia para, por ejemplo, la datación de fósiles o cualquier materia orgánica mediante la técnica del carbono 14, C14; El tiempo que puede transcurrir en un servicio de urgencias, para la llegada de un paciente; En un proceso de Poisson donde se repite sucesivamente un experimento a intervalos de tiempo iguales, el tiempo que transcurre entre la ocurrencia de dos sucesos consecutivos sigue un modelo probabilístico exponencial. Por ejemplo, el tiempo que transcurre entre que sufrimos dos veces una herida importante. Concretando, si una v.a. continua X distribuida a lo largo de densidad es , es tal que su función de se dice que sigue una distribución exponencial de parámetro , . Figura: Función de densidad, f, de una . Un cálculo inmediato nos dice que si x>0, luego la función de distribución es: Figura: Función de distribución, F, de , calculada como el área que deja por debajo de sí la función de densidad. Para calcular el valor esperado y la varianza de la distribución exponencial, obtenemos en primer lugar la función característica para después, derivando por primera vez y derivando por segunda vez, Entonces la varianza vale 6.8.4.1 Ejemplo En un experimento de laboratorio se utilizan 10 gramos de . Sabiendo que la duración media de un átomo de esta materia es de 140 días, ¿cuantos idas transcurrirán hasta que haya desaparecido el de este material? Solución: El tiempo T de desintegración de un átomo de exponencial: es una v.a. de distribución Como el número de átomos de existentes en una muestra de 10 gramos es enorme, el histograma de frecuencias relativas formado por los tiempos de desintegración de cada uno de estos átomos debe ser extremadamente aproximado a la curva de densidad, f. Del mismo modo, el polígono de frecuencias relativas acumuladas debe ser muy aproximado a la curva de su función de distribución F. Entonces el tiempo que transcurre hasta que el del material radiactivo se desintegra es el percentil 90, t90, de la distribución exponencial, es decir Figura: Como el número de átomos (observaciones) es extremadamente alto en 10 gramos de materia, el histograma puede ser aproximado de modo excelente por la función de densidad exponencial, y el polígono de frecuencias acumuladas por la función de distribución. 6.8.4.2 Ejemplo Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una distribución exponencial con media de 16 años. ¿Cuál es la probabilidad de que a una persona a la que se le ha implantado este marcapasos se le deba reimplantar otro antes de 20 años? Si el marcapasos lleva funcionando correctamente 5 años en un paciente, ¿cuál es la probabilidad de que haya que cambiarlo antes de años? Solución: Sea T la variable aleatoria que mide la duración de un marcapasos en una persona. Tenemos que Entonces En segundo lugar Luego como era de esperar, por ser propio a un mecanismo exponencial, o sea, en la duración que se espera que tenga el objeto, no influye en nada el tiempo que en la actualidad lleva funcionando. Es por ello que se dice que ``la distribución exponencial no tiene memoria". FUENTE: http://ftp.medprev.uma.es/libro/node78.htm DISTRIBUCION NORMAL. DISTRIBUCIÓN NORMAL o campana de Gauss-Laplace Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución. Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana. En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo valor de p y valores de n cada vez mayores, se ve que sus polígonos de frecuencias se aproximan a una curva en "forma de campana". En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, p.ejm. tallas, pesos, envergaduras, diámetros, perímetros,... Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono. Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen. Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,... Errores cometidos al medir ciertas magnitudes. Valores estadísticos muestrales, por ejemplo : la media. Otras distribuciones como la binomial o la de Poisson son aproximaciones normales, ... Y en general cualquier característica que se obtenga como suma de muchos factores. FUNCIÓN DE DENSIDAD Empleando cálculos bastante laboriosos, puede demostrarse que el modelo de la función de densidad que corresponde a tales distribuciones viene dado por la fórmula Representación gráfica de esta función de densidad La distribución normal queda definida por dos parámetros, su media y su desviación típica y la representamos así FUNCIÓN DE DISTRIBUCIÓN Puede tomar cualquier valor (- , + ) Son más probables los valores cercanos a uno central que llamamos media Conforme nos separamos de ese valor , la probabilidad va decreciendo de igual forma a derecha e izquierda (es simétrica). Conforme nos separamos de ese valor , la probabilidad va decreciendo de forma más o menos rápida dependiendo de un parámetro , que es la desviación típica. F(x) es el área sombreada de esta gráfica TIPIFICACIÓN Por tanto su función de densidad es y su función de distribución es siendo la representación gráfica de esta función a la variable Z se la denomina variable tipificada de X, y a la curva de su función de densidad curva normal tipificada. Característica de la distribución normal tipificada (reducida, estándar) No depende de ningún parámetro Su media es 0, su varianza es 1 y su desviación típica es 1. La curva f(x) es simétrica respecto del eje OY Tiene un máximo en este eje Tiene dos puntos de inflexión en z =1 y z = -1 Aproximación de la Binomial por la Normal (Teorema de De Moivre) : Demostró que bajo determinadas condiciones (para n grande y tanto p como q no estén próximos a cero) la distribución Binomial B(n, p) se puede aproximar mediante una distribución normal Debemos tener en cuenta que cuanto mayor sea el valor de n, y cuanto más próximo sea p a 0.5, tanto mejor será la aproximación realizada. Es decir, basta con que se verifique gracias a esta aproximación es fácil hallar probabilidades binomiales, que para valores grandes de n resulten muy laboriosos de calcular. Hay que tener en cuenta que para realizar correctamente esta transformación de una variable discreta (binomial) en una variable continua (normal) es necesario hacer una corrección de continuidad. FUENTE: http://personal5.iddeo.es/ztt/Tem/t21_distribucion_normal.htm 1. DISTRIBUCIÓN NORMAL. Características: a) a) Es generada por una variable de tipo continuo, denominada x; - x b) b) La función que nos define esta distribución es: f ( x , , 2 ) 2 2 1 ( x ) / 2 2 - x Al dar a la función los valores de , 2 y valores a x, obtendremos la distribución en cuestión, la que tiene forma de campana, por lo que también se le conoce como campana de Gauss. Hay un número infinito de funciones de densidad Normal, una para cada combinación de y . La media mide la ubicación de la distribución y la desviación estándar mide su dispersión. c) Es simétrica con respecto a su eje vertical. d) Es asintótica con respecto a su eje horizontal; esto quiere decir que jamás va a tocar el eje de las equis. e) El área total bajo la curva es 1. f) Sí sumamos a , se observará que aproximadamente el 68.26% de los datos se encuentran bajo la curva, si sumamos a 2, el 95.44% de los datos estará entre esos límites y si sumamos a 3, entonces el 99.74% de los datos caerá dentro de esos límites. Esta característica es a la vez una forma empírica y rápida de demostrar si los datos que se analizan tienen una distribución Normal; ya que para trabajar los datos con esta distribución, debe verificarse que efectivamente así se distribuyen, ya que de no hacerlo, las decisiones que en un momento dado se tomarán de un análisis de los datos con la distribución Normal, serían erróneas. ¿Cómo se determinan probabilidades con la distribución Normal? De acuerdo a como se trataron las distribuciones de probabilidad continuas en la unidad III, lo más lógico es que la función f(x, , 2), se integre entre los límites de la variable x; esto es, b p( a x b ) f ( x , , 2 )dx a La integral anterior nos daría el área bajo la curva de la función, desde a hasta b, que corresponde o es igual a la probabilidad buscada. Debido a la dificultad que se presenta para integrar esta función cada vez que sea necesario, lo que se hace es tipificar el valor de la variable x, esto es, x se transforma en un valor de z, de la siguiente manera: x z valor Este valor de z es buscado en una tabla donde vienen áreas asociadas a este valor, y haciendo uso de los valores tabulados, se determina la probabilidad requerida. La tabla que es usada para calcular las probabilidades es la que nos dá el área que se muestra a continuación: 0 Z Ejemplos: 1. 1. El acero que se utiliza para tuberías de agua a menudo se recubre internamente con un mortero de cemento para evitar la corrosión. En un estudio de los recubrimientos de mortero de una tubería empleada en un proyecto de transmisión de agua en California (Transportation Engineering Journal, Noviembre de 1979) se especificó un espesor de 7/16 pulgadas para el mortero. Un gran número de mediciones de espesor dieron una media de 0.635 pulgadas y una desviación estándar de 0.082 pulgadas. Sí las mediciones de espesor, tenían una distribución Normal, ¿qué porcentaje aproximado fue inferior a 7/16 de pulgada? Solución: x = variable que nos define el espesor del mortero en pulgadas = 0.635 pulgadas = 0.082 pulgadas X = 7/16 =0.635 Z Z 7 / 16 0.635 0.4375 0.635 2.4085 2.41 0.082 0.082 p(z = -2.41) = 0.492 p(x 7/16 pulgadas) = 0.5- p(z = -2.41) = 0.5-0.492 = 0.008 Por tanto, 0.008 x 100% = 0.8% de los recubrimientos de mortero tienen un espesor menor de 7/16 pulgadas 2. 2. Un tubo fluorescente estándar tiene una duración distribuida Normalmente, con una media de 7,000 horas y una desviación estándar de 1,000 horas. Un competidor ha inventado un sistema de iluminación fluorescente compacto que se puede insertar en los receptáculos de lámparas incandescentes. El competidor asegura que el nuevo tubo compacto tiene una duración distribuida Normalmente con una media de 7,500 horas y una desviación estándar de 1,200 horas. a. ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración mayor de 9,000 horas? b. ¿Cuál tubo tiene mayor probabilidad de tener una duración de menos de 5,000 horas? Solución: a) Tubo 1 X1 = variable que nos define la duración en horas de un tubo fluorescente = 7,000 horas = 1,000 horas Tubo 2 X2 = variable que nos define la duración del tubo fluorescente del competidor = 7,500 horas = 1,200 horas =7000 z1 9,000 7 ,000 2.00 1,000 X= 9000 p(z1 = 2.00) = 0.4772 p(x1 9,000 horas) = 0.5 – p(z1 = 2.00) = 0.5 – 0.4772 = 0.0228 =7500 z2 9,000 7 ,500 1.25 1,200 X = 9000 p(z2 = 1.25) = 0.3944 p(x2 9,000 horas) = 0.5 – p(z2 = 1.25) = 0.5 –0.3944 = 0.1056 Por tanto el tubo fluorescente del competidor tiene una probabilidad mayor de durar más de 9,000 horas. b) z1 5,000 7 ,000 2.00 1,000 p(z1 = -2.00) = 0.4772 p(x1 5,000 horas) = 0.5 – p(z1 = -2.00) = 0.5 – 0.4772 = 0.0228 X = 5000 z2 = 7500 5,000 7 ,500 2.08 1,200 p(z2 = -2.08) = 0.4812 p(x2 5,000 horas) = 0.5 – p(z2 = - 2.08) = 0.5 – 0.4812 = 0.0188 Por tanto, el tubo fluorescente que tiene una mayor probabilidad de durar menos de 5,000 horas es el del primer fabricante. 3. 3. La distribución de la demanda (en número de unidades por unidad de tiempo) de un producto a menudo puede aproximarse con una distribución de probabilidad Normal. Por ejemplo, una compañía de comunicación por cable ha determinado que el número de interruptores terminales de botón solicitados diariamente tiene una distribución Normal, con una media de 200 y una desviación estándar de 50. a) a) ¿En qué porcentaje de los días la demanda será de menos de 90 interruptores? b) b) ¿En qué porcentaje de los días la demanda estará entre 225 y 275 interruptores? c) c) Con base en consideraciones de costos, la compañía ha determinado que su mejor estrategia consiste en producir una cantidad de interruptores suficiente para atender plenamente la demanda en 94% de todos los días. ¿Cuantos interruptores terminales deberá producir la compañía cada día? Solución: a) X = variable que nos indica el número de interruptores demandados por día a una compañía de cable = 200 interruptores por día = 50 interruptores por día = 200 X = 90 z 90 200 2.20 50 p(z = - 2.20) = 0.4861 p(x 90) = 0.5 – p(z = -2.20) = 0.5 – 0.4861 = 0.0139 Por tanto, 0.0139 x 100% = 1.39% de los días se tendrá una demanda menor de 90 interruptores. b) = 200 X2 = 275 X1 = 225 z1 225 200 0.50 50 p(z1= 0.50) = 0.1915 z2 275 200 1.50 50 p(z2 = 1.50) = 0.4332 p(225 x 275) = p(z2) – p(z1) = 0.4332 – 0.1915 = 0.2417 Por tanto, 0.2417 x 100% = 24.17% de los días se tendrá una demanda entre 225 y 275 interruptores. c) c) En este caso se trata de determinar que valor toma x cuando se pretende cumplir con el 94% de la demanda de todos los días. Por tanto despejaremos de la fórmula de z; 94% = 200 X=¿ Z Z x ; x = + z x = + z(p = 0.44) = 200 + z(p = 0.44)(50) = = 200 + (1.55)(50) = 277.5 278 interruptores terminales por día ¿cómo se obtiene el valor de z? En la tabla buscamos la z que corresponde a una probabilidad de 0.44 y nos damos cuenta de que no existe un valor exacto de 0.44 por lo que tomamos los valores de área más cercanos; luego, z(p = 0.4394) = 1.50; z(p = 0.4406) = 1.60 Por tanto si interpolamos, encontramos que el valor de z para una probabilidad de 0.44 es de 1.55, y es el valor que se sustituye en la ecuación. ¿Cuál es la razón de usar un área de 0.44 en lugar de una de 0.94 para buscar en la tabla el valor de z? Es muy simple, la tabla que estamos usando es una tabla que solo trabaja con áreas que son definidas de la media hasta el valor de x y x puede estar tanto del lado derecho de la media, como del lado izquierdo de la media, es por esto que el área a utilizar es de 0.44 que se encuentra al lado derecho de la media. FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html TEOREMA DE SHEBYSHEV o Teorema de Chebyshev: Para un conjunto cualquiera de observaciones (muestra o población), la proporción mínima de los valores que se encuentran dentro de k desviaciones estándares desde la media es al menos 1 - 1/k2, donde k es una constante mayor que 1. FUENTE: http://html.rincondelvago.com/medidas-de-dispersion.html La desigualdad de Chebyshev es un resultado estadístico que ofrece una cota inferior a la probabilidad de que el valor de una variable aleatoria con varianza finita esté a una cierta distancia de su esperanza matemática o de su media; equivalentemente, el teorema proporciona una cota superior a la probabilidad de que los valores caigan fuera de esa distancia respecto de la media. El teorema es aplicable incluso en distribuciones que no tienen forma de "curva de campana" y acota la cantidad de datos que están o no "en medio". Teorema: Sea X una variable aleatoria de media μ y varianza finita σ2. Entonces, para todo número real k > 0, Para ilustrar este resultado, supongamos que los artículos de Wikipedia tienen una extensión media de 1000 caracteres y una desviación típica de 200 caracteres. De la desigualdad de Chebyshev se deduce que al menos el 75% de los artículos tendrán una extensión comprendida entre 600 y 1400 caracteres (k = 2). Otra consecuencia del teorema es que para cada distribución de media μ y desviación típica finita σ, al menos la mitad de los valores caerán en el intervalo (μ-√2 σ, μ+√2 σ). Las cotas proporcionadas por la desigualdad de Chebyshev, en general, no se pueden mejorar; es posible construir una variable aleatoria cuyas cotas de Chebyshev sean exactamente iguales a las probabilidades reales. Sin embargo, en general el teorema proporcionará cotas poco precisas. El teorema puede ser útil a pesar de las cotas imprecisas porque se aplica a una amplia gama de variables que incluye las que están muy alejadas de la distribución normal, y porque las cotas son fáciles de calcular. El teorema se emplea para demostrar la ley débil de los números grandes. El teorema recibe su nombre del matemático Pafnuty Chebyshev. FUENTE: http://es.wikipedia.org/wiki/Desigualdad_de_Chebyshev UNIDAD 5: REGRESION Y CORRELACION SIMPLE. REGRESION LINEAL SIMPLE Y CURVILINEA. En un problema de regresión, los carácteres no son considerados de la misma forma. Uno de ellos es el carácter ''a explicar'', los otros son ''explicativos''. Vamos primero a considerar el caso de dos carácteres, (explicativo) e (a explicar). ''Explicar'' significa aquí expresar una dependencia funcional de manera tal de prever el valor de individuo , conociendo el de , y si se observa un valor en un nuevo individuo, daremos carácter como función de , de . Si para todo del carácter como predicción del en este nuevo individuo. La situación ideal donde no se encuentra nunca en la práctica. Más bien se buscará, en una familia fija de funciones, aquella para la que los encuentran más cerca de los por el error cuadrático medio: se . La cercanía se mide en general (3.2) Hablamos entonces de regresión en el sentido de los mínimos cuadrados. Las diferencias entre los valores observados y los valores que predice el modelo , se llaman los residuos. Si el modelo se ajusta de manera tal que la serie de los residuos sea centrada (de media nula), entonces el error cuadrático es la varianza de los residuos. La regresión lineal consiste en buscar entre las funciones afines. La solución se expresa de manera simple a partir de las carácterísticas de e . Proposición 3.5 Sean e dos muestras observadas sobre una misma población de tamaño de en definida por: Si (el carácter un mínimo en: . Denotemos por no es constante), la función la función admite y El valor de este mínimo es: Definición 3.6 Llamamos recta de regresión lineal de la recta de ecuación Demostración: Si fijamos : a . , es un polinomio de grado en . El alcanza su mínimo para un anule. Calculando: Obtenemos por tanto sobre tal que la derivada se . Substituimos este valor en Esta función es un polinomio de grado en , que alcanza su mínimo en el punto donde se anula su derivada. Obtenemos: sea: Pongamos: y Tenemos entonces para todo par : El valor del mínimo es: Como se esperaba, el error cuadrático minimal es menor cuando la correlación es más fuerte. Es importante observar la diferencia de los roles que desempeñan e . Geométricamente, la recta de regresión lineal de con respecto a minimiza la suma de las distancias verticales de los puntos a la recta. La recta de regresión lineal de con respecto a minimiza las distancias horizontales. Las dos rectas se cortan en el centro de gravedad, , de la nube de puntos. La separación entre las dos rectas es mayor cuando la correlación es más débil. La predicción es la primera aplicación de la regresión lineal. A continuación tenemos las estaturas en centímetros (muestra ) y el peso en kilogramos ( ) de Niño 1 2 3 niños de años. 4 5 6 7 8 9 10 Estatura 121 123 108 118 111 109 114 103 110 115 Peso 25 22 19 24 19 18 20 15 20 21 Las carácterísticas numéricas toman los siguientes valores: Gráfico 14: Estatura y peso de niños de 6 años: recta de regresión. Hacer una regresión lineal quiere decir que se piensa que el peso debe crecer, en general, proporcionalmente a la estatura. La recta de regresión lineal constituye un modelo de predicción. Por ejemplo diremos que el peso promedio de un niño de 6 años que mide 120 centímetros será de kg. Evidentemente esta predicción no es infalible. Ella sólo da un orden de magnitud. El valor observado será probablemente distinto y el error previsible será del orden de kg. Como segunda aplicación se puede extender el ajuste por cuantiles a familias de leyes invariantes por transformaciones afines, como las leyes normales . Sea una muestra continua de tamaño para la cual queremos verificar si ella podría haber salido de una ley normal , con parámetros y desconocidos. Para , denotemos como siempre por los estadígrafos de orden. Si la hipótesis de normalidad es pertinente, entonces debe estar cerca del cuantil de la ley Recordemos que si una variable aleatoria entonces decir que para todo sigue la ley : sigue la ley . , . Esto es lo mismo que Denotemos por la ley los valores de la función cuantil de en los puntos . Si la hipótesis de normalidad se verifica, los puntos de coordenadas de la recta de ecuación con respecto a las deberían estar cercanos . Una regresión lineal de las nos da a la vez una estimación de los valores de y , y una indicación sobre la calidad del ajuste (figura 15). Antes de que existieran los programas de cálculo, se vendía papel ''gausso-aritmético'', graduado en las abscisas según los cuantiles de la ley . Bastaba poner en las ordenadas los valores de las para trazar a mano la recta de regresión lineal, que lleva el nombre de ''recta de Henry'', por el nombre del coronel que inventó este método en el siglo XIX para estudiar el alcance de los cañones. Gráfico 15: Estaturas de niños de 6 años. Cuantiles de la ley normal y estadígrafos de orden. Superposición de la recta de Henry. El problema de la regresión es determinar en una familia de funciones dada, cual es la función que minimiza el error cuadrático (3.2). Pero es frecuente que no haya una solución explícita. Para ciertas familias de funciones, se transforma el problema de manera tal de llevarlo a una regresión lineal. Presentamos aquí algunos casos frecuentes. Familia Funciones Transformación Forma afín exponencial potencia inversa logística Como ejemplo de aplicación, vamos a tomar el problema del ajuste por los cuantiles para la familia de leyes de Weibull, las cuales se emplean frecuentemente para modelar tiempos de sobrevida en medicina o tiempos de funcionamiento en fiabilidad. La función cuantil de la ley de Weibull es: Sea una muestra que queremos ajustar por una ley de Weibull de parámetros orden y desconocidos. Para debe estar cerca del cuantil , el estadígrafo de . o sea: Pongamos y . Los puntos deberían estar cerca de la recta de ecuación . Una regresión lineal nos dará no solamente los valores para y , sino también una indicación sobre la calidad del ajuste. Antes de los programas de cálculo, existía también un ''papel Weibull'', graduado de manera tal que se podía automatizar este caso particular de regresión no lineal. FUENTE: http://www.math-info.univ-paris5.fr/~ycart/emel/cours/sd/node14.html Regresión Lineal Simple (Recta de Regresión) El problema de la regresión lineal simple entre dos variables X y Y se reduce a calcular la recta de regresión que mejor represente su distribución conjunta. Los datos se presentan como una matriz de dos columnas: siendo (xi, yi), con i= 1, 2, ..., n, el i-ésimo par observado. Se pretende ajustar un modelo de la forma yi=a xi+b+ei bajo las siguientes hipótesis: 1. La variable respuesta yi depende de la variable explicativa xi de forma lineal (con pendiente a y ordenada en origen b), más un factor residual aleatorio ei. 2. Los residuos tienen distribución normal de media 0 y varianza desconocida. 3. Estos factores aleatorios son independientes entre sí. Los parámetros de la recta de regresión, a y b, se calculan siguiendo el criterio de los mínimos cuadrados, lo que lleva a los siguientes resultados: siendo y las medias de ambas variables estadísticas. La varianza residual es desconocida, siendo su estimador insesgado Definiendo el coeficiente de correlación como , que sólo toma valores en el intervalo [-1, 1], nos da una idea de hasta qué punto el ajuste lineal es razonable: Si r es próximo a -1: el ajuste es aceptablemente bueno, distribuyéndose las observaciones (xi, yi) alrededor de una recta de pendiente negativa. Si r es próximo a 0: el ajuste no es aceptable, indicando que no existe relación lineal entre las variables. Si r es próximo a +1: el ajuste es aceptablemente bueno, distribuyéndose las observaciones (xi, yi) alrededor de una recta de pendiente positiva. El contraste de independencia entre las variables es más objetivo que la simple observación del coeficiente de correlación r. Así se plantea comprobar si los datos observados corroboran o no la hipótesis nula: H0: "la variable explicativa X no influye en la respuesta Y". frente a la alternativa: H1: "la variable explicativa X influye linealmente en la respuesta Y". Mediante el estadístico de contraste que se distribuye como una tn-2 de Student, se puede contrastar la hipótesis nula H0 al nivel de significación del 5%. Caso Se dispone de los datos de ocho anestesias de diferente duración, efectuadas con un anestésico volátil y del tiempo en que se restablece la conciencia suficiente como para contar hacia atrás desde un número determinado sin error: Duración Duración anestesia (min) despertar (min) 150 13 127 16 160 21 210 20 250 16 130 13 60 12 55 14 Se intenta probar la hipótesis de que la duración del despertar no está influida por la de la anestesia. El coeficiente de correlación para esta muestra es de 0.562231, a medio camino entre el 0 y el 1, no permitiendo dar una respuesta segura sobre el contraste; en cambio, el estadístico A toma un valor de 1.66531, del que se puede deducir que la hipótesis no puede rechazarse al nivel del 5%; en conclusión, no hay indicios de que la duración del despertar esté linealmente relacionada con el tiempo de duración de la anestesia. Si se hubiese rechazado la hipótesis de independencia, se podrían ajustar los datos a la recta de ecuación y = 0.03 x + 11.62, siendo x la duración de la anestesia e y la del despertar. (Fuente: J. Gil Cebrián (1995) Estadística no paramétrica. RA-MA, Madrid.) FUENTE: http://es.geocities.com/riotorto/regr/regr_simple/regr_simple.htm FORMULAS DE REGRESION LINEAL SIMPLE: FUENTE: http://www.elosiodelosantos.com/sergiman/div/forpear.html Predicción en regresión lineal simple. Como se comentó anteriormente hay dos objetivos básicos en el ajuste de un modelo de regresión: - Conocer la relación existente entre la variable respuesta y las variables regresoras. En el caso de la regresión lineal simple se estima la mejor recta de regresión que relaciona la variable Y con la variable X y se cuantifica la importancia de dicha relación por medio del coeficiente de correlación, r. - Utilizar el modelo de regresión ajustado para “predecir” el valor de la variable respuesta Y cuando la variable regresora toma un valor determinado, X = xt. En esta sección se estudia este segundo objetivo. Ésto es, estimada la recta de regresión, ¿cómo predecir el valor de Y sabiendo que la variable regresora toma el valor X = xt? Ante esta pregunta, se deben distinguir dos situaciones diferentes: Estimar la media de la distribución condicionada de Y/X = xt : E mt. = Se quiere responder a preguntas del tipo: “¿cuál es el gasto medio en material informático de las empresas que tienen unos ingresos globales de 300 millones anuales?”. Predecir el valor de la variable respuesta en un individuo de la población en estudio del que se sabe que X = xt. Esto es, predecir un valor de la variable condicionada Y/X=xt Se quiere responder a preguntas del tipo: “La empresa MEGA tiene unos ingresos anuales de 300 millones, ¿cuál será el gasto en material informático de esta empresa?”. 6.9.1 Estimación de las medias condicionadas. Una vez calculada la recta de regresión de la variable Y respecto a X, se quiere estimar el parámetro mt = E . Para ello, como estimador se utiliza el que proporciona la recta de regresión, sustituyendo xt por x en la ecuación de la recta, (6.19) Este estimador verifica las siguientes propiedades: 1. Es centrado o insesgado, E 2. La varianza es, = mt. (6.20) 3. donde (6.21) 4. nt se denomina número equivalente de observaciones para estimar mt. 5. Teniendo en cuenta que en una muestra de tamaño n, la varianza de la media muestral es V ar = 2/n, la interpretación de nt es la siguiente: “la información que proporciona la muestra, de tamaño n, de datos bivariantes n para estimar mt es la misma que proporcionaría una muestra de i=1 tamaño nt de observaciones univariantes de una población con distribución igual a la de Y/X = xt”. 6. De la expresión de nt se deduce que este valor será mayor cuanto más próximo esté xt de . Y si xt = se verifica que nt = n. 7. La inversa de nt, htt = 1/nt se denomina valor de influencia de la observación xt (muy utilizado el nombre en inglés leverage) y se verá más adelante que es una medida de la influencia de la observación (si este es uno de los datos muestrales) en el cálculo de la recta de regresión. 8. La distribución del estimador t es normal, 9. En la práctica el estadístico anterior no se puede utilizar para calcular intervalos de confianza de mt porque es desconocido. Por ello, se sustituye por su estimador R y bajo la hipótesis de normalidad se obtiene la siguiente distribución, (6.22) La distribución dada en (6 .22) permite calcular intervalos de confianza de mt con un nivel de confianza , de la siguiente forma, (6.23) Al utilizar el modelo de regresión lineal para estimar una media condicionada o predecir una observación debe de tenerse en cuenta que el método proporciona resultados aceptables dentro del rango de valores muestrales de la X (interpolar), aquí está garantizado que 1 < nt < n. Si xt es un punto muy alejado de (aún estando dentro de la nube de observaciones está muy alejado del centro de la misma) entonces nt 1 y la varianza de t será muy grande con lo que se obtienen estimaciones con poca precisión (mucha variabilidad). El caso opuesto es que xt = y, por tanto, nt = n, ahora la varianza de t es 2/n, la menor posible. Por otra parte, si se quiere predecir fuera del rango de valores muestrales de X (extrapolar), entonces xt - puede ser muy grande y, en consecuencia, nt 0, lo que hace que la precisión de la estimación de mt sea muy pequeña por tener el estimador t una varianza muy grande y, por tanto, obtener resultados con muy poca validez. 6.9.2 Predicción de una observación. Se quiere predecir el valor de la variable aleatoria Y/X = xt teniendo en cuenta que se ha ajustado una recta de regresión. El problema es conceptualmente diferente del anterior, ya que en el apartado anterior se estima un parámetro (la media condicionada) y ahora se quiere predecir el resultado de una variable aleatoria. El predictor que se utiliza t se obtiene como aquel que minimize el Error Cuadrático Medio de Predicción. Esto es, t se obtiene como el valor que minimiza la siguiente función Al resolver este problema de minimización se obtiene como predictor el resultado de sustituir el valor de xt en la recta de regresión calculada, Por tanto, la predicción de Y/X = xt es la misma que la estimación de mt pero su varianza aumenta ya que la variabilidad debida a la muestra se incrementa con la variabilidad propia de la variable aleatoria que se quiere predecir . Ahora la varianza de la predicción es Var( t - yt) = Por la hipótesis de normalidad y razonando como en el apartado anterior se obtiene Utilizando esta distribución se puede calcular un “intervalo de predicción” para yt, con un nivel de confianza , de la siguiente forma Por ser la var mucho mayor que la var , los intervalos de predicción de yt son mucho mayores que los intervalos de confianza de mt. FUENTE: http://www.udc.es/dep/mate/estadistica2/sec6_9.html ¿Cómo realizar una Regresión lineal simple? Una hoja Excel que contiene los datos y de resultados de este ejemplo puede ser descargado haciendo clic aquí. Los datos proceden de Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. Corresponden a 237 niños detallados por su sexo, su edad en meses, su tamaño en inch (1 inch = 2.54 cm), y su peso en libras (1 libra = 0.45 kg). En utilizar la regresión lineal simple, nuestro objetivo es estudiar como el peso varía en función del tamaño, y si una relación lineal tiene una orientación. Nos restringimos aquí al caso de las chicas. Se trata aquí de una regresión lineal simple, porque una sola variable explicativa es utilizada (el tamaño). En un tutorial sobre la Regresión lineal simple, este ejemplo es reproducido con el fin de estudiar la influencia de la edad sobre está relación. Un tutorial sobre el ANCOVA reproduce este ejemplo con el fin de añadir el sexo (variable cualitativa) como variable explicativa, y los datos que corresponde a los varones son entonces tomados en cuenta. Una vez XLSTAT iniciado, elija el comando XLSTAT/Modelización/Regresión o haga clic en el botón "Regresión" de la barra de herramientas "Modelización". Una vez el botón presionado, aparece el cuadro de diálogo que corresponde a la regresión. Puede elegir entonces los datos en la hoja Excel. La "Variable a modelizar" corresponde a la variable explicada (o variable dependiente), es decir en este caso preciso, el peso. La variable cuantitativa explicativa es aquí tamaño. Queremos explicar aquí la variabilidad del peso por la del tamaño. La opción "Referencias presentes" se deja activada ya que la primera línea de columnas incluye el número de las variables. Dejamos seleccionada la opción "Individuos" ya que analizaremos las predicciones y los residuos para validar la hipótesis de normalidad de la regresión, e identificar valores extremos. Una vez que haga clic en el botón "OK", los cálculos empiezan y los resultados son visualizados. El primer cuadro de resultados proporciona los coeficientes de ajuste del modelo. El R² (coeficiente de determinación) proporciona una idea del % de variabilidad de la variable a modelizar, explicado por la variable explicativa. Mientras más cerca está de 1 este coeficiente, mejor es el modelo. En nuestro caso, 56% de la variabilidad del peso es explicada par el tamaño. El resto de la variabilidad es debido a efectos (variables explicativas) que no son tenidas en cuenta en este ejemplo. El cuadro de análisis de la varianza es un resultado que debe ser atentamente analizado (ver a continuación). Es en este nivel que comprobamos si podemos considerar que la variable explicativa seleccionada (el tamaño) originan una cantidad de información significativa al modelo (hipótesis nulo H0) o no. En otros términos, es una manera de comprobar si la media de la variable a modelizar (el peso) bastaría con describir los resultados obtenidos o no. La prueba del F de Fisher es utilizada. Dado que la probabilidad asociada al F, en este caso, es inferior de 0.0001, significa que nos arriesgamos de menos del 0.01% concluyendo que la variable explicativa origina una cantidad de información significativa al modelo. El siguiente cuadro proporciona los detalles sobre el modelo y es esencial en cuanto el modelo debe ser utilizado para realizar previsiones, simulaciones o si debe ser comparado a otros resultados, por ejemplo los coeficientes que obtendríamos para los varones. Vemos que si el parámetro del tamaño tiene un intervalo de confianza bastante restringido, el de la constante del modelo es bastante importante. La ecuación del modelo es proporcionada abajo del cuadro. El modelo enseña que en los límites proporcionados por las observaciones del intervalo de la variable tamaño, cada vez que el tamaño aumenta de un inch, el peso aumenta de 4 libras. El cuadro siguiente expone el análisis de los residuos. Los residuos centrados reducidos deben tener una atención particular, dado que las hipótesis vinculadas a la regresión lineal, deben ser distribuidos según una ley normal N(0,1). Eso significa, entre otros, que 95% de los residuos deben encontrarse en el intervalo [-1.96, 1.96]. Dado que el escaso número de datos del que disponemos aquí, cualquier valor fuera de este intervalo es revelador de un dato sospechoso. Hemos utilizado la herramienta DataFlagger de XLSTAT, con el fin de demostrar rápidamente los valores que se encuentran fuera del intervalo [-1.96, 1.96]. Podemos aquí identificar cuatro observaciones dudosas (26, 38, 64, 69, 77), en 111 observaciones. Este análisis de los residuos no anula la hipótesis de normalidad. El primer gráfico permite visualizar los datos, la recta de regresión, y los dos intervalos de confianza (el intervalo alrededor de la media del estimador es lo más cerca de la curva, el segundo es el intervalo alrededor de la estimación puntual). Vemos así claramente una tendencia lineal, pero con una intensa variabilidad alrededor de la recta. Los 5 valores sospechosos están fuera del segundo intervalo de confianza. El tercer grafico parece enseñar que los residuos crecen en función del peso. El histograma de los residuos centrados reducidos permite señalar rápidamente y visualmente la presencia de valores fuera del intervalo [-2, 2]. En conclusión, el tamaño permite explicar 56% de la variabilidad del peso. Para explicar la variabilidad sobrante, otras fuentes de variabilidad deben entonces ser utilizadas en el modelo. En el tutorial sobre la regresión lineal múltiple, la edad es añadida como segunda variable explicativa. FUENTE: http://www.xlstat.com/demo-rege.htm Análisis de un caso de un modelo de regresión lineal simple. En esta sección se presenta el desarrollo en detalle de un supuesto práctico del modelo de regresión lineal simple, en los cálculos se utiliza toda la teoría expuesta en este capítulo. Ejemplo 6.3. “Se desea estudiar la posible relación entre los gastos en material informático, en múltiplos de cien mil euros, de una empresa y sus ingresos globales, en millones de euros, . Para ello se recoge una muestra de datos anuales de gastos e ingresos de 65 empresas, los datos muestrales son los de la tabla adjunta. Estudiar la posible existencia de una relación lineal entre la variable respuesta gasto en material informático y la variable regresora ingreso global”. X: “Ingresos globales” 20 50 100 200 300 400 500 Y “gastos en material informát.” 25 13 43 36 30 14 17 7 . . 15 25 28 17 35 29 20 26 14 6 25 61 46 23 45 28 24 37 . . 57 46 54 69 62 71 67 36 41 62 75 107 72 53 53 77 63 74 87 . 91 94 100 93 92 90 109 97 111 87 121 113 90 109 118 117 125 121 122 119 Estadísticos básicos de las variables X e Y. Estimadores de los coeficientes de la recta de regresión son la recta de regresión estimada es o bien, que indica que por cada millón de euros de ingreso en una empresa se utiliza 20.040 euros en material informático. Figura 6.9. Datos y recta ajustada. Figura 6.10. Residuos del modelo. Se calculan las predicciones de las observaciones muestrales , a partir de los cuales se obtiene la varianza residual y los residuos Intervalos de confianza al 95% ( = 0'05) para los tres parámetros del modelo. Para Para 2 , 0 Para , 1 Nota: si se hubiese planteado el problema de forma inversa y se quisiera calcular la recta de regresión del ingreso respecto al gasto , se obtiene, o despejando, para comparar con la recta de regresión de Y sobre X, Se comprueba que las dos rectas de regresión no coinciden (observar la Figura 6.11.). Figura 6.11. Gráfica de las dos rectas de regresión. Contrastes individuales (contrastes de la t). Contraste C1, H0 : 1 = 0 frente a H1 : 1 0. Del p-valor próximo a cero1 se concluye que la variable regresora X influye linealmente en la variable dependiente Y. Contraste C0, H0 : 0 = 0 frente a H1 : 0 0. Tabla ANOVA. Contraste de regresión. Con los datos del problema se obtiene la siguiente tabla ANOVA Tabla ANOVA Fuentes Variación Suma Cuadrados Gr. libertad Varianzas Por la recta 75.602'5 1 Residual 8.544'7 63 Global 84.147'1 64 e 2 = 75.602'5 R Y 2 2 = 135'6 = 1.314'8 El contraste de la F es se rechaza la no influencia de la recta de regresión. Este resultado es exactamente el mismo que se obtiene en el contraste individual de la t relativo a 1. El motivo es que se está estudiando un modelo de regresión con una sola regresora y, por tanto, el estudio de la influencia del modelo es equivalente al estudio de la influencia de la única regresora. El significado de los contrastes individuales de la t y del contraste conjunto de la F (contraste de regresión) serán diferentes en modelos de regresión con más de una variable explicativa. Contraste de linealidad. Dado que para cada valor de X se tienen varios valores de Y se pueden calcular las medias muestrales condicionadas, lo que permite descomponer la suma de los residuos al cuadrado y obtener la siguiente tabla ANOVA Tabla ANOVA Fuentes Variación Suma Cuadrados Gr. libertad Varianzas Por la recta 75.602'5 1 e 2 = 75.602'5 2 R,1 scR(1) 314'7 5 scR(2) 8.229'9 58 R,2 Residual 8.544'7 63 R Global 84.147'1 64 Y 2 = 62'94 2 = 141'89 2 = 135'6 = 1.314'8 Se calcula el estadístico del contraste de linealidad de la F Se acepta claramente la hipótesis de que la función de regresión es lineal. Coeficiente de determinación y correlación lineal simple. El coeficiente de determinación es El modelo de regresión lineal construído explica el 89'85% de variabilidad de la variable respuesta. El coeficiente de correlación lineal muestral es, Existe una alta correlación positiva. Estimación de la media condicionada. “Se quiere estimar el gasto medio en material informático de las empresas cuyos ingresos globales son de 300 y 800 millones anuales, respectivamente. Calcular intervalos de confianza al 90% para dichas medias condicionadas.” Para las empresas con 300 millones de ingresos se obtiene Se calcula el número de observaciones equivalentes La varianza del estimador es El intervalo de confianza es Para x = 800, se obtiene Comparando los intervalos de confianza obtenidos se observa que el relativo a x = 800 tiene una longitud mucho mayor que en el caso de x = 300. Esto es debido a que el punto x = 300 está más cerca de la media muestral x = 233'231 que el segundo punto x = 800. Predicción. “Predecir el gasto en material informático de la empresa MEGA1 y MEGA2 cuyos ingresos globales son de 300 y 800 millones, respectivamente. Calcular intervalos de predicción al 90% para dichas predicciones”. Para la empresa MEGA1, con x = 300, la predicción de gasto es Con varianza El intervalo de predicción es Para la empresa MEGA2, con x = 800, se obtiene la predicción El intervalo de predicción es En el cuadro adjunto se comparan las longitudes de los intervalos de confianza obtenidos Longitud de los I.C. al 90% x = 300 x = 800 Estimación de mt 5'180 16'770 Predicción de yt 39'227 42'346 En la Figura 6.12. se representa la nube de puntos del problema estudiado, la recta de regresión estimada, los intervalos de confianza de las medias condicionadas al 90% (los más próximos a la recta) y los intervalos de predicción al 90%. Figura 6.12. Recta de regresión FUENTE: http://www.udc.es/dep/mate/estadistica2/sec6_11.html CORRELACION. ANALISIS DE RELACION Y CORRELACION Los análisis se realizarán sobre las variables cuantitativas, ya que Stat Graphics no hace el análisis, estudio y graficas de las variables cualitativas. Por lo tanto se tomaran como variables dependientes e independientes, solo aquellas que se pueden ingresar en el sistema, como numéricas (las de character no pueden ser analizadas). Regresión para pronóstico de corte transversal. Tipo de Regresión: Simple Variable dependiente: X4 (Número de cursos de educación continua terminados) Variable Independiente:X2 (Número de horas extra) Variable independiente X4 (Eje X) Variable dependiente X2 (Eje Y) Plot of Fitted Model 240 200 X2 160 120 80 40 0 0 2 4 6 8 10 X4 Ecuación del modelo lineal: X2= 85.7147+1.90585X4 De la cual se deduce: Que el intercepto con el eje Y es 85.7147 y que cada vez que se incrementa en una unidad el número de cursos de educación continua terminados, aumenta en un 1.90585 las horas extras trabajadas. 1.COEFICIENTE DE CORRELACION: r =R2 = 0.05370561 Como la pendiente es positiva, el coeficiente de correlación también es positivo. Existe una relación de 0.0536071 entre las variables, la cual es una relación mas bien débil. 2.COEFICIENTE DE DETERMINACIÓN: R2 = 0.00288435 O 0.288435% El número de cursos de educación continua, determinan el número de horas extra que trabajan los empleados en un 0.002874, por lo que se vé lo determina muy poco 3. ESTIMACIÓN DE LA VARIANZA DE ERRORES: Se2 = SCE/n-2 CONTRASTES- INTERVALOS DE CONFIANZA Y= BO+B1Xi Se= 1.69363 La pendiente mide el grado de inclinación y la relación entre las dos variables. S2B1=Se2/ (Xi2-(n*X2 )) =0.0000001 SB1=0.000380 1-=95% = 5% t 0.025; 48 = 2.0106 LI= 1.90585 – (2.016*0.000380)= 1.1.905084 LS= 1.90585 + (2.016*0.000380)=1.906616 1.905084B11.906616 PRUEBAS DE HIPÓTESIS H0 : B= 0 H1: B 0 Rechaza si: tc-t /2 y tc t /2 tc= B1-B1/ Sb1 tc=1.90585-0/ 0.000380 tc=5013.3787 t 0.025, 48 =2.0106 5013.3787 2.0106 Rechaza H0. Acepta H1 Regression Analysis - Linear model: Y = a + b*X ----------------------------------------------------------------------------Dependent variable: X4 Independent variable: X2 ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 2,1437 0,43722 4,90302 0,0000 Slope 0,00151342 0,0040615 0,372625 0,7111 ----------------------------------------------------------------------------- Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 0,39827 1 0,39827 0,14 0,7111 Residual 137,682 48 2,86837 ----------------------------------------------------------------------------Total (Corr.) 138,08 49 Correlation Coefficient = 0,0537061 R-squared = 0,288435 percent Standard Error of Est. = 1,69363 The StatAdvisor --------------The output shows the results of fitting a linear model to describe the relationship between X4 and X2. The equation of the fitted model is X4 = 2,1437 + 0,00151342*X2 Since the P-value in the ANOVA table is greater or equal to 0.10, there is not a statistically significant relationship between X4 and X2 at the 90% or higher confidence level. The R-Squared statistic indicates that the model as fitted explains 0,288435% of the variability in X4. The correlation coefficient equals 0,0537061, indicating a relatively weak relationship between the variables. The standard error of the estimate shows the standard deviation of the residuals to be 1,69363. This value can be used to construct prediction limits for new observations by selecting the Forecasts option from the text menu. Variable independiente: X2 (Número de horas extra) (Eje X) Variable dependiente: X4 (Número de cursos de educación continua terminados) (Eje Y) Plot of Fitted Model 10 X4 8 6 4 2 0 0 40 80 120 160 200 240 X2 Ecuación del modelo lineal : X2=85.7147+1.90585X4 De la cual se deduce: Que el intercepto con el eje Y es 85.7147 y que cada vez que se incrementa en una unidad las horas extra , aumenta en un 1.90585 el número de cursos de educación continua terminados. X2 = Horas extra (Variable independiente : X) X4 = Cursos de educación continua terminados (Variable dependiente : Y) 1.COEFICIENTE DE CORRELACION: : r =R2 =0.0537061 Como la pendiente es positiva, el coeficiente de correlación también es positivo. Existe una relación de 0.0537061 entre las variables, la cual es una relación mas bien débil. 2.COEFICIENTE DE DETERMINACIÓN: R2 = 0.00288435 El número de horas extra que trabajan los empleados, determinan la cantidad de cursos de educación continua en un 0.002884, por lo que se vé lo determina muy poco 3. ESTIMACIÓN DE LA VARIANZA DE ERRORES: Se2 = SCE/n-2 Se= 60.1012 CONTRASTES- INTERVALOS DE CONFIANZA Y= BO+B1Xi La pendiente mide el grado de inclinación y la relación entre las dos variables. S2B1=Se2/ (Xi2-(n*X2 )) =0.283698 SB1=0.532633 1-=95% = 5% t 0.025; 48 = 2.016 LI= 1.90585 – (2.016*0.532633)= 0.832062 LS= 1.90585 + (2.016*0.532633)=2.979638 0.832062B12.979638 PRUEBAS DE HIPÓTESIS H0 : B= 0 H1: B 0 Rechaza si: tc-t /2 y tc t /2 tc= B1-B1/ Sb1 tc=1.90585-0/ 0.532633 tc=3.578167 t 0.025, 48 =2.0106 3.578167 2.0106 Rechaza H0. Acepta H1 ANÁLISIS DE UNA VARIABLE (INDEPENDIENTE) Regression Analysis - Linear model: Y = a + b*X ----------------------------------------------------------------------------Dependent variable: X2 Independent variable: X4 ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 85,7147 14,4303 5,93993 0,0000 Slope 1,90585 5,11467 0,372625 0,7111 ----------------------------------------------------------------------------- Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 501,544 1 501,544 0,14 0,7111 Residual 173383,0 48 3612,15 ----------------------------------------------------------------------------Total (Corr.) 173885,0 49 Correlation Coefficient = 0,0537061 R-squared = 0,288435 percent Standard Error of Est. = 60,1012 The StatAdvisor --------------The output shows the results of fitting a linear model to describe the relationship between X2 and X4. The equation of the fitted model is X2 = 85,7147 + 1,90585*X4 Since the P-value in the ANOVA table is greater or equal to 0.10, there is not a statistically significant relationship between X2 and X4 at the 90% or higher confidence level. The R-Squared statistic indicates that the model as fitted explains 0,288435% of the variability in X2. The correlation coefficient equals 0,0537061, indicating a relatively weak relationship between the variables. The standard error of the estimate shows the standard deviation of the residuals to be 60,1012. This value can be used to construct prediction limits for new observations by selecting the Forecasts option from the text menu. Stat Graphics unicamente hace el análisis de variables cuantitativas, por eso tomaremos como variables independientes solo tomaremos a las variables cuantitativas. 1.Variable Independiente: X2 (Horas extra) Scatterplot for X2 0 40 80 120 160 200 240 Analysis Summary X2 Data variable: X2 50 values ranging from 0,0 to 225,0 The StatAdvisor --------------This procedure is designed to summarize a single sample of data. It will calculate various statistics and graphs. Also included in the procedure are confidence intervals and hypothesis tests. Use the Tabular Options and Graphical Options buttons on the analysis toolbar to access these different procedures. Summary Statistics for X2 Count = 50 Average = 90,06 Variance = 3548,67 Standard deviation = 59,5707 Minimum = 0,0 Maximum = 225,0 Range = 225,0 Stnd. skewness = 1,02431 Stnd. kurtosis = -1,32 The StatAdvisor --------------This table shows summary statistics for X2. It includes measures of central tendency, measures of variability, and measures of shape. Of particular interest here are the standardized skewness and standardized kurtosis, which can be used to determine whether the sample comes from a normal distribution. Values of these statistics outside the range of -2 to +2 indicate significant departures from normality, which would tend to invalidate any statistical test regarding the standard deviation. In this case, the standardized skewness value is within the range expected for data from a normal distribution. The standardized kurtosis value is within the range expected for data from a normal distribution. FUENTE: http://apuntes.rincondelvago.com/analisis-de-relacion-y-correlacion.html Otra forma de análisis bivariado es la correlación y regresión de variables numéricas y discretas. El concepto de correlación y regresión se basa en el grado de relación que poseen dos variables numéricas entre si. El coeficiente de correlación permite predecir si entre dos variables existe o no una relación o dependencia matemática. Supongamos que queremos estudiar la correlación existente entre peso y altura de un grupo de personas tomadas al azar. Sometemos los datos recogidos de peso y altura al análisis de correlación y encontramos el coeficiente de correlación entre ambas, que se representa con la letra r. El r = 0.78. Esto significa que a mayor altura correspondería mayor peso. Los coeficientes de correlación r siempre oscilan entre valores de 1 y –1. El valor cero 0 significa que no existe correlación entre ambas variables. Un valor positivo indica que a incrementos en la variable A se producen incrementos proporcionales en B y un valor negativo indica lo contrario. Podemos graficar la correlación entre las dos variables a través de una gráfica de dos ejes (abscisas y ordenadas) cartesianos. En el siguiente gráfico observamos la correlación entre potencia de motor de un automóvil y consumo en Litros por cada 100 Km. El r = 0.87 (correlación positiva). (SPSS). Evidentemente a mayor potencia se observa mayor consumo de combustible. El valor de significación para ese r es de una p < 0.01. Esto quiere decir que la correlación entre potencia y consumo no es aleatoria. En el siguiente gráfico encontramos la relación existente entre peso del automóvil en kg. y aceleración 0 a 100 Km. / hora en segundos. El r = - 0.56 con una p < 0.05. Esto significa que existe una correlación negativa significativa, entre peso del auto y respuesta de la aceleración. Automóviles más pesados presentan una respuesta más tardía y viceversa. (SPSS) Para interpretar el coeficiente de correlación, Colton a dado los siguientes lineamientos generales: Valor de r de 0 a 0.25 implica que no existe correlación entre ambas variables. Valor de r de 0.25 a 0.50 implica una correlación baja a moderada. Valor de r de 0.50 a 0.75 implica correlación moderada a buena. Valor de r de 0.75 o mayor, implica una muy buena a excelente correlación. Estos rangos de valores se pueden extrapolar a correlaciones negativas también. Se debe tener cuidado al analizar la correlación entre dos variables, de que ambas varíen juntas permanentemente. Esto parece redundante, pero es importante. Por ejemplo, si correlacionamos edad y altura. La altura irá aumentando con la edad hasta un determinado punto en donde ya no aumentará más. FUENTE: http://www.medal.org.ar/stadhelp/Std00014.htm Correlación. Recordemos que para el caso de una variable, la varianza era un parámetro que nos mostraba cuanta variación existía entre la media un conjunto de datos. En el mismo tenor, estamos en determinar la dependencia entre dos variables por lo que una primera propuesta es construir una medida que nos permita en forma análoga tratar la “variación”. Se define la covarianza como la variación que existe entre los datos de dos variables, expresada como: S xy donde xi y yi x i x y i y n son las variables para n datos que intervienen en el estudio. En realidad la correlación es una medida sobre el grado de relación entre dos variables, sin importar cual es la causa y cual es el efecto. La dependencia de la que se habla en este sentido es la dependencia entre la varianza de las variables. Como hemos visto el manejo de unidades adimensionales nos permiten tener un coeficiente sobre el que de forma cómoda se pueda trabajar, por lo que podemos dividir entre el producto de las desviaciones de las variables, es decir: r S xy n S x S y los valores para este coeficiente están comprendidos entre -1 y 1. Se tiene los siguientes criterios para r r 1 rr0 r 1 la correlación lineales perfect a,direct a o correlación lineal posit iva no exist e correlación lineal o correlación lineal nula la correlación lineales perfect a,inversa o correlación lineal negat iva entre mas se aproxima a los valores 1 y -1 la aproximación a una correlación se considera buena. Cuando mas se aleja de 1 o de -1 y se acerca a cero se tiene menos confianza en la dependencia lineal por lo que una aproximación lineal será lo menos apropiado, sin embargo no significa que no existe dependencia, lo único que podemos decir es que la dependencia no es lineal. Un valor positivo para r indica que a medida que una variable crece la otra también lo hace, por el contrario si su valor es negativo, lo que podemos decir es que a medida que una variable crece la otra decrece. Una vez que se determina que existe dependencia lineal un aspecto sumamente relevante es el investigar las características del modelo matemático que relaciona una variable con otra, así de esta forma podemos decir, una variable puede clasificarse como determinístico y probabilistico. El modelo determinístico, que no será abordado en este curso, esta ligado a la ecuación que regula de forma determinante el comportamiento de un fenómeno, así por ejemplo podemos determinar a partir de la obtención de una ecuación sobre el potencial de frenado en un material, que ante cambios de la longitud de onda la relación es lineal no permitirá predecir cuales serán sus valores. Ecuaciones que permiten ver como es la oposición a la corriente eléctrica, o resistencia eléctrica, al aumentar la temperatura de un metal, entre otros, es un claro indicio de una ecuación que es determinística, en ella se podrá describir como cambiara la resistencia eléctrica del material en cuestión ante el aumento de una temperatura en el material. Por otro lado, los fenómenos probabilísticos están sujetos a la modelos que aunque puedan ser descritos por una ecuación no implica que todos los valores que intervienen en el estudio puedan ser localizados en el gráfico que los representan, y por supuesto un dato mas no es garantía que sea localizado en la ecuación. FUENTE: http://148.216.10.83/estadistica/correlacion.htm Correlación. Al ajustar un modelo de regresión múltiple a una nube de observaciones es importante disponer de alguna medida que permita medir la bondad del ajuste. Esto se consigue con los coeficientes de correlación múltiple. 8.6.1 Coeficiente de correlación múltiple. En el estudio de la recta de regresión se ha definido el coeficiente de correlación lineal simple (o de Pearson) entre dos variables X e Y , como (8.25) donde s es la covarianza muestral entre las variables X e Y ; sX y sY son las desviaciones típicas muestrales de X e Y , respectivamente. El coeficiente de correlación lineal simple es una medida de la relación lineal existente entre las variables X e Y. En general cuando se ajusta un modelo estadístico a una nube de puntos, una medida de la bondad del ajuste es el coeficiente de determinación, definido por (8.26) Si el modelo que se ajusta es un modelo de regresión lineal múltiple, a R se le denomina coeficiente de correlación múltiple y representa el porcentaje de variabilidad de la Y que explica el modelo de regresión. Como scE < scG, se verifica que 0 < R2 < 1. Si R2 = 1 la relación lineal es exacta y si R2 = 0 no existe relación lineal entre la variable respuesta y las variables regresoras. El coeficiente de correlación múltiple R es igual al coeficiente de correlación lineal simple entre el vector variable respuesta y el vector de predicciones , El coeficiente de correlación múltiple R presenta el inconveniente de aumentar siempre que aumenta el número de variables regresoras, ya que al aumentar k (número de variables regresoras) disminuye la variabilidad no explicada, algunas veces de forma artificial lo que puede ocasionar problemas de multicolinealidad. Si el número de observaciones n es pequeño, el coeficiente R2 es muy sensible a los valores de n y k. En particular, si n = k + 1 el modelo se ajusta exactamente a las observaciones. Por ello y con el fin de penalizar el número de variables regresoras que se incluyen en el modelo de regresión, es conveniente utilizar el coeficiente de determinación corregido por el número de grados de libertad, 2. Este coeficiente es similar al anterior, pero utiliza el cociente de varianzas en lugar del cociente de sumas de cuadrados. Para su definición se tiene en cuenta que Cambiando las sumas de cuadrados por varianzas se obtiene el coeficiente de determinación corregido por el número de grados de libertad, 2, definido como sigue (8.27) Ahora es fácil deducir la siguiente relación entre los dos coeficientes de determinación (8.28) También es fácil relacionar el estadístico del contraste de regresión múltiple con el coeficiente de determinación, obteniendo (8.29) 8.6.2 Correlación Parcial Sea un conjunto de variables aleatorias, el coeficiente de correlación parcial entre Xi y Xj es una medida de la relación lineal entre las variables Xi y Xj una vez que se ha eliminado en ambas variables los efectos debidos al resto de las variables del conjunto . Al coeficiente de correlación parcial entre X1 y X2 se le denotará por r12·3...k· Para una mejor interpretación de este concepto, considérese el conjunto de cuatro variables , se desea calcular el coeficiente de correlación parcial entre las variables X1 y X2. Para ello, se procede de la siguiente forma, 1. Se calcula la regresión lineal de X1 respecto de X3 y X4 donde e1·34 son los residuos del ajuste lineal realizado. 2. Se calcula la regresión lineal de X2 respecto de X3 y X4 X2 donde e2.34 son los residuos del ajuste lineal realizado. 3. El coeficiente de correlación parcial entre X1 y X2 es el coeficiente de correlación lineal simple entre las variables e1.34 y e2.34, Por tanto, el coeficiente de correlación lineal se define siempre dentro de un conjunto de variables y no tiene interpretación ni sentido si no se indica este conjunto de variables. Relación entre los coeficientes de correlación. Sea el conjunto de variables , entonces se verifica la siguiente relación entre los coeficientes de correlación lineal simple y el coeficiente de correlación parcial, (8.30) Cálculo del coeficiente de correlación parcial. En un modelo de regresión múltiple se puede calcular fácilmente el coeficiente de correlación parcial entre la variable respuesta Y y una variable regresora Xi controlado por el resto de variables regresoras. Para ello se utiliza el estadístico del contraste individual de la t respecto a la variable Xi y que se definió anteriormente como obteniéndose la siguiente relación (8.31) donde C = excepto el índice i. el conjunto de índices de todas las variables regresoras FUENTE: http://www.udc.es/dep/mate/estadistica2/sec8_6.html Coeficiente de correlación múltiple Definición. En el contexto del análisis de la regresión lineal simple el coeficiente de correlación múltiple establece una medida del grado de asociación lineal entre la variable respuesta y la variable predictora, concretamente entre la variable respuesta y la recta de regresión estimada. Se define, a partir de los n pares de observaciones, mediante Su cuadrado, R2, denominado coeficiente de determinación múltiple, puede interpretarse como el porcentaje de variabilidad de Y explicada o debida a la recta de regresión, en tanto que puede comprobarse que Cuando todos los puntos se encuentran sobre la recta de regresión estimada, es decir, "el ajuste es perfecto", la suma de cuadrados de residuos, SSE, toma el valor cero y , por tanto, R2 = 1. El denominador de la última expresión es una medida de la variabilidad total de las n observaciones de la variable respuesta. FUENTE: http://e-stadistica.bio.ucm.es/glosario2/coef_corre.html