Práctica 4: Variables Aleatorias y Simulación Práctica 4: Variables Aleatorias y Simulación Objetivos específicos Al finalizar esta práctica deberás ser capaz de: • Calcular las funciones de probabilidad y distribución de las variables discretas Bernoulli, binomial, Poisson, geométrica, binomial negativa e hipergeométrica. Interpretar correctamente su significado. • Calcular valores de las funciones de densidad y de distribución para las variables continuas exponencial y normal. Interpretar correctamente su significado. • Comprobar empíricamente propiedades reproductivas de las variables, utilizando la generación de números aleatorios. • Utilizar la simulación para estimar la fiabilidad de un sistema. 1. Cálculo de funciones de probabilidad y de distribución y de percentiles para algunas variables aleatorias discretas y continuas A pesar de que la mayoría de las veces trabajaremos con tablas, no está de más saber que la hoja de cálculo Excel tiene una serie de funciones estadísticas que nos permiten calcular los valores de las funciones de probabilidad y de distribución para un conjunto de variables aleatorias discretas, y de las funciones de densidad y de distribución para una serie de variables aleatorias continuas. Además, para algunas distribuciones continuas permite también el cálculo de percentiles. Para acceder a estas funciones no tenemos más que seleccionar las opciones INSERTAR>FUNCIÓN>ESTADÍSTICAS, o bien, pinchar en el botón PEGAR FUNCIÓN, , presente en la barra de herramientas. Entre la colección de funciones estadísticas de variables aleatorias discretas, aparecen las siguientes: DISTR.BINOM: devuelve el valor de la función de probabilidad o de la función de distribución de una variable aleatoria binomial. El primer argumento de la función (NÚM_ÉXITO) es el valor de la variable, x. El segundo (ENSAYOS) y tercer (PROB_ÉXITO) argumentos son los valores de los parámetros n y p, Isolina Alberto Moralejo 61 Práctica 4: Variables Aleatorias y Simulación respectivamente. Si el cuarto argumento (ACUMULADO) vale 0, calculará la función de probabilidad P(X=x); y si es distinto de 0, la función de distribución F(x)=P(X≤x). DISTR.HIPERGEOM: devuelve el valor de la función de probabilidad, P(X=x), de una variable aleatoria con distribución hipergeométrica. El primer parámetro (MUESTRA_ÉXITO) es el valor de la variable, x. El parámetro NÚM_DE_MUESTRA es el tamaño de la muestra seleccionada, es decir, el parámetro n de la distribución. El parámetro POBLACIÓN_ÉXITO es el número de éxitos que hay en la población, es decir, el parámetro D de la distribución. Finalmente, el parámetro NÚM_DE_POBLACIÓN es el tamaño de la población, es decir, el valor del parámetro N de la distribución. NEGBINOMDIST: devuelve el valor de la función de probabilidad, P(X=x), de una variable aleatoria con distribución binomial negativa. El primer argumento (NÚM_FRACASOS) es el valor de la variable, x. Los argumentos NÚM_ÉXITOS y PROB_ÉXITOS son los parámetros n y p de la distribución binomial negativa, respectivamente. POISSON: devuelve el valor de la función de probabilidad o de la función de distribución de una variable aleatoria de Poisson. El primer argumento (X) es el valor de la variable, x. El segundo (MEDIA) es la media de la distribución de Poisson, que coincide con el parámetro λ. Si el argumento ACUMULADO vale 0, calculará la función de probabilidad P(X=x); y si es distinto de 0, la función de distribución F(x)=P(X≤x). Nota: Como las funciones DISTR.HIPERGEOM y NEGBINOMDIST no tienen el argumento ACUMULADO, para calcular valores de la función de distribución deberemos calcular nosotros las sumas acumuladas utilizando las funciones de Excel. Ejercicio.- Haz el Ejercicio 1 del final de la práctica. Entre la colección de funciones estadísticas de variables aleatorias continuas, se encuentran: DISTR.EXP: devuelve el valor de la función de densidad o de la función de distribución de una variable aleatoria exponencial. El primer argumento (X) es el Isolina Alberto Moralejo 62 Práctica 4: Variables Aleatorias y Simulación valor de la variable, x. El segundo (LAMBDA) coincide con el parámetro λ de la exponencial (es decir, el inverso de la media de la variable). Igual que antes, si el argumento ACUM vale 0, calculará la función de densidad f(x); y si es distinto de 0, la función de distribución F(x)=P(X≤x). DISTR.NORM: devuelve la función de densidad o la de distribución de una variable aleatoria con distribución normal. El argumento X es el valor de la variable, x. Los argumentos MEDIA y DESV_ESTÁNDAR son precisamente los parámetros µ y σ de la distribución normal. El argumento ACUM tiene el mismo significado de siempre. DISTR.NORM.ESTAND: esta función devuelve el valor de la función de distribución de una variable aleatoria con distribución normal estándar, es decir, con media 0 y desviación típica 1. Sólo tiene, por tanto, un argumento (Z) que es el valor de la variable, z. DISTR.NORM.ESTAND.INV: devuelve el cuantil de orden p de una distribución normal estándar. Sólo tiene un parámetro que es precisamente el valor de la probabilidad acumulada, PROBABILIDAD. DISTR.NORM.INV: devuelve el cuantil de orden p de una distribución normal con media igual a MEDIA y desviación típica igual a DESV_ESTÁNDAR. El valor de p es el argumento PROBABILIDAD. Nota: Es muy importante recordar el significado que tiene la función de densidad en las variables aleatorias continuas. No podemos olvidar que, en el caso continuo, la función de densidad, f(x), no representa la probabilidad de que la variable aleatoria X tome el valor x. Esta probabilidad, P(X=x), en el caso continuo vale siempre 0. Ejercicio.- Haz el Ejercicio 2 del final de la práctica. 2. Simulación En el mundo actual, tanto en el área de los negocios, como en la industria y en el gobierno, la mayoría de los proyectos son a gran escala y requieren una fuerte inversión económica (imagina, por ejemplo, los costes que generaría la implantación de una nueva línea de montaje en la planta de OPEL de Figueruelas o la modificación de la línea actual; o la construcción de un embalse; o incluso la creación de una nueva línea de Isolina Alberto Moralejo 63 Práctica 4: Variables Aleatorias y Simulación autobús urbano). Los proyectos reales requieren estudios previos a su construcción o modificación, que se llevan a cabo construyendo un modelo lo más parecido posible al sistema real. Construido el modelo, el proceso de ensayar sobre él se llama simular. Uno de los objetivos de la simulación es realizar ensayos de cambios en el sistema probándolos en el modelo con el fin de elegir la mejor alternativa y así enfrentarse mejor a una realidad que varía de día a día. La simulación permite la descripción de situaciones complejas y ayuda a la localización de los aspectos relevantes del problema. En la mayoría de los sistemas reales intervienen una gran cantidad de variables aleatorias. Por ejemplo, cuando estás esperando en la fila de la verdulería, el número de artículos distintos que pide el cliente que está justo delante de ti es una variable aleatoria discreta; o el tiempo que tienes que esperar hasta que te toca el turno es otra variable aleatoria, continua en este caso. Si en el proceso de simulación intervienen variables aleatorias hablaremos de simulación estocástica o probabilística. Algunas de las ventajas de la simulación son: - La teoría necesaria para su desarrollo es bastante sencilla. - Su gran flexibilidad, que permite la agregación de múltiples relaciones e interdependencias entre las variables que intervienen. - Permite tratar problemas planteados en amplios periodos de tiempo, comprimiendo su estudio a tan sólo unos minutos. La hoja de cálculo Excel tiene implementadas funciones para la generación de números aleatorios de algunas distribuciones de probabilidad dentro del menú de funciones estadísticas avanzadas. Figura 1: Menú ANÁLISIS DE DATOS Isolina Alberto Moralejo 64 Práctica 4: Variables Aleatorias y Simulación Para acceder a estas funciones tenemos que seleccionar la opción de menú HERRAMIENTAS>ANÁLISIS DE DATOS, tal y como muestra la Figura 1. Al hacerlo, entramos en una ventana ya conocida de prácticas anteriores en la que deberemos seleccionar la opción GENERACIÓN DE NÚMEROS ALEATORIOS (ver Figura 2). Figura 2: Opción GENERACIÓN DE NÚMEROS ALEATORIOS Al seleccionar esta opción, accedemos a la ventana de diálogo de la Figura 3, donde, desplegando las opciones de la casilla DISTRIBUCIÓN, podemos ver las variables aleatorias de las que Excel es capaz de generar observaciones. Figura 3: Ventana de diálogo de la opción GENERACIÓN DE NÚMEROS ALEATORIOS UNIFORME: genera datos aleatorios de una distribución uniforme de los parámetros especificados. NORMAL: genera datos con una distribución normal de la media y desviación típica especificadas. BERNOULLI: genera observaciones de una distribución de Bernoulli con el parámetro especificado. BINOMIAL: genera datos de una distribución binomial con el número de ensayos y la probabilidad de éxito especificados. Isolina Alberto Moralejo 65 Práctica 4: Variables Aleatorias y Simulación POISSON: genera datos Poisson con la tasa (media) especificada. DISCRETA: genera datos de una distribución discreta que deseemos. Debemos introducir en la hoja de cálculo dos columnas conteniendo los valores que toma la variable (a la izquierda) junto con las probabilidades con que toma esos valores (a la derecha). Evidentemente, las probabilidades deben sumar 1. Además, en la ventana de diálogo de la Figura 3 debemos introducir el NÚMERO DE VARIABLES que queremos generar (esto es, el número de columnas independientes) y la CANTIDAD DE NÚMEROS ALEATORIOS que queremos (es decir, el número de filas). Los números generados con el ordenador son, en realidad, números pseudo aleatorios, es decir, cada número de una secuencia depende del número anterior. El primer punto de la secuencia está determinado por una semilla aleatoria que, si queremos, podemos especificar en la casilla INICIAR CON. Esta característica nos permitirá generar la misma secuencia de números aleatorios, en caso necesario. Ejercicio.- Haz los Ejercicios 3 y 4 del final de la práctica. 3. Sistemas serie Supongamos que tenemos un sistema serie como el de la Figura 4, en el que cada componente funciona independientemente de las restantes. Figura 4: Sistema de tres componentes dispuestas en serie Supongamos que la fiabilidad de la componente A es pA=0.9, la de B es pB=0.8 y la de C es pC=0.85. Tal y como se ha estudiado, la fiabilidad del sistema se obtiene multiplicando estas tres cantidades. Así: Fiabilidad sistema = 0.9×0.8×0.85 = 0.612 Para calcular una estimación de esta fiabilidad, debemos diseñar el siguiente experimento. Generaremos datos aleatorios Bernoulli con valores de p igual a 0.9, 0.8 y 0.85, utilizando la opción del menú HERRAMIENTAS>ANÁLISIS DE DATOS>GENERACIÓN DE NÚMEROS ALEATORIOS, seleccionando la distribución BERNOULLI con los valores anteriores para el parámetro (ver Figura 3). Isolina Alberto Moralejo 66 Práctica 4: Variables Aleatorias y Simulación Los unos indicarán que la componente está funcionando y los ceros que no lo está. Una vez hecho esto, el fichero de datos presentará una forma como la de la Figura 5. Figura 5: Simulación de los datos del sistema serie de la Figura 4 A continuación, deberemos calcular cuándo está funcionando el sistema de la siguiente forma: como es un sistema serie, funcionará si lo hacen las tres componentes, es decir, si las variables A, B y C tienen un 1 en la casilla correspondiente. Y el sistema no funcionará si alguna de las variables tiene un 0. Así, por ejemplo, si observamos la Figura 5, en la primera casilla, la variable B tiene un cero (es decir, la componente B no funciona) y por tanto, el sistema no funcionará. La segunda casilla de la variable B tiene un cero, por tanto, de nuevo el sistema no funcionará. Sin embargo, la tercera casilla de las variables A, B y C tienen un 1, es decir, las tres componentes del sistema serie funcionan, y por lo tanto, el sistema también lo hará. De esta forma construiremos una columna que será indicadora del funcionamiento del sistema. Para hacerlo automáticamente, una de las posibilidades es seleccionar por la opción del menú INSERTAR>FUNCIÓN>LÓGICAS>Y. La función lógica Y devuelve VERDADERO si todos los argumentos de la función son verdaderos y devuelve FALSO si todos los argumentos son falsos. Otra opción es construir una columna que sea el producto de las columnas A, B y C. Esta columna valdrá uno si todos los valores que multiplica son iguales a uno; y cero, si hay algún valor distinto de uno. En cualquiera de los dos casos, el resultado se puede ver en la Figura 6. Figura 6: Resultado de la función lógica Y Isolina Alberto Moralejo 67 Práctica 4: Variables Aleatorias y Simulación Para terminar, no nos queda más que calcular la tabla de frecuencias de esta nueva columna con la opción INFORME DE TABLAS Y GRÁFICOS DINÁMICOS que conocemos de prácticas anteriores. La frecuencia relativa del número de VERDADERO (si hemos elegido la primera opción) o de unos (si hemos elegido la segunda) será una estimación de la fiabilidad del sistema. Para los valores anteriores, se obtiene la siguiente tabla: Figura 7: Estimación de la fiabilidad del sistema serie Con los datos obtenidos, una estimación de la fiabilidad del sistema es 0.58 (la fiabilidad real 0.612). Lógicamente, cuantas más simulaciones, mejores resultados. 4. Sistemas paralelo Supongamos que tenemos un sistema paralelo como el de la Figura 8, en el que cada componente funciona con independencia de las restantes y que las fiabilidades de las componentes son pA=0.9, pB=0.8 y pC=0.85. Figura 8: Sistema de tres componentes dispuestas en paralelo Tal y como se ha estudiado, la fiabilidad del sistema se obtiene: Fiabilidad sistema = 1-(1-0.9)×(1-0.8)×(1-0.85)=0.997 El experimento diseñado es análogo al anterior. Lo único que cambia es la función que se va a utilizar para construir la columna con unos y ceros que dé el funcionamiento del sistema. En este caso, la función lógica a utilizar es la función O que devuelve VERDADERO si alguno de los argumentos es verdadero; y FALSO, si todos son falsos (el sistema funciona si lo hace alguna de las componentes). El resultado de esta operación se muestra en la Figura 9. Isolina Alberto Moralejo 68 Práctica 4: Variables Aleatorias y Simulación Figura 9: Resultado de la función lógica O Construyendo la tabla dinámica como antes, se obtiene la estimación de la fiabilidad del sistema (ver Figura 10). Figura 10: Estimación de la fiabilidad del sistema paralelo Así, con los datos obtenidos, una estimación de la fiabilidad del sistema es 1 (la fiabilidad exacta era 0.997). Ejercicio.- Haz los Ejercicios 5 y 6 del final de la práctica. Isolina Alberto Moralejo 69 Práctica 4: Variables Aleatorias y Simulación Isolina Alberto Moralejo 70 Práctica 4: Variables Aleatorias y Simulación Apellidos y nombre: Profesor: Grupo: Ejercicio 1.- Para las variables aleatorias discretas indicadas, completa la tabla siguiente: Distribución Parámetros x Binomial n = 12, p = 0.65 5 Poisson λ=7 5 Binomial negativa n = 3, p = 0.15 5 Hipergeométrica N = 50, D = 15, n = 10 5 P(X=x) F(x)=P(X≤x) Ejercicio 2.- Para las variables aleatorias continuas indicadas, completa la tabla siguiente: Distribución Parámetros x Exponencial λ = 0.05 3 Normal µ = 15, σ = 3 21 Normal µ = 0, σ = 1 2 f(x) P(X=x) F(x)=P(X≤x) Ejercicio 3.- (Comprobación de la no reproductividad de la variable aleatoria uniforme). Simula cien datos de dos variables aleatorias uniformes en [0, 1]. Calcula una nueva variable sumando las dos anteriores y realiza un análisis descriptivo de la variable resultado obtenida, representándola gráficamente mediante un histograma. A la vista del histograma, ¿dirías que la variable resultado sigue una distribución uniforme? ................................................... Justifica tu respuesta...................................... ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. Isolina Alberto Moralejo 71 Práctica 4: Variables Aleatorias y Simulación Ejercicio 4.- (Comprobación empírica del teorema central del límite). Simula cien datos de treinta variables aleatorias con una distribución exponencial de parámetro 2 (Exp (2)). Súmalas y realiza un análisis descriptivo de la variable que has calculado. A la vista de los resultados de tu estudio, indica qué variable aleatoria sugieres para describir el comportamiento de la variable obtenida........................................................... Justifica adecuadamente tu respuesta.................................................................................. ............................................................................................................................................. ............................................................................................................................................. Ejercicio 5.- Diseña un experimento para estimar la fiabilidad del sistema de la figura y compara la estimación obtenida con la fiabilidad real, teniendo en cuenta que la fiabilidad de cada componente es 0.8 y que las componentes funcionan independientemente. Fiabilidad real: Estimación de la fiabilidad: Ejercicio 6.- Diseña un experimento para estimar la fiabilidad de la estructura puente de la figura teniendo en cuenta que la fiabilidad de cada componente es 0.9 y que las componentes funcionan independientemente unas de otras. Hazlo con 100, 500 y 1000 experimentaciones y compara los resultados obtenidos. Estimación de la fiabilidad (100 experimentaciones): Estimación de la fiabilidad (500 experimentaciones): Estimación de la fiabilidad (1000 experimentaciones): Isolina Alberto Moralejo 72