UNIDAD II: PROBABILIDAD VARIABLE ALEATORIA TEMA 6.1. Introducción 6.2.Variable aleatoria discreta 6.2.1. Función de Probabilidad para una VAD 6.2.2. Función de Distribución de Probabilidades Acumuladas de una VAD 6.3.Variable aleatoria continua 6.3.1. Función de Densidad de Probabilidad de una VAC 6.3.2. Función de Distribución de Probabilidades Acumuladas de una VAC 6.3.3. Cálculo de Probabilidades en una VAC 6.4.Valor esperado o Esperanza 6.5.Varianza de una variable aleatoria 6.1. INTRODUCCIÓN Estadística es una asignatura que al alumno, lamentablemente, no le resulta comprensible hasta que no se progresa bastante en su estudio. Tiene como objetivo fundamental el conocimiento de las leyes que explican la incertidumbre de los fenómenos aleatorios y su utilización, para: a) estimar los parámetros poblacionales y b) tomar decisiones frente a hipótesis explicativas referidas a problemáticas reales, cuya ocurrencia no es bien conocida. Hasta ahora, la descripción estadística de una muestra en particular y la visualización del cálculo de la probabilidad que tienen que presentarse algunos resultados de un experimento aleatorio, constituyen una imagen incompleta de este propósito final. A la Estadística no le interesan los resultados individuales, su objetivo es el comportamiento en masa o de las poblaciones. Esto significa que hay que visualizar la realización de un número muy grande de experimentos aleatorios (o de muestras aleatorias) y sus posibles resultados asociados, para informarse acerca de los parámetros o las explicaciones referidas a la población de interés. En esta sección seguiremos avanzando para sentar las bases de la modelización de resultados sujetos al azar que permitirán, a través de la inferencia estadística, enunciar ideas generales acerca de las poblaciones. El concepto de experimento aleatorio, se utiliza para describir cualquier proceso mediante el cual se generan observaciones cuyos resultados no se pueden predecir. La acción imaginaria de arrojar dos monedas y observar el resultado , así como la de sembrar tres semillas en una maceta y observar lo que sucede con la su germinación o, medir la nota de aprobación de Estadística obtenida por un alumno , o de medir los rendimientos de un proceso de elaboración de pulpa en kg / hora , constituyen ejemplos de un experimento aleatorio. En los dos primeros casos, los espacios muestrales asociados estarán conformados por resultados cualitativos → = , ; , ; , ; , → = , , ; , , ; , , ; , , ; , , ; , , ; , , ; , , Por tanto, estos espacios muestrales son de naturaleza cualitativa, en ellos para el primer caso S denota “sello” y C denota “cara”, y para el segundo G denota “germinada” y N denota “no germinada”. En los otros dos experimentos el espacio muestral asociado es de naturaleza numérica, por ejemplo se puede indicar lo siguiente → = ⁄ ∈ ℕ ∧ 6 ≤ ≤ 10 → = ⁄ ∈ ℝ ∧ ≥ 0 Sin embargo, habría que notar que en los experimentos vinculados a espacios de naturaleza cualitativa, estamos interesados más bien en el número de veces que se presenta cierto resultado de interés esto es, por ejemplo 0,1 ó 2 caras o bien 0, 1, 2 ó 3 semillas germinadas, es decir que interesan resultados numéricos. = 0,1,2 = 0,1,2,3 Una primera interpretación que se le puede dar al concepto de variable aleatoria es la siguiente: es una variable que toma valores numéricos de acuerdo con los resultados de un experimento, y más formalmente se dice que Una variable aleatoria es una función que a cada elemento del espacio muestral le hace corresponder un número real. La variable puede tomar diferentes valores numéricos y además estos valores dependen de los resultados experimentales que se producen por azar, por tanto ellos también presentan aleatoriedad. Para la notación simbólica adoptaremos X mayúscula para denotar la función variable aleatoria, S para representar el conjunto espacio muestral y ℜ para representar el conjunto de los reales. Por lo tanto, s es un elemento de S y x, minúscula, es un elemento de ℜ. 105 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD Esquemáticamente, podemos ilustrar a una VA cualquiera como: S ℜ X (s) s • • x Se observa que la VA es una función que: a) se aplica a un conjunto de partida, que es el espacio muestral (dominio) conformado por los resultados de un experimento aleatorio (eventos de naturaleza cualitativa o cuantitativa), y b) genera un conjunto equivalente o conjunto de llegada (codominio) conformado por eventos xi que, como se dijo, pertenecen a ℜ, conjunto de los números reales (eventos de naturaleza cuantitativa). En el experimento arrojar una moneda, el espacio muestral está constituido por sólo dos resultados posibles (variable dicotómica), cara (C) y sello (S); en tal caso la VA podría consistir en una regla que refleje algún criterio de conveniencia: se asigna el valor 1 a cara, porque se apostó a cara (se ganará) y se asigna 0 a sello porque con este resultado gana el contrario (se perderá). Supongamos ahora el experimento de lanzar dos dados y registrar el puntaje total obtenido. El espacio muestral se presenta en la siguiente tabla de doble entrada. Tabla 6.1. Conjunto de los pares ordenados (si,sj) que pertenecen al espacio muestral S Segunda tirada Primera tirada 1 2 3 4 5 6 1 2 (1,1) (2,1) (1,2) (2,2) (1,3) (2,3) (1,4) (2,4) (1,5) (2,5) (1,6) (2,6) 3 4 (3,1) (4,1) (3,2) (4,2) (3,3) (4,3) (3,4) (4,4) (3,5) (4,5) (3,6) (4,6) 5 6 (5,1) (6,1) (5,2) (6,2) (5,3) (6,3) (5,4) (6,4) (5,5) (6,5) (5,6) (6,6) 6 (1;6) (2;6) (3:6) (4;6) (5;6) (6;6) 6 x=7 x=8 x=9 x=10 x=11 x=12 5 (1;5) (2;5) (3;5) (4;5) (5;5) (6;5) 5 x=6 x=7 x=8 x=9 x=10 x=11 4 (1;4) (2;4) (3;4) (4;4) (5;4) (6;4) 4 x=5 x=6 x=7 x=8 x=9 x=10 3 (1;3) (2;3) (3;3) (4;3) (5;3) (6;3) 3 x=4 x=5 x=6 x=7 x=8 x=9 2 (1;2) (2;2) (3;2) (4;2) (5;2) (6;2) 2 x=3 x=4 x=5 x=6 x=7 x=8 1 (1;1) (2;1) (3;1) (4;1) (5;1) (6;1) 1 x=2 x=3 x=4 x=5 x=6 x=7 resultados del 2°dado resultados del 2°dado Podríamos interesarnos en la ocurrencia de un evento A definido como "la suma de los puntos es igual a 9". En el espacio muestral del experimento (Tabla 6.1 y Gráfico 6.1) puede verse que hay cuatro puntos muestrales que cumplen con esa condición: s63, s54, s45 y s36, referidos respectivamente a los pares ordenados (6,3), (5,4), (4,5) y (3,6). Significa que el evento A, es un evento compuesto formado por cuatro eventos simples. Si ahora consideramos el espacio de valores de la variable aleatoria X:”puntaje total obtenido” (Gráfico 6.2) vemos que el evento “la variable aleatoria toma el valor nueve” (X=xi, xi =9) está formado por la colección de cuatro valores 9 asociados con los anteriores puntos muestrales. Es por tal razón que se suele utilizar la notación conjuntista {x=9}, a los efectos de denotar que se tiene una colección de eventos simples y a cada uno de ellos les corresponde el valor de variable aleatoria 9. 0 0 0 1 2 3 4 5 resultados del 1°dado Gráfico 6.1 Espacio muestral para el lanzamiento de un par de dados legales 6 0 1 2 3 4 5 6 resultados del 1°dado Gráfico 6.2 Espacio de valores para la variable aleatoria "total de puntos al lanzar dos dados" Una situación análoga se presenta si consideramos el experimento de seleccionar un alumno del listado del curso de Estadística del ciclo 2000, interesando la variable nota promedio entre la clasificación del primer y segundo parcial. El alumno en el primer parcial pudo tener una nota que varía entre 0 y 10, y el segundo lo mismo (Gráfico 6.3). También en este caso, cada valor de la variable aleatoria está asociado con una colección de puntos muestrales, por ejemplo, el promedio siete podría surgir de (7,7); (8,6); (9,5); (10,4); (6,8); (5,9) o (4,10). 106 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD 10 9 Nota 2°Parcial 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 0 10 1 2 3 4 5 6 7 8 9 10 X Nota 1° Parcial Gráfico 6.3. Valor (7) que toma la variable aleatoria asociado a los eventos simples del espacio muestral S. A partir de estos ejemplos, es importante remarcar lo siguiente: 1º) Existe una relación funcional entre los eventos simples del S y los valores de X. 2º) Cada evento simple en el espacio muestral se corresponde con uno y sólo un valor de la variable aleatoria. 3º) Es posible que a varios eventos simples en el espacio muestral del experimento, les corresponda el mismo valor numérico de variable aleatoria. Finalmente, lo más importante de la variable aleatoria radica en lo siguiente: se dijo que el principal objetivo de la estadística es el estudio de los fenómenos de masa, y no de casos aislados. En otras palabras, debemos recordar que nuestro objetivo es llegar a conocer la población a partir de la cual se extrajeron las muestras en estudio. La VA permitirá describir, mediante modelos de probabilidad, a todos los posibles resultados de un experimento aleatorio, tal como una distribución de frecuencias permitió describir la distribución de todos los datos de una muestra. Estamos ya en condiciones de introducir una definición formal de VA. Definición 6.1 Sea un experimento aleatorio ε y el espacio muestral S, asociado con el experimento. Se llama variable aleatoria a la función X que se define sobre S, X(s), y aplicada a cada uno de los elementos pertenecientes al S, les asigna un número real. En símbolos X:S→ℜ S→ X(s) ∈ℜ Al espacio constituido por el conjunto de todos los posibles valores de la variable aleatoria X, se lo suele llamar recorrido de la VA y se lo simboliza como RX. En cierto sentido podemos considerar a este recorrido como otro espacio muestral, como ya se había visto esquemáticamente. Insistimos: mientras los puntos muestrales del espacio S son los resultados experimentales que pueden ser observables o eventos simples si (de naturaleza numérica o no), el nuevo espacio muestral (creado artificialmente) está asociado con los valores de la variable aleatoria X que siempre son numéricos. Diremos entonces que los eventos definidos en uno y otro espacio, son eventos equivalentes. Luego la teoría de probabilidad aplicada a eventos definidos en el espacio muestral, puede ser aplicada al cálculo de las probabilidades de ocurrencia de valores de variables aleatorias. S s2 s1 X ( si ) s3 s4 | | | | | -2 -1 0 1 2 Rx RX = {0,1,2} Una vez definida una variable aleatoria X y su recorrido RX, se pueden inducir probabilidades sobre eventos asociados con RX, a partir de las que están especificadas para los eventos equivalentes del espacio muestral S. 107 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD 6.2. VARIABLE ALEATORIA DISCRETA Se vio al clasificar los espacios muestrales que: a) Si un espacio muestral contiene un número finito de posibilidades o una serie interminable con tantos elementos como números enteros existen, se llama espacio muestral discreto. b) Si un espacio muestral contiene un número infinito de posibilidades igual al número de puntos en un segmento de línea, se llama espacio muestral continua. En correspondencia, las VA se clasifican en dos tipos: las variables aleatorias discretas y las continuas. Definición 6.2. Sea un experimento ℰ y un espacio muestral S asociado al mismo, la variable aleatoria X es discreta si el espacio S es discreto. Es decir, que X tomará valores contables (ya sea finito o infinito) que podrán arreglarse en una secuencia que corresponde a los números enteros positivos. Algunas variables aleatorias discretas típicas son el número de unidades defectuosas en una industria conservera, el número de insectos encontrados en un brote, el número de frutos producidos por una planta, el número de hectáreas de una finca, etc. Al contrario, el tiempo de espera para ser atendido en un supermercado, la cantidad de litros embotellados diariamente por una bodega, la temperatura media diaria, el tiempo empleado para hacer una determinación analítica, el pH, son algunos ejemplos de variables aleatorias continuas. A continuación se ilustra el concepto a través del experimento lanzar dos monedas y considerar que la variable aleatoria de interés es X: “número de caras obtenidas”. Los eventos simples que conforman el espacio muestral de este experimento son cuatro. A1 = {(C,C)}, A2 ={(C,S)}, A 3 ={(S,C)} y, A4 = {(C,C)}, es decir = ! , ! , ! , ! = , ; , ; , ; , La variable aleatoria X dada sólo toma tres posibles valores, digamos x1, x2 y x3 donde x1 =0, x2=1 y x3=2, es decir: RX = {0,1,2} Este resultado se deriva de aplicar la definición de variable aleatoria. A continuación se muestra la correspondiente interpretación gráfica: S RX X(C,C) (C,C) 2 (C,S) X(C,S) (S,C) 1 X(S,C) (S,S) X(S,S) 0 Para este ejemplo, si las monedas son equilibradas, se tendrá que P(C,S)=P(S,C)=P(C∩S)= P(S∩C)= ½.½=1/4. Por lo tanto, el evento compuesto “aparece sólo una cara” tiene una probabilidad de ½, obtenida según : P(una cara) = P{(C,S) U (S,C)}= (1/4) + (1/4) = 1/2. Si la variable aleatoria X toma valor x=1, equivalente al evento A={(C,S) U (S,C)} , podemos calcular la probabilidad del evento dado como: P(X=1) = P{(C,S) U (S,C)}= ½. 108 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD Gráficamente, esto es: S RX 1 (C,C) • (S,S) • "# X(A) 1 P(X=xi)=P(X=1)=P(1 )=1/2 1/2 (S,C) xi = 1 (C,S) 0 P (xi ) es una función, la función probabilidad: a cada valor xi de la VAD le hace corresponder un número real entero entre cero y uno, P(A1) = P{(C,C) }= ½ . ½ = ¼ = P (X = 2) P (A2 U A 3)= P {(C,S)U(S,C)} = ¼ + ¼ = ½ = P (X = 1) P(A 4)= P {(S,S)} = ½ . ½ = ¼ = P(X = 0) Hemos definido a una VA discreta y los resultados de la variable con sus respectivas probabilidades. Con este soporte teórico podremos calcular las probabilidades de que se produzcan determinados valores de una variable aleatoria, mediante las denominadas funciones de probabilidad. 6.1.1. FUNCIÓN DE PROBABILIDAD PARA UNA VAD Una vez especificados con claridad un experimento y sus resultados, se puede calcular la probabilidad de la ocurrencia de cualquier valor de una variable aleatoria de interés. Por ejemplo, supóngase que se tienen 140 alumnos de Estadística divididos en cuatro grupos. El tamaño del grupo ha sido fijado de acuerdo a la capacidad que tienen las aulas disponibles y es el siguiente: Tabla 6.2 Cantidad de alumnos que cursan Estadística divididos en grupos Grupo Cantidad de alumnos 1 25 2 45 3 40 4 30 Podemos determinar la probabilidad que se tiene de que al seleccionar al azar un alumno provenga de un grupo en particular. Es decir, nos interesa determinar la probabilidad que corresponda a cada uno de los posibles valores de la variable aleatoria X, que para este ejemplo son 1, 2, 3 y4. A continuación, en tabla 6.3, se presenta la serie de valores de la variable X y sus correspondientes probabilidades, obtenidas aplicando el enfoque empirista, lo que constituye la distribución de probabilidades de X. Tabla 6.3. Distribución de probabilidades para X en el ejemplo de la asignación de los grupos Valor de x Grupo 1 1 Grupo 2 2 Grupo 3 3 Grupo 4 4 Suma p(x) 25 = 0,179 140 45 = 0,321 140 40 = 0,286 140 30 = 0,214 140 0,3 P(x) Resultado 0,4 0,2 0,1 0 0 1 2 3 4 x 1 Gráfico 6.4: distribución discreta de probabilidades por grupo Se observa: 1) p( x ) ≥ 0 2) Sólo cuatro posibles valores (x =1, 2, 3 ó 4), por lo tanto entre ellos se distribuye la probabilidad total unitaria (todos el resto de los valores en la recta numérica real, tienen probabilidad igual a cero) Cuando se tiene una distribución de probabilidades para una variable aleatoria X, podemos hablar del modelo de probabilidades que describe el comportamiento de esa variable en la población objetivo de estudio. Entonces, estaremos interesados en condensar esa información en algunas 109 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD medidas descriptivas, fundamentalmente la media de una distribución de probabilidades y su varianza, denominadas esperanza matemática y varianza de una variable aleatoria, respectivamente. Seguidamente se muestra un diagrama que resume los conceptos vertidos acerca de cómo se llega a un modelo poblacional probabilístico. Especificar el Experimento E Reconocer todos los resultados p(x) Espacio muestral S Asignar un número Cada uno de los resultados Variable aleatoria X Determinar la probabilidad p(xi) X Distribución de probabilidades Gráfico 6.5. El modelo probabilístico En esta sección se considerará el concepto de distribución de probabilidad de una variable aleatoria. En general, una variable aleatoria discreta X representa los resultados de un espacio muestral en forma tal que por P(X =x) se entenderá la probabilidad de que X tome el valor de x. De esta forma, al considerar los valores de una variable aleatoria es posible desarrollar una función matemática que asigne una probabilidad a cada valor x de la variable aleatoria X. Esta función recibe el nombre de función de probabilidad de la variable aleatoria X. El término más general, distribución de probabilidades, se refiere a la colección de valores de la variable aleatoria y a la distribución de probabilidades entre éstos. Definición 6.3 Sea X una variable aleatoria discreta. Se llamará a p(x) = P (X = x) función de probabilidad de la variable aleatoria X, si satisface las siguientes propiedades: 1. p(x) ≥ 0 para ∀xi ∈ ℜ x 2. Σip(xi) = 1 Las distribuciones de probabilidades pueden presentarse en forma tabular y gráfica, como se muestra en el siguiente ejemplo: Tabla 6.4: Correspondencia entre los resultados del lanzamiento de un par de dados y la variable aleatoria que representa la suma de las caras Valor de la Nº de casos Resultado Probabilidad favorables Variable aleatoria (1,1) 2 1 1/36 (1,2), (2,1) 3 2 2/36 (1,3), (2,2), (3,1) 4 3 3/36 (1,4), (2,3), (3,2), (4,1) 5 4 4/36 (1,5), (2,4), (3,3), (4,2), (5,1) 6 5 5/36 (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) 7 6 6/36 (2,6), (3,5), (4,4), (5,3), (6,2) 8 5 5/36 (3,6), (4,5), (5,4), (6,3) 9 4 4/36 (4,6), (5,5), (6,4) 10 3 3/36 (5,6), (6,5) 11 2 2/36 (6,6) 12 1 1/36 Total -----36 1,00 p(x) 0,2 0,16 0,12 0,08 0,04 0 0 1 2 3 4 5 6 7 8 9 10 11 12 x Gráfico 6.6. Distribución de probabilidades para la suma de puntos al lanzar un par de dados A esta altura resulta conveniente analizar comparativamente el alcance de dos conceptos: frecuencia relativa y función probabilidad. Técnicamente, la diferencia consiste en que las frecuencias son frecuencias instantáneas acotadas a los resultados de una muestra, mientras que los valores de una función de probabilidad pueden interpretarse como frecuencias relativas teóricas a largo plazo para todas las repeticiones concebibles de un experimento aleatorio. De este modo, las probabilidades se relacionan con la población. En la práctica, indican el porcentaje de veces respecto a un gran número de observaciones en que se espera que se presenten los diferentes valores de una variable aleatoria. 110 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD Nótese que, dada una distribución de probabilidad, es fácilmente evidente que algunos resultados de una variable aleatoria sean más probables que otros. Además, la probabilidad de un determinado resultado, o grupo de resultados, se puede determinar sin mucho esfuerzo. En términos prácticos, por lo general no es necesario molestarse en calcular cada una de las probabilidades para obtener una distribución probabilística. Para ello se dispone de tablas y fórmulas. En consecuencia, el problema real no es “¿cómo se derivan los valores?”, sino ¿”cómo se utilizan las distribuciones para resolver problemas?” 6.1.2. FUNCIÓN DE DISTRIBUCIÓN DE PROBABILIDADES ACUMULADAS DE UNA VAD Ahora, además del hecho de que las distribuciones probabilísticas proporcionan un método sencillo para la determinación de ciertas probabilidades, los tipos de distribución se pueden considerar como modelos que describen situaciones que comprenden resultados generados aleatoriamente. Sin embargo, hacer referencia a la distribución de probabilidades de X no sólo implica la existencia de la función de probabilidad, sino también la existencia de la función de distribución de probabilidades acumuladas de X. Definición 6.4. Sea X una VAD, la función de distribución acumulada de probabilidades aleatoria discreta X está dada por: F(x) de la variable ( $ = "% ≤ = & '# * = 1, … , , #) Por lo tanto, en el caso discreto, una variable aleatoria X está caracterizada por la función de probabilidad puntual p(x), la cual determina la probabilidad puntual de que X = x, y por la función de distribución acumulada F(x), la que representa la suma de las probabilidades puntuales hasta el valor x de X, inclusive. Nótese que las definiciones anteriores son consistentes con los axiomas de probabilidad, ya que esta función no es negativa para cualquier valor de la variable aleatoria y la suma de las probabilidades para todos los valores de X es igual a uno. Ejemplo 6.1. Considérese de nuevo el lanzamiento de dos dados. Si X es la variable aleatoria que representa la suma de las caras, la función de probabilidad de X es 6 − 7 − x p( x ) = 36 0 x = 2,.3,...,12 (1) para cualquier otro valor Con (1), pueden determinarse las probabilidades para varios valores de X contenidos en la tabla 6.4 y cuya gráfica se muestra en el gráfico 6.7. Además, puede evaluarse la función de distribución acumulada de X de la siguiente forma: F(1)= P (X F(2)= P (X F(3)= P (X F(4)= P (X F(5)= P (X F(6)= P (X ≤ 1) = ≤ 2) = ≤ 3) = ≤ 4) = ≤ 5) = ≤ 6) = 0 1/36 3/36 6/36 10/36 15/36 F(7)= P (X ≤ 7) = 21/36 F(8)= P (X ≤ 8) = 26/36 F(9)= P (X ≤ 9) = 30/36 F(10)= P (X ≤ 10)= 33/36 F(11)= P (X ≤ 11) = 35/36 F(12)= P (X ≤ 12) = 1 Nótese que P (X > 7) = 1 – F(7) = 15/36 P (X =7) = P (X ≤ 7) - P (X ≤ 6) = 6/36 P (4 ≤ X ≤ 9) = P (X ≤ 9) - P (X ≤ 3) = F(9) - F(3) = 27/36 En general, la función de distribución acumulada F(x) de una variable aleatoria discreta es una función no decreciente (o monótona creciente) de los valores de X, de tal manera que cumple con las siguientes propiedades: 1. 0 ≤ $ ≤ 1'-.-/0-120*3. 2. $# ≥ $45 67*# > 5 3. "% > = 1 − $ Además, puede establecerse que para variables aleatorias de valor entero: 4. "% = # = $# − $#: 5. "4# ≤ % ≤ 5 6 = $45 6 − $#: 111 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD La gráfica de la distribución acumulada del ejemplo 6.1 se muestra en el gráfico 6.7. En este gráfico es evidente que la función de distribución acumulativa de una variable aleatoria discreta es una función escalón, que toma un valor superior en cada salto. F(x) 36/36 33/36 26/36 15/36 6/36 1/36 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 x Gráfico 6.7. Representación gráfica de la función de distribución acumulativa de la suma de las caras de dos dados INTERPRETACIÓN Se desprende que el concepto de frecuencia relativa acumulada y su representación gráfica, ya vistos, tienen también su contrapartida en el estudio de las probabilidades. Una función acumulada describe cómo se acumulan las probabilidades del mismo modo exactamente que la cuarta columna de la tabla de distribución de frecuencias describe la manera en que se acumulan las frecuencias relativas: sumando todos los valores de estas frecuencias. El valor de la función acumulada es cualquier punto dado xi, F(X = xi) representa la suma de todos los valores de la función de probabilidad correspondientes a todos los valores de la variable aleatorias x que son menores o iguales a xi. Ejemplo 6.2. Supóngase que se lanza una moneda dos veces de tal forma que el espacio muestra es S = {(C,C), (C,S), (S,C), (S,S)}. Represéntese por X el número de caras que pueden resultar. Con cada punto muestral podemos asociar un número para X como se muestra en la Tabla 6.5. Así en el caso de (C,C) (es decir 2 caras), x = 2 en tanto que para (S,C) (1 cara), x= 1. Se concluye que X es una variable aleatoria. Tabla 6.5: Correspondencia de los eventos simples de S del ejemplo 6.2 y los valores que toma la VAD X Punto muestral % CC 2 CS 1 SC 1 SS 0 Debe observarse que también podrían definirse otras muchas variables aleatorias en este espacio muestral, por ejemplo X1:”el cuadrado del número de caras”, X2: “el número de caras menos el número de sellos”, etc. Retomando el ejemplo 6.2: a) Hallar la función de probabilidad correspondiente a la variable aleatoria X. b) Construir la gráfica de la Función de probabilidad. SOLUCIÓN (a) Suponiendo que la moneda es legal tenemos 1 1 1 1 " = " = " = " = 4 4 4 4 Luego "% = 0 = " = 1 1 2 "% = 1 = " ∪ = " + " = + = 4 4 4 1 "% = 2 = " = 4 Así, la función de probabilidad está dada en la Tabla 6.5. Tabla 6.5.: Función de probabilidad para el ejemplo 6.2 xi p(xi) 0 1/4 1 2/4 2 1/4 (b) La gráfica de la función de probabilidad puede representarse como se indica en la Gráfico 6.8 112 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD p(x) 3/4 2/4 1/4 x 0 0 1 2 Gráfico 6.8. Función de probabilidad del númerod de caras al lanzar dos veces un moneda legal Ejemplo 6.3. Sea la función de distribución para la variable aleatoria X F(x) 1 −∞ < x < 0 0 0 ≤ x <1 1 4 F ( x ) 2 4 1 ≤ x < 2 1 2 ≤ x < ∞ 2/4 1/4 0 -3 -2 -1 0 1 2 3 Gráfico 6.9- Función de distribución de probabilidades para el ejemplo 6.3 4 x Los aspectos siguientes acerca de la función de distribución anterior, que son verdaderos en general, deben notarse: 1. Las magnitudes de los saltos para p(x), en 0, 1, 2 son 1/4, 1/2, 1/4 que corresponden exactamente a las ordenadas en la figura. Este hecho permite obtener la función de probabilidad a partir de la función de distribución. 2. Debido a la apariencia de la gráfica 6.6 frecuentemente se la llama función escalera o función escalonada o función paso. 6.3. VARIABLE ALEATORIA CONTINUA Hemos estudiado variables aleatorias que pueden tomar un número finito de valores o infinito contable. Ahora concentraremos la atención en experimentos de gran interés cuyos resultados pueden ser cualquier número dentro de un intervalo dado. Por ejemplo, sea un estudio del peso de los seres humanos, la variable peso de seres humanos en kg, podrá tomar por ejemplo valores reales positivos. Significa que si se selecciona al azar un ser humano podemos esperar que su peso se corresponda con algún valor contenido en este intervalo, podrá ser un valor entero o no. Sin embargo, cuando pensamos en la población ideal de valores de pesos, es decir el comportamiento o naturaleza verdadera de la variable medida, podemos imaginar la medición con la precisión necesaria como para que cada unidad de análisis arroje un diferente valor. Para ilustrar el comportamiento de una variable aleatoria, vamos a considerar el experimento pesada de 10 alumnos del curso de Estadística seleccionados al azar. El intervalo real de valores de la variable podría ser de 50 Kg a 100 Kg. Vamos a suponer que se usará una balanza calibrada, que tiene un reloj dividido en diez sectores iguales: 90 100 10 80 20 70 30 60 50 40 Antes de realizar el experimento, podemos imaginar que la aguja se va a detener en cualquier punto de la circunferencia, pero de ningún modo podemos dar una serie determinada de 10 valores asegurados que ese sea el resultado -estamos imaginando de esta forma una serie de posibles valores de una variable aleatoria continua. Otra observación importante es la siguiente. Dado que hay muchos resultados posibles, la probabilidad de que la punta de la aguja señale exactamente un valor es tan pequeña que, para los objetivos prácticos se la considerará como aproximadamente igual a cero. Pero si idealizamos esto último, imaginando infinitos valores (valores poblacionales) diremos que la probabilidad teórica de que la variable aleatoria continua tome un valor específico es igual a cero: P(X=x) = 0. Sí será válido, hablar de la probabilidad de que la variable aleatoria continua tome un valor dentro de algún 113 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD intervalo, por ejemplo la probabilidad de que un alumno pese entre 50 y 60 Kg. (nótese, la diferencia del concepto de probabilidad de un valor de la variable aplicado en variable aleatoria discreta). Realizado el experimento de las diez pesadas, podemos imaginar tres situaciones: a) un alumno se ubique detrás de la balanza e ignore los diez puntos donde se detuvo la aguja en el reloj y b) un alumno fue haciendo la lectura para registrar los datos. Para el alumno de a) la variable en estudio sigue conservando su naturaleza aleatoria, aún es una variable aleatoria(desconoce los valores muestrales que resultaron); X1, X2, …, Xi, …, Xn. Por otro lado los alumno de b) y c) ya conocen el valor que tomó (peso de alumnos, en Kg.) en cada unidad de análisis, por lo tanto estos alumnos tienen diez datos de una variable estadística (realización de una variable aleatoria): x1, x2, …, xi,..., xn. Finalmente, el concepto de variable aleatoria continua permite una nueva conceptualización de la probabilidad, esto es, la probabilidad como medida. Hemos supuesto el disco del reloj dividido en 10 sectores de igual tamaño, podemos considerar la probabilidad de que la aguja se detenga en un sector cualquiera. Intuitivamente, podemos responder que se tiene un 10% de probabilidad. Por ejemplo, Probabilidad = medida[60 − 50] 10 = = 0,1 medida total [100 − 0] 100 De este modo extendemos la aplicación de la probabilidad para el estudio de fenómenos aleatorios relacionados con numerosas variables que son de interés en el campo de las ciencias empíricas: longitudes, superficies, volúmenes, etc. Con experimentos aleatorios que está asociado a espacios muestrales infinitos no contables. Formalmente definimos a una variable aleatoria continua, denotada como VAC, como sigue: Definición 6.5. Sea un experimento E y un espacio muestral S asociado al mismo, la variable aleatoria X es continua si el espacio S es continuo. Es decir, que X tomará valores en uno o más intervalos de la recta de los reales,[a,b] Desde el punto de vista de la notación de una variable aleatoria continua, para el caso general, el intervalo de valores de una variable X que tiene por extremos los valores a y b, en la bibliografía se encuentran diferentes formas: a) Como intervalo cerrado, [a,b]: En forma más explícita, se hace referencia al conjunto de valores de la variable X cuyos valores están comprendidos entre a y b, incluyendo los extremos a y b, esto es a ≤ X ≤ b. O sea se trata del conjunto x ∈ [a,b]. b) Como intervalo semicerrado, (a,b], o bien [a,b): en este caso, la variable no toma el valor de unos de los extremos del intervalo, lo cual se indica con un paréntesis en lugar del corchete. Respectivamente, se está haciendo referencia a los conjuntos: a< X ≤ b, o sea se trata de conjunto x ∈ (a,b] y, en segundo lugar al a ≤ X < b, por tanto, se trata del conjunto x ∈ [a,b). c) Como intervalo abierto, (a,b): es cuando el conjunto de valores de la variable X cuyos valores están comprendidos entre a y b, no incluye los extremos a y b, esto es a < X< b, o sea, se trata de conjunto x ∈ (a,b). Esta notación es la que adoptaremos nosotros. 6.1.3.FUNCIÓN DE DENSIDAD DE PROBABILIDAD DE UNA VAC Para muchas variables aleatorias continuas de nuestro interés, se podrá considerar al intervalo [0,M] como intervalo de posibles valores de X. En relación a esto se podrá dibujar un histograma, asociado con una muestra de tamaño n, tal que el área total de todos los rectángulos sean igual a 1. También se podrá considerar un histograma para una muestra de tamaño muy grande con intervalos más pequeños, sin modificar la propiedad del área total unitaria. Finalmente se podrá pensar en los datos de una población, mediante un suavizado del trazo. Esto último, implica que se está pensando en el límite de una secuencia de histogramas, a través de aumentar el número de intervalos de clases y disminuir la longitud de los mismos (en el caso límite n→∞, k→∞, ∆x→0). El gráfico que corresponde a una curva suavizada especifica una distribución continua de probabilidad. En el caso de variables aleatorias discretas se vio que el problema de determinar la probabilidad de que la variable X tome un valor determinado, P(X=x), tenía una solución dada por la función de probabilidad, p(x). Pero, en el caso de VAC hemos visto que P(X=x) = 0 Para resolver el problema de asociar probabilidades a valores de variables aleatorias continuas, vamos a interesarnos en la probabilidad de que la variable aleatoria X tome un valor en un intervalo. En la realidad y debido a limitaciones en el acto de medir, el espacio muestral de resultados experimentales está conformado por un número finito de puntos. Por tanto, los n subintervalos de longitud ∆x en que puede ser dividido el intervalo muestral (Histograma) también tiene un número finito de puntos. Si estamos interesados en la probabilidad de la ocurrencia de un valor determinado xi , pensaremos en el intervalo que va de a hasta b, donde a≤b, que contiene a este valor xi . 114 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD Teóricamente, podemos suponer un recorrido de la variable X desde -∞ a +∞, esto es, se tiene un espacio muestral infinito no contable. De este modo un intervalo de valores (a,b) definido en el intervalo total, también contendrá infinitos puntos y, la probabilidad de que la variable aleatoria continua X, tome un valor determinado en él, será indicada como P(a<X<b). Tal probabilidad, geométricamente, está representada por el área bajo la curva suavizada f(x), delimitada lateralmente por a y b y por el eje de abscisas X en la parte inferior. En síntesis: asignar probabilidades a valores de una VAC, recordar: a) la probabilidad P(X=xi)=0, esto es las probabilidades puntuales son siempre igual a cero. b) Se considera que el valor x pertenece a un intervalo P(a≤ x ≤b) = P(a<x ≤b) = P(a≤ x<b) = P(a<x<b) La función f(x), gráficamente es la curva límite que se obtiene para un número muy grande de valores de la variable y para una amplitud de intervalo muy pequeña, y recibe el nombre de función de densidad de probabilidad (fdp) para una VAC, o más brevemente el de función de densidad Definición 6.6. Sea X una variable aleatoria continua. La probabilidad de que la VAC X tome un valor en el intervalo definido por dos constantes cualesquiera reales a y b, siendo - < ?, está dada por b P(a < X < b) = ∫ f ( x)dx a donde, f es una función integrable y definida para todos los valores de la variable aleatoria X, en una situación límite (n→∞ de modo que ∆x → 0). De allí la denominación de la @ como “curva límite”. La función de densidad de probabilidad de X, f(x), al ser graficada en ordenadas con relación a los correspondientes valores de variable, define un área total entre la curva y el eje de abscisas, de tamaño unitario. Puesto que el área es igual a1, la probabilidad del intervalo entre a y b, denotada como P(a<X<b), que contiene algún valor xi de interés, resulta ser gráficamente el área acotada por la función de densidad, las perpendicularidades levantadas por a y b, y el eje de abscisas correspondiente a los valores de X, como se ilustra en la siguiente figura. Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 0,40 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil “curvaVersión límite” Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil Versión Estudiantil 0,30 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 0,20 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil D ensidad Versión Estudiantil sión Estudiantil Versión Estudiantil "- < < ? Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Área de probabilidad Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil (Área total=1) Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 0,10 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 0,00 Versión Estudiantil Versión Estudiantil Versión Estudiantil a Versión Estudiantil b Versión Estudiantil Versión Estudiantil X Versión Estudiantil Gráfico 6.10: "- < < ?= área bajo la gráfica de @ entre a y b Hay que aclarar que @ no es cualquier función real integrable, para que sea una fdp legítima, debe ser una función que satisfaga las siguientes condiciones: 1º) @ ≥ 0 para todas las en el dominio de la función @ D 2º)"−∞ < % < ∞ = B:D @C = 1, (área total unitaria bajo la curva límite) NOTAR: f(x) es la función de densidad de una VAC y los valores que toma NO son valores de probabilidad sino valores de la curva límite; f(x), sólo toma valores positivos (cuadrante I). La función es un modelo y también un medio para obtener valores de probabilidad, ya que integrando @ en un intervalo dado (a,b) se obtiene una probabilidad, la probabilidad de que la variable X tome valores pertenecientes al intervalo considerado; gráficamente las probabilidades son áreas bajo @. La idea de un punto muestral 7# (posible valor de la variable % al realizar un experimento aleatorio) perteneciente a un espacio muestral infinito no contable , que se corresponde con un punto xi en la recta de los reales, ℜx, que está contenido en un intervalo definido (valor entre y ), el cual tiene asociado un valor de probabilidad (probabilidad para el intervalo que contiene el valor # ), se puede ilustrar como sigue # 1 " <%< ? 0 % • EF R S 115 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD 6.1.3.1.1. PROPIEDADES DE LA FDP 1º) @ ≥ 0,paratododonde − ∞ < < ∞ D 2º) B:D @C = 1,á.3-PQP-10R*P-.*-?-SQ1-/0.T-1íV*P3@ 3º) W "- < % < ? = BX @C = $? − $-,donde0 ≤ Pa < % < ? ≤ 1 NOTAR: la relación de las propiedades de la @ con las propiedades de la frecuencia relativa y con los axiomas de probabilidad. Algunos ejemplos de funciones de densidad de probabilidad se dan a continuación @ @ "- < % < ? -? @ @ "- < % < ? -? "- < % < ? "- < % < ? -? -? Se desprende que la obtención de una f(x) para describir la distribución de una VAC no es una tarea de modelización simple, a veces las fdp son creadas por los estadísticos matemáticos y a posteriori se encuentran aplicaciones y, otras veces, las derivan basados en conocimientos matemáticos y también empíricos. Afortunadamente existen algunas fdp que representan a una familia de distribuciones continuas, y por tanto se adecuan a una variedad de situaciones experimentales, de interés en el estudio de fenómenos aleatorios en disciplinas como la ingeniería, la biología, la economía y otras, tal es el caso de la f(x) correspondiente a la distribución uniforme, normal, gamma, beta, exponencial, etc. 6.1.4.FUNCIÓN DE DISTRIBUCIÓN DE PROBABILIDADES ACUMULADAS DE UNA VAC Para el caso de variable aleatoria discreta, la función de distribución de probabilidad acumulada, fdpa; da para cualquier valor especificado de X la probabilidad P(X ≤ x), es decir la probabilidad de que X tome un valor menor o igual a algún x especificado de la variable, xi. El valor de esta función se sabe que se obtiene al sumar los valores de la función de probabilidad p(x) correspondientes a todos los posibles valores de la variable que satisfagan lo siguiente: son menores o igual al x dado. Cuando se trata de una variable aleatoria continua X, la función de probabilidad acumulada también da la probabilidad P(X ≤ x), pero tal valor se obtiene por integración de la fdp, entre los límites -∞ y x. Definición 6.7. Sea X una variable aleatoria continua. La probabilidad de que X tome un valor menor o igual a un valor x especificado, se define como x F ( x) = P( X ≤ x ) = ∫ f (t )dt −∞ donde t es una variable artificial de integración. La función de distribución de probabilidad acumulada de X, F(x), al ser graficada en ordenadas, en relación a los correspondientes valores de la variable, define una curva no decreciente. El valor de ordenada de cada punto de la curva F(x) se corresponde con el área por debajo de la función f(x) entre −∞ y # , F(x) 1 F(xi) X 0 xi Gráfico 6.11: Función de distribución de probabilidad acumulada F(x) 116 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD 6.1.4.1.1. PROPIEDADES DE LA FDPA 1º) 2º) $−∞ = 0 $∞ = 1 3º) "- < % < ? = $? − $- 4º) dF ( x) = f ( x) dx la derivada de la F(x) da la @, como consecuencia del teorema fundamental del cálculo integral, siempre que tal derivada exista. 6.4. VARIANZA DE UNA VARIABLE ALEATORIA 6.1.5.VALOR ESPERADO O ESPERANZA Utilizando el material que hemos presentado hasta aquí, podemos ahora determinar la probabilidad de un solo suceso de un experimento, o describir la probabilidad de todo el conjunto de resultados asociados con una variable aleatoria dada. Sin embargo, puede que esta información no sea suficientemente concisa en muchas situaciones de decisión. Recuérdese que tuvimos el mismo problema en la estadística descriptiva donde no era suficiente la mera presentación de todos los datos y hubo que determinar diversas características de los mismos (de las cuales las más importantes fueron la media y la varianza). Los mismos tipos de medidas son útiles para describir las distribuciones de probabilidades. En este caso, sin embargo, no debemos hablar de una media observada o de una varianza observada, sino de la media o la varianza que se esperaría obtener (en promedio) para la variable aleatoria en consideración. A estos valores se les da, pues, el nombre de esperanza o valores esperados. El valor esperado (o esperanza) de una variable aleatoria es un concepto muy importante en el estudio de las distribuciones de probabilidad. La esperanza de una variable aleatoria tiene sus orígenes en los juegos de azar, debido a que los apostadores deseaban saber cuál era su esperanza de ganar repetidamente un juego. En este sentido, el valor esperado representa la cantidad de dinero promedio que el jugador está dispuesto a ganar o perder después de un número grande de experimentos. Para ilustrar la esencia de la esperanza, se analizará el siguiente juego de azar. Supóngase que se tiene una moneda normal y el juego tiene tres oportunidades para que al lanzarla aparezca una “cara” o después de tres intentos, lo que sucede primero. Si en el primero, segundo o tercer lanzamiento aparece “cara” el jugador recibe $2, $4 y $8 respectivamente. Si no cae “cara” en ninguno de los tres lanzamientos, pierde $20. Para determinar la ganancia o pérdida promedio después de número muy grande de juegos, sea X la variable aleatoria que representa la cantidad que se gana o se pierde cada vez que se juega. Después de un número grande de juegos se espera ganar $ 2 en cualesquiera de los dos lanzamientos, $ 4 en cualesquiera de los cuatro lanzamientos, $ 8 una vez cada ocho lanzamientos y se espera perder $ 20 una vez en cada ocho intentos. El valor esperado, o la cantidad promedio que se ganaría en cada juego después de un número muy grande de éstos, se determina multiplicando cada cantidad que se gana o se pierde por su respectiva probabilidad y sumando los resultados. La esperanza de ganar es ($2)(1/2) + ($4)(1/4) + ($8)(1/8) + (-$20)(1/8) = ($0,50) Ganancia promedio por juego. Nótese que el valor esperado de 50 centavos no es ninguno de los posibles valores de la variable aleatoria; de esta forma, es completamente posible que una variable aleatoria nunca tome el valor de su esperanza. El ejemplo anterior sugiere la siguiente definición de la esperanza matemática de una variable aleatoria: Definición 6.8. El valor esperado de una variable aleatoria X, simbolizado como Z[%\, es el promedio o valor medio de X y está dado por: ( Z[%\ = ] = & # '# * = 1,2, … , ,3R31/-7QC*7/.3PQ^!_ #) D Z[%\ = ] = ` @C 3R31/-7Q/QRP*R0Q^! :D La esperanza de una variable aleatoria X es un número fijo (valor de variable) y una propiedad de la distribución de probabilidades. Generalmente se usa la letra E para denotar un valor esperado, y a continuación de este símbolo se colocan corchetes que encierran la variable aleatoria de interés. Así, el símbolo E[X] representa el 117 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD valor esperado de la variable aleatoria X. El valor esperado de X es el “punto de equilibrio” de la función de probabilidad. Se trata, por tanto, de la media ponderada de la población de valores x. El valor esperado de una variable aleatoria discreta X se obtiene multiplicando cada valor de la variable aleatoria por su correspondiente probabilidad, y sumando luego todos estos productos. Nótese que esta definición de µ = E[X ] se asemeja a la que dimos en la unidad I para la media de una población con datos agrupados. La mayor diferencia consiste en que, en la Unidad I cada valor de x era “ponderado” por su frecuencia relativa fi/n, mientras que aquí la ponderación es p(xi). Como señalamos anteriormente, fi/n, es la frecuencia relativa para sólo una (o unas pocas) repeticiones del experimento, mientras que p(xi) es la frecuencia relativa esperada para un número infinito de repeticiones del experimento. 6.1.6.VARIANZA DE UNA VARIABLE ALEATORIA Así como la varianza de una población se define como el promedio de los cuadrados de las desviaciones de los valores poblacionales respecto a su media (µ), así también puede definirse la varianza de una variable aleatoria como el valor esperado del cuadrado de las desviaciones de los valores de x respecto a su valor esperado E[x]. Denotamos esta varianza de la variable aleatoria x mediante el símbolo V[x], que se define de la manera siguiente: Definición 6.9 Varianza de X: \ ^[%\ = a = Z[% − ] ( = & # '# 3R31/-7QC*7/.3PQ^!_ #) D ^[%\ = a = Z[% − ] \ = ` − ] @C 3R31/-7Q/QRP*R0Q^! :D La fórmula anterior constituye la forma acostumbrada de definir la varianza de una variable aleatoria discreta. También puede utilizarse para calcular la desviación estándar, denotada por , que es igual a la a raíz cuadrada de la varianza: Definición 6.10. Desviación típica de una Variable aleatoria (VA) a = b^[%\ Para ilustrar el uso de la fórmula de la varianza de una variable aleatoria, supóngase una distribución de probabilidades del número de orificios en tronco producidos por el taladrillo del olivo. En la tabla 6.6 y la gráfica 6.12 se muestra la función de probabilidad correspondiente a este ejemplo. Tabla 6.6- Distribución de probabilidades X P(x) 1 0,08 2 0,27 4 0,10 6 0,33 12 0,22 0,4 P(x) E[x]=µ = 5,64 V[x]= σ 2 = ∑ ( x − 5,64) 0,3 2 p( x ) todox 2 = (1-5,64) 0,08 + (2-5,64)2 0,27 + 0,2 0,1 x 0 0 1 2 3 4 6 8 10 12 14 (4 – 5,64)2 0,10 +)6 – 5,64)2 0,33 + (12 – 5,64)2 0,22 V[x] = 14,51 orificios2 σ= V ( x ) = 3,8 orificios Gráfico 6.12: Función de probabilidades El valor µ = 5,64 es el centro de esta distribución de probabilidades, en el sentido de que es el número esperado de orificios por tronco de olivo. El valor σ = 3,81 indica el tamaño esperado de la dispersión de la distribución de las cantidades de orificios con respecto a su media. En este momento es importante subrayar que se debería verificar siempre que los valores obtenidos para E[x] y V[x] sean razonables. Por ejemplo, si E[x] no está próximo al punto donde cabría esperar que estuviese el centro de gravedad, se hará necesaria una revisión de los cálculos. Un buen procedimiento para verificar que el valor de V[x] es razonable consiste en emplear la regla práctica para las varianzas. Esta regla dice que si la distribución de probabilidades es razonablemente simétrica y unimodal, entonces 68% y 95% representan buenas aproximaciones al porcentaje de la distribución 118 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD II: PROBABILIDAD comprendida en los intervalos µ + σ y 2σ, respectivamente. Usando los valores de µ y σ, del gráfico 6.12, puede demostrarse que estos intervalos contienen: Intervalo µ + σ = 5,64 + 3,81 = 1,83 a 9,45 µ + 2σ= 5,64 + 2 (3,81) = 0 a 13,26 Probabilidad en el intervalo [0,27 + 0,10 + 0,33 = 0,70] [0,08 + 0,27 + 0,10 + 0,33 + 0,22= 1,00] Vemos que los porcentajes reales concuerdan bastante bien con lo indicado por la regla práctica. Sin embargo, el lector debe recordar que, si la distribución hubiera sido acentuadamente asimétrica, los porcentajes correspondientes a estos intervalos podrían haber sido muy diferentes de 68% y 95%. Si bien la fórmula de la varianza de una VA es teóricamente correcta, tiene gran desventaja en lo que respecta a su obtención. En especial, cuando la media µ no es un número entero, sino que tiene tres o más decimales, entonces puede ser tedioso restar µ de cada valor de x. Además, al elevar al cuadrado las desviaciones se obtendrán números con seis o más decimales. Finalmente, si el número de valores que toma x es grande, entonces todas estas restas y cuadrados, así como la suma final, requerirán muchos pasos que son una fuente potencial de errores de cálculo. Para obviar estas objeciones, existe una fórmula para el cálculo de la varianza de una distribución de probabilidades que es muy parecida a la que se dio para la varianza muestral para el cálculo abreviado de σ2. Esta fórmula requiere el cálculo previo de E[X] y de E[X2], y es equivalente a la fórmula de la definición 6.11. Definición 6.11 Fórmula equivalente para a varianza de %: ^[%\ = a = Z[% \ − Z[%\ La fórmula puede ser recordada como la esperanza de los cuadrados menos el cuadrado de la esperanza. Es ésta una expresión general que se aplica a cualquier variable aleatoria discreta o continua. 119 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014