Estadı́stica y sus aplicaciones en Ciencias Sociales 1. Introducción a la probabilidad Facultad de Ciencias Sociales Universidad de la República Curso 2016 Índice 1.1. Aleatoriedad e incertidumbre 1.2 Probabilidad 1.3. Variables aleatorias 1.1. Aleatoriedad e incertidumbre La teorı́a de la probabilidad y los modelos probabilı́sticos intentan dar cuenta de la aleatoriedad, es decir del papel del azar en distintos procesos de la naturaleza y la sociedad. Las ciencias sociales buscan entender fenómenos sociales, de manera de proveer explicaciones y poder predecir sus resultados. La aleatoriedad es una caracterı́stica de las acciones de los sujetos sociales e implica un grado de impredeciblidad de sus resultados. Los procesos naturales o sociales no tienen naturaleza determinı́stica, entendiendo por tal un proceso en el cual conociendo un conjunto de estados y condiciones iniciales, es posible prever exactamente el resultado. ¿Es la aleatoridad simplemente efecto de nuestra ignorancia o incapacidad de incluir en el análisis la totalidad de las variables o influencias que determinan los resultados de los procesos? ¿Si conociéramos la totalidad de los factores que inciden, desaparecerı́a la aleatoriedad? Hay una distinción entre aleatoriedad o impredecibilidad debida a la existencia de azar, y la incertidumbre que surge de nuestra falta de conocimiento o ignorancia. La probabilidad es una herramienta central en el desarrollo del conocimiento cientı́fico. El conocimiento de la teorı́a probabilı́stica debe ayudar a la tarea de construir modelos sobre los fenómenos sociales, en los que la aleatoriedad está siempre presente. Nuestras afirmaciones están también sujetas a incertidumbre. Se basan en evidencia sobre lo conocido y se busca generalizarlas a lo no observado. La teorı́a probabilı́stica proporciona herramientas para dar una medida del grado de certeza que atribuimos a nuestras afirmaciones además de la precisión de las mismas. Estructura del curso -Se analiza nociones de probabilidad. -Se introduce los conceptos de variable y vector aleatorio, y se presenta un conjunto de distribuciones de probabilidad de interés. -Se presenta la inferencia estadı́stica, conjunto de métodos basados en la teorı́a de la probabilidad, que permiten hacer inferencias acerca de una población a partir de la observación de una muestra de sus componentes. Se introduce los conceptos de muestreo, estadı́stico y distribución el en muestreo. -Se analiza el concepto de estimador y sus propiedades, presentando algunos resultados para muestras grandes. Se estudia ejemplos de estimación puntual y por intervalos y de prueba de hipótesis estadı́sticas. -Se presenta el análisis de regresión como aproximación a la medición del impacto de un conjunto de variables en otra, dando una medida de la precisión y confianza de la misma. 1.2. Probabilidad Experimento aleatorio (ε) puede ser repetido (esencialmente) en las mismas condiciones. tiene un conjunto de resultados posibles (espacio muestral), definible con anterioridad. no se puede predecir el resultado de una realización particular del experimento. Espacio muestral (Ω) El espacio muestral (o espacio experimental) Ω, asociado a un experimento aleatorio ε, es el conjunto de todos los posibles resultados del mismo. Ejemplos: Lanzamiento de una moneda: Ω1 = {c, n} Lanzamiento de un dado: Ω2 = {1, 2, 3, 4, 5, 6} La repetición de un experimento es también un experimento. Se puede representar el espacio muestral con un diagrama de árbol. Ejemplo: tirar tres veces una moneda. Ω = {CCC , CCN, CNC , CNN, NCC , NCN, NNC , NNN} CCC CC CCN CNC C CN CNN NCC N NC NN NCN NNC NNN Conjuntos y operaciones con conjuntos: El espacio muestral Ω es un conjunto. Nos interesan las operaciones con conjuntos. Tomamos un conjunto como cualquier colección de objetos. Los objetos en un conjunto son sus elementos, y usamos la notación x ∈ A con el sentido ”x es un elemento del conjunto A”. Un subconjunto de Ω es un conjunto cuyos elementos son todos a su vez elementos de Ω, y se escribe B ⊂ Ω para denotar ”B es un subconjunto de Ω”. Buscamos distintos subconjuntos de Ω. El complemento de un conjunto A es el conjunto de los elementos que no están en A, pero pertenecen a Ω, con la notación Ac = Ω − A. El signo ”−”se entiende como ”excluyendo a todos los elementos de”A. El complemento de Ω es el conjunto vacı́o: ∅ = Ωc , el conjunto que no contiene ningún elemento. La unión de dos conjuntos A y B es el conjunto de elementos que pertenecen a uno, o al otro, o a los dos, y se escribe A ∪ B. La intersección de dos conjuntos A y B es el conjunto de elementos que pertenecen al mismo tiempo a los dos, y se escribe A ∩ B. Dos conjuntos A y B son mutuamente excluyentes (o disjuntos) si no tienen ningún elemento en común, esto es, A ∩ B = ∅. A B Suceso A ∩ B ( A y B ) A B Sucesos excluyentes: A ∩ B = ∅ A B Suceso A∪B ( o A o B ) A Suceso Bc B no B ) Suceso o evento aleatorio: un subconjunto de los elementos de Ω. Ocurrencia: si A ⊂ Ω, si el resultado del experimento es uno de los elementos de A, entonces decimos “A ha ocurrido”. Suceso o evento elemental (ω): cada elemento del espacio muestral Ω. Son todos mutuamente excluyentes (disjuntos). Clase de sucesos en Ω (=). Es un conjunto de conjuntos. Sus elementos son todos sucesos de Ω (subconjuntos de Ω). Para construir la clase = se parte de los eventos de interés. Se incluye a continuación sus complementos, sus uniones, y los complementos de las uniones, en un proceso hasta cumplir que: si A es un evento (A ∈ =), entonces Ac ∈ =. si (A1 ∈ = y A2 ∈ =), entonces A1 ∪ A2 ∈ =. Propiedades de la clase de sucesos =: 1. Ω ∈ =. Ω es el suceso cierto o suceso seguro: cualquier resultado que se obtenga cumple con que ocurre Ω. 2. ∅ ∈ = ∅ es el suceso imposible: no hay ningún elemento de Ω que cumpla con que ocurre ∅. Clase de sucesos: ejemplo Experimento ”lanzar una moneda”: Ω = {C , N}; Clase de sucesos: = = {∅; {C }; {N}; Ω} Elementos de =: ∅ “la moneda no tiene una cara hacia arriba” {C } “sale cara” {N} “sale número” Ω “sale cara o número” Probabilidad: han existido tres aproximaciones al concepto de probabilidad: Clásica Frecuencista, empı́rica o experimental Subjetiva Probabilidad: definición clásica La probabilidad de un suceso A es la relación entre el número de casos favorables a dicho suceso y el número de casos posibles, siempre que éstos sean todos igualmente verosı́miles: P(A) = nA casos favorables = casos posibles n Su aplicación se restringe a experimentos que tienen un número finito de resultados posibles. Todos los resultados posibles deben ser “igualmente verosı́miles” (equiprobables): definición circular. Probabilidad: definición frecuencista La probabilidad de un suceso A es el lı́mite de la frecuencia relativa de su ocurrencia, cuando el número de repeticiones del experimento tiende a infinito: P(A) = lı́m n→∞ nA n Su aplicación no queda restringida a experimentos con un conjunto de resultados equiprobables. Requiere que el experimento se pueda realizar un número arbitrariamente grande de veces y en las mismas condiciones: la probabilidad surge de la estabilidad observable de las frecuencias relativas. Probabilidad: definición subjetiva La probabilidad de un suceso A representa el grado subjetivo de certeza sobre la ocurrencia de dicho suceso en un experimento futuro. Cuando meteorologı́a dice “mañana llueve con probabilidad 1 2 ” se basa en condiciones atmosféricas que no se repetirán, para un evento único. Definición operativa: la probabilidad p de un suceso A es la cantidad a que un individuo considera justo pagar para ganar $1 si el suceso A ocurre y $0 si no ocurre en condiciones de una ganancia esperada igual a 0. ganancia esperada = 1·p − 0·(1 − p) − a = p − a. Las probabilidades deben ser asignadas de manera que no sea posible obtener una ganancia o pérdida seguras: ganancia esperada = 0. La aceptación de una apuesta justa descubre la probabilidad subjetiva. La definición subjetiva es aplicable a eventos únicos (no repetibles) y/o con resultados no igualmente probables. La probabilidad es una construcción mental que se aplica a nuestra incertidumbre (siguiendo a Thomas Bayes que escribió en el siglo XVII). Carácter subjetivo: la probabilidad depende de la opinión de los individuos: varı́a de una persona a otra, e incluso para una misma persona puede cambiar según las circunstancias. Probabilidad: definición axiomática o formal Sea ε un experimento aleatorio, Ω el espacio muestral de los resultados de ε y = la clase de sucesos en Ω: La probabilidad es una función, una regla que asocia a cada uno de los elementos de la clase de los eventos un número (su probabilidad). Para un suceso A ∈ =, se define la probabilidad de A, P(A). Probabilidad es una función P(·) : = → [0, 1] (definida en = y que toma valores en el intervalo cerrado [0, 1] de los números reales), que cumple con : 1) para cualquier A ∈ =, P(A) ≥ 0. 2) P(Ω) = 1 3. Si A1 , A2 , . . . es una sucesión de eventos mutuamente excluyentes en =, entonces: P(A1 ∪ A2 ∪ . . .) = P(A1 ) + P(A2 ) + . . . La probabilidad de la unión de sucesos mutuamente excluyentes es la suma de sus probabilidades individuales (técnicamente, esto vale aún para infinitos eventos). A la terna [Ω, =, P(·)] se le llama “espacio de probabilidad”. Las tres definiciones de probabilidad comentadas cumplen estas propiedades matemáticas. Probabilidad: propiedades 1. La probabilidad de un suceso A (subconjunto de Ω) se puede obtener sumando las probabilidades de los sucesos elementales ωi que lo componen: P(A) = X ωi ∈A P(ωi ) 2. Los eventos A y Ac son por definición disjuntos, y además A ∪ Ac = Ω, de manera que P(A) + P(Ac ) = P(Ω) = 1. Esto da la regla: P(Ac ) = 1 − P(A) 3. P(∅) = 1 − P(Ω) = 0 4. B se puede escribir como la unión de dos conjuntos disjuntos: B = (B ∩ A) ∪ (B ∩ Ac ), de modo que P(B) = P(B ∩ A) + P(B ∩ Ac ) Al mismo tiempo, P(A ∪ B) = P(A) + P(B ∩ Ac ) . Usando la relación anterior tenemos: P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Probabilidad condicional ¿Cómo cambia la evaluación de la probabilidad de ocurrencia de cierto evento cuando adquirimos algún conocimiento parcial acerca del mismo? No conocemos si el evento A ha ocurrido -si supiéramos no tendrı́a sentido hablar de probabilidad- pero tenemos información de que otro evento B ha ocurrido. Las probabilidades relevantes para A pasan a ser ahora las probabilidades de (A ∩ B). El hecho que B ha ocurrido reduce el espacio muestral al evento B. La probabilidad de un suceso A dado que ocurrió un suceso B (probabilidad condicionada de A dado B) es igual a: P(A|B) = siempre que P(B) 6= 0 P(A ∩ B) P(B) Probabilidad condicional: ejemplo 1 En un liceo el 20 % de los estudiantes presenta problemas de aprendizaje. Entre los que no presentan problemas de aprendizaje, el 40 % ha consumido algún tipo de drogas. A su vez en el grupo de los que presenta problemas de aprendizaje un 60 % ha consumido drogas. ¿Cuál es la probabilidad de que un alumno consumidor de drogas tenga problemas de aprendizaje? Probabilidad condicional: ejemplo 2 Un taxi ha atropellado a una persona en la noche. Hay dos compañı́as de taxis en la ciudad, los verdes y los azules. 85 % de los taxis en la ciudad son verdes y 15 % azules. Un testigo ha identificado al taxi en el accidente como azul. El juez ha practicado un examen de su visión nocturna, y concluyó que identifica los colores correctamente un 80 % de las veces. ¿Cuál es la probabilidad de que el taxi involucrado en el accidente haya sido azul y no verde? Independencia No siempre saber que ocurre B nos lleva a modificar nuestra evaluación de las probabilidades que asignamos a A. Si conocer la ocurrencia de B no modifica la probabilidad de que ocurra A, entonces los sucesos A y B son independientes. Sucesos independientes Si para dos sucesos A y B de un espacio muestral Ω asociado a un experimento aleatorio ε, se cumple: P(A/B) = P(A) P(B/A) = P(B) entonces A y B son independientes, y por tanto: P(A ∩ B) = P(A)·P(B) (regla de la multiplicación) Independencia no es lo mismo que exclusión mutua. Un par de eventos pueden ocurrir ambos a la vez, (tener una intersección no vacı́a) y ser independientes entre sı́. La exclusión mutua supone no independencia. Regla de Bayes Ası́ como tenı́amos P(A/B) = P(A ∩ B)/P(B), también se cumple que P(B/A) = P(A ∩ B)/P(A), por tanto P(A ∩ B) = P(A/B) · P(B) = P(B/A) · P(A) de lo cual obtenemos la expresión P(B/A) = conocida como la Regla de Bayes. P(A/B) · P(B) P(A) Partición de un espacio muestral El espacio muestral Ω asociado a un experimento aleatorio ε se encuentra particionado en n subconjuntos o sucesos si existe una colección de n conjuntos disjuntos Hi cuya unión es Ω. H1 , H2 , ..., Hn es una partición de Ω si Hi ∩ Hj = ∅ ∀i 6= j, y a su vez H1 ∪ H2 ∪ ... ∪ Hn = Ω . Llamemos a los Hi hipótesis. H1 H4 H2 A H3 H7 H6 H5 Teorema de Bayes Si Ω se encuentra particionado en n sucesos Hi , y para el suceso A son conocidas las probabilidades condicionadas con respecto a los Hi y ocurre A, la probabilidad de un suceso particular Hj dado que ocurrió A se puede calcular como: P(Hj ) · P(A/Hj ) P(Hj |A) = Pn i=1 P(Hi ) · P(A/Hi ) Los sucesos Hi pueden ser considerados como posibles causas del suceso A o hipótesis que lo explican. El conjunto de las causas es exhaustivo: si ocurre A, necesariamente ocurre uno de los sucesos Hi (y sólo uno dado que son disjuntos). Si ocurre A, una de las causas tiene que haber actuado. P(Hj ) es la probabilidad de que ocurra Hj , independientemente de que se dé o no el suceso A: probabilidad a priori. P(Hj /A) es la probabilidad de que ocurra Hj dado que ocurrió A: probabilidad a posteriori. Dada la evidencia, ¿cuál es la probabilidad de la ocurrencia de una hipótesis? Teorema de Bayes: ejemplo Se estudia la situación laboral de los trabajadores en tres grupos de edad: H1 , jóvenes, H2 , adultos y H3 , tercera edad. La probabilidad de que una persona esté sin trabajo en cada uno de los grupos es, respectivamente: 0,20, 0,05, 0,03. 30 % de las personas pertenecen al grupo 1, 45 % al grupo 2 y 25 % al grupo 1. ¿Cuál es la probabilidad de que una persona que esté sin trabajo sea joven? P(H2 ) · P(A/H2 ) P(H2 ) · P(A/H2 ) P(H2 |A) = P3 = P(A) i=1 P(Hi ) · P(A/Hi ) La probabilidad de que una persona elegida al azar esté sin trabajo es igual a: P(A) = 0, 30 · 0, 2 + 0, 45 · 0, 05 + 0, 25 · 0, 03 = 0, 09 Entonces, la probabilidad de que una persona que está sin trabajo sea joven es igual a: P(H2 |A) = P(H2 ) · P(A/H2 ) 0, 30 · 0, 2 0, 06 = = = 0, 66 P(A) 0, 09 0,09 1.3. Variables aleatorias Una variable aleatoria es una función X (·) : Ω → R, definida en el espacio muestral (dominio), cuyos valores (codominio) son números reales. A cada elemento ω corresponde a través de la función X un único número real x. R X 1 2 3 X( 2) Variables aleatorias: ejemplo Experimento: se lanzan dos monedas y se observan los resultados. Interesa analizar cuántas caras salen. Espacio muestral: Ω = {CC , CN, NC , NN} Llamamos X a la correspondencia ω → N o de caras. A los elementos de Ω le asignamos un número real que denota el valor del suceso numérico “número de caras al lanzar dos monedas”. A cada ω corresponde un número X (ω): X (NN) = 0; X (CN) = X (NC ) = 1; X (CC ) = 2 R X CC CN NC NN 2 = X(CC) 1 = X(CN) = X(NC) 0 = X(NN) Preguntas de interés: ¿cuál es la probabilidad de que salgan dos caras? ¿cuál es la probabilidad de que salga una o menos? Las preguntas se traducen en probabilidades de que X tome valores: P(X = 2); P(X ≤ 1). Intervalos Interesa estudiar la probabilidad de que las variables aleatorias toman valores en algunos puntos en particular, ası́ como las probabilidades de que tomen valores en intervalos. Podemos escribir los distintos intervalos como conjuntos: (−∞, a] = {x : x ≤ a} (−∞, a) = {x : x < a} (a, b] = {x : a < x ≤ b} [a, b] = {x : a ≤ x ≤ b} Variables aleatorias La variable aleatoria toma la estructura de probabilidad del experimento aleatorio cuyos resultados describe. Podemos considerar si la variable aleatoria toma valores en un intervalo (−∞, x]: P(X ≤ x) = P(ω : X (ω) ≤ x) La probabilidad de observar la v. a. X tomar valores menores o iguales a x es igual a la de haber observado los resultados ω tales que X le asocia un valor X (ω) ≤ x. Variables aleatorias (definición) Def. Dado un espacio de probabilidad (Ω, =, P), una variable aleatoria es una función que asocia a cada elemento del espacio de resultados Ω un número real, tal que para todo x ∈ <, Ax = {ω : X (ω) ≤ x} ∈ =. Podemos considerar siempre la probabilidad con que la variable aleatoria toma valores en un intervalo (−∞, x] porque siempre el conjunto de los elementos del espacio de resultados a los que la función X asigna un valor menor o igual que x son eventos, para cualquier x real. Volviendo a nuestra variable “numero de caras en dos tiradas de moneda”, podemos pensar P(X (−∞, 0)) = P(X < 0) = P(ω : X (ω) < 0) = P(∅) = 0 P(X (−∞, 0]) = P(X ≤ 0) = P(ω : X (ω) ≤ 0) = P(NN) = 1/4 P(X (−∞, 1)) = P(X < 1) = P(ω : X (ω) < 1) = P(NN) = 1/4 P(X (−∞, 1]) = P(X ≤ 1) = P(ω : X (ω) ≤ 1) = P(NN, CN, NC ) = 3/4 P(X (−∞, 4]) = P(X ≤ 4) = P(ω : X (ω) ≤ 4) = P(Ω) = 1