DAEZEGO Estadística La ESTADÍSTICA es la ciencia de los datos. Implica la recolección, clasificación, síntesis, organización, análisis e interpretación de dichos datos. Actúa como nexo entre los modelos matemáticos y los fenómenos reales. Tipos de Estadística 1-Estadística Descriptiva: es la que se dedica a la organización, síntesis y descripción de un conjunto de datos. 2-Estadística Inferencial: es la que usa datos de una muestra para inferir algo acerca de una población Población y Muestra La población representa la colección completa de elementos, resultados o individuos de los que queremos analizar una similar característica. Puede ser finita o infinita. La muestra es un subconjunto tomado de la población que contiene elementos o resultados que realmente se observan. A su vez, tenemos dos tipos de muestras: -Muestra Aleatoria Simple: conjunto de tamaño n extraído de una población en la que cada elemento que se elige no puede estar influenciado por ninguna condición del entorno. No garantiza que refleja exactamente a la población de la cual se extrajo -Muestra de Conveniencia: conjunto de tamaño n extraído de una población en el cada elemento se elige bajo algún criterio de selección y no de manera aleatoria. Dos muestras diferentes de la misma población son diferentes entre sí, fenómeno se conoce como variación del muestreo. Datos, Variables y Escalas de Medición -Unidad Experimental: es aquella sobre la que se realiza mediciones o se intenta clasificar en categorías. -Dato: es alguna característica que se observa de una unidad experimental. -Variable: es cualquier característica que varía de una unidad experimental a otra. Una variable aleatoria es aquella que toma valores de observaciones hechas sobre un conjunto aleatorio de objetos o individuos. ESTADÍSTICA DAEZEGO Tipos de variables 1~Variables Categóricas: como su nombre lo indica, la variable representa alguna categoría. Hay dos tipos de variables categóricas: -Nominales: sus valores no se pueden ordenar. -Ordinales: sus valores pueden ordenarse. 2~Variables Dicotómicas: surgen en forma de ausencia o presencia de una categoría. 3~Variables Numéricas: toman valores numéricos. Hoy dos tipos de variables numéricas: -Discretas: surgen por conteo y toman valores enteros -Continuas: surgen de mediciones efectuadas sobre cada unidad experimental. Una medición consiste en darle un número o código a las observaciones hechas mediante alguna escala adecuada, donde una escala es un instrumento de medición. Dependiendo del tipo de variable se emplean diferentes escalas de medición: Variables Categóricas Variables Numéricas Escala Nominal Escala de Intervalo (DyC) Escala Ordinal Escala de Razón (DyC) ESTADÍSTICA DAEZEGO Distribución de frecuencias Una tabla de distribución de frecuencia nos sirve para organizar los datos y presentarlos de manera más útil, y así poder obtener cierta información que no se vería tan fácilmente si los datos no estuviesen ordenados. Según con el tipo de dato que estemos trabajando podremos realizar distintos tipos de tabla distribuciones de frecuencia. En esta tabla aparecerán distintos tipos de frecuencias, entre las cuales tenemos: -Frecuencia Absoluta f: número de veces que se repite un dato. Se verifica Σf = n -Frecuencia Relativa fr: proporción de veces que ocurre un dato. Se verifica Σfr = 1 -Distribución de frecuencias para datos categóricos Es una tabla que asocia a cada categoría de la variable con el número de veces que se repite dicha categoría. Entonces en esta tabla tenemos la frecuencia absoluta y la frecuencia relativa. En la primera columna se coloca la identificación, en la segunda columna las categorías, en la tercera las frecuencias absolutas y en la cuarta las frecuencias relativas: Id 1 2 3 4 Categoría Categoría 1 Categoría 2 Categoría 3 Categoría 4 f 5 2 3 2 fr 5/12 2/12 3/12 2/12 f Para representar estas distribuciones de frecuencia de manera gráfica se usan gráficos de barras, donde la base de cada barra representa una categoría y la altura de la barra representa la frecuencia absoluta en la escala adoptada de medida. 6 5 4 3 2 1 0 Categoría 1 Categoría 2 Categoría 3 Categoría 4 En la gráfica observamos que tenemos 4 categorías diferentes. La primera tiene una frecuencia de 5, la segunda y la cuarta categoría tienen una frecuencia de 2 y la tercera categoría tiene una frecuencia de 3. ESTADÍSTICA DAEZEGO -Distribución de frecuencias para datos numéricos Es una tabla que asocia cada valor que toma la variable numérica con la cantidad de veces que se repite dicho valor. Así en esta tabla obviamente aparecen nuevamente las frecuencias absolutas y relativas. Para los datos numéricos podemos agregar dos tipos de frecuencias mas que son las frecuencias acumuladas: -Frecuencia Absoluta Acumuladas F: es la suma de las frecuencias absolutas de los valores menores o iguales al valor que se está considerando. Por supuesto que en al ultimo valor de la tabla le corresponde un valor de F = n. -Frecuencia Relativa Acumulada Fr: es la suma de las frecuencias relativas de los valores menores o iguales al valor que se está considerando. Por supuesto que en al ultimo valor de la tabla le corresponde un valor de Fr = 1. Por lo tanto nuestra tabla de distribución de frecuencias tendrá 6 columnas ahora, ya que debemos agregar estas 2 frecuencias. Id Valor f fr F Fr 8 2 2/16 2 2/16 1 9 3 3/16 5 5/16 2 10 6 6/16 11 11/16 3 11 4 4/16 15 15/16 4 12 1 1/16 16 1 5 f En este caso empleamos gráficos de bastones para representar los datos agrupados. Entonces sería: 7 6 5 4 3 2 1 0 8 9 10 11 Valor ESTADÍSTICA 12 DAEZEGO Otra manera de agrupar los datos numéricos es mediante una tabla de frecuencias en las que se agrupan las observaciones en intervalos llamados intervalos de clase, que no es más que el rango de valores en que se ha decido agrupar parcialmente los datos. Se define el rango como la diferencia entre el valor máximo y el mínimo que toma la variable. También, la cantidad de datos que quedan comprendidos dentro del intervalo representa la f del intervalo. Para determinar la cantidad de intervalos, k, más adecuada para nuestro conjunto de datos podemos emplear dos ecuaciones: Sturges k=1+ Raíz de n k= √ ( ) ( ) Definimos la amplitud de cada intervalo, h, como el cociente entre el rango del conjunto de datos y la cantidad de intervalos k = La marca de clase Mc es el punto medio del intervalo de clase, es decir, es la suma de los extremos del intervalo dividida 2: Mc = ESTADÍSTICA DAEZEGO Medidas de Tendencia Central Son promedios, un valor típico de un conjunto de datos. Las tres que más usaremos son la media aritmética o valor esperado , la mediana Me y el modo Mo, cuyos cálculos depende de cómo están presentados los datos. es la suma de todos los datos dividida entre el total de datos n. Me es el valor que divide a la mitad la cantidad de datos presentes. Mo es el valor que más se repite o tiene mayor frecuencia. -Para datos numéricos sin agrupar = ∑ ( ( / ) " # Me = ! ! ) ! ! ! ! ! ! -Para datos numéricos agrupados en tabla simple de frecuencia = ∑ ∗ ( ( / ) " # Me = & ! ) & ! ' ' ! ! ! ! ! ! ! ! -Para datos numéricos agrupados en intervalos de clases = ∑ (' ∗ ( = + ; = ( ! ! *+ ' )∗ ! ( a = extremo inferior de la clase Me ( = + ∗ ∗ a = extremo inferior clase modal f1 = f anterior clase modal f2 = f posterior clase modal -Para datos categóricos ordinales Posición Me = / 0 .0 , 3 →2 2 2 'ó = 'ó 'ó = = ESTADÍSTICA + DAEZEGO Medidas de Dispersión Nos dan idea de la separación de los valores de una variable alrededor de su media aritmética. Las más usuales son la varianza y el desvío estándar. La varianza mide el grado de dispersión de los valores con respecto a su X. Si es 2 poblacional se representa con la letra σ y si es muestral con la letra S2. El desvío estándar es la raíz de la varianza medida en las unidades del conjunto de datos. Si es poblacional será σ y si es muestral S. 5 = 5= 7 ∑( * 6) ∑( * 6) -Para datos sin agrupar 8 = ∑( * ) * -Para datos agrupados en intervalos de clases 8 = ∑((' * ) ∗ * 8= 7 ∑( * ) 8= 7 ∑((' * ) ∗ * * Notar que para el cálculo de las varianzas y desvíos muestrales se divide por n-1 y no por n. Esto es porque estamos trabajando con estadísticos (S2 y S) Coeficiente de Variación (cv) Se usa para comparar las dispersiones de dos ó más distribuciones, cuyas observaciones han sido medidas con escalas de razón únicamente. Se define como el cociente entre la varianza muestral y la media aritmética: Variables Tipificadas '9 = 8 Mide la desviación respecto de la X en unidades de la S. Es adimensional y viene dada: := * 8 ESTADÍSTICA DAEZEGO Medidas de Asimetría Nos permiten apreciar la simetría o asimetría de una distribución dada. El modo es la referencia central. Según estas medidas una distribución puede ser normal, sesgada a la derecha o sesgada a la izquierda. Normal: = Me = Mo Sesgada a la derecha: La Sesgada a la izquierda: La se ubica a la derecha de Mo y Me entre ellos. se ubica a la izquierda de Mo y Me entre ellos. Sesgada a la derecha o asimetría positiva Sesgada a la izquierda o asimetría negativa Medidas de Apuntamiento o Curtosis Nos permite apreciar si una distribución es más o menos apuntada que la distribución normal. Estas medidas se refieren a la diferencia de los valores centrales de la variable. ESTADÍSTICA DAEZEGO Medidas de Orden Aquí aparece el concepto de cuantiles que son valores que dividen al conjunto de datos en partes iguales. Entonces podemos nombrar los siguientes: -Cuartiles: cuando se divide el conjunto ordenado de datos en 4 partes iguales. -Octiles: cuando se divide el conjunto ordenado de datos en 8 partes iguales. -Deciles: cuando se divide el conjunto ordenado de datos en 10 partes iguales. -Percentiles: cuando se divide el conjunto ordenado de datos en 100 partes iguales. Para nuestro estudio emplearemos los Cuartiles, así que veremos como se calculan sus posiciones y sus respectivos valores: Las posiciones las indicaremos con letras minúsculas q y los valores de los Cuartiles los indicaremos con letras mayúsculas Q. Q1 = Xq1 Q2 = Me Q3 = Xq3 ;1 = (= >) ;3 = A(= >) ? ? ESTADÍSTICA DAEZEGO Probabilidad Este término se usa generalmente para indicar que hay cierta incertidumbre sobre algo que ya ocurrió, que está ocurriendo o que ocurrirá en el futuro. Para realizar el estudio de la probabilidad debemos definir algunos conceptos básicos que son: - Experimento: describe cualquier proceso que genere datos iniciales Experimento Aleatorio: se genere bajo un conjunto de reglas, puede repetirse y el resultado de cada ejecución depende de la casualidad Espacio Muestral (S o Ω): representa el conjunto de todos los resultados posibles de un experimento. S = {C, X} ; donde C= número de caras y X = número de cruces S = {x/x es una ciudad con población mayor a 1 millón} S = {(x, y)/ x2 + 4y ≤ 10} - Elemento o Punto Muestral: es cada resultado del espacio muestral. Evento: es un subconjunto o parte de un espacio muestral. Evento simple: es un subconjunto que tiene un solo elemento. Evento compuesto: es aquel que puede expresarse como la unión de eventos simples, en otras palabras es un subconjunto del espacio muestral que tiene más de un elemento. Los eventos, ya sean simples o compuestos se suelen representar con letras mayúsculas distintas de S, por ejemplo: Sea S={1,3,5,7,9,11} A={7} ; B={3, 9, 11} Sea S={{C, X} x {C, X} x {C, X}} C={C,C,X} ; D={(C, X,C) , (X, C,C)} ESTADÍSTICA DAEZEGO Técnicas de Numeración - Principio de Multiplicación Supongamos que un determinado procedimiento, llamado A, puede ocurrir de nA maneras. Ahora tenemos un segundo procedimiento, B, que puede ocurrir de nB maneras y que a su vez cada manera de efectuar A puede ser seguida de la manera de efectuar B. Entonces el procedimiento conjunto entre A y B puede efectuarse de (nA* nB) maneras. - Principio de Adición Supongamos que un determinado procedimiento, llamado A que puede ocurrir de nA y otro procedimiento B que puede ocurrir de nB maneras. Además no pueden ocurrir juntos dichos procedimientos, entonces el número de maneras como se puede efectuar A ó B es nA + nB - Permutaciones Pn = n! - Combinaciones C(n, x) = = ! ! ∗ ( * )! Probabilidad de un evento A continuación se veremos las teorías de probabilidad: - Teoría Clásica Teoría de Frecuencias Relativas Teoría Axiomática Teoría Personalista o Subjetiva Teoría Clásica Si un experimento puede producir cualquiera de los n resultados igualmente probables y si exactamente nA de esos resultados pertenecen al evento A, entonces la probabilidad del C evento A será: 2(C) = 0 ≤ nA≤n 0≤ 2(C) ≤1 Teoría de Frecuencias Relativas Si un suceso puede ocurrir de n maneras mutuamente excluyentes e igualmente probables y nA es el número de veces que ocurre un suceso A, entonces: 2(C) = C ESTADÍSTICA DAEZEGO -Muestreo con reemplazo o con sustitución De una muestra se extrae un elemento para estudiarlo y luego se lo devuelve al total de la muestra para así poder extraer otro. -Muestreo sin reemplazo o sin sustitución De una muestra se extrae un elemento para estudiarlo y no se lo devuelve al total de la muestra para así extraer el segundo. Teoría Axiomática Dado un experimento aleatorio descripto por el espacio muestral S, la probabilidad es una función P( ) que asigna a cada evento un número real no negativo indicado como P(E) que sería la probabilidad del evento E: P(E) : S R+0 Las tres propiedades de la función de probabilidad son: 1- P(E) ≥ 0 VE 2- P(S) = 1 3- P(E U F) = P(E) + P(F) si (E ∩ F) = Φ ; Φ = conjunto vacío Definición: La probabilidad de un evento A es la suma de todos los puntos muestrales de A Teoremas Importantes Sobre Probabilidad 1- P(Φ) = 0 2- Sea Ac el complemento de A, entonces P(Ac) = 1 – P(A) 3- Si A y B son dos sucesos cualesquiera, entonces P(A U B) = P(A) + P(B) – P(A∩B) 4- Sean A, B y C sucesos cualesquiera, entonces P(AUBUC) = P(A) + P(B) + P(C) – P(A∩B) – P(A∩C) – P(B∩C) + P(A∩B∩C) 5- Si A B entonces P(A) ≤ P(B) 6- Si A B entonces P(B – A) = P(B) – P(A) ESTADÍSTICA DAEZEGO Probabilidades Marginal, Conjunta y Condicionada Probabilidad Marginal Si un evento E puede producir cualquiera de los n resultados igualmente probables y si exactamente nE de estos resultados pertenecen al evento E, entonces definimos la probabilidad marginal de E así: D P(E) = Probabilidad Conjunta ( C ∩ F) Dados dos sucesos A y B de S, la probabilidad de ocurrencia de A y B simultáneamente la P(A∩B) = denominamos probabilidad conjunta: Probabilidad Condicionada P(C⁄F) = 2(C∩F) Dados dos sucesos A y B de S con P(B) ≠ 0, la probabilidad de ocurrencia de A dado que ocurrió B es: Ley Multiplicativa de Probabilidad P(C⁄F) = 2(C∩F) 2(F) → 2(F) P(A∩B) = P(B) . P(C⁄F) P(A∩B∩C) = P(A) . P(F⁄C) . P( ⁄C ∩ F) Dos sucesos A y B son independientes si y sólo si la probabilidad conjunta es igual al producto de las probabilidades marginales. Dos sucesos A y B son independientes si y sólo si la ocurrencia de A no influye en la probabilidad de ocurrencia de B. Regla de Bayes P(A/B) = 2(C∩F) 2(F) =∑ 2(C∩F) 2(C∩F) = ESTADÍSTICA 2(C).2(F⁄C) ∑ 2(C).2(F⁄C) DAEZEGO Variables Aleatorias y Distribución de Probabilidades La función cuyo valor es un número real determinado por cada elemento en el espacio muestral se llama variable aleatoria Si un S contiene una cantidad finita de posibilidades o una secuencia interminable con tantos elementos como el total de números enteros, dicho S se llama espacio muestral discreto y a la variable aleatoria definida en dicho espacio se la llama variable aleatoria discreta Si un S contiene un número infinito de posibilidades igual al número de puntos en un segmento de recta, dicho S se llama espacio muestral continuo y la variable aleatoria correspondiente a dicho S variable aleatoria continua La función f(xi) = P(X = xi) es una función de probabilidad de la variable aleatoria discreta X si para cada xi ϵ Rx , donde Rx = resultados posibles o recorrido, si se cumple que: 1- f(x) ≥ 0 → 2- ∑ ( ) = → 3- P(X = x) = f(x) f(x) es función de probabilidad de la variable aleatoria X (x, f(x)) distribución de la variable aleatoria X Así decimos que f(x) es una función de masa o cuantía cuando X es una variable aleatoria discreta. La función f(x) es una función de probabilidad de la variable aleatoria continua X definida sobre un conjunto de números reales si: 123- f(x) ≥ 0 → J I*J ( )! = P(a < X < b) = I K f(x) es función de probabilidad de la variable aleatoria X → (x, f(x)) distribución de la variable aleatoria X ( )! Así decimos que f(x) es una función de densidad cuando X es una variable aleatoria continua. Función de Probabilidad Acumulativa La distribución acumulativa F(x) de una variable aleatoria discreta X con función de cuantía f(x) viene dada por: + ( ) = ∑∀ M ( ) ESTADÍSTICA DAEZEGO La distribución acumulativa F(x) de una variable aleatoria continua X con función de densidad f(x) está dada por: +( ) = I*J ( )! Además se tiene que ( ) = Propiedades: ; Se reemplazó f(x) por f(t) para no confundir las variables !+( ) ! si existe la deriva, entonces podemos escribir: 2( < O < P) = +(K) − +( ) +(−∞) = S +(∞) = ∀ ≤ K ∶ +( ) ≤ +(K) Media y Varianza Poblacionales de una Variable Aleatoria Sea X una variable aleatoria con distribución de probabilidad f(x), el valor esperado o esperanza matemática, o media de la población de X es: DV W = /X . ( ) - ∀ J . -Y ,*J 9. . ! ' . ( ) 9. . ' Sea X una variable aleatoria con distribución de probabilidad f(x), la varianza o variancia de X es: ZV W = / X( − DV W) - ∀ J . - Y ( − DV W) ,*J ( ) = DV ( ) ! = DV W − (DV W) W − (DV W) 9. . ! ' 9. . ' Entonces la variable aleatoria, discreta o continua, se distribuye con una función de parámetros E[X] y V[X]: ~ (DV W, ZV W) Sean dos variables aleatorias X e Y con medias E[X] y E[Y], la covarianza vale: ' 9V , ]W = DV ]W − DV W . DV]W Si X e Y son variables independientes entonces la covarianza vale cero, lo contrario no es cierto. ESTADÍSTICA DAEZEGO := *DV W Supongamos que tenemos una variable aleatoria X ~ g (E[X], V[X]) y queremos emplear la variable z que se define como sigue: ^ZV W Ahora necesitamos saber como se distribuye esta variable z, es decir, con que esperanza y con que varianza. Entonces hacemos lo siguiente: DV:W = E ` ZV:W = V j Entonces d= a*bVaW ^cVaW X − EVXW ^VVXW > ^cVaW k= eEfX − EVXWgh = > ^cVaW (EVXW − EVXW) = S 1 1 VfX − EVXWg = VVXW = VVXW VVXW z ~ g (0, 1) Variable Aleatoria Bidimensional Tomemos el caso en que tenemos un espacio muestral con dos variables definidas X e Y. La distribución o función de ocurrencia conjunta es: f(x, y) = P(X = x, Y = y) Así, f(x, y) proporciona la probabilidad de que los dos resultados ocurran al mismo tiempo. La función f(x, y) es una distribución de probabilidad conjunta de las variables aleatorias X e Y si se cumple que: ( , l) ≥ S ∀( , l) 2- ∑ ∑l ( , l) = 1- o I Il 3- 2V( , ]) ∈ CW = ∑ ∑C ( , l) Para cualquier región A del plano xy. ( , l)! !l = o 2V( , ]) ∈ CW ∬C ( , l)! !l Sean X e Y dos variables aleatorias, discretas o continuas, con distribución de probabilidad conjunta f(x, y) y las distribuciones marginales g(x) y h(y). Decimos que dichas variables son independientes si y sólo si: ( , l) = ( ) ∙ (l) ESTADÍSTICA ∀(r, s) DAEZEGO Distribuciones Discretas Si un S contiene una cantidad finita de posibilidades o una secuencia interminable con tantos elementos como el total de números enteros, dicho S se llama espacio muestral discreto y a la variable aleatoria definida en dicho espacio se la llama variable aleatoria discreta. Distribución Binomial Es una de las distribuciones de probabilidad más útiles, se la emplea por ejemplo en control de calidad, producción, investigación, etc. Tiene que ver con el experimento aleatorio que produce en cada ensayo o prueba uno de dos resultados posibles mutuamente excluyentes: ocurrencia de un criterio o característica específico, que llamamos éxito, y no ocurrencia de éste que llamamos fracaso. Los términos de "éxito y fracaso" son solo etiquetas y su interpretación puede no corresponder con el resultado positivo o negativo de un experimento en la realidad. El experimento aleatorio consiste en n ensayos repetidos e idénticos. Son ensayos con reposición. Cada uno de los n ensayos arroja sólo uno de los dos resultados posibles, es decir éxito ó fracaso. La probabilidad de éxito u ocurrencia, denominada p, permanece constante para cada ensayo. La probabilidad de fracaso se denota q= 1-p Cada ensayo se repite en idénticas condiciones y es independiente de los demás. Así no interesa encontrar la probabilidad de obtener x número de éxitos al realizar n ensayos. Entonces la función de probabilidad de X será: ( ) = 2( = ) = K( , , ) = 3 " # S t = S, , , … . , * con n entero y 0 ≤ p ≤ 1 Veamos como se distribuye una variable X binomial DV W = ~ K( , , ) v ZV W = ESTADÍSTICA t DAEZEGO Distribución Geométrica Consideramos un experimento donde tiramos una moneda las veces que sea necesario hasta obtener la primera cruz, donde la probabilidad de obtener una cruz es p. Entonces, cuántos tiros debemos realizar. Sea X el número de tiros, así P (X = 1) = p P (X = 2) = (1 − p)p P (X = 3) = (1 − p)2 p Entonces de manera general es P (X = x) = (1 − p)x−1p La distribución de X es la que llamamos distribución geométrica. Ahora podemos dar una definición mas copada: Si la probabilidad de éxito en cada ensayo es p, entonces la probabilidad de que x ensayos sean necesarios para obtener un éxito es: 2( = ) = ( − ) w ~ x(r, y) Distribución Hipergeométrica * ∙ zVwW = = t {y * } |VwW = { y ∙ Esta distribución la vamos a emplear cuando tenemos muchos datos. El experimento hipergeométrico es la probabilidad de seleccionar x éxitos entre los k artículos denominados éxitos y los n-x fracasos entre los N-k artículos llamados fracasos, cuando se selecciona una muestra de tamaño n entre los N artículos. La muestra se toma sin reposición, es decir que es dependiente. e€rhe•*€ h *r r = S, , , … , • ~(r, •, , €) = • e h S ESTADÍSTICA ( , €) ‚ƒ„‚ …†x‡„ DAEZEGO ~ , ˆ, , • DV W ZV W ˆQ ‰ Q Š‰ Š ˆ ˆ ˆQ donde eˆ* h es el factor de correlación ˆ* Distribución de Poisson ˆ ˆQ t‰ Š ˆQ Los experimentos que proporcionan valores numéricos de una variable aleatoria X, el número de éxitos que ocurren durante un intervalo de tiempo dado se llama experimento de Poisson. En teoría de probabilidad y estadística, la distribución de Poisson es una distribución de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad que ocurra un determinado número de eventos durante cierto periodo de tiempo. La distribución de Poisson es el caso límite de la distribución binomial. De hecho, si los parámetros n y θ de una distribución binomial tienden a infinito y a cero de manera que se mantenga constante, la distribución límite obtenida es de Poisson. Como consecuencia del teorema central del límite, para valores grandes de λ, una variable aleatoria de Poisson X puede aproximarse por otra normal dado que el cociente converge a una distribución normal de media nula y varianza 1. 2 ,‹ *‹ ∙ ‹ ! S S, , , … , ∞ Donde λ es el promedio de éxitos que ocurre en un intervalo de tiempo o en una región dada. ESTADÍSTICA DAEZEGO DISTRIBUCIONES CONTINUAS DISTRIBUCIÓN RECTANGULAR o UNIFORME En esta distribución continua, todos los intervalos de igual longitud en la distribución en su rango son igualmente probables. El dominio está definido por dos parámetros, a y b, que son sus valores mínimo y máximo. La distribución suele escribirse en forma abreviada como U(a,b). Su función de densidad es: Los valores en los dos extremos a y b no son por lo general importantes porque no afectan el valor de las integrales de f(x) dx sobre el intervalo, ni de x f(x) dx o expresiones similares. Veamos como se distribuye una variable aleatoria con esta función de densidad DV W ZV W K Y KQ DV ! W Q DV W KQ K) KQ DISTRIBUCIÓN EXPONENCIAL Esta distribución tiene un parámetro λ > 0 cuya función de densidad es: El valor esperado y la varianza de una variable aleatoria X con distribución exponencial son: DV W ZV W ‹ ‹ ESTADÍSTICA DAEZEGO DISTRIBUCIÓN NORMAL La distribución de una variable normal queda perfectamente definida por dos parámetros que son su media µ y su desviación estándar σ. Entonces se dice que una variable aleatoria continua X sigue una distribución normal de parámetros µ y σ si su función de densidad está dada por: Se llama distribución normal "estándar" a aquélla en la que sus parámetros toman los valores µ = 0 y σ = 1. En este caso la función de densidad tiene la siguiente expresión: Para el cálculo de los valores de su distribución se emplean tablas. Debido a que la curva alcanza su mayor altura en torno a la media, mientras que sus colas se extienden asintóticamente hacia los ejes, cuando una variable siga una distribución normal, será mucho más probable observar un dato cercano al valor medio que uno que se encuentre muy alejado de éste. Propiedades de la distribución normal: La distribución normal posee ciertas propiedades importantes que conviene destacar: 123- 4- 5- 6- Tiene un único modo, el cual coincide con su media y su mediana. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre y es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1. Es simétrica con respecto a su media. Entonces, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor. La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación típica. Cuanto mayor sea la desviación estándar, más aplanada será la curva. El área bajo la curva comprendida entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo . La forma de la campana de Gauss depende de los parámetros. La media indica la posición de la campana, de modo que para diferentes valores de media la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de , más se dispersarán los datos en torno a la media y la curva será más plana. Un valor ESTADÍSTICA DAEZEGO pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución. Así podemos notar que no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su varianza. De entre todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de media 0 y varianza 1, entonces resulta: Es importante tener en cuenta que a partir de cualquier variable X que siga una distribución normal, se puede obtener otra característica Z con una distribución normal estándar realizando la siguiente transformación: Así, la variable z se distribuye normal, con esperanza 0 y varianza 1. Esta propiedad resulta especialmente interesante en la práctica, ya que para una distribución Œ 0, 1 existen tablas a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor z, y que permitirán resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución aproximadamente normal. Propiedad reproductiva de la distribución normal Sean dos distribuciones normales, con variables aleatorias independientes ] ~ ˆ 6l , 5l . Si M = X + Y entonces: (~ ˆ 6 ) 6] , 5 ) 5l ~ˆ 6 ,5 e Es decir que según esta propiedad podemos sumar algebraicamente las variables aleatorias independientes para formar otra. Cabe aclarar que en dicha suma los coeficientes que multiplican a las variables no necesariamente deben ser 1, sino que pueden tomar otros valores inclusive negativos. ESTADÍSTICA DAEZEGO APROXIMACIÓN DE LA BINOMIAL MEDIANTE LA NORMAL Podremos realizar esta aproximación bajo ciertas condiciones que son: 1- n es grande y S, ≤ 2- n cualquiera y p = 0,5 ≤ S, Ž Entonces, si se da alguna de las dos condiciones mencionadas se puede realizar la aproximación de la variable binomial mediante una variable normal. Así podemos enunciar el siguiente teorema: Si X es una variable aleatoria binomial, con media np y varianza npq, la forma límite de w* y la distribución de • = y} cuando → ∞, es la distribución normal estándar •(•, S, ) ^ Distribución Gamma La variable aleatoria continua X tiene una distribución Gamma con parámetros n y β si su función de densidad es: ( )= • • ‘ ‘ ’( ) > 0, ” > 0 • – > 0 Para cuando β=1 la distribución gamma tiene esperanza E[X] = nβ y varianza V[X] = nβ2 ESTADÍSTICA DAEZEGO Distribución CHI-CUADRADA ( χ2) La variable aleatoria X tiene una distribución Chi-Cuadrada, con n grados de libertad, si su función de densidad es: • ~ —( ) ’ • x>0 " # , y además DV W = l ZV W = Propiedad reproductiva de la CHI-CUADRADA Sean X1, X2,…,Xn variables aleatorias independientes con distribución χ2 se tiene que: ]= ~—( ) + Distribución t de Student ~—( ) + ⋯+ ~—( ) ∴ ] ~ —(∑ ) Si ~ ˆ(S, ) e ] ~ —( ) siendo ambas variables aleatorias independientes, entonces la variable aleatoria = ^]⁄ tiene una distribución “t” con n grados de libertad. Su función de densidad es: ( )= ’V( )/ W √ š ’( / ) " + # Esta distribución tiene E[X] = 0 y ZV W = * * >0 ESTADÍSTICA −∞ < › < ∞ DAEZEGO Distribución “F” de Fisher Ÿ Ÿ Si œ> ~ •(= e œŸ ~ •(= ) que son ambas variables aleatorias independientes, entonces la ž) variable aleatoria + = ]{ ]{ , que resulta del cociente de cada Chi-cuadrada divida por sus grados de libertad, tiene una distribución F con n1 y n2 grados de libertad. Su función de densidad es: (+) = ’¡ ’e ( h ’e ) ¢‰ h¡ Š + + " ¢ ( • # ~ +( ) ESTADÍSTICA , ) DAEZEGO Teoría de Muestras La teoría del muestreo es el estudio de las relaciones existente entre una población y las muestras extraídas de la misma. Tiene gran interés en muchos aspectos de la estadística. Por ejemplo permite estimar cantidades desconocidas de la población a partir del conocimiento de las correspondientes cantidades muestrales. Las cantidades poblacionales se conocen comúnmente como parámetros, mientras que las cantidades muestrales reciben el nombre de estadísticos. La teoría de muestreo es también útil para determinar si las diferencias que se puedan observar entre dos muestras son debidas a la aleatoriedad de las mismas o si por el contrario son solamente significativas. Entonces en esta parte de nuestro estudio nos fijaremos en los distintos tipos de muestras y las variables aleatorias asociadas a cada una de ellas. Para seleccionar una muestra aleatoria de tamaño n de una población f(x), debe definirse una variable aleatoria Xi, con i = 1, 2, …, n. Las variables Xi formarán así una muestra aleatoria de la población f(x) con valores numéricos xi si dichas variables son independientes cada una con la misma distribución de probabilidad f(x). Entonces su )= ( ) ( distribución de probabilidad conjunta se expresa como: , ,…, )… ( ) La función conjunta resulta ser el producto de las funciones marginales Dijimos que una cantidad muestral se llama estadístico, así que vamos a dar una definición del mismo. Decimos que cualquier valor calculado a partir de una muestra se llama estadístico, o también que un estadístico es una variable aleatoria que depende sólo de la muestra aleatoria observada. Algunos estadísticos importantes de una muestra de tamaño n son la media muestral y la varianza muestral S2. Así, la distribución de probabilidad de un estadístico recibe el nombre de distribución muestral. A continuación veremos como se distribuyen los estadísticos más empleados para nuestro estudio. ESTADÍSTICA DAEZEGO Distribución de Medias ∑ Sea X1, X2,…, Xn una muestra aleatoria con media entonces veamos como se distribuye DV W ZV W D¡ ∑ |¡ ∑ ¢ ¢ ∑ DV W ∑ ZV W DV W ∑ ZV W ∑ DV W Es decir que DV W DV W ZV W Es decir que ZV W ZV W Teorema central del límite Si es la media de una muestra aleatoria de tamaño n tomada de una población con media µ y varianza σ2, entonces la forma límite de la distribución • distribución estandarizada ˆ(S, ) *6 5 { √ cuando → ∞, es la Para poder realizar esta estandarización de la £ y emplear la variable z es necesario conocer los parámetros µ y σ2, así como el tamaño de la muestra. Supongamos ahora el caso en que sólo conocemos µ y n. Por dicho motivo no podremos emplear el teorema central del límite ya que no conocemos σ2. Entonces recurrimos a la distribución “t” de Student cuando el tamaño de la muestra n < 30: Entonces recordando que la t resulta del cociente de una normal estándar y una chi sobre sus grados de libertad, ¤ = ˆ(S, ) 7—(9) ⁄9 ¤= ~ ¥,(9), −6 5⁄√ resulta que: ( − )8 ¦ 5 ( − ) = − 6 8⁄√ ~ ¥,( * ) Se distribuye con (n-1) grados de libertad. Esto es debido a que se trabaja con un estadístico que es S2, si hubiésemos empleado un estadístico más serían (n-2) grados de libertad y así sucesivamente. Para el caso en que n > 30 se tiene que 5 → 8 ∴ ESTADÍSTICA :=8 *6 { √ ~ ˆ(S, ) DAEZEGO Distribución de Varianzas Si S2 es la varianza de una muestra aleatoria de tamaño n extraída de una población con varianza σ2, entonces la variable aleatoria § Ÿ tiene una distribución •ª,(=*>) . =*> ¨ © Entonces para la varianza empleamos la distribución Chi- Cuadrada. Si S>Ÿ y SŸŸ son las varianzas de dos muestras aleatoria independiente de tamaño n1 y n2 Distribución de cociente de varianzas respectivamente extraídas de poblaciones normales con varianzas σ>Ÿ y σŸŸ , entonces ¯>Ÿ ⁄°>Ÿ ¯>Ÿ °ŸŸ = ~ ®ª,(±ž,± ¯ŸŸ ⁄°ŸŸ ¯ŸŸ °>Ÿ ®= ) El cociente de varianzas tiene una distribución F con v1 y v2 grados de libertad. Para construir esta la variable aleatoria F se parte de realizar el cociente entre dos poblaciones normales con distribución Chi-Cuadrada dividida cada una por sus grados de libertad. Distribución de Diferencia de Medias Supongamos que tenemos dos poblaciones que pueden ser normales o no, y queremos saber como se distribuye la diferencia de medias. En esta situación se pueden presentar diferentes casos en los que se emplearan diferentes distribuciones. Caso1: Varianzas poblacionales conocidas 1- Poblaciones normales Entonces tenemos dos poblaciones normales de las cuales conocemos sus varianzas σ>Ÿ y σŸŸ , y extraemos una muestra n1 y n2 respectivamente: X> ~N "μ> , ´ž µž Por lo tanto # y X Ÿ ~N "μŸ , ´ µ # − − ~ ˆ(DV ~ ˆ "6 − 6 , ESTADÍSTICA 5 + 5 − # W, ZV − W) DAEZEGO Entonces podemos emplear la variable aleatoria z siguiendo el teorema central del límite: : * ¦ 5 ~ ˆ(S, ) * 6 *6 5 2- Poblaciones no normales En el caso de que estemos tratando con poblaciones no normales pero el tamaño de las muestras es superior a 30, entonces podemos emplear la variable aleatoria z definida anteriormente: > 30 → ¶ = ( * )* (6 *6 ) 5 ¦ 5 ~ ˆ(S, ) Caso 2: Varianzas poblacionales desconocidas 1- Poblaciones normales. En esta situación suponemos que las varianzas poblacionales son iguales σŸ = σ>Ÿ = σŸŸ y deberemos emplear una variable aleatoria t cuya distribución se compone del cociente entre una Normal Estándar y la raíz de una Chi-Cuadrada dividida entre sus grados de libertad, es decir: ¤ = ˆ(S, ) 7—(9) ⁄9 ~ ¥,(9), El resultado de realizar las operaciones pertinentes nos da la siguiente forma para la diferencia de medias: ¤= ( * )* (6 *6 ) 8' 7 ~ ¥,( * ) donde 8' = 7 ( * )8 ( ( * )8 * ) 2- Poblaciones no normales Al igual como se mencionó antes, para tamaños de muestras superiores a 30 podemos emplear la variable aleatoria z según la siguiente estandarización: > 30 → ¶ = ( * ¦ )* (6 *6 ) 8 8 ESTADÍSTICA ~ ˆ(S, ) DAEZEGO Estimación La teoría de la Estadística Inferencial (o inferencia estadística) se puede definir como aquellos métodos que permiten hacer inferencia sobre una población. Para ello se eligen estimadores de manera que el modelo se ajuste lo mejor posible al comportamiento observado, para luego estudiar a dichos estimadores como variables aleatorias. Así lo que tratamos de hacer es emplear un determinado estadístico para que nos estime un determinado parámetro. Generalmente se busca el estadístico que mejor estime a dicho parámetro. A estos estadísticos los llamamos estimadores. Estimación Puntual Supongamos que tenemos un parámetro cualquiera llamado º, entonces un estimador » es una función de los valores de la muestra y se dice que es puntual de º, que llamaremos º puntual porque consiste en un solo valor. Por lo recién dicho tenemos que: » º , , ¼, … , ) »( º= º por lo que ». Queda a la vista que º es función de º , , ¼, … , ) A modo de ejemplo supongamos que X ~ N(μ, σŸ ), entonces queremos estimar el parámetro µ mediante el estimador = ∑ »( = º , , ¼, … , ) → ½= Aquí podemos ver que el estimador es función de los valores de la muestra y que tiene un solo valor, ya que la media aritmética tiene un solo valor. Algunos parámetros (como ser µ) poseen más de un estimador ( , ( l ). Entonces cómo podemos determinar cual es el mejor de todos ellos. Para saber cual es el mejor de todos ellos, hay que ver cual cumple con las siguientes propiedades: » es un estimador insesgado del 1- Insesgamiento: Se dice que en estadístico º »g = º parámetro º si se verifica que: Dfº » de º tiene varianza mínima si se 2- Varianza Mínima: Un estimador puntual º »g < ¾Vº » W donde º » es cualquier otro estimador de º. verifica que |fº Si hacemos los cálculos para los diferentes estimadores de µ veremos que el que cumple con las dos propiedades anteriores es . ESTADÍSTICA DAEZEGO Método de Máxima Verosimilitud Es un método de estimación que nos brinda estimadores asintóticamente insesgados y de varianza mínima cuando n es grande. Nos brinda estimadores para parámetros de cualquier distribución que cumplen con las propiedades de los estimadores puntuales. ESTE MÉTODO SE USA SÓLO CUANDO CONOZCO LA POBLACIÓN. Dada una muestra aleatoria X1, X2,…, Xn de una población con función de densidad (o cuantía), f(x, θ) con θ desconocido y además cada una de las variables aleatorias tienen como función fi(xi, θ): f x> , xŸ , … , xµ , θ) = f> (x> , θ )fŸ (xŸ , θ ) … fµ (xµ , θ) ( , ,…, f(x> , xŸ , … , xµ , θ) = f(x> , θ )f(xŸ , θ ) … f(xµ , θ) , º) = ∏ ( , º ) Función de probabilidad conjunta » del parámetro º es aquel que Entonces el estimador de máxima verosimilitud (E.M.V.) º maximiza la función de probabilidad conjunta (función de verosimilitud). A la función de verosimilitud la denominamos con la letra L. Ã=∏ ( ,º ) (Ä) = ∑ V ( , º )W ; esto es porque L y ln(L) tienen los mismos puntos críticos Luego procedemos a encontrar los puntos críticos haciendo: !V (Ã)W !º =S ». Finalmente hallamos la derivada segunda y la evaluamos De ahí procedemos a despejar º » y vemos si es un máximo. en º ESTADÍSTICA DAEZEGO Estimación por Intervalos de Confianza La estimación por intervalos nos permite conocer con que error estamos trabajando. Para construir un intervalo lo que hacemos es tomar un valor inferior º y otro valor superior º tales que la probabilidad de que dichos valores encierren al valor verdadero de º sea igual a Q ¥, que es el nivel de confianza del intervalo y ¥ es el error que nos podemos permitir: 2 º <θ<º Q¥ Variable Fundamental Una variable aleatoria es una variable fundamental o pivotal si y sólo si: - Depende solo del parámetro al cual se le construye el intervalo. Depende sólo del estimador de máxima verosimilitud. Debe tener una distribución fija y conocida, la cual no dependa del parámetro al cual se le construye el intervalo. Por ejemplo: Sea X ~ N(μ, σŸ ) con σŸ conocida, encontrar la variable pivotal para μ :=5 *6 { √ ~ˆ(S, ) Intervalo de confianza para la Media Veremos como se construye un intervalo para la media poblacional µ según sea el caso que se nos presente. - Población Normal con σ2 conocida La variable pivotal es : = 5 *6 { √ ~ˆ(S, ) El mejor intervalo es el que tiene menor longitud. Para el caso de una distribución Normal que posee simetría, el intervalo de menor longitud se da cuando los extremos son iguales en magnitud pero signos opuestos, por lo que para un nivel de confianza dado resulta: 2(−: < ¶ < : ) = − ¥ 2 Å −: *¥ <5 Los subíndices de : indican la posición 2" −: 5 *¥ √ *6 { √ <Ç< <: *¥ Æ + : ESTADÍSTICA = 5 *¥ √ −¥ #= −¥ DAEZEGO - Población Normal con σ2 desconocida *6 8{ √ La variable pivotal es ~ ( * ) Entonces por ser una distribución simétrica los extremos deben tener la misma posición pero de signo opuesto, así resulta: 2(− 2" 2 Å− − *¥ 8 *¥ √ <›< <8 *6 { √ <Ç< < )= + *¥ Æ −¥ = 8 *¥ √ −¥ #= −¥ Intervalo de Confianza para la Varianza Una estimación puntual insesgada de la varianza de una población normal está dada por la varianza muestral S2, es decir que S2 es el estimador de máxima verosimilitud de σ2. La variable pivotal es • Ÿ = Ÿ ~ •(=*>) (=*>)¨ © En este caso la distribución no es simétrica, por lo que las posiciones de la variable • Ÿ no son iguales y de signo contrario como ocurría antes. 2 "• Ÿ ¥ < • Ÿ < • Ÿ 2 "• Ÿ ¥ < 2Å (=*>)¨ (=*>)¨ È ¥ • © *¥ # < •Ÿ < °Ÿ < = *¥ # (=*>)¨ È ¥ = −¥ Æ= −¥ −¥ Intervalo de confianza para Proporciones La variable pivotal es : = ~ ˆ(S, ) y por distribuirse Normal presenta simetría. É*2 7 Ét É 2 Ê −: 2 ÅÉ − : *¥ *¥ 7 Ét É < É*2 7 Ét É < : *¥ Ë < Ì < É +: ESTADÍSTICA *¥ = −¥ 7 Æ= Ét É −¥ DAEZEGO Intervalo para dos poblaciones Intervalo para Diferencia de Medias Consideremos dos poblaciones normales N μ> , σ>Ÿ ) y N(μŸ , σŸŸ ) El parámetro a estimar es 6 − 6 y entonces el estimador es - − Con varianzas poblacionales Í y Í conocidas La variable pivotal es : = ( * Ð 2 Ï−: 2 Ô( )−: − Î *¥ 7 Í ¦ *¥ + )*(6 *6 ) Í Í ~ˆ(S, ) < ( Í <6 −6 <( * )*(6 *6 ) Í ¦ Í <: Ó *¥ Ò Ñ = )+: − −¥ *¥ 7 Í + Í Õ= −¥ Este intervalo también se puede usar en el caso de que las poblaciones no sean normales y las varianzas poblacionales sean desconocidas, siempre que el tamaño de las muestras sea mayor a 30. Lo único que hacemos es usar las varianzas muestrales en lugar de las poblacionales. - Las varianzas poblacionales °>Ÿ y °ŸŸ son desconocidas y supuestas iguales La variable pivotal es 2 Ô( − )− = *¥ ( 8' 7 * )*(6 *6 ) 8' 7 + ~ ( * ) <6 −6 <( ; 8' = 7 )+ − ( * )8 ( *¥ ( 8' 7 Intervalo de Confianza para Cociente de Varianzas * )8 * ) + Õ= −¥ Tenemos dos poblaciones normales N(μ> , σ>Ÿ ) y N(μŸ , σŸŸ ). El estadístico que estima a 5 ⁄5 es 8 ⁄8 . Entonces la variable pivotal es: + = 8 8 5 ESTADÍSTICA 5 ~ +( * , * ) DAEZEGO Prueba de Hipótesis Hipótesis estadística: es una afirmación de un conjunto de parámetros de la distribución poblacional. La aceptación de una hipótesis implica tan sólo que los datos no proporcionan evidencia suficiente para refutarla. Por otro lado, el rechazo implica que la evidencia de la muestra la refuta. - - Hipótesis Nula (H0): es la afirmación respecto de algún parámetro que ya se conocía por experiencias previas. Indica una situación que ocurre normalmente. En esta hipótesis aparece siempre el signo igual. Hipótesis Alternativa (H1): es aquella que contradice a la hipótesis nula. Representa una situación nueva. A una hipótesis que, si es verdadera, especifica completamente a la distribución poblacional se la llama hipótesis simple, y a una que no la especifica se la llama hipótesis compuesta. Dada una muestra aleatoria X1, X2,…, Xn de tamaño n, definimos la región crítica o de rechazo C al conjunto de todos los valores del estadístico que hacen que la H0 sea rechazada. Entonces la prueba determinada por la región critica o de rechazo C es: - No rechazar H0 si w , w , … , w ) ∈ Ö Rechazar H0 si (w , w , … , w ) ∈ Ö Tenemos varias alternativas a la hora de tomar la decisión de rechazar o no la H0: - 2(' 2(' ) = 2( ' ) = 2( ' : ×S ! ! t ×S ! ! t ' )=¥ )=‘ La regla de decisión es buena cuando el error de tipo 1 y 2 es pequeño. En general se fija la probabilidad de cometer el error tipo1 y se trata de minimizar la probabilidad de cometer el error tipo 2. Tener en cuenta que ¥ + ‘ ≠ . A α se la suele llamar nivel de significancia. ESTADÍSTICA DAEZEGO Pruebas relacionadas con la media poblacional con varianza conocida Como conocemos la varianza poblacional, la variable fundamental o pivotal que usaremos para hacer la prueba de hipótesis es la z ya que suponemos normalidad. Dada una H0 planteamos una H1 como sigue: ÙÚ : Ç ≥ Ü Ù> : Ç < Ü Donde k es el valor conocido de µ. Notar que sólo en H0 se coloca el signo igual, y que la H1 refuta a la H0. Ahora se precede a plantear la región crítica o de rechazo, para ello empleamos el E.M.V. para µ: α Ý ! Ý: X < Þ| Ì X < Þ |àá ; |àá indica que el se usa el µ del ÙÚ Notar que α siempre esta en la región de rechazo. Ahora se procede a estandarizar y despejar el valor de C: 2Å *6 5⁄√ Entonces si Q6 5⁄√ 2 Å: < :¥ < Q6 5⁄√ Q6 5⁄√ Æ |àá Æ |àá 6 ) :¥ . < Þ rechazamos la ÙÚ al nivel de significancia α. Así podemos tener dos tipos de Test o Prueba: - ¥ ¥ 5 √ Test Unilateral o de una cola: ×S : º ºS y × : º > ºS Test Bilateral o de dos colas: ×S : º ºS y × : º ≠ ºS × : º < ºS Propiedades - Los errores tipo 1 y 2 están relacionados entre sí. La disminución de probabilidad de uno resulta en el aumento de la probabilidad del otro. - Un incremente en el tamaño n de la muestra reduce simultáneamente los valores de α y β. - La probabilidad de cometer error de tipo 1 puede reducirse ajustando el o los valores críticos de la región de rechazo. ESTADÍSTICA DAEZEGO Tamaño de la muestra Ahora veremos como determinar el tamaño n de una muestra teniendo H0 y H1 así como los valores de α y β que nos queremos permitir. Primero planteamos la región de rechazo de donde vamos a despejar el valor de C: ÙÚ : ÇÚ Ý ! Ý: X > Þ| Ì X > Þ |ãá 2 ": > *6 5⁄ √ # |×S ¥ Ü Ù> : Ç> > Ü α 2 ": < *6 5⁄√ # | ×S Q¥ 6S ) : *¥ . 5 √ Ahora planteamos la región de aceptación (donde está β) y vamos a despejar el valor de C: Ý ! C: X < Þ| Ì X < Þ |ãž 2 ": < *6 5⁄ √ # |× β ‘ 6 ) :‘ . 5 √ Sigue restar miembro a miembro las dos ecuaciones que encontramos y así podremos hallar el valor de n: S 6S ) : *¥ . 5 √ Q "6 ) :‘ . 5 √ # n: debemos tomar un valor entero Pruebas relacionadas con la varianza poblacional Aquí también supondremos normalidad, por ello y por tratarse de la varianza la variable pivotal que usaremos será la χ2 Se procede de igual manera, planteando la región de rechazo y hallando el valor de C, para luego evaluar si se acepta o rechaza la H0 al nivel de significancia con el que se esta trabajando. En este caso el E.M.V de la varianza poblacional es S2. ÙÚ : ° < Ü Ù> : ° > Ü Ý ! Ý: SŸ > Þ| Ì SŸ > Þ |ãá 2 "— > * 5 # |×S ¥ α 2 "— < * 5 # | ×S ESTADÍSTICA Q¥ * 5 — *¥,( * ) DAEZEGO Pruebas relacionadas con dos poblaciones normales Vamos a analizar el caso de cociente de varianzas y el de diferencia de medias. - Cociente de varianzas En este caso tenemos dos poblaciones normales N μ> , σ>Ÿ ) y N(μŸ , σŸŸ ) de las que se toman dos muestras aleatorias independientes de tamaño n1 y n2 respectivamente. Por lo tanto la variable pivotal a emplear en este caso es la F, dado que estamos trabajando con cociente de varianzas. Las hipótesis a plantear son: ÙÚ : °>Ÿ ⁄°ŸŸ = 1 Ù> : °>Ÿ ⁄°ŸŸ ≠ 1 Ý ! Ý: S>Ÿ ⁄SŸŸ < C> o S>Ÿ ⁄SŸŸ > CŸ | P(S>Ÿ ⁄SŸŸ < C> )|ãá + P(S>Ÿ ⁄SŸŸ > CŸ )|ãá = α P(S>Ÿ ⁄SŸŸ < C> )|ãá = P(F < C> )|ãá = ç Ÿ ç Ÿ ; P(S>Ÿ ⁄SŸŸ > CŸ )|ãá = ; P(F > CŸ )|ãá = C> = Fç (n> − 1, nŸ − 1) = Ÿ CŸ = F>*ç (n> − 1, nŸ − 1) Ÿ ç Ÿ 1 F>*ç (nŸ − 1, n> − 1) ç Ÿ P(F < CŸ )|ãá = 1 − ç Ÿ Ÿ No rechazamos la H0 si el 1 cae dentro de la región de aceptación. Rechazamos la H0 si no ocurre lo anterior. - Diferencia de Medias En este caso tenemos dos poblaciones normales N(μ> , σ>Ÿ ) y N(μŸ , σŸŸ ) de las que se toman dos muestras aleatorias independientes de tamaño n1 y n2 respectivamente. Supondremos que las varianzas poblacionales son desconocidas pero que son iguales, entonces la variable pivotal es una t. ÙÚ : Ç> − ÇŸ = 0 Ù> : Ç> − ÇŸ < 0 Ý ! Ý: X> − X Ÿ < Þ| Ì(X> − X Ÿ < Þ )|ãá = α ESTADÍSTICA DAEZEGO P Ôt < ê ž ž ëì 7 íž í Õ |ãá α C Qt>*ç Sî 7ížž ) íž No rechazamos la H0 si el cero cae en la región de aceptación. Potencia de la Prueba o Test Es una función que se define así: ï θ> 1 − –(θ> ) ðñ θ> ≠ θ v ò ðñ θ> = θ Lo primero que hacemos es plantear la región de rechazo y encontrar el valor de C que corresponda. Luego procedemos a encontrar el valor de β planteando la región de aceptación, tomando el valor de C calculado anteriormente y usando también el valor dado de θ> . Una vez obtenido el valor de β procedemos a usar la ecuación para calcular la potencia del test. ESTADÍSTICA DAEZEGO Regresión y Correlación Lineal La regresión lineal es una herramienta que estudia la dependencia existente entre una variable dependiente, llamada variable respuesta, y una o más variables independientes llamadas variables predictores. Nosotros veremos el caso de la regresión lineal simple así que trabajaremos con una variable predictor y una variable respuesta. Es decir que el análisis de regresión consiste en encontrar una relación que ligue los predictores con la respuesta. Un primer método para saber si existe relación entre las variables es emplear un dispersograma que no es mas que un sistema coordenado en el cual graficamos los pares de valores xó , yó ) con i |>µ Ahora veremos un método para elegir la recta de regresión que se llama método de mínimos cuadrados. Este método implica la suma de los cuadrados de las distancias verticales de los puntos yi a la recta sea lo mas pequeña posible. La recta poblacional será ] = ¥ + ‘ y la recta muestral l = +K Planteamos la ecuación de distancia D y luego debemos encontrar los valores de a y b de manera tal que D sea mínima: 0( , K) = XVl − ( + K )W Para que D sea mínima debemos encontrar sus derivadas parciales y luego las igualaremos a cero para encontrar los valores de a y b respectivamente. De todo el trabajo algebraico se obtiene que: = X −K X K= ∑ ( l =]−K 8 − )(l − ]) = ∑ ( − ) 8 Así hemos obtenido los coeficientes a y b de la recta l = regresión de Y sobre X o recta de regresión muestral. ESTADÍSTICA l + K que se denomina DAEZEGO Para poder inferir sobre ] siguientes supuestos: - ¥) ‘ a partir de l ) K debemos considerar los La variable X es una variable matemática, es decir no esta sujeta a errores. La variable Y es una variable aleatoria que si está sujeta a errores. Las variables Y1, Y2,…, Yn se consideran variables aleatorias independientes. Para cada xi, tenemos que ] ~ˆ(¥ + ‘ , 5 ). La varianza σ2 es constante. Estimadores para α, β y α+βx Pendiente de la recta de regresión muestral: b K= 8 l 8 depende linealmente de las variables yi que se distribuyen normalmente, por lo tanto b también se distribuye normal. Ahora veamos como se distribuye, tener en cuenta que sólo colocamos los resultados pasando por alto los desarrollos algebraicos. EVbW = β y VVbW = ´ ∑í ž (ö÷ *a) Podemos realizar la siguiente estandarización: K− ‘ := 5 ~ ˆ(S, ) { ^∑ ( − ) Con esta variable podemos construir intervalos de confianza y pruebas de hipótesis para la pendiente β de la recta de regresión conociendo la varianza. Ordenada al origen de la recta de regresión muestral: a Recordemos que = ] − K , entonces por ser la combinación lineal de variables aleatorias normales, a también se distribuye normal. Veamos sus parámetros: EVaW = α y VVaW = σŸ ¡ + ∑í > µ Podemos realizar la siguiente estandarización: := 5¦ + − ¥ ∑ ( − ) ESTADÍSTICA a ž (ö÷ *a) ~ ˆ(S, ) ¢ DAEZEGO Recta de regresión muestral: a+bx De la misma forma que hicimos con a y b, podemos trabajar para encontrar los parámetros de la a+bx. Se demuestra que ù ) Pú òû ) –ú y además para un valor dado de x: x0 ü Vù ) PúÚ W ò ) –úÚ y VVù ) PúÚ W σŸ ¡µ ) ∑í áö > ö *a ž á *a ¢ Podemos realizar la estandarización: : ‡ ) ýrS Q þ ) rS 5¦ ) ∑ S Q SQ ~ ˆ(S, ) Supongamos que queremos estimar ] = ¥ + ‘ , estaríamos estimando una variable aleatoria: el valor de y0 para un valor x0 dado. Podemos llamar εó = Yó − (α + βXó ) Donde εó es una variable aleatoria con EVεó W = 0 y VVεó W = σŸ . Su estimador puntual será entonces eó = Yó − (a + bXó ), su esperanza es: EVeó W = 0 = EVYó W − EVα + βX ó W 1 (xÚ − X)Ÿ k VVeó W = VVYó W + VVα + βXó W = σŸ + σŸ j + µ n ∑> (xÚ − X)Ÿ Dicho estimador depende linealmente de Yi. Realizamos la estandarización: := ] −( +K 5¦ + + S) ( S− ) ∑ ( S− ) ~ ˆ(S, ) Esta variable nos permite hallar los límites de confianza para el valor Y verdadero llamados límites de predicción. Dichos límites comparados con los obtenidos para ù + PúÚ son más amplios debido a las fluctuaciones por ser una variable aleatoria. Graficando los límites en función de x0 tenemos que: a y b son los límites para ò + –úÚ c y d son los límites para Y0 LS límite superior LI límite inferior ESTADÍSTICA DAEZEGO Estimación de la Varianza En general se da el caso en que no conocemos la varianza σ2 por lo que debemos estimarla. Entonces se estima mediante la varianza de los errores eó , es decir: °Ÿ = ¯Ÿ = ∑=>Vœ − (ù + PO )WŸ ”−2 Se demuestra que EV¯ Ÿ W = σŸ entonces ¯ Ÿ es un estimador insesgado de σŸ . Luego podemos emplear la variable cuando desconocemos σŸ (=*Ÿ)¨ Ÿ ~•(=*Ÿ) para calcular las variables adecuadas para ´ La fórmula práctica para calcular ¯ Ÿ es: 8 = ∑ V] − ( + K )W = SŸ = Donde µ*> = ∑í ž( ÷* ) µ*> y SaŸ = µ*> = ∑í ž (a÷ *a) * * f8] − K 8 g µ*> Intervalos de Confianza - Para α con σ2 desconocida Como no conocemos la varianza, y por los conocimientos ya adquiridos, la variable pivotal para el intervalo es una t. Recientemente vimos también que := *¥ 5¦ ∑ ( • ) ~ ˆ(S, ) y que ( * ) 5 ~ ( * ) Entonces podemos construir la variable pivotal como ya sabemos: = ˆ(S, ) 7—(9) ⁄9 = 5¦ •¥ ∑ ( • ) ( • ) ¦ ( • )5 = 8 ¦ *¥ ∑ ( • ) ~ ( * ) Dada una confianza y recordando que t tiene una distribución simétrica, podemos plantear el intervalo: 2 "− *¥ <›< *¥ # = −¥ Luego hacemos los reemplazos y despejes que corresponden para obtener el intervalo de α. ESTADÍSTICA DAEZEGO - Para β con σ2 desconocida Procediendo de igual manera y recordando que : = 5 K* ‘ 7∑ ( * ) ~ ˆ(S, ) Vamos a emplear nuevamente la variable pivotal t y a realizar los mismos pasos para obtener el intervalo para β para un nivel de significancia dado. - Para la recta ] = ¥ + ‘ dado un valor x0 Nuevamente emplearemos una variable pivotal t porque no conocemos la varianza poblacional y recordemos que : = ‡ ýrS * (þ 5¦ rS ) e S• h ∑ ( S• ) ~ ˆ(S, ). Dado un nivel de confianza procedemos a construir el intervalo de manera similar a como venimos haciendo en los casos anteriores. - Para la ordenada Y (límite de predicción) dado un valor x0 Todo lo mismo, la variable pivotal sigue siendo una t y : = 5¦ ] *( K S) e S• h ∑ ( S• ) ~ ˆ(S, ) Procedemos a construir la variable t y para un nivel de significancia dado construimos el intervalo para Y. Prueba de Hipótesis Debemos probar si algún parámetro es igual a algún valor hipotético. - Prueba para β ÙÚ : – = –Ú Ù> : – ≠ –Ú La variable pivotal es la “bendita t”: con la siguiente región de rechazo: = K* ‘ 8 {7∑ ( * ) |K − ‘S | > ( *¥) ESTADÍSTICA ~ ( * ) 8 7∑ ( * ) DAEZEGO - Prueba para α ÙÚ : ò = òÚ Ù> : ò ≠ òÚ = La variable pivotal es la “bendita t”: 8 ¦ *¥ ∑ ( • ) | − ¥S | > con la siguiente región de rechazo: ~ e *¥h 8 ( * ) 7 +∑ ( * ) Regresión Curvilínea - Función Polinómica De manera general tenemos que ] = ¥ + ‘ + ’ »= la cual debemos ajustar a l = ] - S Función Potencial Debemos ajustar una curva ] = ¥ + + + + »= a l=] ‘ ¼ ¼ + ⋯+š ¼ +⋯+ K Aplicando logaritmo natural para valores positivos de a y b tendremos: l )K ] ; haciendo las sustituciones C)K Vemos que tenemos una función lineal, por lo que podemos aplicar la regresión lineal teniendo en cuenta que la tabla de datos va a ser con l . ] ] ] - Otras funciones ¥) ¥ ‘ ¥ ‘ ‘ ] ] ] ¥)‘ ¥)‘ ¥)‘ donde donde ] donde ] l l ESTADÍSTICA DAEZEGO Correlación Simple Al realizar una predicción del valor de Y usando la ecuación de mínimos cuadrados, la misma está sujeta a errores. El grado de exactitud en la predicción depende de la correlación que existe entre las dos variables. La medida usual es el coeficiente de correlación ρ (si es poblacional) o r (si es muestral). Entonces como es de esperar si r es pequeño se obtiene poca precisión al realizar predicciones sobre el valor de Y usando la recta de mínimos cuadrados. Por otro lado si r es aproximadamente 1 o -1 la correlación es fuerte lo que se traduce en que la recta de mínimos cuadrados es cercana a todos los puntos del dispersograma y se logran gran exactitud al efectuar la predicción. En base a r se estima si ρ si tiene un determinado valor, esto es porque r es un E.M.V de ρ. Recordemos que: ρ= î ( a, ) ´ ´ = = Su estimador se define como: ∑í ž e ÷ • he ÷ • h í í ¦ ∑ž e ÷ • h í 8 l ^8 8ll í ¦∑ž e ÷ • h í − ≤ = −1 ≤ ρ ≤ 1 ^ ≤ Cuando r = -1 o r = 1, significa que existe un ajuste perfecto. Por otro lado cuando r = 0 significa que no existe correlación lineal (podría ser una relación curvilínea). La diferencia entre el análisis de regresión y el de correlación es que en este último tanto X como Y son variables aleatorias. Una hipótesis útil es ρ = 0 es decir que no hay relación entre X e Y porque serían independientes. Entonces: ×S : = S × : ≠S ρ = 0 se usa sólo para test de hipótesis y no para intervalos de confianza La relación de r que usamos es: r = b7 K = √ − √ − = ; b= ^ − y se demuestra que ⁄ − ~ ( * ) Con esta variable se hace la prueba con la siguiente región de rechazo dado un nivel de | K | > *¥,( * ) significancia α: ESTADÍSTICA DAEZEGO Otra hipótesis es si la muestra proviene de una población con ρ0, es decir ×S : Partiendo de que: e „ •„ z h ~•" × : " S • S = ≠ #, S S *¼ # entonces resulta 1 1 > lne>* h − 2 ln ">>* SS # 2 = ~N(0,1) 1 7 n−3 Y empleamos la siguiente región de rechazo para probar H0 |z | > ¶>* ESTADÍSTICA