PROBABILIDAD Y ESTADÍSTICA UNIDAD I. TEORÍA DE LA PROBABILIDAD 1.1 Conjuntos, sus operaciones, leyes y su representación Definición de conjunto Por Extensión y por Comprensión Un conjunto queda perfectamente definido si se conocen con exactitud los elementos que lo integran o que pertenecen a él; es decir, si se nombran todos sus elementos o bien si se usa un enunciado o propiedad que lo identifique. Independientemente de la forma en que se lo represente, siempre se usa una letra mayúscula que lo define. Esta letra mayúscula representa a un conjunto específico de elementos. Existen dos maneras de definir un conjunto dado: a) Por extensión o enumeración: se define nombrando a cada elemento del conjunto. Por comprensión: se define mediante un enunciado o atributo que representa al conjunto (se busca una frase que represente a la totalidad de elementos sin nombrar a ninguno en particular). Por comprensión A = {Números dígitos} B = {Números pares] C = {Múltiplos de 5} Por extensión A = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} B = {2, 4, 6, 8, 10, 12, 14, ...} C = {5, 10, 15, 20, 25, 30, 35...} Diagrama de Venn y entre llaves. Es habitual representar los conjuntos en forma gráfica mediante los Diagramas de Venn. En estos diagramas el conjunto se representa mediante una superficie limitada por una línea. En su interior se colocan los elementos del conjunto. Cada porción del plano limitada se nombra con una letra mayúscula. El conjunto A está formado por los elementos 1, 2, 3. El conjunto B está formado por los elementos a, b, c, d. Existe, además, otra forma de representarlos que es entre llaves. En estos ejemplos se escribe: A = {1, 2, 3} B = {a, b, c, d} Otro ejemplo: Por diagrama Entre llaves S = {a, e, i, o, u} Se escribe una coma para separar los elementos. Conjunto Disjunto, Conjunto Subconjunto 1) Conjuntos disjuntos: Son aquellos conjuntos que no tienen elementos en común. Por ejemplo: El conjunto A tiene como elementos a los números 1, 2 y 3. El conjunto B tiene como elementos a las letras a, b, c y d. No hay elementos comunes entre los conjuntos A y B. En otras palabras, ningún elemento del conjunto A pertenece al conjunto B; a su vez, ningún elemento de B pertenece al conjunto A. En consecuencia, los conjuntos A y B son disjuntos. Tomando otro ejemplo: Si E = { pizarrón, tiza, borrador} (Conjunto E formado por pizarrón, tiza, borrador) F = { tiza, profesor, regla} (Conjunto F formado por tiza, profesor, regla) G = { niño, cuaderno, sala, lápiz } (Conjunto G formado por niño, cuaderno, sala, lápiz) E y G son conjuntos disjuntos porque: pizarrón, tiza, borrador no pertenecen al conjunto G. E y F no son disjuntos ya que tiza pertenece a E y también a F. F y G son conjuntos disjuntos porque: tiza, profesor, regla no pertenecen a G, y niño, cuaderno, sala, lápiz no pertenecen a F. 2) Conjunto Subconjunto: Un conjunto es subconjunto de otro si todos los elementos de un conjunto también pertenecen al otro. Si se tienen los siguientes conjuntos: P = { a, e, i, o, u } y R = { a, i } R es subconjunto de P porque todos los elementos de R están en P. En general, para expresar que un conjunto es subconjunto de otro conjunto se pone entre ellos el símbolo . En este ejemplo se escribe: R P Se lee “ R es subconjunto de P” no es subconjunto de otro cuando al menos un elemento del primero no pertenece al segundo conjunto. El símbolo que representa la frase “no es subconjunto de“ es . Si se tienen los siguientes conjuntos: C = { 3, 5, 7, 9 } y H = { 3, 5, 8 } H no es subconjunto de C porque el elemento 8 no pertenece al conjunto C. Se escribe: H C Se lee “ H no es subconjunto de C” También los subconjuntos pueden representarse mediante Diagramas de Venn. Ejemplo: S C Propiedades de la relación subconjunto 1.- Todo conjunto es subconjunto de sí mismo. Si T = { x, z, y, z }, se tiene que T T 2.- El conjunto vacío es subconjunto de cualquier conjunto (el conjunto vacío es aquel que no tiene elementos; se representa por: { } o bien por Ø Si se tiene el conjunto B se puede que Ø T Relaciones entre conjuntos Sean los conjuntos A = { 5, 7 } B = { 3, 5, 7, 9 } Los elementos 5 y 7 forman parte del conjunto A. establecer En otras palabras, los elementos 5 y 7 pertenecen ( 5 A y ) al conjunto A. 7 A Los elementos 3, 5, 7, 9 forman parte del conjunto B, es decir, pertenecen al conjunto B 3 B 5 B 7 B 9 B Se puede observar, además, en el diagrama, que los elementos del conjunto A están incluidos dentro del conjunto B; por lo tanto, dichos elementos también pertenecen al conjunto B. En otras palabras, A es subconjunto de B. A B Operaciones entre conjuntos Intersección de conjuntos ( ) La intersección entre dos o más conjuntos es otro conjunto formado por los elementos comunes a ellos; es decir, a los elementos comunes o repetidos de ambos conjuntos A y B. La intersección se simboliza con el signo representan a cada conjunto. Conjunto A = {3, 8, 24} Conjunto B = {13, 7, 8, 12} y se coloca entre las letras que Los elementos que se repiten entre A y B son: 3 y 8. Estos elementos se anotan en la parte de color amarillo pues representa el lugar común entre ambos conjuntos. Otro ejemplo: B = { a, b, c, d, e, f } C = { a, d, f, g, h } B C = { a, d, f } En el diagrama de Venn la parte ennegrecida representa la intersección de B y C. Unión de conjuntos: La unión de dos o más conjuntos es otro conjunto formado por los elementos que pertenecen a uno u otro conjunto o a ambos. La unión se representa por el símbolo Si un elemento está repetido, se coloca una sola vez. Cuando no hay elementos comunes o repetidos (esquema 1) se anotan todos los elementos en un solo conjunto (una sola figura cerrada): A B = {2, 3, 4, 5, 6, 7}. Si hay elementos repetidos, éstos se anotan en la zona común a ambos conjuntos (esquema 2), donde se juntan ambas figuras cerradas: W Z = {9, 6, 8, 5, 7}. La cardinalidad de un conjunto se representa con el símbolo # y corresponde al número de elementos que tiene el conjunto. Ejemplos: W = { $, %, &, /, ª } El conjunto W está integrado por 5 elementos, por lo tanto, su cardinalidad es 5 ( # = 5 ) Q = El conjunto Q está formado por 3 elementos #Q= 3 K= El conjunto K tiene un elemento # K= 1 Conjuntos equivalentes Son aquellos que tienen igual cardinalidad, es decir, igual número de elementos. T= { } , , P= { a, b, c } # T = 3 # P = 3 Los conjuntos T y P son equivalentes porque tienen la misma cardinalidad. Conjuntos iguales Son todos aquellos conjuntos que tienen elementos iguales. Los elementos de un conjunto también pertenecen al mismo conjunto. Ejemplo: D F D = F Los conjuntos D y F son iguales porque tienen el mismo elemento. A veces pueden estar desordenados los elementos cuando son más de uno, en tal caso, debe recordarse que en un conjunto no importa el orden en que estén los elementos. Conjunto universo En el Diagrama de Venn de la izquierda se puede observar que el conjunto U contiene a los conjuntos M y N. U es el conjunto universo porque es un conjunto que contiene a todos los conjuntos. Otro ejemplo: Sea Y = { enero, febrero } ; El conjunto universo será: Ñ = { marzo, junio, agosto } U = { meses del año } 1.2 Probabilidad de eventos aleatorios Probabilidad de eventos Para calcular la probabilidad de eventos es necesario que éstos se comporten de una maner más o menos estable. Precisamente, se echa mano de la regularidad estadística, que es la propiedad de los fenómenos aleatorios, y que consiste en que al aumentar el número de repeticiones de un experimento en condiciones prácticamente constantes, la frecuencia relativa de ocurrencia para cada evento tiende a un valor fijo. Sin embargo, al momento de definir la probabilidad de un evento podemos tomar en cuenta los siguientes criterios: 1. La probabilidad subjetiva de un evento se la asigna la persona que hace el estudio, y depende del conocimiento que esta persona tenga sobre el tema. Precisamente por su carácter de subjetividad no se considera con validez científica, aunque en la vida diaria es de las más comúnes que se utilizan al no apoyarse más que en el sentido común y los conocimientos previos, y no en resultados estadísticos. 2. La probabilidad frecuencial de un evento es el valor fijo al que tienden las frecuencias relativas de ocurrencia del evento de acuerdo a la regularidad estadística. Esta definición sería la más real, pero proporciona probabilidades aproximadas, es decir, proporciona estimaciones y no valores reales. Además, los resultados son a posteriori, pues se necesita realizar el experimento para poder obtenerlo. (Para ver un ejemplo haz click aquí.) 3. La probabilidad clásica de un evento E, que denotaremos por P(E), se define como el número de eventos elementales que componen al evento E, entre el número de eventos elementales que componen el espacio muestral: Es la definición más utilizada porque supone de antemano, y se necesita como requisito indispensable, que todos los eventos elementales tienen la misma probabilidad de ocurrir. Axiomas de la probabilidad Recordemos primero que las frecuencias relativas de una distribución tenían las siguientes propiedades: 1. Las frecuencias relativas son mayores o iguales que cero. 2. La frecuencia relativa del espacio muestral es igual a la unidad. 3. Si dos eventos son mutuamente excluyentes, es decir que no ocurren simultáneamente, entonces la frecuencia relativa de su unión es la suma de las frecuencias relativas de cada uno. Tomando en cuenta que la probabilidad de un evento, de acuerdo a la definición ya expuesta, es la frecuencia relativa cuando se aumenta el tamaño de la muestra, se tienen lo siguiente. Si E es un evento de un espacio muestral S y P(E) es la probabilidad de E, entonces se satisfacen los axiomas de la probabilidad: 1. 0 P(E) 1. 2. P(S) = 1. 3. Si E1, E2, ... , En son eventos mutuamente excluyentes, entonces Con estos axiomas podremos tratar algunas de las propiedades de la probabilidad de eventos. Posibilidades y probabilidades Se habla muy comúnmente en sitios de apuestas, como en las autódromos o hipódromos, de que "las apuestas a tal o cual participante es de x a y", es decir, que las posibilidades de que gane es de x a y. Esta manera de expresarse se refiere al uso de razones. En términos generales, la posibilidad de que ocurra un evento se determina mediante la razón de la probabilidad de que ocurra a la probabilidad de que no ocurra. Esto quiere decir que si la probabilidad de que un evento ocurra es p, entonces las posibilidades de que ocurra son x a y, es decir Tales que x y y son enteros positivos. Por ejemplo: Si se tiran dos monedas normales (no trucadas), la probabilidad de que las dos monedas caigan cara es de ¼. Esto quiere decir si alguien apuesta a que las dos monedas no caen simultáneamente en cara, la posibilidad de ganar la apuesta es de es decir, 3 a 1. Hemos de considerar que si es mayor la probabilidad de que no ocurra un evento, entonces se acostumbra mencionar las posibilidades en contra del evento. Por ejemplo: Si se tira un dado no trucado, sabemos que la probabilidad de obtener un cuatro es 1/6, es decir que la posibilidad de obtener un cuatro es de 1 a 6; pero se acostumbra decir que las posibilidades en contra, esto es, de no obtener un cuatro es de 6 a 1. Inversamente, en el caso de tener las posibilidades de un evento, entonces es fácil obtener su probabilidad, pues si la posibilidad de un evento es de x a y, entonces la probabilidad p de que ocurra tal evento es Por ejemplo: En la Copa Mundial de Futbol Francia 1998 se decía que el equipo mexicano tenía una posibilidad de 1 a 75 de llegar a ser el campeón del torneo. Si se desea encontrar la probabilidad de que el equipo mexicano llegase a ser campeón, entonces se tiene que es la probabilidad de que ocurriese el evento. Esto tiene la ventaja de que permite, en combinación con el tercer axioma de la probabilidad, medir la confiabilidad que tienen las opiniones de las personas sobre las posibilidades que le asignan a algunos eventos. Esto quiere decir que el cálculo de las probabilidades de dos eventos mutuamente excluyentes a partir de las posibilidades otorgadas de manera subjetiva resulta como un criterio de consistencia. Por ejemplo: Un criminólogo piensa que las posibilidades de que en la próxima semana la cantidad de delitos en una ciudad aumente con respecto a la anterior es de 5 a 2, de que sea la misma cantidad de delitos es de 1 a 3 y las posibilidades de que aumente la cantidad o sea la misma es de 7 a 4. Si se desea saber si son consistentes las probabilidades correspondientes habría que hacer los cálculos. Las probabilidades de aumente la cantidad de delitos, sea igual la cantidad de delitos, y de que aumente o sea igual la cantidad de delitos es, respectivamente, de y dado que (como son eventos mutuamente excluyentes) no es lo mismo que 7/11, entonces los criterios del criminólogo pueden ser cuestionados. Propiedades de la probabilidad de eventos no elementales Cuando se tienen eventos elementales no existe mucho problema en el sentido del cálculo de las probabilidades, pues basta con una contabilización o el uso directo del cálculo combinatorio. Pero en el caso de eventos no elementales, que son los compuestos por más de un evento elemental, el proceder de manera análoga resulta muy complejo y las operaciones pueden sobrepasar la capacidad de cálculo existente. Sin embargo, utilizando los axiomas de la probabilidad y las siguientes propiedades, se podrán expresar las probabilidades de estos eventos en términos de los eventos elementales que lo componen, siempre y cuando se conozcan las probabilidades de éstos. Veamos la probabilidad de una unión de eventos, la cual la podremos calcular de la siguiente manera: Propiedad 1. Si A y B son dos eventos, la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B, menos la probabilidad de que ocurran A y B simultáneamente. Es decir, P(A B) = P(A) + P(B) - P(A B) Ahora, si el caso es que los eventos sean mutuamente excluyentes se tiene: Propiedad 2. Si dos eventos, A y B, son mutuamente excluyentes entonces la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B. Es decir P(A B) = P(A) + P(B) Otra propiedad que se deriva de las anteriores es cuando se busca la probabilidad del complemento de un evento E, que denotaremos como ~E: Propiedad 3. Si E es un evento y ~E su complemento, entonces P(~E) = 1 - P(E) Retomando los conceptos de eventos dependientes o condicionales, se va a definir la probabilidad condicional como sigue: Propiedad 4. La probabilidad de que ocurra un evento A dado que ocurrió el evento B (el evento A depende del evento B), denotado P(A|B), es: Hay que notar que esta propiedad no es conmutativa, situación que sí ocurre con la probabilidad de unión o la intersección de eventos, por lo que no hay que confundir P(A|B) y P(B|A). Finalmente, el criterio para la independencia de eventos queda como sigue: Propiedad 5. Dos eventos A y B son independientes si y sólo si P(A|B) = P(A) y P(B|A) = P(B) o, que es lo mismo: P(A B) = P(A) · P(B) 1.3 Espacio muestral y eventos Modelos: Modelo determinista: designamos así al modelo que estipula que las condiciones en las que se verifica un experimento determinan el resultado del mismo. El modelo señala que las condiciones en las cuales se verifican ciertos fenómenos determinan el valor de ciertas variables observables: la magnitud de la velocidad, el área recurrida durante un cierto tiempo, etc. Modelo no determinista (o probabilístico o estocástico): en este modelo las condiciones experimentales solo determinan el comportamiento probabilístico (la distribución probabilística) de los resultados observables. Usamos consideraciones específicas para especificar una distribución de probabilidades. Características de un experimento aleatorio: esencialmente las condiciones. particular, podemos describir el conjunto de todos los resultados posibles del experimento. gran número de veces, aparece un patrón definido o regularidad. Esta regularidad hace posible la construcción de un modelo preciso con el cual podemos analizar el experimento. Espacio muestral: Para cada experimento E definimos el espacio muestral como el conjunto de todos los resultados posibles de E. Usualmente se designa este conjunto como S. El espacio muestral, de acuerdo con el número de resultados posibles, puede ser: finito, infinito numerable, infinito no numerable. Eventos: Un evento A (respecto a un espacio muestral particular S asociado a un experimento E) es simplemente un conjuno de resultados posibles. En terminología de conjuntos, un evento es un subconjunto del espacio muestral S. Esto implica que S tambien es un evento asi como lo es el conjunto vacio. Cualquier resultado individual tambien puede considerarse como un evento. Se dice que dos eventos A y B, son mutuamente excluyentes si no pueden ocurrir juntos. Expresamos esto escribiendo IMAGEN; es decir, la intersección de A y B es el conjunto vacío. Frecuencia relativa: Supongamos que repetimos n veces el experimento E, y sean A y B dos eventos asociados con E. Sean nA y nB el número de veces que el evento A y el B (respectivamente) ocurrieron en las n repeticiones. Entonces, definimos fA = nA / n como la frecuencia relativa del evento A en las n repeticiones de E. La frecuencia relativa fA tiene las siguientes propiedades: fA 1 A = 1 si y sólo si A ocurre cada vez en las n repeticiones. A = 0 si y sólo si A nunca ocurre en las n repeticiones. (A U B) es la frecuencia relativa asociada al evento A U B, entonces f(A U B) = fA + fB. A, basada en la n repeticiones del experimento y considerada para una función de n, "converge" en cierto sentido probabilístico a P(A) cuando n-->+oo. (Esto NO es lo mismo que el concepto corriente de convergencia que se encuentra en otra parte en matematicas. En realidad, ésta no es una conclusión matemática, sino simplemente un hecho empírico.) Lo importante de esta propiedad es que si un experimento se realiza un gran número de veces, la frecuencia relativa con que ocurre un evento A tiende a variar cada vez menos a medida que el número de repeticiones aumenta. A esta característica se la conoce como regularidad estadística. Nociones básicas de probabilidad: Sea E un experimento y S un espacio muestral asociado con E. Con cada evento A asociamos un número real, designado con P(A) y llamado probabilidad de A, el cual satisface las siguientes propiedades: 0 P(A) 1 P(S) = 1 i A y B son dos eventos mutuamente excluyentes, P(A U B) = P(A) + P(B) C es el evento complementario de A, entonces P(A) = 1 - P(AC) A) + P(B) - P(A IMAGEN C) B, entonces P(A) P(B) 1.4 Definición clásica de la probabilidad El concepto de Probabilidad ha evolucionado en el transcurso del tiempo. La probabilidad nació en el juego y es jugando como mejor se aprende la probabilidad. A los aljebristas del siglo XVI, Pacioli, Cardano, Tartaglia, se deben las primeras consideraciones matemáticas profundas a propósito de los juegos de azar. Los fundamentos del cálculo de probabilidades surgen alrededor del año 1650, cuando sugerido por los juegos de dados, de cartas, del lanzamiento de una moneda, se planteó el debate de determinar la probabilidad de ganar la partida. Fermat y Pascal, esquematizado el tema propuesto (ver primer problema), dieron en 1654 la primera definición de probabilidad. Se aceptaba como intuitivo el concepto de equiprobabilidad, se admitía que la probabilidad de conseguir un acontecimiento fuese igual al cociente entre el número de casos favorables y el de casos posibles. El cálculo de probabilidades tuvo un notable desarrollo sobre la base de la anterior definición de probabilidad. Destacan en 1713 el teorema de Bernoulli y la distribución binomial, y en 1738 el primer caso particular estudiado por De Moivre, del teorema central del límite. En 1809 Gauss inició el estudio de la teoría de errores y en 1810 Laplace, que había considerado anteriormente el tema, completó el desarrollo de esta teoría. A mediados del siglo XIX, un fraile agustino austríaco, Gregor Mendel, inició el estudio de la herencia, la genética, con sus interesantes experimentos sobre el cruce de plantas de diferentes características. Su obra, La matemática de la Herencia, fue una de las primeras aplicaciones importantes de la teoría de probabilidad a las ciencias naturales. 1.5 Definición en base a la frecuencia relativa Probabilidad de eventos Para calcular la probabilidad de eventos es necesario que éstos se comporten de una maner más o menos estable. Precisamente, se echa mano de la regularidad estadística, que es la propiedad de los fenómenos aleatorios, y que consiste en que al aumentar el número de repeticiones de un experimento en condiciones prácticamente constantes, la frecuencia relativa de ocurrencia para cada evento tiende a un valor fijo. Sin embargo, al momento de definir la probabilidad de un evento podemos tomar en cuenta los siguientes criterios: 1. La probabilidad subjetiva de un evento se la asigna la persona que hace el estudio, y depende del conocimiento que esta persona tenga sobre el tema. Precisamente por su carácter de subjetividad no se considera con validez científica, aunque en la vida diaria es de las más comúnes que se utilizan al no apoyarse más que en el sentido común y los conocimientos previos, y no en resultados estadísticos. 2. La probabilidad frecuencial de un evento es el valor fijo al que tienden las frecuencias relativas de ocurrencia del evento de acuerdo a la regularidad estadística. Esta definición sería la más real, pero proporciona probabilidades aproximadas, es decir, proporciona estimaciones y no valores reales. Además, los resultados son a posteriori, pues se necesita realizar el experimento para poder obtenerlo. (Para ver un ejemplo haz click aquí.) 3. La probabilidad clásica de un evento E, que denotaremos por P(E), se define como el número de eventos elementales que componen al evento E, entre el número de eventos elementales que componen el espacio muestral: Es la definición más utilizada porque supone de antemano, y se necesita como requisito indispensable, que todos los eventos elementales tienen la misma probabilidad de ocurrir. 1.6 Definición axiomatica de la probabilidad Axiomas de la probabilidad Recordemos primero que las frecuencias relativas de una distribución tenían las siguientes propiedades: 1. Las frecuencias relativas son mayores o iguales que cero. 2. La frecuencia relativa del espacio muestral es igual a la unidad. 3. Si dos eventos son mutuamente excluyentes, es decir que no ocurren simultáneamente, entonces la frecuencia relativa de su unión es la suma de las frecuencias relativas de cada uno. Tomando en cuenta que la probabilidad de un evento, de acuerdo a la definición ya expuesta, es la frecuencia relativa cuando se aumenta el tamaño de la muestra, se tienen lo siguiente. Si E es un evento de un espacio muestral S y P(E) es la probabilidad de E, entonces se satisfacen los axiomas de la probabilidad: 1. 0 P(E) 1. 2. P(S) = 1. 3. Si E1, E2, ... , En son eventos mutuamente excluyentes, entonces Con estos axiomas podremos tratar algunas de las propiedades de la probabilidad de eventos. Para hacer una definición rigurosa de la probabilidad, necesitamos precisar ciertas leyes o axiomas que deba cumplir una función de probabilidad. Intuitivamente estos axiomas deberían implicar, entre otras, las siguientes cuestiones, que nos parecen lógicas en términos de lo que se puede esperar de una función de probabilidad: La probabilidad sólo puede tomar valores comprendidos entre 0 y 1(no puede haber sucesos cuya probabilidad de ocurrir sea del ni del ; La probabilidad del suceso seguro es 1, es decir, el ; La probabilidad del suceso imposible debe ser 0. La probabilidad de la intersección de dos sucesos debe ser menor o igual que la probabilidad de cada uno de los sucesos por separado, es decir, La probabilidad de la unión de sucesos debe ser mayor que la de cada uno de los sucesos por separado: Más aún, si los sucesos son disjuntos (incompatibles) debe ocurrir que La probabilidad del suceso contrario de A, debe valer Esto en realidad puede deducirse del siguiente razonamiento: . En las últimas líneas hemos esbozado ciertas propiedades que debería cumplir una función que queramos llamar probabilidad. Hemos de tener en cuenta entonces que siguiendo esos puntos: 1. La función de probabilidad debe calcularse sobre subconjuntos de E. No es estrictamente necesario que sean todos, pero si es necesario que si se puede calcular sobre un conjunto, lo pueda ser también sobre su complementario, y que si se puede calcular sobre dos conjuntos A y B, que también se pueda calcular sobre su unión y su intersección. Para ello introduciremos el concepto de -álgebra de sucesos, que será una clase de subconjuntos de Esobre los que podamos aplicar las reglas de la probabilidad. 2. Entre las leyes que debe cumplir una función de probabilidad y que hemos escrito antes, hemos observado que algunas son redundantes, ya que se pueden deducir de las demás. Con la definición axiomática de la probabilidad pretendemos dar el menor conjunto posible de estas reglas, para que las demás se deduzcan como una simple consecuencia de ellas. Precisemos entonces los conceptos de 1.7 -álgebra de sucesos y de probabilidad. Diagramas de árbol Tablas de contingencia y diagramas de árbol. En los problemas de probabilidad y en especial en los de probabilidad condicionada, resulta interesante y práctico organizar la información en una tabla de contingencia o en un diagrama de árbol. Las tablas de contingencia y los diagramas de árbol están íntimamente relacionados, dado uno de ellos podemos construir el otro. Unas veces, los datos del problema permiten construir fácilmente uno de ellos y a partir de él podemos construir el otro, que nos ayudará en la resolución del problema. Conversión de una tabla en diagrama de árbol Las tablas de contingencia están referidas a dos características que presentan cada una dos o más sucesos. A B TOTAL P( A B ) P( P( A ) P( B ) P( B ) En el caso de los sucesos A, ,By , expresados en frecuencias absolutas, relativas o probabilidades la tabla, adopta la forma adjunta. TOTAL P( A ) P( ) P( ) ) 1 Dicha tabla adopta la forma del diagrama de árbol del dibujo. En éste, a cada uno de los sucesos A y se les ha asociado los sucesos B y . Sobre las ramas del diagrama de árbol se han anotado las probabilidades condicionadas correspondientes, deducidas de las relaciones análogas a: Conversión de un diagrama en tabla de contingencia De manera recíproca, dado el diagrama de árbol podemos construir la tabla de contingencia equivalente si más que utilizar la expresión P( B A ) = P( B/A ) · P( A ), para calcular las probabilidades de las intersecciones de sucesos que forman la tabla. 1.8 permutaciones y combinaciones Análisis combinatorio En ocasiones el trabajo de enumerar los posibles sucesos que ocurren en una situación dada se convierte en algo difícil de lograr o, simplemente, tedioso. El análisis combinatorio, o cálculo combinatorio, permite enumerar tales casos o sucesos y así obtener la probabilidad de eventos más complejos. En el caso de que existan más de un suceso a observar, habría que contar el número de veces que pueden ocurrir todos los sucesos que se desean observar, para ello se utiliza el principio fundamental de conteo: Si un suceso se puede presentar de n1 formas, y otro se puede presentar de n2 formas, entonces el número de formas en que ambos sucesos pueden presentarse en ese orden es de n1·n2. En otras palabras, basta multiplicar el número de formas en que se pueden presentar cada uno de los sucesos a observar. Este principio nos remite automáticamente al factorial de un número natural, que se puede pensar como una función con dominio los números naturales junto con el cero y codominio los números naturales. El factorial de un número n, denotado n!, se define como: Ahora, n es muy grande el proceso de cálculo se vuelve tedioso y muy cargado, incluso para una computadora, por lo que se utiliza la aproximación de Stirling a n!: donde 2.71828..., que es la base de los logaritmos neperianos. En Excel existe la función FACT(n) que calcula el factorial de un número entero no negativo n. En el análisis combinatorio se definen las permutaciones, con o sin repetición, y las combinaciones. Permutaciones (u ordenaciones) con repetición Las permutaciones son también conocidas como ordenaciones, y de hecho toman este nombre porque son ordenaciones de r objetos de n dados. En este curso las representaremos como ORnr ó nORr. Por ejemplo: Sea A={a,b,c,d}, ¿cuántas "palabras" de dos letras se pueden obtener? Se pide formar permutaciones u ordenaciones de 2 letras, cuando el total de letras es 4. En este caso r=2 y n=4. Las "palabras" formadas son: aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd. En total son 16. En general, si se toman r objetos de n, la cantidad de permutaciones u ordenaciones con repetición obtenidas son: ORnr = nORr = n r Permutaciones (u ordenaciones) sin repetición En este caso, a diferencia del anterior, se realizan ordenaciones de r objetos de n dados atendiendo a la situación de cada objeto en la ordenación. Su representación será Pnr ó nPr. Por ejemplo: Sea el mismo conjunto A={a,b,c,d}, ¿cuántas ordenaciones sin repetición se pueden obtener? Lo que resulta es: ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc. Son 12 en total. En general, si se toman r objetos de un total de n, la cantidad de permutaciones Pnr = nPr = El Excel cuenta con la función PERMUTACIONES(n,r) que realiza el cálculo. Combinaciones Es una selección de r objetos de n dados sin atender a la ordenación de los mismos. Es decir, es la obtención de subcojuntos, de r elementos cada uno, a partir de un conjunto inicial de n elementos. La denotaremos con Cnr, nCr ó . Por ejemplo: Si tomamos el mismo conjunto A={a,b,c,d}, ¿cuántos subconjuntos de 2 elementos cada uno se pueden obtener? Haciéndolos se obtienen: {a,b}, {a,c}, {a,d}, {b,c}, {b,d}, {c,d}. Son seis los subconjuntos. En general, si de n objetos dados se hacen combinaciones de r objetos cada una, el número de combinaciones obtenidas son: Cnr = nCr = o, que es lo mismo, Cnr = nCr = En Excel la función COMBINAT(n,r) calcula las combinaciones de n objetos tomando r de ellos. 1.9 Probabilidad condicional e independencia Posibilidades y probabilidades Se habla muy comúnmente en sitios de apuestas, como en las autódromos o hipódromos, de que "las apuestas a tal o cual participante es de x a y", es decir, que las posibilidades de que gane es de x a y. Esta manera de expresarse se refiere al uso de razones. En términos generales, la posibilidad de que ocurra un evento se determina mediante la razón de la probabilidad de que ocurra a la probabilidad de que no ocurra. Esto quiere decir que si la probabilidad de que un evento ocurra es p, entonces las posibilidades de que ocurra son x a y, es decir Tales que x y y son enteros positivos. Por ejemplo: Si se tiran dos monedas normales (no trucadas), la probabilidad de que las dos monedas caigan cara es de ¼. Esto quiere decir si alguien apuesta a que las dos monedas no caen simultáneamente en cara, la posibilidad de ganar la apuesta es de es decir, 3 a 1. Hemos de considerar que si es mayor la probabilidad de que no ocurra un evento, entonces se acostumbra mencionar las posibilidades en contra del evento. Por ejemplo: Si se tira un dado no trucado, sabemos que la probabilidad de obtener un cuatro es 1/6, es decir que la posibilidad de obtener un cuatro es de 1 a 6; pero se acostumbra decir que las posibilidades en contra, esto es, de no obtener un cuatro es de 6 a 1. Inversamente, en el caso de tener las posibilidades de un evento, entonces es fácil obtener su probabilidad, pues si la posibilidad de un evento es de x a y, entonces la probabilidad p de que ocurra tal evento es Por ejemplo: En la Copa Mundial de Futbol Francia 1998 se decía que el equipo mexicano tenía una posibilidad de 1 a 75 de llegar a ser el campeón del torneo. Si se desea encontrar la probabilidad de que el equipo mexicano llegase a ser campeón, entonces se tiene que es la probabilidad de que ocurriese el evento. Esto tiene la ventaja de que permite, en combinación con el tercer axioma de la probabilidad, medir la confiabilidad que tienen las opiniones de las personas sobre las posibilidades que le asignan a algunos eventos. Esto quiere decir que el cálculo de las probabilidades de dos eventos mutuamente excluyentes a partir de las posibilidades otorgadas de manera subjetiva resulta como un criterio de consistencia. Por ejemplo: Un criminólogo piensa que las posibilidades de que en la próxima semana la cantidad de delitos en una ciudad aumente con respecto a la anterior es de 5 a 2, de que sea la misma cantidad de delitos es de 1 a 3 y las posibilidades de que aumente la cantidad o sea la misma es de 7 a 4. Si se desea saber si son consistentes las probabilidades correspondientes habría que hacer los cálculos. Las probabilidades de aumente la cantidad de delitos, sea igual la cantidad de delitos, y de que aumente o sea igual la cantidad de delitos es, respectivamente, de y dado que (como son eventos mutuamente excluyentes) no es 7 lo mismo que /11, entonces los criterios del criminólogo pueden ser cuestionados. Propiedades de la probabilidad de eventos no elementales Cuando se tienen eventos elementales no existe mucho problema en el sentido del cálculo de las probabilidades, pues basta con una contabilización o el uso directo del cálculo combinatorio. Pero en el caso de eventos no elementales, que son los compuestos por más de un evento elemental, el proceder de manera análoga resulta muy complejo y las operaciones pueden sobrepasar la capacidad de cálculo existente. Sin embargo, utilizando los axiomas de la probabilidad y las siguientes propiedades, se podrán expresar las probabilidades de estos eventos en términos de los eventos elementales que lo componen, siempre y cuando se conozcan las probabilidades de éstos. Veamos la probabilidad de una unión de eventos, la cual la podremos calcular de la siguiente manera: Propiedad 1. Si A y B son dos eventos, la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B, menos la probabilidad de que ocurran A y B simultáneamente. Es decir, P(A B) = P(A) + P(B) - P(A B) Ahora, si el caso es que los eventos sean mutuamente excluyentes se tiene: Propiedad 2. Si dos eventos, A y B, son mutuamente excluyentes entonces la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B. Es decir P(A B) = P(A) + P(B) Otra propiedad que se deriva de las anteriores es cuando se busca la probabilidad del complemento de un evento E, que denotaremos como ~E: Propiedad 3. Si E es un evento y ~E su complemento, entonces P(~E) = 1 - P(E) Retomando los conceptos de eventos dependientes o condicionales, se va a definir la probabilidad condicional como sigue: Propiedad 4. La probabilidad de que ocurra un evento A dado que ocurrió el evento B (el evento A depende del evento B), denotado P(A|B), es: Hay que notar que esta propiedad no es conmutativa, situación que sí ocurre con la probabilidad de unión o la intersección de eventos, por lo que no hay que confundir P(A|B) y P(B|A). Finalmente, el criterio para la independencia de eventos queda como sigue: Propiedad 5. Dos eventos A y B son independientes si y sólo si P(A|B) = P(A) y P(B|A) = P(B) o, que es lo mismo: P(A B) = P(A) · P(B) 1.10 Teorema de bayes Teorema de Bayes Si los sucesos Ai son una partición Demostración Aplicaciones Diagnóstico médico (en general clasificaciones no biunívocas): El diagnóstico consiste en establecer la enfermedad de un paciente, a partir de una serie de síntomas. Pero los síntomas y las enfermedades no están ligados de un modo biunívoco. Llamemos Ei al conjunto de enfermedades E1: tuberculosis pulmonar; E2 :cáncer de pulmón; E3: bronquitis obstructiva; etc. y Si a los síntomas y síndromes asociados con las mismas. S1: tos; S2: estado febril; S3: hemotisis; etc. La información accesible en los libros de patología, o en un archivo de historias clínicas es del tipo. Para E1: algunos (digamos el 20%) tienen hemotisis; muchos (80%) tienen tos; etc. y lo mismo para las demás enfermedades. En términos de probabilidad condicionada, esta información es p(S3|E1) = 0,2; p(S1|E1) = 0,8 etc. para diagnosticar la tuberculosis se ha de evaluar, para los síntomas que presenta el paciente p(E1|Si) para lo que se puede usar el teorema de Bayes si las enfermedades forman una partición (son mutuamente excluyentes y se consideran todas las enfermedades compatibles con el síntoma) y se conocen sus prevalencias. Nótese que un mismo conjunto de síntomas podría dar lugar a un diagnóstico diferente en poblaciones en las que las prevalencias fueran diferentes. Pruebas diagnósticas: Supóngase una prueba diagnóstica, por ejemplo nivel de glucosa en sangre, en ayunas, para diagnosticar la diabetes. Se considera que la prueba es positiva si se encuentra un nivel por encima de un cierto valor, digamos 120 mg/l. Para evaluar la prueba, (habrá que hacerlo para distintos valores de corte) se somete a la misma a una serie de individuos diabéticos diagnosticados por otro procedimiento (el patrón de oro o "gold standar") y a una serie de individuos no diabéticos. Los resultados se pueden representar en una tabla de doble entrada Patrón de oro NE E - a b r + c d s t u Prueba Si la prueba fuera perfecta b=c=0, desgraciadamente nunca ocurre. Se denomina coeficiente falso-positivo (CFP) al cociente c/t, y es una estimación de la probabilidad condicionada p(+|NE), se denomina coeficiente falso-negativo (CFN) al cociente b/u, y es una estimación de la probabilidad condicionada p(-|E). Estos dos coeficientes cuantifican los dos errores que la prueba puede cometer y caracterizan a la misma. Simétricamente, los coeficientes que cuantifican los aciertos son la sensibilidad, p(+|E), y la especificidad p(-|NE). Cuando la prueba se usa con fines diagnósticos (o de "screening") interesa calcular p(E|+) y/o p(NE|-). Como E y NE son una partición, usando el Teorema de Bayes y Nótese que ambas dependen de la prevalencia de la enfermedad: una prueba diagnóstica que funciona muy bien en la clínica Mayo, puede ser inútil en el Hospital Ramón y Cajal. Ejemplo 9: una prueba diagnóstica para la diabetes tiene un CFP de 4% y un CFN del 5%. Si la prevalencia de la diabetes en la población donde se usa es del 7% ¿cuál es la probabilidad de que sea diabético un individuo en el que la prueba dé positiva? y ¿de que no lo sea uno en el que dé negativo? p(+|NE) p(- = 0,04 -|NE) = 0,96 y Pruebas en serie: Cuando se aplican pruebas en serie, para cada prueba p(E) y p(NE), serán la p(E|+) y p(NE|+) de la prueba anterior (si dio positiva) o p(E|-) y p(NE|-) si dio negativa. Teorema de Bayes. En el año 1763, dos años después de la muerte de Thomas Bayes (1702-1761), se publicó una memoria en la que aparece, por vez primera, la determinación de la probabilidad de las causas a partir de los efectos que han podido ser observados. El cálculo de dichas probabilidades recibe el nombre de teorema de Bayes. Sea A1, A2, ...,An un sistema completo de sucesos, tales que la probabilidad de cada uno de ellos es distinta de cero, y sea B un suceso cualquier del que se conocen las probabilidades condicionales P(B/Ai). entonces la probabilidad P(Ai/B) viene dada por la expresión: En los problemas relacionados con la probabilidad, y en particular con la probabilidad condicionada, así como con la probabilidad total y el teorema de Bayes, es aconsejable que, con la información del problema, construyas una tabla de contingencia o un diagrama de árbol. El teorema de Bayes parte de una situación en la que es posible conocer las probabilidades de que ocurran una serie de sucesos Ai. A esta se añade un suceso B cuya ocurrencia proporciona cierta información, porque las probabilidades de ocurrencia de B son distintas según el suceso Ai que haya ocurrido. Conociendo que ha ocurrido el suceso B, la fórmula del teorema de Bayes nos indica como modifica esta información las probabilidades de los sucesos Ai. Ejemplo: Si seleccionamos una persona al azar, la probabilidad de que sea diabética es 0,03. Obviamente la probabilidad de que no lo sea es 0,97. Si no disponemos de información adicional nada más podemos decir, pero supongamos que al realizar un análisis de sangre los niveles de glucosa son superiores a 1.000 mg/l, lo que ocurre en el 95% de los diabéticos y sólo en un 2% de las personas sanas. ¿Cuál será ahora la probabilidad de que esa persona sea diabética? La respuesta que nos dá el teorema de bayes es que esa información adicional hace que la probabilidad sea ahora 0,595. Vemos así que la información proporcionada por el análisis de sangre hace pasar, la probabilidad inicial de padecer diabetes de 0,03, a 0,595. Evidentemente si la prueba del análisis de sangre hubiese sido negativa, esta información modificaría las probabilidades en sentido contrario. En este caso la probabilidad de padecer diabetes se reduciría a 0,0016. Es una consecuencia del teorema de las probabilidades totales. Sea el conjunto total Ω formado por una partición (colección de sucesos con intersección vacía dos a dos). Ahora el interés se centrará en la obtención de la probabilidad de cualquier suceso de la partición condicionada a un suceso A cualquiera. El resultado será : que es conocido como teorema o regla de Bayes. Unidad II. Variables aleatorias y distribuciones 2.1 variable aleatoria y funciones de distribución FUNCION DE DISTRIBUCION Definición: Dado un espacio de probabilidad oe , y una variable aleatoria X definida sobre él, la función de distribución de X, que será denotada por FX, está definida por para cada número real a. Ejemplo: Sean las funciones X, Y, Z definidas sobre el campo de probabilidad asociado al experimento aleatorio que se considere: 1) Sea X el número de mujeres en una comisión conformada por tres personas, seleccionadas al azar de un grupo de 5 personas, entre las cuales hay dos mujeres. 2) Sea Y el número de caras obtenidas al tirar dos veces sucesivas una moneda. 3) Sea Z el número de una ficha que se seleccione al azar de un grupo de tres fichas numeradas 0,1, 2. Sean las variables X, Y, Z de acuerdo a la definición de función de distribución, que a) Si a < 0 no hay eventos elementales que por X se apliquen sobre números negativos con lo cual es b) Si 0 £ a < 1, entonces tenemos en [ X £ a ] todas las comisiones de tres personas entre las cuales haya cero mujeres, con probabilidad 1/10, ésto es FX (a) = 1/10 para 0 £ a < 1 c) Si 1 £ a < 2, entonces tenemos que considerar todas las comisiones con una o ninguna mujer, las cuales se dan con probabilidad 7/10, es decir FX (a) = 7/10 para 1 £ a < 2 d) Siendo a un número real cualquiera puede, finalmente, satisfacer la desigualdad a £ 2 y entonces debemos considerar comisiones conformadas por cualquier número de mujeres en el experimento en cuestión, obteniéndose FX (a) = 1 para a £ 2 Resumiendo los resultados obtenidos, tenemos que la función de distribución de X está dada por En forma similar tendremos para las variables aleatorias Y, Z Las funciones de distribución de nuestras variables aleatorias X, Y, Z, las determinan completamente pues describen su comportamiento, con relación a sus valores, en términos de probabilidad y, en este ejemplo comprobamos que a pesar de tener el mismo recorrido, el comportamiento de estas variables es diferente. Sin embargo, puede ocurrir que dos o más variables aleatorias diferentes tengan no sólo el mismo recorrido, sino también la misma función de distribución. 2.2 Valor esperado y momentos Valor esperado o esperanza matemática Sea X una v.a. discreta. Se denomina esperanza matemática de X o valor esperado, y se denota bien donde o bien , a la cantidad que se expresa como: es el conjunto numerable de índices de los valores que puede tomar la variable (por ejemplo para un número finito de valores de la v.a. o bien para una cantidad infinita numerable de los mismos. Si X es una v.a. continua, se define su esperanza a partir de la función de densidad como sigue: Observación Recordamos que si y por tanto tiene sentido calcular su esperanza matemática: Por las analogías existente entre la definición de media aritmética y esperanza matemática, las propiedades de linealidad de la primera se trasladan a la segunda, como es inmediato comprobar: 2.3 Distribuciones discretas Propiedades de la Función de Distribución La función de distribución de una variable aleatoria además de estar bien definida, pues está definida en términos de la función probabilidad la cual es una función definida axiomáticamente, tiene las propiedades que se dan a través de los siguientes teoremas. Teorema: La función de distribución es no decreciente. Teorema: Para toda función de distribución FX se cumple Teorema: Toda función de distribución es continua por la derecha. Teorema: Toda función de distribución es continua por la derecha. Ejemplo: Para la función h (x) definida por se tiene a) h (x) toma valores sobre una recta con pendiente ½ o toma valores sobre el eje x, o sobre una recta paralela al eje x, por lo que podemos afirmar que es una función no decreciente. b) c) y dado que para se tiene lo que implica d) En cada punto, interior a un intervalo de definición, h(x) toma valores sobre una recta, es decir es una función lineal y, por lo tanto, es contínua. En los puntos "críticos" se tiene, considerando un número k > 0 que de lo que podemos afirmar que h (x) no sólo es continua por la derecha, sino que es continua en cada punto real. Como h (x) satisface las condiciones de una función de distribución, ella es una función de distribución y podría ser asignada como tal a cualquier variable aleatoria X cuyo recorrido sea el intervalo . Como consecuencia de su definición y de sus propiedades, para la función de distribución FX se satisfacen además las propiedades establecidas en el siguiente teorema. Teorema: Dada una variable aleatoria X con función de distribución FX, entonces a) para todo par de números reales a < b. b) Para todo número real a es donde Ejemplo: Si consideramos la variable aleatoria X del 3.8, para la cual es vemos que FX es continua en todo punto real que no pertenezca al conjunto {0, 1, 2}, por lo que será para todo a real tal que Además es puesto que si Î > 0 entonces FX (- Î ) = 0. Por otro lado, si Î > 0 entonces es 1 - Î < 1, 2 - Î < 2, con lo cual se obtiene Si lo que nos interesa es que la variable aleatoria X tome valores en un cierto intervalo, entonces se tiene, por ejemplo 2.4 Variables aleatorias y distribuciones continuas Distribución de Probabilidad de una Variable Aleatoria Consideremos las variables aleatorias X y Y definidas de la manera siguiente X = Número de puntos obtenidos al tirar un dado correcto. Y = Distancia al origen de un punto elegido al azar sobre el segmento [0,1]. cuyas funciones de distribución están dadas por : Observamos que mientras el recorrido de X está constituido por un conjunto finito, el recorrido de Y es un conjunto infinito no numerable y, que la función de distribución de X tiene saltos, lo que no ocurre para la función de distribución de Y. Luego, podemos afirmar que la naturaleza de estas dos variable aleatorias es diferente. Estas dos variables aleatorias constituyen ejemplos de dos de las categorías de variables aleatorias, las cuales se determinan, como veremos, tomando en cuenta su recorrido y/o su función de distribución. De acuerdo a ésto, las variables aleatorias se clasifican en Discretas, Absolutamente Continuas y Mixtas. Consideraremos en primer lugar las discretas. 2.5 Variables Aleatorias Discretas Definición: Una variable aleatoria X se dice discreta si su recorrido es un conjunto contable (finito o infinito numerable) de números reales. Esta definición implica que los posibles valores de X, su recorrido RX, pueden ser listados como x1, x2,...., xn, ..... donde sin pérdida de generalidad, podemos suponer una ordenación como x1, < x2 < .... < xn < xn+1 < .... Además, considerando los eventos de la forma [X = xn] se tiene que se cumple y donde la unión se extiende para todos los valores de n. En consecuencia se cumple y para cualquier número real a Por otro lado, por las propiedades de la función de distribución se tiene en este caso En conclusión, se tiene que si X es una variable aleatoria discreta con función de distribución FX, existe otra función px a la cual se le denomina Función de Cuantía o Función de Densidad Discreta de X, definida por para lo cual se cumplen las siguientes condiciones 1) R 2) 3) Las dos primeras condiciones deben ser satisfechas por cualquier función real valorada, cuyo dominio sea un conjunto contable de números reales para ser una función de cuantía, mientras que la satisfacción de las tres condiciones determina la función de cuantía de una variable aleatoria X específica. El conjunto de pares de la forma (xn, px (xn)) recibe el nombre de Distribución de Probabilidad de la Variable Aleatoria Discreta X, y contiene toda la información necesaria para estudiar a esta variable aleatoria. Ejemplo: Un fabricante de motores sabe que en un lote de 10 motores, hay 2 motores defectuosos. Cada motor le cuesta 7,500 nuevos soles y lo puede vender en 10,000 nuevos soles. Al ofrecer el lote a una tienda le dicen que lo someterán a una prueba que consistirá en seleccionar, al azar, dos motores y probar su funcionamiento. Si no se obtienen motores defectuosos le compran el lote. En caso contrario, se lo rechazan. Si X es la ganancia neta que deja el lote al fabricante, se tendrá que X = 10 (10,000 - 7,500) = 25,000 si se vende el lote, y X = 10 (0 - 7,500) = - 75,000 si le rechazan el loteç luego X es variable aleatoria discreta con y con dominio donde d y significa motor defectuoso y motor no defectuoso, respectivamente. La función de cuantía de X está dada por puesto que no vende si se encuentra por lo menos un motor defectuoso, que es el evento contrario de no encontrar defectuosos. Con los resultados obtenidos, la distribución de probabilidad de X se presenta en la siguiente tabla. X - 75,000 25,000 PX La definición de una variable aleatoria absolutamente continua, las propiedades de la función de distribución de algunas propiedades del análisis, llevan a los siguientes resultados: 1) fx es no negativa. Condición necesaria para que FX sea una función no decreciente. 2) Resultado que deriva del hecho de que sea de la integral impropia. y de la definición 3) FX (x) es continua en todo X real y si f x es continua en x0, entonces FX es derivable en x0 y se cumple Resultado justificado por el Teorema Fundamental del Cálculo Integral, que dice "si una función real valorada h es integrable en el sentido de Riemann sobre el intervalo [a, b], entonces la función para todo x [a, b] es continua sobre [a, b] y si h es continua en x0 entonces H(x) es derivable en x0 y se cumple 4) P[x = a] = 0 para cualquier número real a. Como sabemos, en general, se cumple y, como la continuidad de FX implica la igualdad de FX (a) y el límite considerado en esta expresión, se tiene entonces que una variable aleatoria absolutamente continua toma cada uno de los valores reales, aún los de su recorrido, con probabilidad cero. Teniendo en cuenta el axioma de aditividad de la función probabilidad, se sigue que la probabilidad asignada a un conjunto contable de puntos en RX es nula. 5) Si a y b son dos números reales tales que a < b, entonces independientemente de si se incluye o no a la igualdad en los extremos. Este resultado se sigue de la consideración de la propiedad de F X que establece y del resultado 4 anterior. Geométricamente este resultado se interpreta de la siguiente manera: La probabilidad de que una variable aleatoria absolutamente continua tome valores en el intervalo de extremos a, b, abierto o cerrado, es el área bajo la curva de fX comprendida entre las rectas x= a y x = b. Observaciones 1) La función fX no es en sí una probabilidad, pero sí es la densidad de probabilidad en cada punto y para un intervalo infinitesimal de amplitud dx se tiene 2) Los resultados 1 y 2 constituyen condición necesaria y suficiente para que una función real valorada cualquiera sea una función de densidad de probabilidad. 3) Una variable aleatoria X es, entonces, absolutamente continua si su función de distribución es continua y derivable con primera derivada continua en todo punto del eje real, salvo un conjunto a lo más infinito numerable de puntos. Esta primera derivada es la función de densidad de probabilidad de X. 4) De la observación anterior se sigue que la función de densidad de probabilidad fX puede ser discontinua en algunos puntos y, eventualmente, podría hacerse infinita en algún punto. Dado la validez del resultado 2, se tiene que: - Si RX es un intervalo de longitud infinita, f X tiende a cero cuando x crece y definidamente sobre RX. - Si fX (x0) es infinita, la integral tiende a cero cuando a y b tienden independientemente a cero. Ejemplo: Dada la variable aleatoria X cuya función de distribución está dada por se quiere saber si X tiene una distribución absolutamente continua. En primer lugar debemos estudiar la continuidad de FX, para lo cual bastará con estudiar los puntos donde FX cambia su expresión funcional, pues en los intervalos comprendidos entre dos de estos puntos la función es lineal y, por ende, continua en cada punto. Así tenemos que de donde podemos afirmar que FX tiene un punto de discontinuidad en a = 2 y ésto es suficiente para afirmar que X no es una variable aleatoria absolutamente continua. 2.6 Distribuciones especiales de probabilidad para una variable aleatoria continua: Distribución uniforme, exponencial, normal y normal estandar Variables Aleatorias Mixtas Definición: Una variable aleatoria X es mixta si su función de distribución es de la forma donde F1 es la función de distribución de una variable aleatoria discreta y F 2 es la función de distribución de una variable aleatoria absolutamente continua y es un número comprendido entre 0 y 1. Si R1 es el recorrido para la variable aleatoria con F1 y R2 es el recorrido para la variable aleatoria correspondiente a F2, entonces se tiene RX = R1 R2, y como la probabilidad de cada uno de los puntos de R 2 es nula, se tiene: Como ilustraremos a continuación, en el ejemplo tenemos un caso de variable mixta. Ejemplo: Para la variable aleatoria X cuya función de distribución es se cumple para todo número real a, si se define Como ya sabemos, la función de distribución de una variable aleatoria cualquiera, contiene toda la información con respecto a la variable aleatoria y, por lo tanto, las variables aleatorias mixtas serán estudiadas en términos de su función de distribución. Sin embargo, es muy útil expresar a ésta, como una combinación lineal convexa de una función de distribución discreta y una función de distribución absolutamente continua. Unidad 3 Estadística descriptiva y Teoría de muestreo 3.1 Distribuciones de frecuencia, de frecuencia relativa y frecuencia acumulada Distribución de Frecuencias Cuando la información que se tiene es un gran volumen, resulta muy conveniente ordenar y agrupar los datos para manejarlos de acuerdo a la distribución de frecuencias la cual consiste en agrupar los datos en clases o categorías que estarán definidas por un límite mínimo y uno máximo de variación, mostrando en cada clase el número de elementos que contiene o sea la frecuencia. Otra forma común para estudiar la disposición espacial de los individuos de una población consiste en comparar la distribución de frecuencias observadas en un muestreo basado en cuadrículas, con las frecuencias esperadas dada una distribución teórica (e.g. la de Poisson). Las frecuencias están referidas al número de oportunidades en las cuales se obtiene un número determinado de individuos en una cuadrícula. Si en un estudio observamos los siguientes resultados: 454671522443 donde cada número representa el número de individuos contados en una cuadrícula, tendremos que la frecuencia con la cual se obtiene 1 individuo es 1/12 (siendo n = 12 el total de cuadrículas), la frecuencia de 2 individuos es 2/12, la de 3 = 1/12, la de 4 = 4/12, la de 5 = 2/12, la de 6 = 1/12, la de 7 = 1/12, mientras que la de 8 individuos en adelante es 0/12. Una frecuencia es así una proporción con la cual ocurre un determinado evento. El conjunto de estas proporciones permite gráficamente formar una distribución de frecuencias. La distribución de las frecuencias obtenidas anteriormente se observa en la siguiente figura: Para analizar si los individuos de la población bajo estudio se distribuyen de acuerdo a un determinado patrón hipotético, se estima un valor conocido como la bondad del ajuste de la distribución observada a la distribución teórica. La bondad de un ajuste está referida a cuán próximas se encuentran las dos distribuciones a ser comparadas, entendiendo como proximidad las diferencias numéricas existentes en cada uno de los eventos posibles (eje X de la figura anterior). Cuanto mayor sea la suma de estas diferencias, menor será la bondad del ajuste. El estadístico de prueba más corrientemente empleado para estimar la bondad de un ajuste es: 2 (chi- cuadrada), con (n - número de parámetros obtenidos de los datos) grados de libertad, con n = número de eventos (clases de frecuencia). Si este estadístico es mayor que el valor tabulado un nivel de igual a la distribución teórica. ¿Cómo se utiliza este procedimiento para estimar la disposición espacial de un conjunto de individuos? Partiendo del hecho de que tenemos un conjunto de cuentas de ocurrencias en n cuadrículas, el trabajo consiste en hallar las distribuciones teóricas que mejor parezcan corresponder a nuestros datos. Luego, se estudia la bondad del ajuste de los valores predichos por tales distribuciones a los observados, y la que mejor se ajuste (aquella que resulte en un mínimo de diferencias no significativas) es la que mejor representa la disposición espacial de la población (Fig. 3). Figura 3: Representación gráfica de la distribución de frecuencias del ejemplo al ser comparada con una distribución de Poisson para verificar la bondad del ajuste. El resultado de aplicar este procedimiento es la obtención de un modelo que explica la disposición espacial de los individuos de la población. El mejor modelo, como hemos insistido, es aquel que representa la ubicación exacta de cada individuo sobre el espacio (deja de ser un modelo para convertirse en un mapa). Sin embargo, la obtención del mismo tiene inconvenientes metodológicos importantes en la mayoría de los casos. De esta manera, la bondad de ajuste consiste en explorar un universo de infinitas posibles distribuciones estadísticas para encontrar la que mejor se adapta a los resultados. ¿Cómo llevar a cabo esta búsqueda? En la aplicación tradicional de las técnicas para el estudio de la disposición espacial, la búsqueda no es demasiado intensiva, y comprende generalmente sólo dos distribuciones teóricas: la Poisson y la binomial negativa. La primera, como hemos visto, representa un conjunto de frecuencias de eventos que ocurren al azar, mientras que la segunda es representativa de un patrón de disposición espacial agregado. Las disposiciones uniformes son tan frecuentes en la literatura como en la naturaleza, habiendo recibido muy poca atención. De esta manera, un procedimiento conveniente al ajustar distribuciones a datos consiste en: (1) probar si las observaciones se desvían significativamente de un patrón aleatorio, mediante cualquiera de las técnicas vistas hasta el momento, y (2) en caso negativo, ajustar la distribución de frecuencias observadas a una distribución binomial negativa. Veamos, paso a paso: 1. Ajuste de datos a una distribución de Poisson: Consideremos los siguientes datos, tomados de Krebs (1989): 0;0;0;0;0;0;1;1;1;1;1;1;1;1;2;2;2;2;2;2;2;2;2;3;3;3;3;3;3;4;4;4;4;4;4;5;5;7;7;7;8;9;9;9;9 En el conjunto, n = 50, y la media muestral = 3,46. La siguiente tabla muestra las frecuencias observadas para cada evento. La división de cada frecuencia entre n resulta en las frecuencias relativas de cada uno de los eventos, sobre el total. Número de individuos en una cuadrícula, x Número de cuadrículas con x individuos 0 6 1 8 2 9 3 6 4 6 5 2 6 5 7 3 8 1 9 4 Aplicando la ecuación de Poisson (ver página anterior), podemos calcular las frecuencias esperadas: P0 = proporción de cuadrículas con 0 individuos (equivalente a la probabilidad de que una cuadrícula tenga 0 individuos) = e-3,46(3,460/0!)=0,0314 P1 = proporción de cuadrículas con 1 individuo = e-3,46(3,461/1!)=0,1087 P2 = e-3,46(3,462/2!)=0,1881 P3 = e-3,46(3,463/3!)=0,2170 P4 = e-3,46(3,464/4!)=0,1877 P5 = 0,1299 P6 = 0,0749 P7 = 0,0370 P8 = 0,0160 P9 = 0,0062 Para obtener las frecuencias esperadas según la distribución de Poisson, sólo hace falta multiplicar cada proporción por el número total de cuadrículas muestreadas, n=50. La siguiente tabla muestra los cálculos de frecuencias observadas, 2para cada x. x Frec. Obs. Frec. Esp. (Frec. Obs. - Frec. Esp.)2 Frec. Esp. 0 6 1,57 12,50 1 8 5,44 1,20 2 9 9,41 0,019 3 6 10,85 2,18 4 6 9,39 1,22 5 2 6,50 3,12 6 5 3,75 0,42 7 3 1,85 0,72 8 1 0,80 0,050 9 4 0,31 43,92 >9 0 0,155 0,155 En este punto, cabe hacer mención de dos consideraciones adicionales. En primer lugar, puede notarse que fue añadida una clase de frecuencia adicional, para el caso en el que el número de cuentas en cuadrículas es mayor que 9. Esto se debe a que las frecuencias esperadas deben sumar 1, en forma de proporciones, o 50, el número total de cuadrículas. La frecuencia esperada en este caso fue calculada restando las frecuencias restantes a la unidad, resultando en 0,0031. La otra consideración es que suele recomendarse para la prueba chi-cuadrada que el número de cuentas en una clase no sea inferior a 3 (o a 5, según el autor). Aunque en este espacio se han incluido las frecuencias tal y como fueron obtenidas para fines ilustrativos, es preferible en la práctica que las clases de frecuencia sean agrupadas con el fin de que se cumpla esta regla. Se han desarrollado pruebas más potentes que la chi- cuadrada para resolver este problema, las cuales pueden ser consultadas por el lector en la literatura disponible. El número de grados de libertad para esta prueba es -2=9, ya que sólo se hipótesis nula de que la población se dispone espacialmente según una Poisson. Dado que la varianza de los datos es 7,356 y la media 3,46, el cociente entre estas dos variables (2,13) indica que la población presenta algún grado de agregación. Por lo tanto pasamos a evaluar el ajuste de los datos a una distribución binomial negativa. 2. Ajuste de datos a una distribución binomial negativa: La binomial negativa (Fig. 4) es la distribución estadística de uso más generalizado para el modelaje de poblaciones agregadas, llegándose incluso en ocasiones a tratar a ambas distribuciones (espacial y estadística) como sinónimos. Al igual que la de Poisson, la binomial negativa es una distribución de frecuencias discretas, siendo su forma matemática: donde Px la probabilidad de observar una cuadrícula con x individuos, Figura 4: Representación gráfica de la distribución de frecuencias de una La binomial negativa está determinada por dos parámetros, k y p, relacionados a la agregación, considerándose que mientras menor su valor, mayor la agregación. De esta manera, el enfoque tradicional plantea que ajustar una distribución binomial a un patrón de disposición espacial consiste en encontrar un valor de k que, dada una media muestral, permita modelar cualquier patrón de agregación como una de las infinitas formas de la binomial negativa. Para facilitar los cálculos de frecuencias esperadas según la binomial negativa, se tiene la siguiente serie de fórmulas: Para la estimación de k, se emplean ciertas reglas que el lector puede consultar en la bibliografía recomendada. Los procedimientos varían según el número de cuadrículas con ningún individuo y la media muestral, y en muchos casos están basados en procedimientos iterativos por ensayo y error, partiendo de un k 2/k): aproximado, obtenido a partir de la varianza de la distribución: 2 Para el ejemplo que venimos desarrollando, esta primera aproximación de k es 3,07, la cual se transforma en 2,65 tras la aplicación de uno de los procedimientos de ensayo y error disponibles. La utilización de este valor de k en las fórmulas para el cálculo de las frecuencias esperadas origina los resultados presentados en la tabla a continuación: x Frec. Obs. Frec. Esp. (Frec. Obs. - Frec. Esp.)2 Frec. Esp. 0 6 5,47 0,051 1 8 8,20 0,0049 2 9 8,47 0,033 3 6 7,44 0,28 4 6 5,95 0,00042 5 2 4,48 1,37 6 5 3,23 0,97 7 3 2,26 0,24 8 1 1,54 0,19 9 4 1,04 8,42 >9 0 1,91 1,91 Los grados de libertad para la prueba chi-cuadrada son, al igual que en el caso anterior igual al número de clases de frecuencia utilizadas menos el número de parámetros estimados a partir de los datos. En este caso se estimaron tres parámetros, correspondientes a la media, el número de muestras y k. Por lo tanto, buscamos el valor crítico para la distribución con 8 grados de libertad, para un valor distribuye según una binomial negativa. Empleando la relación convencional entre distribuciones, concluimos que el patrón de disposición es agregado. 3.2 Medidas de tendencia central: media, mediana, moda, promedio (ponderado, móvil) media geométrica, armónica, cuantiles (cuartiles, deciles y percentiles) Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que junto a una medida que indique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a la variabilidad que refleje dicha fluctuación. En este sentido pueden examinarse varias características, siendo las más comunes: La tendencia central de los datos; La dispersión o variación con respecto a este centro; Los datos que ocupan ciertas posiciones. La simetría de los datos. La forma en la que los datos se agrupan. Figura: Medidas representativas de un conjunto de datos estadísticos A lo largo de este capítulo, estadísticos que nos van a información: valores alrededor menor fluctuación alrededor de y siguiendo este orden, iremos estudiando los orientar sobre cada uno de estos niveles de de los cuales se agrupa la muestra, la mayor o esos valores, nos interesaremos en ciertos valores que marcan posiciones características de una distribución de frecuencias así como su simetría y su forma. 1.4.1 MEDIA, MEDIA PONDERADA La media aritmética de una variable estadística es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es X ni fi x1 n1 f1 ... ... ... xk nk fk la media es el valor que podemos escribir de las siguientes formas equivalentes: Si los datos no están ordenados en una tabla, entonces La media tiene las siguientes características: Es el centro de gravedad de la distribución y es única para cada distribución. Cuando aparecen valores extremos y poco significativos (demasiado grandes o demasiado pequeños), la media puede dejar de ser representativa. No tiene sentido en el caso de una variable cualitativa ni cuando existen datos agrupados con algún intervalo no acotado. Para variables agrupadas, los xi serán las marcas declase de cada intervalo. Además, la media cumple las siguientes propiedades: Si se suma una constante a todos los valores, la media aumenta en dicha constante. Si se multiplican todos los valores de la variable por una constante, la media queda multiplicada por dicha constante. Observación Hemos supuesto implícitamente en la definición de media que tratábamos con una variable X discreta. Si la variable es continua tendremos que cambiar los valores de xi por las marcas de clase correspondientes. En general, la media aritmética obtenida a partir de las marcas de clase ci, diferirá de la media obtenida con los valores reales, xi. Es decir, habrá una perdida de precisión que será tanto mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las longitudes ai, de los intervalos. Proposición La suma de las diferencias de la variable con respecto a la media es nula, es decir, Demostración Basta desarrollar la sumatoria para obtener Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable, por ejemplo x1, mediante el valor central , es compensado por los demás errores: Si los errores se consideran con signo positivo, en este caso no pueden compensarse. Esto ocurre si tomamos como medida de error alguna de las siguientes: que son cantidades estrictamente positivas si algún . Ejemplo Obtener las desviaciones con respecto a la media en la siguiente distribución y comprobar que su suma es cero. li-1 - li ni 0 - 10 1 10 - 20 2 20 - 30 4 30 - 40 3 Solución: li-1 - li ni xi xi ni 0 - 10 1 5 5 -19 -19 10 - 20 2 15 30 -9 -18 20 - 30 4 25 100 +1 +4 30 - 40 3 35 105 +11 +33 n=10 La media aritmética es: Como se puede comprobar sumando los elementos de la última columna, Medias generalizadas En función del tipo de problema varias generalizaciones de la media pueden ser consideradas. He aquí algunas de ellas aplicadas a unas observaciones x1, ..., xn: La media geométrica , es la media de los logaritmos de los valores de la variable: Luego Si los datos están agrupados en una tabla, entonces se tiene: La media armónica , se define como el recíproco de la media aritmética de los recíprocos, es decir, Por tanto, La media cuadrática , es la raíz cuadrada de la media aritmética de los cuadrados: MEDIANA Consideramos una variable discreta X cuyas observaciones en una tabla estadística han sido ordenadas de menor a mayor. Llamaremos mediana, Medal primer valor de la variable que deja por debajo de sí al de las observaciones. Por tanto, si n es el número de observaciones, la mediana corresponderá a la observación [n/2]+1, donde representamos por la parte entera de un número. Figura: Cálculo geométrico de la mediana En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la fórmula de la mediana se complica un poco más (pero no demasiado): Sea (li-1,li] el intervalo donde hemos encontrado que por debajo están el de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolación lineal (teorema de Thales). Observación La relación Corresponde a definir para cada posible observación, , su frecuencia relativa acumulada, F(x), por interpolación lineal entre los valores F(lj-1) = Fj-1 y F(lj) = Fj de forma que De este modo, Med es el punto donde . Esto equivale a decir que la mediana divide al histograma en dos partes de áreas iguales a . Observación Entre las propiedades de la mediana, vamos a destacar las siguientes: Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas. Es de cálculo rápido y de interpretación sencilla. A diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos (ej. La mediana de una variable número de hijos toma siempre valores enteros). Si una población está formada por 2 subpoblaciones de medianas Med1 y Med2, sólo se puede afirmar que la mediana, Med, de la población está comprendida entre Med1 y Med2 El mayor defecto de la mediana es que tiene unas propiedades matemáticas complicadas, lo que hace que sea muy difícil de utilizar en inferencia estadística. Es función de los intervalos escogidos. Puede ser calculada aunque el intervalo inferior o el superior no tenga límites. La suma de las diferencias de los valores absolutos de n puntuaciones respecto a su mediana es menor o igual que cualquier otro valor. Este es el equivalente al teorema de König (proposición 2.1) con respecto a la media, pero donde se considera como medida de dispersión a: Ejemplo Sea X una variable discreta que ha presentado sobre una muestra las modalidades Si cambiamos la última observación por otra anormalmente grande, esto no afecta a la mediana, pero si a la media: En este caso la media no es un posible valor de la variable (discreta), y se ha visto muy afectada por la observación extrema. Este no ha sido el caso para la mediana. Ejemplo Obtener la media aritmética y la mediana en la distribución adjunta. Determinar gráficamente cuál de los dos promedios es más significativo. li-1 - li ni 0 - 10 60 10 - 20 80 20 - 30 30 30 - 100 20 100 - 500 10 Solución: li-1 - li ni ai xi xi ni Ni 0 - 10 60 10 5 300 60 10 - 20 80 10 15 1.200 140 80 20 - 30 30 10 25 750 170 30 30 - 100 20 70 65 1.300 190 2,9 100 - 500 10 n=200 La media aritmética es: 400 300 3.000 60 200 0,25 La primera frecuencia absoluta acumulada que supera el valor n/2=100 es Ni=140. Por ello el intervalo mediano es [10;20). Así: Para ver la representatividad de ambos promedios, realizamos el histograma de la figura 2.3, y observamos que dada la forma de la distribución, la mediana es más representativa que la media. Figura: Para esta distribución de frecuencias es más representativo usar como estadístico de tendencia central la mediana que la media. MODA La moda se suele definir como el valor más frecuente. En el caso de una variable no agrupada, es el valor de la variable que más se repite. En el caso de una variable agrupada por intervalos de igual amplitud se busca el intervalo de mayor frecuencia (intervalo o clase modal) y se aproxima la moda por el valor obtenido al aplicar la fórmula donde: Li-1 es el límite inferior del intervalo modal. ni es la frecuencia absoluta del intervalo modal. ni-1 es la frecuencia absoluta del intervalo anterior al intervalo modal. ni+1 es la frecuencia absoluta del intervalo posterior al intervalo modal. ci es la amplitud del intervalo. La moda cumple que Puede ser que exista más de una moda. En dicho caso, se dice que la distribución es bimodal, trimodal, ..., según el número de valores que presentan la mayor frecuencia absoluta. La moda es menos representativa que la media, a excepción de las distribuciones con datos cualitativos. Si los intervalos no tienen la misma amplitud, se busca el intervalo de mayor densidad de frecuencia (que es el cociente entre la frecuencia absoluta y la amplitud del intervalo: ) y se calcula con la fórmula anterior. Llamaremos moda a cualquier máximo relativo de la distribución de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior. Figura: Cálculo geométrico de la moda En el caso de variables continuas es más correcto hablar de intervalos modales. Una vez que este intervalo, (li-1, li], se ha obtenido, se utiliza la siguiente fórmula para calcular la moda, que está motivada en la figura 2.4: Observación De la moda destacamos las siguientes propiedades: Es muy fácil de calcular. Puede no ser única. Es función de los intervalos elegidos a través de su amplitud, número y límites de los mismos. Aunque el primero o el último de los intervalos no posean extremos inferior o superior respectivamente, la moda puede ser calculada. 3.3 Medidas de dispersión: Rango o amplitud de variación, desviación media, varianza y desviación estandar, momentos y courtosis. Imagina que tenemos 3 conjuntos de personas y nos dicen que en todos los casos, la media del peso es 55. ¿Significa esto que los tres conjuntos de datos son iguales o similares? Conseguimos los datos originales y nos encontramos con que las observaciones son las siguientes: Grupo 1: 55 55 55 55 55 55 55 Grupo 2: 47 51 54 55 56 59 63 Grupo 3: 39 47 53 55 57 63 71 vemos que, aunque la media es la misma, los conjuntos de datos son muy diferentes. Fíjate si hacemos el diagrama de tallo y hojas lo que obtenemos 5 5 5 9 5 6 5 5 7 5 4 5 5 7 1 3 9 7 1 3 1 3 4 5 6 7 3 4 5 6 7 3 4 5 6 7 Entonces ¿cómo podemos detectar esas diferencias entre los conjuntos de datos? Parece que las medidas de centralización no nos proporcionan información suficiente en muchas situaciones, así que debemos encontrar alguna otra cantidad que nos diga cómo de lejos están los datos entre ellos y de la media, es decir, nos surje la necesidad de medir la dispersión de los datos. Lo primero que vemos es que en el primer caso todos los datos son iguales, en el segundo hay más diferencia entre el mayor y el menor, y en el tercero más aún que en el segundo. Exactamente tenemos que 55-55=0 63-47=16 71-39=32 A esta cantidad la llamamos rango de los datos. Sin embargo, aunque es muy fácil de calcular, no se usa demasiado, porque si hay un sólo valor muy grande o muy pequeño, el rango varía mucho, así que no siempre es una medida útil. ¿Cómo podríamos encontrar un número que nos dé una aproximación de la distancia de los datos a la media? Pues podemos calcular todas las diferencias (en valor absoluto) entre las observaciones y la media y luego calcular la media de esas diferencias. A esta cantidad la llamamos desviación media. Calculemos la desviación media del grupo 2 de datos, tenemos Sin embargo, habitualmente se usa otra medida de la variabilidad, que responde a la media de los cuadrados de las desviaciones de los datos respecto a la media, así conseguimos que las desviaciones mayores influyan más que las pequeñas. Pero vamos a ver la definición rigurosa de todos estos conceptos. RANGO Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más bajo. VARIANZA Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra. La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están. COEFICIENTE DE ASIMETRÍA DE PEARSON Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coincidan. Claramente las distribuciones de los ejemplos de los niveles de colinesterasa y del n° de hijos no son por tanto, simétricas. Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más lentamente por la derecha que por la izquierda. Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda. Existen varias medidas de la asimetría de una distribución de frecuencias. Aquí estudiaremos dos de ellas. a. Coeficiente de Asimetría de Pearson Se define como: siendo cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y negativo cuando existe asimetría a la izquierda. En el ejemplo del número de hijos Ap es igual a indicando una ligera asimetría a la izquierda en la distribución de frecuencias correspondiente. De la misma manera, para el ejemplo de los niveles de colinesterasa también se observa una ligera asimetría a la izquierda, al ser De la definición se observa que este coeficiente solo se podrá utilizar cuando la distribución sea unimodal. La otra medida de asimetría que veremos no presenta este inconveniente 3.4 Muestreo aleatorio: conglomerados simple, sistemático, estratificado, por Introducción al muestreo. a. Concepto e importancia Es la actividad por la cual se toman ciertas muestras de una población de elementos de los cuales vamos a tomar ciertos criterios de decisión, el muestreo es importante porque a través de él podemos hacer análisis de situaciones de una empresa o de algún campo de la sociedad. b. Terminología básica para el muestreo Los nuevos términos, los cuales son frecuentemente usados en inferencia estadística son: Estadístico: Un estadístico es una medida usada para describir alguna característica de una muestra , tal como una media aritmética, una mediana o una desviación estándar de una muestra. Parámetro: Una parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana o una desviación estándar de una población. Cuando los dos nuevos términos de arriba son usados, por ejemplo, el proceso de estimación en inferencia estadística puede ser descrito como le proceso de estimar un parámetro a partir del estadístico correspondiente, tal como usar una media muestral ( un estadístico para estimar la media de la población (un parámetro). Los símbolos usados para representar los estadísticos y los parámetros, en éste y los siguientes capítulos, son resumidos en la tabla siguiente: Tabla Símbolos para Medida Símbolo (muestra) Media Desviación Número Proporción p P 1 estadísticos y parámetros correspondientes para el estadístico Símbolo para el parámetro (Población) X µ estándar s de elementos n N Distribución en el muestreo: Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de la población (N), dos o más muestras pueden ser extraídas de la misma población. Un cierto estadístico puede ser calculado para cada una de las muestras posibles extraídas de la población. Una distribución del estadístico obtenida de las muestras es llamada la distribución en el muestreo del estadístico. Por ejemplo, si la muestra es de tamaño 2 y la población de tamaño 3 (elementos A, B, C), es posible extraer 3 muestras ( AB, BC Y AC) de la población. Podemos calcular la media para cada muestra. Por lo tanto, tenemos 3 medias muéstrales para las 3 muestras. Las 3 medias muéstrales forman una distribución. La distribución de las medias es llamada la distribución de las medias muéstrales, o la distribución en el muestreo de la media. De la misma manera, la distribución de las proporciones (o porcentajes) obtenida de todas las muestras posibles del mismo tamaño, extraídas de una población, es llamada la distribución en el muestreo de la proporción. Error Estándar: La desviación estándar de una distribución, en el muestreo de un estadístico, es frecuentemente llamada el error estándar del estadístico. Por ejemplo, la desviación estándar de las medias de todas la muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la media. De la misma manera, la desviación estándar de las proporciones de todas las muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la proporción. La diferencia entre los términos "desviación estándar" y "error de estándar" es que la primera se refiere a los valores originales, mientras que la última está relacionada con valores calculados. Un estadístico es un valor calculado, obtenido con los elementos incluidos en una muestra. Error muestral o error de muestreo La diferencia entre el resultado obtenido de una muestra (un estadístico) y el resultado el cual deberíamos haber obtenido de la población (el parámetro correspondiente) se llama el error muestral o error de muestreo. Un error de muestreo usualmente ocurre cuando no se lleva a cabo la encuesta completa de la población, sino que se toma una muestra para estimar las características de la población. El error muestral es medido por el error estadístico, en términos de probabilidad, bajo la curva normal. El resultado de la media indica la precisión de la estimación de la población basada en el estudio de la muestra. Mientras más pequeño el error muestras, mayor es la precisión de la estimación. Deberá hacerse notar que los errores cometidos en una encuesta por muestreo, tales como respuestas inconsistentes, incompletas o no determinadas, no son considerados como errores muéstrales. Los errores no muéstrales pueden también ocurrir en una encuesta completa de la población. Métodos de selección de muestras. Una muestra debe ser representativa si va a ser usada para estimar las características de la población. Los métodos para seleccionar una muestra representativa son numerosos, dependiendo del tiempo, dinero y habilidad disponibles para tomar una muestra y la naturaleza de los elementos individuales de la población. Por lo tanto, se requiere una gran volumen para incluir todos los tipos de métodos de muestreo. Los métodos de selección de muestras pueden ser clasificados de acuerdo a: 1. El número de muestras tomadas de una población dada para un estudio y 1. La manera usada en seleccionar los elementos incluidos en la muestra. Los métodos de muestreo basados en los dos tipos de clasificaciones son expuestos en seguida. Métodos de muestreo clasificados de acuerdo con el número de muestras tomadas de una población. Bajo esta clasificación, hay tres tipos comunes de métodos de muestreo. Estos son, muestreo simple, doble y múltiple. Muestreo simple Este tipo de muestreo toma solamente una muestra de una población dada para el propósito de inferencia estadística. Puesto que solamente una muestra es tomada, el tamaño de muestra debe ser los suficientemente grande para extraer una conclusión. Una muestra grande muchas veces cuesta demasiado dinero y tiempo. Muestreo doble Bajo este tipo de muestreo, cuando el resultado dele estudio de la primera muestra no es decisivo, una segunda muestra es extraída de la misma población. Las dos muestras son combinadas para analizar los resultados. Este método permite a una persona principiar con una muestra relativamente pequeña para ahorrar costos y tiempo. Si la primera muestra arroja una resultado definitivo, la segunda muestra puede no necesitarse. Por ejemplo, al probar la calidad de un lote de productos manufacturados, si la primera muestra arroja una calidad muy alta, el lote es aceptado; si arroja una calidad muy pobre, el lote es rechazado. Solamente si la primera muestra arroja una calidad intermedia, será requerirá la segunda muestra. Un plan típico de muestreo doble puede ser obtenido de la Military Standard Sampling Procedures and Tables for Inspection by Attributes, publicada por el Departamento de Defensa y también usado por muchas industrias privadas. Al probar la calidad de un lote consistente de 3,000 unidades manufacturadas, cuando el número de defectos encontrados en la primera muestra de 80 unidades es de 5 o menos, el lote es considerado bueno y es aceptado; si el número de defectos es 9 o más, el lote es considerado pobre y es rechazado; si el número está entre 5 y 9, no puede llegarse a una decisión y una segunda muestra de 80 unidades es extraída del lote. Si el número de defectos en las dos muestras combinadas (incluyendo 80 + 80 = 160 unidades) es 12 o menos, el lote es aceptado si el número combinado es 13 o más, el lote es rechazado. Muestreo múltiple El procedimiento bajo este método es similar al expuesto en el muestreo doble, excepto que el número de muestras sucesivas requerido para llegar a una decisión es más de dos muestras. Métodos de muestreo clasificados de acuerdo con las maneras usadas en seleccionar los elementos de una muestra. Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes: a. Basados en el juicio de una persona. b. Selección aleatoria (al azar) Muestreo de juicio Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal. La persona que selecciona los elementos de la muestra, usualmente es un experto en la medida dada. Una muestra de juicio es llamada una muestra probabilística, puesto que este método está basado en los puntos de vista subjetivos de una persona y la teoría de la probabilidad no puede ser empleada para medir el error de muestreo, Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo. Muestreo Aleatorio Una muestra se dice que es extraída al azar cuando la manera de selección es tal, que cada elemento de la población tiene igual oportunidad de ser seleccionado. Una muestra aleatoria es también llamada una muestra probabilística son generalmente preferidas por los estadísticos porque la selección de las muestras es objetiva y el error muestral puede ser medido en términos de probabilidad bajo la curva normal. Los tipos comunes de muestreo aleatorio son el muestreo aleatorio simple, muestreo sistemático, muestreo estratificado y muestreo de conglomerados. A. Muestreo aleatorio simple Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Para obtener una muestra aleatoria simple, cada elemento en la población tenga la misma probabilidad de ser seleccionado, el plan de muestreo puede no conducir a una muestra aleatoria simple. Por conveniencia, este método pude ser reemplazado por una tabla de números aleatorios. Cuando una población es infinita, es obvio que la tarea de numerar cada elemento de la población es infinita, es obvio que la tarea de numerar cada elemento de la población es imposible. Por lo tanto, ciertas modificaciones del muestreo aleatorio simple son necesarias. Los tipos más comunes de muestreo aleatorio modificado son sistemático, estratificado y de conglomerados. B. Muestreo sistemático. Una muestra sistemática es obtenida cuando los elementos son seleccionados en una manera ordenada. La manera de la selección depende del número de elementos incluidos en la población y el tamaño de la muestra. El número de elementos en la población es, primero, dividido por el número deseado en la muestra. El cociente indicará si cada décimo, cada onceavo, o cada centésimo elemento en la población va a ser seleccionado. El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra sistemática puede dar la misma precisión de estimación acerca de la población, que una muestra aleatoria simple cuando los elementos en la población están ordenados al azar. C. Muestreo Estratificado Para obtener una muestra aleatoria estratificada, primero se divide la población en grupos, llamados estratos, que son más homogéneos que la población como un todo. Los elementos de la muestra son entonces seleccionados al azar o por un método sistemático de cada estrato. Las estimaciones de la población, basadas en la muestra estratificada, usualmente tienen mayor precisión (o menor error muestral) que si la población entera muestreada mediante muestreo aleatorio simple. El número de elementos seleccionado de cada estrato puede ser proporcional o desproporcional al tamaño del estrato en relación con la población. D. Muestreo de conglomerados. Para obtener una muestra de conglomerados, primero dividir la población en grupos que son convenientes para el muestreo. En seguida, seleccionar una porción de los grupos al azar o por un método sistemático. Finalmente, tomar todos los elementos o parte de ellos al azar o por un método sistemático de los grupos seleccionados para obtener una muestra. Bajo este método, aunque no todos los grupos son muestreados, cada grupo tiene una igual probabilidad de ser seleccionado. Por lo tanto la muestra es aleatoria. Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Los elementos individuales dentro de cada "conglomerado" tienden usualmente a ser iguales. Por ejemplo la gente rica puede vivir en el mismo barrio, mientras que la gente pobre puede vivir en otra área. No todas las áreas son muestreadas en un muestreo de áreas. La variación entre los elementos obtenidos de las áreas seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la población entera es muestreada mediante muestreo aleatorio simple. Esta debilidad puede reducida cuando se incrementa el tamaño de la muestra de área. El incremento del tamaño de la muestra puede fácilmente ser hecho en muestra muestra de área. Los entrevistadores no tienen que caminar demasiado lejos en una pequeña área para entrevistar más familias. Por lo tanto, una muestra grande de área puede ser obtenida dentro de un corto período de tiempo y a bajo costo. Por otra parte, una muestra de conglomerados puede producir la misma precisión en la estimación que una muestra aleatoria simple, si la variación de los elementos individuales dentro de cada conglomerado es tan grande como la de la población. 3.5 Muestreo no aleatorio: dirigido, por cuotas, deliberado Muestreos no aleatorios El muestreo no aleatorio, llamado «opinático puro», consiste en la elección de una muestra según el juicio del equipo investigador. Naturalmente, la calidad del muestreo no puede valorarse ni a priori ni objetivamente, pues depende de los criterios utilizados para escoger a los componentes de la muestra. A veces, razones de economía y rapidez lo hacen aconsejable. En ocasiones se completa el muestreo con el denominado «sistema de cuotas», que consiste en realizar cierto número de encuestas entre cada uno de los distintos grupos en que se divide el universo. Así, se puede exigir que haya «X» entrevistas a familias que tengan dos hijos, «Y» entrevistas a familias que vivan los padres con ellos... Esas especificaciones se determinan teniendo en cuenta las características conocidas del universo. Dentro de este apartado, tenemos el muestreo denominado «semialeatorio», consistente en la obtención al azar de ciertos grupos del colectivo para dejar, a criterio del entrevistador, la elección del elemento que se va a elegir. Un muestreo, bastante utilizado en las entrevistas y que según algunos autores puede resultar prácticamente aleatorio, es el denominado «muestreo por rutas», en el que partiendo de unos puntos determinados (calle, número...), los agentes van siguiendo su itinerario y efectúan las entrevistas de acuerdo con un ritmo (por ejemplo, cada 10 edificios) y unas normas (para la elección de viviendas). Una variante de muestreo no aleatorio, que suele utilizarse frecuentemente en determinados casos, son las «reuniones de grupo» o «grupos de discusión». Su importancia en determinados estudios es tal que hemos considerado oportuno incluirlo como tema independiente al final del capítulo. Tamaño de la muestra La muestra es el número de elementos, elegidos o no al azar, que hay que tomar de un universo para que los resultados puedan extrapolarse al mismo, y con la condición de que sean representativos de la población. El tamaño de la muestra depende de tres aspectos: • Del error permitido. • Del nivel de confianza con el que se desea el error. • Del carácter finito o infinito de la población. Las fórmulas generales que permiten determinar el tamaño de la muestra son las siguientes: • Para poblaciones infinitas (más de 100.000 habitantes): • Para poblaciones finitas (menos de 100.000 habitantes): Leyenda: n = Número de elementos de la muestra. N = Número de elementos del universo. P/Q = Probabilidades con las que se presenta el fenómeno. Z2 = Valor crítico correspondiente al nivel de confianza elegido; siempre se opera con valor sigma 2, luego Z = 2. E = Margen de error permitido (a determinar por el director del estudio). Cuando el valor de P y de Q no se conozca, o cuando la encuesta se realice sobre diferentes aspectos en los que estos valores pueden ser diferentes, es conveniente tomar el caso más favorable, es decir, aquel que necesite el máximo tamaño de la muestra, lo cual ocurre para P = Q = 50, luego, P = 50 y Q = 50. En mi larga trayectoria profesional siempre he visto los valores P x Q como 50 x 50. Para facilitar el cálculo del tamaño de la muestra pueden utilizarse unas tablas especiales, incorporadas en el anexo I y II, cuyo uso viene dado por el fácil método del eje de coordenadas. En ambos casos si hubiésemos ido a las tablas de los anexos I y II hubiésemos obtenido el mismo resultado. Unidad IV Inferencia estadística. 4.1 Estimación puntual y por intervalos de confianza ESTIMACION El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio de una muestra de una población se quiere generalizar las conclusiones al total de la misma. Como vimos en la sección anterior, los estadísticos varían mucho dentro de sus distribuciones muéstrales, y mientras menor sea el error estándar de un estadístico, más cercanos serán unos de otros sus valores. Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo. Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico usado se denomina estimador. Una estimación por intervalo es un rango, generalmente de ancho finito, que se espera que contenga el parámetro. Estimación Puntual La inferencia estadística está casi siempre concentrada en obtener algún tipo de conclusión acerca de uno o más parámetros (características poblacionales). Para hacerlo, se requiere que un investigador obtenga datos muestrales de cada una de las poblaciones en estudio. Entonces, las conclusiones pueden estar basadas en los valores calculados de varias cantidades muestrales . Po ejemplo, representamos con (parámetro) el verdadero promedio de resistencia a la ruptura de conexiones de alambres utilizados para unir obleas de semiconductores. Podría tomarse una muestra aleatoria de 10 conexiones para determinar la resistencia a la ruptura de cada una, y la media muestral de la resistencia a la ruptura se podía emplear para sacar una conclusión acerca del valor de . De forma similar, si es la varianza de la distribución de resistencia a la ruptura, el valor de la varianza muestral s2 se podría utilizar pra inferir algo acerca de . Cuando se analizan conceptos generales y métodos de inferencia es conveniente tener un símbolo genérico para el parámetro de interés. Se utilizará la letra griega para este propósito. El objetivo de la estimación puntual es seleccionar sólo un número, basados en datos de la muestra, que represente el valor más razonable de . Una muestra aleatoria de 3 baterías para calculadora podría presentar duraciones observadas en horas de x1=5.0, x2=6.4 y x3=5.9. El valor calculado de la duración media muestral es = 5.77, y es razonable considerar 5.77 como el valor más adecuado de . Una estimación puntual de un parámetro es un sólo número que se puede considerar como el valor más razonable de . La estimación puntual se obtiene al seleccionar una estadística apropiada y calcular su valor a partir de datos de la muestra dada. La estadística seleccionada se llama estimador puntual de . El símbolo (theta sombrero) suele utilizarse para representar el estimador de y la estimación puntual resultante de una muestra dada. Entonces se lee como "el estimador puntual de es la media muestral ". El enunciado "la estimación puntual de es 5.77" se puede escribir en forma abreviada . Ejemplo: En el futuro habrá cada vez más interés en desarrollar aleaciones de Mg de bajo costo, para varios procesos de fundición. En consecuencia, es importante contar con métodos prácticos para determinar varias propiedades mecánicas de esas aleaciones. Examine la siguiente muestra de mediciones del módulo de elasticidad obtenidos de un proceso de fundición a presión: 44.2 43.9 44.7 44.2 44.0 43.8 44.6 43.1 Suponga que esas observaciones son el resultado de una muestra aleatoria. Se desea estimar la varianza poblacional muestral: . Un estimador natural es la varianza En el mejor de los casos, se encontrará un estimador para el cual siempre. Sin embargo, es una función de las Xi muestrales, por lo que en sí misma una variable aleatoria. Entonces el estimador preciso sería uno que produzca sólo pequeñas diferencias de estimación, de modo que los valores estimados se acerquen al valor verdadero. Propiedades de un Buen Estimador Insesgado.- Se dice que un estimador puntual es un estimador insesgado de si , para todo valor posible de . En otras palabras, un estimador insesgado es aquel para el cual la media de la distribución muestral eÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿ ÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿ 1. ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 2. ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 3. ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ 4.3 ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿsuficientemente amplia, ésta será representativa. Además, es necesario atender al método mediante el cual se elige físicamente la muestra: • Muestreo aleatorio o probabilístico. • Muestreo no aleatorio u opinático. 4.2 Prueba de hipótesis y planteamiento de las hipótesis Las secciones anteriores han mostrado cómo puede estimarse un parámetro a partir de los datos contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador puntual) o un intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis. Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. Suponga que se tiene interés en la rapidez de combustión de un agente propulsor sólido utilizado en los sistemas de salida de emergencia para la tripulación de aeronaves. El interés se centra sobre la rapidez de combustión promedio. De manera específica, el interés recae en decir si la rapidez de combustión promedio es o no 50 cm/s. Esto puede expresarse de manera formal como La proposición Ho; Ho; = 50 cm/s H1; 50 cm/s = 50 cm/s, se conoce como hipótesis nula, mientras que la proposición H1; 50 cm/s, recibe el nombre de hipótesis alternativa. Puesto que la hipótesis alternativa especifica valores de que pueden ser mayores o menores que 50 cm/s, también se conoce como hipótesis alternativa bilateral. En algunas situaciones, lo que se desea es formular una hipótesis alternativa unilateral, como en Ho; = 50 cm/s Ho; = 50 cm/s ó H1; < 50 cm/s H1; > 50 cm/s Es importante recordar que las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes: 1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro. 2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo. 3. Cuando el valor del parámetro proviene de consideraciones externas, tales como las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones. Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si esta información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de llegar a una conclusión equivocada. La hipótesis nula, representada por Ho, es la afirmación sobre una o más características de poblaciones que al inicio se supone cierta (es decir, la "creencia a priori"). La hipótesis alternativa, representada por H1, es la afirmación contradictoria a Ho, y ésta es la hipótesis del investigador. La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia muestral sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho, se continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones posibles de un análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho. Prueba de una Hipótesis Estadística Para ilustrar los conceptos generales, considere el problema de la rapidez de combustión del agente propulsor presentado con anterioridad. La hipótesis nula es que la rapidez promedio de combustión es 50 cm/s, mientras que la hipótesis alternativa es que ésta no es igual a 50 cm/s. Esto es, se desea probar: Ho; = 50 cm/s H1; 50 cm/s Supóngase que se realiza una prueba sobre una muestra de 10 especímenes, y que se observa cual es la rapidez de combustión promedio muestral. La media muestral es un estimador de la media verdadera de la población. Un valor de la media muestral que este próximo al valor hipotético = 50 cm/s es una evidencia de que el verdadero valor de la media es realmente 50 cm/s; esto es, tal evidencia apoya la hipótesis nula Ho. Por otra parte, una media muestral muy diferente de 50 cm/s constituye una evidencia que apoya la hipótesis alternativa H1. Por tanto, en este caso, la media muestral es el estadístico de prueba. La media muestral puede tomar muchos valores diferentes. Supóngase que si 48.5 51.5, entonces no se rechaza la hipótesis nula Ho; = 50 cm/s, y que si <48.5 ó >51.5, entonces se acepta la hipótesis alternativa H1; 50 cm/s. Los valores de que son menores que 48.5 o mayores que 51.5 constituyen la región crítica de la prueba, mientras que todos los valores que están en el intervalo 48.5 51.5 forman la región de aceptación. Las fronteras entre las regiones crítica y de aceptación reciben el nombre de valores críticos. La costumbre es establecer conclusiones con respecto a la hipótesis nula Ho. Por tanto, se rechaza Ho en favor de H1 si el estadístico de prueba cae en la región crítica, de lo contrario, no se rechaza Ho. Este procedimiento de decisión puede conducir a una de dos conclusiones erróneas. Por ejemplo, es posible que el valor verdadero de la rapidez promedio de combustión del agente propulsor sea igual a 50 cm/s. Sin embargo, para todos los especímenes bajo prueba, bien puede observarse un valor del estadístico de prueba que cae en la región crítica. En este caso, la hipótesis nula Ho será rechazada en favor de la alternativa H1cuando, de hecho, Ho en realidad es verdadera. Este tipo de conclusión equivocada se conoce como error tipo I. El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es verdadera. También es conocido como ó nivel de significancia. Si tuviéramos un nivel de confianza del 95% entonces el nivel de significancia sería del 5%. Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de significancia sería del 10%. Ahora supóngase que la verdadera rapidez promedio de combustión es diferente de 50 cm/s, aunque la media muestral caiga dentro de la región de aceptación. En este caso se acepta Ho cuando ésta es falsa. Este tipo de conclusión recibe el nombre de error tipo II. El error tipo II ó error ésta es falsa. se define como la aceptación de la hipótesis nula cuando Por tanto, al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes que determinan si la decisión final es correcta o errónea. Decisión Ho es verdadera Aceptar Ho No hay error Rechazar Ho Ho es falsa Error tipo II ó Error tipo I ó No hay error 1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno por lo general tiene como resultado un aumento en la probabilidad del otro. 2. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I, siempre se puede reducir al ajustar el o los valores críticos. 3. Un aumento en el tamaño muestral n reducirá y de forma simultánea. 4. Si la hipótesis nula es falsa, es un máximo cuando el valor real del parámetro se aproxima al hipotético. Entre más grande sea la distancia entre el valor real y el valor hipotético, será menor 4.5 Pruebas unilaterales y bilaterales 4.6 Prueba de hipótesis para una distribución muestral de diferencias de medias PASOS PARA ESTABLECER UN ENSAYO DE HIPOTESIS INDEPENDIENTEMENTE DE LA DISTRIBUCION QUE SE ESTE TRATANDO 1. Interpretar correctamente hacia que distribución muestral se ajustan los datos del enunciado. 2. Interpretar correctamente los datos del enunciado diferenciando los parámetros de los estadísticos. Así mismo se debe determinar en este punto información implícita como el tipo de muestreo y si la población es finita o infinita. 3. Establecer simultáneamente el ensayo de hipótesis y el planteamiento gráfico del problema. El ensayo de hipótesis está en función de parámetros ya que se quiere evaluar el universo de donde proviene la muestra. En este punto se determina el tipo de ensayo (unilateral o bilateral). 4. Establecer la regla de decisión. Esta se puede establecer en función del valor crítico, el cual se obtiene dependiendo del valor de (Error tipo I o nivel de significancia) o en función del estadístico límite de la distribución muestral. Cada una de las hipótesis deberá ser argumentada correctamente para tomar la decisión, la cual estará en función de la hipótesis nula o H o. 5. Calcular el estadístico real, y situarlo para tomar la decisión. 6. Justificar la toma de decisión y concluir. 7. 4.9 Muestreo pequeño: Distribución de ji-cuadrada. Cuadros de contingencia, limitaciones de la prueba de ji-cuadrada Distribución muestral de Proporciones Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar del estadísitico media. Una población binomial está estrechamente relacionada con la distribución muestral de proporciones; una población binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de proporciones contiene las posibilidades o proporciones de todos los números posibles de éxitos en un experimento binomial, y como consecuencia de esta relación, las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la aproximación normal a la binomial, siempre que np 5 y n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide el número obtenido entre el número de intentos. Generación de la Distribución Muestral de Proporciones Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos defectuosos. Se van a seleccionar 5 artículos al azar de ese lote sin reemplazo. Genere la distribución muestral de proporciones para el número de piezas defectuosas. Como se puede observar en este ejercicio la Proporción de artículos defectuosos de esta población es 4/12=1/3. Por lo que podemos decir que el 33% de las piezas de este lote están defectuosas. El número posible de muestras de tamaño 5 a extraer de una población de 12 elementos es 12C5=792, las cuales se pueden desglosar de la siguiente manera: Número de maneras en las que se puede obtener la muestra Artículos Buenos Artículos Malos Proporción de artículos defectuoso 1 4 4/5=0.8 8C1*4C4=8 2 3 3/5=0.6 8C2*4C3=112 3 2 2/5=0.4 8C3*4C2=336 4 1 1/5=0.2 8C4*4C1=280 5 0 0/5=0 8C5*4C0=56 Total 792 Para calcular la media de la distribución muestral de proporciones se tendría que hacer la sumatoria de la frecuencia por el valor de la proporción muestral y dividirla entre el número total de muestras. Como podemos observar la media de la distribución muestral de proporciones es igual a la Proporción de la población. p =P También se puede calcular la desviación estándar de la distribución muestral de proporciones: 2= npq, por lo que la varianza de la La varianza de la distribución binomial es 2 distribución muestral de proporciones es p =(Pq)/n. Si se sustituten los valores en esta fórmula tenemos que , este valor no coincide con el de 0.1681, ya que nos falta agregar el factor de corrección para una población finita y un muestreo sin reemplazo: La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones está basada en la aproximación de la distribución normal a la binomial . Esta fórmula nos servirá para calcular la probabilidad del comportamiento de la proporción en la muestra. Ejemplo: Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos. Se toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporción de la muestra de la gente que fuma cigarrillos sea menor que 0.55. Solución: Este ejercicio se puede solucionar por dos métodos. El primero puede ser con la aproximación de la distribución normal a la binomial y el segundo utilizando la fórmula de la distribución muestral de proporciones. Aproximación de la distribución normal a la binomial: Datos: n=800 estudiantes p=0.60 x= (.55)(800) = 440 estudiantes Media= np= (800)(0.60)= 480 que al extraer una muestra de 800 estudiantes, menos de 440 fuman cigarrillos. Distribución Muestral de Proporciones Datos: n=800 estudiantes P=0.60 p= 0.55 p(p 0.55) = ? Unidad V Análisis de regresión y correlación. 5.1 Regresión lineal simple, curvilínea y múltiple Regresión lineal simple En un problema de regresión, los carácteres no son considerados de la misma forma. Uno de ellos es el carácter ''a explicar'', los otros son ''explicativos''. Vamos primero a considerar el caso de dos carácteres, (explicativo) e (a explicar). ''Explicar'' significa aquí expresar una dependencia funcional de valor de como función de conociendo el de , de manera tal de prever el . Si para todo individuo , , y si se observa un valor nuevo individuo, daremos carácter del carácter en un como predicción del en este nuevo individuo. La situación ideal donde no se encuentra nunca en la práctica. Más bien se buscará, en una familia fija de funciones, aquella para la que los se encuentran más cerca de los . La cercanía se mide en general por el error cuadrático medio: (3.2) Hablamos entonces de regresión en el sentido de los mínimos cuadrados. Las diferencias entre los valores observados y los valores que predice el modelo , se llaman los residuos. Si el modelo se ajusta de manera tal que la serie de los residuos sea centrada (de media nula), entonces el error cuadrático es la varianza de los residuos. La regresión lineal consiste en buscar entre las funciones afines. La solución se expresa de manera simple a partir de las carácterísticas de e . Proposición 3.5 Sean e dos muestras observadas sobre una misma población de tamaño . Denotemos por la función de en definida por: Si (el carácter no es constante), la función admite un mínimo en: y El valor de este mínimo es: Definición 3.6 Llamamos recta de regresión lineal de sobre a la recta de ecuación . Demostración: Si fijamos , es un polinomio de grado en . El alcanza su mínimo para un la derivada se anule. Calculando: Obtenemos por tanto en tal que . Substituimos este valor : Esta función es un polinomio de grado en , que alcanza su mínimo en el punto donde se anula su derivada. Obtenemos: sea: Pongamos: y Tenemos entonces para todo par El valor del mínimo es: : Como se esperaba, el error cuadrático minimal es menor cuando la correlación es más fuerte. Es importante observar la diferencia de los roles que desempeñan lineal de e . Geométricamente, la recta de regresión con respecto a minimiza la suma de las distancias verticales de los puntos a la recta. La recta de regresión lineal de con respecto a minimiza las distancias horizontales. Las dos rectas se cortan en el centro de gravedad, , de la nube de puntos. La separación entre las dos rectas es mayor cuando la correlación es más débil. La predicción es la primera aplicación de la regresión lineal. A continuación tenemos las estaturas en centímetros (muestra años. Niño ) y el peso en kilogramos ( ) de 1 2 3 4 5 6 niños de 7 8 9 10 Estatura 121 123 108 118 111 109 114 103 110 115 Peso 25 22 19 24 19 18 20 15 20 21 Las carácterísticas numéricas toman los siguientes valores: Gráfico 14: Estatura y peso de niños de 6 años: recta de regresión. Hacer una regresión lineal quiere decir que se piensa que el peso debe crecer, en general, proporcionalmente a la estatura. La recta de regresión lineal constituye un modelo de predicción. Por ejemplo diremos que el peso promedio de un niño de 6 años que mide 120 centímetros será de kg. Evidentemente esta predicción no es infalible. Ella sólo da un orden de magnitud. El valor observado será probablemente distinto y el error previsible será del orden de kg. Como segunda aplicación se puede extender el ajuste por cuantiles a familias de leyes invariantes por transformaciones afines, como las leyes normales . Sea una muestra continua de tamaño para la cual queremos verificar si ella podría haber salido de una ley normal , con parámetros y desconocidos. Para , denotemos como siempre por los estadígrafos de orden. Si la hipótesis de normalidad es pertinente, entonces debe estar cerca del cuantil de la ley variable aleatoria . Recordemos que si una sigue la ley sigue la ley decir que para todo . Esto es lo mismo que : Denotemos por cuantil de la ley , entonces los valores de la función en los puntos . Si la hipótesis de normalidad se verifica, los puntos de coordenadas deberían estar cercanos de la recta de ecuación Una regresión lineal de las con respecto a las . nos da a la vez una estimación de los valores de y , y una indicación sobre la calidad del ajuste (figura 15). Antes de que existieran los programas de cálculo, se vendía papel ''gausso-aritmético'', graduado en las abscisas según los cuantiles de la ley . Bastaba poner en las ordenadas los valores de las para trazar a mano la recta de regresión lineal, que lleva el nombre de ''recta de Henry'', por el nombre del coronel que inventó este método en el siglo XIX para estudiar el alcance de los cañones. Gráfico 15: Estaturas de niños de 6 años. Cuantiles de la ley normal y estadígrafos de orden. Superposición de la recta de Henry. El problema de la regresión es determinar en una familia de funciones dada, cual es la función que minimiza el error cuadrático (3.2). Pero es frecuente que no haya una solución explícita. Para ciertas familias de funciones, se transforma el problema de manera tal de llevarlo a una regresión lineal. Presentamos aquí algunos casos frecuentes. Familia Funciones Transformación Forma afín exponencial potencia inversa logística Como ejemplo de aplicación, vamos a tomar el problema del ajuste por los cuantiles para la familia de leyes de Weibull, las cuales se emplean frecuentemente para modelar tiempos de sobrevida en medicina o tiempos de funcionamiento en fiabilidad. La función cuantil de la ley de Weibull Sea una muestra que queremos ajustar por una ley de Weibull de parámetros , el estadígrafo de orden . o sea: y desconocidos. Para debe estar cerca del cuantil es: Pongamos puntos y . Los deberían estar cerca de la recta de ecuación . Una regresión lineal nos dará no solamente los valores para y , sino también una indicación sobre la calidad del ajuste. Antes de los programas de cálculo, existía también un ''papel Weibull'', graduado de manera tal que se podía automatizar este caso particular de regresión no lineal. 5.2 Correlación Otra forma de análisis bivariado es la correlación y regresión de variables numéricas y discretas. El concepto de correlación y regresión se basa en el grado de relación que poseen dos variables numéricas entre si. El coeficiente de correlación permite predecir si entre dos variables existe o no una relación o dependencia matemática. Supongamos que queremos estudiar la correlación existente entre peso y altura de un grupo de personas tomadas al azar. Sometemos los datos recogidos de peso y altura al análisis de correlación y encontramos el coeficiente de correlación entre ambas, que se representa con la letra r. El r = 0.78. Esto significa que a mayor altura correspondería mayor peso. Los coeficientes de correlación r siempre oscilan entre valores de 1 y –1. El valor cero 0 significa que no existe correlación entre ambas variables. Un valor positivo indica que a incrementos en la variable A se producen incrementos proporcionales en B y un valor negativo indica lo contrario. Podemos graficar la correlación entre las dos variables a través de una gráfica de dos ejes (abscisas y ordenadas) cartesianos. En el siguiente gráfico observamos la correlación entre potencia de motor de un automóvil y consumo en Litros por cada 100 Km. El r = 0.87 (correlación positiva). (SPSS). Evidentemente a mayor potencia se observa mayor consumo de combustible. El valor de significación para ese r es de una p < 0.01. Esto quiere decir que la correlación entre potencia y consumo no es aleatoria. En el siguiente gráfico encontramos la relación existente entre peso del automóvil en kg. y aceleración 0 a 100 Km. / hora en segundos. El r = - 0.56 con una p < 0.05. Esto significa que existe una correlación negativa significativa, entre peso del auto y respuesta de la aceleración. Automóviles más pesados presentan una respuesta más tardía y viceversa. (SPSS) Para interpretar el coeficiente de correlación, Colton a dado los siguientes lineamientos generales: Valor de r de 0 a 0.25 implica que no existe correlación entre ambas variables. Valor de r de 0.25 a 0.50 implica una correlación baja a moderada. Valor de r de 0.50 a 0.75 implica correlación moderada a buena. Valor de r de 0.75 o mayor, implica una muy buena a excelente correlación. Estos rangos de valores se pueden extrapolar a correlaciones negativas también. Se debe tener cuidado al analizar la correlación entre dos variables, de que ambas varíen juntas permanentemente. Esto parece redundante, pero es importante. Por ejemplo, si correlacionamos edad y altura. La altura irá aumentando con la edad hasta un determinado punto en donde ya no aumentará más. 5.3 Regresión y correlación para datos agrupados Recta de regresión Supongamos que en una variable bidimensional queremos precisar la relación que existe entre las dos variables que la forman. En concreto queremos expresar mediante una relación cómo depende una de ellas (variable dependiente) de la otra (variable independiente). Normalmente se elige como y la variable dependiente y como x la independiente. Si esa relación se expresa mediente una función lineal del tipo y = ax + b, su gráfica correspondería a una recta. En el caso que nos ocupa nos interesa la recta que mejor "se ajuste" a los puntos de la nube de puntos de la variable. Dicha recta se denomina: recta de regresión. Por un método que se denomina de "mínimos cuadrados" y cuya concrección no corresponde a este nivel de estudio, se deduce que la recta de regresión debe pasar por el punto correspondiente a las medias de ambas variables y que debe tener por pendiente la covarianza dividida por la varianza de la variable x. Con ello la expresión de la recta de regresión será: Esta es la llamada "Recta de regresión de y sobre x". Si se deseara estudiar la dependencia de x respecto a y sólo habría que cambiar en la expresión de la recta x por y, obteniéndose la recta regresión de x sobre y. En la imagen siguiente se muestra la recta de regresión de y (peso) sobre x (talla) del ejemplo 1 de este tema. En este caso se supone que represente cómo depende el peso de una persona de su talla. Si recordamos que entre la talla y el peso decíamos que existía una dependencia directa, la recta de regresión lo confirma ya que su pendiente es positiva: a medida que aumenta la talla aumenta el peso. Por tanto: Dependencia directa - Pendiente de la recta positiva - Función creciente. Pero ¿qué utilidad tiene la recta de regresión? En la tabla de valores de la variable talla - peso, solamente nos dan los valores de un determinado número de personas (10 en este caso): las personas de las que se conocen dichos valores. Mediante la recta de regresión podríamos obtener de manera aproximada el peso de una persona de la que conociéramos la talla, en una población semejante a aquella de la que se ha obtenido la muestra. Si observamos la gráfica anterior, podríamos suponer por ejemplo que una persona de 185 cm pesaría algo más de 80 kg. De manera más precisa, si conocemos la expresión de la recta de regresión, se pueden calcular valores para la variable y, conocidos los de x, como si se tratara de una función. Ejemplo 4.- La recta de regresión de la variable y (talla) sobre x (peso) será la recta: - que pasa por el punto (172,6 ; 66,3) - tiene de pendiente: 55,32 / 50,71 = 1,0909 Recta: y - 66,3 = 1,0909 ( x - 172,6) que operando y simplificando queda: y = 1,0909x - 121,9 El valor del peso que suponíamos aproximado para una talla de 185 cm sería: Peso= 1.0909 · 185 - 121,9 = 79.9 Este valor obtenido es algo menor al esperado. Eso quiere decir que las predicciones hechas con la recta de regresión no son exactas. En el apartado siguiente precisaremos la "fiabilidad" de las mismas. Por tanto la recta de regresión se puede utilizar para realizar predicciones para la variable y a partir de valores conocidos de la variable x. Ejercicio 4.- Observar la tabla de valores siguiente y la escena donde dichos valores están representados. En la escena a los pares de valores le llamamos (a,a1) ; (b,b1); etc. x 2 4 6 8 10 12 y 8 7 7 6 6 4 - Calcular la recta de regresión de y sobre x. Se debe obtener los valores siguientes: Media de x: 7 ; Media de y: 6,33 ; covarianza: -3,99 ; varianza de x: 11,66 y con ello: recta de regresión: y = -0,342 x + 8,72 - ¿Cómo es la pendiente ? ¿qué tipo de dependencia existe entre las variables? - Dar algunos valores a x y obtener los correspondientes a y según la recta de regresión. Comprobar en la escena si los valores obtenidos son correctos. - Cambiar los valores iniciales de la tabla en la escena viendo cómo varía la recta de regresión y calcularla en los casos que se desee (por ejemplo un caso en que la pendiente de la recta sea positiva). Coeficiente de correlación Una vez observado que en una variable bidimensional existe una cierta dependencia entre las dos características o variables que la forman (nube de puntos y covarianza), podemos precisar el grado de dicha dependencia. - Si los puntos de la nube estuvieran todos sobre la recta de regresión se diría que existe una dependencia funcional. De su estudio se encargan las funciones. - Si los puntos no están todos sobre la recta de regresión se dice que entre las variables hay una cierta correlación lineal. Este es el caso que nos ocupa. Para cuantificar el grado de dicha correlación se usa el: Coeficiente de correlación de Pearson. Si le llamamos r, su valor es: Puede observarse que el signo del coeficiente de correlación es el mismo que el de la covarianza y puede deducirse que el valor del mismo esta comprendico entre -1 y 1. En la escena siguiente se puede observar la escena del ejercicio 4, donde se ha añadido el valor del coeficiente de correlación. Se pueden deducir las siguientes conclusiones relativas al coeficiente de correlación (r): - Su signo es el mismo de la covarianza, luego si r es positivo la dependencia es directa y si es negativo inversa. - Si r se acerca a -1 o a +1, la dependencia es fuerte y por tanto las predicciones que se realicen a partir de la recta de regresión serán bastante fiables. - Si r se acerca a 0 la dependencia es débil y por tanto las predicciones que se realicen a partir de la recta de regresión serán poco fiables. Ejercicio 5.- Calcular el coeficiente de correlación para la variable talla - peso y deducir del valor del mismo el tipo de dependencia y la fiabilidad de las predicciones. (Sol: r = 0,90) 5.4 Correlación por rangos Correlación por rangos Hay varios modos de determinar la magnitud de un coeficiente de correlación. El más sencillo es el coeficiente de correlación por rangos, cuyo símbolo es p, (la letra griega rho). El primer paso para obtener p es ordenar a los sujetos por sus rendimientos en cada uno de los tests analizados. Luego se comparan los rangos y de esta comparación se deriva el valor de p. Si hubiese correlación positiva perfecta, no habrá diferencia entre los dos conjuntos de rangos. En cambio si la correlación fuese algo menos que perfecta, las diferencias entre los rangos no sería 0, en modo alguno. Cuanto mayores sean las disparidades de los rangos, menor será la relación positiva entre los dos conjuntos de puntuaciones. Por lo tanto, la medida de las diferencias del rango proporciona, evidentemente un modo de medir el coeficiente de correlación. Cuanto mayor sea la medida, menor será la correlación positiva. Siendo + 100 la correlación positiva mayor posible, para obtener el coeficiente de correlación restaremos de cien la media de las diferencias entre los rangos. Cuánto más elevada sea la media de las diferencias entre los rangos, menor será el coeficiente de correlación. Fórmula: la cuantía de la correlación es I menos la media de las diferencias entre los rangos, o P = I - sumatoria D2 ___________ N Fórmula derivada por lógica, que es de estructura muy semejante a la obtenida matemáticamente. Por diversas razones matemáticas, la verdadera fórmula es: P = I -6sumatoriad2 ________________ N(N2 - I) El mismo razonamiento sirve para la correlación negativa por rangos. 5.5 Coeficiente de correlación para datos nominales Correlación de producto-momento El coeficiente de correlación más frecuentemente usado es el coeficiente de correlación producto-momento. La fórmula es: r =sumatoria xy __________ Noxoy X e y son las desviaciones de las puntuaciones individuales de las medias del grupo, ox es la desviación standard de las puntuaciones en el test x y oy la desviación standard de las puntuaciones en el test y. Por regla general, se prefiere el coeficiente de correlación por rangos cuando el número de casos es pequeño (15 ó 20) y cuando hay poca ligazón entre los rangos. En otros casos, el coeficiente de correlación de p-m resulta más conveniente. Un error lógico que frecuentemente se comete en la interpretación del coeficiente de correlación es el argumento de causa y efecto. Se admite a menudo que si dos variables están muy correlacionadas, una es la causa de la otra. No obstante, la correlación elevada entre dos fenómenos indica simplemente que ambos son causados por un tercer factor y no que un fenómeno cause o influencie el otro. En estadística se usa, a menudo el coeficiente de correlación en problemas de los que se sabe que no hay relación causal entre los dos conjuntos de medida que se correlacionan. Errores de medida El error se debe a un instrumento de medida inexacto, a un método imperfecto de aplicar el instrumento, a nuestra manera inadecuada de leerlo o registrarlo o a cualquier otro factor. En la ciencia, por depender en gran parte del raciocinio de las mediciones, se tiene mucho cuidado con los errores de medida y se ha aprendido mucho acerca de su naturaleza, origen y control. En los casos que se ha sido incapaz de eliminarlos, se han desarrollado técnicas que permiten estimar el grado de error. Sabiendo la magnitud del error se puede enunciar el grado de confianza en las conclusiones basadas en las medidas. El estudio de los errores de medida es uno de los básicos de la estadística. Fiabilidad No existe un instrumento de medida absolutamente perfecto. Hasta el instrumento de medida más simple, la regla, no está libre de error. Algunos instrumentos de medida nos dan errores mayores que otros. La fiabilidad de un aparato de medida(incluido su método de aplicación) puede definirse como el grado en que medidas repetidas de la misma cantidad, con el mismo instrumento de medida, dan las mismas lecturas. La fiabilidad medida por correlación: el coeficiente de correlación nos da un índice numérico que expresa el grado de fiabilidad de una prueba. Cuando se usa con este fin, el coeficiente de correlación recibe el nombre de coeficiente de fiabilidad. Veracidad de las formas comparables: La mayoría de las pruebas psicológicas constan de gran número de elementos, problemas y preguntas. La correlación de las dos formas comparables nos daría la fiabilidad de una y otra forma. El método de las formas comparables evita el problema de la memoria y quizás el de fastidio, pero deja intacto el del tiempo. Las dos formas se aplican en tiempos diferentes, y durante el intervalo pueden suceder muchas cosas que dificultan la interpretación de la correlación entre las dos formas comparables. Fiabilidad compartida: la base del método de fiabilidad bipartida es idéntica a la del de formas comparables. Este método suele llamarse del “ coeficiente de paresimpares” y cuenta con dos ventajas: primera, las dos subpruebas(pares y nones) se hacen a la vez, en las mismas condiciones de motivación, idénticas condiciones de examen y con el mismo grado de atención. Segunda, por haber divido la prueba de pares-impares, hemos garantizado la comparabilidad de formas, no sólo en cuanto al contenido, sino también en cuanto al contenido, sino también en cuanto al modo de administración. Estos y otros métodos pueden proporcionarnos una valiosa información sobre la utilidad de una prueba como instrumento de medida. Sin embargo, saber que una prueba es fiable no basta para permitirnos apreciar su valor como instrumento de medición Puede ser muy fiable y por el contrario, constituir un mal instrumento de medida, por carecer de validez. Validez Los términos de “fiabilidad” y “validez” se usan indistintamente en el lenguaje vulgar. No obstante, en la teoría de la medición, tienen un significado distinto. El estadístico preocupado por el problema de la fiabilidad e un instrumento con lo que mide. Cuando le interesa la cuestión de la validez, pregunta si el instrumento mide lo que él quiere medir. Un instrumento puede hacer medidas acordes(puede tener fiabilidad), pero acaso no mide lo que se quiere medir(acaso tiene poca validez). Pero a la mayoría de los tests que tratan de medir fenómenos más complejos no se les adscribe la validez con tanta facilidad. En primer lugar, la validez, lo mismo que la fiabilidad, no es asunto de todo nada. Una prueba tiene grados de validez. El grado de validez de las preguntas de clase sólo estaría influido por la comprensión por parte del alumno de los principios psicológicos. En este caso diríamos que las preguntas tienen validez perfecta como medida de la comprensión de principios psicológicos; pero, más probablemente, la puntuación en las preguntas es la resultante de la comprensión psicológica, más la aptitud memorista. La prueba tiene alguna validez para la comprensión psicológica y alguna otra para la capacidad memorista, pero no es una prueba “pura” de ninguna de las dos. Como en la fiabilidad, necesitamos algún medio para expresar el grado de validez de un instrumento de medida de un instrumento de medida y, de nuevo como en aquella, el coeficiente de correlación nos facilita ese medio. La validez medida por correlación: Es evidente que una prueba es válida en el grado en que sus medidas se correlacionan con lo que mide. Cuando se usa de este modo el coeficiente de correlación se llama coeficiente de validez. El principio general para determinar la validez de una prueba es bastante simple, correlacionamos sus puntuaciones con su criterio. La dificultad consiste en que, frecuentemente, no podemos hallar un criterio con el que compararlas. Por ejemplo se quiere medir la validez de una prueba de inteligencia. Se pude obtener las puntuaciones del test con mucha facilidad, pero qué servirá de criterio de “inteligencia” ¿Las calificaciones escolares? ¿El dinero ganado en la vida real? ¿La originalidad y creatividad? ¿La primacía en cuestiones sociales? Personas diferentes sugerirían distintos criterios y algunos de ellos plantearían, por sí mismos, problemas e medida. Se han hecho muchos intentos de resolver el problema del criterio. Entre las técnicas más corrientes está el llamado método del “grupo conocido”. Grupos conocidos y validez: No hay puntuaciones-criterio de originalidad y creatividad fácilmente disponibles. Una prueba puede tener gran fiabilidad y poca validez, en el sentido que no mida lo que intentábamos que midiese. En cambio, una prueba de mucha validez no puede tener poca fiabilidad. Las pruebas poco fiables no pueden compararse consecuentemente con n conjunto de puntuaciones-criterio, porque sus medidas son, en gran parte, erróneas y por consiguiente deben tener poca validez. http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html http://prof.usb.ve/ejmarque/cursos/ea2181/core/desp05.html http://ftp.medprev.uma.es/libro/node61.htm http://coqui.lce.org/mdejesus/CLAS4/index.htm http://www.profesorenlinea.cl/quinto/matematica/ConjuntosRelaciones.htm