SOBRE UNA FORMA GENERALIZADA DE APLICAR PRUEBAS SOBRE PROPORCIONES INTRODUCCIÓN En múltiples problemas del mundo real es necesario manejar proporciones, porcentajes o probabilidades. Por ejemplo, los partidos políticos utilizan instrumentos estadísticos para determinar la proporción de votantes a su favor; los mercadólogos aplican la estadística para determinar las fracciones de mercado que corresponden a ciertas marcas de un producto determinado; en el muestreo de aceptación interesa la proporción de unidades defectuosas en un lote, y, en base en dicha proporción se toma una decisión acerca de la calidad del mismo; en las pruebas de vida útil se desea conocer el porcentaje de tiempo durante el cual ciertos componentes tendrán un rendimiento satisfactorio o la probabilidad de que un componente dado dure al menos un número previamente establecido de horas; en fin, podemos encontrar que el uso de proporciones se encuentra lo mismo en la Mercadotecnia que en la Ingeniería, en la Biología que en las Ciencias Sociales, en la Química que en la Medicina, etc., y que, por lo mismo, la importancia de su estudio y análisis es vital para optimizar la toma de decisiones. Al mismo tiempo, con estos ejemplos es claro que los problemas relativos a proporciones, porcentajes o probabilidades son en realidad equivalentes; un porcentaje es simplemente una proporción multiplicada por 100 y una probabilidad puede interpretarse como una proporción a largo plazo. 1 En todas las aplicaciones, por lo general se utilizan modelos estadísticos univariados, o en el mejor de los casos sus extensiones directas cuando se trata de más de dos proporciones. No existen trabajos reportados en donde se hayan hecho aplicaciones de modelos multivariados para este caso, a no ser por aquellos en donde se utiliza la distribución multinomial. En este artículo se presenta una forma generalizada para verificar hipótesis sobre vectores de proporciones. En dicha forma generalizada, quedan incluidas automáticamente las pruebas clásicas (normal, t de Student y Chicuadrada), con lo que su uso, permite abordar cualquier caso de pruebas de hipótesis sobre proporciones con un solo procedimiento, en lugar de tener que buscar el adecuado para cada situación. La prueba sugerida es más potente que las clásicas, debido fundamentalmente al mejor uso que se hace de la información presente en la muestra. Se recurre a la prueba T cuadrada de Hotelling contrastándose los resultados, mediante simulación, con las pruebas clásicas correspondientes. A continuación se describe el estadístico Chi Cuadrada y la técnica de pruebas de hipótesis correspondiente. Se describe primero la distribución exacta para verificar estas hipótesis, y se enuncian los teoremas que encuentran al estadístico Chi Cuadrada cuando, por los tamaños de muestra involucrados, se hace impráctico utilizar las distribuciones exactas. La distribución Binomial es una de las distribuciones exactas a que se hace referencia en el párrafo anterior. Hemos dedicado una sección para demostrar que la aproximación Normal, derivada como una aproximación de la distribución Binomial, puede aplicarse para probar hipótesis cuando para un ítem determinado sólo hay dos 2 opciones de respuesta. También se muestra en dicha sección cómo se llega a la distribución Chi Cuadrada a partir de las variables Binomiales para verificar las hipótesis que nos ocupan. La distribución multinomial es otra de las distribuciones exactas que mencionamos líneas arriba. Puede aplicarse para probar hipótesis cuando para un ítem determinado hay dos o más opciones de respuesta. Se le dedicó una sección especial para mostrar su distribución asintótica (distribución normal multivariada) ya que esta es necesaria en la justificación de la utilización de la prueba T Cuadrada de Hotelling, la cual es tratada en la sección que sigue. Posteriormente, se muestran algunos de los resultados del estudio comparativo de las pruebas usando simulación en Excel. Los resultados obtenidos justifican totalmente el uso de la prueba generalizada propuesta. PRUEBA CHI CUADRADA La prueba Chi Cuadrada es una prueba sumamente versátil y universalmente utilizada en prácticamente todas las disciplinas científicas. Es una prueba muy antigua (Karl Pearson, 1900). Su amplia popularidad se debe a su simplicidad de uso y a su validez para una amplia variedad de situaciones. Para explicar su naturaleza y forma de aplicación supondremos el siguiente contexto: dos grupos son investigados para conocer su respuesta X ante los estímulos, categorías u opciones 1, 2 y 3. Los grupos pueden ser de personas, animales, plantas, o cualquier otro ente que pueda responder ante un estímulo determinado. Asumiremos, para contextualizar aún más la situación, 3 que se trata de personas que a una determinada pregunta (ítem) de una encuesta deben seleccionar entre las tres opciones antes mencionadas. Ho: La variable X no es una variable que separe a los dos grupos H1: Los grupos se comportan de manera distinta respecto a la variable X Con base en las observaciones se forma la siguiente tabla de contingencia: Opción 1 Opción 2 Opción 3 Total Grupo 1 n11 n12 n13 n1. Grupo 2 n21 n22 n23 n2. Total n.1 n.2 n.3 n.. La cantidad ni. representa el total de personas del grupo i; de éstos, ni1 seleccionaron la opción 1, ni2 la opción 2 y ni3 la opción 3. Resulta así que la opción 1 fue seleccionada por n.1 = n11 + n21 encuestados; la opción 2 fue seleccionada por n.2 = n12 + n22 encuestados; y la opción 3 fue seleccionada por n.3 = n13 + n23 encuestados. En total n.. personas contestaron a este ítem de la encuesta. La idea tras esta prueba es la siguiente: Si la respuestas al ítem no dependen del grupo que las selecciona, entonces el total de respuestas a cada opción debe repartirse proporcionalmente entre los dos grupos. El primer grupo está representado en una proporción n1./n..; la proporción del segundo grupo es n2./n... Luego, si las respuestas a la opción j no dependen de si quien las contestó es del primero o del segundo grupo, 4 esperaríamos que la cantidad n.j de respuestas que obtuvo el la opción j se repartieran de tal forma que n.j*n1./n.. correspondieran al primer grupo y n.j*n2./n.. correspondieran al segundo. Dicho de una manera más general: si las respuestas a la opción j no dependen del grupo al que pertenece quien las contestó, esperaríamos que la cantidad n.j de respuestas que obtuvo la opción j se repartieran de tal forma que n.j*ni./n.. correspondieran al grupo i. Estas cantidades esperadas se concentran en la siguiente tabla: Opción 1 Opción 2 Opción 3 Grupo 1 e11 e12 e13 Grupo 2 e21 e22 e23 En donde eij = (ni. )(n. j ) n.. i = 1,2; j = 1, 2,3 (1) El estadístico de prueba (Stevenson, W illiam j., pág. 343) a utilizar es el siguiente 2 3 χ = ∑∑ 2 i =1 j =1 (nij − eij ) 2 eij (2) Si las respuestas a cada una de las tres opciones consideradas no dependen del grupo al que pertenece quien las contestó, las cantidades observadas (nij) serían cercanas a las esperadas (n.jni./n..). En este caso el estadístico χ2 tendería a cero. Por otra parte, si 5 los miembros del grupo 1 tienden a concentrar sus respuestas en opciones distintas a las elegidas por los del grupo 2, las cantidades observadas tenderían a separarse de las esperadas, dando lugar a que el estadístico χ2 calculado con la expresión (2), tome valores grandes. Pareciera por tanto, que existe un valor crítico del estadístico de prueba ( χ c2 ) a partir del cual se podría considerar que en realidad las proporciones no son iguales. Pearson demostró que, bajo ciertas condiciones, el valor crítico χ c2 podía calcularse con el apoyo de una distribución matemática conocida actualmente como Chi Cuadrada. De ahí el nombre de la prueba. Esta distribución aparece tabulada en prácticamente todos los libros de estadística, y el algoritmo para su cálculo está incluido en todos los paquetes estadísticos. Así, la hipótesis nula se rechaza a un nivel de significancia α, si χ 2 > χ c2 , en donde χ c2 = χ α2 ,( 2−1)(3−1) ,. Las condiciones que se deben cumplir para una exitosa aplicación de la prueba Chi Cuadrada de Pearson son: que un quinto o más de las frecuencias esperadas sea mayor o igual a 5, y que en ningún caso una frecuencia esperada sea menor a uno. La recomendación que se hace, cuando no se cumple alguno de estos requisitos, es combinar opciones adyacentes hasta el tanto ambos requisitos se cumplan( Cramér, H. pág. 450). Es necesario destacar que la distribución encontrada por Pearson no es una distribución exacta sino asintótica, queriendo decir con esto que ella es válida sólo para valores grandes del tamaño de la muestra. En realidad las distribuciones exactas (para observaciones independientes) que sustituirían con éxito total a la prueba Chi Cuadrada son derivadas de la distribución Multinomial. 6 El concepto de “grande” requerido para la aplicación de la prueba Chi Cuadrada de Pearson no es, en la práctica, tan grande como pudiéramos suponer. Se encuentran reportadas aplicaciones en centros de investigación, empresas, universidades y textos de estadística no-paramétrica, con tamaños de muestra tan pequeños como 30, cumpliendo, eso sí, con las condiciones antes señaladas. DISTRIBUCIÓN BINOMIAL Y SU APROXIMACIÓN NORMAL Iniciaremos esta sección con una situación aplicable al siguiente contexto: Se realiza un experimento como resultado del cual se observa una variable U que sólo puede tomar dos valores. Asumiremos que éstos son: “1” o éxito, con probabilidad p, y “0” o fracaso, con probabilidad 1 – p, es decir: p = P(U = 1) (3) Una variable aleatoria con estas características es llamada Variable Bernoulli. Supongamos que el experimento a que hicimos referencia se repite n veces y que la probabilidad de éxito se mantiene de un experimento a otro. Sea X la variable aleatoria que representa el número de éxitos. Es claro que X es una suma de variables Bernoulli. Se puede demostrar que X se distribuye Binomial de parámetros n y p, es decir, la probabilidad de que la variable X tome el valor k está dada por: n P( X = k ) = p k (1 − p) n− k ; k = 1, k , n (4) La prueba exacta para verificar la hipótesis: H 0 : p = p 0 v.s. H 1 : p ≠ p 0 , (5) 7 hace uso de la distribución binomial, sin embargo, la dificultad para el cálculo de los factoriales aunado a la cantidad de términos de las sumas involucradas, cuando n es grande, dio lugar, desde hace muchos años, a la búsqueda de alternativas más prácticas. Todas ellas consistieron en buscar aproximaciones satisfactorias al cálculo de la expresión correspondiente. La aproximación más utilizada, es la que se logra mediante el uso de la distribución normal. En estas condiciones el estadístico de prueba utilizado es Z= ( pˆ − p 0 ) n p 0 (1 − p 0 ) (6) En donde Z es una variable aleatoria con distribución normal con media cero y desviación estándar 1. La hipótesis nula se rechaza, entonces, si Z > zα / 2 para un nivel de significancia α. De la teoría de la Estadística sabemos que si una variable se distribuye Normal de media cero y varianza uno, entonces su cuadrado se distribuye Chi Cuadrada con 1 grado de libertad. De aquí resulta que la prueba estadística asintótica normal coincide con la aplicación de una prueba Chi Cuadrada con un grado de libertad. Ahora, consideremos el caso en que dos grupos son investigados para conocer su respuesta X ante los estímulos, categorías u opciones 1 y 2. AL igual que antes, los grupos pueden ser de personas, animales, plantas, o cualquier otro ente que pueda responder ante un estímulo determinado. Siguiendo el proceso que efectuamos al introducir la prueba χ2, asumiremos, para contextualizar aún más la situación, que se trata de personas que a una determinada pregunta (ítem) de una encuesta deben 8 responder afirmativa o negativamente. Nos ponemos el problema de verificar la hipótesis: Ho: La variable X no es una variable que separe a los dos grupos H1: Los grupos se comportan de manera distinta respecto a la variable X Sean p1 y p2 las proporciones de personas del primero y segundo grupo, respectivamente, que responden de manera afirmativa. En términos estadísticos las hipótesis H0 y H1 pueden expresarse como: H 0 : p1 = p 2 vs H 1 : p1 ≠ p 2 (7) El estadístico de uso generalizado para esta prueba es (Stevenson, William J. pág. 339): Z= pˆ 1 − pˆ 2 1 1 pˆ (1 − pˆ ) + n1 n2 donde pˆ = x1 + x 2 n1 + n2 (8) siendo xi (i=1,2) la cantidad de personas del grupo i que respondieron afirmativamente ∧ al item, ni el tamaño del grupo i, y p i la correspondiente proporción (es decir, xi/ni). Este estadístico actúa bien para tamaños grandes de muestra rechazando Ho aproximadamente el α% de las veces cuando Ho es cierta y p no es lejana de 0.5. Su distribución, cuando n→∝, es la Normal estandarizada. Un estadístico alternativo que cumple con la misma función, es el dado por la expresión t= pˆ 1 − pˆ 2 1 1 S + n1 n 2 donde S = n1 p1 (1 − p1 ) + n 2 pˆ 2 (1 − pˆ 2 ) n1 + n2 − 2 (9) 9 Este estadístico tiende a distribuirse t de student con n1+n2-2 grados de libertad y es un caso particular del estadístico T2 de Hotelling que abordaremos más adelante, cuya utilización la hemos destacado como la contribución principal del presente trabajo. DISTRIBUCIÓN MULTINOMIAL Y SU APROXIMACIÓN NORMAL MULTIVARIADA Supongamos que deseamos probar las hipótesis H 0 : p 1 = p 2 vs H 1 : p 1 ≠ p 2 (10) en donde las p1 = (p11, p12, ..., p1k)’ y p2 = (p21, p22, ..., p2k)’ representan vectores de k proporciones cada uno. Si Xi = (Xi1, Xi2, ..., Xik)’, i=1,2, representa al vector aleatorio cuyas componentes son la suma de observaciones de la clase “i”, i= 1, 2, ..., k, respectivamente. Es claro que Xi es la suma de vectores MultiBernoulli. Se puede demostrar que X1 y X2 se distribuyen Multinomiales de parámetros n1 y p1, y n2 y p2, respectivamente, es decir, la probabilidad de que el vector Xi tome el valor (xi1, xi2, ..., xik) está dada por: P{ X i = ( xi1 , xi 2 , , x ik )} = ni ! pix11 p ix22 x i1! x i 2 ! x ik ! p k xk ik , ∑ xij = ni , j =1 k ∑p j =1 ij = 1, i = 1, 2 (11) Se puede probar la siguiente relación (Pérez, L. A., 1981): lim P{ X i = ( x i1 , x i 2 , n1 →∞ donde xi = ( xi1 , , x ik −1 )′; µ i = (ni pi1 , , x , n p i 1 ik −1 )} = ik −1 (2π ) k −1 2 | Σi | 1 2 e − [ 1 ( xi − µ i )′ Σi−1 ( xi − µ i ) 2 ] (12) )′ ; 10 i − ni pi1 pi 2 ni p i1 (1 − pi1 ) −n p p ni pi 2 (1 − pi 2 ) i i 2 i1 = − ni pik −1 p i 2 − ni pik −1 p i1 − ni pi1 pik −1 − ni p i 2 pik −1 ni pik −1 (1 − pik −1 ) (13) La expresión (12) se puede leer diciendo que, cuando n es grande la distribución del vector Multinomial es Normal Multivariada de vector de medias y matriz de varianzacovarianza dadas por la expresión (13). Es estas expresiones se ha eliminado el késimo término; sin embargo, el resultado será el mismo si se elimina cualquier otro término i (i=1, . . . k-1) del vector. Si en dichas ecuaciones se incluyeran los k términos, entonces la inversa -1 a utilizar sería la inversa generalizada. Esta aproximación a la Distribución Normal Multivariada es el argumento base de la distribución que se aborda en la siguiente sección. ESTADÍSTICO T2 DE HOTELLING Como se mencionó anteriormente la distribución Multinomial es la distribución base exacta para verificar hipótesis sobre los vectores de proporciones(Bernoulli). Sin embargo, su utilización requiere de cálculos engorrosos de factoriales, además de ciertas sumas, tanto para valores pequeños, como para valores grandes de n, lo cual hace necesaria la búsqueda de alternativas más prácticas. La solución que más se utiliza es la que recurre al uso del estadístico Chi Cuadrada que explicamos líneas arriba. Desafortunadamente, aún cuando es ampliamente aplicado para muestras relativamente pequeñas, no es muy bueno rechazando la hipótesis Ho cuando debe ser rechazada. 11 Aún recurriendo a algoritmos computacionales existen demasiadas condiciones que se deben programar para buscar una adecuada adaptación de la prueba. Por fortuna existe una prueba menos popular que la Chi Cuadrada, conocida como T Cuadrada de Hotelling. La razón de su escasa popularidad es que hace necesario el cálculo matricial (productos de matrices, inversas, transpuestas) y operaciones matemáticas más complejas, además de que fundamenta su filosofía en la teoría estadística multivariada, la que a su vez hace uso de conceptos estadísticos que no se enseñan en los cursos tradicionales de estadística. En lo que sigue se dará la definición del estadístico T2 de Hotelling, la que después se utiliza para determinar los estadísticos de prueba para proporciones. Definición 1. Si X es un vector aleatorio con distribución Np(0, I) y M es una matriz independiente de X con distribución W(I, n), entonces Y = nX´M-1X sigue una distribución T2 de Hotelling con parámetros p y n; lo cual se escribe como Y∼T2(p, n) (Mardia, 1979, pág. 74). En el caso particular cuando p = 1, T2 se reduce a la t de Student con n grados de libertad. La T2 de Hotelling es así, la generalización multivariada de la t de Student. Esto también se extiende a sus aplicaciones, las cuales son las análogas multivariadas de las correspondientes aplicaciones univariadas de la t de Student. Tomando como base la definición dada anteriormente, se puede demostrar [Mardia, 1979, pág. 74; Anderson, 1971,pág. 163] que np T 2 ( p, n) = F p, n− p+1 (n − p + 1) (14) 12 Si X1, . . ., Xn es una muestra aleatoria de X∼Np(µ, ), entonces de la definición se desprende que n( X − )′S −1 ( X − ) ∼ T 2 ( p, n − 1) (15) en donde n n X = ∑ Xi y S = ∑ (X i =1 i − X )(X i − X )′ (16) n −1 i =1 Por tal motivo se tendrá (n − 1) p n( X − )′S −1 ( X − ) = F p ,n − p n− p (17) Así para probar la hipótesis H0: µ = µ0, utilizando el ensayo de la razón de verosimilitud, la región crítica será (Anderson, 1971, págs. 157-159) n( n − p ) ( X − )′S −1 ( X − ) > Fα , p , n − p (n − 1) p (18) para un nivel de significancia α dado. Otra situación en la cual se usa el estadístico T2 es aquella en la cual la hipótesis es H0: µ(1) = µ(2), es decir, la hipótesis indica que las medias de dos poblaciones normales multivariadas son iguales. En esta aplicación se supone que las matrices de covarianza de ambas poblaciones son iguales, pero desconocidas. Específicamente si X1(1) , es una muestra de N(µ(1), \ X1(2) , , X (2) n , X (1) n1 es una muestra de N(µ(2), HQWRQFHV n1 n2 ( X (1) − X ( 2) )′S −1 ( X (1) − X ( 2) ) = T p2, n1 + n2 −2 n1 + n2 (19) 13 en donde X (1) y X ( 2) son las medias de las muestras correspondientes y S= n1 n2 i =1 i =1 ∑ (X i(1) − X (1) )(X (i1) − X (1) )′ + ∑ (X (i 2) − X ( 2) )(X (i 2) − X ( 2 ) )′ n1 + n2 − 2 (20) La región crítica para la prueba es: T2 > (n1 + n2 − 2) Fα , p, n1 + n2 − p −1 n1 + n2 − p − 1 (21) La teoría expuesta anteriormente se puede aplicar del mismo modo a aquellos casos en donde las hipótesis involucran proporciones. Así, cuando la hipótesis nula es H 0: p=p0 en donde p1 p10 p p p = 2 y p 0 = 20 , pk pk 0 (22) entonces, una muestra aleatoria X 1, X2, . . ., Xn de un vector Bernoulli k-dimensional, tendrá como estimados de la media y de la matriz de varianza-covarianza a (Pérez, L. A., 1981): n pˆ = ∑ Xi i =1 pˆ 1 (1 − pˆ 1 ) − pˆ pˆ 2 1 ˆ = S = n n −1 − pˆ k pˆ 1 n pˆ 1 p ˆ = 2, pˆ k − pˆ 1 pˆ 2 pˆ 2 (1 − pˆ 2 ) − pˆ k pˆ 2 (23) − pˆ 1 pˆ k − pˆ 2 pˆ k , pˆ k (1 − pˆ k ) (24) 14 y como estadístico de prueba a T2 de Hotelling con p = k-1, n(n − k + 1) (p̂ − p 0 )′S −1 (p̂ − p 0 ) . (k − 1)(n − 1) (25) Con lo cual H0 será rechazada si n(n − k + 1) (p̂ − p 0 )′S −1 (p̂ − p 0 ) > Fα ,k −1, n− k +1 (k − 1)(n − 1) (26) para un nivel de significancia α. Si consideramos ahora, que la hipótesis es H 0: p1 =p2, con p11 p p1 = 12 , p1k p 21 p p 2 = 22 , p 2k (27) y que además se toma una muestra aleatoria de tamaño n1 de la población 1, y una muestra de tamaño n2 de la población 2, cuyos estimados de los vectores media y de las matrices de varianza-covarianza son pˆ 1 , pˆ 2 , S1 , S 2 respectivamente, calculados mediante la aplicación de (23) y (24) a las muestras correspondientes, entonces el estadístico de prueba a aplicar será n1 n 2 (n1 + n2 − k ) (p̂1 − p̂ 2 )′S −1 (p̂1 − p̂ 2 ) (n1 + n 2 )(n1 + n 2 − 2)(k − 1) (28) H0 será rechazada si n1n 2 (n1 + n2 − k ) (p̂1 − p̂ 2 )′S −1 (p̂1 − p̂ 2 ) > Fα , k −1, n1 + n2 −k (n1 + n 2 )(n1 + n 2 − 2)(k − 1) (29) para un nivel de significancia α. 15 Si en (29) hacemos k=2, tenemos: (p̂1 − p̂ 2 ) 2 n1 n2 (p̂1 − p̂ 2 )′S′ −1 (p̂1 − p̂ 2 ) = > Fα ,1, n1 + n2 − 2 (n1 + n 2 ) 1 1 S ′ + n1 n2 = t > tα , n1 + n2 −2 (30) en donde S´ es igual a S2 calculada de acuerdo a (9). Queda así demostrado que el estadístico t es un caso particular del estadístico T2 de Hotelling. ESTUDIO COMPARATIVO UTILIZANDO SIMULACIÓN Se llevaron a cabo estudios de simulación en la hoja de cálculo Excel para determinar el comportamiento de las diferentes pruebas. Se determinó el porcentaje de rechazos para cada prueba para diferentes valores de n1, n2, p1 y p2, el valor del nivel de significancia fue 5%. A continuación se dan algunos resultados. Parámetros % de rechazos n1 n2 p1 p2 α Prueba Normal Prueba t (1) 5 6 0.1 0.1 0.05 0.65625 0.65625 0.1 0.3 5.0625 5.0625 0.1 0.5 23.9375 23.9375 0.1 0.7 58.9375 58.9375 0.1 0.9 89.9687 89.9687 0.2 0.2 2.5312 2.5312 0.2 0.4 8.7187 8.7187 0.2 0.6 29.0312 29.0312 16 Parámetros % de rechazos n1 n2 p1 p2 α Prueba Normal Prueba t (1) 10 35 0.1 0.1 0.05 3.5935 3.5935 0.1 0.3 19.0526 19.0625 0.1 0.5 69.5312 69.5312 0.1 0.7 96.7500 96.7500 0.1 0.9 10.0000 100.0000 0.2 0.2 3.5937 3.5937 0.2 0.4 18.7500 18.7500 0.2 0.6 64.6562 64.6562 Parámetros % de rechazos n1 n2 p1 p2 α Prueba Normal Prueba t (1) 60 60 0.1 0.1 0.05 11.5312 11.5312 0.1 0.3 38.2187 38.2187 0.1 0.5 99.5937 99.5937 0.2 0.6 99.125 99.125 Parámetros n1 10 40 n2 35 40 % de rechazos Vector Vector p1 p2 0.25 0.4 0.25 0.25 0.25 0.25 0.25 0.1 0.1 0.3 0.2 0.2 0.2 0.1 0.5 0.4 α 0.05 Chi cuadrada Prueba T2 de Hotelling 21.0454 21.6590 52.0681 52.5454 Prueba 17 Los resultados obtenidos muestran que: 1. la prueba normal y la prueba t de Student se comportan de manera idéntica para todos los tamaños de muestra y diferencias p1-p2 utilizadas en la simulación. 2. El estadístico T2 de Hotelling resultó ser una prueba más potente que el estadístico Chi-cuadrada para todas las combinaciones de n1, n2, p1 y p2 simuladas. CONCLUSIONES Los procedimientos Z y t conducen a resultados idénticos, lo cual indica que puede usarse t en lugar del Z para probar H0:p1=p2. Chi-cuadrada es la extensión de la prueba normal cuando se prueban hipótesis que involucran dos vectores de proporciones. Si tratamos con vectores aleatorios de proporciones, necesariamente debemos utilizar modelos estadísticos multivariados apropiados para el caso bajo estudio. Esto nos conduce al estadístico T2 de Hotelling como el más adecuado cuando las hipótesis se relacionan con dos vectores aleatorios de proporciones. Por tanto, este estadístico puede utilizarse de manera generalizada para resolver toda esa gama de posibilidades, pues t es un caso particular de T2 según (30), a su vez T2 de Hotelling desplaza a la prueba Chi-cuadrada debido a su mayor potencia. Por lo que se deduce que el estadístico T2 de Hotelling puede sustituir perfectamente a los estadísticos Z, t y Chi-cuadrada. Esto es particularmente útil cuando se diseña software, pues al disponer de un solo procedimiento se facilita y simplifica considerablemente el diseño de los algoritmos correspondientes. 18 REFERENCIAS 1. Anderson, T. W., An Introduction to Multivariate Statistical Analysis, John Wiley and Sons, 1971. 2. Bilodeau M. and Brenner D., Theory of Multivariate Statistics, Springer, 1999. 3. Cramér, H., Mathematical Methods of Statistics, Princeton University Press, 1991. 4. Kshirsagar, Anant M., Multivariate Analysis, Marcel Dekker, Inc., 1972. 5. Mardia, K. V., Kent, J. T. And Bibby J. M., Multivariate Analysis, Academic Press, 1979. 6. Pérez, L. A., Estadística matemática, 2° Coloquio del Departamento de Matemáticas, Centro de Investigación y de Estudios Avanzados del IPN, 1981. 7. Scheffé, Henry, The Analysis of Varianza,John Wiley and Sons, Inc., 1959. 8. Srivastava, M. S., An Introduction to Multivariate Statistics, North Holland. New York, 1979. 9. Stevenson, William J., Estadística para administración y economía, Harla, 1981. 19