ESTADISTICA ESPAÑOLA Vol. 35, Núm. 132, 1993, págs. 169 a 179 Contraste de hipótesis precisas : p-valores y probabilidades a posteriori en leyes de Maxwell ELlAS MORENO CARMEN MARTINEZ Departamento de Estadística e I.O. Universidad de Granada RESUMEN EI contraste de una hipótesis nula simple sobre el parámetro de localización de una ley Normal con precisión conocida, presenta una enorme discrepancia si éste se realiza bajo el punto de vista frecuentista o condicíonal. Su larga historia arranca en la Ilamada paradoja de Lindley (1957) hasta los concluyentes resultados de Berger (1985) y Berger y Mortera (1991). En espacios multidimensionales esta discrepancia no es tan concfuyente y la polérnica se centra sobre las distribuciones a priori que se utilizan en el análisis [véase Berger y Delampady (1987), Moreno y Cano (1989)]. EI factor decisivo es, en este caso, la simetría de las distribuciones a priori. Esto sugiere analizar un problema unidimensional con verosimilitud asimétrica, en donde presumiblemente la discrepancia no será tan alta como la del caso normal. Se prueba con un modelo base Maxwell unidimensional que la discrepancia entre tests clásicos y bayesianos es tanto menor cuanto más asimétrica es la verosirnilitud. Palabras clave: Contraste de una hipótesis nula simple, Factor Bayes, P-valor, Probabilidad a posteriori, Robustez. Clasificación AMS: 62A15, 62F15. ^', t 1. ar, INTRODUCCION La ley de Maxwell es una importante ley en Física-Estadistica que modela la magnitud de la velocidad de una molécula de gas elegida aleatoriamente en un contenedor cerrado, bajo la hipótesis de que el gas no está fluyendo y que la presión a la que está sometido sea idéntica en todas direcciones. La función de densidad respecto de la medida de Lebesgue en R+ de la distribución de Maxwell (véase, por ejemplo, F. Reíf 1969) viene dada por f(x! H) ^ 4^-''zH^'zx2e-X ^ ^t^, x^^ [1] en donde H es un parámetro positivo desconocído. Supongamos que para un determinado gas, disponemos de información a priori suficiente para proponer el contraste de hipótesis siguiente: Ho : H= H© versus H^ : e^ eo [2] Conviene señalar que Ho puede ser una buena aproximación a la hipótesis ^ más realista H o: I H- Ho I< F con ^ c<suficientemente» pequeño [véase Berger y Delampady (1987)]. La polémica sobre la discrepancia entre las conclusiones de las metodologías frecuentista y bayesiana para este tipo de problemas es importante, véase por ejemplo, Lindley (1957), Edwards, Lindman y Savage (1963), Berger y Sellke (1987), Berger y Delampady (1987), Moreno y Cano (1989), Delampady y Berger (1990), Berger y Mortera (1991), Piccinato (1991), etc. Para e1 modelo Normal de rnedia desconocida 8, Berger y Sellke (1987) Ilevaron a cabo un análísis comparativo entre medidas bayesianas (condicionales, por tanto, a!a observación muestral) de evidencia contra Ho, dadas por los inferiores de factores Bayes y probabilidades a posteriori de Ho, bajo amplias clases de distribuciones a priori, y el p-valor correspondiente a la observación muestral, concluyendo que existen enormes discrepancias. En espacios multidimensionales este problema ha sido analizado por Delampady y Berger (1990) y Moreno y Cano (1989). En Delampady y Berger (1990) se prueba que en situaciones de sirnetría de las verosimilitudes y clases de distribuciones a priori, se obtienen altas probabilidades a posteriori de Ho que mantienen el conflicto. En Moreno y Cano (1989) se demuestra que para una amplia clase de modelos muestrales y clases razonables de distribuciones a priori, los p-valores no son necesariamente menores que las probabílidades a posteriori de H©. La conclusión que se desprende es que la condición de simetría en los modelos y/o dístribuciones a príori, ha jugado un papel importante en el conflicto. Por consiguiente, parece razonable explorar si las discrepancias observadas en el ^f ; f f^^A.`^^,1f [)E f i^E'í^_^ f E^ ^-^I.`,a f'FlE (^,^`^^^, ^ F^' ^J^f;L t^)kF^ ^'^` F'f^^'^E3-AEili_IUAUE ::, ;^'! ;`, f#^ f^.lr:.^l^i F ^J l E Y't `^, i:if ^^^^^,:K^"^/É^ l E Í 1 modelo Normal unidimensional son también aplicabies al modelo Maxwell. Probaremos que la discrepancia observada en este último modelo es menor que en el Normal y que esta discrepancia depende del tamaño muestral n; o equivalentemente, del grado de asimetría del modelo. Así pues, a medida que n crece la discrepancia se hace más relevante aproximándose a la de la ley Normal. Quizá convenga decir que en hipótesis nulas no precisas no necesariamente surge tal conflicto entre los métodos frecuentistas y bayesianos. En el caso de contrastes unilaterales sobre modelos de localización, Berger y Casella (1987) demostraron que, bajo amplias condiciones, es posible la reconciliación entre ambas aproximaciones; esto es, el p-valor era aproximadamente igual al inferior de la probabilidad a posteriori de Ho. Recientemente, Casella y WeIMs (1991) dan condiciones necesarias y suficientes para la reconciliación entre ambos métodos en contrastes unilaterales. 1.1. Preliminares y notación Como es bien sabido, la forma de decidir entre Ho y H^ en el análisis clásico, es vía un test que se diseña en función de las probabilidades de los errores de tipo I y II. Dichas probabilidades representan las esperanzas del test bajo las hipótesis nula y alternativa o las medidas de la región crítica, supuesto que el test es una función indicadora. Por tanto, no hay ningún condicionamiento a las observaciones en el diseño dei test. Las observaciones muestrales se utilizan como indicativo de la ocurrencia del suceso «región crítica», y consecuentemente como evidencia empírica para el rechazo de Ho. A diferencia de lo anterior, en el análisis bayesiano se acepta o rechaza a Ho de acuerdo con el valor de la probabilidad de Ho condicional a las observaciones. Esto supone tener que asignar una probabilidad a priori al parámetra en cuestión que descríba nuestra incertidumbre sobre él, es decir, hay que fijar n(d9) = no^{H:e eo (^> + ( 1-no) 1{e:E^#t^o}(^) 9(d^), en donde no representa la confianza que se tiene en la hipótesis nula, y g{dA) alguna distribución que describa razonablemente cómo se distribuye la masa a priori (1-no) sobre H ^. Para esta distribución a priori n, la probabilidad a posteriori de Ho, dada la observación x, viene dada por P9 ^ H ol x ) = I 1+1-^co 1 no B ( X ,9 ) i^ ^; i^AU^S^T^r^.,A E ^'^^Aw^.)t F^ en donde B t x, g^, conocido como facto+r Bayes de Ho frente a H ^, víene dado por B(x,g)= ^ f(xl^o) _ __ __ __ f(x^6)g(d6) ^ e ^ ^^, Esta probabilidad a posteriori depende pues, de la probabilidad a priori no de la hipátesis nula Ho y de la medida de probabilidad g(d8). En tanto que fijar ^co (o una cota inferior para ^o) es sencillo, muchos argumentan la dificultad de precisar la medida a priori g(d9) para un parámetro no observable 9. Nótese que en la teoría de Neyman-Pearson, en el problema de programación matemática que allí se plantea, se opta por hacer pequeña la probabilidad de rechazar Ho cuando es cierta y, a partir de entonces, no pueden intercambiarse la hipótesis Ho y H^ ya que tienen «papeles» bien diferenciados. Por consiguiente, se ha de tener la confianza suficiente en la hipótesis nula Ho de manera que se justifique que en torno a ella se genere toda la teoría. Si no fuera menor que 0.5, lo razonable sería entonces pensar en términos de H^ . En consecuencia, el mínimo de confianza en Ho es 0.5 y este valor lo mantendremos en lo que sigue. Respecto a g(d8}, muchos argumentan sobre la dificultad de precisarla, habida cuenta de que 6 es un parámetra no observable. A fin de obvíar esta cuestión, en la cual coincidimos, en este contexto, la literatura considera clases de distribuciones g(6} sobre H^ que sean lo bastante amplias para contener aquella información que sea accesible. En particular, ia clase de todas las distribuciones GA, contiene todas las creencias posibles sobre el comportamiento de 6 en H ^. Consideraremos como medida a posteriori de Ho el ínfimo de Pg ( H o ^ x) con g(d6} variando en GA, es decir P(Hol x^GA) = Inf P9(Hol x) .. ^ gE GA Es evidente que este planteamiento es pesimista y dará lugar a una probabilidad a posteriori de Ho que subestima Ho en favor de H^, ya que no toda distribución de GA es una distribución de 8 en H^ razonable. EI artículo está organizado de la manera siguiente. La sección 2 está dedicada a la determinación numérica de la región crítica para un nivel a dado. En la sección 3 se determinan las expresiones de los inferiores de las probabilidades a posteriori de Ho, bajo la clase GA y se calcula los valores de estos últimos para diferentes tamaños muestrales. Finalmente, la sección 4 contiene algunos comentarios y conclusiones. r,(_)NTkASTE- DE F-iIPO1ESIS PHE^.(.:I^AS P VpIC)RE_^S Y PRí^ÉiAE:3ll.IC.)ADES ^^ f^C^)S^i^Ekl(^^^7RI E N l_E rE^^ C^f.^_ P,^AXWE l^ 2. 1%^ CONSTRUCCION DEL TEST CLASICo Sea el contraste dado en (2) y supongamos que podemos observar n realizaciones independientes X^,...,X„ de la ley de Maxwell dada por (1). EI test insesgado uniformemente más potente de tamaño a para este contraste viene dado por $(X) _ ^(X^,...,X^) 1 siEX?^u^ ó ^X?>u2 ^ ^ 0 en otro caso en donde las constantes u^ y u2 vienen determinadas por (a) Eeo [$(X)l = a, (b) Eea [U(X)^(X)] = E^o [U(X)]a. siendo U( X)_^ X?; esto es consecuencia ínmediata de que el modelo (1) pertenece a la familia exponencial uniparamétrica y U( X) es un estadístico suficiente en este caso. Es inmediato ver que la densidad f(u ^ 6) de U es una gamma G(3n/2,9 , f ( u ( 6 ) _ _. _ _ __ __ _ ___ _^ _ _ ._-^ _ 3^2 -^ T' ( 3n / 2 ) 6 `^2 e-^^ Por simplicidad en la notación consideramos la transformacián T( X)= U( X)/( 3n/2 ). Como T se distribuye G(3n/2,29/3n), las condiciones (a) y (b) pueden escribirse como 2 t, ( 26o/3n )^3n^2 t3n^2 - ^ exp ( --3nt/28o ) dt = ( 1 - a ) r ( 3n ^ C3] ( 29o/3n ) ^2 t ^2 exp ( -3nt/28o ) dt = ( 1 - a ) 8o r ( 2 }. [4] t ^ La solución numérica del sistema anterior para 60=1, distintos tamaños muestrales n y diferentes niveles de significación a, se presenta en la tabla 1. 1 T <1 ^ . ^,?^^ai^^^^:, ^ i^.^^^ E ^^^^^E,r^^^.,i << TA B LA 1 Valores de t, (cx}, t2 (cx^ Tamaño n nivel cx t1 (cx) t2 (cx) 0.01 0.05 0.10 0.033666 0.098733 0.158800 5.040533 3.730666 3.144666 2 0.01 0.05 0.10 0.131000 0.237500 0.312466 3.383333 2.649500 2.315433 0.01 0.05 0.10 0.274333 2.473716 4 0.391666 0.464166 2.043666 1.843333 0.01 0.05 0.10 0.363677 2.132844 6 0.476944 0.543666 1.811555 1.659777 1 Hacemos notar que la verosimilitud f(t ^.), es asimétrica y va perdiendo asimetría a medida que n crece. Para n=6 la distribución está muy próxima a una simétrica. Es decir, debemos centrar nuestro análisis considerando tamaños muestrales pequeños; para muestras grandes los resultados serán aproximadamente iguales a los obtenidos para el caso Normal. 3. COTAS INFERI©RES DE PROBABILIDADES A POSTERIORI DE Ho BAJO LA CLASE GA EI siguiente Lema 1 da las expresiones del inferior de la probabilidad a posteriori de Ho en la clase de todas las distribuciones a priori GA, condicional a un valor muestral t. Lema 1 Para la clase de verosimilitudes dadas en (1), se tiene: P(Ho^t,GA) = Inf Pg(HoI t) g F Gq B(t,GA) i^ r)^^^ i f-Z^S ^1 E f)F.^ Fili^'( )1 i^^ :^^I^ F'F^E("'-ISA:^; ^> 1,^AL C7F^E^ S^Y Pf^(.)BAE31l_iC.)AC)E ^^^ ^^^ 1^;^i E F^li :r^2! E^ r^J Lf: ^t^f `, [^f ^^"^^Ax1^JE^ l t_ 1%^7 con ^",z ex Qi ( t, GA ) = ^ eo I 3n ( 1-- t 1 p{ 2 80 } Demostración. Se deduce inmediatamente de 1a igualdad nf ^ f ( x^9 ) g ( d 6) = inf f ( x^A ) Para diferentes niveles de significación y sus valores críticos dados en la tabla 1, los correspondientes valores de los inferiores de las probabilidades a posteriori de Ho:8o=1 determinados a partir del lema 1, se dan en la tabla 2, para ^0=0.5 y diferentes tamaños rnuestrales n. La última columna corresponde a las probabilidades a posteriori de Ho cuando la verosimilitud es Normal de rnedia 8 y precisión conocida. Es curioso observar que para un cx dado, el valor del inferior de la probabilidad a posteriori es el mismo cualquiera que sea el punto crítico t; (a), i= 1, 2, al que se condicione. Es decir, cada uno de esos dos puntos contiene ia misma evidencia empírica acerca de la hipótesis nula. Los valores de las columnas primera a la quinta de la tabla 2 muestran !a discrepancia existente para la verosimilitud de Maxwell (con diferentes tamaños muestrales) entre el informe proporcionado por los p-valores y por las cotas inferiores de las probabilidades a posteriori de Ho condicionales a los valores críticos t; (a) de 1a tabla 1. Y esto a pesar de que la rninimización de Pg(Ho ^ t; {a)) es sobre GA. Ello significa que los p-valores <csobreestiman» fa evidencia contra a hipótesis nula. Por ejemplo, ante los valores críticos t; (0.05), se rechaza Ho al 5 por 100, en tanto que la probabilidad a posteriori de Ho es como mínímo 0.107 TA B LA 2 p-valores y probabilidades a posteriori de Ho P(Ho(t;(a),G^) i=1,2 p-valores ^a) n-1 n-2 P^Ho^t,GA) n=-4 n^6 Caso Normal 0.01 0.025 0.029 0.032 0.033 0.035 0.05 0.10 0.107 0.183 0.116 0.193 0.122 0.199 0.124 0.201 0.12$ 0.205 E^ ^^,^At)i^;^i^ ,^ ^^:_;^^^kr^t^.^l,r^ 1 7Fi La comparación entre las probabilidades a posteriori de las columnas segunda a la quinta, que corresponden a leyes de Maxwell con distinto grado de asimetría, y la columna sexta, que corresponde a la ley Normal, muestra que esta discrepancia es tanto menor a medida que las verosimilitudes implicadas son más asimétricas. Con objeto de enfatizar esta afirmación varnos a considerar la ley altamente asimétrica dada por f(t^0)^ ^ _____ __ _ __to.^^-^exp(--0.75t/9) ( 2 e11.5 ) 0 ^ 75 r ( 0.75 ) Sea la hipótesis Ho: 8=1 versus Ho: 9^1. Los p-valores y ios inferiores de las probabilidades a posteriori de Ho condicionales a los valores criticos se dan en la tabla 3. La última columna reproduce el caso Normal para comodidad en la comparación. Los valores de la tabla 3 son elocuentes en la afirmación de que la asimetría juega un papel importante en el conflicto entre medidas frecuentistas y bayesianas. Puesto que la metodología de Neyman-Pearson clasifica el espacio muestral en regiones muestrales, de acuerdo con la evidencia que contienen contra la hipótesis nula, un intento por recoger esta situación bajo un punto de vista bayesiano consistiría en estudiar ^o P^o ( C) , P9(Ho^C) _ PH(C)9(6)dE^ noPeo(C)+( 1 -no) e ^ eo con C una regián muestral dada. EI uso de Pg(Ho ^ C) está obviamente limitado al caso en que el denominador sea positivo. Hay que hacer notar que aunque técnicamente no hay objecián en la definición de Pg(Ho ( C), probabilidad que está TA B LA 3 p-vaiores y probabilidades a posteriori de Ho p-valor Verosimilitud f(t ^ 6) Verosirnilitud Normal (°C^ t P^ Ho Itt GA) t^ (a) t2 (oc) P( Ho ^t ;(°^), GA) 0.01 0.05 0.10 2.576 1.960 1.645 0.035 0.128 0.205 0.002220 0.018074 0.044350 8.22258 5.7$720 4.70970 0.0211 0.0933 0.1652 ^,^ )N TRASI^E C)E HIPC)TE^S15 PRE.^CiS^S F'-VALQRES Y F'aC)BABII IC^AUES a F'C^)`^^T^E^ f^IC)RI E: N l E YF `_^ C^E MAXV1+'E^ l t asociada a la nueva verosimilitud Pt^ ( C)= c ^^ 7^ f^ x( 9) d x es, sin embargo, de difícil interpretación. Por ejemplo, parecería deducirse que cualquier punto muestral en C conduce al mismo informe sobre Ho, lo cual es evidentemente falso. Es claro que este mismo problema de interpretación surgió a! considerar la región crítica correspondiente a un nivel de significación a, lo que llevó a la introducción de los p-valores. La expresión del inferior de P9(Ho ( C) con g(d6) en GA y C de la forma C= [t^ (a^ ),t^ (a2)] v[t2(a2),t2(a^ )], lo que equivale a que la información disponible acerca del nivel de significación es que éste pertenezca al intervalo (a^,a2),(ai^a2), viene dada en ei siguiente Lema 2. Lerna 2 Dado el conjunto muestral C=(y^,y2)^(y3,y^} de valores del estadístico T, se tiene que p(Ho^C,GA) - 1+ - ^o no B(C,GA con G(3n/2, 3ny1/2 80, 3ny2/2 + G(3n/2, 60,__.____ 3ny4/2 ^. _ .80) ._ ________ _____- __ _ _ _ ._3ny3/2 _ __ _ ___ _-____ ___ ._ ___60) _ ____ B (C, GA) = I nf ---_ ____^^^___ ^ G(3n/2, 3ny^ /2 8, 3ny2/2 8)+ G(3n/2, 3ny3/2 9, 3ny^/2 6) siendo G( a, z^ , z2 )= ^^ xa^^ e-x d x Demostración. Es inmediata y se omite. En la tabla 4 se presentan los intervalos de p-valores, columna primera, fos inferiores de las probabilidades a posteriori de la hipótesis Ho:6o=1 condicional al conjunto de valores críticos C correspondiente a los intervalos de p-valores para verosimilitudes de Maxwell y para diferentes tamaños muestrales n, columnas segunda a quinta. En la columna sexta, la correspondiente a la verosirnilitud Normal. En todos los casos se ha tomado no=o.5. r^E )^^..s T ^l..I.°a F- ^7E^^^.^^^^ )^ N TA B LA 4 p-valores y probabilidades a posteriori de Ho p-valores (cx) 0.01 <cz<0.05 PIHo^C,GAI PIH^^C,G,p,l n ^=1 n =2 n=4 n -6 Caso Normal 0.079 0.094 0.107 0.113 0.142 De ia tabla 4 se pueden extraer conclusiones similares a las de la tabla 2. Finalmente, si consideramos el intervalo de p-valores 0.01 <_oc<0.05, obtenemos que para el caso de f(t ^ H) el valor del inferior de la probabilidad a posteriori, condicional al conjunto de puntos muestrales correspondientes a ta1 intervalo de p-valores, es 0.0651. 4. COMENTARIOS Y CONCLUSIONES Dos conclusiones son las que pueden extraerse de este trabajo. Por un lado la discrepancia existente entre p-valores y probabilidades a posteriori para hipótesis precisas enunciada en la literatura para la verosimilitud normal unidimensional, se mantiene para las verosimilitudes de Maxwell aunque con menor fuerza. No obstante, hay que hacer notar que la clase de distribuciones a priori usada es la clase de todas las distribuciones con lo que la discrepancia existente es subvalorada. En segundo lugar, se advierte que {a asimetria de la verosimilitud del problema juega su pape{ reduciendo sensiblemente esta discrepancia. La recomendación es, por tanto que en verosimilitudes unidimensionales y para contrastar hipótesis precisas, el uso de los p-valores debe abandonarse, Agradecimientos Agradecernos los comentarios sobre una prirnera versión de este artículo de dos referees y un editor asociado, gracias a los que se ha mejorado su presentación. REFERENCIAS BIBLIOGRAFICAS BERGER, J. C^ . y SELLKE, T. (1987). «Testing a point null hypothesis: The irreconciliability of p-va{ues and evidence» (with discussion). J. Amer. Statist. Assoc., 82 , 112-139. BERGER, J. O. }/ DELAMPADY, M. (^ 987) Sciences, 2, 317-352. . «Testing precise hypotheses». Statisticai i^t`^ f f^F^`-^ 1F Uf ^^^If't 1^ E^::a^<_, f^^E1E ^ 1^;,^^.., F' ^^^'r^l ( JfZE `_^, ^^ ^^F1^ E^^Ei^l ii)F"^;jf F'(^`^ i f+? '; ; fr ' f' ^ 1 E r E`_, f^ E ^,,^ .°^ :x 'ti"v E I l Í l^.^ BERGER, J. O. y MORTERA, J. (1991). «Interpreting the stars in precise hypothesis testing». lnter. Statist. Review, 59, 337-353. CASELLA. C^..^. y BERGER, R. { 1987). «Reconciling Bayesian and frecuentist evidence in the one-sided testing problem». J. Amer. Statist. Assoc., 82, 106-111. CASELLA. G, y WELLS, M. T. { 1991 }. «Reconciliation, Coherence, and P-values». Tech. Report, Cornell University, Ithaca. DELAMPADY, M. y BERGER, J. o. (1990). «Lower bounds on posterior probabilities for multinomial and chi-squared tests». Ann. Statist. 18, 1295-1316. EDWARDS, W., LINDMAN, Fi. y SAVAGE, L.. J. (1963). «Bayesian statistical inference for psycholagical research» . Psych. Review, 70, 193-242. LEHMANN, E. L. (1986). «Testing Statistical Hypotheses». Wiley & Sons. LINDLEY, D. V. (1957). «A statistical paradox». Biometrika, 44, 187-192. MoRENO, E. y cANO, J. A. (1989). «Testing a paint null hypothesis: Asymtotic robust bayesian analysis with respect to the priors given on a subsigrna field». Int. Statist. Review, 57, 221-232. PICCINATO, L. (1991). «Sull'interpretazione del livello di significativitá osservato». Scritti in Omaggio a Luciano Daboni. llniversitá di Trieste, 199-213. REIF, F. (1969). «Statistical Physics». McGraw-Hill. SU M MARY TESTING A PRECISE HYPOTHESIS: P-VALUES AND POSTERIOR PRtJBABILITIES WITH MAXWELL LAWS The problem of testing a precise hypothesis is considered. Results by Lindley (1957}, Berger (1985), Berger and Mortera (1991), show the enormous discrepancy between p-values and posterior probabilities for normal models with known variance. In a multidimensional setting, a key point in finding such a discrepancy is that of «symmetry». This suggests to explore the one-dimensional problem but for a nonsymmetric likelihood. It is seen that the discrepancy still holds, but it is srnaller than that of normal likelihood. Key words: Testing a point null hypothesis, Bayes factor, p-value, posterior probabiiity, robustness AMS Ctassification: 62A 15, 62 F 15. .