Universidad de El Salvador Facultad de Ciencias Naturales y Matemática Escuela de Matemática Seminario II Introducción a la teoría de la desición. 1. Conceptos Básicos Supongamos que una compañia farmaceutica debe decidir si comercializar o no un nuevo analgésico, dos de las mayores factores que afectan esta decision son la proporción de personas para las cuales el analgésico será efectivo (θ1 ), y la proporción del mercado que la droga capturara (θ2 ). Ambos θ1 y θ2 son desconocidos. Este problema es uno de teoría de decisiones en el sentido de que el objetivo final es decidir si comercializar o no el medicamento, cuánto vender, qué precio cobrar, etc. ¿Como resolveriamos este problema utilizando la estadística?. La estadística clásica hace uso de información muestral para hacer inferencias sobre los parámetros poblacionales Estas inferencias clásicas se hacen, en su mayor parte, sin tener en cuenta el uso que se les dará. Además de la información muestral, otros dos tipos de información son típicamente relevantes. + La primera es el conocimiento de las posibles consecuencias de las decisiones. A menudo este conocimiento es cuantificado por determinar la pérdida en la que se podría incurrir para cada decisión posible y para los varios valores posibles de θ . (Los estadísticos parecen ser criaturas pesimistas que piensan en términos de pérdidas. Los teóricos de la decisión en economía y negocios hablan en cambio en términos de ganancias (utilidad). Como nuestra orientación será principalmente estadística, utilizaremos la terminología de la función de pérdida. Note que una ganancia es solo una pérdida negativa, por lo que no hay diferencia real entre los dos enfoques). En el ejemplo de la droga, las pérdidas involucradas en la decisión de comercializar o no la droga serán funciones complicadas de θ1 y θ2 y de muchos otros factores. Una situación simple sería la de estimar θ1 para usarlo posteriormente digamos en una campaña publicitaria. ¿Cuál sería la pérdida en subestimar θ1 ?. La perdida incurrida surge de hacer ver el producto peor de lo que realmente es (afecta adversamente las ventas), mientras que la perdida en sobre estimar θ1 se basaría en los riesgos de posibles sanciones por publicidad engañosa. + EL segundo tipo de información no muestral a considerar es llamada información a priori. Esta es información sobre θ que surge de fuentes distintas de la investigación estadística. Generalmente la información a priori llega de experiencias pasadas acerca de situciaciones similares involucrando θ . En el ejemplo de la droga, es probable que haya una gran cantidad de información sobre θ1 y θ2 de analgésicos diferentes pero muy similares al estudiado. Un ejemplo convincente de la posible importancia de la información previa fue dada por L. J. Savage (1961). Consideró los siguientes tres experimentos estadísticos: 1 1. Una dama, que le agrega leche a su té, afirma ser capaz de decir si el té o la leche se vierte en la taza primero. En los diez ensayos conducidos para probar esto, ella determina correctamente cuál fue vertido primero. 2. Un experto en música afirma ser capaz de distinguir una página de la partitura de Haydn de una página de la partitura de Mozart. En diez ensayos conducidos para probar esto, él hace una determinación correcta cada vez. 3. Un amigo borracho dice que puede predecir el resultado de una moneda justa. En diez ensayos conducidos para probar esto, él esta en lo correcto las diez veces. En todas las situaciones la cantidad desconocida θ es la probabilidad de que la persona responda correctamente. Un prueba de hipótesis clásica sería: H0 : θ = 0.5 (es decir, que la persona esta adivinando). En las tres situaciones la hipótesis sera rechazada con un nivel de significancia(de una cola) de 2−10 . Por consiguiente el experimento da fuerte evidencia que las tres afirmaciones son ciertas. En la situación 2 no hay razon de dudar de esta situación(el resultado es bastante plausible con respecto a nuestras creencias a priori), en la situación 3 sin embargo nuestra opinion a priori es que esta prediccion es imposible, sin no conociesemos que nuestro amigo esta borracho diriamos que ha tenido una buena racha. En la primera situación no esta bastante claro que pensar y personas diferentes darán diferentes conclusiones conforme a su creencia a priori de la veracidad de la afirmación. En estas tres situaciones estadísticas identicas esta claro, la información a priori claramente no puede ser ignorada. EL enfoque estadístico que busca formalmente utilizar información apriori es llamado análisis Bayesiano. El análisis Bayesiano y la teoría de la desición van naturalmente juntos, en parte debido a su objetivo común de utilizar fuentes de información no experimentales, y en parte debido a algunos lazos teóricos profundos. 1.1. Elementos básicos La cantidad desconocida θ que afecta el proceso de decisión es comunmente llamado el estado de la naturaleza, en el proceso de toma de deiciones es importante considerar los posibles estados de la naturaleza. El simbolo Θ sera usado para denotar el conjunto de todos los estados posibles de la naturaleza. Típicamente cuándo realizamos experimentos para obtener información sobre θ , estos son diseñados de manera que las observaciones esten distribuidas conforme alguna distribución de probabilidad que tiene a θ como parámetro desconocido. En estas situaciones θ será llamado el parámetro y Θ el espacio del parámetro. Las decisiones son mas comunmente llamadas acciones en la literatura. Particularmente denotaremos a las acciones por a, mientras que el conjunto de todas las acciones posibles bajo consideración seran denotadas por A . Si una acción particular a1 es tomada y θ1 resulta ser el verdadero estado de la naturaleza, entonces un perdida L(θ1 , a1 ) sera incurrida. Por consiguiente asumimos una función de perdida L(θ , a) valida para todo (θ , a) ∈ ΘxA . Por conveniencia técnica solo funciones de pérdida satisfaciendo L(θ , a) ≥ −K > −∞ serán consideradas. Cuando realizamos una investigación estadística para obtener información sobre θ , el resultado será denotado por X, a menudo X será un vector, como cuando X = (X1 , ...., Xn ), los Xi son observaciones independientes de una distribución comun. Una realización particular de X sera denotada por x. La distribución de probabilidad de X depende del estado desconocido de la naturaleza θ . Por simplicidad asumiremos que 2 si X es cualquier v.a. discreta o continua su función de masa de probabilidad o de densidad siempre será representada por f (x/θ ). De tal forma que si A es un evento y X es continua tendremos Z Pθ (A) = f (x/θ )dx A mientras que si X es discreta, entonces Pθ (A) = ∑ f (x/θ ) x∈A El tercer tipo de información discutido antes es la información a priori sobre θ . Una manera útil de hablar sobre está es en términos de distribución de probabilidad sobre Θ (la información previa sobre θ raramente es muy precisa por lo tanto, es bastante natural establecer las creencias previas en términos de probabilidades de los valores posibles de θ ). El simbolo π(θ ) sera usado para representar la densidad a priori sobre θ (independientemente si θ es continua o discreta). Mas adelante discutiremos la construcción de distribuciones de probabilidades a priori y lo que se entiende por probabilidades sobre θ (en la mayoría de las situaciones no existe nada de aleatorio alrededor de θ , por ejemplo cuando θ es una constante fisica fija pero desconocida que será determinada, la idea básica es que las afirmaciones de probabilidad con respecto a θ deben interpretarse entonces como “probabilidades personales” que reflejan el grado de creencia personal en la probabilidad de la afirmación dada.) Ejemplo 1 Para el ejemplo de la droga supongamos que queremos estimar θ2 , debido a que esta es una proporción esta claro que Θ = {θ2 : 0 ≤ θ2 ≤ 1}. Como el objetivo es estimar θ2 , la acción a tomar es simplemente elegir un número como estimador de θ2 , por consiguiente A = [0, 1](Usualmente A = Θ para problemas de estimación). La compañia a determinado que la función de pérdida es si θ2 − a ≥ 0 θ2 − a L(θ2 , a) = 2(a − θ ) si a − θ ≤ 0 2 2 (La perdida es en unidades de utilidad, un concepto que veremos mas adelante) Notemos que sobrestimar la demanda (por consiguiente una sobre producción de la droga) es considerada dos veces mas costosa que una subestimación de la demanda, por otro lado la pérdida es lineal en el error. Una forma razonable de obtener información de θ2 es realizar un estudio por muestreo, por ejemplo podemos asumir que n personas son entrevistadas, y el número X de personas que comprarián la droga es observado. Puede ser razonable asumir que X es B(n, θ2 ) en ese caso la función de masa de probabilidad muestral es n x f (x/θ2 ) = θ2 (1 − θ2 )n−x x Podría haber información previa de θ2 que este disponible de la introducción de nuevos analgésicos 1 similares en mercado, supongamos que en el pasado, las nuevas drogas tienden a capturar entre 10 y el 15 1 del mercado, donde todos los valores entre 10 y 51 son igualmente probables. Esta información podría ser 3 modelada por dar a θ2 una densidad a priori U (0.1, 0.2), es decir, π(θ2 ) = 10I(0.1,0.2,) (θ2 ) El desarrollo de L, f y π del ejemplo 1 es bastante tosca, usualmente mucho mas detalles de construcción son requeridos para obtener resultados satisfactorios. Ejemplo 2 Un envío de transistores es recibido por una compañía de radio. Es muy costoso verificar el rendimiento de cada transistor por separado, asi que un plan de muestreo es usado para verificar el envío en su totatildidad. Una muestra de n transistores son elegidos y probados. Basado en X el número total de transistores defectuosos en la muestra los transistores serán rechazados o aceptados. ¿Cuáles son las acciones posibles? a1 : aceptar el envío de transistores y a2 : rechazar el envío de transistores. Si n es pequeño comparado con el tamaño del envío podemos suponer que X tiene una distribución B(n, θ ), donde θ es la proporción de transistores defectuosos en el envío. La compañia determina que su función de pérdida es L(θ , a1 ) = 10θ , L(θ , a2 ) = 1 (cuando la acción o decisión a tomar es a2 , la pérdida de valor constante 1, refleja los costos debido a la incoveniencias, retardos y pruebas de un envío de reemplazo), cuando la acción a1 es tomada, la pérdida es estimada proporcional a θ el cuál tambien refleja la proporción de radios defectuosos producidos por la compañia. La compañia de radio tiene en el pasado a recibir numerosos envíos de transistores del mismo proveedor, por lo que ellos tienen un gran almacen de datos sobre el valor de θ en los envíos pasados, de hecho una investigación estadística de los datos pasados revela que θ esta distribuido como Beta(0.05, 1), es decir, π(θ ) = (0.05)θ −0.95 I[0,1] (θ ) Ejemplo 3 Un inversor debe decidir si comprar bonos bastante riesgosos. Si el inversor compra los bonos ellos pueden canjearse a la fecha de vencimiento con una ganancia neta de $500. Sin embargo podría haber un incumplimiento de pago de los bonos en ese caso la inversión orignal de $1000 se habra perdido. Si en lugar de esto el inversor coloca su dinero en una inversión “segura” a él se le garantiza una ganancia neta de $300 sobre el mismo período de tiempo. Él inversor estima que la probabilidad de incumplimiento es 0.1. Aquí A = {a1 , a2 }, donde a1 es la decisión de comprar los bonos, a2 no comprar los bonos. Igualmente Θ = {θ1 , θ2 }, donde θ1 denota que no ocurre el impago y θ2 el impago ocurre. Recordemos que una ganancia es representada por una pérdida negativa, la función de pérdida es dada por la siguiente tabla. θ1 θ2 a1 a2 -500 -300 1000 -300 Cuando tanto Θ como A son finitos, la función de pérdida es facilmente representada por una tabla que es llamada “matriz de pérdida”, las acciones son típicamente colocadas en la parte superior de la tabla y los valores de θ a los lados. 4 La información a priori puede ser escrita como π(θ1 ) = 0.9 y π(θ2 ) = 0.1. Note que en este ejemplo no existe información muestral de un experimento o investigación estadística asociado. Tales problemas son llamados problemas sin datos. No debemos concluir de los ejemplos anteriores que todo problema de decisión tendra una función de perdida bien definida e información apriori explicita, en muchos problemas estas cantidades son vagas o incluso no son únicas, por ejemplo los problemas de inferencia estadística en donde el objetivo no es hacer una decisión inmediata, si no que en su lugar es proporcionar un “resumen” de la evidencia estadística para que una amplia variedad de usuarios puedan incorporarlas facilmente en su propio proceso de toma de decisiones. 2. Estructura de un problema de decisión en el caso discreto Lo primero que hay que hacer cuando nos enfrentamos a un problema de decisión es considerar el conjunto de las posibles formas de actuación que se nos ofrecen. No es necesario distinguir entre una decisión y la acción a que da lugar. En efecto si la acción no llega a realizarce es porque algo lo ha impedido dando lugar con ello a un nuevo problema de decisión. Generalmente, no resulta adecuado considerar únicamente una decisión y su negación como segunda decisión, formulando el problema con sólo dos alternativas. No es correcto, por ejemplo, plantearse si estudiar o no estadística. En efecto, si uno decide no intentar ser estadístico tiene que hacer otra cosa para desarrollar su vida profesional; estudiar otra carrera, buscar un trabajo. Existen en realidad muchas formas alternvativas de desarrollarse profesionalmete y el problema de decisión consiste en una elección entre ellas y no en una simple comparación entre estudiar o no estadística. El primer paso para resolver el problema de decisión es, pues, elaborar el conjunto de las posibles alternativas o decisiones A . Debe ponerse especial atención en la construcción del espacio de acciones porque el modelo que se va a construir se limitará a elegir uno de sus elementos. Nunca puede uno estar totalmente seguro de que se ha incluido en A todas las posibilidades interesantes; siempre puede un compañero ingenioso que nos señale una alternativa que no hemos considerado y nos obligue a replantear el problema. Un buen decisor debe tener la inventiva y el conocimiento del tema suficientes para elaborar un espacio de acciones exhaustivo, es decir que agote todas las posibilidades que puedan, en principio, parecer razonables. Es conveniente, asimismo, exigir que el espacio A de acciones esté constituido por un conjunto de alternativas, de forma que la elección de uno de los elementos de A excluya la elección de cualquier otro. Este requerimiento no supone pérdida de generalidad. Asi por ejemplo, para elegir los elementos opcionales que se desean en un nuevo carro, la lista de opciones ofrecidas por el fabricante no es un espacio de decisiones adecuado puesto que uno puede desear dos o más de las opciones ofrecidas, pero el conjunto de las partes de tal lista resulta serlo. De forma analoga cualquier problema de decisión puede plantearse con el de la elección de un elemento, y uno sólo, de un conjunto apropiado. En principio, el espacio A puede contener infinitas alternativas, sin embargo en la mayor parte de las aplicaciones, A es un conjunto finito, lo que justifica que nos limitemos por el momento a considerar este 5 caso cuando ello dé lugar a una simplificación matemática notable. Considerar la mejor de un conjunto de acciones sería, en principio, inmediato si tuviésemos la información completa sobre las consecuencias de cada una de ellas. El vendedor de periódicos que debe decidir sobre el número de ejemplares con que se queda no tendría problemas si supiese el número que podría vender. El médico que ante un caso determinado de duda entre un tratamiento médico y uno quirúrgico no vacilaría si conociese las causas y el desarrollo de la afección. La principal dificultad con que uno se encuentra al plantearse un problema de decisión consiste en la falta de información sobre lo que sucederá según se actúe de una u otra manera. El problema general de decisión se plantea, pues, en ambiente de incertidumbre. Existen situaciones en las que se tiene información completa y, sin embargo, es difícil tomar la decisión correcta, pero en estos casos la dificultad es de tipo técnico, no conceptual. Así por ejemplo, a pesar de disponer de toda la información relevante, es difícil decidir cual es la mejor estrategia en un momento determinado de una partida de ajedrez o determinar la dieta más barata que cumplen ciertos requisitos de nutrición. Sin embargo, la dificultad en estos casos es sólo de tipo técnico: el enorme número de estrategias posibles en el primer caso y el problema matemático de encontrar un máximo condicionado en el segundo, pero no aparecen dudas sobre el criterio de decisión que debe adoptarse. En este curso no se consideran tales dificultades técnicas: Supondremos que en presencia de información completa siempre puede elegirse la mejor de un conjunto de alternativas. Si no mas bién estudiaremos en su lugar el proceso lógico de decisión en ambiente de incertidumbre, es decir del método a seguir para tomar decisiones cuando no se dispone de toda la información que se juzga relevante. Puesto que la dificultad esencial en un problema de decisión reside en las incertidumbres presentes en la situación es necesario considerar éstas con cuidado e introducirlas en la teoría. Así una vez determinado el espacio de decisiones, habrá que considerar para cada una de las decisiones posibles el conjunto de sucesos inciertos1 que determinan sus eventuales consecuencias. Esquemáticamente, la situación, en el caso de un número finito de alternativas y un número finito de sucesos inciertos puede representarse mediante un árbol de decisión de la forma. 1 Los estados de la naturaleza 6 a1 ai ak θ11 c11 θ12 c12 θ1,m1 c1m1 θi1 ci1 θi2 ci2 θi,mi ci,mi θk1 ck1 θk2 ck2 θk,mk ckmk donde A = {a1 , ..., ak } es el espacio de acciones y Θ = {θi1 , θi2 , ..., θimi } es el conjunto de los mi sucesos inciertos cuya eventual ocurrencia afecta el resultado de tomar la decisión ai , de forma que si se toma la decisión ai y sucede θi j se obtiene la consecuencia ci j 2 . El diagrama empieza en un nodo de decisión representado por un cuadrado. Cualquiera que sea la decisión elegida se llega a un nodo aleatorio, representado por un círculo, sobre el que el decisor, no tiene control alguno. Las ramas de los nodos aleatorios pueden subdividirse, dando lugar a nuevos nodos aleatorios, si la relevancia de determinados sucesos inciertos dependen de que ocurran o no algunos de ellos. El árbol debe construirse de forma que los sucesos inciertos a que da lugar cada uno de los nodos aleatorios sean mutuamente excluyentes y constituyan un conjunto exhaustivo. Así, por ejemplo, con referencia a la figura, si se toma la decisión a1 tiene que ocurrir uno y solo uno de los m1 sucesos {θ11 , θ12 , ..., θ1m1 }. Como en el caso de las decisiones, siempre puede conseguirse que los sucesos inciertos correspondientes a un nodo aleatorio sean mutuamente excluyentes, pero la exhaustividad no es fácil de garantizar; la construcción de espacios de sucesos inciertos que contemplen todas las eventualidades relevantes suele exigir un conocimiento profundo del área de aplicación. Ejemplo 4 Oportunidad de una operación Un médico debe decidir si realizar una peligrosa operación a una persona que se cree puede tener un tumor, o recurrir a una determinada medicación. Si el paciente no tiene el tumor su esperanza de vida se estima en 20 años. Si lo tiene, se opera y sobrevive a la operación, en 10 años, y si tiene el tumor no se opera, sólo le dan dos años de vida. Construir el correspondiente árbol de decisión. El espacio de decisiones tiene claramente solo dos elementos a1 = operar y a2 = medicar. Si se realiza la operación el paciente puede sobrevivir o morir en ella y, si sobrevive, la consecuencia final depende de que tenga o no el tumor. Si no se opera no puede morir en la operación, pero la consecuencia final dependerá de nuevo de que el paciente tenga o no el tumor. El correspondiente arbol de decisión es pues, 2 estos elementos forman parte de la función de pérdida 7 tumor 10 años de vida supervivencia no tumor Operación(a1 ) muerte 20 años de vida 0 años de vida tumor 2 años de vida medicación(a2 ) no tumor 20 años de vida La mayoría de los problemas de decisión tienen, aparentemente, una estructura mas compleja que la del problema de decisión que se ha descrito. Por ejemplo, se puede plantear inicialmente si realizar o no un expxerimento y en caso afirmativo, tratar de decidir cual es la acción más adecuada según el resultado del experimento. Se puede asimismo considerar problemas secuenciales de decisión constituidos por la yuxtaposición de problemas como el anterior. Si embargo, tales problemas complejos de decisión pueden ser resueltos analizando sucesivamente cada uno de los subproblemas, como el descrito, que lo constituyen, por lo que basta que nos ocupemos de resolver éste último. 8