Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Modelos lineales Tema 8. Selección y validación del modelo Carmen Armero 9 de marzo de 2011 Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Introducción Un vistazo al proceso de construcción del modelo Colección de datos Preparación de los datos Reducción de variables explicativas Refinamiento del modelo y selección de variables Validación del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Algoritmos que buscan el “mejor” modelo Métodos de regresión por etapas. Validación del modelo Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Introducción, I I En este tema presentaremos primero una panorámica general del proceso de construcción y validación del modelo. I Posteriormente estudiaremos con más detalle algunos elementos especiales asociados a la selección de variables explicativas en estudios observacionales. I Concluiremos el tema con una breve descripción de algunos procedimientos de validación para los modelos de regresión. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Colección de datos Preparación de los datos Reducción de variables explicativas Refinamiento del modelo y selección de variables Validación del modelo Un vistazo al proceso de construcción del modelo, I La estrategia general, muy simplificada, para construir el modelo de regresión lineal incluye cuatro fases: 1. Colección y preparación de los datos. 2. Reducción de variables predictoras (en estudios observacionales exploratorios) 3. Refinamiento del modelo y selección de variables. 4. Validación del modelo. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Colección de datos Preparación de los datos Reducción de variables explicativas Refinamiento del modelo y selección de variables Validación del modelo Colección de datos, I I La colección de datos necesaria para construir un modelo de regresión depende de la naturaleza del estudio. I Resulta conveniente distinguir cuatro tipos de estudios diferentes: I Experimentos controlados. I Experimentos controlados con covariables. I Estudios observacionales confirmatorios. I Estudios observacionales exploratorios. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Colección de datos Preparación de los datos Reducción de variables explicativas Refinamiento del modelo y selección de variables Validación del modelo Colección de datos, II La colección de datos necesaria para construir un modelo de regresión depende de la naturaleza del estudio. I Experimentos controlados. En este tipo de experimentos el investigador controla los diferentes niveles de las variables explicativas, asigna un tratamiento (combinación de niveles de las variables explicativas) a cada unidad experimental y observa la respuesta. En este tipo de experimentos a las variables explicativas se les suele llamar factores o variables de control. I Experimentos controlados con covariables. El diseño estadı́stico de experimentos puede utilizar información suplementaria, como por ejemplo las caracterı́sticas de las unidades experimentales, para conseguir una reducción en la variabilidad de los términos de error. Esta información no siempre es posible incluirla en el diseño experimental. Una forma sencilla de incorporarla en un modelo de regresión es a través de variables no controladas a las que se les suele llamar covariables. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Colección de datos Preparación de los datos Reducción de variables explicativas Refinamiento del modelo y selección de variables Validación del modelo Colección de datos, III I Estudios observacionales confirmatorios. Basados en datos observacionales que tienen como objetivo confirmar o no hipótesis derivadas de estudios previos o incluso de conjeturas bien documentadas. Los datos corresponden a aquellas variables predictoras que en estudios anteriores han presentado una cierta relación con la variable respuesta y a nuevas variables predictoras relacionadas con los objetivos propuestos. A este tipo de variables predictoras se les conoce como variables primarias. Y a las que proceden de estudios anteriores se les conoce como variables control (factores de riesgo en estudios epidemiológicos). Por ejemplo, en un estudio observacional sobre el efecto de la vitamina E en la ocurrencia de un cierto tipo de cáncer la edad y el género son factores de riesgo que pueden ser incluidos en el análisis como variables control, mientras que la cantidad de vitamina E administrada podrı́a ser la variable predictora primaria. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Colección de datos Preparación de los datos Reducción de variables explicativas Refinamiento del modelo y selección de variables Validación del modelo Colección de datos, IV I Estudios observacionales exploratorios. Son habituales en aquellas áreas en las que no es posible desarrollar experimentos controlados y se tiene poca información para desarrollar estudios observacionales confirmatorios. En gran parte de estos estudios el objetivo se centra en la búsqueda de aquellas variables explicativas que pudieran estar relacionadas con la variable respuesta. Cuando se dispone de un conjunto grande de variables potencialmente útiles, éstas deben analizarse cuidadosamente porque pueden no ser importantes en el problema, estar sujetas a errores de medida y/o también pueden contener casi la misma información que alguna de las variables consideradas. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Colección de datos Preparación de los datos Reducción de variables explicativas Refinamiento del modelo y selección de variables Validación del modelo Preparación de los datos I Cuando ya se han recogido los datos, el siguiente paso es editarlos y representarlos gráficamente para identificar errores y outliers. La presencia de errores en los datos es habitual cuando se trabaja con bancos de datos grandes y deberı́a corregirse antes de empezar el proceso de contrucción del modelo. I Aunque éste es un proceso generalmente olvidado es, sin embargo, muy importante porque la fiabilidad y calidad del trabajo estadı́stico realizado depende de la materia prima del análisis, que son los datos. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Colección de datos Preparación de los datos Reducción de variables explicativas Refinamiento del modelo y selección de variables Validación del modelo Reducción de variables explicativas, I I Experimentos controlados. La reducción de variables explicativas en la construcción del modelo no es generalmente importante en experimentos controlados. El experimentador ha seleccionado las variables explicativas y construye el modelo de regresión que le permite estudiar el efecto de estas variables sobre la variable respuesta. Cuando ya se ha construido el modelo el proceso inferencial que ya conocemos nos servirá para valorar si las variables explicativas tienen efecto sobre la variable respuesta, y en su caso, la naturaleza y magnitud de dichos efectos. I Experimentos controlados con covariables. En este tipo de estudios puede plantearse una reducción de las covariables porque a priori el investigador no sabe exactamente si las covariables seleccionadas son útiles para reducir la varianza del error. El número de covariables de este tipo de estudios suele ser pequeño, por lo que no es muy complicado valorar si alguna de las covariables puede eliminarse del modelo. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Colección de datos Preparación de los datos Reducción de variables explicativas Refinamiento del modelo y selección de variables Validación del modelo Reducción de variables explicativas, II I Estudios observacionales confirmatorios. En general no tiene sentido reducir las variables explicativas en este tipo de estudios. La variables control se han seleccionado siguiendo criterios expertos y deberı́an utilizarse todas ellas para comparar con estudios anteriores, incluso cuando alguna de las variables control no conlleve ninguna reducción en el término de la varianza del error. Las variables primarias son aquellas cuya relación sobre la variable respuesta se analiza y por lo tanto necesitan estar presentes en el modelo. I Estudio observacionales exploratorios. En este tipo de estudios el número de variables explicativas es habitualmente grande y muchas de las variables están altamenente correladas. Por lo tanto, serı́a deseable reducir el número de variables explicativas que deberán utilizarse finalmente en la construcción del modelo porque un modelo de regresión con muchas variables explicativas es dificil de manejar y en cambio, uno con pocas variables explicativas es mucho más robusto y más fácil de entender. También, la presencia de variables explicativas altamente correlacionadas puede aumentar la variabilidad de los coeficientes de regresión, aumentar los errores de redondeo en la computación y empeorar las habilidades predictivas del modelo. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Colección de datos Preparación de los datos Reducción de variables explicativas Refinamiento del modelo y selección de variables Validación del modelo Refinamiento del modelo y selección de variables I El modelo de regresión construido, o los distintos modelos de regresión adecuados en el caso de estudios observacionales exploratorios, deben analizarse para comprobar si son o no adecuados para describir el problema estudiado. En esta etapa debe realizarse un cuidadoso análisis de los residuos. I Cuando en un estudio observacional exploratorio se ha realizado un proceso automático de selección de variables que concluye proponiendo un modelo como el mejor también deberı́an también explorarse el resto de los modelos. Un procedimiento habitual es utilizar el número de variables explicativas del mejor modelo como un estimador del número de variables explicativas necesarias en el modelo. De esa forma se puede explorar e identificar otros modelos candidatos que tengan aproximadamente el mismo número de variables explicativas que las que proporciona el procedimiento automático. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Colección de datos Preparación de los datos Reducción de variables explicativas Refinamiento del modelo y selección de variables Validación del modelo Validación del modelo I Este concepto incluye diferentes propiedades que deberı́a tener un buen modelo de regresión: I I I Estabilidad y sensatez de los coeficientes de regresión, Plausibilidad y utilidad del modelo de regresión construido, Habilidad para generalizar inferencias a partir del análisis de regresión construido. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Criterios para la selección de modelos I Cuando se consideran k variables explicativas pueden construirse 2k modelos de regresión diferentes, por lo que en la mayorı́a de las ocasiones es imposible realizar un análisis detallado de todos los modelos de regresión posibles. Si bien a nivel de computación es bastante rápido analizar todos los modelos si que resulta casi imposible que el investigador pueda valorarlos adecuadamente. I Los procedimientos de selección de variables intentan identificar un pequeño grupo de variables explicativas que sean buenas según un cierto criterio. I Aunque se han desarrollado muchos criterios para comparar modelos nosotros 2 , C , AIC , nos centraremos únicamente en seis de los más utilizados: Rk2 , Ra,k k k SBCk y PRESSk . Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Criterio basado en el coeficiente de determinación múltiple, Rk2 I Este criterio utiliza el coeficiente de determinación múltiple R 2 . El subı́ndice en k el coeficiente Rk2 indica que el número de variables explicativas en el modelo es k − 1 y por lo tanto tenemos k coeficientes de regresión. I R 2 = 1 − SSEk k SST I Puesto que SST es constante en todos los modelos de regresión con la misma variable respuesta el coeficiente Rk2 variará inversamente con SSEk . I El criterio R 2 no intenta identificar los grupos de variables mejores porque k sabemos que Rk2 nunca decrece conforme se van añadiendo variables al modelo y, por lo tanto, su valor máximo se alcanzará cuando incluyamos todas las variables explicativas en el modelo. I La utilidad del criterio R 2 es la de detectar situaciones en las que la inclusión de k más variables al modelo no parezca muy sensato porque incrementa en muy poquito el coeficiente de determinación. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo 2 Criterio basado en el coeficiente de determinación múltiple ajustado Ra,k o el error cuadrático medio, MSEk I Como R 2 no tiene en cuenta el número de parámetros del modelo y nunca k decrece cuando k aumenta suele utilizarse el coeficiente de determinación múltiple ajustado. utiliza como criterio alternativo I R2 = 1 − a,k n−1 SSEk n−k SST =1− MSEk SST n−1 I Este coeficiente incorpora el número de parámetros del modelo, k. I R 2 aumenta si y sólo si el error cuadrático residual, MSEk , decrece siendo a,k 2 y MSE proporcionan información SST /(n − 1) fijo. Por lo tanto Ra,k k equivalente. I R 2 puede decrecer aún cuando el número de parámetros aumente. a,k Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Criterio Ck de Mallows, I I Este criterio considera el error cuadrado medio total de los n valores ajustados. I Si consideramos la media µi = E(Yi | Xi1 , . . . , Xi,k−1 ) el error cuadrático medio de Ŷi se define como: E(Ŷi − µi )2 = (E(Ŷi ) − µi )2 + σŶ2 i siendo σ 2 la varianza del valor ajustado Ŷi . Ŷi I El error cuadrático medio para todos los valores ajustados Ŷi es: n X E(Ŷi − µi )2 = i=1 Tema 8. Selección y validación del modelo n X (E(Ŷi ) − µi )2 + i=1 n X i=1 Modelos lineales σŶ2 i Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Criterio Ck de Mallows, II I El criterio de Mallow considera el cociente entre el error cuadrático medio total y la varianza del modelo σ 2 : Γk = n n X 1 X 2 2 (E( Ŷ ) − µ ) + σ i i Ŷi σ 2 i=1 i=1 I Pero como Γk contiene parámetros desconocidos se utiliza su estimador Ck , que se define como: Ck = SSEk − (n − 2k), MSE (X1 , . . . , Xk−1 ) siendo SSEk la suma de cuadrados residual para el modelo de regresión con k parámetros y MSE (X1 , . . . , Xk−1 ) la estimación de la varianza del modelo que contiene como variables explicativas X1 , . . . , Xk−1 . I Cuando el modelo no presenta sesgos la esperanza de la distribución en el muestreo de Ck es E(Ck ) ≈ k Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Criterio Ck de Mallows, III I Cuando representamos gráficamente Ck en relación a los diferentes valores de k los modelos poco sesgados tienden a estar alrededor de la recta Ck = k. Los modelos con mucho sesgos tienden a tener valores de Ck grandes, y modelos con valores de Ck más pequeños que k no son sesgados pero sus valores pequeñitos se asocian a errores de muestreo. I Cuando utilizamos el criterio Ck de Mallows intentamos identificar subconjuntos de variables para los que I Ck es pequeño, I Ck está cercano a k Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Criterios AICk de Akaike y Bayesiano de Schwarz, SBCk I Los criterios de selección de modelos R 2 y Ck penalizan los modelos con un a,k número grande de variables predictoras. I Dos criterios alternativos que también penalizan la inclusión de variables predictoras en el modelo son el criterio de información de Akaike (AICk ) y el criterio Bayesiano de Schwarz (SBCk ). I Ambos criterios seleccionan aquellos modelos para los que se obtienen los valores más pequeños de los estadı́sticos: I AICk = n ln SSEk − n ln n + 2k I SBCk = n ln SSEk − n ln n + [ln n] k I En ambos estadı́sticos el primer término es n ln SSEk , que decrece cuando k aumenta. El segundo término es constante (para un tamaño muestral n fijo) y el tercer término crece con el número de coeficientes de regresión k. I Los modelos con valores pequeños de SSEk funcionan bien con estos criterios en la medida en que las penalizaciones, 2k para AICk y [ln n] para SBCk , no sean muy grandes. Si n ≥ 8 la penalización para SBCk es mayor que para AICk , y por lo tanto, el criterio SBCk tiende a favorecer los modelos más parsimoniosos. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Criterio PRESSk I Este criterio, cuyo acrónimo viene del término inglés prediction sum of squares, es una medida de cómo de buenos son los valores ajustados del modelo de regresión para predecir las observaciones de la variable respuesta. P I Aunque la suma de cuadrados residual, SSEk = (Yi − Ŷi )2 , valora también el mismo concepto, PRESSk difiere de SSEk en que cada valor ajustado Ŷi con este criterio se obtiene eliminando de los datos el caso i, estimando la función de regresión del modelo con los restantes n − 1 datos y utilizando la correspondiente función de regresión estimada para obtener el valor ajustado Ŷi(i) para el caso i. I El estadı́stico correspondiente a este criterio es: PRESSk = Pn i=1 (Yi − Ŷi(i) )2 I Los modelos con valores prequeños de PRESSk se consideran buenos modelos porque cuando los errores de predicción Yi − Ŷi(i) son pequeños también lo son su cuadrado y, por lo tanto, su suma. I No hace falta realizar n regresiones distintas para evaluar PRESSk . Puede demostrarse que los errores (Yi − Ŷi(i) )2 son iguales a ei /(1 − hii ), siendo ei el residuo del modelo ajustado con todas las observaciones y hii el elemento (i, i) de la matriz de proyección H. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Ejemplo: Hospital, 8.I En una unidad quirúrgica de un hospital se plantea un estudio sobre la supervivencia de los enfermos a los que se ha practicado una determinada operación de hı́gado. Se ha seleccionado una muestra aleatoria de 108 de dichos enfermos. Para cada uno de ellos se ha registrado, además de su tiempo de supervivencia, la siguiente información correspondiente a su evaluación pre-operatoria. I X1 : Coagulación de la sangre I X2 : Indicador de pronóstico I X3 : Indicador de la función enzimática I X4 : Indicador de la función del hı́gado I X5 : Edad, en años. I X6 : Género (hombre=0, mujer=1) I X7 : Historial de consumo moderado de alcohol (Si=1, No=0) I X8 : Historial de consumo elevado de alcohol (Si=1, No=0) El conjunto de variables predictivas incluye dos variables categóricas: Género (hombre, mujer) e historial de consumo de alcohol (ninguno, moderado, elevado), por lo que para la inclusión de esta última variable en el banco de datos utilizamos dos variables dicotómicas, X7 y X8 . Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Ejemplo: Hospital, 8.II Una pequeña muestra de los datos es: Caso Coagu lación Pronós tico Enzima Hı́gado Edad Género Alcoh mo derado Alcoh severo LnSuper vivencia 1 2 3 . . . 52 53 54 6.6 5.1 7.4 . . . 6.4 6.4 8.8 62 59 57 . . . 85 59 78 81 66 83 . . . 40 85 72 2.59 1.70 2.16 . . . 1.21 2.33 3.20 50 39 55 . . . 58 63 56 0 0 0 . . . 0 0 0 1 0 0 . . . 0 1 0 0 0 0 . . . 1 0 0 6.544 5.999 6.565 . . . 6.361 6.310 6.478 Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Ejemplo: Hospital 8.III Si sólo trabajáramos con las primeras cuatro variables predictoras. Variables en el modelo k SSEk Rk2 2 Ra,k Ck AICk SBCk PRESSk Ninguna X1 X2 X3 X4 X1 , X2 X1 , X3 X1 , X4 X2 , X3 X2 , X4 X3 , X4 X1 , X2 , X3 X1 , X2 , X4 X1 , X3 , X4 X2 , X3 , X4 X1 , X2 , X3 , X4 1 2 2 2 2 3 3 3 3 3 3 4 4 4 4 5 12.808 12.031 9.979 7.332 7.409 9.443 5.781 7.299 4.312 6.622 5.130 3.109 6.570 4.968 3.614 3.084 0.000 0.061 0.221 0.428 0.422 0.263 0.549 0.430 0.663 0.483 0.599 0.757 0.487 0.612 0.718 0.759 0.000 0.043 0.206 0.417 0.410 0.234 0.531 0.408 0.650 0.463 0.584 0.743 0.456 0.589 0.701 0.740 151.498 141.164 108.556 66.489 67.715 102.031 43.852 67.972 20.520 57.215 33.504 3.391 58.392 32.932 11.424 5.000 -75.703 -77.079 -87.178 -103.827 -103.262 -88.162 -114.658 -102.067 -130.483 -107.324 -121.113 -146.161 -105.748 -120.844 -138.023 -144.590 -73.714 -73.101 -83.200 -99.849 -99.284 -82.195 -108.691 -96.100 -124.516 -101.357 -115.146 -138.205 -97.792 -112.888 -130.067 -134.645 13.296 13.512 10.744 8.327 8.025 11.062 6.988 8.472 5.065 7.476 6.121 3.914 7.903 6.207 4.598 4.069 Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Algoritmos que buscan el “mejor” modelo Métodos de regresión por etapas. Procedimientos automáticos de selección de modelos I Sabemos que si tenemos k − 1 variables explicativas, el número de posibles modelos de regresión es 2k−1 , que es una cantidad que aumenta muy rápidamente con k. I Evaluar todos los posibles modelos es una tarea descomunal. I Para simplificar este trabajo se han propuesto una gran variedad de métodos de selección de modelos basados en procedimientos de computación automáticos. I Sólo describiremos dos de los más populares con detalle: los algoritmos de búsqueda del “mejor” modelo (o del “mejor” subconjunto de variables explicativas) y los métodos de regresión por etapas. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Algoritmos que buscan el “mejor” modelo Métodos de regresión por etapas. Algoritmos que buscan el “mejor” modelo I Son algoritmos rápidos que permiten seleccionar el mejor modelo de acuerdo con el criterio elegido sin necesidad de evaluar todos los posibles subconjuntos de variables predictoras. I Por ejemplo, si se utiliza el criterio Ck de Mallows y se eligen los cinco mejores modelos según este criterio estos algoritmos buscan los cinco subconjuntos de variables explicativas con menor valor de Ck utilizando mucho menor esfuerzo computacional que si tuvieran que evaluar todos los posibles modelos. I Algunos de estos algoritmos proporcionan información adicional e identifican también distintos subconjuntos buenos para cada posible número de variables explicativas en el modelo. I Cuando el número de variables explicativas es muy grande (de 30 ó más) estos procedimientos empiezan a requerir demasiado tiempo computacional y es conveniente recurrir a los métodos de regresión por etapas. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Algoritmos que buscan el “mejor” modelo Métodos de regresión por etapas. Métodos de regresión por etapas, I. I Son procedimientos de búsqueda automáticos que seleccionan el mejor subconjunto de variables predictoras de forma secuencial. I De todos ellos, el más utilizado es el método de regresión por etapas hacia adelante (forward). Trabaja con una secuencia de modelos de regresión para los que en cada etapa añade o elimina una variable predictora X. El criterio para añadir una variable X puede establecerse de forma equivalente a través de la reducción en la suma de cuadrados residuales, el coeficiente de correlación parcial, el estadı́stico t o el estadı́stico F . I Una diferencia esencial entre este tipo de procedimientos y los de el mejor modelo es que los primeros acaban cuando identifican un único modelo de regresión como el mejor mientras que los segundos proponen como buenos varios modelos a la espera de una valoración definitiva. I La identificación de un único modelo como el mejor es una debilidad de los métodos de regresión por etapas porque en algunos casos se equivocan. La bondad de un modelo de regresión sólo puede establecerse a través de un cuidadoso proceso de diagnóstico del modelo. I ¿Qué hacemos entonces? Deberı́amos considerar que el subconjunto de variables identificadas a través de un procedimiento automático es un punto de partida para iniciar la búsqueda y comparación con otros modelos alternativos buenos. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Algoritmos que buscan el “mejor” modelo Métodos de regresión por etapas. Regresión por etapas forward, I. Vamos a describir el método de regresión por etapas forward en términos del estadı́stico t. Etapa 1: El procedimiento empieza ajustando un modelo de regresión lineal simple para cada una de las k − 1 potenciales variables explicativas. Para cada modelo de regresión ajustado se utiliza el estadı́stico: t= bm , m = 1, 2, . . . , k − 1 sbm para valorar si la pendiente del modelo es o no significativa. Aquella variable con mayor valor del estadı́stico (o menor P-valor) es la primera variable candidata para entrar en el modelo. Si su correspondiente P-valor es menor que el nivel de significatividad α considerado entonces la variable es incluida en el modelo. En caso contrario el procedimiento acaba sin que ninguna de las variables explicativas candidatas sean incluidas en el modelo. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Algoritmos que buscan el “mejor” modelo Métodos de regresión por etapas. Regresión por etapas forward, II. Seguimos describiendo el método de regresión por etapas forward en términos del estadı́stico t. Etapa 2: Supongamos ahora que, por ejemplo, se ha incluido una primera variable explicativa, por ejemplo X7 . El procedimiento sigua ahora ajustado todos los modelos con dos variables explicativas siendo siempre X7 una de las dos variables de cada pareja. Para cada uno de estos modelos de regresión ajustados considera el estadı́stico t para la nueva variable en el modelo que acompaña a X7 . Es decir, valora la hipótesis βm = 0, m = 1, 2, . . . , k, con m 6= 7 con X7 y Xm en el modelo. La variable Xm con mayor valor de t (o menor P-valor) serı́a la candidata para entrar en el modelo en esta segunda fase. Si su correspondiente P-valor es menor que el nivel de significatividad α considerado entonces la variable es incluida en el modelo. En caso contrario el procedimiento acaba y el modelo seleccionado sólo incluye la variables X7 . Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Algoritmos que buscan el “mejor” modelo Métodos de regresión por etapas. Regresión por etapas forward, III. Seguimos describiendo el método de regresión por etapas forward en términos del estadı́stico t. Etapa 3: Supongamos ahora que, por ejemplo, se ha incluido X3 como segunda variable explicativa en el modelo. El procedimiento sigua ahora ajustado todos los modelos con tres variables explicativas siendo siempre X7 y X3 dos de las tres variables de cada terna. Para cada uno de estos modelos de regresión ajustados considera el estadı́stico t para la nueva variable en el modelo que acompaña a X7 y X3 . Es decir, valora la hipótesis βm = 0, m = 1, 2, . . . , k, con m 6= 7, 3 con X7 , X3 y Xm en el modelo. La variable Xm con mayor valor de t (o menor P-valor) serı́a la candidata para entrar en el modelo en esta tercera etapa. Si su correspondiente P-valor es menor que el nivel de significatividad α considerado entonces la variable es incluida en el modelo. En caso contrario el procedimiento acaba y el modelo seleccionado sólo incluye la variables X7 y X3 . El procedimiento continuarı́a acumulando etapas hasta llegar a la etapa final, que como máximo incluirı́a a todas las variables predictoras consideradas previamente. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Algoritmos que buscan el “mejor” modelo Métodos de regresión por etapas. Regresión por etapas backward. El procedimiento de regresión por etapas backward empieza considerando el modelo de regresión con todas las variables explicativas candidatas y actúa de forma similar al forward pero valorando la posible eliminación de variables explicativas del modelo en cada una de las etapas del procedimiento. Regresión forward. Es una simplificación del método de selección por etapas forward en el que cuando una variable predictora es candidata a entrar en el modelo no se valora su posible no entrada. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Validación del modelo, I. La etapa final en el proceso de construcción del modelo es la validación del modelo seleccionado. En esta fase se valora el modelo elegido en relación a un conjunto de datos independiente del utilizado para su estimación. Las tres formas básicas de validar un modelo son: I Obtener nuevos datos para evaluar el modelo y sus habilidades predictivas. I Comparar los resultados con los que serı́an esperables, razonables, con resultados de estudios previos y simulados. I Utilizar un ejemplo para valorar el modelo y su habilidad predictiva Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Validación del modelo, II. I Cuando se utiliza un modelo de regresión en un experimento controlado, una repetición del experimento y su análisis sirven para validar los hallazgos del estudio inicial siempre que se obtengan resultados parecidos de los coeficientes de regresión estimados y de su capacidad predictiva. I De forma similar, los resultados obtenidos en estudios confirmatorios observacionales pueden validarse a través de una repetición del estudio con otros datos. I En estudios observacionales exploratorios el proceso de validación deberı́a incluir además un estudio acerca del subconjunto de variables explicativas seleccionadas. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Division, separación del banco de datos. I El método ideal para validar un modelo de regresión siempre es a través de un nuevo banco de datos, aunque en la mayoria de los casos ésto es imposible. I Una alternativa, cuando el tamaño muestral es razonablemente grande, es dividir el banco de datos en dos trozos. El primer trozo, al que se conoce como conjunto para la construcción del modelo o muestra de entrenamiento, se utiliza para desarrollar el modelo. El segundo trozo, conocido como muestra de validación o de predicción se utiliza para evaluar la sensatez y habilidad predictiva del modelo escogido. A este procedimiento de validación se le conoce como validación cruzada. Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Ejemplo: Hospital 8.III Los tres modelos candidatos a mejor modelo según los distintos criterios utilizados son: Modelo Criterio Variables Modelo 1 Modelo 2 Modelo 3 SBCk , PRESSk Ck 2 , AIC Ra,k k X1 , X2 , X3 , X8 X1 , X2 , X3 , X5 , X8 X1 , X2 , X3 , X5 , X6 , X8 Tema 8. Selección y validación del modelo Modelos lineales Introducción Un vistazo al proceso de construcción del modelo Criterios para la selección de modelos Procedimientos automáticos de selección de modelos Validación del modelo Ejemplo: Hospital 8.III k b0 sb0 b1 sb1 b2 sb2 b3 sb3 b5 sb5 b6 sb6 b8 sb8 SSEk PRESSk Ck MSEk 2 Ra,k Modelo 1 M. entre namiento Modelo 1 M. vali dación Modelo 2 M. entre namiento Modelo 2 M. vali dación Modelo 3 M. entre namiento Modelo 3 M. vali dación 5 3.8524 0.1927 0.0733 0.0190 0.0142 0.0017 0.0155 0.0014 0.3530 0.0772 2.1788 2.7378 5.7508 0.0445 0.8160 5 3.6350 0.2894 0.0958 0.0319 0.0164 0.0023 0.0156 0.0020 0.1860 0.0964 3.7951 4.5219 6.2094 0.0775 0.6824 6 3.8671 0.1906 0.0712 0.0188 0.0139 0.0017 0.0151 0.0014 0.0869 0.0582 0.3627 0.0765 2.0820 2.7827 5.5406 0.0434 0.8205 6 3.6143 0.2907 0.0999 0.0323 0.0159 0.0024 0.0154 0.0020 0.0731 0.0972 0.1886 0.0966 3.7288 4.6536 7.3331 0.0777 0.6815 7 4.0540 0.2348 0.0715 0.0186 0.0138 0.0017 0.0151 0.0014 -0.0035 0.0026 0.0873 0.0577 0.3509 0.0764 2.0052 2.7723 5.7874 0.0427 0.8234 7 3.4699 0.3468 0.0987 0.0325 0.0162 0.0024 0.0156 0.0021 0.0025 0.0033 0.0727 0.0795 0.1931 0.0972 3.6822 4.8981 8.7166 0.0783 0.6787 Tema 8. Selección y validación del modelo Modelos lineales