Modelos lineales

Anuncio
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Modelos lineales
Tema 8. Selección y validación del modelo
Carmen Armero
9 de marzo de 2011
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Introducción
Un vistazo al proceso de construcción del modelo
Colección de datos
Preparación de los datos
Reducción de variables explicativas
Refinamiento del modelo y selección de variables
Validación del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Algoritmos que buscan el “mejor” modelo
Métodos de regresión por etapas.
Validación del modelo
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Introducción, I
I En este tema presentaremos primero una panorámica general del proceso de
construcción y validación del modelo.
I Posteriormente estudiaremos con más detalle algunos elementos especiales
asociados a la selección de variables explicativas en estudios observacionales.
I Concluiremos el tema con una breve descripción de algunos procedimientos de
validación para los modelos de regresión.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Colección de datos
Preparación de los datos
Reducción de variables explicativas
Refinamiento del modelo y selección de variables
Validación del modelo
Un vistazo al proceso de construcción del modelo, I
La estrategia general, muy simplificada, para construir el modelo de regresión lineal
incluye cuatro fases:
1. Colección y preparación de los datos.
2. Reducción de variables predictoras (en estudios observacionales exploratorios)
3. Refinamiento del modelo y selección de variables.
4. Validación del modelo.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Colección de datos
Preparación de los datos
Reducción de variables explicativas
Refinamiento del modelo y selección de variables
Validación del modelo
Colección de datos, I
I La colección de datos necesaria para construir un modelo de regresión depende
de la naturaleza del estudio.
I Resulta conveniente distinguir cuatro tipos de estudios diferentes:
I
Experimentos controlados.
I
Experimentos controlados con covariables.
I
Estudios observacionales confirmatorios.
I
Estudios observacionales exploratorios.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Colección de datos
Preparación de los datos
Reducción de variables explicativas
Refinamiento del modelo y selección de variables
Validación del modelo
Colección de datos, II
La colección de datos necesaria para construir un modelo de regresión depende de la
naturaleza del estudio.
I Experimentos controlados. En este tipo de experimentos el investigador
controla los diferentes niveles de las variables explicativas, asigna un tratamiento
(combinación de niveles de las variables explicativas) a cada unidad
experimental y observa la respuesta. En este tipo de experimentos a las variables
explicativas se les suele llamar factores o variables de control.
I Experimentos controlados con covariables. El diseño estadı́stico de
experimentos puede utilizar información suplementaria, como por ejemplo las
caracterı́sticas de las unidades experimentales, para conseguir una reducción en
la variabilidad de los términos de error. Esta información no siempre es posible
incluirla en el diseño experimental. Una forma sencilla de incorporarla en un
modelo de regresión es a través de variables no controladas a las que se les suele
llamar covariables.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Colección de datos
Preparación de los datos
Reducción de variables explicativas
Refinamiento del modelo y selección de variables
Validación del modelo
Colección de datos, III
I Estudios observacionales confirmatorios. Basados en datos observacionales que
tienen como objetivo confirmar o no hipótesis derivadas de estudios previos o
incluso de conjeturas bien documentadas. Los datos corresponden a aquellas
variables predictoras que en estudios anteriores han presentado una cierta
relación con la variable respuesta y a nuevas variables predictoras relacionadas
con los objetivos propuestos. A este tipo de variables predictoras se les conoce
como variables primarias. Y a las que proceden de estudios anteriores se les
conoce como variables control (factores de riesgo en estudios epidemiológicos).
Por ejemplo, en un estudio observacional sobre el efecto de la vitamina E en la
ocurrencia de un cierto tipo de cáncer la edad y el género son factores de riesgo
que pueden ser incluidos en el análisis como variables control, mientras que la
cantidad de vitamina E administrada podrı́a ser la variable predictora primaria.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Colección de datos
Preparación de los datos
Reducción de variables explicativas
Refinamiento del modelo y selección de variables
Validación del modelo
Colección de datos, IV
I Estudios observacionales exploratorios. Son habituales en aquellas áreas en las
que no es posible desarrollar experimentos controlados y se tiene poca
información para desarrollar estudios observacionales confirmatorios. En gran
parte de estos estudios el objetivo se centra en la búsqueda de aquellas variables
explicativas que pudieran estar relacionadas con la variable respuesta. Cuando se
dispone de un conjunto grande de variables potencialmente útiles, éstas deben
analizarse cuidadosamente porque pueden no ser importantes en el problema,
estar sujetas a errores de medida y/o también pueden contener casi la misma
información que alguna de las variables consideradas.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Colección de datos
Preparación de los datos
Reducción de variables explicativas
Refinamiento del modelo y selección de variables
Validación del modelo
Preparación de los datos
I Cuando ya se han recogido los datos, el siguiente paso es editarlos y
representarlos gráficamente para identificar errores y outliers. La presencia de
errores en los datos es habitual cuando se trabaja con bancos de datos grandes y
deberı́a corregirse antes de empezar el proceso de contrucción del modelo.
I Aunque éste es un proceso generalmente olvidado es, sin embargo, muy
importante porque la fiabilidad y calidad del trabajo estadı́stico realizado
depende de la materia prima del análisis, que son los datos.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Colección de datos
Preparación de los datos
Reducción de variables explicativas
Refinamiento del modelo y selección de variables
Validación del modelo
Reducción de variables explicativas, I
I Experimentos controlados. La reducción de variables explicativas en la
construcción del modelo no es generalmente importante en experimentos
controlados. El experimentador ha seleccionado las variables explicativas y
construye el modelo de regresión que le permite estudiar el efecto de estas
variables sobre la variable respuesta. Cuando ya se ha construido el modelo el
proceso inferencial que ya conocemos nos servirá para valorar si las variables
explicativas tienen efecto sobre la variable respuesta, y en su caso, la naturaleza
y magnitud de dichos efectos.
I Experimentos controlados con covariables. En este tipo de estudios puede
plantearse una reducción de las covariables porque a priori el investigador no
sabe exactamente si las covariables seleccionadas son útiles para reducir la
varianza del error. El número de covariables de este tipo de estudios suele ser
pequeño, por lo que no es muy complicado valorar si alguna de las covariables
puede eliminarse del modelo.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Colección de datos
Preparación de los datos
Reducción de variables explicativas
Refinamiento del modelo y selección de variables
Validación del modelo
Reducción de variables explicativas, II
I Estudios observacionales confirmatorios. En general no tiene sentido reducir las
variables explicativas en este tipo de estudios. La variables control se han
seleccionado siguiendo criterios expertos y deberı́an utilizarse todas ellas para
comparar con estudios anteriores, incluso cuando alguna de las variables control
no conlleve ninguna reducción en el término de la varianza del error. Las
variables primarias son aquellas cuya relación sobre la variable respuesta se
analiza y por lo tanto necesitan estar presentes en el modelo.
I Estudio observacionales exploratorios. En este tipo de estudios el número de
variables explicativas es habitualmente grande y muchas de las variables están
altamenente correladas. Por lo tanto, serı́a deseable reducir el número de
variables explicativas que deberán utilizarse finalmente en la construcción del
modelo porque un modelo de regresión con muchas variables explicativas es
dificil de manejar y en cambio, uno con pocas variables explicativas es mucho
más robusto y más fácil de entender. También, la presencia de variables
explicativas altamente correlacionadas puede aumentar la variabilidad de los
coeficientes de regresión, aumentar los errores de redondeo en la computación y
empeorar las habilidades predictivas del modelo.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Colección de datos
Preparación de los datos
Reducción de variables explicativas
Refinamiento del modelo y selección de variables
Validación del modelo
Refinamiento del modelo y selección de variables
I El modelo de regresión construido, o los distintos modelos de regresión
adecuados en el caso de estudios observacionales exploratorios, deben analizarse
para comprobar si son o no adecuados para describir el problema estudiado. En
esta etapa debe realizarse un cuidadoso análisis de los residuos.
I Cuando en un estudio observacional exploratorio se ha realizado un proceso
automático de selección de variables que concluye proponiendo un modelo como
el mejor también deberı́an también explorarse el resto de los modelos. Un
procedimiento habitual es utilizar el número de variables explicativas del mejor
modelo como un estimador del número de variables explicativas necesarias en el
modelo. De esa forma se puede explorar e identificar otros modelos candidatos
que tengan aproximadamente el mismo número de variables explicativas que las
que proporciona el procedimiento automático.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Colección de datos
Preparación de los datos
Reducción de variables explicativas
Refinamiento del modelo y selección de variables
Validación del modelo
Validación del modelo
I Este concepto incluye diferentes propiedades que deberı́a tener un buen modelo
de regresión:
I
I
I
Estabilidad y sensatez de los coeficientes de regresión,
Plausibilidad y utilidad del modelo de regresión construido,
Habilidad para generalizar inferencias a partir del análisis de regresión
construido.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Criterios para la selección de modelos
I Cuando se consideran k variables explicativas pueden construirse 2k modelos de
regresión diferentes, por lo que en la mayorı́a de las ocasiones es imposible
realizar un análisis detallado de todos los modelos de regresión posibles. Si bien
a nivel de computación es bastante rápido analizar todos los modelos si que
resulta casi imposible que el investigador pueda valorarlos adecuadamente.
I Los procedimientos de selección de variables intentan identificar un pequeño
grupo de variables explicativas que sean buenas según un cierto criterio.
I Aunque se han desarrollado muchos criterios para comparar modelos nosotros
2 , C , AIC ,
nos centraremos únicamente en seis de los más utilizados: Rk2 , Ra,k
k
k
SBCk y PRESSk .
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Criterio basado en el coeficiente de determinación múltiple, Rk2
I Este criterio utiliza el coeficiente de determinación múltiple R 2 . El subı́ndice en
k
el coeficiente Rk2 indica que el número de variables explicativas en el modelo es
k − 1 y por lo tanto tenemos k coeficientes de regresión.
I R 2 = 1 − SSEk
k
SST
I Puesto que SST es constante en todos los modelos de regresión con la misma
variable respuesta el coeficiente Rk2 variará inversamente con SSEk .
I El criterio R 2 no intenta identificar los grupos de variables mejores porque
k
sabemos que Rk2 nunca decrece conforme se van añadiendo variables al modelo
y, por lo tanto, su valor máximo se alcanzará cuando incluyamos todas las
variables explicativas en el modelo.
I La utilidad del criterio R 2 es la de detectar situaciones en las que la inclusión de
k
más variables al modelo no parezca muy sensato porque incrementa en muy
poquito el coeficiente de determinación.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
2
Criterio basado en el coeficiente de determinación múltiple ajustado Ra,k
o
el error cuadrático medio, MSEk
I Como R 2 no tiene en cuenta el número de parámetros del modelo y nunca
k
decrece cuando k aumenta suele utilizarse el coeficiente de determinación
múltiple ajustado. utiliza como criterio alternativo
I R2 = 1 −
a,k
n−1 SSEk
n−k SST
=1−
MSEk
SST
n−1
I Este coeficiente incorpora el número de parámetros del modelo, k.
I R 2 aumenta si y sólo si el error cuadrático residual, MSEk , decrece siendo
a,k
2 y MSE proporcionan información
SST /(n − 1) fijo. Por lo tanto Ra,k
k
equivalente.
I R 2 puede decrecer aún cuando el número de parámetros aumente.
a,k
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Criterio Ck de Mallows, I
I Este criterio considera el error cuadrado medio total de los n valores ajustados.
I Si consideramos la media µi = E(Yi | Xi1 , . . . , Xi,k−1 ) el error cuadrático medio
de Ŷi se define como:
E(Ŷi − µi )2 = (E(Ŷi ) − µi )2 + σŶ2
i
siendo σ 2 la varianza del valor ajustado Ŷi .
Ŷi
I El error cuadrático medio para todos los valores ajustados Ŷi es:
n
X
E(Ŷi − µi )2 =
i=1
Tema 8. Selección y validación del modelo
n
X
(E(Ŷi ) − µi )2 +
i=1
n
X
i=1
Modelos lineales
σŶ2
i
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Criterio Ck de Mallows, II
I El criterio de Mallow considera el cociente entre el error cuadrático medio total
y la varianza del modelo σ 2 :
Γk =
n
n
X
1 X
2
2
(E(
Ŷ
)
−
µ
)
+
σ
i
i
Ŷi
σ 2 i=1
i=1
I Pero como Γk contiene parámetros desconocidos se utiliza su estimador Ck , que
se define como:
Ck =
SSEk
− (n − 2k),
MSE (X1 , . . . , Xk−1 )
siendo SSEk la suma de cuadrados residual para el modelo de regresión con k
parámetros y MSE (X1 , . . . , Xk−1 ) la estimación de la varianza del modelo que
contiene como variables explicativas X1 , . . . , Xk−1 .
I Cuando el modelo no presenta sesgos la esperanza de la distribución en el
muestreo de Ck es E(Ck ) ≈ k
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Criterio Ck de Mallows, III
I Cuando representamos gráficamente Ck en relación a los diferentes valores de k
los modelos poco sesgados tienden a estar alrededor de la recta Ck = k. Los
modelos con mucho sesgos tienden a tener valores de Ck grandes, y modelos
con valores de Ck más pequeños que k no son sesgados pero sus valores
pequeñitos se asocian a errores de muestreo.
I Cuando utilizamos el criterio Ck de Mallows intentamos identificar subconjuntos
de variables para los que
I
Ck es pequeño,
I
Ck está cercano a k
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Criterios AICk de Akaike y Bayesiano de Schwarz, SBCk
I Los criterios de selección de modelos R 2 y Ck penalizan los modelos con un
a,k
número grande de variables predictoras.
I Dos criterios alternativos que también penalizan la inclusión de variables
predictoras en el modelo son el criterio de información de Akaike (AICk ) y el
criterio Bayesiano de Schwarz (SBCk ).
I Ambos criterios seleccionan aquellos modelos para los que se obtienen los
valores más pequeños de los estadı́sticos:
I AICk = n ln SSEk − n ln n + 2k
I SBCk = n ln SSEk − n ln n + [ln n] k
I En ambos estadı́sticos el primer término es n ln SSEk , que decrece cuando k
aumenta. El segundo término es constante (para un tamaño muestral n fijo) y el
tercer término crece con el número de coeficientes de regresión k.
I Los modelos con valores pequeños de SSEk funcionan bien con estos criterios en
la medida en que las penalizaciones, 2k para AICk y [ln n] para SBCk , no sean
muy grandes. Si n ≥ 8 la penalización para SBCk es mayor que para AICk , y por
lo tanto, el criterio SBCk tiende a favorecer los modelos más parsimoniosos.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Criterio PRESSk
I Este criterio, cuyo acrónimo viene del término inglés prediction sum of squares,
es una medida de cómo de buenos son los valores ajustados del modelo de
regresión para predecir las observaciones de la variable respuesta.
P
I Aunque la suma de cuadrados residual, SSEk = (Yi − Ŷi )2 , valora también el
mismo concepto, PRESSk difiere de SSEk en que cada valor ajustado Ŷi con
este criterio se obtiene eliminando de los datos el caso i, estimando la función de
regresión del modelo con los restantes n − 1 datos y utilizando la correspondiente
función de regresión estimada para obtener el valor ajustado Ŷi(i) para el caso i.
I El estadı́stico correspondiente a este criterio es:
PRESSk =
Pn
i=1 (Yi
− Ŷi(i) )2
I Los modelos con valores prequeños de PRESSk se consideran buenos modelos
porque cuando los errores de predicción Yi − Ŷi(i) son pequeños también lo son
su cuadrado y, por lo tanto, su suma.
I No hace falta realizar n regresiones distintas para evaluar PRESSk . Puede
demostrarse que los errores (Yi − Ŷi(i) )2 son iguales a ei /(1 − hii ), siendo ei el
residuo del modelo ajustado con todas las observaciones y hii el elemento (i, i)
de la matriz de proyección H.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Ejemplo: Hospital, 8.I
En una unidad quirúrgica de un hospital se plantea un estudio sobre la supervivencia
de los enfermos a los que se ha practicado una determinada operación de hı́gado. Se
ha seleccionado una muestra aleatoria de 108 de dichos enfermos. Para cada uno de
ellos se ha registrado, además de su tiempo de supervivencia, la siguiente información
correspondiente a su evaluación pre-operatoria.
I X1 : Coagulación de la sangre
I X2 : Indicador de pronóstico
I X3 : Indicador de la función enzimática
I X4 : Indicador de la función del hı́gado
I X5 : Edad, en años.
I X6 : Género (hombre=0, mujer=1)
I X7 : Historial de consumo moderado de alcohol (Si=1, No=0)
I X8 : Historial de consumo elevado de alcohol (Si=1, No=0)
El conjunto de variables predictivas incluye dos variables categóricas: Género (hombre,
mujer) e historial de consumo de alcohol (ninguno, moderado, elevado), por lo que
para la inclusión de esta última variable en el banco de datos utilizamos dos variables
dicotómicas, X7 y X8 .
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Ejemplo: Hospital, 8.II
Una pequeña muestra de los datos es:
Caso
Coagu
lación
Pronós
tico
Enzima
Hı́gado
Edad
Género
Alcoh mo
derado
Alcoh
severo
LnSuper
vivencia
1
2
3
.
.
.
52
53
54
6.6
5.1
7.4
.
.
.
6.4
6.4
8.8
62
59
57
.
.
.
85
59
78
81
66
83
.
.
.
40
85
72
2.59
1.70
2.16
.
.
.
1.21
2.33
3.20
50
39
55
.
.
.
58
63
56
0
0
0
.
.
.
0
0
0
1
0
0
.
.
.
0
1
0
0
0
0
.
.
.
1
0
0
6.544
5.999
6.565
.
.
.
6.361
6.310
6.478
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Ejemplo: Hospital 8.III
Si sólo trabajáramos con las primeras cuatro variables predictoras.
Variables
en el modelo
k
SSEk
Rk2
2
Ra,k
Ck
AICk
SBCk
PRESSk
Ninguna
X1
X2
X3
X4
X1 , X2
X1 , X3
X1 , X4
X2 , X3
X2 , X4
X3 , X4
X1 , X2 , X3
X1 , X2 , X4
X1 , X3 , X4
X2 , X3 , X4
X1 , X2 , X3 , X4
1
2
2
2
2
3
3
3
3
3
3
4
4
4
4
5
12.808
12.031
9.979
7.332
7.409
9.443
5.781
7.299
4.312
6.622
5.130
3.109
6.570
4.968
3.614
3.084
0.000
0.061
0.221
0.428
0.422
0.263
0.549
0.430
0.663
0.483
0.599
0.757
0.487
0.612
0.718
0.759
0.000
0.043
0.206
0.417
0.410
0.234
0.531
0.408
0.650
0.463
0.584
0.743
0.456
0.589
0.701
0.740
151.498
141.164
108.556
66.489
67.715
102.031
43.852
67.972
20.520
57.215
33.504
3.391
58.392
32.932
11.424
5.000
-75.703
-77.079
-87.178
-103.827
-103.262
-88.162
-114.658
-102.067
-130.483
-107.324
-121.113
-146.161
-105.748
-120.844
-138.023
-144.590
-73.714
-73.101
-83.200
-99.849
-99.284
-82.195
-108.691
-96.100
-124.516
-101.357
-115.146
-138.205
-97.792
-112.888
-130.067
-134.645
13.296
13.512
10.744
8.327
8.025
11.062
6.988
8.472
5.065
7.476
6.121
3.914
7.903
6.207
4.598
4.069
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Algoritmos que buscan el “mejor” modelo
Métodos de regresión por etapas.
Procedimientos automáticos de selección de modelos
I Sabemos que si tenemos k − 1 variables explicativas, el número de posibles
modelos de regresión es 2k−1 , que es una cantidad que aumenta muy
rápidamente con k.
I Evaluar todos los posibles modelos es una tarea descomunal.
I Para simplificar este trabajo se han propuesto una gran variedad de métodos de
selección de modelos basados en procedimientos de computación automáticos.
I Sólo describiremos dos de los más populares con detalle: los algoritmos de
búsqueda del “mejor” modelo (o del “mejor” subconjunto de variables
explicativas) y los métodos de regresión por etapas.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Algoritmos que buscan el “mejor” modelo
Métodos de regresión por etapas.
Algoritmos que buscan el “mejor” modelo
I Son algoritmos rápidos que permiten seleccionar el mejor modelo de acuerdo
con el criterio elegido sin necesidad de evaluar todos los posibles subconjuntos
de variables predictoras.
I Por ejemplo, si se utiliza el criterio Ck de Mallows y se eligen los cinco mejores
modelos según este criterio estos algoritmos buscan los cinco subconjuntos de
variables explicativas con menor valor de Ck utilizando mucho menor esfuerzo
computacional que si tuvieran que evaluar todos los posibles modelos.
I Algunos de estos algoritmos proporcionan información adicional e identifican
también distintos subconjuntos buenos para cada posible número de variables
explicativas en el modelo.
I Cuando el número de variables explicativas es muy grande (de 30 ó más) estos
procedimientos empiezan a requerir demasiado tiempo computacional y es
conveniente recurrir a los métodos de regresión por etapas.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Algoritmos que buscan el “mejor” modelo
Métodos de regresión por etapas.
Métodos de regresión por etapas, I.
I Son procedimientos de búsqueda automáticos que seleccionan el mejor
subconjunto de variables predictoras de forma secuencial.
I De todos ellos, el más utilizado es el método de regresión por etapas hacia
adelante (forward). Trabaja con una secuencia de modelos de regresión para los
que en cada etapa añade o elimina una variable predictora X. El criterio para
añadir una variable X puede establecerse de forma equivalente a través de la
reducción en la suma de cuadrados residuales, el coeficiente de correlación
parcial, el estadı́stico t o el estadı́stico F .
I Una diferencia esencial entre este tipo de procedimientos y los de el mejor
modelo es que los primeros acaban cuando identifican un único modelo de
regresión como el mejor mientras que los segundos proponen como buenos
varios modelos a la espera de una valoración definitiva.
I La identificación de un único modelo como el mejor es una debilidad de los
métodos de regresión por etapas porque en algunos casos se equivocan. La
bondad de un modelo de regresión sólo puede establecerse a través de un
cuidadoso proceso de diagnóstico del modelo.
I ¿Qué hacemos entonces? Deberı́amos considerar que el subconjunto de variables
identificadas a través de un procedimiento automático es un punto de partida
para iniciar la búsqueda y comparación con otros modelos alternativos buenos.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Algoritmos que buscan el “mejor” modelo
Métodos de regresión por etapas.
Regresión por etapas forward, I.
Vamos a describir el método de regresión por etapas forward en términos del
estadı́stico t.
Etapa 1: El procedimiento empieza ajustando un modelo de regresión lineal simple
para cada una de las k − 1 potenciales variables explicativas. Para cada modelo de
regresión ajustado se utiliza el estadı́stico:
t=
bm
, m = 1, 2, . . . , k − 1
sbm
para valorar si la pendiente del modelo es o no significativa. Aquella variable con
mayor valor del estadı́stico (o menor P-valor) es la primera variable candidata para
entrar en el modelo. Si su correspondiente P-valor es menor que el nivel de
significatividad α considerado entonces la variable es incluida en el modelo. En caso
contrario el procedimiento acaba sin que ninguna de las variables explicativas
candidatas sean incluidas en el modelo.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Algoritmos que buscan el “mejor” modelo
Métodos de regresión por etapas.
Regresión por etapas forward, II.
Seguimos describiendo el método de regresión por etapas forward en términos del
estadı́stico t.
Etapa 2: Supongamos ahora que, por ejemplo, se ha incluido una primera variable
explicativa, por ejemplo X7 . El procedimiento sigua ahora ajustado todos los modelos
con dos variables explicativas siendo siempre X7 una de las dos variables de cada
pareja. Para cada uno de estos modelos de regresión ajustados considera el estadı́stico
t para la nueva variable en el modelo que acompaña a X7 . Es decir, valora la hipótesis
βm = 0, m = 1, 2, . . . , k, con m 6= 7 con X7 y Xm en el modelo. La variable Xm con
mayor valor de t (o menor P-valor) serı́a la candidata para entrar en el modelo en esta
segunda fase. Si su correspondiente P-valor es menor que el nivel de significatividad α
considerado entonces la variable es incluida en el modelo. En caso contrario el
procedimiento acaba y el modelo seleccionado sólo incluye la variables X7 .
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Algoritmos que buscan el “mejor” modelo
Métodos de regresión por etapas.
Regresión por etapas forward, III.
Seguimos describiendo el método de regresión por etapas forward en términos del
estadı́stico t.
Etapa 3: Supongamos ahora que, por ejemplo, se ha incluido X3 como segunda
variable explicativa en el modelo. El procedimiento sigua ahora ajustado todos los
modelos con tres variables explicativas siendo siempre X7 y X3 dos de las tres variables
de cada terna. Para cada uno de estos modelos de regresión ajustados considera el
estadı́stico t para la nueva variable en el modelo que acompaña a X7 y X3 . Es decir,
valora la hipótesis βm = 0, m = 1, 2, . . . , k, con m 6= 7, 3 con X7 , X3 y Xm en el
modelo. La variable Xm con mayor valor de t (o menor P-valor) serı́a la candidata para
entrar en el modelo en esta tercera etapa. Si su correspondiente P-valor es menor que
el nivel de significatividad α considerado entonces la variable es incluida en el modelo.
En caso contrario el procedimiento acaba y el modelo seleccionado sólo incluye la
variables X7 y X3 .
El procedimiento continuarı́a acumulando etapas hasta llegar a la etapa final, que
como máximo incluirı́a a todas las variables predictoras consideradas previamente.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Algoritmos que buscan el “mejor” modelo
Métodos de regresión por etapas.
Regresión por etapas backward.
El procedimiento de regresión por etapas backward empieza considerando el modelo
de regresión con todas las variables explicativas candidatas y actúa de forma similar al
forward pero valorando la posible eliminación de variables explicativas del modelo en
cada una de las etapas del procedimiento.
Regresión forward.
Es una simplificación del método de selección por etapas forward en el que cuando una
variable predictora es candidata a entrar en el modelo no se valora su posible no
entrada.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Validación del modelo, I.
La etapa final en el proceso de construcción del modelo es la validación del modelo
seleccionado. En esta fase se valora el modelo elegido en relación a un conjunto de
datos independiente del utilizado para su estimación. Las tres formas básicas de
validar un modelo son:
I Obtener nuevos datos para evaluar el modelo y sus habilidades predictivas.
I Comparar los resultados con los que serı́an esperables, razonables, con
resultados de estudios previos y simulados.
I Utilizar un ejemplo para valorar el modelo y su habilidad predictiva
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Validación del modelo, II.
I Cuando se utiliza un modelo de regresión en un experimento controlado, una
repetición del experimento y su análisis sirven para validar los hallazgos del
estudio inicial siempre que se obtengan resultados parecidos de los coeficientes
de regresión estimados y de su capacidad predictiva.
I De forma similar, los resultados obtenidos en estudios confirmatorios
observacionales pueden validarse a través de una repetición del estudio con otros
datos.
I En estudios observacionales exploratorios el proceso de validación deberı́a incluir
además un estudio acerca del subconjunto de variables explicativas
seleccionadas.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Division, separación del banco de datos.
I El método ideal para validar un modelo de regresión siempre es a través de un
nuevo banco de datos, aunque en la mayoria de los casos ésto es imposible.
I Una alternativa, cuando el tamaño muestral es razonablemente grande, es
dividir el banco de datos en dos trozos. El primer trozo, al que se conoce como
conjunto para la construcción del modelo o muestra de entrenamiento, se utiliza
para desarrollar el modelo. El segundo trozo, conocido como muestra de
validación o de predicción se utiliza para evaluar la sensatez y habilidad
predictiva del modelo escogido. A este procedimiento de validación se le conoce
como validación cruzada.
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Ejemplo: Hospital 8.III
Los tres modelos candidatos a mejor modelo según los distintos criterios utilizados son:
Modelo
Criterio
Variables
Modelo 1
Modelo 2
Modelo 3
SBCk , PRESSk
Ck
2 , AIC
Ra,k
k
X1 , X2 , X3 , X8
X1 , X2 , X3 , X5 , X8
X1 , X2 , X3 , X5 , X6 , X8
Tema 8. Selección y validación del modelo
Modelos lineales
Introducción
Un vistazo al proceso de construcción del modelo
Criterios para la selección de modelos
Procedimientos automáticos de selección de modelos
Validación del modelo
Ejemplo: Hospital 8.III
k
b0
sb0
b1
sb1
b2
sb2
b3
sb3
b5
sb5
b6
sb6
b8
sb8
SSEk
PRESSk
Ck
MSEk
2
Ra,k
Modelo 1
M. entre
namiento
Modelo 1
M. vali
dación
Modelo 2
M. entre
namiento
Modelo 2
M. vali
dación
Modelo 3
M. entre
namiento
Modelo 3
M. vali
dación
5
3.8524
0.1927
0.0733
0.0190
0.0142
0.0017
0.0155
0.0014
0.3530
0.0772
2.1788
2.7378
5.7508
0.0445
0.8160
5
3.6350
0.2894
0.0958
0.0319
0.0164
0.0023
0.0156
0.0020
0.1860
0.0964
3.7951
4.5219
6.2094
0.0775
0.6824
6
3.8671
0.1906
0.0712
0.0188
0.0139
0.0017
0.0151
0.0014
0.0869
0.0582
0.3627
0.0765
2.0820
2.7827
5.5406
0.0434
0.8205
6
3.6143
0.2907
0.0999
0.0323
0.0159
0.0024
0.0154
0.0020
0.0731
0.0972
0.1886
0.0966
3.7288
4.6536
7.3331
0.0777
0.6815
7
4.0540
0.2348
0.0715
0.0186
0.0138
0.0017
0.0151
0.0014
-0.0035
0.0026
0.0873
0.0577
0.3509
0.0764
2.0052
2.7723
5.7874
0.0427
0.8234
7
3.4699
0.3468
0.0987
0.0325
0.0162
0.0024
0.0156
0.0021
0.0025
0.0033
0.0727
0.0795
0.1931
0.0972
3.6822
4.8981
8.7166
0.0783
0.6787
Tema 8. Selección y validación del modelo
Modelos lineales
Descargar