Métodos de regresión no paramétricos para el análisis de datos

Anuncio
Máster Universitario en Estadística Aplicada - Curso 2010/2011
Universidad de Granada
MÉTODOS DE REGRESIÓN
NO PARAMÉTRICOS PARA
EL ANÁLISIS DE DATOS
LONGITUDINALES
Trabajo Fin de Máster
Línea de Investigación: Estimación no paramétrica de curvas en R
Realizado por: José Antonio Linero Morante
D.N.I.: 74912127-T
Tutora: Dra. Dª. María Dolores Martínez Miranda
Fecha: Diciembre 2011
Índice de contenidos
Capítulo 1: Introducción
1.1. Motivación de ejemplos de datos longitudinales
1.1.1. Datos de progesterona
1.2. Modelización de efectos mixtos: de paramétrico a no paramétrico
1
1
2
6
1.2.1. Modelos paramétricos de efectos mixtos
6
1.2.2. Regresión no paramétrica y suavización
7
1.2.3. Modelos no paramétricos de efectos mixtos
Capítulo 2: Modelos paramétricos de efectos mixtos
10
12
2.1. Introducción
12
2.2. Modelo lineal de efectos mixtos
12
2.2.1. Especificación del modelo
12
2.2.2. Estimación de los efectos fijos y aleatorios
15
2.2.3. Interpretación bayesiana
16
2.2.4. Estimación de los componentes de varianza
18
2.2.5. Los algoritmos EM
20
Capítulo 3: Suavizadores en regresión no paramétrica
24
3.1. Introducción
24
3.2. Suavizador del núcleo polinomial local
27
3.2.1. Grado general del suavizador LPK
27
3.2.2. Suavizadores lineal y constante local
29
3.2.3. Función del núcleo
31
3.2.4. Selección del ancho de banda
32
3.2.5. Un ejemplo ilustrativo
34
Capítulo 4: Métodos localmente polinomiales
35
4.1. Introducción
35
4.2. Modelo no paramétrico para la media poblacional
36
4.2.1. Método del núcleo polinomial local
37
4.2.2. Método del núcleo polinomial local GEE
40
4.3. Modelo no paramétrico de efectos mixtos
44
4.4. Modelado de efectos mixtos polinomial local
45
4.4.1. Aproximación polinomial local
45
4.4.2. Estimación por máxima verosimilitud local
46
4.4.3. Estimación a partir de la verosimilitud local marginal
48
4.4.4. Estimación a partir de la verosimilitud local conjunta
50
4.4.5. Estimación de los componentes
53
4.5. Elección de buenos anchos de banda
54
4.5.1. Validación cruzada dejar-un-sujeto-fuera
55
4.5.2. Validación cruzada dejar-un-punto-fuera
56
4.6. Aplicación a los datos de progesterona
56
Apéndice: Código en R generado para las aplicaciones
60
Referencias
74
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Capítulo 1: Introducción
Los datos longitudinales tales como mediciones repetidas tomadas en cada uno
de una serie de sujetos a través del tiempo surgen con frecuencia de muchos estudios
biomédicos y clínicos así como de otras áreas científicas. Estudios actualizados sobre
análisis de datos longitudinales se pueden encontrar en Demidenko (2004) y Diggle,
Heagerty, Liang y Zeger (2002), entre otros. Los modelos paramétricos de efectos
mixtos son una herramienta poderosa para modelar la relación entre una variable
respuesta y las covariables en estudios longitudinales. Los modelos lineales de efectos
mixtos (linear mixed-effects (LME)) y los modelos no lineales de efectos mixtos
(nonlinear mixed-effects (NLME)) son los dos ejemplos más populares. Varios libros se
han publicado para resumir los logros en estas áreas (Jones 1993, Davidian y Giltinan
1995, Vonesh y Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000,
Diggle, Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros). Sin embargo,
para muchas aplicaciones, los modelos paramétricos pueden ser demasiado restrictivos
o limitados, y a veces no están disponibles al menos para el análisis de los datos
preliminares. Para superar esta dificultad, las técnicas de regresión no paramétricas se
han desarrollado para el análisis de datos longitudinales en los últimos años. Con este
trabajo se tiene la intención de estudiar los métodos existentes e introducir técnicas de
reciente desarrollo que combinan ideas de modelado de efectos mixtos y técnicas de
regresión no paramétricas para el análisis de datos longitudinales.
1.1. Motivación de ejemplos de datos longitudinales
En los estudios longitudinales, los datos de los individuos se coleccionan varias
veces a través del tiempo mientras que en los estudios de corte transversal sólo se
obtiene un dato puntual para cada sujeto individual (es decir, un solo punto en el tiempo
por sujeto). Por lo tanto, la diferencia clave entre los datos longitudinales y los datos de
corte transversal es que los datos longitudinales están generalmente correlacionados en
un sujeto y son independientes entre sujetos, mientras que los datos de corte transversal
a menudo son independientes.
Un desafío para el análisis de datos longitudinales es cómo dar cuenta de las
correlaciones intra-sujeto. Los modelos LME y NLME son herramientas poderosas para
el manejo de un problema cuando adecuados modelos paramétricos están disponibles
para relacionar una variable de respuesta longitudinal a sus covariables. Muchos
1
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
ejemplos de datos de la vida real han sido presentados en la literatura que emplea
técnicas de modelado LME y NLME (Jones 1993, Davidian y Giltinan 1995, Vonesh y
Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000, Diggle,
Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros). Sin embargo, para
muchos otros ejemplos de datos prácticos, adecuados modelos paramétricos pueden no
existir o son difíciles de encontrar. Ejemplos de estudios biomédicos y clínicos se
presentarán y se utilizarán en este trabajo a modo de ilustración. En estos ejemplos, los
modelos LME y NLME ya no son aplicables, y técnicas de modelado de efectos mixtos
no paramétricos (nonparametric mixed-effects (NPME)), que son los temas centrales de
este trabajo, son una opción natural al menos en la fase inicial de análisis exploratorios.
Aunque los ejemplos de datos longitudinales en este trabajo son de estudios biomédicos
y clínicos, las metodologías propuestas en este trabajo son también aplicables a datos de
panel o datos agrupados de otros campos científicos. Todos los conjuntos de datos y los
correspondientes análisis de códigos a través del ordenador en este trabajo son de libre
acceso en la siguiente página web: (Además, debemos notar que dicho código está
escrito mediante el programa Matlab y nosotros en este trabajo escribimos el código
mediante R, nuestro código escrito en R se puede ver en el apéndice titulado “Código en
R generado para las aplicaciones” que se encuentra al final del trabajo.)
http://www.urmc.rochester.edu/smd/biostat/people/faculty/WuSite/publications.htm.
1.1.1. Datos de progesterona
Los datos de progesterona fueron recogidos en un estudio de la pérdida temprana
del embarazo realizado por el Instituto de Toxicología y Salud Ambiental en la Sección
de Epidemiología Reproductiva del Departamento de Servicios de Salud de California,
Berkeley, EE.UU. Las Figuras 1.1 y 1.2 muestran los niveles de progesterona en el
metabolito urinario en el transcurso de los ciclos menstruales de las mujeres (días). Las
observaciones procedían de pacientes con la función reproductiva sana inscritos en una
clínica de inseminación artificial donde los intentos de inseminación fueron oportunos
para cada ciclo menstrual. Los datos habían sido alineados por el día de la ovulación
(Día 0), determinado por la hormona luteinizante en suero, y truncado en cada extremo
para presentar curvas de igual longitud. Las mediciones se registran una vez al día por
cada ciclo de 8 días antes del día de la ovulación y hasta 15 días después de la
ovulación. Una mujer puede tener uno o varios ciclos. La duración del período de
observación es de 24 días. Algunas mediciones de algunos sujetos estaban perdidas por
2
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
diversas razones. El conjunto de datos consiste en dos grupos: las curvas de
progesterona conceptiva (22 ciclos menstruales) y las curvas de progesterona no
conceptiva (69 ciclos menstruales). Para más detalles sobre este conjunto de datos, ver
Yen y Jaffe (1991), Brumback y Rice (1998), y Fan y Zhang (2000), entre otros.
La Figura 1.1 (a) presenta un diagrama espagueti de las 22 curvas en bruto de
progesterona conceptiva. Los puntos indican el nivel de progesterona observados en
cada ciclo, y están conectados con segmentos de línea recta. El problema de los valores
perdidos no es muy serio aquí ya que cada curva de ciclo tiene por lo menos 17 de las
24 mediciones. En general, las curvas en bruto presentan un patrón similar: antes del día
de la ovulación (Día 0), las curvas en bruto son planas, pero después del día de la
ovulación, por lo general se mueven hacia arriba. Sin embargo, es fácil ver que en una
curva de ciclo, las mediciones varían en torno a alguna curva subyacente que parece ser
suave, y para ciclos diferentes, las curvas suaves subyacentes son diferentes unas de
otras. La Figura 1.1 (b) presenta las medias punto a punto (curva de color negro con
puntos en la traza) con banda de desviación estándar (standard deviation (SD)) punto a
punto del 95% (curvas de color rojo con puntos en la traza). Fueron obtenidos de una
manera sencilla: en cada punto de tiempo distinto , la media y la desviación estándar se
calculan utilizando los datos de corte transversal en . Se puede observar que la curva
media punto a punto es bastante suave, aunque no es difícil descubrir que todavía hay
algo de ruido aparecido en la curva media punto a punto.
-4
-2
0
log (prog)
2
4
Figura 1.1 (a) Grupo conceptivo
-5
0
5
dias
3
10
15
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
1
0
-2
-1
log (prog)
2
3
Figura 1.1 (b) Grupo conceptivo
-5
0
5
10
15
dias
La Figura 1.2 (a) presenta un diagrama espagueti de las 69 curvas en bruto de
progesterona no conceptiva. Comparada con las curvas de progesterona conceptiva,
estas curvas se comportan muy similares antes del día de la ovulación, pero por lo
general muestran una tendencia diferente después del día de la ovulación. Es fácil ver
que, al igual que en las curvas de progesterona conceptiva, los ciclos individuales
subyacentes de las curvas de progesterona no conceptiva parecen ser suaves, y también
lo es su curva media subyacente. Una estimación ingenua de la curva media subyacente
es la curva media punto a punto, que se muestra como curva de color negro con puntos
en la traza en la Figura 1.2 (b). La banda del 95% SD punto a punto (curvas de color
rojo con puntos en la traza) proporciona una estimación aproximada de la exactitud de
la estimación ingenua.
4
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
-4
-2
0
log (prog)
2
4
Figura 1.2 (a) Grupo no conceptivo
-5
0
5
10
15
dias
0
-2
-1
log (prog)
1
2
Figura 1.2 (b) Grupo no conceptivo
-5
0
5
10
15
dias
Los datos de progesterona se han utilizado para ilustraciones de los métodos de
regresión no paramétricos por varios autores. Por ejemplo, Fan y Zhang (2000) los
utilizó para ilustrar su método de dos pasos para estimar la función media subyacente de
los datos longitudinales o de los datos funcionales, Brumback y Rice (1998) los utilizó
para ilustrar una técnica de modelado de efectos mixtos con alisamiento spline para
estimar ambas funciones media e individual, mientras que Wu y Zhang (2002a) los
utilizó para ilustrar un enfoque de modelado de efectos mixtos polinomial local.
5
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
1.2. Modelización de efectos mixtos: de paramétrico a no paramétrico
1.2.1. Modelos paramétricos de efectos mixtos
Para la modelización de datos longitudinales, los modelos paramétricos de
efectos mixtos, tales como modelos lineales y no lineales de efectos mixtos, son una
herramienta natural. Los modelos lineales o no lineales de efectos mixtos se pueden
especificar como modelos lineales y no lineales jerárquicos, desde una perspectiva
bayesiana.
Los modelos lineales de efectos mixtos (linear mixed-effects (LME)) se utilizan
cuando la relación entre una variable respuesta longitudinal y sus covariables se puede
expresar a través de un modelo lineal. El modelo LME introducido por Harville (1976,
1977), y Laird y Ware (1982) en general se puede escribir como
donde
y
son, respectivamente, los vectores de respuestas y los errores de medición
para el -ésimo sujeto,
y
son, respectivamente, los vectores de efectos fijos
(parámetros de la población) y efectos aleatorios (parámetros individuales), y
y
son las matrices de diseño asociadas a los efectos fijos y a los efectos aleatorios. Es fácil
notar que la media y la matriz de covarianza de
está dada por
Los modelos no lineales de efectos mixtos (nonlinear mixed-effects (NLME)) se
utilizan cuando la relación entre una variable respuesta longitudinal y sus covariables se
puede expresar a través de un modelo no lineal, el cual es conocido a excepción de
algunos parámetros. Un modelo no lineal jerárquico general o modelo NLME se puede
escribir como (Davidian y Giltinan 1995, Vonesh y Chinchilli 1996):
donde
con
una matriz de diseño y
6
siendo una función conocida,
un parámetro especifico de sujeto para el
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
-ésimo sujeto. En el anterior modelo NLME, la
matrices de diseño
y
es una función conocida de las
, el vector de efectos fijos
. Como ejemplo, un modelo lineal simple para
y el vector de efectos aleatorios
puede escribirse como
. La media marginal y la varianza-covarianza de
no puede ser
dada para un modelo NLME general. Se pueden aproximar utilizando técnicas de
linealización (Sheiner, Rosenberg y Melmon 1972, Sheiner y Beal 1980, y Lindstrom y
Bates 1990, entre otros).
Definiciones más detalladas de los modelos LME y NLME se darán en el
Capítulo 2. Ya sea en un modelo LME o en un modelo NLME, las variaciones entresujeto e intra-sujeto se cuantifican separadamente por los componentes de varianza
y
. En un estudio longitudinal, los datos de sujetos diferentes se suponen
por lo general que son independientes, pero los datos del mismo sujeto pueden estar
correlacionados. Las correlaciones pueden ser causadas por la variación entre-sujeto
(heterogeneidad entre los sujetos) y/o la correlación serial del error de medición. Hacer
caso omiso de la correlación existente de los datos longitudinales puede llevar a
conclusiones incorrectas e ineficientes. Por lo tanto, un requisito clave para el análisis
de datos longitudinales es un modelo apropiado y estimar con precisión los
componentes de varianza así que las funciones media e individual subyacente deben ser
modeladas de manera eficiente. Esta es la razón por la cual el análisis de datos
longitudinales es más difícil tanto en el desarrollo teórico y aplicación práctica en
comparación con el análisis de datos de corte transversal.
La aplicación con éxito de un modelo LME o un modelo NLME al análisis de
datos longitudinales depende en gran medida de la suposición (hipótesis) de un modelo
lineal o no lineal adecuado para la relación entre la variable respuesta y las covariables.
A veces esta hipótesis puede ser no válida para un conjunto de datos longitudinales
dado. En este caso, la relación entre la variable respuesta y las covariables tiene que ser
modelada no paramétricamente. Por lo tanto, tenemos que extender los modelos
paramétricos de efectos mixtos a los modelos no paramétricos de efectos mixtos.
1.2.2. Regresión no paramétrica y suavización
Un modelo paramétrico de regresión requiere el supuesto de que la forma de la
función de regresión subyacente se conoce a excepción de los valores de un número
finito de parámetros. La selección de un modelo paramétrico depende en gran medida
7
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
del problema en cuestión. A veces el modelo paramétrico se puede derivar de las teorías
mecanicistas detrás del problema científico, mientras que en otras ocasiones el modelo
se basa en la experiencia o es simplemente deducido de los gráficos de dispersión de los
datos. Un grave inconveniente del modelado paramétrico es que un modelo paramétrico
puede ser demasiado restrictivo en algunas aplicaciones. Si un modelo paramétrico
inadecuado es utilizado, es posible producir conclusiones erróneas a partir del análisis
de regresión. En otras situaciones, un modelo paramétrico no puede estar disponible
para su uso. Para superar las dificultades causadas por el supuesto restrictivo de una
forma paramétrica de la función de regresión, se puede quitar la restricción de que la
función de regresión pertenece a una familia paramétrica. Este enfoque conduce a la
llamada regresión no paramétrica.
Existen muchos métodos de regresión no paramétrica y suavización. Los
métodos más populares incluyen suavización del núcleo, ajuste polinomial local,
regresión (polinomial) splines, suavización splines, y penalizado splines. Algunos otros
enfoques, tales como gráfico de dispersión localmente ponderado suavizado (locally
weighted scatter plot smoothing (LOWESS)), métodos basados en wavelet y otros
enfoques basados en series ortogonales también son de uso frecuente en la práctica. La
idea básica de estos enfoques no paramétricos es dejar que los datos determinen la
forma más adecuada de las funciones. Hay uno o dos llamados parámetros de
suavización en cada uno de estos métodos para controlar la complejidad del modelo y la
compensación entre el sesgo y la varianza del estimador. Por ejemplo, el ancho de
banda
en la suavización del núcleo local determina la suavidad de la función de
regresión y la bondad de ajuste del modelo a los datos así que cuando
, el modelo
no paramétrico local se convierte en un modelo paramétrico global, y cuando
, la
estimación que resulta esencialmente interpola los puntos de datos. Por lo tanto, la
frontera entre el modelado paramétrico y no paramétrico no puede estar bien definida si
se toma el parámetro de suavización en cuenta. Los métodos no paramétricos y
paramétricos de regresión no deben considerarse como competidores, sino que se
complementan entre sí. En algunas situaciones, las técnicas no paramétricas se pueden
utilizar para validar o sugerir un modelo paramétrico. Una combinación de ambos
métodos no paramétricos y paramétricos es más poderoso que un único método en
muchas aplicaciones prácticas.
8
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Existe una vasta literatura sobre la suavización y los métodos no paramétricos de
regresión para datos de corte transversal. Buenos estudios sobre estos métodos se
pueden encontrar en los libros de de Boor (1978), Eubank (1988), Härdle (1990),
Wahba (1990), Green y Silverman (1994), Wand y Jones (1995), Fan y Gijbels (1996),
y Ruppert, Wand y Carroll (2003), entre otros. Sin embargo, muy poco se ha hecho para
desarrollar los métodos no paramétricos de regresión para el análisis de datos
longitudinales hasta los últimos años. Müller (1988) fue el primero en abordar el
análisis de datos longitudinales con los métodos no paramétricos de regresión. Sin
embargo, en esta monografía anterior, el enfoque básico es el de estimar la curva de
cada individuo por separado, por lo tanto, la correlación intra-sujeto de los datos
longitudinales no se consideró en el modelaje. Las metodologías de Müller (1988) son
esencialmente similares a los métodos no paramétricos de regresión para datos de corte
transversal.
En años recientes, ha habido un auge en el desarrollo de métodos no
paramétricos de regresión para el análisis de datos longitudinales que incluyen la
utilización de métodos de suavización tipo-núcleo (Hoover, Rice, Wu y Yang 1998, Wu
y Chiang 2000, Wu, Chiang y Hoover 1998, Fan y Zhang 2000, Lin y Carroll 2001a, b,
Wu y Zhang 2002a, Welsh, Lin y Carroll 2002, Cai, Li y Wu 2003, Wang 2003, Wang,
Carroll y Lin 2005), métodos de suavización spline (Brumback y Rice 1998, Wang
1998a, b, Zhang, Lin, Raz y Sowers 1998, Lin y Zhang 1999, Guo 2002a, b) y métodos
de regresión (polinomial) spline (Shi, Weiss y Taylor 1996, Rice y Wu 2001, Huang,
Wu y Zhou 2002, Wu y Zhang 2002b, Liang, Wu y Carroll 2003). Hay una gran
cantidad de literatura reciente en esta área de investigación, y es imposible tener una
lista completa aquí. La importancia de los métodos no paramétricos de modelado ha
sido reconocido en el análisis de datos longitudinales y para las aplicaciones prácticas,
ya que los métodos no paramétricos son flexibles y robustos frente a supuestos
paramétricos. Dicha flexibilidad es útil para la exploración y análisis de datos
longitudinales, cuando apropiados modelos paramétricos no están disponibles. En este
trabajo, no tenemos la intención de cubrir todas las técnicas no paramétricas de
regresión. En cambio, nos vamos a centrar en el método de suavización polinomial
local. Incorporamos este procedimiento no paramétrico de suavización en los modelos
de efectos mixtos para proponer técnicas no paramétricas de modelado de efectos
mixtos para el análisis de datos longitudinales.
9
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
1.2.3. Modelos no paramétricos de efectos mixtos
Un conjunto de datos longitudinales tal como los datos de progesterona
presentados en la Sección 1.1, pueden expresarse en una forma común como
donde
indican los puntos de tiempo de diseño (por ejemplo, “días” en los datos de
progesterona),
la respuesta observada en
de progesterona),
(por ejemplo, “log(prog)” en los datos
el número de observaciones para el -ésimo sujeto, y
es el
número de sujetos. Para tal conjunto de datos longitudinales, no asumimos un modelo
paramétrico para la relación entre la variable respuesta y la covariable en el tiempo. En
cambio, justamente asumimos que las funciones individual y de media poblacional son
funciones sin problemas en el tiempo , y dejamos que los propios datos determinen la
forma de las funciones subyacentes. Siguiendo Wu y Zhang (2002a), introducimos un
modelo no paramétrico de efectos mixtos (nonparametric mixed-effects (NPME)) como
donde
modela la función de media poblacional del conjunto de datos
longitudinales, llamada función de efecto fijo,
modela la salida de la -ésima
función individual de la función de media poblacional
de efecto aleatorio, y
, llamada la -ésima función
son los errores de medición que no se pueden explicar por
las funciones de efecto fijo y las funciones de efecto aleatorio.
En general se supone que
son realizaciones i.i.d. de un
proceso suave (smooth process (SP)) subyacente,
función de covarianza
blanco no correlacionado,
,y
, con función de media 0 y
son realizaciones i.i.d. de un proceso de ruido
, con función de media 0 y función de covarianza
. Esto es,
y
cuantifica la variación entre-sujeto mientras que
. Aquí
cuantifica la variación intra-
sujeto. Cuando se habla de las inferencias basadas en la verosimilitud o la interpretación
Bayesiana, por simplicidad, generalmente asumimos que los procesos asociados son
Gausianos, es decir,
,y
.
En el marco de modelado NPME, necesitamos llevar a cabo las siguientes tareas:
(1) estimar la función (media poblacional) de efecto fijo
10
; (2) predecir las funciones
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
de efecto aleatorio
y las funciones individuales
; (3) estimar la función de covarianza
varianza de ruido
La
; y (4) estimar la función de
.
,
y
caracterizan las características de la población de una
respuesta longitudinal mientras que
y
capturan las características
individuales. Para simplificar, la función media poblacional
individuales
y las funciones
se refieren a veces como las curvas de población y las curvas
individuales, respectivamente. Debido a que en el modelo NPME (1.4), las cantidades
de destino
,
,
y
son todas no paramétricas, la combinación de
técnicas de suavización y enfoques de modelado de efectos mixtos es necesario para la
estimación de estas cantidades desconocidas.
11
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Capítulo 2: Modelos paramétricos de efectos mixtos
2.1. Introducción
Los modelos paramétricos de efectos mixtos o los modelos de efectos aleatorios
son herramientas poderosas para el análisis de datos longitudinales. Los modelos
lineales o no lineales de efectos mixtos (incluyendo los modelos lineales o no lineales
generalizados de efectos mixtos) han sido ampliamente utilizados en muchos estudios
longitudinales. Buenos estudios sobre estos enfoques se pueden encontrar en los libros
de Searle, Casella y McCulloch (1992), Davidian y Giltinan (1995), Vonesh y
Chinchilli (1996), Verbeke y Molenberghs (2000), Pinheiro y Bates (2000), Diggle,
Heagerty, Liang y Zeger (2002), y Demidenko (2004), entre otros. En este capítulo,
vamos a revisar los modelos lineales de efectos mixtos y haremos hincapié en los
métodos que vamos a utilizar en capítulos posteriores. El enfoque de este trabajo es
presentar las ideas de modelado de efectos mixtos en suavización y regresión no
paramétrica para el análisis de datos longitudinales, es importante entender los
conceptos básicos y las propiedades clave de los modelos paramétricos de efectos
mixtos.
2.2. Modelo lineal de efectos mixtos
2.2.1. Especificación del modelo
Harville (1976, 1977) y Laird y Ware (1982) propusieron por primera vez el
siguiente modelo general lineal de efectos mixtos (linear mixed-effects (LME)):
donde
,
y
denotan la respuesta y el error de medición de la -
ésima medición del -ésimo sujeto, los parámetros desconocidos
y
generalmente se llaman el vector de efectos fijos y los vectores de efectos aleatorios,
respectivamente (para simplificar, a menudo se refieren como parámetros de efectos
fijos y efectos aleatorios del modelo LME), y
y
son los asociados a los vectores
covariables de efectos fijos y efectos aleatorios. En la expresión anterior,
y
,
son conocidas como las componentes de varianza del modelo LME. En el
12
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
modelo LME anterior, para simplificar, asumimos que
y
son independientes con
distribuciones normales, y las mediciones entre-sujeto son independientes.
El modelo LME (2.1) se escribe a menudo en la forma siguiente:
donde
,
,y
.
El modelo LME anterior incluye modelos lineales de coeficientes aleatorios
(Longford 1993) y modelos para mediciones repetidas como casos especiales. Por
ejemplo, un modelo de dos etapas lineal de coeficiente aleatorio para curvas de
crecimiento (Longford 1993) se puede escribir como
donde
,
,
y
se definen de manera similar como en (2.2),
de coeficientes aleatorios del -ésimo sujeto, y
es un vector
es una matriz de diseño
que
contiene las covariables entre sujetos. Es fácil ver que el modelo lineal de coeficiente
aleatorio (2.3) puede escribirse en la forma del modelo general LME (2.2) una vez que
se establece
.
De hecho, se puede escribir un modelo general de dos etapas lineal de
coeficiente aleatorio en la forma del modelo general LME (2.2). Un modelo general de
dos etapas de coeficiente aleatorio se puede escribir como (Davidian y Giltinan 1995,
Vonesh y Chinchilli 1996)
13
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
donde
es una matriz de diseño
determinar los componentes de
efectos aleatorios
con elementos de 0 y 1 organizados para
que son al azar, y
es el asociado al vector de
-dimensional. Este modelo general de dos etapas de coeficiente
aleatorio se puede escribir en la forma del modelo general LME (2.2):
una vez que se establece
y
. De hecho, es
fácil demostrar que el modelo general de dos etapas de coeficiente aleatorio (2.4) es
equivalente al modelo general LME (2.2). En particular, cuando
, el modelo
general de dos etapas de coeficiente aleatorio (2.4) se reduce al modelo de coeficiente
aleatorio (2.3) para curvas de crecimiento. Nótese que el modelo general de dos etapas
de coeficiente aleatorio (2.4) también se conoce como modelo de efectos mixtos de dos
etapas y el modelo general LME (2.2) también se llama modelo lineal jerárquico.
En notación matricial, el modelo general LME (2.2) se puede escribir además
como
donde
Por lo general se asume que las mediciones repetidas de sujetos diferentes son
independientes y están correlacionadas solamente cuando vienen del mismo sujeto.
Basado
en
el
modelo
general
LME
(2.5),
tenemos
donde la matriz de covarianza del vector de
mediciones repetidas
para el -ésimo sujeto es
. Podemos ver
que la correlación entre las mediciones repetidas puede ser inducida o a través del
término de variación entre-sujeto
sujeto
14
o a través de la matriz de covarianza intra-
. Por lo tanto, incluso si los errores de medición intra-sujeto (
)
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
son independientes, las mediciones repetidas
pueden estar aún correlacionadas
debido a la variación entre-sujeto. En algunos problemas, la correlación puede provenir
de dos fuentes. Sin embargo, para simplificar, podemos asumir que la correlación es
inducida únicamente a través de la variación entre-sujeto o asumir que
es diagonal en
el desarrollo de metodologías.
2.2.2. Estimación de los efectos fijos y aleatorios
Las inferencias de
y
para el modelo general LME (2.2)
pueden basarse en el método de verosimilitud o el método de mínimos cuadrados
generalizados. Conocidas
y
, las estimaciones de
y
se pueden obtener minimizando el siguiente logaritmo dos veces negativas de
la función de densidad conjunta de
y
(hasta una
constante):
Puesto que
son los vectores de parámetros de efectos
aleatorios, la expresión (2.7) no es un logaritmo de verosimilitud (log-likelihood)
convencional. Para mayor comodidad, a partir de ahora y a lo largo de este trabajo,
llamamos a (2.7) un logaritmo de verosimilitud generalizado (generalized log-likelihood
(GLL)) de los parámetros de efectos mixtos ( ,
). Tenga en cuenta que
el primer término del lado derecho de (2.7) es un residuo ponderado tomando la
variación intra-sujeto en cuenta, y el término
efectos aleatorios
es una penalización debido a los
tomando la variación entre-sujeto en cuenta.
Para determinadas
y
, minimizar el criterio GLL (2.7) es
equivalente a resolver las denominadas ecuaciones del modelo mixto (Harville 1976,
Robinson 1991):
donde
,
,
,
,
y
se definen en (2.6). Utilizando el algebra matricial, las
ecuaciones de rendimiento del modelo mixto
15
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
donde
y
covarianzas de
y
. Las matrices de
son:
2.2.3. Interpretación bayesiana
Es conocido que el modelo general LME (2.2) tiene una estrecha relación con un
modelo Bayesiano en el sentido de que las soluciones (2.8) y (2.9) son las expectativas a
posteriori de los parámetros de un modelo Bayesiano en virtud de no informativas
probabilidades (distribuciones) a priori.
Antes de seguir adelante, manifestamos los siguientes dos lemas útiles cuyas
demostraciones se pueden encontrar en algunos libros de texto estándar multivariante,
por ejemplo, Anderson (1984).
Lema 2.1 Sean ,
y
matrices
,
y
tales que
y
son
invertibles. Entonces
En particular, cuando
,
Lema 2.2 Sea
donde
16
es invertible. Entonces
y
donde
es un vector
, tenemos
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Definimos ahora el siguiente problema Bayesiano:
con distribución a priori para
donde
,
y :
y
son independientes unas de otras, y
se define en
(2.6).
Nótese que la especificación de
es flexible. Por ejemplo, podemos dejar que
. Esto indica que los componentes de
Además, cuando
en
son independientes unos de otros.
, tenemos
. Esto indica que el límite a priori
no es informativo.
Teorema 2.1 Los mejores predictores imparciales lineales (2.8) y (2.9) que minimizan
el criterio GLL (2.7) son los mismos que las expectativas del límite a posteriori del
problema Bayesiano definido en (2.14) y (2.15) con
Además, como
, tenemos las siguientes distribuciones a posteriori:
donde
y
Nótese que
y
implican los parámetros desconocidos
las estimaciones puntuales de
y
y
. Si sustituimos
(vamos a discutir cómo estimarlos en las siguientes
subsecciones), las estimaciones Bayesianas,
17
. Esto es,
y
se refieren generalmente como
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
estimaciones empíricas de Bayes, aunque la estimación empírica de Bayes se aplica
convencionalmente sólo a los efectos aleatorios
.
El Teorema 2.1 da las distribuciones del límite a posteriori de
marco Bayesiano (2.14) y (2.15) cuando
y
en el
o cuando lo a priori en
informativo. A veces, es interesante conocer la distribución a posteriori de
está dada, por ejemplo, cuando
,
y
no es
cuando
. En realidad, este conocimiento es la base para
el algoritmo EM basado en la máxima verosimilitud que vamos a revisar en el siguiente
apartado. El siguiente teorema da los resultados relacionados.
Teorema 2.2 Bajo el marco Bayesiano (2.14) y (2.15), tenemos
Vale la pena notar que, según el Teorema 2.2, tenemos
y
.
2.2.4. Estimación de los componentes de varianza
Si las matrices de covarianza,
puntuales, por ejemplo,
y
y
, son desconocidas, pero sus estimaciones
, están disponibles, entonces podemos tener
. Las estimaciones de
sustitución de
y
y
por lo tanto pueden ser obtenidas por
en (2.8) y (2.9). Sus correspondientes errores estándar están dados
por (2.10) y (2.12) después de sustituir
y
por sus estimaciones. Sin embargo, estos
errores estándar están subestimados ya que los errores de estimación de
y
no se
contabilizan.
Bajo el supuesto de normalidad, el método de máxima verosimilitud (maximum
likelihood (ML)) y el método de máxima verosimilitud restringida (restricted maximum
likelihood (REML)) son dos técnicas populares para estimar los componentes
desconocidos de
y
, aunque esto puede no ser adecuado si la hipótesis de
normalidad es cuestionable.
Bajo los supuestos de normalidad siguientes,
,
18
,
,
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
la función de verosimilitud generalizada se puede escribir como
donde
es la dimensión de
y
. Si el vector de efectos aleatorios
es
integrable, podemos obtener la siguiente función de verosimilitud convencional:
El método ML para la estimación de componentes de varianza es maximizar la
siguiente función de log-verosimilitud:
con respecto a los componentes de varianza para un determinado
. Sin embargo, la
maximización conjunta con respecto a los componentes de varianza
,
parámetros de efectos fijos
también da lugar a la estimación de
El método REML se utiliza para integrar a
y
de
ajustar la pérdida de grados de libertad debido a la estimación de
y el vector de
en (2.8).
con el fin de
del método ML, es
decir, para maximizar
Se puede demostrar que
donde
tenemos que
19
como se define en (2.18). Por lo tanto,
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Las estimaciones REML de componentes de varianza se pueden obtener a través
de la maximización
Derivaciones más detalladas de estos resultados se pueden encontrar en
Davidian y Giltinan (1995).
2.2.5. Los algoritmos EM
La implementación de los métodos ML y REML no es trivial. Para superar esta
dificultad de implementación, los métodos de algoritmo EM y de Newton-Raphson han
sido propuestos (Laird y Ware 1982, Dempster, Rubin y Tsutakawa 1981, Laird, Lange
y Stram 1987, Jenrich y Schluchter 1986, Lindstrom y Bates 1990). Los libros de
Searle, Casella y McCulloch (1992), Davidian y Giltinan (1995), Vonesh y Chinchilli
(1996) y Pinheiro y Bates (2000) también proporcionan una buena revisión de estos
métodos de implementación. El paquete estándar de software estadístico tal como R
ofrece funciones convenientes para implementar estos métodos (por ejemplo, la función
lme de R). Haremos una breve revisión del algoritmo EM aquí.
Recordemos que por lo general asumimos que
tiene la forma simple
siguiente:
Cuando
naturales ML de
y
y
se conocen, bajo el supuesto de normalidad, las estimaciones
serán
Este es el paso M del algoritmo EM. Debido a que
y
no se conocen, las
estimaciones anteriores no son computables. Hay dos maneras de superar esta
dificultad, asociadas, respectivamente, con el algoritmo EM basado en el ML o REML.
Nótese que las estimaciones ML de
y
se obtienen a través de la
maximización de la función de log-verosimilitud (2.20) con el vector de parámetros de
20
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
efectos fijos
es sustituir la
dado. Por lo tanto, la clave para el algoritmo EM basado en el ML
y
en (2.23) con
respectivamente. El razonamiento subyacente es que los componentes de varianza
y
se estiman sobre la base de los residuos después de que la componente de efectos
fijos estimada
se elimina de los datos en bruto, y la estimación no tomará la
variación de
en cuenta. Este es el paso E del algoritmo EM basado en el ML.
Usando el Teorema 2.2, podemos demostrar el siguiente teorema.
Teorema 2.3 Supongamos que el modelo Bayesiano definido en (2.14) y (2.15) se
cumple, y supongamos que
satisface (2.22). Entonces tenemos que
En el lado derecho de las expresiones (2.25), los componentes de varianza
y
aún son desconocidas. Sin embargo, cuando se sustituyen por los valores actuales
disponibles, los valores actualizados de
y
proporcionando algunos valores iniciales de
se pueden obtener. En otras palabras,
y
, se pueden actualizar
y
utilizando (2.25) hasta la convergencia. Esta es la idea principal del algoritmo EM. Para
simplificar, los valores iniciales pueden tomarse como
y
. El ciclo
principal para el algoritmo EM basado en el ML es el siguiente:
(a) Dados
y
, calcular
(b) Dados
y
, actualizar
y
utilizando (2.8) y (2.9).
y
utilizando (2.25).
(c) Alternar entre (a) y (b) hasta la convergencia.
Sea
valores estimados de
el índice de secuencia de las iteraciones, y
y
en la iteración . Otras notaciones tales como
,
los
,
se
definen de forma similar. A continuación, más formalmente, el algoritmo EM basado en
el ML puede ser escrito como sigue:
21
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Algoritmo EM basado en el ML
Paso 0. Establecer
. Sea
Paso 1. Establecer
,y
. Actualizar
.
y
utilizando
donde
Paso 2. Actualizar
y
utilizando
donde
Paso 3. Repetir los pasos 1 y 2 hasta la convergencia.
El algoritmo EM basado en el REML puede ser igualmente descrito. Las
principales diferencias son:
(a) El algoritmo EM basado en el REML se ha desarrollado para encontrar las
estimaciones REML de
y
que maximizan (2.21).
(b) La clave para el algoritmo EM basado en el REML es reemplazar
(2.23) por
y
y
en lugar de sus expectativas condicionadas a
en
y
como se indica en (2.24). Estas expectativas condicionales se pueden obtener
fácilmente utilizando el Teorema 2.1 y las presentaremos en el Teorema 2.4 a
continuación para facilitar su consulta.
22
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
(c) El algoritmo EM basado en el REML puede ser obtenido simplemente a través
de sustituir todos los
anterior con
en el Paso 2 del algoritmo EM basado en el ML
, donde
El Teorema 2.4 a continuación es similar al Teorema 2.3 pero se basa en el
Teorema 2.1.
Teorema 2.4 Supongamos que el modelo Bayesiano definido en (2.14) y (2.15) se
cumple, y supongamos que
donde
23
satisface (2.22). Entonces como
.
,
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Capítulo 3: Suavizadores en regresión no paramétrica
3.1. Introducción
En el Capítulo 2, hemos revisado los modelos paramétricos de efectos mixtos
para datos longitudinales, en particular hemos visto los modelos lineales de efectos
mixtos. Estos modelos paramétricos de efectos mixtos han sido ampliamente estudiados
y aplicados para analizar datos longitudinales en la literatura (Lindsey 1993, Diggle,
Liang y Zeger 1994, Davidian y Giltinan 1995, Vonesh y Chinchilli 1996, Pinheiro y
Bates 2000, Verbeke y Molenberghs 2000). Uno de los supuestos básicos de estos
modelos es que la variable de respuesta (o a través de una función de enlace conocida)
es una función paramétrica conocida de ambos efectos fijos y efectos aleatorios. Es
decir, para cada individuo, la relación subyacente entre la respuesta y las covariables de
efectos mixtos es paramétrica. Sin embargo, esta suposición no siempre se cumple en
las aplicaciones prácticas.
Tomamos los datos de progesterona, introducidos en la Sección 1.1.1 del
Capítulo 1, como un ejemplo. La Figura 3.1 muestra la gráfica de los datos con puntos
(círculos) individuales de progesterona de un sujeto seleccionado (hemos seleccionado
el sujeto número 2 del ciclo 5 del grupo no conceptivo). Se presentan ejemplos de algún
polinomio de menor grado ajustado (curvas continuas de color negro) a los datos. El
panel (a) representa un ajuste del modelo lineal, que no se ajusta adecuadamente a los
datos. Esta dificultad puede ser superada por el aumento del grado de los polinomios,
por ejemplo de lineal a cuadrático, cúbico o cuartico como se muestran en los paneles
(b), (c) y (d), respectivamente. Se ve que cuanto mayor sea el grado del polinomio, más
adecuadamente se ajustan los datos. Se ve que tanto los modelos polinomiales cúbico y
cuartico son generalmente bien ajustados a los datos, pero los ajustes siguen siendo
pobres antes del Día 0.
24
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Figura 3.1 (b) Cuadrático
-1
-1
0
5
10
-5
15
0
5
10
dias
dias
Figura 3.1 (c) Cúbico
Figura 3.1 (d) Cuartico
15
-1
1
-1
0
0
1
log (prog)
2
2
3
3
-5
log (prog)
1
log (prog)
0
1
0
log (prog)
2
2
3
3
Figura 3.1 (a) Lineal
-5
0
5
10
15
dias
-5
0
5
10
15
dias
Se obtuvieron resultados similares cuando reemplazamos el sujeto seleccionado
por algunos otros sujetos elegidos. Por lo tanto, un modelo polinomial de menor grado
puede no ajustarse bien a los datos de progesterona. Estos datos son sólo un ejemplo de
conjuntos de datos prácticos que no pueden ser bien ajustados por polinomios de grado
menor. Härdle (1990), Fan y Gijbels (1996), Green y Silverman (1994), y Ramsay y
Silverman (1997, 2002), entre otros, proporcionaron ejemplos de datos donde no es
posible ajustar adecuadamente los datos mediante polinomios de cualquier grado o
cualquiera de los modelos paramétricos. En estos casos, las técnicas no paramétricas de
modelado son necesarias.
Los datos de progesterona para el sujeto seleccionado, presentados como
círculos en la Figura 3.1, se pueden denotar como
25
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
donde
son conocidos como puntos en tiempo de diseño, y
son las respuestas a los puntos en tiempo de diseño. Los puntos en tiempo de
diseño pueden ser igualmente espaciados en un intervalo de interés, o ser considerado
como una muestra aleatoria de una densidad de diseño continua, concretamente,
.
Para simplificar, vamos a denotar el intervalo de interés, o el soporte de
,
que puede ser un intervalo finito, por ejemplo,
respuestas
como
o toda la recta real
. Las
se observan a menudo con errores.
Para un conjunto de datos como el anterior, un modelo de regresión no
paramétrica simple se suele escribir como
donde
modela la función de regresión subyacente que queremos estimar, pero no
puede ser aproximada utilizando un modelo paramétrico adecuado, y
denota los errores de medición que no pueden ser explicados por la función de regresión
. Matemáticamente,
es la esperanza condicionada de
, dado
, es decir,
Para los datos longitudinales, el conjunto de datos (3.1) describe la estructura de
datos para un sujeto individual donde
es la función de los individuos, y
son los puntos en tiempo de diseño de los individuos con
mediciones.
Hay muchos suavizadores existentes que pueden ser utilizados para estimar la
en (3.2). Diferentes suavizadores tienen diferentes puntos fuertes en uno u otro
aspecto. Por ejemplo, la suavización splines puede ser buena para el manejo de la
escasez de datos, mientras que los suavizadores polinomial local pueden ser
computacionalmente ventajosos para el manejo de diseños densos. En este capítulo,
revisaremos los suavizadores polinomial local (Wand y Jones 1995, Fan y Gijbels 1996)
en la Sección 3.2. En capítulos posteriores, se desarrollan la media de la población no
paramétrica y modelos de efectos mixtos para datos longitudinales basados en estos
suavizadores.
26
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
3.2. Suavizador del núcleo polinomial local
3.2.1. Grado general del suavizador LPK
La idea principal del suavizado del núcleo polinomial local (local polynomial
kernel (LPK)) es aproximar localmente la
en (3.2) por un polinomio de menor grado.
Su fundamento es la expansión de Taylor, que establece que cualquier función suave
puede ser localmente aproximada por un polinomio de menor grado.
En concreto, sea
un punto arbitrario en un tiempo fijo donde la función
(3.2) será estimada. Supongamos que
algún entero
en
tiene
en
-primera derivada continua para
. Por la expansión de Taylor,
puede ser localmente
aproximada por un polinomio de grado . Es decir,
en una zona de
-ésima de
que permita la expansión anterior donde
en
denota la derivada
.
Fijamos
,
.
Sea
los
minimizadores del siguiente criterio de mínimos cuadrados ponderados (weighted least
squares (WLS)):
donde
, que se obtiene a través de re-escalar una función del núcleo
con una constante
ancho de banda
, llamado el ancho de banda o parámetro de suavizado. El
se utiliza principalmente para especificar el tamaño de la zona local,
concretamente,
donde el ajuste local se lleva a cabo. La función del núcleo,
observaciones dentro de
contribuyen al ajuste en
, determina cómo las
. Discutiremos las funciones
del núcleo en la Sección 3.2.3. Denotemos la estimación de la derivada -ésima
como
27
. Entonces
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
En particular, el resultado del -ésimo grado del estimador LPK de
es
.
Una expresión explícita para
es útil y puede hacerse a través de la
notación de matrices. Sea
y
la matriz de diseño y la matriz de pesos para el ajuste LPK alrededor de
. Entonces el
criterio WLS (3.3) se puede reescribir como
donde
y
donde
. Resulta que
denota un vector unitario
-dimensional cuya
-primera
entrada es 1 y las otras entradas son 0, y
Cuando
se ejecuta sobre todo el soporte
una estimación de todo el rango de
de los puntos en tiempo de diseño,
se obtiene. El estimador derivado
se suele llamar suavizador LPK de la función derivada subyacente
. El suavizador derivado
se suele calcular en una cuadrícula de ’s en .
En este capítulo, sólo nos centramos en la curva más suave
a menos que discutamos la estimación derivada. Fijamos
ajustado de
28
. Por (3.6), se observa que
para ser el valor
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
donde
es
después de sustituir
con
. Sea
denota el valor ajustado en todos los puntos en tiempo de diseño. Entonces
que
se puede
expresar como
donde
se conoce como la matriz suavizadora del suavizador LPK. Puesto que
del vector de respuesta , el suavizador LPK
no depende
se conoce como suavizador lineal.
3.2.2. Suavizadores lineal y constante local
Los suavizadores lineal y constante local son los dos más simples y más útiles
suavizadores LPK. El suavizador constante local se conoce como el estimador
Nadaraya-Watson (Nadaraya 1964, Watson 1964). Este suavizador resulta del
suavizador LPK
(3.6) simplemente tomando
Dentro de una zona local
constante. Es decir, es el minimizador
:
, se ajusta a los datos con una
del siguiente criterio WLS:
El estimador Nadaraya-Watson es fácil de entender y fácil de calcular. Sea
que denota la función indicadora de un conjunto . Cuando la función del núcleo
es
el núcleo Uniforme
el estimador Nadaraya-Watson (3.9) es exactamente la media local de
dentro de la zona local
29
(3.4):
’s que están
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
donde
denota el número de observaciones que caen dentro de la zona local
. Sin embargo, cuando
dentro de la zona
que el caso cuando
está en la frontera de
de modo que
está en el interior de
, menos puntos de diseño están
tiene una tasa de convergencia más lenta
. Para una explicación detallada de este
efecto frontera, se remite al lector a Fan y Gijbels (1996) y Cheng, Fan y Marron
(1997).
El suavizador lineal local (Stone 1984, Fan 1992, 1993) se obtiene a través de
ajustar un conjunto de datos a nivel local con una función lineal. Sea
que
minimiza el siguiente criterio WLS:
Entonces el suavizador lineal local es
del suavizador LPK
. Se puede obtener fácilmente
(3.6) simplemente tomando
. Se le conoce como un
suavizador con un efecto de frontera libre (Cheng, Fan y Marron 1997). Es decir, tiene
la misma tasa de convergencia en cualquier punto de . También exhibe muchas buenas
propiedades que los otros suavizadores lineales pueden carecer. Buenas discusiones
sobre estas propiedades se pueden encontrar en Fan (1992, 1993), Hastie y Loader
(1993), y Fan y Gijbels (1996, Capítulo 2), entre otros. Un suavizador lineal local puede
ser simplemente expresado como
donde
Por lo general, la elección del grado de ajuste LPK,
, no es tan importante
como la elección del ancho de banda, . Un suavizador constante local
30
o lineal
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
local
a menudo es lo suficientemente bueno para la mayoría de los problemas
de aplicación si la función del núcleo
y el ancho de banda
son adecuadamente
determinados. Fan y Gijbels (1996, Capítulo 3) señaló que para la estimación de la
curva (no válido para la estimación derivada) un
impar es preferible. Esto es así
porque un ajuste LPK con
, introduce un parámetro adicional en
comparación con un ajuste LPK con
, pero no aumenta la varianza del estimador
asociado LPK. Sin embargo, el sesgo asociado puede ser reducido significativamente,
especialmente en las regiones de frontera (Fan 1992, 1993, Hastie y Loader 1993, Fan y
Gijbels 1996, Cheng, Fan y Marron 1997). Por lo tanto, el suavizador lineal local es
altamente recomendable para la mayoría de los problemas en la práctica.
3.2.3. Función del núcleo
La función del núcleo
utilizada en el suavizador LPK (3.6) es generalmente
una función de densidad de probabilidad simétrica. Mientras que el ancho de banda
especifica el tamaño de la zona local
observaciones contribuyen al ajuste LPK en
, el núcleo
especifica cómo las
.
Hemos visto anteriormente el núcleo Uniforme (3.10) y ahora vemos el núcleo
Gaussiano (función de densidad de probabilidad normal estándar)
Cuando el núcleo Uniforme se utiliza, todos los
’s dentro de la zona local
contribuyen igualmente (los pesos son los mismos) en el ajuste LPK en
mientras que todos los
’s fuera de la zona no contribuyen en nada. Cuando el núcleo
Gaussiano se utiliza, sin embargo, la contribución de los
distancia de
a
,
, es decir, cuanto menor es la distancia
’s se determina por la
, mayor es la
contribución. Esto es porque el núcleo Gaussiano es con forma de campana y alcanza su
punto máximo en el origen. El núcleo Uniforme tiene un soporte limitado que permite al
ajuste LPK utilizar los datos sólo en la zona
. Esto hace una implementación
rápida del posible ajuste LPK, lo cual es ventajoso sobre todo para grandes conjuntos de
datos. El uso del núcleo Gaussiano a menudo resulta en buenos efectos visuales de los
suavizadores LPK, pero paga un precio de requerir más esfuerzo computacional.
Los núcleos Uniforme y Gaussiano son dos miembros especiales de la siguiente
bien conocida familia Beta simétrica (Marron y Nolan 1989):
31
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
donde
y
La elección de
denota una función beta con parámetros
y .
conducen a las funciones núcleo Uniforme,
Epanechnikov, Biweight y Triweight, respectivamente. El núcleo Gaussiano es el límite
de la familia (3.13) cuando
. El núcleo Epanechnikov se conoce como el núcleo
óptimo (Fan y Gijbels 1996) para la suavización LPK.
La elección de un núcleo no suele ser tan importante, ya que no determina la tasa
de convergencia del suavizador LPK (3.6) a la curva subyacente. Sin embargo,
determina la eficiencia relativa del suavizador LPK. Para más discusión sobre la
elección del núcleo, consulte Gasser, Müller y Mammitzsch (1985), Fan y Gijbels
(1996), Zhang y Fan (2000) y sus referencias.
3.2.4. Selección del ancho de banda
Un suavizador se considera que es bueno si produce un pequeño error de
predicción, por lo general medido por el Error Cuadrático Medio (Mean Squared Error
(MSE)) o el Error Cuadrático Medio Integrado (Mean Integrated Squared Error
(MISE)) del suavizador. Para el suavizador LPK
, sus MSE y MISE se definen
como
donde
se conocen como el sesgo y la varianza de
,y
es una función de peso, a
menudo utilizada para especificar un rango concreto de interés.
Bajo ciertas condiciones de regularidad como que
podemos demostrar que como
32
,
es un punto interior,
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
donde
significa
está acotada en la probabilidad. Véase, por ejemplo,
Fan y Gijbels (1996, Capítulo 3) para más detalles. De esto, podemos ver que el ancho
de banda
controla el equilibrio entre el sesgo al cuadrado y la varianza del suavizador
LPK
. Cuando
es pequeño, el sesgo al cuadrado es pequeño pero la varianza es
grande. Por otro lado, cuando
es grande, el sesgo al cuadrado es grande mientras que
la varianza es pequeña. Una buena elección de
por lo general compensará estos dos
términos para que el MSE o MISE asociado se reduzca al mínimo.
El papel desempeñado por el ancho de banda
también se puede ver
intuitivamente. Como se mencionó anteriormente, el ancho de banda
tamaño de la zona local
. Cuando
especifica el
es pequeño,
contiene sólo unas pocas observaciones de modo que
puede estar bien ajustado
en base al criterio WLS (3.3) para aproximarse cerca de
. Esto implica un pequeño
sesgo de
. Sin embargo, ya que sólo unas pocas observaciones están involucradas
en el ajuste LPK, la varianza del estimador es muy grande. Con un razonamiento
similar, cuando
es grande,
contiene muchas observaciones de modo que
tiene un sesgo grande pero una varianza pequeña.
Es entonces natural seleccionar un ancho de banda global
(MSE para un ancho de banda local) de
para que el MISE
se reduzca al mínimo.
Desafortunadamente, el MISE (3.14) no es calculable ya que
es, después de todo,
desconocido y es el objetivo que se estima. Este problema se puede superar mediante la
selección de
para minimizar algún estimador del MISE. Un estimador del MISE se
puede obtener a través de la estimación de las cantidades desconocidas en la expresión
asintótica MISE usando algún grado superior del ajuste LPK, dando como resultado el
llamado complemento de los selectores de ancho de banda (Fan y Gijbels 1992,
Ruppert, Sheather y Wand 1995). El MISE también se puede estimar mediante
validación cruzada o sus versiones modificadas: validación cruzada generalizada
(Wahba 1985), criterio de información Akaike (Akaike 1973) y criterio de información
Bayesiano (Schwarz 1978), entre otros.
33
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
3.2.5. Un ejemplo ilustrativo
Para una rápida implementación del suavizador LPK, referimos a los lectores a
Fan y Marron (1994) donde una técnica de agrupación se propone para el manejo de
grandes conjuntos de datos. Ahora aplicamos el suavizador LPK (3.6) a los datos
presentados en la Figura 3.1. Como ejemplo ilustrativo, se empleó el ajuste lineal local
con tres diferentes anchos de banda. En la Figura 3.2, los tres ajustes lineales
locales se presentan. La curva continua de color rojo casi interpola los datos ya que
utiliza un ancho de banda
, que es demasiado
pequeño. Este es el caso de infra-suavizado. La curva continua de color azul no se ajusta
bien a los datos ya que utiliza un ancho de banda
,
que es demasiado grande. Este es el caso de sobre-suavizado. La curva continua de
color negro produce un buen ajuste a los datos ya que utiliza un ancho de banda
seleccionado por GCV, que no es demasiado
pequeño o demasiado grande.
1
0
-1
log (prog)
2
3
Figura 3.2 Ajustes lineales locales
-5
0
5
dias
34
10
15
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Capítulo 4: Métodos localmente polinomiales
4.1. Introducción
Las técnicas de suavizado localmente polinomiales han sido bien desarrolladas
para datos i.i.d. o transversales (Wand y Jones 1995, Fan y Gijbels 1996). Con el fin de
aplicar estas técnicas al análisis de datos longitudinales, los esfuerzos se han hecho
considerables para incorporar las características de los datos longitudinales en los
métodos de suavizado del núcleo (Hoover, Rice, Wu y Yang 1998, Wu, Chiang y
Hoover 1998, Fan y Zhang 2000, Lin y Carroll 2000, Wu y Chiang 2000, Wu y Zhang
2002a, Welsh, Lin y Carroll 2002, Wang 2003, Park y Wu 2005). En los estudios
longitudinales, los datos recogidos del mismo sujeto en el tiempo tienden a estar
correlacionados, aunque los datos de diferentes sujetos se supone que son
independientes. Las variaciones intra-sujeto y entre-sujeto son diferentes y necesitan ser
modeladas apropiadamente.
Hoover, Rice, Wu y Yang (1998), Wu, Chiang y Hoover (1998) y Wu y Chiang
(2000) propusieron por primera vez el método de estimación del núcleo para modelos
con coeficientes variando en el tiempo con datos longitudinales. Sin embargo, las
características de los datos longitudinales no se incorporan directamente en sus
métodos, aunque el criterio de validación-cruzada “dejar-un-sujeto-fuera” se propone
para la selección del parámetro de suavizado en el que los datos de sujeto-basados en
clusters son reconocidos. Para los datos correlacionados del modelo no paramétrico,
tales como datos longitudinales, Diggle y Hutchinson (1989), Altman (1991), Hart
(1991), Rice y Silverman (1991) y otros han propuesto modificaciones para el criterio
de selección del parámetro de suavizado tales como la validación-cruzada (crossvalidation (CV)) o la validación-cruzada generalizada (generalized cross-validation
(GCV)) o el uso de CV o GCV “dejar-un-sujeto-fuera” de forma indirecta en cuenta de
las correlaciones entre los datos. Lin y Carroll (2000) propusieron un método de
ecuación de estimación generalizada del núcleo polinomial local (local polynomial
kernel generalized estimating equation (LPK-GEE)) para clustered (agrupados) o datos
longitudinales. Ellos mostraron que la mejor estrategia es ignorar la estructura de
correlación de los datos longitudinales (fingir como si los datos dentro de un grupo o
sujeto son independientes) en el estimador LPK-GEE. Sin embargo, sus conclusiones se
basan en los resultados asintóticos a condición de que el número de sujetos o grupos
tiende a infinito y el número de mediciones de cada sujeto es finito. El estimador
35
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
working-independence de Lin y Carroll no puede ser el mejor para los casos de muestra
finita. De hecho, algunos nuevos resultados han demostrado que es necesaria la
incorporación de las correlaciones de datos longitudinales en el estimador con el fin de
lograr una mayor eficacia en situaciones de muestras finitas (Wu y Zhang 2002a,
Welsh, Lin y Carroll 2002, Wang 2003). Fan y Zhang (2000) sugiere un enfoque en dos
etapas (primero con un promedio local o de regresión, luego suavizado) de forma
indirecta en cuenta de la correlación de datos. Un enfoque de modelado de efectos
mixtos localmente polinomial, el cual más apropiadamente modela las correlaciones
intra-sujeto, fue propuesto por Wu y Zhang (2002a). Este método será uno de los temas
centrales de este capítulo.
Se amplían los modelos lineales de efectos mixtos (Capítulo 2) a una
configuración de modelo no paramétrico más general en este capítulo. El resto de este
capítulo está organizado de la siguiente manera. En primer lugar se revisan los métodos
para la estimación de la función de media poblacional para datos longitudinales en la
Sección 4.2. Un método polinomial local simple y un método LPK-GEE se describen
brevemente. La Sección 4.3 introduce un modelo no paramétrico de efectos mixtos
(nonparametric mixed-effects (NPME)) y la Sección 4.4 presenta la técnica de
modelado de efectos mixtos localmente polinomial. Se discuten diferentes estrategias de
selección del ancho de banda en la Sección 4.5. Para ilustrar las metodologías, una
aplicación a los datos de progesterona se presenta en la Sección 4.6. La mayoría de los
materiales de las Secciones 4.3~4.6 provienen de dos artículos de Wu y Zhang (2002a)
y Park y Wu (2005).
4.2. Modelo no paramétrico para la media poblacional
Un conjunto de datos longitudinales, por ejemplo, los datos de progesterona
introducidos en la Sección 1.1.1 del Capítulo 1, son normalmente coleccionados
mediante mediciones repetidas de una serie de sujetos durante un período de tiempo.
Los puntos en tiempo de diseño pueden ser diferentes para sujetos diferentes y también
lo son el número de mediciones. Sea
el número de sujetos, y sea
el -ésimo
punto en tiempo de diseño del -ésimo sujeto y la respuesta asociada donde
con
denotando el número de mediciones del -ésimo sujeto. Tal conjunto
de datos longitudinales puede ser simbólicamente expresado como
36
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Si un modelo paramétrico no está disponible para el modelado de la función de
media poblacional de los anteriores datos longitudinales, es natural modelar en no
paramétrica. Es decir, asumimos justamente que la función de media poblacional es
suave. Tal modelo no paramétrico de media poblacional (nonparametric population
mean (NPM)) se puede escribir como
donde
es la función suave de media poblacional, y
son las salidas de las
mediciones longitudinales de la función de media poblacional. Este modelo es
comparable con el modelo de regresión no paramétrica estándar (3.2) del Capítulo 3,
pero difiere en que los errores en el modelo NPM (4.2) son por lo general no
independientes.
Dado que no está disponible la forma paramétrica para el modelado de
, las
técnicas de suavizado no paramétricas son necesarias para ser utilizadas. De hecho,
varias técnicas no paramétricas se han propuesto para los modelos de coeficientes
variando en el tiempo que incluyen el modelo NPM (4.2) como un caso especial. En
esta sección, se revisan dos técnicas: un método del núcleo polinomial local (local
polynomial kernel (LPK)) (Hoover, Rice, Wu y Yang 1998); y un método LPK-GEE
(Lin y Carroll 2000).
4.2.1. Método del núcleo polinomial local
El método LPK para los modelos de coeficientes variando en el tiempo para
datos longitudinales fue propuesto y estudiado por primera vez por Hoover, Rice, Wu y
Yang (1998). Como fue el caso del suavizado LPK de datos independientes revisado en
la Sección 3.2 del Capítulo 3, la idea principal de este método LPK es ajustar un
polinomio de cierto grado a
localmente.
Sea un punto arbitrario en tiempo fijo. Supongamos que
de
-primeras derivadas continuas para algún entero
expansión de Taylor,
. Es decir,
37
tiene un máximo
en . Entonces por la
se puede aproximar localmente por un polinomio de grado
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
donde
y
. Sea
con
el estimador de
,
obtenido al minimizar el
siguiente criterio de mínimos cuadrados ponderados (weighted least squared (WLS)):
donde
con
una función del núcleo y
un ancho de banda. Al igual
que con el suavizado de datos independientes descrito en la Sección 3.2, el ancho de
banda
se utiliza para especificar el tamaño de la zonal local
y el núcleo
se utiliza para especificar el efecto de los puntos de datos de acuerdo a la distancia
entre
y . Por lo general, mientras más cerca la distancia está, más grande el efecto
es.
Para dar una expresión explícita para
en la notación de matrices, sea
la matriz de diseño y la matriz de peso para el -ésimo sujeto, respectivamente. Además,
se denota
y
. Entonces el criterio WLS (4.4)
se puede reescribir como
donde
con
siendo el vector respuesta del -ésimo
sujeto. Se deduce de minimizar (4.5) con respecto a
Sea
un vector unitario
que
-dimensional cuya -ésima entrada es 1 y las
demás son 0. Entonces es fácil ver que a partir de las definiciones de
que los estimadores de las derivadas
son
En particular, el estimador LPK para la función de media poblacional es
.
38
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Al igual que con suavizado en datos i.i.d. que se describe en la Sección 3.2,
puede ser tomado como 0 y 1 por simplicidad. Por ejemplo, cuando
, un vector de
, tenemos
-dimensiones de ’s y el estimador LPK resultante
es
generalmente conocido como el denominado estimador del núcleo constante local de
donde
es el número de mediciones totales para todos los sujetos. A
partir de (4.6), el estimador del núcleo constante local de
tiene la siguiente
expresión sencilla:
Cuando
, es decir, hay solo una medición por sujeto, el estimador (4.8) se
reduce al estimador de datos i.i.d. en (3.9). El estimador (4.8) se llama un estimador del
núcleo constante local ya que es igual al minimizador,
En otras palabras,
, del siguiente criterio WLS:
es la mejor constante que se aproxima a
en la zona local
en lo que respecta a la minimización (4.9).
Cuando
, el estimador LPK asociado
el estimador del núcleo lineal local de
es generalmente conocido como
. A partir de (4.6), el estimador del núcleo
lineal local puede ser expresado como
donde
Del mismo modo, el estimador (4.10) se llama un estimador del núcleo lineal
local ya que se obtiene mediante aproximación de
función lineal
39
en una zona local utilizando una
, es decir, minimizando el siguiente criterio WLS:
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Basado en los resultados de Hoover, Rice, Wu y Yang (1998), es fácil demostrar
que cuando
, bajo ciertas condiciones de regularidad, tenemos
donde el término de primer orden
en la expresión de
se
relaciona con la variación intra-sujeto solamente, mientras que el término de segundo
orden
se asocia con la variación entre-sujeto. De ello se desprende que
las propiedades asintóticas de
comparación a cuando
limitados, la
son diferentes cuando
es limitada, en
no es acotado (limitado). De hecho, cuando todos los
son
en (4.12) está dominada por el término de primer orden para que
; cuando todos los
tienden a infinito, la
dominada por el término de segundo orden
para que
. En particular, supongamos
, tenemos
está
entonces como
. En este caso,
es
-consistente.
A partir de (4.12), el ancho de banda óptimo teórico que minimiza
es del orden de
cuando
es limitada. Rice y
Silverman (1991) propusieron un método de validación cruzada “dejar-un-sujeto-fuera”
para la selección de un ancho de banda adecuado para datos longitudinales. Esta
estrategia de selección de ancho de banda fue empleada por Hoover, Rice, Wu y Yang
(1998).
4.2.2. Método del núcleo polinomial local GEE
El método LPK-GEE fue propuesto y estudiado por Lin y Carroll (2000). Para el
modelo NPM (4.2), basado en la notación como
,
,
y
definido en el apartado
anterior, el asociado LPK-GEE es
donde
con
trabajo especificado por el usuario. Cuando
40
y
siendo una matriz de correlación de
, el LPK-GEE (4.13) se puede
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
obtener a través de diferenciar el criterio WLS (4.5) con respecto a
igual a 0. La solución del anterior LPK-GEE con respecto a
y se establece
lleva al llamado
estimador LPK-GEE
Los estimadores para
y sus derivadas se pueden obtener fácilmente
utilizando (4.7).
La matriz de correlación de trabajo
en la formulación LPK-GEE (4.13) se
utiliza para tener en cuenta parcialmente la estructura de correlación subyacente de .
En particular, cuando tomamos
, tenemos
de manera
que la estructura de correlación verdadera se tiene en cuenta aunque esto es casi
imposible en aplicaciones reales.
El resultado contrario a la intuición de Lin y Carroll (2000) es que el más
eficiente estimador LPK-GEE se obtiene haciendo caso omiso de la correlación intrasujeto en lugar de especificar correctamente la correlación intra-sujeto, es decir,
suponiendo
. Argumentaron que, asintóticamente, no hay necesidad de tomar en
cuenta la correlación porque cuando el ancho de banda es reducido a 0 como el tamaño
de la muestra
, la posibilidad de que más de dos observaciones sean del mismo
sujeto es pequeña y por lo tanto los datos utilizados en la estimación local son de sujetos
diferentes que se supone que son independientes. Esto implica que la matriz de
covarianza verdadera para los datos que contribuyen a la estimación local es
asintóticamente diagonal. Por lo tanto, el estimador LPK-GEE “working independence”
es asintóticamente óptimo (Lin y Carroll 2000). Esto está en contraste con la
paramétrica habitual GEE (Liang y Zeger 1986) en que la mejor estrategia es utilizar la
verdadera correlación de los datos. Como se mencionó en Hoover, Rice, Wu y Yang
(1998), debemos interpretar los resultados asintóticos con precaución ya que en
aplicaciones de datos reales, el ancho de banda adecuado seleccionado por un selector
de ancho de banda no suele ser tan pequeño y los resultados asintóticos pueden no ser
aplicables. En otras palabras, tomando adecuadamente en cuenta la correlación puede
ser necesaria para análisis de datos de muestras finitas.
Se puede observar que el método LPK-GEE utiliza el peso del núcleo para
controlar los sesgos. Con el fin de reducir los sesgos, todos los datos localizados lejos
41
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
del punto de estimación se ponderan hacia abajo aunque estos datos pueden contener
información útil debido a la correlación con los datos cerca del punto de estimación del
mismo sujeto. Por lo tanto, la eficiencia de la estimación se puede perder ya que es
difícil controlar los sesgos y reducir la varianza de forma simultánea. Para hacer frente a
este problema, Wang (2003) propuso un procedimiento de dos pasos. La idea básica es
la siguiente: Para utilizar de manera eficiente toda la información relacionada a un
sujeto, una vez que un punto de datos de un sujeto o grupo se encuentra cerca del punto
de estimación (por ejemplo, a
) y contribuye significativamente a la estimación local,
todos los puntos de datos de este sujeto o grupo se utilizarán. Para evitar sesgos, las
contribuciones de todos estos puntos de datos excepto el punto de datos cerca del punto
de estimación local son a través de sus residuos. Se define
con la -ésima fila
como una matriz
y 0 en otro caso. El
procedimiento de dos pasos para el modelo NPM (4.2) puede ser descrito de la siguiente
manera (Wang 2003):
Paso 1. Obtener un estimador inicial consistente de
, por ejemplo
ejemplo, el estimador working independence puede ser tomado como
Paso 2. Obtener la estimación final de
, por ejemplo
. Por
.
, resolviendo la
ecuación estimada del núcleo ponderado
donde el -ésimo elemento de
es
cuando
del punto de tiempo ; y el -ésimo elemento de
La estructura de
medición
con
es
estando a un margen
cuando
está diseñada de manera que, para un
no está a un margen
contribuye a la estimación local
de , el residuo
.
cuyo tiempo de
, en lugar de
. Esto garantizará el estimador propuesto
para ser asintóticamente insesgado en el peor caso.
Para el modelo NPM (4.2), podemos expresar el estimador de dos pasos como
42
,
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
donde
denota la
de trabajo para el
independence
-ésima entrada de
con
siendo la matriz de covarianza
-ésimo sujeto. Comparando (4.16) al estimador working
, es decir,
vemos que los datos correlacionados pero no en un margen
de
se incorporan en el
estimador de dos pasos mediante la adición de sus residuos ponderados obtenidos a
partir del primer paso, y el peso es su correlación (covarianza) hasta el -ésimo punto de
datos que está en un margen
de . La ventaja del estimador en dos pasos es una
reducción de la varianza sin la ampliación de los sesgos al menos asintóticamente. El
anterior método de dos pasos puede ser mejorado mediante la iteración de los dos pasos.
Sin embargo, las investigaciones teóricas muestran, a la primera orden, que el estimador
de dos pasos alcanza las mismas propiedades asintóticas que el estimador totalmente
reiterado. Wang (2003) muestra que el estimador de dos pasos supera de manera
uniforme el estimador “working independence” (Lin y Carroll 2000) en términos de la
varianza asintótica si la covarianza verdadera se ha especificado correctamente.
El método de dos pasos de Wang proporciona una forma inteligente de
incorporar correlaciones intra-sujeto de datos longitudinales con el fin de utilizar
eficientemente los datos disponibles para mejorar el estimador working independence.
Sin embargo, el uso de un margen de
residuos deben ser utilizados para estimar
de
para determinar si los datos o sus
es totalmente arbitrario. No sabemos
cómo esto afecta a la selección del ancho de banda. Con el fin de implementar el
método de Wang, la covarianza de trabajo tiene que ser estimada separadamente. En la
Sección 4.4, presentaremos el enfoque de modelado de efecto mixto para incorporar las
correlaciones intra-sujeto de una manera más natural.
Chen y Jin (2005) recientemente propusieron utilizar simplemente el método
local de mínimos cuadrados generalizado (generalized least squares (GLS)) para
explicar las correlaciones de datos longitudinales. Su método no es nada nuevo y se
puede considerar como un caso especial del modelo de efectos mixtos localmente
polinomial descrito en la Sección 4.4. Además, su método también requiere determinar
43
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
o estimar la matriz de covarianza separadamente, y una estimación precisa de la matriz
de covarianza es generalmente difícil de obtener.
4.3. Modelo no paramétrico de efectos mixtos
En la sección anterior, se revisaron dos populares técnicas no paramétricas para
el ajuste del modelo NPM (4.2) para datos longitudinales. Un problema crítico de las
técnicas anteriores es que las características de los datos longitudinales no se incorporan
directamente en los estimadores y estimaciones de las funciones individuales no son
consideradas. En muchos estudios longitudinales, estimación e inferencia de las
funciones individuales son tan importantes como la función de media poblacional. En
esta sección, extendemos el modelo NPM (4.2) a un modelo que incorpora la función de
media poblacional y las funciones individuales de los datos longitudinales de forma
simultánea. El nuevo modelo se puede expresar como
donde como en el modelo NPM (4.2),
modela la función de media poblacional
suave de los datos longitudinales, también llamada función de efecto fijo;
modela
la salida de la -ésima función individual de la función de media poblacional
,
llamada la -ésima función de efectos individual (sujeto-especificado) o función de
efecto aleatorio; y
la función de error de medición que no se puede explicar ni por
las funciones de efecto fijo o de efecto aleatorio. Es fácil ver que el término de error,
, del modelo (4.2), ahora se convierte en dos términos,
y
, del nuevo
modelo (4.18). El modelo (4.18) se le llama modelo no paramétrico de efectos mixtos
(nonparametric mixed-effects (NPME)) ya que tanto las funciones de efecto fijo y efecto
aleatorio son no paramétricas.
Por conveniencia, a menudo asumimos que las funciones de efecto aleatorio no
observables
(SP)) subyacente
son copias i.i.d. de un proceso suave (smooth process
con función media 0 y función covarianza
procesos de error de medición no observables
ruido blanco incorrelado
. Esto es,
44
, y que los
son copias i.i.d. de un proceso de
con función media 0 y función covarianza
y
. En este trabajo, cuando se trata
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
con inferencias bayesianas o basadas en la probabilidad, por lo general asumimos que
los procesos asociados son Gausianos, es decir,
Nótese que
,
y
caracterizan los rasgos generales de una
población longitudinal de modo que son “características de la población”, mientras que
las funciones de efecto aleatorio
y las funciones individuales
son especificas de sujeto de modo que son “características de los
individuos”. El objetivo principal del modelado NPME es estimar el efecto de la
población y predecir los efectos individuales para un estudio longitudinal. Para
simplificar, la función de media poblacional
y las funciones individuales
también se les conoce como curvas de la población e individual. Debido a que las
cantidades objetivo
,
y
son todas no paramétricas, el modelado NPME
requiere una combinación de una técnica de suavizado y un enfoque de modelado de
efectos mixtos.
4.4. Modelado de efectos mixtos polinomial local
En el resto de este capítulo, se aplican técnicas de suavizado del núcleo
polinomial local (local polynomial kernel (LPK)) al modelo NPME (4.18) para analizar
datos longitudinales. Los principios de probabilidad local (Tibshirani y Hastie 1987) se
utilizan para guiar el desarrollo de las metodologías.
4.4.1. Aproximación polinomial local
Las cantidades objetivo
,
y
se pueden estimar a través de la
aproximación a nivel local en el modelo NPME (4.18) por un polinomio basado en el
modelo LME. Esto se puede lograr a través de la expansión de Taylor de
y
en torno a una zona de interés.
Supongamos que
tienen un máximo de
y
en el modelo NPME (4.18) es suave, por ejemplo,
-veces derivadas continuas en cada punto dentro de algún
intervalo de interés, llamado
, donde
Taylor, para cualquier
fijo,
es un entero no negativo. Por la expansión de
y
en
polinomio de grado -ésimo dentro de una zona de :
45
se puede aproximar por un
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
donde
y
De ello se sigue que, dentro de una zona de , el modelo NPME (4.18) puede ser
razonablemente aproximado por un modelo LME:
donde
denota las medición y errores en el modelo de aproximación, y
denota los
efectos aleatorios. Bajo el supuesto Gausiano (4.19),
Basado en el modelo NPME (4.18), los componentes de varianza
y
vector de efectos fijos
y la matriz de covarianza
. Nótese que como el
son las funciones de la ubicación
local , por conveniencia, las llamamos la versión localizada del vector de efectos fijos
y la versión localizada de la matriz de covarianza, respectivamente, o en general los
parámetros localizados.
4.4.2. Estimación por máxima verosimilitud local
Tibshirani y Hastie (1987) propusieron por primera vez el método de máxima
verosimilitud local. Staniswalis (1989) y Fan, Farmen y Gijbels (1998) estudiaron más a
fondo las propiedades de los estimadores de máxima verosimilitud local del núcleo
ponderado. En esta subsección, aplicamos el método de máxima verosimilitud local a
46
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
datos longitudinales en los que las correlaciones entre-sujeto normalmente existen (Park
y Wu 2005).
Supongamos que
es un vector de observaciones
obtenido del -ésimo sujeto en los puntos de tiempo
densidad de probabilidad
para
y tiene una función de
. Entonces la contribución del -ésimo
sujeto al total del logaritmo de verosimilitud (log-likelihood) es
, donde
son vectores de parámetros desconocidos a estimar. El
logaritmo de verosimilitud (log-likelihood) de las observaciones de todos los
sujetos
es entonces dado por
Cuando
son parámetros localizados, por ejemplo, la versión localizada del
vector de efectos fijos
y la versión localizada de la matriz de covarianza
descritos
en la subsección anterior, es más natural definir el logaritmo de verosimilitud (loglikelihood) local. Una forma de hacerlo es utilizar el logaritmo de verosimilitud (loglikelihood) del núcleo ponderado como se discute en Staniswalis (1989) y Fan, Farmen
y Gijbels (1998), entre otros.
Sea
donde
es una función del núcleo y
banda. Sea
es un ancho de
la matriz diagonal de pesos del
núcleo en la zona de para el -ésimo sujeto donde
. Entonces el logaritmo
de verosimilitud (log-likelihood) del núcleo ponderado se define por
que es una función de
A modo de ejemplo, si
donde
y
y
.
, entonces el
logaritmo de verosimilitud (log-likelihood) del núcleo ponderado se puede escribir
como
47
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
que es una función de logaritmo de verosimilitud (log-likelihood) local estándar para
datos independientes como se discute en Staniswalis (1989) y Fan, Farmen y Gijbels
(1998). En el caso de no correlación intra-sujeto, el logaritmo de verosimilitud (loglikelihood) local ponderado (4.23) se puede escribir como
Esto coincide con los casos considerados por Hoover, Rice, Wu y Yang (1998) y
Lin y Carroll (2000).
En general, la forma del logaritmo de verosimilitud (log-likelihood) local es un
problema específico. La aplicación del peso del núcleo de diferentes maneras puede dar
lugar a diferentes estimadores. En las subsecciones siguientes se muestran las
aplicaciones del logaritmo de verosimilitud (log-likelihood) del núcleo ponderado (4.23)
en diferentes escenarios para modelos NPME.
4.4.3. Estimación a partir de la verosimilitud local marginal
En esta subsección, introducimos un método de verosimilitud local marginal
para estimar la función de media poblacional
aproximación del modelo LME (4.22), sea
(Park y Wu 2005). Para la
y supongamos que el
supuesto Gausiano (4.19) se cumple. Entonces, la distribución marginal local de
aproximación del modelo LME (4.22) es normal con una media de
en la
y varianza de
. Por tanto se obtiene la función logaritmo de verosimilitud (loglikelihood) para :
donde
. Basándose en la expresión anterior y aplicando
(4.23), podemos escribir la función logaritmo de verosimilitud (log-likelihood) marginal
local para estimar
48
como
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
donde
con la matriz de pesos del núcleo
de residuos
simétricamente.
Para las matrices de varianza dadas
con respecto a
ponderando el vector
, la diferenciación de (4.25)
obtiene la estimación de la ecuación para :
donde
,
,y
.
Por tanto, un estimador de forma cerrada para
Cuando
es
son conocidas, el estimador (4.27) se puede obtener
ajustando el modelo siguiente:
usando la función lm de R, donde
tienen media 0 y varianza
,
. El modelo (4.28) es un modelo de regresión lineal
estándar con la variable respuesta
y la covariable
El estimador local de probabilidad marginal de
donde
es un vector
,y
.
se puede encontrar como
-dimensional con el primer elemento siendo 1 y 0 en otro
lugar.
Las matrices de covarianza
se han supuesto que se conocen con
el fin de obtener el estimador de forma cerrada (4.27). En la práctica, se suelen
encontrar ejemplos reales donde las matrices de covarianza son desconocidas y deben
estimarse. La estimación de las matrices de covarianza así como de las curvas de efecto
aleatorio se introducirá en las siguientes secciones. Cuando
49
son
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
matrices diagonales conocidas, el estimador
se reduce al estimador LPK-GEE
propuesto por Lin y Carroll (2000).
4.4.4. Estimación a partir de la verosimilitud local conjunta
En esta sección, un enfoque de estimación alternativa se propone para estimar
los parámetros en el modelo localizado LME (4.22) con datos longitudinales (Park y
Wu 2005). Bajo el supuesto Gausiano (4.19), tenemos
y
. Por tanto, el logaritmo de la función de densidad conjunta de
es
donde
,
. Puesto que
aleatorios, el
y
son los vectores de parámetros de efectos
no es un habitual logaritmo de verosimilitud (log-likelihood).
Por conveniencia, a partir de ahora y a lo largo de este trabajo, llamamos
un
logaritmo de verosimilitud generalizado (generalized log-likelihood (GLL)) de
.
Entonces el logaritmo de verosimilitud generalizado localizado (localized
generalized log-likelihood (LGLL)) en la zona de un tiempo
puede considerarse de
dos maneras diferentes:
y
donde
,y
es un vector
con todos los elementos ’s.
En (4.31), los pesos del núcleo se aplican simétricamente sólo a los términos de
residuos
de la función GLL, mientras, en (4.32),
los pesos del núcleo se aplican a toda la función GLL de (4.30) en la que los términos
50
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
de efecto aleatorio
también se multiplican por los pesos del núcleo. Estos dos
métodos diferentes de ponderación del núcleo dan lugar a dos estimadores diferentes.
Minimizando el criterio LGLL (4.31) da lugar a estimadores exactos de efectos
mixtos polinomial local (local polynomial mixed-effects (LPME)) propuestos por Wu y
Zhang (2002a), y el modelado asociado que se denomina como el modelado LPME.
Para determinados
,
y
, resolver el problema de minimización (4.31) es
equivalente a resolver la llamada ecuación del modelo mixto (Davidian y Giltinan 1995,
Zhang, Lin, Raz y Sowers 1998):
donde
y
se definen como en la subsección anterior, y
,y
,
.
Entonces los resultados de los estimadores LPME para
son
donde
En notación matricial, los estimadores anteriores se pueden escribir en una
forma más compacta:
donde
. En las siguientes secciones, nos centraremos en estos
estimadores.
Del mismo modo podemos obtener los estimadores LPME basados en el criterio
LGLL (4.32). De hecho, para determinados
51
,
y
, los estimadores LPME
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
obtenidos maximizando (4.31) y (4.32) se pueden escribir en una forma unificada, que
es la solución a las siguientes ecuaciones normales del modelo mixto:
donde
y
correspondientes a los estimadores derivados del
criterio LGLL (4.31) y (4.32) respectivamente. Al resolver las ecuaciones normales
anteriores (4.36), los estimadores LPME para
y ,
y
, bajo los supuestos de conocidos
, se puede escribir como las siguientes formas cerradas:
y
donde
. Por tanto, los estimadores de
y
se
pueden encontrar como
Uno puede notar que la diferencia entre el estimador a partir de verosimilitud
local marginal (4.27) y el estimador (4.37) para el parámetro
de la población se debe
a diferentes funciones de peso. En las estimaciones de los parámetros de efectos
aleatorios (4.38), el parámetro
de la población puede ser reemplazado por cualquiera
de los estimadores consistentes, tales como (4.27) o (4.37). De hecho,
es un
estimador de Bayes empírico o un mejor predictor lineal insesgado (best linear
unbiased predictor (BLUP)), véase Davidian y Giltinan (1995) y Vonesh y Chinchilli
(1996) para más detalles. Las estimaciones de los efectos aleatorios, nos permiten captar
las curvas de respuesta individual,
, que es una gran ventaja de los
modelos NPME. También se puede ver fácilmente que, a partir de (4.36) con
y
, la aplicación de diferentes pesos del núcleo pueden dar lugar a
52
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
diferentes estimadores de verosimilitud local. Estos estimadores pueden tener diferentes
propiedades y eficiencias.
En los debates posteriores, centramos nuestra atención en los estimadores LPME
(4.33). Sin embargo, las metodologías desarrolladas pueden similarmente aplicarse a los
estimadores generales (4.37) y (4.38). Una de las ventajas de los modelos LPME es que
se puede implementar fácilmente usando el software existente para los modelos LME.
De hecho, para cada dado, los estimadores LPME (4.33) se pueden obtener a través de
la adaptación operacionalmente del siguiente modelo LME estándar:
donde
y
. El primero se trata como la
variable de respuesta, mientras que el segundo se trata como las covariables de efectos
fijos y efectos aleatorios. Ellos son en realidad la variable de respuesta localizada, las
covariables de efectos fijos y efectos aleatorios en el punto de tiempo dado . Los
estimadores LPME (4.33) y sus desviaciones estándar se pueden obtener entonces a
través de adaptación (4.40) utilizando la función lme de R.
4.4.5. Estimación de los componentes
A partir de (4.21) y (4.33), fácilmente se obtienen los estimadores LPME de
,
y sus -ésimas derivadas:
para
. En particular,
LPME de
y
son los estimadores
.
El estimador de
puede ser obtenido directamente mediante ajuste del
modelo (4.40), y podemos estimar
53
y
por el método de los momentos, por ejemplo,
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Basado en
y
, nuevas inferencias se pueden hacer. Por ejemplo, se
pueden realizar análisis de componentes principales (principal component analysis
(PCA)) sobre los datos longitudinales basados en la descomposición de valor singular
de
. Por otra parte,
de hipótesis acerca de
y
se pueden utilizar para llevar a cabo pruebas
.
4.5. Elección de buenos anchos de banda
Para simplificar la discusión, en la sección anterior, el núcleo
banda
se supone que están dados y fijos. En la práctica,
elegido. Cuando
y el ancho de
debe ser cuidadosamente
es muy pequeño, los estimadores LPME resultantes
suelen ser muy ruidosos, y cuando
es demasiado grande,
y
y
puede
sobresuavizarse los datos ya que alguna información importante en los datos no está
suficientemente capturada. En esta sección, hablaremos de cómo elegir buenos anchos
de banda para los estimadores LPME.
En primer lugar, por (4.33), es fácil ver que el conjunto de datos está
involucrado en los estimadores de la población
mientras que sólo los datos del
sujeto están dedicados principalmente a la curva de los estimadores individuales para
el -ésimo sujeto, es decir,
banda para la estimación de
. Por lo tanto, diferentes anchos de
y
deben ser utilizados para dar cuenta de las
diferentes cantidades de datos en cuestión. Siguiendo Rice y Silverman (1991), el
criterio de validación cruzada “dejar-un-sujeto-fuera” (subject cross-validation (SCV))
se puede utilizar para seleccionar un ancho de banda adecuado para la estimación
.
Para un conjunto de datos longitudinales, se sabe que, condicionado a un sujeto
particular, digamos sujeto , las mediciones del sujeto
son no correlacionadas e
independientes; además, las mediciones de la función de media condicional es
exactamente la curva individual
. En este caso, el criterio usual de validación
cruzada “dejar-un-sujeto-fuera” (subject cross-validation (SCV)), que tradicionalmente
se propone para los datos no correlacionados e independientes, parece ser apropiado
para la selección de buenos anchos de banda para la estimación de
simplificar, un ancho de banda común para la estimación de
54
. Para
para todos los sujetos
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
será utilizado porque el
se supone que son del mismo proceso subyacente y por lo
tanto se puede suponer que tienen suavidades similares en general.
4.5.1. Validación cruzada dejar-un-sujeto-fuera
La puntuación (subject cross-validation (SCV)) se define como
donde
representa el estimador de
basado en los datos con las mediciones
del sujeto totalmente excluidos, y los pesos
toman el número de mediciones
de los sujetos individuales en cuenta. El ancho de banda SCV óptimo
el minimizador de
se define como
. Rice y Silverman (1991) señaló que el (subject cross-
validation (SCV)) es más apropiado para la estimación de la curva (media) de la
población que el (point cross-validation (PCV)). Hart y Wehrly (1993) mostró que el
ancho de banda SCV es consistente.
Es computacionalmente intenso calcular el criterio SCV (4.43) ya que
necesitamos repetidamente calcular el ajuste del modelo LPME
veces para obtener
; cada ajuste tiene aproximadamente la misma cantidad de esfuerzo
computacional como para calcular
utilizando el conjunto de datos entero. Para
superar este problema, una aproximación de
banda
o
se puede utilizar. Para un ancho de
dado, todos los datos se pueden utilizar para estimar
, entonces
o
(4.34), es decir
se obtiene aproximadamente a partir de la solución de forma
cerrada (4.41) para la estimación de
suprimiendo el término que implica el -ésimo
sujeto. Esto es,
Por lo tanto, la única aproximación requiere ajustar el modelo LPME una vez
para calcular la puntuación SCV (4.43) para todos los sujetos, y por tanto el esfuerzo
computacional es mucho menor.
55
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
4.5.2. Validación cruzada dejar-un-punto-fuera
El criterio PCV se define como sigue. Supongamos
todos los
puntos distintos en tiempo de diseño para el conjunto de datos entero. Para un
supongamos que los sujetos
Sean
tienen mediciones en
los estimadores de
tiempo de diseño
dado,
:
cuando todos los datos en el punto en
son excluidos. Entonces la puntuación (point cross-validation
(PCV)) se define como
donde los pesos
banda PCV óptimo
toman el número de mediciones en
se define como el minimizador de
en cuenta. El ancho de
.
4.6. Aplicación a los datos de progesterona
Los datos de progesterona introducidos en el Capítulo 1 han sido
cuidadosamente estudiados por Brumback y Rice (1998) como una interesante
ilustración de sus modelos ANOVA funcionales basados en la suavización spline. La
necesidad de intensiva computación representa un gran desafío para su método. Fan y
Zhang (2000) volvió a analizar los datos utilizando un método de dos pasos. En esta
sección, aplicamos el método (nonparametric mixed-effects (NPME)) a este conjunto de
datos como una ilustración de las metodologías introducidas en este capítulo.
Los datos de progesterona consisten en dos grupos de curvas de progesterona del
metabolito urinario (ver Figuras 1.1 y 1.2). Uno de ellos es conocido como el grupo no
conceptivo con 69 ciclos menstruales de mujeres; el otro como el grupo conceptivo con
22 ciclos menstruales de mujeres. Aproximadamente el 8.3% de los datos eran faltantes.
Los dos grupos de curvas están muy correlacionados con coeficientes de correlación por
encima de 0.70 y 0.50, respectivamente. En este ejemplo de alta correlación y baja tasa
de valores faltantes, vamos a aplicar el método NPME para estimar las curvas de la
población y las curvas individuales. Debido a que los grupos conceptivo y no
conceptivo parecen mostrar diferencias, deben analizarse por separado. Para ahorrar
56
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
espacio, sólo informamos de los resultados de los datos del grupo conceptivo o
equivalentemente de los datos de progesterona conceptiva.
Los detalles para ajustar el modelo NPME (4.18) a los datos de progesterona
conceptiva son como sigue. Se utiliza la función lme de R para ajustar el modelo (4.18)
localmente. En primer lugar, para estimar la función de efecto fijo o función de media
poblacional
utilizamos el estimador local de probabilidad marginal (4.29) de Park
y Wu (2005). A continuación, para la estimación de la función de efecto aleatorio
utilizamos una aproximación por un modelo semiparamétrico, pasamos del modelo
(4.18) al siguiente modelo:
.
De esta manera, estimamos
usando la ecuación (2.9) del Capítulo 2. En la Figura 4.1
podemos ver la representación de la estimación lineal paramétrica del modelo descrito
anteriormente utilizando el método (maximun likelihood (ML)), dicha representación es
la recta de puntos rojos. También se puede ver la representación de la estimación lineal
local utilizando las estimaciones de las varianzas obtenidas por el método ML y usando
, dicha representación es la curva de puntos azules.
0
-2
-4
log (prog)
2
4
Figura 4.1 Grupo conceptivo
-5
0
5
dias
57
10
15
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
A continuación, para realizar la representación de las curvas individuales de los
datos de progesterona conceptiva hemos seleccionado los sujetos 1, 4, 5 y 22 como se
muestran en los paneles (a), (b), (c) y (d) de la Figura 4.2 respectivamente. Además,
para cada sujeto, representamos la estimación lineal paramétrica que se muestra como
curva (recta) de color rojo en el gráfico y la estimación lineal local no paramétrica que
se muestra como curva de color azul en el gráfico.
Figura 4.2 (a) Sujeto 1
2
-4
-4
0
5
10
-5
15
0
5
10
dias
dias
Figura 4.2 (c) Sujeto 5
Figura 4.2 (d) Sujeto 22
15
-4
0
-4
-2
-2
0
log (prog)
2
2
4
4
-5
log (prog)
0
log (prog)
-2
0
-2
log (prog)
2
4
4
Figura 4.2 (b) Sujeto 4
-5
0
5
dias
10
15
-5
0
5
10
15
dias
Por último, vamos a representar todas las curvas individuales de los datos de
progesterona conceptiva utilizando la estimación lineal paramétrica como se muestra en
la Figura 4.3 y usando también la estimación lineal local no paramétrica como se
muestra en la Figura 4.4.
58
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
0
-4
-2
log (prog)
2
4
Figura 4.3 Grupo conceptivo con LME
-5
0
5
10
15
dias
0
-2
-4
log (prog)
2
4
Figura 4.4 Grupo conceptivo con LLME y h_plug
-5
0
5
dias
59
10
15
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Apéndice: Código en R generado para las aplicaciones
########## LECTURA DE LOS DATOS DE PROGESTERONA ##########
datos0 <- read.table(file='br.txt', header=T, skip=15)
##### grupo <- 1, este caso es para el grupo no conceptivo
grupo <- 2
if (grupo==1) datos <- datos0[datos0[,1]==0 & datos0[,6]==0,]
##### El grupo no conceptivo
if (grupo==2) datos <- datos0[datos0[,1]==1 & datos0[,6]==0,]
##### El grupo conceptivo
datos <- datos[,-c(1,2,6)]
N <- nrow(datos)
##### Los datos deben ir ordenados según el efecto aleatorio (en este caso lo están)
var.bi <- as.numeric(datos[,1])
##### var.bi recoge el código de cada individuo en el análisis (ciclos)
nis <- as.vector(table(var.bi))
##### nis recoge el número de observaciones por ciclo (aproximadamente 24)
q <- length(nis)
##### q es el número de individuos
cum.nis <- cumsum(nis)
##### cum.nis son las sumas acumuladas de nis
bi <- var.bi[cum.nis]
##### bi recoge los códigos distintos en var.bi
##### Variable de respuesta (y.ij = log progesterona = log (prog))
y.ij <- datos[,3]
yis <- lapply(1:q, FUN=get.vec.i, vv=y.ij, cum.nis=cum.nis)
##### Variable explicativa (vec.x = dias)
vec.x <- datos[,2]
60
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
########## REPRESENTACIÓN GRÁFICA DE LOS DATOS ##########
########## Gráficos de curvas individuales (spaguetti plot o raw curves)
##### Debemos elegir grupo <- 2 para representar, en este caso, el grupo conceptivo
plot(vec.x, y.ij, col='gray', main='Figura 1.1 (a) Grupo conceptivo', xlab='dias',
ylab='log (prog)')
##### Con esta orden representamos los puntos para el grupo conceptivo
sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]]))
##### Con esta orden unimos los puntos con líneas continuas para el grupo conceptivo
##### Debemos elegir grupo <- 1 para representar, en este caso, el grupo no conceptivo
plot(vec.x, y.ij, col='gray', main='Figura 1.2 (a) Grupo no conceptivo', xlab='dias',
ylab='log (prog)')
##### Con esta orden representamos los puntos para el grupo no conceptivo
sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]]))
##### Con esta orden unimos los puntos con líneas continuas para dicho grupo
########## Gráficos de curvas medias con bandas de desviación estándar
##### Debemos elegir grupo <- 2 para representar, en este caso, el grupo conceptivo
var.time <- as.numeric(datos[,2])
##### var.time recoge los tiempos de todos los individuos en el análisis
n.time <- as.vector(table(var.time))
##### n.time recoge el número de observaciones por cada punto de tiempo distinto
t <- length(n.time)
##### t es el número de puntos de tiempo distintos
medias <- sapply(1:t, function(i) mean(y.ij[var.time==var.time[i]]))
##### medias son las medias de las observaciones en cada punto de tiempo distinto
time <- c(-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15)
##### time son los puntos de tiempo
plot(time, medias, xlim=c(-8,16), ylim=c(-2,3), main='Figura 1.1 (b) Grupo conceptivo',
xlab='dias', ylab='log (prog)')
##### Con esta orden representamos los puntos de la curva media
61
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
lines(time, medias)
##### Con esta orden unimos los puntos de la curva media con línea negra continua
longitud <- sapply(1:t, function(i) length(y.ij[var.time==var.time[i]]))
##### longitud es el número de observaciones en cada punto de tiempo distinto
desviacion <- sapply(1:t, function(i) sd(y.ij[var.time==var.time[i]])/sqrt(longitud[i]))
##### desviacion es la desviación típica de las observaciones en cada punto de tiempo
positiva <-sapply(1:t, function(i) medias[i]+2*desviacion[i])
##### positiva son los puntos de la curva de desviación estándar (SD) positiva
plot(time,positiva, xlim=c(-8,16), ylim=c(-2,3), main='Figura 1.1 (b) Grupo conceptivo',
xlab='dias', ylab='log (prog)')
##### Con esta orden representamos los puntos de la curva SD positiva
lines(time, positiva, col='red')
##### Con esta orden unimos los puntos de la curva SD positiva con línea roja continua
negativa <-sapply(1:t, function(i) medias[i]-2*desviacion[i])
##### negativa son los puntos de la curva de desviación estándar (SD) negativa
plot(time,negativa, xlim=c(-8,16), ylim=c(-2,3),main='Figura 1.1 (b) Grupo conceptivo',
xlab='dias', ylab='log (prog)')
##### Con esta orden representamos los puntos de la curva SD negativa
lines(time, negativa, col='red')
##### Con esta orden unimos los puntos de la curva SD negativa en línea roja continua
##### Para superponer las tres curvas en un mismo gráfico, como puede verse en la
##### Figura 1.1 (b) y Figura 1.2 (b) debemos utilizar la orden points como sigue:
points(time, medias, col='gray')
##### Con esta orden representamos los puntos de la curva media en color gris
points(time, positiva)
##### Con esta orden representamos los puntos de la curva SD positiva
points(time, negativa)
##### Con esta orden representamos los puntos de la curva SD negativa
62
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
##### Debemos elegir grupo <- 1 para representar, en este caso, el grupo no conceptivo
##### En este caso todo es igual al caso del grupo conceptivo salvo lo siguiente:
plot(time, medias, xlim=c(-8,16), ylim=c(-2,2), main='Figura 1.2 (b) Grupo no
conceptivo', xlab='dias', ylab='log (prog)')
##### Con esta orden representamos los puntos de la curva media
plot(time, positiva, xlim=c(-8,16), ylim=c(-2,2), main='Figura 1.2 (b) Grupo no
conceptivo', xlab='dias', ylab='log (prog)')
##### Con esta orden representamos los puntos de la curva SD positiva
plot(time, negativa, xlim=c(-8,16), ylim=c(-2,2), main='Figura 1.2 (b) Grupo no
conceptivo', xlab='dias', ylab='log (prog)')
##### Con esta orden representamos los puntos de la curva SD negativa
########## Gráficos de ajustes de modelos polinomiales a los datos
##### Debemos elegir grupo <- 1 puesto que el sujeto seleccionado pertenece al grupo
##### no conceptivo, dicho sujeto es el de código 5 (ciclo = 5)
sujeto <- y.ij[var.bi==5]
##### sujeto recoge las respuestas (log progesterona) del sujeto seleccionado
tiempo <- c(-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14)
##### tiempo son los puntos de tiempo del sujeto seleccionado
plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (a) Lineal',
xlab='dias', ylab='log (prog)')
##### Con esta orden representamos los puntos del sujeto seleccionado
x <- tiempo
##### Recodificamos tiempo como x para mayor comodidad
y <- sujeto
##### Recodificamos sujeto como y para mayor comodidad
ajuste1 <- lm(y~poly(x,1))
##### ajuste1 recoge el ajuste a un polinomio de grado 1
xx <- seq(-8,16, length.out=250)
lines(xx, predict(ajuste1, data.frame(x=xx)))
##### Con esta orden representamos el ajuste1 en el gráfico con línea continua
63
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (b) Cuadrático',
xlab='dias', ylab='log (prog)')
##### Con esta orden representamos los puntos del sujeto seleccionado
ajuste2 <- lm(y~poly(x,2))
##### ajuste2 recoge el ajuste a un polinomio de grado 2
lines(xx, predict(ajuste2, data.frame(x=xx)))
##### Con esta orden representamos el ajuste2 en el gráfico con curva continua
plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (c) Cúbico',
xlab='dias', ylab='log (prog)')
##### Con esta orden representamos los puntos del sujeto seleccionado
ajuste3 <- lm(y~poly(x,3))
##### ajuste3 recoge el ajuste a un polinomio de grado 3
lines(xx, predict(ajuste3, data.frame(x=xx)))
##### Con esta orden representamos el ajuste3 en el gráfico con curva continua
plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (d) Cuartico',
xlab='dias', ylab='log (prog)')
##### Con esta orden representamos los puntos del sujeto seleccionado
ajuste4 <- lm(y~poly(x,4))
##### ajuste4 recoge el ajuste a un polinomio de grado 4
lines(xx, predict(ajuste4, data.frame(x=xx)))
##### Con esta orden representamos el ajuste4 en el gráfico con curva continua
########## Gráfico de tres ajustes lineales locales para el sujeto seleccionado
library(KernSmooth)
plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.2 Ajustes lineales
locales', xlab='dias', ylab='log (prog)')
##### Con esta orden representamos los puntos del sujeto seleccionado anteriormente
ajuste2 <- locpoly(x, y, bandwidth = 0.5)
##### ajuste2 recoge un ajuste lineal local con ancho de banda 0.5
lines(ajuste2, col='red')
##### Con esta orden representamos el ajuste2 en el gráfico con curva de color rojo
64
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
ajuste1 <- locpoly(x, y, bandwidth = 1.0249)
##### ajuste1 recoge un ajuste lineal local con ancho de banda 1.0249
lines(ajuste1, col='black')
##### Con esta orden representamos el ajuste1 en el gráfico con curva de color negro
ajuste3 <- locpoly(x, y, bandwidth = 2.75)
##### ajuste3 recoge un ajuste lineal local con ancho de banda 2.75
lines(ajuste3, col='blue')
##### Con esta orden representamos el ajuste3 en el gráfico con curva de color azul
########## Estimación lineal paramétrica
##### Modelo sencillo: y.ij = m(t.ij) + b.i + e.ij suponiendo m() lineal
library(nlme)
lmxy <- lme(y.ij ~ vec.x, random= ~ 1 | var.bi, method="ML")
##### Nos quedamos con las estimaciones de las varianzas
### > lmxy
### Linear mixed-effects model fit by maximum likelihood
### Data: NULL
### Log-likelihood: -552.2634
### Fixed: y.ij ~ vec.x
### (Intercept)
vec.x
### 0.1276360 0.1460603
###
### Random effects:
### Formula: ~1 | var.bi
###
(Intercept) Residual
### StdDev: 0.7447658 0.6584556
###
### Number of Observations: 514
### Number of Groups: 22
65
(ESTAS SON LAS DESVIACIONES TÍPICAS)
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
##### Por el método REML tenemos lo siguiente:
lmxy <- lme(y.ij ~ vec.x, random= ~ 1 | var.bi, method="REML")
### > lmxy
### Linear mixed-effects model fit by REML
### Data: NULL
### Log-restricted-likelihood: -557.706
### Fixed: y.ij ~ vec.x
### (Intercept)
vec.x
### 0.1276368 0.1460601
###
### Random effects:
### Formula: ~1 | var.bi
###
(Intercept) Residual
### StdDev: 0.7628585 0.6591255
(ESTAS SON LAS DESVIACIONES TÍPICAS)
###
### Number of Observations: 514
### Number of Groups: 22
m.LME <- as.vector(lmxy$fitted[,1])
##### m.LME es la estimación de m(t.ij)
points(vec.x, m.LME, col=2, cex=0.8, pch=21, bg=2)
##### Con esta orden representamos en el gráfico con puntos rojos la estimación lineal
##### de la curva de la población
##### Ahora calculamos las estimaciones de las curvas por individuos
b.LME <- as.vector(random.effects(lmxy)[,1])
##### b.LME son las estimaciones de b.i
##### Para el sujeto 1 tenemos:
i <- 1
66
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
x.i <- vec.x[var.bi==bi[i]]
y.i <- m.LME[var.bi==bi[i]]+b.LME[i]
plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (a) Sujeto 1',
xlab='dias', ylab='log (prog)', type='l')
points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray')
##### Para el sujeto 4 tenemos:
i <- 4
x.i <- vec.x[var.bi==bi[i]]
y.i <- m.LME[var.bi==bi[i]]+b.LME[i]
plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (b) Sujeto 4',
xlab='dias', ylab='log (prog)', type='l')
points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray')
##### Para el sujeto 5 tenemos:
i <- 5
x.i <- vec.x[var.bi==bi[i]]
y.i <- m.LME[var.bi==bi[i]]+b.LME[i]
plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (c) Sujeto 5',
xlab='dias', ylab='log (prog)', type='l')
points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray')
##### Para el sujeto 22 tenemos:
i <- 22
x.i <- vec.x[var.bi==bi[i]]
y.i <- m.LME[var.bi==bi[i]]+b.LME[i]
plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (d) Sujeto 22',
xlab='dias', ylab='log (prog)', type='l')
points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray')
##### Si queremos pintarlas todas hacemos:
plot(vec.x, y.ij, col='gray', main='Figura 4.3 Grupo conceptivo con LME', xlab='dias',
ylab='log (prog)')
sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]]))
67
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
sapply(1:q, function(i)
{
x.i <- vec.x[var.bi==bi[i]]
y.i <- m.LME[var.bi==bi[i]]+b.LME[i]
lines(x.i, y.i, col=i)
}
)
########## Estimación lineal local sin considerar la correlación
library(KernSmooth)
##### Ancho de banda (Bandwidth): h
##### Usamos un plug-in (Rupper, Sheather and Wand en KernSmooth)
##### para un modelo sin efectos aleatorios
h.plug <- dpill(vec.x, y.ij)
### > h.plug
### [1] 1.294126
########## Estimación lineal local considerando la correlación (marginal)
##### Utilizamos las estimaciones de las varianzas por ML (obtenida con lme)
##### En el grupo 2 o grupo conceptivo tenemos:
v.b <- 0.7447658^2
v.e <- 0.6584556^2
########## Calculo de la inversa de la raíz de la matriz de covarianzas
zis <- lapply(1:q, FUN=get.vec.i, vv=vec.x, cum.nis=cum.nis)
Vs <- Vs.calculos(q, nis, v.e, v.b, zis)
library(Matrix)
inv.Vis.half <- Vs$inv.Vis.half
inv.V.half <- as.matrix(bdiag(inv.Vis.half))
68
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
##### El estimador según sugerencia de Park y Wu (2005) es el siguiente:
m.LLME <- Local.marginal(h=h.plug, grid.x=vec.x, vec.x, y.ij, inv.V.half, deg=1)
m.LLME <- as.vector(m.LLME)
##### Para representarlo gráficamente utilizamos la siguiente orden:
points(vec.x, m.LLME, col='blue', pch=21, bg='blue')
##### Ahora calculamos las estimaciones de las curvas por individuos
b.LLME <- estim.bi(m.LLME, nis, y.ij, v.b, inv.V)
##### b.LLME son las estimaciones de b.i
##### Para el sujeto 1 tenemos:
i <- 1
x.i <- vec.x[var.bi==bi[i]]
y.i <- m.LLME[var.bi==bi[i]]+b.LLME[i]
plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='blue', main='Figura 4.2 (a) Sujeto 1',
xlab='dias', ylab='log (prog)', type='l')
points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray')
##### De la misma forma se tiene para los sujetos 4, 5 y 22
##### Si queremos pintarlas todas hacemos:
plot(vec.x, y.ij, col='gray', main='Figura 4.4 Grupo conceptivo con LLME y h_plug',
xlab='dias', ylab='log (prog)')
sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]]))
sapply(1:q, function(i)
{
x.i <- vec.x[var.bi==bi[i]]
y.i <- m.LLME[var.bi==bi[i]]+b.LLME[i]
lines(x.i, y.i, col=i)
}
)
69
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
########## FUNCIONES CREADAS PARA EL ANÁLISIS ##########
Local.marginal <- function(h, grid.x, vec.x, y.ij, inv.V.half, deg)
{
##### Argumentos: bandwidth: h, evaluation point: x
##### Calcula la función media en la red de puntos grid.x
##### deg = 0 o 1
##### k es la dimensión de la covariable vec.x, k=1
N <- length(y.ij)
each.x <- function(x)
{
##### Matriz de pesos kernel: W.hx
diag.w <- h^(-1) * Kepa((vec.x-x)/h)
W.hx.half <- diag(sqrt(diag.w),N)
##### Construimos la matriz de diseño
##### Matriz de diseño: X (dimensión N times 2) de vec.x
nc <- 1+deg
X <- matrix(1, nrow= N, ncol=nc)
if (deg==1) X[,2:nc] <- vec.x - x
##### Transformación para local
Xw <- inv.V.half %*% W.hx.half %*% X
yw <- inv.V.half %*% W.hx.half %*% y.ij
lmxy <- lm.fit(Xw, yw)
beta.x <- lmxy$coefficient[1]
}
beta.ts <- sapply(grid.x, each.t)
return(beta.ts)
}
##### Ejemplo:
##### Local.marginal(h=2, grid.x=vec.x, vec.x, y.ij, inv.V.half, deg=1)
70
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
##### Cálculos de matrices de varianzas-covarianzas (conocidas):inversas, raíces,..
##### por bloques de tamaños n_i
Vs.calculos <- function(q, nis, v.e, v.b, zis)
{
block.V <- function(i)
{
zi <- as.matrix(zis[[i]])
Vi <- v.b*zi %*% t(zi) + diag(v.e,nis[i])
Vi
}
Vis <- lapply(1:q, block.V)
block.V <- function(i)
{
inv.Vi <- solve(as.matrix(Vis[[i]]))
}
inv.Vis <- lapply(1:q, block.V)
block.V <- function(i)
{
Vi.half <- chol(as.matrix(Vis[[i]]))
}
Vis.half <- lapply(1:q, block.V)
block.V <- function(i)
{
zi <- as.matrix(zis[[i]])
Vi <- v.b*zi %*% t(zi) + diag(v.e,nis[i])
inv.Vi <- solve(Vi)
inv.Vi.half <- chol(inv.Vi)
inv.Vi.half <- as.matrix(inv.Vi.half)
inv.Vi.half
71
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
}
inv.Vis.half <- lapply(1:q, block.V)
##### la función devuelve los resultados en bloques dentro de listas
return(list(Vis=Vis,Vis.half=Vis.half,inv.Vis=inv.Vis,inv.Vis.half=inv.Vis.half))
}
##### Estimador local marginal de la función media con varianzas conocidas
##### Implementación usando la fórmula 4.28 de la página 49
get.vec.i <- function(pos, vv, cum.nis)
##### la función get.vec.i devuelve una lista con vectores por bloques
{
if (pos==1) desde <- 1 else desde <- cum.nis[pos-1]+1
hasta <- cum.nis[pos]
vec.i <- vv[desde:hasta]
return(vec.i)
}
##### yis <- lapply(1:q, FUN=get.vec.i, vv=y.ij, cum.nis=cum.nis)
##### Epanechnikov kernel
Kepa <- function(u) {(0.75*(1-(u)^2))*(abs(u)<1)}
cum.nis <- cumsum(nis)
mat.Z[1:nis[1],1] <- 1
for (i in 2:q)
{
desde <- cum.nis[i-1]+1
hasta <- cum.nis[i]
mat.Z[desde:hasta,i] <- 1
}
72
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
var.bi <- mat.Z %*% b.i ##### length=N
var.bi <- as.vector(var.bi)
estim.bi <- function(mhat.ij, nis, y.ij, v.b, inv.V)
{
##### calcula el efecto aleatorio en el modelo semiparamétrico
##### mhat.ij es la estimación del efecto fijo sobre las observaciones, length=n
cum.nis <- cumsum(nis)
q <- length(nis)
mat.Z <- matrix(0,N,q)
mat.Z[1:nis[1],1] <- 1
for (i in 2:q)
{
desde <- cum.nis[i-1]+1
hasta <- cum.nis[i]
mat.Z[desde:hasta,i] <- 1
}
Diag.Sigma.b <- diag(v.b,q)
bhat <- Diag.Sigma.b %*% t(mat.Z) %*% inv.V %*% (y.ij-mhat.ij)
return(as.vector(bhat))
}
73
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
Referencias
1. Akaike, H. (1973). Information theory and an extension of the entropy maximization
principle. 2nd International Symposium on Information Theory, eds. B.N. Petrov and F.
Csak, Kiado: Akademia. pp. 267-281.
2. Altman, N.S. (1991). Kernel smoothing of data with correlated errors. Journal of
American Statistical Association, 85, 749-759.
3. Anderson, T.W. (1984). An Introduction to Multivariate Statistical Analysis. Wiley,
New York.
4. Brumback, B. and Rice, J.A. (1998). Smoothing spline models for the analysis of
nested and crossed samples of curves. Journal of American Statistical Association, 93,
961-994.
5. Cai, Z., Li, H. and Wu, H. (2003). Generalized random curve models for longitudinal
data. Manuscript.
6. Chen, K. and Jin, Z. (2005). Local polynomial regression analysis of clustered data.
Biometrika, 92, 59-74.
7. Cheng, M.Y., Fan, J. and Marron, J.S. (1997). On automatic boundary corrections.
Annals of Statistics, 25, 1691-1708.
8. Davidian, M. and Giltinan, D.M. (1995). Nonlinear Models for Repeated
Measurement Data. Chapman and Hall, London.
9. de Boor, C. (1978). A practical Guide to Splines. Springer-Verlag, New York.
10. Demidenko, E. (2004). Mixed Models: Theory and Applications. Wiley, New York.
11. Dempster, A.P., Rubin, D.B. and Tsutakawa, R.K. (1981). Estimation in covariance
components models. Journal of American Statistical Association, 76, 341-353.
12. Diggle, P.J., Liang, K.Y. and Zeger, S.L. (1994). Analysis of Longitudinal Data.
Oxford University Press, Oxford, U.K.
13. Diggle, P.J., Heagerty, P., Liang, K.Y. and Zeger, S.L. (2002). Analysis of
Longitudinal Data (2nd ed.). Oxford University Press, Oxford, U.K.
74
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
14. Diggle, P.J., and Hutchinson, M.F. (1989). On spline smoothing with autocorrelated
errors. Australian Journal of Statistics, 31, 166-168.
15. Eubank, R.L. (1988). Spline Smoothing and Nonparametric Regression. Marcel
Dekker, New York.
16. Eubank, R.L. (1999). Nonparametric Regression and Spline Smoothing. Marcel
Dekker, New York.
17. Fan, J. (1992). Design-adaptive nonparametric regression. Journal of American
Statistical Association, 87, 998-1004.
18. Fan, J. (1993). Local linear regression smoothers and their minimax efficiency.
Annals of Statistics, 21, 196-216.
19. Fan, J., Farmen, M. and Gijbels, I. (1998). Local maximum likelihood estimation
and inference. Journal of Royal Statistical Society, Series B, 60, 591-608.
20. Fan, J. and Gijbels, I. (1992). Variable bandwidth and local linear regression
smoothers. Annals of Statistics, 20, 2008-2036.
21. Fan, J. and Gijbels, I. (1996). Local Polynomial Modelling and its Applications.
Chapman and Hall. London.
22. Fan, J. and Marron, J.S. (1994). Fast implementations of nonparametric curve
estimators. Journal of Computational and Graphical Statistics, 3, 35-56.
23. Fan, J. and Zhang, J.-T. (2000). Two-step estimation of functional linear models
with applications to longitudinal data. Journal of Royal Statistical Society, Series B, 62,
303-322.
24. Gasser, T., Müller, H.G. and Mammitzsch, V. (1985). Kernels for nonparametric
curve estimation. Journal of Royal Statistical Society, Series B, 86, 665-672.
25. Guo, W. (2002a). Functional mixed-effects models. Biometrics, 58, 121-128.
26. Guo, W. (2002b). Inference in smoothing spline analysis of variance. Journal of
Royal Statistical Society, Series B, 64, 887-889.
75
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
27. Green, P. and Silverman, B.W. (1994). Nonparametric Regression and Generalized
Linear Models. Chapman and Hall, London.
28. Härdle, W. (1990). Applied Nonparametric Regression. Cambridge University
Press, Boston.
29. Hart, J.D. (1991). Kernel regression estimation with time series errors. Journal of
Royal Statistical Society, Series B, 53, 173-187.
30. Hart, J.D. and Wehrly, T.E. (1993). Consistency of cross-validation when the data
are curves. Stochastic Processes and their Applications, 45, 351-361.
31. Harville, D.A. (1976). Extension of the Gauss-Markov theorem to include the
estimation of random effects. Annals of Statistics, 4, 384-395.
32. Harville, D.A. (1977). Maximum likelihood approaches to variance component
estimation and to related problems. Journal of American Statistical Association, 72,
320-340.
33. Hastie, T.J. and Loader, C. (1993). Local regression: automatic kernel carpentry
(with discussion). Statistics Science, 8, 120-143.
34. Hoover, D.R., Rice, J.A., Wu, C.O., and Yang, L.P. (1998). Nonparametric
smoothing estimates of time-varying coefficient models with longitudinal data.
Biometrika, 85, 809-822.
35. Huang, J.Z., Wu, C.O. and Zhou, L. (2002). Varying-coefficient models and basis
function approximations for the analysis of repeated measurements. Biometrika, 89,
111-128.
36. Jennrich, R.I. and Schluchter, M.D. (1986). Unbalanced repeated measures models
with structured covariance matrices. Biometrics, 42, 805-820.
37. Jones, R.H. (1993). Longitudinal Data with Serial Correlation: A State-space
Approach. Chapman and Hall, London.
38. Laird, N.M. and Ware, J.H. (1982). Random effects models for longitudinal data.
Biometrics, 38, 963-974.
76
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
39. Laird, N.M., Lange, N. and Stram, D. (1987). Maximum likelihood computations
with repeated measures: Application of the EM algorithm. Journal of American
Statistical Association, 82, 97-105.
40. Liang, H., Wu, H. and Carroll, R.J. (2003). The relationship between virologic and
immunologic responses in AIDS clinical research using mixed-effects varyingcoefficient semiparametric models with measurement error. Biostatistics, 4, 297-312.
41. Liang, K.Y. and Zeger S.L. (1986). Longitudinal data analysis using generalized
linear models. Biometrika, 73, 13-22.
42. Lin, X. and Carroll, R.J. (2000). Nonparametric function estimation for clustered
data when the predictor is measured without/with error. Journal of American Statistical
Association, 95, 520-534.
43. Lin, X. and Carroll, R.J. (2001a). Semiparametric regression for clustered data using
generalized estimating equations. Journal of American Statistical Association, 96, 10451056.
44. Lin, X. and Carroll, R.J. (2001b). Semiparametric regression for clustered data.
Biometrika, 88, 1179-1185.
45. Lin, X. and Zhang, D. (1999). Inference in generalized additive mixed models by
using smoothing splines. Journal of Royal Statistical Society, Series B, 61, 381-400.
46. Lindsey, J.K. (1993). Models for Repeated Measurements. Oxford University Press,
Oxford, U.K.
47. Lindstrom, M.J. and Bates, D.M. (1990). Nonlinear mixed-effects models for
repeated measures. Biometrics, 46, 673-687.
48. Longford, N.T. (1993). Random Coefficient Models. Oxford University Press,
Oxford, U.K.
49. Marron, J.S. and Nolan, D. (1989). Canonical kernels for density estimation.
Statistics and Probability Letters, 7, 195-199.
50. Müller, H.G. (1988). Nonparametric Regression Analysis of Longitudinal Data.
Lecture Notes in Statistics. Springer-Verlag, New York.
77
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
51. Nadaraya, E.A. (1964). On estimating regression. Theory of Probability and its
Applications, 9, 141-142.
52. Park, J.G. and Wu, H. (2005). Backfitting and local likelihood methods for
nonparametric mixed-effects models with longitudinal data. Manuscript.
53. Pinheiro, J. and Bates, D. (2000). Mixed-effects Models in S and S-plus. SpringerVerlag. New York.
54. Ramsay, J.O. and Silverman, B.W. (1997). Functional Data Analysis. SpringerVerlag. New York.
55. Ramsay, J.O. and Silverman, B.W. (2002). Applied Functional Data Analysis.
Springer-Verlag. New York.
56. Rice, J.A. and Silverman, B.W. (1991). Estimating the mean and covariance
structure nonparametrically when the data are curves. Journal of Royal Statistical
Society, Series B, 53, 233-243.
57. Rice, J.A. and Wu, C.O. (2001). Nonparametric mixed effects models for unequally
sampled noisy curves. Biometrics, 57, 253-259.
58. Robinson, G.K. (1991). That BLUP is a good thing: the estimation of random
effects (with discussions). Statistics Science, 6, 15-32.
59. Ruppert, D., Sheather, S.J. and Wand, M.P. (1995). An effective bandwidth selector
for local least squares regression. Journal of American Statistical Association, 90, 12571270.
60. Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics, 6,
461-464.
61. Searle, S.R., Casella, G. and McCulloch, C.E. (1992). Variance Components. Wiley,
New York.
62. Sheiner, L.B., Rosenberg, B. and Melmon, K.L. (1972). Modeling of individual
pharmacokinetics for computer-aided drug dosage. Computers and Biomedical
Research, 5, 441-459.
78
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
63. Sheiner, L.B. and Beal, S.L. (1980). Evaluation of methods for estimating
population
pharmacokinetic
parameters.
I.
Michaelis-Menten
model:
routine
pharmacokinetic data. Journal of Pharmacokinetics and Biopharmaceutics, 8, 553-571.
64. Shi, M., Weiss, R.E. and Taylor, J.M. (1996). An analysis of pediatric CD4 counts
for acquired immune deficiency syndrome using flexible random curves. Applied
Statistics, 45, 151-163.
65. Staniswalis, J.G. (1989). The kernel estimate of a regression function in likelihoodbased models. Journal of American Statistical Association, 84, 276-283.
66. Stone, C.J. (1984). An asymptotically optimal window selection rule for kernel
density estimation. Annals of Statistics, 12, 1285-1297.
67. Tibshirani, R. and Hastie, T. (1987). Local likelihood estimation. Journal of
American Statistical Association, 82, 559-567.
68. Verbeke, G. and Molenberghs, G. (2000). Linear Mixed Models for Longitudinal
Data. Springer-Verlag, New York.
69. Vonesh, E.F. and Chinchilli, V.M. (1996). Linear and Nonlinear Models for the
Analysis of Repeated Measurements. Marcel Dekker, New York.
70. Wahba, G. (1985). A comparison of GCV and GML for choosing the smoothing
parameter in the generalized spline smoothing problem. Annals of Statistics, 13, 13781402.
71. Wand, M.P. and Jones, M.C. (1995). Kernel Smoothing. Chapman and Hall,
London.
72. Wang, N. (2003). Marginal nonparametric kernel regression accounting for withinsubject correlation. Biometrika, 90, 43-52.
73. Wang, N., Carroll, R.J. and Lin, X. (2005). Efficient semiparametric marginal
estimation for longitudinal/clustered data. Journal of American Statistical Association,
100, 147-157.
74. Wang, Y. (1998a). Mixed-effects smoothing spline ANOVA. Journal of Royal
Statistical Society, Series B, 60, 159-174.
79
Trabajo Fin de Máster en Estadística Aplicada 2010/2011
75. Wang, Y. (1998b). Smoothing spline models with correlated random errors. Journal
of American Statistical Association, 93, 341-348.
76. Watson, G.S. (1964). Smooth regression analysis. Sankhya, 26, 101-116.
77. Welsh, A.H., Lin, X. and Carroll, R.J. (2002). Marginal longitudinal nonparametric
regression: locality and efficiency of spline and kernel methods. Journal of American
Statistical Association, 97, 482-493.
78. Wu, C.O. and Chiang, C.T. (2000). Kernel smoothing on varying coefficient models
with longitudinal dependent variable. Statistica Sinica, 10, 433-456.
79. Wu, C.O., Chiang, C.T. and Hoover, D.R. (1998). Asymptotic confidence regions
for kernel smoothing of a varying-coefficient model with longitudinal data. Journal of
American Statistical Association, 93, 1388-1402.
80. Wu, H. and Zhang, J.-T. (2002a). Local polynomial mixed-effects models for
longitudinal data. Journal of American Statistical Association, 97, 883-897.
81. Wu, H. and Zhang, J.-T. (2002b). The study of long-term HIV dynamics using
semiparametric nonlinear mixed-effects models. Statistics in Medicine, 21, 3655-3675.
82. Yen, S. and Jaffe, R.B. (1991). Reproductive Endocrinology: Physiology,
Pathophysiology, and Clinical Management. W.B. Saunders, Philadelphia.
83. Zhang, D., Lin, X., Raz, J. and Sowers, M. (1998). Semiparametric stochastic mixed
models for longitudinal data. Journal of American Statistical Association, 93, 710-719.
84. Zhang, J.-T. and Fan, J. (2000). Minimax kernels for nonparametric curve
estimation. Journal of Nonparametric Statistics, 12, 417-445.
Además se recomiendan las siguientes publicaciones on-line y direcciones de internet:
1. http://www.urmc.rochester.edu/smd/biostat/people/faculty/WuSite/publications.htm.
2. R: Página principal, descarga y documentación: http://www.r-project.org/.
80
Descargar