XXV Simposio Internacional de Estadística 2015 Armenia, Colombia, 5, 6, 7 y 8 de Agosto de 2015 Estimación del total de usuarios de energía eléctrica del país mediante estimadores de regresión en muestreo de datos funcionales Estimation of total users of electricity in the country by regression estimators in sampling functional data a b Stephanie Vasquez Lizcano , Ruben Dario Guevara Gonzalez , c Leonardo Trujillo Oyola Departamento de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia Resumen Métodos de datos funcionales han surgido en la literatura con el propósito de analizar para un mismo individuo un buen número de registros sobre una característica en el tiempo representando la información de cada individuo por medio de una curva o función. Cuando las variables de estudio son funcionales, las capacidades de almacenamiento de la información así como los costos de transmisión pudieran ser restrictivos por lo cual se usan técnicas de muestreo para seleccionar solo un subconjunto de las observaciones en lugar de usar técnicas de compresión de señales. Se considerarán tanto estimadores simples como estimadores que incorporan información auxiliar en el estimador a través de un modelo lineal funcional. Presentamos aquí una aplicación de cómo las técnicas de muestreo pueden ser combinadas con las técnicas propias del análisis de datos funcionales con el n de estimar el total de usuarios de energía en Colombia en el periodo marzo de 2011 a septiembre de 2014 (fuente: Superintendencia de Servicios Públicos). Se considerará como información auxiliar la información acerca de usuarios solamente residenciales para el mismo periodo. Palabras clave : Muestreo, Análisis de datos funcionales, estimador de regresión, Estimador de Horvitz-Thompson. Abstract Several methodologies on functional data eld have been proposed in order to analyse one individual several times along a characteristic, this information is represented by a curve or a function. When variables on the study are functional, both information storage capability and transmission costs could be restrictive, therefore sample techniques are used instead of signal compression techniques. There are considered both simple estimator and those that are obtained via linear functional model. Here we present an application of sample techniques that are successfully combined with the functional data with the purpose of estimate total of energy's users in Colombia in the period between March of 2011 and September of 2014 (source: Superintendencia de Servicios Públicos). As auxiliary information only residential users in that period are considered. Key words : Sampling, functional data analysis, regression estimator, Horvitz-Thompson estimator. a Estudiante de estadística. E-mail: [email protected] b Profesor Asistente. E-mail: [email protected] c Profesor Asistente. E-mail: [email protected] 1 2 Stephanie Vasquez Lizcano, Ruben Dario Guevara Gonzalez & Leonardo Trujillo Oyola 1. Introducción El análisis de datos funcionales tiene sus principios en 1974 con Deville y más reciente con Ramsay y Dalzell en 1991. (Giraldo, 2007), pues fue a partir de la década de los noventa que se logra desarrollar con las técnicas de computación, facilitando la implementación de la técnicas estadísticas ya conocidas al análisis de datos funcionales. (Cardot et al., 2013) Hay pocos estudios que combinen el análisis de datos funcionales con la teoría del muestreo estadístico. En el 2010, Cardot, Chaouch, Goga y Labruère se interesan en el uso del análisis de componentes principales para reducir la dimensión de los datos. Por otro lado Cardot y Josserand (2011) examinan las propiedades de convergencia uniforme del estimador de Horvitz-Thompson de la curva media. Chaouch y Goga (2012) proporcionan un estimador robusto para la curva media.(Cardotet al., 2013) En el 2013 Cardot, Dessertaine, Goga Josserand y Lardin presentan el estimador de regresión con respuesta funcional. El objetivo es comparar la estimación obtenida con los valores reales que toma la variable de interés a través del estimador de Horvitz-Thompson y del estimador de regresión en el contexto del análisis de datos funcionales, por medio de un ejemplo. La variable a considerar es el total de usuarios de energía eléctrica para dos poblaciones de estudio diferentes, con la particularidad de que una de ellas se obtiene al eliminar las unidades de observación que no cuentan con la información requerida en los 43 meses que hay desde marzo de 2011 a septiembre del 2014. La información auxiliar que se utilizará para el modelo de regresión con respuesta funcional es el total de usuarios residenciales de energía electrica. 2. Muestreo con datos funcionales 2.1. Estimador de Horvitz-Thompson para datos funcionales Sea s una muestra de tamaño n, seleccionada aleatoriamente de una población nita U = {1, · · · , N } bajo un diseño p(.). Sea πk = P (k ∈ s) para todo k ∈ U la probabilidad de inclusión de primer orden y πkl = p(k, l ∈ s) la probabilidad de inclusión de segundo orden, Además πk > 0 para todo k ∈ U y πkl > 0. La estimación para el total de la curva Yk = (Yk (t))t∈[0,T ] (Cardot et al. 2010) denotada por ty = X Yk (t) k∈U La estimación del total con el estimador de Horvitz-Thompson(Cardot et t̂yπ = X Yk (t) πk k∈s = , 2010) es de la forma al. X Yk (t) Ik πk k∈U Donde Ik = I(k∈s) es el indicador de pertenencia muestral (Särndal π − estimador de ty es un estimador insesgado, esto es et al , 1992) para cada t ∈ [0, T ], el E(t̂yπ ) = ty 2.2. Estimador de regresión Se consideran p variables auxiliares X1 · · · Xp y sea xkl el valor de la variable Xj para el k-ésimo 0 individuo. Sea xk = (xk1 , · · · , xkp ) denota el vector que contiene los valores de p variables auxiliares medidas al individuo k. Se considera la relación entre la variable de interés y las variables auxiliares por lo cual se asume un modelo de regresión de respuesta funcional. (Cardot et al., 2013) ξ : Yk (t) = xk β(t) + εkl , 0 XXV Simposio de Estadística (2015) Muestreo de datos funcionales 3 t ∈ [0, T ] Con Eξ (εkl ) = 0, Eξ (εkt , εlt0 ) = 0 para k 6= l y Eξ (εkt εkt ) = σtt2 0 para k = l(Cardot et 0 , 2013) al. La estimación para los coecientes de regresión β basados en el modelo ξ y de un diseño p(.) esta dado por (Cardot et al.,2013) !−1 X xk Yk (t) X xk x0 k β̂(t) = k∈s πk πk k∈s t ∈ [0, T ] Note que los pesos de muestreo no dependen del tiempo t ∈ [0, T ]. Sea Ŷk = x β̂(t) el estimador basado en el diseño de muestreo para la predicción de Yk (t) bajo ξ . Según Cardot et al. (2013) citando a Särndal et al. (1992) obtiene el estimador de la media por analogía del caso univariado, para t ∈ [0, T ] 0 µ̂M A (t) = 1 X (Ŷk (t) − Yk (t)) 1 X Ŷk (t) − N N πk k∈s k∈s 1 X Yk (t) − xk β̂(t) 1 = + N πk N ! 0 X k∈U Sin embargo, se encontró que la formula dada por Cardot continuación se muestran las formulas corregidas µ̂M A (t) = xk β̂(t) 0 k∈U et al. (2013) presenta algunos errores, a 1 X (Ŷk (t) − Yk (t)) 1 X Ŷk (t) − N N πk k∈u k∈s 1 X Yk (t) − xk β̂(t) 1 = + N πk N ! 0 X k∈s xk β̂(t) 0 k∈U Para estimar el total de usuarios de energía del país es necesario realizar algunos cambios a la anterior fórmula de la estimación media, de esta manera se tiene que el estimador para el total es de la forma t̂M A (t) = X Ŷk (t) − k∈u X (Ŷk (t) − Yk (t)) πk k∈s Debido a que t̂ = N µ̂. Adicionalmente, se realizará la estimación con una muestra seleccionada bajo un muestreo aleatorio simple sin reemplazo, motivo por el cual la estimación de los coecientes de regresión toman la siguiente forma ! −1 β̂(t) = X xk xk 0 k∈s X xk Yk (t) k∈s t ∈ [0, T ] Reduciendo los cálculos de la estimación del total de usuarios de energía electrica a sólo realizar una regresión con respuesta funcional. 3. Aplicación Como primera medida se realizara la descripción de la base de datos, posteriormente serán seleccionadas, y suvizadas, dos muestras de tamaño 100 cada una bajo un muestreo aleatorio simple sin reemplazo, XXV Simposio de Estadística (2015) 4 Stephanie Vasquez Lizcano, Ruben Dario Guevara Gonzalez & Leonardo Trujillo Oyola con la particularidad de que la segunda muestra será seleccionada de las empresas que contengan la información completa requerida desde marzo de 2011 a septiembre de 2014. Finalmente, se realiza la estimación de la curva total por medio del estimador de Horvitz-Thompson para datos funcionales, y adicionalmente con la segunda muestra seleccionada se realizará la estimación del total de usuarios bajo un modelo de regresión con respuesta funcional. 3.1. Descripción de la base de datos La base de datos es creada a partir de la información que se encuentra disponible para cada municipio del país en la página Web de la Superintendencia de Servicios Públicos (SIU, 2015) sobre el número de aliados que tienen las empresas de energía eléctrica, residenciales y no residenciales, para cada mes a partir de marzo de 2011 a septiembre de 2014. Estos registros se consolidaron en una base de datos cuyas características están dadas por la variable que describe municipio, empresa, departamento y 43 variables adicionales que describen la cantidad de aliados por mes y años presentes en esa empresa de ese municipio. 3.2. Estimación del total de usuarios de energía eléctrica del país Se presentan a continuación dos casos para la estimación de la curva del total de usuarios de energía eléctrica para dos poblaciones con tamaños diferentes. El tamaño de la primera poblacion es de N = 1142 empresas de energía, y para la segunda población el tamaño coresponde a N = 356. 1142 empresas de energía eléctrica Para este caso fue seleccionada una muestra de tamaño 100. El primer paso para realizar la estimación, es establecer la base de funciones necesaria para suavizar los datos. Teniendo en cuenta que no todas las empresas reportaron el número de usuarios mes a mes como se esperaba, se recomienda realizar el suavizamiento curva por curva utilizando una base de B-splines. Además, se observa que el comportamiento de cada una de las empresa de energía no es el esperado, debido que en la mayoría de empresas el valor de usuarios no es constante, para algunas este valor oscila en cada mes, lo que puede ocasionar que la estimación que se realice se vea afectada por esta situación. Después de hacer el suavizamiento de la muestra, se realiza la estimación de la curva total de usuarios 0 de energía eléctrica. Denotando Y k = (Yk (t1 ), Yk (t2 ), · · · , Yk (tD )) la variable de estudio para la k-ésima empresa seleccionada en la muestra, medida en los D = 43 meses. Con propabilidad de inclusión de primer orden igual a πk = 0.08756567. Figura 1: Estimación de la curva total de usuarios de energía eléctrica del país En la Figura 1, se observa que la estimación de la curva del total de usuarios de energía eléctrica del país es de color azul, esta es comparada con los valores reales que toma la variable en cada uno de los XXV Simposio de Estadística (2015) Muestreo de datos funcionales 5 43 meses, los cuales son representados a través de la curva punteada de color rojo. Al detallar la gura obtenida se puede concluir que la curva estimada está cercana a los valores reales, sin embargo hay que resaltar que el comportamiento que presentan los valores reales no son los esperados debido a que hay varios meses donde el total de usuarios disminuye de manera signicativa, debido a las empresas que no presentaron la informacion requerida en esos meses. 356 empresas de energía eléctrica El tamaño de la población de estudio es de N = 356 empresas de energía, esta población es el resultado de eliminar las observaciones que no cuenta con la información completa en la primera población. Se selecciono una muestra de tamaño 100, que posteriormente fue suavizada utilizando una base de b-splines. El comportamiento de las empresas es el mismo que se observó en la primera población de estudio. Por otra parte, no se cuenta con toda la información auxiliar completa para cada empresa, razón por el cual fue necesario hacer imputación a los datos faltantes que presentaron 25 empresas, en máximos dos meses. La técnica de imputación utilizada fue el promedio, la cual no es la más aconsejable de utilizar. 0 Sea Y k = (Yk (t1 ), Yk (t2 ) · · · , Yk (tD )) el total de usuarios para la k-ésima empresa seleccionada en la muestra, medida en los D = 43 meses que hay entre marzo de 2011 a septiembre de 2014. Con propabilidad de inclusión de primer orden igual a πk = 0.2808989. Se realiza la estimación de la curva total de usuarios de energía eléctrica por medio del estimador Horvitz-Thompson. Figura 2: Estimación de la curva total por medio del estimador de Horvitz-Thompson En la Figura 2, se observa que la estimación de la curva del total de usuarios de energía para la segunda población, de color verde, obtenida con la muestra seleccionada sobreestimo los valores reales que toma la variable en cada uno de los 43 meses, los cuales son representados a través de la curva punteada de color rojo. Se espera que la estimación mejore utilizando la información auxiliar en el estimador de regresión. Figura 3: Estimación de la curva total por medio del estimador de regresión XXV Simposio de Estadística (2015) 6 Stephanie Vasquez Lizcano, Ruben Dario Guevara Gonzalez & Leonardo Trujillo Oyola Se observa que en la Figura 3 el estimador obtenido por medio del modelo de regresión con respuesta funcional de color purpura, propuesto por Cardot et al. (2013) y modicado para cumplir los objetivos propuestos en este trabajo, subestima los valores reales que toma la variable de estudio. Lo anterior se obtiene debido a los errores que se encontraron en la formula de Cardot et al. (2013). 4. Conclusiones • El estimador de regresión dado por Cardot et al. (2013) presenta un error en la formula para la estimación de la curva media. Sin embargo, fue es corregida en el desarrollo de este trabajo. • Los tiempos de medición son diferentes para la primera población, razón por la cual es necesario realizar el suavizamento de las observaciones una por una. Además, no es posible realizar el estimador de regresión debido a que no se cuenta con la información auxiliar completa dicultando los cálculos. • No fue posible determinar la eciencia de los estimadores estudiados a consecuencia de que no se logró realizar la varianza de los estimadores. • Aplicar la formula corregida del estimador de regresión en futuros trabajos. • Aplicar las técnicas de imputación de datos faltantes conocidas para el análisis de datos funcionales. • Realizar el estimador de regresión bajo los diferentes modelos de regresión funcional y diferen- tes técnicas de muestreo. En especial, el modelo de regresión donde la variable independiente y dependiente son funcionales. Agradecimientos Agradezco al Profesor Leonardo Trujillo por darme la oportunidad de aprender a su lado y al profesor Rubén Guevara por su colaboración. Referencias [1] Aristizabal, J. P. (2011), Metodología estadística para el análisis de datos funcionales cerebrales: Una aproximación con potenciales evocados. Tesis de maestría, Universidad Nacional de Colombia, Facultad de Ciencias. Departamento de Estadística, Bogotá. [2] Cardot, H., Chaouch, M., Goga, C. & Labruère, C., (2010), `Properties of design-based functional principal components analysis' , Journal of statistical planning and inference 140, 75-91. [3] Cardot, H., Dessertaine, A., Goga, C., Josserand, É., & Lardin, P. (2013), `Comparison of dierent sample designs and construction of condence bands to estimate the mean of functional data: An illustration on electricity consumption', Survey Methodology 53(3), 283-301. [4] Ferraty, F. & Vieu, p. (2006), Nonparametric New York. functional data analysis: theory and practice , Springer, [5] Giraldo, R (2007), `Análisis exploratorio de variables regionalizadas con métodos funcionales', Revista Colombiana de Estadística 30(1),115-127. [6] Ramsay, J. & Dalzell C. (1991), `Some Tools for Functional Data Analysis', Royal 53(3), 539-572. Statistical Society XXV Simposio de Estadística (2015) Muestreo de datos funcionales 7 [7] Ramsay, J., Hooker, G., & Graves, S. (2009) Functional data analysis with R and MATLAB, Springer, New York. [8] Ramsay, j. & Silverman, B. (2005),Functional data analysis , segunda edn, Springer, New York. [9] Ramsay, J. & Siverman, B. (2002), Applied functional data analysis: methods and case studies, Springer, New York. [10] Oviedo, M. (2011),Utilities for Statistical Computing in Functional Data Analysis: The Package fda.usc. Proyecto Fin de Máster del Máster interuniversitario en Técnicas Estadísticas. Universidad de Santiago de Compostela. Santiago de Compostela. [11] R Core Team (2014). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org/. [12] Särndal, C., Swensson, B. & Wretman, J. (1992), Springer, New York. Model assisted survey sampling , primera edn, [13] Shen, Q. & Xu, H. (2007), `Diagnostics for Linear Models with Functional Responses' , Technometrics 49(1), 26-33. [14] Sistema único de información de servicios públicos, SIU, (s.f), Recuperado el 21 de enero de 2015, en http://www.sui.gov.co/SUIAuth/portada.jsp?servicioPortada=4 [15] Trujillo, L. & González, L. M. (2014), `Una revisión a los procesos de aseguramiento de la calidad en operaciones estadísticas por muestreo' , Revista ib 3(1), 29-40. XXV Simposio de Estadística (2015)