Estimación del total de usuarios de energía eléctrica del país

Anuncio
XXV Simposio Internacional de Estadística 2015
Armenia, Colombia, 5, 6, 7 y 8 de Agosto de 2015
Estimación del total de usuarios de energía eléctrica del país
mediante estimadores de regresión en muestreo de datos
funcionales
Estimation of total users of electricity in the country by regression estimators in sampling
functional data
a
b
Stephanie Vasquez Lizcano , Ruben Dario Guevara Gonzalez ,
c
Leonardo Trujillo Oyola
Departamento de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia
Resumen
Métodos de datos funcionales han surgido en la literatura con el propósito de analizar para un
mismo individuo un buen número de registros sobre una característica en el tiempo representando la
información de cada individuo por medio de una curva o función. Cuando las variables de estudio son
funcionales, las capacidades de almacenamiento de la información así como los costos de transmisión
pudieran ser restrictivos por lo cual se usan técnicas de muestreo para seleccionar solo un subconjunto de las observaciones en lugar de usar técnicas de compresión de señales. Se considerarán tanto
estimadores simples como estimadores que incorporan información auxiliar en el estimador a través
de un modelo lineal funcional. Presentamos aquí una aplicación de cómo las técnicas de muestreo
pueden ser combinadas con las técnicas propias del análisis de datos funcionales con el n de estimar
el total de usuarios de energía en Colombia en el periodo marzo de 2011 a septiembre de 2014 (fuente: Superintendencia de Servicios Públicos). Se considerará como información auxiliar la información
acerca de usuarios solamente residenciales para el mismo periodo.
Palabras clave
: Muestreo, Análisis de datos funcionales, estimador de regresión, Estimador de
Horvitz-Thompson.
Abstract
Several methodologies on functional data eld have been proposed in order to analyse one individual several times along a characteristic, this information is represented by a curve or a function.
When variables on the study are functional, both information storage capability and transmission
costs could be restrictive, therefore sample techniques are used instead of signal compression techniques. There are considered both simple estimator and those that are obtained via linear functional
model. Here we present an application of sample techniques that are successfully combined with the
functional data with the purpose of estimate total of energy's users in Colombia in the period between
March of 2011 and September of 2014 (source: Superintendencia de Servicios Públicos). As auxiliary
information only residential users in that period are considered.
Key words : Sampling, functional data analysis, regression estimator, Horvitz-Thompson estimator.
a Estudiante de estadística. E-mail: [email protected]
b Profesor Asistente. E-mail: [email protected]
c Profesor Asistente. E-mail: [email protected]
1
2
Stephanie Vasquez Lizcano, Ruben Dario Guevara Gonzalez & Leonardo Trujillo Oyola
1. Introducción
El análisis de datos funcionales tiene sus principios en 1974 con Deville y más reciente con Ramsay
y Dalzell en 1991. (Giraldo, 2007), pues fue a partir de la década de los noventa que se logra desarrollar
con las técnicas de computación, facilitando la implementación de la técnicas estadísticas ya conocidas al
análisis de datos funcionales. (Cardot et al., 2013)
Hay pocos estudios que combinen el análisis de datos funcionales con la teoría del muestreo estadístico. En el 2010, Cardot, Chaouch, Goga y Labruère se interesan en el uso del análisis de componentes
principales para reducir la dimensión de los datos. Por otro lado Cardot y Josserand (2011) examinan las
propiedades de convergencia uniforme del estimador de Horvitz-Thompson de la curva media. Chaouch
y Goga (2012) proporcionan un estimador robusto para la curva media.(Cardotet al., 2013) En el 2013
Cardot, Dessertaine, Goga Josserand y Lardin presentan el estimador de regresión con respuesta funcional.
El objetivo es comparar la estimación obtenida con los valores reales que toma la variable de interés
a través del estimador de Horvitz-Thompson y del estimador de regresión en el contexto del análisis de
datos funcionales, por medio de un ejemplo. La variable a considerar es el total de usuarios de energía
eléctrica para dos poblaciones de estudio diferentes, con la particularidad de que una de ellas se obtiene
al eliminar las unidades de observación que no cuentan con la información requerida en los 43 meses que
hay desde marzo de 2011 a septiembre del 2014. La información auxiliar que se utilizará para el modelo
de regresión con respuesta funcional es el total de usuarios residenciales de energía electrica.
2. Muestreo con datos funcionales
2.1. Estimador de Horvitz-Thompson para datos funcionales
Sea s una muestra de tamaño n, seleccionada aleatoriamente de una población nita U = {1, · · · , N }
bajo un diseño p(.). Sea πk = P (k ∈ s) para todo k ∈ U la probabilidad de inclusión de primer orden
y πkl = p(k, l ∈ s) la probabilidad de inclusión de segundo orden, Además πk > 0 para todo k ∈ U y
πkl > 0. La estimación para el total de la curva Yk = (Yk (t))t∈[0,T ] (Cardot et al. 2010) denotada por
ty =
X
Yk (t)
k∈U
La estimación del total con el estimador de Horvitz-Thompson(Cardot et
t̂yπ =
X Yk (t)
πk
k∈s
=
, 2010) es de la forma
al.
X Yk (t)
Ik
πk
k∈U
Donde Ik = I(k∈s) es el indicador de pertenencia muestral (Särndal
π − estimador de ty es un estimador insesgado, esto es
et al
, 1992) para cada t ∈ [0, T ], el
E(t̂yπ ) = ty
2.2. Estimador de regresión
Se consideran p variables auxiliares X1 · · · Xp y sea xkl el valor de la variable Xj para el k-ésimo
0
individuo. Sea xk = (xk1 , · · · , xkp ) denota el vector que contiene los valores de p variables auxiliares
medidas al individuo k. Se considera la relación entre la variable de interés y las variables auxiliares por
lo cual se asume un modelo de regresión de respuesta funcional. (Cardot et al., 2013)
ξ : Yk (t) = xk β(t) + εkl ,
0
XXV Simposio de Estadística (2015)
Muestreo de datos funcionales
3
t ∈ [0, T ]
Con Eξ (εkl ) = 0, Eξ (εkt , εlt0 ) = 0 para k 6= l y Eξ (εkt εkt ) = σtt2 0 para k = l(Cardot et
0
, 2013)
al.
La estimación para los coecientes de regresión β basados en el modelo ξ y de un diseño p(.) esta
dado por (Cardot et al.,2013)
!−1
X xk Yk (t)
X xk x0
k
β̂(t) =
k∈s
πk
πk
k∈s
t ∈ [0, T ]
Note que los pesos de muestreo no dependen del tiempo t ∈ [0, T ]. Sea Ŷk = x β̂(t) el estimador basado
en el diseño de muestreo para la predicción de Yk (t) bajo ξ . Según Cardot et al. (2013) citando a Särndal
et al. (1992) obtiene el estimador de la media por analogía del caso univariado, para t ∈ [0, T ]
0
µ̂M A (t) =
1 X (Ŷk (t) − Yk (t))
1 X
Ŷk (t) −
N
N
πk
k∈s
k∈s
1 X Yk (t) − xk β̂(t)
1
=
+
N
πk
N
!
0
X
k∈U
Sin embargo, se encontró que la formula dada por Cardot
continuación se muestran las formulas corregidas
µ̂M A (t) =
xk β̂(t)
0
k∈U
et al.
(2013) presenta algunos errores, a
1 X (Ŷk (t) − Yk (t))
1 X
Ŷk (t) −
N
N
πk
k∈u
k∈s
1 X Yk (t) − xk β̂(t)
1
=
+
N
πk
N
!
0
X
k∈s
xk β̂(t)
0
k∈U
Para estimar el total de usuarios de energía del país es necesario realizar algunos cambios a la anterior
fórmula de la estimación media, de esta manera se tiene que el estimador para el total es de la forma
t̂M A (t) =
X
Ŷk (t) −
k∈u
X (Ŷk (t) − Yk (t))
πk
k∈s
Debido a que t̂ = N µ̂. Adicionalmente, se realizará la estimación con una muestra seleccionada bajo un
muestreo aleatorio simple sin reemplazo, motivo por el cual la estimación de los coecientes de regresión
toman la siguiente forma
!
−1
β̂(t) =
X
xk xk
0
k∈s
X
xk Yk (t)
k∈s
t ∈ [0, T ]
Reduciendo los cálculos de la estimación del total de usuarios de energía electrica a sólo realizar una
regresión con respuesta funcional.
3. Aplicación
Como primera medida se realizara la descripción de la base de datos, posteriormente serán seleccionadas, y suvizadas, dos muestras de tamaño 100 cada una bajo un muestreo aleatorio simple sin reemplazo,
XXV Simposio de Estadística (2015)
4
Stephanie Vasquez Lizcano, Ruben Dario Guevara Gonzalez & Leonardo Trujillo Oyola
con la particularidad de que la segunda muestra será seleccionada de las empresas que contengan la
información completa requerida desde marzo de 2011 a septiembre de 2014. Finalmente, se realiza la
estimación de la curva total por medio del estimador de Horvitz-Thompson para datos funcionales, y
adicionalmente con la segunda muestra seleccionada se realizará la estimación del total de usuarios bajo
un modelo de regresión con respuesta funcional.
3.1. Descripción de la base de datos
La base de datos es creada a partir de la información que se encuentra disponible para cada municipio
del país en la página Web de la Superintendencia de Servicios Públicos (SIU, 2015) sobre el número
de aliados que tienen las empresas de energía eléctrica, residenciales y no residenciales, para cada mes
a partir de marzo de 2011 a septiembre de 2014. Estos registros se consolidaron en una base de datos
cuyas características están dadas por la variable que describe municipio, empresa, departamento y 43
variables adicionales que describen la cantidad de aliados por mes y años presentes en esa empresa de
ese municipio.
3.2. Estimación del total de usuarios de energía eléctrica del país
Se presentan a continuación dos casos para la estimación de la curva del total de usuarios de energía
eléctrica para dos poblaciones con tamaños diferentes. El tamaño de la primera poblacion es de N = 1142
empresas de energía, y para la segunda población el tamaño coresponde a N = 356.
1142 empresas de energía eléctrica
Para este caso fue seleccionada una muestra de tamaño 100. El primer paso para realizar la estimación,
es establecer la base de funciones necesaria para suavizar los datos. Teniendo en cuenta que no todas las
empresas reportaron el número de usuarios mes a mes como se esperaba, se recomienda realizar el suavizamiento curva por curva utilizando una base de B-splines. Además, se observa que el comportamiento
de cada una de las empresa de energía no es el esperado, debido que en la mayoría de empresas el valor
de usuarios no es constante, para algunas este valor oscila en cada mes, lo que puede ocasionar que la
estimación que se realice se vea afectada por esta situación.
Después de hacer el suavizamiento
de la muestra, se realiza la estimación de la curva total de usuarios
0
de energía eléctrica. Denotando Y k = (Yk (t1 ), Yk (t2 ), · · · , Yk (tD )) la variable de estudio para la k-ésima
empresa seleccionada en la muestra, medida en los D = 43 meses. Con propabilidad de inclusión de
primer orden igual a πk = 0.08756567.
Figura 1: Estimación de la curva total de usuarios de energía eléctrica del país
En la Figura 1, se observa que la estimación de la curva del total de usuarios de energía eléctrica del
país es de color azul, esta es comparada con los valores reales que toma la variable en cada uno de los
XXV Simposio de Estadística (2015)
Muestreo de datos funcionales
5
43 meses, los cuales son representados a través de la curva punteada de color rojo. Al detallar la gura
obtenida se puede concluir que la curva estimada está cercana a los valores reales, sin embargo hay que
resaltar que el comportamiento que presentan los valores reales no son los esperados debido a que hay
varios meses donde el total de usuarios disminuye de manera signicativa, debido a las empresas que no
presentaron la informacion requerida en esos meses.
356 empresas de energía eléctrica
El tamaño de la población de estudio es de N = 356 empresas de energía, esta población es el resultado
de eliminar las observaciones que no cuenta con la información completa en la primera población. Se
selecciono una muestra de tamaño 100, que posteriormente fue suavizada utilizando una base de b-splines.
El comportamiento de las empresas es el mismo que se observó en la primera población de estudio. Por
otra parte, no se cuenta con toda la información auxiliar completa para cada empresa, razón por el cual
fue necesario hacer imputación a los datos faltantes que presentaron 25 empresas, en máximos dos meses.
La técnica de imputación utilizada fue el promedio, la cual no es la más aconsejable de utilizar.
0
Sea Y k = (Yk (t1 ), Yk (t2 ) · · · , Yk (tD )) el total de usuarios para la k-ésima empresa seleccionada en la
muestra, medida en los D = 43 meses que hay entre marzo de 2011 a septiembre de 2014. Con propabilidad
de inclusión de primer orden igual a πk = 0.2808989. Se realiza la estimación de la curva total de usuarios
de energía eléctrica por medio del estimador Horvitz-Thompson.
Figura 2: Estimación de la curva total por medio del estimador de Horvitz-Thompson
En la Figura 2, se observa que la estimación de la curva del total de usuarios de energía para la segunda
población, de color verde, obtenida con la muestra seleccionada sobreestimo los valores reales que toma la
variable en cada uno de los 43 meses, los cuales son representados a través de la curva punteada de color
rojo. Se espera que la estimación mejore utilizando la información auxiliar en el estimador de regresión.
Figura 3: Estimación de la curva total por medio del estimador de regresión
XXV Simposio de Estadística (2015)
6
Stephanie Vasquez Lizcano, Ruben Dario Guevara Gonzalez & Leonardo Trujillo Oyola
Se observa que en la Figura 3 el estimador obtenido por medio del modelo de regresión con respuesta
funcional de color purpura, propuesto por Cardot et al. (2013) y modicado para cumplir los objetivos
propuestos en este trabajo, subestima los valores reales que toma la variable de estudio. Lo anterior se
obtiene debido a los errores que se encontraron en la formula de Cardot et al. (2013).
4. Conclusiones
• El estimador de regresión dado por Cardot
et al. (2013) presenta un error en la formula para la
estimación de la curva media. Sin embargo, fue es corregida en el desarrollo de este trabajo.
• Los tiempos de medición son diferentes para la primera población, razón por la cual es necesario
realizar el suavizamento de las observaciones una por una. Además, no es posible realizar el estimador de regresión debido a que no se cuenta con la información auxiliar completa dicultando los
cálculos.
• No fue posible determinar la eciencia de los estimadores estudiados a consecuencia de que no se
logró realizar la varianza de los estimadores.
• Aplicar la formula corregida del estimador de regresión en futuros trabajos.
• Aplicar las técnicas de imputación de datos faltantes conocidas para el análisis de datos funcionales.
• Realizar el estimador de regresión bajo los diferentes modelos de regresión funcional y diferen-
tes técnicas de muestreo. En especial, el modelo de regresión donde la variable independiente y
dependiente son funcionales.
Agradecimientos
Agradezco al Profesor Leonardo Trujillo por darme la oportunidad de aprender a su lado y al profesor
Rubén Guevara por su colaboración.
Referencias
[1] Aristizabal, J. P. (2011), Metodología estadística para el análisis de datos funcionales cerebrales:
Una aproximación con potenciales evocados. Tesis de maestría, Universidad Nacional de Colombia,
Facultad de Ciencias. Departamento de Estadística, Bogotá.
[2] Cardot, H., Chaouch, M., Goga, C. & Labruère, C., (2010), `Properties of design-based functional
principal components analysis' , Journal of statistical planning and inference 140, 75-91.
[3] Cardot, H., Dessertaine, A., Goga, C., Josserand, É., & Lardin, P. (2013), `Comparison of dierent
sample designs and construction of condence bands to estimate the mean of functional data: An
illustration on electricity consumption', Survey Methodology 53(3), 283-301.
[4] Ferraty, F. & Vieu, p. (2006), Nonparametric
New York.
functional data analysis: theory and practice
, Springer,
[5] Giraldo, R (2007), `Análisis exploratorio de variables regionalizadas con métodos funcionales', Revista
Colombiana de Estadística 30(1),115-127.
[6] Ramsay, J. & Dalzell C. (1991), `Some Tools for Functional Data Analysis', Royal
53(3), 539-572.
Statistical Society
XXV Simposio de Estadística (2015)
Muestreo de datos funcionales
7
[7] Ramsay, J., Hooker, G., & Graves, S. (2009) Functional data analysis with R and MATLAB, Springer,
New York.
[8] Ramsay, j. & Silverman, B. (2005),Functional
data analysis
, segunda edn, Springer, New York.
[9] Ramsay, J. & Siverman, B. (2002), Applied functional data analysis: methods and case studies, Springer, New York.
[10] Oviedo, M. (2011),Utilities for Statistical Computing in Functional Data Analysis: The Package
fda.usc. Proyecto Fin de Máster del Máster interuniversitario en Técnicas Estadísticas. Universidad
de Santiago de Compostela. Santiago de Compostela.
[11] R Core Team (2014). R: A language and environment for statistical computing. R Foundation for
Statistical Computing, Vienna, Austria. URL http://www.R-project.org/.
[12] Särndal, C., Swensson, B. & Wretman, J. (1992),
Springer, New York.
Model assisted survey sampling
, primera edn,
[13] Shen, Q. & Xu, H. (2007), `Diagnostics for Linear Models with Functional Responses' , Technometrics
49(1), 26-33.
[14] Sistema único de información de servicios públicos, SIU, (s.f), Recuperado el 21 de enero de 2015,
en http://www.sui.gov.co/SUIAuth/portada.jsp?servicioPortada=4
[15] Trujillo, L. & González, L. M. (2014), `Una revisión a los procesos de aseguramiento de la calidad
en operaciones estadísticas por muestreo' , Revista ib 3(1), 29-40.
XXV Simposio de Estadística (2015)
Descargar