Estudio del riesgo de ocurrencia de un siniestro utilizando el análisis de componentes principales funcionales ESTUDIO DEL RIESGO DE OCURRENCIA DE UN SINIESTRO UTILIZANDO EL ANÁLISIS DE COMPONENTES PRINCIPALES FUNCIONALES Mª Manuela Segovia González Flor Mª Guerrero Casas Patricia Herranz Peinado Departamento de Economía, Métodos Cuantitativos e Historia Económica Universidad Pablo de Olavide Sevilla RESUMEN En los últimos años en numerosos congresos y reuniones estadísticas se ha venido tratando el problema de qué ocurre cuando el análisis de los datos se lleva a cabo desde una perspectiva funcional. Lo que en principio parecía la extensión de unas técnicas ya existentes, como el análisis multivariante, se ha convertido en una forma diferente de abordar el análisis de datos. En la presente ponencia tratamos de dar respuesta a dos grandes cuestiones que constituyen nuestros objetivos. Por una parte, establecer el procedimiento para aplicar e interpretar el análisis de componentes principales funcionales (ACPF), y por otra, definir perfiles de comportamiento de los asegurados del automóvil para ofrecer a las compañías aseguradoras una forma de seleccionar su cartera de clientes. En las áreas de conocimiento aplicadas, la interpretación de los resultados al utilizar una técnica concreta es de suma importancia, en particular, interpretar las componentes principales en el caso funcional utilizando la función de correlación es de gran interés. De hecho, actualmente las interpretaciones dadas en determinadas aplicaciones no se sustentan en técnicas estadísticas que den objetividad a las mismas. Palabras clave: análisis de componentes principales funcionales, seguro del automóvil, función de correlación. XIII Jornadas de ASEPUMA 1 Segovia, M. M., Guerrero, F. M., Herranz, P. 1. INTRODUCCIÓN En los últimos años se está tratando el problema de qué ocurre cuando el análisis de los datos se lleva a cabo desde una perspectiva funcional. Ramsay y Dalzell (1991) denominaron a este tipo de planteamiento análisis de datos funcionales (ADF). En el ADF, las observaciones para cada individuo no consisten en conocer una serie de variables, con la consiguiente disposición de la información como un vector p dimensional, sino que los valores de que disponemos son una o varias funciones. Esta nueva perspectiva está siendo desarrollada en la actualidad, por lo que no son muchos los estudios de situaciones reales empleando dichas técnicas funcionales. Se considerará que tratamos con una serie de datos funcionales cuando la observación que tengamos de cada individuo sea una función, o al menos pretendamos tenerla. El interés de hacer este tipo de planteamientos radica en que nuestro problema se describiría de forma más real. Un caso muy frecuente es aquel en el que tenemos observaciones medidas a lo largo del tiempo, aunque en principio dispongamos solo de un número discreto de momentos observados para cada individuo; en esta situación nos interesará conocer lo que le ocurre en cualquier instante. Desde una perspectiva general, el desarrollo teórico del problema lo podemos ver en Ramsay y Silverman (1997) y, más recientemente, en Valderrama et al. (2000). Pero tales técnicas adquirirán importancia en tanto en cuanto se puedan aplicar a datos reales. Sin embargo, en Economía existen muy pocas aplicaciones que utilicen esta perspectiva funcional, aunque cabe destacar un estudio para el análisis de la evolución de los índices mensuales de producción de bienes perecederos, representando las observaciones discretas de un proceso continuo por medio de una ecuación diferencial ordinaria. Dicha aproximación difiere significativamente de los análisis convencionales de las series temporales (Ramsay y Ramsey, 2002). Asimismo, en Aguilera et al. (1999) se realiza una aplicación en el campo financiero mediante el estudio de la cotización del sector bancario en la bolsa de Madrid, prediciendo la rentabilidad de los títulos de dicho sector. Realizaremos un estudio empírico en el sector del automóvil utilizando una de las técnicas del ADF: el análisis en componentes principales funcionales (ACPF). Como una de las aportaciones de este trabajo, introducimos una nueva forma de interpretar los problemas en los que se aplica el ACPF, haciendo uso de la función de correlación del proceso estudiado y cada una de las componentes principales obtenidas. Hasta ahora, los trabajos encontrados en la literatura obtienen las componentes principales, pero no hacen uso de esta función de correlación para explicar mejor lo que está ocurriendo en el problema que plantean. Las interpretaciones que suelen hacer de los resultados obtenidos muchas veces no parecen estar completamente justificadas, por lo que no está resuelto el problema de la interpretación de los resultados que se obtienen al aplicar dicha técnica. La aplicación del ACPF puede aportar 2 XIII Jornadas de ASEPUMA Estudio del riesgo de ocurrencia de un siniestro utilizando el análisis de componentes principales funcionales muchas mejoras en el campo empresarial, pues cuando se realizan trabajos en este sector generalmente nos encontramos con un gran volumen de datos y de variables que discurren a lo largo del tiempo. 2. DESCRIPCIÓN DE LA MUESTRA ORIGINAL Hemos de destacar que es muy complejo, dadas las restricciones a que obliga la Ley Orgánica de Protección de Datos, obtener información acerca de los asegurados. No obstante, una compañía de seguros con una amplia implantación a nivel nacional, ha tenido a bien cedernos una base de datos. 2.1. Restricciones realizadas a la muestra La información cedida por la entidad aseguradora se encuentra en una base de datos Microsoft Access y corresponde al período comprendido desde el 1 de enero de 2001 al 31 de diciembre de 2002. Se dispone de 271.800 asegurados y de 88.337 siniestros. Nos restringiremos a los individuos asegurados en dicho período que: • Conduzcan un vehículo de tipo turismo y cuyo uso sea particular. El motivo por el que realizamos esta restricción en nuestro estudio es debido a que si considerásemos otro tipo de vehículos como es el caso de camiones, motos, taxis, etc., se podrían distorsionar los resultados. Los profesionales que trabajan con su vehículo lo usan más y, por tanto, están más expuestos al riesgo; si no tuviéramos en cuenta estas restricciones el marco de estudio englobaría a poblaciones muy heterogéneas respecto al comportamiento de la siniestralidad, que será nuestro principal propósito en el análisis a desarrollar. • La culpa sea directa o compartida, en el caso de haber tenido algún siniestro en el período de estudio. Se tendrán en cuenta sólo los siniestros en los que la culpa haya sido directamente del asegurado de la compañía estudiada, o bien, compartida con el asegurado de otra entidad. Estamos interesados en las características de los individuos responsables de un siniestro. Si contabilizáramos los siniestros de una póliza en los que el asegurado no tiene la responsabilidad, sino que ha sido el otro individuo implicado, estaríamos falseando la información al no conocer las características del que comete la falta, ya que la póliza pertenece a otra compañía. También se ha llevado a cabo una exhaustiva depuración de los datos, excluyendo registros que carecían de información en algunas de las variables de interés para nuestro estudio, así como eliminando datos incongruentes como es el caso de individuos menores de 18 años y XIII Jornadas de ASEPUMA 3 Segovia, M. M., Guerrero, F. M., Herranz, P. otros errores detectados. Una vez aplicadas las restricciones anteriores y depurados los datos nos encontramos con 175.191 asegurados y 30.483 siniestros que serán el objeto de nuestro estudio. 2.2. Estratificación de la muestra Se realizará una estratificación de la muestra según el siguiente detalle: sexo, zona geográfica y tipo de turismo. • La variable sexo se justifica por los previsibles diferentes comportamientos entre los hombres y las mujeres a la hora de conducir. • La zona geográfica, ya que la climatología, la densidad de población y las infraestructuras actúan como componentes importantes en los resultados obtenidos. Se considerarán tres zonas distintas: la zona centro-norte (Castilla-León, Castilla-La Mancha, Madrid, Aragón, La Rioja, Galicia, Asturias, Cantabria, País Vasco y Navarra), la zona mediterránea (Cataluña, Valencia, Murcia y Baleares) y la zona sur (Andalucía, Extremadura y Canarias). • El tipo de turismo, distinguiendo entre gama baja y media-alta. Un coche de gran tamaño y potencia puede provocar, a iguales circunstancias de accidentes, mayores daños que uno pequeño. De la misma manera, también serán mayores los gastos de reparación de los daños propios del vehículo. En conversaciones con los técnicos de la compañía, nos han indicado que esta estratificación es la que habitualmente realizan la mayoría de las compañías. En particular cada una de ellas, además de tener en cuenta estas variables, consideran otras características. Así, al lanzar al mercado un producto, cuanto más se ajuste a la realidad de los clientes mayor éxito tendrá, en el sentido de que aportará mayores beneficios económicos para la compañía y de satisfacción para el cliente. 2.3. Asignación de perfiles Denominaremos perfil a un grupo de individuos que verifica una serie de características comunes. En nuestro caso, los perfiles vendrán determinados por las variables sexo, zona geográfica y tipo de turismo. Como resultado de esta estratificación, trabajaremos con 12 grupos de individuos. En la Tabla 1 se muestran los distintos perfiles con los que vamos a trabajar, incluyendo el número de siniestros y el número de asegurados en cada uno de ellos. 4 XIII Jornadas de ASEPUMA Estudio del riesgo de ocurrencia de un siniestro utilizando el análisis de componentes principales funcionales Perfiles Sexo Gama del Zona turismo geográfica Siniestros Asegurados 1 Mujer Media-Alta Sur 1.553 6.687 2 Mujer Media-Alta Centro-Norte 728 3.574 3 Mujer Media-Alta Mediterránea 443 2.604 4 Mujer Baja Sur 1.810 9.330 5 Mujer Baja Centro-Norte 865 5.134 6 Mujer Baja Mediterránea 516 3.658 7 Hombre Media-Alta Sur 8.799 43.709 8 Hombre Media-Alta Centro-Norte 3.985 22.286 9 Hombre Media-Alta Mediterránea 2.239 13.649 10 Hombre Baja Sur 5.646 35.794 11 Hombre Baja Centro-Norte 2.506 18.157 12 Hombre Baja Mediterránea 1.393 10.609 Tabla 1: Perfiles considerados en el estudio En definitiva, tenemos 12 perfiles distintos y nuestro principal propósito es ver cómo se comportan los siniestros en las distintas edades por las que va pasando el conductor. Por tanto, estudiaremos el riesgo de ocurrencia de un siniestro en cada uno de los perfiles y en cada una de las edades. Dicho riesgo lo definiremos como el cociente entre el número de siniestros ocurridos en un perfil determinado a una edad determinada y el número total de asegurados que tienen dicho perfil y dicha edad. Luego, en nuestro estudio, la variable principal será el riesgo de ocurrencia de un siniestro del perfil i-ésimo en la edad t con i=1, ..., 12 y t = 25-, 25, 26, ...,70, 71, 71+. Los instantes de edades que tenemos van de los 18 a los 88 años; no obstante, al disponer de muy pocos asegurados menores de 25 y mayores de 71 años, hemos decidido estudiar de forma agrupada ambos grupos de individuos (que se han denotado con el valor 25- y 71+). Esto tiene como desventaja que el comportamiento de los asegurados menores de veinticinco y mayores de setenta y uno no podrán estudiarse minuciosamente, sino que únicamente tendremos el comportamiento global en estos tramos. En estudios posteriores, pretendemos disponer de la información de un número mayor de asegurados, a pesar de ser esto muy complicado de conseguir, ya que la mayoría de las compañías aseguradoras se muestran reticentes a dar información de su cartera de clientes. 3. METODOLOGÍA UTILIZADA Una vez realizada una exhaustiva depuración de estos datos y preparada la información para su tratamiento, tuvimos que adaptar una serie de algoritmos desarrollados por Ramsay y XIII Jornadas de ASEPUMA 5 Segovia, M. M., Guerrero, F. M., Herranz, P. Silverman1 , para poder así convertir los datos a la forma funcional y aplicar el ACPF a dichas funciones. Asimismo, para interpretar y evaluar la bondad de dicha técnica formulamos unos algoritmos utilizando el programa matemático MATLAB2, que como bien es sabido dispone de un lenguaje de programación propio que nos permite trabajar con objetos orientados y por consiguiente implementar las técnicas del análisis de datos funcionales3. 4. DESCRIPCIÓN DE LOS DATOS FUNCIONALES El primer paso en nuestro estudio es convertir los datos a la forma funcional. Queremos trabajar con 12 funciones xi (t), con i=1, ..., 12 y t ∈ [t 0 ,t1 ] , siendo t0 todos los asegurados menores de veinticinco años y t1 los mayores de setenta y un año. Para ello realizamos una aproximación utilizando el criterio de mínimos cuadrados, de forma que minimicemos para el perfil i-ésimo el valor de: K y − ∑ ij ∑ cik φ ik ( t j j =t k =1 t1 0 ) 2 y tengamos, por tanto, que: K xi ( t ) = ∑ cik φ ik ( t j ), ∀i = 1,Λ ,12. k =1 El procedimiento empleado ha sido el método de las funciones base4, es decir, pretendemos representar la función a estimar como una combinación lineal de funciones base. En el caso que nos ocupa, los datos no se comportan de manera estable, no detectándose ningún tipo de periodicidad en ellos, por tanto la aproximación por medio de series de Fourier no es adecuada. Necesitamos, pues, una gran flexibilidad para poder ajustar de forma apropiada los datos. Por ello, hemos utilizado funciones base del tipo B-spline. 1 Los programas los podemos encontrar en la siguiente dirección: \\ftp://ego.psych.mcgill.ca/pub/ramsay/FDAfuns/Matlab/. 2 MATLAB Copyright © 1984-2000. The MathWorks, Inc. Es el nombre abreviado de ‘MATriz LABoratory'. 3 4 Véase Ramsay (2003). Para más información puede consultarse Ramsay y Silverman (1997), Kelly y Rice (1990), Streng (1993), De Boor (1978), Reinsch (1967, 1970), Schumaker (1981) y Wahba (1990), entre otros. 6 XIII Jornadas de ASEPUMA Estudio del riesgo de ocurrencia de un siniestro utilizando el análisis de componentes principales funcionales A continuación, presentamos el gráfico de las aproximaciones de uno de los perfiles con los que estamos realizando el estudio. Mostramos los datos originales y la curva que aproxima a dichos datos (aproximación correspondiente al perfil 8 de la Tabla 1). Figura 1: Riesgo de ocurrencia de un siniestro para el perfil octavo 5. APLICACIÓN DEL ANÁLISIS EN COMPONENTES PRINCIPALES FUNCIONALES 5.1. Obtención de las autofunciones y las puntuaciones de las componentes Como resultado de aplicar el ACPF a las funciones muestrales que hemos estimado anteriormente, obtenemos una serie de autofunciones que nos permiten calcular las componentes principales. En la práctica, lo que obtendremos son estimaciones, teniendo que la h-ésima componente principal vendrá dada por: ξˆ = ∫ t1 X̂ ( t ) f̂ ( t )dt , h = 1,2,3,4,Λ , h t h 0 donde X̂ ( t ) y f̂ h ( t ) son estimaciones de las curvas del proceso y de la autofunción h-ésima, respectivamente. Además, para cada perfil podremos tener la puntuación en cada una de las componentes. Se tiene, para la componente h-ésima, que las puntuaciones en cada uno de los individuos considerados serán ξˆ h = ( ξˆ1h ,ξˆ 2 h ,Λ ,ξˆ12 h ) con: ξˆ ih = ∫ t1 x̂i ( t ) f̂ ( t )dt , ∀i = 1,2 ,Λ ,12 , t siendo 0 h f̂ h ( t ) y x̂i ( t ) las estimaciones de la autofunción h-ésima y de la función correspondiente al perfil i-ésimo, respectivamente. Por la forma en que se plantea el problema de optimización, se sabe que la primera componente principal será la que acumule la mayor variabilidad del proceso original; seguidamente, estará la segunda componente principal, la tercera y así sucesivamente. XIII Jornadas de ASEPUMA 7 Segovia, M. M., Guerrero, F. M., Herranz, P. 5.2. Elección del número óptimo de componentes principales Cuando realizamos un ACPF, una de las cuestiones que nos surgen es la elección del número óptimo de componentes. Se pretende poder explicar el proceso en estudio con un número de componentes no muy elevado. El criterio que utilizaremos el criterio de porcentaje de la varianza (Hair et al., 2000). En nuestro caso, la primera componente explica el 70,19 %; la segunda, el 12,86 %; la tercera, el 8.94 % y la cuarta, el 4.08 %. Luego, tomar tres o cuatro componentes podría ser razonable, pues tendríamos explicado el 92 % o el 96 % de la variabilidad total del proceso, respectivamente. 5.3. Interpretación de las componentes principales funcionales Antes de interpretar las componentes principales funcionales que hemos obtenido, tendremos que calcular una estimación de la función de correlación entre el proceso estimado y cada una de las componentes principales funcionales; es decir, obtener la relación existente entre las 12 curvas estimadas con cada una de las componentes principales computadas. De forma general, consideraremos que existe una fuerte correlación si ésta es superior o igual a 0,7, en valor absoluto. Este criterio solo es una interpretación sugerida, pues los coeficientes de correlación son, en cierta medida, dependientes del objeto de estudio en cuestión. En experimentos de laboratorio (biológicos o químicos) controlados cuidadosamente, se puede esperar que los coeficientes de correlación sean bastante altos. Sin embargo, en experimentos con seres humanos o en estudios de campo observacionales, habitualmente se presentan coeficientes de correlación más bajos. Estos valores más bajos aún pueden ser considerados altamente informativos por el experto en la materia. Dicho valor dependerá del tipo de datos que estemos tratando (Hair et al., 2000). La estimación de la función correlación entre el proceso y la componente h-ésima, (h=1, 2, 3, 4) vendrá dada por: r̂h ( t ) = r( X̂ ( t ),ξˆ h ) = ρˆ h σˆ ( t ) f̂ h ( t ), siendo X̂ ( t ) la estimación de las curvas obtenidas para los distintos perfiles, ρ̂ h y f̂ h ( t ) el autovalor y la autofunción estimada para la componente h-ésima, respectivamente, y σ̂ ( t ) denota la estimación de la desviación típica del proceso original. Cuando existe una fuerte correlación positiva entre dos variables quiere decir que conforme crece una de ellas, la otra también aumenta y conforme disminuye una, la otra también decrece. Luego, en el rango de edad donde la correlación sea fuertemente positiva, conforme aumente el valor de la variable ξ̂ h aumentará X̂ ( t ) . Con lo cual, un aumento de la puntuación en la componente h-ésima supondrá un incremento en el riesgo de que ocurra un 8 XIII Jornadas de ASEPUMA Estudio del riesgo de ocurrencia de un siniestro utilizando el análisis de componentes principales funcionales siniestro en el tramo de edad correspondiente. En caso contrario, si la correlación es fuertemente negativa, tenemos que conforme aumenta una variable la otra disminuye y viceversa. En nuestro estudio, conocemos cada una de las puntuaciones obtenidas en cada componente principal para cada uno de los perfiles considerados, por tanto, podemos ordenar dichas puntuaciones, teniendo con ello una ordenación de los 12 perfiles en función del valor que toman en cada una de las componentes principales. Sabremos también los tramos de edad más correlacionados con cada una de ellas, así como si la dependencia es directa o inversa. Por tanto, podremos dar una ordenación de cada uno de los perfiles según su comportamiento en cuanto al riesgo de que ocurra un siniestro en los distintos tramos de edades que veremos posteriormente. En la Figura 2, se puede observar que esta primera componente está muy correlacionada positivamente con el tramo que va de los 31 a los 67 años, ambos inclusive, y con los mayores de 71 años. La información que obtenemos para los mayores de setenta y un año no es muy fiable, pues en nuestro estudio los tuvimos que agrupar. Por tanto, no tendremos en cuenta la significación estadística detectada para la primera componente en dicho tramo de edad. Además, conocemos las doce puntuaciones correspondientes a cada una de las observaciones consideradas. De esta manera, podremos conocer cuándo en el tramo de edad de los 31 a los 67 años el riesgo de ocurrencia de un siniestro es superior o inferior en los distintos perfiles considerados. De menor a mayor puntuación en la primera componente, los perfiles se presentan en el siguiente orden P12, P11, P6, P10 , P9, P5, P3, P8, P4, P7, P2 y P1. Las puntuaciones se presentan en la Tabla 2. Figura 2: Función de correlación para la primera componente. Tabla 2: Puntuación de los perfiles en la primera componente. Si nos centramos en la segunda componente principal, está muy correlacionada positivamente con el tramo de edad que va de los 68 a los 70 años, ambos inclusive. De menor a mayor puntuación en la variable que consideramos, los perfiles aparecen ordenados de la siguiente forma P1, P3, P5, P11, P12, P4, P10, P9, P6, P8, P7 y P2. Asimismo, la tercera componente está directamente correlacionada con el tramo de edad que va de los 27 a los 30 años, ambos XIII Jornadas de ASEPUMA 9 Segovia, M. M., Guerrero, F. M., Herranz, P. inclusive. En función de las puntuaciones que toman en la tercera componente, de menor a mayor, los perfiles aparecen en el siguiente orden P3, P2, P9, P6, P5, P8, P1, P12, P11, P10, P7 y P4. 6. CONCLUSIONES Hemos aplicado el ACPF a una función que hemos definido como riesgo de ocurrencia de un siniestro. Ésta la hemos construido para cada uno de los perfiles que hemos tomado en consideración, teniendo en cuenta las directrices que nos dieron los técnicos de la compañía que nos cedió los datos. De su análisis, desde la consideración de la importancia de la variable edad en el comportamiento de los conductores, se han obtenido los principales resultados prácticos. Debido a la escasez de trabajos en nuestro ámbito hemos tenido la necesidad de crear rutinas informáticas propias que permiten calcular las componentes principales y los porcentajes de variabilidad de las mismas, tomando como referencia rutinas de otros campos. Asimismo hemos superado de esta forma, la gran dificultad de adaptación de estas técnicas a problemas reales. El tratar el problema desde una óptica funcional nos ha permitido considerar la función de riesgo de ocurrencia de un siniestro a lo largo de la vida de un asegurado, que es la manera natural de tratar un proceso continuo; más aún cuando disponemos de las herramientas que nos lo permiten, en nuestro caso el ACPF. Al aplicar dicha técnica estamos dando notoriedad al hecho de que la estructura de la covarianza es muy especial, es decir, existe una mayor covarianza entre dos valores cercanos que entre dos valores alejados en el tiempo (Ramsay et al., 1994). Con el ACPF conseguimos reducir la dimensionalidad del problema original, ya que con las tres primeras componentes principales obtenidas somos capaces de explicar el 92% de la variabilidad. Además, establecemos el procedimiento para interpretar los resultados obtenidos al aplicar el ACPF, haciendo uso de la función de correlación existente entre el proceso y cada una de las componentes. Para obtener dicha función hemos desarrollado un algoritmo y observamos unas correlaciones positivas entre las componentes principales y determinados tramos de edad. En concreto, la primera componente está correlacionada significativamente con el tramo de edad que va de los 31 a los 67 años, la segunda con el que va de los 68 a los 70 años y la tercera con la que comprende de los 27 a los 30 años. La información anterior nos permite conocer cuáles son los tramos de edad con los que cada una de las componentes principales está relacionada, permitiéndonos ordenar los perfiles dentro de cada tramo de edad en función de las puntuaciones asociadas a cada una de las componentes. 10 XIII Jornadas de ASEPUMA Estudio del riesgo de ocurrencia de un siniestro utilizando el análisis de componentes principales funcionales 7. REFERENCIAS BIBLIOGRÁFICAS • AGUILERA, A.M.; OCAÑA, F.A. ; VALDERRAMA, M.J. (1999). “Stochastic modelling for evolution of stock-prices by means of functional principal component analysis”. Applied Stochastic Models in Bussines and Industry, 15 (4), pp. 227-234. • DE BOOR, C. (1978). “A practical guide to splines”. Springer-Verlag. • HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. ; BLACK, W. C. (2000). “Análisis multivariante”. Prentice Hall. • KELLY, C. ; RICE, J.R. (1990). “Monotone smoothing with application to doce response curves and the assessment of synergism”. Biometrics, 46, pp. 1071-1085. • RAMSAY, J.O. (2003). “R and S-PLUS Functions for functional data analysis”. McGill University. • RAMSAY, J.O. ; RAMSEY, J.B. (2002). “Functional data analysis of the dynamics of the monthly index of nondurable goods production”. Journal of Econometrics 107, pp. 327-344. • RAMSAY, J.O. ; SILVERMAN, B.W. (1997). “Functional data analysis”. Springer Series in Statistics. • RAMSAY, J.O. ; SILVERMAN, B.W. (2002). “Applied functional data analysis”. Springer Series in Statistics. • RAMSAY, J.O.; ALTMAN, N. ; BOCK, R.D. (1994). “Variation in height acceleration in the Fels growth data”. The Canadian Journal of Statistics 22 (1), pp. 89-102. • REINSCH, C. (1967). “Smoothing by spline functions”. Numerische Mathematik 10, pp. 177-183. • REINSCH, C. (1970). “Smoothing by spline functions II”. Numerische Mathematik 16, pp. 451-454. • SCHUMAKER, L.L. (1981): Spline functions: basic theory}. Wiley y Sons. • STRENG, G. (1993). “Wavelet transforms versus Fourier transforms”, BAMS 28, pp. 288305. • VALDERRAMA, M.J.; AGUILERA, A.M. ; OCAÑA, F.A. (2000). “Predicción dinámica mediante análisis de datos funcionales”. La Murralla-Hespérides. • WAHBA, G. (1990). “Spline models for observational data”. SIAM. XIII Jornadas de ASEPUMA 11