Ajuste y selección de modelos de regresión para estimar el volumen

Anuncio
DOCUMENTO TÉCNICO No. 5 - 2009 / FOMABO
Ajuste y selección de modelos de
regresión para estimar el volumen
total de árboles
Autores: Thiago Augusto da Cunha a
Julio Orlando Vargas Muñoz b
Mario Escalier Hinojosa c
a. Estudiante de maestria en la Universidade Federal de Santa Maria (UFSM), Programa de pos
graduação em engenharia florestal, Avenida Roraima, 1000, Cidade universitaria, Bairro
Camobi, Rs, Brasil. E-mail: [email protected], fono: 0055 55 3220.
b. Profesor en la Universidad Mayor de San Simon, Facultad de Ciencias Agrícolas y Pecuarias,
Carrera de Ingeniería Forestal. Avenida Atahualpa. Cochabamba, Bolivia, Telf.: +591 4 42
92343, Fax: +591 4 4456187 - 4451203.
c. Profesor en la Universidad Mayor de San Simón, Facultad de Ciencias Agrícolas y Pecuarias,
Carrera de Ingeniería Forestal. Avenida Atahualpa. Cochabamba, Bolivia, Telf.: +591 4 42
92343, Fax: +591 4 4456187.
Cochabamba - Bolivia
Editorial
Proyecto FOMABO/ESFOR-UMSS
Escuela de Ciencias Forestales de la Universidad Mayor de San Simón
Av. Atahuallpa (final), Zona Temporal, Barrio Prefectural s/n, Casilla 447,
Telf./fax: +591-4-4451203
Web: www.esfor.umss.edu.bo
E-mail: [email protected]
Cochabamba, Bolivia
Responsable de edición:
Ruth López
Escuela de Ciencias Forestales (ESFOR)
Av. Atahuallpa (Final), Zona Temporal, Barrio Prefectural
Casilla 447, Cochabamba, Bolivia
Telf./fax: +591-4 4451203
Web: www.esfor.ums.edu.bo/biblioesfor/
E-mail: [email protected]
Cochabamba, Bolivia
Todos los Derechos Reservados
ISBN: ¿¿¿¿¿¿¿¿????????????
Deposito legal: ¿¿¿¿¿¿¿¿¿?????????
Tiraje
500 ejemplares
Impresión
Impresiones Poligraf
Reservados todos los derechos. Ninguna parte de esta publicación se puede
reproducir, almacenar en sistema de recuperación ni transmitir en forma alguna por
medios electrónicos, mecanismos, fotocopia o cualquier otro medio, sin una
adecuada referencia a la fuente.
INDICE
ABSTRACT ....................................................................................................................5
RESUMEN .....................................................................................................................6
1. INTRODUCCIóN .....................................................................................................7
1.1 ANTECEDENTES gENERALES ........................................................................................7
1.2 OBjETIvO DE LA INvESTIgACIóN .................................................................................7
2. MÉTODOS y MATERIAlES ........................................................................................8
2.1 ÁREA DEL ESTUDIO ..................................................................................................8
2.2 OBTENCIóN DE LOS DATOS .......................................................................................8
2.3 CRITERIOS DE SELECCIóN DE LOS MODELOS DE REgRESIóN y ANÁLISIS ESTADíSTICA .............10
Valor de la distribución F de Snedecor .................................................................11
Coeficiente de determinación ajustado (R2 aij.) ....................................................11
Desvío estándar de la estimación .........................................................................12
2.4 vALOR PONDERADO (vP) .......................................................................................13
2.5 DISTRIBUCIóN gRÁFICA DE LOS RESIDUOS ..................................................................13
2.6 vALIDACIóN DE LA ECUACIóN SELECCIONADA .............................................................14
Homogeneidad de varianzas de los residuos........................................................14
Independencia de los residuos .............................................................................15
Normalidad de los residuos..................................................................................16
3. RESUlTADOS y DISCUSIóN ..................................................................................16
3.1 CRITERIOS DE SELECCIóN DE LOS MODELOS y ANÁLISIS ESTADíSTICO ................................16
3.2 DISTRIBUCIóN gRÁFICA DE LOS RESIDUOS ..................................................................19
3.3 vALIDACIóN DE LA FUNCIóN DE vOLUMEN .................................................................20
4. CONClUSIONES ....................................................................................................22
5. REFERENCIAS..........................................................................................................22
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
ABSTRACT
The objective of the work was selected the mathematical pattern of lineal regression that
but it adjusts to the data of total volume with measured bark. The database for the
development of the study was extracted from a community of Pinus taeda L. in the State
of Rio grande do Sul, Brazil in the Universidade Federal de Santa Maria, city of Santa
Maria.
The total volume with bark was calculate in 40 trees with diameter data along the shaft
were obtained by means of readings of the mirror relascópic of model Bitterlich Wide
Scale. Was proven 15 models of regression, having as approach of selection of the best
model, the smallest Pondered value Statistical Parameters and graphic analysis of the
residuals. The result revealed that all the proven models presented good adjustment
presenting coefficient of determination adjusting varying among 0,982 at 0,996 with
graphical analysis of the residues revealing that any models proved can be using to
estimated a total volume with bark to P. taeda trees. Therefore the models proposed by
Spurr (combined variable) it was the one selected to present bigger use easiness and
generability.
Keywords: Regression Analysis, Bitterlich relascop, total volume with bark.
5
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
RESUMEN
El objetivo del trabajo fue seleccionar un modelo matemático de regresión lineal que más
ajuste a los datos de volumen total con corteza. La base de datos para el desarrollo del
estudio fue extraída de un rodal de Pinus taeda L. en el Estado de Rio grande do Sul,
Brasil en la Universidad Federal de Santa Maria, ciudad de Santa Maria.
Fue calculado el volumen total riguroso con corteza de 40 árboles mediante la suma del
volumen de las secciones formadas con datos de diámetros tomados a cada dos metros
con el relascópio de espejo de Bitterlich modelo de banda ancha. Fueron probados 15
modelos de regresión para estimar el volumen, teniendo como criterio de selección, el
menor valor ponderado de los parámetros estadísticos y el análisis gráfico de los residuos.
El resultado mostró que todos los modelos presentaron buen ajuste, los coeficientes de
determinación ajustados, variaron entre 0,982 a 0,996 y los gráficos de los residuos
revelaron que cualquiera de los modelos probados puede ser utilizado para estimar el
volumen total con corteza de árboles de P. taeda en el rodal. Por lo tanto, el modelo
propuesto por Spurr (variable combinada) fue el utilizado por presentar mayor facilidad
de uso y mejor generabilidad.
Palabras claves: Análisis de Regresión, Relascópio de Bitterlich, volumen total con corteza.
6
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
1. INTRODUCCIóN
1.1 Antecedentes generales
El volumen ha sido y sigue siendo la forma de expresión de la cantidad de madera,
contenida en árboles y rodales, más ampliamente utilizada a escala mundial. Tratandose
del rodal, el mismo puede considerarse como la suma de los volúmenes de los árboles en
pié comprendidos en él. En consecuencia, una forma de acceder a su conocimiento es
por medio de la estimación del volumen de sus árboles individuales.
La estimación de este atributo es un problema relevante en dendrometría e inventarios
forestales. La dificultad en la determinación directa del volumen mediante la cubicación
de secciones, hace conveniente contar con expresiones matemáticas que, basadas en una
muestra objetivamente seleccionada y cuidadosamente medida, permitirá estimar el
volumen de los árboles sobre la base de mediciones simples (PRODAN et al., 1968).
Una herramienta de gran utilidad para determinar este volumen son las funciones de
volumen que originan ecuaciones, con las cuales se formulan tablas de volumen. De
acuerdo con Prodan et al., (1968), el término “tabla de volumen”, se ha utilizado
frecuentemente para referirse a un modelo matemático para predecir el volumen de los
árboles.
Desde su aparición las tablas de volumen han constituido una herramienta importante,
en el momento de cuantificar la producción y rendimiento de una superficie en cuanto a
volumen de madera, para una o más especies y, por lo tanto, útil para valorar
económicamente un área boscosa (vILLARROEL, 1994), la cual es una presentación en
forma tabular, que muestra el volumen promedio de árboles en pié de distintas
dimensiones, obtenido a partir de relaciones previamente establecidas. El diámetro, altura
y la forma, son las características del árbol utilizadas en un modelo para la predicción del
volumen (DAUBER, 2002).
Esta forma tabular, ha sido hoy reemplazada por las ecuaciones de volumen, esto es, por
modelos matemáticos capaces de representar el volumen medio de madera por árbol en
función de variables independientes de fácil medición.
varios investigadores ajustaron y compararon diversos modelos matemáticos que expresan
el volumen, para diferentes especies, sitios y régimen de manejo, entre ellos Silva et al.,
(1977), que construyó tablas de volumen comercial para Eucalyptus spp.; Schneider
(1984), modeló el volumen de Pinus oocarpa Schiede ex Schltdl, en diferentes edades y
régimen de raleo; Santana et al., (2004), desarrollaron ecuaciones de volumen para Pinus
taeda L., entre otros.
7
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
1.2 Objetivo de la investigación
Desarrollar un ejemplo de ajuste y selección del modelo de regresión apropiado para
estimar el volumen total de árboles de Pinus taeda L. buscando brindar aporte teórico y
práctico en el estudio de la técnica de regresión lineal la cual es ampliamente utilizada
en el manejo de rodales forestales.
2. MÉTODOS
2.1 Área de estudio
El rodal muestreado esta ubicado en la estación experimental de la Universidad Federal
de Santa Maria, Estado de Rio grande do Sul, Brasil, entre las coordenadas 29° 43’ 11”
de latitud Sur y 53° 43’ 02” de longitud Oeste. Tiene a una superficie, total de 2 ha, cuya
plantación fue efectuada en el año de 1996, con un espaciamiento inicial de 3 metros
entre líneas y 2 metros entre plantas, en un suelo originalmente degradado de topografía
plana.
La región de Santa Maria pertenece a la provincia geomorfológica del escudo sul-riograndense, que en términos climáticos se clasifica como del tipo “Cfa 2”, subtropical
húmedo, según la clasificación de Köppen, caracterizado por presentar una temperatura
superior a 22 °C, durante el mes más caliente, siendo que la temperatura del mes más frio
varia de -3 °C a 18 °C, con una precipitación media anual de 1691 mm (MORENO, 1961).
2.2 Obtención de los datos
El ajuste y selección de las funciones de volumen fue realizada en tres fases siguiendo la
metodología propuesta por Loetsch et al.,1973:
a) Selección de un número de árboles muestra suficiente y representativa del rodal de
estudio;
b) medición de variables dependientes (variables que serán estimada por el modelo,
ejemplo h, v) e independientes (variables de entrada en el modelo, ejemplo d, h, hc);
c) selección de la ecuación de regresión apropiada.
Los árboles muestra, fueron seleccionados de forma aleatoria dentro del rodal los cuales
fueron distribuidos en cuatro clases de diámetro (calculadas mediante la fórmula propuesta
8
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
por Stuges, con el objetivo de representar la distribución diamétrica del rodal, totalizando
una muestra de 40 observaciones (individuos).
Por razones lógicas, fue desconsiderada la mensuración de árboles muestra ubicados en
la orilla del rodal que pudiera posteriormente conducir a sesgos en el ajuste. En cada árbol
seleccionada, fue realizado la medición directa del diámetro a 0,2 m sobre nivel del suelo
(d0,2), diámetro a altura del pecho (d1,3) ambos con cinta diamétrica, y los demás diámetros
fueron estimados de forma indirecta a cada dos metros (d2, d4, d6, d8, d10, d12, d14) utilizando
el Relascópio de espejo de Bitterlich modelo de Banda Ancha, instalado sobre un trípode
a una distancia horizontal de 8 metros desde el centro del árbol hasta el ocular del
relascópio (FIgURA 1). La distancia fue controlada mediante la utilización del hipsómetro
vertex III utilizando la opción DME (Distance Mensure Estimate) con el transponder fijado
al árbol.
FUENTE: Elaboración propia.
FIGURA 1. Procedimiento para obtención de datos para la estimación de diámetros superiores
utilizando el relascópio de espejo de Bitterlich modelo banda ancha en árboles de P. taeda, en
Santa Maria, BRA.
Cada diámetro superior (di), fue estimado con la siguiente fórmula:
di =
ai .UR
50
Donde: di = diámetro superior en cm;
a = distancia horizontal entre el centro del árbol
“i” y el ocular del relascópio equivale a 8 metros;
U.R.= unidad relascópica (número de bandas que cubre el diámetro).
9
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
De esta manera se formó secciones de dos metros de largo, con diámetro menor y mayor
conocidos, con lo cual fue calculado el volumen por el método de Smalian (Ecuación 1)
citado por Finger (1992),.
n
g + gi+1 .
Li
v i =∑ i
2
i=1
Ec. 1
Donde: vi = volumen de las secciones intermediarias (m3);
gi = área basal en la i-ésima posición (m2);
Li = largo de la sección en la i-ésima posición (2 metros).
Para la obtención del volumen total con corteza individual fue sumado el volumen de
cada sección (Ecuación 2), mas el volumen de cono (Ecuación 3) formado por la última
sección.
n
V = v0 + ∑vi + vc
Ec. 2
i=1
Donde: = volumen total con corteza (m3);
vo = volumen del tocón (m3) hasta 0,2 metros desde el nivel del suelo, constituyendo el
volumen del cilindro;
vc = volumen de la punta superior del árbol (m3) calculado por la formula del cono, de
largo igual a la sección considerada, donde:
v c = gn .Ln .
1
3
Ec. 3
Donde: gn = área basal del cono (m2);
Ln = largo del cono (m): –1– = constante utilizada para el volumen del cono.
3
Con esta metodología fue posible calcular, cuidadosamente, el volumen preciso de cada
árbol muestreado, para posterior ajuste de los modelos de regresión.
Fueron probados un total de 15 funciones de volumen para seleccionar la que mejor se
ajuste a los datos observados. En el anexo 1, cuadro 1, se observan siete modelos
utilizando el diámetro a altura del pecho (d) como variable de entrada bien como ocho
modelos que utilizan el diámetro y altura total, los cuales fueron ajustados utilizando el
paquete estadístico SAS versión 9.1.
10
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
2.3 Criterios de selección de los modelos de regresión y análisis
estadística
La secuencia de procedimientos para la selección de las ecuaciones ajustadas, siguió los
pasos propuestos por Couto et al.,1999, los cuales consistieron en:
1. Examen del cuadro de análisis de varianza: suma de los cuadrados de los residuos
(SCRes), cuadrado medio de los residuos (CMRes), test de F para el modelo
completo;
2. Análisis de los criterios estadísticos: coeficiente de determinación ajustado (R 2aj),
desvío estándar de la estimación absoluto (Syx) y relativo (Syx% ) este último también
conocido como coeficiente de variación (Cv%) y el índice de Furnival (IF);
3. Distribución gráfica de los residuos;
4. Prueba de hipótesis de los coeficientes estimados, por medio del test de t.
En una segunda fase fueron realizados los test de condicionantes de regresión para
determinar la validez del modelo, previamente seleccionado como el apropriado.
Valor de la distribución F de Snedecor
El valor de F calculado en el análisis de variancia, es obtenido por la relación entre el
cuadrado medio de la regresión y el cuadrado medio del error (ec 4). Cuanto mayor es la
variación explicada por el modelo (SQReg) y menor es la variación no explicada (SQRes)
por el modelo, mayor será el valor de F indicando que el modelo tiene buen ajuste. El
valor F es utilizado como un estadístico en la determinación del valor ponderado, para la
selección de la ecuación mas apropiada.
Fcalculado =
CM Re g
CM Re s
Ec. 4
Donde: CMReg = Cuadrado medio de la regresión; CMRes = Cuadrado medio del error.
Coeficiente de determinación ajustado (R2 aj.)
El coeficiente de determinación (R2 ) expresa la cantidad de variación total explicada por
el modelo ajustado. Como el coeficiente de determinación aumenta a medida que se
incluye una nueva variable independiente al modelo, fue utilizado el coeficiente de
determinación ajustado (ec. 5), para la comparación de modelos con diferentes número
de coeficientes de regresión, obtenido por la expresión (SAS Institute, 1999):
11
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
⎡ K -1 ⎤
.(1- R 2 )
R 2 aj . = R 2 − ⎢
⎥
⎣N - K ⎦
Ec. 5
Donde: R2 aj. = coeficiente de determinación ajustado;
R2 = coeficiente de determinación;
K = número de coeficientes de regresión del modelo;
N = número de observaciones.
Cuanto mas cerca al valor 1 sean los valores del coeficiente de determinación, mejor será
el ajuste de la línea de regresión a los datos observados.
Desvío estándar de la estimación
El desvío estándar de la estimación (ec. 6), es un escalar que indica la dispersión entre los
valores estimados por la regresión con referencia a la media de la variable dependiente,
siendo deseable aquel que posee el menor valor. Este criterio también mide la precisión
del ajuste del modelo y debe ser utilizado como comparador entre dos modelo cuando la
variable dependiente (y) presente la misma unidad de medida.
Furnival (1961) presentó un desvío estándar de la estimación relativo (ec. 7), también
conocido como coeficiente de varianza (CV%), como una alternativa para la comparación
de modelos con variables dependientes con diferentes unidades:
Syx = CM res.
Ec. 6
Syx % =
Syx
Y
.100
Ec. 7
Donde: Syx = error estándar absoluto de la estimación;
CMres.= cuadrado medio del residuo, obtenido en el cuadro de análisis de varianza;
Syx% = error estándar en porcentaje o coeficiente de varianza
(Cv%); = media aritmética de la variable dependiente.
Así, cuanto menor sea el error estándar de la estimación, mejor serán las estimativas
obtenidas por el modelo matemático el cual presenta indicios para ser seleccionado.
Para los modelos logarítmicos, o sea, modelos con la variable dependiente transformada,
el desvío estándar de la estimación fue corregido en la escala original de la variable
dependiente, para posibilitar la comparación con los modelos aritméticos por el índice
de Furnival (ec. 8), el cual es dado por la ecuación:
⎡n
⎤
⎢∑ Ln(Vreal i ) ⎥
⎥.S
IF = EXP⎢⎢ i=1
⎥ yx
n
⎢
⎥
⎣
⎦
12
Ec. 8
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
Donde: IF = índice de Furnival;
Vreal = volumen individual real en m3;
Syx = error estándar de la estimación;
n = número de árboles muestreados (muestra);
Ln = logaritmo natural.
Así, el índice de Furnival de un modelo logarítmico debe ser comparado con el error
estándar de la estimación del modelo aritmético. El índice de Furnival relativo (ec. 9) del
modelo logarítmico debe ser comparado con el coeficiente de varianza del modelo
aritmético.
IF% =
IF
.100
Y
Ec. 9
Donde: IF% = índice de Furnival en porcentaje;
y IF= media aritmética de la variable dependiente.
Sit (1994), recomienda que la comparación de ecuaciones logarítmicas con funciones
lineares y con funciones no-lineares sea realizada por la variable dendrométrica estimada
y no por medio de la variable dependiente transformada. El motivo es que las variables
transformadas resultan en proporciones diferentes cuando se calculan las estadísticas,
siendo válidas para usos de los testes F y t y para la comparación entre modelos de misma
clase, pero no para la comparación entre modelos de tipos diferentes.
La media es igual a la razón de la suma de los valores de un conjunto de datos y la
cantidad de elementos del conjunto; cuando los datos son transformados, como en el caso
de la linearización por propiedad logarítmica, se altera la estructura del modelo
matemático que expresa la media de las observaciones, o sea, la estructura de la media.
Por lo tanto, para la comparación de modelos matemáticos, es necesario que las variables
dependientes sean una misma clase y dimensión, conestructura semejante de medias
(Zimmermann & Núñez-Antón, 2001).
2.4 Valor ponderado (VP)
Para facilitar el proceso de selección de la ecuación resultante, fue utilizado este criterio,
el cual toma en consideración todas los estadísticos de selección de las ecuaciones. El
valor Ponderado (ec. 10) fue determinado atribuyéndose valores o pesos a las estadísticas
calculadas.
13
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
n
VP = ∑ Nri .Pi
Ec. 10
i=1
Donde: VP = valor ponderado de la ecuación;
Nri = números de registro que obtuvieron el i-ésimo puesto;
Pi = peso del i-ésimo puesto.
En este proceso, las estadísticas fueron ordenadas de acuerdo con su eficiencia, siendo
atribuido peso 1 para la ecuación más eficiente y pesos crecientes para las demás
ecuaciones (ranking), conforme metodología definida por Thiersch (1997). El valor
ponderado de una ecuación fue obtenido por la multiplicación del número de veces
cuantificado para cada puesto por su respectivo peso, donde la ecuación seleccionada
fue la que presentó el menor valor ponderado de los criterios estadísticos determinados.
2.5 Distribución gráfica de los residuos
Este es el más importante elemento para visualizar el desempeño de la ecuación de
regresión, a partir del cual es posible observar tendencias en las estimaciones propiciadas
por las mismas.
El análisis gráfico de los residuos fue realizada observándose la distribución del residuo
contra los valores de las estimaciones conforme Bussab (1986). En este método, los desvíos
(ec. 11) fueron gráficamente distribuidos en un sistema de ejes ortogonales, siendo que
en el eje de la ordenada, los desvíos fueron centrados en cero y en el eje de la abscisa por
la variable dependiente estimada.
eˆi
y i − yˆ i
Ec. 11
Donde: eˆ i = residuo de la i-ésima observación;
yi = variable dependiente observada;
ŷ i = variable dependiente estimada por la ecuación ajustada.
El análisis permite detectar posibles tendencias de ajuste a lo largo de la línea de regresión
para toma de decisión en cuanto al uso o no de la ecuación ajustada.
Se considera como una distribución desfavorable cuando ocurre formación de patrones
de distribución (transgresiones), la concentración de los residuos arriba o abajo del eje de
las estimativas o su concentración en hasta dos quintos de la amplitud del mismo eje. Fue
considerada favorable: la distribución de los residuos en 3 a 4 quintos de la amplitud del
14
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
eje de la estimativa de forma equitativa arriba y abajo del mismo eje y sin formación de
patrones. Solamente fue considerada óptima la distribución de los residuos en más de
cuatro quintos de la amplitud del eje de la estimativa, equitativamente arriba y abajo del
eje y sin formación de patrones (Floriano, 2004).
2.6 Validación de la ecuación seleccionada
Cuando las varianzas de la frecuencia de los residuos son heterogéneas
(heterocedasticidad) o cuando los residuos están autocorrelacionados, las estimaciones
de los coeficientes de regresión por el método de los mínimos cuadrados ordinarios (OLS)
son adversamente afectadas y la estimación del error estándar es tendenciosa. Esto justifica
la validación de la ecuación seleccionada para la verificación de dichos supuestos el cual
indica la calidad de la predicción.
Los testes fueron realizadas en el paquete estadístico SAS System, conforme
procedimientos descritos por SAS Institute (2004), en el anexo 3.2 se observa el programa
SAS para la validación determinándose:
• La homogeneidad de varianzas por medio del test de de White;
• La independencia de la frecuencia de los residuos por medio del test de DurbinWatson;
• La normalidad de la frecuencia de los residuos por medio del test de Shapiro-Wilk.
Homogeneidad de varianzas de los residuos
Una de las principales presuposiciones para los mínimos cuadrados de la regresión usual
es la homogeneidad de varianza (homoscedasticidad). Si el modelo es bien ajustado, no
debería haber ningún patrón para los residuos delineados (plotado) contra los valores
ajustados.
Si, la varianza de los residuos no es constante, entonces es dicho que hay
“heteroscedasticidad” de los datos. Hay métodos gráficos y no gráficos para detectar
heteroscedasticidad. Un método gráfico generalmente utilizado es delinear (plotar) los
residuos contra los valores ajustados. El SAS System calcula los residuos y los valores
ajustados por medio de los Procedimientos gLM, REg, MODEL y NLIN, que pueden ser
presentados en un gráfico. Cuando los residuos son distribuidos sin ningún patrón, no hay
heteroscedasticidad.
El método matemático para determinar se hay homogeneidad de varianza de los residuos
y que es posible ser ejecutado por el SAS System es el Test de White (SAS Institute, 2004).
Esta estadística es distribuida asintóticamente como Chi-cuadrado () con K-1 grados de
15
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
libertad, donde K es el número de coeficientes de regresión. El método, prueba la hipótesis
nula y demuestra que la varianza residual es homogénea. Entonces, si el valor “p” es muy
pequeño, la hipótesis es rechazada y se acepta la hipótesis alternativa de que la varianza
no es homogénea. Para eso fue utilizada la opción “SPEC” en la declaración del modelo
como se observa abajo:
PROC REg;
MODEL y = X / SPEC;
El test también puede ser ejecutado por medio de la opción WHITE de la declaración FIT
del procedimiento MODEL en el SAS System:
PROC MODEL;
PARAMETERS b0 b1 b2;
y = b0 + b1 * X1 + b2 * X2;
FIT y / WHITE;
RUN;
QUIT;
Independencia de los residuos
El valor de la estadística “d” de Durbin-Watson (SAS Institute, 2004), es obtenido por
medio de la opción DW de la declaración MODEL del procedimiento REg del SAS System:
PROC REg;
MODEL y=X1 X2 / DW;
Es esperado que la estadística “d” (ec. 12), sea aproximadamente igual a 2, si los residuos
son independientes. Caso contrario, si los residuos son correlacionados positivamente,
tenderán a ser próximos de 0 (cero), ó próximos a 4, si los residuos son correlacionados
negativamente (NEMEC, 1996). El valor de d será dado por:
n
d=
∑ (E
i= 2
i
− E i−1 ) 2
n
∑E
i=1
i
2
Donde: d = estadística “d” de Durbin-Watson;
n = número de observaciones;
16
Ec. 12
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
E i = error
estocástico = , yi = ŷ i ,
ŷ i = valor estimado;
y i = valor observado.
Normalidad de los residuos
El principio de este test se basa en la comparación de la curva de la frecuencia acumulativa
de los datos con la función de distribución teórica en hipótesis. Cuando las dos curvas se
sobreponen la estadística de test es calculada por medio de la máxima diferencia entre
ambas. La magnitud de la diferencia es establecida según la distribución de probabilidad
de esta estadística, que se encuentra en tabla.
Así, si los datos de la investigación se desplazan significativamente de lo esperado de la
distribución en hipótesis, entonces las curvas obtenidas deben encontrarse igualmente
desplazadas y, por un raciocinio análogo, si el ajuste al modelo hipotético es admisible,
entonces las curvas tienen un desarrollo próximo.
El SAS System calcula la estadística de Shapiro-Wilk para muestra pequeña de 7 hasta
2000 observaciones. En el procedimiento MODEL el test de normalidad fue obtenido por
la opción NORMAL de la declaración FIT como muestra el programa abajo:
PROC MODEL;
PARMS B0 P1 B2 ;
y= Ba + Bi • X1 + B2 + X2
FIT y / NORMAL;
RUN;
QUIT;
3. RESUlTADOS y DISCUSIóN
3.1 Criterios de selección de los modelos y análisis estadística
En la tabla 2, anexo 1, se observa el resultado para los 15 modelos probados juntamente
con sus coeficientes de regresión estimados y las estadísticas para selección del mejor
modelo. Analizando los modelos, a primera vista se observa que todos son significativos
a un nivel de 95% de probabilidad (p0,05), presentando elevados valores para el
coeficiente de determinación ajustado (R2) variando de 0,982 a 0,996 bien como bajos
valores para el desvío estándar de la estimación, entre 0,013 a 0,045.
17
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
Un primer criterio nos revela que el R2 básicamente no varió. Lo que era de esperar es
que a medida que se aumenta una variable independiente al modelo, el ajuste sufre un
aumento, pero en este caso el ajuste fue casi semejante para ambos grupos. Este valor
similar era esperado ya que la funciones con una variable independiente (v = f (d)), asumen
que árboles del mismo diámetro tienen la misma altura, lo que ocurre en el rodal de
estudio, o sea, la variación entre las unidades de muestreo (árboles) para la altura total es
baja (Coeficiente de variación = 12,1%).
Con relación al desvío estándar de la estimación () los valores variaron de 0,013 a 0,045
para los modelos 4 y 8, respectivamente, ya el coeficiente de variación (CV%), varió entre
0,011% a 7,00% para el modelo 2 pero al mismo tiempo altamente significativo con un
valor F de 5182,48.
La performance del ajuste es prácticamente igual, debido en parte, posiblemente, a la
corta amplitud de clase de diámetro muestreado entre 10 a 30 cm. El procedimiento de
cálculo de los modelos asumen lo que se observa en los datos de volumen, que la forma
de los árboles no cambia tal que no afecta el resultado estimado.
Debido a no haber una definición clara sobre cual ecuación presenta mejor ajuste (valores
de ajuste semejantes), fue determinado el valor Ponderado (vP) para seleccionar la
ecuación conforme presentado en la tabla 3 en el anexo 2, el cual es utilizada como un
auxilio para entender mejor los valores obtenidos y con esto seleccionar la mejor ecuación
de regresión.
El ranking (valor Ponderado) atribuyo valores de 1 a 15 para cada parámetro estadístico
estimado, considerando (R2 aj Syx, CV%, ), siendo el modelo de regresión número 10 el
mejor modelo definido por Näslund con el menor valor ponderado, equivalente a 9
puntos. Este modelo es considerado de compleja geometría por presentar 4 coeficientes
de regresión, envolviendo más cálculos para las estimaciones.
Myung et al., (2003) indica que cuanto menor el número de parámetros, cuanto menos
cálculos envolver y cuanto menor su complejidad geométrica, menor su complejidad
general y mejor será el modelo considerado. Por lo tanto, considerando que todos los
modelos ajustaron a los datos de la población estudiada, se decidió utilizar el modelo
número 7 de Spurr con variable combinada el cual presentó un valor ponderado 13 con
un error estándar de la estimación de 0,014 m3 y 6,81% de variación del volumen total
con corteza disperso en relación a la media, es más, el modelo nos indica que el 98,3%
del producto de los datos del diámetro elevado a la potencia 2 (diámetro cuadrático),
combinado con la altura total (m) explican la variación total del volumen de los árboles
de P. taeda en este rodal.
18
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
Los modelos de una variable independiente quedan limitados de forma intrínseca al
cambio de las características físicas del rodal, o sea, presentan poca generabilidad que
indica la capacidad en describir no solamente los datos muestrales, si no a la población,
de forma que su uso es recomendable, su uso solamente dentro rodal por incluir una única
variable independiente que es el diámetro. Esta es la razón para la utilización del modelo
7 por ser un modelo sencillo y con buen comportamiento tornándose generalizable para
ser utilizado en la estimaciones para otros sitios pero, con características del rodal (edad
especie y espaciamiento) similares al del estudio.
El gráfico 1 demuestra el desarrollo de siete ecuaciones ajustadas para el conjunto de
datos. La simple observación de esta figura permite verificar la importancia de seleccionar
la ecuación adecuada, se demuestra que la línea en función del área basal (modelo 5)
presenta falta de ajuste (línea dispersa de las demás). Otro criterio, a primera vista, es
hacer las estimaciones solamente para el espacio muestral, evitando extrapolaciones.
GRAFICO 1. Representación gráfica de los volúmenes estimados por seis modelos con
solamente el diámetro (dap) como variable independiente para el mismo conjunto de datos
observados en árboles de P. taeda, en Santa Maria, BRA.
Donde: Ec 1 = ecuación 1;…; Ec 6= ecuación 6.
La superficie de respuesta en tres dimensiones para el modelo propuesto por Spurr se
muestra en el gráfico 2. Esta superficie es utilizada para estudiar el efecto del diámetro y
la altura total sobre el volumen total de los árboles en el cual, se observa la dependencia
de las variables de entrada sobre la variable de respuesta, indicando que, cuan mayores
los diámetros y la altura total, mayor será el volumen total.
19
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
GRAFICO 2. Representación gráfica de la superficie del volumen estimado por la ecuación generada
por el modelo de regresión propuesto por Spurr para árboles de P. taeda, en Santa Maria, BRA.
3.2 Distribución gráfica de los residuos
El comportamiento de los residuos estandarizados del volumen total con corteza estimados
por la ecuación seleccionada demuestra que no existe una tendenciosidad de los puntos
de la variable dependiente indicando un cierto equilibrio tanto abajo como arriba de la
línea de referencia presentando una buena distribución del error a lo largo del eje de la
variable estimada (gRAFICO 3).
GRAFICO 3. Distribución de residuos estandarizados de la ecuación de Spurr ajustada para el
volumen total con corteza para P. taeda, en Santa Maria, BRA.
20
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
Por el análisis de la distribución de los residuos, se observa que esta distribución no
presenta una tendencia de estimativa (subestimación ó superstimación) demostrando una
distribución homogénea de los datos. Este requisito es decisivo y de gran importancia para
la confiabilidad de las estimaciones, ya que en estas condiciones, las mismas no serán
tendenciosas para la amplitud de los datos recabados.
Por otro lado, a través de la normalización de los residuos (residuos estandarizados
obtenidos por el cociente entre el residuo y el error estándar de la estimación), hace
posible trabajar con la distribución normal estandarizada (z) la cual con 39 grados de
libertad y 95 % de probabilidad de confianza el valor t equivale a 2,704 siendo posible
delimitar la región de rechazo en el área del gráfico la cual nos indica que 95% del
conjunto de datos se espera que estén comprendidos entre + 2,704 y – 2,704.
Como se observa, existe 2 individuos que sus estimaciones presentan valores extraños,
posiblemente Outlie, los cuales estadísticamente se deben excluir de la base de datos
ocasionado un mejor ajuste.
3.3 Validación de la función de volumen
Para el test de chi-cuadrado (X2) de White, se obtuvo un valor de igual a 2,79 el cual es
menor si comparado con el valor de X2 tabular equivalente a 55,76, concluyendo que no
hay diferencia significativa (p = 0,2482), llevando a la aceptación de la hipótesis nula, la
cual indica que las varianzas del volumen observado por clase de D2H (ecuación
seleccionada) son homogéneas (Homocedasticidad) a un nivel de 95% de probabilidad
de confianza.
El test para la normalidad de la frecuencia de los residuos por Kolmogorov-Smirnov, nos
indica que no hay requisitos para rechazar la hipótesis de nulidad debiendo ser aceptada
(p = 0,0574). Por lo tanto, la distribución de F de Snedecor es usual en los procedimientos
estadísticos de análisis, dándonos indicios de que, las estimaciones del volumen no serán
tendenciosas (gRAFICO 4).
21
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
GRAFICO 4. Histograma de la distribución de los residuos comparando con la distribución
normal gaussiana para P. taeda, en Santa Maria, BRA.
Floriano (2004), estudiando el efecto del raleo en plantaciones de P. elliote Engelm,
encontró normalidad de los datos de frecuencia de los residuos para individuos con 15
anos de edad en Piratini, RS – Brasil, indicando que el test “t de student” y el test de “F de
Snedecor” tendrá efecto en los análisis correspondientes.
La prueba de Durbin-Watson nos indica que, no existe correlación entre los residuos, o
sea, los residuos son independientemente distribuidos, con valor de d = 2,49 y
probabilidades de 0,9249 para residuos positivos y 0,0751 para residuos negativos.
Tomando los valores de dl y du de Durbin & Watson para a = 0,05 y K’ = 1, se tiene que
dl = 1,43; du = 1,54. En este caso, du<d<4 - du lo que nos lleva a aceptar la hipótesis de
nulidad de que no existe correlación en serie y, por lo tanto los residuos son considerados
independientes.
TABlA 4. validación del modelo matemático de regresión propuesto por.
ns = no significativo a 95% de probabilidad de confianza tanto para residuos positivos como negativos.
Por lo tanto, la ecuación generada a partir del modelo propuesto por Spurr con variable
combinada de diámetro cuadrático en centímetro y altura total en metros es:
22
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
vi = 0,02355 + 0,0000320 di bj + ei
Donde:
i = 1, 2, 3,…, n árboles;
Vi = se refiere al volumen total en m3 observado en el i-ésimo árbol;
b0 = intercepto, volumen total en m3 promedio de la población de árboles = 0,02355;
b1 = cambio que ocurre en el volumen total en m3 debido a un cambio en una unidad
del producto del diámetro a la potencia 2 en centímetros cuadrado por altura total en
metros = 0,0000320;
di2hj= producto del diámetro elevado a la potencia 2 (cm.) del i-ésimo árbol por la altura
total (m) del j-ésimo árbol;
ei = efecto aleatorio asociado con la í-ésima observación @
NIID(0,s 2).
4. CONClUSIONES
Todos los 15 modelos probados presentaron ajuste favorable. La ecuación propuesta por
Näslund fue la que presentó mejores resultados para estimar el volumen total con corteza
de los árboles de P. taeda L. en el rodal, tomando como criterio el valor Ponderado de las
variables estadísticas, pero la ecuación de Spurr fue utilizada y validada en el estudio por
presentar menor número de variables independientes facilitando el cálculo del volumen
total con corteza en campo.
5. REFERENCIAS
1. Bussab, W. O., 1986. Análise de variância e de regressão. São Paulo. Atual. 147 p.
2. Couto, H. T; vettorazzo, S. C. 1999. Seleção de equações de volume e peso seco comercial
para Pinus taeda. Cerne, v.5, n.1 p. 69-080.
3. Finger, C.A.g. 1992. FATEC Fundamentos de Biometría Florestal. Universidade Federal de
Santa Maria, Brasil. 269 p.
4. Floriano, Eduardo P., 2004. Efeito da Desrrama Sobre o Crescimento e a Forma de Pinus
elliottii Engelm. Tesis de Maestria. Universidade Federal de Santa Maria. Brasil. 114 p.
5. Furnival, g.M. 1961. An index for comparing equations used in constructing volume tables.
Forest Science, Madison, United States v. 7, p. 337 – 341.
23
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
6. Loetsch, F; Zöhrer, F.; Haller, K.E. 1973. Forest inventory. München, BLv verlagsgesellchaft.
v.2, 469 p.
7. Moreno, j. A., 1961. Clima do Rio grande do Sul”. Secretaria da agricultura. Porto Alegre,
Brasil. 42 p.
8. Myung, j.; Pitt, M. A.; Kim, W., 2003. Model evaluation, testing and selection. Columbus :
Ohio State University, Department of Psychology, 2003. 45p.
9. Prodan, M.; Peters, R.; Cox, F. 1968. Mensura Forestal. San josé, Costa Rica IICA, 586 p.
Dauber, E. 2002. BOLFOR Tablas volumétricas del fuste aprovechable de diferentes especies
con base en mediciones de trozas en el rodeo y aserradero. Santa Cruz, Bolivia. 32 p.
10. SAS Institute. 2004. A simple regression model with correction of heteroscedasticity. Cary:
SAS
Institute.
Consultado
en
Septiembre,
2007
disponible
em:
http://suport.sas.com/rnd/app/examples.
11. ____. SAS/STAT® User’s guide, version 8. Cary : SAS Institute, 1999b. 3365p.
12. Santana, O. A.; Encinas, j. I. 2004. Equações volumétricas para uma plantação de
Eucalyptus urophylla destinada à produção de lenha. 3º SIMPóSIO LATINO- AMERICANO
SOBRE MANEjO FLORESTAL. Anais Santa Maria: UFSM/PPgEF. p.107 – 111.
13. Schneider, P. R. 1984. Analise de Regressão Aplicada a Engenharia Florestal. Santa Maria,
Brasil. Universidade Federal Santa Maria 237 p.
14. Silva, j.A. 1977. A Relascopia como instrumento básico para inventários florestais e
cubagem de árvores individuais”. SIMPOSIO SOBRE INvENTARIO FLORESTAL,
Piracicaba, Brasil, p. 81 – 91.
15. Sit, v., 1994 Catalog of curves for curve fitting - Handbook 4. victoria: Ministry of Forests,
Forest Science Research Branch, Biometrics information, 1994. 110p.
16. Thiersch, A. 1997. Eficiência das distribuições diamétricas para prognose da produção de
Eucalyptus camaldulensis. Tesis de maestria. Universidade Federal de Lavras. Brasil. 155p.
17. villarroel, L. 1994. PROFOR Aplicación de la regresión ponderada en la construcción de
tablas de volumen (Eucalyptus globulus y Pinus radiata). Cochabamba, Bolivia, 20 p.
18. Zimmerman, D. L.; Núñez, A. v., 2001. Parametric modelling of growth curve data: An
overview, p.1-41. In: Modelling curve data. Test, Sociedad de Estadística e Investigación
Operativa, v. 10, n. 1, p. 111-999, 2001.
24
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
ANEXO 1: Modelos de regresión probados para el ajuste del volumen total con corteza y
sus debidos coeficientes estimados.
TABlA 1. Modelos de volumen ajustados para la estimación del volumen total con corteza
para en base a cubicación rigurosa, para P. taeda, en Santa Maria, BRA.
Donde: v = volumen total con corteza; d = diámetro de referencia (DAP); h = altura total;
g = área basal; b0 ; b1 ; b2 ; b3 ; b4 ; bn ;= coeficientes de regresión paramétrico; e = error o
variación no explicada por la regresión NIID (0,); ln = logaritmo natural de base e.
Fuente: Prodan (1968); Loetsch et al. (1973); Schneider (1984).
25
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
TABlA 2. Coeficientes de regresión estimados y criterios utilizados para determinar el
volumen total con corteza para P. taeda, en Santa Maria, BRA.
Donde: R2 Aj. = Coeficiente de determinación ajustado;
Syx = Error estándar de la estimación;
Cv% = Coeficiente de varianza;
F = valor de F de la distribución de Snedecor;
* = valores del índice de Furnival debido a que la variable dependiente en estos modelos
son transformadas al Logaritmo natural.
26
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
ANEXO 2: valores ponderados de las ecuaciones ajustadas
TABlA 3. valor ponderado de los Criterios de los Parámetros Estadísticos resultado del
ajuste de los modelos de volumen para P. taeda, en Santa Maria, BRA.
Donde: R2 aj. = Coeficiente de determinación ajustado; Syx = Error estándar de la
estimación; Cv% = Coeficiente de varianza; F = valor de F de la distribución de Snedecor.
ANEXO 3: Programas SAS para el análisis de regresión.
3.1: Programas para los 6 primeros modelos probados.
DATA REgRESION1;
INFILE ‘C:\DATOS FAB\MEDICIóN_FAB.DAT’;
INPUT D v;
D2=D**2;
D3=1/D;
LOgD=LOg(D);
LOgv=LOg(v);
g=D2*3.1416/40000;
27
FOMABO
AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES
PROC REg;
TITLE ‘AjUSTE DEL MODELO 1 v = BO + B1D^2’;
MODEL v=D2;
PLOT R.*P. /vREF=0;
PLOT v*P.;
PROC REg;
TITLE ‘AjUSTE DEL MODELO 2 v = B1D + B2D^2’;
MODEL v=D D2/NOINT;
PLOT R.*P. /vREF=0;
PLOT v*D P.*D/ OvERLAy;
PROC REg;
TITLE ‘AjUSTE DEL MODELO 3 v = BO + B1D + B2D^2’;
MODEL v=D D2;
PLOT R.*P. /vREF=0;
PLOT v*D P.*D/ OvERLAy;
PROC REg;
TITLE ‘AjUSTE DEL MODELO 4 LOg v = BO + B1LOgD’;
vAR D;
MODEL LOgv=LOgD;
PLOT R.*P. /vREF=0;
PLOT LOgv*D P.*D/ OvERLAy;
PROC REg;
TITLE ‘AjUSTE DEL MODELO 5 v = BO + B1g’;
vAR D;
MODEL v=g;
PLOT R.*P. /vREF=0;
PLOT v*D P.*D/ OvERLAy;
PROC REg;
TITLE ‘AjUSTE DEL MODELO 6 LOg v = BO + B1LOgD + B2(1/D)’;
vAR D;
MODEL LOgv=LOgD D3;
PLOT R.*P. /vREF=0;
PLOT LOgv*D P.*D/ OvERLAy;
RUN;
QUIT;
3.2: Programas para la validación de la ecuación seleccionada.
PROC MODEL;
TITLE ‘vALIDACION DE LA ECUACIóN DE SPURR‘;
PARAMETERS Bo B1;
v = Bo+B1*D2H;
FIT v / NORMAL WHITE DW DWPROB;
RUN;
QUIT;
28
Descargar