Métodos Estadísticos alternativos de análisis con variables discretas y categóricas en investigaciones agropecuarias

Anuncio
Instituto de Ciencia Animal
Departamento de Biomatemática
Métodos Estadísticos alternativos de análisis con variables
discretas y categóricas en investigaciones agropecuarias
Tesis en opción al grado científico de Doctor en Ciencias Veterinarias
Autora: Lic. Magaly Herrera Villafranca
Mayabeque
2013
Instituto de Ciencia Animal
Departamento de Biomatemática
Métodos Estadísticos alternativos de análisis con variables
discretas y categóricas en investigaciones agropecuarias
Tesis en opción al grado científico de Doctor en Ciencias Veterinarias
Autora: Lic. Magaly Herrera Villafranca
Tutoras: Dra. C. Caridad Walkiria Guerra Bustillo
Dra. C. Verena Torres Cárdenas
Mayabeque
2013
Pensamiento
Nunca antes en la historia de la Ciencia y la Estadística ha existido una mayor
necesidad para que haya interacción y colaboración entre científicos y
estadísticos.
D.E. Johnson, 2000
Agradecimientos
Mis más sinceros agradecimientos a todas las personas que de una forma u otra me han
ayudado y apoyado para la culminación de este trabajo:

Dra. C. Caridad Walkiria Guerra Bustillo, por su ayuda incondicional, por sus
sabios consejos, y estar siempre a mi lado, me demostró que con estudio y
constancia se puede llegar.

Dra. C. Verena Torres Cárdenas por la confianza que depositó en mí y colaborar
en mi formación.

Dr. C. José A. Bravo Iglesias por sus observaciones tan oportunas, y siempre
dispuesto a dar un consejo para mejorar el trabajo.

Mi amiga Lic. Lourdes Rodríguez Shade que, aunque siempre está peleando, me
apoyó durante el trabajo de investigación.

Mí siempre amigo Lic. Fermín Raúl Cobo Cuña que me ha soportado durante todo
este tiempo, y por su apoyo en el trabajo de tesis con sus observaciones
oportunas.

MSc. Profesora consultante Josefina de Calzadilla, por su ayuda y sus buenas
observaciones.

Dr. C. Alberto Caballero por su ayuda en la orientación de esta investigación,
desde el principio me aportó buenos consejos.

Yolaine Medina Mesa, siempre con su atención esmerada y su ayuda
incondicional.

Dr. C. Luis Mateo Fraga Benítez por su ayuda y siempre dispuesto a aclarar
cualquier duda.

Muchachitas las técnicas Aida Carmelita Noda Amorós y Lucía Rosario García
Sarduy, las cuales me animaron y me ayudaron en el procesamiento de la
información.

Lic. Sarai Gómez Camacho por su ayuda.

Yaisel Rodríguez González y Lyhen Sánchez Suárez.

Muchachitas del Departamento de Genética.

Lic. Nidia E. Fernández Ontivero por su colaboración y ayuda incondicional.

Los compañeros del Departamento de Matemática de La Universidad Agraria de
La Habana los que me apoyaron en el trabajo y me dieron muchos consejos.

Dr. C. Yasser Vásquez Alfonso, por su apoyo durante el trabajo de investigación y
su ayuda en la búsqueda de información referente al tema.

A mis compañeros del departamento de Monogástricos, especialmente a Lazarita.

Especial agradecimiento a Edis Dalia Arbelo Forte por su apoyo incondicional.

A Erludys Columbie Hernández, por su inestimable apoyo en el servicio de
mensajería.

Mis amigas y amigo de la biblioteca del ICA, Yeter Caraballo Rodríguez por su
ayuda incondicional en el procesamiento de la información, a Dianelis Mesa
Travieso por su apoyo, Daniela Rodríguez Carballoza, Ibrain A. Díaz Machado,
Yoandra Figueroa Puentes y Dayami Roque Chao por su ayuda en la búsqueda y
ubicación de la información bibliotecaria.
A todos muchas gracias
Dedicatoria
A mi madre querida
A mi padre
A mis hermanos
A mis abuelos (E.P.D)
A mis amigos
A la Revolución
SÍNTESIS
Con el objetivo de evaluar la efectividad de Métodos Estadísticos alternativos de
análisis con variables discretas y categóricas, se aplicó una encuesta estadística
bibliométrica sobre el empleo de Métodos Estadísticos no paramétricos y una
encuesta a investigadores para verificar el conocimiento sobre Métodos
Estadísticos alternativos para evitar el uso inadecuado de la transformación de
datos, en investigaciones agropecuarias y afines. Se analizan 100 variables
correspondientes a los Modelos de Análisis de Varianza simple y doble, de efectos
fijos. Las transformaciones de datos aplicadas fueron:
X;
X  0,375 ; arcoseno
( p ) y Log X. Se verificó el cumplimiento de los supuestos teóricos del Análisis de
Varianza, con y sin transformación de datos. Los resultados evidenciaron que el
empleo de la trasformación de datos solo fue efectiva en el 13% de los casos
analizados. Los Modelos de Análisis de Varianza (ANAVA) paramétrico y no
paramétricos presentaron resultados similares. Se aplicó el Análisis de
Componentes Principales Categórico (CATPCA) para realizar un análisis integral
de indicadores estadísticos, sobresalen por sus altas correlaciones negativas, la
potencia y la probabilidad de error tipo I en el ANAVA paramétrico (con y sin
transformación) y el no paramétrico. En un análisis comparativo del Modelo Lineal
General (MLG) y el Modelo Lineal Generalizado (MLGnz) se obtuvo que las
probabilidades de error tipo I en ambos modelos son similares, por lo que se
sugiere el MLGnz como una alternativa de análisis, pues la variable respuesta no
requiere del cumplimiento de los supuestos del ANAVA paramétrico. Finalmente
se elaboró una propuesta de acciones metodológicas relacionadas con la
aplicación del Modelo de Análisis de Varianza.
ÍNDICE
ÍNDICE
INTRODUCCIÓN
CAPÍTULO I. REVISIÓN BIBLIOGRÁFICA
Pág.
1
8
1.1 Métodos Estadísticos paramétricos y no paramétricos
8
1.2 Consecuencias del incumplimiento de los supuestos teóricos
básicos del Modelo Análisis de Varianza paramétrico
10
1.3 Potencia de una dócima, tamaño de muestra, probabilidades
de errores (tipo I y II) y tamaño de efectos
12
1.4 Transformación de datos. Origen e incidencia en las
investigaciones agropecuarias
18
1.5 Modelo Lineal Generalizado
21
1.5.1 Origen y desarrollo
21
1.6 Otros Métodos Estadísticos para el análisis con variables
discretas y categóricas
26
CAPÍTULO II. LA ENCUESTA ESTADÍSTICA EN LA
CAPTACIÓN DE INFORMACIÓN Y SU USO
32
2.1 Introducción
32
2.2 Materiales y métodos
32
2.2.1 Encuesta estadística bibliométrica
32
2.2.2 Encuesta estadística a los investigadores
33
2.2.3 Organización, procesamiento y análisis estadístico de la
información
34
2.3 Resultados y discusión
36
2.3.1 Encuesta estadística bibliométrica
36
2.3.2 Encuesta estadística a los investigadores
44
2.3.3 Diagnóstico a partir de la encuesta estadística a los
investigadores: Matriz DAFO
47
2.3.4 Consideraciones parciales
CAPÍTULO III. MODELOS DE ANÁLISIS DE VARIANZA
PARAMÉTRICO Y NO PARAMÉTRICO. USO DE
TRANSFORMACIÓN DE DATOS
49
50
3.1 Introducción
50
3.2 Materiales y métodos
51
3.2.1 Características principales de las investigaciones
51
3.2.1.1 Experimentos con Diseño Completamente Aleatorizado
51
3.2.1.2 Experimentos con Diseño de Bloques al Azar
59
3.2.2 Procesamiento y análisis estadístico de la información
3.3 Resultados y discusión
3.3.1 Modelos de Análisis de Varianza simple y doble
63
66
66
3.3.1.1 Cumplimiento de supuestos y transformación de datos
66
3.3.1.2 Probabilidad de error tipo I y potencia de la dócima F
69
3.3.2 Consideraciones parciales
72
3.3.3 Análisis de Componentes Principales Categórico. Aplicación
a indicadores de los Modelos de Análisis de Varianza
73
3.3.4 Consideraciones parciales.
83
CAPÍTULO IV. El MODELO LINEAL GENERALIZADO.
APLICACIÓN A DIFERENTES DISTRIBUCIONES.
84
4.1 Introducción
84
4.2 Materiales y métodos
84
4.2.1 Características principales de las investigaciones
84
4.2.2 Modelo Lineal Generalizado
85
4.2.2.1 Procesamiento y análisis estadístico de la información
86
4.3 Resultados y discusión
87
4.3.1 Modelo Lineal General y Modelo Lineal Generalizado.
Probabilidad de error tipo I
87
4.3.2 Análisis de Componentes Principales Categórico, para el
análisis de indicadores estadísticos del Modelo Lineal
General y del Modelo Lineal Generalizado
88
4.3.3 Análisis comparativo del Modelo Lineal General y el Modelo
Lineal Generalizado y acciones metodológicas relacionadas
con estos modelos
91
4.3.4 Consideraciones parciales
95
4.3.5 Propuesta de acciones metodológicas para investigaciones
relacionadas con la aplicación del Modelo de Análisis de
Varianza
96
CONCLUSIONES
99
RECOMENDACIONES
100
REFERENCIAS BIBLIOGRÁFICAS
ANEXOS
ÍNDICE DE ABREVIATURAS
ANAVA: Análisis de Varianza.
ARE: Eficiencia Asintótica Relativa.
CATPCA: Análisis de Componentes Principales Categórico.
CATREG: Regresión Categórica.
Cumpl S/T: Cumplimiento de los supuestos sin transformación.
Cumpl C/T: Cumplimiento de los supuestos con transformación.
C/T: Con transformación.
DCA: Diseño Completamente Aleatorizado.
DBA: Diseño de Bloques al Azar.
DDGS: Granos de destilería soluble.
Devia MLGnz: Devianza del Modelo Lineal Generalizado.
Distcod: Distribución con código.
Matriz DAFO: Matriz de Fortalezas, Debilidades, Oportunidades y Amenazas.
MLG: Modelo Lineal General.
MLGnz: Modelo Lineal Generalizado.
No. tto: Número de tratamiento.
PerrorIF: Probabilidad de error tipo I de la dócima F de Fisher.
PerrorI  2 : Probabilidad de error tipo I de la dócima  2 .
Potencia C/T: Potencia con transformación.
Potencia S/T: Potencia sin transformación.
S/T: Sin transformación.
SCerror MLG: Suma de cuadrado del error del Modelo Lineal General.
TM: Tamaño de muestra.
TMutil: Tamaño de muestra utilizado.
Tto: Tratamiento.
Valorp NP: Valor de la probabilidad de error tipo I no paramétrico.
Valorp S/T: Valor de la probabilidad de error tipo I sin transformación.
Valorp C/T: Valor de probabilidad de error tipo I con transformación.
ÍNDICE DE TABLAS
Tabla 1.1. Escalas de medidas e indicadores numéricos en los procedimientos
estadísticos paramétricos y no paramétricos.
Tabla 1.2. Relación entre el tamaño de muestra y cumplimiento de los supuestos
teóricos en procedimientos paramétricos y no paramétricos.
Tabla 1.3. Modelos más empleados según la metodología del Modelo Lineal
Generalizado.
Tabla 1.4. Comparación entre el Modelo Lineal General y el Modelo Lineal
Generalizado.
Tabla 1.5. Funciones de enlace más empleadas en el Modelo Lineal
Generalizado.
Tabla 1.6. Métodos Estadísticos relacionados con variables cualitativas.
Tabla 2.1. Encuestados por departamento.
Tabla 2.2. Interpretación de los valores del Stress (S).
Tabla 2.3. Bondad de ajuste de la configuración de los datos para los Métodos
Estadísticos no paramétricos.
Tabla 2.4. Bondad de ajuste de las temáticas por revistas donde se aplica los
Métodos Estadísticos no paramétricos.
Tabla 2.5. Transformaciones de datos más empleadas, según la encuesta
aplicada a los investigadores.
Tabla 2.6. Aspectos más frecuentes en las respuestas los investigadores.
Tabla 2.7. Bondad de ajuste de los resultados a los investigadores.
Tabla 2.8. Resultados de los pesos de las variables por cada dimensión.
Tabla 2.9. Resultados de la Matriz DAFO.
Tabla 3.1. Resumen del cumplimiento de los supuestos teóricos del ANAVA.
Tabla 3.2. Frecuencia de coincidencias en la toma de decisión.
Tabla 3.3. Resultados de la dócima de McNemar para los valores de probabilidad
de error tipo I.
Tabla 3.4. Resultados de la dócima de McNemar para las potencias de la dócima
F de Fisher.
Tabla 3.5. Resultados del coeficiente Alfa de Cronbach para los indicadores de los
Diseños Completamente Aleatorizado y Bloques al Azar.
Tabla 3.6. Resultados de los pesos de los indicadores por cada dimensión para
los Diseños Completamente Aleatorizado y Bloques al Azar.
Tabla 3.7. Resultados del coeficiente Alfa de Cronbach para los experimentos con
arreglos factorial de los tratamientos.
Tabla 3.8. Resultados de los pesos de los indicadores por cada dimensión para
los experimentos con arreglo factorial de los tratamientos.
Tabla 3.9. Estimaciones de los coeficientes de regresión en el CATREG para
potencias sin transformación.
Tabla 3.10. Importancia de los indicadores en CATREG para potencias sin
transformación.
Tabla 3.11. Estimaciones de los coeficientes de regresión en el CATREG para
potencias con transformación.
Tabla 3.12. Importancia de los indicadores en CATREG para potencias con
transformación.
Tabla 4.1. Distribuciones y funciones de enlace.
Tabla 4.2. Frecuencia de los rangos de probabilidad de error tipo I de las dócimas
F de Fisher y  2 .
Tabla 4.3. Resultados del coeficiente Alfa de Cronbach para el Modelo Lineal
General y Modelo Lineal Generalizado.
Tabla 4.4. Resultados de los pesos de los indicadores por cada dimensión para el
Modelo Lineal General y el Modelo Lineal Generalizado.
Tabla 4.5. Resultados de los criterios de bondad de ajuste al aplicar el Modelo
Lineal Generalizado.
Tabla 4.6. Resultados de los valores de probabilidad de error tipo I para el Modelo
Lineal General y el Modelo Lineal Generalizado.
ÍNDICE DE FIGURAS
Figura 2.1. Revistas relacionadas con la aplicación de los Métodos Estadísticos
no paramétricos.
Figura 2.2. Métodos Estadísticos no paramétricos más usados en estudios
agropecuarios y biológicos.
Figura 2.3. Revistas por temáticas con aplicación de los Métodos Estadísticos no
paramétricos.
.
Figura 2.4. Temáticas por revistas que emplean Métodos Estadísticos no
paramétricos para el análisis de sus investigaciones.
Figura 2.5. Necesidad de aplicar la transformación de datos.
Figura 3.1. Biplot de los indicadores analizados.
Figura 3.2. Biplot de los indicadores para los experimentos con arreglo factorial de
los tratamientos.
Figura 4.1. Biplot de los indicadores estadísticos de los Modelos Lineal General y
Lineal Generalizado.
Figura 4.2. Propuesta de acciones metodológicas para investigaciones con la
aplicación del Modelo de Análisis de Varianza.
ÍNDICE DE ANEXOS
Anexo 1. Verificación de los supuestos teóricos básicos y consecuencias de su
incumplimiento en el Análisis de Varianza.
Anexo 2. Encuesta aplicada a los investigadores.
Anexo 3. Matriz de correlaciones de las variables transformadas por dimensión
para los Diseños Completamente Aleatorizado y Bloques al Azar.
Anexo 4. Matriz de correlaciones de las variables transformadas para los diseños
con arreglos factorial de los tratamientos.
Anexo 5. Matriz de correlaciones de las variables transformadas de los Modelos
Lineal General y Lineal Generalizado.
INTRODUCCIÓN
INTRODUCCIÓN
La Estadística es una de las ramas de la Matemática de mayor universalidad, ya
que en su devenir histórico muchos de sus métodos se han desarrollado para
resolver situaciones específicas en diferentes esferas del conocimiento y la
ciencia.
Méndez (1993) señala que la Estadística se ha convertido en una forma de pensar
y una herramienta muy poderosa en muchas áreas de la actividad humana, como
son: la investigación científica, los procesos productivos y de servicios, en las
acciones y decisiones de gobiernos de países, estados e instituciones, entre otras.
Los Métodos Estadísticos como elementos de apoyo en la investigación agrícola
son fundamentales, puesto que cuantifican y cualifican objetivamente los
resultados de la investigación, estos métodos y procedimientos varían según la
naturaleza y estructura del resultado experimental. Así, si las Ciencias Biológicas
proponen o innovan procedimientos y técnicas que describan la variabilidad de
poblaciones agronómicas, entonces es necesario proveer de herramientas
estadísticas a las nuevas propuestas experimentales (Martínez, 1995).
Di Rienzo et al. (2005) señalan que la enseñanza de la Estadística en las Ciencias
Agropecuarias no es un tributo a la modernidad, sino una larga tradición que se
origina en los trabajos de Fisher que, a comienzos del siglo XX, sentaron las
bases de la Estadística aplicada a la experimentación agrícola.
1
El Análisis de Varianza paramétrico es el Método Estadístico más difundido en el
análisis de datos, desarrollado por Fisher en la década de los años 20 del pasado
siglo, siendo necesario para su empleo el cumplimiento de los supuestos teóricos
básicos, en los que se enmarcan: que los errores experimentales deben ser
normalmente distribuidos; con homogeneidad de varianza e independientes, así
como la aditividad del modelo. Sin embargo cuando algunos de estos supuestos
teóricos fallan, suelen emplearse otros métodos de análisis, como el uso de
transformación de datos y Métodos Estadísticos no paramétricos, entre otros.
Los Métodos Estadísticos no paramétricos presentaron un acelerado desarrollo en
la década de los años 50, en estudios relacionados con las Ciencias Sociales, de
la Conducta, Médicas y Biológicas. Sin embargo en la literatura consultada se
aprecia que estos métodos han sido poco aplicados en las investigaciones
desarrolladas en el campo de las Ciencias Agropecuarias, siendo estos una
alternativa ante el incumplimiento de los supuestos teóricos básicos de algunos
Métodos Estadísticos paramétricos, como es el caso del Análisis de Varianza.
De Calzadilla (1999) y De Calzadilla et al. (2002) al aplicar procedimientos de la
Estadística no paramétrica en investigaciones agropecuarias, en las condiciones
de Cuba, hacen referencia a la poca aplicación de estos métodos en esta área de
la ciencia y detectaron poca efectividad en el uso de la transformación de datos.
Por otra parte, Cristo (2001), al investigar el comportamiento de dócimas no
paramétricas respecto a sus homólogas paramétricas en distribuciones no
2
normales
y
su
eficiencia,
recomendó
que
con
muestras
pequeñas
e
incumplimiento de los supuestos del Análisis de Varianza, lo más conveniente es
el empleo de Métodos Estadísticos no paramétricos.
Con posterioridad, Vásquez (2011) realizó una contribución al tratamiento
estadístico de datos con distribución Binomial en el Modelo de Análisis de
Varianza, en un diseño de Bloques al Azar y Cabrera (2012) evaluó sin éxito el
comportamiento de diferentes transformaciones de datos en una investigación
relacionada con plagas agrícolas, por lo que fue más conveniente la aplicación del
Análisis de Varianza no paramétrica.
Ojeda (2004) señala que la Modelación Estadística se puede considerar como un
área de estudio y especialización, en la que convergen los aspectos teóricos,
metodológicos y computacionales de los Modelos Estadísticos. Este autor indica
que, sin temor a equívoco, es posible asegurar que el detonante de la Modelación
Estadística en datos discretos, lo constituye el trabajo de Nelder y Wedderburn
(1972), que presenta, a partir de los Modelos Lineales Generalizados, un marco
teórico general para el estudio de los Modelos Estadísticos.
El Modelo Lineal Generalizado ha sido muy utilizado en diversas áreas de la
investigación, con el objetivo de dar respuesta al incumplimiento de los supuestos
teóricos del Análisis de Varianza, y al igual que los Métodos Estadísticos no
paramétricos, han sido una alternativa de análisis, principalmente cuando las
variables son de tipo discretas y categóricas, lo cual corroboran Ojeda (2004) y
3
Fox (2007). En las Ciencias Agropecuarias en Cuba se han encontrado pocas
aplicaciones de estos modelos y se considera que pueden ser una alternativa
viable para el análisis.
Las investigaciones realizadas resultan antecedentes necesarios de gran valor
científico, para identificar determinadas situaciones en cuanto al uso de la
transformación de datos y de los Métodos Estadísticos no paramétricos, pero se
considera que con el estado actual de la ciencia, se hace necesario profundizar en
nuevas acciones, que generen un núcleo de orientaciones científicas y
metodológicas, que guíen la aplicación de estos procedimientos en la actividad
científico-investigativa, para evitar el:
 Uso inadecuado de la transformación de datos.
 Empleo de la trasformación de datos sin que se resuelva el cumplimiento de
los supuestos teóricos básicos del Análisis de Varianza.
 No empleo de Métodos Estadísticos alternativos, ante el incumplimiento de
los supuestos teóricos básicos del Análisis de Varianza.
Por lo que se identifica como Problema de investigación: ¿Cómo evitar el uso
inadecuado de la transformación de datos en variables discretas y categóricas en
el Modelo de Análisis de Varianza de efectos fijos, en investigaciones
agropecuarias?
4
Objeto de estudio: La transformación de datos considerando variables discretas y
categóricas en el Modelo de Análisis de Varianza de efectos fijos, en
investigaciones agropecuarias.
Hipótesis
Si se emplean Métodos Estadísticos alternativos de análisis con variables
discretas y categóricas, se evitaría un uso inadecuado de la transformación de
datos en los Modelos de Análisis de Varianza de efectos fijos.
Objetivo general
Evaluar la efectividad de Métodos Estadísticos alternativos para evitar el uso
inadecuado de la transformación de datos con variables discretas y categóricas en
los Modelos de Análisis de Varianza de efectos fijos, en investigaciones
agropecuarias.
Objetivos específicos
1. Diagnosticar el estado actual del uso de la transformación de datos y de
Métodos Estadísticos no paramétricos en investigaciones agropecuarias en
Cuba.
2. Evaluar el comportamiento de la transformación de datos en el
cumplimiento de los supuestos teóricos básicos con variables discretas y
5
categóricas en los Modelos de Análisis de Varianza simple y doble de
efectos fijos.
3. Establecer criterios de valor teórico-práctico, a partir de un análisis integral
de indicadores estadísticos de los Modelos de Análisis de Varianza
paramétricos y no paramétricos y del Modelo Lineal Generalizado.
4. Proponer acciones metodológicas para investigaciones relacionadas con la
aplicación del Modelo de Análisis de Varianza.
Novedad científica
La novedad científica radica en que por primera vez en las condiciones de la
Ciencia Agropecuaria en Cuba, se establecen Métodos Estadísticos alternativos
para evitar el uso inadecuado de la transformación de datos, con variables
discretas y categóricas, en los Modelos de Análisis de Varianza de efectos fijos.
Aporte social
La capacitación a técnicos y usuarios de los Métodos Estadísticos, mediante
cursos, talleres, conferencias y seminarios, entre otras modalidades, sobre el uso
adecuado de la transformación de datos, los Modelos de Análisis de Varianza
paramétricos y no paramétricos, y el Modelo Lineal Generalizado, con variables
discretas y categóricas en la investigación científica.
6
Aporte práctico
Se proponen acciones metodológicas para el tratamiento y el análisis de la
información experimental con variables discretas y categóricas, en los aspectos
relacionados con el uso de la transformación de datos y alternativas de análisis
basadas en los Modelos de Análisis de Varianza paramétricos y no paramétricos,
y el Modelo Lineal Generalizado.
7
CAPÍTULO I
REVISIÓN BIBLIOGRÁFICA
CAPÍTULO I. REVISIÓN BIBLIOGRÁFICA
1.1. Métodos Estadísticos paramétricos y no paramétricos
En la docimasia de hipótesis, los Métodos Estadísticos paramétricos son los que
se utilizan con más frecuencia, siendo necesario para su empleo el cumplimiento
de diversos supuestos sobre la población que se estudia.
La técnica conocida como Análisis de Varianza (ANAVA), fue desarrollada por R.
A. Fisher para facilitar el análisis e interpretación de los datos desde ensayos de
campo y experimentos de laboratorio, en la agricultura e investigaciones biológicas
(Eisenhart, 1947).
El ANAVA, es una de las técnicas más utilizadas en el proceso de investigación
Norell (2003). Es descrito por Tejedor (1999); Khan y Rayner (2003) y Spiegel et
al. (2003) como una colección de modelos estadísticos y sus procedimientos
asociados, apropiada para evaluar la igualdad entre poblaciones o tratamientos,
en el cual la varianza está fraccionada en ciertos componentes, debido a
diferentes factores o variables explicativas, incluidas en el modelo.
Los Métodos Estadísticos no paramétricos no requieren de supuestos severos
sobre la población que se estudia. Según Servy et al. (2007) una prueba
Estadística no paramétrica está basada en un modelo que especifica sólo
condiciones muy generales y ninguna acerca de la forma específica de la
distribución de la población de la que fue tomada la muestra.
8
Los Métodos Estadísticos no paramétricos resultan una alternativa importante, ya
que no dependen de la distribución de los datos, pueden usarse en caso de
muestras pequeñas y, en general, resultan más rápidos y sencillos de aplicar
(Siegel y Castellan 1995, Gómez et al. 2003 y Santos et al. 2005). En este sentido
se considera que una alternativa está dada en el ANAVA paramétrico, cuando se
incumplen los supuestos con serias implicaciones en el análisis.
A partir de lo señalado anteriormente se establecen las diferencias entre los
estadígrafos correspondientes en el empleo de los procedimientos paramétricos y
no paramétricos, autores como Siegel y Castellan (1995), De Calzadilla (1999) y
Guerra et al. (2000) se han referido al respecto, por lo que se resumen en la Tabla
1.1.
Tabla 1.1. Escalas de medidas e indicadores numéricos en procedimientos
estadísticos paramétricos y no paramétricos.
Procedimientos
Paramétricos
Aspectos a analizar
Escala de Medida
Localización o Posición
Dispersión
Asociación
Métricas
Media aritmética
Media geométrica
Media armónica
Mediana
Moda
Varianza
Desviación típica o estándar
Coeficiente de variación
Correlación de Pearson
Covarianza
No Paramétricos
Métricas y no métricas
Mediana
Cuartiles
Percentiles
Rango medio
Rango
Rango intercuartílico
Rango interpercentílico
Correlación de Rango de
Spearman
Correlación de Kendall
Coeficiente de contingencia
9
1.2. Consecuencias del incumplimiento de los supuestos teóricos básicos
del Modelo Análisis de Varianza paramétrico
La distribución Normal de los errores, señalan Steel y Torrie (1992) y Peña (1994),
tiene poca influencia en el ANAVA para comparar medias, dado que esta técnica
es robusta frente a desviaciones de los errores; sin embargo, plantean que la falta
de normalidad puede afectar otros supuestos como, la homogeneidad de varianza,
sobre todo, cuando el número de observaciones de los grupos son muy diferentes,
sin embargo cuando se analizan componentes de varianza, la normalidad si puede
afectar el resultado del análisis.
El incumplimiento de algunos de los supuestos del ANAVA pude afectar tanto los
niveles de significación como la sensibilidad de la prueba F de Fisher o t de
Student, lo que conlleva a la pérdida de exactitud en los estimadores obtenidos
para los efectos de tratamientos (Cochran y Cox, 1999 y Vilar, 2011).
Las decisiones estadísticas, son probabilísticas y por tanto, lo más importante no
es tomar una decisión, sino conocer la probabilidad de equivocarse al tomar esta
(Miranda 1997). Los modelos de análisis estadístico, como el ANAVA son
sensibles a las propiedades estadísticas de los términos de error aleatorio del
modelo lineal (Avanza et al. ,2006 y Balzarini et al., 2008).
El incumplimiento de alguno de estos supuestos lleva a conclusiones erróneas
como rechazar la hipótesis nula siendo verdadera o viceversa, lo que trae consigo
10
resultados falsos en los experimentos que al materializarse en los sistemas de
producción introducen pérdidas económicas y error en el proceso de toma de
decisiones (Pérez et al., 2002).
Martín y Luna (1994), señalan que la heterogeneidad de varianzas viene
acompañada de variables no normales, por lo que ante esta situación
recomiendan aplicar transformaciones y además expresan que en tales
circunstancias la misma transformación que estabiliza las varianzas suele
normalizar la respuesta.
Sin embargo, Peña (1994) ha sugerido que antes de transformar los datos se debe
estudiar gráficamente la distribución de los residuos y si la misma resulta muy
asimétrica, entonces conviene realizar la transformación, lo cual resulta una
opción antes de proceder a la misma.
En el Anexo 1 se establecen los supuestos teóricos del ANAVA, las dócimas de
uso más frecuente para normalidad, homogeneidad e independencia, así como
sus estadísticos, características y consecuencias de su incumplimiento en el
análisis estadístico.
En sentido general el incumplimiento de algunos de estos supuestos pueden
incidir en los resultados investigativos y por ende pueden conllevar a conclusiones
erróneas como rechazar la hipótesis nula siendo verdadera o viceversa. Cuando
11
estos supuestos teóricos del ANAVA son satisfechos las inferencias del modelo
estadístico son mejores.
1.3. Potencia de una dócima, tamaño de muestra, probabilidades de errores
(tipo I y II) y tamaño de efectos
Bono y Arnau (1995), realizan un recuento histórico del desarrollo del concepto de
potencia de una dócima, señalando que este se le atribuye a Neyman y Pearson
en el período de 1928 al 1933, apareciendo otros autores que tenían en cuenta la
potencia estadística, como Cox en 1948, McNemar en 1960 y Tukey en 1960,
entre otros.
Estos autores señalan que hay dos formas de estimar la potencia, a priori y a
posteriori, la primera alerta al investigador sobre el tamaño de muestra necesario
para una potencia adecuada y con este fin se construyen las tablas de potencia.
La potencia a posteriori, es importante en la interpretación de los resultados de
estudios ya acabados, que es el caso analizado en este trabajo de investigación.
Numerosos autores, entre ellos Kreyszig (1974) y Ostle (1974) concuerdan en
señalar que un experimento dado cuando se prueba una hipótesis específica, el
valor 1-β es conocido como la potencia de la prueba, esta expresión se expresa en
función del parámetro verdadero, siendo conocida como función de potencia y es
expresada como 1-β (θ), donde θ representa el valor verdadero del parámetro.
12
Mood y Graybill (1972) y Rodríguez (2008) denotan a la función de potencia como:
η (θ)= 1- β(θ) = 1- P(II)= P(rechazar H0| H0 es falsa), y se tiene que:
α = P(I), si θ = θ0 Є H0 (hipótesis nula)
η (θ)=
1- β(θ), si θ = θ1 Є H1 (hipótesis alternativa)
En esencia la función de potencia toma el valor α, cuando se cumple la hipótesis
nula, por lo que resulta muy conveniente que η (θ) tome valores bajos cuando se
cumple H0 (α) y tome altos valores cuando se cumple H1 (1- β(θ) ).
Scheffé (1959) hace referencia a la potencia de la dócima F en Modelos de
Análisis de Varianza con efectos fijos, observaciones independientes y
homogeneidad de varianzas, como la probabilidad β de rechazar la hipótesis
probada, siendo expresada por:
β = Pr{F´ (ν1, ν2, δ) > Fα(ν1, ν2)}, donde:
F´ (ν1, ν2, δ) es llamada distribución F no central, con ν1 y ν2 grados de libertad con
parámetro de no centralidad δ.
Fα (ν1, ν2) es un percentil de la distribución F, con ν1, ν2 grados de libertad del
numerador y denominador respectivamente.
13
Este autor se refiere a las tablas de potencia calculadas por Tang en 1938, solo
para los valores de α = 0,01 y 0,05 y reproduce los gráficos de potencia para la
dócima F, construidos por Pearson y Hartley en 1951.
Bono y Arnau (1995), señalan que las estimaciones de la potencia estadística
quedan determinadas por tres componentes:

Tamaño muestral, es decir cuanto más grande sea la muestra, mayor será la
potencia.

Nivel de significación, dado que al incrementarse la probabilidad de error tipo I,
la potencia también aumenta.

Tamaño del efecto (TE) o grado en que el fenómeno de interés está presente,
de modo que cuando los efectos son grandes, la potencia se incrementa.
Sabín (1999) realizó un estudio sobre la determinación de la potencia a posteriori,
utilizando experimentos conducidos en el Instituto de Ciencia Animal con diseños
clásicos, a partir de la expresión de potencia dada por Scheffé (1959), utilizó la
aproximación dada por Patnaik en 1949, mediante la cual se aproxima la F no
central a una F central.
Camacho (2007) en relación con la potencia estadística, coincide con los tres
aspectos anteriores, incluyendo uno muy importante que es la variabilidad de la
respuesta estudiada.
Siegel y Castellan (1995) en el área de la Estadística no paramétrica, introducen el
concepto de Potencia – Eficiencia, referido al incremento en el tamaño de la
14
muestra necesario para hacer la prueba B tan poderosa como la A, al ser la
prueba A de las conocidas, la más poderosa de su tipo (cuando se usa con datos
que satisfacen sus condiciones), al ser la prueba B, que se presta al mismo diseño
de investigación, tan poderosa con Nb casos como la prueba A con Na casos, con
lo que se tiene:
Potencia - Eficiencia de la prueba B = Na/Nb (100).
Fraser (1957) y Gibbons (1971) proponen que para obtener una medida asintótica
útil para la Eficiencia relativa de una prueba no paramétrica con respecto a su
homóloga paramétrica, la Eficiencia Asintótica Relativa, usualmente conocida como
ARE (en inglés, Asymptotic Relative Efficiency), conocido también como Eficiencia
de Pitman.
20
Daniel (1978) plantea que el ARE de la dócima de Kruskal-Wallis es de 0,955,
comparada con la prueba paramétrica más poderosa, F de Fisher. Este mismo
autor refiere que en el caso de la dócima Friedman esta posee un ARE de 0,955
(k/k+1), cuando las poblaciones son normales; en poblaciones con distribución
uniforme el ARE se expresa como k/k+1 y en poblaciones que poseen distribución
exponencial doble este se identifica como 3/2 (k/k+1)
Johnson (1990) indica que la elección de un contraste o prueba de hipótesis no
puede apoyarse únicamente en su poder (potencia) y eficiencia. Algunas veces la
utilización de ciertas pruebas de hipótesis se ve forzada por los datos que se
15
analizan, cuando debe llegarse a una decisión al respecto, hay que considerar tres
factores:

El poder del contraste.

La eficiencia del contraste.

El tipo de datos y la cantidad de observaciones disponibles.
Este mismo autor señala que los métodos no paramétricos desperdician
información, pues sacrifican el valor de la variable sustituyéndolas por un signo o
un rango, siendo por lo general menos eficientes que sus contrapartes
paramétricas.
Es real lo que plantea este autor, dado por el criterio de Potencia-Eficiencia
propuesto por Siegel (1970), Daniel (1978) y Siegel y Castellan (1995), sin
embargo, se sugieren los Métodos Estadísticos no paramétricos como alternativa
de análisis, cuando existan serias implicaciones por el incumplimiento de los
supuestos teóricos de los Métodos Estadísticos paramétricos o por otros criterios
técnicos aportados por los especialistas.
Álvarez (2008) expresa que en muestras menores de 11 casos, la potencia
estadística de las pruebas paramétricas y no paramétricas es equivalente,
teniendo en cuenta que las exigencias para las pruebas no paramétricas son
menores y que detectar violaciones de las condiciones de aplicabilidad en las
pruebas paramétricas es más difícil.
16
Generalmente, en la práctica no se tiene en cuenta la relación inversa que existe
entre estas dos probabilidades (α y β) y se hace referencia exclusivamente a los
niveles de significación obtenidos en el ANAVA, sin tomar en consideración que
para los valores bajos de α se puede obtener valores altos de β que pueden poner
en riesgo la toma de decisiones (Torres y Segui, 2001).
López y Romero (1986) realizan un análisis detallado donde exponen la relación
que existe entre el tamaño de muestra y el cumplimiento de los supuestos
teóricos, con el método estadístico a utilizar. En la tabla 1.2 se muestra un
resumen a partir de este enfoque.
Tabla 1.2. Relación entre el tamaño de muestra y cumplimiento de los supuestos
teóricos de los procedimientos paramétricos y no paramétricos.
Tamaño de
muestra
Pequeña
Grande
Cumplimiento de los supuestos
Se cumplen
Se duda
No se cumplen
Paramétrica
No paramétrica
No paramétrica
Paramétrica
Análisis más
profundo para
valorar cual es la
mejor opción
No paramétrica
Cristo (2001), en una investigación relacionada con el comportamiento de las
dócimas no paramétricas respecto a las paramétricas en distribuciones no
normales, así como la eficiencia de estos métodos con sus homólogos
paramétricos, obtuvo que al emplear muestras pequeñas con el incumplimiento de
los supuestos del Análisis de Varianza, lo más conveniente es el empleo de los
Métodos Estadísticos no paramétricos.
17
Menchaca (1974, 1975); Venereo (1976); Caballero (1979) y Menchaca y Torres
(1985), aportaron tablas de tamaños de muestra y número de réplicas en Diseños
Completamente Aleatorizados, Bloques al Azar, Cuadrado Latino y Diseños de
Cambio, teniendo en consideración: la máxima diferencia estandarizada entre dos
medias (∆), la cantidad de tratamientos (t), el nivel de significación (α) y la potencia
de la dócima (1-β), las cuales representan valiosas herramientas de trabajo para
investigadores de diferentes ramas y se considera que no han sido aprovechadas
con amplitud.
En la actualidad, con el avance de la informática, existen paquetes estadísticos
que incluyen el cálculo de la potencia, como el InfoStat, G Power y el SPSS, entre
otros.
1.4. Transformación de datos. Origen e incidencia en las investigaciones
agropecuarias
Bartlett (1947) plantea que el propósito de las transformaciones de datos es
buscar una nueva escala de medida con el objetivo de hacer el análisis más
válido.
Box y Cox (1964) propusieron una técnica de transformación de potencia a las
observaciones con el fin de reducir anomalías, tales como: la no-aditividad, la no
normalidad y la heterocedasticidad.
18
Y ( )

0
log Y
0
Yλ =
(para Y > 0)
Menchaca (1973) señala que Box y Cox en 1964, consideran una familia
paramétrica de transformaciones de Y en Y(λ), donde se define λ como una
transformación particular, ellos asumen que para algún λ desconocido, las
observaciones transformadas Yi(λ) (i= 1, 2, …, n) satisfacen las hipótesis de base,
por otra parte Sakia (1992) plantea que esta transformación es conocida
precisamente como Box-Cox y ha mostrado una amplia flexibilidad y aplicabilidad
desde sus primeras apariciones.
Las transformaciones de datos se utilizan con frecuencia en el Análisis de
Varianza, siendo una alternativa, siempre que sean bien empleadas, pues se ha
detectado en varios estudios un uso indiscriminado de estas sin tener en cuenta el
cumplimiento de los supuestos teóricos, antes y después de aplicadas, ya que
estos no son verificados.
Peña y Peña (1986) manifiestan, que las transformaciones Box-Cox constituyen
una alternativa razonable para lograr la normalidad, más potente que la mayoría
de los procedimientos existentes usados en distribuciones asimétricas.
Según Méndez (2000) cuando los datos son normales, pero las varianzas son
heterogéneas, se utiliza diferentes transformaciones de datos (logarítmica, raíz
19
cuadrada o inversa), estas se vuelven a comprobar y si las varianzas son
homogéneas es correcto utilizar un ANAVA.
Cabrera et al. (2012) plantean que muchos datos provenientes de poblaciones de
plagas por ser datos discretos por lo regular no cumplen los supuestos teóricos y
cuando se emplean las transformaciones de datos no se ajustan a una distribución
Normal.
Entre las transformaciones de datos más empleadas en la rama agropecuaria se
encuentran: la raíz cuadrada, logarítmica y arcoseno ( p ), que están dadas de
acuerdo a la naturaleza de la variable en estudio.
Se considera que en las investigaciones agropecuarias u otras, el uso de la
transformación de datos ponen en evidencia:

El inconveniente de que los datos pasan a una escala de medida que no es
la original, por lo tanto se debe tener la debida precaución en el análisis de
los resultados.

Que estudios previos científicamente fundamentados han mostrado la poca
efectividad de su empleo.
Es por ello, que se debe propiciar el uso de Métodos Estadísticos alternativos más
flexibles ante el incumplimiento de los supuestos del Análisis de Varianza, como
es el caso de la Estadística no paramétrica u otros que tengan implícito diferentes
distribuciones de los datos originales.
20
1.5 Modelo Lineal Generalizado
1.5.1. Origen y desarrollo
Nelder y Wedderbum (1972) proponen una teoría unificadora de Modelación
Estadística que le dieron el nombre de Modelo Lineal Generalizado (MLGnz),
como una extensión de los Modelos Lineales Generales clásicos (MLG). Estos
autores mostraron una serie de técnicas comúnmente estudiadas de forma
separada que pueden ser reunidas bajo ese nombre MLGnz.
Los autores antes mencionados presentaron el concepto de MLGnz, y
posteriormente McCullag y Nelder (1989) presentan una amplia información sobre
estos modelos. La esencia radica en que el valor esperado de la variable
respuesta es denotada por μ = E(Y | X ) que se relaciona con la parte sistemática
del modelo como:
E( Y | X )  g( X)    g( )
Donde:
Y: es una función monótona
η: predictor lineal
η = Xβ: función que relaciona μ
g: función de enlace
Por otra parte Mongotmery et al. (2005) y Faraway (2006) plantean que un MLGnz
está definido por dos componentes específicos. La respuesta debe ser un
21
miembro de la distribución de la familia exponencial y la función de enlace
describe de que forma se relacionan la media de la respuesta y una combinación
lineal de los predictores.
En el MLGnz la distribución de Y de la familia exponencial es de la forma:
 y  b

F (yІθ,  ) = exp 
+ c y, 
 a

Donde:
θ: se conoce como el parámetro canónico y representa la localización.
 : es el parámetro de dispersión o de la escala.
a, b y c son funciones conocidas.
Verde (2000) señala que los MLGnz se especifican con tres componentes: el
componente aleatorio que identifica la distribución probabilística de la variable
respuesta, el componente sistemático que especifica una función lineal de
variables explicativas que es usada como un predictor y una asociación que
describe la relación funcional entre el componente sistemático y el valor esperado
del componente aleatorio.
En las investigaciones agropecuarias muchas veces se involucran situaciones
donde es difícil utilizar el MLG en los Análisis de Varianza y Regresión, porque las
variables
que
se
analizan
no
cumplen
los
supuestos
de
normalidad,
homogeneidad de varianzas e independencia de los errores.
22
Actualmente las Ciencias Agropecuarias demandan de herramientas estadísticas
que permitan obtener estimaciones más precisas, y teniendo en cuenta las
bondades que muestra este modelo, muchos autores recomiendan el empleo de
los MLGnz, muy utilizado en el análisis con variables discretas y categóricas.
Los mecanismos que llevaron a esta visión general de la Modelación Estadística
se remonta a más de un siglo. Una reseña histórica fue trazada por McCullagh y
Nelder en 1989 y Lidsey en 1997 (citados por García, 2002) a partir de diferentes
distribuciones (tabla 1.3).
Tabla 1.3. Modelos más empleados según la metodología del Modelo Lineal
Generalizado.
Distribuciones
Normal
Tipo de Análisis
Regresión Lineal
Múltiple
Análisis de Varianza
para diseños
experimentales
Normal ; Binomial ;
Bernuolli ; Poisson
Función de
Multinomial; Exponencial y verosimilitud
Gamma
Autores
Legendre y Gauss (siglo XIX)
Fisher (1920- 1935)
Fisher(1922); Bliss (1935);
Berkson (1944); Dike y
Patterson (1952);
Racha (1960); Birch (1963);
Feig y Zelen (1965); Zippin y
Armitage (1966); Gasser (1967)
y Nelder (1966)
Existen algunas diferencias entre el MLG y el MLGnz, estas están dadas porque
en el primero se debe cumplir determinados requisitos, como son: los errores
deben distribuir Normal, por tanto la variable debe ser continua, la varianza de los
errores debe ser constante y el modelo debe expresarse en forma aditiva.
23
En el caso del MLGnz se puede emplear a cualquier tipo de distribución, que tiene
un predictor lineal asociado a la variable dependiente y por otra parte este modelo
presenta una componente aleatoria, el método de estimación es el de Máxima
Verosimilitud, mientras que en el MLG el método es el de Mínimos Cuadrados
Ordinarios (Greene, 1999; Johnston, 2000 y Correa, 2007).
En la tabla 1.4 se hace una comparación entre el MLG y el MLGnz, considerando
sus características.
Tabla 1.4 Comparación entre el Modelo Lineal General y el Modelo Lineal
Generalizado.
Modelo
Lineal General
Lineal
Generalizado
Expresión del Modelo
Sistemática
Aleatoria
Xβ
Variable
respuesta
ε
Continua
h(y,θ)=exp[p(θ)
y-q(θ)+g(y)]
Continua
Categórica,
Discreta
(Poisson,
Multinomial,
entre otras.)
Xβ
donde:
p(θ), q(θ),y g(y)
son funciones
conocidas
Método de
Estimación
Mínimos
Cuadrados
Ordinarios
(MCO)
Máximo
Verosimilitud,
Mínimos
Cuadrados
Ponderados,
Mínimos
Cuadrados
Generalizados
Para el análisis del MLGnz se necesita conocer que distribución poseen los datos,
pues esta permite seleccionar la función de enlace apropiada a cada distribución.
Se denomina funciones de enlace canónicas aquellas que se aplican por defecto a
cada una de las distribuciones de errores. Esto no significa que siempre se deba
usar una única función de enlace para una determinada distribución. De hecho,
24
puede ser recomendable comparar diferentes funciones de enlace para un mismo
modelo y ver con cual se obtiene un mejor ajuste del modelo a los datos (Cayuela,
2010).
En la tabla 1.5, se expresan las funciones de enlace más usadas en el análisis de
MLGnz.
Tabla 1.5. Funciones de enlace más empleadas en el Modelo Lineal Generalizado.
Distribución
Funciones
de enlace
Funciones
canónicas
Normal
Identidad
η=μ
Poisson
Logarítmica
η = log (μ)
Binomial
Logit
Gamma
Recíproca
Normal
inversa
Recíproca2
η  log
η
η=
Modelos de
análisis
Modelo
Lineal
clásico (Diseños
experimentales y
Regresión)
μ
1 μ
1
μ
1
2
Logarítmico
Logístico
Logarítmico
Probit
Empleo
Variables continuas
con errores
normalmente
distribuidos
Variables discretas
con errores con
distribución Poisson
Proporciones
(variables con
respuestas
dicotómicas o con
valores 0 y 1)
Variables continuas
con errores con
distribución Gamma
Variables que miden
toxicidad o cualquier
variable con
respuesta binaria
Entre las ventajas que ofrece el MLGnz, está que permite emplear una mayor
variedad de distribuciones para la variable respuesta, es decir, posibilita el ajuste
de un modelo con diferentes distribuciones.
25
En esencia este modelo descompone la variabilidad de la variable respuesta en
dos componentes una sistemática y la otra aleatoria asociada a una función de
enlace de acuerdo a la distribución que adopten los datos analizados.
Un aporte importante de este modelo es que permite analizar variables con
respuestas discretas y continuas, mientras que el MLG solamente analiza
variables de tipo continuas.
1.6. Otros Métodos Estadísticos que analizan variables discretas y
categóricas
Numerosos son los Métodos Estadísticos que se utilizan en la actualidad para el
análisis de variables discretas y categóricas. En la medida en que las
investigaciones progresan, se desarrollan nuevas técnicas para el análisis con
estos tipos de variables. Es por ello que surge la necesidad de establecer
semejanzas y diferencias entre las técnicas existentes para determinar su
superioridad o para establecer sus limitaciones y poder determinar el método más
apropiado ante una nueva situación.
El desarrollo de métodos para el análisis de las variables categóricas se comenzó
por los estudios de la investigación en las Ciencias Sociales y Biomédicas. Las
escalas categóricas son estudiadas en las Ciencias Sociológicas para medir
actitudes y opiniones. Las escalas categóricas en las Ciencias Biomédicas miden
si el resultado de un tratamiento médico es exitoso o no (Agresti, 2007).
26
Según Greene (1999), los modelos de naturaleza categórica son modelos de
probabilidad condicionada, por lo que p (y=j/xi) es una función de las
combinaciones lineales β X, donde β es el vector de los parámetros y X es el
vector de regresores, (i = 1, 2…k) y (j=0,1,2,j).
Correa (2007) plantea que la distribución de Poisson juega un importante papel en
la modelación del conteo de individuos en muchas áreas investigativas, se
caracteriza por un solo parámetro μ=n, donde μ es una esperanza matemática y
puede interpretarse como el número esperado de ocurrencias en un intervalo de
tiempo, área o espacio especificado y la tasa de ocurrencia (), se define como el
número esperado de ocurrencias del evento.
Con frecuencia las variables discretas y categóricas se relacionan con
distribuciones de probabilidad Binomial, Multinomial y Poisson, entre otras,
teniendo en cuenta estos elementos, Guerra et al. (2010) resumen en la tabla 1.6,
los principales Métodos Estadísticos relacionados con el análisis de variables
cualitativas, según el número de variables involucradas. De los procedimientos
clásicos reportados en esta tabla, los de más amplia aplicación, son los
correspondientes a la Estadística no paramétrica.
27
Tabla 1.6. Métodos Estadísticos relacionados con variables cualitativas.
Según número
de variables
Univariado
Bivariada
Multivariado
Métodos
Descriptivo
Moda, mediana, rango, cuantíles,
frecuencias, porcientos.
Tablas de frecuencia.
Gráficos de barras, sectores, entre
otros.
Tablas de frecuencia bivariada o
tablas de contingencia.
Medidas de asociación no
paramétricas (coeficientes de
contingencia, Spearman, Kendall, etc)
Gráficos de barras, mosaicos.
Coeficiente de fiabilidad.
Coeficiente de esfuerzo (Stress).
Matriz de correlaciones.
Análisis Cluster.
Análisis de Correspondencia Múltiple.
Escalamiento Multidimensional (EMD)
Escalamiento Óptimo.
Mapas Auto Organizados (SOM)
Inferencial
Dócima de
proporciones y
dócimas no
paramétricas.
Series temporales.
Dócima Chicuadrado.
Regresión Logit
Regresión Probit
Regresión Logística
Regresión Poisson
Modelo Log lineal
Regresión
Categórica(CATREG)
Modelo Lineal
Generalizado
Navarro et al. (2008) indican que la Regresión Categórica (CATREG), trabaja bajo
el enfoque de la Regresión con transformaciones, aplicando la metodología de
Escalamiento Óptimo desarrollada por el sistema Gifi en 1990, para transformar la
respuesta y los predictores, dando lugar a un modelo flexible.
La referencia de este autor a que el CATREG es un modelo flexible, se considera
que está dada, a que este amplía las posibilidades del Modelo de Regresión
clásico, mediante el uso del Escalamiento Óptimo (minimiza la función de pérdida
de información), aplicable a variables nominales, ordinales y numéricas,
simultáneamente.
El CATREG es un método a través del cual la regresión se aplica a una variable
respuesta en forma de categorías con el propósito de predecir la respuesta como
28
función de una o más variables independientes. El CATREG se ha desarrollado
como un método de regresión lineal para variables categóricas (Navarro et al.
2010).
El
Análisis
de
Componentes
Principales
Categórico
(CATPCA),
puede
considerarse como una técnica exploratoria de reducción de las dimensiones de
una base de datos incorporando variables nominales y ordinales de la misma
manera que las numéricas (Molina y Espinosa de los Monteros, 2010).
El Análisis Factorial de Correspondencia Múltiple es una técnica que se utiliza
para reducir la dimensionalidad y la elaboración de mapas preceptúales, ya que
estos se basan en la asociación entre objetos y un conjunto de características
descriptivas; además, va más allá de analizar la relación existente entre las
variables, porque permite conocer como está estructurada esta relación (Quaglino
y Pagura, 1998 y Aranzazu et al. 2007).
Trujillo del Pozo (2001) plantean que el Análisis de Correlación Canónica
proporciona variables que garantizan este resultado, y es recomendable su
utilización cuando tanto el número de variables endógenas, como las explicativas
son elevadas, además existen altas correlaciones de las variables de cada grupo
entre sí.
29
Mediante este método de reducción de variables se puede eliminar el ineludible
problema de multicolinealidad que ocasionaría la consideración de todas las
variables en un modelo de regresión.
El Escalamiento Multidimensional es un conjunto de técnicas que persiguen como
objetivo, la representación de datos a través de la construcción de una
configuración de puntos cuando se conoce una determinada información sobre
proximidades entre objetos (Linares, 2001; Miret et al., 2002; Mora y González,
2009 y Arce et al., 2010).
Por otra parte Miret et al. (2002) y Miret (2005) señalan que el Escalamiento
Multidimensional consiste esencialmente en representar disimilaridades entre
objetos o individuos, como distancias entre puntos en un espacio de dimensión
reducida, mientras que los Mapas Auto Organizados de Kohonen, se caracterizan
por su capacidad para clasificar un conjunto complejo de patrones de manera no
supervisada, extrayendo criterios de clasificación no obvios ni expresados de
manera explícita.
Otros criterios sobre modelos relacionados con las variables cualitativas, son
dados por Guerra et al. (2010), como son:

La Matriz DAFO, con implementación automatizada, se puede considerar como
un Modelo cualitativo de diagnóstico en diversas áreas de investigación.
30

El criterio de experto, a través del Método Delphy, se puede considerar como
un Modelo cualitativo de validación en determinadas situaciones.
Todos estos Métodos Estadísticos, resultan alternativas de análisis en las
investigaciones donde se analizan variables que son de tipo discretas y
categóricas.
31
CAPÍTULO II
LA ENCUESTA ESTADÍSTICA EN
CAPTACIÓN DE INFORMACIÓN Y SU USO
LA
CAPÍTULO II. LA ENCUESTA ESTADÍSTICA EN LA CAPTACIÓN DE
INFORMACIÓN Y SU USO
2.1. Introducción
Se aplicó una encuesta estadística bibliométrica y a los investigadores del Instituto
de Ciencia Animal, con el objetivo de diagnosticar el estado actual del uso de la
transformación de datos y de los Métodos Estadísticos no paramétricos en las
investigaciones de la Ciencia Agropecuaria en Cuba.
2.2. Materiales y métodos
2.2.1. Encuesta estadística bibliométrica
La encuesta estadística bibliométrica se realizó con el objetivo de conocer los
Métodos Estadísticos más empleados, así como las temáticas más abordadas en
el período analizado del 2000 al 2007.
Se revisaron 1418 artículos para conocer las temáticas, así como los Métodos
Estadísticos
no
paramétricos
más
abordados
en
revistas
científicas
correspondientes a las Ciencias Agropecuarias y Biológicas, pertenecientes al
fondo bibliotecario del Instituto de Ciencia Animal. Las revistas revisadas están
contenidas en bases de datos internacionales y en la Web of Science. Se
emplearon estas revistas por ser las colecciones más completas en el período que
se analiza.
32
Para el estudió se revisaron las revistas:

Revista Cubana de Ciencia Agrícola (RCCA)

Revista Ciencias Biológicas (CENIC)

Pastos y Forrajes (EPFIH)

Agrociencia (México)

Veterinaria de México (México)

Archivos de Zootecnia (España)

Ciencias Pecuarias (Colombia)
Los indicadores que se midieron fueron:

Nombre de la revista

Número de los artículos por revista

Tipo de variables analizadas

Métodos Estadísticos aplicados

Temáticas
tratadas
con
aplicación
de
Métodos
Estadísticos
no
paramétricos.
2.2.2. Encuesta estadística a los investigadores
Se desarrolló una encuesta en el 2011 (Anexo 2), para evaluar el conocimiento de
los investigadores sobre la transformación de datos, y el uso de Métodos
Estadísticos alternativos para evitar el empleo de estas en el análisis estadístico
de los resultados de las investigaciones desarrolladas en el Instituto de Ciencia
33
Animal. De un total de 89 investigadores, distribuidos en Titulares, Auxiliares,
Agregados y Aspirantes, fue posible encuestar 69, que representan el 77,53% de
todas las categorías con la siguiente representación por cada departamento, tabla
2.1.
Tabla 2.1. Encuestados por departamento.
Departamento
Monogátricos
Fisiología
Rumiantes
Pastos
Genética
Biomatemática
Total
%
13,3
24,6
26,7
15,9
7,2
7,2
100
Para el análisis de la encuesta a los investigadores se valoraron los siguientes
indicadores:

Departamento.

Empleo de transformaciones.

Número de transformaciones que emplean.

Métodos Estadísticos alternativos que usan.

Sabe que logra con el uso de la transformación de datos.

Interés por continuar con el uso de las transformaciones.
2.2.3. Organización, procesamiento y análisis estadístico de la información
Para el análisis de las encuestas estadísticas bibliométrica y a los investigadores,
la información fue tabulada en una base de datos de Excel para su posterior
procesamiento.
34
Para procesar la información de las revistas y las encuestas a investigadores se
empleó el método de Escalamiento Multidimensional PROXSCAL (en inglés
Multidimensional Sealing of Proximity) utilizando el paquete estadístico SPSS
versión 19.0 (2010).
El
procesamiento
de
las
encuestas
estadísticas
bibliométrica
y
a
los
investigadores se incluyeron tablas de frecuencia bivariadas (tablas de
contingencia), gráficos de barras y sectores, entre otros. Se evaluó la bondad de
ajuste de la solución multidimensional mediante los valores del Stress bruto
normalizado, la dispersión explicada (D.A.F, en inglés) y el coeficiente de
congruencia de Tucker.
Para interpretar las medidas de calidad del ajuste obtenida del Escalamiento
Multidimensional, Guerra (2009) propone una tabla del Stress; teniendo en cuenta
los valores dados por Kruskal en 1964, (citado por Mora y González, 2009), como
se refleja en la tabla 2.2.
Tabla 2.2. Interpretación de los valores del Stress (S).
Valores del Stress
S=0
0 < S ≤ 0,025
0,025 < S ≤ 0,05
0,05 < S ≤ 0,1
0,1 < S < 0,2
S ≥ 0,2
Interpretación de la bondad de ajuste
Ajuste perfecto
Ajuste excelente
Ajuste muy bueno
Ajuste bueno
Ajuste regular
Ajuste pobre
Para visualizar la información de la encuesta estadística bibliómetrica por revistas
se utilizó también el paquete estadístico Viscovery SOMine (2008), con el método
35
SOM-Wald Clusters, que combina de forma ordenada la información local del
mapa con el algoritmo de Cluster Jerárquico Clásico de Ward (Ward, 1963).
Del análisis de la encuesta bibliométrica se obtienen dos mapas, en el primero se
refleja los Métodos Estadísticos no paramétricos usados y en el segundo las
temáticas que más abordan estos métodos. En la parte inferior de cada mapa
aparece una escala con matices de colores, de más a menos intenso, si se analiza
de derecha a izquierda.
Se confeccionó la matriz DAFO para establecer un diagnóstico con los resultados
obtenidos de la encuesta a los investigadores.
2.3. Resultados y discusión
2.3.1. Encuesta estadística bibliométrica
En la tabla 2.3 se presentan las medidas de bondad de ajuste del Escalamiento
Multidimensional, relacionadas con la aplicación de los Métodos Estadísticos no
paramétricos por revistas analizadas. Con esta técnica se obtuvieron las medidas
de calidad de ajuste de la configuración de los datos, que presentan un resultado
excelente de acuerdo a lo que se muestra en la tabla 2.2.
Tabla 2.3. Bondad del ajuste de la configuración de los datos para los Métodos
Estadísticos no paramétricos.
Medida
Stress bruto normalizado
Dispersión explicada (D.A.F.)
Coeficiente de congruencia de
Tucker
Resultado
0,00092
0,99908
0,99954
36
Por otra parte se observa que la dispersión explicada (D.A.F) y el coeficiente de
congruencia de Tucker, corroboran la bondad del ajuste del método, con
resultados que se encuentran próximos a 100 %, por lo que logran explicar una
alta variabilidad.
Según Cuesta (2005), se considera un buen ajuste cuando el resultado obtenido
del Stress bruto normalizado se encuentra próximo a 0 y cuando el D.A.F y el
coeficiente de congruencia de Tucker son de al menos 0,80 (80%), que indica la
dispersión explicada por el método, estos coeficientes se suelen expresar en
porciento, lo que facilita su interpretación.
En la figura 2.1 se muestra la agrupación en dos dimensiones de aquellas revistas
que hacen uso de los Métodos no paramétricos. Se destacan tres grupos; en el
primero se ubica la Ciencias Biológicas, en el segundo Veterinaria de México y en
el tercero el resto de las revistas que presentan menos aplicaciones de estos
métodos.
El hecho de que la revista Ciencias Biológicas forme un grupo más aislado del
resto de las demás, pudiera estar asociado a que sus investigaciones están más
relacionadas a variables que son de tipo discretas y categóricas, por lo que sus
análisis estadísticos están más enfocados a los Métodos Estadísticos no
paramétricos.
37
Figura 2.1. Revistas relacionadas con la aplicación de los Métodos Estadísticos no
paramétricos.
En la figura 2.2, se reflejan los mapas referentes a la aplicación de los Métodos
Estadísticos no paramétricos con 214 aplicaciones. En este sentido sobresale las
revistas Ciencias Biológicas con las dócimas Prueba Exacta de Fisher, seguida
por Mann-Whitney y Kruskal-Wallis y la Veterinaria de México con la dócima Chicuadrado (  2 ).
En este caso se obtuvo un ligero incremento en la aplicación de los Métodos
Estadísticos no paramétricos que expresado en términos relativos representan el
15,09 %, con respecto al 2,12 % obtenido por De Calzadilla (1999) en el período
1987-1997.
38
Agrociencia
Archivo Zootecnia
c3
Com Alea
c3
Com Alea
c1
c4
X2
c4
X2
MW
c2
KW
0
c1
1
3
6
7
c2
KW
PE Fisher
4
MW
8
10
11
13
14
0
1
3
PE Fisher
4
Ciencias Biologicas
6
7
8
c4
X2
c2
KW
5
11
13
c2
KW
PE Fisher
8
16
19
22
24
27
0,0
0,4
0,9
1,3
1,8
2,2
3,1
27
30
c1
c4
X2
MW
c2
KW
1,8
2,7
3,6
MW
c2
KW
PE Fisher
4,4
5,3
6,2
7,1
8,0
Veterinaria
0
3
6
PE Fisher
9
12
15
18
21
24
Leyenda. Métodos Estadísticos no paramétricos
más usados
c3
Com Alea
Clúster 2 (c2): MW (dócima de Mann Whitney)
c1
Clúster 2 (c2): KW (dócima de Kruskal Wallis)
Clúster 2 (c2): PE Fisher (dócima Exacta de Fisher)
c4
X2
MW
c2
KW
0
2,7
c3
Com Alea
c1
0,9
4,0
PE Fisher
RCCA
c3
Com Alea
0,0
3,6
MW
Pastos Forrajes
c4
X2
14
c1
MW
3
13
c3
Com Alea
c1
0
11
Ciencias Pecuaria
c3
Com Alea
c4
X2
10
2
5
7
Clúster 4 (c4):
2
(dócima
 2 ) Chi-Cuadrado
PE Fisher
9
12
14
16
18
21
Figura 2.2. Métodos Estadísticos
estudios agropecuarios y biológicos.
23
no
paramétricos
más
usados
en
39
En la tabla 2.4 se muestra la bondad de ajuste del método, que al igual que en el
análisis anterior se corrobora el buen ajuste de la configuración de los datos,
considerando el Stress bruto normalizado, así como los resultados obtenidos por
el D.A.F y el coeficiente de congruencia de Tucker, estos últimos se encuentren
cercanos a 100%.
Mora y González (2009) indican que en el Escalamiento Multidimensional, el
método PROXSCAL minimiza el Stress bruto normalizado, estos valores se
obtienen mediante la fórmula introducida por Kruskal en 1964, quien ofreció una
guía para su interpretación.
Tabla 2.4. Bondad de ajuste de las temáticas por revistas, donde se aplican los
Métodos Estadísticos no paramétricos.
Medida
Stress bruto normalizado
Dispersión explicada (D.A.F.)
Coeficiente de congruencia de Tucker
Resultado
0,01539
0,98461
0,99228
Al tener en cuenta los criterios de bondad de ajuste, se considera que la solución
en dos dimensiones es apropiada. En la figura 2.3 se muestra la formación de
cuatro grupos, en el primero se unen aquellas revistas que tienen un
comportamiento similar en cuanto al análisis de sus temáticas por los Métodos
Estadísticos no paramétricos, en este sentido se observa que poseen poca
diversidad de estos en sus aplicaciones. El segundo grupo lo conforma la RCCA
que posee un comportamiento diferente, ya que realiza poco empleo de estos
métodos y en el tercer grupo se ubica Ciencias Biológicas y en el cuarto grupo se
40
encuentra Veterinaria de México, que son las que hacen un mayor empleo de la
estadística no paramétrica para el análisis de sus temáticas.
Según Guerrero y Ramírez (2002) el Escalamiento Multidimencional está basado
en la comparación de objetos o de estímulos, de forma que sí un individuo juzga a
los objetos A y B como los más similares, entonces las técnicas de Escalamiento
Multidimencional colocarán a los objetos A y B en el gráfico de forma que la
distancia entre ellos sea más pequeña que la distancia entre cualquier otro par de
objetos.
Figura 2.3. Revistas por temáticas con aplicación de los Métodos Estadísticos no
paramétricos.
En la figura 2.4 se visualizan las revistas donde sus temáticas son analizadas por
los Métodos Estadísticos no paramétricos aplicados a las Ciencias Agropecuarias.
41
En cada revista las temáticas que más abordan los Métodos Estadísticos no
paramétricos, son aquellas que enfocan su análisis desde el punto de vista teórico,
con la reproducción animal, estudios para probar y validar medicamentos en
humanos y salud animal, en este caso se destacan las revistas Agrociencia,
Archivos de Zootecnia, Ciencias Pecuarias, Ciencias Biológicas y Veterinaria de
México.
Sin embargo en otras temáticas que abordan las revistas no hay empleo de
Métodos Estadísticos no paramétricos, como es el caso de las revistas Pastos y
Forraje y la RCCA.
42
Agrociencia
Archivo Zootecnia
Past Prod Sem
c6
Bi otec
c4
c1
Est Ovi no
Prod Lec
Prod
c1
Prod Lec
Prod
Bovi n
c2
Aves
M ed
Ani Lab c3
Rep
c5
San Veg
Sal ud
1,0
2,0
Est Clhum
i
3,0
4,0
5,0
6,0
7,0
8,0
9,0
Bovi n
c2
Aves
M ed
Ani Lab c3
Rep
c5
San Veg
Sal ud
0,0
1,0
2,0
Ciencias Biologicas
Est Cl hum
i
3,0
4,0
Bi otec
c4
6,0
7,0
8,0
9,0
Past Prod Sem
c6
Bi otec
c4
Est Ovi no
c1
Est Ovi no
Prod Lec
Prod
c1
Prod Lec
Prod
Bovi n
c2
Aves
M ed
Ani Lab c3
Rep
c5
San Veg
Sal ud
2
4
Est Clhum
i
5
7
9
11
13
14
16
18
Bovi n
c2
Aves
M ed
Ani Lab c3
Rep
c5
San Veg
Sal ud
0,0
0,7
1,3
Est Cl hum
i
2,0
2,7
Pastos Forrajes
3,3
4,0
4,7
5,3
6,0
RCCA
Past Prod Sem
c6
Bi otec
c4
Past Prod Sem
c6
Bi otec
c4
Est Ovi no
c1
Est Ovi no
Prod Lec
Prod
c1
Prod Lec
Prod
Bovi n
c2
Aves
M ed
Ani Lab c3
Rep
c5
San Veg
Sal ud
0
5,0
Ciencias Pecuaria
Past Prod Sem
c6
0
Bi otec
c4
Est Ovi no
0,0
Past Prod Sem
c6
1
2
Est Clhum
i
3
4
5
6
7
8
9
10
Veterinaria
Bovi n
c2
Aves
M ed
Ani Lab c3
Rep
c5
San Veg
Sal ud
0
2
4
6
Est Cl hum
i
8
11
13
15
17
19
21
Leyenda. Temáticas más representativas
Past Prod Sem
c6
Bi otec
Clúster 1 (c1): investigaciones sobre Producción de semillas (Prod
Sem), Biotecnología (Biotec), Ovino, Producción de leche (Prod
Lec), Aves, Sanidad vegetal (San Veg).
c4
Est Ovi no
Clúster 2 (c2): estudios en Bovinos (Bovin) y Reproducción animal
c1
Prod Lec
(Rep).
Prod
Clúster 3 (c3): estudios médicos (Med), en animales de
Bovi n
c2
laboratorios (Ani Lab) y clínicos en humanos (Est Cli hum).
Aves
M ed
Ani Lab c3
Rep
c5
San Veg
Sal ud
0
2
5
7
Est Clhum
i
9
12
14
16
18
21
23
Clúster 4 (c4): métodos estadísticos (Est) aplicados a las ciencias
agropecuarias y Producción de alimento animal (Prod).
Clúster 5 (c5): estudios en Salud animal (Salud).
Clúster 6 (c6) investigaciones relacionadas con los Pastos (Pas).
Figura 2.4 Temáticas por revistas que emplean Métodos Estadísticos no
paramétricos para el análisis de sus investigaciones.
43
2.3.2. Encuesta estadística a los investigadores
En la encuesta a los investigadores (Anexo 2), se evidencia que el 97,1% de los
encuestados conocen con qué objetivo aplican la transformación de datos (figura
x y arcoseno ( p ) en el
2.5) y hacen mayor uso de las transformaciones
69,57% de los casos (48 encuestados), lo que se refleja en la tabla 2.5.
Este resultado se considera que está dado porque en las investigaciones
agropecuarias es frecuente la presencia de variables originadas por conteos y
porcientos,
que
según
autores
como
Steel
y
Torrie
(1992),
son
las
transformaciones adecuadas para este tipo de datos, cuando presentan
distribuciones de tipo Poisson y Binomial.
2,90%
Uso de transf. en total
Si
No
97,10%
Figura 2.5. Necesidad de aplicar la transformación de datos.
44
Tabla 2.5. Transformaciones de datos más empleadas según encuesta a los
investigadores.
Transformaciones
1
arcoseno
Dpto.
x
( p)
Log X
(1/x)
1
2
3
4
5
6
Total
%
3
10
8
1
1
0
23
33,3
8
5
6
4
1
1
25
36,2
0
1
2
5
0
2
10
14,5
0
0
1
0
0
1
2
2,9
x
2
1
1
1
3
1
9
13,0
Total
%
13
17
18
11
5
5
69
-
18,8
24,6
26,1
15,9
7,2
7,2
100
En la tabla 2.6 se presentan los aspectos más frecuentes manifestados por los
investigadores. Se obtuvo que un alto porciento de los encuestados conocen que
se logra con el uso de la transformación de datos, la usan con mayor frecuencia
en el ANAVA, desean continuar transformando y desconocen el uso de Métodos
Estadísticos alternativos.
Tabla 2.6. Aspectos más frecuente en las respuestas de las preguntas a los
investigadores.
Aspectos
Sabe que logra con el uso de la transformación de datos
Uso de la transformación de datos en el Modelo de Análisis de
Varianza
%
73
81,1
Continuar usando la transformación de datos
73,5
Desconocimiento de Métodos Estadísticos alternativos
62,3
Para realizar un análisis integral de la información, se aplicó el Método Estadístico
Multivariado de Escalamiento Multidimensional (PROXSCAL), teniendo en
45
consideración lo planteado por Miret (2005), las medidas de calidad de ajuste
obtenidas del análisis presentan una clasificación de excelente (tabla 2.7).
Tabla 2.7. Bondad de ajuste de los resultados a los investigadores.
Medida
Stress bruto normalizado
Dispersión explicada (D.A.F.)
Coeficiente de congruencia de Tucker
La
dispersión
explicada
y
el
Resultado
0,02642
0,97358
0,98670
coeficiente
de
congruencia
de
Tucker
respectivamente, presentan valores muy cercanos al 100%, que representan un
buen indicador de ajuste.
En la tabla 2.8, se sintetiza en dos dimensiones la información relevante. En la
dimensión uno sobresale el departamento con mayor peso, lo cual indica la
atención diferenciada que se debe realizar a cada departamento considerando sus
características particulares en el uso de estas temáticas y en la dimensión dos
sobresalen las variables relacionadas con el Tipo de transformaciones y Sabe que
logra con el uso de estas. Este análisis se realizó con el objetivo de visualizar las
variables
más
importantes
por
cada
dimensión
y
no
para
disminuir
dimensionalidad.
46
Tabla. 2.8. Resultados de los pesos de las variables por cada dimensión
.
Variables
1.- Departamento
2.- Necesidad de aplicar transformación de datos
3.- Tipo de transformaciones
4.- Análisis Estadístico donde utilizas las
transformaciones de datos con más frecuencia
5.- Sabe que logra con el uso de la transformación de
datos
6.- Continuar usando la transformación de datos
7.- Métodos estadísticos alternativos
Dimensión
1
2
-0,232
1,018
-0,518
0,286
0,505
0,530
-0,626
-0,292
-0,031
-0,533
-0,281
-0,068
0,308
-0,067
2.3.3. Diagnóstico a partir de la encuesta estadística a los investigadores:
Matriz DAFO
Después de aplicar la encuesta a los investigadores se conformó la Matriz DAFO,
para establecer acciones estadístico-metodológicas para el uso adecuado de las
transformaciones de datos, y la aplicación eficaz de Métodos Estadísticos
paramétricos y no paramétricos en la investigación científica, aspectos que sirven
como punto de partida para perfeccionar la actividad científico-investigativa, en el
área de los Métodos Estadísticos y sus aplicaciones agropecuarias (tabla 2.9).
El análisis de la Matriz DAFO logró identificar los aspectos más importantes
aportados por la encuesta a los investigadores del Instituto de Ciencia Animal, se
considera que deben ser utilizadas las Fortalezas, con el fin de atenuar las
Debilidades, aprovechando la Oportunidad del liderazgo científico de los
departamentos, para contrarrestar la Amenaza en cuanto al uso inadecuado de la
transformación de datos y propiciar la acogida de nuevos Métodos Estadísticos
como alternativas de análisis.
47
Tabla 2.9. Resultados de la Matriz DAFO
Fortalezas
Debilidades
 Conocen el por qué se usa la
 Alta preferencia por el empleo de las
transformación de datos.
transformaciones de datos, en lo
 Existen Métodos Estadísticos para el
 Desconocimiento
análisis de la información.
 Existencia
de
un
fundamental en el Modelo de ANAVA.
Dpto.
de
 El ICA centro de prestigio nacional e
Métodos
Estadísticos alternativos de análisis.
 Insuficiente
Biomatemática.
de
intercambio
conocimiento
del
uso
sobre
el
de
la
transformación de datos con los
internacional.
 Incremento de grados científicos en
investigadores del centro.
los jóvenes.
 Doctorado curricular colaborativo en
Biometría único en el país.
Oportunidades
 Se
Amenazas
el
 Insuficiente intercambio sobre el uso
para
de la transformación de datos con
implementar una estrategia de trabajo
profesionales de la Estadística y
estadístico-metodológica.
usuarios,
identifica
escenario
al
más
Dpto.
como
importante
 Nuevas líneas de investigación que
acomete el Dpto. de Biomatemática,
en
las
ciencias
agropecuarias y afines.
 Está muy arraigado el uso de los
para dar respuesta a necesidades de
Métodos
las investigaciones en las ciencias
paramétricos, sobre todo los Modelos
agropecuarias.
de ANAVA y Regresión.
Estadísticos
clásicos
 RCCA es la revista de más alto índice
de impacto en el país, en esta rama.
48
2.3.4. Consideraciones parciales
Del análisis de los resultados de las encuestas estadísticas bibliométricas y a los
investigadores se resume que:

Los Métodos Estadísticos no paramétricos más empleados, fueron las
dócimas  2 (Chi-Cuadrado), Mann-Whitney, Kruskal Wallis y Exacta de
Fisher.

Se identificaron por revistas las temáticas que fueron analizadas por
Métodos Estadísticos no paramétricos.

Casi la totalidad de los encuestados (97,10%) conocen el por qué del uso
de las transformaciones de datos, y más del 70% consideran su empleo
para lograr el cumplimiento de los supuestos teóricos del Modelo de
Análisis de Varianza, siendo esta la técnica de uso más frecuente.

Existe alta preferencia por el empleo de las transformaciones de los datos,
resultan más frecuentes, la

x y arcoseno ( p ).
El Departamento es el escenario de más importancia para encaminar un
trabajo futuro que permita mejorar la aplicación de estas herramientas.
49
CAPÍTULO III
MODELOS DE ANÁLISIS DE
VARIANZA PARAMÉTRICO Y NO
PARAMÉTRICO. USO DE LA
TRANSFORMACIÓN DE DATOS
CAPÍTULO III. MODELOS DE ANÁLISIS DE VARIANZA PARAMÉTRICO Y NO
PARAMÉTRICO. USO DE LA TRANSFORMACIÓN DE DATOS
3.1. Introducción
En este capítulo se analiza el cumplimiento de los supuestos teóricos del Análisis
de Varianza con y sin transformación de datos y se compararon los valores de
probabilidad de error tipo I de los diseños paramétricos con sus homólogos no
paramétricos Kruskal-Wallis y Friedman respectivamente,
Se realiza un análisis multidimensional de 12 indicadores estadísticos,
considerando el Análisis de Componentes Principales Categórico y la Regresión
Categórica para el diseño experimental aplicado, de ahí que el presente capítulo
tenga como objetivos:
Evaluar el comportamiento de la transformación de datos en el cumplimiento de
los supuestos teóricos básicos en variables discretas y categóricas en los Modelos
de Análisis de Varianza simple y doble de efectos fijos.
Analizar de forma integral indicadores estadísticos de los Modelos de Análisis de
Varianza paramétricos y no paramétricos, para establecer criterios de valor
teórico-práctico.
50
3.2. Materiales y métodos
3.2.1. Características principales de las investigaciones
La información analizada pertenece al archivo de las bases de datos procesadas
por el departamento de Biomatemática del Instituto de Ciencia Animal en el
período 2003-2011, ubicado en el municipio de San José de las Lajas, provincia
Mayabeque,
correspondiente
a
investigaciones
desarrolladas
por
los
departamentos de Monogástricos, Pastos y Fisiología, en aves, cerdos, pastos y
rumiantes.
Para el análisis de la información se emplearon los Modelos de ANAVA de
clasificación
simple
y
doble,
asociados
a
los
Diseños
Completamente
Aleatorizados (DCA) balanceados y Bloques al Azar (DBA), siendo las variables
analizadas discretas y categóricas.
3.2.1.1. Experimentos con Diseño Completamente Aleatorizado
Se analizan 16 experimentos con las características siguientes:
Experimento 1: Empleo del fósforo sérico y enzima fitasa en el metabolismo
mineral y el comportamiento productivo de la gallina ponedora.
Tratamientos: Arreglo factorial con 6 tratamientos (3 tipos de fósforos y 2 enzimas
fitasas).
51
Variables

Número de huevos/aves.

Intensidad de puesta.
Experimento 2: Empleo de levadura en la dieta de gallinas de reemplazo para
evaluar el rendimiento productivo de las aves.
Tratamientos: Diferentes porcientos de levadura 0, 10, 20 y 30.
Variables

Porciento de viabilidad en la semana 6.

Porciento de viabilidad en la semana 12.

Porciento de viabilidad en la semana 18.

Porciento de viabilidad total.

Porciento de puesta.

Números de huevos/aves.
Experimento 3: Empleo de levadura en la dieta de gallinas ponedoras, para
evaluar el rendimiento productivo de las aves.
Tratamientos: Diferentes porcientos de levadura 0, 5, 10 y 15.
52
Variables

Porciento de puesta.

Porciento viabilidad.

Color de la yema en la semana 32.

Color de la yema en la semana 38.

Color de la yema en la semana 44.
Experimento 4: Efecto de la miel rica de caña, combinada con una fuente de
proteína (soya) o con pienso tradicional, en el comportamiento productivo de
reproductoras lactantes.
Tratamientos: Control, Miel Rica + pienso de reproductora lactante y Miel Rica +
Soya.
Variables

Número de crías vivas.

Números de crías muertas.
Experimento 5: Empleo de la zeolita en cerdas para medir su efecto en las crías.
Tratamientos: Control, 3 % de zeolita y 6 % de zeolita.
Variables

Número de crías vivas.
53

Números de crías muertas.

Días de gestación.
Experimento 6: Repuesta fisiológica con la inclusión de los Granos de destilería
soluble (DDGS, siglas en inglés) en la dieta de cerdos de preceba.
Tratamientos: Inclusión de diferentes porcientos de DDGS en la dieta 0, 10, 20 y
30.
Variables

Conteo de levaduras.

Conteo de coliformes.

Conteo de lactobacilos.
Experimento 7: Evaluación de la actividad probiótica del cultivo de Bacillus subtilis
en pollos como animales de laboratorio.
Tratamientos: Tres tipos de cepas C-31, C-34 y E-44.
Variables

Conteo de bacterias totales hora 0.

Conteo de bacterias totales, hora 24.

Conteo de bacterias totales, hora 48.

Conteo de bacterias totales, hora 72.

Conteo de endosporas, hora 0.
54

Conteo de endosporas, hora 24.

Conteo de endosporas, hora 48.

Conteo de endosporas, hora 72.
Experimento 8: Evaluación de la actividad probiótica de los biopreparados C-7 y C65 y la mezcla de ambos en pollos hembras como animales de laboratorio.
Tratamientos: Dieta basal, dieta basal + C-7, dieta basal + C-65 y dieta basal + la
mezcla de C-7 y C-65.
Variables

Conteo de coniformes a los 21 días.

Conteo de anaerobios a los 21 días.

Conteo de lactobacilos a los 21 días.

Conteo de coniformes a los 42 días.

Conteo de anaerobios a los 42 días.

Conteo de lactobacilos a los 42 días.

Conteo de levaduras 42 días.

Mortalidad a los 42 días.

Porciento de viabilidad a los 42 días.
Experimento 9. Efecto de la proteína en la dieta de pollos de ceba.
Tratamientos: Diferentes porcientos (0, 5, 10, 15) de proteína en la dieta.
55
Variable

Mortalidad.
Experimento 10: Efecto de germinación en la composición química de granos de
Canavalia ensiformis.
Tratamientos: Diferentes intervalos de iluminación (24, 48, 72 y 96 horas).
Variables

Porciento de germinación con diferentes intervalos de iluminación.

Porciento de germinación oscuridad total.

Porciento de germinación iluminación total.
Experimento 11: Efecto de germinación en la composición química de granos de
Canavalia ensiformis.
Tratamientos: Diferentes días (3, 4, 6, 8, 10).
Variables

Porciento de germinación con diferentes intervalos de iluminación.

Porciento de germinación oscuridad total.

Porciento de germinación iluminación total.
56
Experimento 12: Efecto de germinación en la composición química de granos de
Mucuna.
Tratamientos: Diferentes intervalos de iluminación (48, 72 y 120 horas).
Variables

Porciento de germinación con diferentes intervalos de iluminación.

Porciento de germinación oscuridad total.

Porciento de germinación iluminación total.
Experimento 13: Efecto de germinación en la composición química de granos de
Mucuna.
Tratamientos: Diferentes días (3, 4, 6, 8 y 10).
Variables

Porciento de germinación con diferentes intervalos de iluminación.

Porciento de germinación iluminación total.
Experimento 14: Efecto de germinación en la composición química de granos de
Dolico.
Tratamientos: Diferentes días (3, 4, 6, 8 y 10).
57
Variables

Porciento de germinación con diferentes intervalos de iluminación.

Porciento de germinación oscuridad total.

Porciento de germinación iluminación total.
Experimento 15: Evaluación de la germinación y emergencia en el crecimiento de
Albizia Lebbeck.
Tratamientos: Diferentes sistemas de siembra viveros, sombreador y cabina.
Variables

Porciento de emergencia a la semana 6.

Porciento de emergencia a la semana 8.

Porciento de emergencia a la semana 11.

Porciento de emergencia a la semana 13.

Porciento de emergencia a la semana 19.

Porciento de emergencia a la semana 24.

Porciento de emergencia a la semana 29.

Porciento de emergencia a la semana 44.
Experimento 16: Efecto de la inclusión de la levadura Scchramyces Cervicese en
la población ruminal de vacas en producción de leche.
58
Tratamientos: Diferentes gramos en la dieta (0, 10 y 15).
Variables

Conteo de bacterias viables.

Conteo de bacterias celulolíticas.

Conteo de hongos celulolíticos.

Conteo de bacterias proteolíticas.

Conteo de levaduras.
3.2.1.2. Experimentos con Diseño de Bloques al Azar
Se analizan 5 experimentos, con las características siguientes:
Experimento 1: Evaluación de diferentes porcientos de DDGS en cerdas gestantes
de 1, 3 y 4 partos para medir el comportamiento reproductivo.
Tratamientos: Diferentes porcientos de inclusión de DDGS en la dieta (0, 30, 40,
50 y 60).
Variables

Números de nacidos totales en cerdas de un parto.

Números de destetados en cerdas de un parto.

Intervalo de destete/celos en cerdas de un parto.

Números de nacidos totales en cerdas de 3 y 4 partos.

Números de destetados en cerdas de 3 y 4 partos.
59

Intervalo de destete/celos en cerdas de 3 y 4 partos.
Experimento 2: Evaluación de diferentes porcientos de DDGS en cerdas gestantes
de un parto para medir su efecto en las crías y en las cerdas.
Tratamientos: diferentes porcientos de DDGS (0, 10%, 20% y 30%).
Variables

Números de nacidos totales.

Números de destetados.

Intervalo de destete/celos.
Experimento 3: Evaluación de diferentes clones de King-Grass en diferentes
épocas de corte.
Tratamientos: Evaluar 8 clones de King-Grass (H 31, H-30, CT-423, CT-457, H-48,
CT-442, CT-452, CT-115)
Variables
Dadas por épocas de corte y de no corte.

Números de tallos/surcos.

Números de rebrotes por yemas.

Número tallos/macollas.

Número de tallos/surcos.
60

Número de hojas/plantas.

Número de tallos/macollas.
Experimento 4: Efecto del Vitazyme en la Vigna unguiculata para medir el
rendimiento productivo de la planta.
Se aplicaron 9 tratamientos, consistían en:
Tratamiento 1: Control absoluto
Tratamiento 2: Control con fertilizantes (Rizobium + fórmula completa 0.25 t/ha)
Tratamiento 3: Aplicar 1.5 litros /ha de vitazyme en el surco antes del tape +
Rizobium.
Tratamiento 4: tratamiento 3 + aplicación foliar de vitazyme por aspersión a inicios
de la floración a razón de 1.5 litros/ha.
Tratamiento 5: tratamiento 2 + aplicación foliar de vitazyme por aspersión a inicios
de la floración a razón de 1.5 litros/ha.
Tratamiento 6: Aplicar 1.5 litros /ha de fitomass-E en el surco antes del tape +
Rizobium.
Tratamiento 7: tratamiento 6 + aplicación foliar de fitomass-E por aspersión a
inicios de la floración a razón de 1.5 litros/ha.
Tratamiento 8: tratamiento 3 + aplicación foliar de fitomass-E por aspersión a
inicios de la floración a razón de 1.5 litros/ha.
61
Tratamiento 9: Rizobium + aplicación foliar de una mezcla de 50 % fitomass E y
50% vitazyme por aspersión a inicios de la floración a razón de 1.5 litros/ha.
Variables

Números de vainas/plantas.

Números de plantas/m.

Porciento de floración a los 49 días.

Porciento de floración a los 56 días.
Experimento 5: Evaluar diferentes ecotipos de Tithonia Diversifolia a diferentes
alturas.
Tratamientos: Se realizó un arreglo factorial con 27 tratamientos (9 ecotipos
Tithonia Diversifolia y 3 alturas de siembras) e igual número de observaciones.
Variables

Número de tallos/surcos (muestreo 1).

Número de plantones (muestreo 1).

Número de hojas (muestreo 1).

Número de tallos/surcos (muestreo 2).

Número de plantones (muestreo 2).

Número de hojas (muestreo 2).

Número de tallos/surcos (muestreo 3).

Número de plantones (muestreo 3).
62

Número de hojas (muestreo 3).

Número de tallos/surcos (muestreo 4).

Número de plantones (muestreo 4)

Número de hojas (muestreo 4).

Número de tallos/surcos (muestreo 5).

Número de plantones (muestreo 5).

Número de hojas (muestreo 5).
3.2.2. Procesamiento y análisis estadístico de la información.
Para la evaluación del supuesto de normalidad se utilizó la dócima de Shapiro y
Wilks (1965). La homogeneidad de varianza se evaluó mediante la dócima de
Levene (1960). Ambas fueron aplicadas a las variables originales y a las
transformadas, mediante las transformaciones
X;
X  0,375 ; arcoseno ( p ) y
Log X.
Se aplicó el Análisis de Varianza paramétrico según los Diseños Completamente
Aleatorizado y de Bloques al Azar y sus homólogas no paramétricas las dócimas
de Kruskal-Wallis y Friedman respectivamente, conformando una matriz de datos
con los siguientes indicadores:
1. Tipo de experimento (Código).
2. Tipo de diseño (Diseño).
3. Número de tratamientos (No. tto).
63
4. Cumplimiento de los supuestos sin transformación (Cumpl S/T).
5. Cumplimiento de los supuestos con transformación (Cumpl C/T).
6. Valor de p de la dócima F de Fisher sin transformación ( Valorp S/T).
7. Valor de p de la dócima F de Fisher con transformación (Valorp C/T).
8. Valor de p para la dócima no paramétrica (Valorp NP).
9. Valor de Potencia de la dócima F de Fisher sin transformar (Potencia
S/T).
10. Valor de Potencia de la dócima F de Fisher con transformación
(Potencia C/T).
11. Tamaño de muestra (TM).
12. Distribución (Distcod).
Se aplicó la dócima de McNemar para verificar la existencia de un cambio
significativo entre las probabilidades de error tipo I (sin y con trasformación de
datos) de la dócima F de Fisher y sus homólogas no paramétricas Kruskal-Wallis y
Friedman, así como para las potencias (sin y con transformación de datos).
Se aplicó el Escalamiento Óptimo, para reducir la información a la menor
dimensión posible mediante el Análisis de Componentes Principales Categórico
(CATPCA), que permite identificar los principales indicadores y visualizar la
información mediante el gráfico Biplot. Este análisis se realizó con toda la
información y por diseños experimentales (DCA y DBA), y los arreglos factoriales,
de los tratamientos, para los diseños antes mencionados, en este último caso se
consideró la metodología indicada por Scheirer et al. (1976).
64
La fiabilidad del CATPCA se midió a través del coeficiente Alfa de Cronbach (α).
n

2

 si

k


α  
  1  i 1
k

1

 
s2
sum









Donde:
k :es el número de ítems de la prueba.
Si2: es la varianza del i-ésimo ítems.
S2sum: es la varianza total.
Las bases de datos fueron procesadas utilizando el tabulador electrónico Microsoft
EXCEL versión 9.0 (2003). Para el análisis de los supuestos teóricos se empleó el
paquete estadístico Statistica StatSoft (2003), para el Análisis de Varianza
paramétrico y no paramétrico el paquete estadístico InfoStat (2008) y para los
análisis del CATPCA y CATREG, se empleó el SPSS versión 19.0 (2010).
65
3.3. Resultados y discusión
3.3.1. Modelos de Análisis de Varianza simple y doble
3.3.1.1. Cumplimiento de supuestos y la transformación de datos
Para el análisis del cumplimiento de los supuestos teóricos se analizaron 100
variables que fueron transformadas mediante
X;
X  0,375 ; arcoseno ( p ) y
Log X.
Los resultados del análisis de los supuestos teóricos del ANAVA, se observan en
la tabla 3.1, el 69 % de las variables analizadas antes y después de ser
transformadas incumplieron dichos supuestos. En el 16% de los casos fue
innecesario su empleo, ya que se cumplían los supuestos del ANAVA antes de
realizar la transformación, solo en el 13% de las variables las transformaciones
fueron efectivas.
Tabla 3.1. Resumen del cumplimiento de los supuestos teóricos del ANAVA.
Cumplimiento de los
supuestos
S/T
C/T
No
No
Si
Si
No
Si
No
Si
Total
S/T: Sin transformación
%
69
13
2
16
100
Modelo del ANAVA
Clasificación Simple
Clasificación Doble
No.
%
No.
%
41
12
2
11
66
62,1
18,2
3,0
16,7
100
28
1
5
34
82,4
2,9
14,7
100
C/T: Con transformación
En esta misma tabla se observa que el modelo de clasificación doble fue el que
presentó los resultados más bajos, pues en el 82,4% de las variables analizadas
66
las transformaciones no mejoraron el cumplimiento de los supuestos teóricos, solo
en el 2,9% de los casos el empleo de las transformaciones fue efectivo.
En sentido general en este análisis se observa que en el 85 % de los casos la
transformación de datos no cambia su respuesta en cuento al cumplimiento de los
supuestos teóricos del ANAVA.
Sakia (1990) plantea que no siempre las transformaciones son capaces de
solucionar los problemas que se presentan cuando se incumplen los supuestos
teóricos del ANAVA.
Estos resultados coinciden con los obtenidos por De Calzadilla (1999), al estudiar
el cumplimiento de los supuestos teóricos en Modelos de ANAVA empleando las
transformaciones
X y
X  0,375 , obtuvo que solamente el 10,3 % de las
variables proporcionaron el cumplimiento de los supuestos teóricos, siendo en el
análisis de ANAVA de clasificación doble (DBA) más crítico.
Otros resultados que coinciden con este análisis fueron los obtenidos por Cabrera
(2002), que estudió el comportamiento de siete transformaciones de datos entre
las se encuentran
X,
X 1,
X  0,5 ,
X  0,375 , log (X+1), log (X+(k/2)), log
[log (X+2)] y X1 – (b/2), en un ANAVA de clasificación simple en un experimento de
plagas agrícolas, comprobó que las transformaciones empleadas no mejoraron el
cumplimiento de los supuestos del ANAVA. Por otra parte, Font et al. (2007) en un
67
experimento con aves, donde usa las transformaciones
X y Log X, sin mejorar
el cumplimiento de estos supuestos.
Menchaca (1973) indica que las transformaciones de datos deben ser utilizadas
con eficacia en la práctica, sin embargo en el análisis anterior realmente no es así
porque en la mayoría de los casos no resultaron adecuadas.
Cochran y Cox (1999) plantean que las transformaciones de datos se utilizan
cuando los errores experimentales siguen una distribución asimétrica, y en tal
sentido se busca una transformación que coloque a los datos en una escala tal
que la varianza del error sea casi constante.
Sin embargo, en la investigación que se realiza se observa que no se hace empleo
de otros Métodos Estadísticos alternativos, sin necesidad de recurrir al uso de las
transformaciones de datos. En esta dirección se sugiere una reflexión por parte de
los investigadores con los especialistas de Estadística, para definir el método más
adecuado según los objetivos propuestos en la investigación.
Se concluye que en muchas ocasiones las transformaciones empleadas no
mejoran el cumplimiento de los supuestos del ANAVA, y es frecuente un uso
excesivo de las mismas sin que se logre el objetivo para el cual fueron propuestas.
68
3.3.1.2.
Probabilidad de error tipo I y potencia de la dócima F
En la tabla 3.2 se observa que de las 66 variables analizadas, para el DCA en la
dócima F de Fisher (con y sin transformación), y esta comparada con su homóloga
no paramétrica Kuskal-Wallis, en el 100 % de los casos se mantiene el mismo
criterio de decisión.
Tabla 3.2. Frecuencia de coincidencias en la toma de decisión.
DCA
Dócimas
F de Fisher C/T y S/T
F de Fisher S/T y
Kruskal-Wallis
F de Fisher C/T y
Kruskal-Wallis
F de Fisher S/T y
Friedman
F de Fisher C/T y
Friedman
DBA
No.
66
%
100
66
100
66
-
100
-
-
-
No.
33
-
%
97,05
-
-
-
31
91,7
30
88,2
En el caso del DBA se observó que de las 34 variables analizadas, para el caso de
la dócima F de Fisher (con y sin transformación de datos) se dan las mayores
coincidencias (97,05%). Este resultado coincide con los obtenidos por Siegel
(1970), al referirse a un análisis realizado por Friedman en 1937 y con los
obtenidos por Guerra et al. (2000), considerando este mismo diseño.
Es de destacar que en la tabla 3.2, en la primera línea la dócima F de Fisher (con
y sin transformación) presenta resultados similares en cuento a la toma de
decisiones.
69
Para verificar si existen cambios significativos entre los valores de probabilidad de
error tipo I de la dócima F de Fisher (con y sin transformación de datos) para los
DCA, DBA y ambos diseños, comparadas con sus homólogas no paramétricas
Kruskal-Wallis y Friedman respectivamente, al igual que las potencias (con y sin
transformación de datos) se empleó la dócima de McNemar, según lo propuesto
por Siegel (1970) y Siegel y Castellan (1995).
En la tabla 3.3 se evidencia la no existencia de cambios significativos entre las
probabilidades de error tipo I de la dócima F de Fisher (con y sin transformación
de datos), pues los valores de probabilidad son superiores a 0,05, se aprecia
estabilidad en los resultados, como en la tabla 3.2.
Sin embargo, cuando se compara la dócima F de Fisher sin transformación de
datos con sus homólogas no paramétricas se aprecia que solo en el DBA (con la
dócima no paramétrica Friedman) se muestran cambios significativos.
Tabla 3.3. Resultados de la dócima de McNemar para los valores de probabilidad
de error tipo I.
Diseños
DCA
DBA
Ambos
Dócima F de Fisher C/T y S/T
Estadístico
Valor p
0,33
1,00
0,001
0,25
0,98
0,65
Dócima F de Fisher S/T y
dócima homóloga NP
Estadístico
Valor p
0,001
3,00
1,29
0,63
0,0001
0,13
Se considera que este resultado está asociado a que de las 34 variables
analizadas, con respecto a la dócima de Friedman, 26 de estas (76,47%),
70
presentan probabilidades de error tipo I por encima de 0,05, y la dócima F de
Fisher posee 20 variables (58,82%) en esta situación.
Por otra parte en el DCA, de las 66 variables analizadas, la dócima Kruskal-Wallis
presenta probabilidades de error tipo I por encima de la F de Fisher, en 43 casos,
que representa el 65,15%. Por lo que los valores de probabilidad de error tipo I de
las dócimas Kruskal-Wallis y Friedman fueron superiores a la de F de Fisher
(65,15 y 76,47) respectivamente, aspecto que se considera que debe ser
analizado con mayor profundidad en próximas investigaciones.
Un estudio similar a este fue realizado por Quintero y Durán (2008) en
investigaciones forestales, los que emplearon la dócima de McNemar para
comparar los valores de probabilidad de error tipo I de las dócimas  2 de bondad
de ajuste y Rao-Scott con corrección de 2do orden, para establecer la existencia de
cambios significativos.
Al verificar la existencia de cambios significativos para las potencias (con y sin
transformación de datos) tabla 3.4, se observa que el DBA mostró cambios
significativos, lo que se considera que está dado a que cuando se analizan las
potencias con y sin transformación, la mayor cantidad de variables tienen valores
por debajo del 80%, 20 de estas representan el 59% y 24 el 71% respectivamente.
71
Tabla 3.4. Resultados de la dócima de McNemar para las potencias de la dócima
F de Fisher.
Diseños
DCA
DBA
Ambos
Estadístico
0,20
3,00
0,11
Valor P
0,97
0,0001
0,51
La potencia de una dócima es un indicador que en muchas ocasiones no es tenido
en cuenta en las investigaciones, lo que merece una atención especial en la toma
de decisiones, por la información que aporta.
En tal sentido resulta oportuno señalar que en general no se tiene en cuenta el
uso de las tablas propuestas por Menchaca (1974, 1975); Venereo (1976);
Caballero (1979) y Menchaca y Torres (1985), las que sirven de apoyo para la
aplicación de los Modelos de ANAVA. Es importante destacar que en la actualidad
existe el apoyo de algunos paquetes estadísticos entre los que se encuentran el
InfoStat, el G Power y el SPSS, que aportan el valor de la potencia.
3.3.2. Consideraciones parciales
De los resultados obtenidos del Modelo de ANAVA paramétrico y no paramétrico,
aplicados a los DCA y DBA, se resume que:

El uso de las transformaciones de datos no resuelven en muchos de los
casos el incumplimiento de los supuestos teóricos en los Modelos de
ANAVA para los DCA y DBA.

Las dócimas no paramétricas Kruskal-Wallis y Friedman, comparadas con F
de Fisher (con y sin transformación de datos) presentan altos indicadores
72
de eficiencia relativa, dado por el nivel de coincidencia en la toma de
decisiones.

No se mostraron cambios significativos para los valores de probabilidad de
error tipo I de la dócima F de Fisher (con y sin transformación de datos).

No se observan cambios significativos en las probabilidades de error tipo I
de la dócima F de Fisher con sus homólogas no paramétricas KruskalWallis y Friedman.

Los valores de potencias (con y sin transformación de datos) no poseen
cambios significativos para el DCA y en ambos diseños, no así para el DBA.
3.3.3. Análisis de Componentes Principales Categórico. Aplicación a
indicadores de los Modelos de Análisis de Varianza.
Para realizar un análisis integral de los indicadores establecidos con anterioridad
se aplicó el Análisis de Componentes Principales Categórico (CATPCA), para
identificar los más importantes y sus posibles relaciones.
En la tabla 3.5 se observa que el método logra explicar aproximadamente el 61%
de variabilidad de la información original, en dos dimensiones, con un coeficiente
Alfa de Cronbach total que expresa un nivel de fiabilidad excelente (0,94), lo que
indica que el método empleado es adecuado.
Se destaca en la dimensión uno que explica 43% de la varianza total, con un Alfa
de Cronbach de 0,88, lo que evidencia que las variables originales representadas
en esta dimensión presentan un buen nivel de fiabilidad, según la escala
73
propuesta
por Hair et al. (1999), que considera que el método es aceptable,
cuando el valor de este coeficiente está entre 0,6 y 0,7.
Tabla 3.5. Resultados del coeficiente Alfa de Cronbach para los indicadores de los
Diseños Completamente Aleatorizados y Bloques al Azar.
Varianza explicada
Dimensión
1
2
Total
Alfa de
Cronbach
,880
,576
,941
Total
(Autovalores)
5,176
2,120
7,296
% de la
varianza
43,130
17,671
60,800
Los indicadores que presentan mayor peso por cada dimensión se muestran en la
tabla 3.6, en la dimensión uno están los relacionados con la probabilidad de error
tipo I y la potencia. En la dimensión dos sobresalen los indicadores relacionados
con el número de tratamiento (No. tto), tipo de diseño (DCA y DBA) y tipo de
experimento.
Tabla 3.6. Resultados de los pesos de los indicadores por cada dimensión para los
Diseños Completamente Aleatorizados y Bloques al Azar.
Indicadores
Tipo de experimento
Cumplimiento de los supuestos sin transformación
Cumplimiento de los supuestos con transformación
Probabilidad de error tipo I sin transformación
Probabilidad de error tipo I con transformación
Probabilidad de error tipo I no paramétrica
Potencia sin transformación
Potencia con transformación
Tamaño de muestra
Número de tratamientos
Diseño
Distribución
Dimensión
1
2
-,351
-,673
-,027
,372
-,179
,329
-,186
,923
-,152
,952
-,068
,942
,061
-,938
,122
-,905
,581
-,173
,236
,764
,505
,730
-,157
,439
74
Los indicadores que sobresalen en la dimensión uno presentan correlaciones por
encima de 0,80 en valor absoluto y los de la dimensión dos tienen correlaciones
positivas por encima de 0,70 (Anexo 3). Se debe destacar que las altas
correlaciones negativas entre los valores de probabilidad de error tipo I y las
potencias, se traducen en que a bajos valores de p corresponden altas potencias.
Estos resultados coinciden con los obtenidos por Vásquez (2013) cuando realiza
un análisis de correlación entre las probabilidades de error tipo I y las potencias,
diferentes tamaños de muestras y réplicas en un diseño de Bloques al Azar,
considerando distribución Normal y Binomial.
En el análisis del gráfico Biplot, (figura 3.1), se corrobora lo antes señalado
respecto a la asociación importante de los valores de probabilidad de error tipo I y
de las potencias (con y sin transformación de datos), presentando posiciones que
reflejan las altas correlaciones negativas.
75
Figura 3.1. Biplot de los indicadores analizados.
Se considera que este aspecto está dado por lo señalado por Steel y Torrie
(1992); Peña (1994) y Torres et al. (1998) que plantean que la dócima F de Fisher
tiene la característica de ser robusta ante la heterogeneidad de varianza y su poca
afectación, sobre todo, cuando se trabaja con igual número de observaciones por
tratamientos, como es el caso de los diseños analizados.
Por otra parte las altas correlaciones negativas entre la potencia y la probabilidad
de error tipo I para el caso de la dócima no paramétrica, se debe a que está última
con respecto a la dócima paramétrica (bajo el supuesto de distribución Normal)
presenta una alta Eficiencia Asintótica Relativa (ARE), que es del 95,5%. Esto
significa que para lograr iguales resultados, la dócima no paramétrica debe tener
76
un tamaño de muestra de 100, mientras la paramétrica un tamaño de muestra de
95 observaciones, este último aspecto es abordado por Siegel (1970); Siegel y
Castellan (1995) y De Calzadilla (1999), basado en el criterio de potenciaeficiencia.
Aunque el tamaño de muestra no se asocia de manera importante con ninguno de
los indicadores, es un aspecto a considerar en las investigaciones. En este
sentido, Vásquez (2011) realiza un estudio utilizando datos simulados bajo el
supuesto de distribución Binomial, considerando entre diferentes indicadores el
porciento de rechazo de Ho y obtuvo resultados similares, al comparar la dócima F
de Fisher con su homóloga no paramétrica de Friedman, asociado al DBA.
Se aprecia la asociación del diseño con el número de tratamientos (identificados
en la dimensión dos), esto responde a que los diseños presentan diferentes
números de tratamientos de acuerdo a los experimentos analizados.
En resumen se considera que al ser la dócima F de Fisher robusta hace que
presente una alta potencia conjuntamente con una baja probabilidad de cometer
error tipo I, manifestada en las altas correlaciones negativas entre las potencias y
los valores de probabilidad de error tipo I (con y sin transformación de datos).
La tabla 3.7 presenta el análisis de CATPCA para los indicadores estudiados
relacionados con los DCA y DBA con arreglo factorial de los tratamientos. Al igual
que el análisis anterior en dos dimensiones se logra explicar aproximadamente
77
una varianza total del 93%, con un Alfa de Cronbach que presenta un nivel de
fiabilidad excelente de 0,98, lo que muestra que el método empleado es
adecuado, en este sentido se destaca la dimensión uno con una varianza
explicada de 61,31%.
Tabla 3.7. Resultados del coeficiente Alfa de Cronbach para los experimentos con
arreglo factorial de los tratamientos.
Dimensión
1
2
Total
Alfa de
Cronbach
,910
,692
,989
Varianza explicada
Total
% de la
(Autovalores)
varianza
4,905
61,313
2,532
31,654
7,437
92,967
En la tabla 3.8 se presentan los indicadores con mayor peso o ponderación por
cada dimensión, se destacan en la dimensión uno los indicadores relacionados
con las probabilidades de error tipo I y las potencias, al igual que el análisis
anterior presentan una asociación importante, mostrando correlaciones positivas y
negativas de muy altas a perfectas por encima de 0,90 (Anexo 4), lo que reafirma
que a altos valores de potencias bajos valores de probabilidades de error tipo I.
No aparece en la tabla 3.8 los indicadores Cumplimiento de los supuestos sin
transformación porque fue excluido al presentar resultados constantes y la
distribución de los datos porque fue la misma para todos los casos.
78
Tabla 3.8. Resultados de los pesos de los indicadores por cada dimensión para los
experimentos con arreglo factorial de los tratamientos.
Indicadores
Tipo de experimento
Cumplimiento de los supuestos con transformación
Probabilidad de erro tipo I sin transformación
Probabilidad de error tipo I con transformación
Probabilidad de error tipo I no paramétrica
Potencia sin transformación
Potencia con transformación
Tamaño de muestra
Dimensión
1
2
,219
-,947
-,168
,820
,129
,983
,129
,983
,130
,983
-,068
-,954
-,108
-,986
-,219
,947
En esta misma tabla se observa que en la dimensión dos sobresalen los
indicadores relacionados con el tipo de experimento, cumplimiento de los
supuestos teóricos y el tamaño de muestra, además se observa que estos
indicadores presentan correlaciones altas de 0,685 y -1,000 (Anexo 4).
En la figura 3.2 se presenta el Biplot de los indicadores para los experimentos con
arreglo factorial de los tratamientos, se considera como aspecto de interés una
agrupación similar entre las probabilidades de error tipo I y las potencias, a las
presentadas en el Biplot de la figura 3.1 y los argumentos dados.
79
Figura 3.2. Biplot de los indicadores para los experimentos con arreglo factorial de
los tratamientos.
Para confirmar los resultados anteriores y teniendo en cuenta los aspectos que
inciden en la potencia estadística, dado por Menchaca y Torres (1985) y Camacho
(2007), se realizó el análisis de Regresión Categórica (CATREG) para establecer
la relación entre la potencia (con y sin transformación de datos) con los
indicadores que teóricamente deben incidir en esta.
Al analizar la potencia sin transformación con el resto de los indicadores, se
obtiene que el coeficiente de determinación (R2) es 0,91, por lo que la regresión
logra explicar el 91% de la variabilidad de la potencia.
En la tabla 3.9 se aprecia que el indicador que tiene una influencia significativa
negativa sobre la potencia sin trasformar, es el valor de probabilidad de error tipo I
80
sin transformar, resultado que reafirma los obtenidos con anterioridad, pues siguen
siendo estos indicadores los de mayor importancia en el análisis.
Tabla 3.9. Estimaciones de los coeficientes de regresión en el CATREG para
potencias sin transformación.
Indicadores
Tipo de experimento
Cumplimiento de los supuestos
sin transformación
Probabilidad de error tipo I sin
transformación
Tamaño de muestra
Número de tratamientos
Diseño
Distribución
Coeficientes tipificados
Bootstrap
(1000)
Estimación
de error
Beta
típico
-,039
,079
gl
2
F
,235
Sig.
,791
-,051
,081
2
,404
,669
-,808
-,190
-,127
-,009
-,020
,078
,112
,127
,095
,081
3
2
2
2
2
106,939
2,849
,992
,008
,058
,000
,065
,376
,992
,944
La tabla 3.10 muestra la importancia relativa de la contribución de las variables
predictoras en la potencia, en que se reitera la probabilidad de error tipo I sin
transformación, como el indicador más importante, aspecto analizado en el
Análisis de Componentes Principales Categórico (CATPCA).
Tabla 3.10. Importancia de los indicadores en CATREG para potencias sin
transformación.
Indicadores
Tipo de experimento
Cumplimiento de los supuestos sin transformación
Probabilidad de error tipo I sin transformación
Tamaño de muestra
Número de tratamientos
Diseño
Distribución
Importancia
-,006
,001
,864
,109
,031
,004
-,003
81
Cuando se analiza la potencia con transformación, con los mismos indicadores
anteriores, se observa que el 89% de la variabilidad de la potencia está explicada
por los indicadores analizados, resultado similar a cuando se realizó la relación
con la potencia sin transformar.
Al igual que el análisis anterior se observa que el único indicador que tiene una
influencia significativa sobre la potencia trasformada, es la probabilidad de error
tipo I con transformación, expresado en la tabla 3.11, lo que muestra que la
relación de la potencia (con y sin transformación de los datos) con los indicadores
dados presentan resultados similares, en resumen se considera que estos son
invariante respecto a la transformación de los datos.
Tabla 3.11. Estimaciones de los coeficientes de regresión en el CATREG para
potencias con transformación
Indicadores
Código
Tamaño de muestra
Número de tratamientos
Diseño
Distribución
Cumplimiento de los supuestos con
transformación
Probabilidad de error tipo I con
transformación
Coeficientes
tipificados
Bootstrap
(1000)
Estimación
de error
Beta
típico
-,125
,134
-,126
,118
-,062
,193
-,007
,157
-,068
,050
gl
2
3
1
2
2
F
,878
1,143
,104
,002
1,838
Sig.
,420
,338
,748
,998
,167
,010
-,837
1
3
,014
82,924
,906
,000
,082
,092
Se reitera como indicador más importante con relación a la variable respuesta la
probabilidad de error tipo I, corroborando los resultados del CATPCA.
82
Tabla 3.12. Importancia de los indicadores en CATREG para potencias con
transformación.
Indicadores
Tipo de experimento
Tamaño de muestra
Número de tratamientos
Diseño
Distribución
Cumplimiento de los supuestos con transformación
Probabilidad de error tipo I con transformación
Importancia
-,002
,069
,014
,002
-,010
,002
,926
3.3.4. Consideraciones parciales.

Se identifican y visualizan los indicadores más importantes, corroborando
los resultados obtenidos mediante los análisis bivariados.

Los resultados obtenidos con los indicadores en los DCA y DBA y para
ambos diseños con arreglo factorial de los tratamientos, mostraron
resultados similares, en cuanto a la probabilidad de error tipo I, así como las
altas correlaciones negativas entre este indicador y la potencia.

La distribución de los datos no mostró relación de importancia con el resto
de los indicadores analizados.

Se evidenció la fuerte relación entre la potencia y la probabilidad de error
tipo I (con y sin transformación de datos) en los Modelos de ANAVA de
efectos fijos (unifactorial y multifactorial).
83
CAPÍTULO IV
EL MODELO LINEAL GENERALIZADO.
APLICACIÓN A DIFERENTES
DISTRIBUCIONES.
CAPÍTULO IV. El MODELO LINEAL GENERALIZADO. APLICACIÓN A
DIFERENTES DISTRIBUCIONES.
4.1. Introducción
En este capítulo se emplea el Modelo Lineal Generalizado para las variables con
distribuciones Normal, Binomial y Poisson con sus correspondientes funciones de
enlace.
Se realiza un análisis comparativo del Modelo Lineal General (MLG) y el Modelo
Lineal Generalizado (MLGnz), a partir de varios indicadores se realiza un análisis
multidimensional, con el objetivo de: Analizar de forma integral indicadores
estadísticos del Modelo Lineal Generalizado, para establecer criterios de valor
teórico-práctico.
4.2. Materiales y métodos
4.2.1. Características principales de las investigaciones
Como continuidad al análisis estadístico anterior, se seleccionaron 26 variables de
las incluidas en el capítulo III, considerando aquellas que tienen distribuciones de
tipo Normal, Binomial y Poisson, por ser estas las más frecuentes en las variables
analizadas en el proceso de investigación.
84
4.2.2. Modelo Lineal Generalizado
Se utilizó el Modelo Lineal Generalizado (MLGnz) propuesto por Nelder y
Wedderburn (1972) como una extensión del Modelo Lineal General. Este modelo
comprende los siguientes componentes:
Yij     i  e ij
Donde:
Yij: Variable respuesta perteneciente a un miembro de la familia exponencial.
: Media general.
i: Efecto del i-ésimo tratamiento (i= 1;2….n).
eij: efecto del i-ésimo error aleatorio asociado a la j-ésima observación (j = 1,2…n).
i  g  =    g 1
Donde:
 : Se denomina predictor lineal, que está definido de la misma forma que el
i
Modelo Lineal General.
g: Una función de enlace monótona diferenciable que se describe como el valor
esperado de Yi, se relaciona con el predictor lineal  .
i
Las funciones de enlace considerando las distribuciones seleccionadas se
expresan en la tabla 4.1.
85
Tabla 4.1. Distribuciones y funciones de enlace.
Distribución
Función de enlace
Normal
Identidad:   
Poisson
Logarítmica:   log  
Binomial
  

Logística:   log 
1  
4.2.2.1. Procesamiento y análisis estadístico de la información
Se aplicó el Análisis de Varianza paramétrico según Diseño Completamente
Aleatorizado y el MLGnz, de acuerdo a los indicadores seleccionados.
1. Tratamiento (Tto)
2. Tamaño de muestra (TM)
3. Tipo de experimento (Tipoexp)
4. Valor de p de la dócima F de Fisher del MLG (PerrorIF)
5. Valor de p para la dócima
del MLGnz (PerrorI
)
6. Suma de cuadrado del error del MLG (SCerror MLG)
7. Devianza del MLGnz como criterios de bondad de ajuste (Devia MLGnz)
8. Distribución de las variables (Distribución)
Con estos indicadores se aplicó el análisis de Escalamiento Óptimo, con el
objetivo de identificar y visualizar la información mediante el gráfico Biplot, a partir
del Análisis de Componentes Principales Categórico (CATPCA).
La base de datos fue procesada utilizando el tabulador electrónico Microsoft
EXCEL versión 9.0 (2003). Para determinar la suma de cuadrado del error y la
86
probabilidad de error tipo I del MLG, se empleó el paquete estadístico Infostat
(2008). En el caso del MLGnz se empleó el paquete estadístico SAS versión 9.1.3
(2007) procedimiento GENMOD (Generalized Linear Model).
4.3. Resultados y discusión
4.3.1. Modelo Lineal General y Modelo Lineal Generalizado. Probabilidad de
error tipo I
En la tabla 4.2 se muestran los rangos de probabilidad de error de tipo I para los
modelos analizados; se observa que de las 26 variables analizadas 25 (8+13+4),
coinciden en la toma de decisiones, que representan el 96,15% de estas.
Tabla 4.2. Frecuencia de los rangos de probabilidad de error tipo I de la dócima F
de Fisher y la dócima  2 .
Dócima F de Fisher (MLG)
Dócima  2
<0,01
0,01-0,05
>0,05
Total
(MLGnz)
<0,01
8
4
1
13
0,01-0,05
0
0
0
0
>0,05
0
0
13
13
Total
8
4
14
26
En resumen en el MLG y el MLGnz presentan resultados similares en la toma de
decisión, no obstante el MLGnz rechaza a niveles más bajos (<0,01) que el MLG
(<0,05) de probabilidades de error tipo I. Esto puede estar dado a que estos
modelos mantienen cierta relación, pues el MLGnz es una extensión del MLG, con
la característica que no tiene que cumplir los supuestos del ANAVA, y al igual que
el MLG, posee una parte sistémica, según lo planteado por González (2001).
87
Según Ponsot (2009), cuando la variable respuesta se distribuye Normal y siendo
la función de enlace la Identidad (    ), el MLGnz se reduce al MLG. En
cualquier otro caso, el MLGnz cobra su propio espacio y tanto la estimación de los
parámetros como el ANAVA, deben ser realizados por métodos diferentes a los
propuestos para el MLG. Por lo que los métodos de estimación del MLGnz se
realizan a través de un proceso iterativo y a su vez presentan una medida de
bondad de ajuste llamada Devianza.
4.3.2. Análisis de Componentes Principales Categórico, para el análisis de
indicadores del Modelo Lineal General y el Modelo Lineal Generalizado.
En la tabla 4.3 se presentan los resultados del coeficiente Alfa de Cronbach. Se
muestra la adecuación del método, y que en ambas dimensiones se logra explicar
el 72,26% de la variabilidad de la información original.
Tabla 4.3. Resultados del coeficiente Alfa de Cronbach para el Modelo Lineal
General y Modelo Lineal Generalizado.
Varianza explicada
Dimensión
Alfa de
Total
% de la
Cronbach
(Autovalores)
varianza
1
,814
3,472
43,402
2
,648
2,309
28,858
Total
,945
5,781
72,260
En la primera dimensión se relacionan los indicadores de las probabilidades de
error tipo I de la dócima F de Fisher del MLG, y la dócima  2 del MLGnz, la suma
de cuadrado del error, la Devianza y la distribución. En la segunda dimensión
88
resultan importantes los indicadores tamaño de muestra y tipo de experimentos
(tabla 4.4).
Tabla 4.4. Resultados de los pesos de los indicadores por cada dimensión para el
Modelo Lineal General y el Modelo Lineal Generalizado.
Indicadores
Tratamientos
Tamaño de muestra
Tipo de experimento
Probabilidad de error tipo I dócima F de Fisher
Probabilidad de error tipo I dócima X2
Suma de cuadrado del error MLG
Devianza MLGnz
Distribución
Dimensión
1
2
,526
,350
-,303
,861
-,527
,719
,354
-,804
,347
-,795
,761
,410
,507
,696
-,507
-,696
Las probabilidades de error tipo I de ambas dócimas, presentan correlaciones
altas positivas entre sí como se observa en el Anexo 5. Esto está dado porque se
parte de la misma fuente de información del capítulo anterior y por la relación que
existe entre ambos modelos.
En el caso de la suma de cuadrado del error en el MLG y la Devianza del MLGnz,
se observa una correlación alta positiva. Se considera que se debe a que estos
indicadores miden dispersión en estos modelos, según Kaps y Lamberson (2004),
la Devianza es análoga a la Suma de cuadrado del error del MLG.
Por otra parte se observa que el tamaño de muestra y el tipo de experimento
presentan correlaciones muy altas como se aprecia en el Anexo 5, en el análisis
se tuvo en cuenta diferentes tipos de experimentos que tenían diferentes tamaños
de muestras de 3 a 15.
89
En la figura 4.1 se presenta el Biplot de los indicadores analizados a partir de los
resultados del CATPCA. Es de destacar la agrupación de los indicadores de
dispersión del MLG y el MLGnz en posición opuesta a la distribución de los datos
por las altas correlaciones negativas y la agrupación casi perfecta de las
probabilidades de error tipo I para ambos modelos.
Figura 4.1. Biplot de los indicadores estadísticos de los Modelos Lineal General y
Lineal Generalizado.
La distribución de los datos muestra una correlación alta y negativa con la suma
de cuadrado del error (r=-0,649) y una correlación prefecta negativa con la
Devianza (r=-1,000) (Anexo 5). Se considera que esta correlación perfecta
negativa entre la distribución de los datos y la Devianza, se debe a que en el
MLGnz se requiere el conocimiento de la distribución de los datos para establecer
la función de enlace correspondiente; por lo tanto el paso del MLGnz ajustado con
90
la distribución adecuada a los datos, a un ajuste con otra distribución, debe
provocar un aumento en el indicador de dispersión, que incide de forma negativa
en la precisión de los resultados.
4.3.3. Análisis comparativo del Modelo Lineal General y el Modelo Lineal
Generalizado y acciones metodológicas relacionadas con estos modelos.
Para realizar un análisis comparativo de los resultados del MLG y el MLGnz se
utilizó un experimento desarrollado en la Empresa Genética “Camilo Cienfuegos”,
de la provincia de Pinar del Río en el período 2007-2008, relacionada con la
producción del pasto Pennisetum purpureum (cv. Cuba CT-115).
Se analizaron tres muestreos y como caso de estudio se seleccionó el muestreo
dos que comprendió los meses junio-julio de 2007. Se empleó un DCA con tres
tratamientos y diez repeticiones. Los tratamientos consistieron en diferentes
métodos de siembra de pastos:
-
Plantación a vuelta de arado sin preparación del suelo.
-
Plantación a vuelta de arado con bueyes en suelo con preparación
convencional.
-
Plantación a vuelta de arado con tractor en suelo con preparación
convencional.
91
Las variables analizadas fueron:
1. No. tallos.
2. No. rebrotes.
3. No. hojas totales/tallos.
4. No. hojas totales/rebrotes.
5. No. hojas secas/tallos.
6. No. hojas secas/rebrotes.
Se verificó que la distribución de las variables es de tipo Poisson con la función de
enlace log μ .
El modelo que se empleó es el siguiente:
Yij     i  e ij
donde:
Yij: variable dependiente.
 : media general.
i : efecto del i-ésimo tratamientos. (i = 1,2, 3)
eij: efecto del i-ésimo error aleatorio asociado a la j-ésima observación (j =
1,2……10).
La función de enlace es:
η (μ) = log (μ)
Donde:
η (μ): función que relaciona a la media con el predictor lineal;
log (μ): función de enlace asociada a la distribución Poisson.
92
Para la bondad de ajuste del modelo se tuvieron en cuenta los criterios de
2
Devianza/gl y  gl (Chi - cuadrado).
En la tabla 4.5 se presentan los resultados de MLGnz para las variables
analizadas, teniendo en cuenta los criterios de bondad de ajuste a partir de la
distribución Poisson, con función de enlace logarítmica. Se observa que las
variables No. de tallos y No. rebrotes hojas totales obtienen valores del cociente
2
de la Devianza y de  gl cercanos a 1, lo que indica que el modelo para esas
variables presentó un buen ajuste.
Mora et al. (2007) y Dos Santos y Mora (2007) afirman que cuando estos
indicadores muestran valores cercanos a 1, se evidencia que el modelo presenta
un ajuste apropiado.
Tabla 4.5 Resultados de los criterios de bondad de ajuste al aplicar el Modelo
Lineal Generalizado.
Variables
No. tallos
No. rebrotes
No. tallos
hojas totales
No. rebrotes
hojas totales
No. tallos
hojas secas
No. rebrotes
hojas secas
GL
27
27
Devianza
25,95
13,05
2 de
Pearson
27,53
13,08
Desvianza/GL
0,96
0,48
2 /GL
1,01
0,48
SCerror
MLG
297,20
91,00
27
39,82
41,57
1,47
1,54
1733,71
27
19,71
19,92
0,73
0,74
330,11
27
6,32
6,33
0,23
0,23
70,90
27
45,29
37,87
1,68
1,40
138,00
93
Los valores por debajo o por encima de uno, son considerados como que existe
una subestimación o sobrestimación del modelo. Esto puede estar asociado a
diferentes causas de variación que no se tuvieron en cuenta, y se presenta en las
variables, No. rebrotes, No. tallos hojas totales, No. tallos hojas secas y No.
rebrotes hojas secas.
Según Morales y López (2009), en el análisis de datos relacionados con
proporciones y conteos, es común que haya presencia de sobrestimación,
situación que se presenta cuando la varianza expresada por los datos es mucho
más grande que la que predice el modelo.
Se determinó el grado de asociación entre las Devianzas y la suma de cuadrado
del error, mediante el coeficiente de correlación por rango de Spearman, el
resultado es r=0.60, que es similar a lo que se reporta en el Anexo 5, que es de
r=0,649.
En la tabla 4.6 se observa que existe coincidencia en la toma de decisiones de los
resultados obtenidos, aunque en la variable No. tallos hojas secas, el valor de
probabilidad de error tipo I del MLG y MLGnz son muy diferentes, en este caso la
dócima de McNemar no detectó cambios significativos.
94
Tabla 4.6. Resultados de los valores de probabilidad de error tipo I para el Modelo
Lineal General y el Modelo Lineal Generalizado.
Variables
No. tallos
No. rebrotes
No. tallos hojas totales
No. rebrotes hojas totales
No. tallos hojas secas
No. rebrotes hojas secas
Valor de
probabilidad de
error tipo I
MLG
MLGnz
0,1122
0,0841
0,0018
0,0180
0,0463
0,0040
0,0001
0,0001
0,0026
0,1725
0,2440
0,1161
Dócima de McNemar
Estadístico
Valor P
0,001
0,78
El MLGnz, según Ojeda (2004), Montgomery et al. (2005) y Cayuela (2010), es
una técnica unificadora que agrupa los Modelos de Análisis de Varianza (ANAVA),
y de Regresión clásicos, los Modelos no lineales como el Logístico y el de
Poisson, entre otros. Una hipótesis fundamental de este modelo es que la
distribución de la variable respuesta es un miembro de la familia exponencial de
distribuciones que incluye, la Normal, la Binomial, la de Poisson, la Normal
Inversa, la Exponencial y la Gamma, entre otras.
Aunque la toma de decisión en ambos modelos es similar, el MLGnz es mucho
más flexible que el MLG, pues la variable respuesta no requiere del cumplimiento
de los supuestos del Análisis de Varianza paramétrico, sólo se requiere conocer la
distribución de los datos y la función de enlace asociada a esta.
4.3.4. Consideraciones parciales

Entre el Modelo Lineal General y el Modelo Lineal Generalizado existen
correspondencias en cuanto a las probabilidades de error tipo I y los
95
indicadores de dispersión, dados por la suma de cuadrado del error y la
Devianza.
 El Modelo Lineal Generalizado resulta otra alternativa de análisis, al igual
que los Métodos Estadísticos no paramétricos, en presencia de variables
que no distribuyen de forma Normal.
4.3.5 Propuesta
de
acciones
metodológicas
para
investigaciones
relacionadas con la aplicación del Modelo de Análisis de Varianza
La propuesta de acciones metodológicas relacionadas con el Modelo de Análisis
de Varianza se resume en la figura 4.2, entre los aspectos que se proponen
sobresalen con mayor interés:
 La aplicación de la propuesta de acciones para diferentes tipos de
variables.
 En el análisis a priori o a posteriori, se propicia la realización de una
valoración crítica de aspectos como: tamaño de muestra, potencia de la
dócima F de Fisher, variabilidad de los datos y criterios técnicos del
investigador y del estadístico, entre otros aspectos.
 Realizar una valoración crítica sobre las consecuencias del incumplimiento
de los supuestos teóricos del Modelo de Análisis de Varianza y a partir de
aquí asumir la mejor opción, como:
96
-
Uso del Modelo de Análisis de Varianza paramétrico (si no son serias
las consecuencias en el incumplimiento de los supuestos de Análisis
de Varianza.
-
Uso del Modelo de Análisis de Varianza no paramétrico.
-
Uso de la transformación de datos.
-
Uso del Modelo Lineal Generalizado.
97
Investigaciones relacionadas con la aplicación del
Modelo de ANAVA
Aplicable a diferentes tipos
de variables
Planeación de
la investigación
A posteriori
A priori
Modelo de ANAVA paramétrico
Si
Evaluar el cumplimiento de los
supuestos teóricos
Valorar: tamaño de muestra,
potencia de la dócima F, variabilidad
de los datos, criterios técnicos del
investigador y el estadístico
Definir el Modelo de
ANAVA
Ejecutar el
experimento
Valorar las consecuencias
en cada caso
No
Alternativas
Uso de
transformación de
datos
Uso del Modelo
de ANAVA
paramétrico
Uso del Modelo de
ANAVA no
paramétrico
Uso del
MLGnz
No
Si
Cumplimiento de los
supuestos teóricos
Obtener los resultados
experimentales
Procesamiento, análisis e interpretación de los
resultados en el contexto dado
Figura 4.2. Propuesta de acciones metodológicas para investigaciones que aplican el
Modelo de Análisis de Varianza.
98
CONCLUSIONES
CONCLUSIONES
1. Se manifiesta una alta preferencia por el empleo de las transformaciones de
datos y en la mayoría de los casos analizados no resuelven el cumplimiento
de los supuestos teóricos básicos del Modelo de Análisis de Varianza.
2. Se pone en evidencia poco empleo de los Métodos Estadísticos no
paramétricos en las investigaciones agropecuarias.
3. La docima F de Fisher (con y sin transformación de datos) y con sus
homólogas no paramétricas Kruskal-Wallis y Friedman, presentaron
resultados similares en la toma de decisiones, dado por el alto nivel de
coincidencia en las probabilidades de error tipo I.
4. La potencia y la probabilidad de error tipo I son los indicadores que más se
destacan en los análisis realizados, mostrando una alta correlación
negativa.
5. El Modelo Lineal Generalizado resulta una alternativa de análisis, cuando
la variable respuesta incumple los supuestos teóricos básicos del Modelo
de Análisis de Varianza y en comparación con el Modelo Lineal General
presenta un grado de asociación de importancia con los indicadores
probabilidad de error tipo I y de variabilidad.
6. Las acciones metodológicas propuestas establecen orientaciones de valor
teórico-práctico para el empleo adecuado de la transformación de datos, los
Modelos de Análisis de Varianza de efectos fijos (paramétrico y no
paramétrico) y el Modelo Lineal Generalizado.
99
RECOMENDACIONES
RECOMENDACIONES
1. Capacitar a técnicos y usuarios de la Estadística sobre el empleo adecuado
de la transformación de datos, los Métodos Estadísticos no paramétricos y
el Modelo Lineal Generalizado.
2. Utilizar la transformación de datos en casos muy bien fundamentados por
criterios técnicos del investigador y el estadístico.
3. Ante tamaños de muestra pequeño que aporten bajas potencias y no
detecten
diferencias
significativas
que
resulten
evidentes
para
el
investigador, se sugiere como mejor opción el Modelo de Análisis de
Varianza no paramétrico, y con un conocimiento a priori de la distribución
de los datos se sugiere utilizar el Modelo Lineal Generalizado.
4. Continuar profundizando sobre el criterio de potencia-eficiencia de los
Métodos Estadísticos no paramétricos y paramétricos, relacionados con
diferentes variables discretas y continuas.
5. Continuar evaluando el comportamiento del Modelo Lineal Generalizado
con diferentes distribuciones de los datos.
100
REFERENCIAS
BIBLIOGRÁFICAS
Referencias bibliográficas
Agresti, A. 2007. Categorical Data Analysis. Editorial John Wiley & Sons. 2ª
edition. 349 p.
Álvarez, R. 2008. Estadística multivariante y no paramétrica con SPSS: Aplicación
a las ciencias de la salud. España: Díaz de Santos. [Consultado: 10 octubre
2009]
Disponible
en:
http://site.ebrary.com/lib/unlsp/Doc?id=10212356&ppg=361.
Aranzazu, D. A.; Rodríguez, B. J.; Zapata, M.; Bustamante, J. y Restrepo, L. F.
2007. Aplicación del análisis de factor de correspondencia múltiple en un
estudio de válvulas cardíacas en porcinos. Revista Colombiana de Ciencias
Pecuarias. 20(2) 129-140.
Arce, C.; de Francisco, C. y Arce, I. 2010. Escalamiento Multidimensional:
Concepto Y Aplicaciones. Revista Papeles del Psicólogo. 31(1) 46-56.
Avanza, M.; Massa, S; Martínez, G. y Giménez, L. 2006. Uso de transformaciones
para el cumplimiento de los supuestos de normalidad y homocedasticidad, para
modelos lineales. Revista Agrotecnia. [s/v](11) 18-23.
Balzarini, M.; Di Rienzo, A.; Cazanove, F.; González, L.; Tablada, M.; Guzmán,
W. y Robeldo, W. 2008. InfoStat paquete estadístico InfoStat versión 2008,
Manual de usuario, Grupo InfoStat, FCA, Universidad Nacional de Córdoba,
Argentina 115pp.
Bartlett, M. S. 1947. The use of transformations. Biometrics. 3 (1) 39–51.
Bono, R. y Arnau, J. 1995. Consideraciones generales en torno a los estudios de
potencia. Revista Anales de Psicología. 11(1) 193-202.
Box, G.E.P and Cox, D.R. 1964. An analysis of transformations. Journal of the
Royal Statistical Society. Series B (Methodological) 26(2) 211-252.
Caballero, A. 1979. Tamaños de muestras en diseños completamente
aleatorizados y bloques al azar donde la unidad experimental esté formada por
grupos de animales. Revista Cubana de Ciencia Agrícola. 13 (3) 225-235.
Cabrera, A. 2002. Criterios estadísticos en la descripción del patrón espacial y
diseño de muestreos para Thrips palmi Karny en papa. Tesis Doctorado en
Ciencias. Universidad Agraria de la Habana, Centro Nacional de Sanidad
Agropecuaria. 99 p.
Cabrera, A.; Guerra, C. W.; Herrera, M. and Suris, M. 2012. Non-parametric
statistical methods and data transformations in agricultural pest population
studies. Chilean Journal of Agricultural Research. 72(3) 440-443.
Camacho, J. 2007. Potencia estadística en el diseño de estudios clínicos. Nota
Estadística. Acta Médica Costarricense. 49(4) 203-204.
Cayuela, L. 2010. Modelos lineales generalizados (GLM). Curso de R CEAMA.
EcoLab, Centro Andaluz de Medio Ambiente. Universidad de Granada.
Cochran W. y Cox, G. 1999. Diseños experimentales. Segunda edición en
español. Editorial F. Trillas, S.A.México. 75pp.
Correa, J. 2006. Estudio de potencia de pruebas de homogeneidad de varianza.
Revista Colombiana de Estadística Volumen 29(1) 57-76.
Correa, J. 2007. Estimación por intervalo del parámetro de la distribución de
Poisson con una sola observación. Revista Colombiana de Estadística 30(1) 6975.
Cox, F. and Dunn, T. 2002. An analysis of decathlon data. Journal of the Royal
Statistical Society: Series D (The Statistician) 51(2) 179-18.
Cristo, M. 2001. Comportamiento de las dócimas no paramétricas respecto a las
paramétricas en distribuciones no normales. Tesis presentada en opción al
título de Master en Matemática. Universidad Central de Las Villa. Cuba
Cuesta, A. 2005. Análisis Multivariante. Dpto. Matemática, Estadística y
Computación. Universidad de Cantabria, España, 55 p.
Daniel W. W. 1978. Applied No- parametric Statistics. Ed. Houghton Myffin Co.
Boston. 503p.
De Calzadilla, J. 1999. Procedimientos de la Estadística no paramétrica.
Aplicaciones en las Ciencias Agropecuarias. Tesis presentada en opción al
título de Master en Matemática Aplicada a las Ciencias Agropecuaria. Cuba.
De Calzadilla J.; Guerra, W. y Torres, V. 2002. El uso y abuso de transformaciones
matemáticas. Aplicaciones en modelos de análisis de varianza. Rev. Cubana
Ciencia Agrícola. 36(1) 103-106.
Di Rienzo; J.A.; Casanoves, F.; González, L.M.; Tablada, E.M; Díaz, M. P.;
Robledo, E.W. y Balzarini, M. G. 2005. Estadística para las Ciencias
Agropecuarias. Edición Electrónica. Sexta Edición. Córdova. Argentina. 347p.
Dos Santos, A. y Mora, F. 2007. Análisis experimental de tratamientos floculantes
de residuos orgánicos derivados de la producción porcina. Revista Ciencia e
Investigación Agraria 34(1) 49-56.
Durbin, J. and Watson, G. S. 1950. Testing for Serial Correlation in Least Squares
Regression, I. Biometrika 37(1) 409–428.
Eisenhart, C. 1947. The assupmtions underlying the analysis of variance.
Biometrics 3(1) 3–21.
Faraway, J. J. 2006. Extending the Linear Model with R: Generalized linear, mixed
effects and nonparametric regression models. Journal Computational Statistics.
24(2) 369-370.
Font, H.; Torres, V.; Herrera, M. and Rodríguez, R. 2007. Fulfillment of the
normality and the homogeneity of the variance in frequencies of accumulated
measurement of the egg production variable in White Leghorn hens. Cuban J.
Agric. Sci. 41(3) 207-210.
Fox, J. 2007. Generalized Linear Models: An introduction, York Summer
Programme in Data Analysis, Dpto. of Sociology McMaster, University in
Hamilton, Ontario. Canada.
Fraser, D.A.S. 1957. Nonparametric Methods in Statistics, John Wiley & Sons, Inc,
New York, 299p.
García, Cl. 2002. Modelos Lineares Generalizados em
Agronômica. ESALQ/USP – Piracicaba, SP. Brazil. 121p.
Experimentação
Gibbons, J. D. 1971. Non-parametric Statisical Inference. Ed. MacGraw Hill Book.
Co. York. 306p.
Gómez, M.; Danglot, C. y Vega, L. 2003. Sinopsis de pruebas estadísticas no
paramétricas. Cuando usarlas. Revista Mexicana Pediatría 70(2) 91-99.
González, K. 2001. Los Métodos de los Mínimos Cuadrado Ponderado para la
estimación de los Modelos Lineales Generalizados. Tesis para optar el título
profesional de Licienciada en Estadística.
Greene, W. 1999. Análisis econométrico, 3ra ed., Prentice-Hall, Madrid, España.
325p
Guerra, C. W.; De Calzadilla, J. y Torres, V. 2000. Índice de eficiencia en relación
con procedimientos de la estadística no paramétrica. Revista Cubana de
Ciencia Agrícola 34 (1) 1-4.
Guerra, C. W. 2009. Apuntes sobre Escalamiento Óptimo y Multidimensional.
Aplicaciones. Centro Universitario de Güines. La Habana. Cuba. 15 p.
Guerra, C.W.; Herrera, M.; Vázquez y Quintero, A.B. 2010. Contribución de la
Estadística al análisis de variables cualitativas. Centro Universitario de Güines.
La Habana. Cuba.
Guerrero, F. M., Ramírez y J. M. 2002. El análisis de escalamiento
multidimensional: una
alternativa y un complemento a otras técnicas
multivariantes. Asociación Española de Profesores Universitarios de
Matemática para la Economía y la Empresas. X Jornada.
Hair, J. F.; Anderson, R. E.; Tatham, R. L. and Lack, W. C. 1999. Analisis
Multivariate. Practice. Hall Iberia. Madrid. España. 799p.
Hartley, H. 1950. The Maximum F-Ratio as a Short-Cut Test for Heterogeneity of
Variance’, Biometrika 37 (2) 308–312.
InfoStat, versión 2008. Software Estadístico. Grupo InfoStat, FCA, Universidad
Nacional de Córdoba. Editorial Brujas, Argentina.
Johnson, D. E. 2000. Métodos Multivariados Aplicados al Análisis de Datos.
International Thompson Editores, México 566p.
Johnson, R. 1990. Estadística Elemental. Grupo Editorial Iberoamérica. SA de CV.
592p.
Johnston, G. 2000 SAS software to fit the generalized linear model. Consultado
[25/2/09].
[on
line].
Disponible
en:
http://www.sas.com/rnd/app/papers/genmod.pdf.
Kaps, M. and Lamberson, W. R. 2004. Biostatistics for Animal Sciecie. Library of
Congress Cataloging-in-Publication Data. British Library, London, UK.
Khan, A. and Rayner, D. 2003. Robustness to Non-Normality of Common Tests
for the Many-Sample Location Problem. Journal of Applied Mathematics and
Decision Sciences. 7(4) 187-206.
Kreyszig, E 1974. Introducción a la Estadística Matemática. Principios y métodos.
Editorial Limusa, S.A. México. 505p.
Levene, H. 1960. Robust tests for the equality of variance. Contributions to
Probability and Statistics. Stanford University Press. pp. 278-292.
Lilliefors, H. 1967. "On the Kolmogorov-Smirnov Test for Normality with Mean and
Variance Unknown," J Am Stat Assoc. 62(318) 399-402.
Linares, G. 2001. Escalamiento Multidimensional: Conceptos y enfoques. Revista
Investigación Operacional. 22(2) 173-183.
López, P. C. y Romero, V.O. 1986. A propósito de las estadísticas no
paramétricas. Revista Estadística (Cuba) 18[s/n] 165-181.
Martín, A. y Luna, C.J. 1994 Bioestadística para las ciencias de la salud. 4ª Ed.
Norma, S.A. España.[s/v](1) 133-170.
Martínez, O. 1995. Métodos Estadísticos Multivariados en Biología Molecular y su
aplicación en investigaciones agrícolas. Agronomía Colombiana 12(1) 66–71.
McCullagh, P. and Nelder, J.A. 1989, Generalized Linear Models, London:
Chapman and Hall 412p.
Menchaca, M. A. 1973. Método corto para el análisis de transformaciones. Revista
Cubana de Ciencia Agrícola 7 (1) 145-149.
Menchaca, M. A. 1974. Tablas útiles para determinar tamaños de muestras en
diseño de Clasificación Simple y de Bloques al Azar. Revista Cubana de
Ciencia Agrícola. 8 (1) 111-116.
Menchaca, M. A. 1975. Determinación de tamaños de muestra en diseños
Cuadrados Latinos. Revista Cubana de Ciencia Agrícola. 9 (1) 1-3.
Menchaca, M. A. y Torres V. 1985. Tablas de uso frecuente en la Bioestadística.
Instituto de Ciencia Animal. Cuba.
Méndez, J. 1993. Uso y abuso de la Estadística en investigación .Tópicos de
Investigación y Posgrado III (2) 3–8.
Méndez, M. 2000. Introducción a la estadística para ornitólogos que odian el
ardeola." Colección Ciencia p'al Pueblo, nº 2 [Consultada: 20/04/08]. [on line]
Disponible
en:
http://www.escet.urjc.es/biodiversos/espa/personal/marcos/cpp/Estadis.pdf#sear
ch=%22 estadis.pdf%20normalidad%22.
Mesa, A. 1998. Determinación de la validez predictiva de los tests en el deporte.
En Memorias del II Simposio Internacional de Educación Física y Deporte
Escolar. Cienfuegos, Cuba.
Microsoft Excel versión 9.0. 2003. Microsoft Corporación. USA.
Miranda, I, 1997. La estadística del agropecuario. 10 preguntas 10 respuestas.
[Consultada
11/4/09].
[on
line].
Disponible
en:
http://www.monografias.com/trabajos19/
agropecuario.shtml.
estadistica-agropecuario/estadistica-
Miret, E.; Linares, G. y Mederos, M. V. 2002. Estudio comparativo de
procedimientos de Escalamiento Multidimensional a través de experimentos de
simulación. .Revista Investigación Operacional. 23 (1) 73-82.
Miret, E. 2005. Un enfoque unificado para técnicas de representación euclidiana.
Tesis para optar por el grado de Doctor en Ciencias Matemáticas. UH. La
Habana. Cuba. 148p.
Molina, O. y Espinosa de los Monteros, E. 2010. Rotación en el análisis de
Componentes Categóricos. Un caso práctico. Metodología de encuestas (SIPIE)
s/v(12) 63-88.
Montgomery, D. C.; Peck, E.A. y Vinig, G.G. 2005. Introducción al Análisis de
Regresión Lineal. Editorial Continental. Seguna reimpresión, México p 420.
Mood, A. M. y Graybill, F. A. 1972. Introducción a la teoría de la Estadística.
Ediciones Aguilar S. A. Madrid. España. 536 p.
Mora, F.; Perret, S.; Scapim. A.; Nunes Martins, E. y Paz Molina, M. 2007.
Variabilidad en el florecimiento de procedencia de Eucalyptus cladocalyx en la
Región del Coquimbo. Revista Ciencia de la Investigación Agraria 34(2) 131139.
Mora, M. C. y González, M. I. 2009. Caracterización del fracaso empresarial en
Colombia: Un enfoque con Escalado Multidimensional. Comisión de Estudios al
exterior. Documento de Trabajo 11/09. Universidad de Salamanca. España.
37p.
Morales, M. A. 2008. Estudio de la homogeneidad de la dispersión en un diseño
completamente al azar con datos de proporción de conteo [Tesis Maestría].
Universidad Nacional de Colombia, Departamento de Estadística. 124 p.
Morales, M. A. and López, L. A. 2009. Study of homogeneity of the dispersion in
one way classification models with proportions and counts data. Revista
Colombiana de Estadística. 32(1) 59-78.
Navarro, J. M.; Casas, G. M.; González, E. y Cuadrado, S. 2008. Estudio del
riesgo cardiovascular en el municipio de Santa Clara utilizando el método de
Regresión Categórica. Revista Investigación Operacional. 29(3) 224-230.
Navarro, J.M.; Casa, G. y González, E. 2010. Análisis de Componentes
Principales de Regresión para datos categóricos. Aplicación en la Hipertensión
Arterial. Revista de Matemática. Teorías y Aplicaciones 17(2) 199-230.
Nelder, J.A. and Wedderburn, R.W.M. 1972. Generalized linear models, Journal of
the Royal Statistical Society, Serie A. 135(3) 370–384.
Norell, L. 2003. ANOVA Estimators Under Imbalance in the One-Way Random
Model. Communications in Statistics: Theory & Methods 32(3) 601. Oficina
Nacional de Estadística (ONE). (2006). "Anuario Estadístico de Cuba 2005."
[Consultada: 06/10/10], Disponible en http://www.one.cu/aec2005indicec10.htm
Ojeda, M. 2004. La modelación estadística. Memorias: Foro de matemática del
sureste. 1(1) 69-76. México.
Ostle, B. 1974. Estadística Aplicada. Editorial Científico-Técnica. Ciudad de la
Habana, Cuba. 629p.
Peña, J.I. y Peña, D. 1986. Un contraste de normalidad basado en la
transformación de Box-Cox. Estadística Española. 110(1) 33–46.
Peña, S. 1994. Estadística. Modelos y métodos. 2. Modelos lineales y series
temporales. Alianza Editorial, S.A., Madrid. 745 p.
Pérez, R; Noda, M.; Moreno, M. y Pérez E. 2002. Aplicación de la estadística en
las diferentes etapas del ciclo de vida. Centro de Información y Gestión
Tecnológica, Revista Trimestral, Año VIII, No. 2 Universidad de Holguín.
Cuba.[Consulta: agosto 7 2010]. [on line]. Disponible en: http://www.
ciencias.Holguin.cu.2002/Junio/articulos/ARTl3.htm
Ponsot, E. 2009. Estudio de la agregación de niveles en el modelo logit. Proyecto
de tesis doctoral. Universidad de Los Andes Facultad de Ciencias Económicas y
Sociales Instituto de Estadística Aplicada y Computación Programa de
Doctorado en Estadística.
Quaglino, M. B. y Pagura, J. A. 1998. Una propuesta para algunas aplicaciones de
análisis de correspondencias múltiples. Terceras Jornadas Investigaciones en la
Facultad de Ciencias Económicas y Estadística. Instituto de Investigaciones
Teóricas y Aplicadas, Escuela de Estadística.
Quintero, M. A. y Durán M. J. 2008. Aplicación de dos pruebas estadísticas de
bondad de ajuste en muestras complejas: Un caso práctico en el campo
forestal. Revista Agrociencia 42 (3) 287-297.
Ramírez, D. C. 2004. Autocoorelación. [Datos en línea]. Consultada [14/9/12]
Disponible:
http://webdelprofesor.ula.ve/economia/dramirez/MICRO/FORMATO_PDF/Materi
aleconometria/Autocorrelacion.pdf.
Rodríguez, F. 2008. Estudio de métodos no paramétricos. Informe de pasantías
presentado como requisito para optar al título deLicenciado en Matemática
Mención Probabilidad y Estadística. Universidad Nacional Abierta, Centro Local
Metropolitano. Caracas Venezuela.
Royston, P. 1982. An extension of Shapiro and Wilk’s W test for normality to large
samples. J. Royal Statistical Soc. Series C. 31(2) 115-124.
SAS, versión 9.1.3, 2007. User’s guide statistics. SAS Institute Inc., Cary, NC, USA
Sabín, Y. 1999. Determinación a posteriori de la potencia en los diseños
experimentales clásicos. Tesis presentada en opción al título de Master en
Matemática Aplicada a las Ciencias Agropecuarias. UNAH. 65p.
Sakia, R. M. 1990. Retransformation bias: a look at the Box-Cox transformation to
linear balanced mixed ANOVA models. Metrika. 37(1) 345-351.
Sakia, R. M. 1992. The Box-Cox
TheStatistician. 41(2) 169-178.
transformation
technique:
a
review.
Salvador, M. y Gargallo, P. 2003. "Análisis Exploratorio de Datos", [en línea].
Consultada [25/09/2008]. Disponible en: http://www.5campus.com/leccion/aed
Santos, B. M., Gilreath, J. P. y Arbona, R. 2005. La estadística no paramétrica
para el análisis e interpretación de estudios de plagas: alternativas al analisis de
varianza. Manejo Integrado de Plagas y Agroecología. 75 (51) 83-89.
Scheffé, H. 1959. The Analysis of Varianza. John Wiley & Sons, Inc, New York.
477p.
Scheirer, J. C.; Ray, W. S. and Hare, N. 1976. The Analysis of Ranked Data
Derived from Completely Randomized Factorial Designs. Biometrics. 32(2) 429434.
Schuyten, G. 1990. Statistical Thinking in Psychology and Education. Proceeding
of the ICOTS III. Universidad de Otago. Dunedin. Australia. [En línea].
Consultada
[10/4/08]
Disponible
en:
http://www.virtual.unal.edu.co/cursos/ciencias/
2007315/lecciones_html/capitulo_2/leccion2/homogeneidad.html
Servy, E.; Garcia, M. y Paccapelo, V. 2007. Regresión no paramétrica: una
aplicación. Décimas Jornadas "Investigaciones en la Facultad" de Ciencias
Económicas y Estadística. Instituto de Investigaciones Teóricas y Aplicadas, de
la Escuela de Estadística. Universidad Nacional de Rosario.
Shapiro, S. and Wilk, B. 1965. An analysis of variance test for normality (complete
samples), Biometrika, 52 (2) 591-611.
Siegel, S. 1970. Diseño Experimental Noparamétrico aplicado a las Ciencias de la
Conducta. Edición Revolucionaria. Instituto Cubano del Libro. Habana, Cuba.
346p.
Siegel, S. y Castellan, N. J. 1995. Estadística no paramétrica aplicada a las
Ciencias de la Conducta. Cuarta edición. Editorial Trillas, México. p 57
Spiegel, M. R., Schiller, J. J. y Srinivasan, R. A. 2003. Teoría y problemas de
probabilidad y estadística. 2 ed. México D.F: McGraw-Hill. 416 p.
SPSS, versión 19.0. 2010. SPSS for Windows. Statistical Package for the Social
Sciences.
STATSOFT, INC. versión 6. 2003. (STATISTICA, data analysis software system).
www.statsoft.com.
Steel, R. G. y Torrie, I.H. 1992. Bioestadística: principios y procedimientos.
McGraw-Hill. Interamericana. México, SA. 228 pp.
Tejedor, F.J. 1999. Análisis de varianza: introducción conceptual y diseños
básicos. Madrid: La Muralla. 132 p.
Torres, V. y Segui, Y. 2001. Procesamiento práctico para la determinación de la
función de potencia a posteriori. Revista Cubana de Ciencia Agrícola 35(4)
319-322.
Torres, V.; Ajete, A.; Martínez, M. L. y Noda, A. 1998. ANALEST.Sistema
estadístico para el procesamiento de información. (folleto teórico).
Trujillo del Pozo. 2001. Modelos dinámicos de medición de la eficiencia. Una
comparación de métodos en la educación superior. VIII Encuentro de
Economía Pública. Universidad de Extremadura, España.
Vásquez, R. E. 2011. Contribución al tratamiento estadístico de datos con
distribución Binomial en el Modelo de Análisis de Varianza. Tesis en la opción
al grado de Doctor en Ciencia. Instituto Nacional de Ciencias Agrícolas. Cuba
Vásquez, R. E. 2013. Comunicación personal sobre resultados de su tesis de
doctoral defendida en Cuba en diciembre del 2011.
Verde, O. 2000. Comparación de métodos para el análisis de datos binomiales
en producción animal. Revista de Zootecnia Tropical. 18(1) 3-28.
Venereo, A. 1976. Número de réplicas en diseños cuadrados latinos
balanceados para la estimación de efectos residuales. Revista Cubana de
Ciencia Agrícola. 10(3) 237-246.
Vilar, J. 2011. Curso de Estadística 2 La Coruña: Universidad de La Coruña.
[Consultado:
15
febrero
2011]
Disponible
en:
http://www.udc.es/dep/mate/estadistica2/estadistica_2.htm.
Viscovery Software GmbH. 2008. Viscovery SOMine 5.0.2. [Software de
cómputo]. Viscovery Software GmbH.
Ward, J. 1963. Hierrarchical grouping to optimize an objective function. Jornal of
the Amarican Statistical Association. 58(4) 236-244
Wu, J. and Wong, M. 2003. A Note on Determining the p-Value of Bartlett's Test of
Homogeneity of Variances. Communications in Statistics: Theory & Methods
32(1) 91.
ANEXOS
Anexo. 1. Verificación de los supuestos teóricos básicos y consecuencias de su incumplimiento en el Análisis de Varianza.
Supuestos
Dócima
Normalidad
Shapiro-Wilk (1965) modificado
Estadístico de prueba
por Royston (1982)
W
 n


a
x

i i
i  1 
n 
  x i 
i  1
2

x 

2
ai: coeficiente
xi: es el número que
ocupa la i-ésima posición en
la muestra.

x : media muestral
Características
Si el valor de P ≤ 0,05
se rechaza la hipótesis
de distribución Normal.
Es una prueba potente
y
se
recomienda
cuando el tamaño de
muestra es pequeño
n< 30. Salvador y
Gargallo (2003)
Consecuencias
del
incumplimiento en el
ANAVA
La falta de normalidad
no afecta demasiado a
la prueba F
Si los datos son muy
asimétricos influyen en
el estadístico de la
prueba. Si no hay
Normalidad,
el
verdadero
nivel
de
significación es mayor
que el nivel aparente.
Esto
conlleva
a
rechazar la hipótesis
nula
cuando
es
verdadera, es decir se
presentan demasiadas
diferencias significativas
que no existen.
Kolmogorov-Smirnov
Kolmogorov-Smirnov, corregida
por Lillefors (1967)
D  máx Fn X   FoX 
Las únicas premisas
que se necesitan para
la realización de esta
prueba es que:
Fo (X): Distribución teórica Las mediciones se
encuentren al menos
Normal.
en una escala de
intervalo.
Que
la
medición
considerada
sea
básicamente continua.
Además dicha prueba
es aplicable cualquiera
sea el tamaño de la
muestra (Mesa, 1998).
La prueba de
Kolmogorov-Smirnov


 con la modificación de
D  máxFn X  ((X  x) / s(x))

 Lillierfors es la más
utilizada
y se considera uno de
Donde:  es la función de los test más potentes
distribución de una normal para muestra mayores
de 30 casos.
estándar.
Fn (X): Distribución teórica
acumulativa observada de la
muestra tomada al azar.
Homogeneidad
de varianza
Bartlett (1947)
ln 2 (n1) n1  ln2 (n1)
  
 
2
X Bartlett
(n1)
k 1
1
3(k1) (Nk)
Donde:
X2Bartlett : estadístico de esta
prueba.,ln: logaritmo
natural.
s2: varianza.
n = tamaño de la muestra
del grupo.
K = número de grupos
N = tamaño total
Levene (1960)
k
W


(N  k )  n i ( Z  Z ) 2
i1
k  1    Z ij  Z i 


k
ni
i1
j1

2
Donde:
Zij puede tener una del as
siguientes tres definiciones:
Z ij  Yij  Y i. donde: Y i. es
la media en el i-ésimo
Esta prueba da la
posibilidad de decidir si
existe
homogeneidad
o
heterogeneidad en el
error estadístico, que se
utiliza
con
más
frecuencia,
siendo
sensible a la falta de
normalidad
(Cox
y
Dunn, 2002) y (Wu y
Wong, 2003)
Es menos sensible a la
no normalidad de las
muestras y una buena
alternativa.
(Correa,
2006), señala el autor
que esta prueba ofrece
una alternativa más
robusta
que
el
procedimiento de
Bartlett, ya que es poco
sensible a la desviación
de la normalidad.
Morales
(2008)
y,
Morales y López (2009),
señalan
que
la
heterogeneidad en las
varianzas
de
los
tratamientos
puede
conllevar
a
una
subestimación de los
errores estándar de los
estimadores
de
los
parámetros del modelo.
subgrupo.
~
~
Z ij  Yij  Yi. donde: Yi. es la
mediana en el i-ésimo
subgrupo.


Z ij  Yij  Yi . donde: Yi. es el
10% de la media truncada
en el i-ésimo subgrupo.
Z i. es la media del grupo
Z ij
Z .. es la media general de
Z ij
Hartley (1950)
2
Fmáx 
máx (s i )
2
mín(s i )
estadístico Fmax
(asumiendo independencia
de las muestras aleatorias
tomadas de las poblaciones
normales) es FMáx con k
grados de libertad en el
numerador y grados de ν =
n−1 grados de libertad en el
denominador
Esta prueba se requiere
que
todas
las
observaciones en cada
grupo tengan el mismo
tamaño. Fue propuesta
por Hartley, (1950) y
Schuyten, (1990)
Independencia
de los errores
Durbin y Watson (1950)
2
tT
  t  t 1
d  t2
tT  2
t

t 1


Donde:  t es el residuo
estimado para el período t.
La
autocorrelación
surge
cuando
los
términos de error del
modelo
no
son
independientes entre sí,
es
decir,
cuando:
E(uiuj)≠0. para todo i≠j.
Entonces los errores
estarán
vinculados
entre
sí.
Los
estimadores
mínimos
cuadráticos ordinarios
(MCO) obtenidos, bajo
esta
circunstancia,
dejan de ser eficientes.
Las consecuencias
inmediatas, producto de
la autocorrelación, es
que los estimadores son
poco eficientes, ya que
sus varianzas estarán
sobre o subestimada lo
cual imposibilita utilizar
las pruebas de
contrates “test”
estadístico usuales para
verificar la validez de
las estimaciones. Pero
los estimadores siguen
siendo lineales,
insesgados y
consistentes pero han
perdido (como
consecuencia de
autocorrelación) su
propiedad de varianza
mínima, pero la
insesgadez será útil
para resolver el
problema Ramírez
(2004).
Anexo 2. Encuesta aplicada a los investigadores
El objetivo de esta encuesta es indagar sobre el uso de las transformaciones de
datos en el análisis estadístico de la información.
Es importante conocer sus criterios, por cuanto estamos desarrollando una
investigación encaminada a perfeccionar el empleo de estas herramientas
estadísticas de análisis.
Dpto: ____________________________________________________________
1. ¿Tienes conocimientos sobre la necesidad de aplicar transformación de
datos a los resultados de sus experimentos?
Si __________
No_________
2. ¿Qué tipo de transformaciones usa con más frecuencia?
1.
x
1
_______
X
1
_________
5.
x
_______
2. arcoseno
4.
p _______
3. log (x) _______
6. Otras _________
3. ¿En qué análisis estadístico
transformaciones de datos?
1. ANAVA _________
utilizas
con
más
2. Regresión ___________
3. Otros ___________
4. ¿Sabe que logra con el uso de la transformación de datos?
Ajustar indicadores numéricos ___________
Validez de los resultados _______________
Cumplimiento de supuestos teóricos ______
frecuencia
las
Disminuir la variabilidad de los datos ______
Usar una herramienta tradicional_________
Otros (especificar) ____________________
5. En su actividad científico- técnica futura ¿consideras conveniente continuar
con el empleo de las transformaciones de datos?
Si__________
No ___________
6. ¿Conoces procedimientos estadísticos alternativos, para no usar la
transformación de datos? En caso de ser afirmativo marque con una X los
que conoces.
Si__________
No ___________
Estadística no paramétrica _________
Modelo Lineal Generalizado________
Otros
7. Otros aspectos que considere de interés.
Gracias por su colaboración.
Anexo 3. Matriz de correlaciones de las variables transformadas por dimensión para los Diseños
Completamente Aleatorizados y Bloques al Azar.
Indicadores
Tipo de
experimento
Cumpl S/T
Cumpl C/T
Valorp S/T
Valorp C/T
Valorp NP
Potencia S/T
Potencia C/T
T. M
No. tto
Diseño
Distcod
Tipo
experimento Cumpl Cumpl Valorp Valorp
S/T
C/T
S/T
C/T
1,000
-,120
-,001
-,186
-,219
-,274
,224
,175
-,128
-,413
-,631
-,177
1,000
,614
-,056
-,008
-,017
-,009
-,088
-,175
,071
,061
,010
1,000
-,109
-,122
-,064
,091
,135
-,378
-,007
-,025
,074
1,000
,947
,896
-,877
-,856
,428
,013
,294
-,146
1,000
,929
-,918
-,870
,460
,075
,322
-,199
Valorp
NP
Potencia
S/T
Potencia
C/T
1,000
-,875
-,853
,453
,161
,374
-,193
1,000
,861
-,486
-,170
-,385
,117
1,000
-,461
-,096
-,304
,127
T. M
No.
tto
Diseño Distcod
1,000
,033 1,000
,291 ,731 1,000
-,142 ,165
,138
1,000
Anexo 4. Matriz de correlaciones de las variables transformadas para los diseños con arreglos factorial de los
tratamientos.
Tipo de
Indicadores experimento C/T
Valorp Valorp Valorp Potencia Potencia T.M
S/T
C/T
NP
S/T
C/T
Tipo de
experimento
1,000
C/T
-,685 1,000
Valorp S/T
,092 -,063
1,000
Valorp C/T
,093 -,064
1,000 1,000
Valorp NP
,091 -,063
1,000 1,000
1,000
Potencia S/T
-,144
,099
-,908 -,909
-,908
1,000
Potencia C/T
-,113
,077
-,968 -,968
-,968
,980
1,000
T.M
-1,000
,685
-,092 -,093
-,091
,144
,113 1,000
Anexo 5. Matriz de correlaciones de las variables transformadas de los Modelos Lineal General y Lineal
Generalizado.
Indicadores
Tto
TM
Tipoexp
PerrorIF
PerrorIX2
SCerrorMLG
DeviaMLGnz
Distribución
Tto
TM
1,000
,266
,083
-,415
-,436
,516
,253
-,253
1,000
,926
,375
,353
,129
,059
-,059
Tipo
exp
1,000
,470
,458
-,176
-,136
,136
PerrorIF
PerrorIX2
1,000
,986
-,413
-,222
,222
1,000
-,403
-,207
,207
SCerror
MLG
Devia
MLGnz
1,000
,649
-,649
1,000
-1,000
Distribución
1,000
Descargar