Instituto de Ciencia Animal Departamento de Biomatemática Métodos Estadísticos alternativos de análisis con variables discretas y categóricas en investigaciones agropecuarias Tesis en opción al grado científico de Doctor en Ciencias Veterinarias Autora: Lic. Magaly Herrera Villafranca Mayabeque 2013 Instituto de Ciencia Animal Departamento de Biomatemática Métodos Estadísticos alternativos de análisis con variables discretas y categóricas en investigaciones agropecuarias Tesis en opción al grado científico de Doctor en Ciencias Veterinarias Autora: Lic. Magaly Herrera Villafranca Tutoras: Dra. C. Caridad Walkiria Guerra Bustillo Dra. C. Verena Torres Cárdenas Mayabeque 2013 Pensamiento Nunca antes en la historia de la Ciencia y la Estadística ha existido una mayor necesidad para que haya interacción y colaboración entre científicos y estadísticos. D.E. Johnson, 2000 Agradecimientos Mis más sinceros agradecimientos a todas las personas que de una forma u otra me han ayudado y apoyado para la culminación de este trabajo: Dra. C. Caridad Walkiria Guerra Bustillo, por su ayuda incondicional, por sus sabios consejos, y estar siempre a mi lado, me demostró que con estudio y constancia se puede llegar. Dra. C. Verena Torres Cárdenas por la confianza que depositó en mí y colaborar en mi formación. Dr. C. José A. Bravo Iglesias por sus observaciones tan oportunas, y siempre dispuesto a dar un consejo para mejorar el trabajo. Mi amiga Lic. Lourdes Rodríguez Shade que, aunque siempre está peleando, me apoyó durante el trabajo de investigación. Mí siempre amigo Lic. Fermín Raúl Cobo Cuña que me ha soportado durante todo este tiempo, y por su apoyo en el trabajo de tesis con sus observaciones oportunas. MSc. Profesora consultante Josefina de Calzadilla, por su ayuda y sus buenas observaciones. Dr. C. Alberto Caballero por su ayuda en la orientación de esta investigación, desde el principio me aportó buenos consejos. Yolaine Medina Mesa, siempre con su atención esmerada y su ayuda incondicional. Dr. C. Luis Mateo Fraga Benítez por su ayuda y siempre dispuesto a aclarar cualquier duda. Muchachitas las técnicas Aida Carmelita Noda Amorós y Lucía Rosario García Sarduy, las cuales me animaron y me ayudaron en el procesamiento de la información. Lic. Sarai Gómez Camacho por su ayuda. Yaisel Rodríguez González y Lyhen Sánchez Suárez. Muchachitas del Departamento de Genética. Lic. Nidia E. Fernández Ontivero por su colaboración y ayuda incondicional. Los compañeros del Departamento de Matemática de La Universidad Agraria de La Habana los que me apoyaron en el trabajo y me dieron muchos consejos. Dr. C. Yasser Vásquez Alfonso, por su apoyo durante el trabajo de investigación y su ayuda en la búsqueda de información referente al tema. A mis compañeros del departamento de Monogástricos, especialmente a Lazarita. Especial agradecimiento a Edis Dalia Arbelo Forte por su apoyo incondicional. A Erludys Columbie Hernández, por su inestimable apoyo en el servicio de mensajería. Mis amigas y amigo de la biblioteca del ICA, Yeter Caraballo Rodríguez por su ayuda incondicional en el procesamiento de la información, a Dianelis Mesa Travieso por su apoyo, Daniela Rodríguez Carballoza, Ibrain A. Díaz Machado, Yoandra Figueroa Puentes y Dayami Roque Chao por su ayuda en la búsqueda y ubicación de la información bibliotecaria. A todos muchas gracias Dedicatoria A mi madre querida A mi padre A mis hermanos A mis abuelos (E.P.D) A mis amigos A la Revolución SÍNTESIS Con el objetivo de evaluar la efectividad de Métodos Estadísticos alternativos de análisis con variables discretas y categóricas, se aplicó una encuesta estadística bibliométrica sobre el empleo de Métodos Estadísticos no paramétricos y una encuesta a investigadores para verificar el conocimiento sobre Métodos Estadísticos alternativos para evitar el uso inadecuado de la transformación de datos, en investigaciones agropecuarias y afines. Se analizan 100 variables correspondientes a los Modelos de Análisis de Varianza simple y doble, de efectos fijos. Las transformaciones de datos aplicadas fueron: X; X 0,375 ; arcoseno ( p ) y Log X. Se verificó el cumplimiento de los supuestos teóricos del Análisis de Varianza, con y sin transformación de datos. Los resultados evidenciaron que el empleo de la trasformación de datos solo fue efectiva en el 13% de los casos analizados. Los Modelos de Análisis de Varianza (ANAVA) paramétrico y no paramétricos presentaron resultados similares. Se aplicó el Análisis de Componentes Principales Categórico (CATPCA) para realizar un análisis integral de indicadores estadísticos, sobresalen por sus altas correlaciones negativas, la potencia y la probabilidad de error tipo I en el ANAVA paramétrico (con y sin transformación) y el no paramétrico. En un análisis comparativo del Modelo Lineal General (MLG) y el Modelo Lineal Generalizado (MLGnz) se obtuvo que las probabilidades de error tipo I en ambos modelos son similares, por lo que se sugiere el MLGnz como una alternativa de análisis, pues la variable respuesta no requiere del cumplimiento de los supuestos del ANAVA paramétrico. Finalmente se elaboró una propuesta de acciones metodológicas relacionadas con la aplicación del Modelo de Análisis de Varianza. ÍNDICE ÍNDICE INTRODUCCIÓN CAPÍTULO I. REVISIÓN BIBLIOGRÁFICA Pág. 1 8 1.1 Métodos Estadísticos paramétricos y no paramétricos 8 1.2 Consecuencias del incumplimiento de los supuestos teóricos básicos del Modelo Análisis de Varianza paramétrico 10 1.3 Potencia de una dócima, tamaño de muestra, probabilidades de errores (tipo I y II) y tamaño de efectos 12 1.4 Transformación de datos. Origen e incidencia en las investigaciones agropecuarias 18 1.5 Modelo Lineal Generalizado 21 1.5.1 Origen y desarrollo 21 1.6 Otros Métodos Estadísticos para el análisis con variables discretas y categóricas 26 CAPÍTULO II. LA ENCUESTA ESTADÍSTICA EN LA CAPTACIÓN DE INFORMACIÓN Y SU USO 32 2.1 Introducción 32 2.2 Materiales y métodos 32 2.2.1 Encuesta estadística bibliométrica 32 2.2.2 Encuesta estadística a los investigadores 33 2.2.3 Organización, procesamiento y análisis estadístico de la información 34 2.3 Resultados y discusión 36 2.3.1 Encuesta estadística bibliométrica 36 2.3.2 Encuesta estadística a los investigadores 44 2.3.3 Diagnóstico a partir de la encuesta estadística a los investigadores: Matriz DAFO 47 2.3.4 Consideraciones parciales CAPÍTULO III. MODELOS DE ANÁLISIS DE VARIANZA PARAMÉTRICO Y NO PARAMÉTRICO. USO DE TRANSFORMACIÓN DE DATOS 49 50 3.1 Introducción 50 3.2 Materiales y métodos 51 3.2.1 Características principales de las investigaciones 51 3.2.1.1 Experimentos con Diseño Completamente Aleatorizado 51 3.2.1.2 Experimentos con Diseño de Bloques al Azar 59 3.2.2 Procesamiento y análisis estadístico de la información 3.3 Resultados y discusión 3.3.1 Modelos de Análisis de Varianza simple y doble 63 66 66 3.3.1.1 Cumplimiento de supuestos y transformación de datos 66 3.3.1.2 Probabilidad de error tipo I y potencia de la dócima F 69 3.3.2 Consideraciones parciales 72 3.3.3 Análisis de Componentes Principales Categórico. Aplicación a indicadores de los Modelos de Análisis de Varianza 73 3.3.4 Consideraciones parciales. 83 CAPÍTULO IV. El MODELO LINEAL GENERALIZADO. APLICACIÓN A DIFERENTES DISTRIBUCIONES. 84 4.1 Introducción 84 4.2 Materiales y métodos 84 4.2.1 Características principales de las investigaciones 84 4.2.2 Modelo Lineal Generalizado 85 4.2.2.1 Procesamiento y análisis estadístico de la información 86 4.3 Resultados y discusión 87 4.3.1 Modelo Lineal General y Modelo Lineal Generalizado. Probabilidad de error tipo I 87 4.3.2 Análisis de Componentes Principales Categórico, para el análisis de indicadores estadísticos del Modelo Lineal General y del Modelo Lineal Generalizado 88 4.3.3 Análisis comparativo del Modelo Lineal General y el Modelo Lineal Generalizado y acciones metodológicas relacionadas con estos modelos 91 4.3.4 Consideraciones parciales 95 4.3.5 Propuesta de acciones metodológicas para investigaciones relacionadas con la aplicación del Modelo de Análisis de Varianza 96 CONCLUSIONES 99 RECOMENDACIONES 100 REFERENCIAS BIBLIOGRÁFICAS ANEXOS ÍNDICE DE ABREVIATURAS ANAVA: Análisis de Varianza. ARE: Eficiencia Asintótica Relativa. CATPCA: Análisis de Componentes Principales Categórico. CATREG: Regresión Categórica. Cumpl S/T: Cumplimiento de los supuestos sin transformación. Cumpl C/T: Cumplimiento de los supuestos con transformación. C/T: Con transformación. DCA: Diseño Completamente Aleatorizado. DBA: Diseño de Bloques al Azar. DDGS: Granos de destilería soluble. Devia MLGnz: Devianza del Modelo Lineal Generalizado. Distcod: Distribución con código. Matriz DAFO: Matriz de Fortalezas, Debilidades, Oportunidades y Amenazas. MLG: Modelo Lineal General. MLGnz: Modelo Lineal Generalizado. No. tto: Número de tratamiento. PerrorIF: Probabilidad de error tipo I de la dócima F de Fisher. PerrorI 2 : Probabilidad de error tipo I de la dócima 2 . Potencia C/T: Potencia con transformación. Potencia S/T: Potencia sin transformación. S/T: Sin transformación. SCerror MLG: Suma de cuadrado del error del Modelo Lineal General. TM: Tamaño de muestra. TMutil: Tamaño de muestra utilizado. Tto: Tratamiento. Valorp NP: Valor de la probabilidad de error tipo I no paramétrico. Valorp S/T: Valor de la probabilidad de error tipo I sin transformación. Valorp C/T: Valor de probabilidad de error tipo I con transformación. ÍNDICE DE TABLAS Tabla 1.1. Escalas de medidas e indicadores numéricos en los procedimientos estadísticos paramétricos y no paramétricos. Tabla 1.2. Relación entre el tamaño de muestra y cumplimiento de los supuestos teóricos en procedimientos paramétricos y no paramétricos. Tabla 1.3. Modelos más empleados según la metodología del Modelo Lineal Generalizado. Tabla 1.4. Comparación entre el Modelo Lineal General y el Modelo Lineal Generalizado. Tabla 1.5. Funciones de enlace más empleadas en el Modelo Lineal Generalizado. Tabla 1.6. Métodos Estadísticos relacionados con variables cualitativas. Tabla 2.1. Encuestados por departamento. Tabla 2.2. Interpretación de los valores del Stress (S). Tabla 2.3. Bondad de ajuste de la configuración de los datos para los Métodos Estadísticos no paramétricos. Tabla 2.4. Bondad de ajuste de las temáticas por revistas donde se aplica los Métodos Estadísticos no paramétricos. Tabla 2.5. Transformaciones de datos más empleadas, según la encuesta aplicada a los investigadores. Tabla 2.6. Aspectos más frecuentes en las respuestas los investigadores. Tabla 2.7. Bondad de ajuste de los resultados a los investigadores. Tabla 2.8. Resultados de los pesos de las variables por cada dimensión. Tabla 2.9. Resultados de la Matriz DAFO. Tabla 3.1. Resumen del cumplimiento de los supuestos teóricos del ANAVA. Tabla 3.2. Frecuencia de coincidencias en la toma de decisión. Tabla 3.3. Resultados de la dócima de McNemar para los valores de probabilidad de error tipo I. Tabla 3.4. Resultados de la dócima de McNemar para las potencias de la dócima F de Fisher. Tabla 3.5. Resultados del coeficiente Alfa de Cronbach para los indicadores de los Diseños Completamente Aleatorizado y Bloques al Azar. Tabla 3.6. Resultados de los pesos de los indicadores por cada dimensión para los Diseños Completamente Aleatorizado y Bloques al Azar. Tabla 3.7. Resultados del coeficiente Alfa de Cronbach para los experimentos con arreglos factorial de los tratamientos. Tabla 3.8. Resultados de los pesos de los indicadores por cada dimensión para los experimentos con arreglo factorial de los tratamientos. Tabla 3.9. Estimaciones de los coeficientes de regresión en el CATREG para potencias sin transformación. Tabla 3.10. Importancia de los indicadores en CATREG para potencias sin transformación. Tabla 3.11. Estimaciones de los coeficientes de regresión en el CATREG para potencias con transformación. Tabla 3.12. Importancia de los indicadores en CATREG para potencias con transformación. Tabla 4.1. Distribuciones y funciones de enlace. Tabla 4.2. Frecuencia de los rangos de probabilidad de error tipo I de las dócimas F de Fisher y 2 . Tabla 4.3. Resultados del coeficiente Alfa de Cronbach para el Modelo Lineal General y Modelo Lineal Generalizado. Tabla 4.4. Resultados de los pesos de los indicadores por cada dimensión para el Modelo Lineal General y el Modelo Lineal Generalizado. Tabla 4.5. Resultados de los criterios de bondad de ajuste al aplicar el Modelo Lineal Generalizado. Tabla 4.6. Resultados de los valores de probabilidad de error tipo I para el Modelo Lineal General y el Modelo Lineal Generalizado. ÍNDICE DE FIGURAS Figura 2.1. Revistas relacionadas con la aplicación de los Métodos Estadísticos no paramétricos. Figura 2.2. Métodos Estadísticos no paramétricos más usados en estudios agropecuarios y biológicos. Figura 2.3. Revistas por temáticas con aplicación de los Métodos Estadísticos no paramétricos. . Figura 2.4. Temáticas por revistas que emplean Métodos Estadísticos no paramétricos para el análisis de sus investigaciones. Figura 2.5. Necesidad de aplicar la transformación de datos. Figura 3.1. Biplot de los indicadores analizados. Figura 3.2. Biplot de los indicadores para los experimentos con arreglo factorial de los tratamientos. Figura 4.1. Biplot de los indicadores estadísticos de los Modelos Lineal General y Lineal Generalizado. Figura 4.2. Propuesta de acciones metodológicas para investigaciones con la aplicación del Modelo de Análisis de Varianza. ÍNDICE DE ANEXOS Anexo 1. Verificación de los supuestos teóricos básicos y consecuencias de su incumplimiento en el Análisis de Varianza. Anexo 2. Encuesta aplicada a los investigadores. Anexo 3. Matriz de correlaciones de las variables transformadas por dimensión para los Diseños Completamente Aleatorizado y Bloques al Azar. Anexo 4. Matriz de correlaciones de las variables transformadas para los diseños con arreglos factorial de los tratamientos. Anexo 5. Matriz de correlaciones de las variables transformadas de los Modelos Lineal General y Lineal Generalizado. INTRODUCCIÓN INTRODUCCIÓN La Estadística es una de las ramas de la Matemática de mayor universalidad, ya que en su devenir histórico muchos de sus métodos se han desarrollado para resolver situaciones específicas en diferentes esferas del conocimiento y la ciencia. Méndez (1993) señala que la Estadística se ha convertido en una forma de pensar y una herramienta muy poderosa en muchas áreas de la actividad humana, como son: la investigación científica, los procesos productivos y de servicios, en las acciones y decisiones de gobiernos de países, estados e instituciones, entre otras. Los Métodos Estadísticos como elementos de apoyo en la investigación agrícola son fundamentales, puesto que cuantifican y cualifican objetivamente los resultados de la investigación, estos métodos y procedimientos varían según la naturaleza y estructura del resultado experimental. Así, si las Ciencias Biológicas proponen o innovan procedimientos y técnicas que describan la variabilidad de poblaciones agronómicas, entonces es necesario proveer de herramientas estadísticas a las nuevas propuestas experimentales (Martínez, 1995). Di Rienzo et al. (2005) señalan que la enseñanza de la Estadística en las Ciencias Agropecuarias no es un tributo a la modernidad, sino una larga tradición que se origina en los trabajos de Fisher que, a comienzos del siglo XX, sentaron las bases de la Estadística aplicada a la experimentación agrícola. 1 El Análisis de Varianza paramétrico es el Método Estadístico más difundido en el análisis de datos, desarrollado por Fisher en la década de los años 20 del pasado siglo, siendo necesario para su empleo el cumplimiento de los supuestos teóricos básicos, en los que se enmarcan: que los errores experimentales deben ser normalmente distribuidos; con homogeneidad de varianza e independientes, así como la aditividad del modelo. Sin embargo cuando algunos de estos supuestos teóricos fallan, suelen emplearse otros métodos de análisis, como el uso de transformación de datos y Métodos Estadísticos no paramétricos, entre otros. Los Métodos Estadísticos no paramétricos presentaron un acelerado desarrollo en la década de los años 50, en estudios relacionados con las Ciencias Sociales, de la Conducta, Médicas y Biológicas. Sin embargo en la literatura consultada se aprecia que estos métodos han sido poco aplicados en las investigaciones desarrolladas en el campo de las Ciencias Agropecuarias, siendo estos una alternativa ante el incumplimiento de los supuestos teóricos básicos de algunos Métodos Estadísticos paramétricos, como es el caso del Análisis de Varianza. De Calzadilla (1999) y De Calzadilla et al. (2002) al aplicar procedimientos de la Estadística no paramétrica en investigaciones agropecuarias, en las condiciones de Cuba, hacen referencia a la poca aplicación de estos métodos en esta área de la ciencia y detectaron poca efectividad en el uso de la transformación de datos. Por otra parte, Cristo (2001), al investigar el comportamiento de dócimas no paramétricas respecto a sus homólogas paramétricas en distribuciones no 2 normales y su eficiencia, recomendó que con muestras pequeñas e incumplimiento de los supuestos del Análisis de Varianza, lo más conveniente es el empleo de Métodos Estadísticos no paramétricos. Con posterioridad, Vásquez (2011) realizó una contribución al tratamiento estadístico de datos con distribución Binomial en el Modelo de Análisis de Varianza, en un diseño de Bloques al Azar y Cabrera (2012) evaluó sin éxito el comportamiento de diferentes transformaciones de datos en una investigación relacionada con plagas agrícolas, por lo que fue más conveniente la aplicación del Análisis de Varianza no paramétrica. Ojeda (2004) señala que la Modelación Estadística se puede considerar como un área de estudio y especialización, en la que convergen los aspectos teóricos, metodológicos y computacionales de los Modelos Estadísticos. Este autor indica que, sin temor a equívoco, es posible asegurar que el detonante de la Modelación Estadística en datos discretos, lo constituye el trabajo de Nelder y Wedderburn (1972), que presenta, a partir de los Modelos Lineales Generalizados, un marco teórico general para el estudio de los Modelos Estadísticos. El Modelo Lineal Generalizado ha sido muy utilizado en diversas áreas de la investigación, con el objetivo de dar respuesta al incumplimiento de los supuestos teóricos del Análisis de Varianza, y al igual que los Métodos Estadísticos no paramétricos, han sido una alternativa de análisis, principalmente cuando las variables son de tipo discretas y categóricas, lo cual corroboran Ojeda (2004) y 3 Fox (2007). En las Ciencias Agropecuarias en Cuba se han encontrado pocas aplicaciones de estos modelos y se considera que pueden ser una alternativa viable para el análisis. Las investigaciones realizadas resultan antecedentes necesarios de gran valor científico, para identificar determinadas situaciones en cuanto al uso de la transformación de datos y de los Métodos Estadísticos no paramétricos, pero se considera que con el estado actual de la ciencia, se hace necesario profundizar en nuevas acciones, que generen un núcleo de orientaciones científicas y metodológicas, que guíen la aplicación de estos procedimientos en la actividad científico-investigativa, para evitar el: Uso inadecuado de la transformación de datos. Empleo de la trasformación de datos sin que se resuelva el cumplimiento de los supuestos teóricos básicos del Análisis de Varianza. No empleo de Métodos Estadísticos alternativos, ante el incumplimiento de los supuestos teóricos básicos del Análisis de Varianza. Por lo que se identifica como Problema de investigación: ¿Cómo evitar el uso inadecuado de la transformación de datos en variables discretas y categóricas en el Modelo de Análisis de Varianza de efectos fijos, en investigaciones agropecuarias? 4 Objeto de estudio: La transformación de datos considerando variables discretas y categóricas en el Modelo de Análisis de Varianza de efectos fijos, en investigaciones agropecuarias. Hipótesis Si se emplean Métodos Estadísticos alternativos de análisis con variables discretas y categóricas, se evitaría un uso inadecuado de la transformación de datos en los Modelos de Análisis de Varianza de efectos fijos. Objetivo general Evaluar la efectividad de Métodos Estadísticos alternativos para evitar el uso inadecuado de la transformación de datos con variables discretas y categóricas en los Modelos de Análisis de Varianza de efectos fijos, en investigaciones agropecuarias. Objetivos específicos 1. Diagnosticar el estado actual del uso de la transformación de datos y de Métodos Estadísticos no paramétricos en investigaciones agropecuarias en Cuba. 2. Evaluar el comportamiento de la transformación de datos en el cumplimiento de los supuestos teóricos básicos con variables discretas y 5 categóricas en los Modelos de Análisis de Varianza simple y doble de efectos fijos. 3. Establecer criterios de valor teórico-práctico, a partir de un análisis integral de indicadores estadísticos de los Modelos de Análisis de Varianza paramétricos y no paramétricos y del Modelo Lineal Generalizado. 4. Proponer acciones metodológicas para investigaciones relacionadas con la aplicación del Modelo de Análisis de Varianza. Novedad científica La novedad científica radica en que por primera vez en las condiciones de la Ciencia Agropecuaria en Cuba, se establecen Métodos Estadísticos alternativos para evitar el uso inadecuado de la transformación de datos, con variables discretas y categóricas, en los Modelos de Análisis de Varianza de efectos fijos. Aporte social La capacitación a técnicos y usuarios de los Métodos Estadísticos, mediante cursos, talleres, conferencias y seminarios, entre otras modalidades, sobre el uso adecuado de la transformación de datos, los Modelos de Análisis de Varianza paramétricos y no paramétricos, y el Modelo Lineal Generalizado, con variables discretas y categóricas en la investigación científica. 6 Aporte práctico Se proponen acciones metodológicas para el tratamiento y el análisis de la información experimental con variables discretas y categóricas, en los aspectos relacionados con el uso de la transformación de datos y alternativas de análisis basadas en los Modelos de Análisis de Varianza paramétricos y no paramétricos, y el Modelo Lineal Generalizado. 7 CAPÍTULO I REVISIÓN BIBLIOGRÁFICA CAPÍTULO I. REVISIÓN BIBLIOGRÁFICA 1.1. Métodos Estadísticos paramétricos y no paramétricos En la docimasia de hipótesis, los Métodos Estadísticos paramétricos son los que se utilizan con más frecuencia, siendo necesario para su empleo el cumplimiento de diversos supuestos sobre la población que se estudia. La técnica conocida como Análisis de Varianza (ANAVA), fue desarrollada por R. A. Fisher para facilitar el análisis e interpretación de los datos desde ensayos de campo y experimentos de laboratorio, en la agricultura e investigaciones biológicas (Eisenhart, 1947). El ANAVA, es una de las técnicas más utilizadas en el proceso de investigación Norell (2003). Es descrito por Tejedor (1999); Khan y Rayner (2003) y Spiegel et al. (2003) como una colección de modelos estadísticos y sus procedimientos asociados, apropiada para evaluar la igualdad entre poblaciones o tratamientos, en el cual la varianza está fraccionada en ciertos componentes, debido a diferentes factores o variables explicativas, incluidas en el modelo. Los Métodos Estadísticos no paramétricos no requieren de supuestos severos sobre la población que se estudia. Según Servy et al. (2007) una prueba Estadística no paramétrica está basada en un modelo que especifica sólo condiciones muy generales y ninguna acerca de la forma específica de la distribución de la población de la que fue tomada la muestra. 8 Los Métodos Estadísticos no paramétricos resultan una alternativa importante, ya que no dependen de la distribución de los datos, pueden usarse en caso de muestras pequeñas y, en general, resultan más rápidos y sencillos de aplicar (Siegel y Castellan 1995, Gómez et al. 2003 y Santos et al. 2005). En este sentido se considera que una alternativa está dada en el ANAVA paramétrico, cuando se incumplen los supuestos con serias implicaciones en el análisis. A partir de lo señalado anteriormente se establecen las diferencias entre los estadígrafos correspondientes en el empleo de los procedimientos paramétricos y no paramétricos, autores como Siegel y Castellan (1995), De Calzadilla (1999) y Guerra et al. (2000) se han referido al respecto, por lo que se resumen en la Tabla 1.1. Tabla 1.1. Escalas de medidas e indicadores numéricos en procedimientos estadísticos paramétricos y no paramétricos. Procedimientos Paramétricos Aspectos a analizar Escala de Medida Localización o Posición Dispersión Asociación Métricas Media aritmética Media geométrica Media armónica Mediana Moda Varianza Desviación típica o estándar Coeficiente de variación Correlación de Pearson Covarianza No Paramétricos Métricas y no métricas Mediana Cuartiles Percentiles Rango medio Rango Rango intercuartílico Rango interpercentílico Correlación de Rango de Spearman Correlación de Kendall Coeficiente de contingencia 9 1.2. Consecuencias del incumplimiento de los supuestos teóricos básicos del Modelo Análisis de Varianza paramétrico La distribución Normal de los errores, señalan Steel y Torrie (1992) y Peña (1994), tiene poca influencia en el ANAVA para comparar medias, dado que esta técnica es robusta frente a desviaciones de los errores; sin embargo, plantean que la falta de normalidad puede afectar otros supuestos como, la homogeneidad de varianza, sobre todo, cuando el número de observaciones de los grupos son muy diferentes, sin embargo cuando se analizan componentes de varianza, la normalidad si puede afectar el resultado del análisis. El incumplimiento de algunos de los supuestos del ANAVA pude afectar tanto los niveles de significación como la sensibilidad de la prueba F de Fisher o t de Student, lo que conlleva a la pérdida de exactitud en los estimadores obtenidos para los efectos de tratamientos (Cochran y Cox, 1999 y Vilar, 2011). Las decisiones estadísticas, son probabilísticas y por tanto, lo más importante no es tomar una decisión, sino conocer la probabilidad de equivocarse al tomar esta (Miranda 1997). Los modelos de análisis estadístico, como el ANAVA son sensibles a las propiedades estadísticas de los términos de error aleatorio del modelo lineal (Avanza et al. ,2006 y Balzarini et al., 2008). El incumplimiento de alguno de estos supuestos lleva a conclusiones erróneas como rechazar la hipótesis nula siendo verdadera o viceversa, lo que trae consigo 10 resultados falsos en los experimentos que al materializarse en los sistemas de producción introducen pérdidas económicas y error en el proceso de toma de decisiones (Pérez et al., 2002). Martín y Luna (1994), señalan que la heterogeneidad de varianzas viene acompañada de variables no normales, por lo que ante esta situación recomiendan aplicar transformaciones y además expresan que en tales circunstancias la misma transformación que estabiliza las varianzas suele normalizar la respuesta. Sin embargo, Peña (1994) ha sugerido que antes de transformar los datos se debe estudiar gráficamente la distribución de los residuos y si la misma resulta muy asimétrica, entonces conviene realizar la transformación, lo cual resulta una opción antes de proceder a la misma. En el Anexo 1 se establecen los supuestos teóricos del ANAVA, las dócimas de uso más frecuente para normalidad, homogeneidad e independencia, así como sus estadísticos, características y consecuencias de su incumplimiento en el análisis estadístico. En sentido general el incumplimiento de algunos de estos supuestos pueden incidir en los resultados investigativos y por ende pueden conllevar a conclusiones erróneas como rechazar la hipótesis nula siendo verdadera o viceversa. Cuando 11 estos supuestos teóricos del ANAVA son satisfechos las inferencias del modelo estadístico son mejores. 1.3. Potencia de una dócima, tamaño de muestra, probabilidades de errores (tipo I y II) y tamaño de efectos Bono y Arnau (1995), realizan un recuento histórico del desarrollo del concepto de potencia de una dócima, señalando que este se le atribuye a Neyman y Pearson en el período de 1928 al 1933, apareciendo otros autores que tenían en cuenta la potencia estadística, como Cox en 1948, McNemar en 1960 y Tukey en 1960, entre otros. Estos autores señalan que hay dos formas de estimar la potencia, a priori y a posteriori, la primera alerta al investigador sobre el tamaño de muestra necesario para una potencia adecuada y con este fin se construyen las tablas de potencia. La potencia a posteriori, es importante en la interpretación de los resultados de estudios ya acabados, que es el caso analizado en este trabajo de investigación. Numerosos autores, entre ellos Kreyszig (1974) y Ostle (1974) concuerdan en señalar que un experimento dado cuando se prueba una hipótesis específica, el valor 1-β es conocido como la potencia de la prueba, esta expresión se expresa en función del parámetro verdadero, siendo conocida como función de potencia y es expresada como 1-β (θ), donde θ representa el valor verdadero del parámetro. 12 Mood y Graybill (1972) y Rodríguez (2008) denotan a la función de potencia como: η (θ)= 1- β(θ) = 1- P(II)= P(rechazar H0| H0 es falsa), y se tiene que: α = P(I), si θ = θ0 Є H0 (hipótesis nula) η (θ)= 1- β(θ), si θ = θ1 Є H1 (hipótesis alternativa) En esencia la función de potencia toma el valor α, cuando se cumple la hipótesis nula, por lo que resulta muy conveniente que η (θ) tome valores bajos cuando se cumple H0 (α) y tome altos valores cuando se cumple H1 (1- β(θ) ). Scheffé (1959) hace referencia a la potencia de la dócima F en Modelos de Análisis de Varianza con efectos fijos, observaciones independientes y homogeneidad de varianzas, como la probabilidad β de rechazar la hipótesis probada, siendo expresada por: β = Pr{F´ (ν1, ν2, δ) > Fα(ν1, ν2)}, donde: F´ (ν1, ν2, δ) es llamada distribución F no central, con ν1 y ν2 grados de libertad con parámetro de no centralidad δ. Fα (ν1, ν2) es un percentil de la distribución F, con ν1, ν2 grados de libertad del numerador y denominador respectivamente. 13 Este autor se refiere a las tablas de potencia calculadas por Tang en 1938, solo para los valores de α = 0,01 y 0,05 y reproduce los gráficos de potencia para la dócima F, construidos por Pearson y Hartley en 1951. Bono y Arnau (1995), señalan que las estimaciones de la potencia estadística quedan determinadas por tres componentes: Tamaño muestral, es decir cuanto más grande sea la muestra, mayor será la potencia. Nivel de significación, dado que al incrementarse la probabilidad de error tipo I, la potencia también aumenta. Tamaño del efecto (TE) o grado en que el fenómeno de interés está presente, de modo que cuando los efectos son grandes, la potencia se incrementa. Sabín (1999) realizó un estudio sobre la determinación de la potencia a posteriori, utilizando experimentos conducidos en el Instituto de Ciencia Animal con diseños clásicos, a partir de la expresión de potencia dada por Scheffé (1959), utilizó la aproximación dada por Patnaik en 1949, mediante la cual se aproxima la F no central a una F central. Camacho (2007) en relación con la potencia estadística, coincide con los tres aspectos anteriores, incluyendo uno muy importante que es la variabilidad de la respuesta estudiada. Siegel y Castellan (1995) en el área de la Estadística no paramétrica, introducen el concepto de Potencia – Eficiencia, referido al incremento en el tamaño de la 14 muestra necesario para hacer la prueba B tan poderosa como la A, al ser la prueba A de las conocidas, la más poderosa de su tipo (cuando se usa con datos que satisfacen sus condiciones), al ser la prueba B, que se presta al mismo diseño de investigación, tan poderosa con Nb casos como la prueba A con Na casos, con lo que se tiene: Potencia - Eficiencia de la prueba B = Na/Nb (100). Fraser (1957) y Gibbons (1971) proponen que para obtener una medida asintótica útil para la Eficiencia relativa de una prueba no paramétrica con respecto a su homóloga paramétrica, la Eficiencia Asintótica Relativa, usualmente conocida como ARE (en inglés, Asymptotic Relative Efficiency), conocido también como Eficiencia de Pitman. 20 Daniel (1978) plantea que el ARE de la dócima de Kruskal-Wallis es de 0,955, comparada con la prueba paramétrica más poderosa, F de Fisher. Este mismo autor refiere que en el caso de la dócima Friedman esta posee un ARE de 0,955 (k/k+1), cuando las poblaciones son normales; en poblaciones con distribución uniforme el ARE se expresa como k/k+1 y en poblaciones que poseen distribución exponencial doble este se identifica como 3/2 (k/k+1) Johnson (1990) indica que la elección de un contraste o prueba de hipótesis no puede apoyarse únicamente en su poder (potencia) y eficiencia. Algunas veces la utilización de ciertas pruebas de hipótesis se ve forzada por los datos que se 15 analizan, cuando debe llegarse a una decisión al respecto, hay que considerar tres factores: El poder del contraste. La eficiencia del contraste. El tipo de datos y la cantidad de observaciones disponibles. Este mismo autor señala que los métodos no paramétricos desperdician información, pues sacrifican el valor de la variable sustituyéndolas por un signo o un rango, siendo por lo general menos eficientes que sus contrapartes paramétricas. Es real lo que plantea este autor, dado por el criterio de Potencia-Eficiencia propuesto por Siegel (1970), Daniel (1978) y Siegel y Castellan (1995), sin embargo, se sugieren los Métodos Estadísticos no paramétricos como alternativa de análisis, cuando existan serias implicaciones por el incumplimiento de los supuestos teóricos de los Métodos Estadísticos paramétricos o por otros criterios técnicos aportados por los especialistas. Álvarez (2008) expresa que en muestras menores de 11 casos, la potencia estadística de las pruebas paramétricas y no paramétricas es equivalente, teniendo en cuenta que las exigencias para las pruebas no paramétricas son menores y que detectar violaciones de las condiciones de aplicabilidad en las pruebas paramétricas es más difícil. 16 Generalmente, en la práctica no se tiene en cuenta la relación inversa que existe entre estas dos probabilidades (α y β) y se hace referencia exclusivamente a los niveles de significación obtenidos en el ANAVA, sin tomar en consideración que para los valores bajos de α se puede obtener valores altos de β que pueden poner en riesgo la toma de decisiones (Torres y Segui, 2001). López y Romero (1986) realizan un análisis detallado donde exponen la relación que existe entre el tamaño de muestra y el cumplimiento de los supuestos teóricos, con el método estadístico a utilizar. En la tabla 1.2 se muestra un resumen a partir de este enfoque. Tabla 1.2. Relación entre el tamaño de muestra y cumplimiento de los supuestos teóricos de los procedimientos paramétricos y no paramétricos. Tamaño de muestra Pequeña Grande Cumplimiento de los supuestos Se cumplen Se duda No se cumplen Paramétrica No paramétrica No paramétrica Paramétrica Análisis más profundo para valorar cual es la mejor opción No paramétrica Cristo (2001), en una investigación relacionada con el comportamiento de las dócimas no paramétricas respecto a las paramétricas en distribuciones no normales, así como la eficiencia de estos métodos con sus homólogos paramétricos, obtuvo que al emplear muestras pequeñas con el incumplimiento de los supuestos del Análisis de Varianza, lo más conveniente es el empleo de los Métodos Estadísticos no paramétricos. 17 Menchaca (1974, 1975); Venereo (1976); Caballero (1979) y Menchaca y Torres (1985), aportaron tablas de tamaños de muestra y número de réplicas en Diseños Completamente Aleatorizados, Bloques al Azar, Cuadrado Latino y Diseños de Cambio, teniendo en consideración: la máxima diferencia estandarizada entre dos medias (∆), la cantidad de tratamientos (t), el nivel de significación (α) y la potencia de la dócima (1-β), las cuales representan valiosas herramientas de trabajo para investigadores de diferentes ramas y se considera que no han sido aprovechadas con amplitud. En la actualidad, con el avance de la informática, existen paquetes estadísticos que incluyen el cálculo de la potencia, como el InfoStat, G Power y el SPSS, entre otros. 1.4. Transformación de datos. Origen e incidencia en las investigaciones agropecuarias Bartlett (1947) plantea que el propósito de las transformaciones de datos es buscar una nueva escala de medida con el objetivo de hacer el análisis más válido. Box y Cox (1964) propusieron una técnica de transformación de potencia a las observaciones con el fin de reducir anomalías, tales como: la no-aditividad, la no normalidad y la heterocedasticidad. 18 Y ( ) 0 log Y 0 Yλ = (para Y > 0) Menchaca (1973) señala que Box y Cox en 1964, consideran una familia paramétrica de transformaciones de Y en Y(λ), donde se define λ como una transformación particular, ellos asumen que para algún λ desconocido, las observaciones transformadas Yi(λ) (i= 1, 2, …, n) satisfacen las hipótesis de base, por otra parte Sakia (1992) plantea que esta transformación es conocida precisamente como Box-Cox y ha mostrado una amplia flexibilidad y aplicabilidad desde sus primeras apariciones. Las transformaciones de datos se utilizan con frecuencia en el Análisis de Varianza, siendo una alternativa, siempre que sean bien empleadas, pues se ha detectado en varios estudios un uso indiscriminado de estas sin tener en cuenta el cumplimiento de los supuestos teóricos, antes y después de aplicadas, ya que estos no son verificados. Peña y Peña (1986) manifiestan, que las transformaciones Box-Cox constituyen una alternativa razonable para lograr la normalidad, más potente que la mayoría de los procedimientos existentes usados en distribuciones asimétricas. Según Méndez (2000) cuando los datos son normales, pero las varianzas son heterogéneas, se utiliza diferentes transformaciones de datos (logarítmica, raíz 19 cuadrada o inversa), estas se vuelven a comprobar y si las varianzas son homogéneas es correcto utilizar un ANAVA. Cabrera et al. (2012) plantean que muchos datos provenientes de poblaciones de plagas por ser datos discretos por lo regular no cumplen los supuestos teóricos y cuando se emplean las transformaciones de datos no se ajustan a una distribución Normal. Entre las transformaciones de datos más empleadas en la rama agropecuaria se encuentran: la raíz cuadrada, logarítmica y arcoseno ( p ), que están dadas de acuerdo a la naturaleza de la variable en estudio. Se considera que en las investigaciones agropecuarias u otras, el uso de la transformación de datos ponen en evidencia: El inconveniente de que los datos pasan a una escala de medida que no es la original, por lo tanto se debe tener la debida precaución en el análisis de los resultados. Que estudios previos científicamente fundamentados han mostrado la poca efectividad de su empleo. Es por ello, que se debe propiciar el uso de Métodos Estadísticos alternativos más flexibles ante el incumplimiento de los supuestos del Análisis de Varianza, como es el caso de la Estadística no paramétrica u otros que tengan implícito diferentes distribuciones de los datos originales. 20 1.5 Modelo Lineal Generalizado 1.5.1. Origen y desarrollo Nelder y Wedderbum (1972) proponen una teoría unificadora de Modelación Estadística que le dieron el nombre de Modelo Lineal Generalizado (MLGnz), como una extensión de los Modelos Lineales Generales clásicos (MLG). Estos autores mostraron una serie de técnicas comúnmente estudiadas de forma separada que pueden ser reunidas bajo ese nombre MLGnz. Los autores antes mencionados presentaron el concepto de MLGnz, y posteriormente McCullag y Nelder (1989) presentan una amplia información sobre estos modelos. La esencia radica en que el valor esperado de la variable respuesta es denotada por μ = E(Y | X ) que se relaciona con la parte sistemática del modelo como: E( Y | X ) g( X) g( ) Donde: Y: es una función monótona η: predictor lineal η = Xβ: función que relaciona μ g: función de enlace Por otra parte Mongotmery et al. (2005) y Faraway (2006) plantean que un MLGnz está definido por dos componentes específicos. La respuesta debe ser un 21 miembro de la distribución de la familia exponencial y la función de enlace describe de que forma se relacionan la media de la respuesta y una combinación lineal de los predictores. En el MLGnz la distribución de Y de la familia exponencial es de la forma: y b F (yІθ, ) = exp + c y, a Donde: θ: se conoce como el parámetro canónico y representa la localización. : es el parámetro de dispersión o de la escala. a, b y c son funciones conocidas. Verde (2000) señala que los MLGnz se especifican con tres componentes: el componente aleatorio que identifica la distribución probabilística de la variable respuesta, el componente sistemático que especifica una función lineal de variables explicativas que es usada como un predictor y una asociación que describe la relación funcional entre el componente sistemático y el valor esperado del componente aleatorio. En las investigaciones agropecuarias muchas veces se involucran situaciones donde es difícil utilizar el MLG en los Análisis de Varianza y Regresión, porque las variables que se analizan no cumplen los supuestos de normalidad, homogeneidad de varianzas e independencia de los errores. 22 Actualmente las Ciencias Agropecuarias demandan de herramientas estadísticas que permitan obtener estimaciones más precisas, y teniendo en cuenta las bondades que muestra este modelo, muchos autores recomiendan el empleo de los MLGnz, muy utilizado en el análisis con variables discretas y categóricas. Los mecanismos que llevaron a esta visión general de la Modelación Estadística se remonta a más de un siglo. Una reseña histórica fue trazada por McCullagh y Nelder en 1989 y Lidsey en 1997 (citados por García, 2002) a partir de diferentes distribuciones (tabla 1.3). Tabla 1.3. Modelos más empleados según la metodología del Modelo Lineal Generalizado. Distribuciones Normal Tipo de Análisis Regresión Lineal Múltiple Análisis de Varianza para diseños experimentales Normal ; Binomial ; Bernuolli ; Poisson Función de Multinomial; Exponencial y verosimilitud Gamma Autores Legendre y Gauss (siglo XIX) Fisher (1920- 1935) Fisher(1922); Bliss (1935); Berkson (1944); Dike y Patterson (1952); Racha (1960); Birch (1963); Feig y Zelen (1965); Zippin y Armitage (1966); Gasser (1967) y Nelder (1966) Existen algunas diferencias entre el MLG y el MLGnz, estas están dadas porque en el primero se debe cumplir determinados requisitos, como son: los errores deben distribuir Normal, por tanto la variable debe ser continua, la varianza de los errores debe ser constante y el modelo debe expresarse en forma aditiva. 23 En el caso del MLGnz se puede emplear a cualquier tipo de distribución, que tiene un predictor lineal asociado a la variable dependiente y por otra parte este modelo presenta una componente aleatoria, el método de estimación es el de Máxima Verosimilitud, mientras que en el MLG el método es el de Mínimos Cuadrados Ordinarios (Greene, 1999; Johnston, 2000 y Correa, 2007). En la tabla 1.4 se hace una comparación entre el MLG y el MLGnz, considerando sus características. Tabla 1.4 Comparación entre el Modelo Lineal General y el Modelo Lineal Generalizado. Modelo Lineal General Lineal Generalizado Expresión del Modelo Sistemática Aleatoria Xβ Variable respuesta ε Continua h(y,θ)=exp[p(θ) y-q(θ)+g(y)] Continua Categórica, Discreta (Poisson, Multinomial, entre otras.) Xβ donde: p(θ), q(θ),y g(y) son funciones conocidas Método de Estimación Mínimos Cuadrados Ordinarios (MCO) Máximo Verosimilitud, Mínimos Cuadrados Ponderados, Mínimos Cuadrados Generalizados Para el análisis del MLGnz se necesita conocer que distribución poseen los datos, pues esta permite seleccionar la función de enlace apropiada a cada distribución. Se denomina funciones de enlace canónicas aquellas que se aplican por defecto a cada una de las distribuciones de errores. Esto no significa que siempre se deba usar una única función de enlace para una determinada distribución. De hecho, 24 puede ser recomendable comparar diferentes funciones de enlace para un mismo modelo y ver con cual se obtiene un mejor ajuste del modelo a los datos (Cayuela, 2010). En la tabla 1.5, se expresan las funciones de enlace más usadas en el análisis de MLGnz. Tabla 1.5. Funciones de enlace más empleadas en el Modelo Lineal Generalizado. Distribución Funciones de enlace Funciones canónicas Normal Identidad η=μ Poisson Logarítmica η = log (μ) Binomial Logit Gamma Recíproca Normal inversa Recíproca2 η log η η= Modelos de análisis Modelo Lineal clásico (Diseños experimentales y Regresión) μ 1 μ 1 μ 1 2 Logarítmico Logístico Logarítmico Probit Empleo Variables continuas con errores normalmente distribuidos Variables discretas con errores con distribución Poisson Proporciones (variables con respuestas dicotómicas o con valores 0 y 1) Variables continuas con errores con distribución Gamma Variables que miden toxicidad o cualquier variable con respuesta binaria Entre las ventajas que ofrece el MLGnz, está que permite emplear una mayor variedad de distribuciones para la variable respuesta, es decir, posibilita el ajuste de un modelo con diferentes distribuciones. 25 En esencia este modelo descompone la variabilidad de la variable respuesta en dos componentes una sistemática y la otra aleatoria asociada a una función de enlace de acuerdo a la distribución que adopten los datos analizados. Un aporte importante de este modelo es que permite analizar variables con respuestas discretas y continuas, mientras que el MLG solamente analiza variables de tipo continuas. 1.6. Otros Métodos Estadísticos que analizan variables discretas y categóricas Numerosos son los Métodos Estadísticos que se utilizan en la actualidad para el análisis de variables discretas y categóricas. En la medida en que las investigaciones progresan, se desarrollan nuevas técnicas para el análisis con estos tipos de variables. Es por ello que surge la necesidad de establecer semejanzas y diferencias entre las técnicas existentes para determinar su superioridad o para establecer sus limitaciones y poder determinar el método más apropiado ante una nueva situación. El desarrollo de métodos para el análisis de las variables categóricas se comenzó por los estudios de la investigación en las Ciencias Sociales y Biomédicas. Las escalas categóricas son estudiadas en las Ciencias Sociológicas para medir actitudes y opiniones. Las escalas categóricas en las Ciencias Biomédicas miden si el resultado de un tratamiento médico es exitoso o no (Agresti, 2007). 26 Según Greene (1999), los modelos de naturaleza categórica son modelos de probabilidad condicionada, por lo que p (y=j/xi) es una función de las combinaciones lineales β X, donde β es el vector de los parámetros y X es el vector de regresores, (i = 1, 2…k) y (j=0,1,2,j). Correa (2007) plantea que la distribución de Poisson juega un importante papel en la modelación del conteo de individuos en muchas áreas investigativas, se caracteriza por un solo parámetro μ=n, donde μ es una esperanza matemática y puede interpretarse como el número esperado de ocurrencias en un intervalo de tiempo, área o espacio especificado y la tasa de ocurrencia (), se define como el número esperado de ocurrencias del evento. Con frecuencia las variables discretas y categóricas se relacionan con distribuciones de probabilidad Binomial, Multinomial y Poisson, entre otras, teniendo en cuenta estos elementos, Guerra et al. (2010) resumen en la tabla 1.6, los principales Métodos Estadísticos relacionados con el análisis de variables cualitativas, según el número de variables involucradas. De los procedimientos clásicos reportados en esta tabla, los de más amplia aplicación, son los correspondientes a la Estadística no paramétrica. 27 Tabla 1.6. Métodos Estadísticos relacionados con variables cualitativas. Según número de variables Univariado Bivariada Multivariado Métodos Descriptivo Moda, mediana, rango, cuantíles, frecuencias, porcientos. Tablas de frecuencia. Gráficos de barras, sectores, entre otros. Tablas de frecuencia bivariada o tablas de contingencia. Medidas de asociación no paramétricas (coeficientes de contingencia, Spearman, Kendall, etc) Gráficos de barras, mosaicos. Coeficiente de fiabilidad. Coeficiente de esfuerzo (Stress). Matriz de correlaciones. Análisis Cluster. Análisis de Correspondencia Múltiple. Escalamiento Multidimensional (EMD) Escalamiento Óptimo. Mapas Auto Organizados (SOM) Inferencial Dócima de proporciones y dócimas no paramétricas. Series temporales. Dócima Chicuadrado. Regresión Logit Regresión Probit Regresión Logística Regresión Poisson Modelo Log lineal Regresión Categórica(CATREG) Modelo Lineal Generalizado Navarro et al. (2008) indican que la Regresión Categórica (CATREG), trabaja bajo el enfoque de la Regresión con transformaciones, aplicando la metodología de Escalamiento Óptimo desarrollada por el sistema Gifi en 1990, para transformar la respuesta y los predictores, dando lugar a un modelo flexible. La referencia de este autor a que el CATREG es un modelo flexible, se considera que está dada, a que este amplía las posibilidades del Modelo de Regresión clásico, mediante el uso del Escalamiento Óptimo (minimiza la función de pérdida de información), aplicable a variables nominales, ordinales y numéricas, simultáneamente. El CATREG es un método a través del cual la regresión se aplica a una variable respuesta en forma de categorías con el propósito de predecir la respuesta como 28 función de una o más variables independientes. El CATREG se ha desarrollado como un método de regresión lineal para variables categóricas (Navarro et al. 2010). El Análisis de Componentes Principales Categórico (CATPCA), puede considerarse como una técnica exploratoria de reducción de las dimensiones de una base de datos incorporando variables nominales y ordinales de la misma manera que las numéricas (Molina y Espinosa de los Monteros, 2010). El Análisis Factorial de Correspondencia Múltiple es una técnica que se utiliza para reducir la dimensionalidad y la elaboración de mapas preceptúales, ya que estos se basan en la asociación entre objetos y un conjunto de características descriptivas; además, va más allá de analizar la relación existente entre las variables, porque permite conocer como está estructurada esta relación (Quaglino y Pagura, 1998 y Aranzazu et al. 2007). Trujillo del Pozo (2001) plantean que el Análisis de Correlación Canónica proporciona variables que garantizan este resultado, y es recomendable su utilización cuando tanto el número de variables endógenas, como las explicativas son elevadas, además existen altas correlaciones de las variables de cada grupo entre sí. 29 Mediante este método de reducción de variables se puede eliminar el ineludible problema de multicolinealidad que ocasionaría la consideración de todas las variables en un modelo de regresión. El Escalamiento Multidimensional es un conjunto de técnicas que persiguen como objetivo, la representación de datos a través de la construcción de una configuración de puntos cuando se conoce una determinada información sobre proximidades entre objetos (Linares, 2001; Miret et al., 2002; Mora y González, 2009 y Arce et al., 2010). Por otra parte Miret et al. (2002) y Miret (2005) señalan que el Escalamiento Multidimensional consiste esencialmente en representar disimilaridades entre objetos o individuos, como distancias entre puntos en un espacio de dimensión reducida, mientras que los Mapas Auto Organizados de Kohonen, se caracterizan por su capacidad para clasificar un conjunto complejo de patrones de manera no supervisada, extrayendo criterios de clasificación no obvios ni expresados de manera explícita. Otros criterios sobre modelos relacionados con las variables cualitativas, son dados por Guerra et al. (2010), como son: La Matriz DAFO, con implementación automatizada, se puede considerar como un Modelo cualitativo de diagnóstico en diversas áreas de investigación. 30 El criterio de experto, a través del Método Delphy, se puede considerar como un Modelo cualitativo de validación en determinadas situaciones. Todos estos Métodos Estadísticos, resultan alternativas de análisis en las investigaciones donde se analizan variables que son de tipo discretas y categóricas. 31 CAPÍTULO II LA ENCUESTA ESTADÍSTICA EN CAPTACIÓN DE INFORMACIÓN Y SU USO LA CAPÍTULO II. LA ENCUESTA ESTADÍSTICA EN LA CAPTACIÓN DE INFORMACIÓN Y SU USO 2.1. Introducción Se aplicó una encuesta estadística bibliométrica y a los investigadores del Instituto de Ciencia Animal, con el objetivo de diagnosticar el estado actual del uso de la transformación de datos y de los Métodos Estadísticos no paramétricos en las investigaciones de la Ciencia Agropecuaria en Cuba. 2.2. Materiales y métodos 2.2.1. Encuesta estadística bibliométrica La encuesta estadística bibliométrica se realizó con el objetivo de conocer los Métodos Estadísticos más empleados, así como las temáticas más abordadas en el período analizado del 2000 al 2007. Se revisaron 1418 artículos para conocer las temáticas, así como los Métodos Estadísticos no paramétricos más abordados en revistas científicas correspondientes a las Ciencias Agropecuarias y Biológicas, pertenecientes al fondo bibliotecario del Instituto de Ciencia Animal. Las revistas revisadas están contenidas en bases de datos internacionales y en la Web of Science. Se emplearon estas revistas por ser las colecciones más completas en el período que se analiza. 32 Para el estudió se revisaron las revistas: Revista Cubana de Ciencia Agrícola (RCCA) Revista Ciencias Biológicas (CENIC) Pastos y Forrajes (EPFIH) Agrociencia (México) Veterinaria de México (México) Archivos de Zootecnia (España) Ciencias Pecuarias (Colombia) Los indicadores que se midieron fueron: Nombre de la revista Número de los artículos por revista Tipo de variables analizadas Métodos Estadísticos aplicados Temáticas tratadas con aplicación de Métodos Estadísticos no paramétricos. 2.2.2. Encuesta estadística a los investigadores Se desarrolló una encuesta en el 2011 (Anexo 2), para evaluar el conocimiento de los investigadores sobre la transformación de datos, y el uso de Métodos Estadísticos alternativos para evitar el empleo de estas en el análisis estadístico de los resultados de las investigaciones desarrolladas en el Instituto de Ciencia 33 Animal. De un total de 89 investigadores, distribuidos en Titulares, Auxiliares, Agregados y Aspirantes, fue posible encuestar 69, que representan el 77,53% de todas las categorías con la siguiente representación por cada departamento, tabla 2.1. Tabla 2.1. Encuestados por departamento. Departamento Monogátricos Fisiología Rumiantes Pastos Genética Biomatemática Total % 13,3 24,6 26,7 15,9 7,2 7,2 100 Para el análisis de la encuesta a los investigadores se valoraron los siguientes indicadores: Departamento. Empleo de transformaciones. Número de transformaciones que emplean. Métodos Estadísticos alternativos que usan. Sabe que logra con el uso de la transformación de datos. Interés por continuar con el uso de las transformaciones. 2.2.3. Organización, procesamiento y análisis estadístico de la información Para el análisis de las encuestas estadísticas bibliométrica y a los investigadores, la información fue tabulada en una base de datos de Excel para su posterior procesamiento. 34 Para procesar la información de las revistas y las encuestas a investigadores se empleó el método de Escalamiento Multidimensional PROXSCAL (en inglés Multidimensional Sealing of Proximity) utilizando el paquete estadístico SPSS versión 19.0 (2010). El procesamiento de las encuestas estadísticas bibliométrica y a los investigadores se incluyeron tablas de frecuencia bivariadas (tablas de contingencia), gráficos de barras y sectores, entre otros. Se evaluó la bondad de ajuste de la solución multidimensional mediante los valores del Stress bruto normalizado, la dispersión explicada (D.A.F, en inglés) y el coeficiente de congruencia de Tucker. Para interpretar las medidas de calidad del ajuste obtenida del Escalamiento Multidimensional, Guerra (2009) propone una tabla del Stress; teniendo en cuenta los valores dados por Kruskal en 1964, (citado por Mora y González, 2009), como se refleja en la tabla 2.2. Tabla 2.2. Interpretación de los valores del Stress (S). Valores del Stress S=0 0 < S ≤ 0,025 0,025 < S ≤ 0,05 0,05 < S ≤ 0,1 0,1 < S < 0,2 S ≥ 0,2 Interpretación de la bondad de ajuste Ajuste perfecto Ajuste excelente Ajuste muy bueno Ajuste bueno Ajuste regular Ajuste pobre Para visualizar la información de la encuesta estadística bibliómetrica por revistas se utilizó también el paquete estadístico Viscovery SOMine (2008), con el método 35 SOM-Wald Clusters, que combina de forma ordenada la información local del mapa con el algoritmo de Cluster Jerárquico Clásico de Ward (Ward, 1963). Del análisis de la encuesta bibliométrica se obtienen dos mapas, en el primero se refleja los Métodos Estadísticos no paramétricos usados y en el segundo las temáticas que más abordan estos métodos. En la parte inferior de cada mapa aparece una escala con matices de colores, de más a menos intenso, si se analiza de derecha a izquierda. Se confeccionó la matriz DAFO para establecer un diagnóstico con los resultados obtenidos de la encuesta a los investigadores. 2.3. Resultados y discusión 2.3.1. Encuesta estadística bibliométrica En la tabla 2.3 se presentan las medidas de bondad de ajuste del Escalamiento Multidimensional, relacionadas con la aplicación de los Métodos Estadísticos no paramétricos por revistas analizadas. Con esta técnica se obtuvieron las medidas de calidad de ajuste de la configuración de los datos, que presentan un resultado excelente de acuerdo a lo que se muestra en la tabla 2.2. Tabla 2.3. Bondad del ajuste de la configuración de los datos para los Métodos Estadísticos no paramétricos. Medida Stress bruto normalizado Dispersión explicada (D.A.F.) Coeficiente de congruencia de Tucker Resultado 0,00092 0,99908 0,99954 36 Por otra parte se observa que la dispersión explicada (D.A.F) y el coeficiente de congruencia de Tucker, corroboran la bondad del ajuste del método, con resultados que se encuentran próximos a 100 %, por lo que logran explicar una alta variabilidad. Según Cuesta (2005), se considera un buen ajuste cuando el resultado obtenido del Stress bruto normalizado se encuentra próximo a 0 y cuando el D.A.F y el coeficiente de congruencia de Tucker son de al menos 0,80 (80%), que indica la dispersión explicada por el método, estos coeficientes se suelen expresar en porciento, lo que facilita su interpretación. En la figura 2.1 se muestra la agrupación en dos dimensiones de aquellas revistas que hacen uso de los Métodos no paramétricos. Se destacan tres grupos; en el primero se ubica la Ciencias Biológicas, en el segundo Veterinaria de México y en el tercero el resto de las revistas que presentan menos aplicaciones de estos métodos. El hecho de que la revista Ciencias Biológicas forme un grupo más aislado del resto de las demás, pudiera estar asociado a que sus investigaciones están más relacionadas a variables que son de tipo discretas y categóricas, por lo que sus análisis estadísticos están más enfocados a los Métodos Estadísticos no paramétricos. 37 Figura 2.1. Revistas relacionadas con la aplicación de los Métodos Estadísticos no paramétricos. En la figura 2.2, se reflejan los mapas referentes a la aplicación de los Métodos Estadísticos no paramétricos con 214 aplicaciones. En este sentido sobresale las revistas Ciencias Biológicas con las dócimas Prueba Exacta de Fisher, seguida por Mann-Whitney y Kruskal-Wallis y la Veterinaria de México con la dócima Chicuadrado ( 2 ). En este caso se obtuvo un ligero incremento en la aplicación de los Métodos Estadísticos no paramétricos que expresado en términos relativos representan el 15,09 %, con respecto al 2,12 % obtenido por De Calzadilla (1999) en el período 1987-1997. 38 Agrociencia Archivo Zootecnia c3 Com Alea c3 Com Alea c1 c4 X2 c4 X2 MW c2 KW 0 c1 1 3 6 7 c2 KW PE Fisher 4 MW 8 10 11 13 14 0 1 3 PE Fisher 4 Ciencias Biologicas 6 7 8 c4 X2 c2 KW 5 11 13 c2 KW PE Fisher 8 16 19 22 24 27 0,0 0,4 0,9 1,3 1,8 2,2 3,1 27 30 c1 c4 X2 MW c2 KW 1,8 2,7 3,6 MW c2 KW PE Fisher 4,4 5,3 6,2 7,1 8,0 Veterinaria 0 3 6 PE Fisher 9 12 15 18 21 24 Leyenda. Métodos Estadísticos no paramétricos más usados c3 Com Alea Clúster 2 (c2): MW (dócima de Mann Whitney) c1 Clúster 2 (c2): KW (dócima de Kruskal Wallis) Clúster 2 (c2): PE Fisher (dócima Exacta de Fisher) c4 X2 MW c2 KW 0 2,7 c3 Com Alea c1 0,9 4,0 PE Fisher RCCA c3 Com Alea 0,0 3,6 MW Pastos Forrajes c4 X2 14 c1 MW 3 13 c3 Com Alea c1 0 11 Ciencias Pecuaria c3 Com Alea c4 X2 10 2 5 7 Clúster 4 (c4): 2 (dócima 2 ) Chi-Cuadrado PE Fisher 9 12 14 16 18 21 Figura 2.2. Métodos Estadísticos estudios agropecuarios y biológicos. 23 no paramétricos más usados en 39 En la tabla 2.4 se muestra la bondad de ajuste del método, que al igual que en el análisis anterior se corrobora el buen ajuste de la configuración de los datos, considerando el Stress bruto normalizado, así como los resultados obtenidos por el D.A.F y el coeficiente de congruencia de Tucker, estos últimos se encuentren cercanos a 100%. Mora y González (2009) indican que en el Escalamiento Multidimensional, el método PROXSCAL minimiza el Stress bruto normalizado, estos valores se obtienen mediante la fórmula introducida por Kruskal en 1964, quien ofreció una guía para su interpretación. Tabla 2.4. Bondad de ajuste de las temáticas por revistas, donde se aplican los Métodos Estadísticos no paramétricos. Medida Stress bruto normalizado Dispersión explicada (D.A.F.) Coeficiente de congruencia de Tucker Resultado 0,01539 0,98461 0,99228 Al tener en cuenta los criterios de bondad de ajuste, se considera que la solución en dos dimensiones es apropiada. En la figura 2.3 se muestra la formación de cuatro grupos, en el primero se unen aquellas revistas que tienen un comportamiento similar en cuanto al análisis de sus temáticas por los Métodos Estadísticos no paramétricos, en este sentido se observa que poseen poca diversidad de estos en sus aplicaciones. El segundo grupo lo conforma la RCCA que posee un comportamiento diferente, ya que realiza poco empleo de estos métodos y en el tercer grupo se ubica Ciencias Biológicas y en el cuarto grupo se 40 encuentra Veterinaria de México, que son las que hacen un mayor empleo de la estadística no paramétrica para el análisis de sus temáticas. Según Guerrero y Ramírez (2002) el Escalamiento Multidimencional está basado en la comparación de objetos o de estímulos, de forma que sí un individuo juzga a los objetos A y B como los más similares, entonces las técnicas de Escalamiento Multidimencional colocarán a los objetos A y B en el gráfico de forma que la distancia entre ellos sea más pequeña que la distancia entre cualquier otro par de objetos. Figura 2.3. Revistas por temáticas con aplicación de los Métodos Estadísticos no paramétricos. En la figura 2.4 se visualizan las revistas donde sus temáticas son analizadas por los Métodos Estadísticos no paramétricos aplicados a las Ciencias Agropecuarias. 41 En cada revista las temáticas que más abordan los Métodos Estadísticos no paramétricos, son aquellas que enfocan su análisis desde el punto de vista teórico, con la reproducción animal, estudios para probar y validar medicamentos en humanos y salud animal, en este caso se destacan las revistas Agrociencia, Archivos de Zootecnia, Ciencias Pecuarias, Ciencias Biológicas y Veterinaria de México. Sin embargo en otras temáticas que abordan las revistas no hay empleo de Métodos Estadísticos no paramétricos, como es el caso de las revistas Pastos y Forraje y la RCCA. 42 Agrociencia Archivo Zootecnia Past Prod Sem c6 Bi otec c4 c1 Est Ovi no Prod Lec Prod c1 Prod Lec Prod Bovi n c2 Aves M ed Ani Lab c3 Rep c5 San Veg Sal ud 1,0 2,0 Est Clhum i 3,0 4,0 5,0 6,0 7,0 8,0 9,0 Bovi n c2 Aves M ed Ani Lab c3 Rep c5 San Veg Sal ud 0,0 1,0 2,0 Ciencias Biologicas Est Cl hum i 3,0 4,0 Bi otec c4 6,0 7,0 8,0 9,0 Past Prod Sem c6 Bi otec c4 Est Ovi no c1 Est Ovi no Prod Lec Prod c1 Prod Lec Prod Bovi n c2 Aves M ed Ani Lab c3 Rep c5 San Veg Sal ud 2 4 Est Clhum i 5 7 9 11 13 14 16 18 Bovi n c2 Aves M ed Ani Lab c3 Rep c5 San Veg Sal ud 0,0 0,7 1,3 Est Cl hum i 2,0 2,7 Pastos Forrajes 3,3 4,0 4,7 5,3 6,0 RCCA Past Prod Sem c6 Bi otec c4 Past Prod Sem c6 Bi otec c4 Est Ovi no c1 Est Ovi no Prod Lec Prod c1 Prod Lec Prod Bovi n c2 Aves M ed Ani Lab c3 Rep c5 San Veg Sal ud 0 5,0 Ciencias Pecuaria Past Prod Sem c6 0 Bi otec c4 Est Ovi no 0,0 Past Prod Sem c6 1 2 Est Clhum i 3 4 5 6 7 8 9 10 Veterinaria Bovi n c2 Aves M ed Ani Lab c3 Rep c5 San Veg Sal ud 0 2 4 6 Est Cl hum i 8 11 13 15 17 19 21 Leyenda. Temáticas más representativas Past Prod Sem c6 Bi otec Clúster 1 (c1): investigaciones sobre Producción de semillas (Prod Sem), Biotecnología (Biotec), Ovino, Producción de leche (Prod Lec), Aves, Sanidad vegetal (San Veg). c4 Est Ovi no Clúster 2 (c2): estudios en Bovinos (Bovin) y Reproducción animal c1 Prod Lec (Rep). Prod Clúster 3 (c3): estudios médicos (Med), en animales de Bovi n c2 laboratorios (Ani Lab) y clínicos en humanos (Est Cli hum). Aves M ed Ani Lab c3 Rep c5 San Veg Sal ud 0 2 5 7 Est Clhum i 9 12 14 16 18 21 23 Clúster 4 (c4): métodos estadísticos (Est) aplicados a las ciencias agropecuarias y Producción de alimento animal (Prod). Clúster 5 (c5): estudios en Salud animal (Salud). Clúster 6 (c6) investigaciones relacionadas con los Pastos (Pas). Figura 2.4 Temáticas por revistas que emplean Métodos Estadísticos no paramétricos para el análisis de sus investigaciones. 43 2.3.2. Encuesta estadística a los investigadores En la encuesta a los investigadores (Anexo 2), se evidencia que el 97,1% de los encuestados conocen con qué objetivo aplican la transformación de datos (figura x y arcoseno ( p ) en el 2.5) y hacen mayor uso de las transformaciones 69,57% de los casos (48 encuestados), lo que se refleja en la tabla 2.5. Este resultado se considera que está dado porque en las investigaciones agropecuarias es frecuente la presencia de variables originadas por conteos y porcientos, que según autores como Steel y Torrie (1992), son las transformaciones adecuadas para este tipo de datos, cuando presentan distribuciones de tipo Poisson y Binomial. 2,90% Uso de transf. en total Si No 97,10% Figura 2.5. Necesidad de aplicar la transformación de datos. 44 Tabla 2.5. Transformaciones de datos más empleadas según encuesta a los investigadores. Transformaciones 1 arcoseno Dpto. x ( p) Log X (1/x) 1 2 3 4 5 6 Total % 3 10 8 1 1 0 23 33,3 8 5 6 4 1 1 25 36,2 0 1 2 5 0 2 10 14,5 0 0 1 0 0 1 2 2,9 x 2 1 1 1 3 1 9 13,0 Total % 13 17 18 11 5 5 69 - 18,8 24,6 26,1 15,9 7,2 7,2 100 En la tabla 2.6 se presentan los aspectos más frecuentes manifestados por los investigadores. Se obtuvo que un alto porciento de los encuestados conocen que se logra con el uso de la transformación de datos, la usan con mayor frecuencia en el ANAVA, desean continuar transformando y desconocen el uso de Métodos Estadísticos alternativos. Tabla 2.6. Aspectos más frecuente en las respuestas de las preguntas a los investigadores. Aspectos Sabe que logra con el uso de la transformación de datos Uso de la transformación de datos en el Modelo de Análisis de Varianza % 73 81,1 Continuar usando la transformación de datos 73,5 Desconocimiento de Métodos Estadísticos alternativos 62,3 Para realizar un análisis integral de la información, se aplicó el Método Estadístico Multivariado de Escalamiento Multidimensional (PROXSCAL), teniendo en 45 consideración lo planteado por Miret (2005), las medidas de calidad de ajuste obtenidas del análisis presentan una clasificación de excelente (tabla 2.7). Tabla 2.7. Bondad de ajuste de los resultados a los investigadores. Medida Stress bruto normalizado Dispersión explicada (D.A.F.) Coeficiente de congruencia de Tucker La dispersión explicada y el Resultado 0,02642 0,97358 0,98670 coeficiente de congruencia de Tucker respectivamente, presentan valores muy cercanos al 100%, que representan un buen indicador de ajuste. En la tabla 2.8, se sintetiza en dos dimensiones la información relevante. En la dimensión uno sobresale el departamento con mayor peso, lo cual indica la atención diferenciada que se debe realizar a cada departamento considerando sus características particulares en el uso de estas temáticas y en la dimensión dos sobresalen las variables relacionadas con el Tipo de transformaciones y Sabe que logra con el uso de estas. Este análisis se realizó con el objetivo de visualizar las variables más importantes por cada dimensión y no para disminuir dimensionalidad. 46 Tabla. 2.8. Resultados de los pesos de las variables por cada dimensión . Variables 1.- Departamento 2.- Necesidad de aplicar transformación de datos 3.- Tipo de transformaciones 4.- Análisis Estadístico donde utilizas las transformaciones de datos con más frecuencia 5.- Sabe que logra con el uso de la transformación de datos 6.- Continuar usando la transformación de datos 7.- Métodos estadísticos alternativos Dimensión 1 2 -0,232 1,018 -0,518 0,286 0,505 0,530 -0,626 -0,292 -0,031 -0,533 -0,281 -0,068 0,308 -0,067 2.3.3. Diagnóstico a partir de la encuesta estadística a los investigadores: Matriz DAFO Después de aplicar la encuesta a los investigadores se conformó la Matriz DAFO, para establecer acciones estadístico-metodológicas para el uso adecuado de las transformaciones de datos, y la aplicación eficaz de Métodos Estadísticos paramétricos y no paramétricos en la investigación científica, aspectos que sirven como punto de partida para perfeccionar la actividad científico-investigativa, en el área de los Métodos Estadísticos y sus aplicaciones agropecuarias (tabla 2.9). El análisis de la Matriz DAFO logró identificar los aspectos más importantes aportados por la encuesta a los investigadores del Instituto de Ciencia Animal, se considera que deben ser utilizadas las Fortalezas, con el fin de atenuar las Debilidades, aprovechando la Oportunidad del liderazgo científico de los departamentos, para contrarrestar la Amenaza en cuanto al uso inadecuado de la transformación de datos y propiciar la acogida de nuevos Métodos Estadísticos como alternativas de análisis. 47 Tabla 2.9. Resultados de la Matriz DAFO Fortalezas Debilidades Conocen el por qué se usa la Alta preferencia por el empleo de las transformación de datos. transformaciones de datos, en lo Existen Métodos Estadísticos para el Desconocimiento análisis de la información. Existencia de un fundamental en el Modelo de ANAVA. Dpto. de El ICA centro de prestigio nacional e Métodos Estadísticos alternativos de análisis. Insuficiente Biomatemática. de intercambio conocimiento del uso sobre el de la transformación de datos con los internacional. Incremento de grados científicos en investigadores del centro. los jóvenes. Doctorado curricular colaborativo en Biometría único en el país. Oportunidades Se Amenazas el Insuficiente intercambio sobre el uso para de la transformación de datos con implementar una estrategia de trabajo profesionales de la Estadística y estadístico-metodológica. usuarios, identifica escenario al más Dpto. como importante Nuevas líneas de investigación que acomete el Dpto. de Biomatemática, en las ciencias agropecuarias y afines. Está muy arraigado el uso de los para dar respuesta a necesidades de Métodos las investigaciones en las ciencias paramétricos, sobre todo los Modelos agropecuarias. de ANAVA y Regresión. Estadísticos clásicos RCCA es la revista de más alto índice de impacto en el país, en esta rama. 48 2.3.4. Consideraciones parciales Del análisis de los resultados de las encuestas estadísticas bibliométricas y a los investigadores se resume que: Los Métodos Estadísticos no paramétricos más empleados, fueron las dócimas 2 (Chi-Cuadrado), Mann-Whitney, Kruskal Wallis y Exacta de Fisher. Se identificaron por revistas las temáticas que fueron analizadas por Métodos Estadísticos no paramétricos. Casi la totalidad de los encuestados (97,10%) conocen el por qué del uso de las transformaciones de datos, y más del 70% consideran su empleo para lograr el cumplimiento de los supuestos teóricos del Modelo de Análisis de Varianza, siendo esta la técnica de uso más frecuente. Existe alta preferencia por el empleo de las transformaciones de los datos, resultan más frecuentes, la x y arcoseno ( p ). El Departamento es el escenario de más importancia para encaminar un trabajo futuro que permita mejorar la aplicación de estas herramientas. 49 CAPÍTULO III MODELOS DE ANÁLISIS DE VARIANZA PARAMÉTRICO Y NO PARAMÉTRICO. USO DE LA TRANSFORMACIÓN DE DATOS CAPÍTULO III. MODELOS DE ANÁLISIS DE VARIANZA PARAMÉTRICO Y NO PARAMÉTRICO. USO DE LA TRANSFORMACIÓN DE DATOS 3.1. Introducción En este capítulo se analiza el cumplimiento de los supuestos teóricos del Análisis de Varianza con y sin transformación de datos y se compararon los valores de probabilidad de error tipo I de los diseños paramétricos con sus homólogos no paramétricos Kruskal-Wallis y Friedman respectivamente, Se realiza un análisis multidimensional de 12 indicadores estadísticos, considerando el Análisis de Componentes Principales Categórico y la Regresión Categórica para el diseño experimental aplicado, de ahí que el presente capítulo tenga como objetivos: Evaluar el comportamiento de la transformación de datos en el cumplimiento de los supuestos teóricos básicos en variables discretas y categóricas en los Modelos de Análisis de Varianza simple y doble de efectos fijos. Analizar de forma integral indicadores estadísticos de los Modelos de Análisis de Varianza paramétricos y no paramétricos, para establecer criterios de valor teórico-práctico. 50 3.2. Materiales y métodos 3.2.1. Características principales de las investigaciones La información analizada pertenece al archivo de las bases de datos procesadas por el departamento de Biomatemática del Instituto de Ciencia Animal en el período 2003-2011, ubicado en el municipio de San José de las Lajas, provincia Mayabeque, correspondiente a investigaciones desarrolladas por los departamentos de Monogástricos, Pastos y Fisiología, en aves, cerdos, pastos y rumiantes. Para el análisis de la información se emplearon los Modelos de ANAVA de clasificación simple y doble, asociados a los Diseños Completamente Aleatorizados (DCA) balanceados y Bloques al Azar (DBA), siendo las variables analizadas discretas y categóricas. 3.2.1.1. Experimentos con Diseño Completamente Aleatorizado Se analizan 16 experimentos con las características siguientes: Experimento 1: Empleo del fósforo sérico y enzima fitasa en el metabolismo mineral y el comportamiento productivo de la gallina ponedora. Tratamientos: Arreglo factorial con 6 tratamientos (3 tipos de fósforos y 2 enzimas fitasas). 51 Variables Número de huevos/aves. Intensidad de puesta. Experimento 2: Empleo de levadura en la dieta de gallinas de reemplazo para evaluar el rendimiento productivo de las aves. Tratamientos: Diferentes porcientos de levadura 0, 10, 20 y 30. Variables Porciento de viabilidad en la semana 6. Porciento de viabilidad en la semana 12. Porciento de viabilidad en la semana 18. Porciento de viabilidad total. Porciento de puesta. Números de huevos/aves. Experimento 3: Empleo de levadura en la dieta de gallinas ponedoras, para evaluar el rendimiento productivo de las aves. Tratamientos: Diferentes porcientos de levadura 0, 5, 10 y 15. 52 Variables Porciento de puesta. Porciento viabilidad. Color de la yema en la semana 32. Color de la yema en la semana 38. Color de la yema en la semana 44. Experimento 4: Efecto de la miel rica de caña, combinada con una fuente de proteína (soya) o con pienso tradicional, en el comportamiento productivo de reproductoras lactantes. Tratamientos: Control, Miel Rica + pienso de reproductora lactante y Miel Rica + Soya. Variables Número de crías vivas. Números de crías muertas. Experimento 5: Empleo de la zeolita en cerdas para medir su efecto en las crías. Tratamientos: Control, 3 % de zeolita y 6 % de zeolita. Variables Número de crías vivas. 53 Números de crías muertas. Días de gestación. Experimento 6: Repuesta fisiológica con la inclusión de los Granos de destilería soluble (DDGS, siglas en inglés) en la dieta de cerdos de preceba. Tratamientos: Inclusión de diferentes porcientos de DDGS en la dieta 0, 10, 20 y 30. Variables Conteo de levaduras. Conteo de coliformes. Conteo de lactobacilos. Experimento 7: Evaluación de la actividad probiótica del cultivo de Bacillus subtilis en pollos como animales de laboratorio. Tratamientos: Tres tipos de cepas C-31, C-34 y E-44. Variables Conteo de bacterias totales hora 0. Conteo de bacterias totales, hora 24. Conteo de bacterias totales, hora 48. Conteo de bacterias totales, hora 72. Conteo de endosporas, hora 0. 54 Conteo de endosporas, hora 24. Conteo de endosporas, hora 48. Conteo de endosporas, hora 72. Experimento 8: Evaluación de la actividad probiótica de los biopreparados C-7 y C65 y la mezcla de ambos en pollos hembras como animales de laboratorio. Tratamientos: Dieta basal, dieta basal + C-7, dieta basal + C-65 y dieta basal + la mezcla de C-7 y C-65. Variables Conteo de coniformes a los 21 días. Conteo de anaerobios a los 21 días. Conteo de lactobacilos a los 21 días. Conteo de coniformes a los 42 días. Conteo de anaerobios a los 42 días. Conteo de lactobacilos a los 42 días. Conteo de levaduras 42 días. Mortalidad a los 42 días. Porciento de viabilidad a los 42 días. Experimento 9. Efecto de la proteína en la dieta de pollos de ceba. Tratamientos: Diferentes porcientos (0, 5, 10, 15) de proteína en la dieta. 55 Variable Mortalidad. Experimento 10: Efecto de germinación en la composición química de granos de Canavalia ensiformis. Tratamientos: Diferentes intervalos de iluminación (24, 48, 72 y 96 horas). Variables Porciento de germinación con diferentes intervalos de iluminación. Porciento de germinación oscuridad total. Porciento de germinación iluminación total. Experimento 11: Efecto de germinación en la composición química de granos de Canavalia ensiformis. Tratamientos: Diferentes días (3, 4, 6, 8, 10). Variables Porciento de germinación con diferentes intervalos de iluminación. Porciento de germinación oscuridad total. Porciento de germinación iluminación total. 56 Experimento 12: Efecto de germinación en la composición química de granos de Mucuna. Tratamientos: Diferentes intervalos de iluminación (48, 72 y 120 horas). Variables Porciento de germinación con diferentes intervalos de iluminación. Porciento de germinación oscuridad total. Porciento de germinación iluminación total. Experimento 13: Efecto de germinación en la composición química de granos de Mucuna. Tratamientos: Diferentes días (3, 4, 6, 8 y 10). Variables Porciento de germinación con diferentes intervalos de iluminación. Porciento de germinación iluminación total. Experimento 14: Efecto de germinación en la composición química de granos de Dolico. Tratamientos: Diferentes días (3, 4, 6, 8 y 10). 57 Variables Porciento de germinación con diferentes intervalos de iluminación. Porciento de germinación oscuridad total. Porciento de germinación iluminación total. Experimento 15: Evaluación de la germinación y emergencia en el crecimiento de Albizia Lebbeck. Tratamientos: Diferentes sistemas de siembra viveros, sombreador y cabina. Variables Porciento de emergencia a la semana 6. Porciento de emergencia a la semana 8. Porciento de emergencia a la semana 11. Porciento de emergencia a la semana 13. Porciento de emergencia a la semana 19. Porciento de emergencia a la semana 24. Porciento de emergencia a la semana 29. Porciento de emergencia a la semana 44. Experimento 16: Efecto de la inclusión de la levadura Scchramyces Cervicese en la población ruminal de vacas en producción de leche. 58 Tratamientos: Diferentes gramos en la dieta (0, 10 y 15). Variables Conteo de bacterias viables. Conteo de bacterias celulolíticas. Conteo de hongos celulolíticos. Conteo de bacterias proteolíticas. Conteo de levaduras. 3.2.1.2. Experimentos con Diseño de Bloques al Azar Se analizan 5 experimentos, con las características siguientes: Experimento 1: Evaluación de diferentes porcientos de DDGS en cerdas gestantes de 1, 3 y 4 partos para medir el comportamiento reproductivo. Tratamientos: Diferentes porcientos de inclusión de DDGS en la dieta (0, 30, 40, 50 y 60). Variables Números de nacidos totales en cerdas de un parto. Números de destetados en cerdas de un parto. Intervalo de destete/celos en cerdas de un parto. Números de nacidos totales en cerdas de 3 y 4 partos. Números de destetados en cerdas de 3 y 4 partos. 59 Intervalo de destete/celos en cerdas de 3 y 4 partos. Experimento 2: Evaluación de diferentes porcientos de DDGS en cerdas gestantes de un parto para medir su efecto en las crías y en las cerdas. Tratamientos: diferentes porcientos de DDGS (0, 10%, 20% y 30%). Variables Números de nacidos totales. Números de destetados. Intervalo de destete/celos. Experimento 3: Evaluación de diferentes clones de King-Grass en diferentes épocas de corte. Tratamientos: Evaluar 8 clones de King-Grass (H 31, H-30, CT-423, CT-457, H-48, CT-442, CT-452, CT-115) Variables Dadas por épocas de corte y de no corte. Números de tallos/surcos. Números de rebrotes por yemas. Número tallos/macollas. Número de tallos/surcos. 60 Número de hojas/plantas. Número de tallos/macollas. Experimento 4: Efecto del Vitazyme en la Vigna unguiculata para medir el rendimiento productivo de la planta. Se aplicaron 9 tratamientos, consistían en: Tratamiento 1: Control absoluto Tratamiento 2: Control con fertilizantes (Rizobium + fórmula completa 0.25 t/ha) Tratamiento 3: Aplicar 1.5 litros /ha de vitazyme en el surco antes del tape + Rizobium. Tratamiento 4: tratamiento 3 + aplicación foliar de vitazyme por aspersión a inicios de la floración a razón de 1.5 litros/ha. Tratamiento 5: tratamiento 2 + aplicación foliar de vitazyme por aspersión a inicios de la floración a razón de 1.5 litros/ha. Tratamiento 6: Aplicar 1.5 litros /ha de fitomass-E en el surco antes del tape + Rizobium. Tratamiento 7: tratamiento 6 + aplicación foliar de fitomass-E por aspersión a inicios de la floración a razón de 1.5 litros/ha. Tratamiento 8: tratamiento 3 + aplicación foliar de fitomass-E por aspersión a inicios de la floración a razón de 1.5 litros/ha. 61 Tratamiento 9: Rizobium + aplicación foliar de una mezcla de 50 % fitomass E y 50% vitazyme por aspersión a inicios de la floración a razón de 1.5 litros/ha. Variables Números de vainas/plantas. Números de plantas/m. Porciento de floración a los 49 días. Porciento de floración a los 56 días. Experimento 5: Evaluar diferentes ecotipos de Tithonia Diversifolia a diferentes alturas. Tratamientos: Se realizó un arreglo factorial con 27 tratamientos (9 ecotipos Tithonia Diversifolia y 3 alturas de siembras) e igual número de observaciones. Variables Número de tallos/surcos (muestreo 1). Número de plantones (muestreo 1). Número de hojas (muestreo 1). Número de tallos/surcos (muestreo 2). Número de plantones (muestreo 2). Número de hojas (muestreo 2). Número de tallos/surcos (muestreo 3). Número de plantones (muestreo 3). 62 Número de hojas (muestreo 3). Número de tallos/surcos (muestreo 4). Número de plantones (muestreo 4) Número de hojas (muestreo 4). Número de tallos/surcos (muestreo 5). Número de plantones (muestreo 5). Número de hojas (muestreo 5). 3.2.2. Procesamiento y análisis estadístico de la información. Para la evaluación del supuesto de normalidad se utilizó la dócima de Shapiro y Wilks (1965). La homogeneidad de varianza se evaluó mediante la dócima de Levene (1960). Ambas fueron aplicadas a las variables originales y a las transformadas, mediante las transformaciones X; X 0,375 ; arcoseno ( p ) y Log X. Se aplicó el Análisis de Varianza paramétrico según los Diseños Completamente Aleatorizado y de Bloques al Azar y sus homólogas no paramétricas las dócimas de Kruskal-Wallis y Friedman respectivamente, conformando una matriz de datos con los siguientes indicadores: 1. Tipo de experimento (Código). 2. Tipo de diseño (Diseño). 3. Número de tratamientos (No. tto). 63 4. Cumplimiento de los supuestos sin transformación (Cumpl S/T). 5. Cumplimiento de los supuestos con transformación (Cumpl C/T). 6. Valor de p de la dócima F de Fisher sin transformación ( Valorp S/T). 7. Valor de p de la dócima F de Fisher con transformación (Valorp C/T). 8. Valor de p para la dócima no paramétrica (Valorp NP). 9. Valor de Potencia de la dócima F de Fisher sin transformar (Potencia S/T). 10. Valor de Potencia de la dócima F de Fisher con transformación (Potencia C/T). 11. Tamaño de muestra (TM). 12. Distribución (Distcod). Se aplicó la dócima de McNemar para verificar la existencia de un cambio significativo entre las probabilidades de error tipo I (sin y con trasformación de datos) de la dócima F de Fisher y sus homólogas no paramétricas Kruskal-Wallis y Friedman, así como para las potencias (sin y con transformación de datos). Se aplicó el Escalamiento Óptimo, para reducir la información a la menor dimensión posible mediante el Análisis de Componentes Principales Categórico (CATPCA), que permite identificar los principales indicadores y visualizar la información mediante el gráfico Biplot. Este análisis se realizó con toda la información y por diseños experimentales (DCA y DBA), y los arreglos factoriales, de los tratamientos, para los diseños antes mencionados, en este último caso se consideró la metodología indicada por Scheirer et al. (1976). 64 La fiabilidad del CATPCA se midió a través del coeficiente Alfa de Cronbach (α). n 2 si k α 1 i 1 k 1 s2 sum Donde: k :es el número de ítems de la prueba. Si2: es la varianza del i-ésimo ítems. S2sum: es la varianza total. Las bases de datos fueron procesadas utilizando el tabulador electrónico Microsoft EXCEL versión 9.0 (2003). Para el análisis de los supuestos teóricos se empleó el paquete estadístico Statistica StatSoft (2003), para el Análisis de Varianza paramétrico y no paramétrico el paquete estadístico InfoStat (2008) y para los análisis del CATPCA y CATREG, se empleó el SPSS versión 19.0 (2010). 65 3.3. Resultados y discusión 3.3.1. Modelos de Análisis de Varianza simple y doble 3.3.1.1. Cumplimiento de supuestos y la transformación de datos Para el análisis del cumplimiento de los supuestos teóricos se analizaron 100 variables que fueron transformadas mediante X; X 0,375 ; arcoseno ( p ) y Log X. Los resultados del análisis de los supuestos teóricos del ANAVA, se observan en la tabla 3.1, el 69 % de las variables analizadas antes y después de ser transformadas incumplieron dichos supuestos. En el 16% de los casos fue innecesario su empleo, ya que se cumplían los supuestos del ANAVA antes de realizar la transformación, solo en el 13% de las variables las transformaciones fueron efectivas. Tabla 3.1. Resumen del cumplimiento de los supuestos teóricos del ANAVA. Cumplimiento de los supuestos S/T C/T No No Si Si No Si No Si Total S/T: Sin transformación % 69 13 2 16 100 Modelo del ANAVA Clasificación Simple Clasificación Doble No. % No. % 41 12 2 11 66 62,1 18,2 3,0 16,7 100 28 1 5 34 82,4 2,9 14,7 100 C/T: Con transformación En esta misma tabla se observa que el modelo de clasificación doble fue el que presentó los resultados más bajos, pues en el 82,4% de las variables analizadas 66 las transformaciones no mejoraron el cumplimiento de los supuestos teóricos, solo en el 2,9% de los casos el empleo de las transformaciones fue efectivo. En sentido general en este análisis se observa que en el 85 % de los casos la transformación de datos no cambia su respuesta en cuento al cumplimiento de los supuestos teóricos del ANAVA. Sakia (1990) plantea que no siempre las transformaciones son capaces de solucionar los problemas que se presentan cuando se incumplen los supuestos teóricos del ANAVA. Estos resultados coinciden con los obtenidos por De Calzadilla (1999), al estudiar el cumplimiento de los supuestos teóricos en Modelos de ANAVA empleando las transformaciones X y X 0,375 , obtuvo que solamente el 10,3 % de las variables proporcionaron el cumplimiento de los supuestos teóricos, siendo en el análisis de ANAVA de clasificación doble (DBA) más crítico. Otros resultados que coinciden con este análisis fueron los obtenidos por Cabrera (2002), que estudió el comportamiento de siete transformaciones de datos entre las se encuentran X, X 1, X 0,5 , X 0,375 , log (X+1), log (X+(k/2)), log [log (X+2)] y X1 – (b/2), en un ANAVA de clasificación simple en un experimento de plagas agrícolas, comprobó que las transformaciones empleadas no mejoraron el cumplimiento de los supuestos del ANAVA. Por otra parte, Font et al. (2007) en un 67 experimento con aves, donde usa las transformaciones X y Log X, sin mejorar el cumplimiento de estos supuestos. Menchaca (1973) indica que las transformaciones de datos deben ser utilizadas con eficacia en la práctica, sin embargo en el análisis anterior realmente no es así porque en la mayoría de los casos no resultaron adecuadas. Cochran y Cox (1999) plantean que las transformaciones de datos se utilizan cuando los errores experimentales siguen una distribución asimétrica, y en tal sentido se busca una transformación que coloque a los datos en una escala tal que la varianza del error sea casi constante. Sin embargo, en la investigación que se realiza se observa que no se hace empleo de otros Métodos Estadísticos alternativos, sin necesidad de recurrir al uso de las transformaciones de datos. En esta dirección se sugiere una reflexión por parte de los investigadores con los especialistas de Estadística, para definir el método más adecuado según los objetivos propuestos en la investigación. Se concluye que en muchas ocasiones las transformaciones empleadas no mejoran el cumplimiento de los supuestos del ANAVA, y es frecuente un uso excesivo de las mismas sin que se logre el objetivo para el cual fueron propuestas. 68 3.3.1.2. Probabilidad de error tipo I y potencia de la dócima F En la tabla 3.2 se observa que de las 66 variables analizadas, para el DCA en la dócima F de Fisher (con y sin transformación), y esta comparada con su homóloga no paramétrica Kuskal-Wallis, en el 100 % de los casos se mantiene el mismo criterio de decisión. Tabla 3.2. Frecuencia de coincidencias en la toma de decisión. DCA Dócimas F de Fisher C/T y S/T F de Fisher S/T y Kruskal-Wallis F de Fisher C/T y Kruskal-Wallis F de Fisher S/T y Friedman F de Fisher C/T y Friedman DBA No. 66 % 100 66 100 66 - 100 - - - No. 33 - % 97,05 - - - 31 91,7 30 88,2 En el caso del DBA se observó que de las 34 variables analizadas, para el caso de la dócima F de Fisher (con y sin transformación de datos) se dan las mayores coincidencias (97,05%). Este resultado coincide con los obtenidos por Siegel (1970), al referirse a un análisis realizado por Friedman en 1937 y con los obtenidos por Guerra et al. (2000), considerando este mismo diseño. Es de destacar que en la tabla 3.2, en la primera línea la dócima F de Fisher (con y sin transformación) presenta resultados similares en cuento a la toma de decisiones. 69 Para verificar si existen cambios significativos entre los valores de probabilidad de error tipo I de la dócima F de Fisher (con y sin transformación de datos) para los DCA, DBA y ambos diseños, comparadas con sus homólogas no paramétricas Kruskal-Wallis y Friedman respectivamente, al igual que las potencias (con y sin transformación de datos) se empleó la dócima de McNemar, según lo propuesto por Siegel (1970) y Siegel y Castellan (1995). En la tabla 3.3 se evidencia la no existencia de cambios significativos entre las probabilidades de error tipo I de la dócima F de Fisher (con y sin transformación de datos), pues los valores de probabilidad son superiores a 0,05, se aprecia estabilidad en los resultados, como en la tabla 3.2. Sin embargo, cuando se compara la dócima F de Fisher sin transformación de datos con sus homólogas no paramétricas se aprecia que solo en el DBA (con la dócima no paramétrica Friedman) se muestran cambios significativos. Tabla 3.3. Resultados de la dócima de McNemar para los valores de probabilidad de error tipo I. Diseños DCA DBA Ambos Dócima F de Fisher C/T y S/T Estadístico Valor p 0,33 1,00 0,001 0,25 0,98 0,65 Dócima F de Fisher S/T y dócima homóloga NP Estadístico Valor p 0,001 3,00 1,29 0,63 0,0001 0,13 Se considera que este resultado está asociado a que de las 34 variables analizadas, con respecto a la dócima de Friedman, 26 de estas (76,47%), 70 presentan probabilidades de error tipo I por encima de 0,05, y la dócima F de Fisher posee 20 variables (58,82%) en esta situación. Por otra parte en el DCA, de las 66 variables analizadas, la dócima Kruskal-Wallis presenta probabilidades de error tipo I por encima de la F de Fisher, en 43 casos, que representa el 65,15%. Por lo que los valores de probabilidad de error tipo I de las dócimas Kruskal-Wallis y Friedman fueron superiores a la de F de Fisher (65,15 y 76,47) respectivamente, aspecto que se considera que debe ser analizado con mayor profundidad en próximas investigaciones. Un estudio similar a este fue realizado por Quintero y Durán (2008) en investigaciones forestales, los que emplearon la dócima de McNemar para comparar los valores de probabilidad de error tipo I de las dócimas 2 de bondad de ajuste y Rao-Scott con corrección de 2do orden, para establecer la existencia de cambios significativos. Al verificar la existencia de cambios significativos para las potencias (con y sin transformación de datos) tabla 3.4, se observa que el DBA mostró cambios significativos, lo que se considera que está dado a que cuando se analizan las potencias con y sin transformación, la mayor cantidad de variables tienen valores por debajo del 80%, 20 de estas representan el 59% y 24 el 71% respectivamente. 71 Tabla 3.4. Resultados de la dócima de McNemar para las potencias de la dócima F de Fisher. Diseños DCA DBA Ambos Estadístico 0,20 3,00 0,11 Valor P 0,97 0,0001 0,51 La potencia de una dócima es un indicador que en muchas ocasiones no es tenido en cuenta en las investigaciones, lo que merece una atención especial en la toma de decisiones, por la información que aporta. En tal sentido resulta oportuno señalar que en general no se tiene en cuenta el uso de las tablas propuestas por Menchaca (1974, 1975); Venereo (1976); Caballero (1979) y Menchaca y Torres (1985), las que sirven de apoyo para la aplicación de los Modelos de ANAVA. Es importante destacar que en la actualidad existe el apoyo de algunos paquetes estadísticos entre los que se encuentran el InfoStat, el G Power y el SPSS, que aportan el valor de la potencia. 3.3.2. Consideraciones parciales De los resultados obtenidos del Modelo de ANAVA paramétrico y no paramétrico, aplicados a los DCA y DBA, se resume que: El uso de las transformaciones de datos no resuelven en muchos de los casos el incumplimiento de los supuestos teóricos en los Modelos de ANAVA para los DCA y DBA. Las dócimas no paramétricas Kruskal-Wallis y Friedman, comparadas con F de Fisher (con y sin transformación de datos) presentan altos indicadores 72 de eficiencia relativa, dado por el nivel de coincidencia en la toma de decisiones. No se mostraron cambios significativos para los valores de probabilidad de error tipo I de la dócima F de Fisher (con y sin transformación de datos). No se observan cambios significativos en las probabilidades de error tipo I de la dócima F de Fisher con sus homólogas no paramétricas KruskalWallis y Friedman. Los valores de potencias (con y sin transformación de datos) no poseen cambios significativos para el DCA y en ambos diseños, no así para el DBA. 3.3.3. Análisis de Componentes Principales Categórico. Aplicación a indicadores de los Modelos de Análisis de Varianza. Para realizar un análisis integral de los indicadores establecidos con anterioridad se aplicó el Análisis de Componentes Principales Categórico (CATPCA), para identificar los más importantes y sus posibles relaciones. En la tabla 3.5 se observa que el método logra explicar aproximadamente el 61% de variabilidad de la información original, en dos dimensiones, con un coeficiente Alfa de Cronbach total que expresa un nivel de fiabilidad excelente (0,94), lo que indica que el método empleado es adecuado. Se destaca en la dimensión uno que explica 43% de la varianza total, con un Alfa de Cronbach de 0,88, lo que evidencia que las variables originales representadas en esta dimensión presentan un buen nivel de fiabilidad, según la escala 73 propuesta por Hair et al. (1999), que considera que el método es aceptable, cuando el valor de este coeficiente está entre 0,6 y 0,7. Tabla 3.5. Resultados del coeficiente Alfa de Cronbach para los indicadores de los Diseños Completamente Aleatorizados y Bloques al Azar. Varianza explicada Dimensión 1 2 Total Alfa de Cronbach ,880 ,576 ,941 Total (Autovalores) 5,176 2,120 7,296 % de la varianza 43,130 17,671 60,800 Los indicadores que presentan mayor peso por cada dimensión se muestran en la tabla 3.6, en la dimensión uno están los relacionados con la probabilidad de error tipo I y la potencia. En la dimensión dos sobresalen los indicadores relacionados con el número de tratamiento (No. tto), tipo de diseño (DCA y DBA) y tipo de experimento. Tabla 3.6. Resultados de los pesos de los indicadores por cada dimensión para los Diseños Completamente Aleatorizados y Bloques al Azar. Indicadores Tipo de experimento Cumplimiento de los supuestos sin transformación Cumplimiento de los supuestos con transformación Probabilidad de error tipo I sin transformación Probabilidad de error tipo I con transformación Probabilidad de error tipo I no paramétrica Potencia sin transformación Potencia con transformación Tamaño de muestra Número de tratamientos Diseño Distribución Dimensión 1 2 -,351 -,673 -,027 ,372 -,179 ,329 -,186 ,923 -,152 ,952 -,068 ,942 ,061 -,938 ,122 -,905 ,581 -,173 ,236 ,764 ,505 ,730 -,157 ,439 74 Los indicadores que sobresalen en la dimensión uno presentan correlaciones por encima de 0,80 en valor absoluto y los de la dimensión dos tienen correlaciones positivas por encima de 0,70 (Anexo 3). Se debe destacar que las altas correlaciones negativas entre los valores de probabilidad de error tipo I y las potencias, se traducen en que a bajos valores de p corresponden altas potencias. Estos resultados coinciden con los obtenidos por Vásquez (2013) cuando realiza un análisis de correlación entre las probabilidades de error tipo I y las potencias, diferentes tamaños de muestras y réplicas en un diseño de Bloques al Azar, considerando distribución Normal y Binomial. En el análisis del gráfico Biplot, (figura 3.1), se corrobora lo antes señalado respecto a la asociación importante de los valores de probabilidad de error tipo I y de las potencias (con y sin transformación de datos), presentando posiciones que reflejan las altas correlaciones negativas. 75 Figura 3.1. Biplot de los indicadores analizados. Se considera que este aspecto está dado por lo señalado por Steel y Torrie (1992); Peña (1994) y Torres et al. (1998) que plantean que la dócima F de Fisher tiene la característica de ser robusta ante la heterogeneidad de varianza y su poca afectación, sobre todo, cuando se trabaja con igual número de observaciones por tratamientos, como es el caso de los diseños analizados. Por otra parte las altas correlaciones negativas entre la potencia y la probabilidad de error tipo I para el caso de la dócima no paramétrica, se debe a que está última con respecto a la dócima paramétrica (bajo el supuesto de distribución Normal) presenta una alta Eficiencia Asintótica Relativa (ARE), que es del 95,5%. Esto significa que para lograr iguales resultados, la dócima no paramétrica debe tener 76 un tamaño de muestra de 100, mientras la paramétrica un tamaño de muestra de 95 observaciones, este último aspecto es abordado por Siegel (1970); Siegel y Castellan (1995) y De Calzadilla (1999), basado en el criterio de potenciaeficiencia. Aunque el tamaño de muestra no se asocia de manera importante con ninguno de los indicadores, es un aspecto a considerar en las investigaciones. En este sentido, Vásquez (2011) realiza un estudio utilizando datos simulados bajo el supuesto de distribución Binomial, considerando entre diferentes indicadores el porciento de rechazo de Ho y obtuvo resultados similares, al comparar la dócima F de Fisher con su homóloga no paramétrica de Friedman, asociado al DBA. Se aprecia la asociación del diseño con el número de tratamientos (identificados en la dimensión dos), esto responde a que los diseños presentan diferentes números de tratamientos de acuerdo a los experimentos analizados. En resumen se considera que al ser la dócima F de Fisher robusta hace que presente una alta potencia conjuntamente con una baja probabilidad de cometer error tipo I, manifestada en las altas correlaciones negativas entre las potencias y los valores de probabilidad de error tipo I (con y sin transformación de datos). La tabla 3.7 presenta el análisis de CATPCA para los indicadores estudiados relacionados con los DCA y DBA con arreglo factorial de los tratamientos. Al igual que el análisis anterior en dos dimensiones se logra explicar aproximadamente 77 una varianza total del 93%, con un Alfa de Cronbach que presenta un nivel de fiabilidad excelente de 0,98, lo que muestra que el método empleado es adecuado, en este sentido se destaca la dimensión uno con una varianza explicada de 61,31%. Tabla 3.7. Resultados del coeficiente Alfa de Cronbach para los experimentos con arreglo factorial de los tratamientos. Dimensión 1 2 Total Alfa de Cronbach ,910 ,692 ,989 Varianza explicada Total % de la (Autovalores) varianza 4,905 61,313 2,532 31,654 7,437 92,967 En la tabla 3.8 se presentan los indicadores con mayor peso o ponderación por cada dimensión, se destacan en la dimensión uno los indicadores relacionados con las probabilidades de error tipo I y las potencias, al igual que el análisis anterior presentan una asociación importante, mostrando correlaciones positivas y negativas de muy altas a perfectas por encima de 0,90 (Anexo 4), lo que reafirma que a altos valores de potencias bajos valores de probabilidades de error tipo I. No aparece en la tabla 3.8 los indicadores Cumplimiento de los supuestos sin transformación porque fue excluido al presentar resultados constantes y la distribución de los datos porque fue la misma para todos los casos. 78 Tabla 3.8. Resultados de los pesos de los indicadores por cada dimensión para los experimentos con arreglo factorial de los tratamientos. Indicadores Tipo de experimento Cumplimiento de los supuestos con transformación Probabilidad de erro tipo I sin transformación Probabilidad de error tipo I con transformación Probabilidad de error tipo I no paramétrica Potencia sin transformación Potencia con transformación Tamaño de muestra Dimensión 1 2 ,219 -,947 -,168 ,820 ,129 ,983 ,129 ,983 ,130 ,983 -,068 -,954 -,108 -,986 -,219 ,947 En esta misma tabla se observa que en la dimensión dos sobresalen los indicadores relacionados con el tipo de experimento, cumplimiento de los supuestos teóricos y el tamaño de muestra, además se observa que estos indicadores presentan correlaciones altas de 0,685 y -1,000 (Anexo 4). En la figura 3.2 se presenta el Biplot de los indicadores para los experimentos con arreglo factorial de los tratamientos, se considera como aspecto de interés una agrupación similar entre las probabilidades de error tipo I y las potencias, a las presentadas en el Biplot de la figura 3.1 y los argumentos dados. 79 Figura 3.2. Biplot de los indicadores para los experimentos con arreglo factorial de los tratamientos. Para confirmar los resultados anteriores y teniendo en cuenta los aspectos que inciden en la potencia estadística, dado por Menchaca y Torres (1985) y Camacho (2007), se realizó el análisis de Regresión Categórica (CATREG) para establecer la relación entre la potencia (con y sin transformación de datos) con los indicadores que teóricamente deben incidir en esta. Al analizar la potencia sin transformación con el resto de los indicadores, se obtiene que el coeficiente de determinación (R2) es 0,91, por lo que la regresión logra explicar el 91% de la variabilidad de la potencia. En la tabla 3.9 se aprecia que el indicador que tiene una influencia significativa negativa sobre la potencia sin trasformar, es el valor de probabilidad de error tipo I 80 sin transformar, resultado que reafirma los obtenidos con anterioridad, pues siguen siendo estos indicadores los de mayor importancia en el análisis. Tabla 3.9. Estimaciones de los coeficientes de regresión en el CATREG para potencias sin transformación. Indicadores Tipo de experimento Cumplimiento de los supuestos sin transformación Probabilidad de error tipo I sin transformación Tamaño de muestra Número de tratamientos Diseño Distribución Coeficientes tipificados Bootstrap (1000) Estimación de error Beta típico -,039 ,079 gl 2 F ,235 Sig. ,791 -,051 ,081 2 ,404 ,669 -,808 -,190 -,127 -,009 -,020 ,078 ,112 ,127 ,095 ,081 3 2 2 2 2 106,939 2,849 ,992 ,008 ,058 ,000 ,065 ,376 ,992 ,944 La tabla 3.10 muestra la importancia relativa de la contribución de las variables predictoras en la potencia, en que se reitera la probabilidad de error tipo I sin transformación, como el indicador más importante, aspecto analizado en el Análisis de Componentes Principales Categórico (CATPCA). Tabla 3.10. Importancia de los indicadores en CATREG para potencias sin transformación. Indicadores Tipo de experimento Cumplimiento de los supuestos sin transformación Probabilidad de error tipo I sin transformación Tamaño de muestra Número de tratamientos Diseño Distribución Importancia -,006 ,001 ,864 ,109 ,031 ,004 -,003 81 Cuando se analiza la potencia con transformación, con los mismos indicadores anteriores, se observa que el 89% de la variabilidad de la potencia está explicada por los indicadores analizados, resultado similar a cuando se realizó la relación con la potencia sin transformar. Al igual que el análisis anterior se observa que el único indicador que tiene una influencia significativa sobre la potencia trasformada, es la probabilidad de error tipo I con transformación, expresado en la tabla 3.11, lo que muestra que la relación de la potencia (con y sin transformación de los datos) con los indicadores dados presentan resultados similares, en resumen se considera que estos son invariante respecto a la transformación de los datos. Tabla 3.11. Estimaciones de los coeficientes de regresión en el CATREG para potencias con transformación Indicadores Código Tamaño de muestra Número de tratamientos Diseño Distribución Cumplimiento de los supuestos con transformación Probabilidad de error tipo I con transformación Coeficientes tipificados Bootstrap (1000) Estimación de error Beta típico -,125 ,134 -,126 ,118 -,062 ,193 -,007 ,157 -,068 ,050 gl 2 3 1 2 2 F ,878 1,143 ,104 ,002 1,838 Sig. ,420 ,338 ,748 ,998 ,167 ,010 -,837 1 3 ,014 82,924 ,906 ,000 ,082 ,092 Se reitera como indicador más importante con relación a la variable respuesta la probabilidad de error tipo I, corroborando los resultados del CATPCA. 82 Tabla 3.12. Importancia de los indicadores en CATREG para potencias con transformación. Indicadores Tipo de experimento Tamaño de muestra Número de tratamientos Diseño Distribución Cumplimiento de los supuestos con transformación Probabilidad de error tipo I con transformación Importancia -,002 ,069 ,014 ,002 -,010 ,002 ,926 3.3.4. Consideraciones parciales. Se identifican y visualizan los indicadores más importantes, corroborando los resultados obtenidos mediante los análisis bivariados. Los resultados obtenidos con los indicadores en los DCA y DBA y para ambos diseños con arreglo factorial de los tratamientos, mostraron resultados similares, en cuanto a la probabilidad de error tipo I, así como las altas correlaciones negativas entre este indicador y la potencia. La distribución de los datos no mostró relación de importancia con el resto de los indicadores analizados. Se evidenció la fuerte relación entre la potencia y la probabilidad de error tipo I (con y sin transformación de datos) en los Modelos de ANAVA de efectos fijos (unifactorial y multifactorial). 83 CAPÍTULO IV EL MODELO LINEAL GENERALIZADO. APLICACIÓN A DIFERENTES DISTRIBUCIONES. CAPÍTULO IV. El MODELO LINEAL GENERALIZADO. APLICACIÓN A DIFERENTES DISTRIBUCIONES. 4.1. Introducción En este capítulo se emplea el Modelo Lineal Generalizado para las variables con distribuciones Normal, Binomial y Poisson con sus correspondientes funciones de enlace. Se realiza un análisis comparativo del Modelo Lineal General (MLG) y el Modelo Lineal Generalizado (MLGnz), a partir de varios indicadores se realiza un análisis multidimensional, con el objetivo de: Analizar de forma integral indicadores estadísticos del Modelo Lineal Generalizado, para establecer criterios de valor teórico-práctico. 4.2. Materiales y métodos 4.2.1. Características principales de las investigaciones Como continuidad al análisis estadístico anterior, se seleccionaron 26 variables de las incluidas en el capítulo III, considerando aquellas que tienen distribuciones de tipo Normal, Binomial y Poisson, por ser estas las más frecuentes en las variables analizadas en el proceso de investigación. 84 4.2.2. Modelo Lineal Generalizado Se utilizó el Modelo Lineal Generalizado (MLGnz) propuesto por Nelder y Wedderburn (1972) como una extensión del Modelo Lineal General. Este modelo comprende los siguientes componentes: Yij i e ij Donde: Yij: Variable respuesta perteneciente a un miembro de la familia exponencial. : Media general. i: Efecto del i-ésimo tratamiento (i= 1;2….n). eij: efecto del i-ésimo error aleatorio asociado a la j-ésima observación (j = 1,2…n). i g = g 1 Donde: : Se denomina predictor lineal, que está definido de la misma forma que el i Modelo Lineal General. g: Una función de enlace monótona diferenciable que se describe como el valor esperado de Yi, se relaciona con el predictor lineal . i Las funciones de enlace considerando las distribuciones seleccionadas se expresan en la tabla 4.1. 85 Tabla 4.1. Distribuciones y funciones de enlace. Distribución Función de enlace Normal Identidad: Poisson Logarítmica: log Binomial Logística: log 1 4.2.2.1. Procesamiento y análisis estadístico de la información Se aplicó el Análisis de Varianza paramétrico según Diseño Completamente Aleatorizado y el MLGnz, de acuerdo a los indicadores seleccionados. 1. Tratamiento (Tto) 2. Tamaño de muestra (TM) 3. Tipo de experimento (Tipoexp) 4. Valor de p de la dócima F de Fisher del MLG (PerrorIF) 5. Valor de p para la dócima del MLGnz (PerrorI ) 6. Suma de cuadrado del error del MLG (SCerror MLG) 7. Devianza del MLGnz como criterios de bondad de ajuste (Devia MLGnz) 8. Distribución de las variables (Distribución) Con estos indicadores se aplicó el análisis de Escalamiento Óptimo, con el objetivo de identificar y visualizar la información mediante el gráfico Biplot, a partir del Análisis de Componentes Principales Categórico (CATPCA). La base de datos fue procesada utilizando el tabulador electrónico Microsoft EXCEL versión 9.0 (2003). Para determinar la suma de cuadrado del error y la 86 probabilidad de error tipo I del MLG, se empleó el paquete estadístico Infostat (2008). En el caso del MLGnz se empleó el paquete estadístico SAS versión 9.1.3 (2007) procedimiento GENMOD (Generalized Linear Model). 4.3. Resultados y discusión 4.3.1. Modelo Lineal General y Modelo Lineal Generalizado. Probabilidad de error tipo I En la tabla 4.2 se muestran los rangos de probabilidad de error de tipo I para los modelos analizados; se observa que de las 26 variables analizadas 25 (8+13+4), coinciden en la toma de decisiones, que representan el 96,15% de estas. Tabla 4.2. Frecuencia de los rangos de probabilidad de error tipo I de la dócima F de Fisher y la dócima 2 . Dócima F de Fisher (MLG) Dócima 2 <0,01 0,01-0,05 >0,05 Total (MLGnz) <0,01 8 4 1 13 0,01-0,05 0 0 0 0 >0,05 0 0 13 13 Total 8 4 14 26 En resumen en el MLG y el MLGnz presentan resultados similares en la toma de decisión, no obstante el MLGnz rechaza a niveles más bajos (<0,01) que el MLG (<0,05) de probabilidades de error tipo I. Esto puede estar dado a que estos modelos mantienen cierta relación, pues el MLGnz es una extensión del MLG, con la característica que no tiene que cumplir los supuestos del ANAVA, y al igual que el MLG, posee una parte sistémica, según lo planteado por González (2001). 87 Según Ponsot (2009), cuando la variable respuesta se distribuye Normal y siendo la función de enlace la Identidad ( ), el MLGnz se reduce al MLG. En cualquier otro caso, el MLGnz cobra su propio espacio y tanto la estimación de los parámetros como el ANAVA, deben ser realizados por métodos diferentes a los propuestos para el MLG. Por lo que los métodos de estimación del MLGnz se realizan a través de un proceso iterativo y a su vez presentan una medida de bondad de ajuste llamada Devianza. 4.3.2. Análisis de Componentes Principales Categórico, para el análisis de indicadores del Modelo Lineal General y el Modelo Lineal Generalizado. En la tabla 4.3 se presentan los resultados del coeficiente Alfa de Cronbach. Se muestra la adecuación del método, y que en ambas dimensiones se logra explicar el 72,26% de la variabilidad de la información original. Tabla 4.3. Resultados del coeficiente Alfa de Cronbach para el Modelo Lineal General y Modelo Lineal Generalizado. Varianza explicada Dimensión Alfa de Total % de la Cronbach (Autovalores) varianza 1 ,814 3,472 43,402 2 ,648 2,309 28,858 Total ,945 5,781 72,260 En la primera dimensión se relacionan los indicadores de las probabilidades de error tipo I de la dócima F de Fisher del MLG, y la dócima 2 del MLGnz, la suma de cuadrado del error, la Devianza y la distribución. En la segunda dimensión 88 resultan importantes los indicadores tamaño de muestra y tipo de experimentos (tabla 4.4). Tabla 4.4. Resultados de los pesos de los indicadores por cada dimensión para el Modelo Lineal General y el Modelo Lineal Generalizado. Indicadores Tratamientos Tamaño de muestra Tipo de experimento Probabilidad de error tipo I dócima F de Fisher Probabilidad de error tipo I dócima X2 Suma de cuadrado del error MLG Devianza MLGnz Distribución Dimensión 1 2 ,526 ,350 -,303 ,861 -,527 ,719 ,354 -,804 ,347 -,795 ,761 ,410 ,507 ,696 -,507 -,696 Las probabilidades de error tipo I de ambas dócimas, presentan correlaciones altas positivas entre sí como se observa en el Anexo 5. Esto está dado porque se parte de la misma fuente de información del capítulo anterior y por la relación que existe entre ambos modelos. En el caso de la suma de cuadrado del error en el MLG y la Devianza del MLGnz, se observa una correlación alta positiva. Se considera que se debe a que estos indicadores miden dispersión en estos modelos, según Kaps y Lamberson (2004), la Devianza es análoga a la Suma de cuadrado del error del MLG. Por otra parte se observa que el tamaño de muestra y el tipo de experimento presentan correlaciones muy altas como se aprecia en el Anexo 5, en el análisis se tuvo en cuenta diferentes tipos de experimentos que tenían diferentes tamaños de muestras de 3 a 15. 89 En la figura 4.1 se presenta el Biplot de los indicadores analizados a partir de los resultados del CATPCA. Es de destacar la agrupación de los indicadores de dispersión del MLG y el MLGnz en posición opuesta a la distribución de los datos por las altas correlaciones negativas y la agrupación casi perfecta de las probabilidades de error tipo I para ambos modelos. Figura 4.1. Biplot de los indicadores estadísticos de los Modelos Lineal General y Lineal Generalizado. La distribución de los datos muestra una correlación alta y negativa con la suma de cuadrado del error (r=-0,649) y una correlación prefecta negativa con la Devianza (r=-1,000) (Anexo 5). Se considera que esta correlación perfecta negativa entre la distribución de los datos y la Devianza, se debe a que en el MLGnz se requiere el conocimiento de la distribución de los datos para establecer la función de enlace correspondiente; por lo tanto el paso del MLGnz ajustado con 90 la distribución adecuada a los datos, a un ajuste con otra distribución, debe provocar un aumento en el indicador de dispersión, que incide de forma negativa en la precisión de los resultados. 4.3.3. Análisis comparativo del Modelo Lineal General y el Modelo Lineal Generalizado y acciones metodológicas relacionadas con estos modelos. Para realizar un análisis comparativo de los resultados del MLG y el MLGnz se utilizó un experimento desarrollado en la Empresa Genética “Camilo Cienfuegos”, de la provincia de Pinar del Río en el período 2007-2008, relacionada con la producción del pasto Pennisetum purpureum (cv. Cuba CT-115). Se analizaron tres muestreos y como caso de estudio se seleccionó el muestreo dos que comprendió los meses junio-julio de 2007. Se empleó un DCA con tres tratamientos y diez repeticiones. Los tratamientos consistieron en diferentes métodos de siembra de pastos: - Plantación a vuelta de arado sin preparación del suelo. - Plantación a vuelta de arado con bueyes en suelo con preparación convencional. - Plantación a vuelta de arado con tractor en suelo con preparación convencional. 91 Las variables analizadas fueron: 1. No. tallos. 2. No. rebrotes. 3. No. hojas totales/tallos. 4. No. hojas totales/rebrotes. 5. No. hojas secas/tallos. 6. No. hojas secas/rebrotes. Se verificó que la distribución de las variables es de tipo Poisson con la función de enlace log μ . El modelo que se empleó es el siguiente: Yij i e ij donde: Yij: variable dependiente. : media general. i : efecto del i-ésimo tratamientos. (i = 1,2, 3) eij: efecto del i-ésimo error aleatorio asociado a la j-ésima observación (j = 1,2……10). La función de enlace es: η (μ) = log (μ) Donde: η (μ): función que relaciona a la media con el predictor lineal; log (μ): función de enlace asociada a la distribución Poisson. 92 Para la bondad de ajuste del modelo se tuvieron en cuenta los criterios de 2 Devianza/gl y gl (Chi - cuadrado). En la tabla 4.5 se presentan los resultados de MLGnz para las variables analizadas, teniendo en cuenta los criterios de bondad de ajuste a partir de la distribución Poisson, con función de enlace logarítmica. Se observa que las variables No. de tallos y No. rebrotes hojas totales obtienen valores del cociente 2 de la Devianza y de gl cercanos a 1, lo que indica que el modelo para esas variables presentó un buen ajuste. Mora et al. (2007) y Dos Santos y Mora (2007) afirman que cuando estos indicadores muestran valores cercanos a 1, se evidencia que el modelo presenta un ajuste apropiado. Tabla 4.5 Resultados de los criterios de bondad de ajuste al aplicar el Modelo Lineal Generalizado. Variables No. tallos No. rebrotes No. tallos hojas totales No. rebrotes hojas totales No. tallos hojas secas No. rebrotes hojas secas GL 27 27 Devianza 25,95 13,05 2 de Pearson 27,53 13,08 Desvianza/GL 0,96 0,48 2 /GL 1,01 0,48 SCerror MLG 297,20 91,00 27 39,82 41,57 1,47 1,54 1733,71 27 19,71 19,92 0,73 0,74 330,11 27 6,32 6,33 0,23 0,23 70,90 27 45,29 37,87 1,68 1,40 138,00 93 Los valores por debajo o por encima de uno, son considerados como que existe una subestimación o sobrestimación del modelo. Esto puede estar asociado a diferentes causas de variación que no se tuvieron en cuenta, y se presenta en las variables, No. rebrotes, No. tallos hojas totales, No. tallos hojas secas y No. rebrotes hojas secas. Según Morales y López (2009), en el análisis de datos relacionados con proporciones y conteos, es común que haya presencia de sobrestimación, situación que se presenta cuando la varianza expresada por los datos es mucho más grande que la que predice el modelo. Se determinó el grado de asociación entre las Devianzas y la suma de cuadrado del error, mediante el coeficiente de correlación por rango de Spearman, el resultado es r=0.60, que es similar a lo que se reporta en el Anexo 5, que es de r=0,649. En la tabla 4.6 se observa que existe coincidencia en la toma de decisiones de los resultados obtenidos, aunque en la variable No. tallos hojas secas, el valor de probabilidad de error tipo I del MLG y MLGnz son muy diferentes, en este caso la dócima de McNemar no detectó cambios significativos. 94 Tabla 4.6. Resultados de los valores de probabilidad de error tipo I para el Modelo Lineal General y el Modelo Lineal Generalizado. Variables No. tallos No. rebrotes No. tallos hojas totales No. rebrotes hojas totales No. tallos hojas secas No. rebrotes hojas secas Valor de probabilidad de error tipo I MLG MLGnz 0,1122 0,0841 0,0018 0,0180 0,0463 0,0040 0,0001 0,0001 0,0026 0,1725 0,2440 0,1161 Dócima de McNemar Estadístico Valor P 0,001 0,78 El MLGnz, según Ojeda (2004), Montgomery et al. (2005) y Cayuela (2010), es una técnica unificadora que agrupa los Modelos de Análisis de Varianza (ANAVA), y de Regresión clásicos, los Modelos no lineales como el Logístico y el de Poisson, entre otros. Una hipótesis fundamental de este modelo es que la distribución de la variable respuesta es un miembro de la familia exponencial de distribuciones que incluye, la Normal, la Binomial, la de Poisson, la Normal Inversa, la Exponencial y la Gamma, entre otras. Aunque la toma de decisión en ambos modelos es similar, el MLGnz es mucho más flexible que el MLG, pues la variable respuesta no requiere del cumplimiento de los supuestos del Análisis de Varianza paramétrico, sólo se requiere conocer la distribución de los datos y la función de enlace asociada a esta. 4.3.4. Consideraciones parciales Entre el Modelo Lineal General y el Modelo Lineal Generalizado existen correspondencias en cuanto a las probabilidades de error tipo I y los 95 indicadores de dispersión, dados por la suma de cuadrado del error y la Devianza. El Modelo Lineal Generalizado resulta otra alternativa de análisis, al igual que los Métodos Estadísticos no paramétricos, en presencia de variables que no distribuyen de forma Normal. 4.3.5 Propuesta de acciones metodológicas para investigaciones relacionadas con la aplicación del Modelo de Análisis de Varianza La propuesta de acciones metodológicas relacionadas con el Modelo de Análisis de Varianza se resume en la figura 4.2, entre los aspectos que se proponen sobresalen con mayor interés: La aplicación de la propuesta de acciones para diferentes tipos de variables. En el análisis a priori o a posteriori, se propicia la realización de una valoración crítica de aspectos como: tamaño de muestra, potencia de la dócima F de Fisher, variabilidad de los datos y criterios técnicos del investigador y del estadístico, entre otros aspectos. Realizar una valoración crítica sobre las consecuencias del incumplimiento de los supuestos teóricos del Modelo de Análisis de Varianza y a partir de aquí asumir la mejor opción, como: 96 - Uso del Modelo de Análisis de Varianza paramétrico (si no son serias las consecuencias en el incumplimiento de los supuestos de Análisis de Varianza. - Uso del Modelo de Análisis de Varianza no paramétrico. - Uso de la transformación de datos. - Uso del Modelo Lineal Generalizado. 97 Investigaciones relacionadas con la aplicación del Modelo de ANAVA Aplicable a diferentes tipos de variables Planeación de la investigación A posteriori A priori Modelo de ANAVA paramétrico Si Evaluar el cumplimiento de los supuestos teóricos Valorar: tamaño de muestra, potencia de la dócima F, variabilidad de los datos, criterios técnicos del investigador y el estadístico Definir el Modelo de ANAVA Ejecutar el experimento Valorar las consecuencias en cada caso No Alternativas Uso de transformación de datos Uso del Modelo de ANAVA paramétrico Uso del Modelo de ANAVA no paramétrico Uso del MLGnz No Si Cumplimiento de los supuestos teóricos Obtener los resultados experimentales Procesamiento, análisis e interpretación de los resultados en el contexto dado Figura 4.2. Propuesta de acciones metodológicas para investigaciones que aplican el Modelo de Análisis de Varianza. 98 CONCLUSIONES CONCLUSIONES 1. Se manifiesta una alta preferencia por el empleo de las transformaciones de datos y en la mayoría de los casos analizados no resuelven el cumplimiento de los supuestos teóricos básicos del Modelo de Análisis de Varianza. 2. Se pone en evidencia poco empleo de los Métodos Estadísticos no paramétricos en las investigaciones agropecuarias. 3. La docima F de Fisher (con y sin transformación de datos) y con sus homólogas no paramétricas Kruskal-Wallis y Friedman, presentaron resultados similares en la toma de decisiones, dado por el alto nivel de coincidencia en las probabilidades de error tipo I. 4. La potencia y la probabilidad de error tipo I son los indicadores que más se destacan en los análisis realizados, mostrando una alta correlación negativa. 5. El Modelo Lineal Generalizado resulta una alternativa de análisis, cuando la variable respuesta incumple los supuestos teóricos básicos del Modelo de Análisis de Varianza y en comparación con el Modelo Lineal General presenta un grado de asociación de importancia con los indicadores probabilidad de error tipo I y de variabilidad. 6. Las acciones metodológicas propuestas establecen orientaciones de valor teórico-práctico para el empleo adecuado de la transformación de datos, los Modelos de Análisis de Varianza de efectos fijos (paramétrico y no paramétrico) y el Modelo Lineal Generalizado. 99 RECOMENDACIONES RECOMENDACIONES 1. Capacitar a técnicos y usuarios de la Estadística sobre el empleo adecuado de la transformación de datos, los Métodos Estadísticos no paramétricos y el Modelo Lineal Generalizado. 2. Utilizar la transformación de datos en casos muy bien fundamentados por criterios técnicos del investigador y el estadístico. 3. Ante tamaños de muestra pequeño que aporten bajas potencias y no detecten diferencias significativas que resulten evidentes para el investigador, se sugiere como mejor opción el Modelo de Análisis de Varianza no paramétrico, y con un conocimiento a priori de la distribución de los datos se sugiere utilizar el Modelo Lineal Generalizado. 4. Continuar profundizando sobre el criterio de potencia-eficiencia de los Métodos Estadísticos no paramétricos y paramétricos, relacionados con diferentes variables discretas y continuas. 5. Continuar evaluando el comportamiento del Modelo Lineal Generalizado con diferentes distribuciones de los datos. 100 REFERENCIAS BIBLIOGRÁFICAS Referencias bibliográficas Agresti, A. 2007. Categorical Data Analysis. Editorial John Wiley & Sons. 2ª edition. 349 p. Álvarez, R. 2008. Estadística multivariante y no paramétrica con SPSS: Aplicación a las ciencias de la salud. España: Díaz de Santos. [Consultado: 10 octubre 2009] Disponible en: http://site.ebrary.com/lib/unlsp/Doc?id=10212356&ppg=361. Aranzazu, D. A.; Rodríguez, B. J.; Zapata, M.; Bustamante, J. y Restrepo, L. F. 2007. Aplicación del análisis de factor de correspondencia múltiple en un estudio de válvulas cardíacas en porcinos. Revista Colombiana de Ciencias Pecuarias. 20(2) 129-140. Arce, C.; de Francisco, C. y Arce, I. 2010. Escalamiento Multidimensional: Concepto Y Aplicaciones. Revista Papeles del Psicólogo. 31(1) 46-56. Avanza, M.; Massa, S; Martínez, G. y Giménez, L. 2006. Uso de transformaciones para el cumplimiento de los supuestos de normalidad y homocedasticidad, para modelos lineales. Revista Agrotecnia. [s/v](11) 18-23. Balzarini, M.; Di Rienzo, A.; Cazanove, F.; González, L.; Tablada, M.; Guzmán, W. y Robeldo, W. 2008. InfoStat paquete estadístico InfoStat versión 2008, Manual de usuario, Grupo InfoStat, FCA, Universidad Nacional de Córdoba, Argentina 115pp. Bartlett, M. S. 1947. The use of transformations. Biometrics. 3 (1) 39–51. Bono, R. y Arnau, J. 1995. Consideraciones generales en torno a los estudios de potencia. Revista Anales de Psicología. 11(1) 193-202. Box, G.E.P and Cox, D.R. 1964. An analysis of transformations. Journal of the Royal Statistical Society. Series B (Methodological) 26(2) 211-252. Caballero, A. 1979. Tamaños de muestras en diseños completamente aleatorizados y bloques al azar donde la unidad experimental esté formada por grupos de animales. Revista Cubana de Ciencia Agrícola. 13 (3) 225-235. Cabrera, A. 2002. Criterios estadísticos en la descripción del patrón espacial y diseño de muestreos para Thrips palmi Karny en papa. Tesis Doctorado en Ciencias. Universidad Agraria de la Habana, Centro Nacional de Sanidad Agropecuaria. 99 p. Cabrera, A.; Guerra, C. W.; Herrera, M. and Suris, M. 2012. Non-parametric statistical methods and data transformations in agricultural pest population studies. Chilean Journal of Agricultural Research. 72(3) 440-443. Camacho, J. 2007. Potencia estadística en el diseño de estudios clínicos. Nota Estadística. Acta Médica Costarricense. 49(4) 203-204. Cayuela, L. 2010. Modelos lineales generalizados (GLM). Curso de R CEAMA. EcoLab, Centro Andaluz de Medio Ambiente. Universidad de Granada. Cochran W. y Cox, G. 1999. Diseños experimentales. Segunda edición en español. Editorial F. Trillas, S.A.México. 75pp. Correa, J. 2006. Estudio de potencia de pruebas de homogeneidad de varianza. Revista Colombiana de Estadística Volumen 29(1) 57-76. Correa, J. 2007. Estimación por intervalo del parámetro de la distribución de Poisson con una sola observación. Revista Colombiana de Estadística 30(1) 6975. Cox, F. and Dunn, T. 2002. An analysis of decathlon data. Journal of the Royal Statistical Society: Series D (The Statistician) 51(2) 179-18. Cristo, M. 2001. Comportamiento de las dócimas no paramétricas respecto a las paramétricas en distribuciones no normales. Tesis presentada en opción al título de Master en Matemática. Universidad Central de Las Villa. Cuba Cuesta, A. 2005. Análisis Multivariante. Dpto. Matemática, Estadística y Computación. Universidad de Cantabria, España, 55 p. Daniel W. W. 1978. Applied No- parametric Statistics. Ed. Houghton Myffin Co. Boston. 503p. De Calzadilla, J. 1999. Procedimientos de la Estadística no paramétrica. Aplicaciones en las Ciencias Agropecuarias. Tesis presentada en opción al título de Master en Matemática Aplicada a las Ciencias Agropecuaria. Cuba. De Calzadilla J.; Guerra, W. y Torres, V. 2002. El uso y abuso de transformaciones matemáticas. Aplicaciones en modelos de análisis de varianza. Rev. Cubana Ciencia Agrícola. 36(1) 103-106. Di Rienzo; J.A.; Casanoves, F.; González, L.M.; Tablada, E.M; Díaz, M. P.; Robledo, E.W. y Balzarini, M. G. 2005. Estadística para las Ciencias Agropecuarias. Edición Electrónica. Sexta Edición. Córdova. Argentina. 347p. Dos Santos, A. y Mora, F. 2007. Análisis experimental de tratamientos floculantes de residuos orgánicos derivados de la producción porcina. Revista Ciencia e Investigación Agraria 34(1) 49-56. Durbin, J. and Watson, G. S. 1950. Testing for Serial Correlation in Least Squares Regression, I. Biometrika 37(1) 409–428. Eisenhart, C. 1947. The assupmtions underlying the analysis of variance. Biometrics 3(1) 3–21. Faraway, J. J. 2006. Extending the Linear Model with R: Generalized linear, mixed effects and nonparametric regression models. Journal Computational Statistics. 24(2) 369-370. Font, H.; Torres, V.; Herrera, M. and Rodríguez, R. 2007. Fulfillment of the normality and the homogeneity of the variance in frequencies of accumulated measurement of the egg production variable in White Leghorn hens. Cuban J. Agric. Sci. 41(3) 207-210. Fox, J. 2007. Generalized Linear Models: An introduction, York Summer Programme in Data Analysis, Dpto. of Sociology McMaster, University in Hamilton, Ontario. Canada. Fraser, D.A.S. 1957. Nonparametric Methods in Statistics, John Wiley & Sons, Inc, New York, 299p. García, Cl. 2002. Modelos Lineares Generalizados em Agronômica. ESALQ/USP – Piracicaba, SP. Brazil. 121p. Experimentação Gibbons, J. D. 1971. Non-parametric Statisical Inference. Ed. MacGraw Hill Book. Co. York. 306p. Gómez, M.; Danglot, C. y Vega, L. 2003. Sinopsis de pruebas estadísticas no paramétricas. Cuando usarlas. Revista Mexicana Pediatría 70(2) 91-99. González, K. 2001. Los Métodos de los Mínimos Cuadrado Ponderado para la estimación de los Modelos Lineales Generalizados. Tesis para optar el título profesional de Licienciada en Estadística. Greene, W. 1999. Análisis econométrico, 3ra ed., Prentice-Hall, Madrid, España. 325p Guerra, C. W.; De Calzadilla, J. y Torres, V. 2000. Índice de eficiencia en relación con procedimientos de la estadística no paramétrica. Revista Cubana de Ciencia Agrícola 34 (1) 1-4. Guerra, C. W. 2009. Apuntes sobre Escalamiento Óptimo y Multidimensional. Aplicaciones. Centro Universitario de Güines. La Habana. Cuba. 15 p. Guerra, C.W.; Herrera, M.; Vázquez y Quintero, A.B. 2010. Contribución de la Estadística al análisis de variables cualitativas. Centro Universitario de Güines. La Habana. Cuba. Guerrero, F. M., Ramírez y J. M. 2002. El análisis de escalamiento multidimensional: una alternativa y un complemento a otras técnicas multivariantes. Asociación Española de Profesores Universitarios de Matemática para la Economía y la Empresas. X Jornada. Hair, J. F.; Anderson, R. E.; Tatham, R. L. and Lack, W. C. 1999. Analisis Multivariate. Practice. Hall Iberia. Madrid. España. 799p. Hartley, H. 1950. The Maximum F-Ratio as a Short-Cut Test for Heterogeneity of Variance’, Biometrika 37 (2) 308–312. InfoStat, versión 2008. Software Estadístico. Grupo InfoStat, FCA, Universidad Nacional de Córdoba. Editorial Brujas, Argentina. Johnson, D. E. 2000. Métodos Multivariados Aplicados al Análisis de Datos. International Thompson Editores, México 566p. Johnson, R. 1990. Estadística Elemental. Grupo Editorial Iberoamérica. SA de CV. 592p. Johnston, G. 2000 SAS software to fit the generalized linear model. Consultado [25/2/09]. [on line]. Disponible en: http://www.sas.com/rnd/app/papers/genmod.pdf. Kaps, M. and Lamberson, W. R. 2004. Biostatistics for Animal Sciecie. Library of Congress Cataloging-in-Publication Data. British Library, London, UK. Khan, A. and Rayner, D. 2003. Robustness to Non-Normality of Common Tests for the Many-Sample Location Problem. Journal of Applied Mathematics and Decision Sciences. 7(4) 187-206. Kreyszig, E 1974. Introducción a la Estadística Matemática. Principios y métodos. Editorial Limusa, S.A. México. 505p. Levene, H. 1960. Robust tests for the equality of variance. Contributions to Probability and Statistics. Stanford University Press. pp. 278-292. Lilliefors, H. 1967. "On the Kolmogorov-Smirnov Test for Normality with Mean and Variance Unknown," J Am Stat Assoc. 62(318) 399-402. Linares, G. 2001. Escalamiento Multidimensional: Conceptos y enfoques. Revista Investigación Operacional. 22(2) 173-183. López, P. C. y Romero, V.O. 1986. A propósito de las estadísticas no paramétricas. Revista Estadística (Cuba) 18[s/n] 165-181. Martín, A. y Luna, C.J. 1994 Bioestadística para las ciencias de la salud. 4ª Ed. Norma, S.A. España.[s/v](1) 133-170. Martínez, O. 1995. Métodos Estadísticos Multivariados en Biología Molecular y su aplicación en investigaciones agrícolas. Agronomía Colombiana 12(1) 66–71. McCullagh, P. and Nelder, J.A. 1989, Generalized Linear Models, London: Chapman and Hall 412p. Menchaca, M. A. 1973. Método corto para el análisis de transformaciones. Revista Cubana de Ciencia Agrícola 7 (1) 145-149. Menchaca, M. A. 1974. Tablas útiles para determinar tamaños de muestras en diseño de Clasificación Simple y de Bloques al Azar. Revista Cubana de Ciencia Agrícola. 8 (1) 111-116. Menchaca, M. A. 1975. Determinación de tamaños de muestra en diseños Cuadrados Latinos. Revista Cubana de Ciencia Agrícola. 9 (1) 1-3. Menchaca, M. A. y Torres V. 1985. Tablas de uso frecuente en la Bioestadística. Instituto de Ciencia Animal. Cuba. Méndez, J. 1993. Uso y abuso de la Estadística en investigación .Tópicos de Investigación y Posgrado III (2) 3–8. Méndez, M. 2000. Introducción a la estadística para ornitólogos que odian el ardeola." Colección Ciencia p'al Pueblo, nº 2 [Consultada: 20/04/08]. [on line] Disponible en: http://www.escet.urjc.es/biodiversos/espa/personal/marcos/cpp/Estadis.pdf#sear ch=%22 estadis.pdf%20normalidad%22. Mesa, A. 1998. Determinación de la validez predictiva de los tests en el deporte. En Memorias del II Simposio Internacional de Educación Física y Deporte Escolar. Cienfuegos, Cuba. Microsoft Excel versión 9.0. 2003. Microsoft Corporación. USA. Miranda, I, 1997. La estadística del agropecuario. 10 preguntas 10 respuestas. [Consultada 11/4/09]. [on line]. Disponible en: http://www.monografias.com/trabajos19/ agropecuario.shtml. estadistica-agropecuario/estadistica- Miret, E.; Linares, G. y Mederos, M. V. 2002. Estudio comparativo de procedimientos de Escalamiento Multidimensional a través de experimentos de simulación. .Revista Investigación Operacional. 23 (1) 73-82. Miret, E. 2005. Un enfoque unificado para técnicas de representación euclidiana. Tesis para optar por el grado de Doctor en Ciencias Matemáticas. UH. La Habana. Cuba. 148p. Molina, O. y Espinosa de los Monteros, E. 2010. Rotación en el análisis de Componentes Categóricos. Un caso práctico. Metodología de encuestas (SIPIE) s/v(12) 63-88. Montgomery, D. C.; Peck, E.A. y Vinig, G.G. 2005. Introducción al Análisis de Regresión Lineal. Editorial Continental. Seguna reimpresión, México p 420. Mood, A. M. y Graybill, F. A. 1972. Introducción a la teoría de la Estadística. Ediciones Aguilar S. A. Madrid. España. 536 p. Mora, F.; Perret, S.; Scapim. A.; Nunes Martins, E. y Paz Molina, M. 2007. Variabilidad en el florecimiento de procedencia de Eucalyptus cladocalyx en la Región del Coquimbo. Revista Ciencia de la Investigación Agraria 34(2) 131139. Mora, M. C. y González, M. I. 2009. Caracterización del fracaso empresarial en Colombia: Un enfoque con Escalado Multidimensional. Comisión de Estudios al exterior. Documento de Trabajo 11/09. Universidad de Salamanca. España. 37p. Morales, M. A. 2008. Estudio de la homogeneidad de la dispersión en un diseño completamente al azar con datos de proporción de conteo [Tesis Maestría]. Universidad Nacional de Colombia, Departamento de Estadística. 124 p. Morales, M. A. and López, L. A. 2009. Study of homogeneity of the dispersion in one way classification models with proportions and counts data. Revista Colombiana de Estadística. 32(1) 59-78. Navarro, J. M.; Casas, G. M.; González, E. y Cuadrado, S. 2008. Estudio del riesgo cardiovascular en el municipio de Santa Clara utilizando el método de Regresión Categórica. Revista Investigación Operacional. 29(3) 224-230. Navarro, J.M.; Casa, G. y González, E. 2010. Análisis de Componentes Principales de Regresión para datos categóricos. Aplicación en la Hipertensión Arterial. Revista de Matemática. Teorías y Aplicaciones 17(2) 199-230. Nelder, J.A. and Wedderburn, R.W.M. 1972. Generalized linear models, Journal of the Royal Statistical Society, Serie A. 135(3) 370–384. Norell, L. 2003. ANOVA Estimators Under Imbalance in the One-Way Random Model. Communications in Statistics: Theory & Methods 32(3) 601. Oficina Nacional de Estadística (ONE). (2006). "Anuario Estadístico de Cuba 2005." [Consultada: 06/10/10], Disponible en http://www.one.cu/aec2005indicec10.htm Ojeda, M. 2004. La modelación estadística. Memorias: Foro de matemática del sureste. 1(1) 69-76. México. Ostle, B. 1974. Estadística Aplicada. Editorial Científico-Técnica. Ciudad de la Habana, Cuba. 629p. Peña, J.I. y Peña, D. 1986. Un contraste de normalidad basado en la transformación de Box-Cox. Estadística Española. 110(1) 33–46. Peña, S. 1994. Estadística. Modelos y métodos. 2. Modelos lineales y series temporales. Alianza Editorial, S.A., Madrid. 745 p. Pérez, R; Noda, M.; Moreno, M. y Pérez E. 2002. Aplicación de la estadística en las diferentes etapas del ciclo de vida. Centro de Información y Gestión Tecnológica, Revista Trimestral, Año VIII, No. 2 Universidad de Holguín. Cuba.[Consulta: agosto 7 2010]. [on line]. Disponible en: http://www. ciencias.Holguin.cu.2002/Junio/articulos/ARTl3.htm Ponsot, E. 2009. Estudio de la agregación de niveles en el modelo logit. Proyecto de tesis doctoral. Universidad de Los Andes Facultad de Ciencias Económicas y Sociales Instituto de Estadística Aplicada y Computación Programa de Doctorado en Estadística. Quaglino, M. B. y Pagura, J. A. 1998. Una propuesta para algunas aplicaciones de análisis de correspondencias múltiples. Terceras Jornadas Investigaciones en la Facultad de Ciencias Económicas y Estadística. Instituto de Investigaciones Teóricas y Aplicadas, Escuela de Estadística. Quintero, M. A. y Durán M. J. 2008. Aplicación de dos pruebas estadísticas de bondad de ajuste en muestras complejas: Un caso práctico en el campo forestal. Revista Agrociencia 42 (3) 287-297. Ramírez, D. C. 2004. Autocoorelación. [Datos en línea]. Consultada [14/9/12] Disponible: http://webdelprofesor.ula.ve/economia/dramirez/MICRO/FORMATO_PDF/Materi aleconometria/Autocorrelacion.pdf. Rodríguez, F. 2008. Estudio de métodos no paramétricos. Informe de pasantías presentado como requisito para optar al título deLicenciado en Matemática Mención Probabilidad y Estadística. Universidad Nacional Abierta, Centro Local Metropolitano. Caracas Venezuela. Royston, P. 1982. An extension of Shapiro and Wilk’s W test for normality to large samples. J. Royal Statistical Soc. Series C. 31(2) 115-124. SAS, versión 9.1.3, 2007. User’s guide statistics. SAS Institute Inc., Cary, NC, USA Sabín, Y. 1999. Determinación a posteriori de la potencia en los diseños experimentales clásicos. Tesis presentada en opción al título de Master en Matemática Aplicada a las Ciencias Agropecuarias. UNAH. 65p. Sakia, R. M. 1990. Retransformation bias: a look at the Box-Cox transformation to linear balanced mixed ANOVA models. Metrika. 37(1) 345-351. Sakia, R. M. 1992. The Box-Cox TheStatistician. 41(2) 169-178. transformation technique: a review. Salvador, M. y Gargallo, P. 2003. "Análisis Exploratorio de Datos", [en línea]. Consultada [25/09/2008]. Disponible en: http://www.5campus.com/leccion/aed Santos, B. M., Gilreath, J. P. y Arbona, R. 2005. La estadística no paramétrica para el análisis e interpretación de estudios de plagas: alternativas al analisis de varianza. Manejo Integrado de Plagas y Agroecología. 75 (51) 83-89. Scheffé, H. 1959. The Analysis of Varianza. John Wiley & Sons, Inc, New York. 477p. Scheirer, J. C.; Ray, W. S. and Hare, N. 1976. The Analysis of Ranked Data Derived from Completely Randomized Factorial Designs. Biometrics. 32(2) 429434. Schuyten, G. 1990. Statistical Thinking in Psychology and Education. Proceeding of the ICOTS III. Universidad de Otago. Dunedin. Australia. [En línea]. Consultada [10/4/08] Disponible en: http://www.virtual.unal.edu.co/cursos/ciencias/ 2007315/lecciones_html/capitulo_2/leccion2/homogeneidad.html Servy, E.; Garcia, M. y Paccapelo, V. 2007. Regresión no paramétrica: una aplicación. Décimas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística. Instituto de Investigaciones Teóricas y Aplicadas, de la Escuela de Estadística. Universidad Nacional de Rosario. Shapiro, S. and Wilk, B. 1965. An analysis of variance test for normality (complete samples), Biometrika, 52 (2) 591-611. Siegel, S. 1970. Diseño Experimental Noparamétrico aplicado a las Ciencias de la Conducta. Edición Revolucionaria. Instituto Cubano del Libro. Habana, Cuba. 346p. Siegel, S. y Castellan, N. J. 1995. Estadística no paramétrica aplicada a las Ciencias de la Conducta. Cuarta edición. Editorial Trillas, México. p 57 Spiegel, M. R., Schiller, J. J. y Srinivasan, R. A. 2003. Teoría y problemas de probabilidad y estadística. 2 ed. México D.F: McGraw-Hill. 416 p. SPSS, versión 19.0. 2010. SPSS for Windows. Statistical Package for the Social Sciences. STATSOFT, INC. versión 6. 2003. (STATISTICA, data analysis software system). www.statsoft.com. Steel, R. G. y Torrie, I.H. 1992. Bioestadística: principios y procedimientos. McGraw-Hill. Interamericana. México, SA. 228 pp. Tejedor, F.J. 1999. Análisis de varianza: introducción conceptual y diseños básicos. Madrid: La Muralla. 132 p. Torres, V. y Segui, Y. 2001. Procesamiento práctico para la determinación de la función de potencia a posteriori. Revista Cubana de Ciencia Agrícola 35(4) 319-322. Torres, V.; Ajete, A.; Martínez, M. L. y Noda, A. 1998. ANALEST.Sistema estadístico para el procesamiento de información. (folleto teórico). Trujillo del Pozo. 2001. Modelos dinámicos de medición de la eficiencia. Una comparación de métodos en la educación superior. VIII Encuentro de Economía Pública. Universidad de Extremadura, España. Vásquez, R. E. 2011. Contribución al tratamiento estadístico de datos con distribución Binomial en el Modelo de Análisis de Varianza. Tesis en la opción al grado de Doctor en Ciencia. Instituto Nacional de Ciencias Agrícolas. Cuba Vásquez, R. E. 2013. Comunicación personal sobre resultados de su tesis de doctoral defendida en Cuba en diciembre del 2011. Verde, O. 2000. Comparación de métodos para el análisis de datos binomiales en producción animal. Revista de Zootecnia Tropical. 18(1) 3-28. Venereo, A. 1976. Número de réplicas en diseños cuadrados latinos balanceados para la estimación de efectos residuales. Revista Cubana de Ciencia Agrícola. 10(3) 237-246. Vilar, J. 2011. Curso de Estadística 2 La Coruña: Universidad de La Coruña. [Consultado: 15 febrero 2011] Disponible en: http://www.udc.es/dep/mate/estadistica2/estadistica_2.htm. Viscovery Software GmbH. 2008. Viscovery SOMine 5.0.2. [Software de cómputo]. Viscovery Software GmbH. Ward, J. 1963. Hierrarchical grouping to optimize an objective function. Jornal of the Amarican Statistical Association. 58(4) 236-244 Wu, J. and Wong, M. 2003. A Note on Determining the p-Value of Bartlett's Test of Homogeneity of Variances. Communications in Statistics: Theory & Methods 32(1) 91. ANEXOS Anexo. 1. Verificación de los supuestos teóricos básicos y consecuencias de su incumplimiento en el Análisis de Varianza. Supuestos Dócima Normalidad Shapiro-Wilk (1965) modificado Estadístico de prueba por Royston (1982) W n a x i i i 1 n x i i 1 2 x 2 ai: coeficiente xi: es el número que ocupa la i-ésima posición en la muestra. x : media muestral Características Si el valor de P ≤ 0,05 se rechaza la hipótesis de distribución Normal. Es una prueba potente y se recomienda cuando el tamaño de muestra es pequeño n< 30. Salvador y Gargallo (2003) Consecuencias del incumplimiento en el ANAVA La falta de normalidad no afecta demasiado a la prueba F Si los datos son muy asimétricos influyen en el estadístico de la prueba. Si no hay Normalidad, el verdadero nivel de significación es mayor que el nivel aparente. Esto conlleva a rechazar la hipótesis nula cuando es verdadera, es decir se presentan demasiadas diferencias significativas que no existen. Kolmogorov-Smirnov Kolmogorov-Smirnov, corregida por Lillefors (1967) D máx Fn X FoX Las únicas premisas que se necesitan para la realización de esta prueba es que: Fo (X): Distribución teórica Las mediciones se encuentren al menos Normal. en una escala de intervalo. Que la medición considerada sea básicamente continua. Además dicha prueba es aplicable cualquiera sea el tamaño de la muestra (Mesa, 1998). La prueba de Kolmogorov-Smirnov con la modificación de D máxFn X ((X x) / s(x)) Lillierfors es la más utilizada y se considera uno de Donde: es la función de los test más potentes distribución de una normal para muestra mayores de 30 casos. estándar. Fn (X): Distribución teórica acumulativa observada de la muestra tomada al azar. Homogeneidad de varianza Bartlett (1947) ln 2 (n1) n1 ln2 (n1) 2 X Bartlett (n1) k 1 1 3(k1) (Nk) Donde: X2Bartlett : estadístico de esta prueba.,ln: logaritmo natural. s2: varianza. n = tamaño de la muestra del grupo. K = número de grupos N = tamaño total Levene (1960) k W (N k ) n i ( Z Z ) 2 i1 k 1 Z ij Z i k ni i1 j1 2 Donde: Zij puede tener una del as siguientes tres definiciones: Z ij Yij Y i. donde: Y i. es la media en el i-ésimo Esta prueba da la posibilidad de decidir si existe homogeneidad o heterogeneidad en el error estadístico, que se utiliza con más frecuencia, siendo sensible a la falta de normalidad (Cox y Dunn, 2002) y (Wu y Wong, 2003) Es menos sensible a la no normalidad de las muestras y una buena alternativa. (Correa, 2006), señala el autor que esta prueba ofrece una alternativa más robusta que el procedimiento de Bartlett, ya que es poco sensible a la desviación de la normalidad. Morales (2008) y, Morales y López (2009), señalan que la heterogeneidad en las varianzas de los tratamientos puede conllevar a una subestimación de los errores estándar de los estimadores de los parámetros del modelo. subgrupo. ~ ~ Z ij Yij Yi. donde: Yi. es la mediana en el i-ésimo subgrupo. Z ij Yij Yi . donde: Yi. es el 10% de la media truncada en el i-ésimo subgrupo. Z i. es la media del grupo Z ij Z .. es la media general de Z ij Hartley (1950) 2 Fmáx máx (s i ) 2 mín(s i ) estadístico Fmax (asumiendo independencia de las muestras aleatorias tomadas de las poblaciones normales) es FMáx con k grados de libertad en el numerador y grados de ν = n−1 grados de libertad en el denominador Esta prueba se requiere que todas las observaciones en cada grupo tengan el mismo tamaño. Fue propuesta por Hartley, (1950) y Schuyten, (1990) Independencia de los errores Durbin y Watson (1950) 2 tT t t 1 d t2 tT 2 t t 1 Donde: t es el residuo estimado para el período t. La autocorrelación surge cuando los términos de error del modelo no son independientes entre sí, es decir, cuando: E(uiuj)≠0. para todo i≠j. Entonces los errores estarán vinculados entre sí. Los estimadores mínimos cuadráticos ordinarios (MCO) obtenidos, bajo esta circunstancia, dejan de ser eficientes. Las consecuencias inmediatas, producto de la autocorrelación, es que los estimadores son poco eficientes, ya que sus varianzas estarán sobre o subestimada lo cual imposibilita utilizar las pruebas de contrates “test” estadístico usuales para verificar la validez de las estimaciones. Pero los estimadores siguen siendo lineales, insesgados y consistentes pero han perdido (como consecuencia de autocorrelación) su propiedad de varianza mínima, pero la insesgadez será útil para resolver el problema Ramírez (2004). Anexo 2. Encuesta aplicada a los investigadores El objetivo de esta encuesta es indagar sobre el uso de las transformaciones de datos en el análisis estadístico de la información. Es importante conocer sus criterios, por cuanto estamos desarrollando una investigación encaminada a perfeccionar el empleo de estas herramientas estadísticas de análisis. Dpto: ____________________________________________________________ 1. ¿Tienes conocimientos sobre la necesidad de aplicar transformación de datos a los resultados de sus experimentos? Si __________ No_________ 2. ¿Qué tipo de transformaciones usa con más frecuencia? 1. x 1 _______ X 1 _________ 5. x _______ 2. arcoseno 4. p _______ 3. log (x) _______ 6. Otras _________ 3. ¿En qué análisis estadístico transformaciones de datos? 1. ANAVA _________ utilizas con más 2. Regresión ___________ 3. Otros ___________ 4. ¿Sabe que logra con el uso de la transformación de datos? Ajustar indicadores numéricos ___________ Validez de los resultados _______________ Cumplimiento de supuestos teóricos ______ frecuencia las Disminuir la variabilidad de los datos ______ Usar una herramienta tradicional_________ Otros (especificar) ____________________ 5. En su actividad científico- técnica futura ¿consideras conveniente continuar con el empleo de las transformaciones de datos? Si__________ No ___________ 6. ¿Conoces procedimientos estadísticos alternativos, para no usar la transformación de datos? En caso de ser afirmativo marque con una X los que conoces. Si__________ No ___________ Estadística no paramétrica _________ Modelo Lineal Generalizado________ Otros 7. Otros aspectos que considere de interés. Gracias por su colaboración. Anexo 3. Matriz de correlaciones de las variables transformadas por dimensión para los Diseños Completamente Aleatorizados y Bloques al Azar. Indicadores Tipo de experimento Cumpl S/T Cumpl C/T Valorp S/T Valorp C/T Valorp NP Potencia S/T Potencia C/T T. M No. tto Diseño Distcod Tipo experimento Cumpl Cumpl Valorp Valorp S/T C/T S/T C/T 1,000 -,120 -,001 -,186 -,219 -,274 ,224 ,175 -,128 -,413 -,631 -,177 1,000 ,614 -,056 -,008 -,017 -,009 -,088 -,175 ,071 ,061 ,010 1,000 -,109 -,122 -,064 ,091 ,135 -,378 -,007 -,025 ,074 1,000 ,947 ,896 -,877 -,856 ,428 ,013 ,294 -,146 1,000 ,929 -,918 -,870 ,460 ,075 ,322 -,199 Valorp NP Potencia S/T Potencia C/T 1,000 -,875 -,853 ,453 ,161 ,374 -,193 1,000 ,861 -,486 -,170 -,385 ,117 1,000 -,461 -,096 -,304 ,127 T. M No. tto Diseño Distcod 1,000 ,033 1,000 ,291 ,731 1,000 -,142 ,165 ,138 1,000 Anexo 4. Matriz de correlaciones de las variables transformadas para los diseños con arreglos factorial de los tratamientos. Tipo de Indicadores experimento C/T Valorp Valorp Valorp Potencia Potencia T.M S/T C/T NP S/T C/T Tipo de experimento 1,000 C/T -,685 1,000 Valorp S/T ,092 -,063 1,000 Valorp C/T ,093 -,064 1,000 1,000 Valorp NP ,091 -,063 1,000 1,000 1,000 Potencia S/T -,144 ,099 -,908 -,909 -,908 1,000 Potencia C/T -,113 ,077 -,968 -,968 -,968 ,980 1,000 T.M -1,000 ,685 -,092 -,093 -,091 ,144 ,113 1,000 Anexo 5. Matriz de correlaciones de las variables transformadas de los Modelos Lineal General y Lineal Generalizado. Indicadores Tto TM Tipoexp PerrorIF PerrorIX2 SCerrorMLG DeviaMLGnz Distribución Tto TM 1,000 ,266 ,083 -,415 -,436 ,516 ,253 -,253 1,000 ,926 ,375 ,353 ,129 ,059 -,059 Tipo exp 1,000 ,470 ,458 -,176 -,136 ,136 PerrorIF PerrorIX2 1,000 ,986 -,413 -,222 ,222 1,000 -,403 -,207 ,207 SCerror MLG Devia MLGnz 1,000 ,649 -,649 1,000 -1,000 Distribución 1,000