Análisis estadístico multivariante de un conjunto de datos biológicos

Anuncio
Análisis estadístico multivariante de un conjunto de datos
biológicos experimentales
Autor: Evaristo Pérez Rial
Máster en Estadística Aplicada. Curso 2013-2014.
Departamento de Estadística e I.O.
Universidad de Granada
Tutor: Ramón Gutiérrez Sánchez
ÍNDICE
1.
Pág.
Introducción. ................................................................................................................... 1
2.
Planteamiento del problema. .......................................................................................... 3
2.1.
2.1.1.
La dieta. ............................................................................................................ 4
2.1.2.
La densidad de cultivo. .................................................................................... 5
2.1.3.
La temperatura. ............................................................................................... 5
2.2.
3.
Situación general...................................................................................................... 4
Objetivos, variables, desarrollo experimental......................................................... 6
2.2.1.
Objetivos y variables de estudio. ..................................................................... 6
2.2.2.
Diseño experimental. ........................................................................................ 7
2.2.3.
Obtención de datos. .......................................................................................... 7
Estudio estadístico. .......................................................................................................... 9
3.1.
Estudio descriptivo de las variables. ....................................................................... 9
3.1.1.
Variables independientes: Dieta, Tª y Densidad de cultivo. ............................ 9
3.1.2.
Variable dependiente: Deformes. .................................................................... 9
3.1.3.
Variable dependiente: Supervivencia. ........................................................... 10
3.1.4.
Variable dependiente: Peso final. .................................................................. 11
3.2.
Regresión lineal. ..................................................................................................... 11
3.2.1. Introducción. ........................................................................................................ 11
3.2.2. Contrastación de las variables. ............................................................................ 12
3.2.3. Estimación del modelo. ........................................................................................ 13
3.2.4. Método de selección de variables. ........................................................................ 15
3.2.5. Resultados. ........................................................................................................... 15
3.2.6.
3.3.
Supuestos del modelo de regresión. ............................................................... 18
3.2.6.1.
Linealidad. .............................................................................................. 18
3.2.6.2.
Independencia......................................................................................... 19
3.2.6.3.
Homocedasticidad. ................................................................................. 19
3.2.6.4.
Normalidad. ............................................................................................ 20
3.2.6.5.
No colinealidad. ...................................................................................... 22
Regresión logística. ................................................................................................ 23
3.3.1.
Estimación del modelo. .................................................................................. 25
3.3.2.
Bondad de ajuste y efecto de las variables explicativas................................. 30
3.3.3.
3.4.
ANOVA. ................................................................................................................. 34
3.4.1.
ANOVAs de un factor. ................................................................................... 35
3.4.1.1.
Deformes frente a Dieta. ......................................................................... 36
3.4.1.2.
Deformes frente a Tª............................................................................... 38
3.4.1.3.
Deformes frente a densidad de cultivo. .................................................. 39
3.4.1.4.
Supervivencia frente a Dieta. ................................................................. 41
3.4.1.5.
Supervivencia frente a Tª. ...................................................................... 43
3.4.1.6.
Supervivencia frente a Densidad de cultivo. .......................................... 44
3.4.1.7.
Peso final frente a Dieta. ........................................................................ 45
3.4.1.8.
Peso final frente a Tª. ............................................................................. 47
3.4.1.9.
Peso final frente a densidad de cultivo. .................................................. 49
3.4.2.
4.
Validación del modelo. ................................................................................... 32
ANOVAs de dos factores................................................................................ 50
3.4.2.1.
Deformes frente a Dieta y Tª. ................................................................. 51
3.4.2.2.
Resto de ANOVAs de dos factores. ........................................................ 52
3.4.2.3.
Peso final frente a Dieta y Tª. ................................................................. 54
Conclusiones. ................................................................................................................. 57
Apéndice I. Tabla de datos. ..................................................................................................... 61
Apéndice II. Sintaxis utilizadas en SPSS. ................................................................................ 63
Apéndice III. Funciones y Script de la regresión logística en R. ............................................... 68
Referencias bibliográficas. ...................................................................................................... 72
1. Introducción.
Los métodos estadísticos se han convertido en una herramienta básica para todos aquellos
profesionales o investigadores que han de manejar datos y obtener conclusiones a partir de ellos.
Por este motivo, la estadística ha irrumpido con fuerza en los más diversos campos del
conocimiento.
La acuicultura es una biotecnología dirigida al cultivo de plantas y animales en un sistema
acuático para el aprovechamiento humano o repoblación. Este sistema, integra factores como la
infraestructura (tipo de estanque), el ambiente (características del agua y el clima), los
organismos (comportamiento, reproducción, relaciones inter e intra específicas, etc.), los flujos
energéticos (insumos como el alimento y las descargas) y al acuicultor (técnicas de manejo,
recursos económicos, etc.). La interacción de las variables asociadas a cada uno de éstos,
determina los procesos que se dan durante el cultivo.
El grado de control de estos procesos que se desarrollan dentro del sistema, difiere con respecto
al tipo de cultivo, y en la medida que crece la inversión económica se requiere mayor seguridad
de que las técnicas sean eficientes y concluyan en lo que inicialmente fue proyectado. En este
sentido, la evaluación y desarrollo de las tecnologías de producción con base a los
conocimientos adquiridos mediante el método científico, permite proponer modelos que evalúen
y simulen con certeza los procesos que rigen los cultivos y de esta forma avanzar en un campo
todavía con mucho margen de conocimiento.
Para los investigadores de cualquier rama de la ciencia es indispensable tener una adecuada
formación en estadística para poder diseñar sus experimentos científicos, analizar e interpretar
los datos correctamente y presentar de una forma apropiada sus descubrimientos. Sin embargo,
la mayoría de los científicos e investigadores dedicados a la acuicultura tienen un conocimiento
limitado sobre estadística.
La investigación en agricultura y ganadería está relativamente bien establecida, y existen libros
de estadística específica para estas disciplinas. Sin embargo, muchos investigadores acuícolas
tienen que utilizar ese material bibliográfico o buscar expertos en sus departamentos de
estadística para que les ayuden a diseñar sus experimentos y analizar los datos obtenidos. El
problema radica en que estos especialistas estadísticos carecen, en muchas ocasiones, de la
necesaria formación en acuicultura o incluso biología. Un estadístico no puede sugerir con toda
confianza un diseño experimental, su análisis e interpretación de los datos cuando pueden darse
situaciones específicas que desconoce durante el desarrollo del cultivo.
A pesar de esta situación, los investigadores han de enfrentarse a retos de cierta complejidad,
como puede ser una presentación o una publicación, careciendo de las herramientas adecuadas
para abordarlos con garantías. A menudo no se publican muchos de los experimentos realizados,
con el consiguiente desperdicio de fondos y recursos utilizados en esa investigación.
Por otro lado, los investigadores pueden malinterpretar los resultados y publicar o presentar
unos trabajos que desorientarán a sus lectores. Una simple recomendación o conclusión errónea
puede tener un efecto multiplicador cuando es citada en otros artículos, llegando esa
información a un gran número de colegas en el campo. Esto se debe a que es prácticamente
imposible ejercer un control total sobre la calidad de todos los artículos publicados, ya que para
ello se requerirían especialistas con la adecuada formación en estadística y la disciplina sobre la
que verse la publicación.
1
Se cree que todo esto ha influido en el ritmo del desarrollo de la acuicultura; si no se publican
resultados de provecho, estos no podrán ser aplicados en la industria, con el enorme coste y
retraso tecnológico que esto supone.
2
2. Planteamiento del problema.
La mayoría de las problemas esqueléticos y pigmentarios de los peces aparecen durante las fases
larvaria y juvenil, es decir, durante un corto periodo de tiempo donde diversos procesos
biológicos influyen en el correcto desarrollo y metamorfosis del animal. En general, las larvas
de peces marinos eclosionan en un estudio de desarrollo poco avanzado si lo comparamos con
los vertebrados superiores, lo que implica que la secuencia del desarrollo de, por ejemplo, el
sistema esquelético y musculatura asociada es de vital importancia en esta fase para que el pez
adulto goce de buen aspecto y salud. Esta particularidad representa una notable ventaja a la hora
de estudiar el papel que juegan distintos factores bióticos y abióticos sobre el patrón normal de
formación del esqueleto. Las deformidades esqueléticas pueden ser causadas por diversos
motivos, siendo la nutrición uno de los más importantes, aunque otros factores como la
densidad de cultivo o la temperatura favorecen también la aparición de estos problemas.
Desde el punto de vista empresarial, el sector de la acuicultura ha sufrido una gran expansión y
desarrollo en los últimos años, resultando en algunos casos en una alta competencia entre las
empresas acuícolas, una sobreproducción de determinadas especies y por consiguiente, una
reducción en el precio de mercado. Estos hechos han forzado a la industria a reducir sus costes
de producción, mejorando la eficiencia del proceso productivo. En este sentido, las
deformaciones esqueléticas y su incidencia son uno de los principales factores que afectan a los
costes de producción de peces marinos, pues tienen un efecto directo sobre el crecimiento,
supervivencia y morfología externa de los animales.
Las pérdidas económicas asociadas a las deformidades esqueléticas se concentran en dos
puntos: en los criaderos de peces, disminuyendo la supervivencia larvaria y crecimiento de los
peces malformados; y durante el engorde, donde estos peces deformes que alcanzan la edad
adulta tienen que ser descartados o vendidos a precios muy inferiores que muchas veces no
cubren los gastos de producción. Alrededor del 30% de las larvas de peces marinos producidas
en criaderos comerciales pueden presentar malformaciones esqueléticas de diversa magnitud.
Dichas deformaciones representan una importante pérdida económica para el acuicultor y una
reducción considerable en la imagen de calidad del producto final si éste es comercializado.
Además, sólo el 15% de las larvas cultivadas llegan a estado juvenil por lo que parece
importante incidir tanto en mejorar las condiciones generales de cultivo para aumentar su
supervivencia como identificar los factores que actúan sobre la aparición de deformidades y
disminuir así su porcentaje en la producción total.
Parece necesario, entonces, avanzar en el conocimiento de los factores principales que
favorecen la aparición de deformidades en las fases tempranas de desarrollo de los peces. A
pesar de ello, no ha sido hasta hace unos 15 años cuando se ha empezado a mostrar interés sobre
el origen de dichas malformaciones esqueléticas en peces marinos. Bajo esta perspectiva se
plantea el estudio que intentará demostrar si la dieta, la temperatura y la densidad de cultivo
afectan sobre el porcentaje de individuos deformes de una especie de pez marino durante su fase
de cultivo larvario.
3
2.1. Situación general.
Tras la eclosión, las larvas de peces marinos todavía no han desarrollado en su totalidad la
mayoría de órganos y sistemas internos por lo que sufren una rápida e intensa diferenciación y
transformación hasta adquirir las características morfológicas y fisiológicas del juvenil al final
de la etapa larvaria. Varios factores pueden influir en este desarrollo harmónico de la larva
pudiendo afectar a su viabilidad y calidad. En condiciones naturales, dichas larvas perecerían
pues la selección natural impediría su crecimiento y desarrollo, sin embargo, bajo las
condiciones que se dan en los criaderos comerciales, estos animales tienen mayores
probabilidades de sobrevivir, ya sea por la ausencia de depredadores naturales, la elevada
disponibilidad de alimento o el control estricto de los parámetros ambientales que regulan su
crecimiento y desarrollo.
Las principales malformaciones esqueléticas observadas en larvas y juveniles de peces afectan a
diferentes regiones del cuerpo del animal, y en particular a la cabeza, columna vertebral y cola.
Las anomalías más frecuentes afectan al desarrollo de la mandíbula, formación del opérculo y
deformaciones y compresiones de los cuerpos vertebrales, generando peces con bocas poco
funcionales, animales sin opérculo branquial, aparición de columnas vertebrales escolióticas,
lordóticas y/o cifoticas y fusión de distintos elementos esqueléticos que conforman el complejo
caudal (cola).
La aparición de malformaciones esqueléticas está íntimamente relacionada con los procesos de
formación, proliferación, diferenciación y desarrollo del esqueleto del animal , afectando no
sólo la apariencia externa del ejemplar, sino también su crecimiento, supervivencia,
locomoción, ingesta del alimento y vulnerabilidad a patógenos y condiciones de cultivo
adversas. Factores abióticos como la temperatura de cultivo, intensidad lumínica, salinidad, pH
del agua u oxígeno disuelto; y bióticos como los desequilibrios nutricionales, la densidad de
cultivo o traumatismos derivados del manejo de las larvas pueden afectar sobre los procesos
anteriormente citados, y dar como resultado el desarrollo de deformaciones esqueléticas. Se
tendrán en cuenta para este estudio los tres factores que se cree son los más influyentes en la
aparición de deformidades esqueléticas en peces de agua salada: la dieta, la temperatura y la
densidad de cultivo.
2.1.1. La dieta.
Muchos estudios actuales han demostrados la existencia de una marcada relación entre la
alimentación y la aparición de malformaciones esqueléticas en larvas de peces marinos. Así, el
número de larvas con deformaciones puede reducirse considerablemente mediante el desarrollo
de una dieta ajustada a los requerimientos nutricionales de la especie y de su estadio de
desarrollo concreto. En relación a esto, uno de los factores más determinantes es la cantidad de
lípidos presentes en la dieta y más concretamente los porcentajes de ciertos ácidos grasos
poliinsaturados (PUFAS). Dos de los más importantes son el ácido eicosapentanoico (EPA) y el
ácido docosahexanoico (DHA). Ambos intervienen en funciones fisiológicas muy importantes
entre las que se incluyen crecimiento, supervivencia y desarrollo de la larva a nivel neural,
muscular y esquelético. No sólo la presencia de estos dos compuestos es necesaria, sino que sus
porcentajes dentro de la dieta deben mantenerse dentro de unos límites mínimos y máximos
para no volverse tóxicos.
4
En los criaderos de peces los alimentos suministrados a las larvas garantizan la presencia de
niveles óptimos de EPA en la dieta, mientras que no ocurre lo mismo con el DHA cuyos valores
son bajos. Tradicionalmente se han usado diferentes especies de microalgas marinas ricas en
este compuesto para aumentar la concentración de DHA y obtener mejores rendimientos de los
cultivos. Sólo se han podido elevar verdaderamente los niveles de DHA en las dietas de las
larvas con la aparición de los enriquecedores comerciales que ofrecen diferentes perfiles
nutritivos en función de la edad y la especie que se quiera cultivar.
Para este experimento, se ha tomado como control una dieta tradicional en la que el ratio
DHA/EPA se mantienen en 0,15 y se ha comparado con otras dos en las que se han utilizado
dos enriquecedores comerciales que aumentan este ratio hasta 0,5 y 1,2 respectivamente,
manteniendo constantes los niveles de EPA.
2.1.2. La densidad de cultivo.
En los inicios de la acuicultura predominaban los sistemas de producción a bajas densidades de
cultivo (semiintensivos) donde se obtenía un bajo rendimiento y unos peces de gran calidad, con
características muy parecidas a los salvajes. Debido a la gran inversión que sería necesario
acometer para aumentar la producción se ha ido evolucionando hacia sistemas más intensivos,
donde las densidades de cultivo son mucho mayores y los controles sobre las condiciones del
proceso productivo son muy estrictos para evitar mortalidades, enfermedades o cualquier otro
problema. Incrementar el número de larvas por litro ofrece la posibilidad de producir en una
misma instalación una cantidad mucho mayor de alevines sin tener que invertir en nuevas
instalaciones.
Sin embargo, a medida que aumentamos la cantidad de larvas en nuestros cultivos pueden
aparecer problemas como estrés, competencia por el espacio, enfermedades, canibalismo,
ralentización del crecimiento o aparición de deformidades. En este sentido, algunos trabajos
sugieran que los sistemas de cultivo intensivos afectan de manera pronunciada en el desarrollo
de ciertas deformidades esqueléticas si los comparamos con sistemas semiintensivos.
En base a todo esto se medirá la respuesta de las larvas a tres densidades de cultivo diferentes
que serán 10 (control), 20 y 40 larvas/litro.
2.1.3. La temperatura.
Factores ambientales como la luz, temperatura, salinidad, oxígeno disuelto, etc. tienen un efecto
directo sobre el desarrollo normal de la larva, y por tanto, ligeras desviaciones sobre el rango
óptimo de cualquiera de los parámetros ambientales anteriormente citados, puede resultar en un
desarrollo anormal del individuo, derivando en la aparición de deformidades. Recientemente, se
ha puesto en evidencia el papel que juega la temperatura en el desarrollo de deformaciones
esqueléticas, problemas que se originan por el asincronismo que existe entre el desarrollo de la
musculatura y del esqueleto (teoría del mecanostato). Es decir, un incremento de la temperatura
del agua superior a los niveles óptimos de la especie resulta en un mayor crecimiento y
desarrollo de la musculatura del tronco, llegando a comprimir y deformar los cuerpos
vertebrales de la larva, todavía no osificados en su totalidad, y originando por consiguiente
animales con columnas vertebrales lordóticas.
5
Normalmente, todas las especies de peces tienen una temperatura control de crecimiento que
vendría dada por los valores más habituales que se dan en el medio marino durante su época de
eclosión y crecimiento. En torno a esta temperatura existe un rango hacia arriba y hacia abajo en
el que el individuo puede sobrevivir y crecer. Las empresas de acuicultura buscan subir en la
medida de lo posible la temperatura en sus cultivos larvarios para acelerar el crecimiento
buscando producir el mayor número de lotes posibles en sus instalaciones. Descubrir cuál es la
temperatura máxima a la que podemos aumentar nuestros cultivos sin afectar la calidad larvaria
es determinante para incrementar el rendimiento y disminuir costes.
En nuestro caso, para una especie de espárido que crece en el Atlántico, tenemos una
temperatura control de crecimiento de 16º C y se comparará con otros dos niveles mayores que
serán 19º C y 22º C.
2.2. Objetivos, variables, desarrollo experimental.
Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios
deliberados en las variables de entrada de un proceso o sistema, de manera que sea posible
observar e identificar las causas de los cambios en la respuesta de salida.
Para poder analizar un experimento de manera correcta, es necesario que se tenga una idea clara
sobre el problema que se va a estudiar, el modo de la recolección de datos y su análisis.
Debemos elegir tanto los factores y niveles sobre los que variará el experimento como
seleccionar la respuesta o variable dependiente adecuada, de forma que la medición de ésta
pueda realmente proveer información relevante sobre el proceso estudiado.
2.2.1. Objetivos y variables de estudio.
El objetivo principal de este trabajo es, mediante las herramientas y conocimientos estadísticos
adquiridos durante la realización del máster, analizar los datos obtenidos en esta experiencia e
intentar dar respuesta a una serie de preguntas:




¿En qué modo afecta la dieta, temperatura y densidad sobre el porcentaje de
larvas deformes presentes en el cultivo?
¿Sería posible obtener algún modelo que prediga el porcentaje de individuos
deformes en función de estas tres variables?
Efectos de las tres variables sobre la supervivencia.
¿Bajo qué condiciones obtenemos un mejor crecimiento en peso de las larvas?
El conjunto de variables con las que vamos a trabajar se dividen de forma general en dos
grupos: tres variables independientes con tres niveles cada una (Dieta, Tª y Densidad) y cuatro
dependientes sobre las que esperamos observar el efecto de la variación sistemática de las
primeras.
La Dieta es una variable cuantitativa continua cuyos niveles codifican la proporción DHA/EPA
presente en el alimento que suministramos a las larvas. El valor control (0,15) vendrá
representado por niveles que venían siendo utilizados de forma habitual en acuicultura antes de
la aparición de los enriquecedores comerciales. Sólo con la llegada de estos productos se ha
podido conseguido subir esta relación DHA/EPA hasta rangos más altos y proporcionar así una
alimentación más balanceada. El enriquecedor 1 completa la dieta hasta una proporción
6
DHA/EPA de 0,5; mientras que el 2 lo hace hasta 1,20. De esta manera, estos tres serán nuestros
niveles de estudio de este primer factor.
La temperatura es otra variable cuantitativa continua que tomará los valores de 16ºC, 19ºC y
22ºC. Los datos obtenidos en el medio marino sobre la especie a estudio indican que, para la
época reproductiva y la localización geográfica, sus larvas se desarrollan a una temperatura
media de 16ºC. Por lo tanto, este será nuestro nivel control y se valorarán temperaturas mayores
(19ºC y 22ºC) porque en los criaderos de peces es necesario subir este parámetro durante las
fases tempranas de desarrollo para acelerar el crecimiento y aumentar la producción.
La densidad de cultivo representa también una variable cuantitativa continua con valores
prefijados de 10, 20 y 40 larvas/litro. En la actualidad, los sistemas de producción de peces se
han vuelto más intensivos y las densidades de trabajo han ido aumentando. Es por este motivo
por lo que se ha decidido valorar estas tres opciones por ser las más habituales en los criaderos
de peces.
Nuestras cuatro variables dependientes (%Deformes, %Supervivencia, Longitud y Peso final)
son, al igual que las demás, variables cuantitativas continuas cuyos valores variarán
sistemáticamente en función de las independientes. El peso final es una medida del paso seco de
las larvas al final del experimento. Sus valores serán expresados en mg. Los datos de longitud se
darán en mm. Debido a los objetivos marcados en este trabajo sólo se valorará el efecto sobre
tres de estas variables dependientes: %Deformes, %Supervivencia y Peso final.
2.2.2. Diseño experimental.
Para medir el efecto de la Dieta, la Tª y la Densidad de cultivo se diseñó un experimento con 36
réplicas, una para cada una de las 27 combinaciones de los niveles de las tres variables
independientes, más 9 unidades de reserva que acogerían las réplicas más susceptibles de
obtener datos anómalos. Estarían compuestos por tanques de 125 litros y agua de mar filtrada.
Una vez preparados, de forma aleatoria se escogería el tratamiento que recibiría cada unidad
experimental y una vez acondicionados, serían trasladadas a cada tanque el número de larvas
correspondiente. Su edad sería de 5 días de vida al inicio de la experiencia y ésta tendrá una
duración de 60 días. Todas las demás variables (salinidad, luz, oxígeno, etc.) se mantuvieron
constantes para todos los tanques.
Cuando se habla de un estudio con tres factores, cada uno de los cuales tiene tres niveles
3
estamos hablando de un diseño factorial 3 . Al tener sólo 27 unidades experimentales sólo
dispondremos de una réplica de cada una de ellas.
2.2.3. Obtención de datos.
Todas las larvas partían de un único lote mantenidas en un tanque de 10000 litros. Antes de ser
trasladadas a cada una de las unidades experimentales fueron muestreadas y se obtuvieron la
talla (mm) y el peso seco (mg) medios al comienzo del experimento. Otros dos muestreos
tuvieron lugar a días 30 y 60 en cada una de las réplicas obteniendo en este último caso los
datos finales de talla y peso. Finalmente la talla final no será valorada en este trabajo.
Cada días se sifonó el fondo de los tanques y se hizo recuento de peces muertos. Todos los
valores fueron anotados en estadillos y al final de la experiencia se estimó el porcentaje de
7
supervivencia como: %Supervivencia 
nm
100 , siendo n el número de peces al
n
comienzo y m el total de muertos al finalizar la prueba en cada unidad experimental.
Pasados los 60 días de experimento, se cogieron tres muestras representativas de 100 peces de
cada tanque y se identificaron los que poseían algún tipo de deformidad esquelética. El
%Deformes (D1) para cada tratamiento fue estimado como la media aritmética de esos tres
valores. Los no deformes fueron identificados con las siglas D0. Finalmente todos los datos
obtenidos fueron anotados en la tabla que aparece en el Apéndice I.
8
3. Estudio estadístico.
3.1. Estudio descriptivo de las variables.
Independientemente de la complejidad de los datos disponibles y del procedimiento estadístico
que se tenga intención de utilizar, una exploración de los datos previa al inicio de cualquier
análisis posee importantes ventajas. Permite identificar posibles errores como datos mal
introducidos, valores extremos que se alejan demasiado del resto, pautas extrañas en los datos
(valores que se repiten demasiado o que no aparecen nunca) o variabilidad no esperada entre
otras cosas.
3.1.1. Variables independientes: Dieta, Tª y Densidad de cultivo.
Estas tres variables están definidas por el experimentador y cada una de ellas consta de tres
niveles con valores fijos. El análisis descriptivo para todas ellas se muestra en la siguiente tabla.
Al ser el número de unidades experimentales tantas como posibles combinaciones de los
factores de las tres variables (3x3x3=27) observamos que el número de casos es el mismo para
las tres (27). El rango indica la diferencia entre el valor mayor y menor de los tres niveles. La
curva que representa los valores de la Tª es perfectamente simétrica, mientras que las otras dos
v.i. tienen una ligera asimetría positiva. La curtosis negativa indica, además, que todas las
distribuciones son platicúrticas (baja concentración de valores entorno al eje central de la
distribución).
3.1.2. Variable dependiente: Deformes.
La primera tabla muestra el número de casos y si alguno ha sido excluido del análisis.
A continuación aparece el cuadro con los estadísticos descriptivos clásicos: media, mediana,
varianza, desviación típica, rango, índices de asimetría y curtosis. También ofrece la media
recortada al 5 por ciento y la amplitud intercuartílica, que refleja la distancia existente entre los
cuartiles 1 y 3.
9
La diferencia entre el valor mínimo y máximo es bastante grande, por lo que puede sugerir que
alguna variable independiente afecte significativamente sobre el porcentaje de larvas deformes.
Por los niveles de asimetría y curtosis podríamos decir que la distribución generada es
ligeramente leptocúrtica con leve asimetría positiva.
La salida ofrece también los límites del intervalo de confianza para la media pudiendo estimar,
con una confianza del 95 por ciento, que el porcentaje medio de larvas deformes se encuentra
entre 13,3115% y 16,037%.
3.1.3. Variable dependiente: Supervivencia.
En primer lugar comprobamos en la tabla resumen del procesamiento de datos que todos han
sido incorporados en el análisis y no se ha perdido ninguno.
Comprobamos ahora la salida de los estadísticos descriptivos. La media recortada al 5% puede
ser un buen indicativo de datos extremos. Cuando existe alguno, su valor suele alejarse del de la
media normal. Podemos observar que son prácticamente iguales por lo que no deben existir
datos extremos.
El intervalo de confianza para la media indica que podemos estimar que el porcentaje medio de
superviventes, con una confianza del 95 por ciento, está entre el 27,7363% y el 34,4489%.
10
3.1.4. Variable dependiente: Peso final.
La tabla de procesamiento de los casos indica, que al igual que en los casos anteriores, todos
han sido introducidos correctamente y se tendrán en cuenta en los análisis.
Si observamos la tabla descriptivos se pueden extraer algunas conclusiones diferentes a las
variables anteriores. En primer lugar, la media y la mediana tiene valores muy diferentes si lo
comparamos con los casos ya vistos. Todo esto unido al valor del estadístico de asimetría
sugiere que la distribución generada por estos datos es claramente asimétrica positiva y además
mesocúrtica (debido al valor de curtosis próximo a cero).
Además, la diferencia en porcentaje entre el valor mínimo y el máximo es el mayor de las tres
variables dependientes estudiadas por lo que esta diferencia podría ser debida al efecto
significativo de una o varias de las variables independientes.
Finalmente podemos estimar, con una confianza del 95 por ciento, que el peso medio final de
las larvas se encuentra entre los 3,45455 mg y los 5,97782 mg.
3.2. Regresión lineal.
3.2.1. Introducción.
El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre
variables cuantitativas. Tanto en el caso de dos variables (regresión simple) como en el de más
de dos variables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y
cuantificar la relación entre una variable llamada dependiente o criterio
Y 
y una o más
variables llamadas independientes o predictoras  X1 , X 2 ,... X k  , así como para desarrollar una
ecuación lineal con fines predictivos. Además, el análisis de regresión lleva asociados una serie
de procedimientos de diagnóstico (análisis de los residuos, puntos de influencia) que informan
11
sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre cómo
perfeccionarlo.
El procedimiento implica, básicamente, obtener la ecuación mínimo-cuadrática que mejor
expresa la relación entre la variable dependiente y la(s) variable(s) predictora(s) y estimar
mediante el coeficiente de determinación la calidad de la ecuación de regresión obtenida. Estos
dos pasos deben ir acompañados de un chequeo del cumplimiento de las condiciones o
supuestos que garantizan la validez del procedimiento regresivo.
3.2.2. Contrastación de las variables.
Para nuestro conjunto de datos intentaremos definir un modelo de RLM que explique la relación
entre sufrir deformidades esqueléticas (variable dependiente) en función de la dieta, la
temperatura y la densidad de cultivo (variables independientes). Antes de iniciar el proceso
debemos averiguar si existe una relación lineal entre cada una de las variables independientes
con la dependiente. Con la ayuda del programa SPSS, realizamos un gráfico de dispersión
simple para cada una de las variables independientes respecto a la dependiente. Es importante
que exista una tendencia lineal entre ellas porque si esto no ocurriera no tendría sentido iniciar
el proceso de regresión lineal. Las gráficas obtenidas se muestran a continuación.
35,0
35,0
Sq r lineal =
0,606
25,0
PorcentajeDeformes
PorcentajeDeformes
Sq r lineal =
0,104
30,0
30,0
20,0
15,0
10,0
5,0
25,0
20,0
15,0
10,0
5,0
0,00
0,20
0,40
0,60
0,80
1,00
1,20
16,0
17,0
Dieta
18,0
19,0
20,0
21,0
22,0
Tª
35,0
PorcentajeDeformes
30,0
Sq r lineal =
0,219
25,0
20,0
15,0
10,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
40,0
Densidad
Vemos que debido a la naturaleza de nuestros datos las variables explicativas sólo toman tres
datos concretos en cada caso y es por este motivo que la respuesta tenga que agruparse
solamente sobre cada uno de ellos. Debido a esto, no se genera una nube de puntos sino unos
conjuntos concretos en torno a cada una de las categorías de las variables independientes. Aun
así, se observa una tendencia bastante marcada entre porcentaje de deformes y dieta, mientras
que respecto a las otras dos variables no es tan clara.
12
Otra de las premisas que se deben cumplir es la de normalidad de todas las variables a estudio.
Para corroborarlo utilizaremos las gráficas de normalidad y los estadísticos de KolmogorovSmirnov (K-S) y Shapiro-Wilk (S-W).
Gráfico Q-Q normal de Densidad
Gráfico Q-Q normal de Tª
1,0
1,0
0,5
0,5
0,5
0,0
-0,5
-1,0
Normal esperado
1,0
Normal esperado
Normal esperado
Gráfico Q-Q normal de Dieta
0,0
-0,5
0,2
0,4
0,6
0,8
1,0
1,2
-0,5
-1,0
-1,0
0,0
0,0
16
17
Valor observado
18
19
20
21
10
22
15
20
25
30
35
40
Valor observado
Valor observado
Vemos que gráficamente los puntos se acomodan bastante bien a la recta de referencia en las
tres variables. Además, los estadísticos de K-S y S-W muestran valores significativos para las
tres variables por lo que podemos afirmar que siguen una distribución normal. A continuación
buscaremos el modelo que mejor se ajuste a nuestros datos.
3.2.3. Estimación del modelo.
Partiendo de la ecuación del modelo de regresión lineal:
Y  0  1 X1  2 X 2  ...  k X k  
De acuerdo con este modelo o ecuación, la variable dependiente Y  se interpreta como una
combinación lineal de un conjunto de k variables independientes  X k  , cada una de las cuales
va acompañada de un coeficiente
 k 
que indica el peso relativo de esa variable en la
ecuación. La ecuación incluye además una constante
 0 
y un componente aleatorio (los
residuos:  ) que recoge todo lo que las variables independientes no son capaces de explicar.
Este modelo, al igual que cualquier otro modelo estadístico, se basa en una serie de supuestos
(linealidad, independencia, normalidad, homocedasticidad y no-colinealidad) que estudiaremos
en detalle más adelante.
La ecuación de regresión mínimo-cuadrática se construye estimando los valores de los
coeficientes beta del modelo de regresión. Estas estimaciones se obtienen intentando hacer que
13
las diferencias al cuadrado entre los valores observados
Y 
  sean
y los pronosticados Yˆ
mínimas:
Yˆ  ˆ0  ˆ1 X1  ˆ2 X 2  ...  ˆk X k
Existen diferentes criterios estadísticos para seleccionar variables en un modelo de regresión.
Algunos de estos criterios son: el valor del coeficiente de correlación múltiple R 2 (corregido o
sin corregir), el valor del coeficiente de correlación parcial entre cada variable independiente y
la dependiente, el grado de reducción que se obtiene en el error típico de los residuos al
incorporar una variable, etc. De una u otra forma, todos ellos coinciden en intentar maximizar el
ajuste del modelo de regresión utilizando el mínimo número posible de variables.
Los métodos por pasos que incluye SPSS basan la selección de variables en dos criterios
estadísticos:
Criterio de significación. De acuerdo con este criterio, sólo se incorporan al modelo de
regresión aquellas variables que contribuyen de forma significativa al ajuste del modelo. La
contribución individual de una variable se establece contrastando, a partir del coeficiente de
correlación parcial, la hipótesis de independencia entre esa variable y la variable dependiente.
Para decidir si se mantiene o rechaza esa hipótesis de independencia, el programa incluye dos
criterios de significación:

Probabilidad de F . Una variable pasa a formar parte del modelo de regresión si el nivel
crítico asociado a su coeficiente de correlación parcial al contrastar la hipótesis de
independencia es menor que 0,05 (probabilidad de entrada). Y queda fuera del modelo
de regresión si ese nivel crítico es mayor que 0,10 (probabilidad de salida).

Valor de F . Una variable pasa a formar parte del modelo de regresión si el valor del
estadístico F utilizado para contrastar la hipótesis de independencia es mayor que 3,84
(valor de entrada). Y queda fuera del modelo si el valor del estadístico F es menor que
2,71 (valor de salida).
Criterio de tolerancia. Superado el criterio de significación, una variable sólo pasa a formar
parte del modelo si su nivel de tolerancia es mayor que el nivel establecido por defecto y si,
además, aun correspondiéndole un coeficiente de correlación parcial significativamente distinto
de cero, su incorporación al modelo hace que alguna de las variables previamente seleccionadas
pase a tener un nivel de tolerancia por debajo del nivel establecido por defecto.
Una forma muy intuitiva de comprender y valorar el efecto resultante de aplicar estos criterios
de selección consiste en observar el cambio que se va produciendo en el coeficiente de
determinación R 2 a medida que se van incorporando (o eliminando) variables al modelo.
2
Podemos definir este cambio como Rcambio
 R 2  Ri2 , donde Ri2 se refiere al coeficiente de
determinación obtenido con todas las variables independientes excepto la i-ésima. Un cambio
grande en R 2 indica que esa variable contribuye de forma importante a explicar lo que ocurre
2
con la variable dependiente. Estas opciones permiten obtener el valor de Rcambio
resultante de la
incorporación de cada variable independiente, el valor del estadístico F al contrastar la
14
2
hipótesis de que el valor poblacional de Rcambio
es cero, y el nivel crítico asociado al estadístico
F.
3.2.4. Método de selección de variables.
Existen diferentes métodos para seleccionar las variables independientes que debe incluir un
modelo de regresión, pero los que mayor aceptación han recibido son los métodos de selección
por pasos (stepwise). Con estos métodos, se selecciona en primer lugar la mejor variable
(siempre de acuerdo con algún criterio estadístico); a continuación, la mejor de las restantes y
así sucesivamente hasta que ya no quedan variables que cumplan los criterios de selección.
En nuestro análisis utilizaremos el método por pasos sucesivos. Este método comienza
seleccionando, en el primer paso, la variable independiente que, además de superar los criterios
de entrada, tiene una correlación mayor (en valor absoluto) con la variable dependiente. A
continuación, selecciona la variable independiente que, además de superar los criterios de
entrada, posee el coeficiente de correlación parcial más alto (en valor absoluto). Cada vez que se
incorpora una nueva variable al modelo, las variables previamente seleccionadas son evaluadas
nuevamente para determinar si siguen cumpliendo o no los criterios de salida. Si alguna variable
seleccionada cumple los criterios de salida, es eliminada del modelo. El proceso se detiene
cuando no quedan variables que superen los criterios de entrada y las variables seleccionadas no
cumplen los criterios de salida.
3.2.5. Resultados.
Tomando D como el porcentaje de larvas deformes, E la dieta enriquecida suministrada, C la
densidad o concentración de cultivo y T la temperatura; tras lo expuesto anteriormente, nuestro
modelo general de partida sería del estilo:
D̂  ˆ0  ˆ1E  ˆ2C  ˆ3T
La siguiente tabla ofrece un resumen del modelo final al que se ha llegado. En la columna
“Modelo” se indica que fueron necesarios tres pasos para construir el modelo de regresión. En el
primero de ellos se ha seleccionado la variable Dieta, en el segundo, Densidad y en el tercero Tª.
En ninguno de los pasos se ha eliminado ninguna de las variables previamente seleccionada.
También se informa sobre el método de selección utilizado (Por pasos) y sobre los criterios de
entrada/ salida: una variable es incorporada al modelo si su coeficiente de regresión parcial es
significativamente distinto de cero al 5 % y, una vez seleccionada, sólo es eliminada si con la
15
incorporación de otra u otras variables en un paso posterior su coeficiente de regresión parcial
deja de ser significativamente distinto de cero al 10 %.
La siguiente salida que ofrece el programa es el resumen del modelo. La tabla recoge el valor y
el cambio experimentado por R 2 en cada paso, y el estadístico F y su significación. El
estadístico F permite contrastar la hipótesis de que el cambio en R 2 vale cero en la población.
Al seleccionar la primera variable (Modelo 1), el valor de R 2 es 0,606. Lógicamente, en el
2
2
primer paso, Rcambio
es
 R 2 . Al contrastar la hipótesis de que el valor poblacional de Rcambio
cero se obtiene un estadístico F de 38,498 que, con 1 y 25 grados de libertad, tiene una
probabilidad asociada de 0,000. Puesto que este valor es menor que 0,05, podemos afirmar que
la proporción de varianza explicada por la variable Dieta (la variable seleccionada en el primer
paso) es significativamente distinta de cero. En el segundo paso (Modelo 2), el valor de R 2
aumenta hasta 0,811, lo que supone un cambio de 0,205. La tabla muestra el valor del
estadístico F (30,195) obtenido al contrastar la hipótesis de que el valor poblacional de
2
es cero, y su significación (0,000). El valor del nivel crítico nos permite afirmar que la
Rcambio
variable Densidad (la variable incorporada al modelo en el segundo paso) contribuye
significativamente a explicar lo que ocurre con la variable dependiente.
En el tercer y último paso (Modelo 3), R 2 toma un valor de 0,920, lo cual supone un
incremento de 0,109. Se trata de un incremento pequeño, pero al evaluar su significación se
obtiene un estadístico F de 33,714 y un nivel crítico de 0,000, lo cual nos está indicando que la
variable Tª (variable incorporada en el tercer paso), también contribuye de forma significativa a
explicar la presencia de peces deformes. Las tres variables en conjunto consiguen explicar el


2
93% R  0,929 de la variabilidad observada en la variable dependiente, por lo que el ajuste
del modelo es bueno. Para visualizar gráficamente la bondad de ajuste representamos en un
diagrama de dispersión los valores exactos frente a los predichos por el modelo.
La figura que viene a continuación es la tabla resumen del ANOVA.
16
Contiene el valor del estadístico F obtenido al contrastar la hipótesis de que el valor
poblacional de R 2 en cada paso es cero. Ahora no se evalúa el cambio que se va produciendo
en el valor de R 2 de un paso a otro, sino el valor de R 2 en cada paso. Lógicamente, si R 2 es
significativamente distinta de cero en el primer paso, también lo será en los pasos sucesivos. La
significación (0,000) indica, como ya habíamos sugerido anteriormente, que las variables
explicativas guardan relación lineal con la variable dependiente en los tres modelos, por lo que
el análisis de regresión tiene sentido.
La siguiente tabla contiene los coeficientes de regresión parcial de las variables incluidas en el
modelo, es decir, la información necesaria para construir la ecuación de regresión en cada paso
(excluyendo el término constante). Las primeras columnas recogen el valor de los coeficientes
de regresión parcial (B) y su error típico. A continuación aparecen los coeficientes de regresión
parcial estandarizados (Beta), los cuales proporcionan una idea acerca de la importancia relativa
de cada variable dentro de la ecuación. Las dos siguientes columnas muestran el estadístico t y
el nivel crítico (Sig) obtenidos al contrastar las hipótesis de que los coeficientes de regresión
parcial valen cero en la población. Un nivel crítico por debajo de 0,05 indica que la variable
contribuye significativamente a mejorar la calidad del modelo de regresión.
A la vista de estos datos podemos asegurar que la variable que más afecta sobre el porcentaje de
peces deformes es la Dieta (Beta=0,779), seguida de la Densidad (0,468) y en último lugar la Tª
(0,322). Además, podemos comprobar que la relación entre la dieta y la presencia de individuos
deformes es negativa, por lo que un aumento en la relación DHA/EPA provoca que disminuyan
los valores de la variable respuesta. Con las otras dos variables ocurre lo contrario.
Debido a que la Sig. del término constante es 0,831    0,05 puede ser eliminado del
modelo ya que no es significativamente diferente de cero. A partir de los valores obtenidos en el
modelo tres podemos construir nuestro modelo final de regresión ajustado.
17
ˆ  12, 063E  0, 254C  0,889T
D
Por último, la tabla “Variables excluidas” muestra los coeficientes de regresión parcial de las
variables no seleccionadas para formar parte de la ecuación de regresión en cada paso. La
información que contiene esta tabla permite conocer en detalle por qué unas variables han sido
seleccionadas y otras no. En el primer paso se ha seleccionado la variable Dieta porque es la que
más alto correlaciona, en valor absoluto, con la variable dependiente. En ese primer paso,
todavía están fuera del modelo el resto de variables independientes.
La columna Beta dentro contiene el valor que tomaría el coeficiente de regresión estandarizado
de una variable en el caso de que fuera seleccionada en el siguiente paso. Las columnas t y
Sig. nos informan sobre si ese valor que adoptaría el coeficiente de regresión de una variable
en el caso de ser incorporada al modelo sería o no significativamente distinto de cero.
Vemos que, en el primer paso, hay dos variables todavía no seleccionadas (Tª y Densidad)
cuyos coeficientes de regresión poseen niveles críticos por debajo de 0,05 (criterio de entrada).
Entre ellas, la que posee un coeficiente de correlación parcial mayor en valor absoluto
(Densidad = 0,746) y, además, un nivel de tolerancia por encima de 0,001 (tolerancia mínima
establecida por defecto), es la variable que ha sido seleccionada en el segundo paso. En el
segundo paso todavía quedan fuera de la ecuación una variable cuyo coeficiente de regresión
sería significativo en caso de ser seleccionadas: Tª. En el tercer paso ha sido seleccionada esta
última variable y el proceso se detiene porque no hay más variables que puedan incorporarse al
modelo.
3.2.6. Supuestos del modelo de regresión.
Los supuestos de un modelo estadístico se refieren a una serie de condiciones que deben darse
para garantizar la validez del modelo. Al efectuar aplicaciones prácticas del modelo de
regresión, nos veremos en la necesidad de examinar que todos ellos se cumplan. Lo
comprobamos a continuación.
3.2.6.1.
Linealidad.
La ecuación de regresión adopta una forma particular. En concreto, la variable dependiente es la
suma de un conjunto de elementos: el origen de la recta, una combinación lineal de variables
independientes o predictoras y los residuos. El incumplimiento del supuesto de linealidad suele
denominarse error de especificación. Algunos ejemplos son: omisión de variables
independientes importantes, inclusión de variables independientes irrelevantes, no linealidad (la
relación entre las variables independientes y la dependiente no es lineal), parámetros cambiantes
(los parámetros no permanecen constantes durante el tiempo que dura la recogida de datos), no
18
aditividad (el efecto de alguna variable independiente es sensible a los niveles de alguna otra
variable independiente), etc.
Sobre el cumplimiento de este primer supuesto puede obtenerse información a partir de una
inspección del diagrama de dispersión: si tenemos intención de utilizar el modelo de regresión
lineal, lo razonable es que la relación entre la variable dependiente y las independientes sea de
tipo lineal. En el apartado de contrastación de las variables ya hemos abordado este tema,
llegando a la conclusión que existe tendencia lineal entre cada una de las variables explicativas
y la variable dependiente. Esta relación lineal es más marcada entre la variable dieta y la
variable dependiente.
3.2.6.2.
Independencia.
Los residuos son independientes entre sí, es decir, los residuos constituyen una variable
aleatoria (recordemos que los residuos son las diferencias entre los valores observados y los
pronosticados). Es frecuente encontrarse con residuos autocorrelacionados cuando se trabaja
con series temporales.
El verdadero interés de los residuos hay que buscarlo en el hecho de que el análisis de los
mismos nos proporciona información crucial sobre el cumplimiento de varios supuestos del
modelo de regresión lineal: independencia, homocedasticidad, normalidad y linealidad.
Uno de los supuestos básicos del modelo de regresión lineal es el de independencia entre los
residuos. El estadístico de Durbin-Watson (D-W) proporciona información sobre el grado de
independencia existente entre ellos:
n
D W 
 e  e 
i 2
2
i 1
i
n
e
i 1
2
i
donde ei se refiere a los residuos.
El estadístico D-W oscila entre 0 y 4, y toma el valor 2 cuando los residuos son independientes.
Los valores menores que 2 indican autocorrelación positiva y los mayores que 2 autocorrelación
negativa. Podemos asumir independencia entre los residuos cuando D-W toma valores entre 1,5
y 2,5. El valor de este estadístico ya ha sido calculado y aparece en la tabla del “Resumen del
modelo” vista anteriormente.
Puesto que el valor D-W=2,314 se encuentra entre el intervalo indicado y podemos asumir, por
lo tanto, que los residuos son independientes.
3.2.6.3.
Homocedasticidad.
Para cada valor de la variable independiente (o combinación de valores de las variables
independientes), la varianza de los residuos es constante.
El procedimiento regresión lineal dispone de una serie de gráficos que permiten, entre otras
cosas, obtener información sobre el grado de cumplimiento de los supuestos de
19
homocedasticidad y normalidad de los residuos. Hay, entre otras, dos variables cuyo diagrama
de dispersión informa sobre el supuesto de homocedasticidad o igualdad de varianzas:
ZPRED (pronósticos típificados). Pronósticos divididos por su desviación típica. Son
pronósticos transformados en puntuaciones z (con media 0 y desviación típica 1).
ZRESID (residuos típificados). Residuos divididos por su desviación típica. El tamaño de cada
residuo tipificado indica el número de desviaciones típicas que se aleja de su media, de modo
que, si están normalmente distribuidos (cosa que asumimos en el análisis de regresión), el 95 %
de estos residuos se encontrará en el rango (-1,96; +1,96), lo cual permite identificar fácilmente
casos con residuos grandes.
El supuesto de igualdad de varianzas implica que la variación de los residuos debe ser uniforme
en todo el rango de valores pronosticados. O, lo que es lo mismo, que el tamaño de los residuos
es independiente del tamaño de los pronósticos, de donde se desprende que el diagrama de
dispersión no debe mostrar ninguna pauta de asociación entre los pronósticos y los residuos.
Como se puede observar, la gráfica ZRESID-ZPRED de nuestro problema no muestra una pauta
clara de aumento o disminución de los residuos por lo que admitimos la hipótesis de
homocedasticidad.
3.2.6.4.
Normalidad.
Para cada valor de la variable independiente (o combinación de valores de las variables
independientes), los residuos se distribuyen normalmente con media cero.
Sobre estas líneas se muestra el histograma de los residuos tipificados con una curva normal
superpuesta. La curva se construye tomando una media de 0 y una desviación típica de 1, es
20
decir, la misma media y la misma desviación típica que los residuos tipificados. En el
histograma de la figura podemos observar que la distribución de los residuos se adapta bastante
bien a la distribución normal.
Otra herramienta para asegurar la normalidad de los residuos es el gráfico de probabilidad
normalidad. En el eje de abscisas está representada la probabilidad acumulada que corresponde
a cada residuo tipificado. El de ordenadas representa la probabilidad acumulada teórica que
corresponde a cada puntuación típica en una curva normal con media 0 y desviación típica 1.
Cuando los residuos se distribuyen normalmente, la nube de puntos se encuentra alineada sobre
la diagonal del gráfico. En este caso parece que los datos no están totalmente alineados con la
diagonal, por lo que no podemos aventurarnos a ofrecer una conclusión de garantías.
Como las herramientas anteriores no nos han permitido emitir un juicio sobre la normalidad
utilizaremos los gráficos con pruebas de normalidad para los residuos estandarizados. Esta
opción permite obtener dos gráficos de normalidad (Q-Q normal y Q-Q normal sin tendencia)
junto con dos pruebas de significación: Kolmogorov-Smirnov (K-S) y Shapiro-Wilk (S-W). En
primer lugar, debemos guardar en el menú de la regresión lineal los residuos tipificados como
una nueva variable. De esta forma podemos someterlos a las pruebas de normalidad descritas
anteriormente mediante la opción “Explorar” del menú de SPSS.
El gráfico Q-Q normal muestra un ajuste bastante bueno de los datos sobre la línea de
referencia, sin embargo podemos observar que existe un valor que se escapa un poco de esta
tendencia. En el otro gráfico no observamos que los datos se distribuyan siguiendo ningún
21
criterio o tendencia y se reparten bastante homogéneamentre a ambos lados de la recta de valor
cero. También se puede observar la presencia de ese dato alejado de los demás.
A continuación se muestran los estadísticos de Kolmogorov-Smirnov y de Shapiro-Wilk
acompañados de sus correspondientes niveles críticos.
Ambos permiten contrastar la hipótesis nula de que los residuos tienen una distribución normal.
Rechazaremos la hipótesis de normalidad cuando el nivel crítico  Sig. sea menor que el nivel
de significación establecido   0, 05 . Los residuos tienen asociados niveles críticos
mayores que 0, 05 para los dos estadísticos, lo que debe llevarnos a concluir que los residuos
siguen una distribución normal.
3.2.6.5.
No colinealidad.
No existe relación lineal exacta entre ninguna de las variables independientes. El
incumplimiento de este supuesto da origen a colinealidad o multicolinealidad.
Existe colinealidad perfecta cuando una de las variables independientes se relaciona de forma
perfectamente lineal con una o más del resto de variables independientes de la ecuación.
Hablamos de colinealidad parcial o, simplemente, colinealidad, cuando entre las variables
independientes de una ecuación existen correlaciones altas. Existen diferentes formas de
diagnosticar la presencia de colinealidad y para ayudar a detectarla vamos a hacer uso de
algunos estadísticos como los índices de condición del modelo y los factores de inflación de la
varianza (FIV).
Para los índices de condición debemos identificar aquellos que superen el umbral 30. Para estos
índices, detectar las variables con proporciones de la varianza por encima del 90%. Habrá
multicolinealidad si ocurre con dos o más coeficientes. Para nuestro caso vemos que se cumplen
los criterios porque ningún índice de condición del modelo 3 supera el límite estipulado.
22
Para el FIV debemos buscar valores superiores a 10. Vemos en la tabla que ninguno es mayor
de 1. Por lo tanto, no se violan las hipótesis de no multicolinealidad y podemos afirmar que no
existe colinealidad entre ninguna de nuestras tres variables independientes.
Una vez finalizado el proceso regresivo, podemos concluir que el modelo generado incluye a las
tres variables explicativas valoradas y carece de constante:
ˆ  12, 063E  0, 254C  0,889T
D
 
El mayor efecto en la predicción del porcentaje de larvas con deformidades esqueléticas D̂ es
el asociado a la variable Dieta  E  con un 77,9%, mientras que las variables Densidad  C  y
Temperatura
T 
tienen un efecto más moderado aunque destacado del 46,8% y 32,2%
respectivamente.
Todos los supuestos de validez del modelo se han cumplido sin excepciones; además, el valor
2
de Rcorregido
 0,92 indica que el ajuste a nuestros datos ha sido muy bueno y la diferencia tan
2
pequeña entre R2  Rcambio
 0, 009 certifica la validación de los resultados.
3.3. Regresión logística.
Para intentar predecir la probabilidad de padecer deformidad (D) esquelética en función de la
dieta, la temperatura y la densidad de cultivo larvaria se ha optado por un ajuste mediante
modelo logit de respuesta binomial con variables explicativas categóricas tratando nuestras tres
variables explicativas como factores cualitativos y utilizando el método parcial de codificación
respecto a la primera categoría.
Todas las variables a estudio serán tratadas como variables cualitativas: la dieta tiene 3
categorías (0,15, 0,5 y 1,2), la temperatura otras 3 categorías (16, 19 y 22), la densidad de
cultivo otras 3 categorías (10, 20 y 40) y la variable respuesta 2 categorías (presentar una
deformidad esquelética y no presentarla). Cada variable ha de repetir sus categorías de tal
manera que se obtengan todas las combinaciones posibles de categorías de las variables
disponibles. Como tenemos 3 variables explicativas con 3 categorías cada una el número
máximo de combinaciones será de 27.
En función de lo anterior, se ha creado un archivo texto con todos los datos llamado
Deformes.txt (ver Apéndice I) donde las categorías de las variables independientes se han
recodificado para transformarlas en cualitativas, de forma que:


Dieta (0,15, 0,5 y 1,2) equivale a (E0, E1 y E2), que representaría una dieta control sin
enriquecimiento (E0), otra con el enriquecedor 1 (E1) y otra con el 2 (E2) .
Temperatura de cultivo (16, 19, 22) equivale a (T16, T19, T22).
23


Densidad de cultivo (10, 20 y 40) equivale a (d10, d20 y d40).
Variable respuesta (presentar deformidad y no presentarla) seguiría siendo D1 y D0
respectivamente.
Las 27 combinaciones se muestran a continuación en formato de datos agrupados.
Dieta
Tª
Dens
D1
D0
E0
T16
d10
17
83
E0
T16
d20
19
81
E0
T16
d40
24
76
E0
T19
d10
19
81
E0
T19
d20
17
83
E0
T19
d40
27
73
E0
T22
d10
20
80
E0
T22
d20
22
78
E0
T22
d40
34
66
E1
T16
d10
11
89
E1
T16
d20
12
88
E1
T16
d40
18
82
E1
T19
d10
15
85
E1
T19
d20
16
84
E1
T19
d40
19
81
E1
T22
d10
17
83
E1
T22
d20
17
83
E1
T22
d40
26
74
E2
T16
d10
5
95
E2
T16
d20
7
93
E2
T16
d40
10
90
E2
T19
d10
5
95
E2
T19
d20
9
91
E2
T19
d40
12
88
E2
T22
d10
10
90
E2
T22
d20
10
90
E2
T22
d40
15
85
En esta tabla de frecuencias podemos ver el porcentaje de peces deformes (D1) y no deformes
(D0) que contiene cada una de las 27 combinaciones. Los datos han sido separados mediante
espacios (sep=” “) y las columnas tienen el nombre de las variables (header=T). Esto es
importante para leer correctamente los datos desde R. La salida que ofrece el programa se
muestra a continuación.
24
El método parcial de codificación de las variables del diseño consiste en elegir una categoría de
referencia de modo que todas las variables del diseño asignan el valor 0 a esa categoría de
referencia. Asociada a cada una de las restantes categorías se define una variable del diseño
binaria que toma el valor 1 para su categoría asociada y el valor 0 para todas las demás. El
método parcial de codificación es el que considera por defecto R tomando siempre como
categoría de referencia la primera. Podemos corroborarlo con la orden contrast() que, por
ejemplo, para la variable dieta obtendría la siguiente salida.
3.3.1. Estimación del modelo.
Consideremos ahora tres variables explicativas categóricas A : A1 ,... AI con variables del diseño
A
A
asociadas X 2 ,..., X I , B : B1 ,..., BJ con variables del diseño X 2B ,..., X JB y C : C1,..., C K con
variables del diseño X 2C ,..., X KC . Si la probabilidad de respuesta Y=1 (padecer deformidad
esquelética) en cada combinación de niveles de las tres variables cualitativas es
P Y  1/ A  Ai , B  B j , C  Ck   pijk
25
el modelo de regresión logística se construye de la siguiente forma tomando como variables
explicativas las  I  J  K  3 variables del diseño:
I
J
K
 pijk 
A
A
B
B
C
C
Lijk  ln 
  0   m X im   m X jm   m X km i  1,...,I ; j  1,...,J ;k  1,...,K
m2
m 2
m 2
1  pijk 
Utilizando la definición binaria de las variables de diseño del método parcial se obtiene la
siguiente expresión para el modelo de regresión logística:
L111   0
Li1   0   iA i  2,..., I
L1 j   0   Bj
j  2,..., J
L1k   0   kC k  2,..., K
Lijk   0   iA   Bj   kC i  2,..., I ; j  2,..., J ; k  2,..., K
que puede expresarse de forma global como
Lijk  0   iA   Bj   kC i  1,..., I ; j  1,..., J ; k  1,..., K
bajo la restricción 1A  1B  1C  0 .
Partiendo de nuestras tres variables explicativas categóricas como son la dieta (E), la
temperatura (T) y la densidad de cultivo (C), con variables del diseño asociadas
X 2E , X 3E ; X 2T , X 3T y X 2C , X 3C respectivamente para cada una de ellas, la fórmula general de
nuestro modelo será:
 pijk 
E
E
E
E
T
T
T
T
C
C
C
C
Lijk  ln 
  0   2 X i 2   3 X i 3   2 X i 2   3 X i 3   2 X i 2   3 X i 3
1

p

ijk 

Siendo
pijk  P  D  1/ E  Ei , T  T j , C  Ck 
i  1, 2,3 ; j  1, 2,3 ; k  1, 2,3
se
simplifica como sigue en base a la definición de variables del diseño del método parcial
Lijk  0   iE   Tj   kC i  1, 2,3 ; j  1, 2,3 ; k  1, 2,3
bajo la restricción 1E  1T  1C  0 .
Para comprobar cual o cuales de nuestras variables deben entrar realmente en nuestro modelo
para que se ajuste bien a nuestros datos, realizamos la selección de variables explicativas
26
mediante selección paso a paso (stepwise en R) utilizando la orden step. A continuación se
muestra la salida generada por el programa.
El paso inicial del programa es a partir del modelo que sólo tiene el parámetro constante. En
esta salida se muestra el valor del criterio de información de Akaike (AIC) del modelo constante
(212,28). A continuación aparece una lista de todas las variables que es posible seleccionar para
su inclusión en el modelo en este paso. Junto a cada variable aparecen sus grados de libertad
(Df), la deviance del modelo que resulta de añadir al modelo constante ésta variable y el AIC
del modelo que resulta de añadir al modelo constante ésta variable. Además, también aparece
una fila denominada  none  que tiene la deviance y el AIC del modelo actual.
Recordemos que en el paso inicial del proceso stepwise se realizan sucesivamente los contrastes
condicionales de razón de verosimilitud entre el modelo constante y cada uno de los modelos
simples que resultan de la introducción de cada una de las variables explicativas. Entre todas las
variables para las que el contraste es significativo
 p  valor  1  se selecciona la asociada al
mínimo p-valor (equivalentemente máximo valor del estadístico de razón de verosimilitud
condicional).
27
En la tabla mostrada anteriormente, las variables para las que el contraste es significativo
aparecen por encima de la fila  none  (Dieta, Dens y Tª), mientras que aquellas para las que
el contraste es no significativo aparecen por debajo. Como el valor observado del estadístico de
contraste es la diferencia entre la deviance del modelo constante y la del modelo que resulta de
incluir cada variable, la variable a seleccionar en el primer paso será aquella con menor
deviance y que aparece en la primera fila de la tabla. En nuestro caso se trata de la Dieta, que
entra en el modelo.
Una vez seleccionada Dieta se realiza un nuevo paso repitiendo el proceso anterior pero con
modelo de partida la variable respuesta (D) en función de la variable explicativa incorporada en
el paso anterior (Dieta).
En este momento tendríamos que elegir el término que podría ser eliminado del modelo.
Aparecería con un signo negativo sobre la fila  none  . En nuestro caso podría ser el la Dieta
que ha sido incorporada en el paso anterior pero aparece bajo la fila  none  , por lo que no va
a ser eliminada. Llegados a este punto, y siguiendo el criterio explicado en el paso anterior, el
programa introduciría una nueva variable explicativa si el contraste es significativo. Por lo
tanto, la siguiente variable seleccionada será la densidad de cultivo (Dens), que entra en el
modelo.
Vemos, además, que ninguno de las dos variables que podrían ser eliminadas aparecen por
encima de la fila  none  por lo que permanecen en el modelo.
Nuevamente, siguiendo el criterio explicado en el primer paso, el programa introduciría la
última variable explicativa si el contraste es significativo. Como esto es así, la variable
temperatura (Tª) es seleccionada y entra también en el modelo.
28
Podemos comprobar que ninguna de las tres variables que podrían ser eliminadas aparece por
encima de la fila  none  por lo que no son eliminadas del modelo y el proceso stepwise se
detiene en este momento.
Por lo tanto, el programa estima como más propicio un modelo de la forma
3
3
3
 pijk 
E
E
T
T
C
C
Lijk  ln 
  0   m X im   m X jm   m X km
1

p
m2
m2
m2

ijk 

para explicar los datos observados, incorporando las tres variables explicativas.
Podemos obtener un resumen de los coeficientes obtenidos y de todo el proceso mediante la
orden summary(). Las salidas del programa se muestran a continuación.
29
Podemos comprobar los valores estimados de los parámetros  0 (interceptor),  mE ,  mT y  mC y
su significación estadística. Para constatarla utilizamos el test estadístico Z de Wald obtenido
como el cociente entre el valor estimado del parámetro y su error estándar. Fijando nivel de
significación   0, 05 se tiene que rechazaremos la hipótesis nula de igualdad a cero de los
parámetros cuando Z  z  1,96 . Como hemos observado en la tabla anterior, son todos
2
significativamente distintos de cero a nivel   0, 05 menos  2C y  2T que son significativos y
por lo tanto son considerados igual a cero.
 pijk 
E
E
E
E
T
T
C
C
  0   2 X i 2   3 X i 3   3 X i 3   3 X i 3
1  pijk 
Modelo obtenido: Lijk  ln 
Siendo la versión simplificada en base a la definición de variables del diseño del método parcial
Lij  0   2E   3E   3T   3C
bajo la restricción 1P  1C  0 y con  2T ,  2C  0 .
Las estimaciones de máxima verosimilitud de los parámetros de este modelo extraídos de la
tabla anterior son las siguientes.
ˆ0  1,67961;  2E  0,34703;  3E  1,03925;  3C  0,54356;  3T  0, 40520
3.3.2. Bondad de ajuste y efecto de las variables explicativas.
Una vez estimado el modelo vamos a contrastar su bondad de ajuste mediante un test asintótico
tradicional. Para poder usar este test tiene que verificarse que al menos el 80% de las
frecuencias esperadas sean mayores de 5 y observando la tabla de datos comprobamos que esto
se cumple para nuestro caso. Por consiguiente, para estudiar la bondad de ajuste se utiliza el
estadístico de razón de verosimilitudes que para el caso de datos agrupados viene representado
en R mediante el valor denominado Residual Deviance. Podemos comprobar en la tabla
resumen del proceso expuesta anteriormente, que este estadístico vale 3,4857 y tiene
distribución chi-cuadrado con 20 grados de libertad. Mediante el uso de la función de cálculo de
probabilidades de la distribución chi-cuadrado 1-pchisq() que ofrece R obtenemos un
p  valor  0,99998 que es mayor que   0, 05 por lo que se acepta la hipótesis nula de que
el modelo se ajusta bien a los datos observados:
H0 :
 pijk 
E
E
E
E
T
T
C
C
ln 
  0   2 X i 2   3 X i 3   3 X i3   3 X i3
1

p

ijk 

A continuación vamos a establecer la influencia de cada variable explicativa sobre la aparición
de deformidades en base a las exponenciales de los parámetros que son cocientes de ventajas.
Las salidas para dichos cocientes de ventajas en R se muestran a continuación. Primero
calculamos la exponencial de los parámetros mediante la orden exp().
30
Y después los intervalos de confianza al 95%
Observemos que el intervalo de confianza para la exponencial de los parámetros  2C y  2T
contiene el valor 1, lo que significa que las deformidades esqueléticas no dependen de estas
categorías de las variables explicativas densidad y temperatura de cultivo. Los I.C. del resto de
parámetros no contienen el 1, lo que significa que la aparición de deformidades depende en
mayor o menor medida de todos ellos. Esto es congruente con el test de Wald basado en la
misma distribución normal que ha llevado previamente a rechazar la igualdad a cero de todos
estos parámetros excepto del  2C y  2T .
Para estudiar la relación entre el tipo de dieta y la aparición de deformidades mantendremos fija
las otras covariables (Dens y Tª) y estimaremos los cocientes de ventajas a favor de padecer el
problema para cada nivel E1 y E2 respecto a la categoría de referencia E0.
pˆ 2 jk
1  pˆ 2 jk
E
ˆ21/

 exp ˆ2E   0, 70678 con I .C.  0,55769;0,89573 al 95%
T T j ,C Ck 
ˆp1 jk
1  pˆ1 jk
La inversa del dato anterior sería:
1
 1, 415 . De estos datos podemos deducir que la
0, 70678
ventaja a favor de padecer deformidades es 0,707 veces mayor para los peces alimentados con la
dieta E1 respecto a los alimentados con la dieta control E0. O dicho de otra forma, la ventaja a
favor de sufrir deformidades esqueléticas es 1,4 veces mayor en los peces alimentados con E0
respecto a los alimentados con E1, sea cual sea su temperatura y densidad de cultivo.
pˆ 3 jk
1  pˆ 3 jk
E
ˆ31/

 exp ˆ3E   0,35372 con I .C.  0, 26819;0, 46652  al 95%
T

T
,
C

C
 j
k
pˆ1 jk
1  pˆ1 jk
La inversa del dato anterior sería:
1
 2,827 . Podemos afirmar, por tanto, que la
0,35372
ventaja a favor de sufrir deformidades esqueléticas es 2,827 veces mayor (casi el triple) en los
peces alimentados con E0 respecto a los alimentados con E2, sea cual sea su temperatura y
densidad de cultivo.
31
Vamos ahora a estudiar la relación entre la densidad de cultivo y la aparición de peces
deformes. Mantendremos fijas las covariables Dieta y Tª y estimaremos los cocientes de
ventajas a favor de padecer la enfermedad para el nivel 40 larvas/litro respecto a la categoría de
referencia (10 larvas/litro).
pˆ ij 3
1  pˆ ij 3
C
ˆ31/

 exp ˆ3C   1, 72212
 E  Ei ,T T j 
pˆ ij1
con I .C. 1,33453; 2, 22228 al 95%
1  pˆ ij1
La ventaja a favor de padecer deformidades es 1,7 veces mayor para los peces cultivados a una
densidad de 40 larvas/litro respecto a la categoría de referencia, sea cual sea su dieta y
temperatura de cultivo.
Por último comparamos la relación entre la temperatura y la aparición de peces deformes.
Mantendremos fijas las covariables Dieta y Dens y estimaremos los cocientes de ventajas a
favor de padecer la enfermedad para el nivel Tª = 22ºC respecto a la categoría de referencia (Tª
= 16ºC).
T
ˆ31/
 E  E ,C  C
i
k

pˆ i 3k
1  pˆ i 3k

 exp ˆ3T   1, 49960 con I .C. 1,16019;1,93830  al 95%
pˆ i1k
1  pˆ i1k
El resultado muestra que la ventaja a favor de padecer deformidades es 1,5 veces mayor para los
peces cultivados a 22ºC respecto a los mantenidos a 16ºC, independientemente de su dieta y
densidad de cultivo.
Los valores obtenidos del análisis de cocientes de ventajas sugieren la existencia de una relación
negativa entre el cociente DHA/EPA (dieta) y la aparición de deformidades, de forma que a
medida que este cociente aumenta, disminuye la proporción de individuos deformes. Con la
temperatura y densidad de cultivo ocurre lo contrario y esta relación es positiva. El porcentaje
de deformes es mayor en los niveles más elevados de cada una de estas dos variables respecto a
sus correspondientes controles. Por lo tanto, los datos parecen indicar que temperaturas y
densidades de cultivo elevadas favorecen la aparición de peces con problemas esqueléticos,
mientras que mayores niveles de DHA/EPA en la dieta ayudan a disminuir este porcentaje.
3.3.3. Validación del modelo.
Sólo quedaría realizar la validación completa del modelo, para lo que serían necesarios los
siguientes datos:


Número de respuestas D=1 (sufrir malformación esquelética) en cada valor observado
de las variables explicativas.
Número de respuestas D=0 (no sufrir malformación esquelética) en cada valor
observado de las variables explicativas.
32









Proporción observada de respuestas D=1 en cada valor observado de las variables
explicativas y se obtiene a partir de los datos agrupados mediante
Deformes$IM1/(Deformes$IM1+Deformes $IM0).
Probabilidad predicha de respuestas D=1 en cada valor observado de las variables
explicativas y se obtiene a partir de los datos agrupados mediante
fitted.values(Ajuste.Deformes.step).
Error estándar de la probabilidad predicha de respuestas Y=1 y se obtiene a partir de los
datos
agrupados
mediante
predict.glm(Ajuste.Deformes.step,type="response",
se.fit=T)[[2]].
Residuos de Pearson ajustados y se obtienen mediante la función
rstandard(Ajuste.Deformes.step,type="pearson").
Transformaciones logit predichas y se obtienen mediante la función
predict.glm(Ajuste.Deformes.step,type="link").
Residuos de Pearson modificados
Residuos de la deviance ajustados y se obtienen mediante la función
rstandard(Ajuste.Deformes.step,type="deviance").
Leverages y se obtienen mediante la función hatvalues(Ajuste.Deformes.step).
Distancias de Cook modificadas y se obtienen mediante la función
2*cooks.distance(Ajuste.Deformes.step,type="deviance")).
Para obtener los diferentes predichos se recurre a la función predict.glm, mientras que la función
rstandard() aplicada a un objeto glm permite obtener distintos tipos de residuos estandarizados.
La validación completa del modelo se realizará en base a los residuos de Pearson
estandarizados.
Para mostrar todas estas medidas ordenadas se creará un data.frame con los valores obtenidos.
La salida en R es la siguiente.
Como hemos dicho anteriormente, para validar el modelo utilizaremos los residuos
estandarizados de Pearson (Res.Pear en la tabla). El residuo asociado a cada combinación de
niveles de las variables explicativas será significativo, es decir, distinto de cero, al nivel de
significación   0, 05 cuando el valor absoluto del residuo ajustado sea mayor o igual que
33
z  1,96 . Podemos concluir que ningún residuo es significativo y que, por lo tanto, el modelo
2
se ajusta bien dato a dato.
Como resumen, podemos apuntar que partiendo del conjunto de datos inicial se ha intentado
comprobar si existe algún tipo de relación entre sufrir deformidades esqueléticas en función de
la dieta, la temperatura y la densidad de cultivo larvaria. Se optó para ello por un ajuste de los
datos mediante un modelo logit tratando estas tres variables como factores cualitativos y
utilizando el método parcial de codificación respecto a la primera categoría. Estas variables
fueron recodificadas como categóricas, y la codificación respecto a la primera categoría es la
salida por defecto que tiene el programa R y asume la categoría más baja (primera) de cada
variable como referencia y obtiene las demás en función de este valor. Los resultados mostrarán
cómo se comporta una larva en función de sus niveles de las variables explicativas frente a la
presencia de deformidades si la comparamos con otra cuyos niveles de las variables explicativas
son los de “control”. Se ha utilizado el procedimiento stepwise para seleccionar el modelo que
mejor se ajusta a los datos y, finalmente, las tres variables han entrado en el modelo.
Como se verificaba la condición necesaria de que al menos el 80% de las frecuencias esperadas
fueran mayores que 5 para poder utilizar un test asintótico tradicional, el p-valor = 0,999 > 0,05
obtenido indica que el modelo se ajusta bien. Para la validación del mismo se han analizado los
residuos estandarizados de Pearson (son todos no significativos) y para estudiar la significación
estadística de los parámetros el test de Wald. Los resultados obtenidos muestran que el modelo
se ajusta bien tanto de forma general como dato a dato y que sus parámetros son
significativamente distintos de cero excepto los parámetros asociados a las segundas categorías
de las variables explicativas temperatura ( 2T ) y densidad de cultivo ( 2C ) . Por lo tanto, nuestro
modelo general será de la siguiente forma
 pijk 
P
P
P
P
P
P
C
C
C
C
Lijk  ln 
  0   2 X i 2   3 X i 3   4 X i 4   3 X i3   4 X i 4 .
1  pijk 
Los cocientes de ventajas muestran como las probabilidades de padecer deformidades aumentan
a temperaturas y densidades de cultivo elevadas, mientras que disminuyen al aumentar el
porcentaje DHA/EPA en la dieta.
3.4. ANOVA.
La prueba T para dos muestras independientes permite contrastar hipótesis referidas a la
diferencia entre dos medias independientes. Tenemos dos poblaciones normales, con medias
1 y 2 , de cada una de las cuales seleccionamos una muestra aleatoria de tamaños n1 y n2 .
Tras esto, utilizamos las medias muestrales Y1 e Y2 para contrastar la hipótesis de que las
medias poblacionales 1 y 2 son iguales.
La prueba T que permite contrastar esta hipótesis de igualdad de medias no es otra cosa que
una tipificación de la diferencia entre las dos medias muestrales que se obtiene restando a esa
diferencia su valor esperado en la población y dividiendo el resultado por el error típico de la
diferencia:
34
T
Y  Y    
1
2
1
 2 
ˆY Y
1
2
donde ˆY1 Y2 es el error típico.
3.4.1. ANOVAs de un factor.
El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una
variable cuantitativa. Se trata, por tanto, de una generalización de la “prueba T para dos
muestras independientes” al caso de diseños con más de dos muestras.
A la variable categórica que define los grupos que deseamos comparar la llamamos
independiente o factor, mientras que la variable cuantitativa en la que deseamos comparar los
grupos la llamamos dependiente
La hipótesis que se pone a prueba en el ANOVA de un factor es que las medias poblacionales
de la variable dependiente en cada nivel de la independiente son iguales. Si las medias
poblacionales son iguales, eso significa que los grupos no difieren en la v.d. y que, en
consecuencia, la v.i. o factor es independiente de la v.d.
La estrategia para poner a prueba la hipótesis de igualdad de medias consiste en obtener un
estadístico, llamado F , que refleja el grado de parecido existente entre las medias que se están
comparando. El numerador de este estadístico es una estimación de la varianza poblacional
basada en la variabilidad existente entre las medias de cada grupo: ˆ12  nˆY2 . El denominador
del estadístico F es también una estimación de la varianza poblacional, pero basada en la
2
2
variabilidad existente dentro de cada grupo: ˆ 2  S j , donde j se refiere a los distintos grupos
o niveles del factor:
ˆY2
ˆ12
F  2 n 2
ˆ 2
Sj
Si las medias poblacionales son iguales, las medias muestrales serán parecidas, existiendo entre
ellas tan sólo diferencias atribuibles al azar. En ese caso, la estimación ˆ12 basada en las
diferencias entre las medias reflejará el mismo grado de variación que la basada en las
 
2
diferencias entre las puntuaciones individuales ̂ 2 y el cociente F tomará un valor próximo
a 1. Si las medias muestrales son distintas, la estimación ˆ12 reflejará mayor grado de variación
que la estimación ˆ 22 y el cociente F tomará un valor mayor que 1. Cuanto más diferentes
sean las medias, mayor será el valor de F .
Si las poblaciones muestreadas son normales y sus varianzas son iguales, F se distribuye según
el modelo de probabilidad F de Fisher  Snedecor con
numerador y
n  j
 j  1
grados de libertad del
del denominador, donde n es el número total de observaciones. Si
suponemos cierta la hipótesis de igualdad de medias, podemos conocer en todo momento la
probabilidad de obtener un valor como el obtenido o mayor.
35
El estadístico F se interpreta de forma que si su nivel crítico asociado, es decir, si la
probabilidad de obtener valores como el obtenido o mayores, es menor que 0, 05 rechazaremos
la hipótesis de igualdad de medias y concluiremos que no todas las medias poblacionales
comparadas son iguales. En caso contrario, no podremos rechazar la hipótesis de igualdad y no
podremos afirmar que los grupos comparados difieran en sus promedios poblacionales.
Partiendo de nuestro conjunto de datos se han llevado a cabo análisis ANOVA enfrentando el
porcentaje de individuos deformes como v.d. frente a cada una de las v.i.: dieta, temperatura y
densidad de cultivo. Además, se ha extendido este análisis para comprobar si existen diferencias
significativas en el porcentaje de supervivientes o en el peso final de las larvas frente a cada una
de las tres variables independientes indicadas anteriormente.
3.4.1.1.
Deformes frente a Dieta.
Para la sintaxis seleccionada, el programa SPSS ofrece un conjunto de salidas que se describen
a continuación. La primera tabla denominada “Descriptivos” muestra, para cada grupo y para el
total muestral, el número de casos, la media, la desviación típica, el error típico de la media, los
límites del intervalo de confianza para la media al 95 % y los valores mínimo y máximo.
A continuación se obtiene la prueba de homogeneidad de las varianzas mediante el estadístico
de Levene, el cual permite contrastar la hipótesis de que las varianzas poblacionales son iguales.
Junto con el valor del estadístico de Levene (0,873) aparecen los grados de libertad de su
 gl1  2, gl 2  24 y el nivel crítico o probabilidad de obtener valores como el
obtenido o mayores  Sig. . Puesto que el nivel crítico vale 0,430 es mayor que 0,05, por lo que
distribución
debemos aceptar la hipótesis de igualdad de varianzas y concluir que, en los grupos definidos
por las tres dietas diferentes, las varianzas de la variable “Porcentaje de deformes” son iguales.
El siguiente cuadro refleja el análisis ANOVA en sí.
36
El valor del estadístico F es 18,874 y puesto que Sig.  0,000 es menor que 0,05 rechazamos
la hipótesis de igualdad de medias y concluimos que las larvas alimentadas con dietas diferentes
no poseen el mismo porcentaje medio de larvas deformes.
El estadístico F del ANOVA únicamente nos permite contrastar la hipótesis general de que los
promedios comparados son iguales. Al rechazar esa hipótesis, sabemos que las medias
poblacionales comparadas no son iguales, pero no sabemos dónde en concreto se encuentran las
diferencias: ¿son diferentes entre sí todas las medias?, ¿hay sólo una media que difiere de las
demás?, etc. Para saber qué media difiere de qué otra debemos utilizar un tipo particular de
contrastes denominados comparaciones múltiples post hoc o comparaciones a posteriori.
Por lo tanto, la siguiente tabla de comparaciones múltiples permite, una vez rechazada la
hipótesis general del ANOVA, averiguar qué medias en concreto difieren de qué otras.
La primera columna nos indica que hemos seleccionado dos procedimientos post hoc: la
diferencia honestamente significativa (HSD) de Tukey y el método de Games-Howell. El
primero se utiliza cuando asumimos varianzas iguales y el segundo cuando no es posible
hacerlo.
A continuación aparecen todas las posibles combinaciones dos a dos entre los niveles o
categorías de la variable factor (Dieta), las diferencias entre los porcentajes medios de deformes
de cada dos grupos, el error típico de esas diferencias y el nivel crítico asociado a cada
diferencia
 Sig. .
Los grupos cuyas medias difieren significativamente al nivel 0,05 están
marcados con un asterisco. Podemos comprobar que el número de diferencias significativas
detectadas no es el mismo con los dos métodos utilizados. Puesto que podemos asumir
varianzas poblacionales iguales (ver el resultado de la prueba de Levene anterior), debemos
prestar atención a la solución propuesta por el método (HSD) de Tukey. Podemos concluir que
todos los promedios comparados difieren significativamente, por lo tanto, las larvas alimentadas
con la dieta con nivel DHA/EPA=0,15 presentan un porcentaje medio de larvas deformes mayor
que las alimentadas con un nivel DHA/EPA=0,5 y éstas mayor que las que han comido un
alimento con nivel DHA/EPA=1,2.
Los límites del intervalo de confianza de las dos últimas columnas permiten estimar entre qué
limites se encuentra la verdadera diferencia entre las medias de los grupos. Estos intervalos
también permiten tomar decisiones sobre si dos promedios difieren o no significativamente
37
(dependiendo de que el intervalo incluya o no el valor cero). Pero al utilizar estos intervalos
para decidir sobre la hipótesis de igualdad de medias hay que tener en cuenta que el intervalo se
obtiene individualmente para cada diferencia, sin establecer control sobre la tasa de error, por lo
que las decisiones que podamos tomar basándonos en estos intervalos serán demasiado
arriesgadas.
La última tabla muestra una clasificación de los grupos basada en el grado de parecido existente
entre sus medias. Debido que para nuestro caso se han encontrado diferencias significativas
entre los tres grupos, se han generado tres subconjuntos homogéneos (uno para cada grupo) con
sus correspondientes medias.
Por último, se muestra el gráfico de medias donde podemos comprobar visualmente la tendencia
descrita por el porcentaje de deformes frente al tipo de dieta. Claramente la cantidad de larvas
deformes disminuyen al ser elimentadas con una dieta más rica en DHA/EPA.
3.4.1.2.
Deformes frente a Tª.
La tabla “Descriptivos” muestra, para cada grupo y para el total muestral, el número de casos,
la media, la desviación típica, el error típico de la media, los límites del intervalo de confianza
para la media al 95 % y los valores mínimo y máximo.
38
El siguiente cuadro refleja el análisis ANOVA en sí. El valor del estadístico F vale 1,445.
Puesto que su Sig.  0, 255 es mayor que 0,05 aceptamos la hipótesis de igualdad de medias y
concluimos que las larvas mantenidas a temperaturas diferentes poseen el mismo porcentaje
medio de larvas deformes.
Por lo tanto, el análisis ANOVA no ha encontrado diferencias significativas a un nivel de
significación 0,05 entre el porcentaje de larvas deformes y la temperatura de cultivo.
Observemos la gráfica de medias que se muestra a continuación y que representa el porcentaje
de deformes frente a las diferentes temperaturas de cultivo.
Podemos comprobar visualmente la tendencia descrita por la curva. Claramente la cantidad de
larvas deformes tiende a aumentar al ser mantenidas a una mayor temperatura, aunque este
incremento no sea significativo estadísticamente.
3.4.1.3.
Deformes frente a densidad de cultivo.
Nuevamente, la tabla “Descriptivos” muestra, para cada grupo y para el total muestral, el
número de casos, la media, la desviación típica, el error típico de la media, los límites del
intervalo de confianza para la media al 95 % y los valores mínimo y máximo.
39
A continuación se obtiene el estadístico de Levene, el cual permite contrastar la hipótesis de que
las varianzas poblacionales son iguales.
Puesto que el nivel crítico del estadístico vale 0,310 es mayor que 0,05, por lo que debemos
aceptar la hipótesis de igualdad de varianzas y concluir que, en los grupos de larvas mantenidas
a diferentes densidades de cultivo, las varianzas de la variable “Porcentaje de deformes” son
iguales.
A continuación se muestra el cuadro del ANOVA.
Puesto que F tiene Sig.  0,045 menor que 0,05 rechazamos la hipótesis de igualdad de
medias y concluimos que las larvas cultivadas a diferente densidad no presentan el mismo
porcentaje medio de deformes.
La siguiente tabla de comparaciones múltiples permite, una vez rechazada la hipótesis general
del ANOVA de que todas las medias son iguales, averiguar qué medias en concreto difieren de
qué otras.
Los grupos cuyas medias difieren significativamente al nivel 0,05 están marcados con un
asterisco. Puesto que podemos asumir varianzas poblacionales iguales (ver resultado de la
prueba de Levene ), debemos prestar atención a la solución propuesta por el método (HSD) de
Tukey. A pesar de que la ANOVA concluye que existen diferencias significativas en el
porcentaje de larvas deformes en función de la densidad de cultivo, el análisis de comparaciones
múltiples no encuentra diferencias significativas entre los promedios comparados. Por lo tanto,
no podemos afirmar que alguna de las densidades de cultivo afecta significativamente sobre el
porcentaje de larvas deformes.
40
La última tabla muestra una clasificación de los grupos basada en el grado de parecido existente
entre sus medias. Debido a que para nuestro caso no se han encontrado diferencias significativas
entre los tres grupos, se ha generado sólo un subgrupo homogéneo que los contiene a todos.
Por lo tanto, el análisis ANOVA ha encontrado diferencias a un nivel de significación 0,05 entre
el porcentaje de larvas deformes y la densidad de cultivo, mientras que el análisis anterior no lo
ha ratificado. Observemos la gráfica de medias que se muestra a continuación y que representa
el porcentaje de deformes frente a las diferentes densidades.
Podemos comprobar visualmente la tendencia descrita por la gráfica. Claramente la cantidad de
larvas deformes tiende a aumentar al ser cultivadas a una mayor densidad, siendo este efecto
mucho más marcado al subir de 20 a 40 larvas/litro.
3.4.1.4.
Supervivencia frente a Dieta.
Al igual que en los casos anteriores, la primera tabla denominada “Descriptivos” muestra, para
cada grupo y para el total muestral, el número de casos, la media, la desviación típica, el error
típico de la media, los límites del intervalo de confianza para la media al 95 % y los valores
mínimo y máximo.
41
La prueba de homogeneidad de las varianzas permite, mediante el estadístico de Levene,
contrastar la hipótesis de que las varianzas poblacionales son iguales.
Como el nivel crítico del estadístico vale 0,164 y es mayor que 0,05, debemos aceptar la
hipótesis de igualdad de varianzas y concluir que, en los grupos definidos por las tres dietas
diferentes, las varianzas de la variable “Porcentaje de supervivencia” son iguales.
En la siguiente tabla se muestran los resultados del análisis ANOVA.
Puesto que para el estadístico F la Sig.  0,000 es menor que 0,05 rechazamos la hipótesis de
igualdad de medias y concluimos que las larvas alimentadas con dietas diferentes no poseen el
mismo porcentaje medio de supervivientes.
La siguiente tabla de comparaciones múltiples permite, una vez rechazada la hipótesis general
del ANOVA de que todas las medias son iguales, averiguar qué medias en concreto difieren de
qué otras.
Los grupos cuyas medias difieren significativamente al nivel 0,05 están marcados con un
asterisco. Puesto que hemos asumido varianzas poblacionales iguales (ver prueba de Levene
anterior), debemos prestar atención a la solución propuesta por el método (HSD) de Tukey.
Podemos concluir que sólo difieren significativamente los promedios comparados entre los
niveles 1,20 respecto a 0,15 y 0,50 de la v.i.; sin embargo no se han encontrado diferencias
significativas entre los niveles 0,15 y 0,5 de la Dieta. Por lo tanto, las larvas alimentadas con la
dieta con relación DHA/EPA=1,20 presentan una supervivencia media mayor que las
42
alimentadas con un nivel DHA/EPA=0,15 y 0,5. Entre estos dos últimos niveles no se han
obtenidas diferencias significativas en la supervivencia media de las larvas.
La última tabla muestra una clasificación de los grupos basada en el grado de parecido existente
entre sus medias. Debido que para nuestro caso se han encontrado diferencias significativas
entre uno de los grupos respecto a los otros dos, se han generado dos subconjuntos homogéneos
(uno para cada grupo) con sus correspondientes medias.
El primero incluye a los dos grupos entre los que no se han observado diferencias significativas
(niveles de la Dieta 0,5 y 0,15) y el segundo el nivel que difiere significativamente de los dos
anteriores (1,20).
Por último, se muestra el gráfico de medias donde podemos comprobar visualmente la tendencia
descrita por la supervivencia frente al tipo de dieta.
Claramente la supervivencia es mucho mayor con la dieta más rica en DHA/EPA.
3.4.1.5.
Supervivencia frente a Tª.
La tabla “Descriptivos” muestra, para cada grupo y para el total muestral, el número de casos,
la media, la desviación típica, el error típico de la media, los límites del intervalo de confianza
para la media al 95 % y los valores mínimo y máximo.
43
El siguiente cuadro muestra el análisis ANOVA en sí. El valor del estadístico F vale 2,930 y
puesto que su Sig.  0,073 es mayor que 0,05 aceptamos la hipótesis de igualdad de medias y
concluimos que las larvas mantenidas a temperaturas diferentes tienen la misma supervivencia
media.
.
Por lo tanto, el análisis ANOVA no ha encontrado diferencias significativas a un 0,05 entre la
supervivencia larvaria y la temperatura de cultivo. Observemos la gráfica de medias que se
muestra a continuación y que representa el porcentaje de supervivencia frente a las diferentes
temperaturas de cultivo.
Podemos comprobar visualmente una clara tendencia en la supervivencia, de forma que
disminuye a medida que la temperatura va en aumento. Sin embargo, este incremento no ha sido
estadísticamente significativo a nivel 0,05.
3.4.1.6.
Supervivencia frente a Densidad de cultivo.
La primera salida muestra los datos descriptivos para cada grupo y el total de la muestra:
número de casos, media, desviación típica, error típico, intervalo de confianza al 95% y los
valores mínimo y máximo.
44
El análisis ANOVA se muestra a continuación.
El valor del estadístico F vale 1,251 y puesto que su Sig.  0,304 es mayor que 0,05
aceptamos la hipótesis de igualdad de medias y concluimos que las larvas cultivadas a
densidades diferentes tienen la misma supervivencia media.
Por lo tanto, el análisis ANOVA no ha encontrado diferencias significativas a un nivel 0,05
entre la supervivencia larvaria y la densidad de cultivo. Observemos la gráfica de medias que se
muestra a continuación y que representa el porcentaje de supervivencia frente a las diferentes
densidades.
La línea muestra una tendencia constante a disminuir la supervivencia a medida que
aumentamos el número de larvas cultivadas por litro.
3.4.1.7.
Peso final frente a Dieta.
La primera tabla denominada “Descriptivos” muestra, para cada grupo y para el total muestral,
el número de casos, la media, la desviación típica, el error típico de la media, los límites del
intervalo de confianza para la media al 95 % y los valores mínimo y máximo.
A continuación, contrastamos la hipótesis de que las varianzas poblacionales son iguales
mediante el estadístico de Levene.
45
Como el nivel crítico del estadístico vale 0,000 y es menor que 0,05, debemos rechazar la
hipótesis de igualdad de varianzas y concluir que, en los grupos definidos por las tres dietas
diferentes, las varianzas de la variable “Peso final” no son iguales.
En la siguiente tabla se muestran los resultados del análisis ANOVA.
Puesto que para el estadístico F la Sig.  0,001 es menor que 0,05 rechazamos la hipótesis de
igualdad de medias y concluimos que las larvas alimentadas con dietas diferentes no tienen el
mismo peso medio final.
El cuadro de comparaciones múltiples permite, una vez rechazada la hipótesis general del
ANOVA de que todas las medias son iguales, averiguar qué medias en concreto difieren de qué
otras.
Los grupos cuyas medias difieren significativamente al nivel 0,05 están marcados con un
asterisco. Puesto que no podemos asumir varianzas poblacionales iguales (ver prueba de Levene
anterior), debemos prestar atención a la solución propuesta por el método Games-Howell.
Podemos concluir que sólo difieren significativamente los promedios comparados entre los
niveles 1,20 respecto a 0,15 de la v.i.; sin embargo no se han encontrado diferencias
significativas entre los niveles 0,15 frente a 0,5 y 0,5 frente a 1,20 de la Dieta. Por lo tanto, las
larvas alimentadas con la dieta con nivel DHA/EPA=1,20 presentan un peso medio al final del
experimento mayor que las alimentadas con un nivel DHA/EPA=0,15. Entre el nivel 0,5 y los
otros dos (0,15 y 1,20) no se han encontrado diferencias significativas en el peso medio final de
las larvas.
46
Por último, se muestra el gráfico de medias donde podemos comprobar visualmente la tendencia
mostrada por el peso final frente al tipo de dieta.
Claramente el peso medio se incrementa con la dieta, siendo mucho más marcado este aumento
en las larvas alimentadas con la dieta más rica en DHA/EPA.
3.4.1.8.
Peso final frente a Tª.
La primera salida es la tabla “Descriptivos”. Muestra, para cada grupo y para el total muestral,
el número de casos, la media, la desviación típica, el error típico de la media, los límites del
intervalo de confianza para la media al 95 % y los valores mínimo y máximo.
A continuación se obtiene el estadístico de Levene, el cual permite contrastar la hipótesis de que
las varianzas poblacionales son iguales.
Puesto que el nivel crítico del estadístico vale 0,001 es menor que 0,05, por lo que debemos
rechazar la hipótesis de igualdad de varianzas y concluir que, en los grupos de larvas cultivadas
a diferentes temperaturas, las varianzas de la variable “Peso final” no son iguales.
A continuación se muestra el cuadro del ANOVA. Puesto que F tiene Sig.  0,006 menor
que 0,05 rechazamos la hipótesis de igualdad de medias y concluimos que las larvas cultivadas
a diferente temperaturas no presentan el mismo peso medio final.
47
La siguiente tabla de comparaciones múltiples permite, una vez rechazada la hipótesis general
del ANOVA de que todas las medias son iguales, averiguar qué medias en concreto difieren de
qué otras.
Los grupos cuyas medias difieren significativamente al nivel 0,05 están marcados con un
asterisco. Puesto que no podemos asumir varianzas poblacionales iguales (ver resultado de la
prueba de Levene ), debemos prestar atención a la solución propuesta por el método propuesto
por Games-Howell. Podemos concluir que sólo difieren significativamente los promedios
comparados entre las temperaturas 22ºC respecto a 16ºC; sin embargo no se han encontrado
diferencias significativas entre las niveles 22ºC frente a 16ºC y 16ºC frente a 19ºC de la v.i. Por
lo tanto, las larvas cultivadas a 22ºC presentan un peso medio al final del experimento
significativamente mayor que las mantenidas a 16ºC. Entre los otros niveles no se han
encontrado diferencias significativas en el peso medio final de las larvas.
La última tabla muestra una clasificación de los grupos basada en el grado de parecido existente
entre sus medias. Debido que para nuestro caso sólo se han encontrado diferencias significativas
entre el primero y el último grupo de temperaturas, se han generado dos subconjuntos
homogéneos que contienen a las temperaturas 16ºC-19ºC y 19ºC-22ºC con sus correspondientes
medias.
Esta clasificación por subgrupos no está disponible con todos los procedimientos post-hoc y esta
es la razón por la cual, a pesar de que no podemos suponer que las varianzas poblacionales son
iguales, la clasificación en subgrupos homogéneos de la tabla anterior se ha realizado utilizando
el procedimiento de Tukey en lugar del de Games-Howell.
48
Observemos por último la gráfica de medias que se muestra a continuación y que representa el
peso final frente a las diferentes temperaturas de cultivo.
Podemos comprobar visualmente que el peso medio al final del experimento es mayor a medida
que aumentamos la temperatura, siendo este efecto significativo si comparamos los resultados
obtenidos entre 16ºC y 22ºC.
3.4.1.9.
Peso final frente a densidad de cultivo.
La primera salida muestra los datos descriptivos para cada grupo y el total de la muestra:
número de casos, media, desviación típica, error típico, intervalo de confianza al 95% y los
valores mínimo y máximo.
El análisis ANOVA se muestra a continuación. El valor del estadístico F vale 0,201 y puesto
que su Sig.  0,820 es mayor que 0,05 aceptamos la hipótesis de igualdad de medias y
concluimos que las larvas cultivadas a densidades diferentes tienen el mismo peso medio final.
Por lo tanto, el análisis ANOVA no ha encontrado diferencias significativas a un nivel 0,05
entre el peso final de las larvas y la densidad de cultivo a la que fueron sometidas.
49
Observemos, por lo tanto, la gráfica de medias que se muestra a continuación y que representa
el peso final frente a las diferentes densidades. Nos puede dar una idea de la tendencia general
del proceso.
Vemos que para este caso no diferenciamos un patrón claro de tendencia. El peso medio de las
larvas es mayor a densidad media (20 larvas/litro) respecto a los otros dos niveles. A pesar de
todo, estas diferencias son demasiado pequeñas y podemos considerar que el peso medio final
de las larvas cultivadas a diferentes densidades es prácticamente igual.
3.4.2. ANOVAs de dos factores.
Los modelos factoriales de análisis de varianza sirven para evaluar el efecto individual y
conjunto de dos o más factores sobre una variable dependiente cuantitativa. Utilizar más de un
factor en un mismo diseño posee la ventaja de poder estudiar el efecto que la interacción entre
ellos genera en la variable respuesta. En un modelo de dos factores, los efectos de interés son
tres: los dos efectos principales (uno por cada factor) y el efecto de la interacción entre ambos
factores.
En un análisis de varianza factorial existe una hipótesis nula por cada factor y por cada posible
combinación de factores:


La hipótesis nula referida a un factor afirma que las medias de las poblaciones definidas
por los niveles del factor son iguales.
La hipótesis referida al efecto de una interacción afirma que tal efecto es nulo.
Para contrastar estas hipótesis, el ANOVA factorial se sirve de estadísticos F basados en la
lógica ya expuesta en el apartado anterior al estudiar el modelo de un factor. Así pues, para cada
efecto existe una hipótesis y para cada hipótesis un estadístico F que permite contrastarla. Y al
igual que en el ANOVA de un factor, el nivel crítico asociado a cada estadístico F es quien nos
permite decidir si podemos mantener o debemos rechazar una hipótesis.
De modo similar a como ocurre en el ANOVA de un factor, en un ANOVA factorial se trabaja
con tantas poblaciones como casillas resultan de la combinación de todos los niveles de los
factores involucrados. Por ejemplo, en un ANOVA de dos factores, con 3 niveles en un factor y
3 en otro, trabajamos con las 3×3 = 9 poblaciones definidas por la combinación de niveles de
ambos factores. El modelo supone que esas 9 poblaciones son normales, que sus varianzas son
50
iguales y que las observaciones han sido aleatoriamente seleccionadas y que, por tanto, son
independientes entre sí.
Como en el apartado anterior ya hemos valorado los efectos individuales de cada uno de los
factores independientemente sólo comprobaremos si existe interacción entre los dos factores a
estudio y estimaremos el efecto que esta interacción genere en la variable respuesta.
3.4.2.1.
Deformes frente a Dieta y Tª.
La primera salida del programa es una tabla que muestra el nombre de las variables
independientes (factores), sus niveles, incluidas las etiquetas de los valores, y el número de
casos que hay en cada grupo.
La tabla resumen del ANOVA que se muestra a continuación (Pruebas de los efectos intersujetos) contiene la misma información que la tabla resumen del modelo de un factor: las
fuentes de variación, las sumas de cuadrados, los grados de libertad
cuadráticas, los estadísticos F y los niveles críticos
 Sig.
 gl  ,
las medias
asociados a cada estadístico F .
Pero, ahora, toda esa información está referida no sólo a un factor, sino a los tres efectos
presentes en un modelo de dos factores.
La fila “Modelo corregido” se refiere a todos los efectos del modelo tomados juntos (el efecto
de los dos factores, el de la interacción y el de la constante o intersección). El nivel crítico
asociado al estadístico F (p = 0,000 < 0,05) nos está diciendo que el modelo explica una parte
significativa de la variación observada en la variable dependiente (Porcentaje de deformes). El
valor de R 2  0, 723 , que se obtiene dividiendo la suma de cuadrados del Modelo corregido
entre la suma de cuadrados Total corregida, indica que los tres efectos incluidos en el modelo
(Dieta, Tª y Dieta*Tª) están explicando el 72,3 % de la varianza de la variable dependiente.
La fila Intersección informa sobre la constante del modelo. Esta constante forma parte del
modelo y es necesaria para obtener las estimaciones de las medias de cada casilla. Además,
51
permite contrastar, en el caso de que esto tenga sentido, la hipótesis de que la media total de la
variable dependiente vale cero en la población.
La dos filas siguientes recogen los efectos principales, es decir, los efectos individuales de los
dos factores incluidos en el modelo: Dieta y Tª. Los niveles críticos
 Sig.
indican que,
mientras los grupos definidos por la variable Dieta poseen porcentajes medios de larvas
 Sig.  0,000  0,05 , los porcentajes
larvas deformes definidos por la variable Tª no difieren  Sig.  0,127  0,05 .
deformes significativamente diferentes
medios de
La siguiente fila contiene la información que más nios interesa, que es el efecto de la interacción
entre Dieta y Tª. El estadístico F correspondiente a este efecto lleva asociado un nivel crítico
de 0,990, lo cual indica que la interacción Dieta-Tª no posee un efecto significativo sobre el
porcentaje de larvas deformes. Por lo tanto, el único efecto significativo es el generado por la
variable Dieta y que ya se ha descrito en el apartado anterior.
3.4.2.2.
Resto de ANOVAs de dos factores.
Si realizamos el mismo análisis para el resto de posibles combinaciones de las variables
independientes estudiados anteriormente obtendremos el mismo resultado de no existencia de
efecto significativo de la interacción de los factores sobre la respuesta (a excepción del Peso
final frente a Dieta y Tª). Las tablas resúmen de todos los posibles ANOVAs de dos factores,
excepto el indicado anteriormente, se mostrarán en conjunto para demostrar la no existencia de
interacción.
Deformes frente a Dieta y Densidad de cultivo.
Deformes frente a Densidad de cultivo y Tª.
52
Supervivencia frente a Dieta y Tª.
Supervivencia frente a Dieta y Densidad de cultivo.
Supervivencia frente a Densidad de cultivo y Tª.
Peso final frente a Dieta y Densidad de cultivo.
53
Peso final frente a Densidad de cultivo y Tª.
Como en todos los casos el valor del estadístico F asociado al efecto de la interacción entre las
dos variables independientes es mayor que 0,05 indica que dicha interacción no posee un efecto
significativo sobre la varaiable respuesta correspondiente.
3.4.2.3.
Peso final frente a Dieta y Tª.
Para este último caso haremos un análisis un poco más detallado. La tabla “Factores intersujetos” muestra el nombre de las variables independientes (factores), sus niveles, incluidas las
etiquetas de los valores, y el número de casos que hay en cada grupo.
La tabla resumen del ANOVA que se muestra a continuación contiene toda la información
referida a los tres efectos presentes en el modelo de dos factores.
La fila “Modelo corregido” se refiere a todos los efectos del modelo tomados juntos (el efecto
de los dos factores, el de la interacción y el de la constante o intersección). El nivel crítico
asociado al estadístico F (p = 0,000 < 0,05) nos está diciendo que el modelo explica una parte
significativa de la variación observada en la variable dependiente (Peso final). El valor tan alto
obtenido de R 2  0,956 indica que los tres efectos incluidos en el modelo (Dieta, Tª y
Dieta*Tª) están explicando el 95,6 % de la varianza de la variable dependiente.
54
La fila Intersección informa sobre la constante del modelo. Esta constante forma parte del
modelo y es necesaria para obtener las estimaciones de las medias de cada casilla.
La dos filas siguientes recogen los efectos principales, es decir, los efectos individuales de los
dos factores incluidos en el modelo: Dieta y Tª. Los niveles críticos  Sig. indican, como ya se
había observado en el ANOVA de un factor, que tanto los grupos definidos por la variable Dieta
como los definidos por la Tª poseen Pesos medios finales de larvas significativamente diferentes
 Sig.  0,000  0,05 .
La siguiente fila contiene la información que más nos interesa, que es el efecto de la interacción
entre Dieta y Tª. El estadístico F correspondiente a este efecto lleva asociado un nivel crítico
de 0,000, lo cual indica que la interacción Dieta-Tª ejerce un efecto significativo sobre el Peso
final de las larvas. Sólo con este dato, ya podemos anticipar que las diferencias en los pesos
medios que se dan entre las distintas Dietas no son las mismas en las tres temperaturas
consideradas.
Las comparaciones múltiples post hoc vistas en el apartado anterior suelen proporcionar toda la
información necesaria para poder interpretar correctamente un efecto principal significativo.
Pero no ocurre lo mismo con los efectos de las interacciones. La interpretación correcta de una
interacción suele requerir la ayuda de un gráfico de líneas o también llamado gráfico de perfil.
En un gráfico de perfil sobre la interacción entre dos factores el eje de ordenadas representa la
escala de las medias de la variable dependiente, el eje de abscisas los niveles del primer factor y
las líneas del gráfico representan los niveles del segundo factor. Para nuestro caso es gráfico de
líneas se muestra a continuación.
Una rápida inspección de las líneas nos pone en la pista del significado de esta interacción. En
principio, para la Tª de 16ºC, todas las dietas tienen un peso medio final de las larvas
prácticamente igual y próximo a 2 mg. Para la Tª de 19ºC las diferencias de peso final en los
peces alimentados con la Dieta 1,20 parecen significativas con respecto a las otras dos (0,15 y
0,5). Por último, para la Tª de 22ºC, las diferencias de peso final entre las tres dietas parecen
evidentes. Por tanto, las diferencias de Peso final entre los tres tipos de dieta parece no ser la
misma a lo largo de todas las temperaturas de cultivo.
55
Finalmente, la siguiente tabla resumen muestra todos los ANOVAs que se han llevado a cabo y
sus resultados.
Variables
Variables independientes
dependientes Dieta
Deformes
Supervivencia
Peso final
SÍ
ab/ac/bc
SÍ
ab/ac
Tª
NO
NO
SÍ
SÍ
ac
ac
Dens. Dieta+Tª Dieta+Dens.
SÍ
Dens.+Tª
NO
NO
NO
NO
NO
NO
NO
NO
SÍ
NO
NO
---
Dieta Tª
Dens.
0,15
16 10
0,50
19 20
1,20
22 40
a
b
c
En la columna de la izquierda aparecen las variables dependientes y en la primera línea
horizontal las independientes y sus combinaciones. Hemos identificado cada nivel de las
variables independientes como a, b y c de forma que cuando un ANOVA da significativo es
marcado en la correspondiente casilla con un SÍ. Debajo se incorpora el resultado de las
comparaciones múltiples que indican entre qué niveles de la variable existen diferencias
significativas. Un caso particular es el caso estudiado entre Deformes en función de la densidad
de cultivo. El ANOVA da significativo, mientras que las comparaciones múltiples no.
Finalmente comprobamos que el único ANOVA de dos factores que ha sido significativo es el
que ha enfrentado el Peso final a la Dieta y Tª.
56
4. Conclusiones.
Para conseguir responder las preguntas que nos hemos planteado al inicio de este trabajo, los
datos de partida han sido analizados utilizando varios métodos estadísticos que intentaron
predecir el comportamiento de las variables dependientes frente a los factores y, además, medir
la relación existente entre ellos.
Mediante la regresión lineal múltiple se ha intentado demostrar la existencia de una relación
entre el porcentaje de peces deformes en función de la Dieta, la Tª y la Densidad de cultivo. El
análisis de los datos ha concluido con la obtención de un modelo en el que han sido
incorporadas las tres variables independientes y excluida la constante.
Tomando D como el porcentaje de larvas deformes, E la dieta enriquecida suministrada, C la
densidad o concentración de cultivo y T la temperatura, nuestro modelo ha sido:
ˆ  12, 063E  0, 254C  0,889T
D
Todos los supuestos de validez del modelo (existencia de linealidad entre las variables, no
colinealidad, independencia, homocedasticidad y normalidad de los residuos) se han cumplido
2
sin excepciones; además, el valor de Rcorregido
 0,92 indica que el ajuste a nuestros datos ha
sido muy bueno.
 
El mayor efecto en la predicción del porcentaje de larvas con deformidades esqueléticas D̂ es
el asociado a la variable Dieta  E  con un 77,9%, mientras que las variables Densidad  C  y
Temperatura
T 
tienen un efecto más moderado aunque destacado del 46,8% y 32,2%
respectivamente. Además, podemos comprobar que la relación entre la dieta y la presencia de
individuos deformes es negativa, por lo que un aumento en la relación DHA/EPA provoca que
disminuyan los valores de la variable respuesta. Con las otras dos variables ocurre lo contrario.
Otra herramienta que nos ha ayudado a predecir la probabilidad de padecer deformidad (D)
esquelética en función de estas tres variables independientes ha sido mediante un modelo de
regresión logística de respuesta binomial con variables explicativas categóricas tratando
nuestras tres variables explicativas como factores cualitativos y utilizando el método parcial de
codificación respecto a la primera categoría.
El programa estima como más propicio un modelo de la forma
3
3
3
 pijk 
E
E
T
T
C
Lijk  ln 




X


X

 mC X km




0
m
im
m
jm
m2
m2
m2
1  pijk 
para explicar los datos observados, incorporando las tres variables explicativas. Al igual que el
modelo lineal de regresión ninguna de las tres variables es excluida del proceso.
Para medir la bondad de ajuste del modelo se realizó un test asintótico tradicional. Para la
validación del mismo se han analizado los residuos estandarizados de Pearson (son todos no
significativos) y para estudiar la significación estadística de los parámetros el test de Wald. Los
resultados obtenidos muestran que el modelo se ajusta bien tanto de forma general como dato a
57
dato y que sus parámetros son significativamente distintos de cero excepto los asociados a las
segundas categorías de las variables explicativas temperatura ( 2T ) y densidad de cultivo ( 2C ) .
Por lo tanto, nuestro modelo final quedó de la siguiente forma
 pijk 
P
P
P
P
P
P
C
C
C
C
Lijk  ln 
  0   2 X i 2   3 X i 3   4 X i 4   3 X i3   4 X i 4 .
1  pijk 
Los cocientes de ventajas muestran como las probabilidades de padecer deformidades aumentan
a temperaturas y densidades de cultivo elevadas, mientras que disminuyen al aumentar el
porcentaje DHA/EPA en la dieta. Estas mismas conclusiones se obtienen con la regresión lineal
múltiple anterior.
Por último se han realizado ANOVAs de uno y dos factores enfrentando nuestra variable
dependiente con los factores. Además, también se ha medido el efecto que producen la Dieta, Tª
y Densidad de cultivo sobre las otras dos variables dependientes a estudio: %Supervivencia y
Peso final. La siguiente tabla resumen contienen los resultados obtenidos en todos estos análisis.
Variables
Variables independientes
dependientes Dieta
Deformes
Supervivencia
Peso final
SÍ
ab/ac/bc
SÍ
ab/ac
Tª
NO
NO
SÍ
SÍ
ac
ac
Dens. Dieta+Tª Dieta+Dens.
SÍ
Dens.+Tª
NO
NO
NO
NO
NO
NO
NO
NO
SÍ
NO
NO
---
Dieta Tª
Dens.
0,15
16 10
0,50
19 20
1,20
22 40
a
b
c
En la columna de la izquierda aparecen las variables dependientes y en la primera fila las
independientes y sus combinaciones. Hemos identificado cada nivel de las variables
independientes como a, b y c de forma que cuando un ANOVA da significativo es marcado en
la correspondiente casilla con un SÍ. Debajo se incorpora el resultado de las comparaciones
múltiples que indican entre qué niveles de la variable existen diferencias significativas.
A diferencia de lo ocurido con las regresiones, al observar el porcentaje de deformes podemos
ver cómo el análisis excluye a la temperatura como factor que afecte significativamente sobre la
variable respuesta. Sólo Dieta y Densidad son significativos. Además, dentro de la Dieta se
observan diferencias significatvas en la respuesta entre cada uno de los niveles, de forma que
niveles más altos de DHA/EPA sugieren larvas con menor porcentaje de deformidades.
En el caso entre Deformes en función de la densidad de cultivo, el ANOVA da significativo
mientras que las comparaciones múltiples no encuentra diferencias significativas entre los
promedios comparados. Por lo tanto, no podemos afirmar que alguna de las densidades de
cultivo afecta significativamente sobre el porcentaje de larvas deformes. Observando los
gráficos de medias generados podemos sugerir cierta tendencia en el comportamiento de los
datos.
58
A medida que aumentan la Densidad y Tª tiende a hacerlo también el porcentaje medio de larvas
deformes.
Con respecto a la supervivencia sólo se observan diferencias significativas con respecto a la
Dieta. La relación DHA/EPA=0,15 genera una supervivencia significatvamente menor que con
los otros dos niveles de enriquecimiento. Además, no se observan diferencias signifcativas con
respecto a la Tª y Densidad de cultivo, sin embargo sus gráficas de medias sugieren una
disminución de la supervivencia al aumentar ambos factores.
Con el Peso final obtenemos diferencias significativas entre los valores extremos de las
variables Dieta y Tª. Una dieta rica en DHA/EPA (1,20) aumenta significativamente el peso
medio comparada con otra más pobre (0,15). Del mismo modo, una temperatura de cultivo de
22ºC muestra diferencias significativas en el peso final de las larvas comparadas con otras
mantenidas a 16ºC.
El único ANOVA de dos factores que ha sido significativo es el que ha enfrentado el Peso final
a la Dieta y Tª.
El siguiente gráfico de perfil muestra la interacción entre los dos facores. A 16ºC, todas las
dietas tienen un peso medio final de las larvas prácticamente igual y próximo a 2 mg. A 19ºC
las diferencias de peso final en los peces alimentados con la Dieta 1,20 parecen significativas
59
con respecto a las otras dos (0,15 y 0,5). Por último, a 22ºC, las diferencias de peso final entre
las tres dietas parecen evidentes.
Por lo tanto, las diferencias de Peso final entre los tres tipos de dieta parece no ser la misma a lo
largo de todas las temperaturas de cultivo.
Del estudio general de los resultados se concluye que, para el conjunto de datos de partida,
hemos encontrado dos modelos diferentes (RLM y regresión logística) que se han demostrado
muy buenos predictores del porcentaje de peces deformes en función de la Dieta, la Tª y la
Densidad de cultivo. Además, en conjunto con los ANOVAs, sugieren que la variable Dieta es
la que tiene un mayor efecto sobre la aparición de deformidades. Niveles altos de DHA/EPA
garantizan bajos niveles de malformaciones en los peces mientras que para las otras dos
variables no se han encontrado diferencias significativas sobre la respuesta.
La supervivencia y el peso final de las larvas se ven favorecidos significativamente por la Dieta,
y el peso final, también por la temperatura. Por lo tanto, los mejores crecimientos se obtienen
con dietas equilibradas ricas en DHA/EPA y a altas temperaturas.
Analizando estos resultados, a nivel empresarial, una buena estrategia de un criadero podría ser
promover cultivos larvarios a temperaturas y densidades medio-altas (no olvidemos que altas
densidades sugerían descensos en los rendimientos de las variables dependientes) con dietas
equilibradas ricas en DHA/EPA. Bajo estas condiciones hemos obtenido los mejores resultados
de crecimiento, supervivencia y porcentaje de peces deformes que son los principales
parámetros que se intenta optimizar en el proceso productivo de las piscifactorías.
60
Apéndice I. Tabla de datos.
General
DIETA
Tª
16
0,15
19
22
16
0,5
19
22
16
1,2
19
22
% DEFORMES
LONG. ΜEDIA (mm)
33,4
25,3
30,6
33,2
33,9
27,8
28,4
25,9
16,8
32,0
25,6
25,2
39,1
20,6
20,7
21,4
23,2
18,0
49,0
t0
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
4,5
t30
9,1
9
8,9
9,1
9,5
10
10,7
11,4
12,3
8,8
9,9
9,7
9,2
10,9
12,1
12,5
12,2
12,5
10,3
t60
14,1
13,9
14
14,5
16,4
18,5
17,5
17,3
18,1
13,8
17,1
17
15.1
21,6
19,9
25
24,8
24,5
16,5
PESO SECO (mg)
t0
t30
0,06
0,842
0,06
0,667
0,06
0,715
0,06
0,906
0,06
1,225
0,06
1,896
0,06
1,868
0,06
2,054
0,06
2,179
0,06
0,695
0,06
1,381
0,06
1,535
0,06
1,039
0,06
1,833
0,06
1,919
0,06
1,953
0,06
2,378
0,06
2,399
0,06
1,803
t60
2,007
2,218
1,884
2,149
2,302
3,051
2,558
2,973
3,228
1,85
2,361
2,447
2,922
5,13
3,279
5,856
6,562
7,473
2,548
93
52,6
4,5
9,8
17,9
0,06
1,465
3,251
90
48,1
4,5
9,5
17,2
0,06
1,41
2,649
5
95
42,5
4,5
11,5
25,6
0,06
1,83
8,467
9
91
47,0
4,5
11,9
27,4
0,06
2,264
9,223
40
12
88
34,4
4,5
11,2
26
0,06
2,015
7,688
10
10
90
36,2
4,5
12,7
27,7
0,06
2,846
9,479
20
10
90
33,1
4,5
12,7
29,5
0,06
2,757
12,635
40
15
85
29,0
4,5
12,5
28,6
0,06
2,194
11,147
DENSIDAD
10
20
40
10
20
40
10
20
40
10
20
40
10
20
40
10
20
40
10
D1
17
19
24
19
17
27
20
22
34
11
12
18
15
16
19
17
17
26
5
D0
83
81
76
81
83
73
80
78
66
89
88
82
85
84
81
83
83
74
95
20
7
40
10
10
20
%SUPERV
61
“Deformes”. Datos para la regresión
logística en R.
Datos para estudio descriptivo, regresión lineal
y ANOVAs en SPSS.
62
Apéndice II. Sintaxis utilizadas en SPSS.
Sintaxis del estudio descriptivo de las variables.
Variables independientes: Dieta, Tª y Densidad de cultivo.
DESCRIPTIVES
VARIABLES=Dieta Tª Densidad
/STATISTICS=MEAN STDDEV VARIANCE RANGE MIN MAX KURTOSIS SKEWNESS.
Variable dependiente: Deformes.
EXAMINE
VARIABLES=PorcentajeDeformes
/PLOT NONE
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Variable dependiente: Supervivencia.
EXAMINE
VARIABLES=PorcentajeSuperv
/PLOT NONE
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Variable dependiente: Peso final.
EXAMINE
VARIABLES=Pesof
/PLOT NONE
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Sintaxis regresión lineal múltiple.
Gráficas de dispersión.
GRAPH
/SCATTERPLOT(BIVAR)=Dieta WITH PorcentajeDeformes
/MISSING=LISTWISE.
GRAPH
/SCATTERPLOT(BIVAR)=Tª WITH PorcentajeDeformes
/MISSING=LISTWISE.
63
GRAPH
/SCATTERPLOT(BIVAR)=Densidad WITH PorcentajeDeformes
/MISSING=LISTWISE.
Prueba de normalidad de las variables.
EXAMINE
/VARIABLES=PorcentajeDeformes Dieta Tª Densidad
/PLOT NPPLOT
/STATISTICS NONE
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Regresión lineal múltiple (stepwise).
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA COLLIN TOL CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT PorcentajeDeformes
/METHOD=STEPWISE Dieta Tª Densidad
/SCATTERPLOT=(*ZPRED ,PorcentajeDeformes )
/RESIDUALS DURBIN HIST(ZRESID) NORM(ZRESID).
Gráficos Q-Q con pruebas de normalidad (K-S y S-W) para los residuos estandarizados.
EXAMINE
VARIABLES=ZRE_1
/PLOT NPPLOT
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Sintaxis ANOVAs.
ANOVAs de un factor.
Porcentaje de deformes frente a Dieta.
ONEWAY
PorcentajeDeformes BY Dieta
/STATISTICS DESCRIPTIVES HOMOGENEITY
/PLOT MEANS
/MISSING ANALYSIS
/POSTHOC = TUKEY GH ALPHA(.05).
64
Porcentaje de deformes frente a Tª.
ONEWAY
PorcentajeDeformes BY Tª
/STATISTICS DESCRIPTIVES
/PLOT MEANS
/MISSING ANALYSIS.
Porcentaje de deformes frente a Densidad de cultivo.
ONEWAY
PorcentajeDeformes BY Densidad
/STATISTICS DESCRIPTIVES HOMOGENEITY
/PLOT MEANS
/MISSING ANALYSIS
/POSTHOC = TUKEY GH ALPHA(.05).
Supervivencia (%) frente a Dieta.
ONEWAY
PorcentajeSuperv BY Dieta
/STATISTICS DESCRIPTIVES HOMOGENEITY
/PLOT MEANS
/MISSING ANALYSIS
/POSTHOC = TUKEY GH ALPHA(.05).
Supervivencia (%) frente a Tª.
ONEWAY
PorcentajeSuperv BY Tª
/STATISTICS DESCRIPTIVES
/PLOT MEANS
/MISSING ANALYSIS.
Supervivencia (%) frente a Densidad de cultivo.
ONEWAY
PorcentajeSuperv BY Densidad
/STATISTICS DESCRIPTIVES
/PLOT MEANS
/MISSING ANALYSIS.
Peso final frente a Dieta.
ONEWAY
Pesof BY Dieta
/STATISTICS DESCRIPTIVES HOMOGENEITY
/PLOT MEANS
/MISSING ANALYSIS
/POSTHOC = TUKEY GH ALPHA(.05).
65
Peso final frente a Tª.
ONEWAY
Pesof BY Tª
/STATISTICS DESCRIPTIVES HOMOGENEITY
/PLOT MEANS
/MISSING ANALYSIS
/POSTHOC = TUKEY GH ALPHA(.05).
Peso final frente a Densidad de cultivo.
ONEWAY
Pesof BY Densidad
/STATISTICS DESCRIPTIVES
/PLOT MEANS
/MISSING ANALYSIS.
ANOVAs de dos factores.
Porcentaje de deformes frente a Dieta y Tª.
UNIANOVA
PorcentajeDeformes BY Dieta Tª
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/ PLOT = PROFILE( Dieta*Tª )
/CRITERIA = ALPHA(.05)
/DESIGN = Dieta Tª Dieta*Tª.
Porcentaje de deformes frente a Dieta y Densidad de cultivo.
UNIANOVA
PorcentajeDeformes BY Dieta Densidad
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/PLOT = PROFILE( Dieta*Densidad )
/CRITERIA = ALPHA(.05)
/DESIGN = Dieta Densidad Dieta*Densidad.
Porcentaje de deformes frente a Densidad y Tª.
UNIANOVA
PorcentajeDeformes BY Densidad Tª
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/PLOT = PROFILE( Densidad*Tª )
/CRITERIA = ALPHA(.05)
/DESIGN = Densidad Tª Densidad*Tª.
66
Supervivencia frente a Dieta y Tª.
UNIANOVA
PorcentajeSuperv BY Dieta Tª
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/CRITERIA = ALPHA(.05)
/DESIGN = Dieta Tª Dieta*Tª.
Supervivencia frente a Dieta y Densidad de cultivo.
UNIANOVA
PorcentajeSuperv BY Dieta Densidad
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/CRITERIA = ALPHA(.05)
/DESIGN = Dieta Densidad Dieta*Densidad.
Supervivencia frente a Densidad de cultivo y Tª.
UNIANOVA
PorcentajeSuperv BY Densidad Tª
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/CRITERIA = ALPHA(.05)
/DESIGN = Densidad Tª Densidad*Tª.
Peso final frente a Dieta y Densidad de cultivo.
UNIANOVA
Pesof BY Dieta Densidad
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/CRITERIA = ALPHA(.05)
/DESIGN = Dieta Densidad Dieta*Densidad.
Peso final frente a Densidad de cultivo y Tª.
UNIANOVA
Pesof BY Densidad Tª
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/CRITERIA = ALPHA(.05)
/DESIGN = Densidad Tª Densidad*Tª.
Peso final frente a Dieta y Tª.
UNIANOVA
Pesof BY Dieta Tª
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/PLOT = PROFILE( Tª*Dieta )
/CRITERIA = ALPHA(.05)
/DESIGN = Dieta Tª Dieta*Tª.
67
Apéndice III. Funciones y Script de la regresión logística en R.
Funciones.
contrasts(x, contrasts = TRUE, sparse = FALSE)
Descripción: Ajusta y muestra los contrastes asociados a un factor.
Argumentos:
x
contrasts
sparse
Un factor o variable lógica.
Muestra ‘Detalles’
Indica si el resultado debería ser disperso usando el pack Matrix.
glm(formula, family = gaussian, data, weights, subset,
na.action, start = NULL, etastart, mustart, offset,
control = list(...), model = TRUE, method = "glm.fit",
x = FALSE, y = TRUE, contrasts = NULL, ...)
Descripción: se usa para ajustar modelos generalizados lineales proporcionando una
descripción simbólica del predictor lineal y del error de la distribución.
Argumentos más importantes:
formula
family
data
Descripción simbólica del modelo que queremos ajustar.
Descripción del tipo de función de distribución que será usada pata
obtener el modelo.
conjunto de datos que queros ajustar.
step(object, scope, scale = 0,direction = c("both", "backward",
"forward"),trace = 1, keep = NULL, steps = 1000, k = 2, ...)
Descripción: selecciona la fórmula del modelo base utilizando el criterio de Akaike.
Argumentos más importantes:
object
scope
direction
Un objeto representando un modelo de la clase adecuada que será usado
como modelo inicialen la búsqueda del stepwise.
Define los modelos inicial y final deseados mediante fórmulas de R. Se
trata de una lista con un elemento lower y otro upper.
Indica la dirección de la búsqueda en el proceso stepwise.
anova(object, ...)
Descripción: Aplica el análisis de varianza a uno o más modelos ajustados.
Confint.default(object, parm, level = 0.95, ...)
Descripción: Computa el intervalo de confianza para uno o más parámetros de un modelo
ajustado, asumiendo normalidad asintótica.
68
fitted.values(object, ...)
Descripción: extrae los valores ajustados de un modelo obtenido por su función
correspondiente.
Predict.glm(object, newdata = NULL,
type = c("link", "response", "terms"),
se.fit = FALSE, dispersion = NULL, terms = NULL,
na.action = na.pass, ...)
Descripción: obtiene los valores predichos y los errores standard opcionales de un modelo
ajustado mediante la función glm descrita anteriormente.
Argumentos más importantes:
newdata
type
Donde se indica un nuevo Data-Frame con las observaciones a predecir
con sus respectivis valores en las variables explicativas.
Donde se indica que calcule las probabilidades predichas (“response”),
el predictor (“link”) o los valores coreo o uno de la respuesta (“terms”).
Rstandard(model, ...)
hatvalues(model, ...)
cooks.distance(model, ...)
Descripción: Computan diferentes medidas de influencia para el diagnóstico del modelo
ajustado.
69
Script de R.
#Lectura de datos guardados en carpeta en la unidad C. Nombre = Deformes.txt
Deformes<-read.table("C:\\Datos\\Deformes.txt",header=T,sep="
")
#Para visualizar los datos
Deformes
#Comprobación método parcial de codificación.
contrasts(Deformes$Dieta)
contrasts(Deformes$Tª)
contrasts(Deformes$Dens)
#Para seleccionar y ajustar el MRL más adecuado. Selección de variables STEPWISE
Ajuste.Deformes.0<-glm(cbind(D1,D0)~1,family=binomial,data=Deformes)
Ajuste.Deformes.step<-step(Ajuste.Deformes.0,scope=list(lower=cbind(D1,D0)~1,
upper=cbind(D1,D0)~Dieta+Tª+Dens),direction="both")
#Resúmenes del proceso.
anova(Ajuste.Deformes.step)
summary(Ajuste.Deformes.step)
summary(Ajuste.Deformes.step)$coefficients
#ESTUDIO BONDAD DE AJUSTE
1-pchisq(3.4857,20)
#COCIENTES DE VENTAJAS
#Tabla resumen de los coeficientes con significación estadística (Pr>|z|)
summary(Ajuste.Deformes.step)$coefficients
#Exponencial de los parametros
exp(summary(Ajuste.Deformes.step)$coefficients[2,1])
exp(summary(Ajuste.Deformes.step)$coefficients[3,1])
exp(summary(Ajuste.Deformes.step)$coefficients[4,1])
exp(summary(Ajuste.Deformes.step)$coefficients[5,1])
exp(summary(Ajuste.Deformes.step)$coefficients[6,1])
70
exp(summary(Ajuste.Deformes.step)$coefficients[7,1])
exp((Ajuste.Deformes.step$coefficients))
#IC de los parametros al 95%
exp(confint.default(Ajuste.Deformes.step))
#VALIDACIÓN DEL MODELO
Validacion.Deformes<-data.frame(Deformes$Dieta,Deformes$Tª,Deformes$Dens,
Deformes$D1,Deformes$D0,
Deformes$D1/(Deformes$D1+Deformes$D0),
fitted.values(Ajuste.Deformes.step),
predict.glm(Ajuste.Deformes.step,type="response",se.fit=T)[[2]],
rstandard(Ajuste.Deformes.step,type="pearson"),
rstandard(Ajuste.Deformes.step,type="deviance"),
predict.glm(Ajuste.Deformes.step,type="link"),
hatvalues(Ajuste.Deformes.step),
2*cooks.distance(Ajuste.Deformes.step,type="deviance"))
names(Validacion.Deformes)<-c("Dieta","Tª","Dens","D1","D0","P.Obs","P.Esp",
"S.E","Res.Pear","Res.Dev","Lq","Lev","Cooks")
Validacion.Deformes
71
Referencias bibliográficas.
Agresti, A. (2002). Categorical Data Analysis (2da ed.). New York: Wiley.
Agresti, A. (2007). An Introduction to Categorical Data Analysis. (2da ed.). New York: Wiley.
Andrades, J. A., Becerra, J., Fernández-Llebrez, P. (1996). Skeletal deformities in larval,
juvenile and adult stages of cultured gilthead sea bream (Sparus aurata L.) Aquaculture,
141, 1-11.
Bell, J. G., McEvoy, L. A. Estévez, A., Shields, R. J. Sargent, J. R. (2003). Optimising lipid
nutrition in first-feeding flatfish larvae. Aquaculture, 227, 211-220.
Cahu, C., Zambonino-Infante, J. L., Takenchi, T. (2003). Nutritional components affecting
skeletal development in fish larvae. Aquaculture, 227: 245-258.
Green, P., Silverman, B. (1994). Nonparametric Regression and Generalized Linear Models:
Chapman & Hall.
Hair, J. F., Anderson, R. E., Tathan, R. L., Black, W. C. (1999). Análisis Multivariante (5ta ed.):
Prentice Hall.
Lloyd, C. (1999). Statistical Analysis of Categorical Data. New York: Wiley.
Montanero-Fernández, J. (2008). Análisis Multivariante: Universidad de Extremadura.
Pérez, C. (2004). Técnicas de Análisis Multivariante de Datos. Aplicaciones con SPSS. Madrid:
Prentice Hall.
Rodríguez G. (2001). Introducing R. Princeton University. Obtenida el 2 de febrero de 2014, de
http://data.princeton.edu/R/introducingR.pdf.
Roo, J., Socorro, J., Izquierdo, M. S. (2010). Effect of rearing techniques on skeletal deformities
and osteological development in red porgy Pagrus pagrus (Lineaeus, 1758) larvae. Journal
of Applied Ichthyology, 26, 372-376.
Santner, T. J. and Duffy, D. E.
Springer.
(1989). The Statistical Analysis of Discrete Data. Berlín:
Searcy-Bernal R. (1994). Statistical power and aqualcultural research. Aquaculture, 127, 371388.
Sfakianakis, D. G., Koumoundouros, G., Divanach, P. & Kentouri, M. (2004). Osteological
develop-ment of the vertebral column and of the fins in Pagellus erythrinus (L. 1758).
Temperature effect on the developmental plasticity and morpho-anatomical abnormalities.
Aquaculture 232, 407-424.
Simonoff. J. S. (2003). Analizing Categorical Data. New York: Springer.
Thompson, L.A. (2007). S-PLUS (and R) Manual to Acompany Agresti’s Categorical Data
Analysis
(2002).
Obtenida
el
2
de
febrero
de
2014,
de
https://home.comcast.net/~lthompson221/Splusdiscrete2.pdf.
Zar, J. H. (1996). Bio-Statistical Analysis: Prentice Hall.
72
Descargar