Análisis de un diseño Línea x Probador utilizando “R” Contenido 1. Anexo: Modelo de Libro de Campo del diseño (LinexTester1.xls) 2. Sentencias para bajar el Programa “R” 3. Procedimientos y Sentencias para analizar el diseño Línea x Probador utilizando “R”: A. Instalación del Programa “R” v.2.10.0 1. Bajar R de http://www.r-project.org/ 2. Seleccionar CRAN del menú “Download, Packages” 3. Seleccionar un país Seleccionar Windows (El programa funciona con Windows ’95 y versiones posteriores) 5. Seleccionar base 4. 1 6. Seleccionar Download R 2.10.0 for Windows 7. Una ventana le preguntará si desea almacenar (save) o correr (run) el archive R. Seleccionar “Save” y almacenarlo en sus Archivos de Programas (Program Files) (Esto tomará 8 o más minutos, dependiendo de su computador) 8. Una vez culminado el proceso de bajar el programa, le preguntará para corer (RUN), abrir la carpeta (OPEN FOLDER) o cerrarlo (CLOSE). Por favor, seleccionar “Run” para ejecutar el programa bajado. 2 9. La consola del “R” se abrirá para Usted. Deberá cerrar el programa hacienda click con el mouse en la opción “File” del menú y seleccionando “Exit” B. Instalación de paquetes en el programa “R”. Usted necesitará al menos dos paquetes del “R”, el “Agricolae” para realizar análisis estadísticos, por ejemplo el “Línea x Probador” y el RODBC para realizar la lectura de sus datos procedentes de cualquier programa, tal como Excel. Bien hagámoslo… 3 1. Haciendo doble click con el mouse en el ícono de R abrir el programa. 2. Del menu, hacer click en “Packages” (Paquetes, en español) y seleccionar la opción “Install package (s)..” (Instalar Paquete (s) , en español) 3. Una ventana aparecerá para que Usted seleccione un país depositario. Seleccionar un país del cual Usted desea bajar el paquete. Ejemplo: Argentina. Usted preferirá seleccionar uno cercano a su país. 4 4. Enseguida, luego de seleccionar el país, una ventana aparecerá en su consola de R mostrándole la lista de paquetes. Seleccione “agricolae” y haga click en OK 5. En su consola de R aparecerá un mensaje notificándole que el paquete fue instalado satisfactoriamente > utils: : :menuInstallPkgs() trying URL 'http://cran.patan.com.ar/bin/windows/contrib/2.10/RODBC_1.31.zip' Content type 'application/zip' length 664454 bytes (648 Kb) opened URL downloaded 648 Kb package 'agricolae' successfully unpacked and MD5 sums checked The downloaded packages are in C:\Documents and Settings\emihovilovich\Local Settings\Temp\RtmpXDrKnl\downloaded_packages 6. Ahora, vaya nuevamente al menu del programa, haga click en “Packages” otra vez y seleccione nuevamente la opción “Install package (s)..” (esta vez Usted bajará el paquete “ROBDC” necesario para la lectura de sus datos desde cualquier programa). Desde que Usted ya se encuentra conectado a un país depositario, la lista de Paquetes aparecerá inmediatamente. Por favor, seleccione “ROBDC” y haga click en OK 5 Usted tiene ahora los paquetes “agricolae” and “ROBDC” disponibles en “ R”en su computador . Usted no requerirá más instalarlos, sino simplemente llamarlos, como se le explicará mas adelante . Ahora, sélo tiene que cerrar el programa “R” seleccionando “File” y la opción “Exit” dentro del menu “File”. C. Preparación de sus datos en “Excel” para que puedan ser cargados en “R” 1. Prepare sus datos en un archivo de “Excel”. A Usted se le proporcionará un archivo de excel con nombre “LinexTester1.xls” como Demo que contendrá 92 observaciones con las siguientes 4 variables: replication (4 repeticiones) , line (5 líneas) , tester (3 probadores) y yield ( variable a analizar: rendimiento ). Terminando los datos de las cruzas (Figura 1) , siguen los datos de los progenitores (Figura 2). Si éstos son líneas estarán en la columna de “line”, y el dato correspondiente a tester aparecerá como “NA” (no definido),y luego continuará con el dato de esa línea para la variable “yield” (rendimiento de la línea). Si los progenitores corresponden a probadores, estos aparecerán terminada las filas de las líneas, en la columna de “tester” (probadores) y el dato de “line” de cada uno de éstos estarán llenos con “NA” (no definido) , y luego continúa con su dato correspondinete a “yield” (rendimiento del probador) 6 Figura 1. Datos en excel “LinexTester1.xls” 7 replicationline 1 LT-8 2 LT-8 3 LT-8 4 LT-8 1 LT-8 2 LT-8 3 LT-8 4 LT-8 1 LT-8 2 LT-8 3 LT-8 4 LT-8 1 Serrana 2 Serrana 3 Serrana 4 Serrana 1 Serrana 2 Serrana 3 Serrana 4 Serrana 1 Serrana 2 Serrana 3 Serrana 4 Serrana 1 MF-1 2 MF-1 3 MF-1 4 MF-1 1 MF-1 2 MF-1 3 MF-1 4 MF-1 1 MF-1 2 MF-1 3 MF-1 4 MF-1 1 TPS-2 2 TPS-2 3 TPS-2 4 TPS-2 1 TPS-2 2 TPS-2 3 TPS-2 4 TPS-2 1 TPS-2 2 TPS-2 3 TPS-2 4 TPS-2 1 C93.154 2 C93.154 3 C93.154 4 C93.154 1 C93.154 2 C93.154 3 C93.154 4 C93.154 1 C93.154 2 C93.154 3 C93.154 4 C93.154 tester yield TS-15 74.4 TS-15 70.86 TS-15 60.94 TS-15 68 Costanera 91.82 Costanera 99.18 Costanera 118.88 Costanera 120.68 Tacna 48.08 Tacna 62.1 Tacna 58.54 Tacna 41.84 TS-15 59.06 TS-15 65.62 TS-15 81.62 TS-15 86.76 Costanera 84.16 Costanera 109.74 Costanera 102.14 Costanera 94.52 Tacna 96.92 Tacna 91.44 Tacna 79.86 Tacna 74.38 TS-15 109.86 TS-15 98.16 TS-15 93.26 TS-15 102.26 Costanera 117.2 Costanera 100.28 Costanera 116.16 Costanera 112.52 Tacna 109.68 Tacna 116.48 Tacna 123.92 Tacna 120.86 TS-15 103.14 TS-15 109.66 TS-15 90.98 TS-15 119.4 Costanera 53.4 Costanera 60.86 Costanera 74.46 Costanera 69.08 Tacna 53.86 Tacna 48.3 Tacna 40.64 Tacna 44.62 TS-15 98.46 TS-15 73.1 TS-15 89.18 TS-15 75.86 Costanera 81.36 Costanera 72.82 Costanera 89.82 Costanera 83.74 Tacna 86.62 Tacna 94.18 Tacna 90.32 Tacna 108.16 Figura 2. Datos en excel “LinexTester1.xls” replicationline 1 LT-8 2 LT-8 3 LT-8 4 LT-8 1 Serrana 2 Serrana 3 Serrana 4 Serrana 1 MF-1 2 MF-1 3 MF-1 4 MF-1 1 TPS-2 2 TPS-2 3 TPS-2 4 TPS-2 1 C93.154 2 C93.154 3 C93.154 4 C93.154 1 NA 2 NA 3 NA 4 NA 1 NA 2 NA 3 NA 4 NA 1 NA 2 NA 3 NA 4 NA tester yield NA 104.86 NA 84.32 NA 76.92 NA 76.48 NA 88.02 NA 106.54 NA 89.82 NA 108.68 NA 77.94 NA 71.34 NA 77.52 NA 69.48 NA 80.82 NA 106.52 NA 83.28 NA 95.92 NA 59.96 NA 52.48 NA 52.98 NA 50.98 TS-15 96.44 TS-15 98.82 TS-15 99.14 TS-15 107.16 Costanera 91.44 Costanera 99.66 Costanera 83.28 Costanera 89.46 Tacna 91.78 Tacna 84.82 Tacna 69.92 Tacna 81.48 2. Abra el archivo excel proporcionado, una vez que lo haya grabado en su computador. Recuerde la ruta y el directorio donde lo ha almacenado. Una vez abierto, con el mouse seleccione todos los datos y asígneles el nombre DATA a la selección en el casillero que se muestra en la ventana a continuación 8 3. Salve o grabe el archivo nuevamente. Recuerde la ruta y directorio donde grabó el archivo en su computador D. Analizando el diseño Línea x Probador utilizando el “R” 1. Haciendo doble click con el mouse en el ícono del “R” programa 9 abra el 2. Seleccione el directorio donde trabajará. (Este deberá ser el directorio donde se encuentran sus datos en el archivo excel, y sera el mismo lugar donde almacenará sus resultados). Pasos a seguir: 1) Seleccione “Change dir …” del menu “File” 2) Busque y seleccione el directorio donde almacenó su archivo de datos y haga click en OK . (Usted habrá cambiado el directorio al lugar donde se encuentran sus datos ) 3) Para confirmar este procedimiento, tipee o escriba: dir() en la consola del “R” y presione la tecla ‘enter’. Usted verá el nombre de su archivo de datos en la lista. El ejemplo muestra el archivo de datos “LinexTester1.xls” 10 4) Tipee en la consola los siguientes comandos (solo aquellos que aparecen en color azul) para realizar el análisis “Line x Tester” (“Línea x Probador”). Luego de cada sentencia o commando presione la tecla “Enter”, para que cada una de éstas se ejecute. > library(agricolae) (para cargar el paquete estadístico “agricolae” ya almacenado en su computador, el que requerirá para realizar el análisis) > library(RODBC) (para cargar el paquete de lectura de datos también almacenado en su computador, el que requerirá para la lectura de sus datos en Excel). > canal <- odbcConnectExcel("LinexTester1.xls") (crea el objeto “canal” que conecta el “R” con sus archivos de datos ) Use el signo “<” y un guión “-“ para crear la flecha de conexión. > A<- sqlFetch(canal,"DATA") (“R” lee los datos que Usted seleccionó en su archivo excel asignándole el nombre de “DATA” y les asigna un nombre . En este caso, les asigna el nombre “A” . Usted puede usar cualquier otra letra mayúscula o el nombre que desee. > odbcCloseAll() (Debido a que sus datos ya han sido cargados en el “R” , este comando desconecta el “R” de su archivo de datos en Excel). Esto le permite abrir su archivo excel sin perjudicar lo que está realizando en el “R”. Sin embargo 11 los cambios que le haga, ya no los usará el “R” , a menos que vuelva a conectar sus datos repitiendo los pasos desde > canal <- odbcConnectExcel("LinexTester1.xls") > attach(A) (sus datos son adjuntados al “R”). Esto significa que cuando analice una variable , por ejemplo , “yield” (rendimiento), los datos serán buscados por el “R”. De esta manera, podrá acceder a los objetos en la base de datos simplemente dándoles sus nombres correspondientes. Por ejemplo los nombres “replication”, “line” , “tester”, “yield” en el caso del archivo de datos en Excel “ LinexTester1.xls”. > model <- lineXtester(replication, line, tester, yield) Esta sentencia crea el objeto “model” ( usted le puede colocar el nombre que desee), donde se almacenará el análisis línea x probador. Luego de la flecha se coloca el modelo lineXtester. Observe que los nombres de los encabezamientos de su base de datos se han escrito en el modelo para que “R” accede a ellos e identifique la información . El análisis de variancia, incluyendo a los progenitores, el análisis de variancia para el línea x probador, la estimación de los efectos de habilidad combinatoria general y específica , los errores estándares de los efectos, los componentes genéticos de variancia, y las contribuciones de las líneas, probadores y sus interacciones a la variancia total son proporcionados con esta sola sentencia. Estos resultados aparecerán inmediatamente en la consola del “R” Los resultados en la Figura 3 muestran para el análisis de variancia con progenitores y cruzas , diferencias altamente significativas para los tratamientos (cruzas y progenitores) , entre los progenitores (líneas y probadores) y entre las cruzas. La significación de la comparación entre progenitores y cruzas indica la presencia de heterosis. Habiendo resultado las cruzas altamente significativas, éstas se dividen en Líneas , Probadores, y Líneas x Probadores ,(ver Análisis de Variancia para Línea x Probador) resultando Líneas x Probadores altamente significativa . El siguiente ANVA para línea x probador , incluyendo los progenitores es solo la union de los dos primeros ANVA En la figura 4 se muestran los efectos de Habilidad Combinatoria General (HCG) de las líneas y los probadores , de habilidad combinatoria específica de las cruzas (HCE) y los errores estándar para determinar la significación de estos valores y de las comparaciones . 12 Figura 3. Análisis de Variancia del Línea x Probador > model <- lineXtester(replication, line, tester, yield) ANALYSIS LINE x TESTER: yield ANOVA with parents and crosses ============================== Df Sum Sq Mean Sq F value Pr(>F) Replications 3 83.00012 27.66671 0.304 0.8224 Treatments 22 32553.20239 1479.69102 16.249 0.0000 Parents 7 6299.88519 899.98360 9.883 0.0000 Parents vs. Crosses 1 53.66287 53.66287 0.589 0.4455 Crosses 14 26199.65433 1871.40388 20.551 0.0000 Error 66 6010.03298 91.06111 Total 91 38646.23549 ANOVA for line X tester analysis ================================ Df Sum Sq Mean Sq F value Pr(>F) Lines 4 10318.361 2579.59035 1.457 0.3009 Testers 2 1718.926 859.46289 0.485 0.6327 Lines X Testers 8 14162.367 1770.29589 19.441 0.0000 Error 66 6010.033 91.06111 ANOVA for line X tester analysis including parents ================================================== Df Sum Sq Mean Sq F value Replications 3 83.00012 27.66671 0.304 Treatments 22 32553.20239 1479.69102 16.249 Parents 7 6299.88519 899.98360 9.883 Parents vs. Crosses 1 53.66287 53.66287 0.589 Crosses 14 26199.65433 1871.40388 20.551 Lines 4 10318.36140 2579.59035 1.457 Testers 2 1718.92577 859.46289 0.485 Lines X Testers 8 14162.36716 1770.29589 19.441 Error 66 6010.03298 91.06111 Total 91 38646.23549 Grados de libertad del error 13 Pr(>F) 0.8224 0.0000 0.0000 0.4455 0.0000 0.3009 0.6327 0.0000 Figure 4 Efectos de Habilidad Combinatoria General y Específica GCA Effects: =========== Lines Effects: C93.154 LT-8 0.732 -9.960 MF-1 Serrana TPS-2 23.817 -0.718 -13.870 Testers Effects: Costanera Tacna 6.404 -6.697 TS-15 0.292 SCA Effects: =========== Testers Lines Costanera Tacna TS-15 C93.154 -11.438 14.548 -3.111 LT-8 24.959 -16.940 -8.019 MF-1 -4.918 14.378 -9.461 Serrana 5.717 6.828 -12.546 TPS-2 -14.321 -18.815 33.136 Standard Errors for Combining Ability Effects: ============================================= S.E. (gca for line) : 2.75471 Error Estandar de Líneas S.E. (gca for tester) : 2.133789 S.E. (sca effect) : 4.771297 Error Estandar de la diferencia S.E. (gi - gj)line : 3.895748 entre dos Líneas S.E. (gi - gj)tester : 3.017633 S.E. (sij - skl)tester: 6.747633 Genetic Components: ================== Cov H.S. (line) : 67.4412 Cov H.S. (tester) : -45.54165 Cov H.S. (average): 2.680894 Cov F.S. (average): 411.3472 F = 0, Aditive genetic variance : F = 1, Aditive genetic variance : F = 0, Variance due to Dominance: F = 1, Variance due to Dominance: 42.8943 10.72357 1679.235 419.8087 Proportional contribution of lines, testers and their interactions to total variance =========================================== Contributions of lines : 39.38358 Contributions of testers: 6.560872 Contributions of lxt : 54.05555 14 En la figura 4 , se puede ver que la línea con más alta HCG es MF-1 con un efecto igual a 23.817. Al error estándar de HCG de líneas que es igual a 2.75 hay que multiplicarlo por el valor de t-student, buscado en una tabla t-student para 66 grados de libertad del error y un valor de significación (α) de 0.025 (porque es una prueba de dos colas) . Este es igual a 1.99 . Por lo tanto 1.99 x 2.75= 5.47. Si al valor de HCG de MF-1 le restamos o sumamos el 4.59 , es decir 23.817 ±4.59 , el intervalo de confianza de este valor sería 18.347 y 29.287. Debido a que en el intervalo construido no está el valor “0” se puede concluir que la línea MF-1 presenta una HCG altamente significativa, o significativamente diferente de cero . Por el contrario, si realizamos lo mismo con el valor de HCG de las líneas C93.154 y Serrana , vamos a ver , que sus intervalos de confianza si incluyen al cero, y por lo tanto se concluye que las HCG de estas dos líneas no son significativamente diferentes de cero, y por lo tanto no presentan HCG para el caracter rendimiento. En el caso de la línea TPS-2 , el intervalo de confianza tampoco incluye al valor cero , por lo tanto se puede decir que esta línea contribuye significativamente en forma negativa al rendimiento. Utilizando el error estándar de HCG de los probadores (ES=2.13), puede Ud construir los intervalos de confianza para los probadores , multiplicando previamente el ES x 1.99 , y ver si éstos incluyen o no el valor 0, y de esta manera concluir sobre la significancia de los valores de HCG de los probadores. Utilizando el error estándar de la diferencia entre dos líneas (Figura 4) multiplicándolo previamente por el valor tabular de t α=0.025, 66 gl =1.99 , el valor resultante se utiliza para ver si la diferencia entre las HCG de dos líneas son o no significativas. Ejemplo . Calculando si la diferencia entre las HCG de las líneas LT-8 y TPS-2 son significativamente diferentes. La HCG de LT-8=-9.960 y de TPS-2 es -13.870. La diferencia entre las dos HCG = -13.870 –(-9.960) = -3.910. Multiplicando el Error Estándar de de la diferencia entre dos líneas por el valor de t α=0.025, 66 gl tenemos 3.896 x 1.99=7.75 . Calculando el intervalo de confianza de la diferencia entre las HCG de dos líneas , -3.910 ± 7.75 sería 11.66 y -3.84 . Como el intervalo incluye al valor cero, concluimos que las dos líneas no se diferencian en su HCG para rendimiento. Los resultados también muestran los estimados de variancia genética aditiva y de dominancia bajo el título : “Genetic Components”, y las contribuciones a la variancia genética total, de cada una de las fuentes de variación del diseño bajo el título . “ Proportional contribution of lines, testers and their interactions to total variance” . Podemos decir que las cruzas son las que contribuyeron en una mayor proporción (54%) a la variancia genética total, seguido por las líneas (39%) y luego por los probadores (7%) NOTA Una vez que haya terminado de observar sus resultados en la consola de “R” , Usted deseará almacenar o salvar los resultados. Para ello, haga click en el menu File, y seleccione la opción “Save to File...” . Una ventana se le abrirá inmediatamente preguntándole por un nombre para el archivo. Colóquele un 15 nombre “LxT-output.txt” y luego haga click en :save” . Usted podrá acceder a este archivo texto en su directorio de trabajo. Ahora, Usted puede cerrar el programa , pero antes de proceder a ello, deberá indicarle a “R” que libere los datos utilizados para evitar problemas la siguiente vez que Usted abra el programa “R” para analizar otros datos. Tipee solo lo que aparece en color azul > detach (A) (Este comando le indica a “R” que libere los datos de su memoria) > q() (Este comando es para cerrar el programa ) Una ventana se le abrirá inmediatamente preguntándole si desea almacenar o guardar la imagen del espacio de trabajo. Responda, No. Utilizando un script (guión) Si Usted desea correr el análisis nuevamente sin tener que tipear cada comando otra vez, Usted puede preparar un archivo “script” en “R” con los comandos que utilizó en esta sesión. Hagámoslo: Abra el programa “R” 1. Diríjase al menú File y seleccione la opción “New script”. El editor del programa “R” se abrirá para Usted 16 2. Tipee los comandos que se muestran a continuación en esa ventana 17 3. Una vez terminado de tipear los comandos, vaya al menú “File” y seleccione la opción “Save as…..” Una ventana aparecerá en la consola preguntándole el nombre del archivo. Escriba el nombre “Script-LxT” y colóquele la extensión “.R” (“Script-LxT.R”) y guarde el script en su directorio de trabajo. 4. Ahora, usted puede cerrar su archivo script dirigiéndose al menú “File” y seleccionando la opción “Close script”. Luego cierre el programa “R” dirigiéndose al menú “File” y seleccionando la opción “exit” . 5. Para correr su script, abra el programa “R” y en el menú “File” seleccione la opción “Change dir …” para direccionar al “R” al directorio de trabajo donde Usted almacenó el script. 6. Luego, diríjase nuevamente al menú “File” y seleccione la opción “Open script….” (Seleccione su script, en nuestro caso es “Script-LxT”. El script se abrirá en el editor del “R”). 7. Usted deseará correr todos los comandos para ver los resultados de los Análisis de Variancias , estimados de HCG de líneas y probadores, y HCE cruzas, etc. Por lo tanto, seleccione con el mouse todas las líneas del script, como se muestra a continuación: 18 8. Luego vaya al menú “Edit” y seleccione la opción “Run line or selection”. Para observar sus resultados, deberá regresar a la consola del “R” ya que sus comandos han sido ejecutados en ese lugar. Esto se realiza dirigiéndose a “Windows” del menú y seleccionando la opción “R console” (Usted podrá guardar sus resultados como se explicó anteriormente: “File” , y luego “Save to file” 9. Una vez corrido el análisis, cierre el archivo del script, seleccionando desde el editor del “R” la opción “Close script” del menú “File”. 13. Finalmente, tipee en la consola del “R” las siguientes sentencias para cerrar el programa (solo lo de color azul) > detach(A) (para liberar los datos) > quit() (para cerrar el programa. Usted no requiere almacenar o guardar el espacio de trabajo, por lo tanto responda no, en la ventana en la que se le hace esta consulta). 19