Introducción a lenguajes avanzados de computación: MATLAB en la docencia en Química Análisis de datos Beatriz Pateiro López 1 Estructuras de datos con MATLAB 1. Crea en MATLAB: a) un vector x1 con 100 componentes iguales a 5. b) un vector x2 con 20 componentes equiespaciadas entre 2 y 8. (función c) un vector x3 con los números pares entre 4 y 60. d) un vector y linspace) con los 3 vectores anteriores. 2. Crea la siguiente matriz en MATLAB y calcula su traspuesta 1 2 3 A= 4 2 1 2 3 0 Calcula la suma de los elementos de la matriz por las y por columnas utilizando la función sum. 3. Introduce en MATLAB las siguientes 5 variables correspondientes a datos de iris (Fisher's iris data) Longitud sépalo Anchura sépalo Longitud pétalo Anchura pétalo (LS) (AS) (LP) (AP) Especie 5.1 3.5 1.4 0.2 setosa 4.9 3.0 1.4 0.3 setosa 4.7 3.2 1.3 0.1 versicolor 4.6 3.1 1.5 0.2 versicolor 5.0 3.6 1.4 0.2 virginica 4. Con los datos del ejercicio anterior, calcula la longitud media de sépalo y la longitud media de pétalo. 5. Utilizando los vectores creados en el ejercicio 3 crea una matriz sepalmat con las medidas correspondi- entes al sépalo (longitud y anchura). 6. Crea un objeto de la clase que consideres adecuada en MATLAB que contenga todos los datos de la tabla de iris. 7. Carga los datos sheriris mediante la sentencia de MATLAB directorio de objetos se han creado dos nuevos elementos meas load fisheriris. Fíjate que en el species. ¾Qué clase de objetos son? y ¾Qué información contienen? Combina los datos en un dataset de forma que se obtenga un objeto con contenido similar al de la tabla del ejercicio 3. 1 2 Manejando subconjuntos de datos: indexado 1. A partir del vector LS (longitud de sépalo) creado en el ejercicio 3 de la sección anterior, construye un nuevo vector con las longitudes de sépalo que son mayores que 4.8 2. Puedes acceder a los datos completos de iris (Fisher's iris data) a través de load fisheriris. Calcula la longitud media de pétalo de las observaciones correspondientes a la especie setosa. 3. Crea una matriz que contenga todos los datos de la especie versicolor. 4. Crea una matriz que contenga todos los datos de aquellas observaciones de la especie setosa en las que la longitud de sépalo está en el intervalo [5,6] 3 Importando datos 1. El archivo Loblolly.txt contiene datos de altura y edad de pinos Loblolly. Importa los datos del chero Loblolly.txt y guárdalos en un objeto llamado pinos. Calcula la altura media de los pinos de la muestra. 2. El archivo orange.txt contiene datos de edad y circunferencia de naranjos. Importa los datos y guarda las 10 primeras observaciones en una matriz. 4 Estadística descriptiva con MATLAB 1. Realiza un análisis descriptivo completo de los datos de la variable Sexo 2. Realiza un análisis descriptivo completo de los datos de la variable Peso 3. El chero BirdFluCases.txt recoge para 15 países los casos de gripe aviar en los 6 años comprendidos entre 2003 y 2008. Utiliza la función pie para realizar un gráco de tarta que ilustre el número de casos de gripe por países. Intenta que se muestren como etiquetas de cada porción el nombre del país correspondiente 4. A partir de los datos de iris, realiza un boxplot en el que se representen las 3 cajas correspondientes a las longitudes de pétalo de las 3 especies del conjunto de datos 5 Distribuciones de probabilidad 1. Genera 500 valores de una distribución Normal con media 5 y desviación típica 0.8. Representa el histograma de los datos generados. 2. Utiliza la función 3. Sea X norminv para calcular los cuantiles 0.05 y 0.95 de una distribución normal estándar. una variable normal de media 10 y varianza 4. Calcula P (8 X 11) utilizando la función normcdf. 4. Los datos del chero IC.txt corresponden a las alturas de 100 personas. Calcula las medidas resumen de los datos y realiza un histograma. Asumiendo que los datos son normales, calcula el intervalo de conanza para la media a un nivel de conanza del 95 % y del 90 %: p 2 = 100 (IC = x z=2 = n). a) suponiendo que la varianza es conocida b) suponiendo que la varianza es desconocida ( p IC = x t=2 Sc = n). 2 5. Intenta reproducir una gráca como la que se muestra a continuación en la que aparecen representadas las funciones de densidad de distribuciones Chi-cuadrado con diferentes grados de libertad. Utiliza la función chi2pdf. n=2 g.l. 0.0 0.1 0.2 0.3 0.4 0.0 0.5 1.0 1.5 2.0 2.5 0.5 n=1 g.l. 0 5 10 15 20 0 5 15 20 15 20 n=5 g.l. 0.00 0.00 0.05 0.10 0.10 0.20 0.15 n=3 g.l. 10 0 5 10 15 20 0 5 10 6 Modelos de regresión 1. Usa los datos del iris y representa en el plano las longitudes y anchuras de pétalo de las observaciones correspondientes a la especie versicolor. Ajusta un modelo de regresión que te parezca adecuado a los datos. 2. Con frecuencia se obtienen datos bivariados cuando se usan dos técnicas distintas para medir la misma cantidad. Por ejemplo, la concentración de hidrógeno determinada con un método de cromatografía de gases ( X Y X ), y la concentración determinada con un nuevo método de sensor (Y ): 47 38 62 62 65 53 70 67 70 84 78 79 95 93 100 114 118 124 127 140 140 140 150 152 164 198 221 106 117 116 127 114 134 139 142 170 149 154 200 215 Realiza un gráco de dispersión de las variables XeY y ajusta un modelo de regresión lineal simple a los datos. Realiza el gráco de residuos. 3. Importa los datos del chero lip.txt y ajusta un modelo de regresión que consideres adecuado 3