MEDIDAS ESTADISTICAS Las muestras de datos pueden tener cientos e incluso miles de valores. La estadística descriptiva es permite resumir estos datos en pocos números que contengan la información más relevante. Nan: Muchos datos permiten tener uno o más valores perdidos. Lo que se recomienda es codificar estos valores perdidos como Nan, para mantener la estructura de la matriz. Las operaciones aritméticas de Matlab (suma, resta, división…) producen como resultado Nan cuando los operandos son Nan. Si se quitan las células que tienen valores Nan se puede destruir la matriz. Si se quita la fila de los Nan se descartarían datos. Las siguientes funciones realizan una acción eliminando los datos con Nan. Función Nancov Nanmax Nanmean Nanmedian Nanmin Nanstd Nansum Nanvar Iqr Mad Descripción Calcula la covarianza, ignorando los Nan Calcula el máximo, ignorando los Nan Calcula la media, ignorando los Nan Calcula la mediana ignorando los Nan Calcula el mínimo ignorando los Nan Calcula la deviación estándar ignorando los Nan Hace una sumatoria ignorando los Nan. Si X es una matriz, entonces nansum(X)es un vector de fila de sumas de columnas, calculado después de eliminar NaNvalores. Calcula la varianza, ignorando los Nan Rango intercuartil de datos de series de tiempo Desviación media o mediana absoluta. Prctile Range Skewness trimmean Kurtosis Si Xes una matriz, entonces maddevuelve un vector de fila que contiene la desviación absoluta media o media de cada columna de X. Percentiles de un conjunto de datos. devuelve la diferencia entre los valores máximos y mínimos de los datos de muestra en X. Obllicuidad. Devuelve el sesgo de una muestra. Media, excluyendo valores atípicos. Es decir que no tienen en cuenta el pequeño porcentaje de valores muy grandes o valores muy pequeños alejados del centro. Kurtosis Sesgo de una muestra: también llamado efecto de selección o error muestral es una distorsión que se introduce debido a la forma en que se selecciona la muestra. Se refiere a la distorsión de un análisis estadístico, debido al método de recolección de muestras. MEDIDAD DE TENDENCIA CENTRAL O LOCACION: Geomean Harmmean Mean Median Media geométrica Media armónica Media Mediana NOTA: Por lo general los outliers pueden provocar errores o problemas técnicos en los datos, y el promedio de la muestra es sensible a esos problemas. Un mal valor en los datos puede cambiar el promedio del centro al resto de los datos por una distancia arbitraria. Las funciones MEDIAN y Trimmean resisten a los outliers. La funciones geometric mean, harmonicmean y el promedio no resi8sten a los outliers. Son útiles cuando la muestra está distribuida en lognormal o muy sesgada. En el siguiente ejemplo, se puede observar que la media tiene un valor diferente a los valores de los datos, porque está influenciada por el outlier (en este caso es el 100). Mientras que vemos que el trimmean que es la media, ignorando los valores atípicos, efectivamente los ignora, al igual que la mediana. Para aclarar… m = trimmean(X,percent) devuelve la media de los valores de X, calculados después de eliminar los valores atípicos de X. Por ejemplo, si Xes un vector que tiene nvalores, mes la media de X excluir los kvalores de datos más altos y más bajos, donde k = n*(percent/100)/2. MEDIDAS DE DISPERSIÓN El propósito de las medidas de dispersión es descubrir cómo distribuir los valores de los datos en la recta numérica. Medidas de dispersión Iqr Mad Range Std Var Rango intercuartil Desviación de media absoluta Rango Desviación estándar (en MATLAB) Varianza(en MATLAB) El rango es la medida más simple de resultar. Pero si hay un valor atípico en los datos, será el valor mínimo o máximo. Por lo tanto, el rango no es fuerte para los valores atípicos. La desviación estándar y la varianza son las medidas populares de propagación que son óptimas para muestras distribuidas normalmente. La desviación estándar es la raíz cuadrada de la varianza y tiene la propiedad deseable de estar en las mismas unidades que los datos. Es decir, si los datos están en metros, la desviación estándar también está en metros. La varianza está en metros2. Ni la desviación estándar ni la varianza son fuertes para los valores atípicos. La desviación absoluta media (Mad) también es sensible a los valores atípicos. Pero el MAD no se mueve tanto como la desviación estándar o la varianza en respuesta a datos incorrectos. El rango intercuartil (IQR) es la diferencia entre 75 y 25 por ciento de los datos. Dado que solo en el medio, el 50% de los datos afecta esta medida, es fuerte para los valores atípicos. Por ejemplo: . FUNCIÓN PARA DATOS AGRUPADOS Como vimos en la sección anterior, las funciones estadísticas descriptivas pueden calcular estadísticas en cada columna de una matriz. A veces, sin embargo, puede tener sus datos organizados de manera diferente para que las mediciones aparezcan en una columna o variable, y un código de agrupación aparezca en una segunda columna o variable. Las función grpstats: pueden calcular la media, el error estándar de la media y el recuento (número de observaciones) para cada grupo definido por una o más variables de agrupación. Si proporciona un nivel de significancia, también crea un gráfico de las medias grupales con intervalos de confianza. Como por ejemplo: si se carga el conjunto de datos carbig: También podemos obtener el conjunto completo de estadísticas para MPG agrupadas por tres variables: org, cy14 (el motor tiene cuatro cilindros o no) y when (cuándo se fabricó el automóvil). PERCENTILES Y DESCRIPCIÓN GRÁFICA Los percentiles de muestra nos proporcionan información sobre la forma de los datos, así como su ubicación y distribución. Por ejemplo: normrnd: es una función para generar Números aleatorios normales La larga cola inferior y los signos (+) muestran la falta de simetría en los valores de la muestra. El diagrama de caja es un gráfico para estadísticas descriptivas. El siguiente gráfico es un diagrama de caja de los datos anteriores. Se creó con la función boxplot(X) La larga cola inferior y los signos (+) muestran la falta de simetría en los valores de la muestra. Bigote Superior Cuartil superior Mediana (Si no está en la mitad = asimetría) Cuartil inferior Bigote Inferior Rango intercuartil Máximo Mínimo Para crear el histograma: hist(x)