Subido por CHANTAL VALERIA URIBE GOMEZ

RESUMEN LAB MEDIDAD ESTADISTICAS IA PAG14

Anuncio
MEDIDAS ESTADISTICAS
Las muestras de datos pueden tener cientos e incluso miles de valores. La estadística descriptiva es
permite resumir estos datos en pocos números que contengan la información más relevante.
Nan:
Muchos datos permiten tener uno o más valores perdidos. Lo que se recomienda es codificar estos
valores perdidos como Nan, para mantener la estructura de la matriz.
Las operaciones aritméticas de Matlab (suma, resta, división…) producen como resultado Nan
cuando los operandos son Nan.
Si se quitan las células que tienen valores Nan se puede destruir la matriz. Si se quita la fila de los
Nan se descartarían datos. Las siguientes funciones realizan una acción eliminando los datos con
Nan.
Función
Nancov
Nanmax
Nanmean
Nanmedian
Nanmin
Nanstd
Nansum
Nanvar
Iqr
Mad
Descripción
Calcula la covarianza, ignorando los Nan
Calcula el máximo, ignorando los Nan
Calcula la media, ignorando los Nan
Calcula la mediana ignorando los Nan
Calcula el mínimo ignorando los Nan
Calcula la deviación estándar ignorando los Nan
Hace una sumatoria ignorando los Nan.
Si X es una matriz, entonces nansum(X)es
un vector de fila de sumas de columnas,
calculado después de eliminar NaNvalores.
Calcula la varianza, ignorando los Nan
Rango intercuartil de datos de series de tiempo
Desviación media o mediana absoluta.
Prctile
Range
Skewness
trimmean
Kurtosis
Si Xes una matriz, entonces maddevuelve un
vector de fila que contiene la desviación
absoluta media o media de cada columna de X.
Percentiles de un conjunto de datos.
devuelve la diferencia entre los valores
máximos y mínimos de los datos de muestra
en X.
Obllicuidad. Devuelve el sesgo de una muestra.
Media, excluyendo valores atípicos. Es decir
que no tienen en cuenta el pequeño
porcentaje de valores muy grandes o valores
muy pequeños alejados del centro.
Kurtosis
Sesgo de una muestra: también llamado efecto de selección o error muestral es una distorsión que
se introduce debido a la forma en que se selecciona la muestra. Se refiere a la distorsión de un
análisis estadístico, debido al método de recolección de muestras.
MEDIDAD DE TENDENCIA CENTRAL O LOCACION:
Geomean
Harmmean
Mean
Median
Media geométrica
Media armónica
Media
Mediana
NOTA: Por lo general los outliers pueden provocar errores o problemas técnicos en los datos, y el
promedio de la muestra es sensible a esos problemas.
Un mal valor en los datos puede cambiar el promedio del centro al resto de los datos por una
distancia arbitraria.
Las funciones MEDIAN y Trimmean resisten a los outliers.
La funciones geometric mean, harmonicmean y el promedio no resi8sten a los outliers. Son útiles
cuando la muestra está distribuida en lognormal o muy sesgada.
En el siguiente ejemplo, se puede observar que la media tiene un valor diferente a los valores de los
datos, porque está influenciada por el outlier (en este caso es el 100). Mientras que vemos que el
trimmean que es la media, ignorando los valores atípicos, efectivamente los ignora, al igual que la
mediana.
Para aclarar…
m = trimmean(X,percent) devuelve la media de los valores de X, calculados después de eliminar los
valores atípicos de X. Por ejemplo, si Xes un vector que tiene nvalores, mes la media de X excluir
los kvalores de datos más altos y más bajos, donde k = n*(percent/100)/2.
MEDIDAS DE DISPERSIÓN
El propósito de las medidas de dispersión es descubrir cómo distribuir los valores de los datos en la
recta numérica.
Medidas de dispersión
Iqr
Mad
Range
Std
Var
Rango intercuartil
Desviación de media absoluta
Rango
Desviación estándar (en MATLAB)
Varianza(en MATLAB)
El rango es la medida más simple de resultar. Pero si hay un valor atípico en los datos, será el valor
mínimo o máximo. Por lo tanto, el rango no es fuerte para los valores atípicos.
La desviación estándar y la varianza son las medidas populares de propagación que son óptimas
para muestras distribuidas normalmente. La desviación estándar es la raíz cuadrada de la varianza
y tiene la propiedad deseable de estar en las mismas unidades que los datos. Es decir, si los datos
están en metros, la desviación estándar también está en metros. La varianza está en metros2.
Ni la desviación estándar ni la varianza son fuertes para los valores atípicos.
La desviación absoluta media (Mad) también es sensible a los valores atípicos. Pero el MAD no se
mueve tanto como la desviación estándar o la varianza en respuesta a datos incorrectos.
El rango intercuartil (IQR) es la diferencia entre 75 y 25 por ciento de los datos. Dado que solo en el
medio, el 50% de los datos afecta esta medida, es fuerte para los valores atípicos.
Por ejemplo:
.
FUNCIÓN PARA DATOS AGRUPADOS
Como vimos en la sección anterior, las funciones estadísticas descriptivas pueden calcular
estadísticas en cada columna de una matriz. A veces, sin embargo, puede tener sus datos
organizados de manera diferente para que las mediciones aparezcan en una columna o variable, y
un código de agrupación aparezca en una segunda columna o variable.
Las función grpstats: pueden calcular la media, el error estándar de la media y el recuento
(número de observaciones) para cada grupo definido por una o más variables de agrupación. Si
proporciona un nivel de significancia, también crea un gráfico de las medias grupales con
intervalos de confianza.
Como por ejemplo: si se carga el conjunto de datos carbig:
También podemos obtener el conjunto completo de estadísticas para MPG agrupadas por tres
variables: org, cy14 (el motor tiene cuatro cilindros o no) y when (cuándo se fabricó el automóvil).
PERCENTILES Y DESCRIPCIÓN GRÁFICA
Los percentiles de muestra nos proporcionan información sobre la forma de los datos, así
como su ubicación y distribución. Por ejemplo:
normrnd: es una función para
generar Números aleatorios
normales
La larga cola inferior y los signos (+) muestran la falta de simetría en los valores de la
muestra.
El diagrama de caja es un gráfico para estadísticas descriptivas. El siguiente gráfico es un
diagrama de caja de los datos anteriores. Se creó con la función boxplot(X)
La larga cola inferior y los signos (+) muestran la falta de simetría en los valores de la
muestra.
Bigote
Superior
Cuartil superior
Mediana (Si no está en la mitad = asimetría)
Cuartil inferior
Bigote
Inferior
Rango intercuartil
Máximo
Mínimo
Para crear el histograma: hist(x)
Descargar