TEMA 3 3.1. Las medidas de posición robustas

Anuncio
TEMA 3
3.1. Las medidas de posición robustas
También llamadas de localización o de posición central.
Entre ellas figuran: las medias, la mediana, la moda y los cuartiles (que también están incluidas
en las medidas de síntesis).
Estas medidas cumplen dos requisitos mínimos: como son el estar comprendidas entre los valores
extremos de la variable y el no tener que coincidir siempre ambas, aplicándose según el caso.
El que una medida sea robusta desde el punto de la estadística descriptiva, es algo relativo por
ejemplo la medina es más robusta que la media, pero ambas son robustas.
Junto a las medidas de dispersión reciben el nombre de estadísticos.
Se dice que una medida es robusta cuando la inclusión de valores atípicos en su cálculo no
supone un cambio fuerte en su valor. Son muy robustas: la mediana, la moda y los cuartiles (no la
media aritmética, que es sensible aunque robusta si la comparamos con otros estadísticos).
Los procedimientos estadísticos robustos permiten efectuar inferencias válidas cuando hay
desviaciones a la normalidad y son al mismo tiempo, altamente eficientes bajo datos no
normales (forman parte de la parte básica de la estadística que podemos denominar no
paramétrica). O cuando la muestra que se dispone es reducida (como ocurre en ciertos casos
en psicología).
Estadísticos robustos: Son aquellos que no se ven influidos (o solo ligeramente) por pequeños
cambios en los datos (insistimos).
Evidentemente, la media es un estadístico muy poco resistente a cambios en los datos (es
sensible), dado que se ve influida por todos y cada uno de ellos.
La mediana, en cambio, es un estadístico altamente resistente. Vamos a poner algunos
ejemplos, de una media adaptada a ser una medida robusta:
1- La media recortada
Consiste en calcular la media aritmética sobre un subconjunto central del conjunto de datos,
no considerándose una determinada proporción p por cada extremo. (p se expresa
normalmente como porcentaje).
Por ejemplo, una media recortada al 40% en una secuencia de 10 datos implica no tener en
cuenta ni los 4 valores menores ni los 4 valores mayores.
Observar que la media recortada al 0% es la media aritmética.
http://www.pwpamplona.com/opo
1
Descriptiva Tema 3
Segundo Examen
A la media recortada al 25% se la denomina centrimedia.
2- Media Winsorizada
Es análogo a las medias recortadas excepto en que las puntuaciones eliminadas, ya no lo son
sino que se sustituyen por los valores menor y mayor que quedan para el cómputo de la media
winsorizada.
Así, en la media recortada a nivel 2 implicaría eliminar las dos puntuaciones mayores y las 2
menores:
3, 4, 4, 5, 5, 6, 7, 8, 9, 11
Y quedan los datos: 4, 5, 5, 6, 7, 8 y se calcula la media de los mismos
3- La trimedia
Es análogo a las medias recortadas excepto en que las puntuaciones eliminadas, ya no lo son
sino que se sustituyen por los valores menor y mayor que quedan para el cómputo de la media
winsorizada.
Así, en la media recortada a nivel 2 implicaría eliminar las dos puntuaciones mayores y las 2
menores:
3, 4, 4, 5, 5, 6, 7, 8, 9, 11
Y quedan los datos: 4, 5, 5, 6, 7, 8 y se calcula la media de los mismos
4- Otras medidas robustas
El estimador-M de Huber, el estimador biponderado de Tukey, el estimador Mredescendente de Hampel y el estimador en onda de Andrew. Estos estimadores se
diferencian entre sí por el tipo de ponderación aplicada sobre los datos.
Pero en realidad el mejor estimador desde el punto de la robustez es la mediana (salvo raras
excepciones)
3.5. Aplicaciones. Visión conjunta de las medidas de
localización.
Existen 3 índices importantes que se utilizan en la descripción de la tendencia central: las medias,
la mediana y la moda.
La utilización de uno u otro índice depende de dos razones principales:
- El interés concreto del investigador.
- Las limitaciones operativas.
Así en datos en escala cualitativa nominal, el único índice aplicable es la moda.
http://www.pwpamplona.com/opo
Descriptiva Tema 3
Segundo Examen
2
Si los extremos en una variable continua son abiertos (menor de tal, más de tal) no se podrá
hallar la media, aunque sí la moda y la mediana, si estas no son los intervalos medianos o
modales.
La moda y la mediana son índices meramente descriptivos, aunque la mediana se utilice en
inferencia no paramétrica por sus características descriptivas.
Independientemente de todas las ventajas matemáticas de la media, cuando la distribución es muy
asimétrica, es más apropiado utilizar la mediana.
Media aritmética: es el centro de gravedad de la distribución, es decir el punto de equilibrio de su
gráfica.
La media aritmética es un valor de la variable que depende de todas las observaciones, y la
presencia de un valor muy grande o pequeño constituye un inconveniente.
Cuando manejamos muestras diversas nos interesa un promedio que no varié excesivamente de
una a otra, este requisito de estabilidad lo posee la media .
Finalmente la media, permite el cálculo del total.
La mediana: es el valor de la variable que deja a un lado y al otro el mismo número de variables
si están ordenadas creciente o decreciente (es decir el 50% en cada grupo).
Posee el inconveniente de no manejar toda la información. En cambio tiene la ventaja de que los
valores observados anormalmente grandes o pequeños no influyen.
La moda: es el valor más frecuente y también al no utilizar toda la información, no se ve influido
por valores excesivamente altos o pequeños.
Es un promedio muy interesante cuando existe una clara y decidida tendencia a concentrarse
alrededor de un sólo valor.
Cuando la distribución es campaniforme o moderadamente asimétrica sirven los 3 promedios.
Si es campaniforme y fuertemente asimétrica o tiene forma "J" o "L" la mediana es el promedio
más apto.
Finalmente si tiene forma de "U" los tres promedios tienen poca fuerza.
En consecuencia, el tipo de distribución nos dará el promedio más adecuado, y en caso de duda,
debe seguirse la regla: emplear la media aritmética.
En una distribución normal, la media, moda y mediana tienen un valor idéntico (Figura 15).
Esto en realidad es evidente, dado que una distribución normal es perfectamente simétrica, y
http://www.pwpamplona.com/opo
Descriptiva Tema 3
Segundo Examen
3
la curva tiene un sólo punto máximo (moda) que también se encuentra en el centro. Así, la
media debe ser nuestra medida preferida de tendencia central para los conjuntos de datos que
se distribuyen normalmente, puesto que es más fácil de calcular y de usar en forma
matemática.
Una distribución bimodal tiene dos puntos máximos (Figura 15). Esto hace que la media y la
mediana no sean de utilidad, puesto que sus valores estarán en algún lugar entre los dos
puntos máximos y distorsionarán enormemente la descripción de la distribución. La moda, y
observe que en este caso hay dos modas, pasa a ser la única medida útil de tendencia central.
Sin embargo, una distribución bimodal es poco común y en general podemos decir que consta
de dos distribuciones que se pueden analizar en forma independiente.
Cuando se describen distribuciones asimétricas (sesgadas) positivas o negativas, la media no
es la mejor medida de tendencia central disponible. Mientras mayor sea la asimetría o sesgo
de los datos, mayor utilidad tendrá la mediana (y más engañosa será la media), porque la
mediana estará más cerca del ‘valor promedio’ real de las observaciones. Por ejemplo, en el
caso de una distribución asimétrica positiva, la media se encuentra ‘inflada’ por la minoría de
las observaciones que tienen un valor mayor. Esto sucede, por ejemplo, con el ingreso per
cápita, puesto que las distribuciones del ingreso son asimétricas positivas. En las siguientes
figuras se muestran las posiciones relativas de la media, la moda y la mediana en cuatro
distribuciones asimétricas.
http://www.pwpamplona.com/opo
Descriptiva Tema 3
Segundo Examen
4
Observe que cuando la distribución es asimétrica ‘positiva’, (es decir, el extremo más largo
de la distribución apunta hacia el este o hacia su derecha), la moda está a la izquierda de la
mediana, y a su vez, la mediana está a la izquierda del promedio. Sucede lo contrario cuando
la distribución es asimétrica negativa o sesgada negativamente. Esto nos lleva a una
consideración final: si una distribución es asimétrica, es decir, notoriamente sesgada, la
mediana será mejor que la media (promedio aritmético) para describir la tendencia central de
la distribución de los datos. Observe las figuras anteriores. Note que en todas las
distribuciones asimétricas, la mediana efectivamente se acerca más que la media al valor
‘promedio o ‘normal’ de las observaciones o, en otras palabras, refleja mejor la existencia de
un sesgo en los datos.
http://www.pwpamplona.com/opo
Descriptiva Tema 3
Segundo Examen
5
__________________________________________________
Si has comprado nuestro temario envíanos un email a
[email protected] y te enviaremos gratis los
temas.
Si deseas los temas y no has comprado nuestro temario
consulta nuestro presupuesto enviando un email a
[email protected].
__________________________________________
TODOS ESTOS TEMAS
ESTÁN PENSADOS PARA EL SEGUNDO EXAMEN DE
LA OPOSICIÓN
http://www.pwpamplona.com/opo
Descriptiva Tema 3
Segundo Examen
6
Descargar