Notas de estadística descriptiva - Dirección General de Planeación

Anuncio
Universidad Nacional Autónoma de México
Dirección General de Planeación
Notas de estadística descriptiva
Mtra. Lilia Elena Sandoval Espinosa
Tema 1. Organización de datos
1.1 Introducción
1.2 Algunas definiciones
1.3 Series estadísticas
1.4 Representación gráfica
1.1 Introducción
La mayoría de las personas asocian el término estadística con gran cantidad de números, o
quizá, con cuadros y gráficas que representan diferentes tipos de información, así como
con promedios y medidas semejantes que los resumen. No es de sorprenderse que a las
personas que, se dedican a la estadística como campo de estudio, se les relacione con la
recolección y presentación de números. En realidad, este punto de vista tan amplio
describe en forma muy precisa el interés original de la disciplina.
Los primeros estudiosos de la estadística se dedicaron a la recolección de los datos que
requería el Estado, de ahí derivó el nombre de estadística. Por ejemplo obtenían
información sobre nacimientos y decesos, para auxiliar a los encargados del reclutamiento
militar; sobre enfermedades, para ayudar a quienes se ocupaban de la salud pública, por
citar algunos ejemplos.
La rama de la estadística descriptiva, se enfoca a la tarea de la presentación de datos, de
organizarlos y condensarlos, por lo general con ayuda de cuadros, gráficas o medidas
numéricas de resumen. este tipo de presentación, a diferencia de grandes cantidades de
datos sin elaborar, logra que la información sea comprensible y muchas veces pone al
descubierto ciertas características que de otra forma quedarían ocultas.
1.2 Algunas definiciones
La rama de la disciplina estadística que se ocupa del desarrollo y utilización de técnicas
para la presentación eficaz de información numérica, con el objeto de poner de relieve
aspectos que, de otra forma quedarían ocultos en un conjunto de datos, se llama
estadística descriptiva.
Sin embargo, la estadística descriptiva comprende solo una pequeña parte de la disciplina
moderna de la estadística. En la actualidad los estadísticos dirigen la mayor parte de su
esfuerzo no hacia la recolección y presentación de información numérica, sino hacia su
análisis.
Su principal interés esta en hacer deducciones sobre aspectos desconocidos a partir de la
información de la que se dispone, por limitada que esta sea. Esta rama de la disciplina
estadística que se ocupa del desarrollo y utilización de técnicas para analizar y sacar
deducciones de información numérica recibe el nombre de inferencia estadística. En este
material nos ocuparemos de la parte de estadística descriptiva
Recolección de datos
El trabajo estadístico no puede llevarse a cabo en el vacío, requiere de la información
pertinente de la materia bajo estudio. Un primer esfuerzo es definir cuáles son las
variables que forman parte del fenómeno que se está investigando a las que se les
denomina unidades elementales y éstas pueden tener una o varias características de
interés para el investigador. Si por ejemplo, nuestro objeto de estudio fuera la
población estudiantil de la UNAM, cada estudiante sería una unidad elemental, y de
ella podrían interesarnos varias características como serían edad, sexo, lugar de
residencia, promedio curricular, ocupación, etc.
Población y muestra
Por otro lado, la obtención de información cuantitativa puede adquirir dos
modalidades. Una de ellas es obtener información de todas las unidades elementales
bajo estudio, obteniendo los valores que pueden adquirir todas las variables que nos
interesan de ellas.
Un ejemplo, puede ser la información recabada por la DGAE, por medio de la cual se
obtiene información estadística de cada uno de los estudiantes de nuestra
universidad. En este caso el conjunto de datos se refiere a una población.
Sin embargo, si la población bajo estudio es muy grande, se tiene como alternativa
obtener información de una parte de ésta, conocida como muestra, con la que se
logra reducir el costo de la investigación y los resultados pueden obtenerse con
mayor rapidez. A partir de la muestra obtenida se pueden extraer conclusiones sobre
la población, pero para que estas conclusiones tengan validez, la muestra debe de ser
representativa, lo que significa que el comportamiento de los datos muestrales debe
ser una imagen del comportamiento de la población.
Variables continuas y discretas
Tal y como se comentó con anterioridad, la estadística se ocupa de datos
cuantitativos asignados a determinadas variables, las cuales pueden ser de dos tipos,
de acuerdo a los valores que pueden adquirir.
Una variable se dice que es continua si puede asumir cualquier valor entre dos
valores determinados, es decir en un intervalo. Si solamente puede adquirir
determinados valores se dice que es discreta.
Por ejemplo la variable número de hijos, solamente puede asumir valores enteros
(0,1,2,3…), en tanto que la estatura de determinado grupo de la población puede
adquirir cualquier valor entre 0.5m y 2.5m., por lo tanto la variable número de hijos
es una variable discreta y la estatura es una variable continua.
Características del método estadístico
El método estadístico, como técnica para obtener, analizar y presentar datos
numéricos, consiste de varias etapas que podemos sintetizar como:
Obtención de la información cuantitativa
• Clasificación y compactación de la información
• Presentación de la información, ya sea en formato de texto, o utilizando
cuadros y gráficas.
•
Si bien el método estadístico es la única vía para manejar conjuntos de gran tamaño
de datos numéricos, habría que mencionar que las técnicas estadísticas únicamente
pueden aplicarse a datos que estén expresados de forma cuantitativa. Adicionalmente
hay que reconocer que a pesar de que la técnica estadística es objetiva, sus
resultados pueden verse afectados por interpretaciones subjetivas.
1.3 Series estadísticas
Con el propósito de analizar datos numéricos, es necesario ordenarlos sistemáticamente
de acuerdo a sus características.
Para ejemplificar lo que podría ser una agrupación de datos de acuerdo a su magnitud,
consideremos en el siguiente cuadro los aspirantes aceptados mediante concurso de
selección a licenciatura, convocatoria febrero de 2009.
Para apreciar mejor la información del cuadro anterior, podríamos arreglar los datos en
orden descendente:
De este cuadro se desprende que la Facultad con más aspirantes asignados en el concurso
de Febrero de 2009, es la FES-Aragón, seguida de la Facultad de Derecho, en tanto que la
FES-Acatlán es la que tiene la menor cifra.
Un cuadro adicional podría ser la distribución relativa del ingreso que permiten esas
Facultades, para lo cual se divide cada uno de los datos entre el total y el resultado se
multiplica por cien, para llegar a la siguiente presentación:
A partir de este cuadro podemos concluir que del total de aspirantes a cursar la
licenciatura en Derecho, casi el 40% fue asignado a la Facultad de Estudios Superiores
Aragón, y solo un 25% a la Facultad de Estudios Superiores Acatlán.
Con la información de los cuadros anteriores podemos construir algunas representaciones
gráficas que nos darán todavía mayor claridad sobre el tema.
Los datos anteriores se refieren a cifras de una fecha determinada, pero otro tipo de
información puede contener valores de una misma variable en el transcurso del tiempo, lo
que da lugar a una serie temporal. Tal es el caso del siguiente cuadro en donde se
presentan los aspirantes asignados a la Facultad de Derecho y Facultad de Estudios
Superiores Aragón para el periodo 2005-2009
1.4 Representación gráfica
Como ya habíamos comentado, la información de los cuadros anteriores se puede
representar gráficamente. En el caso de los valores absolutos de los asignados podemos
utilizar los dos ejes cartesianos ubicando en el de las abscisas las Facultades y en el de las
ordenadas, a escala, el valor de los asignados, para llegar a la siguiente gráfica:
En cuanto a la información de su participación relativa, podríamos construir una gráfica
similar a la anterior, o bien utilizar la de tipo ¨pie¨ que no es mas que un círculo en el que
se representa el peso que tiene cada uno de los datos utilizados. En este caso el círculo
nos representa el 100%.
Finalmente, las series de asignados para la Facultad de Derecho y la Facultad de Estudios
Superiores Aragón para el periodo 2005-2009 pueden representarse gráficamente
utilizando los ejes cartesianos ubicando los años en el eje de las abscisas y el valor en el de
las ordenadas. Para cada facultad tendríamos una línea que nos muestra la trayectoria de
asignados.
Tema 2. Distribución de Frecuencias
2.1 Rango, número de intervalos, tamaño del intervalo y frecuencia de clase.
2.2. Representación gráfica de una distribución de frecuencias. Histograma, , polígono de
frecuencias, frecuencias acumuladas y frecuencias relativas.
2.1 Distribución de frecuencias
Una distribución de frecuencias es el arreglo de un conjunto de datos numéricos de
acuerdo a su magnitud. Esta distribución de frecuencias se construye definiendo el valor de
tres variables:
El rango de la serie, esto es el intervalo entre el dato de mayor valor y el de menor
valor.
• Tomando en cuenta el valor del rango, los datos se dividen en un número
determinado de grupos conocidos como intervalos de clase.
•
En términos generales podemos establecer que el número de intervalos de clase
depende en gran medida del número de datos que se manejen, sin embargo se
considera que éstos debieran ser entre cinco y quince.
Otra alternativa es definirlos a través de la regla de Sturges, la que establece que:
c=3.3(log n)+1
donde c es el número de clases y n es el número de observaciones. Existen
además otros requisitos para conformar los intervalos de clase:
Los intervalos de clase no deben traslaparse, esto es, los intervalos 0-4.99,
5-5.99 deben preferirse a 0-5 y 5-10.
‣ De ser posible los intervalos de clase deben ser del mismo tamaño.
‣
•
El tamaño de los intervalos de clase depende tanto del rango como del número de
intervalos que se haya definido. Se obtiene dividiendo el valor del rango entre el
número de intervalos que se desean, si el resultado es una fracción es conveniente
redondearlo.
Una vez definidos el rango, el número de intervalos de clase y su tamaño, estos grupos se
representan en la primera columna de un cuadro con el propósito de contabilizar cuántas
observaciones de nuestro conjunto de datos numéricos pertenecen a cada uno de los
intervalos de clase. El número de observaciones en cada intervalo se le conoce como
frecuencia de clase.
Veamos un ejemplo, el siguiente cuadro nos presenta en número de aciertos que
obtuvieron 80 aspirantes a la licenciatura en Administración Pública en el concurso Mayo
de 2009
Para construir la tabla de distribución de frecuencias de los aciertos obtenidos, en primer
lugar nos fijamos en los datos mayor y menor para calcular el rango de la variable (r), que
es la diferencia entre el resultado mayor y menor:
r= 97-53=44
A continuación habrá que definir el número de intervalos de clase (c) que tendrá la
distribución de frecuencias, recordando que tenemos los aciertos de 80 aspirantes:
c=3.3 log (80)+1
c=3.3 (1.9031)+1=7.28
por lo que el número de intervalos de clase para este caso es de 7 .
El tamaño de los intervalos (t) lo definimos dividiendo el rango entre el número de
intervalos:
t= 44 / 7= 6.28
así el tamaño del intervalo deberá ser de 6. Con esta información formamos los intervalos
de clase
Finalmente habrá que contabilizar cuantas observaciones se ubican en cada uno de los
intervalos para así formar la distribución de frecuencias:
2.2 Representación gráfica de una distribución de frecuencias
Utilizando los ejes cardinales podemos representar en el eje de las abscisas (o eje de las x)
a los intervalos de clase y en el eje de las ordenadas (o eje de las y) la frecuencia
correspondiente y el resultado es una gráfica conocida como histograma.
Si a cada uno de los intervalos de clase le calculamos el punto medio o marca de clase
podemos representar este valor en el histograma. Al unir estos puntos tendremos el
polígono de frecuencias.
En ocasiones es de utilidad acumular las frecuencias con el propósito de establecer
cuantos datos pertenecer a más de una frecuencia, esta información se puede representar,
al igual que primer ejemplo, en un histograma, es este caso de frecuencias acumuladas.
Otra posibilidad de representar los datos de una distribución de frecuencias es utilizar los
valores de las frecuencias relativas, esto es, con que porcentaje del total participa cada uno
de los intervalos de clase. La suma de esta nueva columna debe ser el 100%. En este caso
se puede utilizar una gráfica conocida como gráfica de ¨pie¨
Tema 3. Descripción de una distribución
3.1 Tasas de crecimiento
3.2 Medidas de tendencia central: media aritmética y moda.
3.3 Medidas de dispersión: desviación media y desviación estándar.
3.1 Tasas de crecimiento
Para conocer la variación que ha tenido nuestra serie a lo largo del tiempo podemos
hacer uso de las tasas de crecimiento, estas pueden ser anuales o considerar un periodo.
Anual: [(VF/VI)-1]*100
Promedio: [(VF/VI)1/n-1]*100
3.2 Medidas de tendencia central.
Las medidas de tendencia central corresponden a valores que generalmente se ubican en
la parte central de un conjunto de datos, nos permiten analizar los datos en torno a un
valor central. La tendencia central se refiere al punto medio de una distribución. Entre
éstas están la media aritmética, la moda y la mediana.
Media aritmética.
La media aritmética de un conjunto de observaciones es una medida de posición que se
conoce comúnmente como promedio. Es la medida de posición central más utilizada, la
más conocida y la más sencilla de calcular, debido principalmente a que sus ecuaciones se
prestan para el manejo algebraico, lo cual la hace de gran utilidad.
Su principal desventaja radica en su sensibilidad al cambio de uno de sus valores o a los
valores extremos demasiado grandes o pequeños.
La media se define como la suma de todos los valores observados, dividido por el número
total de observaciones.
Esta fórmula únicamente es aplicable si los datos se encuentran desagrupados; en caso
contrario debemos calcular la media mediante la multiplicación de los diferentes valores
por la frecuencia con que se encuentren dentro de la información.
Ejemplo
Tomemos la de los números de aciertos de un examen aplicado a 80 estudiantes de la
unidad anterior. La suma de los 80 resultados de los exámenes es
6020.
y si este numero lo dividimos entre el número de observaciones tenemos,
6020/80=75
Lo que nos indica este valor es que el promedio de aciertos que tuvieron los alumnos es
de 75 aciertos.
Moda.
La moda nos indica el valor que más veces se repite dentro de los datos; es decir, si
tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2
quien sería la moda de los datos.
Es posible que en algunas ocasiones se presente dos valores con la mayor frecuencia, lo
cual se denomina bimodal o en otros casos más de dos valores, lo que se conoce como
multimodal.
Ejemplo.
Si observamos los datos de la serie que hemos venido trabajando, encontramos que el
número que mas se repite es el 75, por lo que la moda para los datos no agrupados es
75.
3.2 Medidas de dispersión
En el análisis estadístico es importante conocer que tanto varían las observaciones
alrededor de un valor central. Esta variabilidad puede medirse de dos maneras: como
distancia entre observaciones seleccionadas o bien como desviaciones promedio de las
observaciones individuales respecto a un valor central.
La dispersión es importante porque:
• Proporciona información adicional que permite juzgar la confiabilidad de la
medida de tendencia central. Si los datos se encuentran ampliamente
dispersos, la posición central es menos representativa de los datos.
• Ya que existen problemas característicos para datos ampliamente dispersos,
debemos ser capaces de distinguir que presentan esa dispersión antes de
abordar esos problemas.
• Quizá se desee comparar las dispersiones de diferentes muestras. Si no se
desea tener una amplia dispersión de valores con respecto al centro de
distribución o esto presenta riesgos inaceptables, necesitamos tener habilidad
de reconocerlo y evitar escoger distribuciones que tengan las dispersiones
más grandes.
Pero si hay dispersión en la mayoría de los datos, y debemos estar en
capacidad de describirla. Ya que la dispersión ocurre frecuentemente y su
grado de variabilidad es importante, ¿cómo medimos la variabilidad de una
distribución empírica?
Desviación media.
Equivale a la división de la sumatoria del valor absoluto de las distancias existentes entre
cada dato y su media aritmética y el número total de datos.
Ejemplo.
En el caso de los datos no agrupados, tomamos el valor ya calculado de la media
aritmética de nuestro ejemplo, obtenemos las diferencias absolutas y dividimos entre le
número de observaciones:
Desviación estándar
La desviación estándar es una medida del grado de dispersión de los datos del valor
promedio. Dicho de otra manera, la desviación estándar es simplemente el "promedio" o
variación esperada con respecto de la media aritmética.
Ejemplo.
En los datos de las calificaciones, la desviación estándar de datos no agrupados, elevamos
las diferencias con respecto a la media. La serie anterior se divide entre el número de
observaciones y finalmente se obtiene la raíz cuadrada.
Descargar