APUNTES DE ESTADÍSTICA PARA 4º DE ESO OPCIÓN A TEMA 1

Anuncio
APUNTES DE ESTADÍSTICA PARA 4º DE ESO OPCIÓN A
TEMA 1: Qué es la Estadística y lenguaje que utiliza.
1.1. ¿Qué es la Estadística?
El nombre de ESTADÍSTICA alude al inicio de esta rama de las Matemáticas, cuyo
interés principal era por los asuntos de ESTADO (nación): empadronamientos, censos de
poblaciones, índices de natalidad y mortandad, etc. Pero actualmente la Estadística
interviene en los campos más diversos e insospechados; en materias que ni mucho menos
tienen que ver directamente con las Matemáticas (Sociología, Psicología, Biología,
Geología, Literatura, Medicina, Meteorología, mundo empresarial, Economía, previsiones
de cualquier tipo, Ciencias Humanas en general, etc.).
Podemos definirla como la Ciencia que, utilizando como instrumento base a las
Matemáticas, estudia las leyes de comportamiento de aquellos fenómenos que, no estando
sometidos a las leyes físicas, dependen del azar, bien describiéndolos (Estadística
Descriptiva o Deductiva), o generalizando dichas leyes y, basándose en ellas, predice,
infiere, induce o estima resultados desde un colectivo (llamado muestra) a toda la
población (Estadística Inferencial o Inductiva).
Otra definición puede ser esta: una rama de las Matemáticas que se ocupa de recoger,
analizar y extraer información útil de un conjunto de datos; esta información aparece en
forma de números, porcentajes o a través de gráficos.
El método que utiliza para ello (Método Estadístico) consiste en recoger, organizar,
resumir, presentar, analizar, extraer información relevante y útil del conjunto de datos
recogidos, generalizar a colectivos más amplios y contrastar los resultados con otros
colectivos.
En todo caso, la Estadística tiene por objeto el estudio de los colectivos y de las
relaciones que existen entre ellos, entendiendo por colectivo, población o universo, un
conjunto grande de elementos, personas o cosas. Así pues, la Estadística necesita de una
masa de elementos para poder ser aplicada, puesto que trata de hallar leyes de
comportamiento del conjunto en general y no de cada uno de los elementos en particular.
La población puede ser, según su tamaño, finita o infinita, o tan grande que
convenga considerarla como infinita.
Cuando la población o colectivo es muy grande, se hará difícil la observación
directa en cada elemento de ella de lo que se quiere estudiar, debido al enorme coste que
acarrearía, a la enorme capacidad de trabajo necesaria y al tiempo que se debería emplear.
Estos inconvenientes pueden ser superados mediante la elección, convenientemente
organizada, de sólo una parte de la población, lo suficientemente representativa, llamada
muestra.
La Estadística Inductiva o Inferencial es también un buen instrumento para rechazar
o aceptar las hipótesis que puedan hacerse sobre las características del colectivo total,
basándose en el análisis de una muestra representativa de dicho colectivo.
En nuestros días, la Estadística se ha convertido en un método efectivo para describir
valores de datos económicos, políticos, sociales, psicológicos, biológicos y físicos, y sirve
como herramienta para relacionar y analizar dichos datos, así como establecer descripciones,
predicciones, comparaciones y generalizaciones sobre una población a partir de los datos
obtenidos de una muestra.
Gracias al uso de los ordenadores, la rápida computación de los datos recogidos en
disciplinas como la Medicina, la Meteorología, la Sociología y otras ciencias y ramas del
saber, permite una mejor y más rápida aplicación de los métodos estadísticos.
La Prensa, la política y los programas informativos de televisión están cargados de
datos y de estudios estadísticos (estadísticas) sobre los más diversos temas.
1
1.2. El Método Estadístico.
El método, ya mencionado antes, seguido por esta ciencia requiere una planificación
en etapas básicas:
1.- Planteamiento del problema a estudiar. 2.- Recogida de datos. 3.- Depuración de los
datos. 4.- Presentación de los datos. 5.- Cálculo de los parámetros estadísticos necesarios.
6.- Confección de gráficos. 7.- Interpretación de parámetros y gráficos. 8.- Comparación, si
procede, con otros colectivos.
1.3. Lenguaje Estadístico.
(Aplicar simultáneamente todo lo anterior y lo que sigue a tres estudios concretos: 1.
Número de hijos (familias de los alumnos); 2. Anotar el color natural de su pelo: M, R, C,
P; 3. Estatura (talla) de cada uno en centímetros)
Población, colectivo o universo: Conjunto sobre el que se realiza el estudio. No tiene
porqué ser de personas.
Individuo: Cada elemento de la población.
Tamaño de la población: Número de individuos que la forman (N).
Carácter: Aspecto, fenómeno, rasgo o cualidad que se va e estudiar en una población. A las
distintas posibilidades que puede presentar un carácter se les llama modalidades si no se
expresan numéricamente, y valores en caso contrario. Estas posibilidades deben ser
incompatibles dos a dos, de manera que no haya un individuo que esté en más de una de
ellas, sino que cada individuo debe pertenecer a una y solo una de ellas. El número de
modalidades o valores de un carácter puede variar según la información que se quiera
recoger.
Podemos distinguir dos tipos de caracteres: cualitativos si las distintas modalidades
no son medibles numéricamente (sexo, estado civil, ...), recibiendo el nombre de atributos,
o cuantitativos si los valores del carácter se expresan numéricamente; en este caso, el
carácter se representa por una letra mayúscula (X, Y, Z, ...) y recibe el nombre de variable
estadística, que las hay discretas, cuando los posibles valores distintos que puede tomar son
aislados o números enteros (número de hijos, de empleados,...), o continuas, cuando los
posibles valores distintos que puede tomar son infinitos o forman parte de un intervalo de
números reales (peso, edad completa, talla, temperatura exacta,...).
Cuando se tenga una variable discreta que tome más de 12 ó 15 valores distintos,
cada uno de los cuales aparezca ni veces, éstos suelen también agruparse en intervalos como
si fuera continua, aunque de por sí no lo sea, por ser valores aislados o enteros. En casos así
la llamaremos variable discreta agrupada, o simplemente, variable agrupada, y,
repetimos, en todo la trataremos como variable continua. Se hace esto, sin gran perjuicio
para la información que se desea obtener, aunque, ciertamente, cuando se elabora una tabla
con datos agrupados siempre se pierde algo de información, pues en ella se ignora cada valor
concreto, que se difumina dentro de un intervalo y que es representado por otro valor (ver
“marca de clase”) diferente a él, generalmente, pero a cambio se gana en claridad y en
eficacia de cálculo y de organización.
Para el estudio de una variable estadística continua o discreta agrupada se usan las
clases o intervalos, que son grupos de los posibles valores que puede tomar la variable. La
amplitud de estas clases puede ser constante (todas miden igual) o variable. El número de
clases a adoptar depende de la precisión que se quiera conseguir, y a veces, poner muchas
clases o pocas lleva a una irregularidad en las conclusiones, pero no conviene que sean
menos de 6 ni más de 15. Un criterio aceptable es tomar en torno a N intervalos (N=tamaño
máx. valor - mín. valor
de la población o de la muestra en estudio), y como ancho,
, si sale
nº de int ervalos
2
exacto; si no fuese así, se añadirían valores a un lado y al otro simétricamente. También
procuraremos tomarlos semiabiertos en la forma [ , ) o bien ( , ], cuando algún valor de la
variable coincida justo con el de división de dos intervalos consecutivos. De no ocurrir esto,
se pueden tomar cerrados, o simplemente "De ... a ... ", o separados con un guión " ... - ... ",
pudiendo solaparse los valores extremos.
ALGUNAS DEFINICIONES MÁS
Al punto medio de cada clase o intervalo se le llama marca de clase ( mi ó xi), y es
el valor que representa a todo el intervalo.
Muestra: Subconjunto de individuos de la población sobre los que se realiza el estudio para
luego extrapolar o inferir las conclusiones a toda la población. Ya veremos más adelante
cómo elegir las muestras (Muestreo).
Frecuencia absoluta: Número de individuos que presentan una modalidad o valor ( ni ). La
suma de todas debe ser N (número total de individuos en estudio) ( Sni = N )
Frecuencia relativa: Cociente entre frecuencia absoluta y N. æç f i = n i ö÷. Se cumple que la
è
Nø
suma de todas debe ser 1 ( Sfi =1 ).
Porcentaje: Las frecuencias relativas expresadas en % (multiplicadas por 100). (pi=100 × f i ).
La suma de todos debe ser 100 ( Spi =100 ).
Frecuencia absoluta acumulada: Es la suma de las frecuencias absolutas, una vez
ordenados los valores de la variable, desde la primera, n1 , hasta la del que ocupa el lugar i ,
ni . La última de todas debe siempre valer N.
Frecuencia relativa acumulada: Como la anterior, pero de las relativas. La última de todas
debe valer 1.
Porcentajes acumulados: Lo mismo, pero con los porcentajes. El último de todos debe
valer 100.
Tabla estadística: Organización tabular de todos los datos, en la que es fácil ir haciendo
cálculos para ir obteniendo algunos de los parámetros estadísticos.
Sondeo: Es un método de investigación destinado a obtener información de un grupo de
individuos previamente seleccionado.
Encuesta: Es una técnica que nos va a permitir recoger la información necesaria para un
posterior estudio. Se puede realizar por observación o simplemente preguntando a los
individuos, y se puede realizar sobre el total de la población o sobre una muestra
representativa, si es que la población es muy numerosa o entrañara mucha dificultad a la
hora de consultarla.
Para realizar una encuesta hay que tener en cuenta:
1. La información que se desea recibir y con qué precisión.
2. A qué población va dirigida y qué muestra o muestras van a ser seleccionadas.
3. El método escogido para llevarla a cabo de forma que se eviten al máximo los
errores.
4. La forma de elaborarla para que el posterior análisis de las respuestas sea válido y
fácil de realizar.
Pasos a seguir en su elaboración:
1. Definir el objeto de la encuesta, formulando los objetivos y diseñando la muestra.
2. Formulación del cuestionario.
3. Trabajo de campo: obtención de los datos.
4. Obtención de los resultados, procesando y tabulando los datos obtenidos para
presentarlos para un posterior análisis.
Cuestionario: Es el medio de comunicación entre el que solicita los datos y el individuo
encuestado.
3
Un cuestionario se estructura en secciones, y éstas, en preguntas, que deben ser fáciles
de comprender y responder. Las preguntas deben cumplir:
1. Ser concretas, sin dar lugar a distintas interpretaciones.
2. Con lenguaje sencillo adaptado al nivel de los encuestados.
3. Deben facilitar la sinceridad de las respuestas.
4. Deben no ser molestas.
5. Es conveniente que al redactarlas no se influya en la respuesta.
6. El número de preguntas debe ser proporcional a la cantidad de información que se
quiere obtener.
7. Se deben construir de forma que las respuestas sean fácilmente codificadas,
depuradas y tratadas informáticamente.
8. Si son largos, tener una estructura que mantenga el interés del encuestado.
9. Se debe hacer previamente un ensayo con él (entre 30 y 100 entrevistas).
Pueden aparecer en él distintos tipos de preguntas:
1. Preguntas cerradas: Dan sólo dos respuestas posibles para marcar la que crea el
encuestado (sí – no, por ejemplo).
2. Abiertas: El encuestado en ellas puede expresar libremente su opinión.
3. De elección múltiple: Se pide al encuestado que escoja entre las respuestas que se
ofrecen (más de dos).
4. Preguntas con clasificación: Ordenar entre las opciones que se ofrecen.
5. Preguntas “¿Por qué?”: Es una pregunta abierta en la que se pide al interrogado que
muestre los motivos de sus respuestas.
6. Preguntas filtro: Permiten juzgar la validez de las respuestas. En ocasiones hay
personas que, sin tener idea de lo que se pregunta, responden, y sus respuestas pueden
falsear los resultados de los estudios.
A la hora de publicar los resultados de una encuesta son necesarios los informes:
Son importantes para avalar la seriedad del estudio hecho, y no es frecuente
encontrarlos en los estudios estadísticos que aparecen en los medios de comunicación,
con lo que puede manipularse la información a los usuarios si estos no están advertidos.
Y son de dos tipos:
a) El técnico, que debe mostrar información exhaustiva sobre la población objeto del
estudio, muestra o muestras escogidas y método de selección de individuos para dichas
muestras (tipo de muestreo aplicado), método de recogida de datos, fuentes de esos
datos, fecha, metodología seguida, empresa encargada del estudio, etc.
b) El resumido, que deberá incluir la información básica sobre las fuentes de datos y
lo expuesto en el apartado anterior. Es el que suele ir dirigido al usuario en general.
TEMA 2: Estadística Descriptiva unidimensional.
2.1. Organización tabular de los datos.
Los datos se recuentan, se agrupan y se organizan en tablas llamadas tablas de
frecuencias.
En ellas se van preparando y organizando los datos, añadiendo las columnas de
cálculos necesarios para realizar gráficos adecuados y calcular los parámetros estadísticos
convenientes.
(Ir haciendo todo esto con los datos recogidos de los alumnos para los tres estudios
que haremos en principio).
4
Aparecerán las columnas referentes a: X , con los xi , que son los distintos valores
de la variable estadística X , si el carácter fuese cuantitativo (variable) discreto, o con los
Ii, que son los intervalos o clases, seguidos de las xi , que aquí corresponderían a las
marcas de clase, si el carácter fuese cuantitativo (variable) continuo o discreto agrupado; o
con las modalidades , si se tratara de un carácter cualitativo.
A estas columnas les seguirán las encabezadas por las: ni , fi , pi , Ni , Fi , Pi , y más
adelante, y sólo para caracteres cuantitativos, las columnas correspondientes a: x i n i , x i2 n i .
Hay unas tablas especiales muy utilizadas en Geografía, Historia y Economía que
son para mostrar las series cronológicas o temporales, que recogen observaciones de un
mismo carácter a lo largo de un periodo de tiempo, que se suele dar en años o incluso en
meses.
2.2. Gráficos.
1.Diagrama de barras: Se usa para caracteres cuantitativos discretos (variable no
agrupada), cualitativos, y para series cronológicas. Pueden hacerse vertical u
horizontalmente; con frecuencias absolutas, relativas (útiles para comparar poblaciones) o
porcentajes, acumuladas o no. Se trazan sobre los ejes con rectángulos más o menos
estrechos de longitud proporcional a las frecuencias, procurando que no se solapen.
2. Histogramas: Guardan la misma idea que los anteriores, pero usados para caracteres
cuantitativos continuos (variables estadísticas continuas) o discretos agrupados (variables
estadísticas agrupadas). Son aquí las áreas de los rectángulos las que deben ser
proporcionales a las frecuencias, de manera que si tienen distintas amplitudes los intervalos,
las alturas de las torres deben ser hi=ni/ci (donde ci es la amplitud de cada intervalo) o las
longitudes de los mismos si son todos de igual base. Entre ellos están las llamadas
pirámides de población, en los cuales están cambiados los ejes y son en realidad dos
histogramas unificados, uno a izquierda y otro a derecha, uno para hombres y otro para
mujeres, por ejemplo.
3. Polígonos de frecuencias: Se forman uniendo los puntos medios de las bases superiores
de las barras o de los rectángulos del histograma, según sea la variable discreta, o agrupada o
continua, respectivamente. Entre ellos se encuentran los climogramas, que representan la
marcha semanal, mensual o anual de las temperaturas o de las lluvias medias caídas. Pueden
confeccionarse con las frecuencias absolutas o con las relativas, normales o acumuladas. A
estos últimos los llamaremos polígonos de frecuencias acumuladas.
4. Diagramas de sectores: Son gráficos en los que a cada valor o modalidad se le asigna un
trozo de círculo (sector circular) de área (o número de grados de amplitud) proporcional a la
frecuencia que representan. Usados para caracteres cualitativos o cuantitativos discretos sin
agrupar.
5. Pictogramas: Son gráficos con dibujos alusivos al carácter que se está estudiando y
cuyos tamaños son proporcionales a las frecuencias que representan, las cuales se deben
indicar en el dibujo.
6. Cartogramas: Son gráficos realizados sobre mapas, en los que aparecen indicados sobre
las distintas zonas cantidades y colores de acuerdo con el carácter que representan.
7. Barras e histogramas tridimensionales.
5
Etc.
Cuando nos encontremos con información basada en gráficos estadísticos de
cualquier tipo, y para evitar que nos llegue deformada, es importante tener en cuenta:
1. Las escalas utilizadas en los ejes coordenados cuando los haya.
2. Si no hay ejes, la información numérica debe aparecer en el gráfico, guardando la
correspondiente proporción con los tamaños asignados.
De no ser así, se pueden manipular los gráficos a gusto de los intereses de partidos políticos,
empresas, etc.
2.3. Medidas o parámetros estadísticos.
A) Medidas de centralización:
A1) MEDIA aritmética: Es la media aritmética de todos los valores: se suman
todos, uno por cada individuo, y se divide la suma por el número total de individuos de la
población (o de la muestra, si es media muestral). Si alguno se repite varias veces (ni veces) ,
se suma tantas veces como aparece, es decir, se multiplica su valor por las veces que
aparece. Por eso tenemos la fórmula para la media: x =
åx n
i
N
i
= å x i f i . Si fuese la muestral
se utilizaría la letra griega m (mu).
 La media es el centro de gravedad de la distribución de los datos.
 Si hay valores extremos y poco significativos, la media puede que no sea muy
representativa de toda la población. Por eso se suele estudiar conjuntamente con la
desviación típica (Coeficiente de Pearson).
 Por supuesto que puede tomar un valor no coincidente con ningún valor de la
variable que esté en la tabla.
 Si se suma o resta una misma cantidad constante a todos los valores de la variable, su
media queda aumentada o disminuida en dicha cantidad.
 Si se multiplican o dividen todos los valores de la variable por una misma cantidad
constante, también la media queda multiplicada o dividida por ella.
 Estas dos últimas propiedades permiten cambiar de escala los valores de la variable
cuando convenga.
A2) MODA: Se define como el valor o la modalidad más frecuente (con mayor
frecuencia).
En el caso de una variable no agrupada es el valor de la variable que más se repite. Si
se estudia un carácter cualitativo, la modalidad que más se repita.
En el caso de una variable agrupada en intervalos de igual amplitud se busca el
intervalo de mayor frecuencia (intervalo o clase modal) y se aproxima la moda por el valor
obtenido al aplicar la fórmula:
Mo = Li-1 +
ni - n i-1
× ci
(ni - n i-1) + (ni - n i+1)
en donde: Li-1 es el límite inferior del intervalo modal, ni es la frecuencia absoluta del
intervalo modal, ni-1 es la frecuencia absoluta del intervalo anterior al intervalo modal, ni+1 la
del intervalo posterior al modal, y ci es la amplitud del intervalo.
Puede ser que exista más de una moda, en cuyo caso se dice que la distribución es
bimodal, trimodal, etc.
La moda es menos representativa que la media, excepto para las distribuciones con
datos cualitativos.
6
A3) MEDIANA: Se define como el valor central de la variable, es decir, el que deja
el 50 % de los datos a la izquierda y el otro 50 % restante a la derecha. Se calcula así:
En el caso de una variable no agrupada, una vez ordenados todos los datos (en orden
creciente o decreciente) , es el valor central si el número de observaciones es impar, o la
media de los dos centrales si es par. Resulta muy útil para esto aprovechar, en la tabla, la
columna de las frecuencias absolutas acumuladas, o mejor aún, la de los porcentajes
acumulados: se busca en dicha columna dónde está incluido el porcentaje 50 % y se mira el
correspondiente valor de la variable.
En el caso de una variable agrupada o continua, hemos de buscar (aprovechando, por
ejemplo, la columna de las Pi de la tabla) el intervalo central, que es aquél que corresponda
con el valor de la columna de las Pi donde esté incluido el porcentaje 50 % , y se aplica la
fórmula:
N
- N i-1
Me = Li-1 + 2
× ci
ni
B) Medidas de posición:
B1) PERCENTILES o CENTILES: Una vez ordenados todos los valores de la
variable (los datos), son los valores de la variable que dejan a su izquierda un porcentaje
determinado de la población. Se representan por Ch o Ph , donde h indica el porcentaje. Por
ejemplo, el C32 es el valor de la variable que deja a su izquierda el 32 % de la población.
Si la variable es agrupada o continua, una vez obtenido (mediante la columna de las
Ni o la de las Pi ) el intervalo en el que se encuentra cada centil, se aplica la fórmula
siguiente:
N
h×
- N i-1
100
Ch = Li-1 +
× ci
ni
donde ya sabemos el significado de cada cosa.
B2) CUARTILES: Son los centiles C25 , C50 y C75 , llamados “primer cuartil”
(Q1=C25) , “segundo cuartil” (Q2=C50=Me) y “tercer cuartil” (Q3=C75).
B3) DECILES: Son, respectivamente, D1=C10 , D2=C20 , etc.
C) Medidas de dispersión:
C1) RANGO o RECORRIDO: Es la diferencia entre el mayor valor y el menor de
la variable, si ésta no está agrupada. Si está agrupada, es la diferencia entre el límite superior
del último intervalo y el límite inferior del primero.
C2) RANGO INTERCUARTÍLICO: Es la diferencia Q3 - Q1 , y nos da una franja
en la que se encuentra el 50 % central de la población.
Todas las medidas estudiadas hasta aquí se miden en las mismas unidades que los
datos
C3) VARIANZA: Es la media de los cuadrados de las desviaciones respecto a la
media. Se representa por V, S2 o también por
s 2.
7
(
)
2
El cuadrado de la desviación de cada valor respecto a la media es: xi - x . Así
queda la fórmula siguiente:
V = S =s
2
2
å( x
=
i
)
2
- x × ni
åx
=
N
Se mide en unidades cuadradas.
2
i
× ni
N
- x = å x i2 × f i - x
2
2
C4) DESVIACIÓN TÍPICA: Es la raíz cuadrada positiva de la varianza. Se
representa por DT, S o por  .
La fórmula es la anterior afectada de una raíz cuadrada.
Es la unidad de dispersión más utilizada y la más importante. Indica el nivel de
concentración de los datos en torno a la media aritmética ( más dispersos cuanto más se aleje
de cero la d. t.)
Se mide en las mismas unidades que los datos.
Propiedades importantes de estas dos últimas medidas, con vista a los cambios de
escala, son:
1ª) Si a los valores de una variable se les suma (resta) la misma constante, la varianza y la
desviación típica es la misma que la de los datos iniciales.
2ª) Si lo que se hace es multiplicar (dividir) todos los datos por una constante distinta de
cero, la varianza quedaría multiplicada (dividida) por el cuadrado de dicha constante,
mientras que la desviación típica lo haría por la constante.
C5) COEFICIENTE DE VARIACIÓN DE PEARSON (CV). Para comparar las
dispersiones de dos o más distribuciones (variables estadísticas) no podemos confrontar
simplemente las varianzas o las desviaciones típicas respectivas, puesto que estos
coeficientes de dispersión vienen afectados por la unidad de medida de la respectiva
variable. Es necesario, por tanto, eliminar esa influencia convirtiendo dichas medidas en
números abstractos. El coeficiente de variación de Pearson , definido como el cociente
entre la desviación típica y la media: CV = s , cumple perfectamente con este cometido.
x
Como cociente de las mismas unidades es adimensional y se puede dar en % , e
indica la representatividad de la media en la distribución de los datos: si toma valores
cercanos a cero, la media es muy representativa del conjunto de datos, puesto que la
dispersión es menor, y si se aleja de cero, la media sería poco representativa, debido a la
mayor dispersión de datos en torno a ella. Solo en los casos en que la media sea muy
próxima a cero no debe usarse, ya que el denominador es muy pequeño y puede dar un grado
erróneo de dispersión.
Cuanto menor es el coeficiente de variación más homogénea es la distribución.
Al ser una medida relativa, permite comparar distribuciones del mismo tipo, aunque
tengan distinto tamaño.
8
Descargar