Estadística

Anuncio
Estadística
rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver
problemas como el diseño de experimentos y la toma de decisiones.
Muestreo
en estadística, proceso por el cual se seleccionan los individuos que formarán una muestra.
Para que se puedan obtener conclusiones fiables para la población a partir de la muestra, es importante tanto
su tamaño como el modo en que han sido seleccionados los individuos que la componen.
El tamaño de la muestra depende de la precisión que se quiera conseguir en la estimación que se realice a
partir de ella. Para su determinación se requieren técnicas estadísticas superiores, pero resulta sorprendente
cómo, con muestras notablemente pequeñas, se pueden conseguir resultados suficientemente precisos. Por
ejemplo, con muestras de unos pocos miles de personas se pueden estimar con muchísima precisión los
resultados de unas votaciones en las que participarán decenas de millones de votantes.
Para seleccionar los individuos de la muestra es fundamental proceder aleatoriamente, es decir, decidir al azar
qué individuos de entre toda la población forman parte de la muestra.
Si se procede como si de un sorteo se tratara, eligiendo directamente de la población sin ningún otro
condicionante, el muestreo se llama aleatorio simple o irrestrictamente aleatorio.
Cuando la población se puede subdividir en clases (estratos) con características especiales, se puede muestrear
de modo que el número de individuos de cada estrato en la muestra mantenga la proporción que existía en la
población. Una vez fijado el número que corresponde a cada estrato, los individuos se designan
aleatoriamente. Este tipo de muestreo se denomina aleatorio estratificado con asignación proporcional.
Las inferencias realizadas mediante muestras seleccionadas aleatoriamente están sujetas a errores, llamados
errores de muestreo, que están controlados. Si la muestra está mal elegida no es significativa se producen
errores sistemáticos no controlados.
Variable
cada una de las letras que se utilizan en álgebra en expresiones algebraicas, polinomios y ecuaciones, para
designar números desconocidos. Véase Indeterminada.
También se llaman variables a las letras (x, y) que se relacionan mediante las funciones.
Variable discreta
Los distintos valores que puede tomar un carácter cuantitativo configuran una variable estadística. La variable
estatura, en cierta población estadística, toma valores en el intervalo 147−205; y la variable número de
hermanos toma los valores 0, 1, 2, 3, 4, 5, 6, 7 y 8. Una variable estadística como esta última es discreta, ya
que sólo admite valores aislados. Una variable estadística es continua si admite todos los valores de un
intervalo, como ocurre con la estatura.
Variable continua
1
Un carácter puede ser cuantitativo si es medible numéricamente o cualitativo si no admite medición numérica.
El número de hermanos y la estatura son caracteres cuantitativos mientras que el sexo y el estado civil son
caracteres cualitativos.
Los distintos valores que puede tomar un carácter cuantitativo configuran una variable estadística. La variable
estatura, en cierta población estadística, toma valores en el intervalo 147−205; y la variable número de
hermanos toma los valores 0, 1, 2, 3, 4, 5, 6, 7 y 8. Una variable estadística como esta última es discreta, ya
que sólo admite valores aislados. Una variable estadística es continua si admite todos los valores de un
intervalo, como ocurre con la estatura.
Muestra de población
selección de un conjunto de individuos representativos de la totalidad del universo objeto de estudio, reunidos
como una representación válida y de interés para la investigación de su comportamiento. Los criterios que se
utilizan para la selección de muestras pretenden garantizar que el conjunto seleccionado represente con la
máxima fidelidad a la totalidad de la que se ha extraído, así como hacer posible la medición de su grado de
probabilidad.
La muestra tiene que estar protegida contra el riesgo de resultar sesgada, manipulada u orientada durante el
proceso de selección, con la finalidad de proporcionar una base válida a la que se pueda aplicar la teoría de la
distribución estadística.
Se distinguen varios tipos de muestras: la muestra simple, en la que cada individuo del universo considerado
tiene las mismas probabilidades de resultar elegido; la muestra estratificada, si la selección se realiza sobre
grupos o estratos diferentes; y, finalmente, la muestra por agrupamientos, que se basa en los segmentos o
asociaciones organizadas dentro del universo considerado.
ESTADÍSTICA DESCRIPTIVA
La estadística descriptiva analiza, estudia y describe a la totalidad de individuos de una población. Su
finalidad es obtener información, analizarla, elaborarla y simplificarla lo necesario para que pueda ser
interpretada cómoda y rápidamente y, por tanto, pueda utilizarse eficazmente para el fin que se desee. El
proceso que sigue la estadística descriptiva para el estudio de una cierta población consta de los siguientes
pasos:
Selección de caracteres dignos de ser estudiados.
Mediante encuesta o medición, obtención del valor de cada individuo en los caracteres seleccionados.
Elaboración de tablas de frecuencias, mediante la adecuada clasificación de los individuos dentro de cada
carácter.
Representación gráfica de los resultados (elaboración de gráficas estadísticas).
Obtención de parámetros estadísticos, números que sintetizan los aspectos más relevantes de una distribución
estadística.
ESTADÍSTICA INFERENCIAL
La estadística descriptiva trabaja con todos los individuos de la población. La estadística inferencial, sin
2
embargo, trabaja con muestras, subconjuntos formados por algunos individuos de la población. A partir del
estudio de la muestra se pretende inferir aspectos relevantes de toda la población. Cómo se selecciona la
muestra, cómo se realiza la inferencia, y qué grado de confianza se puede tener en ella son aspectos
fundamentales de la estadística inferencial, para cuyo estudio se requiere un alto nivel de conocimientos de
estadística, probabilidad y matemáticas.
Estudio Estadístico
La materia prima de la estadística consiste en conjuntos de números obtenidos al contar o medir elementos. Al
recopilar datos estadísticos se ha de tener especial cuidado para garantizar que la información sea completa y
correcta.
El primer problema para los estadísticos reside en determinar qué información y en que cantidad se ha de
reunir. En realidad, la dificultad al compilar un censo está en obtener el número de habitantes de forma
completa y exacta; de la misma manera que un físico que quiere contar el número de colisiones por segundo
entre las moléculas de un gas debe empezar determinando con precisión la naturaleza de los objetos a contar.
Los estadísticos se enfrentan a un complejo problema cuando, por ejemplo, toman una muestra para un sondeo
de opinión o una encuesta electoral. El seleccionar una muestra capaz de representar con exactitud las
preferencias del total de la población no es tarea fácil.
Para establecer una ley física, biológica o social, el estadístico debe comenzar con un conjunto de datos y
modificarlo basándose en la experiencia. Por ejemplo, en los primeros estudios sobre crecimiento de la
población, los cambios en el número de habitantes se predecían calculando la diferencia entre el número de
nacimientos y el de fallecimientos en un determinado lapso. Los expertos en estudios de población
comprobaron que la tasa de crecimiento depende sólo del número de nacimientos, sin que el número de
defunciones tenga importancia. Por tanto, el futuro crecimiento de la población se empezó a calcular
basándose en el número anual de nacimientos por cada 1.000 habitantes. Sin embargo, pronto se dieron cuenta
que las predicciones obtenidas utilizando este método no daban resultados correctos. Los estadísticos
comprobaron que hay otros factores que limitan el crecimiento de la población. Dado que el número de
posibles nacimientos depende del número de mujeres, y no del total de la población, y dado que las mujeres
sólo tienen hijos durante parte de su vida, el dato más importante que se ha de utilizar para predecir la
población es el número de niños nacidos vivos por cada 1.000 mujeres en edad de procrear. El valor obtenido
utilizando este dato mejora al combinarlo con el dato del porcentaje de mujeres sin descendencia. Por tanto, la
diferencia entre nacimientos y fallecimientos sólo es útil para indicar el crecimiento de población en un
determinado periodo de tiempo del pasado, el número de nacimientos por cada 1.000 habitantes sólo expresa
la tasa de crecimiento en el mismo periodo, y sólo el número de nacimientos por cada 1.000 mujeres en edad
de procrear sirve para predecir el número de habitantes en el futuro.
Media
número calculado mediante ciertas operaciones a partir de los elementos de un conjunto de números, x1,
x2,,xn, y que sirve para representar a éste. Hay distintos tipos de medias: media aritmética, media geométrica
y media armónica.
La media aritmética es el resultado de sumar todos los elementos del conjunto y dividir por el número de
ellos:
La media geométrica es el resultado de multiplicar todos los elementos y extraer la raíz n−ésima del producto:
3
La media armónica es el inverso de la media aritmética de los inversos de los números que intervienen:
Por ejemplo, para el conjunto de valores 4, 6, 9:
En estadística, la media es una medida de centralización. Se llama media de una distribución estadística a la
media aritmética de los valores de los distintos individuos que la componen.
Mediana
en estadística, una de las medidas de centralización. Colocando todos los valores en orden creciente, la
mediana es aquél que ocupa la posición central.
En geometría, cada uno de los tres segmentos rectilíneos que unen un vértice de un triángulo con el punto
medio del lado opuesto.
Moda (matemáticas)
en estadística, el valor que aparece con más frecuencia en un conjunto dado de números. Es una de las
medidas de centralización. En el conjunto {3,4,5,6,6,7,7,7,10,13} la moda es 7. Si son dos los números que se
repiten con la misma frecuencia, el conjunto tiene dos modas. Otros conjuntos no tienen moda.
Distribución de Frecuencias:
tabla de datos, referentes a una variable en cuestión, en la que se exponen varias categorías de la misma, junto
con sus frecuencias o número de veces que se repite en la muestra (puede expresarse también en porcentaje).
La tabla puede tener diferentes formatos y es llamada tabla de frecuencias. Cuando se comparan la frecuencia
de dos variables, se compone una tabla de contingencia, en la cual una variable ocupa las filas y la otra las
columnas.
Ejemplo de una tabla de frecuencias simple de la variable COMA, en sus categorías: Ausente y Presente.
(SPSS).
4
Gráfico de barra
gráfico de pastel
Si se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias.
5
Los histogramas
se utilizan para representar tablas de frecuencias con datos agrupados en intervalos. Si los intervalos son todos
iguales, cada uno de ellos es la base de un rectángulo cuya altura es proporcional a la frecuencia
correspondiente. El histograma
Medidas de dispersión
parámetros estadísticos que miden cómo de diseminados se encuentran los datos de una distribución. Los más
utilizados se refieren al grado de lejanía de los datos respecto a la media y son la desviación media, la
varianza, la desviación típica y el coeficiente de variación.
La desviación media, D.m., es un promedio de los valores absolutos de las desviaciones, |xi − ÷|, de cada
elemento, xi, de la distribución respecto a su media, ÷:
Por ejemplo, en la distribución 4, 6, 6, 7, 9, 11, 13, cuya media es 8, la desviación media es:
La varianza, V, es el promedio de los cuadrados de las desviaciones, (xi − ÷)2, de cada elemento, xi, respecto
a la media, ÷:
La fórmula anterior es equivalente a esta otra:
que resulta más cómoda de aplicar, sobre todo cuando la media, ÷, no es un número entero.
En la distribución 4, 6, 6, 7, 9, 11, 13, de media 8, la varianza es:
Aplicando la segunda fórmula se obtiene, obviamente, el mismo resultado:
6
La desviación típica o desviación estándar
es la raíz cuadrada de la varianza:
La razón de ser de este parámetro es conseguir que la medida de dispersión se exprese en las mismas unidades
que los datos a los que se refiere. Por ejemplo, en una distribución de estaturas en la que los datos están dados
en centímetros (cm), la media viene dada en centímetros, pero la varianza en centímetros cuadrados (cm2).
Para evitar este inconveniente se calcula su raíz cuadrada, obteniéndose así la desviación típica en
centímetros.
El par de parámetros formado por la media y la desviación típica (÷, ó) aporta una información
suficientemente buena sobre la forma de la distribución.
El coeficiente de variación, C.V., es el cociente entre la desviación típica y la media de la distribución:
Este parámetro sirve para relativizar el valor de la desviación típica y así poder comparar la dispersión de dos
poblaciones estadísticas con gamas de valores muy discretas. Por ejemplo, si en una compañía mexicana los
salarios de los empleados tienen una media ÷1 = 7.000 pesos y una desviación típica ó1 = 500 pesos y en otra
empresa española la media de los salarios es ÷2 = 200.000 pesetas y la desviación típica ó2 = 40.000 pesetas,
para comparar la dispersión de salarios se recurre al coeficiente de variación:
C.V.1 = 500/7.000 = 0,07
C.V.2 = 40.000/200.000 = 0,2
Se aprecia así que en la primera compañía los salarios tienen menor dispersión que en la segunda.
Otras medidas de dispersión son el recorrido y el recorrido intercuartílico.
El recorrido es la diferencia entre los valores mayor y menor de la distribución. Indica, pues, la longitud del
tramo en el que se hallan los datos. También se llama rango.
El recorrido intercuartílico es la diferencia, Q3 − Q1 , entre el cuartil superior, Q3, y el cuartil inferior, Q1. El
par de parámetros formado por la mediana, Me, y el recorrido intercuartílico, Q3 − Q1, proporciona una buena
información sobre la forma de la distribución.
Medidas de centralización
parámetros estadísticos que marcan, bajo distintos criterios, los valores en torno a los cuales se disponen los
datos de una distribución. También se llaman medidas de tendencia central, pues entorno a ellas se disponen
los elementos de las distribuciones. Las más importantes son la media, la mediana y la moda.
7
La media aritmética, promedio o, simplemente, media, de los valores x1, x2,, xn, se designa por ÷ y se obtiene
así:
Por ejemplo, si las edades de 7 niños son 4, 6, 6, 7, 9, 11 y 13, la media es:
La mediana, Me, es un número que supera a la mitad de los valores de la distribución y es superada por la otra
mitad.
Si el número de términos de la distribución es impar, la mediana es el valor del individuo que ocupa el lugar
central cuando los datos están ordenados de menor a mayor. Por ejemplo, en la distribución de edades 4, 6, 6,
7, 9, 11, 13, la mediana es Me = 7, pues hay tres datos menores que 7 y tres mayores que 7.
Si el número de términos de la distribución es par, la mediana es el valor medio de los datos centrales. Así, en
la distribución 4, 6, 6, 7, 8, 9, 11, 13, los valores 7 y 8 son los centrales. La mediana es Me = 7,5.
La moda, Mo, de una distribución estadística es el valor que más se repite. Una distribución puede tener más
de una moda o no tener ninguna. En la distribución 4, 6, 6, 7, 9, 11, 13, la moda es Mo = 6.
Gráfico Lineal de Perfil
en el siglo XIX, el matemático alemán Johann Benedict Listing demostró que un gráfico lineal con 2n vértices
impares se puede dibujar utilizando n trazos continuos, si cada uno de ellos comienza y termina en un vértice
impar.
Frecuencias Matemáticas
Frecuencia (matemáticas), en estadística, el número de veces que ocurre un cierto suceso. También se
denomina frecuencia absoluta, en contraposición con la frecuencia relativa, que consiste en la proporción de
veces que ocurre dicho suceso con relación al número de veces que podría haber ocurrido.
Por ejemplo, si una experiencia aleatoria se repite 80 veces y un cierto suceso, S, ocurre 36 veces, decimos
que su frecuencia ha sido 36, y su frecuencia relativa 36/80 = 0,45:
f(S) = 36 fr(S) =36/80 = 0,45
8
La frecuencia relativa también se expresa, en ocasiones, en tantos por ciento (45%).
FRECUENCIAS ACUMULADAS
En una tabla de frecuencias, cuando la variable es cuantitativa y, por tanto, los distintos valores de la tabla
aparecen ordenados de menor a mayor, se llama frecuencia acumulada de un valor de la variable a la suma de
su frecuencia con las frecuencias de los valores anteriores. Por ejemplo, si al lanzar un dado 100 veces se
obtienen los siguientes resultados:
f(1) = 16 f(2) = 13 f(3) = 21
f(4) = 19 f(5) = 14 f(6) = 17
las frecuencias acumuladas son:
fa(1) = 16 fa(2) = 16 + 13 = 29
fa(3) = 29 + 21 = 50 fa(4) = 50 + 19 = 69
fa(5) = 69 + 14 = 83 fa(6) = 83 + 17 = 100
Estos resultados se aprecian mejor en una tabla:
Las frecuencias relativas acumuladas son las frecuencias acumuladas divididas por el número total de
individuos.
Diagramas de Tallo y Hojas
Una técnica de recuento y ordenación de datos la constituye los diagramas de Tallos y Hojas.
Supongamos la siguiente distribución de frecuencias
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama
de Tallos y Hojas.
Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que
reordenadas son 2, 3 y 4.
A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo
9
Por último reordenamos las hojas y hemos terminado el diagrama
Diagrama de Cajas y Bigotes
Teniendo en cuenta que con las representaciones anteriores los datos están ordenados, podemos aprovechar
estas disposiciones para representar los diagramas de Cajas y Bigotes (boxplots o box and whiskers).
Estos diagramas se basan en los siguientes parámetros de la distribución: valor mínimo, los cuartiles Q 1, Q 2
y Q 3 y el valor máximo.
Para la primera distribución
Su diagrama de Cajas y Bigotes es
Intervalo de clase
En la tabla adjunta se muestra cómo se han repartido 1.200 calificaciones entre 0 y 10, en 10 intervalos
iguales columna (a). Las marcas de clase (centros de los intervalos) están en la columna (b), las frecuencias en
la (c), las frecuencias relativas en la (d), las frecuencias acumuladas en la (e) y las frecuencias acumuladas
relativas en la columna (f).
(a)
INTERVALO
0−1
1−2
2−3
3−4
4−5
5−6
6−7
7−8
8−9
9−10
0,5
1,5
2,5
3,5
4,5
5,5
6,5
7,5
8,5
9,5
(b)
MARCA
DE
CLASE
20
15
18
25
44
88
222
335
218
215
(c)
(d)
(e)
FRECUENCIA
FRECUENCIA
RELATIVA
0,017
0,012
0,015
0,021
0,037
0,073
0,185
0,279
0,182
0,179
20
35
53
78
122
210
432
767
985
1.200
FRECUENCIA
ACUMULADA
(f)
FRECUENCIA
ACUMULADA
RELATIVA
0,017
0,029
0,044
0,065
0,102
0,175
0,360
0,639
0,821
1,000
1.200 CALIFICACIONES DISTRIBUIDAS EN 10
INTERVALOS
10
Rango y amplitud
El número de clases y la amplitud de los intervalos los fija el investigador de acuerdo con el conocimiento que
posea de la población, la necesidad de hacer comparación con otras investigaciones y la presentación de la
información. Sin embargo, se recomienda que la información no sea demasiado compacta, lo cual le restaría
precisión, ni demasiado dispersa, ya que no se tendría claridad.
La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe trabajar con clases abiertas.
11
Descargar