Descargar

Anuncio
Compilación y armado Sergio Pellizza
biblioises Apoyatura Académica
Bibliotecas digitales para todos
ESTADISTICA INTRODUCCION 2
1 -Estadística Descriptiva: Metodos que implican llevar a cabo determinadas acciones
con un conjunto de datos a fin de describir en forma apropiada las diversas características
del mismo.
Recopilación de datos ya sea internos (sueldos de un mes, ventas anuales) o externos, los
ultimos se obtienen de dos maneras: por publicaciones de otros entes, que es mas facil de
conseguir que la segunda manera que es por encuesta, tarea costosa, tediosa y consumidora
de tiempo.
Organización: Los datos publicados generalmente estan ordenados a diferencia de los
encuestados que necesitan de una correccion, en la que se eliminan las inconsistencias y las
respuestas irrelevantes, una clasificacion en base a la cual seran agrupados, paso muy
importante ya que de el dependen los posteriores; y una tabulacion, en donde se numeran y
registran los datos
Presentación: su objetivo es facilitar la lectura y exiten tres formas: a traves de enunciados
(sirven para pocos item de lo contrario se vulve ineficiente y pesado), de tablas estadísticas
(dan valores exactos y son efectivas si estan bien construidas), y de graficas estadísticas
(dan idea de un valor aproximado y al igual que las anteriores son efectivas si estan bien
construidas)
Análisis: Existen numerosas variedades, desde la simple observación de los datos hasta
metodos complicados, sofisticados y de investigación altamente matemática. A pesar de
ello, se podrían distinguir 4 principales: el análisis estadístico simple (con operaciones
matemáticas basicas), la inducción estadística (metodo para obtener inferencias a partir de
muestras), análisis de series de tiempo (es importante en el estudio de cambios en las
actividades de negocios y economicas dentro de varios periodos de tiempo), análisis de
relaciones (relacion entre dos o mas conjunto de datos estadísticos)
Interpretación de datos: permite llegar a una conclusión y ayudar a tomar desiciones.
Datos estadísticos: el estadístico se maneja con variables aleatoreas, porque querra
desarrollar un instrumento en que se hagan distintas preguntas y trate con una variedad de
fenómenos.
Hay 2 tipos básicos de variables aleatorias:
Cualitativas: dan respuestas numerosas, y pueden ser discretas (surgen de las nociones de
conteo, ej: en cuantas materias esta inscripto?), o continuas (surgen de procesos de
medicion, ej.: Cual es su edad?).
Cuantitativas: dan respuestas categóricas, ej.: Cursa materias todos los dias?
Propiedades de los datos:
Medidas de posición: es la característica mas importante que describe un grupo de datos.
La mayoria de los conjuntos de datos sufren una tendencia a agruparse en torno a cierto
punto. Por ello para cualquier conjunto particular de datos suele ser posible seleccionar un
valor tipico descriptivo: promedio (medida de tendencia contral o posición) que consta de 3
medidas primarias:
Media aritmética: promedio mas conocido o de mas uso por ser facil de calcular. Es la
sumatoria de los valores en la muestra dividido la sumatoria de los numeros de observación
de la muestra.
Mediana: aparece en el medio de una sucesión ordenada de valores.
Modo: valor mas tipico o comun observado en un conjunto de datos.
Medidas de dispersión:Es la cantidad de variación, desperdigamiento o diseminación en los
datos. Las medidas son: 1) recorrido, 2) recorrido intercuartilico, 3) varianza, 4)
desviación estandar, 5) coeficiente de variación.
Medidas de forma Es la manera en la cual estan distribuidos los datos. Se compara solo la
media y la mediana.
Media = mediana => datos simétricos o sesgamiento
Media > mediana => datos positivos o consesgamiento a la derecha
Media < mediana => datos negativos o consesgamiento a la izquierda.
2- E
STADISTICAS
a) ¿QUÉ ES LA ESTADÍSTICA?
Estadística es una disciplina que sistematizado las técnicas de recolección y análisis de
datos; nos permite inferir consecuencias a partir de estos.
b) ¿QUÉ ES UNA POBLACION?
Una población es el conjunto total de todos los individuos u objetos que poseen una
característica común observable, que sean de interés en un estudio. Son ejemplos de una
población:
 Los alumnos de un curso.
 Los pacientes de un hospital.
 Los votantes de una comuna.
c) ¿QUÉ ES UNA MUESTRA?
Es un subconjunto de la población. Es de un tamaño menor al total de la población y la
estadística pretende obtener conclusiones válidas que pueden aplicarse al total a partir
de los resultados observados en la muestra. Son ejemplos de muestra:
 1.820 televidentes escogidos al azar.
 Los automovilistas que acceden a contestar una encuesta de opinión.
 Uno de cada diez sacos de maíz de un cargamento.
d) ¿A QUE SE LLAMA "MARCA DE CLASE"?
Se le llama marca de clase a los valores representativos de todos los valores incluidos
en el intervalo respectivo; equivale a la semisuma de los límites inferior y superior de
un intervalo.
e) ¿QUÉ SON LOS LIMITES INFERIORES Y SUPERIORES?
Los límites inferiores y superiores son los valores mínimo y máximo de una
distribución. V.g: En un curso de 50 alumnos, se le pidió a un profesor que pesará a
todos, los datos obtenidos son los siguientes:
88 - 77 - 74 - 64 - 67 - 69 - 49 - 82 - 69 - 71 38 - 65 - 86 - 68 - 77 - 84 - 66 - 73 - 75 - 58 94 - 78 - 67 - 75 - 78 - 89 - 69 - 91 - 84 - 62 50 - 72 - 39 - 62 - 58 - 74 - 79 - 81 - 70 - 79 90 - 81 - 79 - 86 - 97 - 78 - 75 - 90 - 98 - 81.
LIMITE SUPERIOR: 98
LIMITE INFERIOR: 38
f) ¿QUÉ ES LA AMPLITUD?
La amplitud es el tamaño numérico que existe entre los intervalos. Considerando el
siguiente ejemplo, la amplitud es igual a 5.
intervalo
11 - 15
16 - 20
Frecuencia
5
8
g) ¿QUÉ ES EL RECORRIDO?
El recorrido o campo de variación de la variable, es la diferencia entre el mayor valor
que toma la variable y el menor. Por ejemplo, si el mayor valor es 85 y el menor es 17,
entonces el recorrido es:
h) CON UNA RECOLECCION DE DATOS CONSTRUYA UNA TABLA DE
FRECUENCIAS.
Situación: En un curso de 50 alumnos, se le pidió a un profesor que pesará a todos los
alumnos, los datos obtenidos son los siguientes:
88 - 77 - 74 - 64 - 67 - 69 - 49 - 82 - 69 - 71 38 - 65 - 86 - 68 - 77 - 84 - 66 - 73 - 75 - 58 94 - 78 - 67 - 75 - 78 - 89 - 69 - 91 - 84 - 62 50 - 72 - 39 - 62 - 58 - 74 - 79 - 81 - 70 - 79 90 - 81 - 79 - 86 - 97 - 78 - 75 - 90 - 98 - 81.
Al organizar los datos
en una tabla de
frecuencia, se obtiene:
Intervalos (peso en
kg.)
35 - 39
40 - 44
45 - 49
50 - 54
55 - 59
60 - 64
65 - 69
70 - 74
75 - 79
80 - 84
85 - 89
90 - 94
95 - 99
nº de alumnos
Porcentaje (%)
2
0
1
1
2
3
8
6
11
6
4
4
2
4
0
2
2
4
6
16
12
22
12
8
8
4
i) Con los datos de esta tabla construir un histograma y un polígono de frecuencia.
Peso Alumnos de un Curso (Histograma)
25
porcentaje (%)
20
15
10
5
0
35 - 39
40 - 44 45 - 49
50 - 54
55 - 59
60 - 64
65 - 69 70 - 74
75 - 79 80 - 84
85 - 89
90 - 94
peso en grs
Peso Alumnos de un Curso (Polígono de frecuencia)
nº de alumnos
25
20
15
10
5
0
35 - 39 40 - 44 45 - 49 50 - 54 55 - 59 60 - 64 65 - 69 70 - 74 75 - 79 80 - 84 85 - 89 90 - 94 95 - 99
peso en kgs
j) ¿QUÉ ES LA MEDIA ARITMETICA, LA MODA, LA MEDIANA, LA
DESVIACIÓN MEDIA Y LA DESVIACIÓN ESTANDÁR?
Son valores que tipifican una muestra y en torno de los cuales se agrupan la mayoría de
los datos, estos se denominan estadígrafos. A continuación definiremos cada uno de estos.
 MEDIA ARITMETICA: Corresponde a la suma de todos los datos dividido por el
numero total de ellos. Es lo que se conoce como "promedio". La media aritmética es
uno de los estadígrafos más usados, por el hecho de ser de muy fácil cálculo.
 MODA: Corresponde al valor que mas se repite, ésta sirve para describir una
distribución si sólo se desea tener una idea aproximada y rápida de donde está la mayor
concentración de observaciones. También se la utiliza para describir la forma de
algunas distribuciones. Puede ocurrir que en un conjunto de datos no haya moda, como
95 - 99
en: 3; 4; 7; 9; 10; 11; 13. O también que haya varios valores con la mayor frecuencia, en
estos casos la moda queda indeterminada.
 MEDIANA: La mediana es aquel valor que ocupa el lugar central, de modo que la
mitad de los casos queda por debajo de ese valor y la otra mitad por encima. Por
ejemplo si consideramos: 2; 3; 5; 7; 11; 13; 16; 18; 25. La mediana es M = 11. Si el
conjunto de valores es un número par, entonces se calcula la media aritmética a los dos
valores del centro.
 DESVIACION MEDIA: Corresponde a la diferencia numérica entre una medida
individual o número y la media aritmética de una serie completa de tales medidas o
números. Por ejemplo, si la media de alturas de todos los alumnos de un curso es 1,51
m y uno de ellos mide 1,63m, la desviación media de su altura con respecto a la media
es de +0.12 metros.
 DESVIACIÓN ESTANDAR: Es un dato que representa la variabilidad existente en un
conjunto de datos, ya que por ejemplo dos conjuntos de datos pueden presentar la
misma media aritmética, pero poseer distinta variabilidad, por eso este estadígrafo nos
permite saber acerca de la variabilidad o dispersión de los datos. Matemáticamente se
define como "la raíz cuadrada del promedio de los cuadrados de las desviaciones
medias de cada valor de la variable con respecto de la media aritmética"
k) HACER UNA TABLA DE DONDE SE DETERMINE CADA UNO DE LOS
ESTADIGRAFOS ANTERIORES.
1-2-2-2-3-3-4-4-5-67 - 7 - 8 - 8 - 8 - 8- 8- 8 - 8 - 9 9 - 10 - 12 - 13 - 15 - 16 - 19
Intervalos
1-5
6 - 10
11 - 15
16 - 20
Media Aritmética:
205 = 7.5
27
" 7.5 es el valor de la media
aritmética para los datos dados."
frecuencia
9
13
3
2
Moda: De los datos anteriores, la
moda corresponde a "8".
Mediana: En los datos anteriores, la
mediana es el valor "8" ennegrecido.
DESVIACIÓN MEDIA:
Datos =
1- 2 - 2 - 2 - 3 - 3 - 4 - 4 - 5 - 6 -7 - 7 - 8 - 8 - 8D. media = -6.5 , -5.5, -5.5 , -5.5 , -4.5 , -4.5 , -3.5 , -3.5 , -2.5 , -1.5 , -0.5 , -0.5 , 0.5 , 0.5 , 0.5
Datos =
8 - 8 - 8 - 8 - 9 - 9 - 10 - 12 - 13 - 15 - 16 - 19
D. media = 0.5 , 0.5 , 0.5 , 0.5 , 1.5 , 1.5 , 2.5 , 4.5 , 5.5 , 7.5 , 8.5 , 11.5.-
DESVIACIÓN ESTANDAR:
 las desviaciones medias de cada valor, calculadas anteriormente se elevan al
cuadrado =
42.25 , 30.25 , 30.25 , 30.25 , 20.25 , 20.25 , 12.25 , 12.25 , 6.25 , 2.25 , 0.25 , 0.25 ,
0.25 , 0.25 , 0.25 , 0.25 , 0.25 , 0.25 , 0.25 , 2.25 , 2.25 , 6.25 , 20.25 , 30.25 , 56.25 ,
72.25 , 132.25. la suma de los cuadrados se divide por el promedio menos 1 =
530.75
/ 7.5 - 1 = 81.65
 calculamos la raíz cuadrada de 81.65 =
 81.65 = 9.04

el valor de la desviación estándar es de 9.04 en el ejemplo señalado.
3
ESTADÍSTICA:
Rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y
que ayuda a resolver problemas como el diseño de experimentos y de toma de decisiones.
HISTORIA
Desde los comienzos de la civilización han existido formas sencillas de estadística, pues ya
se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y
paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año
3000 a.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos en
tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante
trueque. Los egipcios analizaban los datos de la población y la renta del país mucho antes
de construir las pirámides en el siglo XXXI a.C. Los libros bíblicos de Números y Crónicas
incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la
población de Israel y el segundo describe el bienestar material de las diversas tribus judías.
En China existían registros numéricos similares con anterioridad al año 2000 a.C. Los
griegos clásicos realizaban censos cuya información se utilizaba hacia el 594 a.C. para
cobrar impuestos.
El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la
población, superficie y renta de todos los territorios bajo su control. Durante la edad media
sólo se realizaron algunos censos exhaustivos en Europa. Los reyes caloringios Pipino el
Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia
en los años 758 y 762 respectivamente. Después de la conquista normanda de Inglaterra en
1066, el rey Guillermo I de Inglaterra encargó un censo. La información obtenida con este
censo, llevado a cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos
y defunciones comenzó en Inglaterra a principios del siglo XVI, y en 1662 apareció el
primer estudio estadístico notable de población, titulado Observations on the London Bills
of Mortality (Comentarios sobre las partidas de defunción en Londres). Un estudio similar
sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue
utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de
mortalidad. En el siglo XIX, con la generalización del método científico para estudiar todos
los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la
necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las
descripciones verbales.
En nuestros días, la estadística se ha convertido en un método efectivo para describir con
exactitud los valores de datos económicos, políticos, sociales, psicológicos, biológicos y
físicos, y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del
experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo en el
proceso de interpretación de esa información. El desarrollo de la teoría de la probabilidad
ha aumentado el alcance de las aplicaciones de la estadística. Muchos conjuntos de datos se
pueden aproximar, con gran exactitud, utilizando determinadas distribuciones
probabilísticas; los resultados de éstas se pueden utilizar para analizar datos estadísticos. La
probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para
predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico.
OBJETO DE ESTADÍSTICA:
La estadística tiene por objeto el desarrollo de técnicas para el conocimiento numérico de
un conjunto.
La estadística se divide en 2 ramas principales:
 Estadística descriptiva: Cuyo objetivo es examinar a todos los individuos de un
conjunto.
 Estadística inferencial: Por la que, mediante el estudio de una muestra se sacan
conclusiones válidas para la totalidad.
POBLACIÓN Y MUESTRA: Se llama población al conjunto formado por todos los
elementos cuyo conocimiento nos interesa. A cada uno de los elementos se lo llama
individuo.
Muestra es un subconjunto limitado extraído de una población, con objeto de reducir el
campo de experiencias. Las propiedades que obtengamos se harán extensivas a toda la
población.
CARCACTERES: Para el conocimiento de una población estadística, deberemos analizar
a cada uno de sus individuos (o a cada individuo de una muestra). Pero ese análisis no
puede ser exhaustivo; deberemos seleccionar uno o varios detalles (caracteres) y ver cómo
se manifiesta ese carácter en cada uno de los individuos. Por ejemplo, de una población de
mazorcas de maíz, los caracteres dignos de estudio pueden ser: color, número de granos,
longitud, peso, etc.
Los caracteres pueden ser:
 Cualitativos: que se presentan bajo varias cualidades no medibles. Ej: color
 Cuantitativos: cuando son medibles. Ej: longitud de una mazorca, su peso, número
de granos, etc.
Un carácter cuantitativo es discreto (o de variación discreta) cuando sólo puede tomar
determinados valores. Es el caso del número de granos de una mazorca. Y se llama
continuo (o de variación continua) cuando puede tomar valores tan próximos como se
quiera (longitud, peso, etc.)
ESTADÍSTICA DESCRIPTIVA:
Esta rama de la estadística trata de describir y analizar un grupo dado sin sacar
conclusiones para un grupo mayor. Trabaja en poblaciones, no en muestras propiamente
dichas.
Para esa descripción y análisis de los individuos, que son el objeto de la estadística
descriptiva, esta utiliza el siguiente método:
 Selección de caracteres: Dignos de estudio.
 Análisis de cada carácter. Este análisis consiste en:
a. examinar cada individuo y anotar el valor de cada carácter.
b. Establecer las clases de individuos que se desean distinguir respecto a ese carácter.
c. Clasificar y contar los individuos incluidos en cada clase
d. Calcular determinados valores numéricos (los parámetros estadísticos) a partir de
los datos contenidos en las distribuciones anteriores.
Cuando se pretende dar a conocer a un gran público los resultados de estos análisis, se
suelen utilizar representaciones gráficas de los datos tabulados en el apartado anterior.
ESTADÍSTICA INFERENCIAL:
Cuando hay problemas cuya resolución se nos torna:
 Imposible debido a lo inmenso del problema (millones de individuos).
 Posible, pero ruinoso.
Recurrimos a la estádistica inferencial (diseño de experimentos, teoría de muestras, teoría
de la estimación, etc...) para hallar respuesta de los interrogantes.
Los datos recogidos deben ser organizados, tabulados y presentados para que su análisis e
interpretación sean rápidos y útiles. Por ejemplo, para estudiar e interpretar la distribución
de las notas o calificaciones de un examen en una clase con 30 alumnos, primero se
ordenan las notas en orden creciente: 3,0; 3,5; 4,3; 5,2; 6,1; 6,5; 6,5; 6,5; 6,8; 7,0; 7,2; 7,2;
7,3; 7,5; 7,5; 7,6; 7,7; 7,8; 7,8; 8,0; 8,3; 8,5; 8,8; 8,8; 9,0; 9,1; 9,6; 9,7; 10 y 10. Esta
secuencia muestra, a primera vista, que la máxima nota es un 10, y la mínima es un 3; el
rango, diferencia entre la máxima y la mínima es 7.
En un diagrama de frecuencia acumulada, como el de la figura 1, las notas aparecen en el
eje horizontal y el número de alumnos en el eje vertical izquierdo, con el correspondiente
porcentaje a la derecha. Cada punto representa el número total de estudiantes que han
obtenido una calificación menor o igual que el valor dado. Por ejemplo, el punto A
corresponde a 7,2, y según el eje vertical, hay 12 alumnos, o un 40%, con calificaciones
menores o iguales que 7,2.
Para analizar las calificaciones obtenidas por 10 clases de 30 alumnos cada una en cuatro
exámenes distintos (un total de 1.200 calificaciones), hay que tener en cuenta que la
cantidad de datos es demasiado grande para representarlos como en la figura 1. El
estadístico tiene que separar los datos en grupos elegidos previamente denominados
intervalos. Por ejemplo, se pueden utilizar 10 intervalos para tabular las 1.200
calificaciones, que se muestran en la columna (a) de la tabla de distribución de datos
adjunta; el número de calificaciones por cada intervalo, llamado frecuencia del intervalo, se
muestra en la columna (c). Los números que definen el rango de un intervalo se denominan
límites. Es conveniente elegir los límites de manera que los rangos de todos los intervalos
sean iguales y que los puntos medios sean números sencillos. Una calificación de 8,7 se
cuenta en el intervalo entre 8 y 9; una calificación igual a un límite de intervalo, como 9, se
puede asignar a cualquiera de los dos intervalos, aunque se debe hacer de la misma manera
a lo largo de toda la muestra. La frecuencia relativa, columna (d), es la proporción entre la
frecuencia de un intervalo y el número total de datos. La frecuencia acumulada, columna
(e), es el número de estudiantes con calificaciones iguales o menores que el rango de cada
intervalo sucesivo. Así, el número de estudiantes con calificaciones menores o iguales a 3
se calcula sumando las frecuencias de la columna (c) de los tres primeros intervalos, dando
53. La frecuencia acumulada relativa, columna (f), es el cociente entre la frecuencia
acumulada y el número total de notas.
Los datos de una tabla de distribución de frecuencias se pueden representar gráficamente
utilizando un histograma o diagrama de barras (como en la figura 2), o como un polígono
de frecuencias acumuladas (como en la figura 3). El histograma es una serie de rectángulos
con bases iguales al rango de los intervalos y con área proporcional a sus frecuencias. El
polígono de la figura 3 se obtiene conectando los puntos medios de cada intervalo de un
histograma de frecuencias acumuladas con segmentos rectilíneos.
En los periódicos y otros medios de comunicación los datos se representan gráficamente
utilizando símbolos de diferente longitud o tamaño que representan las distintas
frecuencias.
PARÁMETROS ESTADÍSTICOS:
Las tablas estadísticas son una forma organizada de dar toda (o casi toda) la información,
todos los datos de que disponemos.
Con las gráficas estadísticas se pierde algo de información (mucho o poco, según los casos)
pero el mensaje entre pos los ojos, que es lo que se pretende.
En cualquiera de los dos casos, la cantidad de datos que se dan es excesiva para que sea
operativo, para poder hacer referencias concisas a esa distribución o comparaciones rápidas
con otras distribuciones.
Esa es la razón de ser de los parámetros estadísticos, el resumir en un número un aspecto
relevante de la distribución que pueda dar una idea de la misma o compararla en ese
aspecto con otras.
Hay muchos parámetros estadísticos. Suelen clasificarse en:
VALORES DE LA TENDENCIA CENTRAL
Una vez que los datos han sido reunidos y tabulados, comienza el análisis con el objeto de
calcular un número único, que represente o resuma todos los datos. Dado que por lo general
la frecuencia de los intervalos centrales es mayor que el resto, este número se suele
denominar valor o medida de la tendencia central.
Sean x1, x2, …, xn los datos de un estudio estadístico. El valor utilizado más a menudo es
la media aritmética o promedio aritmético que se escribe
y que es igual a la suma de
todos los valores dividida por n:
sumatorio, denota la suma de todos los datos. Si las x se agrupan en k
intervalos, con puntos medios m1, m2, …, mk y frecuencias f1, f2, …, fk, la media
aritmética viene dada por
donde i = 1, 2, …, k.
La mediana y la moda son otros dos valores de la tendencia central. Si las x se ordenan
según sus valores numéricos, si n es impar la mediana es la x que ocupa la posición central
y si n es par la mediana es la media o promedio de las dos x centrales. La moda es la x que
aparece con mayor frecuencia. Si dos o más x aparecen con igual máxima frecuencia, se
dice que el conjunto de las x no tiene moda, o es bimodal, siendo la moda las dos x que
aparecen con más frecuencia, o es trimodal, con modas las tres x más frecuentes.
MEDIDAS DE LA DISPERSIÓN
Normalmente la estadística también se ocupa de la dispersión de la distribución, es decir, si
los datos aparecen sobre todo alrededor de la media o si están distribuidos por todo el
rango. Una medida de la dispersión es la diferencia entre dos percentiles, por lo general
entre el 25 y el 75. El percentil p es un número tal que un p por ciento de los datos son
menores o iguales que p. En particular, los percentiles 25 y 75 se denominan cuartiles
inferior y superior respectivamente. La desviación típica es otra medida de la dispersión,
pero más útil que los percentiles, pues está definida en términos aritméticos como se
explica a continuación. La desviación de un elemento del conjunto es su diferencia con
respecto a la media; por ejemplo, en la sucesión x1, x2, …, xn la desviación de x1 es x1 y el cuadrado de la desviación es (x1 varianza es la media del cuadrado de las
desviaciones. Por último, la desviación típica, representada por la letra griega sigma ( ), es
la raíz cuadrada de la varianza, y se calcula de la siguiente manera:
Si la desviación típica es pequeña, los datos están agrupados cerca de la media; si es
grande, están muy dispersos.
Medidas de posición: cuartiles, deciles, centiles. Señalan la situación de algunos valores
importantes en la distribución
Medidas de asimetría: para señalar si la distribuci{on está sesgada hacia uno u otro lado.
Medidas de apuntamiento: indican si la distribución es más o menos puntiaguda.
PRECIO
DE MIEL
ENERO FEBRER MARZ ABRI MAY JUNIO JULIO AGOST SEP. OCT. NOV. DIC.
O
O
L
O
O
$ 0,25
$ 0,70 $ 1,00 $ 1,25 $ 1,50 $ 1,75 $ 2,00
$ 2,25 $ 2,50 $ 2,75 $ 3,00 $ 3,00
4
MUESTREO
1.- INTRODUCCIÓN
El muestreo estadístico es la
herramienta que la Matemática utiliza
para el estudio de las características de
una población a través de una
determinada parte de la misma.
La muestra de estudio debe ser lo más pequeña posible ya que del hecho de que una
muestra sea más grande, no se desprende necesariamente que la información sea más
fiable.
Además, la muestra elegida debe serlo por un proceso aleatorio para que sea lo más
representativa posible.
Términos usuales en un estudio estadístico

Población: conjunto de todos los individuos que son objeto del estudio.

Muestra: parte de la población en la que miden las características estudiadas.

Muestreo: proceso seguido para la extracción de una muestra.

Encuesta: proceso de obtener información de la muestra.
Métodos de muestreo
1.- Muestreo no probabilístico: no se usa el azar, sino el criterio del investigador.
2.- Muestreo probabilístico o aleatorio:
2.1.- Muestreo aleatorio simple: se asigna un número a cada uno de los individuos de
la población, y seguidamente se van eligiendo al azar los componentes de la muestra.
La elección de un individuo no debe afectar a la del siguiente, por tanto debe
reemplazarse el nº, una vez extraído.
2.2.- Muestreo sistemático: se ordenan previamente los individuos de la población,
después se elige uno al azar y a continuación, a intervalos constantes, se eligen todos
los demás hasta completar la muestra.
2.3.- Muestreo estratificado: se divide la población total en clases homogéneas
(estratos). La muestra se escoge aleatoriamente en número proporcional al de los
componentes de cada estrato.
Ejemplo: en un I.E.S. hay 120 alumnos en 2º de Bachillerato provenientes de 4 zonas o
pueblos.
Zona A: 20 alumnos
Zona B: 32 alumnos
Zona C: 60 alumnos
Zona D: 8 alumnos
Hay que elegir una muestra de 20 alumnos para hacerles una serie de preguntas.
Utiliza los tres métodos de muestreo aleatorio para escoger la muestra.
2.- DISTRIBUCIONES DE MUESTREO
Es evidente que los resultados obtenidos del estudio de una muestra no son del todo
fiables, pero sí en buena medida. Los parámetros que obtienen de una muestra
(estimadores estadísticos) nos permitirán arriesgarnos a predecir una serie de resultados
para toda la población. De estas predicciones y del riesgo que conllevan se ocupa la
Inferencia Estadística.
Distribución de medias muestrales
Si una población tiene N elementos, el nº de muestras distintas de tamaño n que se
pueden elegir es
N
  . Si pueden repetirse individuos, el número de muestras será igual a N n .
n
Ejemplo: calcular el nº de muestra de tamaño 21 que pueden elegirse en una población
de 120 alumnos:
a) sin reemplazamiento
b) con reemplazamiento
Repaso de la distribución normal
Ejercicios:
1) Si Z es una N(0, 1), calcular las siguientes probabilidades:
a) p(Z<1)
b) p( Z>1´3)
c) p(Z<-0´5)
d) p(-0´5<Z<1´3)
2) Si X es una N(15, 3), responder a las siguientes cuestiones:
a) tipificarla a una N(0, 1) con el cambio Z 
X 

b) calcular las siguientes probabilidades:
p(X<21)
p(X<-7)
p(X>31)
Parámetros muestrales
Elegida una muestra, hallaremos en ella la media X y la desviación típica S. Lo que
tendremos que estudiar será la representatividad de estos parámetros muestrales con los
parámetros reales de la población, es decir: la media poblacional , y la desviación típica
de la población  .
Si en una población de N individuos tomamos todas las muestras posibles de tamaño n,
se puede demostrar que la media de las medias muestrales coincide con la media
poblacional, esto es X  
Sin embargo, no se cumple lo mismo para la desviación típica de las medias muestrales,
sino que se verifica que S 

n
, siendo n el tamaño de las muestras.
Teorema central del límite

La distribución de las medias muestrales de tamaño n, extraídas de una población
normal N ( , ) , se ajustan a una normal N (  ,


n
).
Si las medias muestrales provienen de una población no normal, pero el tamaño de
las mismas es n30, la distribución de las medias muestrales también se ajusta a una
N ( ,

n
).
Ejemplo: en el último año, el peso de los recién nacidos en una maternidad se ha
distribuido según una ley normal de parámetros  gramos y = 150 gramos.
a) ¿Cuál es la probabilidad de que un recién nacido pese más de 3.130 gramos?
b) ¿Qué distribución seguirán las muestras de tamaño 100 de recién nacidos?
c) ¿Cuál será la probabilidad de que la media de una muestra de tamaño 100 sea
superior a 3.130 gramos?
Ejercicio: en una oposición en la que participan miles de candidatos se hizo un examen
tipo test. Las calificaciones se distribuyeron normalmente con media =72 puntos y
desviación típica =10.
a) ¿Cuál es la probabilidad de que un opositor elegido al azar obtenga más de 76
puntos?
b) ¿Cuál es la probabilidad de que una muestra de 64 opositores obtenga un
promedio superior a 76 puntos?
Ejercicios:
1) Supongamos que la estatura media de las alumnas de bachillerato es 165 cm, con
desviación típica 8 cm.
a) Halla los parámetros de las medias muestrales de tamaños n=36 y n= 64
b) ¿Cuál es la probabilidad de que una muestra de 36 alumnas tenga una media
superior a 167 cm.? ¿Y de que una muestra de 64 alumnas supere esa misma
medida?
c) ¿Tiene algo de extraño que una muestra de tamaño 36 tenga una media de 170
cm.?
3.- INTERVALOS DE PROBABILIDAD
A los intervalos simétricos respecto de la media o proporción poblacionales se les
denomina intervalos de probabilidad.
Intervalos de probabilidad para la media muestral
Sabemos que la distribución de medias muestrales es normal de media X   y
desviación típica, donde  y  son los parámetros de la población.
Nos haremos la siguiente pregunta:
¿Cuál es la probabilidad de que la media muestral se encuentre entre dos valores
simétricos respecto de la media poblacional?, es decir, queremos evaluar las
siguientes probabilidades:
p(   a  X    a)
Se llama intervalo de probabilidad para la media a uno de la forma

 

;   k 
   k 
 tal que se cumple que la probabilidad de que X se
n
n

encuentre en él es igual a .
Al parámetro  se le llama nivel de confianza, y la diferencia (1-) es el riesgo asumido.
Si tipificamos la variable X , llegaremos a una expresión de la
forma: p( Z  k ) 
 1
2
, donde Z es una variable que se ajusta a una N(0, 1). De este
modo podremos evaluar el valor de k consultando la tabla de valores de dicha
distribución.
Ejemplo: vamos a hallar el intervalo de probabilidad para el peso medio de una muestra
de 100 recién nacidos, con un nivel de confianza de 0,9, sabiendo que =3.100 gramos y
=150 gramos.
Solución: como se ha dicho anteriormente, tenemos que evaluar la siguiente
expresión
pZ  k  
0´9  1
 0´95
2
si consultamos en la tabla de la N(0, 1), comprobaremos que k  1´645 , por lo tanto,
el intervalo de probabilidad será el siguiente:
150
150 

; 3.100  1,645 
 3.100  1,645 

100
100 

que simplificado, es el intervalo
(3.075´325 ; 3.124´675)
Ejercicios:
1. Hallar el intervalo de probabilidad con una confianza de 0´95 para la misma
distribución.
2. Para las muestra de tamaño 36 extraídas de la distribución de calificaciones en
una población de 120 alumnos, con media 5´5 y desviación típica 2´04, halla los
intervalos de probabilidad para un nivel de confianza de:
a) 75´4%
b) 0´87
Ejercicios:
1. Si la estatura de las alumnas de segundo de Bachillerato se ajusta a la normal
N(165, 8), en cm, halla, para las muestras de tamaño 64:
a) El porcentaje de ellas que dará una media entre 163 y 167 cm.
b) El intervalo de probabilidad con un nivel de confianza del 80%.
2. El nivel medio de colesterol (en mg/dl), en individuos sanos, depende de la edad y
el sexo; para los hombres con menos de 21 años su distribución es normal con
media =160 y desviación típica =10. Un nivel fuera de   2 resulta extraño:
indica que puede haber alguna anomalía. Lo mismo cabe decir de las muestras: un
nivel muestral fuera de   2 x resulta extraño. ¿Cuál es el intervalo de
probabilidad admisible (no extraño) para las muestra de tamaño
a) 1
b) 9
c) 100
d) ¿Qué porcentaje de individuos o muestras se encuentran en los intervalos
hallados para los diferentes tamaños de la muestra?
______________________________
ESTIMACIÓN ESTADÍSTICA
1.- ESTIMACIÓN A PARTIR DE UNA MUESTRA
Habitualmente, lo normal es que se desconozcan la media y la desviación típica de la
población y que, mediante técnicas de muestreo, se busque estimarlas con la fiabilidad
necesaria. Así, si para 400 individuos de una región, elegidos al azar, se obtiene una
renta per cápita de 1.215.000 ptas, con una desviación típica de 650.000 ptas, podemos
hacernos dos preguntas:
1.
¿La renta per cápita de los habitantes de toda la región será de 1.215.000
ptas?
2.
¿Qué seguridad se tiene de tal afirmación?
Cuando se contestan estas preguntas se está haciendo una estimación a partir de la
muestra.
2.- INTERVALOS DE CONFIANZA
En este apartado vamos a dar respuesta a las dos preguntas anteriores.
Intervalo de confianza para la media muestral

 

Al intervalo  X  k 
; X  k 
 se le llama intervalo de confianza para la
n
n

media poblacional, siendo los elementos que aparecen en dicho intervalo, los ya
estudiados anteriormente.
La probabilidad de que la media de la población se encuentre en este intervalo es , que
es el nivel de confianza. Si la confianza es , suele decirse que el nivel de significación
es 1- , o nivel de riesgo.
En el caso en que la desviación típica de la población sea desconocida (), no
tendríamos más remedio que sustituirla por la desviación muestral s; así el intervalo de
confianza para la media poblacional , para n  30 , sería
s
s 

; X  k 
 X  k 

n
n

con una probabilidad de , siendo X y s la media y la desviación típica de la muestra,
respectivamente.
A
s
se le llama error típico de la media.
n
Ejemplo: para una muestra de 400 personas elegidas al azar se obtiene una renta per
cápita de 1.215.000 ptas. Si la desviación típica de la renta per cápita para la población
es de 700.000 ptas, calcula el intervalo de confianza para la media poblacional con un
nivel de significación de:
a) 0,1
b) 0,05
Ejercicios:
1. Para una muestra de 30 alumnos se obtuvo una nota media en el último examen de
matemáticas de x  5'83 , con una desviación típica s= 1’92. Determina el intervalo
de confianza al 80%. Interpreta el resultado.
2. El peso medio de una muestra de 100 recién nacidos es 3.200 gramos. Sabiendo que
la desviación típica de los pesos de la población de recién nacidos es de 150 gramos,
halla el intervalo de confianza para la media poblacional para una significación de
0’05
3.- ERROR ADMITIDO Y TAMAÑO DE LA MUESTRA
Error admitido

 

Cuando decimos que la media poblacional    X  k 
; X  k 
 con un
n
n

nivel de confianza  , estamos admitiendo un error máximo de k 

n
. A este número
se le llama error máximo admisible.
Tamaño muestral
El tamaño muestral mínimo de una encuesta depende de la confianza que se desee para
los resultados y del error máximo que se esté dispuesto a asumir.
El tamaño mínimo n de una muestra viene dado por:
Para la media:


n   k  
E

2
Para tamaños de muestra mayores que n el error será menor que E.
Ejercicios:
1. Se desea realizar una investigación para estimar el peso medio de los hijos recién
nacidos de madres fumadoras. Se admite un error máximo de 50 gramos, con una
confianza del 95%. Si por estudios anteriores se sabe que la desviación típica del
peso medio de tales recién nacidos es de 400 gramos, ¿qué tamaño mínimo de
muestra se necesita en la investigación?
2. Para 96 familias españolas, elegidas al azar, se ha determinado que la televisión
permanece encendida en la casa una media de 217 minutos diarios; la desviación
típica de la muestra fue de 40 minutos.
a) Para una fiabilidad del 95%, ¿qué error se asume cuando se da por bueno ese
dato para el total de las familias españolas?
b) ¿Qué tamaño muestral sería necesario para reducir ese error a la mitad?
========================
Descargar