PRINCIPIOS DEL PENSAMIENTO ESTADISTICO

Anuncio
PRINCIPIOS DEL PENSAMIENTO ESTADISTICO
1.− Dar mayor importancia a los hechos que a los conceptos abstractos.
2.− No expresar los hechos en términos de sentimientos o ideas, sino utilizar gráficas o diagramas derivados
de resultados específicos observados.
3.− Tomar decisiones en base de condiciones establecidas, mediante análisis estadísticos efectuados.
El método estadístico es el mejor mecanismo de comunicación y retroalimentacion, sin embargo los métodos
estadísticos son herramientas, no son útiles si son usados incorrectamente.
MEDIDAS DESCRIPTIVAS DE LOS DATOS
DATOS (X1. X2,........,Xn)
Los datos estadísticos simplemente son números referidos a cierta variable o factor(X1, X2,...........Xn), por lo
tanto es necesario calcular ciertas medidas que permitan describir mejor lo que los datos representan.
Generalmente se requiere conocer la tendencia y dispersión de los datos s clasifica en:
• Medidas de tendencia central (o localización).
• Medidas de dispersión (o variación).
Para la representación de estas medidas descriptivas se utilizan letras latinas para datos reales que provienen
de muestras, y letras griegas para representar a la población como distribución teórica. Ejemplo:
POBLACION (N)_________________MUESTRA (n)
(Media) X(Media)
X es un estimado de , y S es un estimado de cuando la muestra tomada corresponde a esa población.
X= S=
Las medidas descriptivas de mayor utilización son las siguientes:
MEDIDAS DE TENDENCIA CENTRAL
1)Media (X).− Comúnmente usada como medida de agrupación de datos. Se define:
n = sumatoria
Xi Xi= valor observado
X=i=1/n n= tamaño de la muestra
• Mediana (X).− Se define como el valor que divide en dos partes iguales a un conjunto de datos, arreglados
en orden de magnitud.
1
Ejemplos:
• Si n es impar: 2, 8, 5, 4, 1, 3, 9 −−−−−−−− n=7,
Ordenados: 1, 2, 3, 4, 5, 6, 7, 8, 9 −−− X=4
• Si n es par: 2, 8, 3, 5, 6, 1−−−−−−−−−−−−− n=6,
Ordenados: 1, 2, 3, 5, 6, 8−−−−−−−−−−−−− X=3+5/2=4
X=4 (mediana media)
• Moda (M).− Se define como el valor que se presenta con mayor frecuencia en un conjunto de datos.
Ejemplo: 2, 1, 0, 3, 0, 0, 4, 0 −−−−−−−−−−−− M=0
MEDIDAS DE DISPERSION
• Rango (R).− SE define como la diferencia entre el valor mayor y el menor de un conjunto de datos.
R=Xmax−Xmin
• Varianza (v).− Se define como el promedio de las desviaciones* al cuadrado de los datos, a partir de su
media.
*Desviación: Es la diferencia entre el valor individual (Xi), y la media(X).
n
(Xi−X)
V= i=1/ (n−1)**
** Se utiliza (n−1) por las siguientes razones:
1.− Solo (n−1) de las desviaciones de lo datos a partir de la media (Xi−X) son independientes. La suma de
odas las desviaciones es cero.
2.− Se consideran los datos (Xi) como una variable aleatoria ( al azar).
3.− Desviación estándar (S).− Se define como la raíz cuadrada de la varianza.
S= V S= n
(Xi−X)
I=1/(n−1)
Otra razón por la cual se utiliza (n−1) para el calculo de la desviación estándar, es porque se refiere a la
desviación estándar de la muestra, no de la población.
Generalmente la media es la medida descriptiva de localización o tendencia que mas se utiliza. Para el caso de
2
las medidas de dispersión, las que mas se utilizan son el rango y la desviación estándar. La varianza es
empleada para efectuar pruebas estadísticas un poco mas sofisticadas, como su empleo en el diseño y análisis
de experimentos. Para nuestro caso, digamos que la varianza es un simplemente un paso previo para el calculo
para el calculo de la desviación estándar.
Aunque el rango (R) y la desviación estándar de la muestra es (S) miden la dispersión o variación de los datos
de diferente manera, su utilización también dependen de la cantidad de datos.
El rango se utiliza para muestras de 12 o menos unidades, y la desviación estándar para muestras de 30 o mas
unidades. Para muestras mayores de 12 y menores de 30 se puede emplear la desviación estándar (S), pero
solo para fines experimentales o pruebas.
Ejemplo: Calculo de medidas de dispersión
Supongamos que hay dos grupos de estudiantes: " A y B ", y que ambos tienen un promedio X=65 (pts.) de
calificación, con esta información parece no existir gran diferencia entre los dos grupos. Si observamos los
datos individuales, notamos la diferencia:
Grupo A Grupo B
50, 55, 60, 70, 75, 80, 60, 60, 60, 70, 70, 70,
Xa=65 (pts.) Xb= 65 (pts.)
Si calculamos las medidas de dispersión podemos hacer un análisis mas completo entre ambos grupos.
• Rango R =X max − Xmin.
Ra = 30 (pts) Rb=10 (pts.)
2) Varianza. Consideramos solo el grupo a
DATOS
DESVIACIONES
DESVIACIONES AL
Xi
50
Xi−X
50−65
CUADRADO(Xi−X)
225
55
55−65
100
60
60−65
25
70
70−65
25
75
75−65
100
80
=390
80−65
=0
225
=700
X=65 (pts.) *V=140.0 (pts.)
*La unidad de medición de la varianza, en este caso, son puntos al cuadrado (lo cual no tiene sentido).
3
• Desviación estándar. Para el grupo A
S= V = 140.0 = 11.83
S=11.83(pts.)
* La desviación estándar para el grupo B es: S= 5.48 (pts.)
Resumiendo los cálculos anteriores:
GRUPO A
X=65pts.
GRUPO B
X=65pts.
R=30pts.
S=11.83
R=10pts.
S=5.48
Con estas medidas descriptivas podemos establecer mejores conclusiones que con los datos solamente, o los
promedios es necesario calcular siempre una medida de tendencia, generalmente la media (X), y una medida
de dispersión, el rango (R) o la desviación estándar (S).
En el ejemplo anterior la medida de dispersión a utilizar es el rango (R), por la cantidad de datos.
DISTRIBUCION DE FRECUENCIAS
La distribución de frecuencias es una tabla que divide un conjunto de datos en un numero de clases
(categorías) apropiadas, mostrando también el numero de elementos en cada clase. La tabla sacrifica parte de
la información contenida en los datos; En lugar de conocer el valor exacto de cada elemento . Solo sabemos
que pertenece a una clase determinada. Por otra parte, ese tipo de agrupamiento hace resaltar características
importantes en los datos, y en lo que se gana en legibilidad, compensa con creces la perdida de información. A
continuación consideraremos principalmente las distribuciones numéricas, es decir, distribuciones de
frecuencias donde los datos se hallan agrupados por su tamaño: si se hallan agrupados de acuerdo con alguna
cualidad o atributo denominaremos distribución categórica a esa distribución.
La primera etapa la construcción de una distribución de frecuencias consiste en decir en cuantas clases utilizar
y elegir los limites de cada clase, es decir, de donde a donde abarca cada una. En general, el numero de clases
que usemos depende del numero de observaciones, pero tiene muy poca utilidad utilizar menos de 5 o mas de
15. Depende de si mismo del rango de los datos, es decir, la diferencia entre la observación mas grande y la
mas pequeña.
Para ejemplificar la construcción de una distribución de distribución de frecuencia, consideramos la siguientes
mediciones de la emisión diaria (en toneladas) de oxido de azufre de una planta industrial.
• 10.5 1526.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2
22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7
• 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7
• 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0
18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5
14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1
4
• 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8
• 25.9.9 27.5 18.1 17.9 9.4 24.1 20.1 18.5
En vista de que las observación mas grande es 31.8, y la mas pequeña es 6.2 y el rango es 25.6, podríamos
elegir seis clases que tuvieran los limites 5.0−.9.9,10.0−14.9,...,30.0−34.9. Podríamos también elegir las siete
clases 5.o−8.9, 9.0−12.9,..., 29.0−31.9. Nótese que en cada caso las clases no se traslapan, incluyen todos los
datos y tienen la misma medida.
Supóngase que hemos optado por la segunda de estas clasificaciones; ordenamos las 80 observaciones y
obtenemos los resultados que se muestran en la siguiente tabla:
Limites de clase Etiqueta Frecuencia
5.0−8.9 /// 3
9.0−12.9 //// //// 10
13.0−16.9 //// //// //// 14
17.0−20.9 //// //// //// //// //// 25
21.0−24.9 //// //// //// // 17
25.0−28.9 //// //// 9
29.0−32.9 // 2
Total 80
Obsérvese que los limites de clase se dan con el mismo numero de decimales que los datos originales. Si los
datos se hubiesen dado con dos decimales, habríamos usado los limites de clase 5.00−8.99, 9.00−12.99,...,
29.0−32.99 y, de haber sido redondeados al entero mas próximo, se habrían utilizado los limites de clase 5−8,
9−12,..., 29−32.
Como señalamos anteriormente, una vez que lo datos han sido agrupados, cada observación pierde su
identidad en el sentido de que su valor exacto ya no se conoce. Esto puede originar dificultades cuando
queremos dar algunas descripciones ulteriores de los datos, pero podemos evitarlas representando cada
observación en una clase por su punto medio, denominando marca de clase. En general, las marcas de clase de
una distribución de frecuencias se obtiene promediando los limites de clase consecutivos o fronteras de clases
sucesivas. Si todas las clases de una distribución tienen la misma longitud, como en nuestro ejemplo, al
intervalo común entre cuales quiera marcas d clase sucesivas lo llamaremos intervalo de clase de la
distribución. Nótese que el intervalo puede obtenerse también en la diferencia entre dos fronteras cualquiera
de clase consecutivas, pero no de la diferencia entre los limites de clases sucesivos.
Ejemplo:
En relación con el ejemplo de la distribución de los datos de oxido de azufre, indíquese, a) Las marcas de
clase y b) el intervalo de clase.
a) Las marcas de clase son 5.0+8.9=6.95 9.0+ 12.9= 10.95, 14.95,
18.95,22.95, 26.95 y 30.95. b) El intervalo de clase es : 10.95 − 6.95 =4.
5
Existen varias formas alternas de agrupar los datos. Entre estas se encuentran las distribuciones acumuladas
menor que o menor, mayor que y o mayor. Una distribución acumulada menor que muestra el numero total de
observaciones que son menores que los valores dados. Esto deben ser fronteras de clase o limites de clase
apropiados, pero no pueden ser marcas de clase.
Ejemplo conviértase la distribución de la emisión del oxido de azufre en una distribución que muestre cuantas
observaciones son menores que 4.95, menores que 8.95, menores que 12.95, ..., y menor que 3.95.
Como ninguno de los valores es menor que 4.95., menores que 8.95, 3+ 10 =13 son menores que 12.95,
3−10+ 14 =7 son menores que 16.95, y los 80 valores son menores que 32.95.
Las distribuciones acumuladas mayor que y o mayor se construyen, de manera similar, sumando las
frecuencias una por una empezando en el otro extremo de la distribución de la frecuencia. En la practica, las
distribuciones acumuladas menor que se utilizan con mayor frecuencia, y es bastante común referirse a ellas
simplemente como distribuciones acumuladas.
Si se desea comparar distribuciones de frecuencias, puede ser necesario (o al menos ventajoso), convertidas en
distribuciones porcentuales. Basta dividir cada frecuencia de clase entre la frecuencia total (el numero total de
observaciones en la distribución), y multiplicar por cien; en esta forma se indica que porcentaje de los datos
esta en cada clase de la distribución puede hacerse lo mismo también con las distribuciones acumuladas,
convirtiéndolas así en distribuciones porcentuales acumuladas.
GRAFICAS DE LAS DISTRIBUCIONES DE FRECUENCIA
Las propiedades de las distribuciones de frecuencia relacionadas con su forma se hacen mas evidentes por
medio de gráficas, y en esta sección introduciremos algunas de las formas mas comunes de representar
gráficamente las distribuciones de frecuencias, las distribuciones porcentuales y las distribuciones
acumuladas.
La forma mas común de representar gráficamente una distribución de frecuencia es el histograma. El
histograma de una distribución de frecuencia se construye con rectángulos adyacentes, las alturas de los
rectángulos representan la frecuencias de clase y sus bases se extienden entre fronteras de clases sucesivas. Un
histograma de los datos de la emisión de oxido de azufre se muestra en la figura siguiente:
ANEXO 1
En relación con los histogramas, algunas veces es preferible considerar las áreas de lo rectángulos, mas que
sus alturas, como representativas de las frecuencias de clase. Esto se aplica en particular en situaciones en que
deseamos aproximar histogramas con curvas lisas o en que las clases son de distinta longitud.
Otras gráficas similares a los histogramas son los diagramas de barras, en ellos; las alturas de los rectángulos,
o barras, representan la frecuencia de clase pero no se pretende fijar alguna escala horizontal continua.
Otra forma optativa de presentar las distribuciones de frecuencia en forma gráfica es el polígono de
frecuencia. En él la frecuencias de clase son graficadas sobre las marcas de clase esto es, gratificamos los
puntos (Xi, fi) donde X, es la marca de clase.
Al observar la gracia d una distribución de frecuencia a menudo resaltan características que no eran evidentes
en los datos mismos. Aparte de que tal gráfica muestra una excelente imagen de los datos en conjunto, puede
subrayar también irregularidades y rasgos pocos comunes. Por ejemplo lasa observaciones muy alejadas que
de alguna manera no coinciden con la imagen en conjunto, es decir, con el patrón global de los datos, pueden
tener su origen en errores de medición, faltas en el equipo o causas similares. Asimismo, el hecho de que un
6
histograma o polígono de frecuencias exhiba dos o mas modas puede proporcionar información pertinente. La
aparición de dos modas puede implicar, por ejemplo, un cambio en el proceso que esta siendo medido o que
los datos provienen de varias fuentes. Con un poco de experiencia uno aprende a detectar varias
irregularidades o anomalías, y para un ingeniero experimentado seria tan sorprendente que el histograma de
una distribución de lo tiempos que halla en un circuito integrado fuera simetrica como si las distribuciones de
las tallas de los sombreros para caballeros en México fuera bimodal.
ANEXO 2
A veces será suficiente dibujar un histograma para resolver un problema de ingeniería.
EJEMPLO:
Se midió la resistencia a la compresión de 58 muestras de una aleación de aluminio en desarrollo común
material para aeronaves.
64.4 67.7 68.0 68.0 68.3 68.4 68.6 68.8 68.9 69.0 69.1
69.2 69.3 69.3 69.5 69.5 69.6 69.7 69.8 69.8 69.9 70.0
70.0 70.1 70.2 70.3 70.3 70.4 70.5 70.6 70.6 70.8 70.9
71.0 71.1 71.2 71.3 71.3 71.5 71.6 71.6 71.7 71.8 71.8
71.9 72.1 72.2 72.3 72.4 72.6 72.7 72.9 73.1 73.3 73.5
74.2 74.5 75.3
Dibújese un histograma que tenga una escala tal que el área total sea una unidad.
SOLUCION
La altura de cada rectángulo será igual a frecuencia relativa dividida entre el ancho, de modo que su superficie
sea igual al a frecuencia relativa. El histograma resultante, hecho con computadora, tiene una forma casi
simetrica. También se a graficado una curva continua que se aproxima a la forma general .En el capitulo V se
estudiara esta familia de curvas con forma e campana.
Este ejemplo nos sugiere que lo histogramas para observaciones que se reciben en forma continua, se pueden
aproximar con curvas suaves.
Las distribuciones acumuladas por lo general se representan graficamente en forma de ojivas, las cuales son
similares a lo polígonos de frecuencia, excepto en que graficamos las frecuencias acumuladas sobre las
fronteras de clase en lugar graficar las frecuencias ordinarias sobre las marcas de clase.
Los puntos así determinados se unen otra vez mediante segmentos rectilíneos, la cual representa la
distribucion acumulada menor que de los datos de la emisión de oxido de azufre.
ANEXO 3 Y 4
EJEMPLO
Con base en la siguiente información, que representan las calificaciones obtenidas por un grupo de 50
7
estudiantes de la materia de probabilidad, realizaremos su correspondiente análisis.
DATOS
60, 33, 85, 52, 65, 77, 84, 65, 57, 74,
71, 81, 35, 50, 35, 64, 74, 47, 68, 54,
80, 41, 61, 91, 55, 73, 59, 53, 45, 77,
41, 78, 55, 48, 69, 85, 67, 39, 76, 60,
94, 66, 98, 66, 73, 42, 65, 94, 89, 88.
Construyamos una distribución de frecuencias.
Seleccionamos 7 clases en base a la regla empírica. Después de ajustar tenemos:
CLASES TABULACION FRECUENCIAS
___________________________________________________
30−39 //// 4
40−49 //// / 6
50−59 //// /// 8
• //// //// // 12
70−79 //// //// 9
80−89 //// // 7
90−99 //// 4
Dejando solo las clases con las correspondientes frecuencias, tenemos propiamente la tabla de frecuencias.
Los grupos categorías que van de 30−39, de 40−49, etc.; se llaman intervalos de clase. Los valore 30, 40, etc,;
son los limites inferiores mientras que lo valores 39, 49, etc. ; son los limites superiores de los intervalos de
clase.
CALCÚLESE AHORA CADA MARCA DE CLASE
__________________________________________________
MARCA DE CLASE FRECUENCIA
__________________________________________________
•4
•6
8
•8
• 12
•9
•7
•4
__________________________________________
TOTAL 50
Con base con el cuadro anterior , construir ahora el histograma. Para evitar espacios entre barra, se amplían
los intervalos de clase, en media unidad para ambos lados. Esto sobre todo es necesario cuando los datos son
discretos. Con estos valores, la figura correspondiente será:
ANEXO 5
Nótese que las alturas de las barras corresponde a las frecuencias de los intervalos. Los valores de los limites
de los intervalos usados para trazar la gráfica se conocen como limites reales de clase.
ANEXO 6
Calcular el ancho real de clase puede hacerse de dos maneras. Una, considerando la diferencia entre limites
reales de clase y la otra, considerando la diferencia entre las marcas de clase, que se consideran en la anterior
gráfica.
Ancho real de clase = 39.5 − 29.5 = 10
Ancho real de clase = 44.5 − 34.5 = 10
Construir ahora el polígono de frecuencia
Esto se consigue uniendo los puntos medios superiores de los intervalos de clase, que corresponden a las
marcas de clase. Las siguiente figura represente el correspondiente polígono de frecuencia de las
calificaciones que estamos analizando.
ANEXO 7
Obsérvese que se crearon dos intervalos de frecuencia 0 de los extremos a fin de "aterrizar", el polígono.
Se puede comprobar que el área dentro del polígono de frecuencias es igual al área dentro del histograma.
Suavizando el polígono de frecuencia determine la correspondiente curva de frecuencia. (En realidad la curva
de frecuencia s la representación gráfica de una distribucion de frecuencia teórica).
A continuación se presentan algunas de las curvas de frecuencia de mayor interés.
DISTRIBUCION RECTANGULAR
ANEXO 8
CLASES F
9
30− 39 7
•7
•7
•7
•7
•7
•7
DISTRIBUCION NORMAL
ANEXO 9
DISTRIBUCION ASIMETRICA
ANEXO 10
Clases f
30− 39 1
•3
•6
• 10
• 12
• 15
90−99 3
DISTRIBUCION BIMODAL
ANEXO 11
Continuando con el problema de ejemplo, construir una tabla de frecuencias acumuladas.
Lo primero que se debe decidir es si se usara el limite inferior o el superior como criterio de división.
Usaremos los superiores. También debemos decidir del tipo "o menos" o del tipo "o mas". La tabla siguiente
presenta los valores correspondiente a ambas.
__________________________________________________
CLASES f O MENOS O MAS
__________________________________________________________
30−39 4 4 46
40−39 6 10 40
50−59 8 18 32
60−69 12 30 20
10
70−79 9 39 11
80−89 7 46 4
90−99 4 50 0
__________________________________________________________
CALCULO DE X Y DE S
PARA DATOS AGRUPADOS
Se explico anteriormente los métodos con que se calculan X y S para datos sin agrupar. Dichos métodos son
particularmente adecuados para calculadoras de bolsillos y son además rápidos y precisos.
El calculo de X para datos no agrupados no presentan problemas solo tenemos que sumar los valores de
observaciones y dividir entre n.
Por otra parte, el calculo de S casi siempre es engorroso si directamente aplicamos la formula definida con
anterioridad. En su ligar es conveniente usar la ecuación equivalente:
n
S = n X − ( xi )
−−−−−−−−−−−−−−−−−−−−−−
n(n−1)
la cual necesita menos trabajo para evaluar con una calculadora
EJEMPLO
Calcúlese la media y la desviación estándar de las siguientes millas por galón obtenidas en 20 recorridos en un
perímetro citadino con un automóvil de tamaño intermedio:
19.7 21.5 22.5 22.2 22.6
21.9 20.5 19.3 19.9 21.7
22.8 23.2 21.4 20.8 19.4
22.0 23.0 21.1 20.9 20.3
SOLUCION
Con una calculadora se tiene que la uma de estos datos es 427.7 y que la suma de sus cuadrados es 9173.19.
En consecuencia,
427.7
11
X = = 21.38
20
S = 20 (9.173.19) − (427.7) = 1.412
20.19
Y, por lo tanto, s=1.19. Al calcular las suma necesarias por lo general se conservan todas las cifras decimales;
pero como en este ejemplo, se redondea al final a una décima mas de la que habida en los datos originales.
Para calcular X y S de datos agrupados, tendremos que hacer alguna suposición acerca de la distribucion de
los valores dentro de cada clase. Si los representamos dentro de una clase por la correspondiente marca de
clase, la suma de las X y la de sus cuadros pueden escribirse ahora como:
xi fi y xi fi
i=1i=1
donde X, es la marca de clase de i−esima clase, fi es la correspondiente frecuencia de clase y k es el numero
de clases en la distribucion. Sustituyendo estas sumas en la formula para X y en la formula de calculo S,
obtenemos:
k
X = xifi
i=1
_______
n
S = n . xifi − (xifi9)
i=1i=1
_____________
n(n−1)
EJEMPLO:
Empléese la distribucion obtenida para calcular la media y la variancia de los datos de la emisión del oxido de
azufre.
SOLUCION:
Al notar las marcas de clase y las frecuencias de clase en las primeras dos columnas y los productos Xi Fi y X
Fi en la tercera y cuarta columnas, se obtiene
____________________________________________
12
Xi Fi xifi xifi
____________________________________________
6.95 3 20.85 144.9075
10.95 10 109.50 1,199.0250
14.95 14 209.30 3,129.0350
18.95 25 473.75 8,977.5625
22.95 17 390.15 8,953.9425
26.95 9 242.55 6,536.7225
30.95 2 61.90 1,915.8050
____________________________________________
80 1,508.00 30,857.0000
____________________________________________
entonces, la sustitución en las formulas arroja el resultado.
X = 1,508 = 18.85
80
y además
S = 80(30.857) − (1.508) = 30.77
80.79
13
Descargar