UT 1. ESTADÍSTICA DESCRIPTIVA (1ª PARTE) Poblaciones. Variables aleatorias. •

Anuncio
UT 1. ESTADÍSTICA DESCRIPTIVA (1ª PARTE)
• Poblaciones. Variables aleatorias.
• Muestras. Datos estadísticos. Estadística Descriptiva. Inferencia Estadística.
• Tablas de frecuencias:
• Variables unidimensionales.
• Variable bidimensionales (tablas de contingencia)
• Histogramas.
• Parámetros de posición:
• Medias
• Mediana
• Cuartiles
• Parámetros de dispersión:
• Recorrido.
• Varianza. Desviación Típica.
• Intervalo intercuartílico.
• Parámetros de asimetría y de curtosis.
• Diagramas de Box−Whisker.
objetivo La Ciencia Estadística tiene un doble objetivo:
• La generación y recopilación de datos que contengan información relevante sobre un determinado
problema.
• El análisis de dichos datos con el fin de extraer de ellos dicha información.
El primer paso en el análisis de un conjunto de datos debe ser siempre un tratamiento descriptivo sencillo de
los mismos. Dicho tratamiento busca poner de manifiesto las características y regularidades existentes en los
datos y sintetizarlos en un nº reducido de parámetros o mediante representaciones gráfica adecuadas. En este
primer nivel de análisis, puramente descriptivo, no se pretende todavía extrapolar conclusiones de los datos
a la población de la que éstos han sido extraídos, lo que constituirá el objeto de la Inferencia Estadística.
• Poblaciones. Variables aleatorias.
Población " objeto del estudio estadístico.
" conjunto de los individuos o entes que constituyen el objeto de un determinado estudio y sobre el que se
desea obtener ciertas conclusiones.
Hay 2 tipos:
• población real
• población abstracta
ej 1: en un estudio sobre la intención de voto de los ciudadanos españoles
1
población el conjunto de los aproximadamente 30 millones de españoles con derecho a voto
ej 2: en un estudio sobre el desarrollo de la tristeza en cítricos de la Comunidad Valenciana
población la totalidad de los árboles cítricos existentes en esta Comunidad
ej 3: al realizar en una industria el control de calidad en recepción de una partida de piezas
población la totalidad de piezas que componen la partida
Los ejemplos anteriores tratan en todos los casos de poblaciones con una existencia física real, constituidas
por un nº finito, aunque posiblemente muy elevado, de individuos.
Aunque pueda parecer sorprendente, no es ésta la situación más frecuente en la práctica, sino q en gral las
poblaciones a estudiar son de carácter abstracto, fruto del necesario proceso de conceptualización q debe
proceder al estudio científico de cualquier problema real.
Ej 4: un ej trivial sacado de los juegos de azar sirve para ilustrar la idea anterior. Se desea estudiar si un dado
es correcto o está trucado. ¿Qué querrá decir que un dado es correcto? En la práctica, si se tira el dado un nº
muy elevado de veces, los 6 resultados posibles saldrán aproximadam con la misma frecuencia. Para abordar
este problema, nos referiremos a la población abstracta constituida por infinitos lanzamientos del dado en
cuestión, población sobre la q deseamos estudiar si la frecuencia relativa con la q se presentan los 6 resultados
posibles son idénticas.
Ej 5: en una investigación sobre el rendimiento de una nueva variedad de trigo
Población las parcelas plantadas con dicha variedad q puedan existir en el futuro
Ej 6: en un estudio sobre la eficiencia de diversos algoritmos de encaminamiento de mensajes entre nudos en
una red de procesadores
Población todos los mensajes q puedan generarse en la red.
Los individuos que forman una población pueden corresponder a entes de naturaleza muy diversa (personas,
árboles, piezas, lanzamientos de dados, parcelas, mensajes,...).
(En los 3 primeros ejemplos, dichos individuos tienen una existencia real previa a la realización de dicho
estudio.
En los ejemplos 4, 5 y 6, los individuos q constituyen la población, pueden irse generando a mediante la
realización de un determinado proceso (lanzar un dado, plantar una parcela con una det variedad, emitir un
mens desde un nudo,...) ).
Experimentos aleatorios " los procesos q, en sucesivas realizaciones, pueden ir generando los diferentes
individuos de la población.
En toda población real existe variabilidad.
Unos españoles votan a ciertos partidos y otros a otros
Unos naranjos tienen tristeza y otros no
2
Una det dimensión varía algo de una pieza a otra
El nº q sale al lanzar el dado varía de unas tiradas a otras, el rendimiento varía de unas parcelas a otras
Unos mensajes tienen retardos más elevados q otros
Característica aleatoria " cualquier característica q pueda constatarse en cada individuo de una población.
Ej1 el partido q piensan votar los individuos
Ej 2 ausencia o presencia de tristeza en los árboles
Ej5 rendimiento obtenido en las parcelas
Ej 6 el retardo de un mensaje.
Muchas características aleatorias se expresan numéricamente=> se les ll variables aleatorias " cualquier
característica que se puede medir (expresar numéricamente) en los individuos de una población y que varía
de unos a otros.
El nº de puntos obtenidos al lanzar un dado
El rendimiento constatado en una parcela
El retardo de un mensaje
Cuando una característica aleatoria es de tipo cualitativo (el partido político a votar) se pueden codificar
numéricam sus diferentes alternativas y tratarla como una variable aleatoria.
Sin embargo, se debe tener cuidado porque operaciones perfectam legítimas con características intrínsecam
numéricas (sumar y promediar los rendimientos de diferentes parcelas) carecerán de sentido en este caso.
Autoevaluación ¿qué sentido práctico tendría el resultado de sumar y promediar los códigos de los partidos
votados por un conjunto de individuos?
Variable aleatoria K−dimensional " Cuando sobre cada individuo de la población se estudian K
características diferentes (todas ellas expresables numéricamente).
Variable aleatoria de dimensión 4 si en la población constituida por los estudiantes de la UPV se estudia el
sexo, la edad, la estatura y el peso.
En estos casos es frecuente utilizar los valores de aquellas componentes cuya naturaleza intrínseca es
cualitativa (el sexo) para dividir la población inicial en subpoblaciones (chicos y chicas) entre las cuales
interesa estudiar las diferencias en las pautas de variabilidad existentes en las otras componentes de la
variable aleatoria (cómo difieren las pautas de variabilidad del peso o la estatura entre chicos y chicas de la
UPV).
A es importante darse cuenta de la diferencia entre una variable aleatoria k−dimensional, en la que las K
variables se miden sobre los individuos de una misma población, y un conjunto de k variables
unidimensionales, definidas sobre k poblaciones distintas.
A el contenido en zumo y el calibre de las naranjas de un huerto, ¿constituyen una variable aleatoria
3
bidimensional?
A ¿y el nº de líneas de código y el nº de errores en los programas preparados en una empresa de software?
A y el contenido en leucocitos de la sangre en individuos alcohólicos y no alcohólicos?
A y las estaturas del marido y de la mujer en los matrimonios jóvenes de un país?
Variable aleatoria discreta Cuando el conjunto de los valores que podría tomar una determinada variable
aleatoria es discreto (finito o infinito numerable). A veces se ll tb atributos.
Variable aleatoria continua cuando el conjunto de los valores que podría tomar una determinada variable
aleatoria es un infinito continuo. Todas las características q se miden sobre una escala de naturaleza
básicamente continua.
Variables discretas:
El nº de puntos al lanzar un dado
El nº de picadas de ceratitis en cada naranja de un huerto
El nº de errores en un programa de ordenador
Cualquier variable q se origine al codificar las diferentes alternativas de una característica cualitativa: sexo,
partido votado,..
Variables continuas:
Pesos, rendimientos, tiempos , rendimientos, resistencias,...
A la definición clara sobre la población sobre la q se desea obt conclusiones es el primer paso de cualquier
estudio.
El alumno deberá plantearse 3 problemas q le interesen de su vida cotidiana y definir en cada caso, con la
mayor precisión posible, la población y las variables aleatorias implicadas, analizando su naturaleza discreta o
continua.
A en el estudio de insecticidas, se define la LD50 (dosis letal 50) de un producto como aquella dosis mínima
que administrada a ratas provoca la muerte al 50% de las mismas. Al estudiar la LD50 de un determinado
producto: ¿cuál es la población implicada? ¿y cual la variable aleatoria considerada?
A en una factoría interesa cuantificar, con el fin de controlar el consumo de E (utilizada en su mayor parte en
la climatización de las naves), la relación existente entre el consumo diario de electricidad y la tª media del día
correspondiente. ¿cuál es la población implicada y la variable aleatoria considerada?
A muchas veces se realizan afirmaciones que, pese a ser ciertas, se prestan a confusión al ser interpretadas sin
una reflexión suficiente. Supongamos que en España el 80% de los matrimonios q se divorcian están
formados por católicos y sólo un 5% lo están por ateos. ¿qué podría deducirse de la afirmación anterior?
Criticar dicha deducción.
A se asume que el alumno debe tener suficiente capacidad de análisis crítico para razonar correctamente ante
ellas. A este fin se propone el siguiente ejemplo: La relación entre delincuencia y tamaño familiar ha sido
4
discutida por muchos autores. En apoyo de su tesis, el Sr. X facilitaba los siguientes datos relativos al nº de
hermanos en las familias de jóvenes acusados de delitos. Los datos corresponden acierto juzgado londinense
durante cierto período.
Nº de hijos en la
familia del
delincuente
1
2
3
4
5
6
Nº de casos
5
8
11
14
16
18
El sr.X argumentaba q de los datos anteriores se desprendía que al aumentar el tamaño de la familia
aumentaba la probabilidad de delincuencia.
En una réplica a las afirmaciones anteriores, el sr.Y argumentó que el sr X no había tenido en cuenta que al
aumentar el nº de hijos era lógico que aumentara la probabilidad de que al menos uno fuera delincuente (es
decir, que una familia con 2 hijos tiene mayor probabilidad de que uno sea delincuente que una con 1 hijo, sin
que ello implique que al aumentar el tamaño de familia aumente la probabilidad individual de q cada hijo
resulte delincuente). El srY que las cifras anteriores debería corregirse para tener en cuenta dicho sesgo,
dividiendo el nº de casos por el de hijos, obteniendo el siguiente resultado:
Nº de hijos en la
familia del
delincuente
1
2
3
4
5
6
Nº de casos
5
4
3.7
3.5
3.2
3
El srY deducía de su análisis una conclusión contraria a la del srX: al aumentar el nº de hijos disminuía la
probabilidad individual de que cada unos de ellos resultara un delincuente.
A el alumno deberá estudiar los argumentos de los sres X e Y y pronunciarse sobre ellos sintetizando su
opinión al respecto y señalando, en su caso, la información adicional que consideraría necesaria para analizar
el tema en cuestión.
• Muestras. Datos estadísticos.
En gral no resulta posible estudiar la totalidad de los individuos de una población para obtener información
sobre ésta. Incluso cuando esta posibilidad existe técnicamente, como es el caso al tratar poblaciones reales
finitas, dicho procedimiento suele ser impracticable por consideraciones económicas.
En consecuencia, para obt información sobre una población hay que limitarse a analizar un subconjunto de
individuos de la misma. A este subconjunto se le ll. Muestra.
5
La forma de seleccionar los individuos que han de constituir la muestra tiene, como es lógico, una
importancia capital para garantizar que ésta permita obt conclusiones que puedan extrapolarse válidamente
a la población de la q la muestra procede. No hay q olvidar nunca que el objeto final del estudio es siempre
la población y que la muestra es sólo un medio para obt información sobre ésta.
Con el fin de permitir inferir conclusiones válidas sobre una población, la muestra debe ser representativa de
ésta. En teoría la única forma de garantizar la representatividad de la muestra es seleccionando al azar los
individuos que la vayan a componer, de forma que todos los individuos de la población tengan a priori una
probabilidad idéntica de pertenecer a la muestra. Aunq esta forma de proceder rara vez sea aplicable de
forma estricta en la práctica, siempre hay que extremar las precauciones para que la forma real de obtener la
muestra sea lo más parecida posible a la ideal. En realidad en muchos casos un conocimiento previo sobre la
población es indispensable para decidir si la muestra puede ser representativa de la misma.
Se desea estudiar la relación q existe entre la estatura y el peso entre la juventud española. El conj de los
alumnos matriculados en estadística en 3º en la ETSIAV ¿puede considerarse una muestra representativa de la
población a efectos del estudio en cuestión? Dicho conjunto ¿puede considerarse una muestra representativa
para estudiar las tendencias políticas en la juventud española? ¿Y para estudiar el nivel cultural? ¿ y para
estudiar la característica aleatoria color de los ojos?
Cuando la población estudiada es real (ejs 1, 2 y 3) la muestra se forma, como hemos señalado,
seleccionando de la forma más aleatoria posible un conj de individuos de la misma. Cuando se muestra una
población abstracta (ejs 4 y 5) la forma de extraer una muestra no es más que realizar un cierto nº de veces el
experimento aleatorio que genera los individuos de una población (lanzar varias veces el dado, plantar unas
cuantas parcelas de la variedad en estudio, generar un conj de mensajes en la red de multiprocesadores).
A plantear cómo se podría obt una muestra representativa en cada una de las 3 poblaciones definidas por el
alumno.
Datos estadísticos " los valores observados para la variable aleatoria en los individuos que forman la
muestra.
Estadística Descriptiva " el tratamiento de dichos datos con el fin de poner de manifiesto sus características
más relevantes y sintetizarlas mediante unos pocos parámetros o mediante representaciones gráficas
adecuadas.
Inferencia Estadística " el análisis de los mismos con el fin de obtener conclusiones que, con un margen de
confianza conocido, sean extrapolables a la población de la que procede la muestra.
Su objetivo sacar conclusiones, respecto a la población, a partir de los datos obtenidos de una muestra
representativa de ella.
Pero existe siempre un margen de incertidumbre en cuanto a esa interpretación de los resultados y se
calcula mediante el cálculo de probabilidades, que es la base matemática de la Inferencia Estadística. Según
la probabilidad calculada, se interpreta si los resultados son significativos o no.
PROCESO
POBLACIÓN
MUESTRA
(representativa)
6
• Tablas de frecuencias.
Variables unidimensionales
Los primero: El conjunto de valores observados, relacionados en el orden en el q han sido obtenidos,
constituyen el material inicial a partir del cual debe llevarse a cabo el análisis estadístico descriptivo.
Si el nº de datos no es muy reducido, su interpretación se facilita presentándolos agrupados en una tabla:
• Si la variable es discreta los datos se pueden sintetizar en una tabla donde aparezca:
• La variable (Xi)
• El nº de casos (frecuencia absoluta) " ni
• La frecuencia relativa " fi = ni/N
Variable
(Xi)
Nº de casos
(ni)
Frecuencias relativas
(fi = ni/N)
Cuando la variable estudiada es de tipo discreto, los datos pueden sintetizarse en una tabla como la adjunta,
en la q, en este caso, se pretende describir la gravedad de un ataque de mosca del mediterráneo a partir del
nº de picadas constatado en 200 naranjas:
Picadas
Nº de naranjas
Frecuencia relativa
(Xi)
0
1
2
3
(ni)
48
106
32
14
fi =ni/N
0.24
0.53
0.16
0.07
En esta tabla, para cada valor Xi constatado en la muestra, se refleja la frecuencia absoluta ni o nº de veces
q dicho valor ha sido observado en la muestra. Dado que las frecuencias absolutas dependen del nº total N de
observaciones, suele ser conveniente reflejar también en la tabla las frecuencias relativas fi que no son más
que los cocientes ni /N.
• Si la variable es continua se suele proceder aun agrupamiento de los datos en tramos.
¿cómo? dividiendo el campo de variación en un conjunto de k intervalos de igual longitud
anotando : los límites de cada intervalo
7
• valor central de cada intervalo
• el nº de observaciones constatadas en el mismo
¿cuántos intervalos hemos de hacer?
• Cuanto + intervalos => +información ganas pero=> + difícil de ver e interpretar será.
•
es un orden de magnitud bueno y general.
cuando la variable estudiada es de tipo continuo, y dado q el nº de datos de la muestra es obviamente finito,
nada impediría en ppio emplear un procedimiento de tabulación similar al expuesto en el caso discreto. Sin
embargo, como será difícil encontrar valores repetidos de las Xi (de hecho si la variable se midiera con
suficiente precisión la probabilidad de encontrar valores repetidos sería nula) la tabla resultante sería
excesivam prolija y casi tan difícil de interpretar como los datos iniciales. Por ello, se acostumbra a proceder
a un agrupamiento de los datos dividiendo el campo de variación en un conjunto de K intervalos de igual
longitud y anotando los límites y el valor central de cada intervalo, así como el nº de observaciones
constatadas en el mismo.
No es posible determinar a priori la amplitud óptima q deben tener los intervalos y, en consecuencia, en nº
de éstos. Un nº excesivo de intervalos plantea el problema de conducir a una tabla muy prolija y difícil de
interpretar. Pero si el agrupamiento es excesivo, se pierde una parte importante de la información contenida
en los datos. En gral, valores entre 5 y 15 intervalos, (dependiendo en parte del tamaño N de la muestra)
suelen ser razonables, no estando en gral un nivel mayor de desagregación.
La siguiente tabla recoge, a título de ejemplo, el resultado de la tabulación en 11 intervalos de los valores del
ratio entre los 2 diámetros en 815 hojas de tabaco.
Límite del intervalo
1.55−1.65
1.65−1.75
1.75−1.85
1.85−1.95
1.95−2.05
2.05−2.15
2.15−2.25
2.25−2,35
2.35−2,45
2.45−2.55
2.55−2.65
Centro del
intervalo
Nº de
observaciones
Xi
1.60
1.70
1.80
1.90
2.00
2.10
2.20
2.30
2.40
2.50
2.60
ni
3
12
40
97
157
204
183
75
31
9
4
Con vistas a aumentar la información para un nº determinado de intervalos se recurre a veces a establecer
éstos con tamaños desiguales, más amplios en las zonas con pocos datos y más estrechos en las de mayor
frecuencia de observaciones. La práctica, sin embargo, no es en gral aconsejable, puesto que la información
contenida en la tabla resulta más difícil de captar en un simple examen de la misma. En cambio, puede
resultar conveniente dejar 2 intervalos abierto en ambos extremos de la tabla, con el fin de recoger los pocos
valores extremos observados.
8
En el establecimiento de intervalos conviene definir con precisión los límites de éstos y el tratamiento a dar a
lo valores que caigan exactamente sobre los mismos.
Señalaremos por último que aunque una variable estudiada sea de tipo discreto también puede ser
aconsejable agrupar los valores para su tabulación en el caso de q el campo de variabilidad de los datos sea
muy amplio.
A discutir la afirmación de q si la variable es continua y el sistema de medidas suficientem preciso la
probabilidad de encontrar dos valores iguales es nula.
A ¿por qué se pierde mucha información en la tabulación si el nº de intervalos considerado es muy pequeño?
A tabular los valores constatados para las variables DÍGITO, POLÍTICA y PROBLEMA en la encuesta
realizada. Estudiar en particular la frecuencia con q aparecen los distintos dígitos. A la vista de los resultados,
¿parece visible la hipótesis de q cuando se enuncian dígitos supuestam al azar los pares aparecen con la misma
frecuencia que los impares?
Variable bidimensionales. Tablas de contingencia.
Cuando se está considerando una variable aleatoria bidimensional,
• un primer análisis entre la relación existente entre las 2 características en estudio, puede llevarse a
cabo a partir de la construcción de la tabla de frecuencias cruzada que recoja la frecuencia con q se
ha observado cada combinación de valores posibles de ambas variables.
Tabla de frecuencias bidimensional se emplea para ver y estudiar sobretodo la relación entre dos variables
aleatorias de tipo cualitativo (realmente debería decirse dos componentes de una variable bidimensional).
• Frecuencias absolutas " el nº (real) de veces que una variable aleatoria toma un cierto valor.
• Frecuencia relativa " el % respecto al total del nº de veces que un resultado ocurre.
• En el caso de q 1 o ambas de las variables sea de tipo continuo será preciso proceder a un
agrupamiento en intervalos de sus valores. Este tipo de tablas de frecuencias se les denomina a veces
en Estadística tablas de contingencia.
La tabla siguiente está obtenida a partir de las respuestas de los propios alumnos asistentes a la 1ª clase de
Estadística de la ETSIA el curso 88−89, y recoge los variables SEXO y REPITE, la segunda de las cuales
recoge el hecho de si el alumno repite o no la asignatura.
(Tabla)
• Cada casilla recoge el nº de individuos q tienen los valores correspondientes para las 2 variables
(SEXO y REPITE).
• A la derecha de la tabla se recogen las frecuencias totales, tanto absolutas como relativas (estas
últimas expresadas como porcentaje), para los 2 valores de SEXO. A esta frecuencias se les
denomina frecuencias marginales. En la parte inferior de la tabla se recogen las frecuencias
marginales para la variable REPITE.
• Con el fin de estudiar si la proporción de repetidores es similar en los 2 sexos conviene calcular la
influencia relativa de cada casilla respecto al total de la fila correspondiente. Estas frecuencias
relativas, q se recogen en la tabla en % en la parte inferior de cada casilla, se ll. Frecuencias
relativas condicionales de REPITE en función de los valores de SEXO.
9
A calcular a partir de los datos de la tabla anterior las frecuencias relativas condicionales de SEXO frente a
REPITE. ¿cuál de los 2 conjuntos de frecuencias condicionales q pueden prestarse a una interpretación más
interesante?
Cuando se dice q el 80% de los matrimonios q se divorcian en España son católicos, ¿de qué tipo de
frecuencias relativas se está hablando?
¿qué frecuencias relativas consideras que sería interesante comparar con el fin de estudiar la relación entre
religión y divorcio?
En las prácticas de laboratorio cada grupo deberá obtener las tablas de contingencia q considere interesantes a
partir de los datos de la encuesta realizada en clase.
¿ha sido exactamente la misma frecuencia de dígitos impares en los chicos y en las chicas? Ante los resultados
observados, ¿crees que podría afirmarse que existe una diferencia sistemática entre sexos, extrapolable a toda
la juventud española respecto a preferir dígitos impares o pares?
Estudia cómo a partir de la tabla cruzada correspondiente, la relación existente en la muestra entre POLÏTICA
y PROBLEMA. ¿crees que las conclusiones obtenidas respecto a la POSICIÓN POLÍTICA y PROBLEMA
considerado como más importante se repetiría en otras muestras extraídas de la población constituida por la
juventud universitaria española?
• Histogramas.
Histograma " representación gráfica de un conjunto de datos q se emplea para representar datos de una
variable cuantitativa.
• Eje horizontal valores posibles de la variable.
• Eje vertical frecuencias (absolutas o relativas) con q aparecen dichos valores.
Ppio básico los histogramas de datos procedentes de un proceso bajo control tienen aproximadamente la
forma de una campana centrada sobre la media del proceso.
Un histograma no es más q una determinada representación gráfica de un conj de datos. En el eje horizontal
de las abscisas se representan los valores tomados por la variable en cuestión, agrupados en tramos de la
forma habitual si la variable es continua. Sobre cada tramo se levanta una barra de altura proporcional a la
frecuencia (es indiferente que sea absoluta o relativa) de valores observados en el tramo considerado.
La siguiente figura recoge el histograma correspondiente a los datos sobre la relación de diámetros en hojas de
tabaco.
(figura)
Los histogramas de frecuencias constituyen una poderosa herramienta para el análisis descriptivo de datos,
pues permiten muchas veces poner claramente de manifiesto problemas como:
• Existencia de datos anómalos
Hay un valor q destaca
• Mezclas de poblaciones distintas
10
• Datos artificialmente modificados
Datos falseados: los datos se tomaron ajustándolos al valor nominal q debía obtenerse en el proceso, los
datos q caían cerca del valor nominal se aproximaban a él. A la drcha no aparece el resto de la campana de
Gauss pq esos datos de la drcha se salían de las especificaciones del proceso y lo q se hizo con ellos es
anotarlos directamente como si se hubiera obtenido el valor nominal.
Curva de Gauss q se debería haber obtenido y q se truncó artificialmente falseando los datos.
• No normalidad de los datos,...
Proceso con buena (poca) variabilidad, pero mal centrado. Aunq en ppio parezca bueno el proceso, hay q
corregirlo, para centrarlo.
Límites de las especificaciones
Valor nominal
El error más frecuente q cometen los técnicos es q resuelven correctamente problemas equivocados.
Un mínimo de 40 ó 50 datos es aconsejable para construir un histograma. El nº adecuado de tramos depende
del tamaño de la muestra. Una regla empírica q conduce a valores razonables es utilizar como nº de tramos
un estero cercano a la raíz cuadrada del nº de datos. En cualquier caso no es frecuente, ni presenta en gral
ventaja alguna, trazar un histograma con más de 15 ó 20 tramos.
(histograma)
A obtener el histograma de frecuencias para las variables ESTATURA y PESO a partir de los datos de la
encuesta.
Una determinada dimensión generada en el mecanizado de unas piezas debe diferir como máximo en 5
unidades del valor nominal. Los datos reflejados en un gráfico de control referido a 100 piezas y medidos en
diferencias respecto al nominal son los siguientes:
(copiar, I−18)
Obtener un histograma de los datos anteriores y comentar las conclusiones que se deducen del mismo.
También es posible obtener histogramas tridimensionales para representar variable bidimensionales. Sin
embargo la dificultad de interpretarlos limita bastante la utilidad práctica de esta opción.
Otro tipo de gráfico q resulta interesante, es el diagrama de frecuencias acumuladas. En este caso, las
abscisas levantadas sobre el límite superior de cada intervalo corresponden a la frecuencia acumuladas, es
decir a la suma de las frecuencias constatadas en todos los intervalos anteriores al considerado (incluyendo
las de éste).
La gráfica, tiene forma de una línea quebrada no decreciente. En gral se opera con frecuencias relativas y la
altura final es, por tanto, igual a 1.
El diagrama de frecuencias acumuladas permite responder directam a preguntas como:
• ¿qué % de hojas entre las estudiadas tiene una relación de diámetros inferior a 1.9?
11
• ¿qué relación de diámetros sólo es superado por un 5% de las hojas de la muestra?
Un histograma sintetiza los datos de forma gráfica, pero además, sólo para variables cuantitativas se definen
los:
PARÁMETROS ESTADÍSTICOS " índices que reflejan los aspectos esenciales de la variabilidad de los
datos observados. Hay 3 tipos:
• Parámetros de POSICIÓN
• Parámetros de DISPERSIÓN
• Parámetros de forma de ASIMETRÍA
De CURTOSIS
• Parámetros de posición. Media. Mediana. Cuartiles.
Parámetros de posición indican la zona donde caen los datos.
Ej: una máquina q fabrica asientos más duros q otra. Dos poblaciones q tienen una variable que difiere en su
posición. Hay que decir que en promedio los datos tienen un cierto orden de magnitud.
Ej: una máquina q fabrica con más dispersión de cierta característica aleatoria q otra (será mejor la q
presenta menor dispersión):
Las tablas y gráficas que acabamos de estudiar tienen la totalidad, o al menos una gran parte, de la
información existente en la muestra. Uno de los primeros problemas q se plantean en Estadística es el de
sintetizar esta información, reduciéndola a un nº limitado de parámetros más fáciles de manejar y comparar
entre sí.
Fundamentalmente la pauta de variabilidad constatada en un conj de observaciones relativas a una variable
unidimensional puede caracterizarse por 2 tipos de parámetros q definan respectivam la posición y la
dispersión de las observaciones. En la sig figura, en la q se ha sustituido por comodidad los histogramas de
frecuencias por curvas, se ve claramente el sentido de ambos términos.
(2 histogramas p )
A dibujar cómo serían los histogramas de frecuencias (o unas curvas continuas q los aproximen) para la
variable ESTATURA de los jóvenes españoles, diferenciando el relativo a los CHICOS de entre las CHICAS.
Dibujar tb los histogramas hipotéticos para las variables COEFICIENTE INTELECTUAL.
En el presente apartado nos ocuparemos de los parámetros más utilizados para caracterizar la posición de
un conj de datos, dejando para el sig el estudio de los parámetros de dispersión.
Media.
El parámetro de posición mas utilizado en la práctica es la media aritmética de los datos. Su cálculo se
realiza mediante la fórmula bien conocida:
Media "
12
La media sintetiza la información existente en la totalidad de los datos en un nº que da una idea clara sobre
la posición de los mismos. Es el parámetro ppal que indica la posición de los individuos de una muestra, es el
indicador de posición más utilizado.
Media muestral "
nº de individuos de una muestra
Media poblacional "
nº de individuos de una población (puede no ser finito)
A calcular y comparar la media de estatura de CHICOS y CHICAS a partir de la encuesta realizada en clase.
La media tiene una serie de propiedades q la hacen especialm idónea como medida de posición.
• Si una variable Z es la suma de 2 variables X e Y, la media de Z resulta igual a la suma de las medias
de X e Y Z = X + Y => media(Z) = media(X) + media(Y)
• Si la variable Y es una transformada lineal de otra variable X ( Y= a + bX) la media de Y resulta ser
la misma transformada lineal de la media de X
Y = a + bX => media(Y) = a + media(X)
A definir una nueva variable Z igual a ESTATURA + PESO. Y comprobar q la media de Z es la suma de las
medias de las 2 variables consideradas
A definir una nueva variable ESTCM q defina la estatura como el nº de cm en que se excede a un metro, y
comprobar q la media ESTCM es el nº de cm en q la media de estatura rebasa un metro..
En algunos casos particulares, la media puede resultar una medida de posición algo engañosa. Este es el
caso en concreto con datos muy asimétricos, en los q unos pocos valores extremos (en gral por la cola
derecha del histograma) pueden influir excesivamente sobre el valor de media. En estos casos se aconseja
usar la mediana como una medida de posición alternativa en vez de la media.
A al preguntar un viajero a un botones de un hotel qué propina le dan normalmente, éste respondió que la
media de aquel día había sido de 1000. 9 viajeros le había dado 100 ptas y uno 10000. La media no era en este
caso una medida adecuada de la posición de los datos. ¿cuál considera que sería una medida adecuada de la
posición de los datos mencionados?
Mediana.
En caso de datos muy asimétricos o con algunos valores extremos puede ser aconsejable usar la mediana
como una medida de posición alternativa en vez de la media.
Mediana " valor sobre el q hay igual nº de datos por encima y por debajo de él. La mediana puede definirse
intuitivam como el valor central de los observados.
Si se ordenan las n observaciones de menor a mayor,
13
la mediana se define como el valor:
• Q ocupa la posición
si n es impar. mediana =
Ej: de 7 observaciones, ordenados de menor a mayor, la mediana sería el 4º valor.
• La media entre los valores q ocupan las posiciones
y
si n es par.
mediana =
Ej: si tenemos los siguientes datos: 73 64 52 44 61 83
• ordenamos de menor a mayor 44 52 61 64 73 83
• n es par => la mediana será la media de los datos intermedios: (61+64)/2
En un diagrama de frecuencias con asimetría (q normalmente es asimétrico por la derecha), la mediana es el
valor en q el área es igual por ambas partes:
Mediana
Moda " el valor más frecuente
En una distribución simétrica (en una campana de Gauss):
Es característico de una distribución normal, que es la distribución más frecuente aunq no se completam
simétrica.
A ¿cuál sería la mediana en el ejemplo mencionado de las propinas al botones del hotel?
A en una empresa de 500 operarios se considera la variable SALARIO MENSUAL de cada empleado. ¿qué
sería en este ejemplo la media y la mediana de los datos?
A la LD50 de un insecticida ¿a qué parámetro de distribución de la variable considerada corresponde? A la
mediana, no a la media.
A ¿qué otro parámetro podía haberse definido en vez de la LD50?
A ¿por qué consideras q se eligió en su día el primer parámetro?
A calcular las medianas de las variables EDAD, ESTATURA, PESO y TIEMPO con los datos de la encuesta
y compararlos con las medias respectivas. Constatar la sensible diferencia entre ambos parámetros para la
variable TIEMPO y comprobar con un histograma q la distribución de esta variable es muy asimétrica.
14
Cuartiles.
El primer cuartil de un conj de datos se puede definir de forma aprox como el valor C1 tal q la 4ª parte de los
datos son inferiores a él y 3 cuartas partes de los datos son superiores al mismo. Teniendo la mediana de las
observaciones,
• la mediana de los datos q quedan por encima es el primer cuartil
• la mediana de los datos q quedan por debajo es el tercer cuartil
• De forma más precisa, C1 es el primer cuartil si el nº de datos
q C1 es mayor q
y el nº de datos
C1 es mayor q
.
• De forma simétrica, se define el tercer cuartil C3 como el valor tal q el nº de datos
C3 es mayor q
y el nº de valores
C3 es mayor q
.
Entre los dos cuartiles C1 y C3 se encuentra el 50% central de los datos observados.
A calcular el primer y tercer cuartil de los datos sobre los ejemplos sobre las propinas en el hotel y sobre
mecanizado de cierta pieza.
A Calcular los dos cuartiles de las variables ESTATURA y PESO con los datos de la encuesta. Repetir el
cálculo por separado con los chicos y las chicas. Comentar los resultados obtenidos.
• Parámetros de dispersión.
Como hemos señalado, toda población real se caracteriza por la presencia de variabilidad en los valores de
las variables q puedan observarse en la misma. Para describir un conj de datos estadísticos, y tener en
consecuencia una idea sobre la pauta de variabilidad existente en la población de la que procede la muestra,
no es suficiente por tanto de disponer de una medida de la posición de dichos datos, si no q es preciso
también cuantificar de alguna forma el grado de dispersión existente en los mismos.
Importancia del concepto de dispersión la calidad industrial se basa en minimizar la dispersión.
A para una persona q no sabe nada ¿es suficiente saber q la profundidad media en el lago es 1,40m para
lanzarse al baño en el mismo? Por cierto, ¿cuál será la población y cuál la variable aleatoria en este caso?
¿aclararía mucho la decisión el conocer la profundidad mediana del lago?
A una empresa automovilística ha determinado mediante estudios ergonómicos q la dureza óptima de los
asientos es 250N. A sus posibles proveedores, les exige q la dureza de los asientos q les venda no difieran en
más de un 10% de dicho valor, o sea, que esté comprendida entre 225 y 275N. La naturaleza de los asientos
ofrecidos por 2 posibles proveedores presentan una pauta de variabilidad sintetizada por los siguientes
15
histogramas:
(histogramas p I−26)
en ambos casos los proveedores cumples las especificaciones de la empresa, consiguiendo las 2 variables
consideradas la misma media deseada de 250N. ¿puede considerarse q la elección entre ambos proveedores es
por tanto irrelevante? Compraríamos del primer proveedor porque su proceso tiene una menor dispersión,
además el 2º, dada la forma del histograma, presenta datos falseados, su proceso se sale de especificaciones y
han recortado, falseado el histograma por los laterales. ¿ en qué difieren las pautas de variabilidad de las
longitudes entre ambos proveedores? ¿cuál resulta preferible? ¿por qué?
Últimamente la idea de dispersión de un conj de datos es bastante clara.
El conjunto de datos 3,3,3,3 y 3 tiene una dispersión nula. Los datos 1, 3, 5, 7 y9 tienen dispersión, pero
menor que los datos 1, 5, 10, 15 y 20. ¿cómo puede precisarse esta idea intuitiva mediante un índice que
cuantifique la mayor o menor dispersión de estos datos? Diferentes parámetros pueden utilizarse al respecto.
¿cómo medir la dispersión? Mediante el :
Recorrido " la medida de dispersión más sencilla para un conj de observaciones, q no es más que la
diferencia entre el mayor y el menor de los datos.
Aunque útil en muestras pequeñas ( el recorrido se utiliza frecuentemente en el control de procesos
industriales, donde es habitual tomar periódicamente muestras de tamaño 5), el recorrido presenta el
inconveniente de q ignora gran parte de la información existente en la muestra. El problema se presenta
cuando hay demasiados datos o cuando alguno de ellos es muy extremo aunq en gral es un parámetro pobre
=> es mejor utilizar la varianza o su raíz cuadrada, la desviación típica.
Dado que la media es en la mayor parte de los casos un buen parámetro de posición, parece lógico tomar
como medida de dispersión algún parámetro relacionado con la magnitud de las desviaciones de los datos
observados respecto a su media.
X1 (x1−m)2
X2 (x2−m)2
..
..
xn (xn−m)2
m
El valor medio de estas desviaciones será siempre 0 ( al anularse las desviaciones positivas con las
negativas) por lo que no puede utilizarse como media de dispersión.
A comprobar la afirmación anterior sobre una cualq de las variables de la encuesta.
16
La medida de dispersión más utilizada en Estadística es la varianza o, alternativam, su raíz cuadrada q se ll.
Desviación típica.
La varianza " el promedio de los cuadrados de las desviaciones de los datos respecto a su media.
Consideraciones teóricas hacen q en el cálculo de dicho promedio, la suma de los cuadrados de dichas
desviaciones se divida por (N−1) en vez de por N. ¿por qué? Pq el objeto de estudio es siempre la población,
no la muestra. En un caso extremo en el q sólo se tome un dato, no se podría estudiar la variabilidad pq el
valor de la varianza sería 0/0.
Varianza de una muestra:
Varianza " Muestral S2 =
Poblacional =
Desviación Típica " muestral S =
"
Poblacional =
"
En gral se prefiere utilizar como medida descriptiva de la dispersión la desviación típica, q resulta más fácil
de interpretar al venir expresada en las mismas unidades q los datos estadísticos.
Sin embargo las propiedades estadísticas son mas sencillas con las varianzas. Así cuando dos variables
aleatorias son independientes, la varianza de su suma es la suma de las varianzas, cosa que no sucede si se
consideran las desviaciones típicas.
Propiedades de la varianza :
• Y = a + X => (Y) = (X)
• Y = a + bX => (Y) = b2 (X) => (Y) = b (X)
• Y = X1 + X2 => (Y) = (X1) + (X2) " (la varianza de la suma es la suma de las varianzas sólo
cuando las dos variables son independientes, cuando no están relacionadas)
• Y = X1 − X2 " X1 + (−1) X2 => (Y) = (X1) + (−1) (X2) " (la varianza de la resta es la suma
de las varianzas)
En la calculadora, ¿qué botón se usa? ¿ ó ?
• sería para calcular la desviación típica poblacional
• sería para calcular la desviación típica muestral
17
pero nunca vamos a tener los datos de una población, sino los de una muestra => spre calcularemos la
desviación típica muestral => se usa
Muy frecuentem las variables aleatorias reales siguen pautas de variabilidad q se caracterizan por
histogramas q se asemejan a campanas aproximadamente simétricas. La Estadística ha establecido un
modelo matemático de este tipo de variables aleatorias, la denominada distribución normal o de Gauss. En
datos q siguen una distribución normal se cumplen aproximadamente las siguientes propiedades:
• 2/3 de los datos (" 68.25%) difieren de la media menos de S
68.25%
• el 95% de los datos difiere de la media menos de 2S
95%
• la práctica totalidad de los datos ( en teoría más de un 99,7%) difieren de la media menos de 3S.
99.73%
(Es tan poco probable q haya datos fuera de ese intervalo q, incluso, si ocurre, se investiga lo q ha pasado pq
el proceso está fuera de control.)
A comprobar si se cumplen aproximadam los datos anteriores con los datos de la variable ESTATURA
analizando solamente los datos de los chicos.
La desviación típica viene medida en las mismas unidades q los datos primitivos. En algunos casos interesa
disponer de algún indicador de dispersión q sea adimensional.
Si pretendemos comparar la dispersión de dos sistemas de medida de cierta característica q dan las
determinaciones en escalas diferentes. En estas situaciones puede usarse el coeficiente de variación, q no es
más q el coef entre la desviación típica y la media.
En aquellos casos en q la media no es un indicador adecuado de posición (como en sucede en distribuciones
muy asimétricas) tampoco resultará la desviación típica (basada en las desviaciones respecto a la media) un
parámetro adecuado de dispersión. En estos casos se utiliza a veces con dicho fin el intervalo intercuartílico,
q no es más q la diferencia entre el tercer y el primer cuartil.
Si la desviación típica no fuera buena para describir la pauta de variabilidad de unos datos estadísticos,
como ocurre por ejemplo en datos muy asimétricos en los q la media ha sido mareada por la asimetría de los
18
datos, entonces se emplea el intervalo de recorrido intercuartílico como indicativo de la dispersión.
El intervalo intercuartílico es un indicador robusto de dispersión, de la misma forma q la media es un
indicador robusto de posición, puesto q ambos parámetros resultan poco influidos por la presencia de algún
valor anormal.
Debido a un error en la introducción de datos (entre las observaciones)
A en los datos de ESTATURA de las chicas, modificar un dato poniéndolo en m en lugar de en cm. Calcular
la media, desviación típica, mediana e intervalo intercuartílico de los nuevos datos de estatura de las chicas y
compararlos con los valores q se obtienen tras corregir el dato erróneo. ¿qué se observa?
• Parámetros de asimetría y de curtosis.
Otra característica importante de la muestra es la asimetría.
Como ya se ha comentado, las variables aleatorias continuas presentan frecuentem una pauta de variabilidad
q se caracteriza por el hecho d q los datos tienden a acumularse alrededor de un valor central, decreciendo
su frecuencia de forma aproximadam simétrica a medida q se alejan por ambos lados de dicho valor. Ello
conduce a histogramas q tienen forma de curva en campana (la famosa campana de Gauss, denominada así
en honor del célebre astrónomo q estableció, junto con Laplace, la distribución normal al observar la
variabilidad en los errores de sus observaciones).
Para estudiar este tipo de pauta de variabilidad se ha establecido un modelo matemático, la distribución
normal, de extraordinaria importancia en la Inferencia Estadística. Toda distribución normal viene
completam caracterizada por su media y su desviación típica, es decir por sus parámetros de posición y de
dispersión.
Sin embargo, un problema frecuente al estudiar datos reales es precisamente analizar hasta qué punto la
distribución normal resulta un modelo adecuado, puesto q pautas de variabilidad q se alejen sensiblem de la
normal pueden exigir el recurso a tratamientos estadísticos especiales o ser el síntoma de anomalía de los
datos.
Con este fin se utilizan los coefs de asimetría y de curtosis.
Coeficiente de asimetría. (skewness para el statgraphics)
Si unos datos son simétricos, lo son respecto a su media, y la suma de los cubos de las desviaciones de los
datos respecto a dicha media
será nula. Por el contrario, dicha suma será positiva si los datos representan una cola alargada hacia la
derecha y negativa si la presentan hacia la izquierda.
Coeficiente de asimetría " CA " una medida cuantitativa de hasta qué punto una muestra es simétrica,
respecto a la media, o no.
" el promedio (dividiendo tb por (N−1) en vez de por N) de los cubos de las desviaciones respecto a la media,
dividido por el cubo de la desviación típica.
CA =
19
(La división por s3 tiene por objeto obtener un coef adimensional, o sea, que no dependa de la escala en q
vengan los datos.)
En la siguiente figura se reflejan los histogramas posibles (simplificando su representación usando curvas
continuas) :
• de unos datos simétricos (CA=0)
• de unos datos con asimetría positiva (CA >0) <−> con la cola hacia la derecha
• y de otros con asimetría negativa (CA<0) <−> con la cola hacia la izquierda
(histogramas p 1−31)
Pero, ante una asimetría positiva o negativa, ¿cómo valoramos si una población es muy asimétrica o poco?
Mediante el:
Coeficiente de asimetría estandarizado " CAEST " el CA dividido por una función del tamaño de la muestra
que cumple que, cuando los datos proceden de una población simétrica, oscila entre −2 y +2 (±2).
CAS =
entre −2 y +2 => CAS razonable =>
=> la población se dice q es simétrica (si no, se toma como asimétrica)
Coeficiente de curtosis.
Un conjunto de datos se dice q es leptocúrtico si presenta valores muy alejados de la media con mayor
frecuencia de la q cabría esperar para unos datos normales q tuvieran la misma desviación típica.
Obviamente, para compensar estos valores extremos, un histograma de datos leptocúrticos es más apuntado
en las cercanías de la media de lo que lo será el de unos datos normales con la misma desviación típica.
Frecuentem, valores elevados de la curtosis de un conj de datos suele ser síntoma de q entre los mismos se
incluyen observaciones anómalas (errores de transcripción o algún individuo perteneciente a una población
distinto de la estudiad).
Unos datos se ll. Planicúrticos si valores alejados de la media aparecen con una frecuencia menor de la q
cabría esperar si los datos siguieran una distribución normal con la misma desviación típica.
El histograma de unos datos planicúrticos aparece más plano en el entorno de la media de lo q lo sería el de
unos datos normales con idéntica varianza.
Así como la leptocurtosis estaba asociada a la presencia de datos anómalos, una planicurtosis excesiva
puede revelar q los datos han sido artificialmente censurados para eliminar los valores considerados
extremos.
La sig figura refleja los histogramas( sustituidos por curvas continuas) de 3 distribuciones de datos con
idénticas medias y distribuciones típicas pero q difieren en su curtosis.
El grado de curtosis de un conj de datos se mide mediante el
20
coeficiente de curtosis CC, que es el coeficiente entre el promedio (dividiendo por (N−1) en vez de por N) de
las cuartas potencias de las desviaciones respecto a la media y la desviación típica elevada a 4.
(gráficas curtosis)
Coeficiente de curtosis " CC =
En datos que siguen exactamente una distribución normal el CC resulta igual a 3.
Por tanto un conjunto de datos será
• leptocúrtico si CC>3
• planicúrtico si CC<3
obviamente, cuanto más difiere de 3 el coeficiente CC, más acusada es la característica de curtosis
correspondiente.
(nota: el coeficiente CC en STATGRAPHICS se da directamente como el valor (CC−3), por lo que en datos
normales el coeficiente debe resultar próximo a 0, en datos leptocúrticos CC>0 y en datos planicúrticos,
CC<0.)
Pero ¿cómo cuantificamos si un conj de datos presenta mucho o poco grado de curtosis? Mediante el:
Coeficiente de curtosis estandarizado " CAest =
" el CC dividido por un coeficiente tal que, para un conjunto de datos q presenten una curtosis razonable (q
no se consideren lepto o planicúrticos), CCest está entre −2 y +2.
A calcular los coeficientes de asimetría y curtosis de la ESTATURA de chicos y chicas y comparar los
resultados obtenidos. Obtener también dichos coeficientes para la variable TIEMPO.
• Diagramas de box−whisker.
Un diagrama (traducido literalmente caja−bigote) es una representación gráfica sencilla de u8n conjunto de
datos. Representa, frente a un histograma, la ventaja de no exigir un nº elevado de datos para su
construcción, además de resultar más sencillo su manejo cuando el objetivo es comparar distintos grupos de
datos.
Datos
• La caja comprende el 50% de los valores centrales de los datos, extendiéndose entre el primer cuartil
y el tercer cuartil (35 y 47 en la figura). La limitan los cuartiles.
• La línea central corresponde a la mediana (41 en la figura).
• Los bigotes se extienden desde el menor (23) al mayor (58) de los valores observados y considerados
normales.
• Aquellos valores extremos q difieren del cuartil más próximo en más de 1,5 veces el intervalo
intercuartílico, se grafican como puntos aislados ( como sucede en la figura con el valor 72) por
considerar que pueden corresponder a datos anómalos (outliers en la terminología estadística). Tales
puntos se toman como sospechosos.
21
El statgraphics además lo marca con una cruz si su distancia al cuartil más cercano en mayor de 10.5 veces
el intervalo intercuartílico.
Los diagramas box−whisker resultan una herramienta extremadam práctica para comparar las pautas de
variabilidad existentes en distintos grupos de datos.
A comparar la distribución de la ESTATURA entre chicos y chicas mediante los diagramas box−whisker
correspondientes.
Cuanto más simétrica sea la figura, incluyendo la mediana, más normales son los datos.
Una gráfica totalmente asimétrica indica q los datos son anómalos
UT 2. ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL
• Distribuciones marginales y condicionales.
• Diagramas de dispersión.
• Covarianza. Coeficientes de correlación.
• Interpretación de relaciones.
• Recta de regresión.
• Análisis de resultados.
Trata de la Estadística Descriptiva bidimensional en el caso de variables cuantitativas.
En la variable aleatoria bidimensional cuyas componentes son CONSUMO de energía y TEMPERATURA
media del día, parece intuitivo q para días de menor temperatura, mayor será el consumo de energía. Pero hay
q cuantificar ese grado de relación existente entre el CONSUMO diario de energía y la TEMPERATURA
media del día. Ésta es una variable aleatoria bidimensional de tipo cuantitativo.
Cuando hay una variable aleatoria bidimensional, además de la variabilidad de cada una de las
componentes, tenemos lo q se ll covarianza y coeficiente de correlación entre ellas.
El hecho de q dos variables (" las dos componentes de una variable aleatoria bidimensional) estén
relacionadas no siempre significa q una sea la causa de la otra, sino q puede ser que ambas sean la
consecuencia de una tercera variable q no se está considerando.
En la unidad temática I se introdujo de una forma elemental el estudio descriptivo de variables aleatorias
bidimensionales a partir de la construcción de una tabla de frecuencias cruzada o tabla de contingencia.
Cuando las variables estudiadas son de naturaleza cuantitativa, como es el caso en particular cuando se
trata de variables continuas, el análisis puede enriquecerse mediante nuevas herramientas que se
desarrollan en la presente unidad.
En primer lugar, una representación gráfica sencilla de la posible relación entre las variables consideradas
puede obtenerse a partir del diagrama de dispersión de los valores observados.
En segundo lugar, la cuantificación de la intensidad de la relación existente entre las variables consideradas
viene reflejada (al menos cuando dicha relación es de tipo lineal) por un nuevo parámetro: el coeficiente de
correlación.
• Distribuciones marginales y distribuciones condicionales.
22
Sobre cada individuo de la población se observan dos características aleatorias expresables numéricamente,
se tiene una variable aleatoria bidimensional.
En la población constituida por los estudiantes universitarios españoles, se observa la variable ESTATURA
(cm) y el PESO (kg) de cada estudiante. Una muestra de esta variable bidimensional puede estar constituida
por los 130 pares de valores constatados en los 130 alumnos q respondieran a la encuesta.
Para el control del consumo de energía en una factoría durante los emses de invierno, se anota diariamente el
CONSUMO (termias) y la TEMPERATURA diaria (ºC a las 12).
A ¿cuáles serían las dos componentes de la variable aleatoria bidimensional? ¿qué podría ser una muestra en
este caso?
En la unidad temática 1 se expuso cómo podría describirse, mediante una tabla de contingencia, la relación
entre las dos componentes de una variable bidimensional, en el caso de q ambas fueran de tipo discreto,
como es especialmente el caso cuando las variables son de naturaleza básicamente cualitativa.
Cuando las 2 componentes de la variable aleatoria bidimensional (las dos variables) son de tipo cuantitativo,
especialmente cuando se trata de variables continuas (como sucede con los 2 ejemplos anteriores) es posible
utilizar técnicas más adecuadas para describir y analizar la relación existente entre ambas.
Por supuesto es posible, en primer lugar, construir una tabla de frecuencias cruzada entre las dos variables,
aunque será necesario agruparlos en intervalos.
Distribución (de una variable aleatoria) cuando tenemos una variable aleatortia, ésta fluctúa, se distribuye
dentro de los posibles.
En Estadística y Cálculo de probabilidades, para una variable aleatoria bidimensional (X, Y), podemos
estudiar la pauta de variabilidad q tiene una de sus componentes sin considerar la otra. Esta distribución se
ll. Distribución marginal de (esa) variable. También se puede obtener la distribución marginal de la otra
variable.=> Una variable aleatoria bidimensional tendrá dos distribuciones marginales, cada una
correspondiente a cada una de sus componentes.
La siguiente tabla refleja la tabla de frecuencias observadas para cada combinación de tramos de ESTATURA
y PESO. (tabla p 2−4)
En el margen derecho se recogen las frecuencias (absolutas y relativas, éstas últimas expresadas como
porcentaje) de los cuatro tramos considerados para PESO. Estas frecuencias, q están obtenidas sumando para
todos los valores posibles de ESTATURA se denominan marginales. A la pauta de variabilidad q sigue en la
población la variable PESO considerada aisladamente, o sea prescindiendo de los posibles valores q tome la
ESTATURA, se le ll. Distribución marginal del PESO.
De forma análoga, en el margen inferior de la tabla, se reflejan las frecuencias (absolutas y relativas)
observadas en la muestra para la distribución marginal de la ESTATURA.
Hablamos de Distribución condicional de la variable (Y) condicionada a que la variable (X) sea igual a (tal)
" ( Y/ X=x0), si de la totalidad de la población tomamos sólo aquellos individuos en que la varible X vale x0
y, de entre ellos, vemos cómo varía la variable Y.
Ej: si de entre la totalidad de la población, tomamos sólo aquellos individuos q miden 165cm (ESTATURA
=165cm) y, entre ellos, vemos cómo varía el PESO.
23
Para cada valor de X=xo habrá una distribución condicional de Y "(Y/ X=xo). También podemos obtener X/
Y=yo).
Dentro de cada columna se recogen las frecuencias observadas para los diferentes tramos de PESO en los
individuos cuya ESTATURA se halla en el tramo considerados. Las frecuencias relativas están calculadas
respecto a la frecuencia total de la columna considerada y se ll. Frecuencias relativas condicionales. Así de los
individuos cuya ESTATURA está en el tramo 145−155 el 75% pesan entre 40 y 55 kg y el 25% entre 55 y 70
kg, mientras q de los q miden entre 175 y 185cm el 29.4% pesan entre 55 y 70kg y el 70.6% pesan entre 70 y
85 kg.
La pauta de variabilidad q sigue en la población la variable PESO, si nos limitamos a considerar sólo aquellos
individuos cuya ESTATURA pertenece a un determinado tramo se ll distribución condicional del PESO, y
en gral será diferente según el tramo considerado para la ESTATURA. En la tabla siguiente se recogen los
valores de la media, desviación típica, mínimo y máximo para las cuatro distribuciones condicionales de
PESO asociadas a distintos tramos de la variable ESTATURA. (tabla pág 2−6).
Cuando la distribución condicional de una variable, condicionada a q la otra variable tenga un valor xo,
depende de ese valor xo escogido, EJ: el PESO, en promedio, es diferente para individuos q miden 150cm
que para los de 180cm, se dice q las dos variables aleatorias son dependientes. Ej:La distribución de pesos
es diferente según la estatura q consideremos.
A La desviación típica en la muestra de la distribución marginal del PESO es 10.7, sensiblemente superior a
las desviaciones típicas constatadas para las distribuciones condicionales. Justifica lógicamente este resultado.
Sí es lógico, viendo la distribución marginal del PESO y las distribuciones condicionales del PESO
condicionadas a diferentes ESTATURAs:
Es lógico pq ESTATURA es un factor de variabilidad q influye en el PESO (están relacionados), por lo q al
fijar una cierta ESTATURA estamos eliminando un factor de variabilidad para PESO=>así, lógicamente, la
variabilidad () de PESO para una determinada ESTATURA será menor. (se dice q las variables aleatorias
son dependientes estadísticamente (es una dependencia estadística, estocástica, de tipo aleatorio, q no quiere
decir q dependan matemáticamente, q significaría q para una variable aleatoria igual a (tal) la otra valga
(cual), sino q la dependencia estadística es más laxa.
A en la tabla anterior las medias de las distribuciones condicionales aumentan al aumentar los valores
considerados para la variable ESTATURA. ¿te parece lógico este resultado?
Cuando dos variables aleatorias son INDEPENDIENTES, la variabilidad () será la misma para el
diagrama de distribución marginal q para los diagramas de distribuciones condicionales.
Ej: se hace un test de inteligencia en el Poli, y estudiamos la distribución condicional del COEFICIENTE DE
INTELIGENCIA condicionado a la ESTATURA. Veríamos q el promedio de inteligencia sería similar para
cualquier ESTATURA (X=xo) y, por tanto, q no tiene nada q ver una variable con la otra, serían
independientes. Por ser independientes, la variabilidad () será la misma para el diagrama de distribución
marginal de INTELIGENCIA q para los diagramas de distribuciones condicionales de INTELIGENCIA
condicionados a diferentes ESTATURAs:
• Diagramas de dispersión.
Son representaciones gráficas cuyo objetivo es poner de manifiesto la relación existente entre dos variables
aleatorias X e Y.
Una forma sencilla de describir gráficam las relaciones constatadas entre dos variables (es decir, las 2
24
componentes de una variable aleatoria bidimensional) consiste en representar cada observación por un punto
en un plano cuya abcisa sea el valor de la 1ª variable y cuya ordenada sea el de la 2ª. A este tipo de gráfico
se le ll. Diagrama de dispersión.
STAT=>se hace con un SCATERPLOT: como la pregunta más común es si el peso es adecuado para una
estatura determinada:
EFECTO
CAUSA
La sig figura refleja el diagrama de dispersión de la variable PESO frente al de ESTATURA. Para mayor
información los ptos correspondientes a chicos se han modificado con un 1 y los correspondientes a chicas
con un 2.
El diagrama pone claramente de manifiesto una relación positiva entre las 2 variables estudiadas q se refleja
en una nube de ptos cuyo eje ppal tiene sentido creciente como consecuencia del hecho de q, en términos
grales, los individuos más altos pesan más q los más bajos. El diagrama tb pone de manifiesto q las chicas
tienen en gral valores menores de ambas variables q los chicos, pero q la relación entre PESO y ESTATURA
es bastante similar en ambos sexos.
A Para poner un ejemplo en el q el diagrama de dispersión pone claramente de manifiesto una relación
negativa entre dos ariables, obtener el diagrama para las variables TYEMPER y CONSUMO del fichero GAS.
En gral, cuanto más estrechamente se agrupen los puntos del diagrama de dispersión alrededor de una recta,
más fuerte es el grado de relación lineal existente entre las dos variables consideradas.
Ej: PESO
ESTATURA
El PESO depende de la ESTATURA, pero se trata de una relación estadística, no de una relación matemática
(pq hay una variabilidad).
Este es un ejemplo de relación positva entre dos variables (a medida q aumenta X, aumenta Y).
Ej: Relación entre el consumo de energía y la temperatura media del día:
CONSUMO
TEMPER
A ¿sigue creciendo la gente a partir de los 19 años? Para ver si hay alguna evidencia respecto a los daros de la
encuesta, construir el diagrama de frecuencias de ESTATURA frente a EDAD. ¿sugieren los datos algún tipo
de relación?
• Covarianza. Coeficiente de correlación.
Con el fibn de cuantificar en un índice numérico el grado de relación lineal existente entre dos variables, se
utilizan en Estadística dos parámetros: la covarianza y el coeficiente de correlación.
Con el fin de dar una idea intuitiva del concepto de covarianza vamos a razonar sobre el siguiente diagrama
25
de dispersión correspondiente a las variables TEMPER diaria y el CONSUMO de energía en el q hemos
trazado una línea horizontal a la altura del valor medio
de la segunda variable (247.6 es el consumo diario medio) y una línea vertical situada sobre el valor medio
de la primera variable ( 10.9ºC es la temperatura media en el período considerado).
(p2−8)
en este caso, en el q existe claramente una fuerte relación negativa, la mayor parte de los puntos caen en los
cuadrantes 2 y 4. Por el contrario, cuando la relación existente sea positiva la mayoría de los ptos caerán en
los cuadrantes 1 y 3.
Si consideramos el signo q para cada punto xi,yi del diagrama tiene el producto (xi −
)(yi −
) vemos q ésta resulta positiva en los cuadrantes 1 y 3 y negativa en los cuadrantes 2 y 4. Por lo tanto el
producto anterior será en promedio positivo si existe una relación creciente entre las dos variables ( es decir,
si la Y tiende a crecer cuando lo hace la X) y negativo si la relación existente es decreciente.
Por definición la covarianza entre dos variables no es más q el promedio de los productos de las desviaciones
de ambas variables respecto a sus medias respectivas. (por consideraciones q no son del caso, de forma
similar a como se procedió al definir la varianza, el promedio se calcula dividiendo por N−1 en vez de por
N):
(P.2−9)
La covarianza presenta el inconveniente de q depende de las dimensiones en q se expresan las variables. Así
la covarianza entre ESTATURA y PESO será 100 veces mayor si la 1ª variable se mide en cm q si se mide en
m. Para obviar este problema se utiliza universalm en Estadística, como mediada del grado de relación lineal
existente entre dos variables, el coeficiente de correlación lineal, q no es más q la covarianza dividida por el
producto de las desviaciones típicas de las dos variables (p. 2−10).
Se puede demostrar q el coef de correlación lineal está siempre comprendido entre −1 y +1. Los valores
extremos sólo los toma en el caso de q los puntos del diagrama de dispersión estén alineados exactamente en
línea recta. Cuanto más estrecho es grado de relación lineal existente entre dos variables, más cercano a 1 es
el valor de r (o a −1 si la relación es decreciente). Por el contrario una valor de r nulo o cercano a cero
indica una relación lineal inexistente o muy débil.
A Calcular los coefs de correlación entre ESTURA y PESO, netre EDAD y ESTATURA y entre TEMPER y
OCNSUMO. Los valores obtenidos serán 0.74, 0.09 y −0.97. ¿q se deduce de estos vcalores?
Es importante resaltar q tanto la covarianza como el coef de correlación miden sólo el grado de relación
lineal existente entre dos variables. Dos variables pueden tener una relación estrecha y sin embargo resultar
r cercano a cero por ser dicha relación no lineal.
A Introducier dos variable: una X de valores −3, −2, −1, 0, 1, 2, 3 y otra Y de valores 9, 4, 1, 0, 1, 4, 9.
Dibujar el diagrama de dispersión y hallar el coef de correlación entre ambas. ¿están relacionadas las variables
¿ ¿ lo están liealmente?
• Interpretación de relaciones.
Es importante señalar q la existencia de una relación estadística entre dos variables, constatadas por ejemplo
a partir de su coef de correlación en una muestra, no significa necesariamente q haya una relación de
26
causalidad entre las mismas. La correlación constatada entre dos variables puede presentarse
fundamentalmente en dos contextos diferentes:
• existe una dependencia causal unidireccional. La relación entre TEMPER y CONSUMO es de este tipo,
pues está claro (no por los datos estadísticos sino por el conocimiento previo existente sobre el tema) q la
disminución de la temperatura ambiental influye en el consumo de energía, por utilizarse ésta parcialmente
en la climatización de las naves de la factoría. El valor de r y el cálculo de la recta de regresión q se
expone en el siguiente apartado, permiten cuantificar la magnitud de esta relación, lo q resulta
imprescindible si se desea controlar el consumo.
• Las dos variables dependen parcialmente de otra u otras variables q no se están a lo mejor considerando.
La correlación entre ESTAUTRA y PESO se debe posiblemente a q ambas variables vienen condicionadas
por las característica genéticas del individuo así como de las condiciones en q se ha desarrollado.
A ¿crees q por alargar unos cms a una persona en el potro de tormentos ésta habrá aumentado algo de peso,
como consecuenciua de la relación existente entre ESTATURA y PESO?
A ¿En una encuesta sobre hábitos de consumo en hogares españoles se constató una relación positiva entre el
consdiumo de zapatos y consumo de libros. (los hogares q compraban más zapatos eran tb los q compraban
más libros). ¿a qué crees q se debe esta relación? ¿qué te parece la idea de fomentar el hábito de lectura
subvenciuonando el precio del calzado para q los hogares compren más zapatos? (dado q está demostrado q
cuantos más zapatos se compren más libros se compran):
• Recta de regresión.
En muchas ocasiones resulta necesario cuantificar la relación existente entre dos variables con el fin de
predecir el valor de una de las dos variables a partir del valor constatado de la otra.
Por ejemplo, el responsable del control de consumo de energía de la factoría desea saber si el consumo de
230 termias realizado el día anterior puede considerarse normal sabiendo q la temperatura fue de 10ºC. Por
supuesto, y dado q el consumo medio no depende sólo de la temperatura sino también de otros factores (
humedad, viento, volumen de producción,..), es de esperar q aun no habiendo anomalías el CONSUMO en la
población constituida por los días en q la temperatura en de 10ºC fluctuará aleatoriamente. Pero en
promedio ¿cuánto se consumirá en los días en q la temperatura sea de 10ºC? Con todo seguridad menos q lo
que se consumirá en promedio en los días en q la temperatura media sea de 5ºC. Pero, ¿cuántos menos?
Para responder a preguntas como la anterior se utiliza en Estadística la recta de regresión. Mediante esta
recta se pretende predecir el valor q, en promedio, corresponde a la variable Y cuando otra variable X tiene
un valor determinado. Se trata por tanto de obtener una recta
Y=a+bX
q para cada valor de X aproxime lo mejor posible la media de la distribución condicional de Y dado dicho
valor de X.
Consideraciones teóricas q se verán en temas posteriores conducen a tomar como valores a y b, q definen la
recta en cuestión, aquellos q minimizan la expresión: (p−2−13)
La recta resultante tiene por tanto la propiedad de ser, de todas las rectas posibles, la q minimiza la suma de
los cuadrados de las desviaciones de los puntos observados en el diagrama de dispersión respecto a la recta,
midiendo dichas desviaciones en el sentido vertical (es decir, en el sentido de la variable Y, q es la q se desea
predecir).
27
Se demuestra q los valores de b y a vienen dados por las siguiente expresiones: (p.2−13)
A Obtener la recta de regresión del PESO respecto a ESTATURA. Ecuación resultante : PESO= −84 + 0.87
ESTATURA.
A partir de estos resultados, vcalcular si personalmente se está por debajo o por encima del peso medio q
corresponde a las personas de una estatura similar a la propia.
Repetir el cálculo de la recta de regresión por separado para chicos y para chicas. ¿son pqarecias las
ecuaciones obtenidas? ¿cuñál es la duferencia más notable?
Nota importante:
Aunque todo el desarrollo q se ha realizado sobre la recta de regresión se ha centrado en la relación entre
dos variables aleatorias, la misma herramienta puede utilizarse para analizar la relación q liga una variable
aleatoria con otra no aleatoria. Este tipo de problemas es extremadam importante y se presente, por ej, en el
estudio de la relación q liga un parámetro de un proceso con el resultado obtenido en el mismo.
En el estudio de la relación entre la dosis d e abonado nitrogenado aportado a un cultivo y el rendimiento
obtenido. En este caso la primera variable, DOSIS de abonado, no es aleatoria doda q la podemos fijar al nivel
q deseemos. La segunda variable por el contrario sí q debe considerarse como una variable aleatoria. La
pregunta importante en este caso es ¿q relación existe entre la dosis de abonado aportada y el rendimiento q
cabe esperar en promedio en el cultivo?
En estos casos, y dados unos valores fijados xi de dosis de abona y los valores yi obtenidos del rendimiento,
la recta de regresión puede calcularse de forma similar a lo expuesto anteriormente para el caso en q ambas
variables eran aleatorias. Adicionalmente los MODELOS DE REGRESIÓN pueden realizarse con bastante
facilidad para permitir el estudio simultáneo del efecto de las dos variables así como de la consideración de
rectas q no sean de tipo lineal.
• Análisis de residuos.
Una herramienta muy útil para complementar cualquier estudio de regresión es el análisi de los residuos.
Se ll. Residuo de un dato a la diferencia entre el valor yi del mismo y el valor a + bxi q se predice para el
valor medio de Y en los individuos de la población en q la variable X vale xi.
Así en el estudio para controlar el consumo de energía el residuo para un día determinado será la diferencia
entre el consumo observado dicho día y el q corresponde en promedio a días cuya temperatura se haya
constatado en el día considerado. Dicho residuo acogerá por tanto el efecto q en dicho día han tenido todas
las otras variables q influyen sobre el CONSUMO, incluyendo las posibles anomalías q se hayan producido.
A efectos de controlar el consumo de energía, un procedimiento adecuado sería, por tanto, calcular el
residuo cada día y ver si su valor es o no admisible.
El valor promedio de los residuos para todos los datos utilizados en un estudio es siempre cero. La varianza
de los residuos permite estimar el orden de magnitud del efecto conjunto de todos los restantes factores no
considerados al calcular la recta de regresión.
Se demuestra que: (p. 2−16)
Lo que indica q el valor de r2 es la proporción de la variabilidad de la variable Y que está asociada a la
variable X.
28
A En el estudio de la relación de CONSUMO con TEMPER resulta ser r=−0.97 y r2 = 0.94. por tanto, el 94%
de la variabilidad constatada en el consumo diario de energías está ocasionada por la variabilidad en la
temperatura diaria.
Comparar los valores medios y las desviaciones típicas de los residuos para los chicos y para las chicas tras la
obtención de la recta de regresión de PESO frente a ESTATURA, ¿qué deduces de dicha comparación?
¿hasta qué punto el PESO de una persona joven depende de su ESTATURA? Precisa la respuesta q des.
UT 3. CONCEPTOS BÁSICOS DEL
CÁLCULO DE PROBABILIDADES
• Sucesos.
• Probabilidad: concepto y propiedades.
• Probabilidad condicional.
• Independencia de sucesos.
• Teorema de Bayes.
• Sucesos.
La probabilidad de algo se define en los sucesos.
Cualquier subconjunto de los valores posibles de una variable aleatoria genera un suceso. En la población
habrá individuos q verifican ese suceso y otros q no.
Ej: en la población de los estudiantes del poli y la variable aleatoria ESTATURA. Un suceso sería: su estatura
es mayor de 180cm.
población
los sucesos se denominan con letras mayúsculas:
suceso A:{ESTATURA > 180}
suceso B: {SEXO =1 (chico)}
A cada suceso le corresponde una probabilidad.
Suceso seguro " E " el suceso q se verifica por todos los individuos de una población.
Suceso imposible " " el asociado al subconjunto vacío de E. No existe individuo alguno en la población
para el q se verifique dicho imposible (ningún individuo de la población lo verifica).
¿Cómo se combinan dos sucesos entre sí? Operaciones básicas entre sucesos.
UT 6. INFERENCIA RESPECTO A UNA
POBLACIÓN NORMAL.
• Un ejemplo
• Consideraciones previas.
• Contraste de la hipótesis m=2000
29
• Intervalo de confianza para m
• Intervalo de confianza para .
• Consideraciones previas
Se considera la variable aleatoria como una variable aleatoria de distribución normal pq se considera como
la suma de un conjunto de factores.
Hay 3 métodos para comprobar , a partir de un conjunto de datos, si la población se distribuye normalmente:
• Hacer un histograma: exige tener 40−50 datos
• Hacer un gráfico en papel probabilístico normal
• Analizar los coeficientes de asimetría y de curtosis (aconsejable spre)
• Usar los tests estadísticos formales
Él dice q no sirven para nada, q son la respuesta correcta a una pregunta equivocada. Solo es aplicable para
distribuciones normales y la distribución normal es un modelo matemático, por lo q testear algo q realmente
no existe no tiene mucho sentido.
La pregunta correcta es si los datos son realmente lo suficientemente parecidos a una distribución normal.
Y la mejor respuesta se puede hacer mediante un histograma o, mejor, mediante papel probabilístico normal,
si el nº de datos no es suficiente para elaborar un histograma..
1º hacemos un análisis descriptivo de los datos (la representación gráfica en sí ya lo es) y obtenemos la
media y la desviación típica.
Ej: peso de bolsas de naranjas:
Summary Statistics for PESOMALLA
Count = 15
Average = 1993,6
Variance = 391,971
Standard deviation = 19,7983
Minimum = 1958,0
Maximum = 2023,0
Range = 65,0
Stnd. skewness = −0,405564
Stnd. kurtosis = −0,593681
la media no es 2000 exactamente, será cercana a 2000. no son exactos los parámetros, pero sí serán
cercanos.
El hecho de q la media muestral no sea exactamente 2000 no implica q la máquina esté descentrada. Es
30
posible q esa diferencia entre 2000 y la media muestral se deba precisamente al azar del muestreo.
Nunca , de hecho, la media muestral, q fluctúa alrededor de la poblacional, coincide exactamente con ella.
• Constraste de la hipótesis m=2000
¿Es admisible la hipótesis de q m=2000?
Ej: si alguien dice q hay una relación entre la ESTATURA y el COEFICIENTE INTELECTUAL, se tomarán
unos datos y obtendremos el coeficiente de correlación entre ambas variables.
La hipótesis nula sería q no hay relación (r sería cero). Las hipótesis nulas en Estadística son q no hay
relación, q todo es como siempre, como antes de hacer de buscar la relación. En este caso la hipótesis nula
será q m=0.
Si la media poblacional, m, es exactamente igual a 2000, la media muestral, , será cercana a 2000, y la
diferencia (− 2000 ) será cercana a cero => aceptaré la hipótesis nula, pero
Si se aleja de la media poblacional, de 2000, la diferencia (− 2000 ) no será cercana a cero => se reajustará
la máquina.
Pero, ¿qué se entiende por diferir (− m) poco o mucho de cero? Y ahora vienen las consideraciones teóricas:
Si en una población de media m:
Se cumple q fluctúa alrededor de cero con una probabilidad q es conocida y está tabulada según la t de
student con (N−1) grados de libertad
Ej: t14
¿es posible q t14 valga 12? NO, es imposible, los valores razonables de una t de student son cercanos a cero,
pero ¿cuánto? (ver tabla de T con 14 gdl y prob del área de la cola de 0,025)
Como t(al igual q la normal tipificada) es una distribución simétrica de media cero, en el 95% de los casos
(con una variabilidad razonable en Estadística) t está entre −2,145 y 2,145:
Si es cierta la hipótesis nula (si m es realmente =2000), => será una t de student con (N−1) gdl.
Si t= −1,25 , sí es un valor razonable pq... entra dentro del intervalo −2,145 −2,145 => LA HIPÓTESIS
NULA ES CIERTA (m=2000).
Si sale un valor muy improbable de t (fuera del intervalo del 95%, entre −2,14 y 2,14 en este caso) significa q
la hipótesis nula es falsa (m "2000).
• Fórmula para contrastar la hipótesis nula Ho: m=mo : (para saber si la hipótesis nula de m=mo es
cierta o falsa):
>tN−1 () rechazamos Ho (pq m "mo)
Si
<tN−1 () aceptamos Ho (m=mo)
31
donde tN−1 () es un valor q se busca en las tablas de t de student tal q:
P(|tN−1| > tN−1 () )=()
Siendo la probabilidad deseada con la q se entra en la tabla de t.
¿Es posible q a pesar de q el proceso esté correctamente (m=2000) lleguemos a la conclusión de q salga
como descentrado? SÍ. En un 5% de los casos nos vamos a equivocar, en ellos, tN−1 será > q 2´145.
Es el ll. ERROR DE PRIMERA ESPECIE " el error q se comete cuando se rechaza la hipótesis nula
siendo realmente cierta.
¿Y Qué probabilidad tenemos de cometer este error? El 5%, y es lo q se ll. RIESGO DE PRIMERA
ESPECIE ( En Estadística riesgo significa probabilidad de cometer un error). El error se puede fijar como
= a algo. En general , =0´05 es un compromiso razonable entre ambos riesgos.
El ll ERROR DE SEGUNDA ESPECIE es el contrario, la probabilidad de aceptar la hipótesis nula cuando
realmente es falsa (no reajustar la máquina cuando realmete se ha desajustado).
Si tenemos un riesgo de 1ª especie bajo => habrá un riesgo de 2ª especie alto.
Como uno va más o menos contra el otro, se considera como un equilibrio razonable entre ambos. En
general , =0´05 es un compromiso razonable entre ambos riesgos.
El error de primera especie es más grave q el de 2ª pq el error de 1ª especie supone afirmar un
descubrimiento q realmente no existe, mientras q el error de 2ª especie es simplemente no detectar o
descubrir una relación q realmente existe.
Es imposible demostrar q la media poblacional es exactamente igual a un valor => si la hipótesis nula se
admite => es posible q la sea 2003, 1996,.. pero NO SERÁ 2050
• Intervalo de confianza para m
A partir de los datos , podemos ir más allá, no sólo hallar si un valor de m es admisible, sino hallar EL
INTERVALO DE VALORES POSIBLES DE m, decir con cierta confianza q m está entre ciertos valores, es lo
q se ll. INTERVALO DE CONFIANZA PARA m.
No podemos decir q m valga exactamente un valor, pero sí podemos decir q en el 95% de los casos la m
estará comprendida en un cierto intervalo.
¿ES POSIBLE HACER EL MISMO TINGLAO PARA Q PARA LA m? SÍ:
S será cercana a , y también se puede acotar, hallar un intervalo de confianza para . ¿En qué nos vamos a
basar?
muestra
población
La S2 muestral fluctuará alrededor de la poblacional, , con una media próxima a la , pero ¿cuánto
fluctúa?
32
" =>
se dice q el valor medio de S2 es :
• S2 =
El valor medio de S2 será: E()==
Ej: para : "(N−1)
En la tabla podemos encontrar 2 valores tal q en el 95% de los casos la variable se encuentra entre ellos.
Cuáles son esos valores?
¿ P( valor1< < valor2) = 0´95 ?
La tabla te da los valores tal q a partir de cada uno de ellos y hacia la derecha de la distribución,
encontramos el (porcentaje buscado) de los datos=> si buscamos un 95% central, buscamos un 5% por
ambos laterales => buscamos 2´5% por cada lateral => hemos de entrar en la tabla :
• con p=0´025 para ver el valor q limita el 2´5% de los datos por la derecha y
• con p=0´975 para ver el valor q limita (el 97´5% de los datos por la derecha, o lo q es lo mismo:) el
2´5% de los datos por la izquierda .
Para p= 0´025 = 26´1
Para p=0´975 = 5´63 => P(( 5´63< < 26´1) = 0´95
Como esto es una => N= 15 =>
"
• P(5´63< 14< 26´1) = 0´95 =>
"
• P(14 < < 14 ) = 0´95 =>
• P(< < ) = 0´95 =>
• Si la varianza muestral del ejemplo es 392 =>
◊ = 14´5
◊ = 31´2 afirmamos con un 95% de confianza q la desviación típica poblacional está
entre 14´5 y 31´2 =>
• ¿es admisible un =25? SÍ
• ¿es admisible una =40? NO!!!
(CÓMO SE HACE CON STATGRAPHICS)
COMPARACIÓN DE DOS POBLACIONES NORMALES
SALE comparar medias y varianzas!!!!
33
(A pag.6−18)
Consideraciones previas
Un enfoque de estos problemas frecuente y poco recomendable:
Se sabe el nº medio de suciedades, 3´5. => podemos hacer las pruebas con el capó levantado y ver si la
media de esas pruebas es < ó > q 3´5, pero es un mal sistema, pq muchos factores q actúan sobre los
resultados de las pruebas, días de fuerte viento en los q se levanta gran polvareda,... pueden dar lugar a
conclusiones erróneas. =>
En las pruebas debe incluirse lo q se prueba( capó levantado) pero también lo histórico( es mal sistema
realizar las pruebas sólo con lo nuevo y comparar con los datos históricos, esto NO ES COMPARABLE,
Ejemplo del granizo y las pruebas de AgI)
Organización del experimento.
(p.6−20)
Y obtenemos los resultados(p.6−21!)
¿cómo se analizan los resultados?
1º hemos de ver cómo hemos hecho el experimento, es muy importante:
el orden en q se han ensayado los experimentos EJ(ver libro)
(p.6−24) Planteamiento estadístico
hay dos poblaciones implicadas pq hay una mezcla de 2 procesos diferentes. Suponemos q, como trabajamos
con medias de 10 datos, éstas se distribuyen normalmente.
Lo que interesa ver es si levantando el capó mejora o no el proceso. Obtenemos las muestras y hallamos la m
y la para cada población.
La pregunta es ¿cuánto vale m1−m2?
• Si es negativo => peor es levantar el capó
• Si es = 0 => será igual
• Si es positivo => es mejor levantar el capó.
¿cuál es la hipótesis nula? Es el sano escepticismo. La hipótesis nula será q m1=m2, pq mientras no lo
demuestre no me lo creo. Tb se podría estudiar si = , pero lo importante en este problema es la media
pq el proceso supone muchas unidades, entonces un promedio representa muchas piezas. Sin embargo, la
en este ejemplo no es importante, aunque en otros ejemplos sí lo es (ejemplo del llenado de bolsas de
naranjas con un determinado peso).
Normalmente, al comparar 2 poblaciones, se comparan la m y la .
Si las de dos poblaciones son diferentes , el proceso estadístico a utilizar para comparar las medias
teóricamente han de ser diferentes q cuando son iguales. Pero en la práctica, el procedimiento clásico de
componer medias, suponiendo q las son iguales se emplea tb para cuando realmente son diferentes pq dan
34
lugar a buenas aproximaciones.
Si = " y =>
1 => como tenemos las S2 muestrales => hacemos
y si sale "1 => admitimos q son iguales
Sale " 1 => diremos q NO son iguales.
Pero ¿qué es diferir poco o mucho de 1?
(Otra vez) cuando se muestrean dos poblaciones normales donde en una población se tiene un y en otra un , y
se obtiene una muestra de tamaño N de cada una y se calculan sus varianzas muestrales y , vimos q
fluctúa alrededor de 1 como una F con N1−1 gdl en el numerador y N2−1 gdl en el denominador
(FN1−1,N2−1 ).
Entonces, si = " y =>
FN1−1, N2−1 =>
=> mediante la tabla de F delimitaremos una zona alrededor de 1 q tenga una probabilidad del 95% (como
tenemos 10 datos en cada muestra de cada población => los gdl son 9 y 9 respectivamente) y:
• si el cociente
entra dentro de esa zona => decimos q es cercano a 1, q las varianzas poblacionales son iguales.
• Si el cociente se sale fuera de tal intervalo => decimos q las varianzas poblacionales son diferentes.
Problema técnico: la tabla de F es muy limitada pq sólo da probabilidades de F por la derecha y con cierto
gdl.
FN1−1,N2−1
Para encontrar los límites del intervalo hay q buscar el pto q deje el 2´5% de los datos aquí y el 2´5% acá.
Pero las tablas de F sólo tienen probabilidades por la derecha => en lugar de dividir
, dividimos, mejor, la mayor de las 2 por la menor de las 2 => seguro q saldrá mayor q 1 (por el lado
derecho de la distribución F), y buscaremos, simplemente, si ese valor es mayor del correspondiente al 2´5%.
PERO, en la tabla sólo está el 5% y el 1%, no está el 2´5% => consideraremos a efectos prácticos en un
problema (nosotros) el valor del 2´5% como el promedio entre los valores para 1% y 5%.
La conclusión es q la hipótesis nula de q las varianzas son iguales es cierta => levantar el capó no significa
q la varianza de suciedades sea mayor o menor.
35
COMPARACIÓN DE MEDIAS (lo realmente importante)
¿levantar el capó modifica el nº de suciedades?
La hipótesis nula será q m1=m2 (sano escepticismo: q mientras no se demuestre lo contrario yo no me lo
creo, es decir, q m1=m2)
Intuitivamente, si m1=m2 =>
1 será "
2 y =>
1−
2 será " o =>
• vemos si
1−
2 difiere mucho o poco de cero ( si son o no diferente).
¿Y qué es diferir mucho o poco? GRÁFICAMENTE:
N=10 N=10
1
2
(
1)=
(
2)=
=>
1−
2 = 0´74
según los datos (la mejora q ha habido por levantar el capó)
=> (
1−
2) = (
1) − (
2) =
+
=
36
SE QUEDÓ AFÓNICO Y TERMINÓ LA CLASE!!
15 − 11 −2001
UT 7. ANÁLISIS DE LA VARIANZA DE UN FACTOR.
• Un ejemplo.
• Idea intuitiva del ANOVA.
• Descomposición de la suma de cuadrados. Test F.
• Intervalos LSD de comparación de medias.
• Análisis de residuos.
• Estudio de efectos ssobre varianzas.
• Realización práctica de los cálculos.
• Número desigual de observaciones.
• Factores cuantitativos: descomposición en efectos lineal y cuadrático.
(falta 1´5 h)
... Fratio es 0´53, ¿es significativo estadísticamente?
Si el efecto existe, Fratio será mayor q una F con 2 gdl y una probabilidad del 5%. F2,27(5%) da 3´35. Si:
Fratio < Ftabla−5% =>> las diferencias NO son significativas estadísticamente.
Fratio > Ftabla−5% =>> las diferencias son significativas estadísticamente.
Fratio > Ftabla−1% =>> las diferencias son MUY significativas estadísticamente.
F,
¿hasta qué pto es probable q una F sea
q 0´53? Eso es lo q calcula el Statgraphics con el P−value. (en el ejemplo, P−value= 0´5934). En la
distribución de F:
Cuanto más pequeño sea el ¿¿¿P−value??? => más significativo será el factor.
STAT el PLOT DE MEDIAS con los intervalos LSD:
Conclusión: q no hay diferencias significativas entre los proveedores:
• Pq Fratio no es significativa
• Pq los intervalos LSD se solapan.
Pero realmente sí hay diferencias significativas =>> algo pasó inadvertido!!!!
Análisis de residuos.
Los residuos son un subproducto del análisis estadístico.
Los residuos de cada dato (cada dato tiene después del análisis un residuo) son valores de x y de y. Tienen
como objetivo detectar los posibles problemas.
37
Los residuos de cada dato es lo q se va cada dato de la media de su proveedor., es el efecto q tienen otros
factores sobre los datos. Si no hay nada raro, el promedio de los residuos ha de ser 0, y fluctuarán a su
alrededor + o − según la varianza.
El Stat tb tiene la opción de ver una gráfica de residuos (hay 3 formas de verlo: según el proveedor,...). según
el proveedor se observa q el 3º proveedor va bien, el 2º fluctúa un poco más, pero en el 1º hay un residuo q se
sale totalmente de madre:
La media del proveedor 1 era 30 => ese dato vale más o menos 90. Buscamos tal valor entre la tabla de
datos y encontramos un valor de 95!!!.
Corregimos ese dato, sustituyéndolo por 35 pq intuimos q ha habido un error de trascripción de 95 a 35, ya q
todos los datos rondan el valor 30. una vez cambiados los datos originales, calcula la suma de cuadrados y
calculamos:
ANOVA Table for EQUIDINA by PROVEEDOR
Analysis of Variance
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Source Sum of Squares Df Mean Square F−Ratio P−Value
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Between groups 871,267 2 435,633 7,65 0,0023
Within groups 1538,2 27 56,9704
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Total (Corr.) 2409,47 29
The StatAdvisor
−−−−−−−−−−−−−−−
The ANOVA table decomposes the variance of EQUIDINA into two
components: a between−group component and a within−group component.
The F−ratio, which in this case equals 7,64666, is a ratio of the
between−group estimate to the within−group estimate. Since the
P−value of the F−test is less than 0,05, there is a statistically
significant difference between the mean EQUIDINA from one level of
PROVEEDOR to another at the 95,0% confidence level. To determine
which means are significantly different from which others, select
38
Multiple Range Tests from the list of Tabular Options.
Una vez corregido el dato anómalo (pag.7−18), el valor de la F−ratio es incluso menor de 1% =>> SÍ hay
diferencias significativas entre proveedores, pero estaban enmascaradas por la presencia de un dato
anómalo q no habíamos detectado. El nuevo grafico de intervalos LSD será:
Los intervalos LSD para los proveedores 2 y 3 se solapan, por lo q entre ellos n0 hay diferencias
significativas; pero el intervalo LSD para el proveedor 1 no se solapa con los otros dos, por lo q sí hay
diferencias significativas entre ellos.
Si la diferencia entre prtoveedores aparece una gran variabilidad => es pq se diferencian en sus medias. Es
pues un test para comparar las medias, no para comparar tansolo los proveedores, sino tb entre diferentes
factores.
En muchos problemas reales, prácticos, es tb muy importante ver si hay o no diferencias entre varianzas.
Esto ha cobrado mucha importancia por su relación con la calidad industrial (en agricultura tendría más
importancia la media). Ambas, media y varianza, son pues importantes.
Veamos si hay o no diferencias entre varianzas(además de entre medias).
Para comprar las varianzas entre 2 poblaciones se emplea el Test F. Pero para comparar muchos factores q
actúan a la vez sobre algo no hay un procedimiento. Un procedimiento sencillo para ver diferentes factores q
actúan sobre las varianzas está escondido en los residuos:
Tras corregir el dato anómalo, obtenemos los residuos (p.7−20). Imaginamos q la fabrica 1 fuera mejor y
con poca varianza => su gráfica de residuos estaría concentrada alrededor de la media.
A ojo no se ven muchas diferencias, ¿cómo vemos quién tiene mejor arianza? La medias de los residuos de
cada proveedor son cero => no nos sirve de nada comparar medias residuales =>> pero sí podemos
comparar la media de los cuadrados de los residuos (comparar varianzas es comparar medias de residuos al
cuadrado).
En el STAT, al guardar los resultados, podemos guardar con diferentes posibilidades, entre ellas save
residuals, apareciendo entonces una nueva columna en los datos ll RESIDUALS.
Elevamos al cuadrado los residuos, creando una nueva columna, y representamos una ANOVA sobre los
cuadrados de los residuos:
ANOVA Table for residual2 by PROVEEDOR
Analysis of Variance
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Source Sum of Squares Df Mean Square F−Ratio P−Value
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Between groups 8198,36 2 4099,18 1,89 0,1707
Within groups 58587,0 27 2169,89
39
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Total (Corr.) 66785,4 29
The StatAdvisor
−−−−−−−−−−−−−−−
The ANOVA table decomposes the variance of residual2 into two
components: a between−group component and a within−group component.
The F−ratio, which in this case equals 1,88912, is a ratio of the
between−group estimate to the within−group estimate. Since the
P−value of the F−test is greater than or equal to 0,05, there is not a
statistically significant difference between the mean residual2 from
one level of PROVEEDOR to another at the 95,0% confidence level.
La F´ratio =1´89, no mucho mayor q 1, no es menor del 5% =>> las diferencias entre varianzas no son
significativas estadísticamente.
Si hacemos los intervalos LSD para los residuos al cuadrado (con las medias de los residuos al cuadrado):
Vemos q se solapan => efectivamente no hay diferencias significativas entre las varianzas (medias de los
residuos al cuadrado).
Por tanto, aunque había diferencias significativas entre las medias de los proveedores, no las hay entre sus
varianzas.
¡ el botón de la calculadora es para sumar cuadrados!!!
La mejor forma de hacer un análisis estadístico completo:
REALIZACIÓN PRÁCTICA DE LOS CÁLCULOS:
Hay unas reglas sistemáticas q son las siguientes:
TTR El Total de cada Tratamiento: TTR =
(suma de los datos para cada proveedor)
Ej: prov1 310
prov2 413
prov3 433
TG EL Total General: TG=
40
En cada proveedor había unos datos, un total para cada uno y un total general.
Ej: TG = 1156
Hay un término, el ll. Sustraendo General, q es el total de todos los datos al cuadrado partido por el nº total
de datos:
SG El Sustraendo General: SG=
Ej: = 44544´5
SCT La suma de cuadrados total es la suma, para todos los datos, de :
SCT = − SG
Ej: (232+352+502+...+362+522+342) −44544´5 = 2409´5
SCF La Suma de Cuadrados del Factor (si el factor tiene K tratamientos):
Si cada tratamiento posee igual nº de datos SCTR = − SG
Ej: − 44544´5 = 871´3
Si cada tratamiento tiene " nº de datos SCTR = − SG
(para el factor a estudiar, se divide cada tratamiento al cuadrado por su correspondiente nº de datos)
SCr la Suma de Cuadrados Residual: SCr = SCT − SCF
Ej: 2409´5 − 871´3 = 1538´2
GdlT Grados de Libertad Totales: gdlT = nºtotal de datos − 1
GdlF Grados de Libertad del Factor: gdlF = nº de tratamientos − 1
Gdlr Grados de Libertad Residuales: gdlr = gdlT − gdlF
PROBLEMA PARA HACER
Nos dan el nº de Km recorridos por litro de gasolina para 17 coches, habiendo 4 tipos diferentes de gasolina:
gasolina
A
B
C
D
Nº de Km recorridos
12
15
11
12
15
18
10
12
14
10
16
13
11
14
17
13
14
• Calcular el cuadro de la ANOVA, decir si hay diferencias significativas y comparar las medias de los
diferentes tipos mediante los cuadros LSD.
• Estudiar si hay diferencias significativas entre las varianzas (si el tipo de gasolina afecta a las varianzas
de los Km)
41
ANÁLISIS DE FACTORES CUANTITATIVOS. CONTRASRES ORTOGONALES
(P. 7−25) Cuando dos factores afectan sobre el rendimiento, éstos son diferentes estadísticamente.
El factor dosis de abonado no pretende ver cuál es mejor, sino cuál es su efecto sobre el rendimiento (cómo
influye en cantidad), es un factor cuantitativo para ver la ll. FUNCIÓN DE RESPUESTA, no para estudiar
ciertos valores importantes, sino la influencia global del factor:
E(y)
X
El objeto es entender la naturaleza de la función respuesta. No se busca si es significativa la dosis de
abonado, no se hallan los intervalos LSD,... no buscamos eso.
¿cómo se analiza?
Si hablamos de un factor cualitativo, hablamos de variantes,
Si hablamos de un factor cuantitativo, hablamos de sus niveles. Los niveles han de estar equiespaciados.
Estudiamos pues la naturaleza del efecto q tiene ese factor sobre la respuesta, haciendo:
(p. 7−26) es posible descomponer la SCF en componenetes lineal, cuadrática, .. o superior:
con 1gdl estudiamos si hay un efecto lineal
con 2gdl estudiamos si hay un efecto lineal y
un efecto de 2º grado
...
con 4 gdl estudiamos si hay un efecto lineal
efecto de 2º grado
efecto de 3º grado
efecto de 4º grado
...
>0 => curva positiva
(p.7−28) =0 => efecto lineal
<0 => curva negativa
UT 8. DISEÑO SIMULTÁNEO DE VARIOS FACTORES.
INTRODUCCIÓN AL DISEÑO DE EXPERIMENTOS.
42
• INTRODUCCIÓN AL DISEÑO DE EXPERIMENTOS.
• Estudio simultáneo de varios factores.
• Efectos simples. Ortogonalidad.
• Estudio de interacciones.
• Conceptos básicos en Diseño de Experimentos.
• DISEÑOS 2k.
• ANOVA en diseños 2k.
• Ejemplo de un diseño 23 sin replicaciones.
• Introducción.
• Estimación de los efectos simples.
• Estimación de las interacciones.
• Análisis de la Varianza.
• Análisis mediante STATGRAPHICS.
• Predicciones y residuos.
• Ejemplo de un plan 23 con replicaciones.
• Introducción.
• Efectos sobre la media.
• Efectos sobre la dispersión.
• Gráfico de Daniel.
Hasta ahora, lo q hacíamos era variar en cada caso un solo factor y ver lo q ocurría. Pero es desaconsejable
pq es ineficaz (no lo resolvemos) e ineficiente (empleamos mucho tiempo y dinero). Además no permite
estudiar interacciones entre los efectos.
La alternativa es realizar un diseño de experimentos q permita estudiar simultáneamente todos los factores y
las interacciones entre ellos q nos interesen.
Ejemplo: Estudiamos 3 factores, Probamos 2 temperaturas diferentes, 2 contenidos en sólidos y 2 tiempos de
residencia. El procedimiento tradicional consistiría en hacer.....
La alternativa consiste en hacer sólo 8 experimentos en los q se realizan todas las combinaciones posibles,
¿cómo?: La 1ª columna tiene todos los signos alternados, la 2ª los tiene de 2 en 2, y la 3ª la mitad de un signo
y la 2ª mitad con el otro.
El signo + simboliza el nivel alto del factor y el signo menos el nivel bajo.
ORTOGONALIDAD EN INTERACCIÓN. (libro)
(P8−10)Ejemplo:
variedad : A, B, C media
dosis de abonado: 1, 2, 3 Respuesta: RENDIMIENTO
Suelo: arenosos, arcilloso varianza
Hay pues una variable respuesta y 18 posibles tratamientos.
DISEÑO 2K
Una vez estudiada la relación entre efectos, se estudia la significación de dichos factores mediante el estudio
de la varianza.
43
Ej: si tenemos 4 factores: A, B, C, D, podemos estimar los 4 efectos simples:
Efectos simples: gdl
A1
B1
C 1 hay 4 posibles grados de libertad
D1
En el análisis de la varianza, gdlf = nº de tratamientos−1. aquí, como cada factor está a dos niveles, los
grados de libertad son 1 para cada factor.
Estudiamos tb las interacciones dobles:
Interacciones dobles gdl
AB 1
AC 1
AD 1
BC 1
BD 1
CD 1
Los gdl en el ANOVA son el producto de los de los factores q interaccionan => 1 x 1 =1 => cada interacción
tienen 1 gdl.
En teoría tb se pueden estudiar las interacciones triples, tantas como subconjuntos de 3 factores podamos
obtener:
Interacciones triples gdl
ABC 1
ABD 1
ACD 1 hay 4 posibles gdl asociados a las interacciones triples
BCD 1
Incluso, se podrían estudiar las interacciones cuátuples:
Interacciones cuátuples gdl
ABCD 1 1 gdl
44
Esto supondría un total de 15 gdl, asociados a los efectos simples y a todas las interacciones hasta cuátuples.
En el ANOVA es caro estudiar interacciones superiores a 2, pq son, en gral, cuando se dan, q es raro,
pequeñas y despreciables. => quitando las interacciones triples y cuátuples, quedarían en lugar de 15, 10 gdl
para estudiar la ANOVA.
PREDICCIONES
Según los resultados obtenidos, ¿cuál será la mejor combinación posible para el proceso?
EC+
PR+ esto serían las condiciones operativas óptimas (no hay interacciones => es muy
ES+ sencillo)
En promedio, en esas condiciones, ¿qué respuesta (stonechip) vamos a tener?
Partimos del resultado promedio del experimento (la media de las 8 pruebas) " lo q cabe esperar si
trabajamos en condiciones promedio. Pero vamos a trabajar a niveles diferentes => añadiremos o
restaremos a la media el efecto q tiene trabajar con ese factor a un cierto nivel:
Media = 7´75
Media con EC+
EC+ (5´5 − 7´75)= −2´25
PR+ (5´5 − 7´75)= −2´25
ES+ (6 − 7´75) = −1´75
−6´25
en condiciones promedio tendríamos 7´5 de media. Por trabajar con:
EC+ mejora 2´25 (mejora pq cuanto menor es la media en este problema mejor es)
PR+ mejora 2´25
ES+ mejora 1´75
Como no hay interacción => el efecto conjunto de 2 o más factores es la suma de los efectos individuales de
cada uno de ellos => Por trabajar en estas condiciones ótimas, el efecto conjunto será:
La media general + los efectos individuales
7´5 + (−2´25)+(−2´25)+(−1´75) = 1´5
la predicción de la media será 1´5, en estas condiciones, en promedio, obtendremos este stonechip.
Pero resulta q hacemos una prueba en estas condiciones y no obtenemos 1´5!! Y s q no tiene por qué salir
45
1´5, pq 1´5 será el valor q en promedio cabe esperar si se realizan muchas pruebas.
Podemos obtener el residuo entre el valor obtenido en la prueba y el q cabría esperar en promedio, o para
cualquier otra prueba q no emplee las condiciones óptimas.
OTRO EJEMPLO CON OTROS MATICES: mejora del proceso de aditivado de un polímero:
Cuando el experimento es 22 habrá q hacer 3 replicaciones por lo menos para poder obtener un mínimo de
gdl residuales, pq si no serán 3 gdlT, y 1gdlr. De esta manera:
Gdl
Tot 11
RPM 1
TPO 1
RPMxTPO 1
RESIDUAL 8
El efecto simple se obtiene (p.8−24).
Para las interacciones, todavía no sabemos calcular la SC. Los cálculos de la SC de las interacciones se
pueden simplificar mucho en estudios de factores a dos niveles, pq se puede calcular como:
La diferencia entre las pruebas a nivel + y las pruebas a nivel −.
El cuadrado del efecto por el nº de datos del experimento y dividido por cuatro es la SC de ese efecto con
1gdl.
MATIZ: si en una ANOVA los gdlr son pequeños, el ANOVA es poco potente (tiene poca capacidad de
detectar como significativos factores q son importantes). La regla: los gdlr han de ser, como mínimo, 10 y ya
ni de coña menor de 4.
En el ejemplo, los gdlr serían 6 => son pocos. La práctica consiste en eliminar a posteriori , del ANOVA, los
efectos q claramente no son significativos (según la F−ratio), especialmente las interacciones de mayor
orden q tengamos => aumentará la SCT => aumentarán los gdlr (pq los gdl de las interacciones q hemos
eliminado pasan al residuo).
Ej: pto III2, pag.8−13)
Para ver los efectos simples:
media de las 4 pruebas media de las 4 pruebas
Factor Con espesor alto : con espesor bajo:
EC = − = −4´5
al aumentar el EC, en promedio, mejora el stonechip en 4´5ptos.
46
PRIMER = − = −4´5
ESMALTE= = −3´5
Propiedad fundamental: la estimación del efecto de un factor (libro)
Para la estimación de interacciones dobles: se calculan como la mitad de la diferencia del efecto del factor
cuando el otro está a nivel + y cuando está a nivel −.
EcxPR
+ se calculan como la multiplicación de los signos correspondientes
− a los factores individuales
−
+ ECxPR = = 1´5
+
−
−
+
Auntoevaluación p.8−16 (la resuelva él: )
Con el ejemplo de 2 factores:
B
A
−
−
+
+
20
40
30
70
25
55
En promedio, cuando A(−), se obtendrá (20+30)/2 =25, y cuando A(+), (40+70)/2 =55=> en promedio, por
pasar de A(−) a A(+), tenemos +30. Este sería el efecto simple de A (la diferencia entre las medias de las
filas con A(+) y con A(−))
Para B:
B
A
−
−
+
30
+
20
40
50
30
70
El efecto simple de B sería +20. (la diferencia entre las medias de las columnas).
47
Interacciones:
BxA , q se define como la mitad de las diferencia entre el efecto de B cuando A(+) y el efecto de B cuando
A(−).
B
−
−
+
A
+
20
40
30
70
Como el efecto de B es diferente si A(+) q si A(−) => hay una interacción BxA:
BxA = = +10
+30 +10
Interacción AxB:
B
A
−
−
+
+
20
40
30
70
Como es diferente el efecto de A si B(−) q si B(+) => existe una interacción AxB:
AxB= = ½(40 − 20) = +10
La interacción AxB = BxA!!! Pq se trata de la misma resta cambiando el orden de los miembros!!
" media de los efectos AxB(+) y AxB(−).
La diferencia entre las medias de:
• Las columnas => da el efecto de B
• Las filas => da el efecto de A
• Las diagonales => de la interacción AxB
Así obtenemos los efectos e interacciones, pero ahora vemos si son o no significativos " realizamos el análisis
de la varianza. (tabla p.8−18)Esto es lo q pasaría en ppio (pq no podemos dejar una SCr con sólo 1 gdl =>
♦ la SCT queda tal cual
♦ SCef = el doble del cuadrado de cada efecto simple, interacción doble,.. y se obtiene una SC
para cada uno.
Y se obtiene la tabla de la ANOVA como siempre:
y comparamos ahora la Fratio:
La Fratio es menor q el F1,1(0´05)= 161´4 de las tablas => sale q no es significativo ¿Por qué? Pq tenemos
sólo 1 gdlr y nada es significativo para 1 gdlr (fila 1 de la tabla de F)=> eliminamos las interacciones dobles
pq, en cualquier caso, son menor importantes => ganamos así gdlr (tabla ANOVA p.8−20):
48
Se obtiene entonces q sí es significativo pq:
• F−ratio > F1,4(0´05) = 7´71
• P−value < 0´05
Como sólo hay dos variantes, no hay q hacer los intervalos LSD, sino q vemos si es significativo o no
simplemente con la ANOVA.
Efecto de RPM:
Efecto del TPO:
Interacción RPMxTPO:
SCEF=
Y llevando la SCef a la ANOVA:
Autoevaluación (p8−28)
• Si los factores no influyen sobre la varianza ("Si la varianza es la misma si el nivel es + o −) => el
CMR de la ANOVA sería una estimación de la varianza del proceso.
• Si los factores sí q influyen en la varianza => obtenemos los residuos2 y realizamos una ANOVA con
los CMR como variable respuesta. => entonces la ANOVA es (p8−29).
Uno de los factores, además de afectar a la media, afecta a la varianza (es significativo el efecto pq F−ratio
es casi 6 >F1,8 = 5´32). La varianza es muy superior cuando el TPO es (+) que cuando es (−) (es 30 veces
más grande). Y esto es lógico: al agitar más rápido, el centrifucgado afecta a la media, pero tb a la varianza
(pq el producto queda irregularmente adosado a las paredes). Entonces, el proceso ideal es:
TPO bajo => (−)
VEL alta => (+)
La media de los cuadrados de los residuos en las pruebas en que es bajo el tiempo de centrífuga (p.8−30).
Tb, al igual q la media, la varianza se puede predecir:
Es el mismo cálculo pero en base a la 2ª ANOVA:
Media (residuos2) 0´265
Efecto TPO −0´247
Media prevista de residuos2 0´0178 (= 0´178−0´265)
Para calcular la varianza aplicamos un coeficiente corrector (multiplicamos por el nº de datos y dividimos
por los gdlr del ANOVA de los residuos):
49
= = 0´163
OJO!!! " residuos2, pq uno se divide por n (residuos2) y el otro por (n−1) ().
GRÁFICO DE DANIEL
Se basa en la representación en papel probabilístico normal de los resultados de una ANOVA. NO DE LOS
DATOS, sino DE LOS EFECTOS Q PUEDEN CALCULARSE A PARTIR DE LOS DATOS.
Estos, se ajustarán aproximadamente a una recta cuya media será cero (el cero caerá sobre la probabilidad
del 50%)
Si hay un valor de media diferente (de media 5 por ejemplo) no caerá alrededor del 0 sino sobre el 5.
Si pasase que una interacción triple fuera muy importante (q no es frecuente), no lo veríamos pq su efecto se
iría al residual =>
En un experimento con 4 factores a 2 niveles hay 24 = 16 pruebas, y podemos obtener los efectos. Si ningún
factor influye => los efectos difieren de cero de manera puramente al azar. Pero si hay algún factor q influye
(normalmente son efectos simples, mas q dobles, más q triples)o hay alguna interacción doble q no hemos
visto, el efecto estimado no fluctuará alrededor de cero, sino de (por ejemplo 5).
Los efectos correspondientes a efectos reales significativos se apartarán de la recta:
• Por la esquina superior derecha si son positivos.
• Por la esquina inferior izquierda si son negativos.
El gráfico de Daniel pondrá de manifiesto efectos:
◊ Claramente no significativos => q están alrededor de la recta,
◊ Claramente significativos => q se van de la recta
◊ Dudosos => q se medio van de la recta
Ej.p.8−33:
Habrá.. dos efectos? Tantos como (nº de datos −1) " gdlT
Si lo representamos (p.8−34), los efectos q caen sobre la recta no son significativos (¡Y son 26!). los demás sí
lo serán:
2 significativos positivos
1 significativo negativo
1, si acaso dudoso, tb negativo
bajo están los valores de los 31 efectos (p.8−35) El mayor de todos es el efecto simple de E (16´2063)....
Como se ve, sólo una de las interacciones dobles, y poco, es algo significativa.
Vemos las condiciones operativas óptimas y cuál es el rendimiento en tales condiciones:
50
Hallamos la media de las 32 pruebas:
Media 28´4
Como A no es significativo, cuál es el nivel óptimo de A?, el más bajo, pq no influye y para la industria es
mejor, por tpo o por dinero.
B es significativo y es mejor a nivel (+). ¿cuánto vamos a mejorar?
B(+) − B(−) = 3´14 => la diferencia entre B(+) y la media será
3,14
C(+) +11´35/2
D(−) + 4´24/2
OJO!! Es significativo y el nivel óptimo es el negativo, aunque tiene un efecto positivo. Q esté a nivel (−) no
quiere decir q tenga efecto negativo, sino q simplemente trabajamos a nivel (−).
CD(−) + 2´81/1
Para q la interacción sea menor, CD ha de estar a nivel (−) => si D(−), C ha de estar a nivel (+) (− += −).
Si la interacción fuera mejor con otra combinación, habría q sacrificar el efecto simple de C o el efecto
simple de D pq el de la interacción tiene más peso.
E(+) + 16/2
47´3 sería finalmente el rendimiento medio previsto.
UT 9. ESTUDIO SIMULTÁNEO DE VARIOS FACTORES.
• Estudio simultáneo de varios factores.
• Efectos simples.
• Ortogonalidad. Estimación de efectos.
• ANOVA con factores a mayores niveles.
• Interés
• Cálculo de la suma de cuadrados
• Ejemplo.
ESTUDIO SIMULTÁNEO DE VARIOS FACTORES.
No necesariamente están a 2 niveles. (en temas anteriores sólo teníamos 2 niveles)
Aunque los planes 2k en los q todos los datos se estudian a 2 niveles son muy útiles en la práctica industrial,
existen ocasiones en los q para cada uno de los factores investigados es necesario o aconsejable ensayar más
de 2 niveles o variantes.
• Factores cualitativos => el nº de variantes a ensayar viene definido por el nº de alternativas
disponibles y será, en algunos casos, mayor de 2.
• Factores cuantitativo => en este caso, el nº de niveles a ensayar, así como los valores concretos de
los mismos, se puede fijar libremente al diseñar el experimento. Aunque en la práctica industrial
51
raramente está justificado para estos factores el estudio de 4 o más niveles, sí q puede plantearse la
elección entre trabajar a 2 o a 3 niveles. La duda está entre trabajar a 2 o a 3 niveles.
Con 2 niveles es más sencillo, sabemos q no será mejor q a 3 niveles pero podemos saber el nivel óptimo y si
un factor no tiene efecto, dará lo mismo trabajar a nivel (+) q (−). Pero puede ser q el efecto de ese factor
sea:
Y q el nivel óptimo sea el intermedio. Es nuy fácil q ocurra pq se cogen valores alrededor de nuestro valor
medio, q será el óptimo.
• Factores a 2 niveles => experimentos más sencillos q exigen menor nº de pruebas. Efectos simples e
intyeracciones son fáciles de interprestar. No es posible determinar a partir de los resultados el nivel
óptimo del factor. A veces puede parecer q un factor no tiene efecto pq el nivel óptimo sea intermedio
entre los 2 ensayados.
• Factores a 3 niveles => son experimentos más complicados q exigen mayor nº1 de pruebas. ....
ANOVA EN DISEÑO CON FACTORES A MÁS DE 3 NIVELES.
Si un factor tiene nf niveles o variantes => sus gdl en la ANOVA son: gdlf = nf −1
Dosis de abonado
1
2
X
3
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
A
variedad
B
C
D
La variabilidad total se descompondría, en este caso, en 4 términos:
CS gdl
Total 23
Variedad SCvaried 3
Dosis SCdosis 2
VarXdosis 6 (=3x2)
Residual 12 (=23 −3−2−6)
Sustraendo general (=total general2/nº total de datos)
52
¿cómo hallamos la SCf? SCf =
suma total de las nf observaciones en las q el factor está a nivel k.
Hallamos la suma total de cada una de las columnas, las elevamos al cuadrado, dividimos por nf (q es 8) y le
restamos el SG.
La SC de las interacciones:
Hallamos el total de los 2 datos de las dos parcelas de cada uno de los 12 tatamientos posibles. La SC T de
cada casilla partido por el nº de datos de cada casilla (2), menos el SG y menos las SC de cada uno de los
factores q interaccionan.
La fórmula para obtener la SC asociada a una interacción entre, por ejemplo, los factores 1 y 2 es: SC1x2 =
Siendo T12 el total de n' observaciones en las q el factor 1 está a nivel k y el factor 2 está a nivel k'.
La interpretación de los efectos en el caso de q los factores sean cualitativos, se lleva a cabo mediante la
obtención de los intervalos LSD para las medias de las variantes del factor (o de las combinaciones entre
variantes de dos factores , si hay q interpretar la interacción).
En el caso de factores cuantitativos, la interpretación de los efectos (simples o compuestos) debe llevarse a
cabo mediante la técnica de descomponer en las componentes lineal, cuadrática,.. cada una con 1 gdl
(contrates ortogonales).
Ejemplo:
Efectos del catalizador y del molde en el hinchamiento tras la extrusión (PEAD) (p.9−23)
Los datos corresponden al pinzado en base de botellas fabricadas con PE obtenido con 3 catalizadores
diferentes extrusionados en 2 tipos de molde (10 botellas por tratamiento). => se trata de un plan 2x3
replicado 10 veces.
Tipo de catalizador => es un factor cualitativo con 3 variantes.
Molde=> es un factor cualitativo a 2 niveles.
(cálculos p.9−25)
gdl F−ratio
catxmolde 2 3´232
residual 54
para saber si la interacción es significativa => lo es si 3´232 es demasiado grande para ser 1 F con 2 y 54
gdl.En la tabla de F con 2gdl y entre 40 y 60 gdl sería " 3´2
F,
• sí q es significativo, pero no mucho, ya q el valor q ha salido de F−ratio, la F calculada, no supera el
valor del 1%, q sería aproximadamente (tabla) de 5´1.
53
La probabilidad de q una F de Fisher sea mayor q el valor de la F calculada, q F−ratio, es 0´047 Tabla de F)
es de 0´047 , q es menor del 0´05.
Vamos a hallar el intervalo LSD para saber entre los 3 catalizadores las diferencias:
Intervalos LSD =
Intervalos LSD para la media del catalizador 1:
catalA = = 89´35 =
89´35 ±0´707 x 2´01 x 0´216 =>
• 89´35 ±0´31 => 89´04
89´66
de forma análoga hallaríamos los intervalos LSD para las medias de los catalizadores 2 y 3.
Gráficas de los intervalos LSD:
Con el catalizador 3 se tiene un pinzamiento más elevado q con el 1 o el 2. la causa sí q era el catalizador
(análisis gráficos)
Interacción catalizadorXmolde => ¿sabríamos hallar los intervalos LSD para la interacción (para cada una
de las casillas) ?
Hallaríamos la media de cada casilla y la dividiríamos por 10. (q es el nº de datos).
A la vista del gráfico, ¿en qué consiste la interacción del catalizador y el molde? => el efecto de un factor es
diferente según cómo esté el otro. Sin embargo, la diferencia entre el catalizador 1 y 2 es diferente según el
molde. Entre el catalizador 3 y los demás hay diferencias independientemente del molde => el efecto del
catalizador depende del molde.....?
(tabla p.9−27)
UT 10. FRACCIONES FACTORIALES.
Los diseños 2k y aquellos con factores a más de dos niveles (pto 9.III−1) son fracciones factoriales. Hay
variaos niveles cada uno y se estudian a la vez todos los factores.
La ventaja de las fracciones factoriales es q si hacemos todas las combinaciones posibles todos los efectos
son ortogonales, lo q permite analizar por separado cada efecto. . pero su pega es q si el nº de factores a
estudiar es elevado, el nº de pruebas a realizar puede ser brutal y esto ocurre a menudo en problemas
industriales (Ej. Repsol.) Habría q realizar 2048 pruebas! => o estudiamos sólo 4 factores en lugar de 11. o
hacemos un diseño de experimentos q no suponga realizar todas las combinaciones posibles => lo q ll.
Fracciones Factoriales. En ellas, nosotros elegimos las pruebas q son importantes, aunque han de ser tb
ortogonales. Vemos q con 12 pruebas es suficiente. La importancia de las fracciones factoriales en la
industria es, pues, enorme.
Pero ¿cómo elegimos las pruebas q son importantes y q sean además ortogonales?
54
Ej: tenemos q estudiar 6 factores a dos niveles cada uno. Tendríamos q hacer un plan 26=64 pruebas, q
supondrían quizá mucho dinero. Se obtendría, eso sí, mucha información:
6 efectos simples
15 interacciones dobles
20 interacciones triples
pero las interacciones triples, cuadráticas,... no existen normalmente => por lo que podemos renunciar a
ellas, quedándonos con los efectos simples y quizá alguna interacción doble importante, pues no interesa, no
es necesario hallar las interacciones pequeñas.
Entonces se puede emplear un plan mucho menor para estudiar sólo las interacciones simples y quizá alguna
doble. Así la cosa cambia de, a lo mejor, tener un millón y pico de pruebas, a sólo 27.
Ejemplo: queremos etudiar 4 factores a 2 niveles. El plan sería 24 = 16 combinaciones equilibrado (tabla).
Podemos hacer sólo 8 pruebas en lugar de 16?
Las 8 primeras pruebas imposible, hay que hacerlo de manera que cada factor está la mitad de veces a nivel
(+) y la mitad a nivel (−) (veremos que además no arreglaría el problema).
Hacemos las pruebas (tabla) 1, 4, 5, 8, 9, 12, 13 y 16. que, en principio están equilibradas, 4 veces con (−) y
4 con (+).
Si queremos estudiar el efecto de A:
Media del efecto a nivel (+) − media del efecto a nivel (−)
Ef A =
Así veremos si el efecto es importante o no. Y si lo hacemos con los demás factores:
Ef B= media del efecto a nivel (+) − media del efecto a nivel (−)
Si elegimos A y B como factores:
Cada vez que A está a nivel (+), B también y cuando está a nivel (−), B también!!! => los efectos de A y B
ESTÁN CONFUNDIDOS => veremos que el efecto suma de ambos efectos, cero si son opuestos y el doble
si son de igual signo, es debido más a uno que al otro. =>> EL EXPERIMENTO ESTÁ MAL DISEÑADO. Es
una mala solución.
De las 16 posibilidades, hacemos:
1, 4, 6, 7, 10, 11, 13,y 16. ¿cómo las ha elegido? (luego lo veremos)
ahora tb hay para cada factor, 4 a nivel (+) y 4 a nivel (−) . pero ahora, para hallar el efecto de A:
ef A =
Cómo se encuentra ahora el factor B?:
55
Ef B= + − − + − + + −
Ahora, la diferencia en promedio no puede deberse al factor B.
¿y al factor D? Tampoco (tb está equilibrado)
¿Y al E? Tampoco.
A pesar de q son sólo 8 pruebas, el efecto de A se mantiene ortogonal a B, B y D => el efecto de A no se
deberá a ninguno de ellos, tampoco el efecto de A se confundirá con ninguna interacción doble.
Podemos estudiar la interacción AB con esas 8 pruebas?
Sí.
¿y la cuádruple ABCD (aunque no nos interese? NO, pero no pasa nada por ello.
Y es que es así como hemos elegido las 8 pruebas: sacrificando las interacciones cuádruples. Hemos elegido
el GENERADOR DE LA FRACCIÓN " las interacciones cuádruples que tienen signo (+).
¿y la interacción triple BCD, se puede estudiar? Respecto al efecto de A, la interacción BCD estaría (+ + +
+)−(− − − −) => la interacción estará confundida con el efecto simple de A => cuando estudiamos el efecto
simple de A, realmente estaremos estudiando el efecto simple de A más la interacción triple BCD, pero
realmente la interacción no va a ser importante, si es que existe, luego lo aceptamos como el efecto de A.
Esto, realmente, va a pasar con todos los efectos simples:
• El efecto simple de A está confundido con BCD
• El efecto simple de B está confundido con ACD
• El efecto simple de C está confundido con ABD
• El efecto simple de D está confundido con ABC
Hay entonces ciertos efectos (los ll. GENERADORES DE LA FRACCIÓN, que suelen ser interacciones de
grado elevado, que están confundidas entre sí, pero no es muy grave a partir de interacciones triples. En las
interacciones dobles sí es más grave, pq hay siempre dos interacciones dobles confundidas => si alguna de
ellas es importante, no sabremos cuál es.
En principio, una buena fracción factorial NO DEBE confundir los efectos simples. Tb sería bueno que los
efectos simples tp se confundieran, hay que evitarlo si se puede, con las interacciones dobles, y, puestos a
pedir, que tampoco se confundieran las interacciones dobles entre sí. Esto es posible según el problema (en el
ejemplo las interacciones dobles sí están confundidas entre sí).
Terminología:
4 factores a dos niveles en 8 pruebas => se dice que:
es una fracción factorial 2 4 − 1
• hay 4 factores
• a 2 niveles
• pero como hay la mitad de pruebas (8)de las que saldrían con 24, se dice que hay 24−1 (no restar el
exponente, sirve para indicar que es una fracción factorial).
56
• Hay 1 generador
Generador:
Si el generador es una interacción cuádruple (ABCD) => se dice q :
TIENE UNA RESOLUCIÓN IV (en nºs romanos) =>
• la interacción cuádruple NO se puede estudiar
• las interacciones dobles estarán confundidas entre sí y
• los efectos simples estarán confundidos con las interacciones triples.
REGLA PRÁCTICA En general, para estudiar cómo están confundidos los efectos en una fracción factorial,
sabiendo los generadores:
La fracción fatorial 2 k − 1 tiene:
• 1 solo generador, que siempre es la interacción de orden más elevado
ej: 6 factores a 2 niveles an 16 pruebas
26=64 pruebas => sería un diseño 26−2 tendrá 2 generadores en ppio (no uno sólo)
• LOS PLANES 2K−p TIENEN p GENERADORES
• El efecto asociado al generador/generadores no se podrá estudiar nunca. (pq siempre están a nivel,
y nunca tendremos el nivel (−) para comprar).
• Y cualquier otro efecto o interacción está confundido con el que resulte de multiplicarlo por el
generador y quitar los efectos que resulten al cuadrado.
Ej: si ABCD es el generador : AB x ABCD = A2B2CD "CD =>
=> AB estará confundido con CD
podemos, así, ahorrar tiempo en el ejemplo de Repsol, ellos hicieron 32 pruebas (que supuso 2 meses). ¿qué
hubiera ido un diseño de 5 factores a dos niveles en 16 pruebas (p. 8−33)? Elegimos todas aquellas pruebas
cuyo producto de los factores den (+) y así podremos estudiar el efecto quíntuple, y además se
confunden...(ver).
Y cómo vemos si los efectos son significativos o no?
Vamos a papel probabilístico (p.8−34) y vemos el gráfico de Daniel.
Con sólo 16 pruebas hubiéramos llegado igualmente a las mismas conclusiones!
Fracciones 2k−1
Permiten estudiar el efecto de k factores a 2 niveles haciendo la mitad de pruebas (2k−1) que exigía el plan
2k completo.
Construcción de un plan 2k−1: 2 métodos equivalentes:
Con los k−1 primeros factores escribimos las 8 pruebas del 23, alternando los signos como siempre.
57
Sólo faltará poner los signos del último factor (D en el ejemplo), y se hace de manera que el producto de su
signo por el de los otros (3) factores sea igual a (+), es decir, que ha de tener el mismo signo que el de los
otros multiplicados (que AxBxC) para que la multiplicación final dé (+).
El generador, en el ejemplo, será ABCD =>
=> cada efecto simple estará confundido con la interacción de los otros 3 factores:
• A x ABCD = A2BCD " BCD => A está confundido con BCD
• B x ABCD = AB2CD " ACD => B estará confundido con ACD.
• C x ABCD = ABC2D " ABD => C está confundido con ABD.
• D x ABCB = ABCD2 " ABC => D está confundido con ABC.
=> cada interacción doble estará confundida con la doble de los otros dos factores:
• AB x ABCD = A2B2CD " CD
• AC x ABCD = A2BC2D " BD
• AD x ABCD = A2BCD2 " BC
• BC x ABCD = AB2C2D " AD
• BD x ABCD = AB2CD2 " AC
• CD x ABCD = ABC2D2 " AB
Ejemplo (ver):
En el análisis, sin embargo, no hay nada nuevo. Tenemos 2 posibilidades:
♦ Hallar todos los efectos posibles y representar en el gráfico de Daniel (lo aconsejable)
♦ Hacer un análisis de la varianza (pero con cuidadín)
Vemos cómo sería mediante el gráfico de Daniel (p10−12 y 10−13)
A ojo, los efectos no significativos son "0 y los significativos son grandes.
Construcción del gráfico de Daniel:
♦ Ordenamos los efectos de menor a mayor y los identificamos:
(+ BCD) A => −5'75
(+ACD) B => −3'75
(+ ABD) C => −1'25
AD+BC => −0'25
AB + CD => 0'25
(+ABC) D => 0'75
AC+ BD => 0'75
Realmente, los efectos simples que vemos serían la confusión del efecto simple más la interacciónes triples ,
58
pero ya suponemos que las interacciones triples no son importantes.
♦ obtenemos para cada valor el porcentaje de valores menores o iguales que él:
nº de valores " que el valor del efecto de ese factor o interacción
para lo del ajuste
A x 100 = 7'1%
Nº total de valores
B 21'4%
C 35'7%
AD + BC 50%
AB + CD 64'3%
D 78'6%
AC + BD 92'9%
♦ En el plot de Daniel, escribimos la escala de valores en las abcisas, y la escala logarítmica
en las ordenadas:
La escala logarítmica se hacía:
◊ Dividiendo en dos partes el eje de ordenadas
◊ El 50% es el medio
◊ Dividimos cada parte en 4 y escribimos, de arriba abajo: 99%, 95%, 80%, 50%,
20%, 5% y 1%.
⋅ Y representamos los puntos: (gráfico)
⋅ Y veremos que:
• los efectos cercanos a cero, los no significativos, definen una recta
• los significativos positivos se van por la esquina superior derecha y
• los significativos negativos se van por la esquina inferior izquierda.
Por tanto, A y B serán claramente significativos, C será dudoso.
Las condiciones operativas óptimas serán aquellas que (en este ejemplo) maximizan el nº de horas que
aguante sin descomponerse, por tanto:
Si la media es 14'625
Con A(−), tenemos respecto a la media + (se mejora en la mitad de su efecto)
Con B(−) ...
59
C es dudoso, que sea o no significativo es subjetivo => si lo admitiéramos como significativo, tb habría que
ponerlo a nivel (−):
Con C(−)
Por tanto, la media prevista será: 20
Ahora vemos el análisi pero con la ANOVA (2ª opción). Pero ojo, que hay q tener cuidado (con el STAT)
Te pone los diseños posibles: 24, ... y 24−1. seleccionaremos esta opción. Y la interpretación de la ANOVA es
igual que hasta ahora.
FRACCIONES 2k−p
Si k es elevado, quizá (k−1) es aún un nº de pruebas demasiado elevado en ciertos contextos:
Ej: si K=6 => 6−1=5 => 25 =32 pruebas, quiza son aún muchas pruebas.
Para hacer, por ejemplo, sólo 16 pruebas, necesitaríamos un diseño 26−2.
Para u diseño 26−2 necesitaré 2 generadores (en un diseño 2k−p hay p generadores). Pero ojo, que cuando
hay más de un generador puede haber problemas:
Si empleo dos generadores cualquiera, por ejemplo ABCDEF y ABCDE, y tomamos todas las pruebas en que
ambas interacciones tengan signo (+), realmente, sin querer, estamos eligiendo 3 generadores, los dos
elegidos y el producto de ambos tachando lo que salga al cuadrado:
Ej: si elegimos ABCDEF y ABCDE:
También estamos tomando ABCDEF x ABCDE = A2B2C2D2E2F " F
F también será un generador => Entonces F ha de tener signo (+) por ser generador => y no podremos ver
el efecto simple de F.
La solución es tomar 2 generadores de manera que su producto tachando los cuadrados sea también de
orden elevado. ¿cómo elegirlos? Mediante una tabla (p.10−17!).
RESOLUCIÓN " nº de letras del generador mas corto cuando hay más de un generador
(p.10−18)
ej p 10−25:
¿cómo se detecta en un gráfico de Daniel la existencia de una observación anómala?
Con datos normales, el gráfico será de la forma:
Pero los efectos se calculan como Ef = => se notarán los datos anómalos cuando los efectos no significativos
aparezcan como 2 rectas separadas justo en el efecto 0, en lugar de aparecer como una sola recta:
Cuando aparezca así un gráfico de Daniel, es que existe un dato anómalo. ¿por qué aparece así? Pq están
maximizados los efectos en que el datos está como (+) o minimizados los efectos en que el dato aparece como
60
(−). Para los datos significativos, esto no se aprecia, pero no pasa nada pq en los efectos no significativos sí
se apreciará.
Pero, ¿cómo vemos si un dato de los significativos es anómalo?
Con STATGRAPHICS:
• ANOVA, análisis de la varianza
• Cogemos los efectos significativos
• Obtenemos los residuos de esos efectos
• Lo llevamos apapel probabilístico para ver cuál es anómalo.
TAGUCHI (ORTHOGONAL ARRAYS)
ORTOGONAL ARRAYS " son tablas para diseñar fraccioes factoriales. Hay varios diferentes, y se simbolizan
como :
L donde el subíndice simboliza el nº de pruebas.
" layout
OROTHOGONAL ARRRAY L8
L8 sirve para estudiar hasta 7 factores a dos niveles en 8 pruebas, sería un 27−4.
Si queremos estudiar 5 factores, elegiremos 5 de las 7 columnas, pq son ortogonales. Tb se incluye una tabla
de interacciones para ver quién se confunde con quién. (en las tablas, en lugar de (+) y (−) aparecen 1 y 2,
pq no vamos a multiplicar signos para hallar las interacciones ya q también están tabuladas)
Ej: utilizando el L8, diseñar un experimento de 8 pruebas que permita estudiar el efecto de 5 factores a 2
niveles y las interacciones dobles AC y AB, consideradas potencialmente importantes.
Lo q tenemos que hacer e s asignar, a cada uno de los factores e interacciones a estudiar, una de las
columnas del L8.
Comenzamos al azar , para A la columna 1,
Para B la columna 2,
Si ahora tomamos la columna 3 para C, entonces la interacción AC ( que interesa estudiarla y por tanto que
esté en una columna aparte) se encontrará en (ver tabla de las interacciones) la columna 2, es decir, se
confundirá con lo que haya en esa columna y, como la columna 2 ya la hemos tomado para B, no la podemos
tomar para AC pq si no no podremos estudiar esa interacción, ya que estaría confundida con el efecto simple
de B. Por tanto, nos interesa que la interacción a estudiar ocupe una columna q no sea ocupada por ningún
otro efecto. Si:
tomamos, para C la columna 4
Entonces la interacción AC (ver tabla de interacciones entre 1 y 4) se confundirá con lo que haya en la
columna 5 => no asignaremos nada a la columna 5 y así quedará reservada para el efecto de esa interacción
:
61
Para AC, la columna 5
Continuando de esta forma, el diseño quedaría:
(Columna)
(Efecto)
(1)
A
(2)
B
(4)
C
(6)
D
(3)
E
(5)
AC
(7)
AD
¿será posible diseñar un experimento de 8 pruebas para estudiar 4 factores a 2 niveles y además las
interacciones AB, AC, AD y BC?
NO, pq hay una condición necesaria pero no suficiente:
8 pruebas tienen 8−1=7 gdl y estudiar 4 factores y 4 interacciones supone necesitar 8gdl=> nunca podremos
estudiar 8 efectos (para ello necesitaríamos como mínimo tener 8 gdl y en este caso, con 8 pruebas, sólo
tenemos (nº de pruebas −1) 7 gdl.
y si queremos estudiar 4 factores y 3 interacciones con 8 pruebas? Sí podríamos. ¿cómo se diseñaría?:
(tabla L8):
(Columna)
(Efecto)
(1)
A
(2)
B
(4)
C
(6)
D
(3)
AB
(5)
AC
(7)
AD
FRACCIONES FACTORIALES A 3 NIVELES
La teoría estadística es muy complicada y no la veremos. Vamos directamente al ORTHOGONAL ARRAY.
La forma de proceder de Taguchi no es eliminar las causas que causan variabilidad en un proceso (es muy
caro normalmente), sino diseñar el proceso de manera que esas causas no trasciendan al proceso, es decir,
que el proceso sea robusto:
Se basa en la no linealidad de la respuesta:
Pero para hallar la no lienalidad es necesario trabajr a 3 niveles, de ahí el fundamento de Taguchi.
Vemos los orthogonal arrays más empleados en la industria:
L8
L18
L22
Lo que habrá que ver luego es cómo adaptarlos a los procesos de la industria.
Cuestiones: ¿es posible en menos de 8 pruebas estudiar 4 factores a 3 niveles?
NO, un factor a 3 niveles don 2 gdl => 4 factores son 8 gdl => necesitaremos como mínimo 9 pruebas:
Ej : 8 pruebas, 4 factores a 2 niveles...No es posible asignar las columnas para estudiar A, B, C, D, AB y CD!
62
L16
Se pueden estudiar hasta 15 factores a 2 niveles.
Es un diseño 215−11.
Ej: diseñar 1 experimento de 16 pruebas que permiten estudiar 8 factores a 2 niveles que permita estudiar las
interacciones: AB, AC, BC, DE, DF.
Como queremos estudiar estos factores, con la tabla de interacciones obtenemos dónde van a estar las
interacciones => no emplearemos esa columna para meter otro factor sino que la reservaremos para la
interacción (NO ES POR CONFUSIONES). Las confusiones entre interacciones son como siempre.
Si queremos estudiar sólo 3 factores elegiremos 3 columnas ¿cuáles? Taguchi dice que cualquiera de las 3.
Rafael Romero dice que no da igual cualquiera, que puestos a elegir, elegiremos la 2, 3 y4.
OJO! Para analizar los datos, ya no se puede hacer:
• La ANOVA pq no hay gdl residuales
• El gráfico de Daniel.
Lo que se hace es:
A partir de los 9 resultados de las 9 pruebas, para estudiar el efecto del 1er factor (A), podemos hallar la
media de A a nivel 1, a nivel 2 y a nvel 3. Idemom para los demas factores. Podemos pues obtener 12 medias
(4 factores a 3 niveles).
Ej: sería =
La media de estas medias es la media general en grupos de 3.
Gráficamente, haremos el gráfico de medias:
B tiene un efecto positivo grande y lineal y D un efecto negativo lineal.A y C no tienen mucho efecto. Con este
gráfico no se puede analizar la significación pero se puede ver:
• Si tiene efecto grande o no.
• Si el efecto es positivo o negativo
• Si el efecto es lineal o no
L18
(Se emplea mucho)
18 pruebas tienen 17 gdl => podemos estudiar hasta 8 factores a 2 niveles, que se comen (8*2=16) 16 gdl y
los 2 gdl que sobran están relacionados con la interacción entre 1 y 2 => se puede estudiar pq no está
confundido con nadie.
Es un diseño ortogonal como todos.
La interacción 7 y 8 está confundida pero repartida a trozos entre las columnas (no está en una sola
columna) => la ventaja es que no enmascara los efectos de 1er orden, pq está confundida con ellos pero a
63
trocitos y por tanto no les afecta.
L27
Es posible estudiar 13 fatores a 3 niveles en sólo 27 pruebas? ¿por qué?
Si, cabe justo, y además nos ahorramos hacer las 1594323 pruebas para el factorial completo!!
SALE: Si un factor resulta que sólo tien 2 niveles, cómo introducirlo entre factores a 3 niveles?
TRUCOS:
Frecuentemente no se encuentra un orthogonal array estandar que se adapte exactamente a las necesidades
de un experimento. En estos casos hay unos trucos para adaptar los orthogonal arrays a ellas manteniendo la
ortogonalidad:
¡er TRUCO:
• sustituir en una columna a 3 niveles, el nivel 3 por niveles 2, directamente, creando una nueva
columna a partir de la original que tiene un porrón de doses:
1
2
1'
1
1
1
1
2
1
1
3
1
2
1
2
64
2
2
2
2
3
2
3
1
2'
3
2
2'
3
3
2'
Parece una chapuza, pero no lo es! Pq resulta que el proceso es completamente ortogonal!
De esta manera, si varía el proceso cuando la columna 2 varía de 1 a 3, no será pq la nueva columna 1' tenga
valor 1 ó 2, ya que para cada uno de los 3 niveles de la columna 2, la colima 1' se encuentra igual:
Col 2
1
2
3
Col 1'
1
1
1
2
2
2
2
2
2
Pero sí hay una tabla de interacciones dobles. La diferencia con los L18 es que un factor a 3 niveles tiene
2gdl => una interacción doble a 3 niveles tendrá 2*2=4 gdl => necesitamos 2 columnas.
Ej: se desea diseñar 1 experimento con 6 factores: A, B, C, D, E y F a 3 niveles. Se desea tb poder estudiar
las interacciones dobles AB, AC y BC (entre los 3 primeros fatores, pq se sospecha que son muy importantes
y puede haber interacciones entre ellos) ¿es posible hacerlo en 27 pruebas?
6 factores * 2 gdl = 12 gdl
3 interacciones dobles * 4 gdl cada uno= 12 gdl
24 gdl => necesitamos un mínimo de 25 pruebas y tengo 27 => es perfectamente posible. El diseño sería:
65
=> ya sabemos entonces, con esas columnas, las 27 pruebas que habríamos de hacer. (las interacciones
dobles abarcan 2 columnas)
TRUCO 2º
En un diseño con factores a 2 niveles (L8 y L16), podemos introducir un factor a 4 niveles!:
• Un factor a 4 niveles tiene 3 gdl => necesitaremos 3 columnas (dos cualquiera y su interacción)
• Y luego ya los factores a 2 niveles ( con 1gdl cada uno)
OJO!: en el L8, las 3 columnas por ejemplo serían 1 , 2 y la de su interacción, que es la columna 3, pero
hemos de realizar una combinación de las 3 columnas:
• elegimos las 3 columnas (dos y su interacción)
• combinamos las 3 columnas de manera q obtenemos 4 tipos de combinaciones, 1 1 1 1, 1 2 2, 2 1 1, 2
2 1.
• a cada tipo de combinación le asignaremos un nivel, de 1 a 4, obteniendo así a partir de 3 columnas
a 2 niveles, una nueva a 4 niveles.:
1
2
3
1'
1
1
1
1
1
1
1
1
1
2
2
2
66
1
2
2
2
2
1
2
3
2
1
2
3
2
2
1
4
2
2
1
4
Ya NO podremos introducir un 2º factor a 4 niveles en un L8, por qué? OJO!:
◊ Gdl sí hay, de sobra
◊ PERO ya no hay en un L8 otra combinación de 2 columnas y la de su interacción
LIBRES
¿sería posible en un L27 estudiar un factor a 9 niveles? Sí, tomando las columnas 1, 2, 3 y 4 y podríamos
tomar aun....
TRUCO 3
En un diseño a 2 niveles, ¿podemos meter 1 factor a 3 niveles? Sí, empleando 1º el 2º truco y después el 1º.
67
Ej (p. ):
La mejor prueba es la 14 => sus condiciones son las óptimas? Ojo, que es muy cara. Hemos hecho 18
pruebas de 1844 posibles => lo más probable es que no sea la óptima => lo que haremos es:
• Analizar los efectos,
• Ver los que influyen y
• Los que no son importantes, los ponemos al nivel barato.
• (con el STAT) introducimos los datos, con columnas como la tabla, tal cual, y hacemos una ANOVA.
Como sólo quedan 4gdlresid y conviene tener más, eliminamos los factores simples no significativos
(los que tienen P−value > 5%), y nos quedaremos así con sólo C, D, G y H.
• Volvemos, con ellos, a hacer la ANOVA
Vemos q C, D y G son significativos, y H no es significativo. Pero OJO!, cuando un factor es cuantitativo se
debe descomponer en las componentes lineal y cuadrática => realizando tal descomposición se ve que la
componente lineal sí es siginificativa estadísticamente.
Condiciones óptimas=> C2, D3, G1 y H1 => esta prueba realmente no se ha hecho, pero es la óptima. La
más parecida a ella era la prueba 14 y por eso era la que mejor daba, no por ser la óptima sino por ser la
más parecida a la óptima.
Obtenemos las medias en cada una de las condiciones:
Media general 650 min
Efecto C2 −65
D3 −197
G1 −84
H1 −54
• =>> lo que supone una mejora brutal sin realizar ninguna inversión, sin cambiar máquinas para
eliminar factores q aumente la variabilidad, sino haciendo q esos factores se minimicen por trabajar
en aquellas condiciones en q no afectan tanto.
El único fallo de esto es que no se estudian las interacciones.
El gráfico de medias sería:
Donde se ven :
• los efecto importantes,
• si es positivo o negativo,
• y las condiciones óptimas.
TEMA 6
Inferencia respecto a una población normal
• Calculamos la media y la varianza:
•
68
• S2 =
• Comprobamos q los datos se ajustan lo suficientemente a una distribución normal:
♦ Con un histograma (necesario un mínimo de 40−50 datos)
♦ Con papel probabilístico normal:
♦ Se ajusta a una recta => SI
♦ No se ajustan => NO
• Usar los tests estadísticos formales (poco recomendable: respuesta correcta a pregunta equivocada)
• Analizando CA y CC
◊ CA =
◊ CC =
• Contrastar la hipótesis nula Ho: m=mo.
• M = mo refleja tu conocimiento previo, lo q piensas a no ser q la muestra revele lo contrario.
• Comprobar que P, tomando por defecto =0'05:
♦ Calculamos
♦ Buscamos en la tabla de t de student t(N−1)( ):
⋅ Entramos con gdl = N−1
⋅ Entramos con /2 (pq da sólo el área de una cola (la drcha))
◊ Si:
◊ < t(N−1)( ) de tablas => aceptamos Ho: m=mo
◊ > t(N−1)( ) de tablas => rechazamos la Ho: m=mo
♦ el error de primera especie será .
⋅ Hallamos los intervalos de confianza para m ,
con una confianza del ((1−)100)%:
•:
• 1− será el nivel de significación.
• Calculamos
• Buscamos en la tabla de t de student
t(N−1)():
♦ Entramos con gdl= N−1
♦ Entramos con / 2
• Calculamos S
• N es el tamaño de la MUESTRA
• Calculamos , que son los límites del
intervalo
• Calculamos los intervalos de confianza para ,
con una confianza del ((1−)100)%:
◊
• N es al tamaño de MUESTRA
• Calculamos S2
• Buscamos en la tabla de Gi−dos" ,
los valores de:
♦ (1−/2), pq la tabla
expresa la probabilidad por
una cola (la drcha):
◊ entramos con gdl =
N−1
69
♦ (/2)
◊ entramos con p=
1−/2
◊ entramos con gdl=
N−1
◊ entramos con p=
/2
• calculamos , el límite inferior del
intervalo
• calculamos
, el límite superior del intervalo
CON EL STAT:
Intervalos de confianza para m y para :
• sanpstats!!
• OneSampleAnalysis
• Data: (nombre de la variable)
Comparación de dos poblaciones normales
Comparación de varianzas de dos poblaciones normales.
• Contrastar la hipótesis nula Ho:
♦ Calculas y y miras a ver cuál es mayor
♦ Divides el mayor de los dos por el otro,
(será cercano a 1)
♦ Buscas en la tabla de F una FN1−1,N2−1 con una p= , por
defecto = 0'05
◊ El orden de los gdl es: 1º los de la muestra del
numerador
◊ Con los 1ºs gdl, se entra por arriba en la tabla de F
◊ Con los 2os, por el lateral
◊ Hallas la media de los valores de la tabla para p=
0'01 y p= 0'05 (deberíamos buscar una p= 0'025 pq
la tabla representa la probabilidad por una cola, la
derecha, pero p= 0'025 no está, así que asumimos
como tal la media entre el valor para p= 0'01 y p=
0'05)
• Si :
• < FN1−1,N2−1 de tablas => aceptamos la Ho: =
• > FN1−1,N2−1 de tablas => rechazamos la Ho: =
Comparación de medias de dos poblaciones normales.
♦ Contrastar la hipótesis nula Ho: m1=m2.
♦ Calculamos y
♦ Hallamos −
(será cercano a 0)
♦ Estimamos :
70
⋅ Si = => Una estimación de será :
⋅ Si N1=N2 =>> S2 =
⋅ Si N1"N2 =>> S2 =
• Estimamos la varianza de − :
♦ S=
• Calculamos la desviación típica
(estimada):
◊ S=
• Calculamos
• Buscamos en la tabla de t de student
tN1+N2(), por defecto es 0'05
("5%):
◊ Entramos con gdl =
(N1−1)+(N2−1)
◊ Entramos con p=/2
(pq la tabla expresa
la probabilidad por
una cola, la
derecha)
• Comparamos la tcalculada con la
ttablas:
• Si < tN1+N2() => aceptamos la Ho
=> m1=m2
• Si > tN1+N2() => rechazamos la
Ho => m1"m2
Intervalo de confianza para
m1−m2
♦ Calculamos y
♦ Hallamos −
♦ Estimamos :
⋅ Si =
(aunque no
sean
realmente
iguales, se
supone pq
da una
buena
aproximación)
=> Una
estimación
de será
S2 :
⋅ Si N1=N2
=>> S2 =
⋅ Si N1"N2
=>> S2 =
• Estimamos
la
varianza
71
de
−,
S:
• Calculamos
la
desviación
típica
(estimada)
S:
• Buscamos
en
la
tabla
de t
de
student
tN1+N2(),
por
defecto
es
0'05
("5%):
• Calculamos
los
intervalos
de
confianza
para
72
m1−m2:
• ¿es
robusto
el
experimento?
Mediante el
STAT
Comparación
de
poblaciones,
de sus
medias y
de sus
varianzas:
73
• sanpstats!!
• TwoSampleC
• Sample1:
(nombre
de
la
población1)
Sample2:
(nombre de
la
población2)
Análisis de
residuos
• Hallamos
los
residuos
de
los
datos
de
las
muestras:
Para
averiguar la
existencia
de un dato
anómalo:
• hay
algún
residuo
especialment
elevado
en
valor
absoluto?
• Representam
los
residuos
en
papel
probabilístic
normal:
• Si
se
ajustan
a
una
74
recta
=>
no
hay
datos
anómalos
• Si
no
se
ajusta
alguno
=>
es
un
dato
anómalo
Para
averiguar
si
hay
tendencias
no
aleatorias
respecto
al
orden
en
que
se
realizaron
las
pruebas,
que
puedan
sesgar
conclusiones
♦ grafi
los
resid
frent
al
orde
de
las
prue
Análisis
de
datos
apareados
75
Si
los
datos
de
dos
poblaciones
están
apareados:
♦ se
crea
una
nuev
varia
d,
la
difer
entre
datos
apare
♦ se
calcu
la
S2d
y
md
♦ no
hay
ahor
comp
de
varia
♦ la
hipó
nula
es
ahor
Ho:
md=
76
(p=
/
2)
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
Descargar