Subido por vanessa ramirez

Comparación de Graficos estadisticos

Anuncio
DISEÑO DE
EXPERIMENTOS
Comparación de Gráficas en los tratamientos
CONTENIDO
Importancia del uso de gráficos en el análisis de datos y diseño de
experimentos
Gráficos de los efectos
Gráficos de contorno y superficie de respuesta
Gráficos de Pareto
Histograma
Diagrama de puntos
Diagrama de caja y bigotes
Gráficos de dispersión
Gráficos cuantil-cuantil
Gráficos de residuales
IMPORTANCIA DEL USO DE GRÁFICOS EN
EL ANÁLISIS DE DATOS Y DISEÑO DE
EXPERIMENTOS
Se consideran herramientas
gráficas a aquellas estructuras de
organización y presentación de
los datos que permiten un análisis
de los mismos mediante su
apreciación en el espacio.
IMPORTANCIA DEL USO DE GRÁFICOS EN EL
ANÁLISIS DE DATOS Y DISEÑO DE EXPERIMENTOS
La representación grafica o visualización de los datos es importante para cualquier
análisis de datos
La visualización permite de forma rápida
❑Permiten un mejor conocimiento de los datos, al hacer evidentes determinadas
particularidades o incoherencias que pueda llevar a revisar su calidad o a utilizar
herramientas estadísticas específicas.
❑Realizar cortes a los datos para poder observarlos desde diferentes perspectivas
❑Comprobar que aquellos modelos, tendencias, predicciones y agrupaciones que se han
aplicado sobre los datos, nos devuelven el resultado esperado.
❑En estudios diseñados para probar hipótesis las herramientas gráficas pueden orientar al
investigador para la utilización de los métodos estadísticos mas indicados
❑Permiten transmitir información de una manera más sencilla y clara.
GRÁFICOS Y DIAGRAMAS
UTILIZADOS EN EL ANÁLISIS DE
DATOS
oHistogramas
oDiagramas de puntos
oDiagramas de Pareto
oGráficos de caja y bigote
oDiagramas de dispersión
oGráficos Cuantil-Cuantil (Q-Q plots)
oGráficos de residuos
oGráficos de los efectos de un factor (Diseños factoriales)
oGráficos de contorno y superficie de respuesta
GRAFICOS DE LOS EFECTOS
Determinar las variables que tienen mas
influencia en la respuesta.
Determinar cual es el ajuste de las x que tienen
mayor influencia para que y este cerca del valor
deseado
Determinar cual es el ajuste de las x que tiene
mayor influencia para que la variabilidad de y
sea reducida.
Determinar cual es el ajuste de las x que tiene
mayor influencia para que los efectos de las
variables no controlables sean mínimos.
PROCESO DE UN SISTEMA
EFECTOS PRINCIPALES DE UN FACTOR
Se evalúa la incidencia de dos o mas factores en un experimento
Respuesta
Cambio en la
respuesta
inferior
Cambio en el
nivel de factor
Efecto de un factor en la variable de
respuesta.
Efecto de un factor (cambio en la
respuesta producida por un cambio en el
nivel de un factor)
Se hace variar un factor
superior
Enfoque de un factor a la vez
• Ventaja: La interpretación es
directa y sencilla.
• Desventaja: No toma en cuenta
cualquier interacción entre los
factores.
DISEÑO FACTORIAL
Indica la interacción entre los factores A y B
Diseño factorial 22
B+
Cambio en la
respuesta
BB-
B+
B+
Respuesta
Respuesta
B+
Cambio en la
respuesta
BB-
−
Factor A
Sin interacción
+
−
Factor A
Con interacción
+
𝐸𝑓𝑒𝑐𝑡𝑜 𝑐𝑎𝑑𝑎 𝑓𝑎𝑐𝑡𝑜𝑟 =
σ 𝑅𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠 𝑛𝑖𝑣𝑒𝑙 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 σ 𝑅𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠 𝑛𝑖𝑣𝑒𝑙 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟
−
𝑛𝑜. 𝑑𝑒 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠
𝑛𝑜. 𝑑𝑒 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠
𝐸𝑓𝑒𝑐𝑡𝑜 𝐴𝐵 = 𝐷𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑜𝑠 𝑒𝑓𝑒𝑐𝑡𝑜𝑠
Ventajas: Son de ayuda para interpretar interacciones significativas
y para reportar resultados al personal sin preparación estadística.
Desventaja: Su interpretación es subjetiva, no debe utilizarse como la
única técnica para el análisis de datos.
GRAFICO DE CONTORNO Y SUPERFICIE DE RESPUESTA
Metodología de la superficie de respuesta (MSR), es una combinación de análisis de Regresión y
Diseño experimental introducida por Box y Wilson en 1951.
Es una estrategia de
experimentación secuencial y modelación que conduce a la localización de los valores óptimos de
las variables independientes que maximizan, minimizan o cumplen ciertas restricciones en la
variable de respuesta.
❑ Conjunto de técnicas matemáticas y estadística utilizadas para modelar y analizar
problemas en las que una variable de interés es influenciada por otras.
❑ Objetivo es optimizar la variable de interés
❑ Permite resolver el problema de encontrar las condiciones de operación optimas de un
proceso.
GRAFICO DE CONTORNO Y SUPERFICIE DE RESPUESTA
Función de respuesta: El valor de respuesta Y depende de los niveles x1 ,x2,…xk de k
factores
𝑌 = 𝑓 𝑥1, 𝑥2, … 𝑥𝑘 +ε
Función de respuesta predicha: Se puede representar como una ecuación polinomial
de primer o segundo grado.
𝑌 =β0 + β1 𝑥1 + β2 𝑥2
Al reemplazar los coeficientes de regresión por su estimadores se obtiene:
Valor estimado
de Y
𝑌෠ = β0 + β1 𝑥1 + β2 𝑥2
GRAFICO DE CONTORNO Y SUPERFICIE DE RESPUESTA
Superficie de respuesta:
𝑌 = 𝑓 𝑥1, 𝑥2, … 𝑥𝑘
Superficie de respuesta
Con k factores, la superficie de respuesta será en k+1 dimensiones
𝑌 = 𝑓 𝑥1
𝑌 = 𝑓 𝑥1 , 𝑥2
Gráficos de contorno: La gráfica de contornos facilita la visualización de una
superficie de respuesta en tres dimensiones.
Las curvas de los valores iguales de respuesta se grafican en un plano en donde los
ejes representan los niveles de los factores
Construcción de una superficie de respuesta.
La investigación de una superficie de respuesta aborda la localización de la región
en la cual se encuentra la respuesta óptima Y.
Después de comprobar experimentalmente , va reduciendo la superficie de
respuesta en estudio hasta acercarse al punto óptimo.
Partimos de un Modelo de primer orden
𝒀 =β0 + β1 𝒙𝟏 + β2 𝒙𝟐 +…+ βk 𝒙𝒌 + ε
𝒌
𝒌 𝒋−𝟏
𝑌 = β0 + ෍ βi 𝒙𝒊 + ෍ ෍ βij 𝒙𝒊𝒙𝒋 + ε
𝒊=𝟏
𝒋=𝟐 𝒊=𝟏
SUPERFICIE DE RESPUESTA
Encontrar el optimo
Se utiliza cuando Tenemos ya una
serie de valores existentes
Si se quiere encontrar un máximo se
le llama Maximización ascenso a la
loma.
Si se quiere encontrar un mínimo
seria descenso al valle.
Diseño de experimento simple no
considera la curvatura pero nos da
información sobre la trayectoria de
ascenso
Ajustamos a un modelo de orden uno
y aunque no considere la curvatura
nos podrá indicar hacia donde nos
podemos dirigir.
Modelo lineal de primer orden
Modelo lineal de con interacción
Modelo cuadrático o de segundo orden
PASOS PARA APLICAR LA MSR
1.
Definir los objetivos de la optimización. Plantear el problema a resolver y seleccionar
la respuesta a evaluar
2.
Seleccionar los factores que resultas significativos.
3.
Establecer la región de operabilidad.
4.
Seleccionar el entorno experimental. Definir la región del espacio de los factores en
donde se planearan los experimentos.
5.
Construir un diseño experimental de optimización.
6.
Elaborar un modelo matemático. Obtener la superficie de respuesta y evaluar los
resultados.
7.
Localizar el óptimo. Utilizar herramientas gráficas y/o matemáticas para predecirlo
8.
Verificar experimentalmente. Confirmar el valor de la respuesta utilizando los niveles
óptimos de los factores.
GRÁFICAS DE PARETO
Permite discriminar entre las causas más importantes de un
problema y las que afectan menos.
Se basa en la idea de que unos pocos factores son los
responsables de los cambios significativos en la respuesta
Ventaja: Permite tener una idea visual rápida sobre que
factor es más influyente.
Desventaja: No aporta información sobre sus significancia,
se requiere hacer un tratamiento estadístico.
HISTOGRAMAS
Es una gráfica que muestra como
se distribuyen los valores de una
variable cuantitativa cuando esta
se divide en intervalos uniformes
HISTOGRAMA
▪Las barras no están espaciadas
▪Cada barra representa un subconjunto
de datos
▪Los datos se deben agrupar en intervalos
de igual tamaño llamados clases.
▪No es recomendable que las bases de las
barras tengan diferente tamaño.
▪Nos permite detectar valores extremos,
características de simetría de la
distribución o presencia de varias modas.
HISTOGRAMA
¿ Cómo se construye un histograma ?
1. Se puede realizar con al menos 50 datos
2. Se calcula el Rango con el valor mas
pequeño y el más grande del grupo de
datos
3. El número de intervalos (k) se puede
ajustar a aproximadamente la raíz
cuadrada del numero de datos.
𝑘≈ 𝑛
Nº de datos (n)
Nº de intervalos (k)
50-100
6-10
100-200
10-15
>200
15-20
4. Determinar la amplitud de los
intervalos.
5. Definir las clases sumándole al valor mas pequeño,
hasta llegar al valor mas grande.
HISTOGRAMA
6. Determinar la frecuencia
5. Construir el histograma
Picos mas altos,
datos mas comunes
Ajustan
adecuadamente a
una distribución
normal
Valores atípicos
Datos multimodales
Datos asimétricos, ajuste deficiente.
DIAGRAMA DE PUNTOS
▪Útil para representar un conjunto
reducido de datos (hasta
aproximadamente 20)
▪Detecta Valores extremos, dispersión y
tendencia central
DIAGRAMAS DE CAJA Y DE BIGOTES
Dato atípico
1.5 veces
rango Inter
cuartil
Valor más alto
Muestra la forma, la tendencia central y la
variabilidad de los datos
Tamaño de la muestra mayor a 20 datos
Tercer cuartil
(percentil 75)
Mediana
Primer cuartil
(percentil 25)
Valor más bajo
Permiten evaluar la simetría de la distribución.
Distribución normal
Valores atípicos
Datos asimétricos
Evaluar y comparar grupos
• Buscar la diferencia entre los
centros de los grupos.
•
Buscar diferencias entre
dispersiones de los grupos
las
GRAFICO DE
DISPERSIÓN
▪Son utilizados con frecuencia en análisis
de dos variables.
▪Las observaciones se representan
simultáneamente en un punto. (como una
coordenada en un plano cartesiano)
▪Son útiles para detectar valores extremos
▪Para explorar y describir la tendencia de
dos variables correlacionadas
GRÁFICOS CUANTIL- CUANTIL
Permite evaluar si un conjunto de datos
proviene o no de una distribución normal
• Son herramientas utilizadas para evaluar
características distribucionales de una
variable.
• Comparan una distribución esperada, que
se calcula con una función matemática
determinada, con la distribución observada
que es la que muestran los datos
• De forma que se aceptará la hipótesis de
normalidad de los datos, siempre que los
puntos en el gráfico tengan un
comportamiento
“suficientemente
rectilíneo”.
•
Se grafican los efectos experimentales vs. Los
efectos teóricos
• Los datos se encuentran alineados
La muestra proviene de una población con distribución
normal
Distribución sesgada
a la derecha forma
C.
Distribución uniforme
forma S
PASOS PARA CONSTRUIR UN DIAGRAMA DE PROBABILIDAD
1. Las observaciones de la muestra se ordenan de menor a mayor (y1, y2…yn)
2. Construir un valor i, que va desde i=1,…n
3. Se determina el valor de su probabilidad asociada a la función de la
distribución normal P(j)
4. P𝑗 =
𝑖−𝑎
,
𝑛+1−2𝑎
para i=1,…,n
 Si n ≤ 10, entonces 𝑎(𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛) =
 Si n > 10, entonces 𝑎 =
1
,
2
por lo tanto 𝑗 =
1
2
𝑖−
𝑛
3
,
8
por lo tanto 𝑗 =
3
8
1
𝑛+
4
𝑖−
,
,
5. Se calculan los cuantiles de la distribución normal estándar
6. Se grafican los datos vs los datos de probabilidad normal
GRÁFICOS DE LOS RESIDUOS
Al establecer un modelo matemático para predecir un evento con un numero de
datos, generalmente se opta por hacer una regresión lineal.
No siempre la regresión lineal representa de manera correcta los datos reales
En un análisis de varianza se debe de cumplir con los supuestos son
Normalidad, homocedasticidad e independencia
Si los supuestos se cumplen, el análisis de varianza es una prueba exacta de
la hipótesis de que no hay diferencias en las medias de los tratamientos.
Para verificar que tanto se adecuan los datos al modelo, que tanto cumplen
los supuestos, se realiza en análisis de los residuos
Un residuo es la diferencia entre el valor observado y el valor estimado por el
modelo matemático (línea de regresión).
𝑟𝑖 = 𝑌𝑖 − 𝑌෡𝑖
El residual puede ser considerado como el error aleatorio observado 𝒆𝒊
El análisis de residuales permite cotejar si las suposiciones del modelo de regresión
se cumplen.
Se puede detectar:
• Si efectivamente la relación entre las variables X e Y es lineal.
• Si hay normalidad de los errores.
• Si hay valores anormales en la distribución de errores
• Si hay varianza constante (propiedad de Homocedasticidad) y
• Si hay independencia de los errores.
NORMALIDAD DE LOS RESIDUOS
Histogramas de residuos : se utiliza para determinar si los datos son asimétricos o si incluyen
valores atípicos. Si es simétrico con un pico en el centro, se concluye que hay normalidad.
GRAFICA DE PROBABILIDAD NORMAL DE LOS RESIDUOS
Si los residuos, tienen aproximadamente un
comportamiento cercano a una línea recta,
se considera que satisface el supuesto de
normalidad.
GRAFICA DE PROBABILIDAD NORMAL DE LOS RESIDUOS
La curva S implica una distribución con
colas largas
La curva S invertida implica una
distribución con colas cortas
La curva descendente implica una
distribución con asimetría a la derecha
Puntos alejados de la línea implican una
distribución con valores atípicos.
Gráfica de residuales en secuencia del tiempo
Verificar el supuesto de que los residuos son
independientes entre si.
Los residuos son independientes si no muestran
tendencias ni patrones cuando se muestran en
orden cronológico.
Si se observa un patrón, puede indicar que los residuos son dependientes
Gráfica de residuales vs valor predicho
Nos permiten verificar que los residuos están
distribuidos aleatoriamente y tienen varianza
constante, si es así se considera que satisface el
supuesto de homocedasticidad.
a) Adecuación del modelo
b) y c) Heterocedasticidad (la
varianza de los errores no es
constantes en todas las
observaciones).
e) Falta de linealidad.
CONCLUSIONES
Existen distintos tipos de herramientas gráficas que nos ayudan a analizar datos de
una investigación.
Son herramientas muy útiles que nos permiten descartar factores y efectos que
pueden o no estar influenciando en nuestro sistema tal como los diagramas de
efectos.
La MSR es una técnica versátil que permite usar diferentes herramientas estadísticas
para optimizar un proceso
Los gráficos de probabilidad normal nos permiten comparar la distribución empírica
de un conjunto de datos con la distribución normal.
Descargar