Caracterización de la Carga de Trabajo: Distribuciones Prof. Mariela J. Curiel H. Enero, 2009 (por incluir la bibliografía) M. Curiel Caracterización de la Carga Su objetivo es La descripción de la carga por medio de parámetros cuantitativos y funciones. Derivar un modelo capaz de mostrar, capturar y reproducir el comportamiento de la carga y sus características más importantes. El enfoque utilizado es experimental: se toman medidas. M. Curiel 1 Caracterización de la Carga Dos tipos de Modelos: Descriptivos: Tratan de describir el fenomeno observado. El enfoque más común en estos modelos es el uso de un resumen estadístico de los datos observados. Entre los métodos estadísticos disponibles se encuentran: promedios, especificación de la dispersión, histogramas, ajuste de distribuciones. - El enfoque más común es tratar de imitar los datos directamente, ajustando una distribución que tenga la misma forma que la distribución empírica - Mientras más largo el período de observación, mejor. - M. Curiel Caracterización de la Carga Generativos: tratan de imitar el proceso que genera la carga. Si el modelo es correcto, uno esperaría que las distribuciones se produzcan de forma automática. Una ventaja de este tipo de modelos es que permite fácilmente hacer cambios en la carga de trabajo. M. Curiel 2 Herramientas para el Desarrollo de Modelos Descriptivos: Índices de Tendencia Central La alternativa más simple para caracterizar un parámetro de la carga de trabajo es presentar un único número que resuma todos los valores observados. Si {x1, x2, ..., xn} son los n valores observados de un determinado parámetro, la media aritmética (promedio) viene dada por la fórmula: − 1 n X = ∑ xi n i =1 M. Curiel Índices de Tendencia Central Mediana: es el valor medio o el dato que está en el medio de las observaciones (50% percentil o 0.5 cuantil). Moda: valor más probable. El valor que más se repite. Mediana y media siempre existen, la moda puede no existir. M. Curiel 3 Índices de Tendencia Central Promedio Los valores atípicos la afectan en gran medida. Tiene la propiedad de aditividad: la media de la suma es la suma de las medias. Esto no aplica a la mediana o moda. Hace uso de toda la muestra, le da igual peso a todas las observaciones De acuerdo a la ley de los grandes números, el promedio converge a la verdadera media a medida que se añaden más datos a la muestra. M. Curiel Relaciones entre Media-Mediana-Moda Mediana Media Moda Modas Media Mediana Pdf f(x) Pdf f(x) Pdf f(x) x Uniforme x Bimodal simétrica x Unimodal simétrica Mediana Media No hay Moda moda moda Pdf f(x) mediana Pdf f(x) mediana media media x x Sesgada a la izquierda Sesgada a la derecha 4 Media, Mediana y Moda Si la distribución es asimétrica (sesgada a la derecha, son los casos típicos de cargas de trabajo) el promedio tiende a ser mucho más largo que la mediana. En estos casos la mediana es un valor mucho más representativo. M. Curiel Dispersión de los datos Si hay una variabilidad muy grande en los datos, no basta con especificar la media. La variabilidad de los datos se suele especificar con: - la varianza s2: s2 = _ 1 n ( xi − x ) 2 ∑ n −1i =1 - La desviación estándar: s - El coeficiente de variación: s / X (>1 alto, < 1 bajo) - Otras alternativas : el rango, el 10mo y 90avo percentil y el rango semi-intercuartil. − M. Curiel 5 Dispersión de los Datos Rango: Es la diferencia entre el máximo y el mínimo. El máximo es la mayoría de las veces un outlier que está muy lejos de los valores típicos. También se le conoce como valor atípico. Rango semi-intercuartil: Q − Q1 SIQR = 3 2 Q1 es el primer cuartil Q3 es el tercer cuartil El segundo cuartil es la mediana 0.5 cuantil = 50-percentil= Q2 M. Curiel Índices de Dispersión Índice de tendencia central Índice de Dispersión media Varianza, st. dev, COV mediana Uso de percentiles (se especifica El 5 y 95 percentil) o se usa El SIQR M. Curiel 6 Determinar la Distribución de los datos Si la varianza es alta, es útil tratar de determinar la distribución de los datos. M. Curiel Determinar la distribución de los datos Posibles usos Algunas técnicas estadísticas (diseño experimental, regresión, etc) requieren que se determine si los errores se distribuyen en forma normal. Una distribución es más fácil de usar, menos espacio en disco respecto a una traza Son esenciales en los modelos analíticos y ciertos tipos de modelos de simulación (en este caso las distribuciones de los distintos parámetros representan el modelo de la carga) M. Curiel 7 Definiciones: Variables Aleatorias Una salida S (suceso o evento) es el resultado de un experimento o secuencia de observaciones. Espacio Muestral (E): es una colección de posibles salidas Si el experimento consiste en lanzar un dado, las posibles salidas que conforman el espacio Muestral E son: S= {1, 2, …, 6} M. Curiel Definiciones: Variables Aleatorias Definición 1. Llamamos variable aleatoria o variable estocástica, X, a toda función o regla que asocia a cada elemento del espacio muestral, E, un número real x. Si el experimento es tirar un par de dados, el espacio E está conformado por las siguientes salidas: S ={(1,1), (1,2), ……(6,6)} Si la variable X, corresponde a la suma de la salida de los dos dados, X asigna el valor 7 a la salida (4,3) M. Curiel 8 Ejemplo 1. Si lanzamos tres monedas al aire y X es el número de caras que salen, los valores que toma X son 0, 1, 2 y 3. Ejemplo 2. Si de una camada de 6 cachorros se cuenta el nº de hembras que se “obtienen” la variable aleatoria toma los valores x =0, x=1,....x =6 Ejemplo 3. Al extraer una bombilla de una población y observar si es o no defectuosa, X tomaría los valores 1 y 0 según sea o no defectuosa. En los ejemplos anteriores se habla de variable aleatoria discreta (toma valores discretos) Ejemplo 4. Si se toma como X la estatura de los soldados de un reemplazo X puede tomar todos los valores, (dentro de unos límites) Ejemplo 5. Si se toma como variable la longitud de un tornillo X puede tomar todos los valores de un intervalo. En estos casos últimos se hablará de variable aleatoria continua. M. Curiel Variables Discretas 2. Función de probabilidad y de distribución Una función de probabilidad no es más que la asignación a cada valor de la variable de la probabilidad que le corresponde. Es decir: Definición 2. La función de masa de probabilidades, f, se define así: f(xi)= P(X=xi) Propiedades Por ser una probabilidad se verifica que la suma de todas las f(xi) es 1. M. Curiel 9 Variables Discretas Definición 3. Sea X una variable aleatoria. Se llama función de distribución o función de distribución acumulada, F, a la función definida por - Valida para variables contínuas y discretas - Monotónicamente creciente - Fácil de especificar, calcular y medir M. Curiel Variables Continuas Función de Densidad de Probabilidades pdf útil para determinar intervalos de probabilidades M. Curiel 10 M. Curiel M. Curiel 11 CCDF La función de distribución acumulada, complementaria se llama la “survival function”, y mide la probabilidad de que una variable aleatoria tenga un valor mayor que un valor determinado. M. Curiel Esperanza Matemática, Varianza M. Curiel 12 Coeficiente de Variación, Covarianza, Correlación M. Curiel Por qué usamos Distribuciones? Una carga de trabajo es un conjunto de observaciones de determinadas variables: procesos que se están ejecutando, requerimientos atendidos por un servidor, etc. Cada item (procesos, mensajes, etc) se caracteriza por ciertos atributos: un proceso se caracteriza por cuánto o cuánta memoria CPU consume, el número de llamadas al sistema, etc. Diferentes items tienen diferentes valores para estos atributos: procesos que corren una hora, 7ms, 1 seg. La premisa del modelado de carga es que estos valores pueden verse como muestras de una distribución subyacente. M. Curiel 13 Distribuciones en Cargas de Trabajo Los valores son positivos. Las distribuciones son típicamente sesgadas a la derecha. Hay muchos valores pequeños y una cantidad no despreciable de valores grandes M. Curiel Distribuciones: Parámetros Parámetro(s) de Localización σ: especifica un punto de la distribución en el eje de las X. Usualmente es el punto medio (la media de la normal) o el punto mas pequeño del rango. Si σ cambia, la distribución sólo se mueve a la derecha o a la izquierda sin otro cambio. Parámetros de Escala (scale) β: especifican cuánto se extiende la distribución: desviación estándar. Escala de los valores en el rango de la distribución. Un cambio en β comprime o expande la distribución sin alterar su forma básica. M. Curiel 14 Distribuciones: Parámetros Parámetros de Forma (shape) α: Determinan la forma de la distribución dentro de una familia de distribuciones de interés. Si la distribución tiene una moda o no, o cuán pesada es la cola. Un cambio en α altera las propiedades fundamentales de la distribución (ejm. sesgo) mucho más que un cambio en la localización o escala. Algunas distribuciones como la normal o la exponencial no tienen parámetro de forma, otras, como la distribución β, tienen 2. M. Curiel Algunos ejemplos de Distribuciones: Exponencial Theta es el parámetro (scale) que determina cuán rápidamente decae la probabilidad. Medido en las mismas unidades de x. Theta es también la media de la distribución. M. Curiel 15 Distribución Exponencial Scale θ > 0 Rango [0, ∞) Media = θ Varianza = θ 2 ^ Si X1, X2, …Xn, son variables Aleatorias independientes con distribución exp(θ), entonces X1 + X2 + Xn ~ gamma(θ, n) − θ = X ( n) M. Curiel Definición alternativa. Lambda es una tasa, y mide cuantos Objetos pasan por unidad de x M. Curiel 16 M. Curiel Propiedades de la Distribución Exponencial Los tiempos de llegada de un proceso poisson se distribuyen en forma exponencial. Considere un periodo de tiempo T durante el cual ocurren eventos a una tasa promedio de λ eventos por unidad de tiempo. Se dice que ocurren en forma aleatoria y que esto es un proceso de poisson si el intervalo de tiempo T se puede dividir en varios intervalos de forma tal que: M. Curiel 17 Propiedades de la Distribución Exponencial 1. No hay más de un evento en cada intervalo. Se excluyen llegadas en Ráfagas. Hay intervalos donde no ocurren eventos. 2. La probabilidad de tener un evento es la misma en todos los intervalos. 3. La existencia de un evento en un intervalo es independiente de los que pasa en el resto de los intervalos. M. Curiel Propiedades de la Distribución Exponencial • La distribución exponencial no tiene memoria. P[Xtn+1] = xn+1|X (t1) = x1, …., Xtn = xn] = P[Xtn+1] = x n+1|Xtn = xn El futuro del proceso depende únicamente del estado presente y no de la historia del proceso. Esto simplifica mucho los modelos. M. Curiel 18 Usos de la Distribución Exponencial Tiempos entre llegadas, con llegadas independientes e idénticamente distribuidas. Esto parece razonable y el tratamiento de los modelos es sencillo por las propiedades de la distribución exponencial, no obstante el análisis de cargas de trabajo reales ha revelado que las llegadas de algunos elementos son en ráfagas (auto-similitud) Tiempos de Servicio. Aunque también se han observado distribuciones de cola pesada en los tiempos de servicio. Modelos de Cola M/M/1, M/G/1, etc. M. Curiel Distribución Gamma β es el parámetro de escala, que dice cuán dispersa es la distribución, . α es el parámetro que da la forma a la distribución. Si α no es un entero, no hay una forma cerrada para la función de distribución. M. Curiel 19 Distribución Gamma α > 0, β > 0 Rango = [0, ∞) Media =αβ Varianza = αβ 2 La expo(β) y gamma(1, β) son las mismas Si X1, X2, ….Xn son variables aleatorias independientes con Xi ~ gamma(αi, β), Xi + x2 +…Xn ~ gamma(α1+ α2 + α3 + … αn, β) M. Curiel Propiedades de la Distribución Gamma Es muy flexible, jugando con los parámetros podemos obtener una distribución con diferentes formas. Esta flexibilidad es el resultado de tener α −1 dos términos: x ( ) uno polinomial β y otro exponencial . − x eβ M. Curiel 20 M. Curiel Usos de la Distribución Tiene diversos usos ya que es muy versátil, tiene una cola que se extiende hasta infinito y puede ajustarse para tener una moda en un valor positivo o para ser monotónicamente decreciente. Sirve también para modelar el tiempo para completar una tarea, por ejemplo: Tiempos de servicio. M. Curiel 21 Distribución Weibull α > 0, β > 0 Rango = [0, ∞ ) M. Curiel Distribución Weibull: Propiedades y usos Es similar a la distribución Gamma por su versatilidad y posibles formas. Esto resulta de la combinación de un factor polinomial y un factor exponencial. α y β tienen la misma interpretación de escala y forma que en la distribución gamma. Valores grandes de α producen una distribución con una moda más pronunciada y simétrica. Si α es pequeño la cola es más pronunciada, de hecho si el valor es menor que uno, se considera una distribución de cola pesada. M. Curiel 22 M. Curiel Distribución Log-Normal No hay forma cerrada para la CFD M. Curiel 23 En versatilidad es similar a las distribuciones Weibull y Gamma. Es de mucha utilidad la relación existente con la distribución normal. X ~ LN(μ,σ2) si y sólo sí ln X ~ N(μ,σ2). De modo que si uno tiene un conjunto de variables X1, X2, …..Xn, que siguen una distribución log-normal, sus logaritmos pueden tratarse como normalmente distribuidos para propósitos de determinar M. Curiel Parámetros, hacer tests sobre bondad de ajuste, etc. Distribución Pareto a b⎞ ⎛ F ( x) = 1 − ⎜ ⎟ ⎝ x⎠ F (x) = 1 − M. Curiel ⎛ b ⎞ ⎟ ⎜ ⎝ x ⎠ a 24 Distribución Pareto: Propiedades b es un parámetro de localización, especifica el valor mínimo posible (x >= b). El parámetro que define la forma de la distribución es a, mientras más pequeño es el valor de a, más pesada es la cola. Esto significa que hay una probabilidad “no despreciable” de tener valores muy largos. Se puede decir que b también es un parámetro de escala. Un cambio en b, no sólo produce un desplazamiento dentro del eje x, sino también un cambio en la forma de la distribución. M. Curiel Usos de la Distribución Pareto En general los tiempos de ejecución y tamaños de archivos, siguen una distribución de cola-pesada. M. Curiel 25 M. Curiel M. Curiel 26 M. Curiel CDFs, PDFs, Histogramas Algunos problemas, consejos útiles para su construcción e interpretación M. Curiel 27 Histogramas, Pdfs La forma más directa de representar una distribución es con un histograma, que muestra la frecuencia a la cual ocurren los diferentes valores. Esto es útil si el número de valores es pequeño y el rango es limitado. Qué pasa si tenemos grandes rangos? M. Curiel Histogramas, PDFs Utilizando escala logarítmica se aprecia mejor la distribución de estos valores. Dado que las escalas logaritmicas no son siempre fáciles De interpretar, una alternativa es hacer un zoom de los valores más Pequeños. M. Curiel 28 Histogramas, PDFs Dependiendo del tamaño de la celda, el histograma puede mostrar una función de densidad distinta. 4.8 3.9 4.3 5.6 2.3 3.9 4.2 5.5 6.8 8.2 1.1 2.2 3.0 4.1 5.5 6.7 7.0 8.0 9.1 10.9 12 [1,2) [2,3) .... La altura cuenta las unidades en cada clase. [12,13) M. Curiel Histogramas, PDFs Variando el tamaño del intervalo 4.8 4.3 4.2 4.1 3.9 3.9 3.0 2.3 2.2 1.1 8.2 8.0 7.0 6.8 6.7 5.6 5.5 5.5 12 10.9 9.1 [1,5) [5,9) [9,13) M. Curiel 29 Número de Clases Regla empírica: entre 5 y 15 Regla de Sturges k = 1+ log 2 n M. Curiel Histogramas, CDFs Las modas mayores o picos de la pdf se convierten en escaleras en la cdf. Las modas menores tienden a perderse. M. Curiel 30 Interpretar CDFs Si una CDF está por debajo y a la derecha de otra, significa que tiene Valores mayores. Ejem: la distribución de los tiempos entre llegadas del usuario 374 tiende a tener valores más cortos. Esta es una de las principales fortalezas De la CDF versus la pdf. M. Curiel Interpretar CDFs Es más fácil determinar el tamaño de la cola: 5% de los archivos tiene un Tamaño mayor a 32K. El 50% de los archivos tiene un tamaño menor a 2K. M. Curiel 31 Bibliografía Raj Jain. The Art of Computer Systems Performance Analysis, Wiley, 1991. Averill M. Law y David Kelton. Simulation Modelling and Analysis. Mc. Graw Hill.2000 Workload Modeling for Computer Systems Performance Evaluation. Dror Feitelson. School of Computer Sciense an Engineering. Hebrew University of Jerusalem. Apuntes del Prof. Virgilio Almeida. M. Curiel 32