TEMA 0 ALGUNAS DEFINICIONES Población.- Individuo.-

Anuncio
TEMA 0
ALGUNAS DEFINICIONES
Población.- Es un conjunto de personas, objetos, ideas o acontecimientos que van a ser estudiados.
Individuo.- También es denominado como unidad estadÃ−stica. Es cada uno de los elementos de la
población que va a ser estudiada.
Censo.- Es el estudio de todos los elementos de una población. A veces es imposible de realizar, bien sea
porque se trate de una población de infinitos elementos, de que el método sea destructivo o cualquier otra
razón.
Muestra.- Es un subconjunto de la población. (Tendrán interés aquellas que representen fielmente a la
población).
Tamaño muestral.- Es el número de elementos de la muestra.
Muestreo aleatorio simple.- Los elementos elegidos son equiprobables y la elección debe realizarse con
independencia
Variables (o atributos).- Son los caracteres que se pueden observar y estudiar en los individuos de la
población. Esta caracterÃ−stica varÃ−a de un individuo a otro. El valor es impredecible antes del estudio (es
imposible saber la altura de alguien antes de tenerlo enfrente, por ejemplo). Se clasifican en:
Variables cualitativas.- No toman valores numéricos (Color del pelo, p. e.). A los posibles resultados se
les denomina modalidades.
Variables cuantitativas discretas.- Toman un número finito de valores dentro de un intervalo finito
(Número de hijos de una familia, p.e.)
Variables cuantitativas continuas.- Toman valores dentro de un intervalo. (p. e. Altura de los estudiantes)
ETAPAS PARA LA DETERMINACIÃ N DE UN PROBLEMA
Formulación del problema
Diseño del experimento (Saber que muestreo se va a utilizar)
Obtención de los datos
Análisis estadÃ−stico de los datos.
Formulación de la respuesta, que irá acompañada del método empleado.
TEMA 1
DISTRIBUCIONES DE FRECUENCIAS
Para el estudio de la distribución de frecuencias se define la variable estadÃ−stica X, de la cual se dispone de
1
una muestra de tamaño N. Sea entonces n el número de observaciones distintas que hay en la muestra.
Frecuencia absoluta (ni).- Es el número de veces que una observación distinta (xi) se repite. Observamos
que:
Frecuencia absoluta acumulada (Ni) de un dato xi .- Número de veces que se repiten observaciones
menores o iguales a xi.
(frecuencia abs. acum. de xn)
Frecuencia relativa.- Se define como el cociente entre el número de veces que se hace una observación y
el número de observaciones totales:
La suma de las frecuencias relativas es 1.
Frecuencia relativa acumulada.- Se define como el cociente entre el número de veces que se hace una
observación menor o igual a xi, y el número de observaciones totales:
La suma de las frecuencias relativas acumuladas es 1.
EJEMPLO: (Frecuencias)
Entramos en una clase en la cual hay 120 alumnos. Les preguntamos a 11 por sus edades y nos
responden 18, 19, 19, 22, 18, 17, 19, 20, 20, 19 y 20. Realizar la tabla de frecuencias correspondiente:
La tabla serÃ−a esta:
Edad
Frecuencia abs.
Frecuencia rel.
Frec. abs. acum.
Frec. rel. acum.
xi
ni
fi
Ni
Fi
17
1
1/11
1
1/11
18
2
2/11
3
3/11
19
4
4/11
7
7/11
20
3
3/11
10
10/11
22
1
1/11
11
11/11
Totales: 11
1
11
1
Si en lugar de haber 120 alumnos sólo hubiera 11, y hubieran sido cogidos como muestra, ésta serÃ−a
bastante mala, pues algo debe pasar para que estén tan sólo 11 personas y precisamente esas 11
personas.
En el ejemplo anterior, la variable es cuantitativa discreta. Si la variable es contÃ−nua, o incluso si el
número de datos es muy grande, suelen emplearse los intervalos de clase. La marca de clase es el punto
medio del intervalo, y la vamos a tratar como si realmente agrupase a todos los valores del intervalo. Será
llamada xi.
EJEMPLO: (Intervalos de clase)
Interesados en conocer las alturas del grupo anterior, nos dan los siguientes datos (en centÃ−metros):
170, 163, 174, 158, 179, 165, 161, 160, 158 y 162.
Nuevamente construimos la tabla de frecuencias. Definiremos intervalos de diez en diez centÃ−metros de
altura:
2
Intervalo
(150, 160]
(160, 170]
(170, 180]
xi
155
165
175
ni
3
6
2
fi
3/11
6/11
2/11
Ni
3
9
11
Fi
3/11
9/11
9/11
REGLAS PARA ELEGIR LOS INTERVALOS DE CLASE
Como regla general, tomaremos como número de intervalos de clase el entero entre 5 y 20 más próximo a
.
• En general, se tomarán todos los intervalos de la misma longitud, salvo que haya razones que sugieran lo
contrario, como el hecho de que existan unos pocos datos dispersos en toda la distribución, y muchos
concentrados en un solo intervalo)
• Cuando se sepa el número de intervalos, se seleccionarán de forma que cubran toda la observación,
evitando en la medida de lo posible que haya datos en la frontera de los intervalos. Para esto se pueden
dejar holguras antes del primer dato y después del último o aumentar en un decimal la precisión
REPRESENTACIONES GRÔFICAS
Diagrama de barras.- Sirve tanto para observaciones que provengan de variables cualitativas como para
observaciones provenientes de variables discretas. En un sistema de coordenadas se sitúan los datos en el eje
de abscisas, y sobre ellos se levantan barras indicando su frecuencia (fig 1.1).
• PolÃ−gono de frecuencias acumuladas.- Se representan los puntos (xi, ni) ó bien (xi, Fi) y se unen
mediante segmentos (fig 1.2)
• Histograma.- En el eje de abscisas se representan los intervalos de clase, y sobre ellos se levantan
rectángulos de un área proporcional a su frecuencia (fig 1.3). El histograma es muy sensible a decisiones
que tomamos nosotros, y le afectan cosas como la elección de los intervalos de clase, la escala....
Fig 1.1.- Diagrama de barras
Fig 1.2.- PólÃ−gono de frecuencias acumuladas
Fig 1.3.- Histograma de frecuencias.
TEMA 2
MEDIDAS DE POSICIÃ N
Sea X una variable estadÃ−stica; entonces del conjunto {x1, x2, ... , xn} se pueden sacar las medidas de
tendencia central, promedios ó medidas de posición.
Medidas de posición central.- Son valores entorno a los cuales se agrupa la distribución, y por tanto, de
alguna manera la representan.
I.- Media aritmética.- Sea X una variable estadÃ−stica que toma los valores distintos x1, x2, ... , xn, con
frecuencias absolutas n1, n2, ... , nn
Propiedades de la media aritmética:
, esto es tanto como decir que la media es el centro de gravedad de las observaciones.
3
es mÃ−nima cuando .
y = a + b·x à . La media es un operador lineal.
En general no se cumple que y = x2 Ã
El principal inconveniente de la media aritmética es su falta de robustez, puesto que es una medida muy
sensible a la presencia de datos atÃ−picos.
II.- Media aritmética ponderada
donde w es el peso de la medida tomada.
Propiedades de la m. a. ponderada:
wi ³ 0, para todo i.
EJEMPLO (Media aritmética y M.a. ponderada):
Una persona hace tres exámenes: el primero dura una hora y saca un 7, el segundo dura dos horas y
saca un 6, y el tercero dura 30 minutos y saca un 4. Hállese la nota media.
Si se utiliza la media aritmética simple,
Si se utiliza la m. a. ponderada se tiene que
III.- Media geométrica
Es menos intuitiva que la media aritmética. Puede observarse en la expresión anterior que se anula si
alguna observación es cero. Además también es posible observar la posibilidad de que no pueda ser
calculada si hay valores negativas.
La media geométrica suele utilizarse para el cálculo de promedios de porcentajes, razones, tasas y
números Ã−ndices, entre otras aplicaciones.
IV.- Media armónica.- Es la inversa de la media aritmética de las inversas de las inversas de las
observaciones. No puede calcularse si alguna observación es cero, y suele emplearse para calcular medias de
velocidades, tiempos, porcentajes...
EJEMPLO (Media armónica):
Un coche recorre un trayecto con una velocidad media de 60 km./h a la ida, y de 70 km./h a la vuelta. Se
pide la velocidad media de todo el trayecto.
Aplicando la FÃ−sica que sabemos tenemos que a partir de la fórmula de la velocidad media se deduce que:
km./h
ida y vuelta es 2·s
Siempre se verifica que la media armónica es menor o igual a la media geométrica, que a su vez es menor
o igual a la media aritmética. ()
4
V.- Mediana.- Es el valor de la variable que deja a su izquierda el mismo número de valores que a su
derecha si estos están ordenados de menor a mayor. Si hay un número impar de datos, la mediana es el
valor central, y si hay un número par de datos la mediana es la media aritmética de los valores centrales.
Si la variable está agrupada en clases, se calcula la clase mediana y dentro de ella la mediana por
interpolación lineal.
EJEMPLO (Mediana):
x= -1, 0.5, 1, 4, 7 ® La mediana es 1
Si se repiten
x= 1, 1, 2, 2, 3, 3, 3, 4, 4 ® La mediana es 3
Si hay un número par de observaciones:
x=1, 1, 2, 2, 3, 3, 4, 4 ® La mediana es la media aritmética de los dos elementos centrales: 2.5
Se dice que la mediana es robusta ante valores extremos (se ve poco influenciada por valores extremos de la
variable). Un ejemplo de esto es que para calcular el salario medio de un paÃ−s no se calcula la media
aritmética de todos los salarios del paÃ−s, sino la mediana de todos ellos. Esto se hace para que unos
cuantos grandes salarios no falseen la muestra elevando la media aritmética.
Para hallar la mediana a partir de una tabla de frecuencias se harÃ−a lo siguiente:
xi
ni
Ni
1
3
3
2
7
10
3
4
14
4
3
17
Primero se hallarÃ−a la columna Ni que es la columna de las frecuencias acumuladas (n1+ n2+...+nn ) y se
calcula , y se coge el valor de la columna Ni inmediatamente superior a este resultado, en este caso 10. La
mediana es el valor que está en esa fila pero en la columna xi. Este valor es 2.
Si se diera el caso de que , entonces
VI.- Moda.- Es el valor que más se repite dentro del conjunto de las observaciones: Si la variable es
continua se habla de intervalo modal, que es el intervalo de clase de mayor altura al representar el histograma.
Si los intervalos tienen distintas longitudes, el intervalo de mayor altura no tiene por que coincidir con el de
mayor frecuencia. Dentro del intervalo modal se considera la marca de clase como representante. La moda
puede calcularse siempre pero no tiene por que ser única.
EJEMPLO (Moda):
X= 1, 1, 2, 3, 3, 3, 4, 5 ® La moda es 3
Si hay dos valores que son moda, entonces será un conjunto bimodal, si hay tres, trimodal, etc.
VII.- Cuantiles.- Los cuantiles son aquellos valores que dividen la distribución en intervalos, de forma que
cada uno de ellos tenga la misma frecuencia. Un cuantil de orden p ( ) es un valor tal que el p% de las
observaciones están a su derecha en el intervalo o en su misma posición. Se denotan por Qp. El cuantil de
5
orden 50 es la mediana. Para hallar un cuantil a partir de una tabla de frecuencias se procede igual que en el
caso de la mediana, sólo que en vez de haremos para hallar el p%.
Cuartiles.- Son los cuantiles Q25, Q50, Q75, y se denominan asÃ− porque dividen al conjunto de las
observaciones en cuatro partes iguales.
Quintiles.- Dividen la distribución en cinco partes iguales.
Deciles.- La dividen en diez partes iguales.
Percentiles.- La dividen en cien partes iguales.
MOMENTOS
Son medidas que caracterizan a una distribución. Como operadores son muy útiles, porque permiten el
cálculo simplificado de las medidas.
Para variables unidimensionales, el momento de orden r respecto a un valor c se calcularÃ−a de la siguiente
manera:
Para hallar el momento respecto del origen, se calcula el momento con c = 0. El momento respecto del
origen con r = 1 es la media.
Si , se denominan momentos centrales, cuya expresión es:
En este caso, si r = 1, m1 = 0; si r = 2, m2 = s2; si r = 3, m3 = g1.
Existe una relación entre momentos muy útil:
donde M2 es la media del cuadrado.
TEMA 3
MEDIDAS DE DISPERSIÃ N Y FORMA
Las medidas de dispersión y forma se utilizan para medir la variabilidad, esparcimiento ó concentración
de los valores muestrales en torno a un valor central, pudiéndose interpretar como medidas de la
representatividad de dicho valor. En unos casos la media aritmética es más representativa que en otros.
Cuanto mayor sea la dispersión de los datos menos representativa será la media aritmética.
MEDIDAS DE DISPERSIÃ N
Las medidas de dispersión cuantifican la representatividad de las medidas de posición. Se utilizan para
medir la variabilidad o esparcimiento de los valores de la distribución en torno a un valor central. Se pueden
clasificar en absolutas o relativas, según dependan o no de la dimensión de la variable. Las relativas tienen
la importante ventaja de permitir comparaciones con otras variables.
Recorrido o rango.- Es la diferencia entre los valores extremos (R= máx (x) - min. (x))
Recorrido intercuartÃ−lico.- Es la diferencia entre el tercer y el primer cuartil. Contiene el 50% de los
valores centrales (RI = Q75 - Q25)
6
Desviación media ó Desviación respecto de la media.- Si la desviación media es grande, la
representatividad de la muestra es pequeña, y viceversa.
No se suele usar porque es muy poco tratable analÃ−ticamente.
Desviación respecto de un parámetro p.p puede ser la mediana, la moda o cualquier valor que se nos ocurra, aunque generalmente se usa únicamente
la desviación respecto de la media.
Varianza.- Es la más importante de todas las medidas de variación, y habitualmente es denotada por s2,
S2n ó Var[x].- Si tenemos datos alejados (entre sÃ− y con respecto a ), entonces la varianza será grande, y
si tenemos datos cercanos (entre sÃ− y con respecto a ), entonces la varianza será pequeña.
Propiedades de la varianza:
Var( a + X ) = Var ( X ), para todo a â
R, y para toda X variable estadÃ−stica.
Var( b · X ) = b2·Var( X ), para todo b â
R.
De estas dos propiedades se deduce que Var (a + b·X) = b2·Var( X ). Para la media nos queda que E(a +
b·X) = a + b·E( X ).
El principal inconveniente de la varianza es que no se expresa en las unidades originales utilizadas, sino en
éstas al cuadrado. Para resolver este problema, utilizamos su raÃ−z cuadrada.
EJEMPLO (Varianza):
Tenemos los conjuntos e . Hallar sus varianzas, sabiendo que en ambos casos la media aritmética es
igual a 500.
Para el conjunto X,, y para el conjunto Y, , de donde se extrae que sx=408'2 y sy= 1, resultando que el
conjunto X es más disperso que el conjunto Y.
Desviación tÃ−pica.- Se representa por s ó Sn.
La información conjunta que proporcionan la media y la desviación tÃ−pica puede expresarse mediante la
desigualdad de Tchebyshev, que dice que entre la media y k veces la desviación tÃ−pica se encuentra,
como mÃ−nimo el de las observaciones.
Cuasivarianza.- Un problema de la varianza es que no es insesgado, y es por eso que para substituirla se
utiliza la cuasivarianza muestral, que se calcula a partir de la expresión
Cuasidesviación tÃ−pica.- Por la misma razón que es necesaria la cuasivarianza es necesario calcular la
cuasidesviación tÃ−pica.
Propiedad de la Cuasivarianza y de la Cuasidesviación tÃ−pica:
N·S2n = (N-1)·S2
Medidas de dispersión relativa.- La varianza ó la desviación respecto de la media son medidas de
dispersión absolutas (usan las mismas unidades que la variable). Por el contrario las medidas de dispersión
7
relativa no tienen unidades y pueden ser comparadas con otras variables. La más conocida es el Coeficiente
de Variación de Pearson:
Cuanto mayor es el CV, mayor es la dispersión.
MEDIDAS DE FORMA
Las medidas de forma “miden” la forma de la distribución (nos hablan de la forma de su gráfica:
aplastamiento, simetrÃ−as, etc.).
SimetrÃ−a.- Una variable X es simétrica respecto de un valor p cuando los valores equidistantes de p
tienen la misma frecuencia. Habitualmente se toma p=, aunque podrÃ−a tomarse respecto a la moda o a
cualquier otro parámetro.
AsimetrÃ−a.- Una distribución será asimétrica cuando no sea simétrica. Una distribución será
asimétrica a la derecha (ó positiva) cuando la distribución es más larga a la derecha deque a su
izquierda, y será asimétrica a la izquierda (ó negativa) cuando la distribución es más larga a la
izquierda de que a su derecha.
Coeficiente de asimetrÃ−a de Pearson.- Se calcula según la siguiente expresión:
Un grave inconveniente es que sólo se puede calcular si la distribución posee una moda.
Coeficiente de asimetrÃ−a de Fisher.donde m3 es el momento de orden 3. Si CAF < 0 la distribución es asimétrica a la izquierda,
verificándose usualmente que
Si CAF = 0 la distribución es simétrica, verificándose usualmente que
Si CAF > 0 la distribución es asimétrica a la derecha, verificándose usualmente que
Curtosis ó aplastamiento.- Mide el grado de apuntamiento de una distribución respecto de la distribución
normal, que se toma como patrón y que tiene una CK = 0.
Cuando el valor CK >0, la gráfica tiene una forma como esta:
Si por el contrario, CK < 0, entonces la gráfica será:
Ambas gráficas coincidirán únicamente en el caso de que CK = 0:
Tipificación.- Dada una variable estadÃ−stica X se dice que está tipificada, estandarizada o reducida si su
media es cero y su desviación tÃ−pica uno. Para tipificar una variable hay que restar a la variable original su
media y dividirla entre su desviación tÃ−pica.
Una variable tipificada se ajusta a una normal N(0, 1).
Covarianza.- Si r = s = 1
La covarianza mide la relación lineal entre X e Y. Es siempre positiva y tanto mayor cuanto mayor sea la
relación entre las variables.
8
Si la relación entre X e Y es inversa, entonces e tienen signos opuestos. En este caso, cuanto mayor sea la
relación entre las variables tanto menor será la covarianza, que además será siempre negativa.
Propiedad.- Se verifica que:
Regresión.- TeorÃ−a que trata de expresar mediante una expresión matemática la relación que existe
entre las variables. Dado un conjunto de puntos, el dibujo de su nube nos puede indicar si existe algún tipo
de relación entre las variables.
La idea de mejor recta, ó curva que mejor se ajusta es aquella curva más próxima a la nube de puntos,
aquella que posee la menor distancia a los puntos de la nube.
En las nubes de puntos a veces puede verse con mucha claridad el tipo de relación que se da entre las
variables X e Y. Concretamente aquÃ− puede verse un ejemplo de Relación de tipo parabólica, otro
de una Relación de tipo lineal, y por último una nube de puntos en la que no se aprecia relación
alguna y en la cual los puntos parecen distribuidos al azar.
Método de los mÃ−nimos cuadrados.- Se utiliza para minimizar las distancias:
donde y
Del método de los mÃ−nimos cuadrados se obtiene la recta de regresión de X sobre Y:
También se hallará el coeficiente de correlación lineal:
donde siempre se verificará que siempre. Si , existe correlación lineal positiva entre las variables tanto
mayor cuanto más se aproxime r a 1, y tanto menor cuanto más se aproxime r a cero. Si , existirá una
correlación lineal negativa entre las variables tanto mayor cuanto más se aproxime r a -1, y tanto menor
cuanto más se aproxime r a 0.
Si r = 0, se dice que existe una correlación nula ó incorrelación.
Coeficiente de determinación.- Nombre que recibe r2. R2·100 nos da el porcentaje de correlación lineal
existente entre las variables.
TEMA 4
DISTRIBUCIONES BIDIMENSIONALES
Para cada individuo de la población se analizarán dos caracterÃ−sticas de interés. Se tendrán n
observaciones del tipo (xi, yi).
TEMA 3
FUNDAMENTOS DE LA TEORÃ A DE LA PROBABILIDAD
Un experimento se dice que es aleatorio si cumple las siguientes condiciones:
Todos los posibles resultados se conocen con antelación
Ante una realización concreta del experimento, es imposible predecir el resultado
9
Todas las realizaciones de un experimento se realizan bajo las mismas condiciones.
El conjunto de posibles resultados de un experimento se denomina espacio muestral, y se denota con la letra
Ω.
Sucesos elementales.- Son los elementos de Ω.
Sucesos.- Un suceso ocurre cuando se verifica uno de los sucesos de Ω.
Suceso imposible.- Subconjunto de Ω que no contiene elementos. Se denota por â
.
Un suceso A está contenido en un suceso B cuando todo suceso elemental de A pertenece a B, o lo que es lo
mismo, siempre que ocurre A ocurre B. El recÃ−proco no se verifica.
Para algunas de las siguientes definiciones se utilizará el Ôlgebra de Boole y su notación.
Unión de sucesos.- A1 + A2 + A3 + ... + Ai. Se verifica cuando ocurre alguno de los Ai.
Intersección de sucesos.- A1·A2·A3·...·Ai. Se verifica cuando ocurren todos los Ai.
Suceso complementario.- ocurre siempre que no ocurre A.
Sucesos incompatibles.- Aquellos cuya intersección da como resultado â
.
Diferencia de sucesos.- Se verifica cuando ocurre A y no ocurre B. Se denota por A - B y también por .
La unión y la intersección de sucesos cumplen las propiedades conmutativa, asociativa, distributiva,
existencia de elemento neutro (â para la unión y Ω para la intersección), y también cumple las
Leyes de Morgan.
Dado un conjunto Ω, se define partes de Ω , P(Ω), al conjunto definido por todos los subconjuntos de Ω.
Consideremos un experimento aleatorio, con Ω su espacio muestral asociado y A un suceso. RepÃ−tase el
experimento n veces. Se define la frecuencia absoluta del suceso A como el número de veces que se repite A
(na) en las n repeticiones:
Se verifica:
, Ω ocurre siempre.
, no ocurre nunca.
Si A y B son sucesos incompatibles, A â © B = , y f (A â ª B) = f (A) + f (B).
PROBABILIDAD
Consideremos un experimento aleatorio, y Ω su espacio muestral. Una probabilidad sobre Ω es una
aplicación:
P : P(Ω) R , verificando:
A P(A) â
R
10
PROPIEDADES:
P(A) â ¥ 0, â “ A
P(Ω) = 1
Si A, B â
P(Ω) incompatibles, P(A ⠪ B) = P(A) + P(B).
• Consecuencias de la definición:
• P(â ) = 0
• a. Si A â B P(A) P(B)
• b. Siempre se cumple que , â “ A
• Regla de la adición
P(A â ª B) = P(A) + P(B) - P(A â © B).- No tienen por que ser incompatibles
Regla de la adición generalizada:
P(A â ª B) = P(A) + P(B) - P(A â © B
EstadÃ−stica 1º E.T.I.S. Facultade de Informática da Coruña Curso 1.997-1.998
11
11
Documentos relacionados
Descargar