Fundamentos de Estadística descriptiva

Anuncio
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
Fundamentos de Estadı́stica descriptiva
CONCEPTOS GENERALES
Llamaremos población estadı́stica al conjunto de referencia sobre el cual van a recaer las observaciones. Se llama individuo a cada uno de los elementos que componen la población y muestra
a un subconjunto de individuos de la población. Se suelen tomar muestras cuando es difı́cil o
costosa la observación de todos los elementos de la población. Decimos que realizamos un censo
cuando se observa a la población completa.
Toda población viene definida por un conjunto delimitado y bien definido de caracteres, es
decir una cualidad o propiedad inherente en el individuo. A los posibles aspectos de un carácter
se les denominan modalidades, que deben ser exhaustivas e incompatibles. Los caracteres pueden
ser clasificados en caracteres cualitativos, en las se recogen modalidades que no son números (color
del pelo, por ejemplo) y caracteres cuantitativos, en las que todas las modalidades son números
(por ejemplo, el peso o la estatura).
Una variable estadı́stica es un conjunto de números que representan a un carácter (o más)
cuantitativo. Éstas pueden ser discretas o continuas, según que las modalidades sean números
naturales o intervalos de IR, respectivamente.
Se considera una población formada por N individuos, descrita por un carácter que posee k
modalidades x1 , x2 , . . . , xk , pero donde cada uno de ellos puede aparecer repetido más de una vez.
Se denomina frecuencia absoluta, ni , asociada a la modalidad xi al número de elementos de la
población que poseen dicha modalidad. De esta forma, la suma de todas las frecuencias absolutas
P
debe ser el número de elementos de la población, es decir ki=1 ni = N.
La frecuencia relativa, fi , asociada a una modalidad xi es la proporción de individuos de la
población que presenta la modalidad xi , por tanto es el cociente entre la frecuencia absoluta de
P
xi y el número de elementos de la población: fi = nNi . Se satisface entonces que ki=1 fi = 1.
La frecuencia acumulada absoluta, Ni (respect. relativa, Fi ) asociada a la modalidad xi es
la suma de las frecuencias absolutas (respect. relativas) de las modalidades x1 , x2 , . . . , xi−1 , xi .
Con estas definiciones, se tiene que la frecuencia acumulada absoluta de la última modalidad xk
coincide con el número de elementos de la población y la frecuencia acumulada relativa coincide
con 1. Con estos datos se construye una llamada tabla estadı́stica de frecuencias en la que se
recogen las modalidades de un carácter y sus respectivas frecuencias:
modalidad frec. abs. frec. rel. frec. abs. acum. frec. acum. rel.
xi
ni
fi
Ni
Fi
x1
n1
f1 = nN1
N1 = n 1
F1 = f1
x2
n2
f2 = nN2
N2 = n 1 + n 2
F2 = f1 + f2
..
..
..
..
..
.
.
.
.
.
xk
nk
fk = nNk
Nk = N
Fk = 1
En relación a las observaciones realizadas en una muestra o población se nos pueden presentar
los siguientes casos:
1. Que se hayan hecho pocas observaciones y, por tanto, la variable estadı́stica tome pocos
valores.
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
1
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
2. Que se hayan hecho muchas observaciones y, sin embargo, la variable estadı́stica tome muy
pocos valores distintos, incidiendo de una manera considerable el estudio de las repeticiones
de cada valor.
3. Que se hayan hechos muchas observaciones y la variable estadı́stica tome muchos valores
distintos.
Los dos primeros casos caerán dentro del estudio de una variable estadı́stica discreta, mientras
que en el caso tercero, trataremos de agrupar los valores de la variable estadı́stica en intervalos
adecuadamente elegidos para no perder mucha información, lo cual va a suponer una simplificación
en nuestro trabajo.
A la diferencia entre el extremo superior y el extremo inferior de cada intervalo la llamaremos amplitud del intervalo. Por comodidad, los intervalos de amplitud constante son los más
aconsejables, salvo que las condiciones especı́ficas del problema no lo aconsejen. Los intervalos de
clase suelen ser semiabiertos y se tomarán tantos intervalos solapados como sean necesarios para
recubrir todo el recorrido de la variable.
Definimos la marca de clase como el punto medio de cada intervalo. Es, en definitiva, el valor
que nos representa la información que contiene un intervalo.
Tabla de frecuencias de una variable agrupada en intervalos
intervalos marcas de clase ni
(a0 , a1 ]
x1
n1
(a1 , a2 ]
x2
n2
..
..
..
.
.
.
(ak−1 , ak ]
xk
nk
fi Ni
f1 N1
f2 N2
..
..
.
.
fk Nk
Fi
F1
F2
..
.
Fk
REPRESENTACIONES GRÁFICAS
Para representar por medio de un gráfico los datos observados en una población, deben tenerse
en cuenta los siguientes puntos:
• Las gráficas deben explicarse por sı́ mismas.Los tı́tulos de pie deben dar información sobre los
sujetos a estudio y la materia objeto de experimentación, qué observaciones se han efectuado
y las restricciones que se han impuesto.
• Se deberán indicar las unidades de escala de los ejes.
• Deberán dar una visión general del conjunto de datos.
• No deberán abarcar mucha información en un mismo gráfico.
Entre los tipos de gráficas que representan variables cualitativas están los diagramas de sectores
y los diagramas de rectángulos.
Para las variables cuantitativas, debido a a que las modalidades son números, las representaciones se realizan sobre los ejes de coordenadas, aunque puede resultar necesario que se tomen
distintas escalas. Los más representativos son los diagramas de barras, para variables discretas,
que consisten en trazar para cada valor del carácter, barras verticales de longitud la frecuencia
absoluta o relativa asociada a cada valor.
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
2
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
Para variables continuas, el más utilizado es el histograma que es similar al diagrama de
barras,pero como las modalidades son intervalos, se representan rectángulos cuyas áreas son proporcionales (o igual) a la frecuencia absoluta o relativa de cada clase. Cuando la amplitud de
clase es la misma para cada intervalo, es frecuente tomar rectángulos cuya altura coincide con la
frecuencia absoluta o relativa. Uniendo los puntos medios del lado superior de cada rectángulo,
se obtienen los llamados polı́gonos de frecuencia.
MEDIDAS DE POSICIÓN
A veces es conveniente reducir la información obtenida a un solo valor o a un número pequeño
de valores para facilitar la comparación entre las distintas muestras o poblaciones. Estos valores,
que de alguna forma centralizan la información reciben el nombre de medidas de posición, de
tendencia central o de posición central.
Media: Sea X una variable estadı́stica que toma valores distintos {x1 , x2 , . . . , xk } con frecuenP
cias absolutas {n1 , n2 , . . . , nk } siendo ni=1 ni = N. Se define la media como la suma ponderada
de los valores de la variable por sus frecuencias relativas:
k
X
X=
k
X
i=1
xi fi =
xi ni
i=1
N
Para calcular la media de una variable continua, se realiza la suma ponderada de las marcas
de clase por la frecuencia relativa asociada a cada clase.
Mediana: es el valor de la variable que deja a su derecha y a su izquierda el cincuenta por
ciento de la población. Se denota por Me (X). Si, debido al tamaño de la población, N , se tienen
las observaciones sin agrupar en una tabla de frecuencias, la mediana será:
• para N impar, la modalidad que se encuentra en la mitad del conjunto de datos ordenados
• si N es par, el punto medio de los dos valores centrales.
Cuando los datos están organizados en una tabla de frecuencias, se divide el número de observaciones N entre 2 y si N/2 no se encuentra en la tabla de frecuencias absolutas acumuladas,
estará comprendido entre dos números de la citada tabla, con lo cual la mediana será aquel valor
de la variable que corresponde al mayor; si el valor N/2 está en la columnas de las Ni es que
coincide con la frecuencia absoluta acumulada para algún valor xj , en este caso, se toma el punto
xj + xj+1
medio del intervalo, es decir Me =
.
2
Para variables estadı́sticas continuas, se divide el número de observaciones N entre 2 y si N/2
no se encuentra en la tabla de frecuencias absolutas acumuladas estará comprendido entre dos
valores Nj y Nj+1 de la citada tabla, que corresponderán a las frecuencias absolutas acumuladas
de dos intervalos [aj−1 , aj ) y [aj , aj+1 ) respectivamente, con lo cual la mediana se va a encontrar
en el intervalo [aj , aj+1 ), al que se denomina intervalo mediano. Es frecuente tomar como mediana
la marca de clase del intervalo mediano.
Si el valor N/2 está en la columnas de las Ni es que coincide con la frecuencia absoluta
acumulada de un cierto intervalo de clase [aj , aj+1 ) y, por tanto, la mediana será el extremo
superior del mismo.
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
3
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
Moda: es el valor de la variable que tiene máxima frecuencia. La moda no tiene por qué
ser única. Cuando la variable es continua, hablaremos de intervalo modal. Se denota por Md o
Mod(X).
Cuartiles: se definen los cuartiles como tres valores de la variable que dividen las observaciones en cuatro partes iguales. El primer cuartil es el valor que deja la cuarta parte de las
observaciones menores o iguales a él y las tres cuartas partes superiores a él. Para su cálculo se
hace el mismo razonamiento que en el cálculo de la mediana, pero considerando N/4. El segundo
cuartil es la mediana y el tercer cuartil es el valor que deja las tres cuartas partes de las observaciones menores o iguales a él y la cuarta parte superior a él. Para su cálculo se hace el mismo
razonamiento que en el cálculo de la mediana, pero considerando 3N/4.
Deciles: se define el decil K-ésimo como el valor de la variable que deja inferiores o iguales a
él las K/10 partes de las observaciones. Los denotamos por Dk .
Centiles o percentiles: se define el percentil K-ésimo como el valor de la variable que deja
inferiores o iguales a él las K/100 partes de las observaciones. Los denotamos por Pk .
MEDIDAS DE DISPERSIÓN
La media aritmética se emplea como valor representativo de la población, sin embargo, según
la dispersión de los datos, la representa mejor o peor. Si las modalidades de la variable están todas
próximas a la media (y, por tanto, próximas entre sı́) ésta nos dará una idea bastante aproximada
de los valores que toma la variable, mientras que si los datos están muy dispersos (o con que haya
uno solo que se aleje de todos los demás), la media no será un buen representante del colectivo de
modalidades.
El problema que se plantea es encontrar una medida de la dispersión de los datos respecto de la
media. Sea X una variable estadı́stica que toma valores distintos {x1 , x2 , . . . , xk } con frecuencias
absolutas {n1 , n2 , . . . , nk }. Se puede pensar en definir la dispersión de cada modalidad respecto
de la media y sumar:
k
X
(xi − X)ni = (x1 − X)n1 + (x2 − X)n2 + · · · + (xk − X)nk = nX − nX = 0
i=1
Ésto ocurre porque las desviaciones por exceso y por defecto respecto de la media se van compensando unas con otras al sumar. Para evitar ésto, se pueden elevar al cuadrado las desviaciones
(de esta forma se consigue que todas sean positivas) y se promedia con el tamaño de la población.
Varianza:
Pk
Pk
2
2
2
i=1 (xi − X) ni
i=1 xi ni
2
σX =
=
−X
N
N
Desviación tı́pica: es la raı́z cuadrada positiva de la varianza de la variable. Se designa por
σX .
Coeficiente de variación: es el cociente entre la desviación tı́pica y la media.
CV (X) =
σX
X
La media, como promedio de un conjunto de datos, tiene la misma unidad de medida que
éstos. La varianza estará expresada en las unidades de los datos al cuadrado, mientras que
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
4
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
las desviación tı́pica tiene las mismas unidades que los datos y la media. Cuando se trata de
comparar la dispersión de variables expresadas en distintas medidas se puede utilizar el coeficiente
de variación, que se suele expresar en %, ya que no tiene unidades.
Para la comparación de las modalidades de dos variables distintas se utiliza la variable tipificada que mide la desviación de la variable respecto de la media en términos de la desviación tı́pica.
Dada una variable estadı́stica X que toma valores {x1 , x2 , . . . , xk } com media X y desviación tı́pica
σ, se define la variable tipificada
X −X
Z=
σX
Rango intercuartı́lico: es la diferencia entre el cuartil de tercer orden y el de primer orden:
R = Q3 − Q1
Momentos centrales (respecto de la media): Se define el momento central de orden r
por
µr =
k
X
(xi − X)r fi
i=1
Obsérvese que µ0 = 1, µ1 = 0 y µ2 coincide con la varianza.
Momentos no centrales (respecto al origen): Se define el momento no central de orden
r por
mr =
k
X
xri fi
i=1
2
2
Obsérvese que m0 = 1, m1 = X y que m2 = σX
+X .
MEDIDAS DE ASIMETRÍA Y APUNTAMIENTO
Diremos que una distribución de frecuencias es simétrica cuando valores de la variable equidistantes de un valor máximo central tienen las mismas frecuencias. Es importante destacar en este
caso X = Me = Md . Se denominan distribuciones asimétricas a aquellas distribuciones que no
son simétricas. La asimetrı́a puede presentarse a la derecha o a la izquierda.
Coeficiente de asimetrı́a de Pearson
AP =
X − Md
σX
Si AP > 0, la distribución es asimétrica a la derecha y si AP < 0 es asimétrica a la izquierda.
Coeficiente de asimetrı́a de Fisher
AF = γ1 =
µ3
3
σX
Si AF > 0, la distribución es asimétrica a la derecha y si AF < 0 es asimétrica a la izquierda.
Si AP = 0 = AF , la distribución es simétrica.
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
5
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
Coeficiente de apuntamiento o curtosis:
γ2 =
µ4
4
σX
Este coeficiente indica cuál es el apuntamiento de forma de la distribución, comparándola con
la campana de Gauss (distribución normal). Si γ2 > 3, tiene más apuntamiento que la normal
(leptocúrtica). Si γ2 = 3, tiene igual apuntamiento que la normal (mesocúrtica). Si γ2 < 3, tiene
menos apuntamiento que la normal (platicúrtica).
VARIABLES ESTADÍSTICAS BIDIMENSIONALES
En esta sección se considerarán aquellas situaciones en las que se realiza la observación simultánea de dos caracteres en el individuo, obteniéndose, por tanto, pares de resultados. Por ejemplo, observar en una persona su peso y su edad. Los dos caracteres observados no tienen por qué
ser de la misma clase. Ası́, se pueden presentar dos caracteres cualitativos, dos cuantitativos o uno
cualitativo y otro cuantitativo. En el caso de dos caracteres cuantitativos las variables que representan sus valores pueden ser ambas discretas, ambas continuas o una discreta y otra continua.
Se considera una población con N individuos descrita por dos caracteres:
• X con modalidades {x1 , x2 , . . . , xk }
• Y con modalidades {y1 , y2 , . . . , yp }
En estos casos, las modalidades son pares (xi , yj ) para i ∈ {1, 2, . . . , k}, j ∈ {1, 2, . . . , p}.
Se define la frecuencia absoluta asociada al par (xi , yj ), nij , como el número de elementos de la
población que tienen la modalidad xi de X e yj de Y . Las frecuencias relativas se definen como
en el caso de una sola variable fij = nNij .
Las tablas estadı́sticas correspondientes a una variable bidimensional son de la forma
X\Y
x1
x2
..
.
xk
y1 y2
n11 n12
n21 n22
..
..
.
.
nk1 nk2
· · · yp
· · · n1p
· · · n2p
..
..
.
.
· · · nkp
Distribuciones marginales
La distribución marginal de X viene dada por {xi , ni. }ki=1 siendo ni. el número total de individuos que poseen la modalidad xi de X, independientemente de la modalidad de Y que posean,
a la que se denomina frecuencia marginal absoluta asociada a la modalidad xi de X.Es decir,
ni. =
p
X
nij
j=1
ni.
Se define la frecuencia relativa marginal como el cociente fi. =
N
Análogamente, se define la distribución marginal de Y con las frecuencias marginales absolutas
n.j y la relativas f.j .
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
6
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
Para las distribuciones marginales se puede determinar (como ya se vió en el epı́grafe anterior
de variables estadı́sticas unidimensionales) cualquier medida de centralización y dispersión. Por
ejemplo, se definen las medias marginales como
X=
Y =
k,p
X
k
X
xi fij =
i,j=1
i=1
k,p
X
p
X
yj fij =
i,j=1
xi fi.
yj f.j
j=1
y las varianzas marginales por
2
σX
=
k,p
X
(xi − X)2 fij =
i,j=1
σY2 =
k,p
X
k
X
(xi − X)2 fi.
i=1
(yj − Y )2 fij =
i,j=1
p
X
(yj − Y )2 f.j
j=1
Distribuciones condicionadas
La distribución de X cuando Y = yj , que se denota por X|Y = yj , viene dada por {xi , nji }ki=1
siendo nji el número de individuos que poseen la modalidad xi de X e yj de Y , es decir, la misma
nij . Se construyen tablas de la forma
X nji
x1 n1j
x2 n2j
..
..
.
.
xk nkj
La frecuencia relativa de xi condicionada a que Y = yj es la proporción de individuos que
presentan la modalidad xi , entre los que presentan la modalidad yj de Y , NO sobre el total de la
población (ésta serı́a la frecuencia relativa marginal de xi ). Por tanto,
fij =
nij
n.j
Obsérvese que si nos fijamos en la tabla de frecuencias correspondiente a la variable unidimensional de X|Y = yj , para calcular las frecuencias relativas en dicha tabla, se hace lo habitual: dividir cada frecuencia absoluta entre la suma de todas ellas, que en este caso serı́a
n1j + n2j + · · · + nkj = n.j
Análogamente, se construyen las tablas correspondientes a las distribuciones de la variable Y
condicionadas a algún valor de X, Y |X = xi .
Como tablas estadı́sticas de variables unidimensionales que son, se les pueden calcular cualquiera
de las medidas ya conocidas. Ası́, se definen las medias condicionadas por
Xj =
k
X
xi fij
i=1
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
7
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
es decir que es la media de la distribución X|Y = yj (luego se pueden definir p medias condicionadas). Análogamente, se definen k medias condicionadas, para cada valor de X:
Yi =
p
X
yj fji
j=1
Se definen las varianzas condicionadas como las varianzas de las variables condicionadas:
2
σX
=
j
k
X
i=1
(xi − Xj )2 fij
σY2i =
p
X
(yj − Yi )2 fji
j=1
ASOCIACIÓN ESTADÍSTICA DE DOS VARIABLES
Una de las aspiraciones de la Ciencia ha sido establecer relaciones entre diferentes variables,
para, por ejemplo poder predecir el valor de una de ellas, conociendo el valor de la otra. A veces
estas relaciones son deterministas (por ejemplo, se puede determinar con exactitud el tiempo que
empleará un móvil en recorrer cierta distancia si se sabe la velocidad que lleva) pero en multitud
de ocasiones las magnitudes no guardan una relación causal a pesar de que guardan una fuerte
conexión. Por ejemplo, el coeficiente de inteligencia, medido con los tests adecuados, se relaciona
fuertemente con el rendimiento escolar en Matemáticas. Una parte importante de la Estadı́stica
es el análisis de la relación que puede establecerse entre distintas variables, según un conjunto de
datos observados. Los distintos grados de asociación pueden ir desde la total independencia hasta
una relación tan estrecha que se pueda considerar determinista.
Independencia estadı́stica
Decimos que una variable X es estadı́sticamente independiente del carácter Y cuando la frecuencia relativa de xi no depende del valor yj , que condiciona. Es lo mismo que decir que fij = fi.
para todo i, j. En este caso, la frecuencia relativa conjunta se puede expresar como el producto
de las marginales.
Se puede definir el concepto análogo de ser Y independiente de X, pero se deduce de forma
inmediata que son conceptos equivalentes.
Dependencia funcional
Se dice que X depende funcionalmente de Y si para cada modalidad yj de Y existe una única
modalidad xi de X. Si se mira la tabla correspondiente a la variable bidimensional, lo que ocurre es
que en cada columna sólo hay un valor no nulo para X. Ésto siempre se da cuando ambas variables
están relacionadas por una expresión matemática y, por tanto, existe una relación determinista
entre ellas.
Covarianza
Parece intuitivo pensar que para cuantificar el tipo de asociación estadı́stica entre dos variables
a partir de los datos observados en una población, será necesario comparar la variación conjunta
de las dos. Ésto supone tener en cuenta los valores que toman cada una de ellas individuo a
individuo de la población estudiada.
Cuando según los datos registrados, se observa que el crecimiento en los valores de una variable
parece favorecer el crecimiento de la otra (por ejemplo, un coeficiente intelectual alto suele llevar
a un rendimiento alto en Matemáticas, aunque no se excluye que una persona de coeficiente
intelectual mayor que otra tenga un rendimiento más bajo en Matemáticas), se habla de asociación
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
8
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
positiva. Mientras que en caso contrario, es decir, si el crecimiento de una variable conduce a una
disminución de la otra (por ejemplo, a mayor número de depredadores en un ecosistema, menor
número de presas) se habla de asociación negativa.
Para cuantificar la variación conjunta de dos variables, lo que podrı́a denominarse covariación,
se mide la desviación respecto de la media que ambas variables presentan en cada individuo de la
población. De esta forma, para variables asociadas positivamente, cuando una variable presente
un valor ”grande” (esto quiere decir un valor alejado de la media), la otra tenderá a tomar un
valor grande, mientras que si la asociación es negativa, ocurrirá al revés. Ası́, una estimación de
la asociación entre variables la proporciona la covarianza:
σXY =
p
k X
X
(xi − X)(yj − Y )fij =
i=1 j=1
p
k X
X
xi yj fij − X Y
i=1 j=1
Obsérvese que si las variables están asociadas positivamente las diferencias (xi − X) e (yj − Y )
tenderán a tener con frecuencia el mismo signo, mientras que si están asociadas de manera negativa,
las diferencias serán con frecuencia de signo contrario, dando lugar a un valor negativo de la
covarianza. Por tanto, el signo de la covarianza puede darnos una idea de la asociación entre
variables.
REGRESIÓN Y CORRELACIÓN
Se considera una población de N individuos en la cual se estudian dos caracteres cuantitativos X e Y . Supongamos que se observa en cada individuo de la población ambas variables,
obteniéndose pares de valores {(xi , yi )}N
i=1 . Si el tamaño de la población fuera elevado y las
modalidades de ambas variables se repitieran, se organizarı́an los datos en una tabla bidimensional de frecuencias, considerando entonces pares {(xi , yj )}k,p
i,j=1 con frecuencias relativas asociadas
k,p
{fij }i,j=1 . En cualquier caso, si se representa en unos ejes cartesianos los valores que toma la
variable, se obtiene lo que se conoce como nube de puntos o diagrama de dispersión.
El problema general de regresión se plantea en el intento de ajustar una función de ecuación
conocida a la nube en cuestión, con el interés de poder obtener una ”estimación” aproximada de
una de las variables a partir de la otra.
Naturalmente que entre todas las funciones que se pueden elegir para ajustarlas a la nube de
puntos hemos de seleccionar la óptima, esto es, la que mejor encaje sobre los puntos que tenemos,
para lo cual recurriremos al método de los mı́nimos cuadrados. La función que pretendemos
obtener será una lı́nea que llamaremos lı́nea de regresión, cuya ecuación puede ser una recta,
una función exponencial, una parábola, una función cúbica o polinómica de cualquier grado, una
hipérbola, etc. La regresión adoptará un nombre distinto, dependiendo de la función elegida para
el ajuste.
Regresión lineal mı́nimo cuadrática
En el supuesto de que sea una recta la función que se quiera ajustar a la nube de puntos,
estaremos ante un problema de regresión lineal y distinguiremos entre
1. Recta de regresión de Y sobre X
2. Recta de regresión de X sobre Y
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
9
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
Si se pretende hacer una estimación de los valores que toma Y , sabiendo el valor que toma
X, entonces, la ecuación de la recta será y = a + bx y lo que se tiene que hacer es estimar los
parámetros a y b, partiendo de los datos observados. Por simplicidad, se considera una variable
bidimensional (X, Y ) que al valor observado xi le corresponde un valor observado yi . Llamaremos
valor teórico yi∗ al que le corresponderı́a en la recta como función, es decir a + bxi = yi∗ . El método
de los mı́nimos cuadrados consiste en tomar las distancias al cuadrado (para que no se puedan
contrarrestar los signos positivos y negativos) entre los valores teóricos y los observados y hacer
mı́nima su suma. Hemos de hacer, por tanto, mı́nima la expresión
F (a, b) =
N
X
(yi − (a + bxi ))2
i=1
Para ello hay que derivar la función F respecto de las variables a y b e igualar a cero. De esta
forma se obtiene el siguiente sistema de dos ecuaciones, cuyas incógnitas son a y b:
N
X
yi
=
aN + b
i=1
N
X
N
X
i=1
i=1
xi yi = a
N
X
xi
i=1
N
X
xi + b
i=1









x2i 

que al resolverse proporciona los valores buscados, que son
a=Y −
σXY
X
2
σX
Se obtiene por tanto,la recta
y−Y =
b=
σXY
2
σX
σXY
(x − X)
2
σX
a la que se denomina recta de regresión de Y sobre X ajustada mediante el método de mı́nimos
cuadrados y se representa por RY |X .
Análogamente, se puede calcular por el mismo método, la recta de regresión de X|Y que
permite hacer una estimación del valor que toma X, sabiendo el valor de Y . Se designa por RX|Y
y es
σXY
x − X = 2 (y − Y )
σY
Ajustes que se reducen al caso lineal
• Supongamos que por la forma de la nube de puntos, se piensa que la lı́nea que mejor encaja
es una función polinómica de la forma y = a + bxn . Nuestro objetivo es, de nuevo, estimar los
parámetros a y b. Para ello, podemos ajustar una recta de regresión de Y sobre X n , es decir,
se calculan los correspondientes coeficientes a y b , utilizando como datos los pares de valores
{(xni , yi )}.
• En determinados experimentos, en su mayorı́a biológicos, la dependencia entre las variables
X e Y es de forma exponencial. En este caso interesa ajustar a la nube de puntos la función
y = K1 AK2 x , donde A nos viene dado (en particular, puede ser el número e), y los parámetros a
estimar serı́an K1 y K2 . Si se toman logaritmos neperianos se obtiene
Lny = LnK1 + K2 xLnA
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
10
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
De esta forma, llamando y 0 = Lny, α = LnK1 y β = K2 LnA se tiene
y 0 = α + βx
con lo que el problema se nos ha convertido en uno de regresión lineal, puesto que la función
y 0 = α+βx es una recta. Procediendo como ya se ha descrito con las parejas de valores {(xi , Lnyi )}
se obtienen α y β. Por último sólo resta deshacer el cambio, de manera que
K1 = e α
y
K2 =
β
.
LnA
• Puede ocurrir que en lugar de fijar la base de la función exponencial, sea necesario buscarla
para que el ajuste sea bueno. Es decir, si se pretende ajustar una función de la forma y =
Kax , donde lo que se pretende encontrar son los valores de K y a apropiados, también podemos
aprovechar el caso lineal. Tomando logaritmos neperianos,
Lny = LnK + xLna
Por tanto, si se calcula la recta de regresión de Y 0 = Lny sobre X, con los pares de valores
{(xi , Lnyi )}, llamémosle y = α + βx, entonces, deshaciendo el cambio anterior, se obtiene
K = eα
y
a = eβ
• Si nos interesa ajustar una función del tipo y = K1 xK2 , introducimos logaritmos neperianos
en ambos miembros
Lny = LnK1 + K2 Lnx ⇔ y 0 = α + βx0
Se ajusta una recta de regresión Y 0 |X 0 con los pares de valores {(Lnxi , Lnyi )} y se deshace después
el cambio, de manera que
K1 = eα y K2 = β.
• Para ajustes hiperbólicos, esto es, la lı́nea de regresión es una hipérbola de ecuación y =
1
1
, se ajusta un recta y 0 = α + βx para los pares de valores {(xi , yi0 = ), de forma que
a + bx
yi
a=α
y
b = β.
Correlación
Una vez resuelto el problema de cómo ajustar una curva a la nube de puntos, se pretende
ahora determinar con qué precisión se describe la relación entre las dos variables y qué tipo de
curva es la más adecuada. Ası́ como la teorı́a de la regresión estudia la posible predicción de los
valores de una variable a partir de otra, la correlación estudia el tipo de dependencia que existe
entre ambas variables.
Se considera una variable bidimensional (X, Y ) que al valor observado xi le corresponde un
valor observado yi . Para cada i, llamaremos valor teórico yi∗ al que le corresponderı́a a xi en la
función que ajustamos, es decir f (xi ) = yi∗ . Recordemos que el método de los mı́nimos cuadrados
se basa en buscar los parámetros necesarios para minimizar el valor de
N
X
(yi − yi∗ )2
i=1
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
11
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
Por tanto, si se ajustan dos curvas de regresión distintas, y = f (x) e y = g(x) a una misma nube
de puntos, la curva que mejor describa la relación entre ambas variables será aquélla para la que
el valor de
N
X
(yi − yi∗ )2 sea más pequeño. Se denomina varianza residual a
i=1
N
X
Vr =
(yi − yi∗ )2
i=1
N
Por tanto, a menor varianza residual, mejor es el ajuste. Obsérvese que la varianza residual es
cero, cuando cada yi = yi∗ , es decir, el ajuste es perfecto, ya que todos los puntos se encuentran
sobre la curva de regresión.
Según acabámos de ver, la varianza residual se emplea para comparar dos curvas de regresión.
Vamos ahora a dar una medida que nos permita conocer la bondad de una recta de regresión.
Para el caso en que el ajuste sea lineal, se define el coeficiente de correlación lineal como
ρ=
σXY
σX σY
La relación entre la varianza residual para rectas de regresión y este coeficiente viene dada por
Vr = σY2 (1 − ρ2 )
por tanto
0 ≤ ρ2 = 1 −
Vr
≤1
σY2
Obsérvese que cuando ρ2 = 1, es decir para valores extremos ρ = ±1, se tiene que la varianza
residual es cero, por tanto el ajuste es perfecto. En tal caso, se dice que X e Y están correladas
de forma exacta.
Cuando ρ2 = 0, la varianza residual toma el mayor valor posible y se dice que las variables X
e Y están incorreladas.
Cuanto más cercano esté ρ a 1 o −1 (ρ2 cercano a 1), mejor es el ajuste lineal.
Para ajustes no lineales, se puede considerar el coeficiente de determinación, definido como
R2 = 1 −
Vr
≤1
σY2
Cuánto más próximo a 1 esté el coeficiente de determinación, mejor es el ajuste, puesto que para
ajustes perfectos (varianza residual cero) el coeficiente de determinación vale 1.
Para ciertos modelos de curvas de regresión, entre las que se incluyen las de tipo polinómico,
se puede demostrar que el coeficiente de determinación es un número comprendido entre 0 y 1.
De hecho, obsérvese que por la propia definición, el coeficiente de determinación para una recta
de regresión coincide con el cuadrado del coeficiente de correlación lineal, es decir,
R 2 = ρ2 .
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada
12
Descargar