Subido por luisrv604

Estadística Aplicada a la Valuación inmobiliaria 1

Anuncio
ESTADÍSTICA APLICADA
A LA VALUACIÓN
INMOBILIARIA
ESTADÍSTICA APLICADA A LA VALUACIÓN INMOBILIARIA
El proceso de valuar un inmueble así como cualquier otro tipo de activo conlleva
la investigación y comparación de elementos de características similares al que se
desea valuar. Estos elementos entregan gran cantidad de información que debe
ser comparada, analizada y depurada con el fin de obtener datos con alto grado
de precisión y credibilidad.
El tomar esta información en bruto y convertirlos en datos útiles, de fácil manejo
y comparación, le permite al valuador identificar el valor más representativos que
debe asignarse al activo valuado. Y esta labor solo es posible con la aplicación de
técnicas numéricas de análisis de datos que están contenidas en la estadística.
¿QUÉ ES LA ESTADÍSTICA?
La estadística es la ciencia de los datos, la cual implica su recolección,
clasificación, síntesis, organización, análisis e interpretación, para la toma de
decisiones frente a la incertidumbre.
Es una ciencia que facilita la toma de decisiones mediante la presentación
ordenada de los datos observados en tablas y gráficos estadísticos, reduciendo
los datos observados a un pequeño número de medidas estadísticas que
permitirán la comparación entre diferentes series de datos y estimando la
probabilidad de éxitos que tiene cada una de las decisiones posibles.
LA POBLACIÓN
La población es el conjunto total de individuos, objetos o medidas que poseen
algunas características comunes observables en un lugar y en un momento
determinado.
Cuando se vaya a llevar a cabo algunas investigación debe tenerse en cuenta
algunas características esenciales al seleccionarse la población bajo estudio
como por ejemplo:
Homogeneidad – que todos los miembros de la población tengan las mismas
características según las variables que se vayan a considerar en el estudio o
investigación.
Tiempo – se refiere al período de tiempo donde se ubicaría la población de
interés. Determinar si el estudio es el momento presente o si se va a estudiar a
una población de cinco años atrás o si se van a entrevistar personas de diferentes
generaciones.
LA POBLACIÓN
Espacio – se refiere al lugar donde se ubica la población de interés. Un estudio no
puede ser muy abarcador y por falta de tiempo y recursos hay que limitarlo a un
área o comunidad en especifico.
Cantidad – se refiere al tamaños de la población. El tamaño de la población es
sumamente importante porque ello determina o afecta al tamaño de la muestra
que se vaya a seleccionar, al igual que la falta de recursos y tiempo también nos
limita la extensión de la población que se vaya a investigar.
LA MUESTRA
La muestra es un subconjunto fielmente representativo de la población.
Hay diferentes tipos de muestreo. El tipo de muestra que se selecciona
dependerá de la calidad y cuán representativo se quiera sea el estudio de la
población.
En los avalúos inmobiliarios la muestra se construye de inmuebles que tengan
características similares al inmueble valuado tanto físicas como de ubicación geo
económicas.
La muestra debe tener ciertas características esenciales que permiten un buen
nivel de estudio como por ejemplo:
ALEATORIA – cuando se selecciona al azar y cada miembro tiene igual
oportunidad de ser incluido.
ESTRATIFICADA – cuando se subdivide en estratos o subgrupos según las
variables o características que se pretenden investigar. Cada estrato debe
corresponder proporcionalmente a la población.
LA MUESTRA
SISTEMÁTICA – cuando se establece un patrón o criterio al seleccionar la muestra.
Ejemplo: se entrevistará una familia por cada diez que se detecten.
El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos
los miembros de una población debido a problemas de tiempo, recursos y esfuerzo.
Al seleccionar una muestra lo que se hace es estudiar una parte o un subconjunto de la
población, pero que la misma sea lo suficientemente representativa de ésta para que
luego pueda generalizarse con seguridad de ellas a la población.
El tamaño de la muestra depende de la precisión con que el investigador desea llevar a
cabo su estudio, pero por regla se debe usar una muestra tan grande como sea posible
de acuerdo a los recursos que haya disponibles. Entre más grande la muestra mayor
posibilidad de ser más representativa de la población.
A cada uno de los elementos de la muestra se le denomina punto muestral, elemento o
punto de investigación. Para el presente curso este será el nombre que se le dará a cada
uno de los elementos de la muestra es decir, punto de investigación.
MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central son medidas estadísticas que pretenden
resumir en un solo valor a un conjunto de valores. Representan un centro en torno
al cual se encuentra ubicado en el conjunto de datos. Las medidas de tendencia
central más utilizadas son: media, mediana y moda.
Media
La media o promedio, es una medida de tendencia central. Resulta al efectuar
una división entre la sumatoria de las magnitudes de cada unos de los elementos
de la muestra dividido entre el número de elemento que constituyen la muestra. Y
que, en determinadas condiciones, puede representar por sí solo a todo el
conjunto.
Existen distintos tipos de medias, tales como la media geométrica, la media
ponderada y la media armónica aunque en el lenguaje, tanto en estadística como
en matemáticas la más elemental de todas ellas es la llamada generalmente la
media aritmética.
MEDIDAS DE TENDENCIA CENTRAL
Numéricamente la media aritmética está dada por:
σ𝑛𝑖=1 𝑋𝑖
𝜇 = 𝑋ത =
𝑛
Que es lo mismo
𝜇 = 𝑋ത =
𝑋1 + 𝑋2 + 𝑋3 + ⋯ + 𝑋𝑛
𝑛
En donde
𝜇 = Media de la población
𝑋ത = Media de la Muestra
MEDIDAS DE TENDENCIA CENTRAL
La media se calcula de la misma manera tanto para la población como para la
muestra y gráficamente se puede representar de la siguiente manera.
Figura 1. Representación de la Media Aritmética
En donde se puede ver que la media es un valor que se ubica en medio de todos
los valores que se utilizan para calcularla tratando de representarlos a todos.
MEDIDAS DE TENDENCIA CENTRAL
La media para datos agrupados está dada por:
σ𝑘𝑖=0(𝑋𝑖 ∗ 𝑓𝑖 )
𝜇 = 𝑋ത =
𝑛
En donde:
𝑋𝑖 = Marca de intervalo
𝑓𝑖 = frecuencia de intervalo
𝑛 = Número de elementos
Todos los conceptos serán aplicados más adelante.
MEDIDAS DE TENDENCIA CENTRAL
Moda
En estadística la moda es el dato que más se
repite, o en otras palabras, es el dato con
mayor frecuencia.
EDIFICIO
NÚMERO DE
APARTAMENTOS
1
✓ 4
2
6
Supongamos que en un barrio específico de
una ciudad se ha realizado un análisis de
cuantos apartamentos tiene cada edificio
encontrado y se obtienen los siguientes
resultados.
3
✓ 4
4
8
5
10
6
✓ 4
7
✓ 4
En este conjunto de datos (ejercicio1.sav) se
puede ver que el dato que más se repite es el
número cuatro (4); de tal manera que la moda
es cuatro (4).
8
14
9
12
10
✓ 4
MEDIDAS DE TENDENCIA CENTRAL
Debe tenerse claro que en un conjunto de datos
puede haber varias modas, no solo una. Las
modas son los datos que más se repiten, así que si
existen varios datos con frecuencias más altas que
el resto, estos serán considerados como modas.
En el conjunto de datos mostrado a la derecha
(ejercicio2.sav) se observa que los números con
mayor frecuencia son el cuatro (4) y el ocho (8), de
tal manera que ya no habrá una sola moda sino
que habrá dos modas.
EDIFICIO
NÚMERO DE
APARTAMENTOS
1
6
2
➢ 8
3
✓ 4
4
➢ 8
5
10
6
✓ 4
7
✓ 4
8
➢ 8
9
12
10
✓ 4
MEDIDAS DE TENDENCIA CENTRAL
Para los datos agrupados la moda está dada por:
𝑀𝑜𝑑𝑎 𝑀𝑜 = 𝐿𝑖 +
(𝑓𝑚 − 𝑓𝑎)
∗𝐴
𝑓𝑚 − 𝑓𝑎 + (𝑓𝑚 − 𝑓𝑠)
En donde:
fm: es la frecuencia mayor entre los intervalos
fa: es la frecuencia del intervalo anterior al que tiene la frecuencia mayor
Fs: es la frecuencia del intervalo siguiente al que tienen la frecuencia mayor.
A: es la amplitud de los intervalos
Li: es el límite inferior del intervalo que tiene la mayor frecuencia.
MEDIDAS DE TENDENCIA CENTRAL
Mediana
La mediana es una medida en virtud de la posición que ocupa un dato en el conjunto
de datos.
Es decir, es el dato que ocupa la posición central en un grupo de datos.
Si se tiene una serie de números ordenados de menor a mayor como se muestra a
continuación (ejercicio3.sav)
2,4,5,7,9,12,15,18,21,22,22,25,30
Como el número total de datos es impar (trece datos 13), la mediana será el dato que
ocupe la posición
(𝑛 − 1)
+1
2
En donde n es el número total de datos.
Para este caso la mediana será la que ocupe la posición siete (7), es decir, el número
quince (15).
MEDIDAS DE TENDENCIA CENTRAL
Ahora bien, si se tiene una serie de números ordenados de menor a mayor como
la siguiente lista (ejercicio4.sav) :
4,5,7,9,12,15,18,21,22,22,25,27
Como el número de datos es par (doce datos, 12), la mediana será el promedio
entre los datos que ocupen las posiciones:
𝑛 𝑛
y
2 2
+1
Es decir, que la mediana estaría dada por:
(15 + 18)
𝑀𝑒 =
= 16.5
2
MEDIDAS DE DISPERSIÓN
Las medidas de dispersión (varianza y desviación estándar) en cambio miden el
grado de dispersión (separación) de los valores de las variables. Dicho en otros
términos las medidas de dispersión pretenden evaluar en qué medida los datos
difieren entre sí. De esta forma, ambos tipos de medidas usadas en conjunto
permiten describir un conjunto de datos entregando información acerca de su
posición y su dispersión.
Varianza
La varianza de una muestra o de una población se puede definir como el
promedio de las diferencias entre cada elemento de la población y su media
elevada al cuadrado y se representa por "𝜎 2 ".
MEDIDAS DE DISPERSIÓN
La definición es mas fácil de lo que parece, a continuación trataremos de
explicarla, para que se comprenda más claramente. Supongamos que tenemos los
elementos que se muestran en la figura 2.
Figura 2. Representación de la Media Aritmética
MEDIDAS DE DISPERSIÓN
Como se puede ver en la figura los elementos 𝑋1 , 𝑋2 , 𝑋3 , 𝑋4 , … , 𝑋𝑛 se ubican en
posiciones distintas los unos con los otros.
Al conocer estos datos es posible calcular la media “µ” de los mismos, es decir, un
valor numérico que trata de representar a todos los datos.
Pero como se puede observar, la media no toca ningún punto, los puntos están
separados de la media, unos más separados que otros.
Esta separación se puede ver en la figura 3.
Figura 3. Representación Gráfica de la diferencia con la Media
MEDIDAS DE DISPERSIÓN
Como se puede ver, estas diferencias tienen valores diferentes dependiendo de si
el elemento está más cerca o más lejos de la media.
Pero el objetivo de la varianza 𝜎 2 es saber cuál es la separación promedio, es
decir, un valor de la separación que trate de representar a todas las separaciones
de los elementos con la media.
La separación del elemento 1 está dada por 𝑥1 − 𝜇 ; la del elemento 2 está dada
por: 𝑥2 − 𝜇 y así sucesivamente. Como podemos ver, el valor 𝑥1 es mayor que
el de la media (está ubicado por encima de la media), luego la diferencia dará
como resultado un valor positivo.
Pero en cambio el valor 𝑥2 es menor que el de la media (está ubicado por debajo
de la media) por tal razón la diferencia dará como resultado un valor negativo.
Esto se convierte en un problema ya que no se sumará con los otros valores, sino
que se restará.
MEDIDAS DE DISPERSIÓN
Esto se soluciona elevando al cuadrado cada una de las diferencias ya que todo
número elevado al cuadrado se convierte en un número positivo. Por esta razón las
diferencias quedarían de la siguiente manera:
𝑥1 − 𝜇 2 + 𝑥2 − 𝜇 2 + 𝑥3 − 𝜇 2 + ⋯ + 𝑥𝑛 − 𝜇 2
Pero como se desea calcular el promedio, esta sumatoria debe dividirse entre el
número de elementos de la muestra o de la población y es a este promedio al que se le
llama varianza; al realizar las operaciones se tendría:
𝜎2
=
𝑥1 − 𝜇
2
+ 𝑥2 − 𝜇
2
+ 𝑥3 − 𝜇
𝑛
2
+ ⋯ + 𝑥𝑛 − 𝜇
2
Pero esta ecuación se puede reducir a la ecuación que se conoce en la estadística, es
decir:
σ𝑛𝑖=1 𝑥𝑖 − 𝜇
=
𝑛
2
• 𝜎 es la varianza de la población.
• 𝜇 es la media de la población.
• 𝑛 es el número de elementos.
𝜎2
2
(𝑨)
MEDIDAS DE DISPERSIÓN
La ecuación (A) es la varianza poblacional, es decir, cuando se conocen
todos los elementos de la población; cuando no se conocen todos los
elementos sino tan solo se conoce una muestra, se habla de la varianza de la
muestra 𝑆 2 que se expresa de la siguiente manera:
𝑆2
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ
=
𝑛−1
• 𝑆 2 es la varianza de la muestra.
• 𝑥ҧ es la media de la muestra.
• 𝑛 es el número de elementos.
2
MEDIDAS DE DISPERSIÓN
Desviación Estándar o Desviación Típica
La desviación estándar “σ”, es una medida de dispersión que nos indica que tan
separados están los elementos los unos de los otros.
Cuando la desviación estándar es muy grande se dice que los elementos tienen
valores muy lejanos entre sí, por el contrario, cuando la desviación estándar es
pequeña, significa que los valores de los elementos están cercanos los unos de los
otros.
La desviación estándar se define como la raíz cuadrada de la varianza, por lo que
la desviación estándar poblacional está dada por:
En donde:
𝜎=
σ𝑛𝑖=1 𝑥𝑖 − 𝜇
𝑛
2
𝜎 2 es la varianza de la población.
𝜇 es la media de la población.
𝑛 es el número de elementos.
MEDIDAS DE DISPERSIÓN
Mientras que la desviación estándar de la muestra “S”, está dada por:
𝑆=
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ
𝑛−1
2
En donde:
• 𝑆 2 es la varianza de la muestra.
• 𝑥ҧ es la media de la muestra.
• 𝑛 es el número de elementos.
Esta desviación será la que más se usará en los procesos valuatorios ya que
normalmente se trabaja con muestras de inmuebles comparables al que se
desea valuar no con la población total de inmuebles.
MEDIDAS DE DISPERSIÓN
La desviación estándar de la población puede obtenerse estimada de la
desviación estándar de la muestra con la siguiente ecuación:
𝜎=
𝑆
𝑛
𝑆=𝜎∗ 𝑛
En donde:
• 𝜎 es la desviación estándar de la población.
• S es la desviación estándar de la muestra.
• n es el número de elementos.
MEDIDAS DE DISPERSIÓN
Gráficamente la desviación estándar puede representarse de la siguiente
manera:
Figura 4. Representación Gráfica de la Desviación Estándar
MEDIDAS DE DISPERSIÓN
Coeficiente de Variación
El coeficiente de variación “CV”, también llamado coeficiente de variación de
Spearman, es una relación estadística que nos permite saber que tan separados
o dispersos están los elementos entre si y que tan separados están de la media.
Es decir
𝐶𝑉 =
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝐸𝑠𝑡á𝑛𝑑𝑎𝑟
𝑀𝑒𝑑𝑖𝑎
El coeficiente de variación de una población está representado de la siguiente
manera:
𝜎
𝐶𝑉 =
𝜇
En donde:
• σ es la desviación estándar
• μ es la media de la población
MEDIDAS DE DISPERSIÓN
El coeficiente de variación de una población también puede calcularse con la
desviación estándar estimada de una muestra empleando la siguiente ecuación:
𝐶𝑉 =
𝑆
𝑛∗𝜇
En donde:
• 𝜇 es la media de la población
• S es la desviación estándar de la muestra
• n es el número de elementos.
Y el coeficiente de variación de una muestra está dado por:
MEDIDAS DE DISPERSIÓN
Y el coeficiente de variación de una muestra está dado por:
𝐶𝑉 =
𝑆
𝑋ത
En donde
• S es la desviación estándar de la muestra
• 𝑋ത es la media de la muestra
Entre mayor sea el coeficiente de variación significa que los puntos están más
alejados de la media, entre más pequeño sea el coeficiente de variación significa
que los puntos están más cerca de la media.
MEDIDAS DE DISPERSIÓN
Coeficiente de Asimetría
La simetría indica la manera en la que se distribuyen los datos en una población con
respecto a la media o si los datos están distribuidos equilibradamente alrededor de
la media.
Con el coeficiente de asimetría se puede determinar si en la muestra o en la
población hay el mismo número de datos de la izquierda o a la derecha de la media.
Las distribuciones de datos pueden tener ASIMETRÍA POSITIVA, pueden ser
SIMÉTRICAS o pueden tener ASIMETRÍA NEGATIVA.
Existe ASIMETRÍA POSITIVA cuando el resultado del coeficiente de asimetría es
mayor que cero (CA > 0), entre otras palabras, que sea positivo; en cuyo caso se
entiende que la media de la muestra se ubica hacia los valores más grandes de la
muestra estudiada. Si se habla específicamente de los avalúos inmobiliarios, se
puede afirmar que si se presenta ASIMETRÍA POSITIVA puede tomarse un valor
superior al de la media para hacer el cálculo del avalúo.
MEDIDAS DE DISPERSIÓN
Por otro parte, existe ASIMETRÍA NEGATIVA cuando el resultado del coeficiente
de asimetría es menor que cero (CA < 0), en otras palabras, que sea negativo; en
cuyo caso se entiende que la media de la muestra se ubica hacia los valores más
pequeños de la muestra estudiada. Si se habla específicamente de los avalúos
inmobiliarios, se puede afirmar que si se presenta ASIMETRÍA NEGATIVA puede
tomarse un valor menor al de la media para hacer el cálculo del avalúo.
Cuando el resultado del coeficiente de asimetría es igual a cero (CA = 0), se
entiende que la distribución es SIMÉTRICA, es decir, hay igual cantidad de datos
mayores y menores que la media, por lo que para un avalúo que cumpla con estás
condiciones solo se debe tomar el valor de la media para hacer el cálculo del valor.
MEDIDAS DE DISPERSIÓN
El coeficiente de asimetría de FISHER (𝐶𝐴𝐹 ) está dada por:
𝐶𝐴𝐹 =
𝑋1 − 𝑋ത
3
+ 𝑋2 − 𝑋ത
3
+ 𝑋3 − 𝑋ത
𝑛 ∗ 𝑆3
Que es lo mismo que decir:
σ𝑛𝑖=1 𝑋𝑖 − 𝑋ത
𝐶𝐴𝐹 =
𝑛 ∗ 𝑆3
En donde:
• 𝐶𝐴𝐹 = Coeficiente de Asimetría
• 𝑋ത = Media aritmética
• S = Desviación Estándar
• n= Número de Elementos
3
3
+ ⋯ + 𝑋𝑛 − 𝑋ത
3
MEDIDAS DE DISPERSIÓN
Para datos agrupados el coeficiente de asimetría de FISHER está dado por:
σ𝑛𝑖=1 𝑚𝑖 − 𝑋ത
𝐶𝐴𝐹 =
𝑛 ∗ 𝑆3
En donde:
•
•
•
•
•
•
𝐶𝐴𝐹 = Coeficiente de Asimetría
𝑋ത = Media aritmética
S = Desviación Estándar
n= Número de Elementos
𝑚𝑖 = Marca de clase
𝑓𝑖 = Frecuencia de intervalo
3
∗ 𝑓𝑖
MEDIDAS DE DISPERSIÓN
Por otro lado, el coeficiente de asimetría de PEARSON (𝐶𝐴𝑃 ) está dado por:
𝑋ത − 𝑀𝑜
𝐶𝐴𝑃 =
𝑆
En donde:
• 𝐶𝐴𝑃 = Coeficiente de Asimetría
• 𝑋ത = Media aritmética
• S = Desviación Estándar
• 𝑀𝑂 = Moda
De igual manera el coeficiente de asimetría de PEARSON (𝐶𝐴𝑃 ) también
puede calcularse con la siguiente expresión:
3(𝑋ത − 𝑀𝑑 )
𝐶𝐴𝑃 =
𝑆
Cualquiera de los dos métodos puede ser aplicado, pero en Colombia la
resolución 620 de 2008 del IGAC, recomienda la aplicación del coeficiente de
asimetría de Pearson. Pero si la muestra es relativamente pequeña y no se
detecta la moda, sería mucho más práctico la aplicación del coeficiente de
asimetría de Fisher.
LA REGRESIÓN
La Regresión o como es llamada en estadística, el análisis de regresión, es un
proceso estadístico que permite determinar una ecuación matemática que
explique el comportamiento de una serie de datos que se obtienen del mundo
real.
Cuando se realizan procesos en nuestro mundo, de los que es posible tomar
información, esta información puede ser tabulada y graficada en un plano
cartesiano. Luego, con la ayuda de la regresión, es posible obtener una ecuación
que muestre el comportamiento de esos datos obtenidos o conocer el
comportamiento hacia atrás de esos datos.
LA REGRESIÓN
Por ejemplo, tomemos el caso de un agricultor que semanalmente mide el
crecimiento de una planta que se ha sembrado.
El puede realizar una tabla de valores en la que consigne el número de la semana
en la que toma la medición y la altura de la planta esa semana; como, por
ejemplo, la siguiente tabla:
SEMANA No.
4
5
6
7
8
…
20
ALTURA EN (Cms)
45
50
63
75
90 …
176
Luego, con esos datos puede realizar una gráfica de cada punto. Este tipo de
gráficas se denomina diagrama de dispersión. Por ejemplo, supongamos que el
agricultor obtiene el siguiente diagrama de dispersión:
LA REGRESIÓN
Figura 5. Diagrama de dispersión de la altura de una planta con respecto a cada semana de
crecimiento
Ahora bien, como la planta es una planta joven que debe seguir creciendo, el
agricultor desea saber cuál será la altura de la planta a las 30 semanas, o a las 40
semanas.
LA REGRESIÓN
Y es en ese momento que se utiliza el análisis de regresión. Con este análisis, el
agricultor puede obtener una ecuación que le permita saber cuánto medirá su
planta en cualquier mes.
En la figura 6 se muestra cual sería la posible gráfica de la ecuación en este caso
podría ser una línea recta y se diría que existe una regresión lineal.
Figura 6. Diagrama de dispersión de la altura de una planta con respecto a cada semana de
crecimiento
LA REGRESIÓN
De la misma manera que hizo el agricultor en el ejemplo, lo hace el perito
valuador, solo que, en este caso, el valuador usa dos variables diferentes, que
normalmente son el valor del inmueble y el área del inmueble. Con estas dos
variables, el valuador crea una ecuación de regresión basándose en los datos
obtenidos de la investigación de mercado (la muestra) que le permite conocer
cuanto costara un inmueble que tiene un área específica en cierto sector de la
ciudad.
Ahora bien, existen ciertos conceptos básicos que es necesario conocer sobre el
análisis de regresión para tener claridad del mismo que se definirán a
continuación.
VARIABLE INDEPENDIENTE es la variable o el dato cuyo valor no depende de
otros datos o de otras variables. También se podrá decir que es el dato conocido o
que es difícil de conocer.
LA REGRESIÓN
Tomemos el caso del perito valuador, cuando el valuador llega a un inmueble que
desea valuar, el conoce su tamaño, su área y otras características físicas del
mismo, de tal manera que la variable conocida en este caso, sería el tamaño del
inmueble y por ende, está sería la variable independiente.
La variable independiente siempre se ubica en el diagrama de dispersión sobre el
eje horizontal, en el caso del agricultor, su variable independiente era el número
de la semana de crecimiento.
LA REGRESIÓN
VARIABLE DEPENDIENTE: es la variable o el dato cuyo valor si depende de otros
datos o de otras variables. También se podrá decir que es el dato desconocido o
que se desea encontrar.
Tomemos nuevamente el caso del perito valuador, cuando el valuador desea un
avalúo, el dato conocido primordial es el área del inmueble (variable
independiente), y utilizando la regresión puede calcular cual es el valor de un
inmueble con esa área en la zona estudiada. Por tal razón se dice que el valor del
inmueble “depende” del área del mismo, ya que un inmueble pequeño tendrá
(área menor) tendrá un valor más pequeño y un inmueble más grande (de área
mayor) tendrá un valor mayor.
La variable independiente en el caso del agricultor, su variable independiente era
la altura de la planta.
LA REGRESIÓN
Al valor de la variable dependiente que se obtiene de la ecuación de regresión se
le llama VALOR ESTIMADO.
En el caso de la planta se le llamaría ALTURA ESTIMADA.
COEFICIENTE DE CORRELACIÓN (r): Se puede definir el coeficiente de
correlación como una medida estadística que cuantifica la dependencia entre dos
variables, es decir, si se representan en un diagrama de dispersión los valores que
toman dos variables, el coeficiente de correlación señalará lo bien o lo mal que el
conjunto de puntos representados se aproxima a una curva específica.
En otras palabras, como lo muestra las figuras 7 y 8, el coeficiente de correlación
indica que tan cercanas entre sí están los datos y que tan cercanos están con la
formación de una curva.
LA REGRESIÓN
En la figura 7 se puede ver una correlación débil, es decir, los puntos están
separados entre sí, y al realizar el cálculo de la correlación se obtendrá un valor
cercano a cero (0).
En la figura 8 por el contrario, se observa que los puntos están más cercanos
entre sí, entre otras palabras, el coeficiente de correlación es fuerte y al calcularlo
su valor se acerca más a uno (1) o a menos uno (-1).
El signo dependerá de la inclinación que tengan los puntos, si se inclinan a la
derecha, como en las figuras, tendera a valer uno (1), mientras que si se inclinan a
la izquierda tendera a ser menos uno (-1).
LA REGRESIÓN
Figura 7. Correlación débil
Figura 8. Correlación fuerte
LA REGRESIÓN
Queda claro con lo dicho que el coeficiente de correlación será un número que
varía entre menos (-1) y uno (1) pasando por cero (0).
Al momento de realizar un análisis de regresión no se conoce a que tipo de curva
se aproximan los datos ya que los datos no necesariamente se comportan como
una línea recta, los datos de la muestra se comportan de diferentes maneras y es
por esa razón que es necesario el realizar el análisis de regresión para diferentes
tipos de comportamientos.
Los comportamientos más comunes para conjuntos de datos son:
• El comportamiento lineal
• El comportamiento potencial
• El comportamiento exponencial
• El comportamiento logarítmico
• El comportamiento polinómico
LA REGRESIÓN
Cada uno de estos comportamientos se expresa con una ecuación específica que
debe ser encontrada a partir de los datos de la muestra obtenida y se debe
relacionar uno de estos comportamientos para representar el modelo que se
usará en los cálculos definitivos del avalúo.
La forma más común es la de calcular el coeficiente de correlación para cada uno
de estos modelos, y está dado por las siguientes ecuaciones:
Para un comportamiento lineal:
𝑟=
σ(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത
σ(𝑥𝑖 − 𝑥)ҧ 2
σ(𝑦𝑖 − 𝑦)
ത 2
Para un comportamiento potencial
𝑁 σ 𝑙𝑛(𝑥) ∗ 𝐿𝑛(𝑦) − σ 𝑙𝑛 𝑥 ∗ σ 𝑙𝑛(𝑦)
𝑟=
𝑁 σ 𝑙𝑛(𝑥) 2 − σ 𝑙𝑛(𝑥) 2 ∗ 𝑁 σ 𝑙𝑛(𝑦) 2 − σ 𝑙𝑛(𝑦)
2
LA REGRESIÓN
Para un comportamiento exponencial
𝑟=
𝑁 σ 𝑥 ∗ 𝑙𝑛(𝑦) − σ 𝑥 ∗ σ 𝑙𝑛(𝑦)
𝑁 σ 𝑥2 − σ 𝑥
2
∗
𝑁 σ 𝑙𝑛(𝑦)
2
− σ 𝑙𝑛(𝑦)
2
Y para un comportamiento logarítmico
𝑟=
𝑁 σ 𝑦 ∗ 𝑙𝑛(𝑥) − σ 𝑦 ∗ σ 𝑙𝑛(𝑥)
𝑁 σ 𝑦2 − 𝑦
2
∗
𝑁 σ 𝑙𝑛(𝑥)
2
− σ 𝑙𝑛(𝑥)
2
Cuando se eleva el coeficiente de correlación al cuadrado se obtiene el coeficiente
de determinación (𝑅2 ) que es la forma más utilizada para determinar el modelo
que se debe emplear.
LA REGRESIÓN
COEFICIENTE DE DETERMINACIÓN (𝑹𝟐 ): Hace la comparación de que tanto se
aleja el valor estimado de la media aritmética con relación a lo que se aleja el
valor real (dato medido) de la media aritmética.
σ𝑇𝑡=1 𝑌෠𝑡 − 𝑌ത
2
𝑅 = 𝑇
σ𝑡=1 𝑌𝑡 − 𝑌ത
2
2
Y está elevada al cuadrado ya que tal y como ocurre en la varianza y en la
desviación estándar, cuando el valor estimado o el valor real restante se restan de
la media y da resultado negativo, este resultado se vuelve positivo elevándolo al
cuadrado.
El 𝑅2 se emplea especialmente cuando se realiza el análisis de regresión simple o
para una sola variable independiente y su valor varía entre cero (0) y uno (1).
El modelo de regresión escogido como representativo de la muestra será el que
se acerque más a uno (1).
LA REGRESIÓN
ഥ 𝟐 ajustado): es el mismo
COEFICIENTE DE DETERMINACIÓN AJUSTADO (𝑹
COEFICIENTE DE DETERMINACIÓN solo que con este se analiza el efecto de
otras variables independientes en el modelo. Como se analizan varias variables
independientes. El 𝑅ത 2 ajustado se emplea especialmente cuando se realiza el
análisis de regresión con múltiples variables independientes y al igual que el 𝑅2 ,
su valor varía entre cero (0) y uno (1) y está dado por:
𝑅ത 2 = 1 −
𝑁−1
1 − 𝑅2
𝑁−𝑘−1
En donde:
•
•
•
N: es el número de datos
K: es el número de variables independientes
ഥ 𝟐 = es el coeficiente de determinación.
𝑹
LA REGRESIÓN
ERROR ESTÁNDAR DE LA REGRESIÓN: En la regresión es muy difícil el
determinar una desviación estándar de la muestra ya que no se calcula una media
constante para todos los elementos. Por esta razón si se quiere medir la
dispersión de los datos con la curva generada, además de los coeficientes
mencionados con anterioridad, es posible calcular una medida denominada el
ERROR ESTÁNDAR DE LA REGRESIÓN que básicamente, es un valor que
muestra la diferencia entre los valores reales y los valores estimados (los
calculados con la ecuación de regresión). El error de la regresión está dado por la
siguiente ecuación:
𝑛
𝜎ො =
1
෍ 𝑌𝑖 − 𝑌෠
𝑛−2
𝑖=1
En donde:
෠ los valores estimados
𝑌:
𝑌𝑖 : los valores medidos
n: el tamaño de la muestra
2
LA REGRESIÓN
Y luego de haber calculado este error, es posible calcular un dato similar al
coeficiente de variación con este error de la regresión y cada valor estimado
específico.
Todos estos coeficiente nos servirán para aceptar o descartar modelos de
regresión dependiendo de su valor.
REGRESIÓN LINEAL
La regresión lineal o el análisis de regresión lineal, es el proceso estadístico que
permite determinar una ecuación matemática que tenga la forma de una línea
recta para que explique el comportamiento de los datos de una muestra.
La ecuación del modelo lineal es:
𝑌෠ = 𝛽0 + 𝛽1 𝑋
LA REGRESIÓN
Donde 𝑌෠ se denomina “Y estimada”; y gráficamente se representa de la siguiente
manera:
Figura 9. Modelo de Regresión Lineal
Este modelo de regresión es el más utilizado, pero no siempre es el más
conveniente, ya que la muestra no necesariamente se comporta de forma
lineal.
LA REGRESIÓN
OTROS MODELOS DE REGRESIÓN
Además del comportamiento lineal los datos de una muestra pueden presentar
otros tipos de comportamiento.
Los comportamientos más comunes diferentes al lineal son:
• El comportamiento potencial
• El comportamiento exponencial
• El comportamiento logarítmico
• El comportamiento polinómico
Cada uno de estos comportamientos se expresa con una ecuación específica que
debe ser encontrada a partir de los datos de la muestra obtenida y a continuación
se muestra cada uno de estos modelos y su gráfica respectiva.
LA REGRESIÓN
REGRESIÓN EXPONENCIAL
REGRESIÓN LOGARÍTMICA
La
ecuación
del
exponencial es:
𝑌෠ = 𝛽0 𝑒𝛽1𝑋
modelo
La ecuación del modelo logarítmico
es:
𝑌෠ = 𝛽0 + 𝛽1 ∗ 𝑙𝑛 𝑋
Y gráficamente se comporta de la
siguiente manera:
Y gráficamente se comporta de la
siguiente manera:
Figura 10. Modelo de Regresión Exponencial
Figura 11. Modelo de Regresión Logarítmica.
LA REGRESIÓN
REGRESIÓN POTENCIAL
REGRESIÓN POLINÓMICA
La ecuación del modelo potencial
es:
𝑌෠ = 𝛽1 𝑋𝛽0
La
ecuación
del
modelo
polinómica es:
𝑌෠ = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2
Y gráficamente se comporta de la
siguiente manera:
Y gráficamente se comporta de la
siguiente manera:
Figura 12. Modelo de Regresión Potencial
Figura 13. Modelo de Regresión Polinómica
LA DISTRIBUCIÓN NORMAL
La distribución normal, también llamada distribución Gaussiana (en honor a Carl
Friedrich Gauss), es una distribución de elementos continua que tiene forma de
campana en la que la media, la moda y la mediana se encuentre en el centro de la
campana y la mayor cantidad de elementos se agrupa cerca de ella y este
porcentaje de elementos puede definirse en función de la cantidad de
desviaciones estándar que se separen del centro de la media.
Para comprender la distribución normal comencemos analizando un ejemplo.
Supongamos que en una escuela primaria analizamos la edad de la población de
los alumnos de los tres cursos de segundo año, segundo A, segundo B y segundo C.
LA DISTRIBUCIÓN NORMAL
Al agrupar los datos de estos cursos los podemos resumir en las siguientes tablas
y haciendo sus histogramas se obtiene lo siguiente (ejercicio5.sav) :
EDAD
5
6
7
8
9
TOTAL
MEDIA
MODA
SEGUNDO A
CANTIDAD DE
ALUMNOS
4
5
3
4
4
20
6.95
6
Figura 14. Histograma Alumnos de Segundo A
LA DISTRIBUCIÓN NORMAL
ejercicio6.sav
SEGUNDO B
CANTIDAD DE
EDAD
ALUMNOS
5
6
6
3
7
1
8
4
9
6
TOTAL
20
MEDIA
7.05
MODA 1
5
MODA 2
9
Figura 15. Histograma Alumnos de Segundo B
LA DISTRIBUCIÓN NORMAL
ejercicio7.sav
SEGUNDO C
CANTIDAD DE
EDAD
ALUMNOS
5
2
6
5
7
8
8
4
9
1
TOTAL
20
MEDIA
6.85
MODA
7
Figura 16. Histograma Alumnos de Segundo C
LA DISTRIBUCIÓN NORMAL
Si se analiza la información mostrada en los histogramas y las tablas se puede ver
que el curso de segundo B tiene dos modas, por lo que se descarta que esta sea
una distribución normal.
También se puede ver que en el curso de segundo A, la moda es de 6 mientras que
la media es 7 (6.95); por lo que se descarta que sea una distribución normal.
Si se analiza la información del curso de segundo C se observa que la moda es 7 y
la media se puede asumir que también es 7 (6.85). también se observa que la
mayor concentración de elementos está en el centro de la distribución; por todas
estas condiciones podemos decir que las edades de los alumnos del curso de
segundo C siguen una distribución normal y simétrica.
Esto significa que la media se encentra en el centro de la distribución y los
elementos se reparten relativamente iguales a ambos lados de la curva.
LA DISTRIBUCIÓN NORMAL
La distribución normal simétrica se representa de la siguiente manera:
En ella podemos ver que la media, la moda y la mediana se encuentra en el centro
de la distribución.
LA DISTRIBUCIÓN NORMAL
Pero en ocasiones la distribución normal no es simétrica, es decir, que sus
elementos se acumulan más de un lado de la curva que del otro.
A este tipo de distribución normal se le llama distribución normal asimétrica o
también se le llama distribución normal sesgada. Cuando la media se ubica a la
derecha de la moda, se dice que la distribución es asimétrica positiva o que esta
sesgada a la derecha.
La distribución asimétrica positiva se representa de la siguiente manera:
LA DISTRIBUCIÓN NORMAL
Por otra parte, cuando la media se ubica a la izquierda de la moda, se dice que la
distribución es asimétrica negativa o que esta sesgada hacia la izquierda.
La distribución asimétrica negativa se representa de la siguiente manera:
LA DISTRIBUCIÓN NORMAL
La distribución normal (en ocasiones llamada distribución gaussiana) es la
distribución continua que se utiliza más comúnmente en estadística. La
distribución normal es de vital importancia en estadística por tres razones
principales:
•
Muchas variables continuas comunes en el mundo de los negocios tienen
distribuciones que se asemejan estrechamente a la distribución normal.
•
La distribución normal sirve para acercarse a diversas distribuciones de
probabilidad discreta, como la distribución binomial y la distribución de
Poisson.
•
La distribución normal proporciona la base para la estadística inferencial
clásica por su relación con el teorema de límite central. En la distribución
normal, uno puede calcular la probabilidad de que varios valores ocurran
dentro de ciertos rangos o intervalos.
LA DISTRIBUCIÓN NORMAL
La Distribución Normal Estandarizada
La distribución normal estándar, o tipificada o reducida, es aquella que tiene por
media el valor cero, μ = 0, y por desviación estándar la unidad, 𝜎 = 1.
La probabilidad de la variable estudiada “X” dependerá del área contenida bajo la
curva normal y para calcularla utilizaremos la tabla de la distribución normal.
Para poder utilizar la tabla tenemos que transformar la variable X que sigue una
distribución 𝑁 𝜇, 𝜎 en otra variable Z que siga una distribución 𝑁 0,1 .
Para utilizar la variable en una distribución normal debe tipificarse y convertirse
en una variable “Z” lo cual se realiza con la siguiente ecuación:
En donde
𝑍=
𝑋−𝜇
𝜎
• X es el dato a tipificar
• 𝝈 es la desviación estándar
• 𝝁 es la media de la población.
LA DISTRIBUCIÓN NORMAL
La Distribución Normal Estandarizada
En ciertos procesos de muestro, como es el caso de los avalúos, en los que la
muestra es muy pequeña debe utilizarse la curva normal estandarizada “t de
Student”. Esta distribución surge del problema de estimar la media de una
población normalmente distribuida cuando el tamaño de la muestra es pequeño.
Cuando el tamaño de la muestra es menor a treinta (30) elementos, se supone
que la población tiene una distribución normal y no se conoce la desviación
estándar de la población se utiliza la distribución “t de Student” de lo contrario se
utiliza la distribución “Z”.
LA DISTRIBUCIÓN NORMAL
Para los casos en los que la muestra cuenta con menos de 30 datos, la
variable se tipifica de la siguiente manera:
𝑡=
𝑥−𝜇
𝜎
𝑛
𝑡=
𝑥 − 𝑥ҧ
𝑠
𝑛
En donde:
•
•
•
•
•
n es el número de datos o el tamaño de la muestra.
X es el dato a tipificar
𝝈 es la desviación estándar de la población
S es la desviación estándar de la muestra
𝝁 es la media de la población
Descargar