Subido por AURORA CID RODRÍGUEZ

APUNTS ADD

Anuncio
lOMoARcPSD|18261362
Anàlisi de dades (tots els temes)
Analisi de Dades (Universitat Pompeu Fabra)
Studocu no está patrocinado ni avalado por ningún colegio o universidad.
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
ANÀLISI DE DADES
1. INTRODUCCIÓ
L’estadística és la ciència que tracta sobre l’obtenció d’informació a partir de dades amb l’objectiu de respondre unes preguntes
concretes. En el nostre cas, ens centrem en l’estadística aplicada que es divideix en tres camps d’estudi:



Obtenció de dades. Consisteix en obtenir una mostra representativa de la població que es vol estudiar i en dissenyar una
enquesta adient.
Anàlisi de dades. Consisteix en organitzar, analitzar i resumir els resultats obtinguts per mitjà de gràfics o resums numèrics.
Inferència estadística. Consisteix en extrapolar els resultats obtinguts a un col·lectiu més ampli, juntament amb una afirmació
sobre la fiabilitat d’aquestes conclusions.
2. MOSTRES
2.1. CÓM OBTENIR UNA MOSTRA REPRESENTATIVA DE LA POBLACIÓ?


Població: conjunt d’individus
Mostra: part de la població que realment observem.
Una mostra representativa es pot obtenir de diverses maneres:



Mostra aleatòria simple. En aquest cas tots els individus tenen la mateixa probabilitat de ser escollits per respondre
l’enquesta. Algunes eines que es poden utilitzar per triar una mostra simple aleatòria són els generadors de números aleatoris
o taules de dígits aleatoris (on aquests dígits es caracteritzen per ser aleatoris, tenir la mateix probabilitat de ser-hi i ser
independents els uns dels altres).
Mostra aleatòria estratificada. Primer es divideix la població en estrats (grups d’individus amb una característica comú) i
després s’escullen mostres aleatòries simples de cada grup.
Mostra en etapes múltiples. S’apliquen mostres aleatòries simples per etapes. De vegades la primera mostra és estratificada.
2.2. MOSTRES: POSSIBLES PROBLEMES
Una mostra no és representativa quan la mostra és: de conveniència (es trien els individus de més fàcil accés) o de voluntaris (només
contesten els què volen). Aquest últim tipus d’enquesta és freqüentment utilitzada en les enquestes digitals.
En aquests casos es diu que l’estudi està esbiaixat, és a dir, que els resultats són poc creïbles o bé afavoreixen sistemàticament
determinats resultats.
3. L’ENQUESTA
3.1. DISSENY DE L’ENQUESTA
Primer de tot, em de decidir què és el què volem saber. La resposta serà la variable principal de l’estudi. A més, també em de buscar
possibles característiques que influeixen i estan relacionats amb la variable.
Fins i tot, si la mostra ha estat seleccionada a l’atzar i hem eliminat possibles biaixos de selecció, encara ens podem trobar amb alguns
problemes:




Biaix de resposta: mentides (quan les preguntes són molt personals), poca memòria (s’han de fer preguntes que es puguin
contestar i que siguin clares).
Biaix de redactat: preguntes dirigides o induïdes.
Manca de cobertura: si es fan les enquestes per telèfon fix, els què no en tinguin seran exclosos.
Manca de resposta: es dóna quan les preguntes són massa sensibles o l’enquesta és molt llarga.
3.2. ORGANITZACIÓ DE LA BASE DE DADES
Una vegada tinguem les enquestes, hem d’organitzar la informació recollida.



Individus: persones, animals o coses que es descriuen en un conjunt de dades.
Variable (columnes d’Excel): qualsevol característica d’un individu. Hi ha dos tipus de variables: la categòrica o qualitativa
(indica el grup o categoria a la que pertanyen els individus els quals poden estar numerats) i la quantitativa o numèrica
(que pren valors numèrics i amb la qual es poden realitzar operacions matemàtiques. Hi ha 2 tipus: discretes [que no tenen
decimals. Ex: edat] i contínues [que tenen decimals. Ex: diners que es gasten])
Observació o cas (files d’Excel): un individu amb totes les seves característiques.
1
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
Per organitzar la informació s’utilitza la taula de freqüències que està formada per:




Freqüència absoluta: Nombre de vegades que observem un valor en un interval o classe.
Freqüència absoluta acumulada.
Freqüència relativa: tant per cent de vegades que observem un valor en un interval o classe.
Freqüència relativa acumulada.
Per elaborar aquesta taula, primer s’ha de buscar el mínim i el màxim i calcular la diferència (coneguda com el recorregut o rang). I a
continuació dividim les dades en intervals de la mateixa amplada. Finalment, es convenient afegir gràfics de barres i de sectors.
RECORDA!! Si per exemple hem d’estudiar unes dades del 2006, l’any no és una variable ja que per tots els individus sempre és
el mateix.
4. EXAMEN DESCRIPTIU D’UNA VARIABLE
4.1. DIAGRAMES DE BARRES, DE SECTORS I L’HISTOGRAMA
Quan les variables siguin categòriques, utilitzarem diagrames de barres o de sectors.
Un histograma és la representació gràfica d’una taula de freqüències que ens permet descriure detalladament la distribució de les
dades.
1)
2)
3)
Decidir el número d’intervals (es recomanable calcular el recorregut). Un nombre adequat d’intervals es troba al
voltant dels 8 aproximadament.
Comptar quants casos hi ha a cada interval.
Dibuixar l’histograma.
4.2. DIAGRAMA DE TRONCS I FULLES
El diagrama de troncs i fulles s’utilitza per petits conjunts de dades.
1)
2)
3)
4)
5)
PAS 1
Ordenar les dades de més petita a més gran.
Separar cada observació en un tronc i una fulla. On una fulla és l’últim dígit del valor i el tronc és la resta de dígits.
S’organitza tota la informació en una taula: els troncs se situen ordenats en vertical i les fulles al costat del seu
respectiu tronc en horitzontal.
Finalment, s’ha d’especificar les unitats de les fulles.
Opcional: Si hi ha molta diferència entre els valors és recomanable arrodonir i si n’hi ha molt poca convé desdoblar.
PAS 2
PAS 3
2
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
NOTA!! Un diagrama de tronc i fulles és una mena d’histograma en brut. És pràctic i ràpid per observar la distribució d’un petit
conjunt de dades.
4.3. DESCRIPCIÓ NUMÈRICA DE LES DADES
A l’hora de descriure una distribució de dades cal parlar sobre:

Aspecte general:
o Forma: Si és simètric o asimètric. Es veu si divideixes el gràfic en dos. I si és asimètric s’ha de dir si és cap a l’esquera
o cap a la dreta..
o Centre: dir el valor del centre.
o Dispersió: dir la distància que hi ha entre els diferents valors.

Casos especials:
o Observacions atípiques: mirar si hi ha algun valor molt separat de la resta.
NOTA!! Per saber si hi ha valors atípics s’ha d’utilitzar la regla dels valors atípics: [𝑸𝟏 − 𝟏′ 𝟓𝑹𝑰𝑸 , 𝑸𝟑 + 𝟏′𝟓𝑹𝑰𝑸] Qualsevol valor
de la distribució FORA d’aquest interval és atípic.
4.3.1. MESURES DE CENTRE
Les dues principals mesures de centre són:
MITJANA ARITMÈTICA
𝑥̅ =
MEDIANA
∑𝑛𝑖=1 𝑥𝑖
𝑛
És el valor central, un cop les dades estan ordenades de més petita
a més gran. Et pots trobar amb dos casos:
Només serveix per distribucions simètriques. Ja que quan hi ha:
 Una asimetria cap a la dreta: la mitjana tendeix a variar
cap a la dreta.
 Una asimetria cap a l’esquerra: la mitjana tendeix a
variar cap a l’esquerra.


El total de dades és senar: s’agafa el valor del mig.
El total de dades és parell: es fa la mitjana dels dos
valors centrals.
Serveix tant per distribucions simètriques com asimètriques. Per
tant, és una mesura de centre robusta (invariant respecte les
dades extremes).
4.3.2. MESURES DE POSICIÓ
Les dades es poden resumir amb l’ajut de 5 números, una vegada ordenades de més petit a més gran.
MEDIANA
MÍNIM
MÀXIM
Punt central. Separa el 50%
de les observacions amb
valors més petits (o més
grans).
Valor més petit.
Valor més gran.
Recorregut = màxim-mínim
QUARTIL 1 (𝑸𝟏 )
Valor que separa el 25%
de les observacions amb
valors més petits.
QUARTIL 3 (𝑸𝟑 )
Valor que separa el 75%
de les observacions amb
valors més petits.
Per trobar el quartil 1 s’ha de calcular la mediana entre el mínim i la mediana central. I per trobar el quartil 3 s’ha de buscar la mediana
entre la mediana central i el màxim.
3
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
4.3.3. MESURES DE DISPERSIÓ(O VARIABILITAT)
RANG O RECORREGUT O RANG DE VARIACIÓ
VARIÀNCIA
Recorregut = màxim-mínim
Ex:
180–155 =25 cm
Entre la més baixa i la més alta hi ha 25 cm de diferència.
A partir d’una mostra:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 · 𝑛𝑖
𝑠2 =
𝑛−1
De tota una població:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 · 𝑛𝑖
𝑠2 =
𝑛
Varia si hi ha dades extremes.
RANG INTERQUARTÍLIC
DESVIACIÓ TÍPICA
RIQ = Q3 − Q1
És la distància promig de les diferents observacions respecte de la mitjana.
Ex:
171-162,5=8,5
Entre la noia més alta del 25 % de les més baixes, i la
noia més baixa del 25% de les més altes, hi ha 8,5 cm de
diferència.
És una mesura robusta.
A partir d’una mostra:
De tota una població:
∑𝑛 (𝑥𝑖 − 𝑥̅ )2 · 𝑛𝑖
𝑠 = √ 𝑖=1
𝑛
𝑠=√
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 · 𝑛𝑖
𝑛−1
Ex: Si la desviació típica de les alçades de les 19 noies és igual a 6,22 cm
això significa que, en promig, el conjunt de les noies està a 6,22 cm per
sobre o per sota de la mitjana de 166,74.
4.3.4. ALTRES MESURES
MODA
PERCENTILS (P%)
La observació o classe
amb major freqüència.
Valors que estan en la
posició per sota de la qual
tenim el p% de les
observacions.
MESURES D’ASIMETRIA
COEFICIENT DE
VARIACIÓ
𝐶𝑉 =
𝑠
𝑥̅
MESURES DE CURTOSI (O APUNTAMENT)
La curtosi mesura si la distribució és apuntada
(positiva) o aplanada (negativa)en relació a una
distribució normal) posant el focus en la forma de
les cues laterals.
Si la distribució fos exactament igual a la normal la
mesura de curtosi hauria de ser exactament igual
a 0.
Una mesura de curtosi de -0,46 és relativament baixa i no ens permet descartar que X tingui una distribució
aproximadament normal. En canvi la mesura de Y que és igual a -1,33 es relativament alta i podem confirmar que la
variable Y no segueix una distribució normal.
4.4. DIAGRAMA DE CAIXES
El diagrama de caixes és un gràfic construït a partir dels 5 números resum. Sovint les observacions atípiques (aquelles observacions
que es troben molt allunyades de la resta) s’assenyalen apart.
Exemple 1.
Exemple 2.




Comentari:
El valor més habitual es troba entorn ____
(Mediana)
Quanta dispersió hi ha (Comparar el RIQ
amb el rang)
Si hi ha valors atípics o no.
Si és simètric o asimètric (mirant la
localització de la mediana i la mitjana)
S’ha d’especificar el grau d’asimetria i de
dispersió per mitjà de: lleugerament,
moderadament, molt...
4
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
4.5. QUINES MESURES HEM DE CALCULAR?
Hi ha dos possibles casos:


Distribució simètrica que no té valors extrems. Amb la mitjana i la dispersió típica n’hi ha suficient.
Distribució asimètrica o que presenta valors extrems. S’han d’utilitzar els 5 números resum. La mediana i els quartils són
mesures robustes, és a dir, el seu valor es veu relativament poc afectat per canvis en els valors numèrics d’una petita part de
les observacions.
RECORDA!! Per descriure la distribució d’una variable categòrica només es pot fer una comparació entre el percentatge de
casos en cada categoria.
5. DADES AGRUPADES I TRANFORMACIONS LINEALS
5.1. DADES AGRUPADES
Les dades agrupades són un conjunt de dades d’una variable numèrica presentat en forma d’una taula de freqüències. En aquest cas, no
coneixem les dades originals però, tot i així, encara podem calcular mesures resum si adoptem alguns supòsits simplificadors.
Com que no tenim més informació que la
taula i no coneixem els ingressos
individuals de les famílies, suposarem que
totes les famílies d’un interval tenen la
mateixa renda la qual és igual al punt mig
de l’interval.
5.1.1. CÀLCUL DE LA MITJANA I DE LA DESVIACIÓ TÍPICA
5.1.2. CÀLCUL DELS 5 NÚMEROS RESUM
Per trobar les mesures de posició és recomanable calcula prèviament la freqüència absoluta acumulada en la taula de freqüències.
La renda mínima serà la de la família número 1.
La renda màxima serà la de la família número 280.
La mediana serà igual a la renda de la família que ocupi la posició
central N/2=280/2=140. Per tant, la mediana serà la família que ocupi
la posició 140.
El primer quartil serà la renda de la família número N/4= 70 i el tercer
quartil serà la renda de la família número 3N/4=210.
Mín: 0
𝑄1 : 17.500
Med:17.500
5
𝑄3 :25.000
Màx: 100.000€
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
5.2. TRANSFORMACIÓ DE DADES
De vegades és necessari transformar les dades ja que els valors de cada variable han de ser mesurats en les mateixes unitats. Hi ha dos
tipus de transformacions d’una variable X:


Les lineals, en que sumem o restem una quantitat fixa a cada valor de X o multipliquem o dividim cada valor de X per una
quantitat fixa, o ambdues coses simultàniament.
Les no lineals: la resta de transformacions.
Les mesures resum d’una variable que ha experimentat una transformació lineal tenen algunes propietats útils.
5.2.1. TRANSFORMACIONS LINEALS DE DADES
Les transformacions lineals (canvis d’origen i canvis d’escala) poden expressar-se com:
𝑋 − (−𝑎)
𝑌=
𝑏
 Exemples:
Donem 20 € extra a cada noi: y= X+20 on a=20 i b=1
Doblem els diners de cada noi: y=2X on a=0 i b= 1/2
En aquest cas podem obtenir les 5 mesures resum de la variable Y partint de les de la variable X, sense haver de tornar a fer tots els
càlculs.

Exemple:
NOTA! Encara que s’apliqui una transformació lineal que combini el canvi d’origen (suma o resta) i el canvi d’escala
(multiplicació o divisió), a les mesures de dispersió només se les hi aplica el canvi d’escala i a les mesures de posició se les hi
aplica els dos canvis.
5.2.2. TRANSFORMACIONS NO LINEALS DE DADES
En les transformacions no lineals (logaritmes, quadrats, inversa...) no podem calcular la nova mitjana o la nova desviació (o altres
mesures) simplement aplicant la fórmula de transformació. I tampoc es preserva la forma.
6. DISTRIBUCIÓ NORMAL
RECORDATORI! Quan explorem la distribució d’una variable quantitativa:
1) Comencem amb un gràfic (histograma o tronc-i-fulles)
2) Identifiquem l’aspecte general de la distribució (centre, dispersió i forma) i les observacions atípiques.
3) Triem un resum numèric per a descriure de forma breu el centre i la dispersió de la distribució.
Ara podem afegir-hi un nou element: De vegades, la forma de la distribució d’un gran nombre d’observacions és tant “regular” que la
podem descriure mitjançant una corba llisa.
6
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
6.1. CORBA DE DENSITAT
Una corba de densitat és un model matemàtic de la distribució de dades que mostra una aproximació de la distribució de la variable.
S’utilitza quan hi ha moltes observacions i quan la distribució és “regular” (és a dir, quan és simètrica, els dos costats baixen de forma
suau i quan no hi ha buits o dades extremes). Per tant, ignora les petites irregularitats, els valors atípics i dóna una descripció compacta
de les dades.
Com es pot observar, la forma de la corba de densitat és sempre la mateixa independentment del nombre de classes que es triïn (l’únic
que es veu afectat és l’histograma).
6.1.1. PROPIETATS


Com trobar una proporció?
Per exemple, si busquem la proporció d’estudiants amb notes
inferiors a 4 primer hem d’ajustar l’escala de manera que l’àrea total
per sota de la corba sigui igual a 1.
A continuació busquem l’àrea compresa entre 0 i 4 per sota de la
corba i es calcula mitjançant integrals.
Mesures de centre
La mediana és el punt que divideix l’àrea per sota de la
corba en dues meitats amb el mateix nombre
d’observacions (50%).
La mitjana i la mediana coincideixen en una distribució
simètrica. Però en una asimètrica, la mitjana s’aparta de
la mediana en direcció a la cua més llarga.
Per tant, l’àrea compresa entre el primer quartil i el tercer quartil agafa el 50% de les observacions.
IMPORTANT!!!
Tota distribució normal té
curtosi 0.
6.2. LA DISTRIBUCIÓ NORMAL
Les corbes de densitat normals són una classe especial de corbes que es caracteritzen per ser: simètriques, unimodals (un sol pic), tenir
forma de campana i es descriuen a partir de la mitjana (µ) i de la desviació estàndard (σ). La mitjana se situa en el centre de la corba de
densitat i la desviació típica controla la dispersió.
Les distribucions normals són molt importants en estadística perquè descriuen bé molts conjunts de dades, aproximen bé els resultats
de molts processos aleatoris i molts processos d’inferència estadística estan basats en elles.
7
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
6.2.1. PROPIETATS
La regla del 68-95-99,7. Es dóna a totes les distribucions normals i es compleix que:
o
o
o
El 68% de les observacions es troben entre µ- σ i µ +σ.
El 95% de les observacions es troben entre µ -2σ i µ +2σ.
El 99,7% de les observacions es troben entre µ -3σ i µ +3σ.
IMPORTANT!!!
Si volem saber si una
distribució és normal o no,
hem de comprovar que
verifiqui aquesta regla.
6.2.2. NORMAL ESTANDARDITZADA
Variables estandarditzades. Una variable estandarditzada (z) ens diu a quantes desviacions típiques (σ) es troba l’observació original
(x) respecte la mitjana (µ) i en quina direcció.
Exemple:
𝑧=
𝑥−𝜇
𝜎
Estudiant A: té una nota de 8 (a la seva classe la mitjana és 5 i la desviació estàndard 1’5).
El valor estandarditzat és 2.
Estudiant B: té una nota de 76 (la mitjana de la seva classe és 40 i la desviació estàndard
12). El valor estandarditzat és 3.
Com es pot observar, la variable z és una transformació lineal de la variable x, per tant si la
variable x té una distribució normal, la variable z també té una distribució normal. Llavors,
si la variable x té una distribució N(µ, σ), la variable z té una distribució N(0,1).
La distribució de z s’anomena Normal estandarditzada o tipificada.
8
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
6.2.3. CÀLCULS AMB LA NORMAL
EXEMPLE: NOTES DE CLASSE N(5;1,5)
Càlcul d’un valor: Quina és la nota per sota de la qual es troba el 75% de la classe?

1)
2)
A continuació, i per poder saber la nota, cal trobar la x:
𝑧=

1)
𝑥−5
→ 𝑥 = 0′ 67 · 1′ 5 + 5 = 𝟔′𝟎𝟏
1,5
Càlcul d’una proporció (o percentatge): Quin percentatge d’estudiants ha obtingut un mínim de 7?
2)
A continuació, no s’ha de fer cap càlcul més ja que el percentatge trobat és el mateix tant a la distribució normal com la
estandarditzada.
6.2.4. VALORACIÓ DE LA NORMALITAT
Cóm podem saber si la distribució Normal és una bona aproximació a la distribució de les nostres dades? Hi ha dues vies:


Diagnòstic visual: histogrames i tronc-i-fulles simètrics, sense buits i sense observacions atípiques.
Diagnòstic numèric: la regla del 68-95-99’7 i altres (coeficient de simetria i curtosi han d’estar molt a prop de zero).
9
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
7. CONJUNTS DE DUES VARIABLES
7.1. DIAGRAMA DE DISPERSIÓ
Un diagrama de dispersió mostra la forma, direcció i força de la relació entre dues variables quantitatives. Per tant, s’ha d’estudiar la
forma (si es tracta d’una relació lineal o no lineal i si hi ha desviacions respecte de l’aspecte general), la direcció (si hi ha una associació
positiva o negativa o no n’hi a cap) i la força (els punts del diagrama s’ajusten molt a l’aspecte general de la relació o estan molt
dispersos).
FORMA I DIRECCIÓ
DESVIACIONS
FORÇA DE L’ASSOCIACIÓ LINEAL
Una dada amb valors significativament
diferents dels de les altres dades és una
observació atípica sempre i quan no es
desviï de l’aspecte general de les dades.
Una associació lineal és forta si els punts
del diagrama estan poc dispersos al
voltant de la forma principal.
Ja que l’observació es troba desviada
llavors diem que és un outlier (valor
extrem influent)
7.2. CORRELACIÓ
El coeficient de correlació mesura la força i la direcció de la relació lineal entre dues variables quantitatives. La correlació “r” és un
promig de la suma dels productes de les variables estandarditzades i, per tant, no té unitats.
RECORDA!!!
La correlació és invariable a
canvis d’escala.
També es pot expressar com:
7.2.1. PROPIETATS
1)
2)
3)
4)
On el numerador s’anomena covariància i es igual a:
El coeficient de correlació és positiu si l’associació lineal és positiva i negatiu si l’associació lineal és negativa.
El coeficient de correlació pern valors entre -1 i 1. Quant més a prop de 1 o -1, més forta és la relació lineal.
El coeficient de correlació només serveix per mesurar la direcció i la força de les associacions lineals. Quan la relació és no lineal, no
hi ha correlació.
Els outlier (o valors extrems influents) afecten a la correlació i la redueixen mentre que les observacions atípiques no influeixen.
7.3. LA RECTA DE REGRESSIÓ DE MÍNIMS QUADRATS ORDINARIS
Una recta de regressió és una línia que descriu de forma resumida com varia una variable resposta “y” quan varia la variable explicativa
“x”. Per tant, la recta es pot fer servir per fer prediccions. Per trobar aquesta recta el que s’ha de fer es triar aquella recta on la suma de
totes les distàncies dels punts a la recta sigui la més petita possible. Anomenem “residu” a la diferència entre el valor observat de la
variable resposta, i el valor predit per la variable resposta. El residu al quadrat és la nostra mesura de distància.
D’aquesta manera obtenim la recta de regressió mínim-quadràtica de “y” en relació a “x” que és la recta que fa que la suma dels quadrats
dels residus sigui el més petit possible.
Interpretació: el pendent ens diu quina quantitat canvia “𝑦̂” quan “x” augmenta una unitat (s’ha de multiplicar per 100 si volem saber el
percentatge). I l’ordenada d’origen és el valor de “𝑦̂” quan “x” és igual a 0.
10
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
7.3.1. CÀLCUL DE LA RECTA DE REGRESSIÓ A PARTIR DE RESUMS
Si tenim alguns resums bàsics també podem deduir l’equació de la recta a partir de la fórmula de la recta de regressió.
7.3.2. LA 𝑹𝟐 (COEFICIENT DE DETERMINACIÓ)
𝑅2 és el quadrat de la correlació r. S’anomena coeficient de determinació i es troba entre 0 i 1. Aquest coeficient representa la fracció
de la variació de la variable resposta “y” que pot ser explicada per la recta de regressió de mínims quadrats ordinaris. Es podria dir que
és el coeficient que mesura la bondat de l’ajust (si ho multipliques per 100 trobes fins a quin percentatge de les variables resposta
estan perfectament explicat ).
1)
2)
3)
4)
5)
7.3.3. PROPIETATS
La suma dels residus sempre és 0.
La recta de regressió MQO sempre passa pel punt (𝑥̅ , 𝑦̅).
Al contrari que en el cas del càlcul de la correlació, la distinció entre variable resposta i variable explicativa és important en
regressió.
Correlació i pendent de regressió estan relacions però no són el mateix.
La variable independent és la variable explicativa, aquella que ve donada i ens ajuda a explicar els resultats de la variable
dependent. La variable dependent o explicada, és la que volem predir o explicar amb el nostre model en funció de les variables
explicatives.
7.3.4. CORRELACIÓ I REGRESSIÓ
La correlació és una mesura de dispersió en
les dues direccions (la y i la x) en una relació
lineal.
En regressió ens interessa la variació en la
variable resposta “y” per un canvi donat de la
variable explicativa “x”.
Recorda! Quan el coeficient d’asimetria es proper a 0 tenim una distribució simètrica, en canvi, quant més s'apropa a 1 o -1
tenim una distribució asimètrica cap a la dreta o cap a l'esquerra respectivament.
11
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
IMPORTANT!!!
8. CONJUNT DE DUES VARIABLES (II)
8.1. ANÀLISI DE RESIDUS
L’error de regressió és una mesura de dispersió
que es pot utilitzar com a desviació estàndard a
les distribucions normals.
Valor
observat
Els residus són la diferència entre el valor observat i el valor predit per la diferència. Per tant, l’error de predicció es calcula: 𝑒 = 𝑦 − 𝑦̂.
Els residus poden representar-se en un diagrama de residus.
L’Anàlisi de residus serveix per comprovar si es compleixen els supòsits bàsics de la regressió.



Que no hi ha observacions estranyes o influents que condicionen els resultats i que potser seria millor no incloure a l’hora
de fer la regressió.
Que la relació és lineal i està justificat representar-la mitjançant una recta.
Que no hi ha variables latents que no estem tenint en compte i que explicarien millor la relació observada.
8.1.1. OBSERVACIONS ATÍPIQUES
Una observació atípica no encaixa en l’aspecte general del diagrama i és influent si, en eliminar-la, la recta de regressió canvia
significativament. Els punts que són atípics en la direcció de les x acostumen a ser influents. En aquests hem de decidir si els trèiem o els
deixem.
8.2. REGRESSIÓ NO LINEAL
En alguns casos la relació és clarament no lineal. Què podem fer? De vegades és possible transformar les dades de manera que es pugui
establir una relació lineal. Hi ha tres possibles transformacions que podem fer amb l’ODStatistics:



𝑙𝑜𝑔. log → ln(𝑦) = 𝑎 + 𝑏 · ln(𝑥)
𝑠𝑒𝑚𝑖. log → ln(𝑦) = 𝑎 + 𝑏𝑥
𝑟𝑒𝑐í𝑝𝑟𝑜𝑐𝑎 → 𝑦 = 𝑎 + 𝑏 ·
1
𝑥
A l’hora de fer servir la recta per fer prediccions no podem fer servir la recta de regressió amb les dades originals perquè la relació no és
lineal. Per tant, hem d’utilitzar la recta de regressió amb les variables transformades.
EXEMPLE: la recta de regressió amb la transformació és ln(𝑦) = 5′ 02 − 0′ 83 · ln(𝑥)
Volem saber quin és el valor de y quan 𝒙 = 𝟕𝟎
1)
2)
3)
Calculem 𝑙𝑛(70) = 4’24
Substituïm 4’24 a la funció i dóna 1’5.
Però com volem saber el valor predit de 𝑦 no de 𝑙𝑛(𝑦). Aïllem la y i trobem
que 𝑒1.5 = 𝑦 = 4′48
12
Descargado por AURORA CID RODRÍGUEZ ([email protected])
Valor
predit
lOMoARcPSD|18261362
8.3. VARIABLES LATENTS
Una variable latent és una variable que no s’inclou
entre les variables estudiades i que, malgrat això, té un
important efecte en la relació que existeix entre elles.
Ara introduïm una tercera variable: assignatura de l’examen.
8.4. INTERPRETACIÓ DE LA REGRESSIÓ
8.4.1. EXTRAPOLACIÓ
L’extrapolació és la utilització d’una recta de regressió per a predir fora de l’interval de valors la variable explicativa x. No sempre té
sentit.
8.4.2. REGRESSIÓ AMB MITJANES
La correlació entre mitjanes és major que entre les variables originals i la bondat d’ajust també és més elevada però no es pot dir que hi
hagi una relació forta.
RECORDA!! Associació no implica causalitat! No hi ha cap relació entre el número de sabata i la capacitat lectora per exemple.
8.5. RESUM
13
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
9. CONJUNT DE DUES VARIABLES (III)
9.1. ANÀLISI ENTRE DUES VARIABLES CATEGÒRIQUES
Per poder analitzar les possibles relacions entre les variables categòriques, el primer que hem de fer és organitzar les dades en forma de
taula de contingència (combinant les taules de freqüències de les dues variables categòriques) la qual ens mostra els recomptes de les
dues variables categòriques.
A més, la taula de contingència mostra la distribució conjunta de les dues variables. Però també mostra la distribució marginal (els
recomptes de cada variable per separat) de les variables.
DISTRIBUCIÓ CONJUNTA
DISTRIBUCIÓ MARGINAL
A continuació, un cop obtinguda la taula de contingències, hem de fixar-nos en les distribucions condicionals, és a dir, primer hem de
centrar-nos només en els ciclistes que portaven casc i calcular quina proporció d’aquests ciclistes van patir lesions al cap. Això és el què
anomenem com la distribució de la variable “Lesions al cap” condicional a portar casc.
Tot seguit hem de comparar aquesta distribució amb la de les lesions al cap dels ciclistes que no portaven casc. Això és la distribució de
la variable “Lesions al cap” condicional a NO portar casc.
DISTRIBUCIÓ DE LA VARIABLE “LESIONS AL CAP”
CONDICIONAL A PORTAR CASC
DISTRIBUCIÓ DE LA VARIABLE “LESIONS AL CAP”
CONDICIONAL A NO PORTAR CASC
Només un 11’56% dels que portaven casc va patir lesions al cap, contra un 33’75% del que no en portaven. Com
els percentatges són molt diferents podem concloure amb que hi ha relació entre les dues variables. Per
tant, en aquest cas l’ús del casc està relacionat amb la probabilitat de patir lesions al cap.
Alternativament ens podríem haver fixat en la distribució de la variable ús del casc, condicional a haver patit
lesions o no al cap. També hauríem apreciat diferències significatives.
Si les distribucions d’una variable X condicionals als diferents valors d’una altra variable Y són molt diferents entre sí,
podem afirmar que existeix relació entre les dues variables categòriques.
Si les distribucions d’una variable X condicionals als diferents valors d’una altra variable Y són molt igual entre sí i similars
a la distribució marginal de X, no trobem evidència de relació entre les variables.
14
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
Un altre exemple seria: són els esquerrans més intel·ligents que els dretans?
1) TAULA DE CONTINGÈNCIES
2) DISTRIBUCIONS CONDICIONALS (Podem escollir qualsevol de les dues opcions)
3) COMPARACIÓ
Les distribucions condicionals dels dos possibles casos són iguals entre elles ( també iguals a la distribució marginal).
Per tant, no hi ha relació.
PARADOXA DE SIMPSON
Hi ha un cas especial conegut com la paradoxa de Simpson. Aquest cas es dóna quan una relació entre dues variables categòriques pot
canviar de direcció quan es té en compte una tercera variable. És a dir:
1) Tenim tres variables X,Y,Z. Analitzem la relació entre X i Y ignorant Z (combinen en un sol grup).
2) També analitzem la possible relació entre X i Y per a cada valor de Z per separat.
3) Si els resultats dels dos procediments són diferents, hi ha paradoxa de Simpson.
EXEMPLE:
X= Gènere de l’estudiant
Y= Núm. Admissions
Inicialment sembla que hi ha discriminació
contra les dones perquè la majoria
d’admesos són homes.
Z= Facultat
Però ara es pot veure que ser admès a
física és més fàcil que ser admès a química.
I la majoria de dones demanen química,
per això, tan poques dones han estat
admeses.
CONCLUSIÓ:
En aquest exemple comprovem que el percentatge d’admissions de les dones és igual o, fins i tot, més alt que
els dels homes en les dues facultats.
Però quan ometem la variable Facultat sembla tot el contrari (sembla que les dones siguin discriminades).
En aquest cas es dóna una Paradoxa de Simpson.
15
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
9.2. ANÀLISI DE LA RELACIÓ ENTRE UNA NUMÈRICA I UNA CATEGÒRICA
Per estudiar la relació entre una variable numèrica i una variable categòrica, primer hem de distingir entre variables categòriques amb
ordre i sense ordre i, a continuació, fer anàlisis gràfics i numèrics de la variable numèrica dins de cada categoria per comprar.

Una variable categòrica és sense ordre si les categories no es poden ordenar de forma natural. Exemples: gènere, grup ètnic,
barri, comarca...
o En el cas de sense ordre només podem dir si hi ha o no relació entre les variables: el gènere pot estar relacionat
amb la despesa de certs tipus de productes, la comarca de residència pot estar relacionada amb la despesa en
transport...

Una variable categòrica és amb ordre si les categories es poden ordenar de forma natural. Exemples: nivell educatiu, grup
d’edat, d’ingressos... [de menor a major]
o En el cas de les variables categòriques amb ordre podem parlar de la direcció de l’associació (positiva o negativa)
entre la variable numèrica i la categòrica. Exemple: estudis superiors estan relacionats amb ingressos més alts, etc...
EXEMPLE 1: Relació entre despesa en oci (variable numèrica mesura en €) i gènere (variable categòrica home/dona) de
100 estudiants.
1) La variable categòrica es sense ordre.
2) Comparar resums numèrics de Despesa per a cada categoria
de gènere per separat.
Podem observar que les mitjanes de despesa són molt
semblants.
Però que la dispersió es més gran entre els homes.
3) Comparar resums gràfics de Despesa per a cada categoria de gènere per separat.
Amb els histogrames a
més podem veure que
la distribució de la
despesa de les dones
és una mica asimètrica
cap a la dreta mentre
que la distribució dels
homes
és
més
simètrica.
De nou apreciem una major dispersió entre els homes.
El 50% de les dones gasta entre 27€ i 47€ mentre que el 50%
dels homes gasta entre 20€ i 56€.
CONCLUSIÓ: Hi ha relació entre les dues variables perquè hi ha diferències entre el comportament dels homes i de les dones.
EXEMPLE 2: Relació entre ingressos mensuals i nivell educatiu assolit per a 97 individus.
1) La variable categòrica es amb ordre.
2) Comparar resums gràfics d’Ingressos per a cada categoria de nivell educatiu per separat.
Podem apreciar una
clara diferència en la
distribució
de
la
renda segons el nivell
educatiu.
Per tant, aquestes
dues variables estan
relacionades.
Hi ha una associació positiva entre nivell educatiu i renda (a més
estudis més renda).
També es pot observar que la dispersió és diferent.
16
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
9.3. ANÀLISI DE LA RELACIÓ ENTRE DUES VARIABLES NUMÈRIQUES I UNA CATEGÒRICA
També podem fer una anàlisi de la relació entre dues variables numèriques i una categòrica. Llavors, primer analitzarem la
relació entre les dues numèriques per a cada categoria per separat.
EXEMPLE 3: Relació entre salaris brut anual, anys d’antiguitat a l’empresa i departament on es treballa per a 100 empleats.
RELACIÓ ENTRE LES DUES VARIABLES NUMÈRIQUES
RELACIÓ INCLOENT LA VARIABLE CATEGÒRICA
El salari d’entrada predit és
major per als del Departament
B, però l’increment de salari per
antiguitat és menor que en el
Departament A i la relació entre
salari i antiguitat és menys
forta.
El salari d’entrada
predit és 22.557€ i
es guanya 388€ per
any d’antiguitat.
Hi ha molta més variabilitat al
Departament B.
Per tant, si que hi ha relació entre l’antiguitat i el sou i aquesta relació
sembla més forta al Departament A.
10. SÈRIES TEMPORALS
10.1.
COMPONENTS D’UNA SÈRIE TEMPORAL
Per començar, l’estadística pot ser de dos tipus: descriptiva o inferencial. I les sèries temporals es troben entre aquests dos camps i
s’utilitzen molt per fer prediccions. Llavors, una sèrie temporal es pot definir com una variable numèrica que està ordenada
cronològicament en funció del temps. Notació: 𝑌𝑡 = 𝑌(𝑡)
La sèrie pot ser anual, trimestral, mensual, diària i, fins i tot, per hores o minuts segons el cas que estiguem estudiant. Les sèries
temporals són molt útils per fer prediccions a partir de la informació inicial de la què disposem.
Per fer prediccions, s’han de tenir en compte tres tipus de factors: a curt termini (període inferior a un any. Ex: consum d’energia,
PIB...), a mitjà termini (període entre un any i cinc anys. Ex: recessió econòmica...) i a llarg termini (període superior a cinc anys. Ex:
canvis estructurals en la economia com la introducció de l’euro o demogràfics com les explosions de naixements).
RECORDA!! Dins dels factors de curt termini també hi poden haver factors inesperats o puntuals (ex: la fallida d’una gran
empresa)
Els components de la sèrie són:




Tendència (T): seria el component a llarg termini. Pot ser creixent o decreixent però això no significa que sempre ho sigui. El
que mostra és el comportament general de tota la sèrie.
Cicle (C): és el component a mitjà termini, associat generalment al cicle econòmic.
Estacional (E): és el comportament periòdic a curt termini que es repeteix dins de períodes més grans. Està associat al clima o
als hàbits socials.
Irregular (I): és un comportament a curt termini aleatori i difícil de predir ja que els altres components de la sèrie es poden
calcular mentre que aquest com a molt es pot controlar. [“COMPONENT DE RISC”]. Ex: Una tempesta destrossa la collita de
cereals.
Un cop tenim una sèrie i tots els seus components podem combinar-los segons 3 models: Additiu (suma dels quatre components),
Multiplicatiu (és el producte dels quatre components) i Mixt (es combinen sumes i multiplicacions, per exemple, podem aïllar el
component irregular)
17
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
En els models sumatius les variables son tractades com independents entre elles mentre que en els models multiplicatius se suposa que
les variables són més dependents entre elles. En el cas dels models multiplicatius o mixts, les sèries sovint tenen un comportament més
volàtil.
RECORDA!! Podem passar d’un model multiplicatiu a un d’additiu a partir del logaritme.
10.2.
CÀLCUL DEL COMPONENT CICLE-TENDÈNCIA
A l’hora de fer càlculs ens podem trobar en dues situacions:
1)
2)
Trobar la sèrie a partir dels components. Només s’ha d’utilitzar un dels tres models.
Donat el valor global de la sèrie, cóm trobem els components de forma separada?
Additiva
I=0
Multiplicativa
I=1
Sèrie:
Per la determinació del component tendència-cicle hi ha dos camins possibles: ajustar per una funció (pots donar valors exactes) o
aproximar per mitjanes mòbils (perdem informació ja que utilitzem promitjos). La millor opció es trobar la tendència a través d’una
funció però es força complicat i, per tant, és més pràctic aproximar per mitjanes mòbils.
La tècnica de les mitjanes mòbils consisteix en calcular una nova sèrie a partir de les mitjanes d’uns quants períodes consecutius de la
sèrie original. Cada nou valor de la mitjana mòbil descarta el valor més antic de la sèrie original i incorpora un de més nou.
Exemple amb ordre imparell:
Per intervals de temps molt petit, la tendència és una línia recta.
Nosaltres hem de triar l’ordre de les mitjanes. Quan l’ordre és imparell la mitjana
queda centrada però quan l’ordre és parell la mitjana no queda centrada i cal
fer un ajust perquè sino la mitjana queda entre dos períodes i no està definida
per un concret.
Com més gran és l’ordre de la mitjana, més precisa és la tendència però perds més
valors extrems. I com més petit és l’ordre de la mitjana, menys precisa és la tendència
però agafes més valors extrems.
Exemple amb ordre parell:
El mètode és el mateix però et trobes que no saps quin valor donar a t.
Per tant, el que has de fer és calcular el promig de cada grup de 4 (o del
número que vulguis) amb l’anterior.
18
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
10.3.
CÀLCUL DEL COMPONENT ESTACIONAL
Un cop hem obtingut la tendència i el cicle (el cicle normalment es dóna com =0) ara ja només ens queda l’estacionalitat i l’irregular.
Només hem d’aïllar aquests dos components.
Primer volem trobar l’estacionalitat. Sabem que el component estacional es repeteix cada any. Llavors fem un promig dels valors
estacionals que tenim (tots del mateix període de temps [exemple: tercer trimestre] però de diferents anys). D’aquesta manera ens
aproximem.
(Ho podem fer gràcies a que la mitjana dels components irregulars tendeixen a 0).
IMPORTANT
Per tant, el component estacional es pot calcular
com:
Del trimestre corresponent i
de cada any
𝑬𝒕𝒓𝒊𝒎𝒆𝒔𝒕𝒓𝒆
𝑬𝒕𝒓𝒊𝒎𝒆𝒔𝒕𝒓𝒆
10.4.
∑(𝑬 + 𝑰)
=
𝒕𝒐𝒕𝒂𝒍 𝒅′𝒂𝒏𝒚𝒔 Del trimestre corresponent i
∑(𝒀 + 𝑻)
=
𝒕𝒐𝒕𝒂𝒍 𝒅′𝒂𝒏𝒚𝒔
de cada any
PREDICCIÓ
Hem pogut identificar i calcular els diferents components d’una sèrie a partir del seu comportament passat i present. Pel que fa al futur:




podem predir la tendència (mitjançant l’ajust d’una funció matemàtica).
NO podem predir el cicle (calen tècniques més avançades).
podem predir l’estacionalitat ja que és un element que es repeteix en el temps.
NO podem predir el component irregular, donar que és aleatori.
10.5.
EXERCICI
DADES
Components estacionals:
1r trimestre: 0,31
2n trimestre: -0,12
3r trimestre: -0,24
4rt trimestre: 0,05
Tendència: T=17,67+0,4t
a) Taxa d’atur 4t trimestre 2011?
Com no ens diuen res, suposem que el cicle i el component irregular són
igual a 0.
Llavors tenim que 𝑌11 = 𝑇11 + 𝐸11 = (17,67 + 0,4 · 11) + 0,05 = 𝟐𝟐, 𝟏𝟐.
La taxa d’atur al 4t trimestre de 2011 serà de 22,12%.
b) Valor tendència 4t trimestre 2010?
El 4t trimestre de 2010 ocupa la posició 8. Agafem les dues mitjanes
mòbils que ens interessen:
20,09 + 19,79 + 20,33 + 21,29
19,79 + 20,33 + 21,29 + 20,85
4
4
= 20,375
= 20,575
El punt mig d’aquestes mitjanes mòbils és el valor de la tendència del 4t
trimestre 2010:
20,375 + 20,575
= 𝟐𝟎, 𝟒𝟕𝟓
2
19
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
11. MESURES DE DESIGUALTAT I CONCENTRACIÓ
El nostre objectiu és esbrinar cóm es concentren unes determinades dades i saber cóm estan distribuïdes i, per això, utilitzem diferents
índexs. Com més gran sigui l’índex, major és la desigualtat. Aquests índexs proporcionen una mesura resum del grau de desigualtat o
concentració que permet la comparació de diverses dades. Per tant, desigualtat i concentració són conceptes relacionats
11.1.
ÍNDEX LORENZ-GINI
L’índex Lorenz-Gini permet calcular el grau de desigualtat d’una distribució a partir d’una escala entre 0-1. Definim l’índex de LorenzGini com el quocient entre les diferencies observades i les diferències en situació de màxima desigualtat. On el 0 és una situació de
màxima igualtat (on tothom rep el mateix) i l’1 és la situació de desigualtat absoluta (tot ho té una única persona).
PASSOS
1.
2.
3.
4.
5.
Primer, hem d’ordenar la distribució de menys a més i calcular la massa total de la variable X. Desprès, calculem els valors
acumulats
Calculem pi i qi
Calculem la suma de la diferència (pi-qi).
Calculem el cas de màxima desigualtat.
Finalment apliquem la fórmula i obtenim el valor de l’índex.
Situació inicial: Imaginem una herència de 110 milions d’euros que es reparteix entre 3 famílies de la següent manera:
2)
1)
Massa total de la variable (𝐴𝐾 )=110
4)
11.2.
3)
5)
ÍNDEX DE DIFERÈNCIES
Una altra manera de mesurar la desigualtat és comparar la renda (o qualsevol altra característica) de cada parell d’individus de la
població. Aquest índex també fluctua entre 0 (màxima igualtat) i 1 (màxima desigualtat). I cal recordar que els índexs són mesures
relatives, no depenen de les unitats i, per tant, són invariables a alteracions proporcionals de la variable analitzada.
PASSOS
1)
2) Calculem el cas de màxima desigualtat
3)
𝐼𝐷 =
20
Descargado por AURORA CID RODRÍGUEZ ([email protected])
894
= 0′903
990
lOMoARcPSD|18261362
11.3.
ÍNDEX 𝑪𝑲
És molt freqüent a les empreses. I es calculen diversos índexs. El càlcul de 𝐶𝑘 es fa de la següent manera:
1.Ordenem les empreses en ordre decreixent amb respecte a la seva quota de mercat.
2.Sumem les k primeres quotes de mercat. La suma d’aquestes quantitats és l’índex 𝐶𝑘 .
11.4.
ÍNDEX DE HERFINDAHL
És un dels índex més utilitzats en els informes empresarials. La interpretació de l’índex depèn dels països. Quan l’índex és 1 ens trobem
en un monopoli. Es sumen totes les quotes al quadrat.
PROPIETATS
1.
2.
3.
4.
5.
Caràcter no ambigu. Donats dos mercats, podem identificar quin dels dos mercats es troba més concentrat ja que aquest
índex té en compte tota la indústria. Com més alt és l’índex, més concentració hi ha.
Invariància a escala. Aquest índex no canvia per canvis en l’escala (si canviem les unitats de mesura), es manté invariable a
les alteracions de l’escala de mesura.
Transferència. L’índex augmenta quan es fusionen/absorbeixen les empreses. Hi ha més monopoli, per tant, l’índex creix.
Monotonicitat. Si totes les empreses tenen quotes de mercat idèntiques, l’índex es baix. L’índex decreix o creix depenen del
nombre d’empreses que hi ha al mercat.
Cardinalitat. Si dividim les empreses en la mateixa proporció, l’índex també decreix en la mateixa proporció.
En conclusió, els índexs de desigualtat i/o concentració proporcionen una mesura resum del grau de desigualtat o concentració d’una
distribució. Hem estudiat dos índexs de desigualtat en una escala de 0-1:


Índex de Lorenz-Gini
Índex de Diferències
I també hem estudiat dos índexs de concentració.


Índex 𝐶𝐾 (de
𝑘
𝑛
𝑎 1)
Índex de Herfindahl (de
12. NOMBRES ÍNDEX
12.1.
1
𝑛
𝑎 1)
INTRODUCCIÓ
Els nombres índexs són mesures estadístiques que serveixen per mesurar la variació de magnituds simples o complexes en el temps o
espai. Aquesta variació també es podria calcular a partir de les mitjanes però aquest procediment no es gaire efectiu quan tens un gran
conjunt de dades. Els índexs poden ser:


Índexs simples: fan referència a un article concret. Ex: llet.
Índexs complexos (o agregats): parlem de l’evolució d’un conjunt d’articles. Ex: índex de preus de l’automòbil, d’un cistell
d’aliments bàsics.
21
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
12.2.
NOMBRES ÍNDEX SIMPLES I COMPLEXOS
Per calcula l’índex, primer has de triar un període base (el fixa l’individu que fa l’estudi) i, a continuació, el preu de cada
període s’expressa com un percentatge del preu del període base (període de referència). L’índex del període base es sempre 100%.
Es podria interpretar:
A l’any 2005, el preu era un 1’46% més alt que al 2007
(període base).
I a l’any 2010, el preu és un 3’82% més baix que al 2007.
A vegades el preu base s’escull a partir d’una mitjana. Ex: en el cas dels països es compara la depesa per càpita de cada país respecte la
mitjana de la UE.
Els índexs simples tenen un interès limitat en economia. És més habitual utilitzar índexs per resumir l’evolució de magnituds complexes.
Sovint volem calcular la variació del preu d’una combinació d’articles.
Per trobar aquesta variació utilitzem l’índex Laspeyres. Primer calculem els índexs simples de cada cistell respecte el període base.
S’agafa la suma de el preu de cada període per la quantitat del període base respecte la suma de preus per les quantitats del període
base.
Hi ha una forma alternativa de calcular aquesta variació a partir de les ponderacions de cada article de l’any base. Calculem els índexs
simples de cada producte i els multipliquem per la ponderació.
Quan la composició dels cistells varien, és a dir, quan les quantitats de cada producte canvien, llavors utilitzem l’índex de Paasche. Per
tant, la diferència entre tots dos índexs és que Laspeyres utilitza pesos fixos mentre que Paasche utilitza pesos mòbils (però al cap i a la
fi són el mateix índex).
Per calcular els pesos Paasche calculem les ponderacions tal i com fèiem el l’opció alternativa al mètode de Laspeyres.
22
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
La referència és sempre 100 i a partir d’aquest valor comparem.
Els índexs Paasche són ideals però de vegades són difícils de calcular ja que requereixen molta informació. Sovint s’utilitzen els índexs
de Lasperyres, tot i que de tant en tant es canvia la base i les ponderacions, En aquests casos necessitem fer un canvi de base per poder
comparar els índexs dels diferents períodes.
L’IPC I LA INFLACIÓ
12.3.
L’índex de preus del consum mesura l’evolució del nivell de preus de béns i serveis adquirits per llars residents. Es caracteritza per
tenir una periodicitat mensual , la sèrie IPC és un índex de Laspeyres encadenat (la base canvia cada 5 anys) i cada mes de desembre es
canvien les ponderacions,
La inflació és la taxa de variació de l’IPC en dos períodes. Si hi ha molta inflació, això significa que els preus han pujat i ens acostem a
una situació d’inestabilitat, Per a no perdre poder adquisitiu, els valors monetaris d’aquestes variables (pensions, salaris, lloguers,
assegurances...) haurien d’augmentar en la mateixa proporció que el nivell de preus.
Per calcular la taxa d’inflació, calculem la diferència de l’índex del període que volem saber menys el període base dividit pel període
base i multiplicat per 0.
12.4.
CREIXEMENT NOMINAL I CREIXEMENT REAL
EXEMPLE
1)
3)
4)
2)
23
Descargado por AURORA CID RODRÍGUEZ ([email protected])
lOMoARcPSD|18261362
RESUM NOMBRES ÍNDEX
Tenim dos índexs principals:
1)
Índex de Paasche
𝐼𝑃 =
2)
Índex de Laspeyres
𝑃𝑟𝑒𝑢𝑠 𝑛𝑜𝑢𝑠 · 𝑞𝑢𝑎𝑛𝑡𝑖𝑡𝑎𝑡𝑠 𝑛𝑜𝑣𝑒𝑠
· 100
𝑃𝑟𝑒𝑢𝑠 𝑣𝑒𝑙𝑙𝑠 · 𝑞𝑢𝑎𝑛𝑡𝑖𝑡𝑎𝑡𝑠 𝑛𝑜𝑣𝑒𝑠
𝐼𝐿 =
𝑃𝑟𝑒𝑢𝑠 𝑛𝑜𝑢𝑠 · 𝑞𝑢𝑎𝑛𝑡𝑖𝑡𝑎𝑡𝑠 𝑣𝑒𝑙𝑙𝑒𝑠
· 100
𝑃𝑟𝑒𝑢𝑠 𝑣𝑒𝑙𝑙𝑠 · 𝑞𝑢𝑎𝑛𝑡𝑖𝑡𝑎𝑡𝑠 𝑣𝑒𝑙𝑙𝑒𝑠
Els preus vells i quantitats velles són les del període base.
Pel que fa al creixement, també tenim dos indicadors:
1)
Creixement nominal*
=
2)
(∑ 𝑝 · 𝑞 𝑑𝑒 𝑙 ′ 𝑎𝑛𝑦 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑡) − (∑ 𝑝 · 𝑞 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒)
𝑝 · 𝑞 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒
Creixement real
=
(Í𝑛𝑑𝑒𝑥 𝑑𝑒 𝑙 ′ 𝑎𝑛𝑦 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑡) − ( Í𝑛𝑑𝑒𝑥 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒)
Í𝑛𝑑𝑒𝑥 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒
A l’hora de calcular els índexs per trobar el creixement real, si no ens diuen que utilitzem els índexs de Paasche o de Laspeyres, el què
hem de fer per trobar-los és:
Si volem saber el creixement de
les vendes:
í𝑛𝑑𝑒𝑥 =
𝑞 𝑎𝑛𝑦 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑡
· 100
𝑞 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒
Si volem saber el creixement dels
preus:
O bé
í𝑛𝑑𝑒𝑥 =
𝑝 𝑎𝑛𝑦 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑡
· 100
𝑝 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒
El creixement nominal també es podria calcular a través dels índexs a l’igual que en el creixement real però tenint en compte
p·q.
24
Descargado por AURORA CID RODRÍGUEZ ([email protected])
Descargar