lOMoARcPSD|18261362 Anàlisi de dades (tots els temes) Analisi de Dades (Universitat Pompeu Fabra) Studocu no está patrocinado ni avalado por ningún colegio o universidad. Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 ANÀLISI DE DADES 1. INTRODUCCIÓ L’estadística és la ciència que tracta sobre l’obtenció d’informació a partir de dades amb l’objectiu de respondre unes preguntes concretes. En el nostre cas, ens centrem en l’estadística aplicada que es divideix en tres camps d’estudi: Obtenció de dades. Consisteix en obtenir una mostra representativa de la població que es vol estudiar i en dissenyar una enquesta adient. Anàlisi de dades. Consisteix en organitzar, analitzar i resumir els resultats obtinguts per mitjà de gràfics o resums numèrics. Inferència estadística. Consisteix en extrapolar els resultats obtinguts a un col·lectiu més ampli, juntament amb una afirmació sobre la fiabilitat d’aquestes conclusions. 2. MOSTRES 2.1. CÓM OBTENIR UNA MOSTRA REPRESENTATIVA DE LA POBLACIÓ? Població: conjunt d’individus Mostra: part de la població que realment observem. Una mostra representativa es pot obtenir de diverses maneres: Mostra aleatòria simple. En aquest cas tots els individus tenen la mateixa probabilitat de ser escollits per respondre l’enquesta. Algunes eines que es poden utilitzar per triar una mostra simple aleatòria són els generadors de números aleatoris o taules de dígits aleatoris (on aquests dígits es caracteritzen per ser aleatoris, tenir la mateix probabilitat de ser-hi i ser independents els uns dels altres). Mostra aleatòria estratificada. Primer es divideix la població en estrats (grups d’individus amb una característica comú) i després s’escullen mostres aleatòries simples de cada grup. Mostra en etapes múltiples. S’apliquen mostres aleatòries simples per etapes. De vegades la primera mostra és estratificada. 2.2. MOSTRES: POSSIBLES PROBLEMES Una mostra no és representativa quan la mostra és: de conveniència (es trien els individus de més fàcil accés) o de voluntaris (només contesten els què volen). Aquest últim tipus d’enquesta és freqüentment utilitzada en les enquestes digitals. En aquests casos es diu que l’estudi està esbiaixat, és a dir, que els resultats són poc creïbles o bé afavoreixen sistemàticament determinats resultats. 3. L’ENQUESTA 3.1. DISSENY DE L’ENQUESTA Primer de tot, em de decidir què és el què volem saber. La resposta serà la variable principal de l’estudi. A més, també em de buscar possibles característiques que influeixen i estan relacionats amb la variable. Fins i tot, si la mostra ha estat seleccionada a l’atzar i hem eliminat possibles biaixos de selecció, encara ens podem trobar amb alguns problemes: Biaix de resposta: mentides (quan les preguntes són molt personals), poca memòria (s’han de fer preguntes que es puguin contestar i que siguin clares). Biaix de redactat: preguntes dirigides o induïdes. Manca de cobertura: si es fan les enquestes per telèfon fix, els què no en tinguin seran exclosos. Manca de resposta: es dóna quan les preguntes són massa sensibles o l’enquesta és molt llarga. 3.2. ORGANITZACIÓ DE LA BASE DE DADES Una vegada tinguem les enquestes, hem d’organitzar la informació recollida. Individus: persones, animals o coses que es descriuen en un conjunt de dades. Variable (columnes d’Excel): qualsevol característica d’un individu. Hi ha dos tipus de variables: la categòrica o qualitativa (indica el grup o categoria a la que pertanyen els individus els quals poden estar numerats) i la quantitativa o numèrica (que pren valors numèrics i amb la qual es poden realitzar operacions matemàtiques. Hi ha 2 tipus: discretes [que no tenen decimals. Ex: edat] i contínues [que tenen decimals. Ex: diners que es gasten]) Observació o cas (files d’Excel): un individu amb totes les seves característiques. 1 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 Per organitzar la informació s’utilitza la taula de freqüències que està formada per: Freqüència absoluta: Nombre de vegades que observem un valor en un interval o classe. Freqüència absoluta acumulada. Freqüència relativa: tant per cent de vegades que observem un valor en un interval o classe. Freqüència relativa acumulada. Per elaborar aquesta taula, primer s’ha de buscar el mínim i el màxim i calcular la diferència (coneguda com el recorregut o rang). I a continuació dividim les dades en intervals de la mateixa amplada. Finalment, es convenient afegir gràfics de barres i de sectors. RECORDA!! Si per exemple hem d’estudiar unes dades del 2006, l’any no és una variable ja que per tots els individus sempre és el mateix. 4. EXAMEN DESCRIPTIU D’UNA VARIABLE 4.1. DIAGRAMES DE BARRES, DE SECTORS I L’HISTOGRAMA Quan les variables siguin categòriques, utilitzarem diagrames de barres o de sectors. Un histograma és la representació gràfica d’una taula de freqüències que ens permet descriure detalladament la distribució de les dades. 1) 2) 3) Decidir el número d’intervals (es recomanable calcular el recorregut). Un nombre adequat d’intervals es troba al voltant dels 8 aproximadament. Comptar quants casos hi ha a cada interval. Dibuixar l’histograma. 4.2. DIAGRAMA DE TRONCS I FULLES El diagrama de troncs i fulles s’utilitza per petits conjunts de dades. 1) 2) 3) 4) 5) PAS 1 Ordenar les dades de més petita a més gran. Separar cada observació en un tronc i una fulla. On una fulla és l’últim dígit del valor i el tronc és la resta de dígits. S’organitza tota la informació en una taula: els troncs se situen ordenats en vertical i les fulles al costat del seu respectiu tronc en horitzontal. Finalment, s’ha d’especificar les unitats de les fulles. Opcional: Si hi ha molta diferència entre els valors és recomanable arrodonir i si n’hi ha molt poca convé desdoblar. PAS 2 PAS 3 2 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 NOTA!! Un diagrama de tronc i fulles és una mena d’histograma en brut. És pràctic i ràpid per observar la distribució d’un petit conjunt de dades. 4.3. DESCRIPCIÓ NUMÈRICA DE LES DADES A l’hora de descriure una distribució de dades cal parlar sobre: Aspecte general: o Forma: Si és simètric o asimètric. Es veu si divideixes el gràfic en dos. I si és asimètric s’ha de dir si és cap a l’esquera o cap a la dreta.. o Centre: dir el valor del centre. o Dispersió: dir la distància que hi ha entre els diferents valors. Casos especials: o Observacions atípiques: mirar si hi ha algun valor molt separat de la resta. NOTA!! Per saber si hi ha valors atípics s’ha d’utilitzar la regla dels valors atípics: [𝑸𝟏 − 𝟏′ 𝟓𝑹𝑰𝑸 , 𝑸𝟑 + 𝟏′𝟓𝑹𝑰𝑸] Qualsevol valor de la distribució FORA d’aquest interval és atípic. 4.3.1. MESURES DE CENTRE Les dues principals mesures de centre són: MITJANA ARITMÈTICA 𝑥̅ = MEDIANA ∑𝑛𝑖=1 𝑥𝑖 𝑛 És el valor central, un cop les dades estan ordenades de més petita a més gran. Et pots trobar amb dos casos: Només serveix per distribucions simètriques. Ja que quan hi ha: Una asimetria cap a la dreta: la mitjana tendeix a variar cap a la dreta. Una asimetria cap a l’esquerra: la mitjana tendeix a variar cap a l’esquerra. El total de dades és senar: s’agafa el valor del mig. El total de dades és parell: es fa la mitjana dels dos valors centrals. Serveix tant per distribucions simètriques com asimètriques. Per tant, és una mesura de centre robusta (invariant respecte les dades extremes). 4.3.2. MESURES DE POSICIÓ Les dades es poden resumir amb l’ajut de 5 números, una vegada ordenades de més petit a més gran. MEDIANA MÍNIM MÀXIM Punt central. Separa el 50% de les observacions amb valors més petits (o més grans). Valor més petit. Valor més gran. Recorregut = màxim-mínim QUARTIL 1 (𝑸𝟏 ) Valor que separa el 25% de les observacions amb valors més petits. QUARTIL 3 (𝑸𝟑 ) Valor que separa el 75% de les observacions amb valors més petits. Per trobar el quartil 1 s’ha de calcular la mediana entre el mínim i la mediana central. I per trobar el quartil 3 s’ha de buscar la mediana entre la mediana central i el màxim. 3 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 4.3.3. MESURES DE DISPERSIÓ(O VARIABILITAT) RANG O RECORREGUT O RANG DE VARIACIÓ VARIÀNCIA Recorregut = màxim-mínim Ex: 180–155 =25 cm Entre la més baixa i la més alta hi ha 25 cm de diferència. A partir d’una mostra: ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 · 𝑛𝑖 𝑠2 = 𝑛−1 De tota una població: ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 · 𝑛𝑖 𝑠2 = 𝑛 Varia si hi ha dades extremes. RANG INTERQUARTÍLIC DESVIACIÓ TÍPICA RIQ = Q3 − Q1 És la distància promig de les diferents observacions respecte de la mitjana. Ex: 171-162,5=8,5 Entre la noia més alta del 25 % de les més baixes, i la noia més baixa del 25% de les més altes, hi ha 8,5 cm de diferència. És una mesura robusta. A partir d’una mostra: De tota una població: ∑𝑛 (𝑥𝑖 − 𝑥̅ )2 · 𝑛𝑖 𝑠 = √ 𝑖=1 𝑛 𝑠=√ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 · 𝑛𝑖 𝑛−1 Ex: Si la desviació típica de les alçades de les 19 noies és igual a 6,22 cm això significa que, en promig, el conjunt de les noies està a 6,22 cm per sobre o per sota de la mitjana de 166,74. 4.3.4. ALTRES MESURES MODA PERCENTILS (P%) La observació o classe amb major freqüència. Valors que estan en la posició per sota de la qual tenim el p% de les observacions. MESURES D’ASIMETRIA COEFICIENT DE VARIACIÓ 𝐶𝑉 = 𝑠 𝑥̅ MESURES DE CURTOSI (O APUNTAMENT) La curtosi mesura si la distribució és apuntada (positiva) o aplanada (negativa)en relació a una distribució normal) posant el focus en la forma de les cues laterals. Si la distribució fos exactament igual a la normal la mesura de curtosi hauria de ser exactament igual a 0. Una mesura de curtosi de -0,46 és relativament baixa i no ens permet descartar que X tingui una distribució aproximadament normal. En canvi la mesura de Y que és igual a -1,33 es relativament alta i podem confirmar que la variable Y no segueix una distribució normal. 4.4. DIAGRAMA DE CAIXES El diagrama de caixes és un gràfic construït a partir dels 5 números resum. Sovint les observacions atípiques (aquelles observacions que es troben molt allunyades de la resta) s’assenyalen apart. Exemple 1. Exemple 2. Comentari: El valor més habitual es troba entorn ____ (Mediana) Quanta dispersió hi ha (Comparar el RIQ amb el rang) Si hi ha valors atípics o no. Si és simètric o asimètric (mirant la localització de la mediana i la mitjana) S’ha d’especificar el grau d’asimetria i de dispersió per mitjà de: lleugerament, moderadament, molt... 4 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 4.5. QUINES MESURES HEM DE CALCULAR? Hi ha dos possibles casos: Distribució simètrica que no té valors extrems. Amb la mitjana i la dispersió típica n’hi ha suficient. Distribució asimètrica o que presenta valors extrems. S’han d’utilitzar els 5 números resum. La mediana i els quartils són mesures robustes, és a dir, el seu valor es veu relativament poc afectat per canvis en els valors numèrics d’una petita part de les observacions. RECORDA!! Per descriure la distribució d’una variable categòrica només es pot fer una comparació entre el percentatge de casos en cada categoria. 5. DADES AGRUPADES I TRANFORMACIONS LINEALS 5.1. DADES AGRUPADES Les dades agrupades són un conjunt de dades d’una variable numèrica presentat en forma d’una taula de freqüències. En aquest cas, no coneixem les dades originals però, tot i així, encara podem calcular mesures resum si adoptem alguns supòsits simplificadors. Com que no tenim més informació que la taula i no coneixem els ingressos individuals de les famílies, suposarem que totes les famílies d’un interval tenen la mateixa renda la qual és igual al punt mig de l’interval. 5.1.1. CÀLCUL DE LA MITJANA I DE LA DESVIACIÓ TÍPICA 5.1.2. CÀLCUL DELS 5 NÚMEROS RESUM Per trobar les mesures de posició és recomanable calcula prèviament la freqüència absoluta acumulada en la taula de freqüències. La renda mínima serà la de la família número 1. La renda màxima serà la de la família número 280. La mediana serà igual a la renda de la família que ocupi la posició central N/2=280/2=140. Per tant, la mediana serà la família que ocupi la posició 140. El primer quartil serà la renda de la família número N/4= 70 i el tercer quartil serà la renda de la família número 3N/4=210. Mín: 0 𝑄1 : 17.500 Med:17.500 5 𝑄3 :25.000 Màx: 100.000€ Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 5.2. TRANSFORMACIÓ DE DADES De vegades és necessari transformar les dades ja que els valors de cada variable han de ser mesurats en les mateixes unitats. Hi ha dos tipus de transformacions d’una variable X: Les lineals, en que sumem o restem una quantitat fixa a cada valor de X o multipliquem o dividim cada valor de X per una quantitat fixa, o ambdues coses simultàniament. Les no lineals: la resta de transformacions. Les mesures resum d’una variable que ha experimentat una transformació lineal tenen algunes propietats útils. 5.2.1. TRANSFORMACIONS LINEALS DE DADES Les transformacions lineals (canvis d’origen i canvis d’escala) poden expressar-se com: 𝑋 − (−𝑎) 𝑌= 𝑏 Exemples: Donem 20 € extra a cada noi: y= X+20 on a=20 i b=1 Doblem els diners de cada noi: y=2X on a=0 i b= 1/2 En aquest cas podem obtenir les 5 mesures resum de la variable Y partint de les de la variable X, sense haver de tornar a fer tots els càlculs. Exemple: NOTA! Encara que s’apliqui una transformació lineal que combini el canvi d’origen (suma o resta) i el canvi d’escala (multiplicació o divisió), a les mesures de dispersió només se les hi aplica el canvi d’escala i a les mesures de posició se les hi aplica els dos canvis. 5.2.2. TRANSFORMACIONS NO LINEALS DE DADES En les transformacions no lineals (logaritmes, quadrats, inversa...) no podem calcular la nova mitjana o la nova desviació (o altres mesures) simplement aplicant la fórmula de transformació. I tampoc es preserva la forma. 6. DISTRIBUCIÓ NORMAL RECORDATORI! Quan explorem la distribució d’una variable quantitativa: 1) Comencem amb un gràfic (histograma o tronc-i-fulles) 2) Identifiquem l’aspecte general de la distribució (centre, dispersió i forma) i les observacions atípiques. 3) Triem un resum numèric per a descriure de forma breu el centre i la dispersió de la distribució. Ara podem afegir-hi un nou element: De vegades, la forma de la distribució d’un gran nombre d’observacions és tant “regular” que la podem descriure mitjançant una corba llisa. 6 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 6.1. CORBA DE DENSITAT Una corba de densitat és un model matemàtic de la distribució de dades que mostra una aproximació de la distribució de la variable. S’utilitza quan hi ha moltes observacions i quan la distribució és “regular” (és a dir, quan és simètrica, els dos costats baixen de forma suau i quan no hi ha buits o dades extremes). Per tant, ignora les petites irregularitats, els valors atípics i dóna una descripció compacta de les dades. Com es pot observar, la forma de la corba de densitat és sempre la mateixa independentment del nombre de classes que es triïn (l’únic que es veu afectat és l’histograma). 6.1.1. PROPIETATS Com trobar una proporció? Per exemple, si busquem la proporció d’estudiants amb notes inferiors a 4 primer hem d’ajustar l’escala de manera que l’àrea total per sota de la corba sigui igual a 1. A continuació busquem l’àrea compresa entre 0 i 4 per sota de la corba i es calcula mitjançant integrals. Mesures de centre La mediana és el punt que divideix l’àrea per sota de la corba en dues meitats amb el mateix nombre d’observacions (50%). La mitjana i la mediana coincideixen en una distribució simètrica. Però en una asimètrica, la mitjana s’aparta de la mediana en direcció a la cua més llarga. Per tant, l’àrea compresa entre el primer quartil i el tercer quartil agafa el 50% de les observacions. IMPORTANT!!! Tota distribució normal té curtosi 0. 6.2. LA DISTRIBUCIÓ NORMAL Les corbes de densitat normals són una classe especial de corbes que es caracteritzen per ser: simètriques, unimodals (un sol pic), tenir forma de campana i es descriuen a partir de la mitjana (µ) i de la desviació estàndard (σ). La mitjana se situa en el centre de la corba de densitat i la desviació típica controla la dispersió. Les distribucions normals són molt importants en estadística perquè descriuen bé molts conjunts de dades, aproximen bé els resultats de molts processos aleatoris i molts processos d’inferència estadística estan basats en elles. 7 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 6.2.1. PROPIETATS La regla del 68-95-99,7. Es dóna a totes les distribucions normals i es compleix que: o o o El 68% de les observacions es troben entre µ- σ i µ +σ. El 95% de les observacions es troben entre µ -2σ i µ +2σ. El 99,7% de les observacions es troben entre µ -3σ i µ +3σ. IMPORTANT!!! Si volem saber si una distribució és normal o no, hem de comprovar que verifiqui aquesta regla. 6.2.2. NORMAL ESTANDARDITZADA Variables estandarditzades. Una variable estandarditzada (z) ens diu a quantes desviacions típiques (σ) es troba l’observació original (x) respecte la mitjana (µ) i en quina direcció. Exemple: 𝑧= 𝑥−𝜇 𝜎 Estudiant A: té una nota de 8 (a la seva classe la mitjana és 5 i la desviació estàndard 1’5). El valor estandarditzat és 2. Estudiant B: té una nota de 76 (la mitjana de la seva classe és 40 i la desviació estàndard 12). El valor estandarditzat és 3. Com es pot observar, la variable z és una transformació lineal de la variable x, per tant si la variable x té una distribució normal, la variable z també té una distribució normal. Llavors, si la variable x té una distribució N(µ, σ), la variable z té una distribució N(0,1). La distribució de z s’anomena Normal estandarditzada o tipificada. 8 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 6.2.3. CÀLCULS AMB LA NORMAL EXEMPLE: NOTES DE CLASSE N(5;1,5) Càlcul d’un valor: Quina és la nota per sota de la qual es troba el 75% de la classe? 1) 2) A continuació, i per poder saber la nota, cal trobar la x: 𝑧= 1) 𝑥−5 → 𝑥 = 0′ 67 · 1′ 5 + 5 = 𝟔′𝟎𝟏 1,5 Càlcul d’una proporció (o percentatge): Quin percentatge d’estudiants ha obtingut un mínim de 7? 2) A continuació, no s’ha de fer cap càlcul més ja que el percentatge trobat és el mateix tant a la distribució normal com la estandarditzada. 6.2.4. VALORACIÓ DE LA NORMALITAT Cóm podem saber si la distribució Normal és una bona aproximació a la distribució de les nostres dades? Hi ha dues vies: Diagnòstic visual: histogrames i tronc-i-fulles simètrics, sense buits i sense observacions atípiques. Diagnòstic numèric: la regla del 68-95-99’7 i altres (coeficient de simetria i curtosi han d’estar molt a prop de zero). 9 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 7. CONJUNTS DE DUES VARIABLES 7.1. DIAGRAMA DE DISPERSIÓ Un diagrama de dispersió mostra la forma, direcció i força de la relació entre dues variables quantitatives. Per tant, s’ha d’estudiar la forma (si es tracta d’una relació lineal o no lineal i si hi ha desviacions respecte de l’aspecte general), la direcció (si hi ha una associació positiva o negativa o no n’hi a cap) i la força (els punts del diagrama s’ajusten molt a l’aspecte general de la relació o estan molt dispersos). FORMA I DIRECCIÓ DESVIACIONS FORÇA DE L’ASSOCIACIÓ LINEAL Una dada amb valors significativament diferents dels de les altres dades és una observació atípica sempre i quan no es desviï de l’aspecte general de les dades. Una associació lineal és forta si els punts del diagrama estan poc dispersos al voltant de la forma principal. Ja que l’observació es troba desviada llavors diem que és un outlier (valor extrem influent) 7.2. CORRELACIÓ El coeficient de correlació mesura la força i la direcció de la relació lineal entre dues variables quantitatives. La correlació “r” és un promig de la suma dels productes de les variables estandarditzades i, per tant, no té unitats. RECORDA!!! La correlació és invariable a canvis d’escala. També es pot expressar com: 7.2.1. PROPIETATS 1) 2) 3) 4) On el numerador s’anomena covariància i es igual a: El coeficient de correlació és positiu si l’associació lineal és positiva i negatiu si l’associació lineal és negativa. El coeficient de correlació pern valors entre -1 i 1. Quant més a prop de 1 o -1, més forta és la relació lineal. El coeficient de correlació només serveix per mesurar la direcció i la força de les associacions lineals. Quan la relació és no lineal, no hi ha correlació. Els outlier (o valors extrems influents) afecten a la correlació i la redueixen mentre que les observacions atípiques no influeixen. 7.3. LA RECTA DE REGRESSIÓ DE MÍNIMS QUADRATS ORDINARIS Una recta de regressió és una línia que descriu de forma resumida com varia una variable resposta “y” quan varia la variable explicativa “x”. Per tant, la recta es pot fer servir per fer prediccions. Per trobar aquesta recta el que s’ha de fer es triar aquella recta on la suma de totes les distàncies dels punts a la recta sigui la més petita possible. Anomenem “residu” a la diferència entre el valor observat de la variable resposta, i el valor predit per la variable resposta. El residu al quadrat és la nostra mesura de distància. D’aquesta manera obtenim la recta de regressió mínim-quadràtica de “y” en relació a “x” que és la recta que fa que la suma dels quadrats dels residus sigui el més petit possible. Interpretació: el pendent ens diu quina quantitat canvia “𝑦̂” quan “x” augmenta una unitat (s’ha de multiplicar per 100 si volem saber el percentatge). I l’ordenada d’origen és el valor de “𝑦̂” quan “x” és igual a 0. 10 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 7.3.1. CÀLCUL DE LA RECTA DE REGRESSIÓ A PARTIR DE RESUMS Si tenim alguns resums bàsics també podem deduir l’equació de la recta a partir de la fórmula de la recta de regressió. 7.3.2. LA 𝑹𝟐 (COEFICIENT DE DETERMINACIÓ) 𝑅2 és el quadrat de la correlació r. S’anomena coeficient de determinació i es troba entre 0 i 1. Aquest coeficient representa la fracció de la variació de la variable resposta “y” que pot ser explicada per la recta de regressió de mínims quadrats ordinaris. Es podria dir que és el coeficient que mesura la bondat de l’ajust (si ho multipliques per 100 trobes fins a quin percentatge de les variables resposta estan perfectament explicat ). 1) 2) 3) 4) 5) 7.3.3. PROPIETATS La suma dels residus sempre és 0. La recta de regressió MQO sempre passa pel punt (𝑥̅ , 𝑦̅). Al contrari que en el cas del càlcul de la correlació, la distinció entre variable resposta i variable explicativa és important en regressió. Correlació i pendent de regressió estan relacions però no són el mateix. La variable independent és la variable explicativa, aquella que ve donada i ens ajuda a explicar els resultats de la variable dependent. La variable dependent o explicada, és la que volem predir o explicar amb el nostre model en funció de les variables explicatives. 7.3.4. CORRELACIÓ I REGRESSIÓ La correlació és una mesura de dispersió en les dues direccions (la y i la x) en una relació lineal. En regressió ens interessa la variació en la variable resposta “y” per un canvi donat de la variable explicativa “x”. Recorda! Quan el coeficient d’asimetria es proper a 0 tenim una distribució simètrica, en canvi, quant més s'apropa a 1 o -1 tenim una distribució asimètrica cap a la dreta o cap a l'esquerra respectivament. 11 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 IMPORTANT!!! 8. CONJUNT DE DUES VARIABLES (II) 8.1. ANÀLISI DE RESIDUS L’error de regressió és una mesura de dispersió que es pot utilitzar com a desviació estàndard a les distribucions normals. Valor observat Els residus són la diferència entre el valor observat i el valor predit per la diferència. Per tant, l’error de predicció es calcula: 𝑒 = 𝑦 − 𝑦̂. Els residus poden representar-se en un diagrama de residus. L’Anàlisi de residus serveix per comprovar si es compleixen els supòsits bàsics de la regressió. Que no hi ha observacions estranyes o influents que condicionen els resultats i que potser seria millor no incloure a l’hora de fer la regressió. Que la relació és lineal i està justificat representar-la mitjançant una recta. Que no hi ha variables latents que no estem tenint en compte i que explicarien millor la relació observada. 8.1.1. OBSERVACIONS ATÍPIQUES Una observació atípica no encaixa en l’aspecte general del diagrama i és influent si, en eliminar-la, la recta de regressió canvia significativament. Els punts que són atípics en la direcció de les x acostumen a ser influents. En aquests hem de decidir si els trèiem o els deixem. 8.2. REGRESSIÓ NO LINEAL En alguns casos la relació és clarament no lineal. Què podem fer? De vegades és possible transformar les dades de manera que es pugui establir una relació lineal. Hi ha tres possibles transformacions que podem fer amb l’ODStatistics: 𝑙𝑜𝑔. log → ln(𝑦) = 𝑎 + 𝑏 · ln(𝑥) 𝑠𝑒𝑚𝑖. log → ln(𝑦) = 𝑎 + 𝑏𝑥 𝑟𝑒𝑐í𝑝𝑟𝑜𝑐𝑎 → 𝑦 = 𝑎 + 𝑏 · 1 𝑥 A l’hora de fer servir la recta per fer prediccions no podem fer servir la recta de regressió amb les dades originals perquè la relació no és lineal. Per tant, hem d’utilitzar la recta de regressió amb les variables transformades. EXEMPLE: la recta de regressió amb la transformació és ln(𝑦) = 5′ 02 − 0′ 83 · ln(𝑥) Volem saber quin és el valor de y quan 𝒙 = 𝟕𝟎 1) 2) 3) Calculem 𝑙𝑛(70) = 4’24 Substituïm 4’24 a la funció i dóna 1’5. Però com volem saber el valor predit de 𝑦 no de 𝑙𝑛(𝑦). Aïllem la y i trobem que 𝑒1.5 = 𝑦 = 4′48 12 Descargado por AURORA CID RODRÍGUEZ ([email protected]) Valor predit lOMoARcPSD|18261362 8.3. VARIABLES LATENTS Una variable latent és una variable que no s’inclou entre les variables estudiades i que, malgrat això, té un important efecte en la relació que existeix entre elles. Ara introduïm una tercera variable: assignatura de l’examen. 8.4. INTERPRETACIÓ DE LA REGRESSIÓ 8.4.1. EXTRAPOLACIÓ L’extrapolació és la utilització d’una recta de regressió per a predir fora de l’interval de valors la variable explicativa x. No sempre té sentit. 8.4.2. REGRESSIÓ AMB MITJANES La correlació entre mitjanes és major que entre les variables originals i la bondat d’ajust també és més elevada però no es pot dir que hi hagi una relació forta. RECORDA!! Associació no implica causalitat! No hi ha cap relació entre el número de sabata i la capacitat lectora per exemple. 8.5. RESUM 13 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 9. CONJUNT DE DUES VARIABLES (III) 9.1. ANÀLISI ENTRE DUES VARIABLES CATEGÒRIQUES Per poder analitzar les possibles relacions entre les variables categòriques, el primer que hem de fer és organitzar les dades en forma de taula de contingència (combinant les taules de freqüències de les dues variables categòriques) la qual ens mostra els recomptes de les dues variables categòriques. A més, la taula de contingència mostra la distribució conjunta de les dues variables. Però també mostra la distribució marginal (els recomptes de cada variable per separat) de les variables. DISTRIBUCIÓ CONJUNTA DISTRIBUCIÓ MARGINAL A continuació, un cop obtinguda la taula de contingències, hem de fixar-nos en les distribucions condicionals, és a dir, primer hem de centrar-nos només en els ciclistes que portaven casc i calcular quina proporció d’aquests ciclistes van patir lesions al cap. Això és el què anomenem com la distribució de la variable “Lesions al cap” condicional a portar casc. Tot seguit hem de comparar aquesta distribució amb la de les lesions al cap dels ciclistes que no portaven casc. Això és la distribució de la variable “Lesions al cap” condicional a NO portar casc. DISTRIBUCIÓ DE LA VARIABLE “LESIONS AL CAP” CONDICIONAL A PORTAR CASC DISTRIBUCIÓ DE LA VARIABLE “LESIONS AL CAP” CONDICIONAL A NO PORTAR CASC Només un 11’56% dels que portaven casc va patir lesions al cap, contra un 33’75% del que no en portaven. Com els percentatges són molt diferents podem concloure amb que hi ha relació entre les dues variables. Per tant, en aquest cas l’ús del casc està relacionat amb la probabilitat de patir lesions al cap. Alternativament ens podríem haver fixat en la distribució de la variable ús del casc, condicional a haver patit lesions o no al cap. També hauríem apreciat diferències significatives. Si les distribucions d’una variable X condicionals als diferents valors d’una altra variable Y són molt diferents entre sí, podem afirmar que existeix relació entre les dues variables categòriques. Si les distribucions d’una variable X condicionals als diferents valors d’una altra variable Y són molt igual entre sí i similars a la distribució marginal de X, no trobem evidència de relació entre les variables. 14 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 Un altre exemple seria: són els esquerrans més intel·ligents que els dretans? 1) TAULA DE CONTINGÈNCIES 2) DISTRIBUCIONS CONDICIONALS (Podem escollir qualsevol de les dues opcions) 3) COMPARACIÓ Les distribucions condicionals dels dos possibles casos són iguals entre elles ( també iguals a la distribució marginal). Per tant, no hi ha relació. PARADOXA DE SIMPSON Hi ha un cas especial conegut com la paradoxa de Simpson. Aquest cas es dóna quan una relació entre dues variables categòriques pot canviar de direcció quan es té en compte una tercera variable. És a dir: 1) Tenim tres variables X,Y,Z. Analitzem la relació entre X i Y ignorant Z (combinen en un sol grup). 2) També analitzem la possible relació entre X i Y per a cada valor de Z per separat. 3) Si els resultats dels dos procediments són diferents, hi ha paradoxa de Simpson. EXEMPLE: X= Gènere de l’estudiant Y= Núm. Admissions Inicialment sembla que hi ha discriminació contra les dones perquè la majoria d’admesos són homes. Z= Facultat Però ara es pot veure que ser admès a física és més fàcil que ser admès a química. I la majoria de dones demanen química, per això, tan poques dones han estat admeses. CONCLUSIÓ: En aquest exemple comprovem que el percentatge d’admissions de les dones és igual o, fins i tot, més alt que els dels homes en les dues facultats. Però quan ometem la variable Facultat sembla tot el contrari (sembla que les dones siguin discriminades). En aquest cas es dóna una Paradoxa de Simpson. 15 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 9.2. ANÀLISI DE LA RELACIÓ ENTRE UNA NUMÈRICA I UNA CATEGÒRICA Per estudiar la relació entre una variable numèrica i una variable categòrica, primer hem de distingir entre variables categòriques amb ordre i sense ordre i, a continuació, fer anàlisis gràfics i numèrics de la variable numèrica dins de cada categoria per comprar. Una variable categòrica és sense ordre si les categories no es poden ordenar de forma natural. Exemples: gènere, grup ètnic, barri, comarca... o En el cas de sense ordre només podem dir si hi ha o no relació entre les variables: el gènere pot estar relacionat amb la despesa de certs tipus de productes, la comarca de residència pot estar relacionada amb la despesa en transport... Una variable categòrica és amb ordre si les categories es poden ordenar de forma natural. Exemples: nivell educatiu, grup d’edat, d’ingressos... [de menor a major] o En el cas de les variables categòriques amb ordre podem parlar de la direcció de l’associació (positiva o negativa) entre la variable numèrica i la categòrica. Exemple: estudis superiors estan relacionats amb ingressos més alts, etc... EXEMPLE 1: Relació entre despesa en oci (variable numèrica mesura en €) i gènere (variable categòrica home/dona) de 100 estudiants. 1) La variable categòrica es sense ordre. 2) Comparar resums numèrics de Despesa per a cada categoria de gènere per separat. Podem observar que les mitjanes de despesa són molt semblants. Però que la dispersió es més gran entre els homes. 3) Comparar resums gràfics de Despesa per a cada categoria de gènere per separat. Amb els histogrames a més podem veure que la distribució de la despesa de les dones és una mica asimètrica cap a la dreta mentre que la distribució dels homes és més simètrica. De nou apreciem una major dispersió entre els homes. El 50% de les dones gasta entre 27€ i 47€ mentre que el 50% dels homes gasta entre 20€ i 56€. CONCLUSIÓ: Hi ha relació entre les dues variables perquè hi ha diferències entre el comportament dels homes i de les dones. EXEMPLE 2: Relació entre ingressos mensuals i nivell educatiu assolit per a 97 individus. 1) La variable categòrica es amb ordre. 2) Comparar resums gràfics d’Ingressos per a cada categoria de nivell educatiu per separat. Podem apreciar una clara diferència en la distribució de la renda segons el nivell educatiu. Per tant, aquestes dues variables estan relacionades. Hi ha una associació positiva entre nivell educatiu i renda (a més estudis més renda). També es pot observar que la dispersió és diferent. 16 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 9.3. ANÀLISI DE LA RELACIÓ ENTRE DUES VARIABLES NUMÈRIQUES I UNA CATEGÒRICA També podem fer una anàlisi de la relació entre dues variables numèriques i una categòrica. Llavors, primer analitzarem la relació entre les dues numèriques per a cada categoria per separat. EXEMPLE 3: Relació entre salaris brut anual, anys d’antiguitat a l’empresa i departament on es treballa per a 100 empleats. RELACIÓ ENTRE LES DUES VARIABLES NUMÈRIQUES RELACIÓ INCLOENT LA VARIABLE CATEGÒRICA El salari d’entrada predit és major per als del Departament B, però l’increment de salari per antiguitat és menor que en el Departament A i la relació entre salari i antiguitat és menys forta. El salari d’entrada predit és 22.557€ i es guanya 388€ per any d’antiguitat. Hi ha molta més variabilitat al Departament B. Per tant, si que hi ha relació entre l’antiguitat i el sou i aquesta relació sembla més forta al Departament A. 10. SÈRIES TEMPORALS 10.1. COMPONENTS D’UNA SÈRIE TEMPORAL Per començar, l’estadística pot ser de dos tipus: descriptiva o inferencial. I les sèries temporals es troben entre aquests dos camps i s’utilitzen molt per fer prediccions. Llavors, una sèrie temporal es pot definir com una variable numèrica que està ordenada cronològicament en funció del temps. Notació: 𝑌𝑡 = 𝑌(𝑡) La sèrie pot ser anual, trimestral, mensual, diària i, fins i tot, per hores o minuts segons el cas que estiguem estudiant. Les sèries temporals són molt útils per fer prediccions a partir de la informació inicial de la què disposem. Per fer prediccions, s’han de tenir en compte tres tipus de factors: a curt termini (període inferior a un any. Ex: consum d’energia, PIB...), a mitjà termini (període entre un any i cinc anys. Ex: recessió econòmica...) i a llarg termini (període superior a cinc anys. Ex: canvis estructurals en la economia com la introducció de l’euro o demogràfics com les explosions de naixements). RECORDA!! Dins dels factors de curt termini també hi poden haver factors inesperats o puntuals (ex: la fallida d’una gran empresa) Els components de la sèrie són: Tendència (T): seria el component a llarg termini. Pot ser creixent o decreixent però això no significa que sempre ho sigui. El que mostra és el comportament general de tota la sèrie. Cicle (C): és el component a mitjà termini, associat generalment al cicle econòmic. Estacional (E): és el comportament periòdic a curt termini que es repeteix dins de períodes més grans. Està associat al clima o als hàbits socials. Irregular (I): és un comportament a curt termini aleatori i difícil de predir ja que els altres components de la sèrie es poden calcular mentre que aquest com a molt es pot controlar. [“COMPONENT DE RISC”]. Ex: Una tempesta destrossa la collita de cereals. Un cop tenim una sèrie i tots els seus components podem combinar-los segons 3 models: Additiu (suma dels quatre components), Multiplicatiu (és el producte dels quatre components) i Mixt (es combinen sumes i multiplicacions, per exemple, podem aïllar el component irregular) 17 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 En els models sumatius les variables son tractades com independents entre elles mentre que en els models multiplicatius se suposa que les variables són més dependents entre elles. En el cas dels models multiplicatius o mixts, les sèries sovint tenen un comportament més volàtil. RECORDA!! Podem passar d’un model multiplicatiu a un d’additiu a partir del logaritme. 10.2. CÀLCUL DEL COMPONENT CICLE-TENDÈNCIA A l’hora de fer càlculs ens podem trobar en dues situacions: 1) 2) Trobar la sèrie a partir dels components. Només s’ha d’utilitzar un dels tres models. Donat el valor global de la sèrie, cóm trobem els components de forma separada? Additiva I=0 Multiplicativa I=1 Sèrie: Per la determinació del component tendència-cicle hi ha dos camins possibles: ajustar per una funció (pots donar valors exactes) o aproximar per mitjanes mòbils (perdem informació ja que utilitzem promitjos). La millor opció es trobar la tendència a través d’una funció però es força complicat i, per tant, és més pràctic aproximar per mitjanes mòbils. La tècnica de les mitjanes mòbils consisteix en calcular una nova sèrie a partir de les mitjanes d’uns quants períodes consecutius de la sèrie original. Cada nou valor de la mitjana mòbil descarta el valor més antic de la sèrie original i incorpora un de més nou. Exemple amb ordre imparell: Per intervals de temps molt petit, la tendència és una línia recta. Nosaltres hem de triar l’ordre de les mitjanes. Quan l’ordre és imparell la mitjana queda centrada però quan l’ordre és parell la mitjana no queda centrada i cal fer un ajust perquè sino la mitjana queda entre dos períodes i no està definida per un concret. Com més gran és l’ordre de la mitjana, més precisa és la tendència però perds més valors extrems. I com més petit és l’ordre de la mitjana, menys precisa és la tendència però agafes més valors extrems. Exemple amb ordre parell: El mètode és el mateix però et trobes que no saps quin valor donar a t. Per tant, el que has de fer és calcular el promig de cada grup de 4 (o del número que vulguis) amb l’anterior. 18 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 10.3. CÀLCUL DEL COMPONENT ESTACIONAL Un cop hem obtingut la tendència i el cicle (el cicle normalment es dóna com =0) ara ja només ens queda l’estacionalitat i l’irregular. Només hem d’aïllar aquests dos components. Primer volem trobar l’estacionalitat. Sabem que el component estacional es repeteix cada any. Llavors fem un promig dels valors estacionals que tenim (tots del mateix període de temps [exemple: tercer trimestre] però de diferents anys). D’aquesta manera ens aproximem. (Ho podem fer gràcies a que la mitjana dels components irregulars tendeixen a 0). IMPORTANT Per tant, el component estacional es pot calcular com: Del trimestre corresponent i de cada any 𝑬𝒕𝒓𝒊𝒎𝒆𝒔𝒕𝒓𝒆 𝑬𝒕𝒓𝒊𝒎𝒆𝒔𝒕𝒓𝒆 10.4. ∑(𝑬 + 𝑰) = 𝒕𝒐𝒕𝒂𝒍 𝒅′𝒂𝒏𝒚𝒔 Del trimestre corresponent i ∑(𝒀 + 𝑻) = 𝒕𝒐𝒕𝒂𝒍 𝒅′𝒂𝒏𝒚𝒔 de cada any PREDICCIÓ Hem pogut identificar i calcular els diferents components d’una sèrie a partir del seu comportament passat i present. Pel que fa al futur: podem predir la tendència (mitjançant l’ajust d’una funció matemàtica). NO podem predir el cicle (calen tècniques més avançades). podem predir l’estacionalitat ja que és un element que es repeteix en el temps. NO podem predir el component irregular, donar que és aleatori. 10.5. EXERCICI DADES Components estacionals: 1r trimestre: 0,31 2n trimestre: -0,12 3r trimestre: -0,24 4rt trimestre: 0,05 Tendència: T=17,67+0,4t a) Taxa d’atur 4t trimestre 2011? Com no ens diuen res, suposem que el cicle i el component irregular són igual a 0. Llavors tenim que 𝑌11 = 𝑇11 + 𝐸11 = (17,67 + 0,4 · 11) + 0,05 = 𝟐𝟐, 𝟏𝟐. La taxa d’atur al 4t trimestre de 2011 serà de 22,12%. b) Valor tendència 4t trimestre 2010? El 4t trimestre de 2010 ocupa la posició 8. Agafem les dues mitjanes mòbils que ens interessen: 20,09 + 19,79 + 20,33 + 21,29 19,79 + 20,33 + 21,29 + 20,85 4 4 = 20,375 = 20,575 El punt mig d’aquestes mitjanes mòbils és el valor de la tendència del 4t trimestre 2010: 20,375 + 20,575 = 𝟐𝟎, 𝟒𝟕𝟓 2 19 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 11. MESURES DE DESIGUALTAT I CONCENTRACIÓ El nostre objectiu és esbrinar cóm es concentren unes determinades dades i saber cóm estan distribuïdes i, per això, utilitzem diferents índexs. Com més gran sigui l’índex, major és la desigualtat. Aquests índexs proporcionen una mesura resum del grau de desigualtat o concentració que permet la comparació de diverses dades. Per tant, desigualtat i concentració són conceptes relacionats 11.1. ÍNDEX LORENZ-GINI L’índex Lorenz-Gini permet calcular el grau de desigualtat d’una distribució a partir d’una escala entre 0-1. Definim l’índex de LorenzGini com el quocient entre les diferencies observades i les diferències en situació de màxima desigualtat. On el 0 és una situació de màxima igualtat (on tothom rep el mateix) i l’1 és la situació de desigualtat absoluta (tot ho té una única persona). PASSOS 1. 2. 3. 4. 5. Primer, hem d’ordenar la distribució de menys a més i calcular la massa total de la variable X. Desprès, calculem els valors acumulats Calculem pi i qi Calculem la suma de la diferència (pi-qi). Calculem el cas de màxima desigualtat. Finalment apliquem la fórmula i obtenim el valor de l’índex. Situació inicial: Imaginem una herència de 110 milions d’euros que es reparteix entre 3 famílies de la següent manera: 2) 1) Massa total de la variable (𝐴𝐾 )=110 4) 11.2. 3) 5) ÍNDEX DE DIFERÈNCIES Una altra manera de mesurar la desigualtat és comparar la renda (o qualsevol altra característica) de cada parell d’individus de la població. Aquest índex també fluctua entre 0 (màxima igualtat) i 1 (màxima desigualtat). I cal recordar que els índexs són mesures relatives, no depenen de les unitats i, per tant, són invariables a alteracions proporcionals de la variable analitzada. PASSOS 1) 2) Calculem el cas de màxima desigualtat 3) 𝐼𝐷 = 20 Descargado por AURORA CID RODRÍGUEZ ([email protected]) 894 = 0′903 990 lOMoARcPSD|18261362 11.3. ÍNDEX 𝑪𝑲 És molt freqüent a les empreses. I es calculen diversos índexs. El càlcul de 𝐶𝑘 es fa de la següent manera: 1.Ordenem les empreses en ordre decreixent amb respecte a la seva quota de mercat. 2.Sumem les k primeres quotes de mercat. La suma d’aquestes quantitats és l’índex 𝐶𝑘 . 11.4. ÍNDEX DE HERFINDAHL És un dels índex més utilitzats en els informes empresarials. La interpretació de l’índex depèn dels països. Quan l’índex és 1 ens trobem en un monopoli. Es sumen totes les quotes al quadrat. PROPIETATS 1. 2. 3. 4. 5. Caràcter no ambigu. Donats dos mercats, podem identificar quin dels dos mercats es troba més concentrat ja que aquest índex té en compte tota la indústria. Com més alt és l’índex, més concentració hi ha. Invariància a escala. Aquest índex no canvia per canvis en l’escala (si canviem les unitats de mesura), es manté invariable a les alteracions de l’escala de mesura. Transferència. L’índex augmenta quan es fusionen/absorbeixen les empreses. Hi ha més monopoli, per tant, l’índex creix. Monotonicitat. Si totes les empreses tenen quotes de mercat idèntiques, l’índex es baix. L’índex decreix o creix depenen del nombre d’empreses que hi ha al mercat. Cardinalitat. Si dividim les empreses en la mateixa proporció, l’índex també decreix en la mateixa proporció. En conclusió, els índexs de desigualtat i/o concentració proporcionen una mesura resum del grau de desigualtat o concentració d’una distribució. Hem estudiat dos índexs de desigualtat en una escala de 0-1: Índex de Lorenz-Gini Índex de Diferències I també hem estudiat dos índexs de concentració. Índex 𝐶𝐾 (de 𝑘 𝑛 𝑎 1) Índex de Herfindahl (de 12. NOMBRES ÍNDEX 12.1. 1 𝑛 𝑎 1) INTRODUCCIÓ Els nombres índexs són mesures estadístiques que serveixen per mesurar la variació de magnituds simples o complexes en el temps o espai. Aquesta variació també es podria calcular a partir de les mitjanes però aquest procediment no es gaire efectiu quan tens un gran conjunt de dades. Els índexs poden ser: Índexs simples: fan referència a un article concret. Ex: llet. Índexs complexos (o agregats): parlem de l’evolució d’un conjunt d’articles. Ex: índex de preus de l’automòbil, d’un cistell d’aliments bàsics. 21 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 12.2. NOMBRES ÍNDEX SIMPLES I COMPLEXOS Per calcula l’índex, primer has de triar un període base (el fixa l’individu que fa l’estudi) i, a continuació, el preu de cada període s’expressa com un percentatge del preu del període base (període de referència). L’índex del període base es sempre 100%. Es podria interpretar: A l’any 2005, el preu era un 1’46% més alt que al 2007 (període base). I a l’any 2010, el preu és un 3’82% més baix que al 2007. A vegades el preu base s’escull a partir d’una mitjana. Ex: en el cas dels països es compara la depesa per càpita de cada país respecte la mitjana de la UE. Els índexs simples tenen un interès limitat en economia. És més habitual utilitzar índexs per resumir l’evolució de magnituds complexes. Sovint volem calcular la variació del preu d’una combinació d’articles. Per trobar aquesta variació utilitzem l’índex Laspeyres. Primer calculem els índexs simples de cada cistell respecte el període base. S’agafa la suma de el preu de cada període per la quantitat del període base respecte la suma de preus per les quantitats del període base. Hi ha una forma alternativa de calcular aquesta variació a partir de les ponderacions de cada article de l’any base. Calculem els índexs simples de cada producte i els multipliquem per la ponderació. Quan la composició dels cistells varien, és a dir, quan les quantitats de cada producte canvien, llavors utilitzem l’índex de Paasche. Per tant, la diferència entre tots dos índexs és que Laspeyres utilitza pesos fixos mentre que Paasche utilitza pesos mòbils (però al cap i a la fi són el mateix índex). Per calcular els pesos Paasche calculem les ponderacions tal i com fèiem el l’opció alternativa al mètode de Laspeyres. 22 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 La referència és sempre 100 i a partir d’aquest valor comparem. Els índexs Paasche són ideals però de vegades són difícils de calcular ja que requereixen molta informació. Sovint s’utilitzen els índexs de Lasperyres, tot i que de tant en tant es canvia la base i les ponderacions, En aquests casos necessitem fer un canvi de base per poder comparar els índexs dels diferents períodes. L’IPC I LA INFLACIÓ 12.3. L’índex de preus del consum mesura l’evolució del nivell de preus de béns i serveis adquirits per llars residents. Es caracteritza per tenir una periodicitat mensual , la sèrie IPC és un índex de Laspeyres encadenat (la base canvia cada 5 anys) i cada mes de desembre es canvien les ponderacions, La inflació és la taxa de variació de l’IPC en dos períodes. Si hi ha molta inflació, això significa que els preus han pujat i ens acostem a una situació d’inestabilitat, Per a no perdre poder adquisitiu, els valors monetaris d’aquestes variables (pensions, salaris, lloguers, assegurances...) haurien d’augmentar en la mateixa proporció que el nivell de preus. Per calcular la taxa d’inflació, calculem la diferència de l’índex del període que volem saber menys el període base dividit pel període base i multiplicat per 0. 12.4. CREIXEMENT NOMINAL I CREIXEMENT REAL EXEMPLE 1) 3) 4) 2) 23 Descargado por AURORA CID RODRÍGUEZ ([email protected]) lOMoARcPSD|18261362 RESUM NOMBRES ÍNDEX Tenim dos índexs principals: 1) Índex de Paasche 𝐼𝑃 = 2) Índex de Laspeyres 𝑃𝑟𝑒𝑢𝑠 𝑛𝑜𝑢𝑠 · 𝑞𝑢𝑎𝑛𝑡𝑖𝑡𝑎𝑡𝑠 𝑛𝑜𝑣𝑒𝑠 · 100 𝑃𝑟𝑒𝑢𝑠 𝑣𝑒𝑙𝑙𝑠 · 𝑞𝑢𝑎𝑛𝑡𝑖𝑡𝑎𝑡𝑠 𝑛𝑜𝑣𝑒𝑠 𝐼𝐿 = 𝑃𝑟𝑒𝑢𝑠 𝑛𝑜𝑢𝑠 · 𝑞𝑢𝑎𝑛𝑡𝑖𝑡𝑎𝑡𝑠 𝑣𝑒𝑙𝑙𝑒𝑠 · 100 𝑃𝑟𝑒𝑢𝑠 𝑣𝑒𝑙𝑙𝑠 · 𝑞𝑢𝑎𝑛𝑡𝑖𝑡𝑎𝑡𝑠 𝑣𝑒𝑙𝑙𝑒𝑠 Els preus vells i quantitats velles són les del període base. Pel que fa al creixement, també tenim dos indicadors: 1) Creixement nominal* = 2) (∑ 𝑝 · 𝑞 𝑑𝑒 𝑙 ′ 𝑎𝑛𝑦 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑡) − (∑ 𝑝 · 𝑞 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒) 𝑝 · 𝑞 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒 Creixement real = (Í𝑛𝑑𝑒𝑥 𝑑𝑒 𝑙 ′ 𝑎𝑛𝑦 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑡) − ( Í𝑛𝑑𝑒𝑥 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒) Í𝑛𝑑𝑒𝑥 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒 A l’hora de calcular els índexs per trobar el creixement real, si no ens diuen que utilitzem els índexs de Paasche o de Laspeyres, el què hem de fer per trobar-los és: Si volem saber el creixement de les vendes: í𝑛𝑑𝑒𝑥 = 𝑞 𝑎𝑛𝑦 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑡 · 100 𝑞 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒 Si volem saber el creixement dels preus: O bé í𝑛𝑑𝑒𝑥 = 𝑝 𝑎𝑛𝑦 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑡 · 100 𝑝 𝑎𝑛𝑦 𝑏𝑎𝑠𝑒 El creixement nominal també es podria calcular a través dels índexs a l’igual que en el creixement real però tenint en compte p·q. 24 Descargado por AURORA CID RODRÍGUEZ ([email protected])