Elementi di Econometria

Anuncio
Elementi di Econometria
Riccardo (Jack) Lucchetti
2 ottobre 2014
2
Premessa (per chi è già del mestiere)
Questo non è un vero libro di econometria. È un libro per bambini. Ma è anche
un esercizio di acrobazia.
Se ci fate caso, questa dispensa non contiene le parole “stimatore”, “test”,
né alcun altro concetto di tipo probabilistico-inferenziale. Ciò di cui parleremo sono solo ed esclusivamente statistiche descrittive, che hanno la proprietà
di fornire una sintesi (ottimale da un certo punto di vista) dei dati. Il problema, tipicamente inferenziale, di usare i dati per parlare del mondo qui non ci
sfiora. Qui affronteremo soltanto il problema di usare i dati per parlare dei dati,
evitando accuratamente le perigliose acque del Mare dell’Induzione.
La scelta ha vari motivi, ma è soprattutto una scelta didattica. Gli studenti a
cui è rivolta questa dispensa sono persone che spesso dichiarano di non essere a
loro agio con gli strumenti dell’inferenza statistica: hanno imparato le proprietà
degli stimatori a memoria, non sono sicuri di saper leggere un test, non hanno
ben chiaro cosa sia la distribuzione di una statistica (figurarsi quella asintotica),
fanno confusione fra lo stimatore di una varianza e la varianza di uno stimatore.
E questo, quando va bene. E allora, lasciamo stare; non importa. C’è tanto che
si può dire sull’attrezzo base dell’econometria (l’OLS) anche senza tutto questo,
e che fa bene sapere. Una volta che lo studente abbia imparato a maneggiare
con sicurezza l’OLS come puro strumento computazionale, si potrà affrontare il
problema del suo uso e della sua interpretazione come stimatore e dell’uso delle
statistiche test da esso derivate.
Il neofita tende a far confusione fra proprietà dei minimi quadrati che sono
vere per costruzione e proprietà che discendono da qualche assunzione probabilistica. Queste ultime, in questa dispensa, non ci sono. In un certo senso,
è come una dispensa di geometria assoluta. Forse si sarebbe potuto chiamare
Econometria assoluta, ma suppongo che sarebbe sembrata la mia ennesima dimostrazione di sciocca presunzione. Mi sono baloccato per un po’ con l’idea di
intitolarla Econometria improbabile, ma pensandoci bene anche quello sarebbe
stato vacuo ed esibizionista.
Tenterò, in questo breve testo, di spiegare come si legge una regressione senza cadere nell’automatismo dello statistico di professione, che è istintivamente
portato a vedere gli OLS come uno stimatore di parametri incogniti di una distribuzione condizionata. Certo, l’OLS si può usare come stimatore, ma ha una sua
ragion d’essere ed una sua dignità anche come semplice, umile, modesta statistica descrittiva. Anzi, chi legge gli OLS come stimatori (cioè noi tutti) è spesso
portato a dimenticarsi che quello che stiamo stimando non è mai il modello
“giusto”, qualsiasi cosa questo voglia dire.
Un automatismo simile ce l’ha l’economista di professione, che è tentato di
vedere nei risultati di una regressione la quantificazione dei parametri di un suo
modello teorico. Da qui, il gioco delle parti che si fa regolarmente fra economisti
in cui ci si accapiglia per finta sull’esogeneità dei regressori. Di nuovo: gli OLS
possono essere usati per stimare parametri comportamentali, sotto certe parti3
colari condizioni. Ma non è che debbano essere buttati via, se queste condizioni
non ricorrono.
Credo che sia molto salutare saper leggere una regressione usando un set
minimale di assunzioni, probabilistiche o di teoria economica. Lo studente volonteroso queste le può studiare in seguito; l’economista applicato forse si risparmierebbe qualcuna delle ingenuità che a volte gli escono dalla bocca (ma
gli si vuol bene per questo, in fondo).
Non vorrei che la scelta di non parlare di probabilità venisse fraintesa: è una
scelta didattica sperimentale, che magari tra qualche anno abbandonerò, ma
prima voglio vedere cosa succede. Di sicuro la scelta non deriva da un atteggiamento snobistico tipo quello di certi statistici francesi che fanno i brillanti
parlando male dell’inferenza. Anzi, uno degli scopi di questa dispensa è proprio
quello di far venire al lettore la voglia di studiare statistica inferenziale.
Un’altra cosa su cui vorrei evitare equivoci: non mi astengo dal parlare di
probabilità perché penso che il lettore sia troppo scemo per capirla. E infatti,
nonostante che questa dispensa sia nata col nome “il libro per bambini”, non
farò alcuno sforzo per semplificare i problemi se non nei casi in cui spiegazioni
rigorose implicherebbero digressioni impraticabili. Mi impegno formalmente a
non trattare il lettore in modo paternalistico. Certo, banalizzerò, semplificherò,
a volte anche in modo irritante per chi le cose le sa già. Ma se uno non fa così,
non deve fare didattica. Si accontenti di fare ricerca e basta.
Peraltro, i prerequisiti per leggere fruttuosamente questa dispensa sono pochi: un minimo di analisi reale, i concetti di vettore e matrice con associate operazioni elementari (somma, prodotto, trasposizione, inversione) e una qualche
familiarità con la statistica descrittiva: media, varianza, frequenza eccetera.
Un’ultima cosa: questa dispensa è rilasciata sotto la licenza Creative Commons BY-SA 3.0. Questo significa che tu, lettore, sei libero
• di riprodurre, distribuire, comunicare al pubblico, esporre in pubblico,
rappresentare, eseguire e recitare quest’opera;
• di modificare quest’opera;
• di usare quest’opera per fini commerciali;
alle seguenti condizioni:
Attribuzione Devi attribuire la paternità dell’opera nei modi indicati dall’autore o da chi ti ha dato l’opera in licenza e in modo tale da non suggerire che
essi avallino te o il modo in cui tu usi l’opera.
Condividi allo stesso modo Se alteri o trasformi quest’opera, o se la usi per crearne un’altra, puoi distribuire l’opera risultante solo con una licenza identica o equivalente a questa.
La licenza vera e propria è in fondo al testo.
4
Indice
Premessa (per chi è già del mestiere) . . . . . . . . . . . . . . . . . . . . . .
1 La teoria
1.1 La media aritmetica . . . . . . . . . . . . . . . . . . . .
1.2 Gli OLS . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 La regressione su una dummy . . . . . . . . . .
1.2.2 Il caso generale . . . . . . . . . . . . . . . . . . .
1.2.3 Il problema geometrico . . . . . . . . . . . . . .
1.2.4 Le matrici di proiezione . . . . . . . . . . . . . .
1.2.5 Misure di bontà del modello . . . . . . . . . . .
1.3 La scelta dei regressori . . . . . . . . . . . . . . . . . . .
1.3.1 Un altro paio di cose sulle matrici di proiezione
1.3.2 Un risultato sconfortante (in apparenza) . . . .
1.3.3 Modelli e vincoli . . . . . . . . . . . . . . . . . .
1.3.4 I minimi quadrati vincolati . . . . . . . . . . . .
1.4 Misure di perdita di fit . . . . . . . . . . . . . . . . . . .
1.4.1 Un interessante caso particolare . . . . . . . . .
1.5 Come si legge l’output . . . . . . . . . . . . . . . . . . .
1.5.1 La lettura dei coefficienti . . . . . . . . . . . . .
1.5.2 Il resto dell’output . . . . . . . . . . . . . . . . .
1.5.3 Il teorema di Frisch-Waugh . . . . . . . . . . . .
1.5.4 L’effetto leva . . . . . . . . . . . . . . . . . . . . .
1.6 La regressione dinamica . . . . . . . . . . . . . . . . . .
1.6.1 L’operatore ritardo . . . . . . . . . . . . . . . . .
1.6.2 Equazioni alle differenze . . . . . . . . . . . . .
1.6.3 La rappresentazione ECM . . . . . . . . . . . . .
1.7 E adesso? . . . . . . . . . . . . . . . . . . . . . . . . . . .
A La Licenza
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
7
7
10
10
14
17
21
24
25
26
27
28
31
34
36
37
39
41
42
45
48
50
54
57
62
64
5
6
Capitolo 1
La teoria
1.1 La media aritmetica
Cos’è una statistica descrittiva? È una funzione dei dati che fornisce una sintesi
su un particolare aspetto dei dati che a noi interessa; naturalmente, è auspicabile che questa sintesi sia quanto più informativa possibile. L’idea che motiva
l’uso delle statistiche descrittive è grosso modo questa: vogliamo studiare un fenomeno ed abbiamo dei dati; questi dati, però, sono “tanti”, e non abbiamo tempo/voglia/modo di guardarli tutti. Cerchiamo allora una funzione di questi dati
che, una volta calcolata, ci dica quel che vogliamo sapere, senza appesantirci
con dettagli non necessari.
L’esempio più ovvio di statistica descrittiva è la media aritmetica, che ogni
studente sa calcolare, se non altro per l’attenzione maniacale che riserva al proprio libretto. Dato un vettore colonna y di dimensione n, la media aritmetica
non è che
n
1X
1
Ȳ =
y i = ι0 y
(1.1)
n i =1
n
La notazione con la sommatoria sarà probabilmente più familiare alla maggior
parte dei lettori; io, però, preferisco la seconda per la sua maggiore concisione
e perché, come vedremo, si presta meglio ad essere generalizzata. Per convenzione, indichiamo con ι un vettore colonna i cui elementi sono tutti pari a 1. Un
vettore così fatto si chiama anche vettore somma, perché il suo prodotto interno
con un altro vettore x resituisce la somma degli elementi di x.
Vediamo come possiamo motivare l’uso della media aritmetica. Come ho già
detto, noi vorremmo poter usare una statistica descrittiva, che provvisoriamente
chiamerò m, come sintesi dell’informazione contenuta nell’intero campione.
Un’idea interessante l’ha data nel 1929 Oscar Chisini, che ha proposto questa definizione: data una funzione di interesse g (·), la media del vettore y è quel
numero m che rappresenta l’unica soluzione di g (y) = g (m · ι). L’idea è potente:
per esempio, la media aritmetica emerge come caso particolare se la funzione
g (·) è la somma e altri casi notevoli ve li trovate da soli.
7
L’idea di Chisini può essere ulteriormente raffinata: se
ci mettiamo nell’ottica di usare m — che, a questo stadio
del ragionamento, non è necessariamente la media aritmetica — come descrizione imperfetta ma parsimoniosa del
campione completo, è naturale chiedersi quanta e quale
sia l’informazione che perdiamo. Vediamo: se di un campione conoscessimo solo m, cosa potremmo dire su ogni
singolo elemento del campione? In assenza di altre informazioni, la cosa più sensata che possiamo dire è che, per
un i generico, y i sarà “più o meno” uguale a m. Se dello studente Pinco Pallino sappiamo solo che ha la media
O SCAR C HISINI
del 23, alla domanda “Quanto ha preso P.P. in Storia Economica?”, risponderemmo “Boh? Avrà preso ventitré”. Se poi venisse fuori che
P.P. ha effettivamente preso 23, tutto bene. Se invece ha preso 30, l’abbiamo
sottovalutato, e possiamo misurare la discrepanza in 7 punti.
Nella situazione ideale, in cui l’uso di m come sintesi dei dati non provoca perdita di informazione, la discrepanza è 0 per ogni elemento del campione (Pinco Pallino ha un libretto di tutti 23). Nella situazione non ideale, si può
pensare di misurare la bontà di m tramite la dimensione degli errori, che in gergo si chiamano residui. Il vettore dei residui, naturalmente, è definito come
e = y − ι · m. Definiamo pertanto una funzione, che chiamiamo funzione di perdita, che dipende dai residui e misura il costo che noi sosteniamo in seguito alla
perdita di informazione.
C (m) = P [e(m)]
In linea di principio, non ci sono molte cose che si possono dare per scontate
sulla forma di questa funzione. Una cosa che si può dire è che P (0) = 0: se i
residui sono tutti zero, non ci sono errori di approssimazione e il costo che si
sostiene è zero. Un’altra idea ragionevole è che P (e) ≥ 0: non si può guadagnare
da un errore.1 Per il resto, c’è poco che si può dire in generale: non è detto che
la funzione C (·) abbia particolari caratteristiche di concavità, né di simmetria.
Dipende dal problema.
Come che sia fatta questa funzione, comunque, sarà bene scegliere m in modo da rendere C (m) più piccolo possibile. Detto più in matematichese: per un
dato problema, specifichiamo la funzione di perdita e utilizziamo, come indicatore di sintesi, quella statistica che ha la proprietà di renderla minima. In
formule:
m̂ = Argmin C (m) = Argmin P (y − ι · m)
m∈R
m∈R
In pratica, trovando il minimo della funzione C (·) per un dato problema, abbiamo la garanzia di aver usato al meglio i nostri dati. Bene. E adesso? Eh, adesso
1 Attenzione, però. Non è detto che valga il converso. Il costo può essere 0 anche presenza di
un errore non-zero: in certi contesti, possiamo considerare errori “piccoli” come irrilevanti.
8
comincia il bello, perché la prima cosa che viene in mente ad una persona ragionevole è “Ma come faccio a specificare la funzione C (·)? Cioè, chi me lo dice
come è fatta? Che faccio, vado su Google e digito ‘funzione di perdita’? Mi consiglio col guru, col prete, con lo psicanalista?”. Infatti, a parte casi straordinari in
cui la funzione di perdita viene suggerita naturalmente dal problema stesso, formalizzare la forma della funzione può essere un affare complicato. Com’è fatta
la funzione di perdita per il libretto di Pinco Pallino?
Per di più, spesso abbiamo la necessità di calcolare un indicatore di sintesi
senza sapere in anticipo a cosa ci servirà. È ovvio che in questi casi trovare m̂
non è difficile, bensì impossibile. Dobbiamo accontentarci di una cosa che non
sia troppo sbagliata. Una possibilità allettante è quella di definire
n
X
C (m) =
(y i − m)2 = e0 e
(1.2)
i =1
Questo criterio è una funzione di m basato sulla somma dei quadrati dei residui:
oltre ad essere semplice da manipolare, è una funzione simmetrica e convessa,
così da valutare equanimemente residui in difetto e in eccesso e da penalizzare
di più errori più grandi in valore assoluto. Oltretutto, una funzione così, rispetto
alle possibili alternative simmetriche e globalmente convesse, offre il non trascurabile vantaggio (come vedremo fra breve) di far sì che la soluzione del problema sia molto facile da calcolare. Non è irragionevole pensare che, in molti
casi pratici, una funzione di perdita così sia un compromesso accettabile.
Parliamo, in questo caso, di criterio dei minimi quadrati. Per trovare il minimo della (1.2) rispetto a m non facciamo altro che derivare C rispetto a m;
¡
¢
n d y −m 2
n ¡
X
X
¢
dC
i
C (m) =
yi − m
=
= −2
dm i =1
dm
t =1
0
Nel punto di minimo la derivata dev’essere 0, così che
n ¡
X
¢
yi − m = 0
i =1
che a sua volta implica
n
X
nm =
yi
t =1
e quindi m = Ȳ . In notazione matriciale si faceva ancora prima:
C (m) = (y − ιm)0 (y − ιm)
la derivata è
C 0 (m) = −2ι0 (y − ιm) = 0
da cui
m = (ι0 ι)−1 ι0 y = Ȳ
9
Il lettore è invitato a controllare che ι0 ι = n. Il valore della funzione C nel punto
P
di minimo, ovvero e0 e = ni=1 (y i − Ȳ )2 è una quantità che in questo caso particolare si chiama devianza, ma che conviene abituarsi (per motivi che saranno chiari più avanti) ad indicare con la sigla SSR, dall’inglese Sum of Squared
Residuals.
L’argomento che porta a scegliere la media aritmetica come indicatore di
sintesi che ho appena sviluppato è, in realtà, molto più generale di quanto non
appaia a prima vista: infatti, quasi tutte le statistiche descrittive che usiamo sono casi particolari della media aritmetica, che può essere usata per descrivere
molte caratteristiche di y: basta prenderne trasformazioni appropriate.
In pratica: la media aritmetica di z, dove z i = f (y i ) e la funzione f (·) è scelta
con intelligenza, ci racconta un sacco di cose. L’esempio più banale è la varianza: essa, infatti non è altro che la media aritmetica di una variabile z i = (y i − Ȳ )2 ,
che ovviamente misura quanto y i è diverso da Ȳ ; come si sa, la varianza è un
indicatore di dispersione.
Più interessante il caso in cui esprimiamo una frequenza relativa come media aritmetica: definiamo l’evento y i ∈ A, dove A è un qualche sottoinsieme dei
valori possibili per y i ; definiamo ora la variabile z i = I(y i ∈ A), dove I(·) è la cosiddetta “funzione indicatrice”, che vale 1 quando il suo argomento è vero e 0
quando è falso. Evidentemente, Z̄ è la frequenza relativa dell’evento A. Altri
esempi inventateli voi.
1.2 Gli OLS
1.2.1 La regressione su una dummy
Se ci limitiamo a descrivere il mondo per mezzo di una sola variabile, facciamo
poca strada. Ovviamente, questo apre il problema di avere un sistema per dire
delle cose sensate sulle relazioni fra variabili.
Un possibile approccio è: chiediamoci se y i è “grande” o “piccolo” quando
x i è “grande” o “piccolo”. Definiamo
z i = (y i − Ȳ )(x i − X̄ )
che in pratica è una specie di indicatore della concordanza fra i segni. Vale a dire,
z i > 0 quando y i > Ȳ e x i > X̄ oppure quando y i < Ȳ e x i < X̄ . Come è noto, Z̄
si chiama covarianza, e la covarianza può essere normalizzata per la media geometrica delle varianze ottenendo così il cosiddetto coefficiente di correlazione;
ma questa è roba da statistica elementare è non è il caso di rivangarla qui.
Il problema con la covarianza/correlazione è che è un concetto simmetrico.
Vale a dire, le variabili y i e x i sono trattate allo stesso modo: la covarianza fra
y i e x i è, per costruzione, la stessa che c’è fra x i e y i . Invece, spesso a noi piace
di più ragionare in termini di y i = m(x i ) perché abbiamo in mente una lettura
10
del mondo in cui y i “dipende” da x i , e non il contrario.2 È per questo che la y i
viene detta variabile dipendente e la x i variabile esplicativa. In questo contesto, un’idea che sorge piuttosto naturale è quella di esaminare cosa succede
suddividendo il vettore y in diversi sottovettori, ad ognuno dei quali corrisponde un diverso valore di x i . In un contesto probabilistico, questo si chiamerebbe
condizionamento.
Un esempio semplice: supponiamo che il nostro vettore y includa n osservazioni, di cui n u riguardano maschi e n d = n − n u riguardano le femmine. Diciamo che questa informazione è inclusa in una variabile x i , che vale 1 se l’individuo è maschio e 0 se è femmina. Come si sa, una variabile 0/1 si dice binaria,
dicotomica, o più comunemente variabile dummy.
Il buonsenso ci dice che, se diamo per nota la distribuzione per genere, la
media aritmetica per genere ci fornirà una descrizione dei dati che sarà lievemente meno sintetica della semplice media aritmetica (perché usa due numeri
anziché uno), ma sicuramente non meno accurata. Evidentemente, possiamo
definire
P
P
Su
Sd
x i =1 y i
x i =0 y i
Ȳu =
=
=
Ȳd =
nu
nu
nd
nd
dove, cioè, S u è la somma delle y i per i maschi e S d è la somma delle y i per le
femmine.
Il ragionamento, però, diventa più eccitante se formalizziamo il problema in
modo analogo a quanto abbiamo fatto prima con la media aritmetica. In altre
parole, vediamo se possiamo usare al meglio l’informazione (che supponiamo
di avere) se l’individuo i -esimo è maschio o femmina. Quindi, anziché adoperare un numero per sintetizzare i dati, vogliamo usare una funzione, ossia una
cosa del tipo
m(x i ) = m u · x i + m d · (1 − x i )
che ovviamente vale m u per gli uomini (perché x i = 1) e m d per le donne (perché x i = 0). La nostra sintesi deve essere una regola che ci dia un valore ‘emblematico’ di y i in funzione di x i . In un contesto probabilistico, un oggetto simile
si chiama funzione di regressione; qui non siamo in un contesto probabilistico, ma usiamo il termine lo stesso. Parallelamente, la variabile esplicativa viene
anche detta regressore.
A questo punto, riprendiamo la definizione del residuo come errore di approssimazione: chiaramente, in questo caso, si ha che e i ≡ y i − m(x i ), da cui si
ricava
y i = m u x i + m d (1 − x i ) + e i
(1.3)
2 Qui sono deliberatamente vago: dire che A dipende da B può voler dire, nel linguaggio corrente, molte cose, non tutte coerenti fra loro. Per esempio, non è detto che la “dipendenza” implichi
un rapporto di causa-effetto. Il problema è molto meno banale di quel che non appaia a prima vista, e lo lasciamo agli epistemologi professionisti; noi, qui, stiamo sul sicuro tenendoci sul
generico.
11
L’equazione (1.3) è importante perché è un semplice esempio di ciò che in
econometria chiamiamo un modello. Il numero y i viene scisso in due componenti additive, di cui la prima è la cosiddetta parte sistematica, che dipende dalla
variabile x i (per essere precisi, è una funzione lineare di x i ), e l’altra è un di più
che contiene la parte non riconducibile ad una specifica regolarità. In questa
dispensa, useremo la seguente notazione
y i ' m(x i ),
per indicare che il nostro modello consiste di una funzione che deve approssimare meglio che si può il valore della variabile y per tutte le i . Nell’econometria “vera” e i = y i − m(x i ) è un oggetto su cui vengono fatte varie ipotesi di tipo probabilistico che qui però, come promesso, ignoriamo. In questo esempio,
m(x i ) = m u x i + m d (1 − x i ).
Farà comodo riscrivere la (1.3) come
·
¸
£
¤
md
y i = m d + (m u − m d )x i + e i = 1 x i
+ ei
mu − md
perché ciò ci permetterà di usare la notazione matriciale, che è decisamente più
compatta ed elegante
y = Xβ + e,
(1.4)
dove
β=
·
md
mu − md
¸
·
=
β1
β2
¸
e X è una matrice di n righe e 2 colonne, in cui la i -esima riga è [1, 1] se il
corrispondente individuo è di sesso maschile e [1, 0] altrimenti.
In questo modo, il problema di scegliere in modo ottimale m u e m d è ricondotto al problema di trovare quel vettore β che minimizza la funzione di perdita
e0 e. La soluzione non è difficile: troviamo quel (o quei) β per cui valga
de0 e
d
d 0
=
(y − Xβ)0 (y − Xβ) =
(y y − 2β0 X0 y + β0 X0 Xβ) = 0
dβ
dβ
dβ
Usando le note regole di derivazione matriciale,3 si ha che
X0 y = X0 Xβ
Se la matrice X0 X è invertibile, la soluzione esiste unica, ed è
Argmin e0 e = β̂ = (X0 X)−1 X0 y
β∈R2
3 Non sono note? Uffa:
da0 x
= a0
dx
dx0 Ax
= x0 (A + A 0 )
dx
12
(1.5)
Il cappello ( ˆ ) sulla β sta ad indicare che fra tutti i possibili valori di β, noi stiamo
prendendo proprio quello che rende vera la (1.5) e che quindi rende minima la
funzione di perdita. I coefficienti β̂ ottenuti dalla (1.10) hanno il nome di coefficienti OLS, dall’inglese Ordinary Least Squares, ossia minimi quadrati ordinari.4
Il vettore
ŷ = Xβ̂
è la nostra rappresentazione approssimata di y. Convenzionalmente, ci si riferisce a ŷ come al vettore dei valori fittati, con brutto prestito dall’inglese fitted.
Gli orrori linguistici non finiscono qui, peraltro: sovente, scappa anche a me di
parlare della capacità del modello di fittare i dati, e di dire che la SSR è una misura del fit del modello. Pertanto, se vi capita di trovare uno che dice “questo
modello fitta bene” compiangetelo, perché come dice Nanni Moretti “chi parla
male pensa male e vive male”, ma sappiate che non si è inventato nulla.5
Nell’esempio in questione, bastano un po’ di semplici conti per vedere che
·
¸
n nu
XX =
nu nu
· Pn
¸ ·
¸
yi
Su + Sd
0
i
=1
P
Xy =
=
Su
x i =1 y i
0
P
P
dove (ricordo al lettore) S u = xi =1 y i e S d = xi =0 y i cioè le somme delle y i per
maschi e femmine rispettivamente.
Usando la regola standard per l’inversione di matrici (2 × 2), che suppongo
anch’essa nota,6
·
¸
1
n u −n u
0 −1
(X X) =
n
n u n d −n u
da cui
·
1
nu
β̂ =
n u n d −n u
−n u
n
¸·
·
¸
¸
1
nu S d
Su + Sd
=
Su
nu nd nd S u − nu S d
e infine
β̂ =
·
¸ ·
¸
S d /n d
Ȳd
=
S u /n u − S d /n d
Ȳu − Ȳd
per cui m u non è che la media aritmetica dei maschi e m d quella delle femmine.
Ancora una volta, se usiamo una funzione di perdita quadratica (e0 e), gli indicatori di sintesi che risultano ottimali sono quelli che ci suggerisce il buon senso.
La cosa nuova, però, è che in questo caso, per descrivere il vettore y utilizziamo
una funzione, che ha come argomento il vettore x, i cui parametri sono i nostri
indicatori di sintesi.
4 Per inverosimile che possa sembrare, il senso dell’aggettivo “ordinario”, in questo contesto, è
semplicemente l’opposto di “straordinario”. Cioè, minimi quadrati, ma niente di straordinario.
5 Per carità, eh, al peggio non c’è mai fine: l’Italia è piena di gente che crede di far bella figura
dicendo pèrformans, oppure manàgment o menéigment. Potrei andare avanti, ma mi fermo.
µ
¶−1
µ
¶
a b
d −b
6 Non è nota? Ariuffa:
= (ad − bc)−1
.
c d
−c
a
13
1.2.2 Il caso generale
Nel problema analizzato alla sezione precedente, il lettore attento avrà notato
che, di fatto, l’assunzione che x sia una variabile dummy gioca un ruolo marginalissimo. Non ci sono motivi per i quali l’equazione m(x i ) = β1 + β2 x i non
debba valere anche quando x i contiene dati numerici di qualsiasi altro tipo. Si
può controllare che la soluzione del problema rimane assolutamente invariata;
ovvio: il vettore β̂ non conterrà più le medie per sottocampione, ma il fatto che
β̂ = (X0 X)−1 X0 y minimizzi la funzione di perdita continua ad essere vero.
Esempio 1 Supponiamo che
 
2
y = 3
4


1 1
X = 1 2
1 0
Il lettore è invitato a controllare che
·
¸
·
¸
3 3
5/6 −1/2
0 −1
X X=
⇒ (X X) =
3 5
−1/2 1/2
· ¸
9
X y=
8
0
0
e quindi
β̂ =
7
6
·
3.5
−0.5

3
ŷ = 2.5
3.5

¸


−1
e = 0.5
0.5
m(x) = 1.93 + 1.40 x
5
y
4
3
2
1
0
-1
-0.5
0
0.5
1
1.5
2
2.5
3
x
Figura 1.1: OLS su sei dati
Nei libri di econometria più attaccati alla tradizione, a questo punto c’è sempre un grafico simile a quello mostrato in Figura 1.1, che però a me non sta
14
simpaticissimo, e fra poco spiegherò perché. Comunque, ve lo faccio vedere
anch’io: in questo esempio, usiamo
y0
x0
£
¤
4 1 5 1 3 6
£
¤
= 1 0 2 −1 1 3
=
Come si può controllare,7 la funzione m(x i ) che minimizza la SSR è m(x i ) =
1.93 + 1.4x i ed il valore di e0 e è pari a 26/15. Nel grafico in figura, ogni pallino
corrisponde ad una coppia di valori; la linea tratteggiata è il grafico della funzione m(x) e i residui sono le differenze verticali fra ognuno dei pallini e la linea
tratteggiata; il criterio dei minimi quadrati consiste nel fatto che la linea tratteggiata rende minima la somma dei quadrati delle lunghezze di tali segmenti,
ossia passa più che può in mezzo ai pallini.
Ciò premesso, si vede bene che il ragionamento fatto fin qui si può generalizzare in varie direzioni: ad esempio, non si vede perché la funzione m(x i )
debba per forza essere lineare. E infatti, una tecnica più generale esiste, è ben
nota e si chiama NLS (Non-linear Least Squares). Non è molto utilizzata, però,
per due motivi. In primo luogo, la minimizzazione di una funzione criterio del
¤2
P £
tipo C (β) = ni=1 y i − m(x i , β) , dove m(·) è una qualche funzione più o meno fantasiosa può essere un problema spinoso: può avere soluzioni multiple, o
non averne nessuna, o magari averne una, ma che non si può scrivere in forma chiusa. In secondo luogo, per poter utilizzare la tecnica OLS è sufficiente
che il modello sia lineare nei parametri, ma non serve che lo sia nelle variabili.
Per essere più chiari, un modello del tipo m(x i ) = β1 + β2 log(x i ) comporta una
trasformazione nonlineare di x i , ma la funzione in sé resta una combinazione
lineare di roba osservabile: basta definire z i = log(x i ) e il gioco è fatto.
Un’altra generalizzazione, decisamente più interessante, riguarda il caso in
cui abbiamo più di una variabile esplicativa. In questo caso, la cosa naturale
da fare è pensare la nostra funzione di regressione come una funzione lineare
del vettore di variabili esplicative xi , e cioè m(xi ) = x0i β. Ad esempio noi sappiamo, per ogni esame che Pinco Pallino ha dato, non solo quanto ha preso, ma
anche in quanti giorni l’ha preparato e la percentuale delle lezioni che ha frequentato; questi dati per l’i -esimo esame stanno in un vettore x0i , ciò che riconduce all’equazione (1.4). Oltretutto, il vantaggio che c’è ad usare una funzione
lineare è che i coefficienti β possono essere interpretati come derivate parziali.
Nell’esempio precedente, il coefficiente associato al numero di giorni che Pinco
Pallino ha impiegato a preparare l’esame può essere definito come
∂m(x)
= βj
∂x j
(1.6)
e quindi può essere letto come la derivata della funzione m(·) rispetto al numero di giorni. Ovviamente, su queste grandezze si può ragionare sia tenendo
7 Prima di esclamare trionfalmente “Non porta!” ricordatevi di accostare ι a x.
15
presente il loro segno (la funzione “voto” è crescente o decrescente rispetto ai
giorni impiegati per la preparazione?) che il loro valore assoluto (che differenza
c’è nella funzione m(·) fra due esami che hanno le stessa caratteristiche, a parte
il fatto che uno è stato preparato in 10 giorni e un altro in 11?). Evidentemente, è forte la tentazione di leggere i coefficienti in forma controfattuale (quanto
avrebbe preso Pinco Pallino se avesse studiato un giorno di più?), ma per poter far questo in modo epistemologicamente corretto avremmo bisogno di tutta
una serie di assunzioni extra che non sono disposto a fare qui.8
L’algebra per risolvere questo problema è esattamente la stessa del caso che
abbiamo analizzato fino ad ora, e la riespongo qui in forma abbreviata per pura comodità del lettore. Se il residuo in base al quale vogliamo minimizzare
la funzione di perdita è e i (β) = y i − x0i β, allora il vettore dei residui può essere
scritto
e(β) = y − Xβ
(1.7)
cosicché la funzione criterio da minimizzare sarà C (β) = e(β)0 e(β). Poiché la
derivata di e(β) non è che −X, la condizione di primo ordine sarà semplicemente
X0 e(β) = 0
(1.8)
Mettendo assieme la (1.7) con la (1.8) si ottiene un sistema di equazioni note
come equazioni normali:
X0 Xβ = X0 y
(1.9)
dalle quali si ricava l’espressione per β̂
¡
¢−1
β̂ = X0 X X0 y
(1.10)
sempreché la matrice X0 X sia invertibile. Si noti, di nuovo, che la media aritmetica può essere ottenuta come caso particolare ponendo X = ι. Aggiungo anche
che le formule precedenti consentono di calcolare tutte le quantità rilevanti nel
problema senza necessariamente conoscere le matrici X e y: in effetti, basta conoscere y0 y, X0 y e (X0 X)−1 . Date queste quantità, infatti, non solo è immediato
trovare β̂, ma anche e0 e:
e0 e = (y − Xβ̂)0 (y − Xβ̂) = y0 y − y0 Xβ̂ − β̂0 X0 y + β̂0 (X0 X)β̂
e usando la (1.9) si ha
e0 e = y0 y − (y0 X)β̂.
Se chiamiamo k il numero di colonne di X, si vede immediatamente che la formula qui sopra esprime la SSR come differenza fra uno scalare e il prodotto interno di due vettori di k elementi. Il numero di righe di y, cioè n, non entra mai
8 Chi è del mestiere sa benissimo di cosa parlo. Chi non sa di cosa parlo, e vorrebbe saperlo, si
rassegni a studiare econometria per davvero.
16
in gioco, e potrebbe anche essere immenso senza che il calcolo ne risulti per
questo più difficile.
La mia assenza di entusiasmo per il grafico mostrato in Figura 1.1 dovrebbe
avere, a questo punto, una motivazione chiara: nel caso in cui X abbia un numero di colonne superiore a 2, non è ben chiaro come disegnare un grafico del
genere. Anzi, quando le colonne sono più di 3 la strada risulta evidentemente
impercorribile. In più, l’intuizione geometrica che veicola rischia di sovrapporsi ed oscurare un’interpretazione geometrica alternativa del problema che è al
tempo stesso molto più interessante e molto più utile. Ne parlo al prossimo
paragrafo.
1.2.3 Il problema geometrico
Qui conviene partire ricordando in breve un paio di concetti di cui il lettore ha
già probabilmente sentito parlare, ma da cui, altrettanto probabilmente, ha già
provveduto a disinfestare il cervello (spero, senza troppo successo). Il primo è
il concetto di distanza (a volte detta anche metrica). Dati due oggetti a e b, la
distanza fra loro è una funzione che deve possedere queste quattro proprietà:
1. d (a, b) = d (b, a)
2. d (a, b) ≥ 0
3. d (a, b) = 0 ⇔ a = b
4. d (a, b) + d (b, c) ≥ d (a, c)
L’unica che val la pena di commentare è la quarta, che si chiama diseguaglianza
triangolare, che dice semplicemente che ad andare dritti si fa prima.9 Gli oggetti
in questione possono essere i più svariati, ma noi considereremo solo il caso in
cui essi sono vettori. La distanza di un vettore dallo zero si chiama norma, e si
scrive ||x|| = d (x, 0).
L’esempio più comune, nella vita di tutti i giorni, di funzione che ci piace
chiamare distanza è la cosiddetta distanza euclidea, che è definita come
d (x, y) =
q
(x − y)0 (x − y)
p
di cui dò per note le proprietà. Ovviamente, la norma euclidea è ||x|| = x0 x.
Il secondo concetto che vorrei richiamare alla mente del lettore è quello di
spazio lineare. Consideriamo k vettori ad n elementi. Coi vettori possiamo fare sostanzialmente due cose: moltiplicarli per uno scalare e sommarli fra loro.
9 Non sto prendendo in giro il lettore: in certi casi, è utile considerare delle funzioni in cui
la diseguaglianza triangolare non vale. Consiglio a chi fosse interessato di partire dalla pagina
“Distanza” di Wikipedia.
17
Poiché in ambo i casi il risultato dell’operazione è un vettore, ha senso chiedersi
che caratteristiche abbia la combinazione lineare di k vettori:
y=
k
X
λj xj
j =1
che, volendo, si poteva scrivere più compattamente y = Xλ, in cui X è una matrice le cui colonne sono i vettori x j e λ è un vettore di k elementi.
Il risultato è, naturalmente, un vettore a n elementi, ossia un punto in Rn .
Visto che i k vettori x1 , . . . , xk possono essere visti a loro volta come k punti nello
spazio Rn , ci chiediamo: quali sono le caratteristiche geometriche di y? Ossia,
che posto occupa nello spazio? Dov’è y rispetto ai vettori x1 , x2 eccetera?
Cominciamo col considerare il caso particolare k = 1. In questo caso y è
un puro e semplice multiplo di x1 ; più lungo, se |λ1 | > 1, più corto altrimenti;
rovesciato rispetto all’origine se λ1 < 0, dritto altrimenti. Facile, banale, noioso.
A questo punto del discorso, mi basta far notare che, se metto insieme tutti gli
y ottenibili con diverse scelte di λ1 , ottengo una retta; questo insieme di punti
si chiama Sp (x), che si legge spazio generato da x. Si noti che il giochino smette
di funzionare se x = 0: in questo caso, Sp (x) non è più una retta, ma un punto
(l’origine).
Se i vettori x sono due, il caso standard è che non siano allineati rispetto
all’origine. In questo caso, Sp (x1 , x2 ) è un piano e y = λ1 x1 + λ2 x2 è un punto da
qualche parte sul piano. Il punto esatto del piano su cui si trova dipende da λ1 e
λ2 , ma va notato che
• scegliendo opportunamente λ1 e λ2 , nessun punto del piano è irraggiungibile
• comunque vengano scelti λ1 e λ2 , non si può uscire dal piano.
Tuttavia, se x2 è già un multiplo di x1 , allora x2 ∈ Sp (x1 ) e Sp (x1 , x2 ) = Sp (x1 ),
cioè di nuovo una retta. In questo caso, considerare x2 non fa “crescere” di
dimensione Sp (x1 ), perché è già contenuto in esso.
Per generalizzare ancora di più il discorso è utile introdurre il concetto di
indipendenza lineare: un insieme di k vettori x1 , . . . , xk si dice linearmente indipendente se nessuno di essi può essere espresso come combinazione lineare
degli altri. Nel caso di prima dei due vettori, quello che ho chiamato “caso standard” è il caso in cui x1 e x2 sono linearmente indipendenti. Chiudo il discorso
ricordando al lettore il concetto di rango: se prendiamo k vettori e li usiamo per
costruire una matrice (n × k) (chiamiamola X), il numero massimo di colonne
linearmente indipendenti di X si dice “rango di X”, e si scrive rk (X). La funzione rango ha varie simpatiche proprietà, alcune più semplici da dimostrare, altre
meno.
1. 0 ≤ rk (X) ≤ k (dalla definizione)
18
¡ ¢
2. rk (X) = rk X0 (non lo dimostro)
3. 0 ≤ rk (X) ≤ min(k, n) (mettendo insieme le due precedenti)
4. se rk (X) = min(k, n) la matrice si dice “di rango pieno”
5. rk (A · B ) ≤ min(rk (A) , rk (B )); nel caso particolare A 0 = B , allora vale l’u¡
¢
guaglianza, ossia rk B 0 B = rk (B ) (non lo dimostro).
6. se A è (n × n), allora rk (A) = n ⇔ |A| 6= 0, ossia per le matrici quadrate il
rango pieno è sinonimo di invertibilità.
Mi pare che basti con le proprietà; la cosa davvero importante, in questo contesto, è che la funzione rango può essere pensata come un misuratore della dimensione dello spazio generato da X. Cioè, se per esempio rk (X) = 1, allora
Sp (X) è una retta, se rk (X) = 2, allora Sp (X) è un piano, e così via.
A questo punto, siamo pronti a discutere il problema che ci interessa davvero: consideriamo lo spazio Rn , dove abitano un vettore y e un certo numero
di vettori x j , con j = 1 . . . k e k < n. Chiamiamo X la matrice le cui colonne sono i vari x j . Vogliamo trovare, fra tutti i vettori appartenenti a Sp (X), quello più
vicino ad y. In formule:
ŷ = Argmin ||y − x||;
x∈Sp(X)
poiché la ricerca del punto ottimale deve avvenire all’interno di Sp (X), il problema si può ri-esprimere come: troviamo quel vettore β tale per cui il vettore Xβ
(che è compreso in Sp (X) per definizione) è più vicino possibile a y:
β̂ = Argmin ||y − Xβ||
(1.11)
β∈Rk
Se la distanza è quella euclidea, la soluzione è la stessa del problema statistico visto prima alla sezione 1.2.2: dato che la funzione “radice quadrata” è
monotona, il minimo di ||y − Xβ||, se esiste, è lo stesso di (y − Xβ)0 (y − Xβ), e
quindi
Argmin ||y − Xβ|| = β̂ = (X0 X)−1 X0 y
β∈Rk
da cui discende
ŷ = Xβ̂ = X(X0 X)−1 X0 y.
Si noti che ŷ è una trasformata lineare di y. In altre parole, il punto ŷ è il risultato della premoltiplicazione di y per la matrice X(X0 X)−1 X0 , che opera una
trasformazione detta “proiezione”. Ne parleremo più avanti.
Perché, parlando della soluzione, ho detto “se esiste”? Perché, se rk (X) < k,
la matrice X0 X non è invertibile. In tal caso, il minimo c’è ed è unico, ma non è
unico il vettore β̂ ad esso associato. Faccio un esempio per farmi capire.
19
Supponiamo di avere un vettore y e che la matrice X sia composta da una
sola colonna (non-zero) chiamata x1 . Come è chiaro, la soluzione esiste unica, è
uno scalare ed è molto semplice da scrivere:
β̂1 =
x01 y
x01 x1
,
per cui ŷ = β1 x1 . Ora, aggiungiamo alla matrice X una seconda colonna x2 , che
però è un multiplo di x1 ; cioè x2 = kx1 . Evidentemente, x2 ∈ Sp (x1 ), quindi
Sp (x1 , x2 ) = Sp (x1 ), quindi ŷ è sempre lo stesso. Si noti, però, che ci sono infiniti
modi di scriverlo:
ŷ = β1 x1 = 0.5β1 x1 + 0.5
β1
β1
x2 = 0.01β1 x1 + 0.99 x2 = . . .
k
k
β
perché ovviamente k1 x2 = β1 x1 .10 In altre parole, esistono infiniti modi di combinare x1 e x2 fra loro per ottenere ŷ, anche se quest’ultimo è unico e la funzione
obiettivo ha un minimo ben definito.
Questa situazione si chiama collinearità, o anche multicollinearità, ed in
teoria è facile da risolvere: basta buttare via le colonne in più, e quindi potare
X in modo che abbia rango pieno. Nella pratica, le cose non sempre sono così
semplici, perché come è noto gli elaboratori operano con precisione numerica
finita. Mi spiego: immaginiamo di avere a che fare con una matrice X fatta così:


1
1
2
2 


X=

3
3 
4 4+²
Ovvio che, per ² > 0, la matrice ha rango 2; tuttavia, se ² è un numero molto
piccolo, un software non appositamente costruito per gestire queste situazioni11 dà di matto; si parla, tecnicamente, di quasi-collinearità. Per esempio, ho
fatto fare a gretl12 il prodotto (X0 X)−1 (X0 X) per diversi valori di ²; il risultato è
nella Tabella 1.1. Se il problema della precisione macchina non esistesse, nella
colonna a destra della tabella dovremmo vedere tutte matrici identità. Invece,
come si vede, già per ² = 1e − 05 il risultato è abbastanza insoddisfacente, e più
si va avanti, peggio è. Tengo a precisare che questo non è un problema di gretl,
ma del fatto che in un elaboratore digitale la precisione numerica non è infinita.
In questo esempio è chiaro cosa succede, perché la matrice X ha quattro righe, e le cose si vedono a occhio. In una situazione in cui la matrice ha decine, o
10 Sono sicuro che il lettore volonteroso non faticherà a trovare una generalizzazione della
formula di cui sopra.
11 Ce n’è: si chiama software in precisione arbitraria. I programmi statistico/econometrici, però,
non fanno parte di questa categoria per ragioni che sarebbe lungo spiegare, ma che sono ottime
ragioni.
12 Noto pacchetto statistico-econometrico: vedi alla URL http://gretl.sf.net. Ma qualcosa
mi dice che il lettore sa già di cosa parlo.
20
²
(X0 X)−1 (X0 X)
¸
1
4.36984e − 13
5.59552e − 13
1
·
¸
1
−8.82778e − 11
6.25278e − 13
1
·
¸
1
8.44739e − 09
2.06783e − 08
1
·
¸
0.999999
1.50409e − 07
8.47504e − 07
1
·
¸
0.999791
1.85966e − 05
6.01411e − 05
0.999926
·
¸
0.996029
0.00340652
0.00341797
0.991581
·
¸
0.499512 −0.000732422
0.28125
0.78125
·
¸
0.859863 0.845215
1
1
·
0.1
0.01
0.001
0.0001
1e-05
1e-06
1e-07
1e-08
Tabella 1.1: Precisione numerica
centinaia, o migliaia di righe, una situazione così rischia di non essere evidente,
e bisogna capirlo dai risultati che ci restituisce il software, che possono essere
del tutto farlocchi: ci possono essere dei casi in cui la matrice X è collineare, ma
il software non se ne accorge, e spara dei numeri a caso. Oppure, dei casi in cui
la matrice X non è collineare, ma il software dice che lo è. In questi casi, di solito
il problema è la precisione macchina. Mi piacerebbe parlare ancora di questo
argomento, ma la digressione è durata già troppo a lungo.
1.2.4 Le matrici di proiezione
Nella sottosezione precedente abbiamo visto che la soluzione ŷ è una trasformata lineare di y. La matrice che opera tale trasformazione è detta matrice di
proiezione. Per spiegare il perché, l’esempio che faccio sempre è quello della
mosca nel cinema. Immaginate che ci sia una mosca in un cinema. Sullo schermo appare un puntino: l’ombra della mosca. La posizione della mosca è y, lo
spazio generato dalle X è lo schermo e l’ombra della mosca è ŷ.
La matrice che trasforma la posizione della mosca nella posizione della sua
ombra è la matrice X(X0 X)−1 X0 . Per essere più precisi, questa matrice proietta sullo spazio generato dalle X qualsiasi vettore per cui viene postmoltiplicata.
Come vedremo, tale matrice è abbastanza utile ed importante da meritare un
nome (matrice di proiezione)13 e un’abbreviazione: PX .
PX = X(X0 X)−1 X0
13 Ad essere pignoli, bisognerebbe dire proiezione ortogonale, perché esiste anche un altro
attrezzo che si chiama proiezione obliqua. Ma noi non lo useremo mai.
21
Figura 1.2: Esempio: proiezione di un vettore su un altro
coordinata 2
y
Sp(x)
e
x
y
^
coordinata 1
In questo semplice esempio, x = (3, 1) e y = (5, 3); il lettore è invitato a controllare che
ŷ = (5.4, 1.8) ed e = (−0.4, 1.2). Prima che qualcuno me lo faccia notare: no, non è in
scala.
La proprietà base di questa matrice è che, per costruzione, PX X = X, come è
facile controllare. Inoltre, è simmetrica e idempotente:14
PX = PX 0
PX PX = PX ;
la proprietà dell’idempotenza ha anche un’interpretazione geometrica che la
rende molto intuitiva: la matrice PX prende un vettore da dovunque si trovi e
lo trasporta nel punto più vicino di Sp (X); se il punto di partenza è già in Sp (X),
evidentemente rimane dov’è e quindi applicare PX ad un vettore più di una volta
non produce effetti diversi che farlo una volta sola (PX y = PX PX y = PX PX · · · PX y).
Un’altra proprietà è che PX è singolare; per essere precisi, si può dire (e, volendo, dimostrare) che nessuna matrice idempotente è invertibile, a parte la matrice identità15 . Anche qui, c’è una interpretazione geometrica che rende questa
proprietà intuitiva: la proiezione comporta una perdita di informazione, perché
schiaccia alcune delle coordinate originali sul sottospazio generato dalle X: nell’esempio della mosca, non è possibile capire dov’è la mosca solo sapendo dov’è
la sua ombra, perché l’informazione sulla profondità viene persa. In formule, la
singolarità di PX si traduce nel fatto che non c’è nessuna matrice A per cui valga
14 Idempotente significa che, moltiplicata per se stessa, non cambia. Per esempio i numeri reali
1 e 0 sono idempotenti.
15 Ad essere ancora più precisi, si può dire che rk (P ) = rk (X), per cui P è una matrice n ×n con
X
X
rango k; evidentemente, nella situazione che stiamo considerando qui, n > k.
22
A · PX = I, e quindi non esiste nessuna matrice che permette di scrivere Aŷ = y,
cioè di ricostruire la posizione originale di y partendo dalla sua proiezione.
Un’altra matrice interessante che possiamo costruire partendo da PX è
M X = I − PX .
Evidentemente, MX y = y − ŷ = e. Questa matrice, in un certo senso, fa un lavoro opposto e complementare a quello di PX : applicata ad un vettore, ritorna lo
scarto fra il punto originale ed il punto proiettato. Si può controllare facilmente che MX ha la proprietà fondamentale per cui MX X = 0; ciò implica che ogni
vettore del tipo MX y è ortogonale a Sp (X), ossia forma un angolo retto con qualsiasi vettore Xλ.16 Altre proprietà degne di nota: MX è anch’essa simmetrica,
idempotente e singolare17 . Inoltre,
MX PX = PX MX = [0].
Esempio 2 Il lettore è invitato a controllare (facendo i conti a mano o col software
che preferisce) che, usando gli stessi dati dell’esempio 1, si ha


1/3 1/3
1/3
PX = 1/3 5/6 −1/6
1/3 −1/6 5/6

2/3 −1/3 −1/3
1/6 
MX = −1/3 1/6
−1/3 1/6
1/6

E la varie proprietà di tali matrici (ad esempio l’idempotenza).
Nel contesto che ci interessa, il vantaggio di aver definito le matrici di proiezione in rapporto al problema geometrico è che diventa facile esprimere in
modo semplice, compatto ed intuitivo le principali grandezze inerenti al problema statistico di approssimare la variabile y per mezzo di un modello lineare
costruito con le variabili che formano le colonne di X:
Grandezza
Coefficienti OLS
Valori fittati
Residui
Somma dei quadrati dei residui
Simbolo
β̂
ŷ
e
SSR
Formula
(X0 X)−1 X0 y
PX y
MX y
e0 e = y0 MX y
Consideriamo ad esempio il caso particolare in cui X = ι. Come abbiamo
visto, questo conduce a risolvere il problema per mezzo della media aritmetica,
cosicché β̂ = Ȳ : il vettore dei valori fittati18 è Pι y = ι · Ȳ e i residui sono semplicemente gli scarti dalla media: e = Mι y = y − ι · Ȳ . Infine, la devianza può essere
scritta come y0 Mι y (e quindi, volendo, la varianza come V (y) = n −1 y0 Mι y).
16 Ricordo che due vettori si dicono ortogonali fra loro se il loro prodotto interno è 0. In formule:
x ⊥ y ⇔ x0 y = 0. Un vettore si dice ortogonale ad uno spazio se è ortogonale a tutti i punti di quello
spazio: y ⊥ Sp (X) ⇔ y0 X = 0 e quindi y ⊥ Xλ per qualsiasi λ.
17 In effetti, M è anch’essa una matrice di proiezione, ma lasciamo stare.
X
18 Ecco, l’ho detto.
23
1.2.5 Misure di bontà del modello
A questo punto, è piuttosto naturale porsi il problema della bontà dell’approssimazione a cui il nostro modello statistico perviene. In un certo senso, il problema è già stato parzialmente risolto con l’adozione di una funzione criterio.
Quando usiamo β̂ come approssimatore in y i ' x0i β, sappiamo che stiamo facendo del nostro meglio, cioè stiamo scegliendo il valore di β che ottimizza la
funzione criterio.
Come spesso accade, però, può darsi che fare del nostro meglio non sia abbastanza. Sarebbe interessante avere un’idea di quanto il modello riesce a catturare il fenomeno di nostro interesse, ossia quanta informazione perdiamo nella
sintesi.
La misura più immediata da definire emerge in modo molto naturale da
queste due disuguaglianze:
0 ≤ ŷ0 ŷ = y0 PX y ≤ y0 y;
la prima è abbastanza ovvia considerando che ŷ0 ŷ è una somma di quadrati, e
quindi è non-negativa. La seconda è appena meno evidente: infatti, y0 PX y =
y0 y − y0 MX y = y0 y − e0 e; poiché anche e0 e è una somma di quadrati, ovviamente
y0 PX y ≤ y0 y. Dividendo il tutto per y0 y, si ha
0≤
ŷ0 ŷ
= R u2 ≤ 1
y0 y
(1.12)
Questo indice si chiama R u2 (che si legge “erre-quadro non centrato”), e gli si
può dare un’interpretazione molto intuitiva nel problema geometrico. Evidentemente, nello spazio Rn i punti y, ŷ e l’origine formano un triangolo rettangolo
(vedi anche la figura 1.2) in cui c’è un cateto “buono”, che è ŷ, e uno “cattivo”,
che è congruente a e: vogliamo che il cateto cattivo sia più corto possibile. Dato
il teorema di Pitagora, l’indice R u2 ci dà semplicemente il rapporto (al quadrato)
fra cateto buono e ipotenusa. Naturalmente, più questo indice è vicino ad 1, più
siamo contenti.
L’indice R u2 testè definito è perfettamente appropriato al problema geometrico, ma un tantino meno a quello statistico. Infatti, in molte circostanze noi
vorremmo poter dare per scontata l’informazione contenuta nella media aritmetica, che però nell’indice R u2 viene computata nel cateto “buono”. In altri
termini, non ha molto senso che un modello in cui sintetizziamo y con la sola
media, e cioè via ι · Ȳ ci possa dare un R u2 arbitrariamente vicino ad uno; in quel
caso, avremmo semplicemente l’indicazione che la dispersione dei dati intorno
alla media è piccola in rapporto alla media stessa.
Una modifica all’indice che lo rende più vicino alle esigenze statistiche è
quella di usare, come fattore di normalizzazione, y0 Mι y anziché y0 y. Infatti, se
ι ∈ Sp (X), si ha
0 ≤ y0 MX y = e0 e ≤ y0 Mι y ≤ y0 y,
24
ciò che rende possibile definire il cosiddetto R 2 centrato, noto anche come indice di determinazione:
e0 e
R2 = 1 − 0
.
(1.13)
y Mι y
Quando si parla di R 2 senza specificare, di solito si intende quest’ultimo, e questo è il motivo per cui la versione dell’indice definita nella (1.12) aveva una “u”
in pedice (dall’inglese uncentred).
Forse il lettore distratto non si è accorto di niente, ma in modo del tutto surrettizio ho introdotto un’idea travolgente. Dicendo che l’R 2 centrato è più adatto
a quantificare la bontà del modello sotto il profilo statistico, ho implicitamente
detto che la bontà del modello statistico è una cosa che va misurata confrontando due modelli fra loro. In effetti, la (1.13) può essere letta come un numero che
dipende dal confronto fra due funzioni di perdita: una, quella relativa al modello, per così dire, base (quello basato sulla sola media aritmetica); l’altra, quella
che risulta del modello, per così dire, completo.
Il proseguimento naturale di questa idea è quella di capire esattamente se,
ed in che misura, possiamo usare una valutazione di questo tipo (il confronto fra
funzioni di perdita) per guidarci in una scelta che, fino ad ora, abbiamo dato per
scontata, e cioè: come si costruisce la matrice X? Quali variabili è giusto, produttivo, utile, istruttivo, eccetera, includere nella nostra funzione m(xi )? Tutte
quelle che abbiamo? Solo alcune? E quali?
1.3 La scelta dei regressori
In questa sezione, ci porremo il problema di trovare dei criteri per capire quali
sono le variabili migliori per costruire la matrice X. Per cominciare, consideriamo il problema di scegliere se è “meglio” (in qualche senso da decidere) un
modello del tipo
y i ' x0i β
(1.14)
(chiamiamolo modello A) oppure un modello del tipo
y i ' x0i β + z0i γ
(1.15)
(chiamiamolo modello B).
Diciamo che sul potere esplicativo delle xi siamo sicuri; sulle zi , un po’ meno, e vorremmo decidere sulla base dei dati se è il caso di includerle nel nostro
modello o no. Chiaramente, il modello B è più articolato, ma il modello A è più
leggero. Potrebbe darsi che B sia ridondante, oppure che A sia troppo succinto.
Un esempio estremo di questa situazione è: cerchiamo di capire se c’è qualche regolarità che ci possa aiutare a descrivere il libretto di Pinco Pallino. Il vettore xi contiene delle variabili più o meno ragionevoli: quanti giorni ha studiato
per quell’esame, e così via. Il vettore zi , invece, contiene delle variabili che non
possono essere legate al voto preso in quell’esame se non per qualche sciocca
25
superstizione: che so, se la data in cui si è svolto l’esame è un multiplo di 9, se il
prof porta gli occhiali, o se la seconda lettera del nome dell’esame è “a”.
Ragionevolezza vorrebbe che, qualunque sia il criterio che usiamo, noi si
finisca per optare per il modello A. Purtroppo, però, se usiamo un criterio basato
puramente sulla funzione di perdita, finiremo sempre per scegliere il modello B
(lo dimostrerò fra poco). Il lettore superficiale concluderà, a questo punto, che
l’econometria è tutta una truffa e smetterà di leggere. Al lettore più intelligente,
invece, chiedo di portare pazienza per qualche pagina ancora. Prima di capire
come stanno le cose, abbiamo bisogno di qualche nozione in più.
1.3.1 Un altro paio di cose sulle matrici di proiezione
Consideriamo il caso di uno spazio ad n dimensioni e di una matrice X, di n
righe, k colonne e rango pieno. Come si diceva poche pagine fa, le colonne
di questa matrice definiscono un sottospazio a k dimensioni che chiamiamo
Sp (X).
Definiamo ora una matrice W, che possa essere scritta come come X· A, dove
A è una qualche matrice di rango minore di k. È evidente che ogni combinazione lineare delle colonne di W è anche combinazione delle colonne di X, e perciò
ha la proprietà di essere compresa in Sp (X). Ne segue che ogni vettore compreso
in Sp (W) è anche un elemento di Sp (X).
Tuttavia, il converso non è vero: ci sono degli elementi di Sp (X) che non
possono essere scritti come combinazione delle colonne di Sp (W) (la dimostrazione è un po’ più complicatuccia e non ve la faccio). In breve, Sp (W) è un
sottoinsieme di Sp (X) o, come si scrive, Sp (W) ⊂ Sp (X).
Un caso tipico di questa situazione lo si ha quando consideriamo una matrice W che contiene alcune colonne di X, ma non tutte. Diciamo, senza perdita di
generalità, che W è formato dalle prime k − p colonne di X o, equivalentemente, che cancellando le p colonne più a destra di X otteniamo W. In questo caso,
infatti, la matrice che prima ho chiamato A può essere scritta
· ¸
I
A=
0
dove la matrice identità che sta sopra ha k − p righe e colonne, e la matrice 0 che
sta sotto ha p righe e, naturalmente, k − p colonne.
In questa situazione, la proprietà PX W = PX XA = XA = W comporta alcune
interessanti conseguenze sulle matrici di proiezione legate agli spazi Sp (W) e
Sp (X), che elenco qui di seguito:
PW PX = PX PW
= PW
MW MX = MX MW
= MX
MW PX = PX MW
= PX − PW = M W − M X
PW MX = MX PW
= 0
Invito il lettore a dimostrarle per esercizio. Non dovrebbe volerci molto.
26
1.3.2 Un risultato sconfortante (in apparenza)
Riprendiamo i due modelli A e B di cui parlavo prima, alle equazioni (1.14) e
(1.15). A questo punto, è facile dimostrare che la SSR per il modello B è sempre
minore che per il modello A.
SSR A = e0a ea
SSR B = e0b eb
dove ea = MX y e eb = MX,Z y. Visto che Sp (X) ⊂ Sp (X, Z), si ha che
MX,Z MX = MX,Z
e perciò MX,Z ea = eb ; ne consegue che
SSR B = e0b eb = e0a MX,Z ea = e0a ea − e0a PX,Z ea ≤ e0a ea = SSR A
In pratica, se giudichiamo il risultato finale in termini di funzione di perdita, il
modello B (quello assurdo) è sempre almeno tanto buono quanto il modello A
(quello ragionevole), e forse di più. Neanche l’indice R 2 ci può essere d’aiuto:
dimostrare che
SSR B ≤ SSR A ⇒ R B2 ≥ R 2A .
è un giochino da terza media.
Ne consegue che aggiungendo variabili esplicative ad un modello preesistente, l’indice R 2 non può peggiorare, per quanto insensata sia la scelta dei regressori.
Che scandalo. Che schifo. Qui è tutto un magna magna. Ah, signora mia, la pena
di morte ci vorrebbe.
Se cerchiamo di essere ragionevoli, però, notiamo una cosa. Questa proprietà per cui più regressori usiamo, più la SSR diminuisce è una conseguenza
inevitabile dell’aver scelto di impostare il problema dell’approssimazione come
problema di ottimo. Infatti, l’equazione (1.14) è un caso particolare della (1.15),
che si ottiene ponendo γ = 0. Consideriamo ora la soluzione del problema di
ottimo per la (1.15): se la soluzione ottima per γ è il vettore zero, allora la funzione obiettivo risulta minimizzata sia per la (1.14) che per la (1.15). Altrimenti,
il vettore 0 non è l’ottimo per la (1.15), e quindi la funzione obiettivo può essere
ulteriormente decrementata. Come che sia, è impossibile che la funzione obiettivo risulti migliore per il modello A che per il modello B. Al massimo, può essere
non peggiore, cioè uguale.19
Detto in termini più tecnici, si può pensare che l’OLS applicato al modello B restituisca la soluzione di un problema di ottimo libero, mentre applicato
al modello A restituisce la soluzione di un problema di ottimo vincolato, dove
il vincolo è appunto γ = 0. Che il punto di ottimo del problema vincolato sia
peggiore di quello libero è soltanto ovvio.
19 I più astuti fra i miei lettori avranno già capito che questo punto è assolutamente generale e
non dipende in alcun modo dalla forma della funzione di perdita.
27
A questo punto, comincia a profilarsi una possibile soluzione: la decisione
su quale modello scegliere fra A e B non può essere basata sul puro e semplice
confronto fra le funzioni di perdita (perché è ovvio che la perdita diminuisce nel
modello non vincolato), bensì su un qualche tipo di criterio che misuri di quanto
la funzione di perdita cambia fra l’uno e l’altro. Se il guadagno è trascurabile,
allora tanto vale optare per il modello più parsimonioso.
Una prima soluzione a questo problema è quella fornita dal cosiddetto indice R 2 aggiustato, o barrato, o anche corretto:
R̄ 2 = 1 −
e0 e n − 1
,
y0 Mι y n − k
(1.16)
dove n è il numero di righe di y, cioè il numero di osservazioni di cui disponiamo, e k è il numero di colonne di X, ovvero il numero di parametri della nostra
funzione m(xi ) (compresa l’intercetta). Come si vede facilmente, aggiungere al
modello variabili esplicative senza senso può non produrre un miglioramento
nell’indice: infatti, è vero che la SSR scende, ma è anche vero che questo effetto
può essere controbilanciato dal fattore n − k che sta al denominatore.
Non è difficile dimostrare che, se nell’esempio dei modelli A e B visto sopra
chiamiamo k e p il numero di elementi nei vettori xi e zi rispettivamente, vale
la seguente relazione:
R̄ B2 ≥ R̄ 2A ⇔
SSR B
p
< 1−
SSR A
n −k
(1.17)
e quindi, per far migliorare l’indice R̄ 2 è necessario che SSR B sia sostanzialmente
minore di SSR A .
Vedremo che questa idea, adeguatamente sviluppata, ci darà la soluzione
che cerchiamo. Dobbiamo formalizzare esattamente la relazione che intercorre
fra il vincolo sul modello e il connesso peggioramento nella funzione di perdita,
così da stabilire dei criteri per decidere quando è meglio usare il modello libero
anziché quello vincolato. Per dare una soluzione generale, bisogna sviluppare
un po’ l’algebra per il confronto fra modelli liberi e vincolati.
1.3.3 Modelli e vincoli
Come ho detto sopra, vogliamo analizzare cosa succede ad un modello di regressione se minimizziamo la funzione di perdita sotto un qualche vincolo e
confrontare le proprietà della soluzione con quella trovata in assenza di vincolo.
Per fissare le idee, conviene partire da un’osservazione: se prendiamo un
modello lineare del tipo che abbiamo analizzato finora
m(xi ) = x i ,1 β1 + x i ,2 β2 + · · · + x i ,k βk =
k
X
j =1
x i , j β j = x0i β,
dove tipicamente x i ,1 = 1, l’idea di imporre dei vincoli sugli elementi di β si può
tradurre in una forma vincolata del modello.
28
Sarebbe più interessante, nonché più elegante, discutere il problema in termini generali. Per amor di semplicità, però, noi ci concentreremo sul caso di
vincoli lineari. Il caso più semplice in assoluto è quello di vincolare uno o più
coefficienti ad essere 0. Ad esempio, il modello
m(xi ) = x i ,1 β1 + x i ,2 β2 + x 3,1 β3 ,
(1.18)
se sottoposto al vincolo β2 = 0 diventa, banalmente,
m(xi ) = x i ,1 β1 + x i ,3 β3 .
Questa era davvero semplice, ma seguendo questo principio noi possiamo trasformare un modello di partenza in una cosa apparentemente del tutto diversa,
solo usando in modo sapiente la funzione (o le funzioni) vincolo. Per esempio,
il modello (1.18), se sottoposto al vincolo β1 = 1, diventa
m̃(xi ) = x i ,2 β2 + x i ,3 β3 ,
dove abbiamo sostituito al problema di approssimare la variabile y i per mezzo di una funzione m(·) il problema di approssimare la variabile (y i − x i ,1 ) per
mezzo di una funzione m̃(·); in altre parole, l’imposizione del vincolo modifica
non solo la forma della funzione m(·), ma anche la definizione della variabile
dipendente.
Altro esempio: supponiamo di voler sottoporre la (1.18) al vincolo β2 +β3 = 0
(o, in forma equivalente, β2 = −β3 ): questo conduce a riscrivere tale equazione
come
m(xi ) = x i ,1 β1 + (x i ,2 − x i ,3 )β2 .
Nauturalmente, i vincoli possono essere combinati fra loro. Ad esempio,
imponendo il sistema di vincoli
½
β1 = 1
β2 + β3 = 0
di nuovo all’equazione (1.18), quest’ultima si trasforma in
y i − x i ,1 ' m̃(xi ) = (x i ,2 − x i ,3 )β2 .
È chiaro che il modo più generale, ed al tempo stesso efficiente, di rappresentare un sistema di vincoli come quelli che abbiamo visto sin qui è quello di
rappresentarli per mezzo dell’equazione matriciale
Rβ = d ,
dove la matrice R ed il vettore d sono scelti da noi in modo tale da riprodurre
la funzione vincolo. Per esempio, se il modello libero è quello dell’equazione
(1.18), la seguente tabella fornisce alcuni esempi che dovrebbero illuminare il
lettore sul principio generale:
29
Vincolo
β3 = 0
β1 = 1
β2 + β3 = 0
½
β1 = 1
β2 = β3
£
0
£
1
£
0
·
1
0
R
¤
0 1
¤
0 0
¤
1 1
¸
0 0
1 −1
d
0
Modello vincolato
y i ' x i ,1 β1 + x i ,2 β2
1
y i − x i ,1 ' x i ,2 β2 + x i ,3 β3
0
· ¸
1
0
y i ' x i ,1 β1 + (x i ,2 − x i ,3 )β2
y i − x i ,1 ' (x i ,2 + x i ,3 )β2
La domanda che a questo punto dovrebbe venire spontanea è: ma perché
dovremmo imporre dei vincoli, se questi fanno sicuramente peggiorare la nostra
funzione di perdita? Ci possono essere vari motivi, ognuno dei quali non esclude
gli altri:
• Uno potrebbe voler confutare una qualche teoria, mostrando che l’esclusione di alcune variabili esplicative da un modello non produce un peggioramento apprezzabile della capacità, da parte del modello stesso, di
sintetizzare i dati.
• Uno potrebbe voler confrontare il modello libero con uno vincolato perché il vincolo esprime indirettamente un’ipotesi sul mondo ed è interessante capire se e quanto accettare incondizionatamente tale ipotesi pregiudica la nostra capacità di sintetizzare i dati.
• Spesso, i modelli econometrici sono scritti in termini di parametri che sono passibili di interpretazione diretta nella teoria economica. Consideriamo ad esempio una funzione di produzione Cobb-Douglas Q = AK α1 L α2 .
È noto dalla teoria microeconomica (o almeno, dovrebbe) che la CobbDouglas ha rendimenti di scala costanti se e solo se α + α2 = 1. Scrivendo
la funzione in logaritmi si ha
q = a + α1 k + α2 l
Supponiamo di condurre un esperimento in cui facciamo variare a nostro piacimento k e l , e osserviamo i cambiamenti in q. In questo caso, è
naturale pensare di quantificare il vettore di parametri

a
β =  α1 
α2

con i minimi quadrati. Se però sapessimo — o congetturassimo — che la
funzione è a rendimenti di scala costanti, vorremmo che la nostra stima
di β incorporasse l’informazione α1 + α2 = 1. Ovviamente, non c’è alcuna
b rispetti questa condizione.
garanzia che β
30
Nella sezione che segue, svilupperemo l’algebra che serve per mettere in relazione il sistema dei vincoli Rβ = d con il peggioramento nella funzione criterio
ad esso associato, così che potremo discutere con cognizione di causa sulla decisione da prendere quando ci chiediamo se sia “migliore” il modello libero o
quello vincolato.
1.3.4 I minimi quadrati vincolati
Nel modello vincolato, vogliamo una statistica che soddisfi a priori un insieme
di p restrizioni che possiamo scrivere come Rβ = d . In altre parole, cerchiamo
una soluzione al problema di trovare un vettore β̃ che minimizzi la SSR ma che
contemporaneamente rispetti un dato insieme di vincoli lineari:
e = Argmin ||y − Xβ||;
β
(1.19)
Rβ=d
si confronti la (1.19) con la (1.11), che definisce la statistica ottimale per il modello non vincolato. Così come la soluzione del problema non vincolato si chiama OLS (Ordinary Least Squares), la soluzione del problema vincolato si chiama
RLS (Restricted Least Squares).
Figura 1.3: Esempio: vettore di due parametri
β2
β^2
~
β2
~
^
β
1
β1
β1
Le ellissi sono le curve di livello della funzione e0 e. Il vincolo è β1 = 3β2 . Il numero di
parametri k è uguale a 2 e il numero di vincoli p è pari a 1. Il punto di minimo non
vincolato è βb1 , βb2 ; Il punto di minimo vincolato è β̃1 , β̃2 .
Per trovare tale statistica, minimizziamo la somma dei quadrati dei residui
sotto vincolo. Definendo i residui come e(β) = y − Xβ il lagrangiano sarà
1
L = e0 e + λ0 (Rβ − d ).
2
31
Poiché la derivata di e rispetto a β è −X, la condizione di primo ordine può essere
scritta
X0 ẽ = R 0 λ,
(1.20)
e il vettore che rende vera la (1.20) e con ẽ il vettore y−Xβ.
e
dove indichiamo con β
L’equazione (1.20) può essere riscritta in modo tale da rendere evidenti le
relazioni che esistono fra il problema di minimo vincolato (e la sua soluzione) e
il problema di minimo libero (e la sua soluzione, che è ovviamente la statistica
OLS). In particolare, possiamo considerare le implicazioni della (1.20)
1. nello spazio dei parametri (Rk )
2. nello spazio dei vincoli (Rp )
3. nello spazio delle osservazioni (Rn )
4. nello spazio della funzione obiettivo (R).
Cominciamo coi parametri: premoltiplicando la (1.20) per (X0 X)−1 si ottiene
una relazione interessante fra la soluzione vincolata e quella libera:
e=β
b − (X0 X)−1 R 0 λ
β
(1.21)
La soluzione vincolata, quindi, è uguale a quella libera più un “fattore di correzione” proporzionale a λ.
La seconda cosa che si può dire riguarda lo spazio dei vincoli, e quindi il
valore di λ: premoltiplicando la (1.21) per R si ha che
£
¤−1
b− d)
λ = R(X0 X)−1 R 0
(R β
(1.22)
e = d per costruzione.
perché R β
Dovrebbe essere chiaro dalla (1.22) che, se la statistica non vincolata rispetb = d ), allora λ = 0 e quindi la statistica vincolata
ta già di per sé il vincolo (R β
coincide con quella libera. In questo senso, si può dire che il vettore λ ci dà una
misura di quanto la soluzione del problema vincolato sia diversa da quella del
problema libero; sarò più preciso fra poco. La formula che si trova di solito nei
libri di testo la si ottiene combinando le equazioni (1.21) e (1.22):
£
¤
e=β
b − (X0 X)−1 R 0 R(X0 X)−1 R 0 −1 (R β
b− d)
β
(1.23)
Possiamo esaminare cosa succede nello spazio delle osservazioni premoltiplicando la (1.21) per X:
e = ỹ = ŷ − X(X0 X)−1 R 0 λ
Xβ
da cui discende
ẽ = ê + X(X0 X)−1 R 0 λ
32
Consideriamo ora lo spazio della funzione obiettivo: la somma dei quadrati
dei residui vincolati (cioè il minimo vincolato) ẽ0 ẽ può essere scritta nel seguente
modo:
ẽ0 ẽ = ê0 ê + λ0 R(X0 X)−1 R 0 λ
(1.24)
dove abbiamo sfruttato il fatto che ê = MX y e quindi, per costruzione, X0 ê = 0.
Ora, la (1.24) ci dice una cosa importante: la differenza che c’è fra il minimo
vincolato e il minimo libero (che è evidentemente sempre positiva) può essere
scritta come una forma quadratica in λ.20
Mettendo assieme le equazioni (1.21), (1.22) e (1.24) si arriva alle seguenti
uguaglianze:
ẽ0 ẽ − ê0 ê =
0
0 −1 0
λ R(X X) R λ = (β̂ − β̃)0 (X0 X)(β̂ − β̃) =
(1.25)
£
¤
b− d)
b − d )0 R(X0 X)−1 R 0 −1 (R β
(R β
L’espressione (1.25) è molto interessante, perché ci dice che la stessa quantità può essere interpretata in tre modi diversi ed equivalenti:
1. ẽ0 ẽ − ê0 ê è la differenza che c’è fra la funzione obiettivo vincolata e non.
Maggiore è questa differenza, maggiore è la perdita di capacità che il modello vincolato ha di accostarsi ai dati empiricamente osservati;
2. λ0 R(X0 X)−1 R 0 λ è una forma quadratica che vale 0 solo se λ = 0.21 Poiché abbiamo già visto che λ = 0 solo se la statistica vincolata coincide
con quella libera, questa grandezza varia sostanzialmente con la distanb − β||
e (una volta definita opportunamente la metrica); si può anche
za ||β
notare che, usando la (1.20), la quantità in questione può essere scritta
come ẽ0 PX ẽ;
£
¤
b )0 R(X0 X)−1 R 0 −1 (R β−d
b ) è una forma quadratica (de3. la grandezza (R β−d
b − d ), ossia in un vettore che è pari a 0 solo se lo
finita positiva) in (R β
stimatore libero rispetta già di per sé il vincolo.
La morale della storia è: la stessa quantità può essere letta in vari modi, ma
il messaggio veramente importante è che la differenza nella funzione obiettivo
che si ha fra modello vincolato e modello libero può essere vista come una misura di quanto β̂ e β̃ sono diversi fra loro. Questa molteplicità di approcci, oltre
20 Ricordo che una forma quadratica è un’espressione del tipo f (x) = x0 Ax, dove A è una matrice
simmetrica e x è un vettore conformabile. Se A è tale per cui f (x) > 0 per qualsiasi x 6= 0, allora
la matrice A si dice definita positiva; se f (x) ≥ 0 per qualsiasi x 6= 0, allora la matrice A si dice
semidefinita positiva. Se una matrice è semidefinita positiva e invertibile, allora è anche definita
positiva.
21 Poiché λ è il vettore dei moltiplicatori di Lagrange del problema di minimo vincolato è possibile — come è noto — darne una lettura in termini di prezzo ombra: l’i -esimo elemento del
vettore λ ci dice quanto migliora la funzione obiettivo ad una variazione ‘piccola’ del vincolo
corrispondente. Formalmente, si può dimostrare che λ è il vettore di derivate parziali di ẽ0 ẽ/2
rispetto a d .
33
ad essere piuttosto intrigante dal punto di vista puramente estetico (ma questa,
ammetto, è una questione di gusti) è utile perché ci permette di ragionare sui
singoli elementi di β̂ ragionando su quanto la loro distanza da un qualsiasi valore prefissato farebbe peggiorare il modello in termini di capacità interpretativa
dei dati.
1.4 Misure di perdita di fit
A questo punto, siamo nella condizione di poter dire qualcosa di preciso, come
promesso, sulla relazione che c’è fra funzione obiettivo e vincoli.
Un buon punto da cui partire è la statistica σ̂2 , che è semplicemente la varianza delle e i per il modello libero. Questa statistica ha una variante alternativa,
che risulta dall’uso al denominatore di n − k anziché n, e si chiama s 2 :
σ̂2 =
ê0 ê
;
n
s2 =
ê0 ê
;
n −k
la motivazione primaria per usare s 2 anziché σ̂2 è di tipo statistico-inferenziale
per cui, fedele al mio proposito, non ne parlo. Mi limito a far notare che in un
modello in cui k sia uguale ad n la SSR è zero per costruzione (dimostrarlo è
molto semplice) e quindi può avere senso normalizzare la SSR per n − k anziché
n. È evidente che in una condizione standard n è molto maggiore di k, cosicché
le due statistiche sono di fatto interscambiabili.
Il secondo ingrediente che ci serve è la differenza ẽ0 ẽ − ê0 ê, che è ovviamente sempre non-negativa, perché (come abbiamo ampiamente discusso) ẽ0 ẽ ≥
ê0 ê. Evidentemente, tanto più è grande questa differenza, tanto grande è la
discrepanza, in termini di fit, fra il modello libero e quello vincolato.
Si noti che il valore assoluto delle statistiche ẽ0 ẽ e ê0 ê dipende dall’unità di
misura che scegliamo per misurare la nostra variabile dipendente. Dato che
questa unità di misura è, evidentemente, arbitraria, possiamo ottenere una prima indicazione della perdita normalizzando la differenza fra le due per una
misura della varianza. Un primo indicatore è la cosiddetta statistica W
W=
ẽ0 ẽ − ê0 ê
ẽ0 ẽ − ê0 ê
=
n
·
σ̂2
ê0 ê
che usa σ̂2 ; un’alternativa è la cosiddetta statistica F , che è data da
F=
ẽ0 ẽ − ê0 ê 1 ẽ0 ẽ − ê0 ê n − k
=
,
·
s2
p
ê0 ê
p
e, rispetto alla statistica W , presenta due differenze: è basata su s 2 anziché σ̂2 ed
è normalizzata per il numero dei vincoli (W non lo è). La relazione che intercorre
fra le due è davvero molto facile da scrivere
W = p ·F
34
n
n −k
cosicché in una situazione standard, in cui n è molto più grande di k, si ha che
W ' pF .
Ovviamente, c’è un legame molto stretto fra le statistiche W ed F e l’indice
R 2 : se indichiamo con R L2 e RV2 gli indici R 2 dei modelli libero e vincolato, è
semplice dimostrare che
2
2
ẽ0 ẽ − ê0 ê R L − RV
=
ê0 ê
1 − R L2
per cui, ad esempio,
W =n
R L2 − RV2
1 − R L2
.
Un’altra cosa che val la pena di notare è che, poiché ẽ0 ẽ − ê0 ê = ẽ0 PX ẽ, le due
statistiche W ed F possono anche essere scritte in termini di
2
R aux
=
ẽ0 ẽ − ê0 ê
,
ẽ0 ẽ
che non è altro che l’indice R 2 è della cosiddetta regressione ausiliaria,22 in cui la
variabile dipendente è ẽ e le variabili esplicative sono X.
Il lettore sarà, dopo questa sarabanda di modi alternativi di scrivere sempre
la stessa cosa o quasi, colto da una leggera vertigine. È normale. La cosa davvero importante è che vi abbia convinto del fatto che usare la statistica W o la
statistica F per confrontare il modello libero con quello vincolato è una buona
idea. Quale delle due sia quella che scegliamo di usare, il criterio non può essere
che questo: se la statistica è “piccola”, il modello vincolato è preferibile, perché
la perdita di fit è compensata dalla maggior sintesi; se invece è “grande”, andrà
preferito il modello libero, perché il peggioramento nella funzione di perdita che
segue all’imposizione del vincolo è troppo oneroso.
Il problema che si pone a questo punto è: qual è il valore soglia che devo usare per decidere se W o F sono “piccole” o “grandi”? In ultima analisi, si usano
delle convenzioni, più o meno facili da motivare in un contesto inferenziale, che
noi qui prendiamo per buone giustificandole semplicemente come una prassi
tradizionale. La prassi consiste nel trasformare le statistiche F e W (che, ricordo, sono comprese fra 0 e infinito) in un numero fra 0 e 1 che si chiama p-value
22 Una regressione ausiliaria è una tecnica computazionale: per calcolare certe statistiche, a volte conviene applicare l’OLS ad un modello che in realtà non è quello di nostro interesse, ma usando il quale la statistica che ci interessa diventa facile da calcolare. In questo caso, la sequenza
delle operazioni sarebbe:
1. applico l’OLS al modello vincolato;
2. calcolo i residui ẽ;
3. applico l’OLS ad un modello in cui la variabile dipendente è ẽ e i regressori sono quelli del
modello non vincolato;
4. prendo l’R 2 di quest’ultima regressione e la moltiplico per n.
In questo contensto, l’uso della regressione ausiliaria è forse un po’ forzato, ma il principio torna
veramente comodo quando si fa sul serio, e cioè quando si usa l’OLS come stumento inferenziale.
35
1
2 vincoli
3 vincoli
4 vincoli
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
W
Figura 1.4: Funzione p-value per la statistica W
e che è una trasformata monotona decrescente della statistica originale. Come
siano fatte queste funzioni non importa qui (anche se la funzione p-value per la
statistica W con 2, 3 e 4 vincoli è mostrata nella figura 1.4, così, tanto per dare
l’idea): l’importante è sapere che, se la statistica F (o W ) è “grande”, il corrispondente p-value sarà “piccolo”. Il criterio che si usa di solito è quella di preferire il
modello libero a quello vincolato se il p-value è minore di 0.05.
Anzi, a volte si usa un trucchetto, che vedremo più avanti dal vivo, che serve
a rendere ancora più semplice la lettura della statistica, basato sulle cosiddette
stelline, o asterischi. I programmi econometrici a volte stampano, vicino alla
statistica, una o più stelline, che si leggono così:
Stelline
(nessuna)
*
**
***
Significato
p-value maggiore del 10%
p-value fra 5% e 10%
p-value fra 1% e 5%
p-value sotto l’1%
1.4.1 Un interessante caso particolare
Un caso particolare della teoria delineata al paragrafo precedente che si presenta molto spesso è il seguente: se il nostro modello libero è
m(xi ) = x0i β,
ci potremmo chiedere quanto sia preferibile un modello vincolato con β j = 0.
In pratica, un modello in cui l’influenza della j -esima variabile sulla funzione
36
m(xi ) sia 0 per ipotesi. In questo caso, d è lo scalare 0, e la matrice R è un vettore riga fatto in modo particolare, che si chiama la j -esima base canonica: un
vettore fatto tutto di zeri a parte la j -esima posizione, dove c’è 1.
La particolarità di una base canonica è che estrae una riga o una colonna di
ciò per cui viene moltiplicata (è per questo che una base canonica a volte viene
anche chiamata vettore estrattore). Per esempio, se b2 è la seconda base canonica, il prodotto A ·b2 ha come risultato la seconda colonna di A, e il prodotto b02 A
ha come risultato la seconda riga.23 Evidentemente,
b0i Ab j = A i j
Torniamo a noi: usando l’equazione (1.25), si nota che, nel caso in esame,
£
¤
b − d )0 R(X0 X)−1 R 0 −1 (R β
b− d) =
ẽ ẽ − ê ê = (R β
0
b2
(b0j β)
0
b0j (X0 X)−1 b j
=
β̂2j
δj
,
dove δ j è l’i -esimo elemento sulla diagonale di (X0 X)−1 . Poiché in questo caso p = 1, le corrispondenti statistiche W ed F possono essere ottenute semplicemente dividendo il rapporto nell’equazione precedente per σ̂2 o s 2 rispettivamente. In questo secondo caso, anzi, possiamo definire una statistica, detta
statistica t , o t-ratio, come
β̂ j
(1.26)
q
s · δj
che ha la proprietà di fornire immediatamente la statistica F se elevata al quadrato. Il denominatore del rapporto si chiama errore standard del coefficiente
β̂ j . Di nuovo: se mi fossi concesso il lusso di parlare di inferenza, vi spiegherei il
perché, ma in questa dispensa è un nome come un altro.24
In questo caso, non c’è nemmeno bisogno di guardare il p-value: la regola
a occhio che si segue fra economisti applicati è quella di rifiutare il vincolo se il
t -ratio è, in valore assoluto, maggiore di 2. Poiché il vincolo equivale in pratica,
all’irrilevanza della variabile esplicativa in questione, si dice che tale regressore
è significativo nel modello, il che vuol dire in pratica che il suo influsso sulla
funzione m(·) non può essere trascurato senza che il modello peggiori in modo
sostanziale. Naturalmente, nessuno impedisce di usare anche in questo caso il
trucchetto delle stelline (che anzi, sono la prima cosa che molti guardano).
1.5 Come si legge l’output
Vediamo ora come le cose che vi ho raccontato fin a qui funzionano in un caso pratico: la Tabella 1.2 contiene un regressione effettuata su un dataset di 549
23 Come sempre, il lettore è invitato a controllare, anziché fidarsi.
24 Uno si potrebbe chiedere: c’è un motivo per usare s 2 anziché σ̂2 , e cioè la statistica F anziché
la W ? Risposta: in realtà, no, se non la tradizione. E comunque, per un valore di n tale per cui
abbia senso porsi il problema di voler sintetizzare i dati davvero non fa alcuna differenza.
37
studenti della facoltà di Economia di Ancona che hanno sostenuto l’esame di
Economia Politica I (d’ora in poi, EP1) nell’anno accademico 2008/2009; la variabile dipendente è il voto che hanno preso.25 Il software usato è, come al solito,
gretl, ma qualsiasi altro pacchetto econometrico restituisce un output che non
è troppo diverso. Le variabili esplicative usate sono:
sesso
eta
votomg
votomat
Legenda variabili
1 = maschio, 0 = femmina
Età in anni
Voto di Matematica Generale
Voto di maturità (in 100esimi)
Dependent variable: votoep1
coefficient std. error
t-ratio
p-value
-------------------------------------------------------const
14.2526
2.33784
6.096
2.06e-09 ***
sesso
0.265843
0.297672
0.8931
0.3722
eta
-0.0546321
0.0631395
-0.8653
0.3873
votomg
0.297902
0.0421685
7.065
4.95e-12 ***
votomat
0.0612471
0.0134888
4.541
6.91e-06 ***
Mean dependent var
Sum squared resid
R-squared
F(4, 544)
Log-likelihood
Schwarz criterion
25.60291
5981.851
0.168660
27.59138
-1434.609
2900.759
S.D. dependent var
S.E. of regression
Adjusted R-squared
P-value(F)
Akaike criterion
Hannan-Quinn
3.623583
3.316029
0.162548
7.09e-21
2879.219
2887.637
Tabella 1.2: Esempio: il voto di Economia Politica I
Cominciamo con le cose facili: sulla prima riga della parte inferiore della tabella trovate delle statistiche descrittive della variabile dipendente: media (circa
25.6) e scarto quadratico medio (circa 3.6). Qui c’è poco da interpretare e passo
avanti. La riga seguente riporta la ESS del modello (pari a 5981.851) con, accanto, la radice quadrata di s 2 , che risulta in questo caso di circa 3.3. Ricordo, infatti,
che s 2 = e0 e/(n −k). In questo caso, n = 549 e k = 5, per cui il conto è presto fatto.
Insomma, la dimensione “tipica” degli errori di approssimazione a cui perviene
questo modello è di circa 3 punti; considerando che il voto è in trentesimi, non
un gran che.
Nella riga ancora sotto, trovate l’indice R 2 e la sua variante aggiustata (vedi
eq. 1.16). In entrambi i casi, siamo intorno al 16%-17%. Di nuovo, non un gran
che, ma insomma meglio che niente.
A questo punto, cominciamo a chiederci: come possiamo leggere il modello? Che informazioni ci ritorna sulle relazioni che intercorrono fra caratteristi25 Il 30 e lode è, piuttosto arbitrariamente, codificato come 31.
38
che del singolo studente e voto di EP1? Come cambierebbe il fit del modello se
modificassimo la composizione dei regressori?
1.5.1 La lettura dei coefficienti
È il momento di dare un’occhiata alla parte superiore della tabella, quella organizzata in colonne. Per ciascuno dei regressori abbiamo:
1. il corrispondente elemento di β̂, ossia β̂i ;
p
2. il relativo errore standard, ossia s · δi ;
3. il loro rapporto, ossia il t -ratio (vedi eq. 1.26);
4. il p-value relativo, con tanto di stelline.
Prendiamo ad esempio la variabile eta: la prima cosa da notare è che il coefficiente è negativo, per cui la funzione m(·) è decrescente nell’età dell’individuo.
In pratica, a parità di altre condizioni, persone più in là negli anni tendono a
prendere voti più bassi; peraltro, l’effetto è piuttosto lieve: un ventesimo di punto circa all’anno. Insomma, il voto medio dei quarantenni (di nuovo, ceteris paribus) è circa di un punto inferiore a quello dei ventenni. Ciò detto, ci sono tre
domande che vengono in mente:
1. Perché succede questo?
2. Quanto è significativo questo fenomeno?
3. È corretto dire che questo vale in generale?
La risposta alla prima domanda non ce l’ho: forse, quelli più vecchi sono
più somari; forse, quelli più vecchi sono gente che lavora e ha meno tempo di
frequentare e studiare; forse, semplicemente quelli che lavorano non si possono permettere di rifiutare un voto basso; forse, un quarantenne non ha amici
che si siedono vicino a lui allo scritto e non può copiare da nessuno; forse, i
docenti hanno una preferenza per gli studenti giovani; forse, è soltanto un caso. I dati non ci dicono quale di queste congetture è corretta: ci dicono che nel
nostro dataset succede questo, punto. E peraltro, vale la pena di considerare la
risposta alla domanda numero 2: cosa succederebbe se specificassimo una versione alternativa di questo modello, in cui l’età dell’individuo non viene presa
in considerazione? È presto detto: la SSR, naturalmente, salirebbe, ma non di
molto. Infatti, la statistica t relativa a questo coefficiente ammonta ad un misero -0.8653, il cui valore assoluto è ben al di sotto della soglia magica del 2; tant’è
vero che il p-value è circa del 39%, degno di neanche una stellina. In pratica:
l’omissione di questa variabile dal modello non fa peggiorare di molto la sua capacità di sintetizzare i dati. Come direbbe un economista applicato, la variabile
età non è significativa.
39
La domanda numero 3 è davvero un coltello nella carne viva: abbiamo stabilito che, mediamente, gli studenti anagraficamente più anziani nel nostro campione prendono dei voti un pochino più bassi. Peraltro, l’effetto non sembra
molto forte, tant’è che potremmo ignorare l’età dello studente e trovarci con un
modello il cui potere descrittivo rimane grosso modo invariato. È assolutamente naturale interpretare il risultato come indicazione che l’età dello studente è,
in generale, irrilevante per il voto di EP1: i docenti non fanno parzialità, i giovani non copiano più dei vecchi eccetera. In altre parole, la debolezza dell’effetto
che l’età ha sul voto è una conseguenza del fatto che ciò che vediamo nel nostro
campione è un caso, un volgare scherzo del destino quando invece in generale
l’età di un candidato all’esame di EP1 non ha effetto sul voto. Il debole effetto
che vediamo nel nostro campione non è più che un episodio.
La conclusione di cui sopra è del tutto naturale e del tutto ingiustificata. Almeno, usando l’interpretazione dell’OLS che abbiamo usato fino ad ora. Infatti,
tale conclusione sarebbe un esempio da manuale di ragionamento indu tti vo,
ossia:
1. Ho visto la tal cosa succedere in passato.
2. Il futuro si ripeterà come il passato.
3. Di conseguenza, la tal cosa accadrà anche in futuro.
Come notoriamente argomentò il filosofo scozzese David Hume, l’affermazione numero 2 è un puro e semplice atto di fede. Uno può scegliere di crederci, ma non ha
nessun argomento razionale per convincerne chiunque altro. Eppure, a tutti noi piacerebbe poter ragionare dando
per ovvio che la 2 valga: la nostra vita è piena di situazioni nelle quali noi ci comportiamo prendendo per certe delle cose che, a rigor di logica, non lo sono affatto. Se
non lo facessimo, diventeremmo matti. Hume, addirittura, sosteneva che la tendenza all’induzione è un dato bioD AVID H UME
logico dell’essere umano, argomento che io trovo molto
persuasivo.
L’inferenza statistica, che abbiamo bandito da questa dispensa, è appunto
un modo per rendere passabilmente rigoroso un ragionamento di tipo induttivo, e si fonda sulla sostituzione dell’affermazione numero 2 fatta poc’anzi con
una serie di assunzioni (e cioè affermazioni indimostrabili che scegliamo arbitrariamente di considerare come vere) che traducono in linguaggio formalizzato
la nostra (naturale, direbbe Hume) tendenza a generalizzare.
E quindi: a rigor di logica, l’evidenza empirica mostrata nella Tabella 1.2 non
ci autorizza a dire che l’età è irrilevante anche al di fuori del nostro dataset, per
quanto ragionevole questo ci sembri. Per poterlo fare, dovremmo fare delle opportune ipotesi sui motivi per cui abbiamo osservato i dati che abbiamo osservato (e non altri) e su quanto sarebbe stato diverso un dataset raccolto in un altro
40
anno accademico, o in un altro ateneo, o su un altro pianeta. Come ho ripetuto
fino alla noia, noi qui non lo facciamo, ma l’econometria “vera” si fonda sull’idea di poterlo e doverlo fare, ed ecco perché per fare le cose sul serio bisogna
studiare bene la teoria della probabilità. Ma mi fermo qui.
Per controllare di aver capito bene, consideriamo il coefficiente associato ad
un’altra variabile, e cioè votomg, il voto preso dallo studente in Matematica Generale. Il coefficiente vale circa 0.3, ciò che si traduce in: se due studenti con
le stesse caratteristiche hanno preso 21 e 28 di Matematica Generale rispettivamente, il nostro modello ci suggerisce che il voto che il secondo studente ha
preso di EP1 sarà di circa 2 punti superiore a quello del primo. Il conto della
serva sarebbe: (28 − 21) × 0.297902 ' 2.09.
Inoltre, il coefficiente è significativo: il t -ratio è un roboante 7.065, equivalente ad un p-value di circa 5 · 10−12 , che si merita tre stelline.26 Come direbbe
un economista applicato, la variabile “voto di matematica” è molto significativa.
Ciò premesso, possiamo dire che l’esclusione di questa variabile dal nostro
modello produrrebbe un suo forte peggioramento? Assolutamente sì. Possiamo
dire che quelli che prendono buoni voti in Matematica Generale prendono voti mediamente più alti degli altri in EP1? Nel nostro campione, assolutamente
sì. Fuori dal nostro campione, no.27 Possiamo dire che, se gli studenti studiassero meglio matematica, andrebbero meglio di economia? Ci piacerebbe poterlo fare, ma non è un’affermazione che possiamo motivare in modo rigoroso.
Possiamo dire che, se i docenti di Matematica Generale abbassassero le loro valutazioni di 2 punti, questo condurrebbe ad un abbassamento dei voti di EP1
intorno a 0.6? Certamente no.
1.5.2 Il resto dell’output
Non restano molte cose da commentare, e sono tutte nelle ultime tre righe della
Tabella 1.2. La statistica F alla quarta riga è semplicemente il confronto fra il modello e un modello assolutamente minimale, basato sulla sola media aritmetica,
cioè un confronto fra e0 e e y0 Mι y. In pratica, il vincolo consiste nell’azzeramento
contemporaneo di tutti i coefficienti ad esclusione del primo. In questo caso, il
p-value è talmente infinitesimale da autorizzarci a preferire il modello libero.28
La riga seguente contiene il valore della log-verosimiglianza (in inglese, loglikelihood), che è calcolato come
L=−
¤
n£
1 + ln(2π) + ln(σ̂2 )
2
26 Per dare l’idea: 5 · 10−12 è circa il rapporto che c’è fra il prezzo di una pizza e una birra e il
debito pubblico dello Stato italiano.
27 Anche se non possiamo neanche dire che non sia vero; su questo argomento, non possiamo
dire niente.
28 Il lettore entusiasta non tarderà a scoprire una semplice relazione, che dimostra che questa
statistica è una funzione crescente dell’indice R 2 , e in pratica contiene la stessa informazione.
41
Nel nostro contesto, non si vede quale informazione questo numero aggiunga
essendo, di nuovo, una trasformazione monotona della SSR. La sua utilità emerge soprattutto in un contesto probabilistico-inferenziale. Per noi, qui, è utile solo in quanto fornisce l’ingrediente di base per il calcolo dei cosiddetti criteri di
informazione, che sono delle statistiche utili a confrontare modelli non annidati.
Cosa vuol dire “modelli non annidati”? Sono modelli che non si possono
esprimere in modo tale che uno dei due sia un caso particolare dell’altro. Per
esempio, i due modelli visti alle equazioni (1.14) e (1.15) sono annidati perché, come abbiamo ampiamente argomentato, la (1.15) assieme al vincolo γ = 0
diventa la (1.14).
Consideriamo però la situazione in cui dobbiamo scegliere fra
yi
' x0i β
yi
' z0i γ
Di nuovo, vorremmo trovare un accettabile compromesso fra l’esigenza di approssimare le y i meglio che si può e quella di farlo usando un numero di parametri abbastanza piccolo da rendere la nostra approssimazione compatta e maneggevole. L’idea, pertanto, è di definire delle statistiche che bilancino queste
due esigenze in modo ragionevole. Un primo esempio l’abbiamo già visto, ed
è l’indice R̄ 2 (vedi eq. 1.16 nella sezione 1.3.2). I criteri di informazione prendono come base la log-verosimiglianza (moltiplicata per -2) e ci aggiungono
una funzione (detta di penalizzazione) che è crescente nel numero di parametri del modello, e talvolta anche nel numero di osservazioni. I criteri che gretl
riporta sono quelli di Akaike (AIC), quello di Schwartz (BIC) e quello di HannanQuinn (HQC), che , come si vede, si differenziano fra loro solo per la forma della
funzione di penalizzazione.
AIC = −2L + 2k
(1.27)
BIC = −2L + k log n
(1.28)
HQC = −2L + 2k log log n
(1.29)
Dovrebbe essere ovvio che ognuno di questi criteri dovrebbe essere, idealmente, più basso possibile. Per cui, fra due modelli non annidati tendenzialmente
sceglieremo quello che presenta il criterio più basso.
Forse potrei fare un esempio e rendere più chiaro il tutto, ma magari a questo
punto se lo può anche inventare il lettore.
1.5.3 Il teorema di Frisch-Waugh
Un’altra cosa che si vede molto bene usando le matrici di proiezione è il teorema
di Frisch-Waugh: supponiamo di dividere le colonne di X in due gruppi, che
chiamiamo X1 e X2 . Naturalmente, viene diviso di conseguenza anche il vettore
42
β, così che possiamo scrivere
£
ŷ = X1
X2
· ¸
¤ β̂1
β̂2
L’applicazione della (1.10) produce la seguente espressione:
· ¸ · 0
X X1
β̂1
= 10
X2 X1
β̂2
X01 X2
X02 X2
¸−1 · 0 ¸
X1 y
X02 y
Si possono, a questo punto, ricavare β1 e β2 in funzione di X1 , X2 e y andando
a vedere che forma ha l’inversa della matrice X0 X; la cosa presenta anche un
certo interesse didattico, ma c’è un modo più conciso ed elegante di recuperare
il risultato che ci interessa. Consideriamo che
y = ŷ + e = X1 β̂1 + X2 β̂2 + e
e premoltiplichiamo l’espressione sopra per MX2 ; si ha
MX2 y = MX2 X1 β̂1 + e
perché MX2 X2 = 0 (per costruzione) e MX2 e = e (perché e = MX y, ma Sp (X2 ) ⊂
Sp (X), e quindi MX2 MX = MX ). Premoltiplicando ancora per X01 otteniamo
X01 MX2 y = X01 MX2 X1 β̂1
perché X01 e = 0. Di conseguenza,
¡
¢−1 0
β̂1 = X01 MX2 X1
X1 MX2 y
(1.30)
Si noti che la (1.30) potrebbe anche essere scritta
£
¤−1 0
β̂1 = (X01 MX2 )(MX2 X1 )
(X1 MX2 )(MX2 y)
e quindi β̂1 è il vettore dei coefficienti della regressione che approssima i residui
di y rispetto a X2 sui residui di X1 rispetto a X2 . Per ragioni di simmetria, è del
tutto ovvio che risulta
¡
¢−1 0
β̂2 = X02 MX1 X2
X2 MX1 y
Cosa ci dice questo risultato? Ci dice che i coefficienti relativi ad un gruppo
di regressori misurano la risposta di ŷ al netto degli altri. L’esempio che si fa in
genere è: l’inclusione del vettore ι fra i regressori fa sì che i coefficienti associati
agli altri regressori (chiamiamoli X1 ) sono quelli che si otterebbero facendo la
regressione degli scarti dalla media di y sugli scarti di X1 dalla propria media.
Dimostrazione: immediata, ponendo X2 = ι (e quindi, MX2 = Mι ).
Un esempio più articolato, che forse aiuta un po’ di più la comprensione, è:
immaginiamo che y contenga dati sui redditi di n individui, che X1 sia il loro livello di istruzione e che X2 contenga la costante e una dummy che vale 0 se gli
43
individui abitano al Nord e 1 se al Sud. Naturalmente MX2 y contiene gli scarti dal
reddito medio della propria regione, così come MX2 X1 contiene gli scarti degli
anni di istruzione dalla media della propria regione. In pratica, stiamo pulendo i dati dell’effetto Nord-Sud, e quindi stiamo implicitamente tenendo conto
che differenze di reddito fra regioni posso dipendere da differenze nel livello di
istruzione medio fra una regione e l’altra. Di conseguenza, stimando un modello
che contiene sia la variabile “istruzione” che la dummy “regione”, il coefficiente relativo all’istruzione misura l’effetto dell’istruzione sul reddito al netto degli
effetti territoriali. In gergo, si direbbe in questo caso che “stiamo controllando
per la dummy regione”, il che significa che gli effetti delle altre variabili sono da
considerarsi depurati dall’effetto di eventuali disparità geografiche.
Un esempio pratico lo fornisce la coppia di modelli mostrata nella Tabella 1.3, in cui sono usati dati provenienti dal database dei World Development
Indicators, curato dalla Banca Mondiale. Le variabili usate sono:
l_inet
l_wpoll
l_gdp
Legenda variabili
Logaritmo della quota di popolazione che usa Internet
(var. dipendente)
Logaritmo dell’indice di inquinamento delle acque (var.
esplicativa)
Logaritmo del PIL pro capite (var. esplicativa)
Variabile dipendente: l_inet
(Errori Standard in parentesi)
const
l_wpoll
(a)
5.100∗∗
(0.8758)
(b)
−5.748∗∗
(1.176)
−0.7967∗∗
(0.3026)
−0.1388
(0.1923)
61
0.1051
0.0900
100.7983
0.9451∗∗
(0.09169)
61
0.6840
0.6731
35.5991
l_gdp
n
R2
R̄ 2
SSR
Tabella 1.3: Uso di Internet
Il modello (a) ci informa che usare il dato dell’inquinamento delle acque per
approssimare i diversi livelli di uso di Internet fra i paesi produce risultati non
disprezzabili: i paesi con le acque più pulite sono quelli in cui più persone usano
Internet. Il coefficiente dell’inquinamento nel modello (a) si pavoneggia, forte
delle sue due stelline.
Ora, non è che buttare diossina in un fiume provochi una diminuzione dei
vostri contatti Facebook. È che i paesi più ricchi sono anche quelli che si posso44
no permettere la tecnologia anti-inquinamento (che costa un sacco di soldi). E
infatti, guardando il modello (b) si vede che, una volta che si è controllato per il
reddito pro capite, le stelline sull’inquinamento scomapiono. Fra l’altro, come si
vede, la SSR diminuisce sensibilmente. Questo non vuol dire che il modello (a)
sia sbagliato; è un modello parziale, se volete incompleto, in cui il dato statistico
della correlazione negativa fra inquinamento e uso della rete produce il risultato
ovvio di un coefficiente negativo e significativo.
Non è che la correlazione fra inquinamento e uso di Internet non esista. È
semplicemente che tale correlazione dipende da una causa a monte di ambedue, che è il livello di sviluppo economico. Una volta che introduciamo nel modello una variabile che spiega il perché di questa correlazione (a cui, evidentemente, non si può dare alcuna connotazione causale), l’effetto sparisce. Questo
ci consente di dire che il modello (b) è “giusto”? Per me, in assoluto no. Tuttavia, ci consente di dire che è più giusto del modello (a) o, meglio ancora, meno
sbagliato.
1.5.4 L’effetto leva
I patiti della finanza non si eccitino anzitempo: parliamo di una cosa diversa.
Supponiamo di voler ricalcolare l’OLS senza la i -esima osservazione e chiamiamo β̂(−i ) la statistica corrispondente. Anzi, usiamo la convenzione di usare
il pedice “(−i )” per intendere “esclusa la i -esima osservazione”; quindi, con un
certo qual abuso di notazione, X(−i ) è una matrice di n −1 righe e k colonne, data
dalla matrice X alla quale abbiamo tolto la i -esima riga.
Il motivo per cui lo facciamo è per vedere cosa succede al nostro modello se una certa osservazione, che in realtà abbiamo, non fosse stata disponibile. È chiaro che, se i risultati cambiassero drasticamente omettendo questa
osservazione dal nostro dataset, quella osservazione merita di essere studiata in modo approfondito, perché rappresenta, per così dire, un caso a parte, e
quindi potrebbe anche venirci il dubbio che stiamo sbagliando qualcosa: magari i dati sono sbagliati, magari il nostro modello è inapplicabile a quel certo
individuo29 , magari ci siamo dimenticati di includere nel modello un qualche
regressore importante, o non ce l’abbiamo.
Come che sia, un modo elegante per vedere cosa succede è quello di considerare un modello in cui alla matrice dei regressori viene aggiunta una colonna
d, che contiene tutti zeri, a parte la i -esima riga, che contiene 1. Senza perdita
di generalità, supponiamo che i = n; quindi, d è un vettore di zeri con un 1 in
fondo. In pratica, il modello diventa
(1.31)
y = Xβ + dα + e = Wγ + e
dove
·
¸
y(−i )
y=
yi
·
X(−i )
W=
x0i
29 Aaaaaaahhhh! La legge ad personam!
45
¸
0
1
· ¸
β
γ=
α
Il modello di partenza è, ovviamente, il modello vincolato con α = 0. Alcuni
risultati che ci faranno comodo nel prosieguo:30
X0 Md
=
h
X0(−i )
i
0
X0 Md X = X0(−i ) X(−i ) =
0
X Md y =
X0(−i ) y(−i )
=
X
j 6=i
X
j 6=i
x j x0j
x j y 0j
0
d MX d = m i
0
d MX y = d0 ẽ = ẽ i
Dove ẽ sono i residui dell’OLS sul modello di partenza, che poi altro non è che
il modello nell’equazione (1.31), vincolato ad α = 0; m i è l’i -esimo elemento
sulla diagonale di MX , ossia 1 − x0i (X0 X)−1 xi . È anche utile introdurre la quantità
h i = 1 − m i = x0i (X0 X)−1 xi , l’i -esimo elemento sulla diagonale di PX .
I risultati dell’OLS applicato all’equazione (1.31) sono facili da trovare tramite il teorema di Frisch-Waugh:
β̂ = (X0 Md X)−1 X0 Md y = (X0−1 X−1 )−1 X0−1 y−1
α̂ = (d0 MX d)−1 d0 MX y = ẽ i /m i
Il vettore β̂ non è altro che la statistica OLS ottenuta omettendo l’i -esima
osservzione. Per quanto invece riguarda α̂, invece, consideriamo il vettore dei
residui ê = MW y; notiamo in primo luogo che d0 MW = 00 (vero per costruzione,
visto che d ∈ Sp (W)) implica d0 ê = ê i = 0. Di conseguenza, α̂ = y i −x0i β̂, che si può
vedere come l’errore commesso usando tutte le altre osservazioni per predire la
i -esima. Chiamiamolo “errore di previsione”.
Inoltre, dalla definizione di ê si ha
y = Xβ̂ + dα̂ + ê,
che, premoltiplicata per MX , dà
MX y = ẽ = MX dα + ê
e quindi
ẽ0 ẽ = d0 MX dα2 + ê0 ê
e infine
ê0 ê = ẽ0 ẽ − ẽ i2 /m i
che mostra come la SSR del modello senza la i -esima osservazione sia uguale
alla SSR del modello completo meno ẽ i2 /m i .
30 Sono facili da dimostrare. Anzi: è un esercizio carino, sapete? Fatelo.
46
Si noti che tutte queste quantità possono essere calcolate senza ricalcolare
l’OLS sull’equazione (1.31), ma semplicemente riutilizzando i risultati dell’OLS
sul dataset completo. Si può dimostrare che
β̂ = β̃ + (X0 X)xi
ẽ i
mi
x0i β̂ = x0i β̃ + ẽ i
hi
mi
di conseguenza,
Sembra chiaro che la grandezza ẽ i /m i è suscettibile di un’interpretazione
particolare: più è grande, più la i -esima osservazione impatta sulla stima complessiva. Ovviamente, questo succede tanto più è grande (in valore assoluto)
ẽ i , ma ovviamente questo dipende anche da quanto è piccolo m i , e quindi da
quanto è grande h i . Per dare un’ordine di grandezza, si può mostrare che la
media aritmetica delle h i è uguale a k/n.
Più precisamente: si chiama traccia di una matrice quadrata la somma degli
elementi lungo la sua diagonale, e si scrive
tr (A) =
n
X
a i ,i ,
i =1
in cui naturalmente immaginiamo che A sia una matrice n × n. La funzione
traccia ha un sacco di proprietà divertenti: in primo luogo, è lineare (ma questo
è piuttosto ovvio), per cui tr (A + B ) = tr (A) + tr (B ); per di più, se A = BC , allora
tr (A) = tr (BC ) = tr (C B )
in cui la prima uguaglianza è ovvia, ma la seconda lo è molto meno. Più in generale, vale quella che io chiamo “proprietà del trenino”, per cui dentro la funzione
traccia si può staccare un vagone dalla cima e attaccarlo in testa e viceversa,
cosicché
tr (ABC ) = tr (BC A) = tr (C AB )
Questo risultato ci consente di dimostrare facilmente che tr (PX ) = k: infatti
¡
¢
¡
¢
tr (PX ) = tr X(X0 X)−1 X0 = tr (X0 X)−1 X0 X = tr (I ) = k
Poiché h i non è che l’i -esimo elemento sulla diagonale di PX e quasta matrice
ha n righe, chiaramente la media delle h i è k/n e m i è, in media 1 − k/n.
Il criterio di cross-validation è un criterio che misura la “stabilità” del nostro
modello misurando quanto grandi sarebbero gli errori di previsione per tutte le
osservazioni.
n
n µ ẽ ¶2
X
X
i
2
e (−i ) =
i =1
i =1 m i
47
1.6 La regressione dinamica
Finora, abbiamo dato per scontato che le informazioni utili per costruire un’approssimazione del dato di nostro interesse y i fossero reperibili solo nel corrispondente elemento xi ; in certi casi, questa assunzione è del tutto naturale. In
un dataset di tipo cross-section, ad esempio, questa è la norma. Perché mai le caratteristiche del signor Rossi dovrebbero essere utili nel sintetizzare il dato relativo al signor Bianchi? Certo, in alcuni frangenti non saremmo così sicuri. Forse
il tasso di disoccupazione in Emilia-Romagna può avere degli effetti sui salari in
Toscana. Forse nel libretto di Pinco Pallino il voto di Statistica I ha qualche cosa
a che fare con il numero di ore passate a studiare Matematica Generale.
Se proprio volessimo trattare questo punto in modo generale, allora potremmo dire che, in astratto, nessuno ci vieta di pensare a modelli in cui la funzione
m(·), che usiamo per approssimare l’i -esimo elemento del vettore y, possa dipendere dall’intera matrice X. Ma, come spesso accade, perseguire la generalità
porta rapidamente a porsi dei problemi che non hanno soluzione.
Perché si possa dire qualcosa di sensato, il problema va delimitato in qualche
modo. Nell’econometria “per davvero”, la soluzione più generale ed elegante
porta ai cosiddetti modelli spaziali, che oggi godono di una certa popolarità e di
cui però non parlo. Un caso che, invece, è ben noto da lungo tempo è quello dei
campioni di serie storiche. In questo caso, il problema risulta molto semplificato
per via di due caratteristiche:
1. I dati hanno un ordinamento naturale.
2. In un dato istante di tempo, possiamo ritenere noto ciò che accade nel
presente e che è accaduto nel passato, ma non quello che accadrà nel
futuro.
Facendo violenza a ciò che c’è di più sacro nell’analisi probabilistica delle
serie storiche, a questo punto introduco una definizione: chiamiamo set informativo al tempo t l’insieme delle informazioni note al tempo t e usiamo per
indicarlo il simbolo ℑt . In pratica, se usiamo, come di consueto, il vettore y
per raccogliere i dati sulla variabile dipendente e la matrice X per le variabili
esplicative, possiamo dire che il set informativo al tempo t è l’insieme
©
ª
ℑt = x1 , x2 , . . . xt , y 1 , y 2 , . . . , y t −1
Si noti che non solo, come è ovvio, l’insieme ℑt contiene le prime t righe di X, ma
contiene anche i dati sulla y fino al tempo t − 1. Questo perché il problema dell’approssimazione viene visto implicitamente in chiave sequenziale: vogliamo
approssimare y t sulla base delle informazioni che abbiamo al tempo t .
È evidente che, per definizione, ℑt −1 ⊂ ℑt ⊂ ℑt +1 , per cui, in linea di principio, ad ogni istante la funzione che usiamo per approssimare y t può essere
48
diversa da tutte le precedenti; più passa il tempo, più cose sappiamo. Tuttavia, potremmo anche decidere di ignorare per semplicità le informazioni provenienti da un passato “troppo” remoto, ed autolimitarci a considerare solo un
p
sottoinsieme di ℑt dato da tutto ciò che è avvenuto nel passato recente:
©
ª
p
ℑt = xt −p , x y−p+1 , . . . xt , y t −p , y t −p+1 , . . . , y t −1
dove lo scalare p è la traduzione del nostro concetto di “recente”.
Se aggiungiamo un piccolo livello di flessibilità nell’ammettere che il limite
all’indietro per la y t non deve necessariamente essere uguale a quello per la xt , il
problema è abbastanza delimitato da permetterci di approssimare y t per mezzo
della funzione
p
q
X
X
yt '
αi y t −i +
β0i xt −i
(1.32)
i =1
i =0
così che possiamo scrivere una cosa del tipo

α1
 
 α2 
 .  



. . . x0p−q+1 
e p+1
 .. 

  
. . . x0p−q+2 
 αp  e p+2 





 + e

. . . x0p−q+3  
  β0   p+3 
..
β 
 1
.
 . 
 . 
 . 
βq


 
yp
y p+1

 y
 y p+2   p+1

 
 y p+3  =  y p+2

 
..
.
y p−1
yp
y p+1
...
...
...
y1
y2
y3
x0p+1
x0p+2
x0p+3
..
.
x0p
x0p+1
x0p+2
e rientrare così nello schema analitico che abbiamo seguito fino a qui, con la
conseguenza che possiamo continuare ad usare l’OLS.
Un modello così si chiama modello ADL(p,q), dove ADL sta per Autoregressive Distributed Lags. Spiegare perché è pedante e noioso e probabilmente inutile,
per cui non lo faccio. Dico invece che il calcolo di parametri avviene, di nuovo,
per mezzo della tecnica OLS, e quindi non c’è molto da dire in più di quanto
abbiamo già detto.
È interessante, invece, porsi un’altra domanda, che deriva dal fatto che stiamo usando come approssimazione della variabile dipendente una funzione che
non è più una semplice funzione lineare, ma è un oggetto più complesso noto
come equazione alle differenze. Ciò apre un problema di interpretazione: se
nel modello statico il coefficiente β j ha un’interpretazione naturale in termini
di derivata parziale (vedi (1.6) a pag. 15), un’operazione analoga è un po’ più
difficile per un’equazione alle differenze. Come vedremo, dovremo estendere il
concetto da statico a dinamico, ossia chiederci, per un’equazione del tipo
yt =
p
X
αi y t −i +
i =1
q
X
i =0
49
β0i xt −i
quale sia l’effetto della x sulla y t dopo un dato lasso di tempo. In pratica, la domanda da porsi è: che effetto ha un movimento nella xt su y t + j ? Che poi, dal
momento che i coefficienti αi e βi non dipendono da t , è la stessa cosa che chiedersi: che effetto ha avuto su y t un evento avvenuto j periodi fa, ossia xt − j ? Ovvio che, per j = 0, questa domanda comprende come caso particolare il modello
statico, ossia l’equazione lineare, ma consente anche di descrivere meccanismi
più complessi, in cui le cose non succedono necessariamente all’istante.
Dobbiamo trovare un modo, pertanto, di calcolare delle grandezze del tipo
di =
∂y t
∂y t +i
=
,
∂xt −i
∂xt
(1.33)
che si chiamano moltiplicatori dinamici, o anche semplicemente moltiplicatori. Il primo, cioè d 0 si chiama anche moltiplicatore d’impatto.
Per risolvere il problema dobbiamo imparare a manipolare le equazioni alle
differenze. Coraggio e rimbocchiamoci le maniche.
1.6.1 L’operatore ritardo
In fin dei conti, le serie storiche non sono altro che sequenze di numeri, ordinate
attraverso il tempo. In molti casi, è comodo poter manipolare le sequenze con
degli appositi attrezzi, detti operatori. L’operatore ritardo viene generalmente
indicato con la lettera L nella letteratura econometrica (gli statistici preferiscono la B ); è un operatore che si applica a sequenze di oggetti, e trasforma una sequenza x t in un altra sequenza che ha la curiosa caratteristica di avere gli stessi
valori di x t , ma sfalsati di un periodo.31 Se applicato ad una grandezza costante
nel tempo, la lascia invariata. In formule,
Lx t = x t −1
L’applicazione ripetuta n volte di L viene indicata con la scrittura L n , e quindi si
ha L n x t = x t −n . Per convenzione si pone L 0 = 1. L’operatore L è un operatore lineare, nel senso che, se a e b sono costanti, si ha L(ax t + b) = aLx t + b = ax t −1 +
b. La caratteristica più graziosa dell’operatore L è che le sue proprietà appena enunciate permettono, in molte circostanze, di manipolarlo algebricamente
come se fosse un numero. Questo avviene soprattutto quando si considerano
polinomi nell’operatore L. Facciamo un paio di esempi semplici.
Esempio 3 Una squadra di calcio ha in classifica tanti punti quanti ne aveva alla
giornata precedente, più quelli che ha guadagnato nell’ultimo turno. Chiamando
rispettivamente queste sequenze c t e u t , si avrà
c t = c t −1 + u t
31 In certi contesti, si utilizza anche il cosiddetto operatore anticipo, usualmente indicato con
la lettera F e definito come l’inverso dell’operatore ritardo (F x t = x t +1 ). Noi non lo useremo mai,
ma è bello sapere che c’è.
50
La stessa cosa si sarebbe potuta scrivere adoperando l’operatore ritardo:
c t = Lc t + u t → c t − Lc t = (1 − L)c t = ∆c t = u t
L’operatore ∆, che dovrebbe essere una vecchia conoscenza, è definito come (1 −
L), ossia un polinomio di primo grado in L. L’espressione precedente non dice
altro che la variazione dei punti in classifica è data dai punti guadagnati in ogni
giornata.
Esempio 4 Chiamiamo q t il saldo demografico trimestrale per il comune di Rocca Cannuccia. È evidente che il saldo demografico annuale (cioè le nascite degli
ultimi 12 mesi meno le morti nello stesso periodo) sono date da
a t = q t + q t −1 + q t −2 + q t −3 = (1 + L + L 2 + L 3 )q t
Poiché (1 + L + L 2 + L 3 )(1 − L) = (1 − L 4 ) (moltiplicare per credere), “moltiplicando” l’espressione precedente32 per (1 − L) si ha
∆a t = (1 − L 4 )q t = q t − q t −4
la variazione del saldo demografico annuale tra un trimestre ed il successivo non
è che la differenza fra il saldo dell’ultimo trimestre e il corrispondente trimestre
dell’anno precedente.
Le manipolazioni possono essere anche più complesse; in particolare ci sono due risultati di routine: il primo è che
n
X
i =0
ai =
1 − a n+1
1−a
P
1
i
per a 6= 1. Se poi |a| < 1, si ha che a n → 0 e quindi ∞
i =0 a = 1−a . Ponendo
a = αL, si può dire che, per |α| < 1, i due operatori (1 − αL) e (1 + αL + α2 L 2 + · · · )
sono uno l’inverso dell’altro. In pratica, se |a| < 1, vale
(1 − αL)(1 + αL + α2 L 2 + · · · ) = 1,
da cui l’espressione
(1 − αL)−1 =
∞
X
αi L i ,
i =0
che spesso si abbrevia anche in
∞
X
αi L i =
i =0
1
.
1 − αL
32 Ad essere precisi, si dovrebbe dire: ‘applicando all’espressione precedente l’operatore (1 − L)’.
51
Il secondo risultato riguarda i polinomi. Prendiamo un polinomio di nesimo grado, e chiamiamolo P (x). Per definizione, si ha
P (x) =
n
X
pjxj
j =0
Se P (0) = p 0 = 1, allora è possibile esprimere il polinomio di n-esimo grado
come il prodotto di n polinomi di primo grado:
P (x) =
n
Y
(1 − λ j x)
(1.34)
j =1
i coefficienti λ j non sono altro che i reciproci delle radici di P (x), ossia quei valori per cui P ( λ1j ) = 0. Nessuno assicura che queste radici siano reali (per n > 1
possono anche essere numeri complessi), ma dal punto di vista teorico questo
non ha alcuna rilevanza. Questo risultato è importante perché, unito al precedente, permette di stabilire le condizioni di invertibilità per polinomi di qualunque grado. In particolare, si vede facilmente che il polinomio P (x) è invertibile
se e solo se ognuno degli elementi della produttoria nell’equazione (1.34) lo è.
Di conseguenza, P (x) è invertibile se e solo se |λ j | < 1 per ogni j , ciò che, a sua
volta, è vero se e solo se tutte le radici del polinomio sono maggiori di 1 in valore
assoluto.
In pratica: se una sequenza è a t è definita come trasformazione di un’altra
sequenza u t attraverso il polinomio P (L), ciò che in formule si scrive
a t = P (L)u t ,
allora è possibile ritrovare la sequenza u t partendo da a t solo se l’operatore P (L)
ha un’inverso, cioè se i valori z che rendono vera P (z) = 0 sono tutti numeri
maggiori di 1 in modulo. In questo caso, si può scrivere
u t = P (L)−1 a t =
1
at .
P (L)
Un altro trucchetto di uso comune è quello di valutare un polinomio P (L) in
L = 1. Evidentemente, l’espressione P (1) è uguale a
P (1) =
n
X
p j 1j =
j =0
n
X
pj
j =0
e quindi è semplicemente uguale ad un numero, dato dalla somma dei coefficienti del polinomio. Questo torna comodo quando si applica un polinomio ad
una costante, visto che
P (L)µ =
n
X
pjµ = µ
j =0
n
X
j =0
Vediamo un altro esempio:
52
p j = P (1)µ.
Esempio 5 (Il moltiplicatore keynesiano) Supponiamo che
Yt
= Ct + It
Ct
= αY t −1
Dove α è la propensione marginale al consumo, compresa fra 0 e 1. Combinando
le due equazioni si ha
Y t = αY t −1 + I t → (1 − αL)Y t = I t ;
in questo modello, quindi, applicando alla sequenza Y t (la serie storica del reddito) il polinomio di primo grado A(L) = (1 − αL) si ottiene la serie storica degli
investimenti, semplicemente perché I t = Y t −C t = Y t − αY t −1 .
Un risultato più interessante si ha invertendo l’operatore A(L) = (1 − αL):
Y t = (1 + αL + α2 L 2 + · · · )I t =
∞
X
αi I t −i :
i =0
la domanda aggregata al tempo t può essere vista come una somma ponderata
dei valori presenti e passati dell’investimento. Se poi il flusso di investimenti è
costante nel tempo, allora I t = I¯ può essere tirato fuori dalla sommatoria, e si
ottiene il risultato standard da libro di macro elementare:
∞
X
I¯
Y t = I¯ αi =
.
1−α
i =0
In questo ultimo caso si sarebbe anche potuto scrivere
A(1)Y t = I¯ =⇒ Y t =
I¯
.
1−α
Il fatto che spesso si può maneggiare l’operatore L come se fosse un numero
non vuol dire che lo si possa far sempre: bisogna sempre ricordare che Lx t non
è ‘L per x t ’, ma ‘L applicato a x t ’. L’esempio seguente dovrebbe servire a mettere
in guardia.
Esempio 6 Date due sequenze x t e y t , definiamo una terza sequenza z t = x t y t .
È del tutto chiaro che z t −1 = x t −1 y t −1 . Tuttavia, potremmo essere tentati di fare il
seguente ragionamento:
z t −1 = x t −1 y t −1 = Lx t Ly t = L 2 x t y t = L 2 z t = z t −2
che è evidentemente assurdo.
L’operatore L può essere applicato in modo del tutto analogo anche nel caso
in cui x t sia un vettore: Lxt = xt −1 . Le cose si fanno più articolate se consideriamo espressioni del tipo
xt + Axt −1 = (I + AL)xt
dove A è una matrice. In questo caso l’espressione (I + AL) è un operatore
— funzione dell’operatore L — matriciale. Esso può essere visto in due modi
equivalenti:
53
Polinomio matriciale L’operatore (I + AL) è la somma di due matrici, ognuna
delle quali “moltiplica” l’operatore L per una potenza diversa. Si può pensare a (I + AL) come ad un polinomio di ordine 1 nell’operatore L in cui il
primo coefficiente è la matrice identità ed il secondo è la matrice A.
Matrice di polinomi L’operatore (I + AL) è una matrice i cui elementi sono polinomi di ordine 1; ad esempio, l’elemento i j di (I + AL) è d i j + a i j L, dove d i j è il cosiddetto ‘delta di Kronecker’, che è uguale a 1 per i = j e 0
altrimenti.
La generalizzazione al caso di polinomi di ordine p dovrebbe essere immediata,
così che un’espressione del tipo
yt = C (L)xt = C 0 xt +C 1 xt −1 + · · · +C p xt −p
non dovrebbe destare alcuno stupore. Se il vettore xt ha n elementi e le C i sono
matrici (r × n), allora yt è una sequenza di vettori di r elementi. Il problema
dell’invertibilità in questo contesto è però un tantino più complicato, per cui
glisso.
1.6.2 Equazioni alle differenze
Ora che i polinomi in L non hanno per noi più segreti, possiamo passare al problema che davvero ci interessa. Partiamo da un’equazione alle differenze, che
possiamo scivere come
A(L)y t = B (L)x t
dove A(L) e B (L) sono polinomi in L di ordine p e q rispettivamente. In generale,
y t e x t possono essere vettori, nel qual caso A(L) e B (L) sono polinomi matriciali. Qui, per far le cose semplici, assumerò che siano scalari. Se il polinomio A(L)
è invertibile, possiamo definire D(L) = B (L)/A(L), che per A(L) 6= A(0) è infinito
e quindi
∞
X
y t = D(L)x t =
d i x t −i
i =0
A questo punto, il problema da cui eravamo partiti, e cioè quello di dare
un’interpretazione ai parametri di un’equazione alle differenze, è risolto: infatti,
i moltiplicatori dinamici definiti all’equazione (1.33), che riporto qui sotto
di =
∂y t
∂y t +i
=
,
∂x t −i
∂x t
sono semplicemente i coefficienti del polinomio D(L). Questi, volendo, si possono calcolare analiticamente invertendo il polinomio A(L), ma non è né interessante né divertente. Invece, si può fare la stessa cosa in modo rapido ed
istruttivo usando un algoritmo ricorsivo, e ora vi spiego come.
Cominciamo col dire che il moltiplicatore di impatto è facile da trovare, perché è semplicemente d 0 , ossia D(0), ossia B (0)/A(0), ossia β0 (visto che A(0) =
54
1). Tutti gli altri moltiplicatori possono essere trovati da lì in funzione di quelli già disponibili semplicemente sfruttando la definizione (1.33); per essere più
chiari, la (1.33) permette di esprimere d i per mezzo di d i −1 , d i −2 eccetera. Una
volta trovato il primo, gli altri seguono.
Faccio un esempio che mi sa che è meglio. Nel caso dell’ADL(1,1),
y t = αy t −1 + β0 x t + β1 x t −1 ,
(1.35)
usando il fatto che un moltiplicatore non è che una derivata, si ha
d0
=
d1
=
d2
=
¢
∂y t
∂ ¡
=
αy t −1 + β0 x t + β1 x t −1 = β0
∂x t ∂x t
¢
∂y t
∂ ¡
∂y t −1
=
αy t −1 + β0 x t + β1 x t −1 = α
+ β1 = αd 0 + β1
∂x t −1 ∂x t −1
∂x t −1
¢
∂y t
∂ ¡
∂y t −1
=
αy t −1 + β0 x t + β1 x t −1 = α
= αd 1
∂x t −2 ∂x t −2
∂x t −2
eccetera, eccetera, eccetera, eccetera, eccetera, . . .
Esempio 7 (Inversione di polinomi) Supponiamo che
y t = 0.2y t −1 + 0.4x t + 0.3x t −2 .
In questo caso A(L) = 1 − 0.2L e B (L) = 0.4 + 0.3L 2 . L’inverso di A(L) è
A(L)−1 = 1 + 0.2L + 0.04L 2 + 0.008L 3 + · · ·
per cui
B (L)
= (0.4 + 0.3L 2 ) × (1 + 0.2L + 0.04L 2 + 0.008L 3 + · · · )
A(L)
È evidente che il calcolo a mano si può fare, e risulta
B (L)
A(L)
= 0.4 × (1 + 0.2L + 0.04L 2 + 0.008L 3 + · · · ) +
+0.3L 2 × (1 + 0.2L + 0.04L 2 + 0.008L 3 + · · · ) =
= 0.4 + 0.08L + 0.016L 2 + 0.0032L 3 + · · · +
+0.3L 2 + 0.06L 3 + 0.012L 4 + 0.0024L 5 · · · =
= 0.4 + 0.08L + 0.316L 2 + 0.0632L 3 + · · ·
Ma si fa prima a fare il calcolo ricorsivo:
d0
= B (0)/A(0) = 0.4/1 = 0.4
d1
= 0.2 · d 0 = 0.08
d2
= 0.2 · d 1 + 0.03 = 0.016 + 0.3 = 0.316
d3
= 0.2 · d 2 = 0.0632
e così via.
55
In molte circostanze, è interessante applicare i moltiplicatori per rispondere
ad una domanda ben specifica: cosa succede a y t se si verifica una variazione
permanente in x t . Chiaramente, al tempo zero l’effetto sarà dato dal moltiplicatore d’impatto d 0 , ma dopo un periodo bisognerà sommare l’effetto istantaneo con quello derivante dal periodo precedente, e quindi l’effetto sarà dato da
d 0 + d 1 . Procedendo per induzione, è naturale definire una nuova sequenza di
moltiplicatori come
j
X
c j = d0 + d1 + · · · + d j =
di .
i =0
La grandezza c j si chiama moltiplicatore interinale e misura l’effetto su y t di
una variazione permanente di x t avvenuta j periodi fa. Naturalmente, è interessante calcolare c = lim j →∞ c j , che è noto come moltiplicatore di lungo periodo.
La cosa è più semplice di quanto sembri, visto che
cj =
∞
X
d i = D(1)
i =0
ossia c è il valore del polinomio D(z) valutato in z = 1; ma poiché D(z) = B (z)/A(z),
(1)
.
se ne deduce che c = BA(1)
Esempio 8 (Moltiplicatori interinali) Riprendiamo l’esempio precedente in cui
y t = 0.2y t −1 + 0.4x t + 0.3x t −2 .
I moltiplicatori interinali si calcolano facilmente partendo da quelli dinamici:
c0
= d 0 = 0.4
c1
= d 0 + d 1 = c 0 + d 1 = 0.48
c2
= d 0 + d 1 + d 2 = c 1 + d 2 = 0.796
eccetera. Il limite di questa sequenza sembra difficile da calcolare, ma in realtà è
davvero molto semplice:
c = D(1) =
B (1)
= 0.7/0.8 = 0.875
A(1)
Et voilà.
Il moltiplicatore di lungo periodo c è molto importante, perché dice la proporzionalità che c’è fra y t e x t in stato stazionario: immaginiamo di fissare x t ad
un dato valore e di fare modo che rimanga fisso a quel valore per sempre. Esiste
un valore limite per y t ? Se la risposta è affermativa, allora il sistema ammette uno stato stazionario (anche noto come steady state), che si può considerare
come equilibrio di lungo periodo, nel senso che se il sistema si trova in stato
stazionario, allora cessa di muoversi finché non arrivano shock dall’esterno a
turbare l’equilibrio.
56
Per vedere il motivo per cui c è il parametro di stato stazionario, immaginiamo che il sistema sia in tale condizione: ambedue le variabili restano ferme nel
tempo, e possiamo scrivere y t = Y e x t = X ; per conseguenza,
A(L)y t = B (L)x t ⇒ A(L)Y = B (L)X ⇒ A(1)Y = B (1)X ⇒ Y =
B (1)
X = cX
A(1)
e il sistema non è in equilibrio ogni qual volta che y t 6= c X . Come vedremo,
questa banale osservazione sarà piuttosto importante in seguito.
1.6.3 La rappresentazione ECM
Come si è visto, il modo più efficace di leggere i parametri di un’equazione alle
differenze è quello di trasformarli in una sequenza di moltiplicatori (ed eventualmente cumularli).
Fra tutti i moltiplicatori, quelli che presumibilmente
interessano di più sono il moltiplicatore d’impatto (perché dice cosa succede istantaneamente) e quello di lungo periodo (perché dice cosa succede una volta che tutti
gli aggiustamenti sono terminati). Ambedue sono piuttosto semplici da calcolare, essendo pari, rispettivamente, a
B (0)/A(0) e B (1)/A(1). Tuttavia, c’è un modo di riscrivere
un modello ADL che rende il tutto ancora più evidente, ed
è la cosiddetta rappresentazione ECM.
La sigla ECM può significare varie cose:33 quello che
D AVID H ENDRY
per consenso pressoché unanime è considerato il papà
dell’ECM, e cioè Sir David Hendry, insiste nel dire che significa Equilibrium
Correction Mechanism. Peccato però che questa sia una trovata posteriore alla sua introduzione in econometria, avvenuta ad opera dello stesso Hendry con
un manipolo di sodali tutti provenienti dalla London School of Economics, nel
1978. All’epoca, l’avevano chiamato Error Correction Model, e molti continuano
a chiamarlo così.
Per far vedere come funziona, partiamo dal caso più semplice di tutti, e cioè
un ADL(1,1), e cioè l’equazione (1.35), che ripropongo qui in forma un tantino
più generale, e cioè con x t vettore:
y t = αy t −1 + β00 xt + β01 xt −1
è evidente che si può riscrivere y t = y t −1 + ∆y t e xt = xt −1 + ∆xt . Sostituendo, si
ha
∆y t = (α − 1)y t −1 + β00 ∆xt + (β0 + β1 )0 xt −1
che può essere a sua volta riscritto come
·
¸
(β0 + β1 )0
0
∆y t = β0 ∆xt + (α − 1) y t −1 −
xt −1
1−α
33 Niente a che vedere con Pat Metheny o Keith Jarrett.
57
(1.36)
Il senso è: la variazione di y t nel tempo può essere provocata da un movimento della xt , nel qual caso la risposta è β0 , il moltiplicatore di impatto; tuttavia, può anche darsi che la xt resti ferma (e quindi ∆xt = 0), ma il termine fra
parentesi quadre sia diverso da 0, ciò che evidentemente provoca ugualmente
un movimento nella y t . Il termine fra parentesi quadre può essere anche scritto
come
y t −1 − c0 xt −1
β +β
0
1
dove c = 1−α
, ossia il vettore dei moltiplicatori di lungo periodo. In pratica,
tale termine, noto come termine ECM, misura se c’era, al tempo t − 1, uno scostamento tra il valore effettivo di y t −1 ed il valore che, data la xt −1 , sarebbe stato
necessario affinché il sistema si trovasse in equilibrio.
Posto che |α| < 1, allora (α − 1) è un numero negativo: se il termine ECM è
positivo (e quindi la y t −1 era più grande del suo valore di equilibrio), allora ∆y t
sarà negativo (e quindi la y t tende a riavvicinarsi verso la situazione di equilibrio). Evidentemente, tale situazione è simmetrica nel caso in cui il termine
ECM sia negativo, per cui si può dire che in ogni caso, se (α − 1) < 0, il sistema
tende a tornare verso uno stato di quiete. Anzi, il numero 1 − α può essere visto
come la frazione di disequilibrio che viene riassorbita in un periodo, e quindi
l’aggiustamento verso l’equilibrio sarà tanto più rapido tanto più α è vicino a 0.
La trasformazione da ADL ad ECM può essere effettuata sempre, qualsiasi
siano gli ordini dei polinomi A(L) e B (L); ora ve lo dimostro. Cominciamo da un
risultato preliminare (che non dimostro):
Teorema 1 Se P (x) è un polinomio qualsiasi di grado n > 0, allora si può sempre
trovare un polinomio Q(x) di grado (n − 1) tale per cui valga
P (x) = P (a) +Q(x)(a − x);
quando n = 0, ovviamente Q(x) = 0.
Forti di questo risultato preliminare, consideriamo un polinomio nell’operatore ritardo di grado n ≥ 1, che chiamiamo P (L), e applichiamo due volte di fila
il teorema appena enunciato, una volta con a = 0 e la seconda volta con a = 1:
P (L) = P (0) −Q(L) · L
∗
Q(L) = Q(1) + P (L)(1 − L)
(1.37)
(1.38)
Nel caso n = 1, evidentemente P ∗ (L) = 0. Altimenti, Q(L) è un polinomio di
ordine (n − 1) e P ∗ (L) è un polinomio di ordine (n − 2). Valutando la (1.37) in
L = 1, si ha P (1) = P (0) −Q(1), cosicché la (1.38) diventa
Q(L) = P (0) − P (1) + P ∗ (L)(1 − L)
e quindi, usando di nuovo la (1.37),
£
¤
P (L) = P (0) − P (0) − P (1) + P ∗ (L)(1 − L) · L = P (0)∆ + P (1)L − P ∗ (L)∆ · L.
58
Non ci interessa particolarmente come sia fatto il polinomio P ∗ (L): ci basta sapere che esiste, ovvero che la scomposizione di P (L) effettuata sopra non dipende da ipotesi particolari, ma è valida in generale.
Queste manipolazioni apparentemente insensate ci permettono di scrivere
ogni sequenza del tipo P (L)z t come segue:
P (L)z t = P (0)∆z t + P (1)z t −1 − P ∗ (L)∆z t −1 .
Applichiamo ora questo risultato alla nostra equazione alle differenze A(L)y t =
B (L)xt ; si ha
∆y t + A(1)y t −1 − A ∗ (L)∆y t −1 = B (0)∆xt + B ∗ (L)∆xt −1 + B (1)xt −1 .
Con un sapiente riarrangiamento dei vari termini, si perviene all’ECM vero e
proprio:
£
¤
∆y t = B (0)∆xt + A ∗ (L)∆y t −1 + B ∗ (L)∆xt −1 − A(1) y t −1 − c0 xt −1
(1)
dove naturalmente c0 = BA(1)
contiene i moltiplicatori di lungo periodo. In pratica, il movimento nella variabile dipendente viene scomposto in un impatto
istantaneo, altre componenti di breve periodo ed una componente di lungo periodo in cui l’ingrediente base è il moltiplicatore di stato stazionario c. Niente
male, eh?
Esempio 9 (Rappresentazione ECM) Usiamo di nuovo l’equazione alle differenze
y t = 0.2y t −1 + 0.4x t + 0.3x t −2
e calcoliamone la rappresentazione ECM. Il modo più rapido è quello di ri-esprimere
tutto in funzione del periodo (t − 1), e cioè:
yt
=
y t −1 + ∆y t
xt
=
x t −1 + ∆x t
x t −2
=
x t −1 − ∆x t −1
da cui
y t −1 + ∆y t = 0.2y t −1 + 0.4(x t −1 + ∆x t ) + 0.3(x t −1 − ∆x t −1 )
e quindi
∆y t = −0.8y t −1 + 0.7x t −1 + 0.4∆x t − 0.3∆x t −1
e infine
£
¤
∆y t = 0.4∆x t − 0.3∆x t −1 − 0.8 y t −1 − 0.875x t −1 ;
il moltiplicatore d’impatto è 0.4, quello di lungo periodo è 0.875; la frazione di
squilibrio che si riaggiusta in ogni periodo è 0.8. E non venitemi a dire che era
difficile.
59
È importante notare che l’ADL e l’ECM non sono due modelli diversi, ma soltanto due modi diversi di scrivere la stessa equazione alle differenze, tant’è che
possono essere usati indifferentemente come modelli empirici senza che uno
risulti migliore dell’altro in termini di fit (seguirà esempio). La differenza fra i
due sta solo nel fatto che l’ECM rende più immediato all’occhio umano valutare
i parametri di più notevole interesse interpretativo, cioè i moltiplicatori d’impatto e di lungo periodo, mentre l’ADL consente di calcolare in modo semplice
e meccanico l’intera sequenza dei moltiplicatori dinamici.
14.6
y
c
14.4
14.2
14
13.8
13.6
13.4
13.2
13
1980
1985
1990
1995
2000
2005
2010
Figura 1.5: Reddito e consumo nell’area Euro (in logaritmi)
Esempio 10 (ADL-ECM su dati veri) La figura 1.5 rappresenta le serie storiche
(in logaritmi) del PIL reale e dei consumi privati, indicati con y e c rispettivamente, dal primo trimestre 1976 al quarto trimestre 2009.34 Decidiamo di modellare
il consumo attraverso il reddito usando un modello ADL(1,3). In pratica, si avrà
c t ' k + αc t −1 + β0 y t + β1 y t −1 + β2 y t −2 + β3 y t −3
e il risultato dell’OLS su questo modello lo trovate nella Tabella 1.4.
Ne consegue che α̂ = 0.882, β̂0 = 0.638, eccetera. Con un po’ di buona volontà
si può anche calcolare che la sequenza dei moltiplicatori, che risulta
34 Fonte: EACBN, Area Wide Model database, vers. 16 update 10.
60
adl: OLS, using observations 1976:1-2009:4 (T = 136)
Dependent variable: c
coefficient std. error
t-ratio
p-value
-------------------------------------------------------const
0.0138955
0.0220090
0.6314
0.5289
c_1
0.882331
0.0452090
19.52
1.87e-40
y
0.637865
0.0606835
10.51
4.41e-19
y_1
-0.678971
0.0998675
-6.799
3.45e-10
y_2
0.271915
0.0985160
2.760
0.0066
y_3
-0.118637
0.0614148
-1.932
0.0556
Mean dependent var
Sum squared resid
R-squared
F(5, 130)
Log-likelihood
Schwarz criterion
13.52360
0.001742
0.999699
86327.74
573.0659
-1116.656
***
***
***
***
*
S.D. dependent var 0.207026
S.E. of regression 0.003661
Adjusted R-squared
0.999687
P-value(F)
5.3e-227
Akaike criterion
-1134.132
Hannan-Quinn
-1127.030
Tabella 1.4: Esempio di regressione dinamica
i
0
1
2
3
4
5
6
7
8
..
.
di
0.63787
-0.11616
0.16942
0.03085
0.02722
0.02401
0.02119
0.01870
0.01650
..
.
ci
0.63787
0.52170
0.69112
0.72197
0.74919
0.77320
0.79439
0.81309
0.82958
..
.
Inoltre, si ha che A(1) = 1−0.882331 = 0.117669, B (1) = 0.112171, e quindi il moltiplicatore di lungo periodo risulta uguale a c = 0.953273. La rappresentazione
ECM di questa equazione alle differenze si calcola facilmente una volta fatte le
seguenti sostituzioni:
ct
= c t −1 + ∆c t
yt
=
y t −1 + ∆y t
y t −2
=
y t −1 − ∆y t −1
y t −3
=
y t −1 − ∆y t −1 − ∆y t −2
da cui
∆c t ' k + (α − 1)c t −1 + β0 ∆y t + (
3
X
βi )y t −1 − (β2 + β3 )∆y t −1 − β3 ∆y t −2
i =0
61
ossia
£
¤
∆c t ' k + β0 ∆y t − A(1) c t −1 − cy t −1 − (β2 + β3 )∆y t −1 − β3 ∆y t −2
Si noti, peraltro, che questa rappresentazione avrebbe potuto benissimo essere
calcolata direttamente applicando l’OLS alla rappresentazione ECM: considerando la Tabella 1.5, si vede bene che quello che viene calcolato è lo stesso modello
scritto in altra forma. Infatti, non solo i valori dei parametri di una rappresentazione possono essere ricavati esattamente a partire dai parametri dell’altra, ma
anche la funzione obiettivo (la SSR) è del tutto identica (in ambedue i modelli, è
pari a 0.001742), e così tutte le statistiche da essa derivate. Le uniche differenze
sono una conseguenza del fatto che il modello è trasformato in modo tale che la
variabile dipendente non è la stessa fra ADL (dove è il livello di c t ) ed ECM (dove
è la sequenza ∆c t ).
ecm: OLS, using observations 1976:1-2009:4 (T = 136)
Dependent variable: d_c
coefficient std. error
t-ratio
p-value
-------------------------------------------------------const
0.0138955
0.0220090
0.6314
0.5289
d_y
0.637865
0.0606835
10.51
4.41e-19
d_y_1
-0.153277
0.0618298
-2.479
0.0145
d_y_2
0.118637
0.0614148
1.932
0.0556
c_1
-0.117669
0.0452090
-2.603
0.0103
y_1
0.112171
0.0437532
2.564
0.0115
Mean dependent var
Sum squared resid
R-squared
F(5, 130)
Log-likelihood
Schwarz criterion
0.004970
0.001742
0.538954
30.39349
573.0659
-1116.656
***
**
*
**
**
S.D. dependent var 0.005291
S.E. of regression 0.003661
Adjusted R-squared
0.521221
P-value(F)
2.28e-20
Akaike criterion
-1134.132
Hannan-Quinn
-1127.030
Tabella 1.5: Esempio di regressione dinamica in forma ECM
1.7 E adesso?
E adesso, sarebbe il caso di cominciare la parte più interessante, cioè quella in
cui ricominciamo tutto da capo, ma usiamo i metodi della statistica inferenziale.
Se vogliamo che i dati ci parlino non solo del mondo che abbiamo già visto, ma anche di tutto quel che non abbiamo visto ancora, dobbiamo fare delle
ipotesi sul processo generatore dei dati, e quindi dobbiamo studiare probabilità e statistica inferenziale per dire qualcosa di sensato. Ma alla fine andremo, in
moltissimi casi, ad usare le stesse statistiche che qui abbiamo imparato a leggere
come statistiche descrittive e a dar loro una nuova interpretazione molto, molto
62
più interessante. Il vettore β̂, la statistica W e tutte le altre quantità che qui abbiamo usato per parlare dei dati verranno utilizzate per parlare della macchina
che li ha generati (e che magari ne genererà di nuovi).
E dopo, sarebbe il caso anche di parlare di econometria in senso stretto, e
cioè: una volta che ho descritto non solo i miei dati, ma anche il processo che li
genera, come posso fare a dire qualcosa di sensato sulle relazioni che intercorrono fra il mondo che c’è nei libri di micro e di macro e il mondo in cui abito
io? Posso usare i miei modelli per validare/confutare i miei modelli economici
astratti? Posso usare i miei dati per fare previsioni sul futuro? Posso usare i miei
dati per misurare l’effetto delle politiche economiche? Posso usare i miei dati
per chiedermi cosa avrebbe fatto quel certo individuo se le condizioni sotto le
quali ha fatto la sua scelta fossero state diverse?
La risposta in molti casi è affermativa ma, come scrisse Évariste Galois, “je
n’ai pas le temps” (io, però, dai duelli mi guardo bene).
63
Appendice A
La Licenza
L’OPERA (COME SOTTO DEFINITA) È MESSA A DISPOSIZIONE SULLA BASE DEI TERMINI DELLA PRESENTE LICENZA “CREATIVE COMMONS PUBLIC LICENCE” ("CCPL" O "LICENZA"). L’OPERA È PROTETTA DAL DIRITTO D’AUTORE, DAGLI ALTRI DIRITTI ATTRIBUITI DALLA LEGGE
SUL DIRITTO D’AUTORE (DIRITTI CONNESSI, DIRITTI SULLE BANCHE DATI, ECC.) E/O DALLE
ALTRE LEGGI APPLICABILI. OGNI UTILIZZAZIONE DELL’OPERA CHE NON SIA AUTORIZZATA
AI SENSI DELLA PRESENTE LICENZA E/O DELLE ALTRE LEGGI APPLICABILI È PROIBITA.
CON IL SEMPLICE ESERCIZIO SULL’OPERA DI UNO QUALUNQUE DEI DIRITTI QUI DI
SEGUITO ELENCATI, TU ACCETTI E TI OBBLIGHI A RISPETTARE INTEGRALMENTE I TERMINI DELLA PRESENTE LICENZA. IL LICENZIANTE CONCEDE A TE I DIRITTI QUI DI SEGUITO
ELENCATI A CONDIZIONE CHE TU ACCETTI DI RISPETTARE I TERMINI E LE CONDIZIONI DI
CUI ALLA PRESENTE LICENZA.
Art. 1 - Definizioni
Ai fini e per gli effetti della presente licenza, si intende per
a. “Collezione di Opere”, un’opera, come un numero di un periodico, un’antologia o un’enciclopedia, nella quale l’Opera nella sua interezza e forma originale, unitamente ad altri contributi
costituenti loro stessi opere distinte ed autonome, sono raccolti in un’unità collettiva. Un’opera che costituisce Collezione di Opere non verrà considerata Opera Derivata (come sotto
definita) ai fini della presente Licenza;
b. “Opera Derivata”, un’opera basata sull’Opera ovvero sull’Opera insieme con altre opere preesistenti, come una traduzione, un arrangiamento musicale, un adattamento teatrale, narrativo,
cinematografico, una registrazione di suoni, una riproduzione d’arte, un digesto, una sintesi, o
ogni altra forma in cui l’Opera possa essere riproposta, trasformata o adattata. Nel caso in cui
un’Opera tra quelle qui descritte costituisca già Collezione di Opere, essa non sarà considerata
Opera Derivata ai fini della presente Licenza. Al fine di evitare dubbi è inteso che, quando l’Opera sia una composizione musicale o registrazione di suoni, la sincronizzazione dell’Opera
in relazione con un’immagine in movimento (“synching”) sarà considerata Opera Derivata ai
fini di questa Licenza;
c. “Licenziante”, l’individuo, gli individui, l’ente o gli enti che offre o offrono l’Opera secondo i
termini e le condizioni della presente Licenza;
d. “Autore Originario”, il soggetto o i soggetti che ha o hanno creato l’Opera;
e. “Opera”, l’opera dell’ingegno o, comunque, qualsiasi bene o prestazione suscettibile di protezione in forza delle leggi sul diritto d’autore (diritto d’autore, diritti connessi, diritto sui generis sulle banche dati, ecc.), la cui utilizzazione è offerta nel rispetto dei termini della presente
Licenza;
64
f. “Tu"/"Te”, l’individuo o l’ente che esercita i diritti derivanti dalla presente Licenza e che non
abbia precedentemente violato i termini della presente Licenza relativi all’Opera o che, nonostante una precedente violazione degli stessi, abbia ricevuto espressa autorizzazione dal
Licenziante all’esercizio dei diritti derivanti dalla presente Licenza;
g. “Elementi della Licenza”, gli attributi fondamentali della Licenza scelti dal Licenziante ed indicati nel titolo della Licenza: Attribuzione, Condividi allo stesso modo;
h. “Licenza Compatibile con Creative Commons”, una licenza elencata presso http://creativecommons.
org/compatiblelicenses, che Creative Commons abbia riconosciuto come essenzialmente
equivalente a questa Licenza, poiché tale licenza presenta almeno le seguenti caratteristiche:
(i) le sue condizioni hanno lo stesso scopo, significato ed effetto degli Elementi della Licenza
di questa Licenza; e (ii) tale licenza permette esplicitamente di licenziare le Opere Derivate
dalle opere, che sono state rese disponibili tramite tale licenza, nei termini di questa Licenza o
di una licenza Creative Commons “Unported” (non adattata) con gli stessi Elementi della Licenza di questa Licenza o di una licenza nazionale Creative Commons con gli stessi Elementi
della Licenza di questa Licenza.
Art. 2 - Libere Utilizzazioni
La presente Licenza non intende in alcun modo ridurre, limitare o restringere alcuna utilizzazione non protetta dal diritto d’autore o alcun diritto di libera utilizzazione o l’operare della
regola dell’esaurimento del diritto o altre limitazioni dei diritti sull’Opera derivanti dalle leggi
applicabili.
Art. 3 - Concessione della Licenza
Nel rispetto dei termini e delle condizioni contenute nella presente Licenza, il Licenziante concede a Te una licenza per tutto il mondo, gratuita, non esclusiva e perpetua (per la durata del diritto
d’autore applicabile) che autorizza ad esercitare i diritti sull’Opera qui di seguito elencati:
a. riproduzione dell’Opera, incorporazione dell’Opera in una o più Collezioni di Opere e riproduzione dell’Opera come incorporata nelle Collezioni di Opere;
b. creazione e riproduzione di un’Opera Derivata, a condizione che l’Opera Derivata (ivi incluse le traduzioni, con qualsiasi mezzo esse siano realizzate) contenga, nei modi appropriati
alla forma dell’Opera Derivata, una chiara indicazione del fatto che sono state effettuate delle modifiche rispetto all’Opera originaria. Per esempio, una traduzione potrebbe contenere
l’indicazione “questa è la traduzione in spagnolo dell’opera originaria, scritta in inglese”; una
modifica potrebbe contenere l’indicazione “l’opera originaria è stata modificata”;
c. distribuzione di copie dell’Opera o di supporti fonografici su cui l’Opera è registrata, noleggio
e prestito di copie dell’Opera o di supporti fonografici su cui l’Opera è registrata, comunicazione al pubblico, rappresentazione, esecuzione, recitazione o esposizione in pubblico, ivi
inclusa la trasmissione audio digitale dell’Opera, e ciò anche quando l’Opera sia incorporata
in Collezioni di Opere;
d. distribuzione di copie dell’Opera Derivata o di supporti fonografici su cui l’Opera Derivata
è registrata, noleggio e prestito di copie dell’Opera Derivata o di supporti fonografici su cui
l’Opera Derivata è registrata, comunicazione al pubblico, rappresentazione, esecuzione, recitazione o esposizione in pubblico, ivi inclusa la trasmissione audio digitale di Opere Derivate.
e. Al fine di evitare dubbi è inteso che, se l’Opera sia di tipo musicale:
(i) Compensi per la comunicazione al pubblico o la rappresentazione o esecuzione di opere incluse in repertori. Il Licenziante rinuncia al diritto esclusivo di riscuotere compensi,
65
personalmente o per il tramite di un ente di gestione collettiva (ad es. SIAE), per la comunicazione al pubblico o la rappresentazione o esecuzione, anche in forma digitale (ad
es. tramite webcast) dell’Opera.
(ii) Compensi per versioni cover. Il Licenziante rinuncia al diritto esclusivo di riscuotere
compensi, personalmente o per il tramite di un ente di gestione collettiva (ad es. SIAE),
per ogni disco che Tu crei e distribuisci a partire dall’Opera (versione cover).
f. Compensi per la comunicazione al pubblico dell’Opera mediante fonogrammi. Al fine di evitare dubbi, è inteso che se l’Opera è una registrazione di suoni, il Licenziante rinuncia al diritto esclusivo di riscuotere compensi, personalmente o per il tramite di un ente di gestione
collettiva (ad es. IMAIE), per la comunicazione al pubblico dell’Opera, anche in forma digitale.
g. Altri compensi previsti dalla legge italiana. Al fine di evitare dubbi, è inteso che il Licenziante rinuncia al diritto esclusivo di riscuotere i compensi a lui attribuiti dalla legge italiana sul
diritto d’autore (ad es. per l’inserimento dell’Opera in un’antologia ad uso scolastico ex art.
70 l. 633/1941). Al Licenziante spettano in ogni caso i compensi irrinunciabili a lui attribuiti
dalla medesima legge (ad es. l’equo compenso spettante all’autore di opere musicali, cinematografiche, audiovisive o di sequenze di immagini in movimento nel caso di noleggio ai sensi
dell’art. 18-bis l. 633/1941).
I diritti sopra descritti potranno essere esercitati con ogni mezzo di comunicazione e in tutti
i formati. Tra i diritti di cui sopra si intende compreso il diritto di apportare all’Opera le modifiche
che si rendessero tecnicamente necessarie per l’esercizio di detti diritti tramite altri mezzi di comunicazione o su altri formati. Tutti i diritti non espressamente concessi dal Licenziante rimangono riservati. Tutti i diritti morali irrinunciabili riconosciuti dalla legge applicabile rimangono
riservati.
Qualora l’Opera concessa in licenza includa una o più banche dati sulle quali il Licenziante è titolare di un diritto sui generis ai sensi delle norme nazionali di attuazione della Direttiva
96/9/CE sulle banche dati, il Licenziante rinuncia a far valere il diritto corrispondente.
Art. 4 - Restrizioni
La Licenza concessa in conformità al precedente punto 3 è espressamente assoggettata a, e limitata da, le seguenti restrizioni:
a. Tu puoi distribuire, comunicare al pubblico, rappresentare, eseguire, recitare o esporre in pubblico l’Opera, anche in forma digitale, solo alle condizioni della presente Licenza e, insieme
ad ogni copia dell’Opera (o supporto fonografico su cui è registrata l’Opera) che distribuisci,
comunichi al pubblico o rappresenti, esegui, reciti o esponi in pubblico, anche in forma digitale, devi includere una copia della presente Licenza o il suo Uniform Resource Identifier.
Non puoi proporre o imporre alcuna condizione relativa all’Opera che restringa i termini della presente Licenza o la capacità da parte di chi riceve l’Opera di esercitare gli stessi diritti
concessi a Te con la presente Licenza. Non puoi concedere l’Opera in sublicenza. Devi mantenere intatte tutte le informative che si riferiscono alla presente Licenza ed all’esclusione delle
garanzie. Quando distribuisci, comunichi al pubblico, rappresenti, esegui, reciti o esponi in
pubblico l’Opera, non puoi utilizzare alcuna misura tecnologica tale da limitare la capacità di
chiunque riceva l’Opera da Te di esercitare gli stessi diritti concessi a Te con la presente licenza. Questo art. 4.a si applica all’Opera anche quando questa faccia parte di una Collezione di
Opere, anche se ciò non comporta che la Collezione di Opere di per sé ed indipendentemente
dall’Opera stessa debba essere soggetta ai termini ed alle condizioni della presente Licenza.
Qualora Tu crei una Collezione di Opere, su richiesta di qualsiasi Licenziante, devi rimuovere
dalla Collezione di Opere stessa, ove materialmente possibile, ogni riferimento in accordo con
quanto previsto dall’art. 4.c, come da richiesta. Qualora Tu crei un’Opera Derivata, su richiesta di qualsiasi Licenziante devi rimuovere dall’Opera Derivata stessa, nella misura in cui ciò
sia possibile, ogni riferimento in accordo con quanto previsto dall’art. 4.c, come da richiesta.
66
b. Tu puoi distribuire, comunicare al pubblico, rappresentare, eseguire, recitare o esporre in
pubblico un’Opera Derivata, anche in forma digitale, solo alle condizioni
(i) della presente Licenza,
(ii) di una versione successiva di questa Licenza dotata degli stessi Elementi della Licenza di
questa Licenza,
(iii) della licenza Creative Commons “Unported” (non adattata) o di una licenza Creative
Commons di un’altra giurisdizione (sia la presente versione 3.0 che una successiva) che
contenga gli stessi Elementi della Licenza di questa Licenza (ad es. Attribuzione-Condividi
allo stesso modo 3.0 “Unported”) (la “Licenza Applicabile”),
(iv) di una Licenza Compatibile con Creative Commons.
Se Tu concedi in licenza un’Opera Derivata con una delle licenze di cui a questo punto (iv) devi
rispettare i termini di tale licenza. Se Tu concedi in licenza un’Opera Derivata con una delle
licenze di cui ai punti (i), (ii) o (iii) (la “Licenza Applicabile”) Tu devi rispettare tutte le condizioni della Licenza Applicabile oltre alle seguenti condizioni. Insieme ad ogni copia dell’Opera
Derivata (o supporto fonografico su cui è registrata l’Opera Derivata) che distribuisci, comunichi al pubblico o rappresenti, esegui, reciti o esponi in pubblico, anche in forma digitale, Tu
devi includere una copia della Licenza Applicabile, o il suo Uniform Resource Identifier. Non
puoi proporre o imporre alcuna condizione relativa all’Opera Derivata che restringa i termini
della Licenza Applicabile o la capacità di chiunque riceva l’Opera Derivata da Te di esercitare
gli stessi diritti concessi a Te con la Licenza Applicabile. Devi mantenere intatte tutte le informative che si riferiscono alla Licenza Applicabile ed all’esclusione delle garanzie. Quando
Tu distribuisci, comunichi al pubblico, rappresenti, esegui, reciti o esponi in pubblico l’Opera
Derivata, non puoi utilizzare sull’Opera Derivata alcuna misura tecnologica tale da limitare la
capacità di chiunque riceva l’Opera Derivata da Te di esercitare i diritti concessi a tale soggetto
in forza della Licenza Applicabile. Questo art.4.b si applica all’Opera Derivata anche quando
questa faccia parte di una Collezione di Opere, ma ciò non comporta che la Collezione di Opere di per sé ed indipendentemente dall’Opera Derivata debba esser soggetta ai termini ed alle
condizioni della Licenza Applicabile.
c. Qualora Tu distribuisca, comunichi al pubblico, rappresenti, esegua, reciti o esponga in pubblico, anche in forma digitale, l’Opera (come definita dal succitato art. 1) o qualsiasi Opera
Derivata (come definita dal succitato art. 1) o Collezione di Opere (come definita dal succitato
art. 1), a meno che sia stata avanzata una richiesta ai sensi dell’art. 4.a, devi mantenere intatte
tutte le informative sul diritto d’autore sull’Opera. Devi riconoscere una menzione adeguata
rispetto al mezzo di comunicazione o supporto che utilizzi:
(i) all’Autore Originario citando il suo nome (o lo pseudonimo, se del caso), ove fornito; e/o
(ii) alle terze parti designate, se l’Autore Originario e/o il Licenziante hanno designato una o
più terze parti (ad esempio, una istituzione finanziatrice, un ente editoriale, un giornale)
(“Parti Designate”) perché siano citate nell’informativa sul diritto d’autore del Licenziante o nei termini di servizio o con altri mezzi ragionevoli;
(iii) il titolo dell’Opera, se indicato;
(iv) nella misura in cui sia ragionevolmente possibile, l’Uniform Resource Identifier, che il
Licenziante specifichi dover essere associato con l’Opera, salvo che tale URI non faccia alcun riferimento alla informativa sul diritto d’autore o non dia informazioni sulla
licenza dell’Opera;
(v) inoltre, in conformità a quanto previsto dall’art. 3.b, in caso di Opera Derivata, devi
menzionare l’uso dell’Opera nell’Opera Derivata (ad esempio, “traduzione francese dell’Opera dell’Autore Originario”, o “sceneggiatura basata sull’Opera originaria dell’Autore
Originario”).
67
La menzione richiesta dal presente art. 4.c può essere realizzata in qualsiasi maniera ragionevole possibile; in ogni caso, in ipotesi di Opera Derivata o Collezione di Opere, qualora compaia una menzione di tutti i coautori dell’Opera Derivata o della Collezione di Opere, allora essa
deve essere parte di tale menzione e deve apparire con lo stesso risalto concesso alla menzione
degli altri coautori. Al fine di evitare dubbi, è inteso che la menzione di cui al presente articolo
ha lo scopo di riconoscere la paternità dell’Opera nei modi sopra indicati e che, esercitando
i Tuoi diritti ai sensi della presente Licenza, Tu non puoi implicitamente o esplicitamente affermare o fare intendere un qualsiasi collegamento con l’Autore Originario, il Licenziante e/o
le Parti Designate, o che l’Autore Originario, il Licenziante e/o le Parti Designate sponsorizzino o avallino Te o il Tuo utilizzo dell’Opera, a meno che non sussista un apposito, espresso e
preventivo consenso scritto dell’Autore Originario, del Licenziante e/o delle Parti Designate.
d. Al fine di evitare dubbi, è inteso che le restrizioni di cui ai precedenti punti 4.a, 4.b e 4.c non
si applicano a quelle parti dell’opera che siano da considerarsi Opera ai sensi della presente Licenza solo in quanto protette dal diritto sui generis su banca dati ai sensi delle norme
nazionali di attuazione della Direttiva 96/9/CE sulle banche dati.
Art. 5 - Dichiarazioni, Garanzie ed Esonero da responsabilità
SALVO CHE SIA ESPRESSAMENTE CONVENUTO ALTRIMENTI PER ISCRITTO FRA LE PARTI, IL
LICENZIANTE OFFRE L’OPERA IN LICENZA “COSÌ COM’È” E NON FORNISCE ALCUNA DICHIARAZIONE O GARANZIA DI QUALSIASI TIPO CON RIGUARDO ALL’OPERA, SIA ESSA ESPRESSA
OD IMPLICITA, DI FONTE LEGALE O DI ALTRO TIPO, ESSENDO QUINDI ESCLUSE, FRA LE ALTRE, LE GARANZIE RELATIVE AL TITOLO, ALLA COMMERCIABILITÀ, ALL’IDONEITÀ PER UN
FINE SPECIFICO E ALLA NON VIOLAZIONE DI DIRITTI DI TERZI O ALLA MANCANZA DI DIFETTI LATENTI O DI ALTRO TIPO, ALL’ESATTEZZA OD ALLA PRESENZA DI ERRORI, SIANO
ESSI ACCERTABILI O MENO. ALCUNE GIURISDIZIONI NON CONSENTONO L’ESCLUSIONE DI
GARANZIE IMPLICITE E QUINDI TALE ESCLUSIONE PUÒ NON APPLICARSI A TE.
Art. 6 - Limitazione di Responsabilità
SALVI I LIMITI STABILITI DALLA LEGGE APPLICABILE, IL LICENZIANTE NON SARÀ IN ALCUN
CASO RESPONSABILE NEI TUOI CONFRONTI A QUALUNQUE TITOLO PER ALCUN TIPO DI
DANNO, SIA ESSO SPECIALE, INCIDENTALE, CONSEQUENZIALE, PUNITIVO OD ESEMPLARE,
DERIVANTE DALLA PRESENTE LICENZA O DALL’USO DELL’OPERA, ANCHE NEL CASO IN CUI
IL LICENZIANTE SIA STATO EDOTTO SULLA POSSIBILITÀ DI TALI DANNI. NESSUNA CLAUSOLA DI QUESTA LICENZA ESCLUDE O LIMITA LA RESPONSABILITÀ NEL CASO IN CUI QUESTA
DIPENDA DA DOLO O COLPA GRAVE.
Art. 7 - Risoluzione
La presente Licenza si intenderà risolta di diritto e i diritti con essa concessi cesseranno automaticamente, senza necessità di alcuna comunicazione in tal senso da parte del Licenziante, in caso
di qualsivoglia inadempimento dei termini della presente Licenza da parte Tua, ed in particolare
delle disposizioni di cui ai punti 4.a, 4.b e/o 4.c, essendo la presente Licenza condizionata risolutivamente al verificarsi di tali inadempimenti. In ogni caso, la risoluzione della presente Licenza
non pregiudicherà i diritti acquistati da individui o enti che abbiano acquistato da Te Opere Derivate o Collezioni di Opere, ai sensi della presente Licenza, a condizione che tali individui o enti
continuino a rispettare integralmente le licenze di cui sono parte. Le sezioni 1, 2, 5, 6, 7 e 8 rimangono valide in presenza di qualsiasi risoluzione della presente Licenza. Sempre che vengano
rispettati i termini e le condizioni di cui sopra, la presente Licenza è perpetua (e concessa per
68
tutta la durata del diritto d’autore applicabile sull’Opera). Nonostante ciò, il Licenziante si riserva
il diritto di rilasciare l’Opera sulla base dei termini di una differente licenza o di cessare la distribuzione dell’Opera in qualsiasi momento; fermo restando che, in ogni caso, tali decisioni non
comporteranno recesso dalla presente Licenza (o da qualsiasi altra licenza che sia stata concessa,
o che sia richiesto che venga concessa, ai termini della presente Licenza), e la presente Licenza
continuerà ad avere piena efficacia, salvo che vi sia risoluzione come sopra indicato.
Art. 8 - Varie
Ogni volta che Tu distribuisci, o rappresenti, esegui o reciti pubblicamente in forma digitale l’Opera o una Collezione di Opere, il Licenziante offre al destinatario una licenza per l’Opera nei
medesimi termini e condizioni che a Te sono stati concessi tramite la presente Licenza. Ogni
volta che Tu distribuisci, o rappresenti, esegui o reciti pubblicamente in forma digitale un’Opera Derivata, il Licenziante offre al destinatario una licenza per l’Opera originaria nei medesimi
termini e condizioni che a Te sono stati concessi tramite la presente Licenza. L’invalidità o l’inefficacia, secondo la legge applicabile, di una o più fra le disposizioni della presente Licenza, non
comporterà l’invalidità o l’inefficacia dei restanti termini e, senza bisogno di ulteriori azioni delle
parti, le disposizioni invalide o inefficaci saranno da intendersi rettificate nei limiti della misura
che sia indispensabile per renderle valide ed efficaci. In nessun caso i termini e le disposizioni di
cui alla presente Licenza possono essere considerati rinunciati, né alcuna violazione può essere
considerata consentita, salvo che tale rinuncia o consenso risultino per iscritto da una dichiarazione firmata dalla parte contro cui operi tale rinuncia o consenso. La presente Licenza costituisce l’intero accordo tra le parti relativamente all’Opera qui data in licenza. Non esistono altre
intese, accordi o dichiarazioni relative all’Opera che non siano quelle qui specificate. Il Licenziante non sarà vincolato ad alcuna altra disposizione addizionale che possa apparire in alcuna
comunicazione da Te proveniente. La presente Licenza non può essere modificata senza il mutuo
consenso scritto del Licenziante e Tuo. La presente licenza è stata redatta sulla base della legge
italiana, in particolare del Codice Civile del 1942 e della legge 22 Aprile 1941, n. 633 e successive
modificazioni sulla protezione del diritto d’autore e di altri diritti connessi al suo esercizio.
Nota Finale
Creative Commons non è parte della presente Licenza e non dà alcuna garanzia connessa all’Opera. Creative Commons non è responsabile nei Tuoi confronti o nei confronti di altre parti
ad alcun titolo per alcun danno, incluso, senza limitazioni, qualsiasi danno generale, speciale,
incidentale o consequenziale che sorga in connessione alla presente Licenza. Nonostante quanto previsto nelle due precedenti frasi, qualora Creative Commons espressamente identificasse se
stesso quale Licenziante nei termini di cui al presente accordo, avrà tutti i diritti e tutti gli obblighi
del Licenziante.
Salvo che per il solo scopo di indicare al pubblico che l’Opera è data in licenza secondo i
termini di una CCPL, nessuna parte potrà utilizzare il marchio “Creative Commons” o qualsiasi
altro marchio correlato, o il logo di Creative Commons, senza il preventivo consenso scritto di
Creative Commons. Ogni uso consentito sarà realizzato in osservanza delle linee guida per l’uso
del marchio Creative Commons, in forza in quel momento, come di volta in volta pubblicate sul
sito Internet di Creative Commons o altrimenti messe a disposizione a richiesta. Al fine di evitare
dubbi, è inteso che questa restrizione all’uso del marchio non fa parte della Licenza.
Creative Commons può essere contattata al sito http://creativecommons.org/.
69
Descargar