AULA POLITÈCNICA / MATEMÀTICA I ESTADÍSTICA Burillo - Miralles - Serra Josep Burillo és Doctor en Matemàtiques i professor titular de Matemàtica Aplicada al Departament de Matemàtica Aplicada IV de la UPC. Actualment imparteix docència a l’Escola Politècnica Superior de Castelldefels (EPSC). Alícia Miralles de la Asunción és Doctora en Físiques i professora al Departament de Matemàtica Aplicada IV de la UPC. Imparteix docència a l’EPSC. Oriol Serra és Doctor en Matemàtiques i catedràtic de Matemàtica Aplicada al Departament de Matemàtica Aplicada IV de la UPC. Imparteix docència a l’EPSC i a la Facultat de Matemàtiques i Estadística. 88 Josep Burillo - Alícia Miralles Oriol Serra Probabilitat i estadística Probabilitat i estadística En aquest llibre s’ofereix una introducció a la probabilitat i a l’estadística adaptada a l’alumnat de primer curs d’una enginyeria tècnica, especialment les enginyeries relacionades amb les tecnologies de la informació. L’objectiu principal del llibre és que l’alumne assoleixi un coneixement bàsic i alhora suficient de les eines probabilistes i estadístiques que pugui necessitar en la seva futura carrera professional com a enginyer. El llibre es divideix en dues parts ben delimitades. La primera està dedicada al càlcul de probabilitats, en què s’introdueixen les eines necessàries per a l’estudi dels fenòmens probabilístics. En particular, s’introdueixen les variables aleatòries, tant discretes com contínues, i es dóna molta importància a l’estudi de la normal com a variable aleatòria fonamental. En la part d’estadística, s’exposen les eines bàsiques dels estudis estadístics: els estimadors i els intervals de confiança, els tests d’hipòtesi i la regressió lineal. Cada capítol es complementa amb una llista extensa de problemes proposats. 9 788483 017968 EDICIONS UPC AULA POLITÈCNICA 88 Probabilitat i estadística AULA POLITÈCNICA / MATEMÀTICA I ESTADÍSTICA Josep Burillo - Alícia Miralles Oriol Serra Probabilitat i estadística EDICIONS UPC Primera edició: febrer de 2003 Segona edició: febrer de 2005 Aquesta publicació s’acull a la política de normalització lingüística i ha comptat amb la col·laboració del Departament de Cultura i de la Direcció General d’Universitats, de la Generalitat de Catalunya. Disseny de la coberta: Jordi Calvet © Els autors, 2003 © Edicions UPC, 2003 Edicions de la Universitat Politècnica de Catalunya, SL Jordi Girona Salgado 31, 08034 Barcelona Tel. 93 401 68 83 Fax 93 401 58 85 Edicions Virtuals: www.edicionsupc.es e-mail: [email protected] Producció: Cargraphics Pedrosa B 29-31, 08908 L’Hospitalet de Llobregat Dipòsit legal: B-40330-2005 ISBN: 84-8301-796-2 Són rigorosament prohibides, sense l’autorització escrita dels titulars del copyright, sota les sancions establertes a la llei, la reproducció total o parcial d’aquesta obra per qualsevol procediment, inclosos la reprografia i el tractament informàtic, i la distribució d’exemplars mitjançant lloguer o préstec públics. En aquest llibre s’ofereix una introducció a la probabilitat i a l’estadística adaptada a l’alumnat de primer curs d’una enginyeria tècnica, especialment les enginyeries relacionades amb les tecnologies de la informació. L’objectiu principal del llibre és que l’alumne assoleixi un coneixement bàsic i alhora suficient de les eines probabilistes i estadístiques que pugui necessitar en la seva futura carrera professional com a enginyer. El llibre es divideix en dues parts ben delimitades. La primera està dedicada al càlcul de probabilitats, en què s’introdueixen les eines necessàries per a l’estudi dels fenòmens probabilístics. En particular, s’introdueixen les variables aleatòries, tant discretes com contínues, i es dóna molta importància a l’estudi de la normal com a variable aleatòria fonamental. En la part d’estadística, s’exposen les eines bàsiques dels estudis estadístics: els estimadors i els intervals de confiança, els tests d’hipòtesi i la regressió lineal. Cada capítol es complementa amb una llista extensa de problemes proposats. ¶INDEX 7 ¶Index ¶Index 7 Prefaci 11 0 13 Introducci¶ o a la probabilitat 0.1 Determinisme i aleatorietat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 0.1.1 Models deterministes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 0.1.2 Models probabil¶³stics: regularitat estad¶³stica . . . . . . . . . . . . . . . . 14 0.2 Diferents de¯nicions de probabilitat . . . . . . . . . . . . . . . . . . . . . . . . 16 0.3 Alguns exemples de models probabilistes en enginyeria . . . . . . . . . . . . . . 17 0.4 Mostreig . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 0.4.1 Mostres ordenades sense reempla»cament: Pn;k on k · n . . . . . . . . . 21 0.4.2 Mostres ordenades amb reempla»cament: P Rn;k on ara k pot ser m¶es gran que n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 ¡ ¢ Mostres no ordenades sense reempla»cament: Cn;k = nk . . . . . . . . . 22 0.4.3 0.4.4 0.5 1 Mostres no ordenades amb reempla»cament: CRn;k . . . . . . . . . . . . 23 Exercicis i problemes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 0.5.1 Exercicis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 0.5.2 Problemes per fer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Probabilitat 29 © Els autors, 2003; © Edicions UPC, 2003 ¶ INDEX 8 1.1 Espai mostral i successos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.2 Espais de probabilitat ¯nits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.3 Espais de probabilitat ¯nits equiprobables . . . . . . . . . . . . . . . . . . . . . 34 1.4 Espais de probabilitat no ¯nits . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 1.5 Probabilitat condicionada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 1.6 Successos independents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 1.7 Teorema de la probabilitat total . . . . . . . . . . . . . . . . . . . . . . . . . . 38 1.8 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 1.9 Diagrames d'arbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 1.10 Exercicis i problemes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 1.10.1 Exercicis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 1.10.2 Problemes per fer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2 3 Variables aleatµ ories 47 2.1 Variables aleatµories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2 Variables discretes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.3 Exemples importants de distribucions discretes . . . . . . . . . . . . . . . . . . 50 2.4 Variables cont¶³nues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.5 Exemples importants de distribucions cont¶³nues . . . . . . . . . . . . . . . . . . 54 2.6 Parµametres estad¶³stics: valor mitjµa i variµancia . . . . . . . . . . . . . . . . . . . 57 2.7 Funcions de variables aleatµories . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.8 Exercicis i problemes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.8.1 Exercicis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.8.2 Problemes per fer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Vectors aleatoris 69 3.1 Vectors aleatoris. Funci¶o de distribuci¶o de probabilitat. 3.2 Distribucions bidimensionals discretes . . . . . . . . . . . . . . . . . . . . . . . 72 © Els autors, 2003; © Edicions UPC, 2003 . . . . . . . . . . . . . 69 ¶INDEX 9 3.3 Distribucions bidimensionals cont¶³nues . . . . . . . . . . . . . . . . . . . . . . . 73 3.4 Variables aleatµories independents . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.5 Distribucions condicionades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.6 Distribuci¶o de la suma de dues variables aleatµories . . . . . . . . . . . . . . . . 81 3.7 Parµametres estad¶³stics: covariµancia i correlaci¶o . . . . . . . . . . . . . . . . . . 82 3.7.1 3.8 4 5 Distribuci¶o normal multidimensional . . . . . . . . . . . . . . . . . . . . 84 Exercicis i problemes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.8.1 Exercicis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.8.2 Problemes per fer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Mostres i estimaci¶ o 89 4.1 Mostres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.2 Valors poblacionals i valors mostrals . . . . . . . . . . . . . . . . . . . . . . . . 90 4.3 La mitjana i la variµancia mostrals 4.4 Estimadors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.5 Intervals de con¯an»ca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.6 Estimadors de la mitjana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.7 La t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.8 Estimadors de la variµancia. La distribuci¶o Â2 . . . . . . . . . . . . . . . . . . . 99 4.9 Exercicis i problemes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.9.1 Exercicis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.9.2 Problemes per fer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Regressi¶ o lineal simple. 103 5.1 Regressi¶o lineal simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.2 Signi¯caci¶o de r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.3 Interval de con¯an»ca per ½. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.4 Recta de regressi¶o. Mµetode dels m¶³nims quadrats . . . . . . . . . . . . . . . . . 106 © Els autors, 2003; © Edicions UPC, 2003 ¶ INDEX 10 5.5 6 Correlaci¶o i causalitat no s¶on el mateix. . . . . . . . . . . . . . . . . . . . . . . 108 Tests d'hipµ otesi 109 6.1 Introducci¶o. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.2 Tests paramµetrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 6.3 Exemples de tests paramµetrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.3.1 Test per al valor mitjµa d'una distribuci¶o normal . . . . . . . . . . . . . . 112 6.3.2 Test per a la diferµencia de valors mitjans . . . . . . . . . . . . . . . . . . 113 6.3.3 Tests d'hipµotesi i intervals de con¯an»ca . . . . . . . . . . . . . . . . . . . 114 6.4 Tests d'ajust d'una distribuci¶o . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 6.5 Problemes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Apµ endix 119 © Els autors, 2003; © Edicions UPC, 2003 PREFACI 11 Prefaci La teoria de probabilitats i l'estad¶³stica formen un bagatge imprescindible en la formaci¶o d'enginyers de totes les branques, que es troben sovint exposats a problemes que requereixen tµecniques probabilistes o b¶e en la necessitat de fer anµalisis estad¶³stiques. Aquest text ha estat elaborat pensant especialment en estudiants d'Enginyeries tµecniques de les µarees de Telecomunicacions, Informµatica i Aeronµautica. El nostre objectiu ha estat el d'oferir una introducci¶o clara i concisa als conceptes bµasics de la teoria de la probabilitat i l'estad¶³stica a un nivell matemµatic assequible i en el context propi d'aquestes enginyeries, on els exemples d'aplicaci¶o d'aquestes tµecniques s¶on molt abundants. En particular s'ha procurat proveir l'alumne d'una extensa col¢lecci¶o de problemes i exercicis que donin a l'estudiant material de treball su¯cient per assimilar els continguts del text. Con¯em plenament que el text sigui un element valu¶os en el proc¶es de formaci¶o d'aquests estudiants i que ompli el buit existent en la literatura, on textos de caracter¶³stiques similars s¶on escassos i sovint d'un nivell poc apropiat. Castelldefels, Novembre 2002 Els Autors © Els autors, 2003; © Edicions UPC, 2003 13 0 Introducci¶ o a la probabilitat 0.1. Determinisme i aleatorietat 0.1.1. Models deterministes 0.1.2. Models probabilistes: regularitat estad¶³stica 0.2. Diferents de¯nicions de probabilitat 0.3. Alguns exemples de models probabilistes en enginyeria 0.4. Mostreig 0.4.1. Mostres ordenades sense reempla»cament: Pn;k , on k · n 0.4.2. Mostres ordenades amb reempla»cament: P Rn;k , on ara ¡ ¢ k pot ser m¶es gran que n 0.4.3. Mostres no ordenades sense reempla»cament: Cn;k = nk 0.4.4. Mostres no ordenades amb reempla»cament: CRn;k 0.5. Exercicis i problemes 0.5.1. Exercicis 0.5.2. Problemes per fer En aquest tema s'introdueixen els models probabilistes, se'n donen exemples rellevants en l'enginyeria, es fa la primera introducci¶ o a la noci¶ o de probabilitat i es descriuen els primers exemples de mostreig. 0.1 Determinisme i aleatorietat Davant de determinades situacions f¶³siques intentem explicar i raonar el perquµe d'alguns comportaments i alhora ens interessa poder treure conclusions que ens prediguin determinades situacions. Aixµo ho fem mitjan»cant un model. Un model no ¶es m¶es que una representaci¶o © Els autors, 2003; © Edicions UPC, 2003 0 14 ¶ A LA PROBABILITAT INTRODUCCIO aproximada de la situaci¶o f¶³sica que utilitza unes regles que siguin comprensibles per a nosaltres i que alhora permeti preveure fets rellevants d'un experiment sense necessitat de fer-lo. Evidentment un model ¶es m¶es bo com m¶es s'apropa a la realitat, de manera que sempre que es realitza una experiµencia, el resultat ha de ser coherent amb el que prediu el model. Nosaltres ens centrarem en models matemµatics, ¶es a dir, models que s¶on aplicables a fenµomens que tenen propietats que es poden mesurar. Cal diferenciar entre models deterministes i models probabilistes. 0.1.1 Models deterministes En un model determinista, les condicions en les quals es du a terme l'experiµencia determinen completament el resultat de l'experiment. La teoria de circuits ¶es un bon exemple de model determinista. Per exemple, la llei d'Ohm I = VR ens determina de forma exacta la intensitat del corrent d'un circuit per a un voltatge i una resistµencia donats. Si canviem la resistµencia i canviem el voltatge, abans de fer l'experiµencia sabrem el resultat que obtindrem per la intensitat del corrent. Tenim unes equacions matemµatiques que ens prediuen el resultat depenent de les condicions en quµe realitzem l'experiµencia, i en les mateixes condicions obtenim els mateixos resultats. (Cal dir que se solen donar algunes °uctuacions en els resultats de l'experiment, ja que no es poden controlar completament tots els factors que hi intervenen; pensem en el soroll elµectric, per exemple. De tota manera, si la diferµencia entre el resultat real i el previst no passa d'algunes °uctuacions respecte al que ens interessa, parlem d'un bon model determin¶³stic.) 0.1.2 Models probabil¶³stics: regularitat estad¶³stica Hi ha experiments que s¶on aleatoris, ¶es a dir, que ¯ns i tot repetint l'experiment en les mateixes condicions no podem preveure el resultat. Pensem, per exemple, en una urna que cont¶e tres boles numerades amb 0;1 i 2. Barregem les boles i en traiem una a l'atzar. Tenim tres possibles resultats, que anotem en un conjunt E = f0; 1; 2g. Aquest conjunt l'anomenem espai mostral. En aquest experiment no podem preveure el resultat que obtindrem, perµo presenta una regularitat estad¶³stica. Vegem quµe vol dir aixµo: Suposem que repetim l'experiment n vegades en les mateixes condicions. Anomenem N0 (n), N1 (n) i N2 (n) el nombre de vegades que surten les boles 0, 1 i 2, respectivament, en n repeticions de l'experiµencia. Aquests valors s'anomenen freqÄ uµencies absolutes. De¯nim ara el que anomenem freqÄ uµencies relatives. La frequµencia relativa del resultat k (a l'exemple, k ¶es 0;1 o 2) ¶es la fracci¶o del nombre de vegades que apareix aquest resultat en n repeticions de l'experiµencia: fk (n) = Nk (n) : n Emp¶³ricament s'observa que el valor fk (n) s'apropa a un valor determinat a mesura que anem © Els autors, 2003; © Edicions UPC, 2003 0.1 Determinisme i aleatorietat 15 ¶ a dir: augmentant n. Aixµo ¶es el que s'anomena regularitat estad¶³stica. Es lim fk (n) = pk n!1 La constant pk ¶es el que s'anomena probabilitat del resultat k. En el nostre exemple, si realitzem l'experiment un nombre \gran" de vegades, podem comprovar que pk = 13 , per a qualsevol valor de k = 0; 1; 2. Resumint el desenvolupament anterior, els models probabilistes es caracteritzen per dos elements bµasics: ² En el model probabilista, el resultat d'una experiµencia no estµa completament determinat per les condicions en quµe es desenvolupa. En canvi, hi ha un conjunt ben de¯nit de possibles resultats, que hem anomenat espai mostral. ² Es produeix el fenomen de la regularitat estad¶³stica, o estabilitzaci¶o de les frequµencies relatives amb quµe cadascun dels resultats possibles apareix en la repetici¶ o de l'experiµencia un nombre prou gran de vegades. Aquesta regularitat ¶es observable emp¶³ricament, o b¶e s'inclou com a hipµotesi raonable en l'anµalisi de l'experiµencia. Vegem algunes propietats de la freqÄ uµencia relativa. Suposem que tenim ara un espai mostral E = f1; 2; 3; ¢ ¢ ¢ ; mg i repetim l'experiment n vegades. Tenim que: 0 · Nk (n) · n on k = 1; ¢ ¢ ¢ ; m i si dividim la inequaci¶o anterior per n, tenim per a les freqÄ uµencies relatives 1. i a m¶es tenim 0 · fk (n) · 1 m X on k = 1; ¢ ¢ ¢ ; m Nk (n) = n: k=1 Dividint als dos costats per n, obtenim: 2. m X fk (n) = 1 k=1 De vegades estem interessats a obtenir molts resultats alhora. Per exemple, en el nostre experiment, que surtin els valors 0 o 2. Aquests conjunts de resultats possibles els anomenem successos. La freqÄ uµencia relativa associada a aquest succ¶es A = f0; 2g ¶es: fA (n) = NA (n) N0 (n) + N2 (n) = = f0 (n) + f2 (n) n n © Els autors, 2003; © Edicions UPC, 2003 0 16 ¶ A LA PROBABILITAT INTRODUCCIO Aixµo ens diu que la freqÄ uµencia relativa associada a un succ¶es ¶es la suma de les freqÄ uµencies relatives dels posssibles resultats. En general, podem dir que si C ¶es el succ¶es que es veri¯ca quan es veri¯quen els successos A o B, on A i B s¶on dos successos que no es poden donar simultµaniament, tenim: 3. NC (n) = NA (n) + NB (n) 0.2 o b¶e fC (n) = fA (n) + fB (n) Diferents de¯nicions de probabilitat Amb el que hem vist anteriorment queda clar que podr¶³em de¯nir la probabilitat que surti el succ¶es k com: pk = lim fk (n) n!1 perµo no queda clar el sentit d'aquest l¶³mit, ja que no podem repetir un experiment un nombre in¯nit de vegades i tampoc no queda clar quin ha de ser el valor de n per poder-lo considerar su¯cientment \gran". A m¶es, el que es pret¶en ¶es construir una teoria que es pugui aplicar a situacions on no calgui fer l'experiment. Alhora, perµ o, ¶es raonable i intuijtiu relacionar probabilitat i freqÄ uµencia relativa. Per exemple, en l'experiµencia de les boles, podr¶³em assignar p0 = 13 a priori, ja que ¶es for»ca intuijtiu per la naturalesa de l'experiµencia que aquest ¶es un valor raonable. Per aixµo, a l'hora de de¯nir una teoria de la probabilitat volem que es veri¯quin les relacions 1 i 3 de l'apartat anterior. De¯nim, doncs, la teoria de la probabilitat com un conjunt d'axiomes que veri¯quin les propietats anteriors. Suposem que tenim un experiment aleatori ben de¯nit amb un conjunt E de possibles resultats. De moment suposem que E ¶es un conjunt ¯nit. Cadascun dels subconjunts de E ¶es un succ¶es. Una probabilitat ¶es una aplicaci¶o que assigna a cada subconjunt A de E un n¶ umero P (A), de manera que es veri¯qui: 1. 0 · P (A) · 1. 2. P (E) = 1. 3. Si A i B s¶on dos successos que no poden passar simultµaniament, aleshores P (A [ B) = P (A) + P (B). La fonamentaci¶o de la teoria de la probabilitat en aquests axiomes, a semblan»ca de les propietats de les frequµencies relatives, no es va materialitzar ¯ns ben entrat el segle XX. Abans hi va haver altres intents de de¯nir el concepte de probabilitat que van ser discutits per matemµ atics i ¯lµosofs. Els dos m¶es representatius s¶on: © Els autors, 2003; © Edicions UPC, 2003 0.3 Alguns exemples de models probabilistes en enginyeria 17 1. De¯nici¶o clµassica de la teoria de probabilitat, a priori. Suposem que un esdeveniment A es pot produir de s maneres diferentes dins un total de n possibilitats; llavors es de¯neix pA = ns . Per exemple, pensem en l'experiµencia de llan»car un dau i ens ¯xem en el nombre que surt. En aquest cas, l'espai mostral ¶es E = f1; 2; 3; 4; 5; 6g. Ens demanem quina ¶es la probabilitat que surti un nombre parell, ¶es a dir, la probabilitat que es veri¯qui el succ¶es A = f2; 4; 6g. Diem que pA = 36 . ¶ clar que en aquesta de¯nici¶o hi ha impl¶³cita la hipµotesi que tots els resultats tenen la Es mateixa probabilitat (cosa que deixa el terme conceptualment inde¯nit). A m¶es, no ¶es aplicable a situacions en quµe el conjunt de resultats possibles no ¶es ¯nit. 2. De¯nici¶o freqÄ uentista de la teoria de probabilitat, a posteriori. Despr¶es de repetir un experiment n vegades (on n ¶es gran), si l'esdeveniment A es repeteix s vegades, es de¯neix la probabilitat de l'esdeveniment A com PA = ns . ¶ clar que, tal com hem dit abans, el fet que n sigui gran no queda ben determinat. Es Les controvµersies generades al voltant de la de¯nici¶o de la probabilitat no van impedir, perµo, que se'n fes un u ¶s exhaustiu abans que Kolmogorov propos¶es cap a 1930 la seva fonamentaci¶o axiomµatica. Aquesta darrera ha estat acceptada com la fonamentaci¶o matemµatica adequada per al concepte de probabilitat. Abans d'aprofundir m¶es en les nocions de probabilitat i les tµecniques de cµalcul, vegem alguns exemples que il¢lustren l'¶ us dels models probabilistes en alguns problemes estretament vinculats a l'enginyeria. 0.3 Alguns exemples de models probabilistes en enginyeria A m¶es dels models t¶³pics dels jocs d'atzar (que malgrat el seu carµacter l¶ udic sovint serveixen com a representaci¶o de problemes ben complexos), i ha una sµerie de problemes estretament vinculats a l'enginyeria de les telecomunicacions i a la telemµatica, que exigeixen l'¶ us de models probabilistes. ² Comunicaci¶o a trav¶es de canals amb soroll Un dels problemes bµasics de l'enginyeria de comunicacions consisteix a reproduir el missatge original a partir d'un missatge rebut a trav¶es d'un sistema de comunicaci¶o. En l'esquema clµassic de Shannon, un sistema de comunicaci¶o s'esquematitza de la forma segÄ uent: © Els autors, 2003; © Edicions UPC, 2003 0 18 Font - ¶ A LA PROBABILITAT INTRODUCCIO canal - Receptor El canal no sol ser un transmissor perfecte i pot introduir alteracions en el missatge generat a la font, com per exemple: 001001001 - canal - 000001010 L'elaboraci¶o de dispositius per recuperar el missatge original consumeix una bona part de l'energia dels enginyers. El disseny d'un sistema e¯cient passa, perµo, per mesurar de la capacitat del canal d'introduir soroll, i aquesta mesura no es pot fer en un model determinista, atµes el carµacter justament aleatori del soroll. En la hipµotesi m¶es simple, se suposa que, en una situaci¶o com la del diagrama anterior, cada bit t¶e una certa probabilitat ¯xa de ser canviat al seu oposat, independentment dels altres. Quina ¶es la probabilitat que hi hagi, com a molt, dos errors en una transmissi¶o dels nou bits? ² Comunicacions en xarxes d'ordinadors En una xarxa de comunicaci¶o d'ordinadors, o en un sistema multiprocessador, resulta cost¶os i poc e¯cient establir totes les l¶³nies de comunicaci¶o entre parells de processadors, de manera que totes les l¶³nies s¶on compartides. Un esquema com¶ u ¶es la xarxa de l'hipercub: Quan dos ordinadors a la xarxa volen fer servir el mateix enlla»c simultµaniament, es produeix un con°icte. Les demandes de comunicaci¶ o no obeeixen, en general, a patrons deterministes, de manera que l'anµalisi del comportament de la xarxa, la quantitat de con°ictes que es poden presentar i l'elaboraci¶o d'esquemes de comunicaci¶o que minimitzin els © Els autors, 2003; © Edicions UPC, 2003 0.3 Alguns exemples de models probabilistes en enginyeria 19 con°ictes requereixen l'¶ us d'un model aleatori. Un model aleatori simple per al diagrama anterior podria consistir a suposar que cada ordinador farµa servir un enlla»c adjacent al seu node amb probabilitat ¯xa p, independent dels altres. Quina ¶es la probabilitat que es produeixi un con°icte? ² Teoria de cues En el funcionament d'un servidor, hi arriben usuaris que esperen en una cua que aquest estigui lliure per ser servits. Cua x- Servidor x x x x ¡µ ¡x x Tant el temps de servei com la intensitat amb quµe arriben nous usuaris al servidor no s¶on susceptibles de ser encaixats en un model determinista. El disseny d'un protocol de servei i l'anµalisi del comportament de la cua (procurant que no es faci in¯nitament llarga, o que el temps d'espera sigui raonable) depenen fonamentalment de l'anµalisi del model probabilista. ² Fiabilitat de sistemes En sistemes complexos formats per un gran nombre de dispositius i elements de treball, com solen ser els sistemes de comunicaci¶o, els serveis telemµatics, etc., un dels elements bµasics del disseny ¶es l'anµalisi de la ¯abilitat, o la probabilitat que el sistema falli per l'avaria d'alguns dels seus components. Les avaries no solen respondre tampoc a models deterministes i l'¶ unica anµalisi e¯cient passa per considerar models probabilistes. Per exemple, en el cas del diagrama segÄ uent, un model senzill pot ser suposar que cada dispositiu falla amb una certa probabilitat p independent dels altres. A r © Els autors, 2003; © Edicions UPC, 2003 r B 0 20 ¶ A LA PROBABILITAT INTRODUCCIO Si el sistema funciona mentre hi ha comunicaci¶o entre els punts A i B, quina ¶es la probabilitat que el sistema falli? Aquests s¶on nom¶es alguns de molts exemples, als quuals es podrien afegir l'anµalisi de senyals aleatoris (senyals d'µaudio, de v¶³deo, etc.), el control de qualitat, la gesti¶o de trµa¯c en xarxes, multiplexors en comunicacions telefµoniques, la simulaci¶o de sistemes i un llarg etcµetera, que justi¯quen la potµencia i e¯cµacia dels models probabilistes en una gran varietat de problemes d'enginyeria. En aquest curs s'introdueixen conceptes i eines que permeten abordar problemes com els anteriors. 0.4 Mostreig Un dels problemes m¶es simples consisteix a determinar la probabilitat d'extreure una determinada mostra d'una poblaci¶o. En el model m¶es simple, tenim una urna amb un nombre n de boles de colors diferents i ens demanem quina ¶es la probabilitat d'extreure'n una mostra de k boles amb una determinada composici¶o de colors. Tot i ser simple, aquest problema involucra problemes d'enumeraci¶o que cal analitzar. El resultat del cµalcul depµen del criteri que es fa servir per extreure la mostra. Les distincions m¶es comunes s¶on les segÄ uents. ² Mostreig sense reempla»cament. Aixµo vol dir que n'extraiem una bola, i, sense tornar-la a la urna, n'extraiem la segÄ uent, i aix¶³ successivament. ² Mostreig amb reempla»cament. En aquest cas, n'extraiem la primera bola, anotem el seu color i la tornem a l'urna abans d'extreure la segÄ uent. D'altra banda, podem considerar diferents dues mostres si l'ordre amb quµe s'extreuen les boles ¶es diferent, o simplement interessar-nos per quines boles han sortit sense tenir en compte l'ordre amb quµe s'han extret, ¶es a dir: ² Mostres ordenades ² Mostres no ordenades Com veurem, l'aplicaci¶o de diferents criteris d¶ona resultats diferents en el cµalcul de probabilitats. © Els autors, 2003; © Edicions UPC, 2003 0.4 0.4.1 Mostreig 21 Mostres ordenades sense reempla» cament: Pn;k on k · n Per concretar pensem el cas de k = 3 i n = 4. Si denotem les quatre boles per f1; 2; 3; 4g, les extraccions possibles s¶on: 123 132 124 142 134 143 213 231 214 241 234 243 312 321 324 342 314 341 413 431 412 421 423 432 Imaginem tres posicions que hem d'omplir amb tres elements de A; en el primer lloc podem triar entre els n elements de A. En la segona posici¶o nom¶es podem triar entre els n ¡ 1 elements que queden (ja que la mostra ¶es sense reempla»cament: no hi ha elements repetits), i en el tercer lloc podem triar entre els n ¡ 2 elements que queden. Tenim, doncs, que Pn;3 = n(n ¡ 1)(n ¡ 2). En general, per a una poblaci¶o de mida n i una mostra de mida k en aquestes condicions, el nombre total de mostres ¶es Pn;k = n(n ¡ 1)(n ¡ 2) ¢ ¢ ¢ (n ¡ k + 1): En el cas particular que ens interessi obtenir mostres ordenades de tots els elements del conjunt, el que obtenim ¶es Pn;n = n:(n ¡ 1) ¢ ¢ ¢ 2:1 = n!: Aquest nombre s'anomena permutacions de n elements, o b¶e n factorial. M¶es endavant veurem la utilitat de de¯nir 0! = 1. Exemple 0.1 Triem a l'atzar una delegaci¶o de tres estudiants en un grup de 40. El primer estudiant triat en serµa el president; el segon, el secretari, i el tercer, el tresorer. Quantes delegacions diferents poden sortir? Quina ¶es la probabilitat que un estudiant determinat en sigui el president? Aqu¶³ triem una mostra ordenada sense reeempla»cament de mida 3 en una poblaci¶o de 40 individus. El nombre total de delegacions possibles ¶es P40;3 = 40 ¢ 39 ¢ 38 = 59:280. Per calcular probabilitats ¶es essencial saber quina ¶es la probabilitat de cadascuna d'aquestes delegacions. La frase `a l'atzar', tot i que ¶es ambigua, sol indicar que cadascuna de les 59:280 mostres tenen la mateixa probabilitat: 1=P40;3 . Aleshores el cµalcul ¶es senzill: la probabilitat que un estudiant x en sigui el president ¶es la suma de les probabilitats de totes aquelles delegacions en les quals apareix x com a president. D'aquestes n'hi ha P39;2 = 39 ¢ 38, de manera que la probabilitat ¶es P39;2 =P40;3 = 1=40 = 0:025. 2 © Els autors, 2003; © Edicions UPC, 2003 22 0.4.2 0 ¶ A LA PROBABILITAT INTRODUCCIO Mostres ordenades amb reempla» cament: P Rn;k on ara k pot ser m¶ es gran que n Com en el cas anterior, imaginem k posicions que cal omplir amb les boles de l'urna. En aquest cas, un cop triat l'element que omple el primer lloc, el podem tornar a triar per al segon lloc, i aix¶³ successivament ¯ns a omplir k llocs. Per tant, a cada lloc hi ha n opcions i P Rn;k = nk : Aquest nombre ¶es el de permutacions amb repetici¶ o de n elements triats de k en k. Exemple 0.2 En una travessa de 14 partits podem assignar a cada partit un dels resultats 1,X,2, ¶es a dir, n = 3 i hem de fer ordenacions de k = 14 elements. El nombre de travesses diferentes que podem fer ¶es P R3;14 = 314 = 4:782:969. 2 0.4.3 Mostres no ordenades sense reempla»cament: Cn;k = ¡n¢ k Per cadascuna de les mostres ordenades sense reempla»cament hi ha k! permutacions que corresponen a la mateixa mostra no ordenada. Per tant: µ ¶ n P (n; k) n! = : Cn;k = = k! (n ¡ k)!k! k ¡ ¢ El nombre nk apareix amb molta freqÄ uµencia i s'anomena coe¯cient binomial per la cµelebre fµormula del binomi: µ ¶ µ ¶ µ ¶ µ ¶ n µ ¶ n n n n¡1 n n n X n i n¡1 n n¡1 (x + y) = x + x y + ¢¢¢ + xy + y = xy : 0 1 n¡1 n i i=0 Entre les moltes propietats dels coe¯cients binomials, se satisfµa: µ ¶ µ ¶ n n ² = k n¡k µ ¶ µ ¶ n n ² = =1 n 0 µ ¶ µ ¶ µ ¶ n n¡1 n¡1 ² = + k k¡1 k © Els autors, 2003; © Edicions UPC, 2003 0.4 Mostreig 23 Les dues primeres propietats s¶on immediates i la tercera la podem demostrar amb un raonament senzill. Per determinar el nombre de combinacions de k elements que podem fer amb un total de n elements, ¯xem un element x del conjunt de n elements. Per un costat, tenim un element ¡ ¢ x i, per un altre, tenim n ¡ 1 elements. El nombre de combinacions que contenen x ¶es n¡1 i k¡1 ¡n¡1¢ el nombre de combinacions de k elements que no contenen x ¶es k . Aix¶³, hem de sumar els dos casos. ¡ ¢ El coe¯cient binomial nk ¶es tamb¶e el nombre de subconjunts de mida k d'un conjunt de mida n. Per a k = 0, convenim que Cn;0 = 1 (cosa que justi¯ca el conveni 0! = 1). Cada subconjunt X de mida k de A = f1; 2; : : : ; ng es pot identi¯car amb un vector (x1 ; x2 ; : : : ; xn ); on xi = 1, si i 2 X, i xi = 0, altrament. Per exemple, si X = f1; 4; 5g ½ f1; 2; 3; 4; 5g, identi¯quem X amb (1; 0; 0; 1; 1). El coe¯cient binomial compta, doncs, tamb¶e, el nombre de vectors de n components amb k uns i n ¡k zeros. En particular, el nombre total de subconjunts ¶es el nombre total de vectors de 0 i 1 amb n components, o b¶e el nombre de permutacions amb repetici¶o de dos elements, presos de n en n, P R2;n = 2n . Aquest resultat es pot obtenir tamb¶e del binomi de Newton posant x = y = 1, ja que n µ ¶ X n = (1 + 1)n = 2n : i i=0 Exemple 0.3 Tornant a un exemple anterior, triem a l'atzar una delegaci¶ o de tres estudiants en un grup de 40. Quantes delegacions diferents poden sortir? Quina ¶es la probabilitat que un estudiant determinat pertanyi a la delegaci¶o? 40! En aquest cas tenim mostres no ordenades sense reempla»cament, i n'hi ha C40;3 = 3!37! = 40¢39¢38 = 9:880. Entenent per `escollida a l'atzar' que totes les mostres tenen la mateixa 3¢2 probabilitat, i havent-n'hi C39;2 = 741 que contenen un estudiant determinat, la probabilitat que hi sigui ¶es C39;2 =C40;3 = 0;075. 2 0.4.4 Mostres no ordenades amb reempla» cament: CRn;k Acabem aquesta descripci¶o amb el menys fµacil d'aquests problemes d'enumeraci¶ o. Primer de tot vegem-ne un exemple. Sigui A = fa; b; c; dg un conjunt amb n = 4 elements i considerem el cµalcul de CR4;2 . Les mostres que es poden formar s¶on: (a; a); (b; b); (c; c); (d; d); (a; b); (a; c); (a; d); (b; c); (b; d); (c; d) © Els autors, 2003; © Edicions UPC, 2003 0 24 ¶ A LA PROBABILITAT INTRODUCCIO Tenim, doncs, 10 possibilitats: CR4;2 = 10. Per poder calcular CRn;k fem una correspondµencia de cada mostra amb seqÄ uµencies de dos s¶³mbols, i il¢lustrem al cas anterior de la manera segÄ uent: Fem correspondre la mostra (a; a) amb ²² j j j. Les tres barres separen quatre espais, un per a cadascuna de les lletres. Hem posat 2 punts inicialment per indicar les dues a. Vegem-ne altres casos, amb les seves correspondµencies: (b; d) ¡! j ² j j ² (c; d) ¡! j j ² j ² ¶ clar que aquesta correspondµencia ¶es una bijecci¶o entre el conjunt de mostres i el nombre de Es seqÄ uµencies de n + k ¡ 1 s¶³mbols, dels quals n ¡ 1 s¶on barres que separen les n lletres i k s¶on punts, que indiquen les lletres a la mostra. Aix¶³ doncs: µ ¶ n+k¡1 CRn;k = : k Aquest ¶es el nombre de combinacions amb repetici¶ o de n elements presos de k en k. Una altra manera d'arribar al mateix resultat ¶es a partir d'una recurrµencia. ¶ clar que CRn;1 = n i CR1;k = 1 per n; k ¸ 1. Considerem CRn;k i fem un raonament Es semblant al de la recurrµencia dels coe¯cients binomials. Fixem un element x d'entre tots els elements n. El nombre de combinacions de k elements que contenen x ¶es CRn;k¡1 (posem n, perquµe l'element x el podem tornar a agafar, i posem k ¡ 1, perquµe ja tenim un element dels k que volem triar). El nombre de combinacions de k elements que no contenen x ¶es CRn¡1;k . Per tant, tenim la relaci¶o: CRn;k = CRn;k¡1 + CRn¡1;k ; = 0.¢ Observem que aquesta mateixa vµalida per a n; k ¸ 1 si convenim que CRn;0 = 1 i CR0;k ¡n+k¡1 recurrµencia la satisfan tamb¶e els nombres f (n; k) = . Com que pels valors inicials k CRn;1 = f (n; 1) per a tot n ¸ 1 i CR1;k = f (1; k) per a tot k ¸ 1, aleshores Cn;k = f(n; k) per a tots els parells n; k ¸ 1. Exemple 0.4 Se sortegen tres ordinadors entre els 40 estudiants d'un grup, de manera que cada sorteig es fa als 40 estudiants. Quantes distribucions diferents dels tres ordinadors hi ha? ¡ ¢ El nombre total de repartiments ¶es CR40;3 = 42 = 42¢41¢40 = 11:480. De fet, no ¶es raonable 6 3 suposar que tots aquests repartiments tinguin la mateixa probabilitat: la probabilitat que tots tres ordinadors toquin a un determinat estudiant ¶es (1=40)3 , mentre que la probabilitat que toqui un ordinador a cadascun de tres estudiants determinats ¶es 6(1=40)3 . M¶es endavant discutirem aquesta qÄ uesti¶o. 2 © Els autors, 2003; © Edicions UPC, 2003 0.5 Exercicis i problemes 25 El quadre segÄ uent resumeix l'exposici¶o anterior: Mostres de k elements d'una poblaci¶o de n ordenades no ordenades amb reempla»cament sense reempla»cament P Rn;k = nk µ ¶ n+k¡1 CRn;k = k 0.5 Exercicis i problemes 0.5.1 Exercicis Pn;k = Cn;k n! (nµ¡ ¶ k)! n = k 1. Quina ¶es la mida m¶³nima d'un alfabet per poder identi¯car els individus d'una poblaci¶o de mida 106 amb paraules de tres lletres? Quina ¶es la llargada m¶³nima de les paraules d'un alfabet de tres lletres per poder identi¯car els individus d'una poblaci¶o de mida 106 ? 2. En treure tres cartes d'una baralla de 40 cartes, quina ¶es la probabilitat de treure almenys una ¯gura? 3. Si tenim 11 amics, de quantes maneres en podem convidar 5 a dinar? Si dos s¶on parella i van sempre junts, de quantes maneres en podem convidar 5? I si dos estan barallats i no els podem convidar junts, de quantes maneres els podem convidar? 4. El Reial decret 2822/1998, de 23 de desembre de 1998, que regula la normativa de matriculaci¶o dels vehicles, estableix: \En las placas de matr¶³cula se inscribir¶an dos grupos de caracteres constituidos por un n¶ umero de cuatro cifras, que ir¶a desde el 0000 al 9999, y de tres letras, empezando por las letras BBB y terminando por las letras ZZZ, suprimi¶endose ~ Q, CH y LL." las cinco vocales, y las letras N, (a) Quantes matr¶³cules es poden formar d'acord amb la normativa actual? Si les matr¶³cules es formessin igualment amb 7 carµacters (les lletres de l'alfabet, segons la normativa, i els d¶³gits del 0 al 9), quantes matr¶³cules podrien fer-se si: © Els autors, 2003; © Edicions UPC, 2003 0 26 ¶ A LA PROBABILITAT INTRODUCCIO (b) Cada carµacter pot ser lletra o n¶ umero. (c) Tres carµacters consecutius s¶on lletres (no necessµariament els tres primers) i la resta n¶ umeros. (d) Exactament tres carµacters s¶on lletres i els altres, n¶ umeros. (e) Hi pot haver qualsevol combinaci¶o de n¶ umeros i lletres. 0.5.2 Problemes per fer 1. Un ascensor t¶e n usuaris a la planta baixa i puja m pisos. Quantes distribucions de nombres d'usuaris que surten a cada planta hi ha? En quantes d'aquestes distribucions no baixa ning¶ u a la planta 1? En quantes d'aquestes distribucions surt, com a molt, un usuari a cada planta? 2. De quantes maneres diferents es poden distribuir n boles en m caixes numerades si (a) les boles s¶on distingibles. (b) les boles no s¶on distingibles. (c) cada caixa t¶e com a molt una bola (considereu els casos de boles distingibles i boles no distingibles). (d) si una de les caixes estµa buida. 3. (Problema dels aniversaris) Quina ¶es la probabilitat pn que en un grup de n persones n'hi hagi almenys dues que tenen l'aniversari el mateix dia. Quin ¶es el valor m¶es petit de n pel qual pn > 1=2. (Se suposa que els aniversaris estan distribuijts uniformement al llarg dels dies de l'any i que tots els anys tenen 365 dies.) 4. Quantes paraules de llargada n d'un alfabet de tres s¶³mbols f0; 1; ¡1g tenen exactament r zeros? Quantes tenen exactament r zeros i s uns? Quantes n'hi ha que la suma de d¶³gits ¶es 0? 5. Es treuen n nombres a l'atzar entre 1 i 9. Quina ¶es la probabilitat que el seu producte acabi en 0? 6. Un senyor aparca cada nit en una zona prohibida. Li posen dotze multes, sempre en dimarts o en dijous. Quina ¶es la probabilitat d'aquest succ¶es si suposem que tots els dies de la setmana tenen el mateix risc de multa. Suposem ara que, de dotze multes, no ¶ prou evidµencia per suposar que els n'hi ha cap en diumenge (perµo si els altres dies). Es diumenges no passa mai la guµardia urbana? © Els autors, 2003; © Edicions UPC, 2003 0.5 Exercicis i problemes 27 7. S'ensenya una mona a escriure a mµaquina i tecleja un text de 14 carµacters triant cadascuna de les 27 tecles de lletres (inclµos l'espai) a l'atzar. Quina ¶es la probabilitat que escrigui la frase `S¶oc inteligent' ? © Els autors, 2003; © Edicions UPC, 2003 29 1 Probabilitat 1.1. Espai mostral i successos 1.2. Espais de probabilitat ¯nits 1.3. Espais de probabilitat ¯nits equiprobables 1.4. Espais de probabilitat no ¯nits 1.5. Probabilitat condicionada 1.6. Successos independents 1.7. Teorema de la probabilitat total 1.8. Teorema de Bayes 1.9. Diagrames d'arbre 1.10. Exercicis i problemes En aquest tema s'introdueixen les nocions bµ asiques de la teoria matemµ atica de la probabilitat: espais mostrals, successos, probabilitat. En particular, s'introdueix la noci¶ o d'independµencia, que hi t¶e un paper essencial. A mesura que anem introduint conceptes nous els anirem aplicant a exemples, de manera que l'explicaci¶ o es faci m¶es comprensible. 1.1 Espai mostral i successos 1. S'anomena espai mostral el conjunt E de tots els resultats possibles en un experiment. Cada un dels resultats s'anomena succ¶es elemental. Exemple 1.1 Considerem l'experiµencia de llan»car un dau i observem el resultat obtingut. En aquest cas, E = f1; 2; 3; 4; 5; 6g. 2 © Els autors, 2003; © Edicions UPC, 2003 1 30 PROBABILITAT Exemple 1.2 Considerem l'experiµencia de llan»car una moneda tres cops seguits i observem la seqÄ uµencia de cares (°) i creus (+) que van sortint. En aquest cas, E = f° ° °; ° ° +; ° + °; + ° °; + + °; + ° +; ° + +; + + +g. 2 Exemple 1.3 Considerem l'experiµencia de llan»car dos daus i ens ¯xem en la suma de punts obtinguts. En aquest cas, E = f2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12g. 2 2. Anomenem esdeveniment o succ¶es qualsevol subconjunt1 de E. El succ¶es E s'anomena succ¶es segur i el succ¶es ? s'anomena succ¶es impossible. Exemple 1.4 A l'exemple 1.1, un possible esdeveniment seria de¯nir A = fnombres parellsg; o b¶e de forma extensiva, A = f2; 4; 6g. Un altre exemple de succ¶es ¶es B = f1; 4; 5g. 2 Exemple 1.5 A l'exemple 1.2, un possible esdeveniment seria de¯nir C = fque surtin dues caresg; o b¶e de forma extensiva, A = f° ° +; ° + °; + ° °g. Un altre succ¶es seria D = fque surtin dues cares o m¶esg = f° ° +; ° + °; + ° °; ° ° °g: 2 Exemple 1.6 A l'exemple 1.3, podr¶³em de¯nir F = fla suma sigui parellag = f2; 4; 6; 8; 10; 12g: Un altre succ¶es seria G = f3; 5; 7; 9; 11g. 2 3. Siguin A i B dos esdeveniments 1 Quan E no ¶es un conjunt numerable conv¶e restringir la de¯nici¶ o d'esdeveniment a una fam¶³lia de subconjunts tancada per unions i complementaci¶ o. M¶es endavant comentarem aquesta qÄ uesti¶ o. © Els autors, 2003; © Edicions UPC, 2003 1.1 Espai mostral i successos 31 ² A [ B ¶es el succ¶es que es veri¯ca si passa un dels dos, o b¶e tots dos alhora. En els tres exemples anteriors tenim: A [ B = f1; 2; 4; 5; 6g C [ D = f° ° +; ° + °; + ° °; ° ° °g F [ G = E: ² A \ B ¶es el succ¶es que es veri¯ca si passen els dos successos alhora. En els exemples anteriors: A \ B = f4g C \ D = f° ° +; ° + °; + ° °g F \ G = ?: 4. S'anomena succ¶es complementari de A, o negaci¶o de A, i s'escriu Ac , el conjunt complementari de A, Ac = E ¡ A. En els exemples anteriors: Ac = f1; 3; 5g C c = f° + +; + + °; + ° +; + + +; ° ° °g F c = G: 5. Dos successos A i B s¶on incompatibles si A \ B = ? En els exemples anteriors veiem que F i G s¶on incompatibles. El quadre segÄ uent resumeix la correspondµencia entre el llenguatge de conjunts i el de probabilitats. Notaci¶o Conjunts Probabilitats E Conjunt total Succ¶es segur ? Conjunt buit Succ¶es impossible A[B Uni¶o Succ¶es A o succ¶es B A\B Intersecci¶o Succ¶es A i succ¶es B c A =EnA Complement Negaci¶o de A A \ B = ? Conjunts disjunts Successos incompatibles La fam¶³lia de subconjunts d'un conjunt E, juntament amb les operacions de la uni¶o ([), la intersecci¶o (\) i la complementaci¶o (n), formen una µalgebra de Boole. Una estructura similar apareix en la lµogica de proposicions. Hi ha algunes propietats bµasiques que conv¶e tenir presents i que resumim a continuaci¶o: © Els autors, 2003; © Edicions UPC, 2003 1 32 PROBABILITAT 1. A [ E = E i A [ ? = A. 2. A \ E = A i A \ ? = ?. 3. (lleis associatives) A [ (B [ C) = (A [ B) [ C A \ (B \ C) = (A \ B) \ C: 4. (lleis distributives) A [ (B \ C) = (A [ B) \ (A [ C) A \ (B [ C) = (A \ B) [ (A \ C): 5. (lleis de Morgan) (A [ B)c = Ac \ B c (A \ B)c = Ac [ B c : 1.2 Espais de probabilitat ¯nits Suposem que tenim un espai mostral ¯nit E. Una probabilitat sobre E ¶es una aplicaci¶o que assigna a cada subconjunt A ½ E un nombre real i que satisfµa: 1. 0 · P (A) · 1. 2. P (E) = 1. 3. Si A \ B = ? aleshores P (A [ B) = P (A) + P (B). El parell format per l'espai mostral i la probabilitat l'anomenem espai de probabilitat. Dels axiomes anteriors es dedueixen les propietats segÄ uents: 1. La probabilitat del succ¶es impossible ¶es 0: P (?) = 0: En efecte, per a qualsevol succ¶es A, tenim A = A [ ?. Com que A i ? s¶on incompatibles, del tercer axioma de probabilitat es dedueix P (A) = P (A [ ?) = P (A) + P (?). © Els autors, 2003; © Edicions UPC, 2003 1.2 Espais de probabilitat ¯nits 33 2. Per a dos successos A; B: Si A ½ B aleshores P (A) · P (B): En efecte, podem escriure B = A [ (B n A), que s¶on disjunts. De l'axioma 3, P (B) = P (A) + P (B n A), i de l'axioma 1, P (B n A) ¸ 0. 3. Donat qualsevol succ¶es A: P (Ac ) = 1 ¡ P (A): Pels axiomes 2 i 3, 1 = P (E) = P (A [ Ac ) = P (A) + P (Ac ). 4. Si A i B s¶on dos successos qualssevol llavors: P (A [ B) = P (A) + P (B) ¡ P (A \ B): Per veure-ho tenim en compte que A [ B = A [ (B \ Ac ) i B = (B \ A) [ (B \ Ac ); i llavors: P (A [ B) = P (A) + P (B \ Ac ) i P (B) = P (B \ A) + P (B \ Ac ): Restant la primera equaci¶o a la segona, ens queda: P (A [ B) ¡ P (B) = P (A) ¡ P (A \ B): La relaci¶o en aquesta propietat s'est¶en a unions de m¶es conjunts d'una manera una mica complicada ,en l'anomenada f¶ ormula d'inclusi¶ o-exclusi¶ o. Per a tres conjunts, t¶e l'aspecte segÄ uent: P (A [ B [ C) = P (A) + P (B) + P (C) ¡ P (A \ B) ¡ P (A \ C) ¡ P (B \ C) + P (A \ B \ C): El nom prov¶e del fet que els elements de les interseccions de dos dels conjunts han estat tinguts en compte dues vegades a P (A) + P (B) + P (C) © Els autors, 2003; © Edicions UPC, 2003 1 34 PROBABILITAT A' B '$ $ d d f f ' $ d f a f d a a & &% % a C% & Figura 1: Il¢lustraci¶o de la f¶ormula d'inclusi¶o-exclusi¶o per a tres successos. i se n'han \d'excloure" restant P (A \ B) + P (A \ C) + P (B \ C): Ara, els elements de A \ B \ C han estat inclosos tres vegades i exclosos tres vegades; per tant, s'han d'afegir al darrer terme. El diagrama de Venn de la ¯gura 1 il¢lustra el procediment. 5. Si A1 ; A2 ; ¢ ¢ ¢ An s¶on n successos incompatibles dos a dos, es veri¯ca: P ([i2n Ai ) = n X P (Ai ): i=1 Es pot demostrar per inducci¶o sobre n. Quan n = 2, ¶es l'axioma 3. Si n > 2, aleshores P (A1 [ : : : An¡1 [ An ) = P ((A1 [ : : : An¡1 ) [ An ) = P (A1 [ : : : An¡1 ) + P (An ) i el primer terme, per hipµotesi d'inducci¶o, ¶es P (A1 [ : : : An¡1 ) = P (A1 ) + ¢ ¢ ¢ + P (An¡1 ). 1.3 Espais de probabilitat ¯nits equiprobables Suposem que tenim un espai mostral ¯nit E = fa1 ; : : : ; an g amb n elements. Si cadascun dels successos elementals t¶e la mateixa probabilitat, de 1 = P (E) = P (fa1 g [ : : : [ fan g) = P (fa1 g) + ¢ ¢ ¢ + P (fan g) = nP (fa1 g) deduijm 1 : n En general, donat un succ¶es A que tingui k elements, tenim que P (A) = P (fa1 g) = ¢ ¢ ¢ = P (fan g) = P (A) = nombre de casos favorables a A nombre de casos possibles de E © Els autors, 2003; © Edicions UPC, 2003 k n i s'acostuma a dir: 1.4 Espais de probabilitat no ¯nits 35 En els exemples 1.1 i 1.2 anteriors, per la simetria de les experiµencies (o b¶e per mitjµa de la comprovaci¶o emp¶³rica) ¶es raonable assignar la mateixa probabilitat a cadascun dels resultats possibles, de manera que P (A) = 3 6 P (B) = 3 6 P (C) = 3 8 4 P (D) = : 8 Pel que fa al tercer exemple, tal com l'hem escrit, el conjunt E no es tracta d'un espai equiprobable. Si pensem, per exemple, en el cas que la suma sigui 2, nom¶es es donarµa en el cas que surti un 1 a cada dau (1; 1). En canvi, el cas que surti suma 4 es pot donar (1; 3), (3; 1), i ¶ clar que ¶es m¶es probable que la suma sigui 4 que 2. (2; 2). Es En aquests casos, conv¶e pensar en un espai E = f(1; 1); (1; 2); (2; 1); ¢ ¢ ¢ ; (5; 1); (1; 5); (6; 6)g, on i P (G) = 18 . tots els successos elementals s¶on equiprobables. Llavors P (F ) = 18 36 36 1.4 Espais de probabilitat no ¯nits Algunes experiµencies condueixen de forma natural a espais mostrals no ¯nits. Per exemple, si tirem una moneda ¯ns que surt cara i comptem el nombre de tirades, l'espai mostral ¶es E = f1; 2; 3; : : : g = N (no hi ha cap motiu per suposar, d'entrada, un l¶³mit superior al nombre de tirades). Si l'experiµencia consisteix a mesurar el voltatge d'un senyal, l'espai mostral ¶es E = [0; 1). En el primer cas, l'espai mostral ¶es in¯nit perµo numerable, mentre que en el segon, l'espai mostral ¶es no numerable. En els dos casos, l'axioma 3 de la de¯nici¶o de probabilitat s'ha d'estendre a: 3'. Si A1 ; A2 ; A3 : : : ¶es una fam¶³lia numerable de successos incompatibles dos a dos, aleshores X P ([i¸1 Ai ) = P (Ai ): i¸1 ¶ clar que aquesta formulaci¶o cont¶e l'axioma 3 anterior, perµo aquest darrer nom¶es es pot Es estendre a fam¶³lies ¯nites de conjunts. M¶es endavant considerarem aquests casos en el marc de les variables aleatµories. Totes les propietats que considerem aqu¶³ s¶on vµalides tamb¶e per als espais no ¯nits. 1.5 Probabilitat condicionada. Siguin A i B dos successos d'un espai E. Si P (B) 6 = 0, de¯nim la probabilitat del succ¶es A condicionada a B com: © Els autors, 2003; © Edicions UPC, 2003 1 36 P (AjB) = PROBABILITAT P (A \ B) : P (B) Ens d¶ona la probabilitat de A sabent, d'entrada, que s'ha veri¯cat el succ¶es B. A l'exemple 1.1 tenim: P (AjB) = 1 6 3 6 1 = : 3 Aixµo ens d¶ona la probabilitat que en llen»car un dau surti un nombre parell sabent que ha sortit 1; 4 o 5. Aquest resultat ¶es clar, ja que d'entre els valors 1; 4 i 5 (tres valors) nom¶es hi ha un nombre parell. A l'exemple 1.2 tenim que la probabilitat que surtin dues cares sabent que han sortit dues o tres cares ¶es: 3 3 P (CjD) = 84 = 4 8 i la probabilitat que surtin dues o tres cares, sabent que han sortit dues cares ¶es clarament 1: P (DjC) = 3 8 3 8 = 1: A l'exemple 1.3: P (F jG) = 0 36 18 36 = 0: En general, si dos successos A i B s¶on incompatibles, aleshores P (AjB) = P (BjA) = 0 (si sabem que s'ha esdevingut un d'ells, l'altre ¶es un succ¶es impossible). 1.6 Successos independents. Siguin A i B dos successos d'un espai E. Diem que A i B s¶on independents si P (A \ B) = P (A) ¢ P (B): Observem que entre els axiomes i les propietats no hi ha cap indicaci¶o sobre el valor de la probabilitat de la intersecci¶o de dos esdeveniments. Per calcular-la, cal tenir informaci¶o addicional © Els autors, 2003; © Edicions UPC, 2003 1.6 Successos independents. 37 sobre el seu grau de dependµencia. La independµencia de successos ¶es una noci¶o fonamental en la teoria de la probabilitat. Des del punt de vista intuijtiu, A i B s¶on independents si la freqÄ uµencia relativa fn (A) amb quµe s'esdev¶e A no varia quan ens restringim als resultats en quµe succeeix B. Exemple 1.7 Suposem que hi ha tants homes fumadors com dones fumadores (i que hi ha tants homes com dones). La probabilitat d'escollir a l'atzar una dona fumadora ¶es aleshores 1=4 (la meitat de la meitat de la poblaci¶o). Els successos `escollir una dona' i `escolllir un fumador' s¶on independents. 2 Quan dos successos s¶on independents, la realitzaci¶o d'un d'ells no afecta la probabilitat de l'altre. En efecte, si A i B s¶on independents: P (A \ B) = P (A) P (B) P (A \ B) P (BjA) = = P (B): P (B) P (AjB) = Equivalentment, si P (AjB) = P (A), aleshores P (A \ B) = P (AjB)P (B) = P (A)P (B); i A i B s¶on independents. Vegem-ho en els tres exemples que estem analitzant: 1 1 P (B) = 2 2 Per tant, A i B no s¶on independents. P (A) = P (C) = 3 8 P (D) = 4 8 P (G) = 18 36 1 i P (A \ B) = : 6 3 i P (C \ D) = : 8 Per tant, C i D no s¶on independents. P (F ) = 18 36 i P (F \ G) = 0: Per tant, F i G no s¶on independents. En general, si A i B s¶on incompatibles i tenen probabilitat no nul¢la, aleshores no s¶on independents ja que P (AjB) = P (BjA) = 0. © Els autors, 2003; © Edicions UPC, 2003 1 38 PROBABILITAT Exemple 1.8 Considerem l'experiµencia de treure una carta d'una baralla de 40 cartes. Tenim 40 successos elementals. Sigui A = ftreure orosg i B = ftreure una sotag. Tenim P (A) = 10 i 40 4 1 ¶ clar que A \ B t¶e un element (la sota d'oros) i P (A \ B) = . En aquest cas, P (B) = 40 . Es 40 A i B s¶on independents. 2 1.7 Teorema de la probabilitat total Diem que els successos A1 ; A2 ; ¢ ¢ ¢ An s¶on una partici¶o de l'espai E si ² [ni=1 Ai = E, i ² Per a qualssevol i; j diferents, Ai \ Aj = ?: El teorema de la probabilitat total relaciona la probabilitat de qualsevol succ¶es B amb les probabilitats condicionades als successos d'una partici¶o A1 ; A2 ; ¢ ¢ ¢ An de E. Com que cada succ¶es B es pot escriure com B = (B \ A1 ) [ ¢ ¢ ¢ (B \ An ), tenim: P (B) = n X i=1 P (B \ Ai ) = n X P (BjAi )P (Ai ): i=1 Aquesta ¶es una identitat que pot resultar molt u ¶til per al cµalcul de probabilitats. Exemple 1.9 La probabilitat d'un error en la transmissi¶o d'un missatge per rµadio depµen del nivell ½ d'ionitzaci¶o de l'atmosfera, que es mesura en una escala determinada. Si 0 · ½ < 10, la probabilitat d'error ¶es de 0;1, si 10 · ½ < 20 ¶es de 0;2 i si ½ ¸ 20 ¶es de 0;3. Sabem que la probabilitat d'aquests tres nivells d'ionitzaci¶o ¶es P (0 · ½ < 10) = 0;5, P (10 · ½ < 20) = 0;4 i P (½ ¸ 20) = 0;1. Quina ¶es la probabilitat d'error? Denotem ² el succ¶es `hi ha error de transmissi¶o', i A1 ; A2 ; A3 els successos f0 · ½ < 10g, f10 · ½ < 20g i f½ > 20g, respectivament. Aleshores: P (²) = P (²jA1 )P (A1 ) + P (²jA2 )P (A2 ) + P (²jA3 )P (A3 ) = 0;16: Quin seria l'espai mostral en aquest cas? De vegades la formalitzaci¶ o completa dels espais de probabilitat pot resultar excessivament... formal. 2 © Els autors, 2003; © Edicions UPC, 2003 1.8 1.8 Teorema de Bayes 39 Teorema de Bayes En molts problemes resulta m¶es senzill calcular P (AjB) que P (BjA). La f¶ormula de Bayes proporciona una manera particular de relacionar aquestes dues probabilitats. Sigui A1 ; A2 ; ¢ ¢ ¢ An una partici¶o de l'espai E i sigui B un esdeveniment qualsevol. De l'expressi¶o de la probabilitat condicionada sabem que P (B \ Aj ) = P (BjAj )P (Aj ) = P (Aj jB)P (B): D'altra banda, d'acord amb la f¶ormula de la probabilitat total: P (B) = P (BjA1 )P (A1 ) + ¢ ¢ ¢ + P (BjAn )P (An ): Combinant aquestes dues igualtats: P (Aj jB) = P (Aj \ A) P (BjAj )P (Aj ) = Pn : P (B) i=1 P (AjAi )P (Ai ) Aquesta manera de relacionar les probabilitats condicionades P (Aj jB) i P (BjAj ) del primer i el darrer termes de la igualtat s'anomena f¶ ormula de Bayes i resulta particularment u ¶til. Exemple 1.10 Una urna cont¶e dues boles blanques i dues de negres. S'extreu una bola i, sense tornar-la a l'urna ni saber-ne el color, s'extreu despr¶es una altra bola. Calculeu la probabilitat que la primera bola hagi estat blanca si la segona bola ¶es negra. Denotem B1 = fla primera bola ¶es blancag N1 = fla primera bola ¶es negrag N2 = fla segona bola ¶es negrag: La probabilitat que volem calcular ¶es P (B1 jN2 ). Els successos A1 ; N1 formen una partici¶o de l'espai. Atesa la composici¶o de l'urna, sabem que P (A1 ) = 24 . Si la primera bola que hem tret era blanca, dins de l'urna queden dues boles negres i una de blanca. Per tant, P (N2 jB1 ) = 23 . De forma similar, P (N2 jN1 ) = 13 . En canvi, el cµalcul de P (B1 jN2 ) no ¶es evident. Fent servir la f¶ormula de Bayes: P (B1 jN2 ) = P (N2 jB1 )P (B1 ) (2=3)(1=2) = ' 0;666: P (N2 jB1 )P (B1 ) + P (N2 jN1 )P (N1 ) (2=3)(1=2) + (1=3)(1=2) 2 © Els autors, 2003; © Edicions UPC, 2003 1 40 PROBABILITAT Exemple 1.11 Dues mµaquines A i B produeixen 100 i 200 xips, respectivament. Se sap que la mµaquina A produeix un 5% de xips defectuosos i la B un 6%. S'agafa un xip i es demana: a) Quina ¶es la probabilitat que sigui defectu¶os. b) Sabent que el xip ¶es defectu¶os, quina ¶es la probabilitat que hagi sortit de la mµaquina A. Indiquem els successos: A = fel xip ha sortit de la mµaquina Ag B = fel xip ha sortit de la mµaquina Bg D = fel xip ¶es defectu¶osg: En total hi ha 300 xips, 100 procedents de la mµaquina A i 200 de la B. Llavors, P (A) = P (B) = 23 . 1 3 i a) Per la f¶ormula de la probabilitat total: P (D) = P (DjA)P (A) + P (DjB)P (B) = 6 1 5 2 + = 0;0567: 100 3 100 3 b) Fent servir la f¶ormula de Bayes: P (AjD) = 0;05 ¢ 13 P (DjA)P (A) = P (DjA)P (A) + P (DjB)P (B) 0;05 ¢ 13 + 0;06 ¢ 2 3 = 0;2941: 2 1.9 Diagrames d'arbre En l'anµalisi de problemes de probabilitat en quµe s'encadenen experiµencies, pot resultar u ¶til la representaci¶o en un diagrama d'arbre. Vegem-ne un exemple que il¢lustra la tµecnica. Exemple 1.12 Considerem el problema de l'urna descrit a l'exemple 1.10. El diagrama en arbre segÄ uent esquematitza els resultats possibles: © Els autors, 2003; © Edicions UPC, 2003 1.10 Exercicis i problemes 41 Primera extracci¶ o 1=2 © ©* ©H z z j j © © © H H H H 1=2 Hj Segona extracci¶ o 1=3³ ³1 ³ ³ ³ z³P P P P P Pq 2=3 2=3³ ³1 ³ ³ j³P ³ P P P P 1=3 Pq z z z j j z j j A cada nivell de l'arbre, cada node t¶e tants ¯lls com possibilitats t¶e l'experiµencia en aquell punt. Les branques tenen per pesos les probabilitats de passar d'un resultat al segÄ uent. Aix¶³, a l'arbre es poden llegir directament l'espai mostral i les probabilitats de cada un dels resultats possibles: resseguint el cam¶³ des de l'arrel de l'arbre ¯ns al resultat i multiplicant les probabilitats que trobem a les branques. Per exemple, si denotem N1 el succ¶es `surt negra la primera bola' i N2 `surt negra la segona', P (²²) = P (N1 \ N2 ) = P (N1 )P (N2 jN1 ), que ¶es el producte dels pesos de les branques del cam¶i que porta a la fulla ²². 2 1.10 Exercicis i problemes 1.10.1 Exercicis 1. En un curs de quatre assignatures, el 70% aproven l'assignatura A, el 75% aproven l'assignatura B, el 80% aproven l'assignatura C i el 85% aproven l'assignatura D. Quin ¶es el percentatge m¶³nim d'estudiants que aproven les quatre assignatures? 2. Determineu la distribuci¶ o de probabilitat de la suma de resultats obtinguts en tirar dos daus. Quina distribuci¶o s'obtindria si s'utilitzen dos daus amb cares numerades 1; 3; 4; 5; 6; 8 en un i 1; 2; 2; 3; 3; 4 a l'altre? 3. El resultat d'un experiment ¶es un nombre enter entre 1 i 4. L'experiment es repeteix dues vegades de forma independent i s'obtenen els resultats E1 i E2 . Calculeu les probabilitats de A = fE1 = E2 g, B = fE1 > E2 g, i C = fE1 + E2 ¸ 6g. Calculeu les probabilitats de A; B; A \ B; A \ C; B \ C; Ac \ B i A [ B [ C. 4. En un espai de probabilitat coneixem les probabilitats P (A) = 0;2, P (B) = 0;3 , P (A [ B) = 0;4. Determineu les probabilitats P (Ac \ B) i P (A \ B c ). © Els autors, 2003; © Edicions UPC, 2003 1 42 PROBABILITAT 5. Siguin A i B dos successos independents. S¶on independents A i B c ? i Ac i B c ? 6. Tenim un dau amb tres uns, dos dosos i un tres. D'altra banda, tenim una urna amb tres boles blanques i dues negres. Llancem el dau i agafem tantes boles com el n¶ umero que surti al dau. a) Calculeu la probabilitat de treure com a m¶³nim una bola blanca. b Sabent que hem tret com a m¶³nim una bola negra, calculeu la probabilitat d'haver tret un dos al dau. 1.10.2 Problemes per fer 1. Suposem que neixen m¶es nenes que nens. Comproveu que ¶es m¶es probable tenir dos ¯lls del mateix sexe que de sexe diferent. 2. Quina ¶es la probabilitat d'aprovar un test de 20 preguntes amb quatre opcions per a cadascuna (de les quals nom¶es una ¶es vµalida) contestant a l'atzar? Quina ¶es aquesta probabilitat si nom¶es es contesten a l'atzar 15 preguntes i se'n deixen 5 en blanc? 3. Siguin A; B; C tres successos tals que P (A \ B \ C) = P (A)P (B)P (C). Es pot deduir que A i B s¶on independents? 4. (El problema del cavaller de M¶er¶e) El cavaller de M¶er¶e apostava que en tirar un dau 4 vegades almenys sortiria un sis. Despr¶es de guanyar moltes vegades ning¶ u no volia jugar amb ell i va canviar el joc, apostant que en 24 tirades de dos daus sortiria un doble sis. ¶ m¶es probable que perdi o que guanyi? Quin ¶es el nombre m¶³nim de tirades a partir Es del qual ¶es m¶es probable guanyar que perdre? 5. Un senyor porta sis claus semblants, dues de les quals obren els dos panys de la porta de casa seva. Si en perd una, quina ¶es la probabilitat que pugui entrar a casa? Quina ¶es la probabilitat que les dues primeres claus que tria obrin la porta? 6. En un sistema de transmissi¶o la probabilitat d'error en enviar un bit ¶es p = 0;1, independentment dels altres bits enviats. a) Quina ¶es la probabilitat pn que en un missatge de n bits no hi hagi cap error? Quin ¶es el el valor m¶³nim n0 a partir del qual pn0 < 1=2? b) Per disminuir la probabilitat d'error s'envia cada bit per triplicat. A cada bloc de tres bits rebuts, el receptor descodi¯ca com a 1 el bit enviat si hi ha m¶es 1 que 0 al bloc i 0 altrament (aquest ¶es el codi de repetici¶o). Quina ¶es ara la probabilitat qn que en un missatge de n bits no hi hagi cap error? Quan val qn0 ? © Els autors, 2003; © Edicions UPC, 2003 1.10 Exercicis i problemes 43 7. Cada element del sistema de la ¯gura segÄ uent t¶e probabilitat de fallada p = 0;1 independent dels altres. El sistema funciona mentre hi ha un cam¶³ de A a B que no passa per cap element defectu¶os. Quina ¶es la probabilitat que el sistema falli? A r r B 8. En un lot de n xips, n'hi ha l que s¶on defectuosos. a) Quina ¶es la probabilitat que en una mostra de mida m n'hi hagi r de defectuosos? b) Quina seria aquesta probabilitat si es pren la mostra de mida m amb reempla»cament? Compareu-la amb l'anterior pels valors n = 20, l = 2, m = 10 i r = 1, i per als valors n = 100, l = 10, m = 10 i r = 1. 9. Una caixa cont¶e 10 monedes normals i 20 de trucades per a les quals P (cara) = 0;25. Es treu a l'atzar una moneda de la caixa i es tira dues vegades. a) Quina ¶es la probabilitat que surtin dues cares? b) Si han sortit dues cares, quina ¶es la probabilitat que la moneda fos trucada? 10. Es treuen dues boles d'una bossa que en cont¶e 5 de vermelles, 3 de blanques i 2 de verdes. a) Calculeu la probabilitat que les dues boles siguin del mateix color. b) Si les dues boles s¶on del mateix color, quina ¶es la probabilitat que siguin de color blanc? 11. Una fµabrica produeix un 30% de claus, un 25% de cargols i un 45% de xinxetes. Entre els claus, cadascun t¶e una probabilitat del 0,005 de ser defectu¶os; la probabilitat que un cargol sigui defectu¶os ¶es de 0,003, i una xinxeta, de 0,008. Si una pe»ca ¶es defectuosa, quina ¶es la probabilitat que sigui una xinxeta? 12. Per tal d'assistir a un examen un estudiant compta amb l'ajuda d'un despertador, el qual aconsegueix despertar-lo el 80% dels casos. Quan el despertador el desperta, la probabilitat que faci l'examen ¶es del 0,9, mentre que si no el desperta la probabilitat que faci l'examen ¶es del 0,5. Si fa l'examen, quina ¶es la probabilitat que el despertador l'hagi despertat? Si no fa l'examen, quina ¶es la probabilitat que no l'hagi despertat? © Els autors, 2003; © Edicions UPC, 2003 1 44 PROBABILITAT 13. Un metge sap que nom¶es el 60% dels pacients que van a la consulta estan malalts. Per poder distingir entre els malalts i els que no ho s¶on, el metge disposa d'una anµalisi que presenta el 95% de ¯abilitat (¶es a dir, d¶ona el resultat correcte el 95% de les vegades que s'aplica). Si un pacient d¶ona positiu, quina ¶es la probabilitat que realment estigui malalt? 14. En una poblaci¶o hi ha un 24% d'individus que s¶on homes i fumen, i un 35% que s¶on dones i no fumen. Si la proporci¶o d'homes ¶es del 55%, quina ¶es la probabilitat que un individu escollit a l'atzar entre els fumadors sigui dona? 15. En un examen hi ha quatre problemes. El primer val 3 punts, el segon 2 i el tercer i el quart 2;5 cada un. La probabilitat de fer b¶e els problemes ¶es 0;6, 0;8, 0;4 i 0;4, per aquest ordre. a) Quina ¶es la probabilitat de no aprovar? b) Si un estudiant ha aprovat, quina ¶es la probabilitat que hagi fet b¶e el primer problema? 16. En un concurs televisiu hi ha tres portes, darrere una de les quals hi ha un premi. El concursant escull una de les portes i a continuaci¶o el presentador li mostra una de les portes que no ha triat i que no amaga el premi. El presentador ofereix al concursant la possibilitat de canviar la seva elecci¶o. Calculeu la probabilitat d'encertar la porta amb premi si a) El concursant ha decidit d'entrada no canviar la seva opci¶o. b) El concursant ha decidit d'entrada canviar la seva opci¶o. 17. En una empresa de n treballadors un d'ells explica un rumor a un altre, escollit a l'atzar. Aquest, a la vegada, l'explica a un tercer escollit a l'atzar, i aix¶³ successivament. a) Quina ¶es la probabilitat que el rumor hagi passat per r persones sense tornar a qui l'ha originat. b) Quina ¶es la probabilitat que el rumor hagi passat per r persones sense que ning¶ u l'hagi sentit m¶es d'una vegada. 18. Un servei tµecnic t¶e tres equips de reparaci¶o, A; B i C, els quals efectuen el mateix nombre de reparacions. L'equip A resol favorablement el 80% de les reparacions, l'equip B el 75% i l'equip C el 65%. a) Quina ¶es la probabilitat que una reparaci¶o defectuosa correspongui a un treball efectuat per l'equip A. b) Es detecten cinc reparacions defectuoses. Quina ¶es la probabilitat que n'hi hagi, com a molt, una realitzada per l'equip A. 19. Una urna cont¶e tres boles negres i dues boles blanques. Un primer jugador treu tres boles. Torna a l'urna una bola negra si entre les boles que ha tret n'hi ha m¶es de negres. Si no © Els autors, 2003; © Edicions UPC, 2003 1.10 Exercicis i problemes 45 ¶es aix¶³, torna a l'urna una bola blanca. A continuaci¶o, el segon jugador extreu una bola. El joc consisteix a endevinar quantes boles blanques ha extret el primer jugador. Si el segon jugador ha extret una bola blanca, quina ¶es la probabilitat que el primer jugador hagi extret: a) Cap bola blanca. b) Una bola blanca. c) Dues boles blanques. 20. La probabilitat que hi hagi emb¶ us a la Diagonal a les 8 del vespre ¶es de 0,4 els dies que no juga el Bar»ca, mentre que puja a 0,8 els dies de partit. Sabem tamb¶e que el Bar»ca juga dos partits per setmana. a) Calculeu la probabilitat que hi hagi emb¶ us un dia qualsevol. b) Si un dia determinat vaig a la Diagonal a les 8 del vespre i hi ha emb¶ us, calculeu la probabilitat que estigui jugant el Bar»ca. © Els autors, 2003; © Edicions UPC, 2003 47 2 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. Variables aleatµ ories Variables aleatµories Variables discretes Exemples importants de distribucions discretes Variables cont¶³nues Exemples importants de distribucions cont¶³nues Parµametres estad¶³stics: valor mitjµa i la variµancia. Funcions de variables aleatµories Exercicis i problemes Tal com vµarem veure al cap¶³tol anterior, cada succ¶es d'un experiment t¶e associada una probabilitat. En aquest tema traslladem els successos a valors numµerics: les variables aleatµ ories. Considerem experiments que tinguin ¯ns i tot un nombre in¯nit de possibles resultats i probabilitats, en particular amb valors reals com els que s'obtenen en realitzar mesures. Tamb¶e es discuteixen tµecniques per obtenir la distribuci¶ o de probabilitat d'una variable aleatµ oria que s'escriu com a funci¶ o d'una altra. Aquestes tµecniques permeten, en particular, obtenir gran part de les distribucions m¶es comunes a partir de la distribuci¶ o uniforme, cosa que ¶es de gran utilitat en problemes de simulaci¶ o. 2.1 Variables aleatµ ories De¯nici¶ o 2.1 Una variable aleatµoria ¶es una funci¶ o que associa un n¶ umero a cada resultat d'un experiment. © Els autors, 2003; © Edicions UPC, 2003 2 48 µ VARIABLES ALEATORIES Heu de pensar en la variable aleatµoria com una descripci¶o numµerica dels valors possibles que pot prendre un experiment. El conjunt de valors possibles ¶es l'espai mostral, ¶es a dir, el conjunt format per tots els n¶ umeros que poden ser valors de la variable. Exemples: ² (1) Experiment: Tirar una moneda. Associem al resultat fsortir carag el 0 i al resultat fsortir creug un 1. Espai mostral: f0; 1g. ² (2) Experiment: Tirar una moneda diverses vegades ¯ns que ens surti cara. El valor de la variable aleatµoria ¶es el nombre de tirades necessµaries ¯ns que ens ha sortit cara. Espai mostral: N = f1; 2; 3; :::g. ² (3) Experiment: Tirar un dau. Cada cara del dau ja t¶e associat un n¶ umero de l'1 al 6; per tant, aquest ¶es el n¶ umero que agafem. Espai mostral: f1; 2; 3; 4; 5; 6g. ² (4) Experiment: Mesurar l'al»caµria d'una persona a l'atzar. El valor que pren la variable ¶es l'al»caria en cent¶³metres, amb decimals. Admetent des de nadons prematurs (uns 20 cm d'al»caµria per exemple) ¯ns a gegants de 250 cm l'espai mostral podria ser agafat com l'interval real [20; 250]. ² (5) Experiment: Un arquer dispara una °etxa en una diana de 50 cm de radi. El resultat de la variable aleatµoria ¶es la distµancia des d'on ha quedat la °etxa clavada ¯ns al centre de la diana, en cent¶³metres i amb decimals. Espai mostral: l'interval real [0; 50]. Si esteu pensant que aixµo no ¶es aleatori (un arquer m¶es bo que un altre dispararµa m¶es a prop del centre), penseu que la variable aleatµoria nom¶es ¶es una descripci¶o dels valors possibles. Les seves probabilitats s'han d'ajustar a part. La variable aleatµoria corresponent a un arquer m¶es acurat simplement tindrµa probabilitats m¶es altes per a nombres m¶es petits que la variable d'un arquer menys bo. Perµo la variable ¶es la mateixa. ² (6) Experiment: Temps d'espera d'un paquet de dades d'Internet en un servidor donat a causa de la congesti¶o de la xarxa. Els resultats de la variable s¶on els temps d'espera en segons, amb decimals. Observeu que, en teoria, qualsevol temps ¶es possible. Per tant, l'espai mostral ¶es tot l'interval real [0; 1). Les variables aleatµories s'escriuen habitualment amb lletres maj¶ uscules (normalment X o Y ). Per exemple, la variable aleatµoria X que pren els valors dels punts de cada cara d'un dau ¶es la variable de l'exemple (3) anterior. Segons els exemples anteriors, veiem que hi ha bµasicament dos tipus de variables aleatµories: ² Variables discretes, variables que prenen una quantitat numerable de valors (usualment valors naturals o enters). Una variable discreta pot ser ¯nita si pren un nombre ¯nit de © Els autors, 2003; © Edicions UPC, 2003 2.2 Variables discretes 49 valors, o in¯nita, si en pren una quantitat in¯nita numerable (per exemple, els nombres naturals o els nombres enters). ² Variables cont¶³nues, els valors de les quals s¶on intervals de la recta real. A la secci¶o 2.4 en veurem una de¯nici¶o m¶es precisa. En els exemples anteriors, les variables dels exemples (1) i (3) s¶on discretes ¯nites, la variable de (2) ¶es discreta in¯nita i les variables (4), (5) i (6) s¶on cont¶³nues. Aquesta distinci¶o ¶es fonamental en l'estudi de la probabilitat, i totes les anµalisis que farem d'ara endavant tindran en compte aquesta distinci¶o. Hi ha variables aleatµories que no s'inclouen en cap dels dos tipus anteriors. Per exemple, una variable aleatµoria que prengui el valor 4 i tots els nombres reals entre 5 i 6. En aquest curs, no considerarem aquestes variables (anomenades variables mixtes). 2.2 Variables discretes Observeu l'exemple (5) anterior. Dµeiem llavors que, per a diferents tiradors, la variable era la mateixa, perµo que l'encert m¶es gran o m¶es petit d'un tirador ve donat per les probabilitats assignades a cada succ¶es. Per tant, els resultats d'una variable aleatµoria han de tenir assignades les seves probabilitats. Per a variables discretes (especialment les ¯nites) aixµo ¶es senzill i es fa associant a cada resultat un n¶ umero entre 0 i 1 segons hem vist al cap¶³tol anterior. Si la variable X pren el valor x amb probabilitat a escriurem: P (X = x) = a: Exemple 2.2 Si X ¶es la variable aleatµoria de les cares del dau, tenim, per exemple: 1 P (X = 3) = : 6 2 De¯nici¶ o 2.3 Sigui X una variable aleatµ oria discreta que pren valors a fx1 ; x2 ; x3 ; : : : g. Aleshores la funci¶ o de probabilitat de X ¶es: P : R ¡! [0; 1] P (X = x) si x 2 fx1 ; x2 ; x3 ; : : : g; x! 7 0 altrament: ½ © Els autors, 2003; © Edicions UPC, 2003 2 50 µ VARIABLES ALEATORIES Els axiomes de la probabilitat que hem aprµes al cap¶³tol 1 s'apliquen aqu¶³ amb tota la seva for»ca. Si fx1 ; x2 ; : : : ; xn g ¶es el conjunt de valors possibles d'una variable aleatµoria ¯nita, aleshores: P (X = x1 ) + P (X = x2 ) + : : : + P (X = xn ) = 1: Si la variable aleatµoria ¶es discreta i in¯nita, el proc¶es ¶es el mateix, tenint en compte que el fet que la suma de totes les probabilitats sigui 1 es manifesta amb la suma d'una sµerie. Per l'exemple (2) anterior del nombre de vegades que hem de tirar una moneda ¯ns que surti cara, tenim: 1 P (X = n) = n 2 i, per tant: 1 1 X X 1 P (X = n) = = 1: 2n n=1 n=1 Es fa servir molt tamb¶e la probabilitat d'un conjunt de valors. Per exemple, en aquesta variable del nombre de cops que hem de tirar una moneda perquµe surti cara, podem preguntar-nos quina ¶es la probabilitat que ens surti cara abans de la cinquena tirada. Segons els axiomes de la probabilitat, doncs, hem de sumar les probabilitats dels resultats 1,2,3, i 4, i el resultat s'expressa: 15 P (X · 4) = : 16 2.3 Exemples importants de distribucions discretes Algunes distribucions de probabilitat, i els models probabilistes a quµe corresponen, s¶on especialment u ¶ tils i freqÄ uents. ² (1) La variable aleatµoria de Bernoulli ¶es la m¶es senzilla de totes i potser la m¶es important. El seu espai mostral t¶e dos valors: f0; 1g. La variable es de¯neix simplement triant un n¶ umero p entre 0 i 1 de manera que P (X = 0) = p P (X = 1) = 1 ¡ p: L'exemple canµonic ¶es tirar una moneda, on p = 1=2. Per indicar que una variable aleatµoria X ¶es de Bernouilli escrivim X » B(p). El model subjacent a la distribuci¶o de Bernoulli ¶es simple: Si A ¶es un succ¶es en un espai mostral, la variable aleatµoria assigna el valor 1 si A succeeix i 0 altrament. Se sol dir que hi ha `µexit' si succeeix A. © Els autors, 2003; © Edicions UPC, 2003 2.3 Exemples importants de distribucions discretes 51 ² (2) La variable aleatµoria binomial s'obt¶e quan es repeteix independentment n vegades la variable de Bernoulli i es compta el nombre d'µexits (¶es a dir, el nombre de vegades que apareix 1). Per exemple, si tiro una moneda 6 cops quina ¶es la probabilitat que em surtin exactament dues cares? L'espai mostral de la variable aleatµoria binomial ¶es, doncs, el conjunt f0; 1; : : : ; ng. La probabilitat de cadascun d'aquests valors es calcula amb la f¶ormula: µ ¶ n k P (X = k) = p (1 ¡ p)n¡k ; n = 0; 1; : : : ; n: k ¡ ¢ El coe¯cient nk compta el nombre de resultats en quµe hi ha k µexits (triar la posici¶o de k uns en una seqÄ uµencia de llargada n) i el terme pk (1 ¡ p)n¡k correspon a la probabilitat de cadascun d'ells. Si X segueix una distribuci¶o binomial de n repeticions independents i probabilitat d'µexit p escrivim X » Bin(n; p). ² (3) Un exemple de variable geomµetrica el tenim amb l'exemple anterior (2): comptem el nombre de tirades que hem de fer perquµe ens surti una cara. En principi, qualsevol nombre de tirades ¶es possible, i la probabilitat cada cop queda multiplicada per 1/2. Per aixµo s'anomena geomµetrica, perquµe la probabilitat del resultat k ¶es igual al del resultat k ¡ 1 multiplicat per un factor 1 ¡ p. L'espai mostral ¶es el conjunt de tots els nombres naturals (¶es, doncs, un espai no ¯nit) i la distribuci¶o de probabilitat ve donada per: P (X = n) = p(1 ¡ p)n¡1 ; n = 1; 2; : : : ; i escrivim X » Geom(p). Observem que la suma de totes les probabilitats ¶es 1, com ha de ser, fent servir el valor de la suma d'una sµerie geomµetrica: 1 X n=1 p(1 ¡ p)n¡1 = p 1 1 = p = 1: 1 ¡ (1 ¡ p) p ² (4) La variable de Poisson s'obt¶e tamb¶e en determinades situacions en quµe cal iterar la variable de Bernoulli. De fet, la distribuci¶ o de Poisson representa una situaci¶o l¶³mit de la distribuci¶o binomial, en la qual el nombre d'iteracions ¶es `gran' i la probabilitat d'µexit `petita'. Aquesta distribuci¶o es fa servir, per exemple, per comptar el nombre de trucades que arriben a una central en un petit interval de temps: el nombre d'usuaris ¶es gran (de l'ordre de milions), perµo la probabilitat que un d'ells faci una trucada en un instant determinat ¶es petita. © Els autors, 2003; © Edicions UPC, 2003 2 52 µ VARIABLES ALEATORIES La variable aleatµoria amb distribuci¶o de Poisson t¶e com a espai mostral el conjunt dels enters no negatius (incloent el 0), i la distribuci¶o de probabilitats ¶es: P (X = k) = ®k ¡® e ; k = 0; 1; 2; : : : : k! El valor ® ¶es el parµametre de la distribuci¶o i m¶es endavant en veurem el seu signi¯cat. Escriurem X » P oiss(®) per indicar que X segueix una distribuci¶o de Poisson. Per ara, cal dir que la distribuci¶o de Poisson ¶es una bona aproximaci¶o de Bin(n; p) quan n ¶es gran, p ¶es petita i ® = np. Vegeu una comparaci¶o d'alguns valors de la distribuci¶o per a n = 20 i p = 0;1: k 0 X » Bin(20; 0;1) P (X = k) 0,121 Y » P oiss(2) P (Y = k) 0,135 2.4 1 2 3 4 5 0,270 0,285 0,190 0,089 0,031 0,270 0,270 0,180 0,090 0,036 6 0,009 0,012 Variables cont¶³nues Amb les variables cont¶³nues, perµo, l'assignaci¶o de probabilitats ¶es m¶es complicada. No podem donar un valor individual a la probabilitat de cada resultat individual d'un interval de nombres reals. Per tant, la probabilitat es d¶ona tamb¶e en termes d'intervals: casos com P (X · a), que ¶es la probabilitat que la variable X aga¯ un valor m¶es petit o igual que a, o b¶e casos com P (a · X · b), que ¶es la probabilitat que la variable X prengui un valor entre a i b. Ara b¶e, a la recta real hi ha in¯nits intervals. Quµe hem guanyat, doncs? Hem guanyat que ara per donar la probabilitat d'un interval podem fer servir una funci¶o, amb tots els avantatges que el cµalcul ens proporciona per estudiar funcions. Aixµo ens porta a la de¯nici¶o segÄ uent: De¯nici¶ o 2.4 La funci¶ o de distribuci¶ o de la variable aleatoria X ¶es la funci¶ o: FX (x) = P (X · x): Observeu com, sabent la funci¶o de distribuci¶o d'una variable aleatµoria, podem saber la probabilitat de molts intervals; per exemple: P (a < X · b) = FX (b) ¡ FX (a): La funci¶o de distribuci¶o es pot de¯nir per qualsevol tipus de variable aleatµoria. Si la funci¶o de distribuci¶o ¶es cont¶³nua, aleshores: P (X = x) = FX (x) ¡ lim FX (y) = 0; y!x © Els autors, 2003; © Edicions UPC, 2003 2.4 Variables cont¶³nues 53 de manera que en aquest cas la funci¶o de probabilitat no aporta cap informaci¶o rellevant. Una variable aleatµoria ¶es cont¶³nua si la seva funci¶o de distribuci¶o ¶es cont¶³nua. La millor eina per entendre la distribuci¶o de probabilitats d'una variable aleatµoria cont¶³nua ¶es la funci¶o de densitat: De¯nici¶ o 2.5 Sigui X una variable aleatµ oria cont¶³nua amb funci¶ o de distribuci¶ o FX derivable (llevat potser d'una quantitat ¯nita de punts). La funci¶o de densitat d'una variable aleatµ oria X ¶es la derivada de la funci¶ o de distribuci¶ o: fX (x) = dFX (x): dx Per quµe la derivada? Perquµe s'ent¶en molt b¶e i t¶e una explicaci¶o molt grµa¯ca. Si fX ¶es la funci¶o de densitat, aleshores la probabilitat d'un interval [a; b] ¶es: Z b P (a · X · b) = fX (x) dx: a Observeu que la funci¶o de distribuci¶o ¶es sempre una funci¶o creixent (si x < y aleshores fX · xg ½ fX · yg i FX (x) = P (X · x) · P (X · y) = FX (y)). Per tant, la funci¶o de densitat ¶es sempre no negativa. Per aixµo la probabilitat P (a · X · b) es correspon amb l'µarea sota la funci¶o de densitat i entre les dues rectes verticals corresponents a x = a i x = b. Aix¶³, si la funci¶o de densitat ¶es m¶es alta en un punt que en un altre, sabrem que els petits intervals propers al primer punt s¶on m¶es probables que els petits intervals propers al segon punt. Observem algunes propietats de les funcions de distribuci¶o i densitat, que no s¶on m¶es que reformulaci¶o de propietats que ja coneixem: ² (1) lim FX (x) = 0 lim FX (x) = 1: x!¡1 ² (2) FX (x) = x!+1 Z x fX (x) dx: ¡1 ² (3) fX (x) ¸ 0 i Z +1 fX (x) dx = 1: ¡1 Arribats en aquest punt, uns quants exemples de distribucions cont¶³nues ens aniran molt b¶e per entendre-ho tot. © Els autors, 2003; © Edicions UPC, 2003 2 54 2.5 µ VARIABLES ALEATORIES Exemples importants de distribucions cont¶³nues ² (1) Considerem la variable aleatµoria segÄ uent: Agafem una ruleta (una °etxa clavada al paper amb una agulla), fem-la rodar i anotem l'angle on s'atura. Aqu¶³ tenim una variable aleatµoria cont¶³nua amb conjunt de valors [0; 2¼). Perµo observeu com la intuijci¶o ens diu que tots els angles s¶on igualment probables. Per tant, ens interessa que els intervals ¶ a dir, que la que tenen la mateixa longitud tinguin tamb¶e la mateixa probabilitat. Es probabilitat d'un interval [a; b] sigui proporcional a b ¡ a. La funci¶o de distribuci¶o serµa, doncs, la funci¶o: 1 FX (x) = x 2¼ per x 2 [0; 2¼). Observeu detingudament per quµe aixµo ¶es aix¶³: l'interval [0; 2¼) t¶e probax bilitat FX (2¼), que ¶es 1; l'interval [0; x] t¶e probabilitat FX (x) = 2¼ , i un interval [a; b] t¶e probabilitat FX (b) ¡ FX (a) = b¡a . Per tant, la funci¶ o de densitat ¶ e s constant: 2¼ fX (x) = 1 : 2¼ Observem que el fet que la funci¶o de densitat sigui constant ¶es el que ens diu que la probabilitat d'un interval [a; b] t¶e a veure amb la seva longitud: com que la funci¶o ¶es constant la probabilitat ve donada per l'µarea d'un rectangle, i l'µarea d'un rectangle d'al»caµria constant depµen de la seva longitud. Aquest ¶es un exemple d'una variable aleatµoria uniforme. Una variable aleatµoria ¶es uniforme en un interval [a; b] quan la seva funci¶o de densitat ¶es constant en els punts d'aquest interval (i val 0 en els altres punts): fX (x) = ½ 1 b¡a 0 x 2 [a; b] x6 2 [a; b] Intuijtivament, aixµo es correspon amb el fet que tots els resultats s¶on igualment probables. Escrivim X » U (a; b). ² (2) Ara b¶e, l'experiµencia ens ensenya que no totes les variables aleatµories s¶on uniformes, ¶es a dir, per a una variable determinada no tots els valors tenen la mateixa probabilitat. Un cop d'ull al voltant vostre us ha de convµencer d'aquest fet: hi ha molta m¶es gent d'1,75 m d'al»caµria que de 2,20 oµ 1,45. Per tant, la variable aleatµoria `mesurar l'al»caµria d'una persona' no ¶es uniforme, i aixµo vol dir que la funci¶o de densitat d'aquesta variable aleatµoria no ¶es constant. I si ho analitzem m¶es detingudament, hi observarem un fenomen extremament habitual: hi ha un valor central de manera que la mostra tendeix a acumular-se a prop del valor central. Aixµo suggereix que la funci¶o de densitat d'aquesta variable serµa m¶es alta \al mig" que \als extrems". Una distribuci¶o fonamental que descriu © Els autors, 2003; © Edicions UPC, 2003 2.5 Exemples importants de distribucions cont¶³nues 55 molts fenµomens aleatoris, com l'exemple anterior, ¶es l'anomenada distribuci¶o normal. La variable t¶e dos parµametres, m i ¾, i la seva funci¶o de densitat ¶es: (x¡m)2 1 fX (x) = p e¡ 2¾2 : 2¼¾ La normal t¶e una grµa¯ca ben coneguda per a tothom, que s'anomena popularment `la campana de Gauss': Aquesta funci¶o estµa centrada en el punt m i ¶es m¶es punxeguda com m¶es petit ¶es el valor de ¾. M¶es endavant interpretarem aquests dos parµametres. Escrivim X » N (m; ¾). Quan m = 0 i ¾ = 1 es diu que X segueix una distribuci¶o normal tipi¯cada, i t¶e per funci¶o de densitat: x2 1 fX (x) = p e¡ 2 : 2¼ Aquesta funci¶o de densitat ¶es simµetrica respecte de l'eix x = 0. Si X » N(m; ¾), aleshores: Y = X ¡m » N (0; 1): ¾ Aquesta relaci¶o ¶es especialment u ¶til pel motiu segÄ uent. Per calcular la probabilitat que una variable aleatµoria normal N (m; ¾) prengui valors en un interval (a; b), cal calcular la integral: Z b x¡m)2 1 p ¾e 2¾2 dx: P (a < X < b) = 2¼ a Ara b¶e, la funci¶o integrant no t¶e una primitiva expressable com una combinaci¶o ¯nita de funcions elementals, i els seus valors estan tabulats: s'han de consultar en taules. Aquestes taules contenen usualment els valors de P (N · x) o P (0 · N · x) per a valors de x, on N ¶es una variable aleatµoria normal tipi¯cada. Els cµalculs s'han de referir, doncs, a aquests valors, com il¢lustra l'exemple segÄ uent: Exemple 2.6 Si X » N (3; 2), calculeu P (0 < X < 3). © Els autors, 2003; © Edicions UPC, 2003 2 56 µ VARIABLES ALEATORIES A la taula que trobareu a l'apµendix, hi ha tabulats els valors de P (0 < X < x) per a N » N (0; 1). Si X » N(3; 2), aleshores N = (X ¡ 3)=2 » N (0; 1), de manera que P (0 < X < 3) = P (0 < 2N + 3 < 3) = P (¡1:5 < N < 0) = P (0 < N < 1:5): A les taules trobem els valors P (0 < N < 1;5) = 0;4332, de manera que tamb¶e P (0 < X < 3) = 0;4332. 2 La distribuci¶o normal apareix en totes aquelles experiµencies en quµe s'observa una caracter¶³stica estad¶³stica `normal' d'una poblaci¶o. El seu primer u ¶s descrivia la distribuci¶o d'errors en una sµerie de mesuraments de la mateixa mesura (i, de vegades, fX s'anomena la funci¶o d'error). Les distribucions d'al»caµries d'individus d'una poblaci¶o, la de les quali¯cacions d'un examen, la de la intensitat d'un soroll en un canal de comunicaci¶o s¶on exemples d'experiµencies en quµe apareix aquesta distribuci¶o particular. De manera m¶es expl¶³cita, es pot dir que la distribuci¶o de la suma de n variables independents tendeix a la distribuci¶o normal quan n ¶es `gran'. Aquest enunciat imprec¶³s estµa a la base de les nombroses aplicacions de la distribuci¶o normal: en totes aquelles experiµencies que s¶on resultat d'una suma de factors aleatoris independents (per exemple, el soroll tµermic, els errors en mesuraments, etc.) apareix la distribuci¶o normal. La seva formulaci¶o precisa ¶es el que s'anomena teorema del l¶³mit central. Un exemple important el d¶ona la distribuci¶o binomial Bin(n; p), que es pot interpretar com a suma de n variables aleatµories de Bernouilli. Quan n ¶es `gran', la distribuci¶o binomial Bin(n; p) es pot aproximar b¶e per la distribuci¶o normal N (m; ¾) amb m = np p i ¾ = npq. M¶es endavant veurem el sentit d'aquesta correspondµencia de parµametres. Com a exemple, la taula segÄ uent compara alguns valors de la distribuci¶o Bin(100; 0;5) amb les de la distribuci¶o normal N (50; 5): x 35 40 45 X » Bin(100; 0;5) P (X · x) 0,0017 0,028 0,184 Y » N (50; 5) P (Y · x) 0,0013 0,023 0,158 50 55 60 65 0,539 0,864 0,982 0,999 0,5 0,841 0,977 0,998 ² (3) La distribuci¶o normal ¶es un bon model quan hi ha un valor central, de manera que els resultats de la variable es dispersen cap a ambd¶os costats d'aquest valor central. Hi ha altres exemples, com l'exemple (6) del temps d'espera d'un paquet de dades en un servidor, pels quals aixµo no passa: els valors d'aquesta variable comencen amb 0 i s'estenen per tot l'eix positiu de la recta real. A m¶es, oµbviament aquesta distribuci¶o tampoc no ¶es uniforme, sin¶o que ¶es molt m¶es probable que un paquet s'hagi d'esperar un temps curt molt proper a 0 que un temps llarg. © Els autors, 2003; © Edicions UPC, 2003 2.6 Parµ ametres estad¶³stics: valor mitjµ a i variµ ancia 57 Aix¶³ tenim que necessitem un model en el qual les probabilitats van de 0 a 1, i que les properes a 0 s¶on m¶es probables que les llunyanes. Vegem un exemple en el qual la probabilitat vagi decreixent com m¶es grans siguin els valors. L'exemple canµonic es la distribuci¶o exponencial. La seva funci¶o de densitat ¶es: fX (x) = ¸e¡¸x ; x ¸ 0: La seva grµa¯ca satisfµa les propietats que sugger¶³em. Escrivim X » Exp(¸). M¶es endavant veurem tamb¶e el signi¯cat del parµametre. La distribuci¶o exponencial apareix en moltes experiµencies en les quals mesurem el temps ¯ns que s'esdev¶e un succ¶es que ¶es aleatori en el temps. Els exemples t¶³pics s¶on: { Temps d'espera ¯ns que un usuari fa una petici¶o a un servidor. { Temps de funcionament sense avaries d'un dispositiu. { Temps perquµe una substµancia radioactiva emeti una part¶³cula. En tots aquests exemples, la variable aleatµoria exponencial apareix com a expressi¶o d'una situaci¶o l¶³mit: a petits intervals de temps, la probabilitat que passi el succ¶es que observem ¶es p, i comptem el nombre d'intervals que hem d'esperar. Es tracta, doncs, de la situaci¶ o l¶³mit d'una variable aleatµoria geomµetrica. 2.6 Parµ ametres estad¶³stics: valor mitjµ a i variµ ancia El valor mitjµa ¶es un valor que s'utilitza per tenir una idea numµerica global de la variable aleatµoria. La intuijci¶o del cµalcul del valor mitjµa prov¶e de l'estad¶³stica: si tenim una mostra de n valors , x1 ; x2 ; : : : ; xn , el seu valor mitjµa es calcula sumant-los tots i dividint per n: x¹ = x1 + x2 + ¢ ¢ ¢ + xn : n © Els autors, 2003; © Edicions UPC, 2003 2 58 µ VARIABLES ALEATORIES Per exemple, el valor mitjµa dels valors 1; 3; 4; 5; 7; 10 ¶es (1 + 3 + 4 + 5 + 7 + 10)=6 = 5. El valor mitjµa dels valors 2; 2; 2; 3; 3; 3; 3 ¶es (3=7)2 + (4=7)3, ¶es a dir, la suma de cada valor per la seva freqÄ uµencia relativa. Aixµo suggereix que, donada una variable aleatµoria, intuijtivament el valor mitjµa ha de ser igual a la suma del producte de cada valor per la seva probabilitat. Aixµ o ¶es exactament aix¶³ per una variable discreta: De¯nici¶ o 2.7 En una variable aleatµoria discreta que t¶e espai mostral S = fx1 ; x2 ; x3 ; :::g, ¯nita o in¯nita, el valor mitjµa o esperan»ca matemµatica es de¯neix com el valor: X xi P (X = xi ) E(X) = i La mitjana es denota moltes vegades amb la lletra grega ¹. Per exemple, el valor mitjµa d'una variable aleatµoria de Bernoulli X » B(p) ¶es: ¹ = E(X) = 0 ¢ P (X = 0) + 1 ¢ P (X = 1) = p: El sentit de l'esperan»ca ¶es que d¶ona el valor mitjµa dels resultats de l'experiµencia si es repeteix un nombre prou gran de vegades. Per exemple, el nombre mitjµa de cares en tirar 100 vegades ¶ el valor esperat, i es pot demostrar en el context de la teor¶³a de la una moneda ¶es 100p = 50. Es probabilitat que la probabilitat que el valor mitjµa d'una seqÄ uµencia de n tirades s'aparti del valor esperat (n=2 en el cas de tirar la moneda) tendeix a 0 quan n tendeix a 1: ¶es l'anomenada llei dels grans nombres. Exemple 2.8 La ruleta t¶e divuit nombres negres, divuit de vermells i el 0. Un joc d'aposta a la ruleta consisteix a apostar una quantitat M a roig. Si la bola cau en un nombre roig, es guanya el valor de l'aposta, si cau en un de negre o en 0, es perd. La casa guanya l'aposta nom¶es quan cau en 0. La variable aleatµoria que mesura el guany net d'un jugador t¶e, doncs, la distribuci¶o segÄ uent: P (X = M ) = 18=37; P (X = ¡M ) = 19=37: Per tant, l'esperan»ca de guany del jugador ¶es E(X) = M(18=37) + (¡M )(19=37) = ¡M=37. Aixµo vol dir que el jugador pot esperar, si juga prou vegades en apostes de 100 euros, a perdre uns 100=37 ' 2;7 euros. En canvi, per a la casa de joc, el guany net ¶es Y amb P (Y = M ) = 1=37 i P (Y = 0) = 36=37, i espera guanyar E(Y ) = M=37; el que perd el jugador ho guanya la casa. 2 Per a variables aleatµories cont¶³nues, tenint en compte que la probabilitat ve donada per la seva funci¶o de densitat, la mitjana s'ha de calcular fent la integral de la funci¶ o de densitat perµo multiplicada per x. Aixµo re°ecteix exactament la idea intuijtiva de multiplcar cada valor (x) per la seva probabilitat (la funci¶o de densitat). © Els autors, 2003; © Edicions UPC, 2003 2.6 Parµ ametres estad¶³stics: valor mitjµ a i variµ ancia 59 De¯nici¶ o 2.9 En una variable aleatµoria cont¶³nua que t¶e funci¶ o de densitat fX (x), la seva mitjana o esperan»ca matemµatica es de¯neix com el valor Z 1 E(X) = x fX (x) dx: ¡1 Per exemple, si s'escull un punt X a l'atzar a l'interval [0; 2], aleshores el valor mitjµa (la mitjana dels punts si repetim prou vegades l'experiµencia) ¶es: E(X) = Z 1 x fX (x) dx = ¡1 Z 0 2 x(1=2) dx = (1=2)(x2 =2) j20 = 1: A la taula al ¯nal de la secci¶o hi ha un resum dels valors mitjans i altres caracter¶³stiques de les distribucions usuals. L'esperan»ca no ¶es l'¶ unic valor important d'una variable aleatµoria. L'esperan»ca t¶e la caracter¶³stica que proporciona un valor central mitjµa de la variable, perµo no ens d¶ona cap informaci¶o de la dispersi¶o de la variable. Per exemple, les seqÄ uµencies ¡1; ¡1; ¡1; 1; 1; 1 i ¡10; ¡5; 0; 5; 10 tenen el mateix valor mitjµa, 0, perµo la segona t¶e els valors m¶es dispersos que la primera, que els t¶e m¶es concentrats al voltant del valor mitjµa. Una mesura de la dispersi¶o dels valors ¶es el valor mitjµa de les diferµencies entre cada valor i el valor mitjµa. Per comptar aquestes diferµencies amb independµencia del signe, el que es fa ¶es sumar les diferµencies al quadrat: per a les dues seqÄ uµencies anteriors, la dispersi¶o ¶es: (¡1)2 + (¡1)2 + (¡1)2 + 12 + 12 + 12 3 3 = (¡1)2 + (1)2 = 1; 6 6 6 (¡10)2 + (¡5)2 + 02 + 52 + 102 = 50: 5 Aixµo suggereix mesurar la dispersi¶o d'una variable aleatµoria discreta X de la manera segÄ uent, la qual cosa s'anomena la variµ ancia de X: si X pren els valors x1 ; x2 ; x3 ; : : : i t¶e esperan»ca ¹ = E(X), aleshores: X V ar(X) = (xi ¡ ¹)2 ¢ P (X = xi ): i Per exemple, si X » B(p), aleshores l'esperan»ca de X ¶es E(X) = p i, essent q = 1 ¡ p, V ar(X) = (0 ¡ p)2 P (X = 0) + (1 ¡ p)2 P (X = 1) = p2 q + q 2 p = pq(p + q) = pq: El producte pq = p(1 ¡ p) ¶es mµaxim quan p = q = 1=2: aquest ¶es el valor de p pel qual la dispersi¶o ¶es mµaxima. En canvi, per a valors de p prµoxims a zero o a 1, la dispersi¶o ¶es petita. Per exemple, si p = 0;1 el valor mitjµa ¶es 0;1 i la variµancia ¶es 0;09, mentre que per a p = q = 1=2 la variancia ¶es 0;25. © Els autors, 2003; © Edicions UPC, 2003 2 60 µ VARIABLES ALEATORIES Per a variables aleatµories cont¶³nues, el sumatori de la de¯nici¶o anterior passa a ser una integral i la funci¶o de probabilitat passa a ser la funci¶o de densitat: V ar(X) = Z 1 ¡1 (x ¡ ¹)2 ¢ fX (x) dx: 2 La variµancia s'escriu tamb¶e com ¾X o ¾ 2 . La seva arrel quadrada ¾ ¶es tamb¶e for»ca utilitzada, s'anomena desviaci¶o t¶³pica o estµandard. Els dos valors assoleixen el mateix objectiu de mesurar la dispersi¶o de la variable aleatµoria. A la prµactica se sol calcular la variµancia de la forma segÄ uent: X V ar(X) = (xi ¡ E(X))2 P (X = xi ) = i = X i x2i P (X = xi ) ¡ 2E(X) 2 X xi P (X = xi ) + E 2 (X) i 2 = E(X ) ¡ E (X): Per exemple, per a una variable X » B(p), V ar(X) = E(X 2 )¡E 2 (X) = p¡p2 = p(1¡p) = pq. El resultat ¶es igualment vµalid per a variables aleatµories cont¶³nues. La taula segÄ uent resumeix aquests valors per a les distribucions m¶es comunes: Distribuci¶o X » B(p) X » Bin(n; p) X » Geom(p) X » P oiss(¸) Funci¶o de probabilitat o densitat Esperan»ca Variµancia P (X = 0) = q¡ = p pq ¢ 1 ¡ p, P (X = 1) = p n k n¡k P (X = k) = k p q ; k = 0; 1; : : : ; n np npq k¡1 P (X = k) = pq ; k = 1; 2; 3; : : : 1=p p=q 2 k P (X = k) = ¸k! e¡¸ ; k = 0; 1; 2; : : : ¸ ¸ X » N(m; ¾) X » Exp(¸) 1 fX (x) = p2¼¾ e¡ 2¾2 fX (x) = ¸ e¡¸x; x ¸ 0 X » U(a; b) fX (x) = 1 ; b¡a x 2 (a; b) (x¡m)2 b+a 2 (b¡a)2 12 m ¾2 1 ¸ 1 ¸2 Com a darrer comentari, recordeu que hav¶³em vist dos tipus d'aproximacions de distribucions: ² Si X » Bin(n; p) amb n gran i p petita, aleshores la distribuci¶o s'aproxima a una P oiss(¸) amb ¸ = np. En altres paraules, s'aproxima per una distibuci¶o de Poisson del mateix valor mitjµa. ² Si X » Bin(n; p) amb n gran, aleshores la distribuci¶o s'aproxima per una normal N (m; ¾) p amb m = np i ¾ = npq. En altres paraules, s'aproxima per una distribuci¶o normal del mateix valor mitjµa i la mateixa desviaci¶o t¶³pica. © Els autors, 2003; © Edicions UPC, 2003 2.7 2.7 Funcions de variables aleatµ ories 61 Funcions de variables aleatµ ories Sigui X una variable aleatµoria i g : R ! R una funci¶o. L'objectiu d'aquesta secci¶o ¶es obtenir la distribuci¶o de Y = g(X) en termes de la distribuci¶o de X i g. A la ¯gura segÄ uent hi ha dos exemples grµa¯cs del problema. P (X = i) P (Y = i) 1 2 X Y =- (¡1) 1 6 1 2 3 4 5 6 i ¡1 fX (x) = e¡x 1 i fY (y) = 2e¡2y Y =- X=2 0 1 2 3 x 0 1 2 3 4 y Figura 2: Exemples de distribucions de funcions de variables aleatµ ories En el cas discret l'obtenci¶o de la funci¶o de probabilitat de Y = g(X) se sol obtenir directament. Exemple 2.10 Sigui X la variable aleatµoria que d¶ona el resultat d'un dau i g(x) = (¡1)x (que estµa ben de¯nida per a valors de x naturals). La distribuci¶o de Y = g(X) ¶es: P (Y = 1) = P (X 2 f2; 4; 6g) = 1=2; P (Y = ¡1) = P (X 2 f1; 3; 5g) = 1=2: 2 Quan X t¶e una distribuci¶o cont¶³nua i g ¶es prou regular, hi ha una manera directa d'obtenir la distribuci¶o de Y = g(X) en termes de la de Y i g. Un cas simple es presenta quan g ¶es estrictament creixent. Aleshores: FY (y) = P (Y · y) = P (g(X) · y) = P (X · g ¡1 (y)) = FX (g ¡1 (y)): Derivant la funci¶o de distribuci¶o, s'obt¶e: © Els autors, 2003; © Edicions UPC, 2003 2 62 µ VARIABLES ALEATORIES Proposici¶ o 2.11 Sigui X una variable aleatµoria amb funci¶ o de densitat fX i g : R ! R una funci¶ o derivable estrictament creixent. Aleshores: fY (y) = fX (x) ; on x = g ¡1 (y): g 0 (x) 2 En general, si g ¶es una funci¶o derivable amb una quantitat ¯nita o numerable d'extrems locals, i Y = g(X), aleshores: X fX (y) : fg(X) (t) = 0 (y)j jg ¡1 y2g (t) Exemple 2.12 Sigui X una variable aleatµoria amb distribuci¶o Exp(¸) i Y = 2X. Aleshores: fY (y) = fX (y=2)=2 = ¸=2e¡¸y=2 ; y ¸ 0; de manera que la distribuci¶o de Y ¶es Exp(¸=2). 2 Tamb¶e es pot obtenir `directament' l'esperan»ca de Y = g(X) en termes de la distribuci¶o de X i g. Teorema 2.13 Sigui X una variable aleatµ oria i g : R ! R. Aleshores: ½ P g(xk )P (X = xk ) si X es discreta i pren els valors x1 ; x2 ; : : : ; xk ; : : : E(g(X)) = R 1k g(x)fX (x)dx si X t¶e funci¶ o de densitat ¡1 (sempre que la sµerie o la integral siguin convergents). 2 En particular, la f¶ormula anterior permet escriure: ½ P r x P (X = xk ) si X es discreta i pren els valors x1 ; x2 ; : : : ; xk ; : : : r E(X ) = R 1k kr x fX (x)dx si X t¶e funci¶o de densitat ¡1 E(X r ) s'anomena el moment d'ordre r de la variable aleatµoria X. Si X t¶e valor mitjµa m = E(X), aleshores: ½ P (x ¡ m)r P (X = xk ) si X es discreta i pren els valors x1 ; x2 ; : : : r E((X ¡ m) ) = R 1k k (x ¡ m)r fX (x)dx si X t¶e funci¶o de densitat fX ¡1 E((X ¡ m)r ) s'anomena el moment centrat d'ordre r de la variable aleatµoria X. En particular, la variµancia de X ¶es el moment centrat de segon ordre: V ar(X) = E((X ¡ m)2 ) = E(X 2 ) ¡ (E(X))2 : © Els autors, 2003; © Edicions UPC, 2003 2.8 Exercicis i problemes 63 Exemple 2.14 A l'exemple 2.12 es pot obtenir l'esperan»ca de Y com E(Y ) = o b¶e directament, ja que Y = 2X, com: Z 1 Z 1 E(Y ) = 2xfX (x)dx = 2xe¡x dx = 2: ¡1 R1 ¡1 yfY (y)dy 0 2 Per al cas particular que Y = aX + b, tenim: E(Y ) = E(aX + b) = aE(X) + b: V ar(Y ) = E((aX + b)2 ) ¡ (E(aX + b))2 = a2 V ar(X); ¶es a dir, les transformacions a¯ns de variables aleatµories es tradueixen en la mateixa transformaci¶o del valor mitjµa. En canvi, la variancia ¶es invariant per a translacions (la dispersi¶o no queda afectada si traslladem els valors). Per exemple, si X » N (m; ¾), aleshores E( X¡m )=0 ¾ i V ar(Y ) = 1, tal com vam veure. 2.8 Exercicis i problemes 2.8.1 Exercicis 1. Sigui N un nombre escollit a l'atzar en el conjunt f¡1; 0; 1; 2; 3g. Es considera la variable aleatµoria X = 12 N 2 . Dibuixeu la funci¶o de distribuci¶o de X i utilitzeu-la per calcular les probabilitats dels esdeveniments segÄ uents: a) X · 0 b) 2 < X · 3 c) x ¸ 2 2. Refeu el problema anterior per a X = 4 cos ¼N . 4 3. Es considera la funci¶o de densitat: fX (x) = xe¡x u(x) on u(x) ¶es la funci¶o de Heaviside. Trobeu la funci¶o de distribuci¶o FX i calculeu: a) P (X · 1) b) P (1 < X · 2) c) P (X ¸ 2). © Els autors, 2003; © Edicions UPC, 2003 2 64 µ VARIABLES ALEATORIES 4. Sigui X una variable aleatµoria que pren els valors f1; 2; 3g amb distribuci¶o P (X = 1) = 0;3, P (X = 2) = 0;5 i P (X = 3) = 0;2, i considerem la nova variable aleatµoria Y = Á(X). a) Calculeu E(X), la variµancia i la desviaci¶o t¶³pica de X. b) Si Á(x) = x3 , calculeu la distribuci¶o de probabilitat de la variable Y i tamb¶e la mitjana, la variµancia i la desviaci¶o t¶³pica. 2.8.2 Problemes per fer 1. Una urna cont¶e tres boles blanques i cinc de negres. Es treu una bola, es mira el color i es torna a dipositar a l'urna. a) Quina ¶es la probabilitat que en vuit extraccions surtin exactament cinc boles negres. b) Quµe ¶es m¶es probable, que surtin cinc boles negres o m¶es, o que en surtin menys de cinc?. 2. Es tiren deu monedes no trucades; quina ¶es la probabilitat que el nombre de cares que surtin sigui menor o igual que tres? Repetiu el mateix problema amb monedes trucades de manera que P (cara) = 35 . 3. Un servidor at¶en una petici¶o amb probabilitat p = 0;8 independentment de les altres. Quan un usuari no ¶es atµes, torna a formular la petici¶o. Quina ¶es la probabilitat que hagi de fer la petici¶o m¶es de tres vegades? 4. El nombre de trucades que arriben a un node de comunicaci¶o en un segon segueix una distribuci¶o de Poisson P oiss(2). El node nom¶es pot processar un mµaxim de cinc trucades per segon i la resta les perd. Quina ¶es la probabilitat que en un segon hi hagi alguna trucada perduda. Quina ¶es la distribuci¶o de probabilitat del nombre de trucades perdudes. 5. La probabilitat que un canal de transmissi¶o transmeti un d¶³git erroni ¶es 0;01, independentment dels altres. Calculeu la probabilitat que hi hagi m¶es d'un error en deu d¶³gits rebuts. Repetiu aquest cµ alcul utilitzant l'aproximaci¶o de Poisson. 6. En un control de qualitat s'extreuen mostres de 10 unitats d'un lot de 1:000. Si la mostra t¶e m¶es de 2 unitats defectuoses, la mostra es declara defectuosa. Sigui o no defectuosa, es torna la mostra al lot i se n'extreu una altra, tamb¶e de 10 unitats. Quina ¶es la probabilitat que en 10 mostres del mateix lot en surtin almenys 8 de defectuoses si en el lot hi ha 100 unitats defectuoses. © Els autors, 2003; © Edicions UPC, 2003 2.8 Exercicis i problemes 65 7. Una variable aleatµoria discreta pren els k valors possibles i equiprobables segÄ uents: 0; a; 2a; ¢ ¢ ¢ ; (k ¡ 1)a: Calculeu-ne la mitjana, el moment d'ordre dos i la desviaci¶o estµandard. 8. La intensitat d'un senyal ¶es una variable aleatµoria X amb funci¶o de densitat: 1 fX (x) = e¡jxj 2 Trobeu la funci¶o distribuci¶o FX i calculeu: a) P (X · 0) b) P (0 < X · 1) c) P (X > 1). 9. Una variable aleatµoria t¶e la funci¶o de distribuci¶o segÄ uent: 8 < 0 si x · 0 Kx2 si 0 < x · 10 FX (x) = : 100K si x > 10 a) Calculeu el valor de K. b) Trobeu P (X · 5) i P (5 < X · 7). c) Representeu la funci¶o de densitat fX (x). 10. El temps d'espera T ¯ns que arriba un usuari a un servidor segueix una llei exponencial Exp(2) per a una determinada unitat de temps. Calculeu: a) P (T < 2), P (T > 3) i P (2 < T < 3). b) P (T > 5jT > 2). 11. Si X ¶es una variable aleatµoria normal N (10; 500), calculeu P (X > 20), P (10 < X · 20), P (0 < X · 20) i P (X > 0) (feu servir les taules de la distribuci¶o normal). 12. Un voltatge determinat es pot modelar com una variable aleatµoria normal N(0; 9). Determineu el valor de c de manera que p = P (j X j< c) valgui: a) p = 0;9. b) p = 0;99. 13. La demanda mensual d'ordinadors al centre comercial COMPC es troba aproximada per una variable aleatµoria normal amb ¹ = 200 i una desviaci¶o estµandard de 40 unitats. Quina grandµaria ha de tenir l'inventari disponible a principi de mes perquµe la probabilitat que les existµencies s'esgotin no sigui m¶es gran que 0;05? © Els autors, 2003; © Edicions UPC, 2003 2 66 µ VARIABLES ALEATORIES 14. El diµametre d'una determinada pe»ca que s'utilitza per a la fabricaci¶o d'avions es troba, de manera aproximada, distribuijt normalment com N (3;5; 0;02). Si el diµametre no pot ser m¶es petit que 3;47 ni m¶es gran que 3;53, quin ¶es el percentatge de peces que s'hauran de llan»car? 15. Si la vida X d'un tipus de bateria per a un cotxe estµa normalment distribuijda amb un valor mitjµa m = 4 anys i una desviaci¶o estµandard ¾ = 1 any, i el fabricant d¶ona una garantia de 3 anys (si la bateria s'espatlla abans que s'acabi la garantia, el fabricant ha de substituir la bateria) a) quin tant per cent de bateries haurµa de substituir el fabricant? b) si nom¶es vol substituir un 2; 28% de bateries, quina garantia caldrµa que doni? 16. Una variable aleatµoria binomial es pot aproximar per una normal quan n ¶es `gran', amb el mateix valor mitjµa i la mateixa variµancia. Es llan»ca una moneda cent vegades. Feu servir l'aproximaci¶o normal per calcular la probabilitat que: a) Surtin m¶es de seixanta cares. b) El nombre de cares obtingudes sigui m¶es gran que quaranta i m¶es petit que seixanta. 17. El nombre d'accidents per setmana en una cruijlla de la N-II segueix una distribuci¶o de Poisson de parµametre 4. Fent servir l'aproximaci¶o de la normal calculeu la probabilitat que hi hagi menys de 200 accidents en un any. 18. En un joc es llancen tres daus. El jugador aposta n euros per un n¶ umero i rep 2n euros si surt una vegada aquest n¶ umero, 3n si surt dues vegades i 4n si surt 3 vegades. Si no surt el n¶ umero apostat, perd l'aposta. Quµe ¶es millor, apostar o fer de banca? 19. El passeig aleatori unidimensional es pot descriure de la manera segÄ uent: Un home begut camina per una vorera molt estreta fent passes de longitud constant igual a L. Fa una passa endavant amb una probabilitat p = 34 o endarrere amb una probabilitat 1 ¡ p = 14 . Denotem X la distµancia del punt on estµa despr¶es de fer cent passes des del punt de sortida. Calculeu la mitjana i la desviaci¶o estµandard de X. 20. Sigui X una variable aleatµ p oria binomial X » Bin(8; 0;5). Doneu la distribuci¶o de probabilitat de Y = (X ¡ 4)= 2. Calculeu-ne el valor mitjµa i la seva variµancia. 21. Sigui X una variable aleatµoria exponencial Exp(1). Sigui h(x) = dxe, on dxe denota el m¶³nim enter m¶es gran o igual que x (per exemple, d3:4e = 4). Doneu la distribuci¶o de probabilitat de Y = h(X). 22. Sigui X una variable aleatµoria uniformement distribuijda sobre l'interval [¡1; 3]. Trobeu i representeu la funci¶o de densitat de la nova variable Z de¯nida en els casos segÄ uents per: p a) Z = 3 X + 1. b) Z = 3 j X j. © Els autors, 2003; © Edicions UPC, 2003 2.8 Exercicis i problemes 67 23. Es considera una variable aleatµoria X amb funci¶o de densitat: fX (x) = 2e¡2x u(x) a) Calculeu la funci¶o de densitat d'una nova variable aleatµoria Z de¯nida per Z = 3X ¡5. b) Representeu sobre els mateixos eixos els grµa¯cs de les dues funcions de densitat. 24. Sigui X una variable aleatµoria de valor mitjµa m i desviaci¶o t¶³pica ¾. Calculeu el valor mitjµa i la desviaci¶o t¶³pica de Y = (X ¡ m)=¾. 25. Sigui X una variable aleatµoria normal N(m; ¾). a) Determineu la distribuci¶o de probabilitat de Y = aX + b, on a; b 2 R. a) Si m = 0 i ¾ = 1, determineu la funci¶o de densitat de Y = X 2 . (La distribuci¶o corresponent s'anomena Â2 amb un grau de llibertat, i ¶es freqÄ uent en estad¶³stica.) © Els autors, 2003; © Edicions UPC, 2003 © Els autors, 2003; © Edicions UPC, 2003 69 3 Vectors aleatoris 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. Vectors aleatoris. Funci¶o de distribuci¶o de probabilitat Distribucions bidimensionals discretes Distribucions bidimensionals cont¶³nues Variables aleatµories independents Distribucions condicionades Distribuci¶o de la suma de dues variables aleatµories Parµametres estad¶³stics: covariµancia i correlaci¶o 3.7.1. Distribuci¶o normal multidimensional 3.8. Exercicis i problemes Els vectors aleatoris, o variables aleatµ ories multidimensionals, identi¯quen esdeveniments amb una col¢lecci¶ o de n¶ umeros (vectors). Aquest constitueix el marc natural per tractar problemes d'estad¶³stica i processos aleatoris. A m¶es, en aquest context es poden introduir les nocions fonamentals d'independµencia i condicionament entre variables aleatµ ories. Entre els parµ ametres estad¶³stics de vectors aleatoris, s'introdueixen les nocions de covariµ ancia i el coe¯cient de correlaci¶ o, lligats als problemes d'estimaci¶ o estad¶³stica. 3.1 Vectors aleatoris. Funci¶ o de distribuci¶ o de probabilitat. Un vector aleatori n-dimensional ¶es una n-tupla X = (X1 ; : : : ; Xn ) on cada cada component ¶es una variable aleatµoria unidimensional. © Els autors, 2003; © Edicions UPC, 2003 3 70 VECTORS ALEATORIS Per exemple, si tirem tres vegades una moneda i observem el resultat de les tres tirades, l'experiµencia es pot descriure pel vector aleatori X = (X1 ; X2 ; X3 ), on Xi val 0 si surt cara a la tirada i i val 1 si hi surt creu, i = 1; 2; 3. Els possibles valors del vector X s¶on: (0; 0; 0); (0; 0; 1); (0; 1; 0); (0; 1; 1); (1; 0; 0); (1; 0; 1); (1; 1; 0); (1; 1; 1); cadascun dels quals t¶e probabilitat 1=8. En endavant ens restringirem per simplicitat a les variables bidimensionals. Les de¯nicions i els resultats s'estenen fµacilment a vectors de m¶es dimensions. Com en el cas unidimensional, la distribuci¶o de probabilitat s'identi¯ca per mitjµa de la funci¶o de distribuci¶o: Sigui (X; Y ) un vector aleatori. La seva funci¶ o de distribuci¶ o (de probabilitat) ¶es: FXY : R2 ! R; de¯nida com: FXY (x; y) = P (X · x; Y · y); ¶ a dir, la funci¶o de on (X · x; Y · y) ¶es una notaci¶o abreujada de fX · xg \ fY · yg. Es probabilitat en un punt (x; y) del pla d¶ona la probabilitat de tots els valors del vector (X; Y ) inclosos a la regi¶o ratllada de la ¯gura 3: r (x; y) Figura 3: FXY (x; y) ¶es la probabilitat dels valors de (X; Y ) en l'µarea ombrejada Cadascuna de les funcions de distribuci¶o FX ; FY dels components de (X; Y ) s'anomena funci¶ o de distribuci¶ o marginal, i FXY ¶es la funci¶ o de distribuci¶ o conjunta de les variables X; Y . Per obtenir la distribuci¶o marginal de X a partir de la distribuci¶o conjunta FXY , tenim: FX (x) = P (X · x) = P (X · x; Y · 1) = lim FXY (x; y) = FXY (x; 1): y!1 © Els autors, 2003; © Edicions UPC, 2003 3.1 Vectors aleatoris. Funci¶ o de distribuci¶ o de probabilitat. 71 En canvi, a partir de les distribucions marginals FX i FY no sempre es pot obtenir la funci¶o de distribuci¶o conjunta (vegeu m¶es endavant les seccions d'independµencia i distribucions condicionades). Exemple 3.1 Tenim una urna amb dues boles blanques i tres boles negres. Traiem dues boles a l'atzar i denotem X la variable aleatµoria que compta el nombre de boles blanques que extraiem i Y el nombre de boles negres. Aleshores, la funci¶o de distribuci¶o del vector (X; Y ), o distribuci¶o conjunta de les dues variables, estµa donada a la taula segÄ uent: Y nX 0 1 2 0 1 2 0 0 3/10 0 6/10 6/10 1/10 7/10 1 A la posici¶o (i; j) de la taula hi ha FXY (i; j) = P (X · i; Y · j). Per exemple: ¡2¢¡3¢ ¡2¢¡3¢ 7 FXY (1; 2) = P (X · 1; Y · 2) = P (X = 1; Y = 1) + P (X = 0; Y = 2) = 1¡5¢1 + 2¡5¢0 = : 10 2 2 La distribuci¶o marginal de X en el punt 1 ¶es: FX (1) = FXY (1; 1) = P (X · 1; Y < 1) = P (X · 1; Y · 2) = FXY (1; 2) = 7=10: La funci¶o de distribuci¶o marginal de X ¶es 8 0 > > < 1=10 FX (x) = 7=10 > > : 1 x<0 0·x<1 1·x<2 2·x 2 Com en el cas unidimensional, la funci¶o de distribuci¶o conjunta FXY permet obtenir la probabilitat que les dues variables aleatµories X i Y prenguin valors en un rectangle. Si R ¶es un rectangle de vµertexs (x1 ; y1 ); (x1 ; y2 ); (x2 ; y1 ); (x2 ; y2 ), on x1 < x2 i y1 < y2 , aleshores (comproveu-ho grµa¯cament): P (x1 < X · x2 ; y1 < Y · y2 ) = FXY (x2 ; y2 ) ¡ FXY (x2 ; y1 ) ¡ FXY (x1 ; y2 ) + FXY (x1 ; y1 ): La funci¶o de distribuci¶o t¶e l'avantatge d'estar de¯nida per qualsevol vector aleatori. A la prµactica, perµo, per a vectors els components del qual s¶on tots variables aleatµories discretes o tots cont¶³nues, resulta m¶es cµomode fer servir altres descripcions de la distribuci¶o de probabilitat, com veurem a continuaci¶o. © Els autors, 2003; © Edicions UPC, 2003 3 72 3.2 VECTORS ALEATORIS Distribucions bidimensionals discretes Un vector aleatori (X; Y ) ¶es discret si ho ¶es casdascun dels seus components X; Y . Si la variable X prµen els valors fa1 ; a2 ; a3 ; : : : g i la variable Y els valors fb1 ; b2 ; b3 ; : : : g, la funci¶o de probabilitat conjunta del vector aleatori discret (X; Y ) ¶es la aplicaci¶o: PXY (ai ; bj ) = P (X = ai ; Y = bj ); on la notaci¶o (X = ai ; Y = bj ) ¶es la descripci¶o abreujada del succ¶es fX = ai g \ fY = bi g. La funci¶o de probabilitat de cada una de les variables X i Y s'anomena tamb¶e funci¶o de probabilitat marginal de PXY . Per obtenir-les de la distribuci¶o conjunta: X PXY (X = ai ; Y = bj ); i = 1; 2; : : : P (X = ai ) = [j¸1 P (X = ai ; Y = bj ) = j¸1 P (Y = bj ) = [i¸1 P (X = ai ; Y = bj ) = X PXY (X = ai ; Y = bj ); j = 1; 2; : : : i¸1 Exemple 3.2 Tenim una urna amb quarte boles blanques, tres de negres i una de vermella. Traiem dues boles i denotem X la variable aleatµoria que compta el nombre de boles blanques a la mostra i Y el nombre de boles negres. La funci¶o de probabilitat conjunta de X i Y ¶es: XnY 0 1 2 0 1 2 0 3=28 3=28 4=28 12=28 0 6=28 0 0 i la distribuci¶o marginal de X ¶es: P (X = 0) = P (X = 0; Y = 0) + P (X = 0; Y = 1) + P (X = 0; Y = 2) = 6=28 P (X = 1) = P (X = 1; Y = 0) + P (X = 1; Y = 1) + P (X = 2; Y = 2) = 16=28 P (X = 3) = P (X = 3; Y = 0) + P (X = 3; Y = 1) + P (X = 3; Y = 2) = 6=28 2 L'exemple m¶es important de distribuci¶o bidimensional discreta ¶es la distribuci¶o trinomial. El model probabil¶³stic d'aquesta distribuci¶o ¶es una generalitzaci¶o del model binomial. Aqu¶³ tenim tres esdeveniments, A1 ; A2 i A3 , que formen una partici¶o de l'espai mostral, amb probabilitats p1 = P (A1 ); p2 = P (A2 ) i p3 = P (A3 ) = (1 ¡ p2 ¡ p3 ). Repetim n vegades independentment l'experiµencia associada a l'espai mostral i denotem X1 el nombre de vegades que apareix A1 © Els autors, 2003; © Edicions UPC, 2003 3.3 Distribucions bidimensionals cont¶³nues 73 i X2 el nombre de vegades que apareix A2 . La resta, n ¡ X1 ¡ X2 , ¶es el nombre de vegades que apareix A3 . La distribuci¶o conjunta de X1 i X2 ¶es la que s'anomena distribuci¶o trinomial. Amb un argument similar al que proporciona la funci¶o de probabilitat de la variable aleatµoria binomial obtenim: P (X1 = n1 ; X2 = n2 ) = n! pn1 pn2 (1 ¡ p1 ¡ p2 )n¡n1 ¡n2 ; 0 · n1 + n2 · n: n1 !n2 !(n ¡ n1 ¡ n2 )! 1 2 Escrivim (X1 ; X2 ) » T rin(n; p1 ; p2 ). Exemple 3.3 A cada cop de rellotge un processador pot estar en un dels estats segÄ uents: E1 en repµos, E2 en processament intern i E3 accedint a memµoria. Estµa en repµos amb probabilitat p1 = 0;5 i en processament intern amb probabilitat p2 = 0;2 independentment del seu estat en altres instants. Quina ¶es la probabilitat que en 10 cops de rellotge estigui 3 vegades en processament intern i 4 en repµos? Tenim (X1 ; X2 ) » T rin(n; p1 ; p2 ), on X1 compta el nombre de vegades que el processador estµ a en repµos i X2 el nombre de vegades que estµa en processament intern. Aleshores: P (X1 = 4; X2 = 3) = 10! (0;5)4 (0;2)3 (0;3)3 ' 0;0567: 3!4!3! 2 Si (X1 ; X2 ) » T rin(n; p1 ; p2 ) aleshores cadascuna de les distribucions marginals segueix una llei binomial: X1 compta el nombre d'ocurrµencies de A1 en n repeticions independents, de manera que X1 » Bin(n; p1 ). De forma semblant, X2 » Bin(n; p2 ). 3.3 Distribucions bidimensionals cont¶³nues Un vector aleatori (X; Y ) ¶es continu si ho s¶on els seus components, X i Y . Com en el cas unidimensional, les distribucions cont¶³nues s'identi¯quen normalment amb la funci¶o de densitat. Si la funci¶o de distribuci¶o conjunta ¶es dues vegades derivable, aleshores la funci¶o de densitat conjunta de X i Y ¶es: @ 2 FXY fXY (x; y) = (x; y): @x@y Rec¶³procament, si es disposa de la funci¶o de densitat conjunta fXY , aleshores la funci¶o de distribuci¶o s'obt¶e com: Z x Z y FXY (x; y) = fXY (u; v) dv du: ¡1 ¡1 © Els autors, 2003; © Edicions UPC, 2003 3 74 En particular, se satisfµa: Z 1 ¡1 Z 1 VECTORS ALEATORIS fXY (u; v) dv du = 1: ¡1 Qualsevol funci¶o integrable f : R2 ! R de dues variables que satisfaci: ² f(x; y) ¸ 0 per a tot (x; y) 2 R2 i R1 R1 ² ¡1 ¡1 f (x; y) dy dx = 1 ¶es la funci¶o de densitat d'un vector aleatori bidimensional. En general, quan es disposa de la funci¶o de densitat conjunta de X i Y , les probabilitats es poden obtenir per integraci¶o: Z a2 Z b2 P (a1 < X < a2 ; b1 < Y < b2 ) = fXY (x; y) dy dx: a1 b1 Si R ¶es qualsevol regi¶o mesurable del pla (¶es a dir, que es pugui integrar sobre aquesta regi¶o), aleshores: ZZ P ((X; Y ) 2 R) = fXY : R D'aquesta manera, la funci¶o de densitat permet obtenir per integraci¶o la probabilitat que el vector aleatori (X; Y ) prengui valors en R. Exemple 3.4 Escollim un punt a l'atzar al triangle T de vµertexs (0; 0); (1; 0) i (0; 1). Denotem (X; Y ) les coordenades del punt que hem obtingut. Com que tots els punts del triangle tenen la mateixa probabilitat, la densitat de probabilitat ¶es constant en el triangle, ¶es a dir: ½ k (x; y) 2 T fXY = 0 (x; y) 6 2T RR on k ¶es una constant. Com que R2 fXY ha de valer 1, i aquesta integral val k ¢ Area(T ), ha de ser k = 2. La probabilitat que el punt que hem escollit tingui una abscissa m¶es petita que 1=2 i una ordenada m¶es gran que 1=2, per exemple, es pot obtenir integrant en la regi¶o corresponent la funci¶o de densitat: Z 1=2 Z 1 P (X < 1=2; Y > 1=2) = fXY (x; y) dx dy = = Z x=¡1 y=1=2 1=2 Z 1¡x 2 dx dy = 2 x=0 y=1=2 (Comproveu amb un dibuix els l¶³mits d'integraci¶o.) © Els autors, 2003; © Edicions UPC, 2003 Z 1=2 x=0 (1=2 ¡ x)dx = 1=4; 2 3.3 Distribucions bidimensionals cont¶³nues 75 Cadascuna de les funcions de densitat dels components de (X; Y ) s'anomena densitat marginal de fXY . Les funcions de densitat marginals es poden obtenir de fXY fent: Z 1 Z 1 fXY (x; y) dy; fY (y) = fXY (x; y) dx: fX (x) = ¡1 ¡1 En canvi, en general les funcions de densitat marginal no permeten obtenir la densitat conjunta. Exemple 3.5 Seguint amb l'exemple anterior de la distribuci¶ o de les coordenades d'un punt escollit a l'atzar en el triangle T , la densitat marginal de X ¶es: Z 1 Z 1¡x fX (x) = fXY (x; y) dy = 2dy = 2y j1¡x 0 = 2(1 ¡ x); x 2 (0; 1): ¡1 0 Observeu que els l¶³mits d'integraci¶o depenen del valor de la variable x: per a cada x 2 (0; 1), la funci¶o de densitat nom¶es ¶es diferent de 0 per a valors de y entre 0 i 1 ¡ x. De manera similar, la distribuci¶o de Y ¶es: Z 1 Z 1¡y fY (y) = fXY (x; y) dx = 2dy = 2x j1¡y 0 = 2(1 ¡ y); y 2 (0; 1): ¡1 0 2 Les distribucions de probabilitat cont¶³nues bidimensionals m¶es comunes s¶on: ² Distribuci¶o uniforme en una regi¶o R del pla, (X; Y ) » U (R). La seva funci¶o de densitat ¶es constant a la regi¶o. Com que la integral sobre tot el pla de fXY ha de ser 1, aleshores: ½ 1 (x; y) 2 R Area(R) fXY (x; y) = 0 (x; y) 6 2 R: Aquesta distribuci¶o equival a prendre un punt a l'atzar a la regi¶o R. L'exemple 3.5 anterior n'¶es un de distribuci¶o uniforme. ² Distribuci¶o normal bidimensional, (X; Y ) » N (m; K). Aquesta distribuci¶o ¶es la generalitzaci¶o de la normal unidimensional. En particular, les distribucions marginals de X i de Y s¶on normals. Els parµametres de la distribuci¶o s¶on m = (E(X); E(Y )) i K ¶es una matriu quadrada que t¶e per entrades parµametres estad¶³stics del vector (X; Y ), que veurem en una secci¶o posterior. En aquella secci¶o analitzarem la distribuci¶o normal amb m¶es detall. © Els autors, 2003; © Edicions UPC, 2003 3 76 3.4 VECTORS ALEATORIS Variables aleatµ ories independents La noci¶o d'independµencia de successos es trasllada de forma natural a la independµencia de variables aleatµories. Dues variables aleatµories X; Y s¶on independents si els successos `X pren valors al conjunt A' i `Y pren valors al conjunt B' s¶on independents per a qualsevol tria de A i B. En altres paraules, la probabilitat que una d'elles prengui determinats valors no s'altera pels valors que prµen l'altra. De forma m¶es precisa, les variables aleatµories X i Y s¶on independents si: FXY (x; y) = FX (x)FY (y): De forma equivalent, la funci¶o de probabilitat conjunta ¶es el producte de funcions de probabilitat marginals: P (X = ai ; Y = bj ) = P (X = ai )P (Y = bj ) si les variables s¶on discretes, i la funci¶o de densitat conjunta ¶es producte de funcions de densitat marginals si s¶on cont¶³nues: fXY (x; y) = fX (x)fY (y): Nom¶es quan hi ha independµencia es pot obtenir la distribuci¶o conjunta de les distribucions marginals. Si no hi ha independµencia, aleshores les distribucions conjuntes depenen de les marginals i de la relaci¶o de dependµencia entre les dues variables. Exemple 3.6 Tirem un dau dues vegades i denotem X el nombre de resultats parells que obtenim. Denotem Y el nombre de resultats inferiors a 5 que obtenim. Tenim: XnY 0 1 2 P(Y=j) 0 1/36 2/36 1/36 4/36 1 2 P(X=i) 4/36 4/36 9/36 8/36 8/36 18/36 4/36 4/36 9/36 16/36 16/36 Com podem comprovar, per a cada parell de valors i; j, tenim P (X = i; Y = j) = P (X = i)P (Y = j), de manera que les dues variables s¶on independents. 2 Exemple 3.7 Tirem un dau i denotem X la variable aleatµoria que val 1 si el resultat ¶es parell i 0 si ¶es senar. Denotem Y la variable aleatµoria que val 1 si la puntuaci¶o ¶es m¶es gran que 1 i val 0 altrament. La funci¶o de probabilitat conjunta de les dues variables ¶es: P (X P (X P (X P (X = 0; Y = 0; Y = 1; Y = 1; Y = 0) = 1) = 0) = 1) = 1=6; = 1=3; = 0; = 1=2: © Els autors, 2003; © Edicions UPC, 2003 3.5 Distribucions condicionades 77 Les funcions de probabilitat marginals de X i de Y s¶on: P (X = 0) = P (X = 1) = 1=2; P (Y = 0) = 1=6; P (Y = 1) = 5=6: Per tant, P (X = 0; Y = 0) 6 = P (X = 0)P (Y = 0) i les dues variables no s¶on independents. Si sabem que el resultat ¶es m¶es gran que 1 (Y = 1), la probabilitat que sigui parell ¶es m¶es gran que no pas si no ho ¶es (Y = 0). 2 Exemple 3.8 Sigui (X; Y ) un vector aleatori que segueix una distribuci¶o T rin(10; 0;3; 0;2). Si X = 10 aleshores for»cosament Y = 0, ¶es a dir, P (Y = 0jX = 10) = 1. En canvi, si X = 0 aleshores P (Y = 0jX = 0) = ( 0;5 )10 6 = 1. Per tant, els valors de X alteren les probabilitats que 0;7 Y = 0 i les dues variables no s¶on independents. 2 Exemple 3.9 Siguin (X; Y ) les coordenades d'un punt triat a l'atzar al rectangle R = [0; 1] £ = R). [0; 1]. La funci¶o de distribuci¶o conjunta ¶es fXY (x; y) = 1 per a (x; y) 2 R (i 0 per a (x; y) 2 Les distribucions marginals s¶on fX (x) = 1; x 2 [0; 1] i fY (y) = 1; y 2 [0; 1]. Per tant, fXY (x; y) = fX (x)fY (y) en tots els punts i les dues variables s¶on independents. 2 3.5 Distribucions condicionades Quan dues variables aleatµories (X; Y ) no s¶on independents, la relaci¶o de dependµencia queda determinada per la distribuci¶ o condicionada. Si les variables s¶on discretes, la funci¶o de probabilitat de X condicionada a Y ¶es: PXjY (ai jbj ) = P (X = ai jY = bj ) = P (X = ai ; Y = bj ) ; P (Y = bj ) si P (Y = bj ) 6 = 0: La funci¶o de probabilitat condicionada ¶es una probabilitat i, per tant, satisfµa totes les propietats d'una probabilitat. Per exemple, si P (Y = b) 6 = 0: P (X = ajY = b) = 1 ¡ P (X 6 = ajY = b) P (X · ajY = b) · P (X · a + 1jY = b) P (X < 1jY = b) = 1 P (X < ¡1jY = b) = 0: © Els autors, 2003; © Edicions UPC, 2003 3 78 VECTORS ALEATORIS Tractant-se d'una probabilitat condicionada, satisfµa tamb¶e la f¶ormula de la probabilitat total, que en llenguatge de variables aleatµories s'escriu: X P (X = xk ) = P (X = xk jY = yj )P (Y = yj ); j¸0 si la variable Y pren els valors y1 ; y2 ; : : : . Exemple 3.10 Tornant a l'exemple 3.7, la funci¶o de probabilitat de X condicionada a Y = 0 ¶es: P (X = 0; Y = 0) P (X = 0jY = 0) = = 1: P (Y = 0) Com que la probabilitat condicionada ¶es tamb¶e una probabilitat, P (X = 1jY = 0) = 1¡P (X = 0jY = 0) = 0. Observeu, en canvi, que P (X = 0jY = 0) + P (X = 0jY = 1) = 1 + 2=5 6 = 1. 2 Exemple 3.11 El nombre X de peticions que arriben a un servidor per minut segueix una distribuci¶o de Poisson de valor mitjµa 5. Cada petici¶o es cursa correctament amb probabilitat p = 0;8 independent de les altres. Quina ¶es la distribuci¶o de probabilitat del nombre Y de peticions cursades correctament en un minut? En aquesta situaci¶o, si coneixem el nombre X = m de peticions que arriben al servidor, aleshores el nombre Y jX = m de peticions cursades correctament segueix una distribuci¶o binomial Bin(m; p): µ ¶ m k P (Y = kjX = m) = p (1 ¡ p)m : k D'acord amb l'equaci¶o anterior: µ ¶ ¸m m k P (X = m; Y = k) = P (Y = kjX = m)P (X = m) = p (1 ¡ p)m e¡¸ ; k m! d'on, per a k ¸ 0 (tenint en compte que P (X = m; Y = k) = 0 si m < k i el desenvolupament en sµerie de potµencies de la funci¶o exponencial): X X m! ¸m P (Y = k) = P (X = m; Y = k) = pk (1 ¡ p)m¡k e¡¸ k!(m ¡ k)! m! m¸0 m¸k = 1 k k ¡¸ X (1 ¡ p)m¡k ¸m¡k p ¸ e k! (m ¡ k)! m¸k 1 1 (p¸)k e¡¸ e(1¡p)¸ = (p¸)k e¡¸p : k! k! De manera que obtenim el resultat segons com natural que Y segueix una distribuci¶o de Poisson amb valor mitjµa ¸p = 5(0;8) = 4. 2 = © Els autors, 2003; © Edicions UPC, 2003 3.5 Distribucions condicionades 79 Si les dues variables s¶on cont¶³nues, la densitat de X condicionada a Y = y ¶es: fXjY (xjy) = fXY (x; y) ; si fY (y) 6 = 0: fY (y) Exemple 3.12 Considerem la variable aleatµoria bidimensional (X; Y ) amb distribuci¶o uniforme al triangle T de vµertexs (0; 0); (1; 0); (0; 1). La funci¶o de densitat conjunta i les densitats marginals s¶on: ½ 2 (x; y) 2 T fXY (x; y) = 0 (x; y) 6 2T ½ 2(1 ¡ x) x 2 [0; 1] fX (x) = 0 x6 2 [0; 1] ½ 2(1 ¡ y) y 2 [0; 1] fY (y) = 0 y6 2 [0; 1] La distribuci¶o de X condicionada a Y = 1=4 ¶es: fXY (x; 1=4)) fXjY (xj1=4) = = fY (1=4) ½ 4=3 x 2 [0;3=4] 0 x2 6[0;3=4] i la probabilitat que X · 1=2 si Y = 1=4 ¶es: P (X · 1=2jY = 1=4) = Z 1=2 fXjY (xj1=4)dx = x=¡1 Z 1=2 4=3dx = 2=3: x=0 2 De les relacions anteriors es pot obtenir la distribuci¶o conjunta quan es coneixen les marginals i les condicionades: fXY (x; y) = fXjY (xjy)fY (y); i, en particular, es pot obtenir la densitat marginal de X a partir de la densitat condicionada fXjY , i la densitat de fY de Y en una expressi¶o que es pot interpretar com la versi¶o cont¶³nua de la f¶ormula de la probabilitat total: Z 1 Z 1 fX (x) = fXY (x; y)dy = fXjY (xjy)fY (y)dy: y=¡1 y=¡1 Exemple 3.13 La durada T d'una comunicaci¶o telefµonica segueix una distribuci¶o exponencial amb un valor mitjµa de mig minut. La informaci¶o I transmesa durant una comunicaci¶o de © Els autors, 2003; © Edicions UPC, 2003 3 80 VECTORS ALEATORIS durada t segueix una distribuci¶o exponencial de valor mitjµa 2t (en una determinada unitat de mesura). Quina ¶es la distribuci¶o conjunta de les variables T; I? D'acord amb la f¶ormula anterior, per a t ¸ 0 i x ¸ 0: fT I (t; x) = fIjT =t (x)fT (t) = ¸I e¡¸I x ¸T e¡¸T t = 1 ¡x=2t ¡2t 1 ¡(x+4t2 t)=2t e 2e = e ; 2t t 2 Un parµametre important relatiu a les distribucions condicionades ¶es el d'esperan»ca condicionada. L'esperan»ca d'una variable aleatµoria X condicionada al valor Y = m d'una altra variable ¶es el valor mitjµa de X quan Y = y. El valor de l'esperan»ca condicionada de X a un valor y de Y es pot obtenir a trav¶es de la distribuci¶o condicionada com: X E(XjY = y) = kP (X = kjY = y); k si X ¶es discreta, i E(XjY = m) = Z 1 xfXjY =y (x) dx; ¡1 si ¶es cont¶³nua. El que s'ent¶en per esperan»ca de X condicionada a Y , perµo, ¶es encara una altra variable aleatµoria, denotada E(XjY ), que ¶es una funci¶o de Y que assigna a cada valor y el valor E(XjY = m). E(XjY ) = g(Y ); ong(y) = E(XjY = y): Per trobar-ne la distribuci¶o cal fer servir els mµetodes per obtenir la distribuci¶o d'una funci¶o d'una variable aleatµoria que s'han vist anteriorment. El concepte pot semblar complex, perµ o un exemple aclarirµa segurament el procediment de cµalcul. Exemple 3.14 A l'exercici 3.11, l'esperan»ca del nombre de peticions cursades correctament quan s'han rebut m peticions al servidor ¶es E(Y jX = m) = mp = (0;8)m. L'esperan»ca de Y condicionada a X ¶es, doncs: E(Y jX) = 0;8X: La distribuci¶o de probabilitat d'aquesta esperan»ca condicionada ¶es, doncs, P (E(Y jX) = y) = P (0;8X = y) = P (X = y=0;8): Per exemple, P (E(Y jX) = 0;8) = P (X = 1) = 5e¡5 . 2 Observeu que, en l'exemple anterior, el valor mitjµ a de E(Y jX) ¶es E(0;8X) = 0;8E(X) = 4, que coincideix amb E(Y ) (recordem que Y segueix una distribuci¶o de Poisson de parµamete 4). Aquest ¶es un resultat general important: E(E(Y jX)) = E(Y ): La identitat anterior pot proporcionar una alternativa per calcular indirectament l'esperan»ca d'una variable aleatµoria. © Els autors, 2003; © Edicions UPC, 2003 3.6 Distribuci¶ o de la suma de dues variables aleatµories 81 Exemple 3.15 A l'exemple 3.13, el valor mitjµa de la quantitat d'informaci¶o que es rep ¶es (tenint en compte que IjT = t segueix una llei exponencial de valor mitjµa 2t, d'on E(IjT ) = 2T ): E(I) = E(E(IjT )) = E(2T ) = 2E(T ) = 4; que resulta m¶es fµacil de calcular que trobar primer la distribuci¶o marginal de I i d'aqu¶³ el seu valor mitjµa. 2 3.6 Distribuci¶ o de la suma de dues variables aleatµ ories Entre les operacions que es poden fer amb variables aleatµories, una de les m¶es importants ¶es la suma. Estudiarem aqu¶³ com es pot obtenir la distribuci¶o de la suma de dues variables aleatµories cont¶³nues. Si (X; Y ) s¶on variables cont¶³nues amb funci¶o de densitat conjunta fXY i posem Z = X + Y , aleshores: Z 1 Z z¡y FZ (z) = P (Z · z) = P (X + Y · z) = fXY (x; y)dxdy; y=¡1 x=¡1 de manera que la funci¶o de densitat de Z ¶es: dFZ (z) = fZ (z) = dz Z 1 y=¡1 fXY (z ¡ y; y)dy: En particular, si les dues variables s¶on independents: Z 1 Z fZ (z) = fXY (z ¡ y; y)dy = y=¡1 1 y=¡1 fX (z ¡ y)fY (y)dy: Aix¶³ doncs, la densitat de la suma X + Y de dues variables aleatµories cont¶³nues independents ¶es el producte de convoluci¶o de les densitats marginals de X i de Y . Exemple 3.16 Si X i Y s¶on dues variables aleatµ ories independents que segueixen una distribuci¶o uniforme a [¡1=2; 1=2], aleshores la densitat de la suma Z = X + Y ¶es: 8 Z 1 < 1 + z z 2 [¡1; 0] 1 ¡ z z 2 [0; 1] fX (z ¡ y)fY (y)dy = fZ (z) = : y=¡1 0 z6 2 [¡1; 1] que es correspon amb la convoluci¶o de dos polsos quadrats. © Els autors, 2003; © Edicions UPC, 2003 2 3 82 3.7 VECTORS ALEATORIS Parµ ametres estad¶³stics: covariµ ancia i correlaci¶ o Com en el cas unidimensional, els parµametres estad¶³stics s¶on valors numµerics que donen informaci¶o sobre la distribuci¶o de probabilitat. Per a variables aleatµories bidimensionals (X; Y ), no nom¶es es tracta d'obtenir informaci¶o sobre el valor mitjµa i la variµancia de cada component, sin¶o tamb¶e del grau de dependµencia entre les dues variables. Una de les propietats essencials de l'esperan»ca ¶es la seva linealitat: E(X + Y ) = E(X) + E(Y ): En canvi, en general no ¶es cert que V ar(X + Y ) = V ar(X) + V ar(Y ). Aquesta igualtat ¶es certa si hi ha un cert grau d'independµencia entre les dues variables, que s'anomena incorrelaci¶ o i ¶es menys fort que la independµencia i que estudiem a continuaci¶o. La mesura m¶es comuna del grau de dependµencia entre dues variables ¶es la covariµ ancia i el que en podr¶³em dir el seu valor normalitzat, el coe¯cient de correlaci¶ o. La mesura de la relaci¶o entre dues variables que d¶ona la covariµancia es pot il¢lustrar amb aquest exemple simple. Suposem que tenim els conjunts de valors A = f(0; 6); (1; 1); (2; 5); (4; 3); (5; 5); (6; 4)g B = f(0; 1); (1; 3); (2; 4); (4; 5); (5; 5); (5; 6)g representats a la ¯gura 3.6. De la grµa¯ca sembla que la primera i la segona coordenades dels punts no tenen una relaci¶o evident en el primer conjunt, mentre que en el segon les dues coordenades creixen coordinadament. En la covariµancia el que es fa ¶es, per a cada punt, multiplicar les distµancies de cada coordenada a seu valor mitjµa i fer la mitjana d'aquests productes: (x1 ¡ mX )(y1 ¡ mY ) + (x2 ¡ mX )(y2 ¡ mY ) + : : : + (x6 ¡ mX )(y6 ¡ mY ) : 6 Si les dues coordenades creixen coordinadament, els productes tenen el mateix signe i el resultat ¶es positiu. Si la distribuci¶o dels valors de les primeres coordenades no t¶e relaci¶o amb la dels de la segona, els signes dels productes tendeixen a compensar-se i el resultat ¶es proper a 0. A l'exemple anterior, per la col¢lecci¶o de punts de A el resultat de l'operaci¶o ¶es 0, mentre que pels de B ¶es 4. Seguint aquesta idea, la covariµancia de dues variables aleatµories discretes X i Y que prenen els valors a1 ; a2 ; a3 ; ::: i b1 ; b2 ; b3 ; : : : , respectivament, i tenen valors mitjans mx; mY , ¶es: Cov(X; Y ) = X (ai ¡ mX )(bj ¡ mY )P (X = ai ; Y = bj ): i;j © Els autors, 2003; © Edicions UPC, 2003 3.7 Parµ ametres estad¶³stics: covariµ ancia i correlaci¶o 83 t t t mY t mY t t t t t t t t mX mX Si el vector (X; Y ) t¶e funci¶o de densitat fXY , aleshores: Z 1 Z 1 Cov(X; Y ) = (x ¡ mX )(y ¡ mY )fXY (x; y) dx dy: ¡1 ¡1 En general, covariµancia de X i Y es de¯neix com: Cov(X; Y ) = E((X ¡ mX )(Y ¡ mY )) = E(XY ) ¡ E(X)E(Y ); on mX i mY s¶on els valors mitjans de X i Y , respectivament. La darrera igualtat proporciona una manera sovint m¶es simple de calcular la covariµancia. Per la seva de¯nici¶o, les variµancies de X i Y poden afectar el valor de la covariµancia sense tenir relaci¶o amb la dependµencia entre elles. Per aixµo se sol preferir el coe¯cient de correlaci¶o, que es de¯neix com: Cov(X; Y ) ½X;Y = ; ¾X ¾Y i es pot interpretar com la covariµancia normalitzada per les desviacions t¶³piques. El resultat m¶es signi¯catiu amb relaci¶o a aquests parµametres ¶es el segÄ uent: Proposici¶ o 3.17 Siguin X; Y variables aleatµories. Aleshores: 1. ¡1 · ½X;Y · 1. © Els autors, 2003; © Edicions UPC, 2003 3 84 VECTORS ALEATORIS 2. Si X i Y s¶ on independents, aleshores E(XY ) = E(X)E(Y ). En particular, Cov(X; Y ) = ½XY = 0. 3. V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X; Y ). Les variables X; Y s¶on incorrelades si ½X;Y = 0 i tenen correlaci¶ o lineal si j½X;Y j = 1. 3.7.1 Distribuci¶ o normal multidimensional Acabem aquest cap¶³tol tornant a la distribuci¶o normal bidimensional. La matriu de covariµancies d'una variable aleatµoria bidimensional (X; Y ) es de¯neix com: µ ¶ V ar(X) Cov(X; Y ) : KXY = Cov(X; Y ) V ar(Y ) De la de¯nici¶o es desprµen que KXY ¶es una matriu simµetrica. La variable aleatµoria bidimensional (X; Y ) segueix una distribuci¶o normal conjunta si la seva funci¶o de densitat es pot escriure com: fXY (x; y) = p 1 TK XY e(x¡mX ) (y¡mY ) ; 2¼ jKXY j µ ¶ mX i s'escriu (X; Y ) » N(m; K), on m = ¶es el vector de valors mitjans de (X; Y ). mY Aquesta forma compacta d'expressar la funci¶o de densitat es pot desenvolupar per obtenir la forma: fXY (x; y) = 1 2¼ (1 ¡ ½XY )2 ¾X ¾Y ( "µ µ ¶2 ¶µ ¶ µ ¶2 #) 1 x ¡ mX x ¡ mX y ¡ mY y ¡ mY exp ¡ ¡ 2½ : + 2(1 ¡ ½2 ¾X ¾X ¾Y ¾Y p Aquesta forma relativament complexa adopta una expressi¶o simple quan les variables aleatµories X i Y s¶on independents, ja que aleshores ½XY = 0 i ( "µ ¶2 µ ¶2 #) 1 1 x ¡ mX y ¡ mY fXY = exp + ; 2¼¾X ¾Y 2 ¾X ¾Y que correspon simplement al producte de les funcions de densitat de dues variables aleatµ ories normals N(mX ; ¾X ) i N(mY ; ¾Y ). © Els autors, 2003; © Edicions UPC, 2003 3.8 Exercicis i problemes 85 Les propietats bµasiques de la distribuci¶o normal bidimensional, que sovint s¶on su¯cients per a tractar problemes amb aquesta distribuci¶o, s¶on les segÄ uents. Si (X; Y ) » N(m; K), aleshores ² Les variables aleatµories X i Y s¶on normals N (m1 ; ¾X ) i N(m2 ; ¾Y ), respectivament. 2 ² La distribuci¶o condicionada XjY = y ¶es normal N(m1 + ½X;Y ¾¾XY (y ¡ m1 ); ¾X (1 ¡ ½2XY )). ² Les variables aleatµories X i Y s¶on independents si i nom¶es si s¶on incorrelades. 3.8 Exercicis i problemes 3.8.1 Exercicis 1. Tirem tres daus i denotem X la variable aleatµoria que compta el nombre de puntuacions parelles i Y el nombre de puntuacions superiors a 3. Doneu la funci¶o distribuci¶o conjunta de les dues variables X i Y . 2. Escollim un punt a l'atzar en el triangle de vµertexs (0; 0); (1; 0); (0; 1). Doneu la funci¶o de distribuci¶o conjunta de les dues variables X i Y . 3. Un usuari accedeix a un servidor en un instant T aleatori a l'interval (0; 1) i formula un nombre X de peticions al servidor, on X pot prendre cadascun dels valors 1; 2 o 3 amb la mateixa probabilitat. Doneu la funci¶o de distribuci¶o conjunta de les dues variables (T; X). 4. Una font emet un dels s¶³mbols 0, 1 i ¤ amb probabilitats 4=10, 4=10 i 1=5, respectivament. La font emet deu s¶³mbols de forma independent. a) Quµe ¶es m¶es probable, que surtin quatre 0,, quatre 1 i dos ¤ o que surtin tres 0, cinc 1 i dos ¤? b) Quina ¶es la probabilitat que el missatge emµes sigui 00001111¤? c) Quina ¶es la probabilitat que el missatge emµes tingui quatre 0? 5. Quina ¶es la probabilitat que en escollir aleatµoriament un punt (X; Y ) al quadrat [0; 1] £ [0; 1] se satisfaci X · 2Y ? 6. Una variable aleatµoria bidimensional cont¶³nua t¶e funci¶o de densitat ½ kxe¡y 0 · x · 2; y ¸ 0 fXY (x; y) = 0 altrament © Els autors, 2003; © Edicions UPC, 2003 3 86 VECTORS ALEATORIS a) Determineu el valor de k. b) Calculeu la funci¶o de distribuci¶o conjunta de X i Y als punts (0; 1); (1; 1) i (1; 0). c) Calculeu la probabilitat que (X; Y ) prengui valors al quadrat [0; 1] £ [0; 1]. d) Determineu la funci¶o de densitat marginal de X. 7. S'escull un punt (X; Y ) a l'atzar en un disc de radi 1, centrat a l'origen. S¶on independents les variables X i Y (abscissa i ordenada del punt, respectivament)? Quina ¶es la distribuci¶o de X si Y = 0? 3.8.2 Problemes per fer 1. Siguin X i Y dues variables aleatµories amb funci¶o de densitat conjunta: fX;Y (x; y) = c(x + y); 0 · x · 1; 0·y·1 i 0 a la resta del pla real. a) Trobeu la constant c. b) X i Y s¶on independents? c) Trobeu la funci¶o de distribuci¶o conjunta. d) Calculeu P (X · 12 ; Y · 34 ). 2. Prenem un nombre X a l'atzar a l'interval [0; 1]. Fixat aquest nombre, en prenem un altre Y a l'atzar a l'interval [x; 1]. Trobeu la densitat conjunta del vector aleatori (X; Y ) i la densitat marginal de Y . 3. Siguin X i Y dos nombres independents i a l'atzar de l'interval [0; 1]. Sigui Z l'µarea del triangle format per aquests dos nombres i l'origen. Trobeu la densitat de Z. 4. Un usuari arriba a un servidor en un instant aleatori T a l'interval [0; 1]. Si arriba a l'instant T = t, el servidor triga un temps T 0 jT = t a donar-li servei, que segueix una distribuci¶o exponencial de valor mitjµa t. Quina ¶es la distribuci¶o de probabilitat del temps T 0 de servei? 5. Siguin X i Y dos nivells de soroll (en determinades unitats) de dos tipus d'interferµencies en una l¶³nia de transmissi¶o. Si la funci¶o de densitat conjunta de probabilitat ve donada per: ½ x+y 0 · x; y · 1 8000 f (x; y) = 0 altrament Si el nivell de soroll observat de Y ¶es de 10, obteniu la probabilitat que el nivell de soroll de X sigui, com a mµaxim, de 14. © Els autors, 2003; © Edicions UPC, 2003 3.8 Exercicis i problemes 87 6. Tenim una caixa que t¶e cinc cartes numerades: 1; 1; 2; 2 i 3. Se'n treuen dues. Sigui X la suma i Y el nombre m¶es gran de les dues. a) Trobeu-ne la distribuci¶o de probabilitat conjunta. b) Trobeu-ne Cov(X; Y ) i ½(X; Y ). 7. Siguin dues variables aleatµories cont¶³nues X i Y , amb la segÄ uent funci¶o de densitat de probabilitat conjunta: f (x; y) = ½ 2 (x 3 0 + y)e¡x x > 0 i 0 < y < 1 altrament Trobeu-ne la covariµancia i el coe¯cient de correlaci¶o. 8. a) Si X1 ; : : : ; Xn s¶on variables aleatµories de Bernouilli B(p) independents, quina ¶es la distribuci¶o de X = X1 + ¢ ¢ ¢ + Xn ? b) Si X i Y s¶on dues variables binomials Bin(n; p) i Bin(m; p), respectivament, i independents, quina ¶es la distribuci¶o de Z = X + Y ? c) Si X i Y s¶on dues variables aleatµories de Poisson P oiss(¸), quina ¶es la distribuci¶o de Z = X +Y? d) Si X i Y s¶on variables aleatµories uniformes U (0; 1) independents, quina ¶es la distribuci¶o de Z = X + Y ? e) Si X i Y s¶on variables aleatµories normals N (0; 1) independents, quina ¶es la distribuci¶o de Z = X + Y ? 9. Una gallina pon N ous, on N t¶e distribuci¶o de P oisson(¸). Cada ou es desenvolupa amb probabilitat p > 0, independentment dels altres. Sigui K el nombre de pollets que surten. Trobeu E(KjN ); E(K) i E(NjK). 10. Dos servidors tenen temps de servei T1 i T2 que segueixen distribucions exponencials de parµametres ¸1 i ¸2 , respectivament. Un usuari es troba els dos servidors ocupats. Denotem T la variable aleatµoria que mesura el temps ¯ns que un dels dos servidors queda lliure. a) Doneu la distribuci¶o de probabilitat de T i el seu valor mitjµa. b) Quina ¶es la probabilitat que T = T1 ? 11. El temps de processament d'un paquet de dades segueix una llei exponencial de temps mitjµa 2 segons. Si un paquet arriba en un instant X aleatori a l'interval (0; 2) (en segons), quina ¶es la probabilitat que el paquet estigui processat abans de 3 segons? © Els autors, 2003; © Edicions UPC, 2003 3 88 VECTORS ALEATORIS 12. Un canal de transmissi¶o estµa sotmµes a dues menes de sorolls d'intensitats X i Y , que segueixen distribucions normals N(0; 2) i N (0; 3), respectivament (en una certa unitat de mesura). Determineu la correlaci¶o entre el soroll total X + Y i Y i entre X + Y i X. Quina correlaci¶o ¶es m¶es gran? 13. Tres usuaris arriben a un servidor en instants X1 , X2 i X3 distribuijts uniformement a (0; 1) i independents. Denotem Z = maxfX1 ; X2 ; X3 g i U = minfX1 ; X2 ; X3 g. Determineu els valors mitjans de Z i de U i el coe¯cient de correlaci¶o entre Z i U . 14. El nombre de peticions que arriben a un servidor en una unitat de temps segueix una distribuci¶o de Poisson de valor mitjµa 4. El servidor at¶en un mµaxim de tres peticions per unitat de temps i desestima les altres. Denotem U el nombre de peticions desestimades. Determineu el coe¯cient de correlaci¶o entre U i X. © Els autors, 2003; © Edicions UPC, 2003 89 4 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 4.7. 4.8. 4.9. Mostres i estimaci¶ o Mostres Valors poblacionals i valors mostrals La mitjana i la variµancia mostrals Estimadors Intervals de con¯an»ca Estimadors de la mitjana La t de Student Estimadors de la variµancia. La distribuci¶o Â2 Exercicis i problemes L'estimaci¶ o ¶es l'eina fonamental de l'estad¶³stica. En aquest cap¶³tol s'assenten les bases de l'estimaci¶ o estad¶³stica: es de¯neixen les mostres d'una poblaci¶o, es descriuen els estimadors m¶es habituals per als parµ ametres clµ assics, la mitjana i la variµ ancia. S'introdueixen els intervals de con¯an»ca. Finalment, s'estudien les diferents distribucions signi¯catives dels diferents estimadors: la normal, la Â2 i la t de Student. 4.1 Mostres L'estad¶³stica inductiva ¶es una de les eines m¶es u ¶ tils que es fan servir avui dia en qualsevol proc¶es en quµe la quanti¯caci¶o de dades ¶es important. Exemples com els resultats obtinguts en un experiment cient¶³¯c, les dades observades d'un comportament al llarg d'un cert per¶³ode de temps, les mesures observades en un producte manufacturat, etc. Com la paraula inductiva ens indica, ens interessa poder treure conclusions a partir d'una sµerie de dades. © Els autors, 2003; © Edicions UPC, 2003 4 90 ¶ MOSTRES I ESTIMACIO Moltes vegades, perµo, no serµa possible accedir a tota la poblaci¶o , ¶es a dir, a totes les dades possibles. Aixµo es pot donar per diverses raons. Per exemple, si volem estudiar l'al»caµria d'una persona, l'ideal seria poder mesurar totes les al»caµries de totes les persones i d'aqu¶³ extreure resultats, com l'al»caµria mitjana, etc. Perµo oµbviament aixµo ¶es impracticable. Altres vegades, la mesura practicada comporta la destrucci¶ o del subjecte mesurat: si nosaltres volem mesurar la resistµencia d'una bombona de butµa, podem injectar butµa a pressi¶o ¯ns que la bombona s'esquerda, i mesurar la pressi¶o mµaxima assolida abans d'esquerdar-se. Evidentment, no podem fer aixµo amb totes les bombones, perquµe ens en quedariem sense. Per solucionar aquests problemes s'utilitzen les mostres. De¯nici¶ o 4.1 Una mostra ¶es una selecci¶o parcial d'objectes que es volen estudiar, que es fa servir per obtenir dades que serveixin per estimar els valors reals de tota la poblaci¶ o. Per exemple, si volem esbrinar quina ¶es l'al»caµria mitjana d'una persona, triem una mostra de 100 persones, mesurem les seves al»caµries i calculem la mtjana d'aquestes 100 al»caµries. El n¶ umero obtingut ¶es una representaci¶o de l'al»caµria mitjana de tota la poblaci¶o. O amb l'altre exemple mencionat anteriorment, de cada 100 bombones de butµa que fabriquem, en separem una mostra de 5, que seran destruijdes a base d'injectar-hi butµa ¯ns que s'esquerdin i anotem la pressi¶o en la qual s'han esquerdat. Amb aquest proc¶es esperem que el valor real de la pressi¶o mµaxima suportada per les 95 bombones restants estigui proper al valor observat en les 5 bombones de mostra. 4.2 Valors poblacionals i valors mostrals La distinci¶o m¶es important que cal fer en l'estudi de l'estad¶³stica inductiva mitjan»cant mostres ¶es la que hi ha entre els valors poblacionals i els valors mostrals. Tornant a l'exemple de la mesura de l'al»caµria d'una persona de l'apartat anterior, cal tenir clara la diferµencia entre el valor real exacte de l'al»caµria mitjana d'una persona, valor que existeix perµo que ¶es impossible de calcular a la prµactica, i que s'anomena mitjana poblacional, i la mitjana obtinguda amb les 100 al»caµries de les 100 persones de la mostra, que seria la mitjana mostral. De¯nici¶ o 4.2 Els valors poblacionals s¶ on els valors reals exactes que es volen calcular i que a la prµ actica s¶on impossibles d'obtenir, mentre que els valors mostrals s¶ on els valors obtinguts amb la mostra, i que s¶on representacions m¶es o menys acurades dels valors poblacionals. Observem que els valors poblacionals s¶on ¯xos i inamovibles mentre que els valors mostrals depenen, oµbviament, de la mostra. Per exemple, la mitjana poblacional de l'al»caµria de les persones ¶es ¯xa, mentre que l'al»caµria mostral depµen de la mostra. Aixµo justi¯ca la introducci¶o de variables aleatµories per a l'estudi dels valors mostrals, independentment que els valors de la © Els autors, 2003; © Edicions UPC, 2003 4.3 La mitjana i la variµ ancia mostrals 91 poblaci¶o segueixin ells mateixos el model d'una variable aleatµoria concreta. Aixµo s'ent¶en millor amb un exemple. Segons estudiµavem als temes anteriors, l'al»caµria d'una persona segueix una variable aleatµoria amb distribuci¶o normal, amb una certa mitjana ¹ i una desviaci¶o t¶³pica ¾. Aquests valors s¶on els valors poblacionals, ¶es a dir, ¹ ¶es la mitjana poblacional i ¾ ¶es la desviaci¶o t¶³pica poblacional. Aquests valors s¶on ¯xos i s¶on els que ens interessa estimar a base de triar mostres. Aleshores, triem una mostra i mesurem la mitjana dels valors de la mostra. Obtenim aix¶³ una mitjana mostral x¹n , on n ¶es el nombre d'individus de la mostra. Ara b¶e, si triem una mostra diferent, obtindrem un valor diferent per x¹n , i canviant la mostra tantes vegades com vulguem obtindrem molts valors diferents per x¹n . Per tant, t¶e sentit plantejar-se la distribuci¶o com a variable aleatµoria d'aquests valors x¹n . Aquesta ¶es l'anomenada variable aleatµ oria mostral , i a priori no t¶e per quµe coincidir amb la variable aleatµoria poblacional anterior. En aquest cap¶³tol s'estudien aquestes variables aleatµories mostrals i la seva relaci¶o amb les variables poblacionals, com tamb¶e quin paper fan els parµametres representatius de la variable poblacional en les variables mostrals. Cal tenir ben present aquesta distinci¶o entre els valors poblacionals i els valors mostrals, perquµe ¶es un dels conceptes clau en estad¶³stica. 4.3 La mitjana i la variµ ancia mostrals Suposem que ens interessa estudiar una caracter¶³stica mesurable d'una poblaci¶o, i que aquesta caracter¶³stica t¶e mitjana poblacional ¹ i variµancia poblacional ¾ 2 . De moment no ens interessa quina ¶es la distribuci¶o de la variable aleatµoria poblacional sin¶o nom¶es els seus dos parµametres m¶es importants. De¯nici¶ o 4.3 Donada una mostra de n individus dels quals ens interessa estudiar una caracter¶³stica concreta, la mitjana mostral ¶es la mitjana dels valors que pren aquesta caracter¶³stica per als individus d'aquesta mostra. Igualment es pot de¯nir la variµancia mostral com la variµ ancia d'aquests valors. Tal com hem dit abans, la mitjana mostral depµen de la mostra escollida i, per tant, la podem ¹ n aquesta variable aleatµoria, considerar un valor pres per una variable aleatµoria. Denotem X anomenada la variable aleatµoria de la mitjana mostral, que pren valors iguals a les mitjanes dels valors obtinguts amb diferentes mostres. Proposici¶ o 4.4 Si per a una poblaci¶ o determinada la mitjana poblacional ¶es ¹ i la variµ ancia 2 ¹ poblacional ¶es ¾ , aleshores la variable aleatµ oria Xn de la mitjana mostral t¶e com a parµ ametres: ¹n) = ¹ E(X i ¹n) = V ar(X © Els autors, 2003; © Edicions UPC, 2003 ¾2 : n 4 92 ¶ MOSTRES I ESTIMACIO Observem detingudament aquests valors, perquµe es corresponen molt b¶e amb la idea intuijtiva que un t¶e sobre com han de funcionar aquestes observacions. El fet que la mitjana de la variable aleatµoria mostral sigui igual a la mitjana poblacional diu que de tots els valors possibles obtinguts per la mitjana mostral amb les diferents mostres possibles, la mitjana ¶es la mitjana poblacional real. Aixµo ens diu que si triem diferents mostres i n'obtenim diferents mitjanes mostrals, aquestes estaran centrades en el valor mitjµa real. M¶es important encara ¶es el valor obtingut per la variµancia de la variable aleatµoria de la mitjana mostral. Observeu que aquest valor apareix dividit per n, la mida de la mostra. Aixµo es correspon amb el concepte intuijtiu que, com m¶es gran ¶es la mostra, m¶es acurat ¶es el valor. Si triem mostres de 10 individus, obtindrem una variaci¶o molt m¶es gran de valors per a les mitjanes mostrals que si triem mostres de 100 individus. Exemple. Suposem que la mitjana de les al»caµries de les persones ¶es 175 cm i que la desviaci¶o t¶³pica ¶es de 10 cm. Aixµo vol dir que si triem una persona a l'atzar la seva al»caµria estµa sotmesa a una distribuci¶o (normal, perµo aixµo ara no ve al cas) amb mitjana 175 i desviaci¶o t¶³pica 10, ¶es a dir ¾ 2 = 100. Triem ara mostres de 5 persones i anotem la mitjana de les seves al»caµries. Despr¶es de triar moltes mostres tindrem una sµerie de valors per a la mitjana mostral. Doncs b¶e, aquests valors es comporten com una variable aleatµoria (ja veurem m¶es endavant quina distribuci¶o t¶e) amb mitjana tamb¶e 175, perµo la variµancia serµa ¾ 2 =5 = 20 i la desviaci¶o t¶³pica p 20 = 4;47. Si ara agafem mostres de 25 persones, esperem que les mitjanes mostrals de les mostres de 25 persones siguin molt m¶es acurades. La variable aleatµoria de les mitjanes mostrals de mostres de 25 persones t¶e, doncs, la mateixa mitjana ¹ = 175, perµo la seva variµancia ¶es ara ¾ 2 =25 = 4 ¶ a dir, els valors de la mitjana mostral obtinguts amb mostres de i la desviaci¶o t¶³pica ¶es 2. Es 25 persones estan molt m¶es a prop de 175 (a distµancia t¶³pica 2) que els valors obtinguts amb mostres de 5 persones, que es troben a distµancia t¶³pica 4,47. Pel que fa a la variµancia, sembla lµogic tamb¶e que si calculem les variµancies mostrals de cadascuna de les mostres, obtinguem una bona aproximaci¶o de la variµancia poblacional. Perµo aixµo no ¶es realment aix¶³. Triem una mostra de n elements de la nostra poblaci¶o (recordem que la mitjana poblacional ¹ i la variµancia poblacional ¾ 2 s¶on ¯xes) i calculem-ne la seva variµancia s2n = n X (xi ¡ x¹n )2 i=1 n : Canviant de mostra ens canviarµa el valor de s2n i, per tant, un altre cop podem considerar la variable aleatµoria de la variµancia mostral que ens d¶ona els possibles valors de la variµancia mostral quan canviem la mostra. Aquesta variable aleatµoria l'anomenarem Sn2 . Aleshores, tenim la proposici¶o segÄ uent: © Els autors, 2003; © Edicions UPC, 2003 4.4 Estimadors 93 Proposici¶ o 4.5 La variable aleatµoria Sn2 de la variµ ancia mostral t¶e mitjana: E(Sn2 ) = n¡1 2 ¾ : n Observem detingudament aquesta proposici¶o. Ens diu que, si agafem moltes mostres, agafem les seves variµancies i en fem la mitjana, el valor al qual s'acostarµ a no ¶es el valor de la mitjana poblacional sin¶o un valor modi¯cat pel factor (n¡1)=n. Aixµo ve donat pel fet que, si a la mostra hi ha n objectes, nom¶es n ¡ 1 desviacions s¶on rellevants, perquµe la n-µesima ve determinada per les altres, ja que la suma de totes les desviacions ¶es 0. Per tant, per obtenir una bona estimaci¶o de la variµancia, si les mostres s¶on de n objectes, s'agafa la variµ ancia mostral modi¯cada: 2 Sn¡1 = n S2 n¡1 n que elimina aquest problema. Moltes calculadores cient¶³¯ques de les que fan cµalculs estad¶³stics porten ja una tecla determinada 2 2 per fer Sn2 i per fer Sn¡1 . Observem tamb¶e que Sn¡1 es pot calcular de la mateixa manera que es calcula la variµancia perµo dividint per n ¡ 1 en comptes de n: 2 Sn¡1 4.4 n 1 X = (xi ¡ x¹n )2 : n ¡ 1 i=1 Estimadors Tal com hem vist a l'apartat anterior, quan tenim una poblaci¶o que volem estudiar, i que t¶e una mitjana i una variµancia que no coneixem, podem intentar esbrinar quins valors tenen aquests parµametres poblacionals amb valors mostrals. Aquest ¶es el concepte fonamental d'estimador, que ¶es el concepte abstracte que hi ha darrere dels conceptes de mitjana i variµancia mostrals. De¯nici¶ o 4.6 Sigui X una variable aleatµ oria poblacional i que t¶e un parµ ametre associat µ | ~ ¶es una variable normalment la mitjana o la variµ ancia|. Un estimador de µ, que denotem per µ, aleatµoria mostral, ¶es a dir, obtinguda de la mostra, que es fa servir per donar una aproximaci¶ o del valor exacte de µ. Els exemples obvis d'estimadors s¶on la mitjana mostral i la variµancia mostral que hem vist a l'apartat anterior. © Els autors, 2003; © Edicions UPC, 2003 4 94 ¶ MOSTRES I ESTIMACIO Observem que un estimador ¶es una variable aleatµoria. La poblaci¶o ¶es ¯xa, amb els seus valors poblacionals, mentre que l'estimador ¶es una variable aleatµoria mostral, que varia si canviem la mostra. Aquesta variable aleatµoria mostral t¶e una distribuci¶o prµopia, que es farµa servir per donar la probabilitat que el valor real estigui dintre d'un interval determinat. Segons hem vist tamb¶e a l'apartat anterior, uns estimadors aproximen millor que altres el valor ¹ n de la mitjana aproxima b¶e la mitjana poblacional, mentre real. Hem vist que l'estimador X que l'estimador que un consideraria adequat per estimar la variµancia no ho ¶es perquµe d¶ona consistentment valors m¶es petits que el valor real de la variµancia. Aixµo porta al concepte de biaix i d'estimador esbiaixat. De¯nici¶ o 4.7 Considerem un estimador µ~ del parµ ametre µ. ~ = µ, ¶es a dir, quan la mitjana ² Diem que µ~ ¶es un estimador central o sense biaix quan E(µ) de l'estimador ¶es igual al valor poblacional real. ~ 6 ~ < µ diem que el biaix ¶es ² Quan E(µ) = µ, diem que µ~ ¶es un estimador esbiaixat. Si E(µ) ~ > µ, el biaix ¶es positiu. negatiu, mentre que si E(µ) Exemples: Els valors mostrals que hem vist a l'apartat anterior s¶on els exemples clµassics d'estimadors: ¹ n ¶es un estimador sense biaix de la mitjana poblacional ¹. ² La mitjana mostral X ² La variµancia mostral Sn2 ¶es un estimador de la variµancia ¾ 2 amb biaix negatiu. 2 ² La variµancia mostral modi¯cada Sn¡1 ¶es un estimador sense biaix de la variµancia ¾. 4.5 Intervals de con¯an» ca Quan es fa servir un estimador per aproximar un parµametre d'una variable aleatµoria, no podem saber mai si aquesta estimaci¶o que hem fet ¶es m¶es o menys correcta, sin¶o que nom¶es en podem donar probabilitats. Tot l'estudi de l'estad¶³stica inductiva mitjan»cant estimadors consisteix a trobar intervals de con¯an»ca, que s¶on els intervals pels quals podem assegurar que contenen el valor real del parµametre amb una certa probabilitat. De¯nici¶ o 4.8 Imaginem que volem estimar el parµ ametre µ d'una variable aleatµoria X. Fixat un valor ®, un interval de con¯an»ca amb signi¯caci¶o ® ¶es un interval [r1 ; r2 ] pel qual podem assegurar que P (r1 < µ < r2 ) ¸ ®: © Els autors, 2003; © Edicions UPC, 2003 4.6 Estimadors de la mitjana 95 El valor ®, anomenat nivell de signi¯caci¶ o o coe¯cient de con¯an»ca, acostuma a ser 0,95 o 0,99. Aquests valors s¶on els acceptats normalment com a probabilitats que el nostre valor estigui dintre d'un interval adequat. Els estimadors s¶on les eines adequades que ens permeten calcular els extrems r1 i r2 de l'interval de con¯an»ca. El cµalcul d'aquests valors depµen, oµbviament, de cada parµametre i de l'estimador emprat per aproximar-lo. Observeu que cada estimador, essent ell mateix una variable aleatµoria, t¶e una distribuci¶o prµopia i, per tant, aquesta distribuci¶o serµa determinant per calcular l'interval de con¯an»ca. Per exemple, si un estimador t¶e una distribuci¶o simµetrica, aleshores l'interval de con¯an»ca ve donat pel valor µ~ que pren l'estimador, juntament amb l'amplada de l'interval d® , la qual, µobviament, depµen del nivell de signi¯caci¶o: P (µ~ ¡ d® < µ < µ~ + d® ) ¸ ®: En les properes seccions calculem les distribucions dels diferents estimadors i donem exemples del seu u ¶s. 4.6 Estimadors de la mitjana ¹ n de la mitjana, en relaci¶o amb Ja hem vist a la secci¶o 4.3 com es comportava l'estimador X la mitjana i la variµancia poblacionals. En aquesta secci¶o suposarem que estem interessats en una variable aleatµoria X que mesura alguna caracter¶³stica d'una poblaci¶o, i a partir d'aquesta veurem quina variable s'ajusta als valors de l'estimador. Ja sabem que la distribuci¶o m¶es habitual ¶es la distribuci¶o normal, que hem vist que es feia servir per aproximar altres distribucions com la binomial. Per tant, t¶e interµes especial estudiar els estimadors d'una variable aleatµoria normal. Proposici¶ o 4.9 Suposem que una poblaci¶o segueix una variable aleatµ oria X = N (¹; ¾). Ales¹ n de la mitjana mostral tamb¶e segueix una distribuci¶ hores l'estimador X o normal. Concretap ¹ ment, Xn = N (¹; ¾= n). Observeu que la mitjana i la variµancia de l'estimador s¶on les que ja hav¶³em establert a la secci¶o 4.3. Aquest estimador ens permet donar un interval de con¯an»ca sempre que coneguem p la desviaci¶o ¶ ¹ t¶³pica de la poblaci¶o. Es a dir, com que l'estimador Xn t¶e una distribuci¶o N (¹; ¾= n), aleshores la variable: ¹n ¡ ¹ X p ¾= n © Els autors, 2003; © Edicions UPC, 2003 4 96 ¶ MOSTRES I ESTIMACIO t¶e una distribuci¶o normal tipi¯cada i l'amplada de l'interval es pot buscar a la taula. Donat un nivell de signi¯caci¶o ®, podem trobar a la taula l'amplada D® , de manera que P (¡D® < ¹n ¡ ¹ X p < D® ) = ®; ¾= n i d'aqu¶³ trobar un interval de con¯an»ca per ¹. Primer fem: ¾ ¹ n ¡ ¹ < p¾ D® ) = ® P (¡ p D® < X n n i ¯nalment: ¹ n + p¾ D® ) = ® ¹ n ¡ p¾ D® < ¹ < X P (X n n Exemple: Uns valors agafats aleatµoriament en una mostra de 20 persones ens han donat aquests valors relatius a les seves al»caµries: 174 177 180 169 166 175 190 164 179 180 185 174 177 182 194 172 191 175 180 176 Suposem que la distribuci¶o de l'al»caµria d'una persona ¶es normal. Comprovem que, amb un nivell de signi¯caci¶o de 0,95, aquesta mostra ens permet deduir que la mitjana de la poblaci¶o estµa en l'interval [173; 183]. ¹ n ¶es 178. Busquem a la taula de la normal quin El valor pres per l'estimador de la mitjana X ¶es el valor D® tal que la normal tipi¯cada Z satisfµa: P (¡D® < Z < D® ) = 0;95 que ¶es D® = 1;96, el qual s'ha obtingut buscant el valor que ens d¶ona probabilitat 0,475. Per tant, per la nostra distribuci¶o tenim: P (¡1;96 < 178 ¡ ¹ p < 1;96) = 0;95 10= 20 i calculant: P (¡4;38 < 178 ¡ ¹ < 4;38) = 0;95 que ens d¶ona ¯nalment un interval de con¯an»ca [173,62 , 182,38]. Aix¶³ doncs, la probabilitat que l'autµentica mitjana estigui dintre d'aquest interval ¶es del 95%, ¶es a dir: P (173;62 < ¹ < 182;38) = 0;95: Si la distribuci¶o de la variable aleatµoria poblacional no ¶es normal, aleshores la distribuci¶o de l'estimador de la variable aleatµoria mostral canviarµa i no serµa necessµariament normal. Recordem, perµo, el cas de la variable aleatµoria binomial que, repetida moltes vegades, s'aproxima b¶e per una distribuci¶o normal. Aquest ¶es un dels fets m¶es importants en la teoria de la probabilitat i s'anomena teorema central del l¶³mit: © Els autors, 2003; © Edicions UPC, 2003 4.7 La t de Student 97 Teorema 4.10 Considerem una variable aleatµ oria X qualsevol amb mitjana ¹ i desviaci¶ o t¶³pica ¾. Sigui Y la variable aleatµ oria que s'obt¶e de sumar n cµopies independents de X.pAleshores, quan n es fa gran, la distribuci¶ o de Y s'acosta cada cop m¶es a una normal N(n¹; n¾). El teorema central del l¶³mit, doncs, no s'aplica nom¶es a la suma de n variables de Bernoulli independents (que d¶ona la distribuci¶o binomial) sin¶o a qualsevol variable aleatµoria X sempre que tingui un valor mitjµa i una desviaci¶o t¶³pica ¯nits. Observem com afecta aixµo la variable aleatµoria de la mitjana mostral. Aquesta s'obt¶e fent: ¹ n = X1 + X2 + : : : + Xn = Y ; X n n i, per tant, t¶e una distribuci¶o: p p N(n¹; n¾) = N (¹; ¾= n): n Aix¶³ doncs, encara que la distribuci¶o poblacional no sigui normal, si la mida de la mostra ¶es prou gran, podem suposar que la distribuci¶o per la variable aleatµoria de p l'estimador de la mitjana mostral ¶es tamb¶e una normal amb mitjana ¹ i desviaci¶o t¶³pica ¾= n, igual que en el cas anterior. 4.7 La t de Student Observem que a la secci¶o anterior sempre era necessari conµeixer el valor de ¾ per poder donar un estimador adequat de ¹, i aixµo no sempre ¶es possible. Una soluci¶o seria substituir el valor 2 exacte de ¾ pel del seu estimador Sn¡1 , perµo aleshores els valors es tornen m¶es inexactes i cal substituir tamb¶e la distribuci¶o que s'ha de fer servir. De¯nici¶ o 4.11 La funci¶ o gamma d'Euler ¶es la funci¶ o que ve de¯nida per: Z 1 ¡(x) = e¡t tx¡1 dt: 0 La funci¶o gamma d'Euler s'anomena tamb¶e funci¶ o factorial generalitzada perquµe satisfµa l'equaci¶o: ¡(x + 1) = x¡(x) i, per tant, ¡(n + 1) = n! si n ¶es enter. © Els autors, 2003; © Edicions UPC, 2003 4 98 ¶ MOSTRES I ESTIMACIO De¯nici¶ o 4.12 La distribuci¶ o t de Student amb n graus de llibertat ¶es la distribuci¶ o que t¶e per funci¶ o de densitat µ ¶ n+1 ¡ 1 1 2 ³n´ µ sn (x) = p ¶ n+1 n¼ ¡ x2 2 1+ 2 n Aquesta distribuci¶o ¶es important perquµe ens permet donar els intervals de con¯an»ca per la mitjana quan la desviaci¶o t¶³pica ¶es desconeguda. En particular, el resultat ¶es: Proposici¶ o 4.13 Donada una poblaci¶o que segueix una variable aleatµoria X, si prenem una mostra amb n elements, aleshores la variable aleatµ oria ¹n ¡ ¹ X p Sn¡1 = n segueix una distribuci¶ o t de Student amb n ¡ 1 graus de llibertat. Els parµametres de la t de Student s¶on: E(t) = 0 i V ar(t) = n : n¡2 La t de Student, com ja passava amb la normal, estµa tabulada i en podeu consultar la taula a l'apµendix. Exemple: Considerem un altre cop la mostra de les al»caµries que ten¶³em a l'apartat anterior. Hem vist que la mitjana mostral obtinguda era de 178, i ara en podem calcular la variµancia 2 mostral modi¯cada S19 = 52;26 i, per tant, S19 = 7;23. Aleshores, sabem que la distribuci¶o 178 ¡ ¹ p 7:23= 20 ¶es una t de Student amb 19 graus de llibertat. La taula de la t de Student ens d¶ona els valors de la x per tal que: P (¡x < tn < x) = ® pels valors m¶es importants de ®. En el nostre cas, si agafem ® = 0;95, amb n = 19, la taula d¶ona x = 2:093. Aix¶³ doncs, tenim que: P (¡2;093 < 178 ¡ ¹ p < 2;093) = 0;95 7;23= 20 © Els autors, 2003; © Edicions UPC, 2003 4.8 Estimadors de la variµ ancia. La distribuci¶ o Â2 99 i, per tant, tenim l'interval de con¯an»ca [174;61; 181;39], ¶es a dir, la probabilitat que ¹ estigui entre 174,61 i 181,39 ¶es del 95%. La t de Student ¶es una distribuci¶o molt semblant a la normal, com es pot esperar pel fet que la variable ¹n ¡ ¹ X p Sn¡1 = n ¶es molt semblant a la variable ¹n ¡ ¹ X p ; 2 ¾n¡1 = n que hem vist que tenia una distribuci¶o normal. Per tant, la funci¶o de densitat de la t de Student tamb¶e t¶e una grµa¯ca en forma de campana. Ara b¶e, com que la t de Student fa servir un valor aproximat, ¶es m¶es susceptible de donar valors m¶es dolents. Aixµo suposa que la grµa¯ca de la t de Student ¶es m¶es ampla que la grµa¯ca de la normal. Ara b¶e, quan augmentem el nombre de ¶ clar: segons el teorema central del graus de llibertat, la grµa¯ca s'aproxima m¶es a la normal. Es l¶³mit, si el nombre de graus de llibertat ¶es molt gran, aleshores la t de Student s'aproxima molt a la normal. Podreu comprovar aixµo veient que els valors que la taula d¶ona per in¯nits graus de llibertat s¶on exactament els que obtindr¶³em amb una normal tipi¯cada. 4.8 Estimadors de la variµ ancia. La distribuci¶ o Â2 L'estimador S 2 de la variµancia mostral, que, segons hem vist abans, es calcula amb la f¶ormula S2 = n 1 X (xi ¡ x¹n )2 n ¡ 1 i=1 tamb¶e depµen, com l'estimador de la mitjana mostral, de la distribuci¶o de la variable poblacional X. Nosaltres l'estudiarem, perµo, nom¶es en el cas que la variable X sigui normal, perquµe aleshores l'estimador segueix una distribuci¶o Â2 . De¯nici¶ o 4.14 La distribuci¶ o Â2 ¶es la variable aleatµ oria que s'obt¶e fent Â2 = X12 + X22 + : : : + Xn2 on les Xi s¶ on normals tipi¯cades. La seva funci¶o de densitat ¶es: kn (x) = n x 1 ³ n ´ x 2 ¡1 e¡ 2 2 ¡ 2 n 2 © Els autors, 2003; © Edicions UPC, 2003 4 100 ¶ MOSTRES I ESTIMACIO La mitjana i variµancia de la Â2 v¶enen donades per: E(Â2 ) = n V ar(Â2 ) = 2n: i Fem servir aquesta distribuci¶o per als estimadors de la variµancia quan la variable poblacional ¶es normal: Proposici¶ o 4.15 Si la variable aleatµoria poblacional ¶es normal, aleshores la variable aleatµ oria Y = nS 2 ¾2 segueix una distribuci¶ o Â2 amb n graus de llibertat. Observem que la distribuci¶o Â2 no pot prendre valors negatius, essent una suma de quadrats, i per tant la seva funci¶o de densitat nom¶es ¶es diferent de 0 en l'interval (0; 1). Tamb¶e t¶e la forma d'una campana, aquest cop no simµetrica, que comen»ca a l'origen, puja ¯ns al seu mµaxim i despr¶es decreix asimptµoticament cap al 0. Com m¶es gran ¶es el nombre de graus de llibertat, m¶es lluny del zero ¶es el mµaxim. Un cop m¶es, tenim una taula que ens permet calcular els valors de la distribuci¶o Â2 pels graus de llibertat i nivells de con¯an»ca m¶es habituals. Exemple 4.16 Tornem a l'exemple de la mostra d'al»caµries anterior. Si calculem l'estimador esbiaixat de la variµancia obtenim que S 2 = 49;65. Aleshores, la variable 993 ¾2 segueix una Â2 amb 20 graus de llibertat. Per tant, segons la taula: P (9;53 < 993 < 34;4) = 0;95 ¾2 i, per tant, tenim: P (28;87 < ¾ 2 < 104;20) = 0;95 i ¯nalment: P (5;37 < ¾ < 10;21) = 0;95: 2 © Els autors, 2003; © Edicions UPC, 2003 4.9 Exercicis i problemes 101 4.9 Exercicis i problemes 4.9.1 Exercicis 1. Tenim que una mostra de setze transistors ha presentat una vida mitjana de 735 hores. Coneixem que ¾ = 12 hores. Trobeu l'interval de con¯an»ca per a la vida mitjana de la poblaci¶o al 95%. 2. El temps mitjµa a connectar-se a un servidor ¶es de 8 ms. Despr¶es de modi¯car el software es mesuren 64 accessos i la mitjana que ara s'obt¶e ¶es de 8.5 ms. Suposem que la desviaci¶o t¶³pica ¶es 2 ms, tant abans com despr¶es de la modi¯caci¶o. Construiju un interval de con¯an»ca (al 95% i al 99%) per a la mitjana despr¶es de modi¯car el software. 4.9.2 Problemes per fer 1. Mesurem la temperatura exacta de 0± C amb cinc termµometres que segueixen una distribuci¶o N (0; ¾), on desconeixem ¾. N'obtenim els resultats erronis segÄ uents: 0;02, 0;05, ¡0;01, ¡0;04 i 0;12. Trobeu l'interval de con¯an»ca del 95% per a la ¹. 2. Hem obtingut els valors segÄ uents de la variable aleatµoria X, 55, 65, 82, 48, 55, 75, 70 i 62. Trobeu un interval de con¯an»ca del 90% per a la variµancia de X. 3. S'analitza el temps T de processament d'un paquet de dades d'una mida donada. Admetem que T segueix una distribuci¶o normal. Es mesura el temps (en ¹s) de deu transmissions i s'obtenen els resultats segÄ uents: 301 303 300 304 300 304 299 305 302 302: a) Doneu un interval de con¯an»ca del 99% per al valor mitjµa del temps de transmissi¶o. b) Doneu un interval de con¯an»ca del 99% per a la desviaci¶o t¶³pica de la distribuci¶o. c) Determineu la mida m¶³nima que hauria de tenir la mostra per obtenir un interval de con¯an»ca del 95% per al valor mitjµa de T , de manera que l'interval de con¯an»ca tingui una llargada no superior a 1¹s. Suposem ara que ¾T = 2. © Els autors, 2003; © Edicions UPC, 2003 103 5 5.1. 5.2. 5.3. 5.4. 5.5. Regressi¶ o lineal simple. Regressi¶o lineal simple Signi¯caci¶o de r Interval de con¯an»ca per ½ Recta de regressi¶o. Mµetode dels m¶³nims quadrats Correlaci¶o i causalitat no s¶on el mateix La ¯nalitat d'aquest cap¶³tol ¶es proporcionar conceptes bµ asics per obtenir les caracter¶³stiques principals d'una relaci¶ o que no ¶es evident. Tractem amb distribucions estad¶³stiques bidimensionals, que ja s'han introduijt al tema 3. Estudiem els casos en quµe els punts (X; Y ) s'aproximen el mµ axim possible a una recta que trobem mitjan»cant el mµetode dels m¶³nims quadrats. Finalment tornem a parlar, en aquest cas concret, dels resultats que podem deduir d'una poblaci¶ o si el que estudiem ¶es una mostra (tal com hem vist al tema 4). 5.1 Regressi¶ o lineal simple. Suposem que tenim un conjunt de n mesuraments y1 , y2 ,...,yn , d'una variable resposta Y , realitzats amb un conjunt de n condicions experimentals x1 , x2 ,...,xn , d'una variable predicci¶ o X. Tindrem en compte nom¶es el cas d'una variable resposta, que ¶es el que es coneix com a model lineal simple. Intentarem ajustar una equaci¶o lineal al conjunt de dades amb la ¯nalitat d'obtenir una equaci¶o emp¶³rica que ens determini el comportament de la variable resposta Y , donats els valors de la variable de predicci¶o X. © Els autors, 2003; © Edicions UPC, 2003 5 104 ¶ LINEAL SIMPLE. REGRESSIO Partim, doncs, d'una distribuci¶o bidimensional. Suposem que el resultat de l'observaci¶o d'una mostra ens d¶ona un conjunt de punts (X; Y ) que podem representar en un grµa¯c. Aquests tipus de grµa¯cs s'anomenen diagrama de punts o b¶e n¶ uvol de punts o b¶e diagrama de dispersi¶ o. En cap¶³tols anteriors hem introduijt els conceptes de covariµancia i coe¯cient de correlaci¶o lineal. En el cas d'una mostra de mida n escrivim per a les variancies marginals: Pn 2 Pn 2 y 2 2 2 i=1 xi sx = sy = i=1 i ¡ y 2 ¡x n n i per a la covariµancia sxy i el coe¯cient de correlaci¶o r: n Sxy 1X = xi yi ¡ x y n i=1 r= sxy sx sy A continuaci¶o donem uns quants exemples de dades amb els seus coe¯cients de correlaci¶o. Exercici: Representeu aquests grµa¯cs i comproveu els coe¯cients de correlaci¶o. Exemple 5.1 (0; 0); (1; 0); (2; 0); (0; 1); (1; 1); (2; 1); (0; 2); (1; 2); (2; 2) amb r = 0. Les variables no estan correlacionades. Exemple 5.2 (0; 0); (1; 0); (3; 0); (3; 1); (1; 1); (2; 1); (0; 2); (1; 2); (2; 2) amb r = ¡0;128. Les variables no estan correlacionades. Exemple 5.3 (0; 0); (1; 0); (3; 3); (3; 1); (1; 1); (2; 1); (3; 2); (4; 4); (2; 2) amb r = 0;845. Amb aquest valor de r podem dir que hi ha una correlaci¶o lineal forta i positiva. Exemple 5.4 (1; 1); (1; 3); (1; 4); (2; 0); (2; 5); (3; 0); (4; 0); (4; 0); (2; 2) amb r = ¡0;609. Correlaci¶o lineal dµebil i negativa. Exemple 5.5 (1; 2); (2; 3); (3; 4); (2; 3); (5; 6); (1; 2) amb r = 1. Variables perfectament correlacionades (relaci¶o funcional), amb correlaci¶o lineal. Exemple 5.6 (5; 1); (4; 2); (3; 3); (2; 4); (1; 5); (5; 1) amb r = ¡1. Variables perfectament correlacionades (relaci¶o funcional), amb correlaci¶o lineal. Ara b¶e, tal com hem dit al cap¶³tol anterior tamb¶e ens interessarµa fer inferµencies sobre la correlaci¶o lineal d'una poblaci¶o de la qual coneixem el resultat d'una mostra. © Els autors, 2003; © Edicions UPC, 2003 5.2 5.2 Signi¯caci¶ o de r 105 Signi¯caci¶ o de r Suposem que tenim una mostra de mida n d'una poblaci¶o bivariant que ens d¶ona un coe¯cient de correlaci¶o r i que les dades de la poblaci¶o ens donarien (si es calcul¶es) un valor ½. La nostra ¯nalitat ¶es utilitzar les dades de la mostra per poder fer una estimaci¶ o de ½. L'any 1915 l'estadista R. A. Fisher va trobar que la transformaci¶o: z= 1 1+r ln = tanh¡1 r 2 1¡r donava lloc a una variable aleatµoria Z de distribuci¶o aproximadament normal amb ¹z = tanh¡1 ½ 1 (l'aproximaci¶o ¶es m¶es bona quant m¶es gran ¶es la mostra). El coe¯cient de correlaci¶ o i ¾z2 = n¡3 r de la mostra i la seva transformaci¶o Z els utilitzarem per aconseguir uns l¶³mits entre els quals puguem estar quasi segurs que es troba el coe¯cient de correlaci¶o ½. 5.3 Interval de con¯an» ca per ½. Vegem en un exemple com trobar un interval de con¯an»ca per ½. Exemple 5.7 Sobre una mostra de mida 28 calculem un coe¯cient de correlaci¶o r = 0;71. Trobarem l'interval de con¯an»ca del 95% per al coe¯cient de correlaci¶o ½ de la poblaci¶o. Considerem Z normal i, per tant, z¡¹z ¾z ¶es una normal tipi¯cada. Tenim, doncs: P (¡1; 96 < z ¡ ¹z < 1; 96) = 0;95 ¾z o b¶e: P (z ¡ 1; 96¾z < ¹z < z + 1; 96¾z ) = 0;95 i substituint z = tanh¡1 0;71 i ¾z2 = 1 28¡3 de l'apartat anterior: 1 1 P (tanh¡1 0;71 ¡ 1; 96 p < ¹z < tanh¡1 0;71 + 1; 96 p ) = 0;95 25 25 P (0;495 < tanh¡1 ½ < 1; 279) = 0;95 utilitzant els valors de la tangent hiperbµolica obtenim ½ 2 (0;46; 0;86) Tornem ara a pensar amb els grµa¯cs de punts que heu representat abans. © Els autors, 2003; © Edicions UPC, 2003 2 5 106 ¶ LINEAL SIMPLE. REGRESSIO Diem que hi ha una correlaci¶o lineal si el n¶ uvol de punts s'agrupa al voltant d'una l¶³nea recta que anomenem recta de regressi¶o. La nostra ¯nalitat ara ¶es trobar l'equaci¶o d'una recta que s'ajusti tant com sigui possible al n¶ uvol de punts. El mµetode m¶es important ¶es l'anomenat mµetode dels m¶³nims quadrats i ¶es el que utilitzem a l'apartat segÄ uent per trobar l'equaci¶o de la recta. 5.4 Recta de regressi¶ o. Mµ etode dels m¶³nims quadrats Estudiem primer la regressi¶o de Y sobre X. Suposem que la variaci¶o aleatµoria es d¶ona sobre la Y i suposem que la recta que volem trobar la podem escriure com: y = ax + b (1) Es tracta de determinar a i b perquµe la recta s'ajust tant com sigui possible al n¶ uvol de punts. El mµetode dels m¶³nims quadrats tracta de fer m¶³nima la suma dels quadrats de les diferµencies entre els valors observats o experimentals i els valors teµ orics o ajustats. Si tenim els resultats experimentals (xi ; yi ) amb i 2 f1 ¢ ¢ ¢ ng, volem fer m¶³nima l'expressi¶o: n X (yi ¡ (axi + b))2 i=1 on (xi ; yi ) s¶on els valors ¯xats experimentals i axi + b ¶es la imatge de xi sobre la recta (1). Derivem parcialment respecte de a i despr¶es respecte de b i igualem a 0: n X i=1 2(yi ¡ axi ¡ b)(¡xi ) = 0 n X i=1 o b¶e: n X i=1 2(yi ¡ axi ¡ b)(¡1) = 0 xi yi ¡ a n X i=1 n X x2i i=1 yi ¡ a n X i=1 ¡b n X xi = 0 i=1 xi ¡ nb = 0 © Els autors, 2003; © Edicions UPC, 2003 5.4 Recta de regressi¶o. Mµetode dels m¶³nims quadrats 107 dividim per n les dues equacions i tenim: Pn xi yi i=1 n Pn i=1 ¡a x2i n ¡ bx = 0 y ¡ ax ¡ b = 0 (2) (3) Si multipliquem l'equaci¶o (3) per x i li restem l'equaci¶o (2) obtenim: µPn i=1 x2i 2 Pn i=1 xi yi ¡ xy n n ¶es a dir, a = ssxy2 . Substituint aquest valor a l'equaci¶o (3) obtenim l'altre parµametre b = y ¡ ssxy 2 x. x x Amb aquests valors de a i b a l'equaci¶o (1) obtenim la recta de regressi¶o de Y sobre X: a ¡x ¶ y¡y = = sxy (x ¡ x) s2x Aquesta recta la utilitzarem per estimar un valor de y, donat un valor de x. Fent un raonament semblant trobar¶³em que la recta de regressi¶o de X sobre Y ¶es: x¡x = sxy (y ¡ y) s2y Aquesta recta la utilitzarem per estimar un valor de x, donat un valor de y. En general quant m¶es juntes es troben les dues rectes de regressi¶o, la relaci¶o lineal entre les dues variables ¶es m¶es forta. A continuaci¶o donem les rectes de regressi¶o d'alguns conjunts de dades donats anteriorment. Les podeu representar sobre els grµa¯cs de punts que heu fet abans. Per al cas de l'exemple 5.3, tenim que la recta de regressi¶ o de Y sobre X ¶es y = ¡0;32 + 0;89x i la recta de X sobre Y x = 0;86 + 0;80y. Per al cas de l'exemple 5.4, tenim que la recta de regressi¶ o de Y sobre X ¶es y = 3:85 ¡ 0;98x i la recta de X sobre Y x = 2:85 ¡ 0;38y. Anem a trobar les rectes de regressi¶o en un exemple. Exemple 5.8 Triem a l'atzar 10 monedes de coure d'una bossa que cont¶e moltes monedes antigues. Pesem cada una de les 10 monedes i anotem la seva antiguitat. Obtenim les dades segÄ uents, on (antiguitat,pes)=(X,Y): © Els autors, 2003; © Edicions UPC, 2003 108 5 ¶ LINEAL SIMPLE. REGRESSIO (5 ; 9;41) (9 ; 9;50) (14 ; 9;33) (17 ; 9;34) (23 ; 9;31) (31 ; 9;26) (35 ; 9;22) (42 ; 9;30) (46 ; 9;15) (50 ; 9;08): Si representem les dades en un n¶ uvol de punts hi veiem una relaci¶o lineal forta i negativa, ¶es a dir, quant m¶es antiga ¶es una moneda el seu pes ¶es menor. Anem, perµo, a estudiar-ho d'una forma quantitativa. Obtenim els resultats segÄ uents: x = 27;2, y = 9;29, r = ¡0;89, sxy = ¡1;554, sx = 15;1248, sy = 0;1152. 1;554 e tenim la La recta de regressi¶o de Y sobre X ¶es, doncs, y = 9;29 ¡ 15;1248 2 (x ¡ 27;2). Tamb¶ 1;554 recta de regressi¶o de X sobre Y x = 27;2 ¡ 0;11522 (y ¡ 9;29). Si volem conµeixer quin ¶es el pes esperat per una moneda que t¶e 20 anys d'antiguitat hem d'utilitzar la recta Y sobre X i obtenim 9;34. Si el que volem conµeixer ¶es l'antiguitat d'una moneda que pesa 9;3, llavors hem d'utilitzar la recta X sobre Y i obtenim 26 anys. 5.5 Correlaci¶ o i causalitat no s¶ on el mateix. Moltes vegades s'intenten establir relacions de tipus casual entre dues variables. Conv¶e observar que, quan es volen establir associacions, s'ha d'anar molt amb compte abans d'arribar a una conclusi¶o de¯nitiva, que moltes vegades anirµa molt m¶es enllµa del treball estad¶³stic. Qualsevol experiµencia que tendeixi a establir relacions causa-efecte entre variables ha de ser repetida en circumstµancies ben diferents; aix¶³ es pot constatar que, realment, a la vista de les dades recollides, ¶es plausible que determinats valors d'una de les variables estiguin efectivament associats amb determinats valors de l'altra, perµo, al mateix temps, que no es tracta de falses aparences o que ¶ clµassic, en aquest no hi ha un factor extern que in°ueixi en les dues variables estudiades. Es sentit, l'exemple d'una poblaci¶o nµordica on, a causa de l'µepoca de les migracions de les aus i del ritme de natalitat, hi ha una correlaci¶o molt elevada entre el nombre de naixements de cada mes i el nombre de cigonyes que nien al campanar d'aquella poblaci¶ o. Podem deduir d'aixµo que ls cigonyes porten els nens? Un exemple aix¶³, en quµe les dades donen un coe¯cient de correlaci¶ o elevat perµo no existeix una conexi¶o entre les variables, s'anomena correlaci¶ o falsa. © Els autors, 2003; © Edicions UPC, 2003 109 6 Tests d'hipµ otesi 6.1. Introducci¶o 6.2. Tests paramµetrics 6.3. Exemples de tests paramµetrics 6.3.1. Test pel valor mitjµa d'una distribuci¶o normal 6.3.2. Test pel contrast de valors mitjans de dues distribucions 6.3.3. Tests d'hipµotesi i intervals de con¯an»ca 6.4. Tests d'ajust d'una distribuci¶o 6.5. Problemes Els tests d'hipµ otesi estad¶³stics s¶ on tµecniques que tenen per objectiu determinar la probabilitat d'una a¯rmaci¶ o sobre una distribuci¶ o poblacional a partir del coneixement d'una mostra. Els tests d'hipµ otesi estan relacionats estretament amb els intervals de con¯an»ca que s'han estudiat anteriorment. 6.1 Introducci¶ o. El contrast d'hipµotesi ¶es una de les tµecniques d'inferµencia estad¶³stica. Un exemple simple d'aquesta tµecnica ¶es el segÄ uent. Suposem que el nombre d'errors en la transmissi¶o de n bits segueix una llei binomial Bin(n; p). Aquest ¶es un model plausible d'acord amb les condicions f¶³siques de la transmissi¶o. Un tµecnic proposa el valor de p = 0;01. El contrast d'hipµotesi consisteix a valorar la ¯abilitat d'aquesta proposta a la vista dels resultats d'una mostra. © Els autors, 2003; © Edicions UPC, 2003 6 110 µ TESTS D'HIPOTESI Suposem, per exemple, que hem observat un valor de 3 errors en la transmissi¶ o d'un paquet de 10 bits. Si fos¡ cert que p = 0;01, quina ¶ e s la probabilitat d'haver obtingut aquest valor? Tenim ¢ n 3 n¡3 P (X = 3) = 3 p (1 ¡ p) , que amb els valors p = 0;01 i n = 10 ¶es 0;0026. Aixµo vol dir que, segons la hipµotesi p = 0;01, observarem aquest valor de X en menys de tres vegades per cada mil proves. La conclusi¶o ¶es, doncs, que la hipµotesi original ¶es poc plausible i el test efectuat proposaria refusar-la. Els tests estad¶³stics d'hipµotesi s¶on versions m¶es elaborades de l'exemple anterior. Hi ha dues classes de tests d'hipµotesi: ² tests en els quals la llei de probabilitat de la poblaci¶o ¶es coneguda i es formulen hipµotesi sobre els valors dels parµametres de la distribuci¶o, anomenats tests paramµetrics. ² tests en els quals la llei poblacional no ¶es coneguda i es formula la hipµotesi que segueix una certa distribuci¶o, anomenats tests d'ajust. 6.2 Tests paramµ etrics Abans d'introduir la terminologia prµopia dels tests d'hipµotesi vegem-ne un exemple que aclarirµa algunes de les nocions. Suposem que el soroll introduijt per un canal en la transmissi¶o d'un senyal segueix una llei normal N(m; ¾). Com a l'exemple anterior, hi ha raons qualitatives que avalen aquesta suposici¶o. Per simpli¯car l'exemple, suposem que el valor de ¾ ¶es conegut i val 1. Formulem la hipµotesi que m = 0. De n = 10 observacions dels valors del soroll obtenim un valor mitjµa x¹10 = 1;01.pSabem ¹ 10 que segueix una llei normal N (m; 1= 10). que aquest ¶es el valor observat de la variable X En la hipµotesi m = 0, la probabilitat d'observar un valor mitjµa no menor que 1;01 en valor absolut ¶es ¹ 10 j ¸ 1;01) = 1 ¡ P (¡1;01 · X ¹ · 1;01) = P (jX p 10 p p ¹ 10 · 1;01 10) ' 0;002: = 1 ¡ P (¡1;01 10 · 10X A la vista d'aquest valor, l'enginyer ha de decidir si la desviaci¶o de x¹10 respecte del valor que hauria de tenir pot ser deguda a l'atzar o ¶es tan improbable que resulta m¶es sensat descartar la hipµotesi m = 0. Per prendre aquesta decisi¶o, s'estableix un nivell de signi¯caci¶ o ® del test (habitualment ® = 0;05 o ® = 0;01) de manera que si la probabilitat del valor observat, en la hipµotesi que formulem, ¶es inferior a ® aleshores rebutgem la hipµotesi. Per exemple, en el cas anterior, amb un nivell © Els autors, 2003; © Edicions UPC, 2003 6.2 Tests paramµetrics 111 de signi¯caci¶o ® = 0;01, rebutjar¶³em la hipµotesi que m = 0. En canvi, amb un nivell ® = 0;05 l'acceptar¶³em. El nivell de signifaci¶o ¶es la probabilitat que rebutgem la hipµotesi si ¶es certa. Aquest tipus d'error s'anomena error de tipus I. L'altra mena d'error que es pot cometre ¶es acceptar la hipµotesi si ¶es falsa, que s'anomena error de tipus II. Dos tests d'hipµotesi al mateix nivell de signi¯caci¶o poden tenir diferents errors de tipus II, i entre tots els tests possibles del mateix nivell de signi¯caci¶o cal escollir aquell que minimitza l'error de tipus II. Per exemple, suposem que ¯xem un nivell de signi¯caci¶o ® = 0. Aleshores, sempre s'acceptaria la hipµotesi de manera que l'error de tipus I ¶es zero. En l'altre extrem podem posar un nivell de signi¯caci¶o ® = 1, cas en el qual es rebutja la hipµotesi amb probabilitat 1 i l'error de tipus ¶ clar que cap de les dues opcions proporciona una bona tµecnica de decisi¶o (en II ¶es zero. Es particular, no cal ni observar una mostra) de manera que un bon test requereix un comprom¶³s entre els dos tipus d'error. En el llenguatge dels tests d'hipµotesi, la hipµotesi que es vol contrastar s'anomena hipµ otesi nul¢la i es denota per H0 . Aleshores: ² El nivell de signi¯caci¶o ¶es ® = P (refusar H0 jH0 ), ¶es a dir, la probabilitat de refusar la hipµotesi si ¶es certa. ² L'error de tipus II ¶es P (acceptar H0 jH¹0 ), ¶es a dir, la probabilitat d'acceptar H0 si ¶es falsa. L'elecci¶o d'un nivell de signi¯caci¶o es fa normalment de manera convencional (sovint ® = 0;01 o ® = 0;05) i permet controlar el disseny del test. Aixµo simplement assegura que la probabilitat de refusar la hipµotesi H0 si ¶es certa ¶es petita, de manera que el resultat del test ¶es ¯able quan es refusa H0 . Aquest aspecte ¶es bo de tenir en compte en el disseny del test per tal de formular com a H0 una hipµotesi de la qual ens preocupa m¶es acceptar si ¶es falsa que no pas descartar si ¶es certa. Exemple 6.1 S'estµa provant un nou sistema de producci¶o de xips en el qual la durada X de funcionament dels xips segueix una distribuci¶o normal N (¹; ¾). Suposem que en el sistema actual la durada segueix una llei normal N (2000; 200). Com que canviar el sistema de producci¶o suposa una inversi¶o considerable que nom¶es serµa rendible si realment el nou sistema augmenta signi¯cativament la vida mitjana dels xips, ens interessa estar segurs que nom¶es rebutjarem la hipµotesi H0 : ¹ = 2000 si realment la seva probabilitat ¶es molt petita. Per tant, m¶es que dissenyar un test per a la hipµotesi ¹ = 2300, per exemple, en dissenyar¶³em un, amb nivell de signi¯caci¶o petit ®, en el qual la hipµotesi que es contrasta ¶es H0 : ¹ = 2000. 2 © Els autors, 2003; © Edicions UPC, 2003 6 112 6.3 µ TESTS D'HIPOTESI Exemples de tests paramµ etrics Tot i que es poden dissenyar tests d'hipµotesi per a la majoria de parµametres d'una poblaci¶o, aqu¶³ en considerarem alguns exemples usuals que il¢lustren la tµecnica. En aquests exemples obviarem l'anµalisi de l'error de tipus II, que sol ser m¶es complex. 6.3.1 Test per al valor mitjµ a d'una distribuci¶ o normal Suposem que X segueix una distribuci¶o normal N(m; ¾) amb valor mitjµa desconegut i formulem la hipµotesi: H0 : m = m0 : ¹ Per estimar el valor de m a partir d'una mostra p de mida n fem servir el valor mitjµa mostral Xn , que segueix una distribuci¶o normal N(m; ¾= n). Donat que el parµametre que ens interessa ¹ ¶es el valor p mitjµa, suposarem de moment que el valor de ¾ ¶es conegut. Aleshores, Z = (Xn ¡ m0 )=(¾= n) segueix una llei normal N (0; 1). Fixat el nivell de signi¯caci¶o ®, determinem el valor d® que satisfµa: P (¡d® · Z · d® )) = 1 ¡ ®; que pot obtenir-se de les taules de la distribuci¶o normal. Si el valor observat x¹n cau a l'interval: p p I0 = [m0 ¡ (¾= n)d® ; m0 + (¾= n)d® ]; acceptem la hipµotesi H0 i, en cas contrari, la rebutgem. Aix¶³: P (rebutjar H0 jH0 ) = P (X¹n 6 2 I0 jH0 ) = P (Z 6 2 [¡d® ; d® ]) = ®; ¶es a dir, que el test t¶e efectivament nivell de signi¯caci¶o ®. Observeu que la manera de construir l'interval I0 ¶es similar a la dels intervals de con¯an»ca. Exemple 6.2 El temps T d'execuci¶o d'un proc¶es segueix una llei normal N (m; ¾). El proveijdor del sistema mant¶e que el temps mitjµa de proc¶es ¶es de 8 segons. D'una mostra de 25 execucions del proc¶es se n'ha obtingut un valor mitjµa mostral de x¹25 = 8;7 segons. Suposem que ¾ = 1. Es pot admetre que aquesta variaci¶o no ¶es signi¯cativa (¶es a dir, que cau dins els marges de l'aleatorietat) i que la informaci¶o del proveijdor ¶es correcta? En aquest cas, formulem la hipµotesi: H0 : m = 8: En aquesta hipµotesi, el valor mitjµa mostral segueix una llei normal N (8; 1=5). Per tant, a un nivell de signi¯caci¶o ® = 0;01, la regi¶o d'acceptaci¶o de H0 ve donada per l'interval [8 ¡ d; 8 + d], amb ¹ 25 ¡ 8j ¸ d) = 1 ¡ P (¡5d · 5(X ¹ 25 ¡ m) · 5d); ® = P (jX © Els autors, 2003; © Edicions UPC, 2003 6.3 Exemples de tests paramµetrics 113 que d'acord amb les taules de la distribuci¶o normal s'assoleix aproximadament per 5d = 2;58 o d = 2;58=5 ' 0;51. Com que la diferµencia observada ¶es de 0;7, que cau fora de la regi¶o d'acceptaci¶o, la diferµencia ¶es signi¯cativa amb el nivell de signi¯caci¶o considerat i la hipµotesi H0 s'hauria de rebutjar. 2 En general, en els problemes de test del valor mitjµa d'una poblaci¶o normal resulta poc realista suposar que el valor de ¾ ¶es conegut. Aleshores se sol prendre com a ¾ la desviaci¶o t¶³pica corregida S. Per a valors grans de n (a la prµactica se sol suposar su¯cient n ¸ 25), resulta m¶es simple seguir suposant que el valor mitjµa mostral segueix una distribuci¶o normal N (m; S). 6.3.2 Test per a la diferµ encia de valors mitjans Un problema molt com¶ u de tests d'hipµotesi ¶es la del contrast de dos valors mitjans de distribucions normals independents. Un cas t¶³pic ¶es el segÄ uent. Suposem que es vol veri¯car l'e¯cµacia d'un medicament per al tractament d'insomni. A una poblaci¶o A se li administra el medicament i a una altra un preparat inofensiu. Denotem X el nombre addicional d'hores de son dels individus de la poblaci¶o A i Y la variable corresponent a la poblaci¶o B. Per acceptar l'e¯cµacia del tractament, el valor mitjµa de X hauria de ser signi¯cativament m¶es gran que el de Y . Per tant, dissenyem un test en el qual la hipµotesi que s'analitza ¶es H0 : mX = mY , ¶es a dir, nom¶es ens deixarem convµencer que el tractament ¶es e¯ca»c si la diferµencia entre mX i mY ¶es signi¯cativament poc probable en la hipµotesi H0 . En general, si prenem una mostra de mida n1 per a la primera poblaci¶o i una de mida n2 per a ¹ ¹ la segona, i suposem que les dues q poblacions s¶on independents, la diferµencia Z = X ¡ Y segueix ¾2 ¾2 una llei normal N(mX ¡ mY ; nX1 + nY2 ). En la hipµotesi H0 : mX = mY , l'interval que de¯neix la regi¶o de rebuig I1 a un nivell de signi¯caci¶o ® ve donat per la desigualtat P (jZj ¸ d) · ®. El valor de d, com en el cas anterior, es localitza amb les taules de la distribuci¶ o normal. Exemple 6.3 A l'exemple anterior, suposem que prenem una mostra de mida 10 de cadascuna ¹ 10 ¡ Y¹10 . Suposem que els valors de les poblacions. El valor que observem ¶es, doncs, Z = X 2 observats s¶on x¹10 = 2;33 i y¹10 = 0;75. Suposem que les desviacions poblacionals s¶on ¾X = 2 36;1=10 i ¾Y = 28;9=10. Com que se suposa que les poblacions q s¶on independents, la variable Z ¾ 2 +¾ 2 X Y segueix, en la hipµotesi H0 : mX = mY , una llei normal N(0; ). A un nivell de signi¯caci¶o 10 ® = 0;05, l'interval de rebuig de la hipµotesi H0 es troba, doncs, de ® = P (jZj > d) = 1 ¡ P (¡d · Z · d) = 1 ¡ P (¡d=¾ · Z=¾ · d=¾); p 2 on ¾ = ¾X + ¾Y2 ' 2 !55. De les taules de la normal resulta, per a ® = 0;05, d = 1;96¾ ' 4:99. Aix¶³, la diferµencia observada 1;58 cau dins de la regi¶o d'acceptaci¶o de la hipµotesi H0 . En altres © Els autors, 2003; © Edicions UPC, 2003 6 114 µ TESTS D'HIPOTESI paraules, l'evidµencia de les dades ¶es insu¯cient, amb el nivell de signi¯caci¶o ¯xat, per admetre que el medicament ¶es e¯ca»c. 2 6.3.3 Tests d'hipµ otesi i intervals de con¯an» ca Els intervals de con¯an»ca proporcionen tamb¶e una eina per al disseny de tests d'hipµotesi paramµetrics. La idea ¶es la segÄ uent. Suposem que volem contrastar la hipµotesi H0 que el valor d'un parµametre µ de la distribuci¶o poblacional pren un valor µ0 : H0 : µ = µ0 : Fem servir un estimador mostral µ^ de µ. Amb el valor d'aquest estimador per a una mostra espec¶³¯ca, determinem un interval de con¯an»ca [a; b] amb nivell de con¯an»ca 1 ¡ ® per aµ, ¶es a dir: P (µ 2 [a; b]) ¸ 1 ¡ ®: Si el valor µ0 cau fora de l'interval (cosa que succceix amb probabilitat ® si H0 ¶es certa) aleshores rebutgem la hipµotesi H0 . En cas contrari, la hipµotesi no es rebutja. La diferµencia, doncs, respecte dels casos anteriors ¶es que allµa es de¯neix una regi¶o d'acceptaci¶o per al valor de l'estimador. En els intervals de con¯an»ca s'inverteix la relaci¶o: la regi¶o d'acceptaci¶o es crea a partir de l'estimador i es contrasta si el valor de l'hipµotesi cau o no dins l'interval. Exemple 6.4 En un proc¶es de producci¶o es fabriquen resistµencies de 20 − amb una desviaci¶o t¶³pica de 0,5 −. El proc¶es es pot desajustar, i per detectar si estµa desasjustat, s'examina una mostra de cinc unitats que d¶ona un valor mitjµa x¹5 = 20;8. Construijm un interval de con¯an»ca per al valor mitjµa m de la poblaci¶o a partir de la mostra amb p un nivell de con¯an»ca del 95%. La ¹ variable X5 segueix una distribuci¶o normal N(20;8; 0;5= 5), i obtenim l'interval [20;4 ; 21;2]. Com que el valor 20 no cau dins l'interval (cosa que, de ser cert que el valor mitjµ a ¶es 20, passa amb una probabilitat del 0;05), prenem com a resultat del test que el proc¶es estµa realment desajustat. 6.4 Tests d'ajust d'una distribuci¶ o Una mena de tests d'hipµotesi importants s¶on aquells en els que el quals es pret¶en contrastar no ¶es el valor d'un parµametre d'una distribuci¶o coneguda sin¶o la prµopia distribuci¶o de probabilitat. Per aixµo es contrasten les freqÄ uµencies relatives observades en una mostra amb els valors teµorics de la distribuci¶o de probabilitat que es contrasta. El test m¶es simple d'ajust d'una distribuci¶o ¶es l'anomenat test Â2 de Pearson. © Els autors, 2003; © Edicions UPC, 2003 6.4 Tests d'ajust d'una distribuci¶ o 115 Suposem primer que es vol ajustar la distribuci¶o d'una variable aleatµoria discreta X a una certa distribuci¶o de probabilitats teµorica. La variable aleatµoria pren valors que denotem, x1 ; : : : ; xk , i, segons la distribuci¶o que es vol contrastar, els valors es prendrien amb probabilitats p1 ; : : : ; pk . uµencies Prenem una mostra de mida n de la poblaci¶o i denotem f1 ; : : : ; fk els valors de les freqÄ absolutes amb quµe apareix cadascun dels valors x1 ; : : : ; xk . El test es basa en el fet que la variable aleatµoria k X (fi ¡ npi )2 2 ; X = np i i=1 segueix, aproximadament, una distribuci¶o Â2 amb k ¡ 1 graus de llibertat. Si l'ajust ¶es bo, el valor de l'estimador en una mostra tendirµa a ser petit (idealment 0). Aleshores, es pot obtenir a les taules de la distribuci¶o Â2 un valor a tal que la probabilitat P (X 2 ¸ a) · ®; on ® ¶es el nivell de signi¯caci¶o del test. Si el valor de l'estimador cau fora de l'interval [0; a]; aleshores el test decideix que l'ajust no ¶es correcte. Exemple 6.5 Durant la Segona Guerra Mundial es va dividir el mapa de Londres en una quadr¶³cula i es va comptar el nombre d'impactes a cada quadre durant un bombardeig. Els resultats van ser Impactes xi FreqÄ uµencia fi 0 229 1 211 2 93 3 4 5 35 7 1 La hipµotesi que es volia contrastar ¶es que el nombre d'impactes segueix una distribuci¶o de Poisson, que correspon a la idea que el bombardeig era indiscriminat i no anava dirigit a objectius militars. En cas que la hipµotesi fos certa, el valor mitjµa de la variable que compta el nombre d'impactes en un quadre ¶es P xi fi = 0;929: ¸ = Pi i fi Amb aquest valor de ¸, les probabilitats teµoriques corresponents a la distribuci¶o de Poisson serien (0;929)i ¡0;929 pi = e i! d'on s'obtenen els valors per a npi Impactes xi Valors esperats npi 0 227.5 1 211 2 98 © Els autors, 2003; © Edicions UPC, 2003 3 4 5 30 7 1,5 6 116 µ TESTS D'HIPOTESI Aix¶³ doncs, per aquesta mostra: x2 = 1;27: Consultant a les taules de la distribuci¶o Â2 amb 5 graus de llibertat, la probabilitat P (X 2 ¸ 11) · 0;05, de manera que amb un nivell de signi¯caci¶o del 0;05 el valor observat cau dins un valor acceptable i no hi ha motiu per refusar la hipµotesi que X segueix una distribuci¶o de Poisson. 2 A l'exemple anterior, el valor de ¸ ha estat estimat tamb¶e a partir de la mostra. Aixµo disminueix el nombre de graus de llibertat en la distribuci¶o de X 2 . En realitat, si en el cµalcul de X 2 s'estimen r parµametres de la distribuci¶o (a l'exemple, r = 1) aleshores X 2 segueix, aproximadament, una distribuci¶o Â2 amb k ¡ 1 ¡ r graus de llibertat. A l'exemple anterior, doncs, caldria contrastar la distribuci¶o de X 2 amb la Â2 de 4 graus de llibertat, que segueix donant P (X 2 ¸ 9;4) · 0;05 i per tant raons per no desestimar la hipµotesi. El test Â2 es fa servir tamb¶e per ajustar distribucions cont¶³nues, encara que en aquest cas es fa un proc¶es de discretitzaci¶o. Sigui X una variable aleatµoria cont¶³nua amb funci¶o de distribuci¶o FX (x). Dividim la recta real en k intervals disjunts (a0 ; a1 ); [a1 ; a2 ); : : : ; [ak¡1 ; ak ) (on, habitualment, a0 = ¡1 i ak = 1). De¯nim aleshores: pi = P (X 2 [ai¡1 ; ai )) = FX (ai ) ¡ FX (ai¡1 ): Paral¢lelament, donada una mostra, considerem les freqÄ uµencies absolutes fi del nombre de valors de la mostra que estan a l'interval [ai¡1 ; ai ). Aleshores, l'estad¶³stic: X2 = k X (fi ¡ npi )2 i=1 npi segueix tamb¶e (aproximadament) una distribuci¶o Â2 amb k ¡ 1 graus de llibertat. En aquest cas, perµo, el proc¶es de discretitzaci¶o introdueix m¶es ambigÄ uitat, de manera que, per tal que el test sigui ¯able, cal que els valors de les freqÄ uµencies absolutes no siguin petits. Una regla genµerica sovint acceptada ¶es que el nombre esperat npi d'ocurrµencies a cada interval no sigui inferior a 10. Exemple 6.6 Se sol acceptar que la variable aleatµoria T que d¶ona el temps de funcionament sense avaries d'un dispositiu segueix una distribuci¶o exponencial. Volem fer un test per veri¯car que efectivament T segueix una llei exponencial de valor mitjµa 200 hores per a un dispositiu determinat (el valor mitjµa es pot haver obtingut per estimaci¶o). Observem una mostra de 150 dispositius i obtenim els resultats segÄ uents: 0 · T < 100 100 · T < 200 200 · T < 300 300 · T 47 40 35 28 © Els autors, 2003; © Edicions UPC, 2003 6.5 Problemes 117 Les probabilitats corresponents en la hipµotesi que la distribuci¶o ¶es efectivament Exp(0;005) s¶on 0 · T < 100 100 · T < 200 200 · T < 300 300 · T 0,39 0,24 0,15 0,22 D'aqu¶³ que l'estad¶³stic del test Â2 de Pearson ¶es x2 = 11:56. A les taules de la Â2 amb 3 graus de llibertat trobem que P (X 2 > d) = 0;05, correspon a d = 7:8, de manera que si el nivell de signi¯caci¶o del test ¶es ® = 0;05, rebutjarem la hipµotesi que T segueix aquesta llei exponencial. 2 6.5 Problemes 1. En l'anµalisi de la probabilitat d'error d'un canal s'examina una mostra de 10 bits i es detecten 3 errors. Sobre la base d'aquesta mostra un test rebutja la hipµ otesi que la probabilitat d'error ¶es 0;1. Quina ¶es la probabilitat que el test hagi donat una decisi¶o equivocada. 2. Es tira una moneda 100 vegades i s'obtenen 68 cares. Proveu la hipµ otesi que la moneda ¶es equilibrada, amb un nivell de signi¯caci¶o ® = 0;05. 3. Si preneu la darrera xifra dels n¶ umeros de telµefon que apareixen a la pµagina d'una guia telµefonica, ¶es raonable suposar que totes les xifres del 0 al 9 apareixen amb la mateixa freqÄ uµencia. Obteniu una mostra de mida 200 i proveu la hipµotesi que la distribuci¶o de la xifra 9 segueix una llei de Bernouilli de probabilitat p = 1=10. 4. El temps T entre l'arribada de dos usuaris consecutius a un servidor es distribueix, per a una mostra, d'acord amb la taula segÄ uent: 0<T ·1 1<T ·2 2<T ·3 3<T 40 29 15 8 Proveu la hipµotesi que T segueix una llei exponencial amb un nivell de signi¯caci¶o ® = 0;1. 5. En un examen, les puntuacions dels estudiants van seguir la distribuci¶o segÄ uent: Puntuaci¶o [0,2) [2,4) [4,6) [6,8) [8,10] Nombre d'estudiants 8 19 33 30 10 Proveu la hipµotesi que la distribuci¶o segueix una llei normal, amb un nivell de signi¯caci¶o ® = 0;05. © Els autors, 2003; © Edicions UPC, 2003 µ APENDIX 119 Apµ endix En aquest apµendix hi trobareu les taules de les distribucions normal, t de Student i Â2 . © Els autors, 2003; © Edicions UPC, 2003 TAULA DE LA DISTRIBUCIÓ NORMAL P(0 < X < x) 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0 0 0.003989 0.007978 0.011966 0.015953 0.019939 0.023922 0.027903 0.031881 0.035856 0.1 0.039828 0.043795 0.047758 0.051717 0.05567 0.059618 0.063559 0.067495 0.071424 0.075345 0.2 0.07926 0.083166 0.087064 0.090954 0.094835 0.098706 0.102568 0.10642 0.110261 0.114092 0.3 0.117911 0.12172 0.125516 0.1293 0.133072 0.136831 0.140576 0.144309 0.148027 0.151732 0.4 0.155422 0.159097 0.162757 0.166402 0.170031 0.173645 0.177242 0.180822 0.184386 0.187933 0.5 0.191462 0.194974 0.198468 0.201944 0.205401 0.20884 0.21226 0.215661 0.219043 0.222405 0.6 0.225747 0.229069 0.232371 0.235653 0.238914 0.242154 0.245373 0.248571 0.251748 0.254903 0.7 0.258036 0.261148 0.264237 0.267305 0.27035 0.273373 0.276373 0.27935 0.282305 0.285236 0.8 0.288145 0.29103 0.293892 0.296731 0.299546 0.302337 0.305105 0.30785 0.31057 0.313267 0.9 0.31594 0.318589 0.321214 0.323814 0.326391 0.328944 0.331472 0.333977 0.336457 0.338913 0.362143 1 0.341345 0.343752 0.346136 0.348495 0.35083 0.353141 0.355428 0.35769 0.359929 1.1 0.364334 0.3665 0.368643 0.370762 0.372857 0.374928 0.376976 0.379 0.381 0.382977 1.2 0.38493 0.386861 0.388768 0.390651 0.392512 0.39435 0.396165 0.397958 0.399727 0.401475 1.3 0.4032 0.404902 0.406582 0.408241 0.409877 0.411492 0.413085 0.414657 0.416207 0.417736 1.4 0.419243 0.42073 0.422196 0.423641 0.425066 0.426471 0.427855 0.429219 0.430563 0.431888 1.5 0.433193 0.434478 0.435745 0.436992 0.43822 0.439429 0.44062 0.441792 0.442947 0.444083 1.6 0.445201 0.446301 0.447384 0.448449 0.449497 0.450529 0.451543 0.45254 0.453521 0.454486 1.7 0.455435 0.456367 0.457284 0.458185 0.45907 0.459941 0.460796 0.461636 0.462462 0.463273 1.8 0.46407 0.464852 0.46562 0.466375 0.467116 0.467843 0.468557 0.469258 0.469946 0.470621 1.9 0.471283 0.471933 0.472571 0.473197 0.47381 0.474412 0.475002 0.475581 0.476148 0.476705 2 0.47725 0.477784 0.478308 0.478822 0.479325 0.479818 0.480301 0.480774 0.481237 0.481691 2.1 0.482136 0.482571 0.482997 0.483414 0.483823 0.484222 0.484614 0.484997 0.485371 0.485738 2.2 0.486097 0.486447 0.486791 0.487126 0.487455 0.487776 0.488089 0.488396 0.488696 0.488989 2.3 0.489276 0.489556 0.48983 0.490097 0.490358 0.490613 0.490863 0.491106 0.491344 0.491576 2.4 0.491802 0.492024 0.49224 0.492451 0.492656 0.492857 0.493053 0.493244 0.493431 0.493613 2.5 0.49379 0.493963 0.494132 0.494297 0.494457 0.494614 0.494766 0.494915 0.49506 0.495201 2.6 0.495339 0.495473 0.495604 0.495731 0.495855 0.495975 0.496093 0.496207 0.496319 0.496427 2.7 0.496533 0.496636 0.496736 0.496833 0.496928 0.49702 0.49711 0.497197 0.497282 0.497365 2.8 0.497445 0.497523 0.497599 0.497673 0.497744 0.497814 0.497882 0.497948 0.498012 0.498074 2.9 0.498134 0.498193 0.49825 0.498305 0.498359 0.498411 0.498462 0.498511 0.498559 0.498605 3 0.49865 0.498694 0.498736 0.498777 0.498817 0.498856 0.498893 0.49893 0.498965 0.498999 3.1 0.499032 0.499065 0.499096 0.499126 0.499155 0.499184 0.499211 0.499238 0.499264 0.499289 3.2 0.499313 0.499336 0.499359 0.499381 0.499402 0.499423 0.499443 0.499462 0.499481 0.499499 3.3 0.499517 0.499534 0.49955 0.499566 0.499581 0.499596 0.49961 0.499624 0.499638 0.499651 0.499758 3.4 0.499663 0.499675 0.499687 0.499698 0.499709 0.49972 0.49973 0.49974 0.499749 3.5 0.499767 0.499776 0.499784 0.499792 0.4998 0.499807 0.499815 0.499822 0.499828 0.499835 3.6 0.499841 0.499847 0.499853 0.499858 0.499864 0.499869 0.499874 0.499879 0.499883 0.499888 0.499925 3.7 0.499892 0.499896 0.4999 0.499904 0.499908 0.499912 0.499915 0.499918 0.499922 3.8 0.499928 0.499931 0.499933 0.499936 0.499938 0.499941 0.499943 0.499946 0.499948 0.49995 3.9 0.499952 0.499954 0.499956 0.499958 0.499959 0.499961 0.499963 0.499964 0.499966 0.499967 4 0.499968 0.49997 0.499971 0.499972 0.499973 0.499974 0.499975 0.499976 0.499977 0.499978 4.1 0.499979 0.49998 0.499981 0.499982 0.499983 0.499983 0.499984 0.499985 0.499985 0.499986 4.2 0.499987 0.499987 0.499988 0.499988 0.499989 0.499989 0.49999 0.49999 0.499991 0.499991 4.3 0.499991 0.499992 0.499992 0.499993 0.499993 0.499993 0.499993 0.499994 0.499994 0.499994 4.4 0.499995 0.499995 0.499995 0.499995 0.499996 0.499996 0.499996 0.499996 0.499996 0.499996 4.5 0.499997 0.499997 0.499997 0.499997 0.499997 0.499997 0.499997 0.499998 0.499998 0.499998 4.6 0.499998 0.499998 0.499998 0.499998 0.499998 0.499998 0.499998 0.499998 0.499999 0.499999 4.7 0.499999 0.499999 0.499999 0.499999 0.499999 0.499999 0.499999 0.499999 0.499999 0.499999 4.8 0.499999 0.499999 0.499999 0.499999 0.499999 0.499999 0.499999 0.499999 0.499999 0.499999 4.9 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 © Els autors, 2003; © Edicions UPC, 2003 TAULA DE LA t DE STUDENT P(-t < T < t) g.ll. 80% 90% 95% 99% 99.50% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 40 50 60 80 100 120 inf 3.078 1.8856 1.63774 1.53321 1.47588 1.43976 1.41492 1.39682 1.38303 1.37218 1.36343 1.35622 1.35017 1.34503 1.34061 1.33676 1.33338 1.33039 1.32773 1.32534 1.32319 1.32124 1.31946 1.31784 1.31635 1.31042 1.30308 1.29871 1.29582 1.29222 1.29007 1.28865 1.28155 6.314 2.92 2.35336 2.13185 2.01505 1.94318 1.89458 1.85955 1.83311 1.81246 1.79588 1.78229 1.77093 1.76131 1.75305 1.74588 1.73961 1.73406 1.72913 1.72472 1.72074 1.71714 1.71387 1.71088 1.70814 1.69726 1.68385 1.67591 1.67065 1.66412 1.66023 1.65765 1.64485 12.706 4.3027 3.18245 2.77645 2.57058 2.44691 2.36462 2.306 2.26216 2.22814 2.20099 2.17881 2.16037 2.14479 2.13145 2.11991 2.10982 2.10092 2.09302 2.08596 2.07961 2.07387 2.06866 2.0639 2.05954 2.04227 2.02108 2.00856 2.0003 1.99006 1.98397 1.97993 1.95996 63.657 9.9248 5.84091 4.60409 4.03214 3.70743 3.49948 3.35539 3.24984 3.16927 3.10581 3.05454 3.01228 2.97684 2.94671 2.92078 2.89823 2.87844 2.86093 2.84534 2.83136 2.81876 2.80734 2.79694 2.78744 2.75 2.70446 2.67779 2.66028 2.63869 2.62589 2.61742 2.57583 127.321 14.089 7.45332 5.59757 4.77334 4.31683 4.02934 3.83252 3.68966 3.58141 3.49661 3.42844 3.37247 3.3257 3.28604 3.25199 3.22245 3.19657 3.17372 3.1534 3.13521 3.11882 3.104 3.09051 3.0782 3.0298 2.97117 2.93696 2.91455 2.88697 2.87065 2.85986 2.80703 © Els autors, 2003; © Edicions UPC, 2003 TAULA DE LA CHI-QUADRAT P(X < x) g.ll. 0.99 0.95 0.9 0.8 0.5 0.2 0.1 0.05 0.01 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 6.6349 9.21034 11.3449 13.2767 15.0863 16.8119 18.4753 20.0902 21.666 23.2093 24.725 26.217 27.6882 29.1412 30.5779 31.9999 33.4087 34.8053 36.1909 37.5662 38.9322 40.2894 41.6384 42.9798 44.3141 45.6417 46.9629 48.2782 49.5879 50.8922 52.1914 53.4858 54.7755 56.0609 57.3421 58.6192 59.8925 61.1621 62.4281 63.6907 3.84146 5.99146 7.8147 9.4877 11.0705 12.5916 14.0671 15.5073 16.919 18.307 19.6751 21.0261 22.362 23.6848 24.9958 26.2962 27.5871 28.8693 30.1435 31.4104 32.6706 33.9244 35.1725 36.415 37.6525 38.8851 40.1133 41.3371 42.557 43.773 44.9853 46.1943 47.3999 48.6024 49.8018 50.9985 52.1923 53.3835 54.5722 55.7585 2.70554 4.60517 6.2514 7.7794 9.2364 10.6446 12.017 13.3616 14.6837 15.9872 17.275 18.5493 19.8119 21.0641 22.3071 23.5418 24.769 25.9894 27.2036 28.412 29.6151 30.8133 32.0069 33.1962 34.3816 35.5632 36.7412 37.9159 39.0875 40.256 41.4217 42.5847 43.7452 44.9032 46.0588 47.2122 48.3634 49.5126 50.6598 51.8051 1.64237 3.21888 4.6416 5.9886 7.2893 8.5581 9.8032 11.0301 12.2421 13.442 14.6314 15.812 16.9848 18.1508 19.3107 20.4651 21.6146 22.7595 23.9004 25.0375 26.1711 27.3015 28.4288 29.5533 30.6752 31.7946 32.9117 34.0266 35.1394 36.2502 37.3591 38.4663 39.5718 40.6756 41.778 42.8788 43.9782 45.0763 46.173 47.2685 0.45494 1.38629 2.366 3.3567 4.3515 5.3481 6.3458 7.3441 8.3428 9.3418 10.341 11.3403 12.3398 13.3393 14.3389 15.3385 16.3382 17.3379 18.3377 19.3374 20.3372 21.337 22.3369 23.3367 24.3366 25.3365 26.3363 27.3362 28.3361 29.336 30.3359 31.3359 32.3358 33.3357 34.3356 35.3356 36.3355 37.3355 38.3354 39.3353 0.06418 0.44629 1.0052 1.6488 2.3425 3.0701 3.8223 4.5936 5.3801 6.1791 6.9887 7.8073 8.6339 9.4673 10.307 11.1521 12.0023 12.857 13.7158 14.5784 15.4446 16.314 17.1865 18.0618 18.9398 19.8202 20.703 21.588 22.4751 23.3641 24.2551 25.1478 26.0422 26.9383 27.8359 28.735 29.6355 30.5373 31.4405 32.345 0.01579 0.21072 0.5844 1.0636 1.6103 2.2041 2.8331 3.4895 4.1682 4.8652 5.5778 6.3038 7.0415 7.7895 8.5468 9.3122 10.0852 10.8649 11.6509 12.4426 13.2396 14.0415 14.848 15.6587 16.4734 17.2919 18.1139 18.9392 19.7677 20.5992 21.4336 22.2706 23.1102 23.9523 24.7967 25.6433 26.4921 27.343 28.1958 29.0505 0.00393 0.10259 0.3518 0.7107 1.1455 1.6354 2.1673 2.7326 3.3251 3.9403 4.5748 5.226 5.8919 6.5706 7.2609 7.9616 8.6718 9.3905 10.117 10.8508 11.5913 12.338 13.0905 13.8484 14.6114 15.3792 16.1514 16.9279 17.7084 18.4927 19.2806 20.0719 20.8665 21.6643 22.465 23.2686 24.0749 24.8839 25.6954 26.5093 0.00016 0.0201 0.1148 0.2971 0.5543 0.8721 1.239 1.6465 2.0879 2.5582 3.0535 3.5706 4.1069 4.6604 5.2293 5.8122 6.4078 7.0149 7.6327 8.2604 8.8972 9.5425 10.1957 10.8564 11.524 12.1981 12.8785 13.5647 14.2565 14.9535 15.6555 16.3622 17.0735 17.7891 18.5089 19.2327 19.9602 20.6914 21.4262 22.1643 © Els autors, 2003; © Edicions UPC, 2003