Blalock Hubert - Estadistica Social

HUBERT M. BLALOCK, JR. ESTADISTICA SOCIAL GB ¿0 ANIVERSARIO FONDO DE CULTURA ECONÓMICA MÉXICO Prim era edición en inglés Prim era edición e n español, Segunda edición e n inglés, Segunda edición en español, d e la segunda en inglés, Q uinta reim presión, 1960 1966 1972 1978 1994 T ítulo original: Social Statistics © 1960, 1972, Me Graw-Hill, Inc. Nueva York D . R . © 1966, F o n d o d e C u l t u r a E c o n ó m ic a D. R. © 1986, F o n d o d e C u l t u r a E c o n ó m ic a , S. A. d e C. V. C arretera PicachoA jusco 227; 14200 México, D. F. ISBN 968-16-0135-1 Im preso e n México A An n , S u s ie y K atie E ste lib r o h a sid o e s c rito fu n d a m e n ta lm e n te p a r a aq u e llo s e s tu d ia n te s d e sociología, ta n to los y a titu la d o s c o m o lo s q u e a ú n n o lo e s tá n , q u e se p ro p o n g a n d e d ic a rs e a la in v e stig a ció n social. D u ran te los doce años tran sc u rrid o s desde que apareció la p ri m era edición, ta n to el nivel de p rep aració n com o la com plejidad de la estad ística ap licad a h a n experim entado u n a m ejo ría consi derable, n o sólo en el cam po de la sociología, sino e n los de la ciencia política, la antropología, la geografía y el tra b a jo social. A p e sa r de ello, u n a ab ru m a d o ra m ayoría de los estudiantes, o de los q ue ejercen en estos terren o s, carecen de la necesaria b ase m atem ática que les p erm ita o b ten er p len a v en taja de la bi blio g rafía técn ica sobre estad ística, m atem ática y econom etría, cuyos m ateriales au m en ta n rápidam ente. T eniendo e n m en te tales dato s básicos h a sido escrito este texto, tra ta n d o de evitar, h asta donde es posible, la s derivaciones m atem áticas, bastan d o u n a rá p id a revisión de ciertos principios algebraicos, listados en el A péndice 1, p a ra q ue el estu d ian te m edio obtenga u n a p re p a ra ción suficiente. Aun cu an d o n o re su lte n ecesario e n u n p rim e r cu rso de estad ística p o n e r de relieve dichas derivaciones m atem á ticas, el a u to r está convencido de la necesidad de en te n d e r p e r fectam en te ciertas ideas básicas y fundam entales so b re las que se asien tan los prin cipios de la deducción estadística. Tal cosa re s u lta ind isp en sab le si h a de lograrse algo m ás que u n conoci m ien to lim itad o a "re c e ta s” estadísticas. H em os pu esto p o r ello especial in teré s en la lógica q u e fu n d a m e n ta la deducción esta dística, incluyendo asim ism o u n capítulo relativo a la p robabili dad, en ta n to se h a p re sta d o m en o r atención a m ateria s m ás o m enos ru tin a ria s estu d iad as e n textos elem entales. Uno de los p roblem as m ás difíciles e n la enseñanza de la esta dística ap licad a es el de lo g rar in c ita r a los estudiantes, de m a n e ra q u e éstos su p eren su te m o r a las m atem áticas y ap ren d an a ap lica r la estad ística e n su s p ro p io s cam pos de in terés. P or e sta ú ltim a razón el a u to r n o h a in te n ta d o c u b rir u n a gam a am p lia de aplicaciones, eligiendo p o r el co n tra rio ejem plos de in te rés fu n d am en tal p a ra los sociólogos. T am bién h a escogido o tro s ejem plos de cam pos fronterizos de la sociología, tom ados de te rren o s tales com o la psicología social, el tra b a jo social y la con d u cta política. E n la m ayoría de los casos cada nuevo tem a h a sido ilu stra d o con u n solo ejem plo, p o r su p o n er que m uchos e stu d ian tes p e rd erían el hilo básico del razonam iento si se u tili zasen m uchos de ellos p a ra ilu s tra r u n punto. Se proporcionan, sin em bargo, ejem plos adicionales b a jo la fo rm a de ejercicios q ue ap arecen al final de cada capítulo. E n general h a tra ta d o el a u to r de lo g rar u n equilibrio razonable e n tre la conveniencia d e estab lecer los principios básicos e n fo rm a ta n clara y concisa com o re su lte posible, y la necesidad de re p e tir algunas de las ideas m ás dificultosas cada vez que exam ina u n nuevo tem a. H a sta donde es posible, las ideas nuevas h an sid o p resen tad as grad u alm en te y —lo q u e es igualm ente im p o rtan te— se h a n he cho esfuerzos p a ra que cada nuevo tem a quede relacionado con los que h an p reeedido. Al h acerlo así se tuvo p re se n te la m eta fun d am en tal, co nsistente en b rin d a r u n a apreciación de las sem e janzas básicas que fu n d am en tan m uchas de las p ru e b as (te sts) y m ediciones m ás com únm ente usadas. Casi to d as las sugerencias que h e recibido de p erso n as deseo sas de ay u d ar a m e jo ra r la p rim e ra edición se re fería n m ás a la conveniencia de au m en ta r que a la de re d u cir el libro, dando a en ten d e r q ue m uchos de los tem as trata d o s originalm ente debe ría n ser exam inados m ás técnicam ente. E n m i opinión, ta n to los sociólogos com o los estudiosos de ciencias políticas, en p artic u la r, precisan verse m ás expuestos, ta n to a una bibliografía de m ayor nivel técnico so b re diseños experim entales, com o a procedim ien tos p a ra el u so de ecuaciones sim ultáneas relacionadas con la investigación n o experim ental. R esultó claro q u e si se agregaban estos m ateriales al texto original, éste p e rd e ría su atra ctiv o com o in tro d u cció n ad ecuada p a ra los estu d ian tes que asp ira n a la m aes tría en ciencias sociales. Se resolvió, pues, que los diseños expe rim entales, el análisis de facto res y los m étodos de ecuaciones sim ultáneas, así com o o tro s tem as m ás avanzados, serían tra ta dos en u n tex to separado, a cargo de dos de m is colegas: Lewis F. C árter y K rishnan N am boodiri. Se incluye en el texto cierto n ú m ero de secciones, p árrafo s y ejercicios que, o bien son conceptualm ente difíciles o p resupo nen q ue el estu d ian te posee cierta fam iliaridad con tem as cubier to s en cursos acerca de los m étodos de investigación. E stas p a r tes del tex to h a n sido señaladas con asteriscos (* ), y pueden ser leídas sin d eten erse en ellas, o b ien elim inadas del todo. Los in stru cto re s q u e utilicen el tex to en cursos de u n sem estre p o d rá n in d icar a los estu d ian tes la conveniencia de o m itir dichos m ateriales. Se h a llevado a cabo u n a leve revaluación e n los aspectos téc nicos, em p ero sin cam b iar la e stru c tu ra b ásica del texto. Hay ciertas m odificaciones en la sección relativa a la estad ística des criptiva, sección a la que el a u to r h a añadido discusiones sobre supuestos y conceptos básicos, confiando así en a c la ra r la rela ción en tre los m odelos estadísticos y el m undo re al con el que el científico social h a de tra ta r. Además de estos cam bios, la p resen te edición contiene discusiones acerca de diversos proce dim ientos, tests y m ediciones que h an venido siendo usados cada vez m ás d u ra n te la década de 1960-1969. El cap ítu lo ix, sobre la probabilidad, h a sido am pliado m edian te el exam en de p erm u tas, diagram as e n árbol, T eorem a d e Ba yes y cálculos relacionados con las probabilidades condicionales y la noción de valores previstos. T am bién al capítulo x, q u e in cluye u n a explicación d e la distribución binom ial, h a agregado el a u to r u n a breve discusión de dicha d istribución binom ial, la distrib u ció n h ipergeom étrica y la distribución de Poisson. E stas agregaciones facilitarán la transición a o tro s textos,ôrientados específicam ente a la estad ística n o p aram étrica. E l a u to r h a au m entado asim ism o el espacio dedicado a técnicas n o p aram étricas, incluyendo el test de F riedm an p a ra análisis recíprocos de fluctuaciones con o rd e n ; gam m a y dyx, com o m edi das de asociación o rd in a l; u n te st p a ra la interacción relativa a la d iferencia de diferencias de proporciones, y la norm alización en el caso de procedim ientos con escala nom inal. El lecto r encon tr a r á adem ás u n a discusión am pliada acerca de las propiedades de las v arias m edidas ordinales y técnicas d e divisibilidad con escalas ordinales. De m an era análoga h a sido am pliado el com entario de los acer cam ientos p aram étricos p a ra incluir en él la discusión de los supuestos p a ra el m odelo lineal general, cubriendo adem ás el acercam iento de la variab le sim ulada com o perspectiva altern a en el análisis de la covariación. T am bién se h an agregado los principios esenciales básicos d e la teo ría que fu n d am en ta el uso de com binaciones lineales, aplicándola a la discusión del e rro r n o rm al de la m edia, la diferencia de m edias, la diferencia de las diferencias de p roporciones y el em pleo d e com paraciones o rto gonales en el caso de m u estras m últiples. E n u n esfuerzo p a ra a y u d a r al lecto r en la apreciación del cua d ro global, el a u to r h a incluido u n a ta b la resu m en d e tests y m ediciones, tab la que aparece en el in te rio r de la tap a, así com o am plios sum arios al final de los capítulos u , xiv y xx. Son m uchas las personas que h an colaborado e n esta revisión, p ero el a u to r desearía d a r gracias de m an era especial a R ichard G. Ames, E rica B orden y Louis G oodm an p o r sus com entarios en relación con la to talid a d del m anuscrito. P o r su ayuda en la p rep aració n de la p rim e ra edición, deseo d a r gracias de m an era destacada a los estud iantes y colegas de la U niversidad de M ichigan, quienes leyeron varios b o rrad o res del lib ro y sugirieron m ejoras. A R ichard T. LaPierre, S anford D om busch, R obert Ellis, S an to Cam illeri y T heodore A nderson m i ap recio p o r leer y c ritic a r el m an u scrito original. Deseo igual m en te agrad ecer p o r la corrección de pruebas, el m ecanografiado y la revisión de los cálculos, la ayuda p re sta d a p o r Ann Blalock, D iane Etzel, Ann Laux y Doris Slesinger. G racias igualm ente a Daniel O. Price, m erecedor de am plio reconocim iento p o r h ab e r estim u lad o m i in terés e n la estadística. Quedo en deu d a con el p ro feso r S ir R onald A. F isher, de Cam bridge, con el d o cto r F ran k Yates, de R otham sted y con los se ñores Oliver a n d Boyd, Ltd., de Edim burgo, p o r su autorización p a ra re im p rim ir los cuadros iii, iv y v de su lib ro Cuadros esta d ísticos para investigaciones biológicas y agrícolas. T am bién es toy reconocido a los distin to s editores y autores, m encionados en los lugares adecuados, quienes am ablem ente dieron perm iso p a ra el u so de varios cuadros y form as de com putación. H ubert M. B lalock , Ja. P rim e ra P a r te INTRODUCCIÓN E l cam po d e la estad ística tien e m últiples aplicaciones, com o lo d em u estra el hecho de que se den cursos de ella en m ateria s ta n dispares com o son la odontología y la sociología, la ad m in istra ción de negocios y la zoología, la salud pública y la enseñanza. A p e sa r d e ello, existen to d av ía m uchas concepciones erró n eas acerca de la n atu raleza d e esta disciplina en estad o de rá p id o desarrollo. La id ea que de la estad ística se h ace el lego, puede d ife rir m u ch o de la que tien e de ella el estad íg rafo profesional. A veces se supone q u e el estadígrafo es u n a p erso n a que m ani p u la n ú m ero s p a ra d em o strar s u p u n to d e vista. P o r o tra p a rte , en cam bio, algunos estu d ian tes de sociología o de o tra s ciencias sociales, p ro p en d en a ad m ira rle com o a alguien que, con la ayuda d e su calculadora, p u ed e co n v ertir casi cualquier estu d io en "cien tífico ”. D ebido p osiblem ente al re sp eto q u e m uchas p e rso n as sien ten p o r to d o aquello que en alguna fo rm a se relaciona con las m atem áticas, a m uchos estu d ian tes les re s u lta difícil in scrib irse en u n cu rso d e estad ística sin c ie rta aprehensión. P ese a q u e les in fu n d a te m o r la perspectiva de tra b a ja r con n ú m eros, es posible tam b ién que esp eren dem asiado d e u n a disci p lin a q u e p arece ta n form idable. Antes, pues, de e n tra r dem asia do rá p id a m en te en m ateria , con lo que correm o s el riesgo d e p e rd e r la perspectiva, em pecem os p o r p re g u n ta rn o s q u é e s exac tam en te la estad ística y q u é es aquello q u e p u ed e y aquello que n o p u ed e hacer. T al vez re su lte m ás fácil em pezar indicando aquello q u e la estad ística n o e s .»E n p rim e r lugar, la estad ística n o es en m odo alguno u n m scodo con el q u e u n o p u e d a p ro b a r casi to d o aquello que d esea p ro b a r. V erem os, a n te s bien, q u e los estadígrafos po n en especial em peño e n estab lecer las reglas del juego d e ta l m an era q u e las in terp retacio n es n o vayan m ás allá de los lím ites de los datos. Sin em bargo, n o h ay n ad a en los m étodos estad ís ticos e n sí m ism os q ue sea capaz de ev itar q u e el individuo su perficial o intelectu alm ente poco escrupuloso saq u e sus p ro p ias conclusiones, a p e sa r de los datos, y u n o de los aspectos m ás im p o rtan tes de u n cu rso d e introducción a la estad ística consiste p recisam en te en p o n e r a los estu d ian tes en gu ard ia c o n tra los posibles abusos de esta h erram ien ta. La estad ística no es sencillam ente u n a colección d e hechos. Si lo fu era, n o v ald ría m ucho la p en a estudiarla. Ni constituye ta m poco u n su stitu tiv o del p en sam iento a b stra c to teó rico o del exa m en m inucioso de los casos excepcionales. E n algunos d e los lib ro s de texto m ás antiguos solían e n c o n tra rse p ro lijas discu- 15 siones acerca de los m éritos del estu d io casuístico, fre n te al m é todo estadístico. Ahora, en cam bio, ad m ítese claram en te que los m étodos estadísticos n o se "oponen" en m odo alguno al análisis cualitativo de los casos p artic u la res, sino que am bos m étodos se com plem entan. Y n i siq u iera es exacto que la estad ística sólo sea aplicable en , p resencia de u n gran n ú m ero de casos, o que no p u ed a em p learse en los estudios de exploración. Finalm ente, la estad ística n o es tam poco u n s u s titu to de la m edida, o de la p rep aració n cuidadosa de u n a cédula de investigación o de otros in stru m en to s p a ra la recolección de datos. Se in sistirá con m a y o r detalle en este ú ltim o aspecto al final del p re se n te capítulo y en el siguiente. Y ahora, habiendo indicado lo q u e la estad ística n o es, ¿pode m os acaso a firm a r decididam ente aquello que es? In fo rtu n ad a m ente, los estadígrafos m ism os p arece n d iscre p ar algo e n tre sí en cu an to a la extensión de aquello que deba co m p ren d erse b ajo el apelativo general de "estad ístic a”. A doptando u n p u n to de vista pragm ático, podem os decir p o r n u e stra p a rte q u e la estad ística com prende dos funciones m uy vastas, y que n a d a de aquello que no cum ple dichas $ o s M ic ió ñ é s fo rm a p a rte de ella. L a p rim era es la de la descripción, el resu m en de la info rm ación de tal m odo que se p u ed a em p lear m ejo r. Y la segunda es la de la inducción, con sisten te en fo rm u la r generalizaciones a p ro p ó sito de u n a de term in ad a población sobre la base de u n a m u e stra ex traíd a de la m ism a. E sta s dos funciones se exam inarán a su tiem po. 1.1. Funciones de la estadística La estadística descriptiva. E n la investigación social, u n a persona se e n c o n tra rá a m enudo en la situación de d isponer de tan to s datos, que le re su lte difícil ab so rb e r la inform ación en tera. Puede h a b e r re u n id o 200 cuestionarios y p re g u n ta rse con todo, em ba razosam ente, "¿q ué hago con to d o ello?" Con ta m a ñ a inform ación h a b ría de re s u lta r excesivam ente difícil, excepto tal vez p a ra las m en tes ex tra o rd in aria m e n te fotográficas, ca p ta r intuitivam ente lo que los datos contienen. E n u n a fo rm a u o tra, pues, la infor m ación h a de re d u cirse h a sta un p u n to en que p u ed a verse cla ra m e n te lo que hay en e lla : h a de resum irse^ Con el em pleo de m edidas de cálculo, tales com o po rcen tajes, prom edios, desvia ciones e stán d a r y coeficientes de correlación, re su lta posible re d u cir los datos a proporciones m anuables. Al re su m ir los datos su stituyendo grandes cantidades p o r unas pocas m edidas, cierta inform ación h a de p erd érse necesariam ente y, lo q u e es m ás grave, es posible o b ten er re su ltad o s engañadores, a m enos que pe los in te rp re te con m ucha precaución. De ah í que convenga in d icar claram en te las lim itaciones de to d a m edida resum ida. La estad ística descriptiva es m u y ú til en aquellos casos e n que el investigador necesita m an eja r relaciones m u tu as en tre m ás de dos variables. Supongam os, p o r ejem plo, que resu lte preciso em p lear ocho o diez variables com o ayuda p a ra explicar las ta sas de delincuencia, y supongam os p o r o tra p a rte que aquellas variables explicativas o independientes e stán altam ente relacio nad as e n tre sí. Si se desea aislar el efecto ocasionado p o r u n a o dos de tales variables, lim itándonos a las consecuencias de las dem ás, ¿cóm o h ab ría que proceder? ¿Qué género de supues tos re su ltarían necesarios? Situaciones de este grado de com plejid ad se p lantean en u n a ram a de la estadística conocida con el n om bre de análisis m ultivariado. E n los capítulos xv, xvi, xix y xx exam inarem os algunos problem as relativam ente sen cillos de análisis m ultivariado, reservando otros casos m ás com plejos p a ra un segundo volum en. La estadística inductivai La estad ística re su lta ría u n a m ateria m uy fácil si la atención p u d iera lim itarse a las m edidas descrip tivas. Tal vez u n a función m ucho m ás im p o rtan te de la estad ís tica, y en todo caso la que re te n d rá la m ayor p a rte de n u estra atención en este texto, es la derla inducción? consistente en infe r ir p ropiedades de u n a población sobre la base de u n a m u estra con resu ltad o s conocidos. La inducción estadística, com o se la aco stu m b ra llam ar, im plica u n razonam iento m ucho m ás com plejo que el de la estad ística descriptiva, pero, si se la com pren de y utiliza bien, se convierte en un in stru m en to m uy im p o rtan te p a ra el d esarrollo de u n a disciplina científica. La estadística in ductiva se b asa d irectam ente en la teo ría de la probabilidad, que es u n a ram a de las m atem áticas. Tenem os, pues, así, una disci plin a p u ram en te deductiva que p ro p o rcio n a u n a b ase racional p a ra el razonam iento inductivo. Que el a u to r sepa, no existe o tra b ase racional alguna p a ra la inducción. E ste p u n to general se exam inará con m ayor detalle en el capítulo vm . E xisten algunas razones de orden práctico en cuya v irtu d re su lta a veces necesario tr a ta r de generalizar sobre la base de una inform ación lim itada. La m ás obvia de ellas es la del facto r tiem po-costo. Sería absolutam ente im practicable, y no digam os ya p ro h ib itiv am en te costoso, p re g u n ta r a cada electo r cóm o se pro pone votar, con objeto de p red ecir en esta form a el resultado d e u n a votación nacional. Ni puede el investigador co rrien te p erm itirse visitar a todos y cada uno de los residentes de una g ran ciu d ad p a ra e stu d ia r sus prejuicios, la m ovilidad social o cu alq u ier o tro fenóm eno p o r el estilo. Lo p rim ero que hace, en efecto, es decidir la n atu raleza exacta del grupo que se propone generalizar ("la población” ). Puede escoger a todos los ciudada nos en edad de votar, o todos los varones blancos de dieciocho años cum plidos, que viven en los lím ites' de la ciudad de D etroit. E n tal caso suele p o r lo reg u lar ex tra er una m u estra consistente en u n a p ro p o rció n relativam ente pequeña de las p ersonas en cuestión, p e ro in teresándose a n te to d o no en esa m u e stra p a r ticu lar, sino en la población m ás n um erosa de la q u e h a sido ex traída. Puede en co n trar, p o r ejem plo, que, en esa m u estra p a rtic u la r de 200 varones blancos, existe u n a relación negativa e n tre la educación y el prejuicio. Aun adm itiendo que en o tro co n ju n to de 200 individuos m u estread o s el re su ltad o p u d o hab er sid o to talm en te d istinto, p ro p e n d erá sin em b arg o a establecer ciertas in feren cias acerca del c a rá c te r de la relación en el caso de h ab erse estu d iad o la población e n te ra de los varones blancos ad u lto s e n D etroit. O tra razón que lleva a generalizar so b re la base de u n a infor m ación lim itad a es la de que p u ed e se r im posible u tiliza r a toda la población, p o rq u e ésta sea in fin ita o difícil de definir. Al repli c a r u n ex p erim ento en las ciencias n atu ra les o sociales, el obje tivo p arece s e r siem pre c ie rta clase de generalización d e la que se esp era que se v erificará "en circunstancias sim ilares". O bien u n esp ecialista en ciencias sociales puede h a b e r re u n id o datos de todos los casos d e que dispone. P uede h ab erse servido, p o r ejem plo, com o unidades de análisis, en u n estudio so b re la m igración in terio r, d e todos los 50 estados [d e los E stados U nidos], desean d o sin em bargo generalizar acerca d e la m igración e n condicio n es "se m ejan tes”. E n cada u n o de dichos casos, la situación re q u ie re el re cu rso a la estad ística inductiva. Llegados a este pun to , alguien p o n d rá tal vez u n a p reg u n ta p o r el estilo de é s ta : "si la estad ística es ta n im p o rtan te, ¿cóm o es que ciencias com o la física y la quím ica, p o r ejem plo, hayan p o d id o p ro g resar ta n to sin el em pleo extenso de las técnicas es tad ísticas? ¿D ifieren acaso éstas en algo?” Es obvio que sí lo hacen. Algunas d e las ciencias n atu ra les se h an desarrollado, sin duda, p o r espacio de siglos sin el em pleo de la estadística inductiva. P ero esto parece se r an te to d o cuestión d e su erte o, p a ra reco n o cer el m érito de los esfuerzos de los científicos, se d a u n co n tro l relativam ente satisfacto rio de los elem entos p er tu rb a d o re s del m edio. E n efecto, ta l com o se p o n d rá de m ani fiesto en cap ítu lo s ulteriores, en la m edida en que im p era n condi-' ciones de lab o ra to rio escrupulosam ente controladas, la necesidad p rá ctica de las técnicas estadísticas es m enor. E n este sentido, la estad ística es el sustitutivo, p a ra el indigente, d e los experi m entos com plicados de lab o ra to rio en los que se h a n tenido en cu en ta todas las variables re lev an tes1in ip o rtan tes. H ay que sub-. ray ar, con todo, que m uchos de los knismos principios estad ísti cos se aplican a los experim entos de lab o rato rio en m a teria de física, a los experim entos algo m enos precisos en m a te ria de agri c u ltu ra y a las investigaciones sociales. Así, p o r ejem plo, si un ex perim ento en física se h a replicado 37 veces con los m ism os resu ltad o s, es p erfectam en te concebible, sin em bargo, que ensayos subsiguientes den resultados distintos. P or consiguiente, el científico h a de generalizar sobre la b ase de u n nú m ero lim itado de experim entos, y las inferencias que establece son en esencia estad ísticas p o r su carácter. E n fo rm a análoga, el problem a del e rro r de m edición puede concebirse tam bién en térm inos de es tadística. E n efecto, p o r m uy preciso que sea el in stru m en to de m edición, el científico nu n ca obtiene exactam ente el m ism o re sultad o con cada replicación. Puede a trib u ir dichas diferencias ya sea a e rro r de m edición o a efectos p ertu rb ad o re s de algunas variables incontroladas. La estadística se hace especialm ente ne cesaria cuan d o de u n a replicación a o tra las diferencias son ta les, que n i se las puede ig n o rar n i a trib u ir a e rro r de m edición. P or lo tan to , fundam entalm ente, la inferencia estad ística p u n tu a liza todas las generalizaciones científicas, au n q u e la necesidad de u n a p rep aració n estad ística y el em pleo de técnicas estadísticas com plicadas varíe considerablem ente de u n cam po de actividad a otro. 1.2. E l lugar d e la estadística en el proceso de la investigación La im p o rtan cia de la estad ística en el proceso de la investigación se exagera e n ocasiones debido al destacado lugar que ocupa en los planes d e estudios de graduación. La estad ística m ism a no co m prende problem as d e m edición, tales com o la elaboración de índices o la pu ntuación de las preg u n tas d e u n cuestionario. C om prende, an tes bien, u n a m anipulación de cifras, p artiendo del su p u esto que se h a n cum plido determ inados requisitos en el proceso de m edición. De hecho, las consideraciones estadísticas sólo se in tro d u cen en la fase de análisis del proceso de investi gación u n a vez que se h an re u n id o todos los datos, al principio de la m ism a, cuando se pro y ectan los planes iniciales del análi sis y cu an d o se h a de e x tra e r u n a m uestra. M ientras que la indicación que acaba de h acerse en el sentido de que la estad ística sólo e n tra en las fases técnicam ente co rrectas del análisis y del m u estreo del proceso de investigación, p o d ría con to d o in d u cir a e rro r, a m enos que fu e ra preciso. No significa ciertam en te que el científico en m a te ria social pu ed a p lan ea r y llevar a cabo su investigación e n te ra sin conocim ien to alguno de estad ística, y p o n erla luego en m anos del estadígra fo diciéndole: "H e aquí, m i lab o r está te rm in a d a : ahora, analí cela u sted .” Si así lo hiciera, los resultados p robablem ente serán poco satisfactorios, cuando n o inútiles p o r com pleto. Es obvio, e n efecto; que los problem as que h a b rá n de en c o n trarse en el análisis h an de anticiparse e n cada etap a del proceso de inves tigación, y en este sentido las consideraciones estadísticas hallan aplicación a to d o lo largo del m ism o. Un análisis estadístico, p o r m uy elab o rad o que sea, ra ra m e n te o nunca llegará a com pensar las fallas de u n pro y ecto m al concebido o d e u n in stru m e n to de recolección de datos deficiente. E ste ú ltim o p u n to m erece u n co m en tario especial. Significa, en efecto, que la estad ística pue de ciertam en te c o n stitu ir u n au x iliar valioso de u n ac ertad o dis c u rrir juicioso, p e ro nunca, en cam bio, u n s u stitu to del m ism o. D esde el p u n to de vista del sociólogo n o es m ás q u e u n in stru m ento. Dicho lo a n terio r, agregaré q u e la estad ística re s u lta en los exám enes ex p loratorios u n a h e rra m ie n ta m ucho m ás flexible de lo que p o d ría im aginarse. B uena p a rte de la investigación social se b asa en ideas teóricas sum am ente ten tativ as, las que n o cons titu y en u n a guía p recisa en función de las interrelacxones que cabe esp erar, de las variables que h an de s e r co n tro lad as en el análisis, o incluso de las p rio rid ad e s y secuencias a que h an de s u je ta rs e las etap as del análisis. Con frecuencia se sorprenden los estu d ian tes a n te la com plejidad que ad q u iere el análisis de datos, ta n p ro n to com o se in tro d u cen en el c u a d ro h a sta una m ed ia docena de variables. E s especialm ente e n estos casos cu an d o u n conocim iento de la teo ría estad ística de diseños ex p erim en tales, o de la técnica de la estim ación m ed ian te ecua ciones sim u ltáneas p asa a se r u n in stru m en to valioso, m ediante el cual pu ed en ser clarificadas algunas relaciones de u n a gran com plejidad. Los m étodos verbales o intuitivos re su lta n absolu tam en te inadecuados. E n u n tex to general, tal com o el presente, sólo pu ed en ab o rd arse tem as de diseño experim ental y análisis m u ltiv ariad o , p e ro es im p o rta n te te n e r en cu en ta q u e hay n u m erosas m ateria s m ucho m ás avanzadas, las q u e h a n m o strad o su valía in clu so en aquellas investigaciones ex ploratorias cuyo p ro p ó sito co n siste en d eterm in a r la im p o rtan cia relativ a de n u m erosos facto res, al o b je to de re d u c ir d e m a n e ra sistem ática el m arg en de altern ativ as, crean d o hipótesis m ás p recisas p a ra su u so en investigaciones u lterio res. 1.3. A dvertencia E n p resen cia de u n n ú m ero o de u n a ecuación m atem ática, algu nos estu d ian tes ex p erim en tan u n tem o r que va desde u n a ligera ap reh en sió n h a sta la inhibición m en tal com pleta. Si el lecto r es de éstos, d eb erá tr a ta r especialm ente de deponer to d a idea p o r el estilo acerca de que “la estad ística es algo que ya sé que nunca llegaré a e n te n d e r”. E n efecto, el grado de m atem áticas reque. rid o en este texto es tal, que los cursos de álgebra de la escuela secundaria, añadidos a las pocas operaciones algebraicas elem en tales q u e se exponen en el A péndice 1, constituyen u n a p re p ara ción suficiente. H ay que re c o rd a r, con todo, q u e los textos de m atem áticas y estad ística n o se leen com o u n a novela. P o r lo reg u lar, e n efecto, la m a te ria se p re se n ta en fo rm a m uy conden- sa d a . D e a h í, p u e s, q u e se re q u ie ra n u n a le c tu r a a te n ta y u n a d isp o sic ió n de e s p ír itu activ a, y n o sim p le m e n te p asiv a , f r e n te al m a te ria l p re s e n ta d o . É s ta es la ra z ó n d e q u e n o se p u e d a p r e s c in d ir de u n tr a b a jo c o tid ia n o y d e la re so lu c ió n d e los p ro b le m a s p rá c tic o s in c lu id o s al fin a l de c a d a ca p ítu lo . B iblio g ra fía 1. Downie, N. M. y R. W. H eath: Basic Statistical Methods, 2- ed. Harper and Row, Fublishers, Incorporated, Nueva York, 1965, caps. 1 y 2. 2. Hagood, M. J. y D. O. Price: Statistics for Sociotogisís, Henry Holt and Company, Inc., Nueva York, 1952, caps. 1 y 2. 3. Hammond, K. R., y J. E. Householder: Introduction to the Statisti cal Method, Alfred A. Knopf, Inc., Nueva York, 1962, cap. 1. 4. Hays, W. L .: Statistics, Holt, Rinehart and Winston, Inc., Nueva York, 1963, pp. 1-12. 5. Tippett, L. H. C .: Statistics, 2? ed., Oxford University Press, Nueva York, 1956. 6. Walker, H. M .: Mathematics Essential for Elementary Statistics, Henry Holt and Co., Inc., Nueva York, 1951. 7. Waliis, W. A. y H. V. Roberts: Statistics: A New Approach, The Free Press of Glencoe, 111., Chicago, 1956, caps. 1-3. E s t e capítulo tien e p o r objeto esbozar en líneas generales las re laciones existentes e n tre las proposiciones teóricas, las hipótesis em píricas, la m edida y los m odelos m atem áticos. M uchos de los problem as trata d o s en este capítulo no suelen exam inarse en conexión con los cursos de estadística, lo que se debe en p arte a la tendencia poco afo rtu n ad a consistente en dividir la m ateria en cursos con las apelaciones de "te o ría ”, "m étodos de investiga ción” y "estad ística”. E sto ocasiona que las relaciones internas e n tre dichas m aterias resu lten a veces oscurecidas. Con objeto de situ a r a la estad ística en la debida perspectiva, conviene pres ta r atención a las relaciones e n tre las proposiciones teóricas y las hipótesis de investigación p o r u n a p arte, y e n tre estas ú lti m as y los m odelos m atem áticos p o r la otra. Se suele decir con frecuencia que el objeto de la investigación está en v erificar hipótesis desarrolladas teóricam ente y que los m étodos estadísticos capacitan p a ra efectu ar dichas pruebas. Hay que te n e r p resente, sin em bargo, que los procesos im plicados en p asa r de la teo ría a las hipótesis reales de investigación y de éstas a los enunciados de probabilidad del tip o em pleado en la inferencia estad ística no son en m odo,alguno directos. En efecto, en am bos casos hay que to m a r decisiones, las cuales pueden d ar lu g ar a u n grado considerable de controversia. Exam inem os p rim ero el ca rác te r de las decisiones que se req u ieren p a ra des arro llar, a p a r tir de proposiciones teóricas, hipótesis verificables. *11.1. Teoría e h ip ó te sis: definiciones operativas E n el in stan te en que em pezam os a diseñar u n proyecto de inves tigación enderezado a verificar u n a proposición que puede apa recer en u n tra b a jo teórico, re su lta evidente que h ay que h acer varias cosas an tes de p o d er p ro ced er a la prueba. Tom em os a títu lo de ejem plo concreto la siguiente proposición: "Cuanto m ás elevada es la condición social de u n a persona, tan to m en o res son sus prejuicios en relación con los negros.” Supongam os que la "condición social” se haya definido com o la posición que la p erso n a ocupa en relación con o tras en la je ra rq u ía social, y los "p reju icio s" com o tendencia latente a la discrim inación de * El asterisco que precede una sección, párrafo o ejercicio indica que la materia que contiene o es de comprensión difícil o trata de conceptos con los que probablemente no están familiarizados los estudiantes que sólo disr ponen de una preparación limitada en materia de metodología de investiga ción. El estudiante principiante puede perfectamente omitir dichos pasajes o leerlos superficialmente. Por su parte, el asterisco que precede al título de una sección indica que la sección entera puede omitirse si se quiere. 22 u n a m in o ría o com o a c titu d negativa b a sa d a en juicios preform ados. Aun si sé p re fie re s u stitu ir p o r o tra s las definiciones de esos dos conceptos, se d e sc u b rirá sin d u d a alguna que, cuales q u iera que sean las definiciones escogidas, re su lta im posible s e r v irse d irectam en te de ellas p a ra decidir cuál sea exactam ente la condición de Jones, pongam os p o r caso, o el grado de sus p r e juicios. La razón de ello resid e en que la m ayoría d e las proposiciones son m ás bien teóricas q u e operativas. E n la definición teórica, en efecto, u n concepto se define en térm inos d e o tro s conceptos que se d an p o r com prendidos. E n el m odelo ideal del sistem a co m pletam ente deductivo, se to m arían ciertos conceptos sin d e fin ir (p rim a rio s), y todos los dem ás se definirían en térm inos de aquéllos. E n la g eom etría euclidiana, p o r ejem plo, los con ceptos de p u n to y recta pueden to m arse sin definir, pudiendo luego d efinirse las nociones d e ángulo, triángulo o rectángulo en fu nción de aquellos térm inos. Pese a que la elección de conceptos n o definidos es h a s ta cierto p u n to a rb itra ria , el hecho de que ten g an que ex istir siem pre algunos conceptos p rim ero s o p rim ario s re su lta de la necesidad in h ere n te de definir los con cep to s teóricos en térm in o s unos de otros. P or o tra p arte , las definiciones operativas son definiciones que enuncian efectivam ente los procedim ientos em pleados en la m e dición ([8 ], pp. 58 a 65). La definición op erativ a de "lo n g itu d ”, p o r ejem plo, in d icará exactam ente cóm o deba m ed irse el largo de u n cuerpo. El ejem plo de u n a definición o p erativ a del p re ju icio im p licará u n a p ru e b a com o la de la escala d e la distancia social de B ogardus o, ta l vez, u n a relación de conceptos a n ti negros en u n a lista de 24 puntos, ju n ta m e n te con instrucciones d etallad as p a ra recoger los datos, v alo ra r los puntos, etbétera. Como q u iera que to d a m edición im plica com o re q u isito m ínim o alguna clasificación, la definición o p erativ a p u ed e co n sid erarse com o u n co n ju n to d etallad o de instrucciones q u e p erm iten cla sificar a los individuos en fo rm a inequívoca. De este m odo, la noción del grado d e confianza o g aran tía de seguridad queda in teg ra d a en dicho concepto de la definición operativa. La defini ción h a de se r lo b a s ta n te p recisa p a ra que todas las personas q ue se sirvan del p rocedim iento lleguen a los m ism os resultados. Lo q ue las definiciones teóricas del p reju icio y de la condición, social consignadas m ás a rrib a no lo p erm itirán , p o r supuesto, di rectam en te. S ostenem os, pues, que en to d a ciencia se utilizan dos tipos dis tin to s de definiciones. D iversas m aneras altern ativ as de en fo car la relación e n tre la te o ría y la investigación conducen esencial m en te a la m ism a conclusión. N o rth ro p designa lo que hem os llam ado definiciones teóricas com o "conceptos p o r postu lació n ”, y las definiciones operativas com o “conceptos p o r intuición" [9]. P o r n u estra p a rte nos hem os servido de u n a term inología que p arece im p licar que hay dos m aneras distintas de definir un "m ism o ” concepto, en tanto que N orthrop p re fiere referirse a dos tipos distintos de conceptos. Otros, todavía prefieren pen sar en térm inos de índices, m ás que de definiciones operativas. El concepto de índice im plica p o r lo regular que el procedim iento em pleado da sólo un indicador im perfecto de alguna variable señalada que no es m edible directam ente. De acuerdo con este pu n to de vista, pues, hay dos cosas: u n a variable señalada y un in dicador de esta variable. Pero, independientem ente del punto de vista que cada cual prefiera, es indispensable com prender el carácter del nexo en tre ias dos clases de definiciones, de concep tos o de variables. Podem os p re g u n ta r si existe o 210 un m étodo p u ram en te lógico de ju n ta r las dos clases de definiciones. O tra fo rm a de p lan tea r la cuestión consistiría en p re g u n ta r si existe o no m odo lógico alguno de decidir si una definición operativa d eterm in ad a (o un índice) m ide "realm en te” el concepto o la variable teó ricam ente definidos. La resp u esta a am bas cuestio nes p arece ser negativa. N o rth ro p sostiene esencialm ente que no hay m an era alguna de asociar las dos clases de conceptos o definiciones, excepto p o r vía de convención o de com ún acuerdo. La gente en general está sim plem ente de acuerdo en que debería em plearse u n a determ i n ad a definición operativa como m edida de u n determ inado con cepto, si las operaciones parecen razonables sobre la base de la definición teórica. Puede p resu m irse que, si varias definiciones operativas son posibles, se escogerán aquellas que parecen m ás apropiadas y al m ism o tiem po m ás seguras. El ca rác te r de “apro p iado” h a de juzgarse inevitablem ente sobre la b ase de la com prensión que uno tiene de la definición teórica. Se em plea a veces el térm in o de validez aparente p a ra designar el carácter ap ropiado de u n índice o de una definición operacional ([11], p. 165). Idealm ente, según lo señala B ridgm an, las operaciones y las definiciones teóricas h ab ría n de asociarse sobre la base de u n o a uno ([2 ], pp. 2 3 ss). O en o tro s térm inos, si cam biam os la operación, deberíam os servirnos de o tro concepto. Sin em bargo, sem ejante ideal es tal vez irre al en el estad o actual de desarrollo de las ciencias sociales. Su aplicación conduciría sin du d a alguna ya sea a u n a rigidez capaz de ahogar todo nuevo progreso m etodológico o a u n a proliferación de conceptos teó ricos [1]. ¿Qué puede hacerse, pues? Podem os a d m itir la posibilidad de ten er asociado un núm ero de diversas operaciones o de índices a cada concepto teórico. Pero en tal caso podem os en contrarnos con una dificultad com ún: dichos procedim ientos pueden d ar resu ltad o s d istintos. Uno de los procedim ientos em pleados p a ra m ed ir el p reju icio puede llevar a resultados que indiquen que n u estra "h ip ó tesis” h a sido confirm ada. E n ta n to que, en otro caso, o tro procedim iento puede conducir a la conclusión opues ta. E n cierto sentido, así es com o se opera el progreso, a condi ción de que no conduzca a u n a disp u ta interm inable acerca de cuál p rocedim iento m ide "realm en te” el p reju icio (cuya esencia se supone co m prendida). Con objeto de prev en ir confusiones im p o rta darse cuenta de que la prueba efectiva se hace en tér m inos de los conceptos tal com o se los ha definido opéracionalm ente. Por lo tanto, ¡as proposiciones que com portan conceptos definidos teóricam ente no son verificadles directam ente. Así, pues, si se dan dos definiciones operativas d istin tas del p reju icio se verificarán dos hipótesis distintas. Se h a adm itido que puede re su lta r deseable ten er asociada m ás de una operación con cualquier concepto teórico dado, y se ha señalado que sem ejantes operaciones pueden conducir a re su lta dos diversos. E stam os ah o ra en condiciones de p ro p o rcio n ar un criterio eficaz, pragm ático, p a ra una definición teórica em pírica m ente satisfacto ria del concepto. Supongam os que tenem os un concepto definido teóricam ente y varias definiciones operativas susceptibles de asociarse con dicha definición teórica. S obre la base de esta ú ltim a definición, la m ayoría de los científicos esta rá n p ro b ablem ente de acuerdo en que algunas de las operaciones d eb erían elim inarse p o r cuanto no se aplican a lo que está con tenido en la definición teórica. Pueden decidir, p o r ejem plo, que las p reg u n tas relativas a las tendencias delictivas o los gustos m usicales no deberían em plearse p a ra m ed ir el prejuicio. Pero puede h ab e r varias operaciones que ocupen m ás o m enos el m is m o lu g ar en la opinión de dichos jueces. E n o tro s térm in o s: sobre la b ase de la definición teórica, los expertos pueden no e s ta r en condiciones de ponerse de acuerdo acerca de que u n de term in ad o p rocedim iento operativo debiera escogerse con p re fe ren cia a otros. Podem os decir en tal caso que, en la m edida &n que dichos diversos procedim ientos dan resultados diferentes (en igualdad de circu n stan cias), la definición teórica es deficiente, en el sentido de que necesita p robablem ente revisión o aclara ción. P o r ejem p lo : el concepto prejuicio p u ed e acaso hab erse de finido de tal m odo que re su lte dem asiado vago. Tal vez se consi d e ra rá necesario d istin g u ir en tre varias clases o dim ensiones del prejuicio, asociando operaciones d istin tas a cada u n a de ellas. En u n a fo rm a p o r el estilo de ésta —que se la reconozca explícita m en te o no—, el proceso de investigación puede utilizarse p a ra ay u d ar a ac la rar los conceptos teóricos. Parece, pues, h ab e r en esta form a, dos lenguajes distintos, re lacionados. p o r u n a especie de diccionario al que se h a llegado p o r consenso, que perm ite asociar los conceptos de u n o de ellos con los del otro. Los científicos piensan en el lenguaje teórico y realizan sus experim entos en el lenguaje operativo. No es ne cesario aso ciar operaciones con todos los conceptos del lenguaje teórico. Sin em bargo, im p o rta p ercatarse de q u e los conceptos que n o h an sido definidos operativam ente n o deberían p o r lo re g u la r ap a rec er en enunciados que p reten d en co n stitu ir hipóte sis com probadas. E n efecto, si esto ocurre, las cuestiones plan tead as p o r las "hipótesis" carecerán p o r lo re g u lar de sentido desde el p u n to de vista operativo y conducirán probablem ente a u n d eb ate interm inable. II.2. E l nivel de m e d ició n : escalas nom inóles, órdinales y d e intervalo A cabam os de v er que el proceso consistente e n p a sa r de los con ceptos definidos teóricam ente a los definidos o p erativam ente no es en m odo alguno directo. E n efecto, al aso c ia r u n ,tipo de con cepto con el otro , h an de tom arse ciertas decisiones. Y en fo r m a análoga, el proceso enderezado a seleccionar el m odelo m a tem ático o estadístico apro p iad o p a ra em plearlo en u n a técnica de investigación determ in ad a o en un procedim iento operativo co m p o rta asim ism o cierto núm ero de decisiones im portantes. P odría acaso pen sarse que, u n a vez que un fenóm eno h a sido m edido, la elección de u n sistem a m atem ático sería cosa de sim ple ru tin a. E sto depende de lo q u e se en tien d e p o r m edida. Si em pleam os el térm in o p a ra re fe rim o s ún icam en te a aquellos ti pos de m édición usu alm en te em pleados en u n a ciencia com o la física ( v.gr. la m edición d e la longitud, del tiem p o o la m asa), entonces la elección de u n sistem a m atem ático n o constituye p rácticam en te problem a. P ero si am pliam os el concepto de la m edición p a ra incluir en él ciertos procedim ientos m enos preci sos de em pleo co rrien te en las ciencias sociales com o se h a rá en este texto, en to n ces el p roblem a se hace m ás com plejo. Podem os, pues, d istin g u ir e n tre distin to s niveles de m edición, y habrem os de en c o n tra r diversos m odelos estadísticos ap ro p iad o s a cada u n o de ellos.1 Escalas nom inales. La operación básica y a la vez m ás sencilla en toda ciencia es la de la clasificación. Al clasificar trata m o s de sep arar elem entos desde el p u n to de vista de determ inadas ca racterísticas, decidiendo acerca de cuáles son m ás sem ejantes y cuáles m ás distintos. N u e stro p ropósito consiste en agruparlos p o r categorías que sean lo m ás hom ogéneas posible en com pa ración con las diferencias e n tre las categorías. Si la clasificación es ú til, se verá que las categorías son tam bién hom ogéneas con resp ecto a otras variables [10]. Así p o r ejem plo, agrupam os unas p ersonas de acuerdo con sus respectivas religiones (m etodistas, p resb iterian o s, católicos, etc.) y vem os si la religión g u ard a al 1 Para exámenes más detallados de estos distintos niveles de medición véanse [5], [7], [12] y [13]. guna relación con el preju icio o el conservadurism o político. Po dríam os acaso h allar que los p resb iterian o s tienden a se r m ás conservadores que los católicos, siendo las puntuaciones de aquéllos relativam ente altas en com paración con éstos. Si se hu b ie ra n seleccionado los individuos según el color del pelo, criterio de clasificación perfectam ente adecuado, probablem ente n o se h ab ría n en contrado diferencias significativas e n tre las clases en relación con o tras variables estudiadas. E n otros térm in o s: las diferencias en tre las clases de color del pelo h ab rían sido ligeras en com paración con la s diferencias den tro de cada categoría. Así, pues, la clasificación es fundam ental p a ra toda ciencia. Todos los dem ás niveles de m edición, cualquiera que sea su p re cisión, com prenden básicam ente la clasificación com o operación m ínim a. Podem os, pues, considerar la clasificación com o el nivel m ás b a jo de m edición, en el sentido m ás am plio del térm ino. Damos a las categorías nom bres arb itra rio s, a m an era de etique ta s convenientes, sin fo rm u lar supuesto alguno acerca de las relaciones en tre aquéllas. Así p o r ejem plo, colocam os a los p res b iterian o s y a los católicos en c a te g o ría s, distintas p ero n o p re suponem os que los u nos sean "m ayores que" o "m ejores" que los otros. A condición de que las categorías sean exhaustivas (que com prendan todos los casos) y no se superpongan o se excluyan m u tu am en te (q u e ningún caso figure en m ás de u n a categoría), tenem os las condiciones m ínim as necesarias p a ra la aplicación de los m étodos estadísticos. Se h a utilizado la expresión de es cala nom inal con referencia a ese nivel, el m ás sim ple de todos, de m edición. Desde el p u n to de vista form al, las escalas n o m i nales poseen las propiedades de sim etría y transitividad. P or sim etría entendem os q u e una relación q u e sea v erd ad e n tre A y B lo es tam bién e n tre B y A. En ta n to que p o r tran sitiv id ad en tendem os que si A = B y B = C, entonces A — C. R esum ido, esto significa sim plem ente que si A está en la m ism a clase que B, o en una clase distinta, B está en la m ism a clase que A, o en u n a clase distin ta, respectivam ente, y que si A y B están en u n a nism a clase y B y C tam bién en u n a m ism a clase entonces A y C han de e sta r tam bién en la m ism a clase. H ab ría que señ alar que los núm eros pueden asociarse a rb itra riam en te con cada categoría, p ero esto n o autoriza en ningún m odo el em pleo de las operaciones aritm éticas usuales con di chos núm eros. La función de los núm eros, en este caso, gs exac tam en te la m ism a que la de nom bres, esto es la de designar las categorías. E s obvio que no ten d ría sentido alguno adicionar cifras de seguridad social y núm eros de cu arto s e n u n hotel. Pese a que nunca caerem os en la tentación de efectu ar u n a operación tan ridicula com o ésta se dan casos, sin em bargo, en la inves tigación científica social, en que el ab surdo n o re su lta en m odo alguno tan obvio. Así pues, pese a que los valores num éricos pu ed an a trib u irse a rb itra ria m e n te a diversas categorías el em pleo de ciertas operaciones m atem áticas de las m ás corrientes (sum a, resta, m ultiplicación y división) requiere, con todo, la ejecución de ciertas operaciones m etodológicas en el procedim ien to de clasificación. Tendrem os en breve ocasión de v er cuál deba se r el c a rá c te r de dichas operaciones. Escalas ordinales. R esulta a m enudo posible o rd e n a r las cate gorías según el grado en que poseen u n a carac te rístic a determ i nada, sin que p o r ello estem os en condiciones de decir cuántas poseen. Así pues, nos representam os u n sim ple continuo a cuyo largo pueden o rdenarse los individuos. Tal vez podam os colocar a los individuos de tal m odo que nu n ca estén dos en el m ism o lu g ar del continuo. Sin em bargo, p o r lo re g u lar existirá cierto n úm ero de conexiones. E n tal caso n o estam os en condiciones de distin g u ir e n tre determ inados individuos, y los hem os ag ru p a do ju n to s en u n a m ism a categoría. P ero estam os en condiciones, con todo, es d ecir que todos esos individuos tienen puantuaciones su p eriores a las de o tro s individuos determ inados. Podem os, p o r ejem plo, clasificar fam ilias conform e a su respectivo estado socioeconóm ico, en "su p e rio r”, “m edia superior", “m edia infe rio r" e “in fe rio r”. P odríam os incluso lim itarn o s a dos catego rías, la "su p e rio r" y la "in ferio r”. El tipo de m edición que estam os exam inando se sitú a m ani fiestam en te a u n nivel algo su p e rio r al que em pleam os p a ra obte n e r u n a escala nom inal, ya que con ella podem os n o sólo ag ru p ar a los individuos en categorías separadas, sino o rd e n a r adem ás estás categorías unas con resp ecto a las o tras. D esignam os este nivel de m edición cóm o “escala o rd in al”. A dem ás de poseer las p ropiedades sim étricas de la escala nom inal, la escala ordinal es asim étrica en el sentido de que algunas relaciones especiales pue den ser verd ad e n tre A y B y no serlo, en cam bio, e n tre B y A. Así p o r ejem plo, la relación “m ay o r que" ( > ) es asim étrica, p o r cu an to si A > B , no puede se r cierto que B > A. La transitividad, en cam bio, sigue subsistiendo, ya que si A > B y B > C ,\entonces A > C. Son estas propiedades, p o r supuesto, las que nos perm iten colocar A, B , C . .. a lo largo de u n m ism o continuo. Im p o rta a d v e rtir que el nivel o rd in al de m edición n o nos p ro porciona inform ación alguna acerca de la m agnitud d e las diferen cias e n tre los elem entos. E n efecto sabem os solam ente que A es m ayor que tí, p ero n o sabem os cuánto m ayor sea. Como tam poco podem os decir que la diferencia e n tre A y B sea m en o r que la que hay e n tre C y D.2 P o r consiguiente, n o podem os adicionar o re s ta r d istancias sino en u n sen tid o m uy restrin g id o . Así p o r ejem plo, si tuviéram os las siguientes relaciones 2 Se ha empleado el término métricamente ordenado para designar escalas en las que es posible ordenar la magnitud de las diferencias entre elemen tos. Véase [73. --------- 1-------------- 1----------------- ¡------ 1---------D C B A podem os decir que la distancia AD = AB + BC + CD p ero no podem os tr a ta r de co m p arar e n tre sí las distancias AB y CD. E n o tro s térm inos, cuando tran sfo rm am o s relaciones de ord en en operaciones m atem áticas, no podem os p o r lo regular servirnos de las operaciones usuales de sum a, resta, m ultiplica ción y división. E n cam bio, sí podem os em p lear las operaciones "m ayor q u e" y “m e n o r q u e ”, siem pre que esto p re sen te alguna utilidad. Escalas de intervalo y de proporción. E n el sentido restrin g id o de la p alab ra, el térm in o m edida puede em plearse p a ra designar casos en los que n o sólo estam os en condiciones de o rd e n ar o b jeto s según el grado en que poseen u n a carac te rístic a d eter m inada, sino que podem os in d icar asim ism o la distancia exacta e n tre ellos. Si esto es posible, podem os o b ten er lo que se designa com o u n a escala de intervalo. No re su lta difícil co m p ren d er que el nivel de m edición de escala de intervalo req u iere el estableci m ien to de algún tip o de u n id ad física de m edición que pueda co n sid erarse p o r todos com o u n a n o rm a com ún y sea repetible, esto es, que pueda aplicarse in d efin id am en te con los m ism os resu ltad o s. El largo se m ide en térm in o s de pie o m etros, el tiem po en segundos, la te m p e ra tu ra en grados F ahrenheit o cen tíg rad o s, el p eso en lib ras o gram os, y el ingreso en dólares, etcé tera . P o r o tra p arte , n o existen u nidades sem ejantes de inteli gencia, au to rid a d o prestigio, en las que todos los sociólogos p u ed an p o n erse de acu erd o y de las que se pueda su p o n er que perm an ecen co n stan tes d e u n a situación a o tra. D ada u n a unidad de m edida, re su lta posible decir que la d iferencia e n tre dos m a r cas es de veinte unidades, o que u n a d iferencia es dos veces m a y o r que o tra. E sto significa que es posible adicionar o re s ta r m arc as en fo rm a análoga a com o añadim os pesas a u n a balanza o quitam os 6 pulgadas de u n a ta b la con u n a sie rra ([3 ], pp. 296 a 298). Y en fo rm a sem ejan te podem os adicionar los ingresos de m arid o y m u jer, en ta n to que carece d e sen tid o ad icio n ar sus cu o tas de inteligencia (IQ ). Si adem ás es posible situ a r en la escala u n p u n to cero absoluto o n o arb itra rio , entonces tenem os u n nivel de m edición algo m a yor, que suele designarse com o escala de razón ( ratio scale). En ta l caso estam os en condiciones de co m p arar m arcas sirviéndo nos de sus proporciones. Podem os, p o r ejem plo, decir que una m arca es dos veces m ás a lta que o tra. Si el p u n to cero fu era arb itra rio , com o es el caso en las escalas de grados centígrados y de F ah renheit, aquello n o sería legítim o. Así, p o r ejem plo, no decim os que 70° F ahrenheit son el doble de 35° centígrados si bien podem os decir que la diferencia e n tre dichas tem p eratu ras es la m ism a que en tre 105c y 70° F ahrenheit. S in em bargo, p rác ticam ente en todos los casos que conoce el au to r, e s ta distinción e n tre escala de intervalo y escala de proporción es p u ram en te académ ica, ya que es ex trem adam ente difícil e n c o n tra r u n a es cala legítim a de intervalo que n o sea al propio tiem po u n a escala de proporción. E sto se debe al hecho de que, u n a vez establecida la m ag n itu d de la unidad, es casi siem pre posible concebir cero unidades, p ese a que nunca podam os h a lla r u n cuerpo que no posea largo o m asa, u o b ten er u n a te m p e ra tu ra de cero 'ab so lu to . Así pues, p rácticam en te en todos los casos en que se dispone de una unidad, será legítim o em plear todas las operaciones corrien tes de la aritm ética, incluidas las raíces cuadradas, las potencias y los logaritm os. * S uscítanse algunas im p o rtan tes cuestiones acerca de la legiti m idad de servirse de escalas de intervalo en el caso de cierto n ú m ero d e variables sociológicas y sociopsicológicas. In fo rtu nad am en te, no re su lta posible d iscu tir estas cuestiones e n detalle en u n texto general com o el p resen te, p ese a lo cual vam os a m encionar brevem ente alguna d e ellas. Se sostiene en ocasiones que u n a variab le como, p o r ejem plo, el ingreso n o constituye en realidad, si se calcula en dólares, u n a escala de intervalo ya que u n a diferencia de $ 1 000 posee u n significado psicológico distinto según que se dé e n tre ingresos de $ 2 000 y $ 3 000 o e n tre ingre sos de f 30 000 y $ 31 000. Al parecer, este argum ento confunde la cuestión. P o rq u e lo q u e aquí se dice efectivam ente es que el in greso calculado en dólares y el "ingreso psicológico" (a suponer que se lo p u ed a m ed ir en térm inos de alguna u n id a d ) n o se rela cionan d irectam en te o en fo rm a lineal. Y esto es u n a cuestión de hecho q u e carece d e im p o rtan cia e n relación con la cuestión de sab e r si existe o n o u n a u n id ad legítim a de m edida. * AI llevar a cabo la enum eración de actos de conducta, de p er sonas, de ocupaciones, o de grupos de diversa índole, se obten drán m uchas escalas de razón. La proporción de actos crim ina les, p o r ejem plo, se obtiene co n tan d o el nú m ero re g istrad o de tales actos y com parándolos con la b ase de población. La m a y o r p a rte d e n u estro s datos censales de ciudades, éstados o regiones, se ob tien en contando varias clases de gente y dividiendo las cifras así o b ténidas p o r la b a se de la población: p o r ciento urbano, p o rc en táje d e la fuerza de tra b a jo en situación de desem pleo, tam añ o pro m edio d e las fam ilias, p o rc en taje de n o blancos, etcétera. L a com plejidad de la división del tra b a jo puede ser m edida en función del núm ero de ocupaciones diferentes, o bien puede obten erse u n índice de la com plejidad organizativa contan do el n ú m ero de oficinas sucursales. E n ocasiones surgen dis cusiones acerca de si tales m ediciones constituyen realm ente "es calas de razón" (v er C olem an [4 ] p ara u n excelente planteam iento de este p ro b lem a). Si se tom a el p u n to de vista estricta m e n te operativo, según el cual la m edida utilizada constituye la defini ción d e la v ariable de in terés, cabrá poca duda de que se h ab rá así o btenido u n a legítim a escala de razón, y a que h an sido con tad as u n id ad es p recisas, y tales unidades h an sido tom adas com o equivalentes (y p o r ta n to in tercam b iab les). De esta, m anera, si añadim os a u n a d eterm in ad a población 1 000 negros y le re sta m os 1 000 blancos, harem os la suposición fun d am en tal de que, en ord en a la m edida usada, n o hay diferencia, b ien sean unos u o tro s los negros o los blancos im plicados. P o r o tra p a rte el p u n to cero está bien definido. La afirm ación de que el porcen ta je de n o blancos en u n a ciudad es igual a cero n o ofrece am bigüedad. * E n cu an tas ocasiones surge u n a discrepancia acerca de la ade cuación de las m edidas enum eradas, o de sí éstas legitim an la adopción de m ediciones relativas al nivel proporcional, experi m en to u n a vehem ente sospecha de que el p ro b lem a básico tiene u n c a rá c te r to talm en te distinto, a s a b e r: el de la relación e n tre la m ed id a u tilizad a y la construcción teó rica q ue in te n ta m edirse. P o r ejem p lo : la pro p o rció n de desem pleados puede s e r utilizada com o indicación del m al funcionam iento d e la eco n o m ía; u n p o r ce n ta je m in o rito rio, com o indicador de u n a am enaza p lan tead a p o r la m inoría, o u n p o rc en taje u rb a n o com o in dicador de la influencia ejercida p o r los valores urbanos. E n tales casos n u n ca p o d rá la estad ística resolver per se u n a controversia, re su l tan d o p o r ello necesario soslayar lo s p ro b lem as básicos, supo niendo, p o r el co n trario , q u e sólo nos in te re sa la variable que in ten tam o s m edir. * P u ed e su scitarse o tra cuestión a p ro p ó sito de si es posible o n o conseguir u n a escala de intervalo en m a te ria de m edición de la actitu d . Se h an efectu ad o varios in ten to s enderezados a con seguir dicho fin. E n el m éto d o T h u rsto n e d e los intervalos de aparien cia igual, se p ide a lo s jueces que agrupen objetos en m on to n es situ ad o s-a distancias iguales a lo largo del continuo de la ac titu d ([1 1 ], pp. 359 a 365). Se d iscu rre esencialm ente diciendo que, si se d a u n alto grad o de consenso e n tre los jueces, puede em p learse legítim am ente u n a escala de intervalo. E ste procedi m iento, así se sostiene, es esencialm ente el m ism o que se em plea p a ra o b te n e r escalas de intervalo en o tra s disciplinas. E ste argu m en to p arece legítim o, a condición q u e se dé efectivam ente u n alto grad o de consenso e n tre los jueces y a condición que éstos dispongan de u n gran n ú m ero de m ontones en los que se pu ed an clasificar los objetos. Así, p o r ejem plo, si se vieran obligados a clasificar los objetos en u n o de tre s o c u a tro m ontones, po d ría m os c o n tar con u n grado elevado de consenso, debido sim ple m en te a la to squedad del in stru m en to de m edición. H abría, en efecto, tal m argen de variabilidad d en tro de cada m ontón, que difícilm ente p o d ría sostenerse que los objetos de los diversos m ontones estaban a igual distancia unos de otros. P ero aun ad m itiendo u n a concordancia p erfec ta y la m áxim a lib ertad en el ag ru pam iento de los objetos en m ontones, aun así sigue el m étodo de T h u rsto n e p re sen tan d o dificultades p o r lo que se refiere al concepto de la u n id ad de referencia. Se hace necesario p o stu lar que es la existencia de dicha un id ad la que hace posible el acuer do e n tre los jueces. P uede afirm a rse razonablem ente que, en este p u n to del desarrollo de la m edición de la actitu d , la m ayoría de las técnicas dan unas aproxim aciones m uy m ediocres de las escalas de intervalo. P robablem ente de m uchas de ellas no de b iera siq u iera considerarse que proporcio nan escalas ordinales legítim as. Las consecuencias de ello p o r lo que se refiere al aná lisis estad ístico se irá n haciendo m ás claras a m edida que vaya m os avanzando. II.3. M edición y estadística Hem os visto que existen diversos niveles de m edición, con sus p ro piedades peculiares cada uno. Debe observarse que estos dis tin to s niveles fo rm an u n a escala cum ulativa ellos m ism os. En efecto, la escala o rdinal posee todas las p ropiedades de la escala nom inal adem ás de la ordinal. A su vez, la escala de intervalo posee todas las propiedades de las escalas nom inal y ordinal y, adem ás, u n a u n id ad de m edida, en ta n to que la escala de p ro p o r ción p re sen ta el nivel m ás elevado, ya que posee n o sólo una un id ad de m edida, sino, adem ás, u n cero absoluto. El carácter cum ulativo de estas escalas significa que, al analizar nuestros datos estam os siem pre autorizados a descender u n o o m ás gra dos en el nivel de m edición. E n efecto, si tenem os u n a escala de intervalo, tenem os al p ro p io tiem po u n a escala ordinal, y pode m os servirnos de esta circunstancia en n u estro s análisis estadís ticos. E sto re su lta rá a veces necesario, cuando no dispongam os de técnicas estadísticas o éstas sean en algún m odo deficientes en cu an to a m an ip u lar la variable com o escala de intervalo. Sin em bargo, al p ro c ed er así perdem os inform ación. Así, p o r ejem plo, si sabem os que Jones tiene u n ingreso de $ 11 000 y Sm ith un o de $ 6 000 y sólo nos servim os del hecho de que Jones cuenta con el m ayor de los dos ingresos en cuestión, entonces desperdi ciam os la inform ación relativa a que la diferencia de los ingresos es de $ 5 000. P o r lo tanto, en la m ayoría de los casos resu ltará v entajoso servirnos del nivel de m edición m ás alto que podam os legítim am ente adoptar. ¿Y qué pu ed e decirse del proceso inverso consistente en subir la escala de m edición, pasando, p o r ejem plo, de la ordinal a la de intervalo? E stam os a veces ten tad o s de hacerlo, ya que esta ríam os en condiciones de servirnos de técnicas estadísticas m ás poten tes. Es incluso posible que lo hagam os sin darnos cuenta en ab soluto de lo que h a sucedido exactam ente. Im p o rta p erca ta rs e de que no hay n a d a en los procedim ientos estadísticos o m atem ático s de los que nos servim os en ú ltim a instancia que nos p e rm ita verificar la legitim idad de n u estro s m étodos de in vestigación. E l em pleo de un determ inado m odelo m atem ático supone que se ha alcanzado cierto nivel de m edición. La respon sabilidad en cu anto a decidir si sus procedim ientos operativos p erm iten o no el em pleo de determ inadas operaciones m atem á ticas recae exclusivam ente sobre el investigador. É ste h a de deci dirse en p rim e r lu gar p o r el nivel de m edición adecuado, y esto decidirá a su vez acerca del sistem a m atem ático apropiado. En otro s térm in o s: u n determ inado m odelo m atem ático puede aso ciarse a cierto nivel de m edición conform e a las consideraciones exam inadas en la sección precedente. Así, p o r ejem plo, las ope raciones aritm éticas corrientes sólo pueden em plearse p o r lo re g u lar con las escalas de intervalo y de razón. * Nos en fren tam os aquí u n a vez m ás con el problem a de ten er que tra d u c ir de u n lenguaje a otro. El lenguaje operativo com p o rta determ in ad as operaciones físicas, tales com o el em pleo de u n a u n id ad de m edida. El lenguaje m atem ático, a su vez, im pli ca un sistem a to talm en te ab stra cto de sím bolos y operaciones m atem áticas, y es ú til no sólo porque es preciso y está altam ente d esarrollado1, sino debido tam bién a que su carác te r ab stracto p erm ite la aplicación a u n a gran variedad de problem as em píri cos. Las m atem áticas se sirven del razonam iento deductivo p o r el que se p asa de u n co n ju n to de definiciones, supuestos y reglas de operación a un conjunto de conclusiones m ediante u n razona m iento p u ram en te lógico. En sí m ism as, las m atem áticas n ad a nos dicen acerca de la realidad, ya que todas las conclusiones están contenidas en las definiciones, los supuestos y las reglas originales, no habiéndose determ inado em píricam ente. Así, pues, si h an de ser de alguna u tilid ad p ara el científico las conclusio nes m atem áticas han de trad u c irse inversam ente a los lenguajes op erativ o y teórico [5]. Sostenem os, pues, que n o es legítim o servirse de un sistem a m atem ático que com porta las operaciones de su m ar o re sta r, si esto no está legitim ado p o r el m étodo de m edición. Aunque el sentido de este hecho sólo nos re su ltará plenam ente claro cuando em pecem os a servirnos de las diversas escalas de m edida, esta m os diciendo en realidad que no podem os re m o n ta r legítim am en te en la jera rq u ía de m edición, a m enos que el proceso m ism o de la m edición haya sido m ejorado. Lo que ninguna m anipulación m atem ática puede hacer. ¿Cómo decidim os, pues, cuál nivel de m edición es el legítim o? In fo rtu n ad am en te , el p ro b lem a no es tan sencillo com o p o d ría suponerse. Unos pocos ejem plos b astarán p a ra d ar u n a id ea de la com plejidad del m ism o. * P ara ilu s tra r u n o de estos problem as es necesario distinguir las escalas ordinales y de in terv alo de la escala parcialm ente or denada que re su lta de la com binación de dos o m ás escalas ord i nales (o de in terv alo ) en u n solo- índice. O curre con frecuencia, en sociología y en las o tras ciencias sociales, que aquello que p o r lo p ro n to p arece ser u n a sim ple escala o rdinal (o de intervalo) es en re alid ad u n a com binación de varias escalas o rd in ale s (o de in terv alo ), con el re su ltad o de que no puede h acerse u n a clasifi cación inequívoca de individuos sin a d o p ta r p rev iam en te ciertas o tra s decisiones. Tom em os, p o r ejem plo, el caso de la condición socioeconóm ica. P or lo regular, solem os d eterm in a r la condi ción de u n a p erso n a exam inando cierto núm ero de crite rio s distin tos, tales com o su ingreso, ocupación, educación, antecedentes fam iliares o la zona de residencia. Si A se clasifica m e jo r que B según todos y cada uno- de dichos criterios, entonces A puede obviam ente clasificarse com o m ás alto que B p o r lo que se refie re a la condición general. Pero, ¿qué o cu rre si A tien e u n ingreso su p erio r al de B , y éste, en cam bio, u n no m b re de fam ilia m ás p ro m in en te? ¿Cuál de los dos ocupa e n este caso el m e jo r rango social? Tenem os aquí v aria s/a lte rn ativ as. La p rim e ra consiste en d e ja r de lado la noción de condición general y p e n sa r en térm inos de dim ensiones sep arad as de la m ism a, cada u n a de las cuales p u ed a acaso a d m itir u n nivel o rd in al de m edición. T erm inam os así n o con una, sino con varias escalas ordinales, y la cuestión em p írica está en sa b e r h a sta qué p u n to las d istin tas dim ensiones pu ed an relacionarse e n tre sí. P o r supuesto, si existe u n a relación p erfec ta e n tre to d as las dim ensiones, la cuestión se convierte en p u ram en te académ ica, y a que A, si es su p erio r a B en cada u n a de las dim ensiones, lo será tam b ién e n todas ellas. E n la p rá c tica, sin duda, e sto no o cu rre nunca. * N u e stra segunda altern ativ a consiste en tr a ta r de " fo rz a r” la aplicación de u n a escala o rdinal a los datos, ad o p tan d o algunas decisiones acerca del peso relativ o de cada dim ensión y de las equivalencias que ello im plica. Así, p o r ejem plo, si podem os ad m itir que u n año suplem entario de in stru cció n equivale a $1 338.49 de ingreso su p lem entario, podem os tra d u c ir las un id ad es educa tivas en u n id ad es de ingreso, llegando así a u n a escala unidim en sional. O bviam ente, el p roblem a de tra d u c ir los antecedentes fa m iliares o el área de residencia es m ás com plicado todavía. El m éto d o de m edición que aquí estam os exam inando co m porta un tip o de con stru cción de índice. B aste decir que sem ejan te cons tru cció n de índice com porta usu alm en te algunas decisiones arb i tra ria s a p ro p ó sito de los pesos relativos que haya que a trib u ir. Si el sistem a d e ponderación se d e ja ju stific ar, entonces puede em plearse u n a escala o rd in al; en caso contrario, subsiste la duda acerca de si los individuos pueden o no clasificarse legítim am en te en relación con el rango. * U no de los m étodos com únm ente em pleados p a ra obtener una escala ordinal consiste en servirse de uno o m ás jueces p ara clasificar a los individuos conform e a u n criterio como, p o r ejem plo, el del po d er o del prestigio. Supongam os, p a ra sim plificar, que no hay m ás que un juez y que se le ha im puesto la tare a de clasificar a los individuos según su “posición social” en la locali dad. Suponiendo que la p ersona coopere, el m étodo em pleado nos garan tiza la obtención de u n a escala o rdinal independiente m en te de cóm o los individuos se com paren realm en te a los ojos del juez. Es posible que, si se h u b iera em pleado otro m étodo, no se h a b ría obtenido escala ordinal alguna. Si se h u b iera utili zado u n a técnica de com paraciones apareadas, en la que se p ro n u n ciaran juicios en tre cada com binación p o r pares, el juez po d ría h ab er tasado a Sm ith m ás alto que a Brown, a éste m ás alto que a Jones, p ero a este últim o m ás alto que al prim ero, S m ith; violando en esta form a la propiedad de tran sitiv id ad de las esca las ordinales. El investigador h a de proceder ah o ra a u n a elección. Puede llegar a la conclusión de que existe u n a escala parcial m ente o rd en ad a de u n a clase u otra. O puede considerar que el juez es inconsecuente o com ete “e rro r”. Como lo' señala Coombs, este pro b lem a relativo a lo que haya que designar como e rro r de m edición es un dilem a básico1con el que se en cu en tra el sociólofo ([7 ], pp. 485 a 488). E n térm inos generales, éste puede adop ta r u n alto nivel de m edición y considerar las desviaciones del tip o que se acaba de señalar com o erro res de m edición, o puede d escen d er a u n nivel m ás b ajo de ésta. * Puede ilu strarse el m ism o dilem a en el caso de la escala de G uttm an. E n el tipo perfecto de ésta, las preg u n tas tienen una p ro p ied ad cum ulativa que ju stifica la adopción de u n a escala o rd in al [14]. Las preg u n tas pueden o rdenarse de m odo que se vaya pasando de un lím ite in ferio r a u n lím ite superior, de tal m odo que el tipo exacto de re sp u esta de un individuo pueda rep ro d u cirse a p a rtir de su puntuación total. Así, p o r ejem plo, si se tienen cinco problem as aritm éticos que vayan del m ás fácil al m ás difícil, la p ersona que resuelva el m ás difícil e s ta rá tam bién lógicam ente en condiciones de resolver los m ás fáciles. Si resuelve co rrectam ente tre s de los problem as, éstos serán los tres m ás fáciles, fallando en los otros dos. E n u n a escala perfec ta de d istancia social, las preg u n tas relativas al p rejuicio pueden disponerse conform e al grado de la intim idad de contacto con la m inoría considerada. U na persona que esté dispuesta a casarse con un negro, e sta rá dispuesta, p o r supuesto, a vivir en la m ism a calle que uno de ellos; si lo acepta como vecino, no te n d rá in conveniente en sen tarse a su lado en el autobús. Así, pues, pode m os v er e n la escala p e rfe c ta de G uttm an que la p erso n a que co n teste afirm ativ am en te c u a tro p re g u n ta s h a b rá co n testad o exac tam en te las m ism as que u n a p erso n a con tre s afirm aciones, m ás una. Si la escala sólo estu v iera p arcialm en te ord en ad a, p o d ría decirse que en ciertos aspectos A tien e m ás p reju icio s que B, y en o tro s aspectos m enos, ya que los dos individuos h a n acep tad o com binaciones d istin tas de preguntas. * Sin em bargo, en la p rá ctica ra ra m e n te alcanzam os u n a escala p erfec ta de G uttm an, si es q u e la alcanzam os alguna vez. E n efec to, h ay siem p re algunas p ersonas cuyo tip o de re sp u estas se des vía del tipo ideal. ¿S on éstas acaso inconsecuentes p o rq u e acep ta n a u n neg ro com o vecino p e ro se niegan a se n ta rse a su lado en el au to b ú s? T al vez. Pero, p o r o tra p arte , tal vez no sea así. A m enos que el in vestigador esté d ispuesto a suponer q u e dispone de u n a escala o rd inal legítim a, n o puede so sten er que el individuo consid erad o com eta e rro r. Y si el n ú m ero de e rro re s alim enta, em pezam os a so spechar de n u e stra escala. P or o tra p a rte , siem p re estam o s dispuestos a to le ra r cierto n ú m ero relativam ente p equeño de erro res. Es este p rin cip io el que se h alla a la base de la decisión relativ a a a c e p ta r la escala de G u ttm an com o escala ordinal, si el n ú m e ro de erro res, m edido p o r el coeficiente de rep ro d u ctib ilid ad , es m uy pequeño. Sin em bargo, conviene p er catarse del hecho de que la decisión es h a sta cierto p u n to arb i tra ria , y de que en ú ltim a in stan cia nos en fren tarem o s con el p ro b lem a de d ecidir a qué debam os llam ar erro r. * E sto s ejem plos deberían b a s ta r p a ra in d icar que n o siem pre es cosa fácil d ecidir cuál tip o de escala pueda em p learse legíti m am ente. Desde u n pu n to de vista ideal, h a b ría que servirse de u n a técnica de reu n ió n de datos que p e rm ita los niveles m ás bajos de m edición, si éstos son los únicos que los datos adm iten, antes que re c u rrir a técnicas que ad a p te n violentam ente la escala a los datos. Así, pues, el m étodo de las com paraciones ap aread as sólo d a rá u n a escala ordinal si el juez está efectivam ente en condi ciones de clasificar a los individuos. P or o tra p arte, si se !e in v ita a colocarlos en u n orden preciso de clasificación, h ab rá de hacerlo, así crea o n o que esto puede lograrse legítim am ente. H abiéndose servido de este últim o m étodo de reunión de datos y no estan d o en condiciones de d e m o stra r em píricam ente que los individuos pueden o rd en arse sin vio len tar los datos, h ab rá de suponer la existencia de u n solo continuo. Con o b jeto de in sistir en el hecho de que toda técnica estadís tica co n sid erad a presupone siem pre u n nivel específico de me dición, nos aco stu m b rarem o s a in d icar siem pre el nivel de m edición re q u erid o p o r cada procedim iento. Al elegir e n tre p ro cedim ientos alternativos u n a de las preg u n tas m ás im p o rtan tes a fo rm u lar es é s ta : "¿E s legítim o a c ep tar el nivel de m edición que u n a d eterm in ad a técnica re q u ie re ? ” Si no lo es, ta l vez deba e n c o n trarse u n pro cedim iento alternativo. S i la ú n ica considera ción fuese el nivel de m edición, se sim plificaría el p roblem a de la elección e n tre pro cedim ientos alternativos. E n co n tram o s con frecuencia, sin em bargo, que ciertos procedi m ientos que n o tien en gran d es exigencias en c u a n to a la m edida, y que p o r ta l razón p arece n preferibles, re su lta n m enos satisfac torios en relación con o tra s ca racterísticas deseables. Así se ve u n o e n fre n ta d o con decisiones difíciles, en las que está im plícita la n ecesidad de so p esar la seriedad relativ a de las diversas cla ses de p resunciones violadas. E n tales casos puede re s u lta r de seable an alizar n u estro s d ato s m ed ian te la aplicación de diferen tes m étodos, observando si las conclusiones así obtenidas difieren e n tre sí en fo rm a considerable. E n este p u n to puede o c u rrir que n u e stro exam en d e estos d iferen tes niveles de m edición y de los problem as de elección e n tre p ru e b as y m ediciones alternativas, no n o s ilu stre gran cosa. Uno de los peligros de la estad ística "de re cetario " consiste e n u n a excesiva sim plificación de los criterios y los problem as im plícitos en la adopción de decisiones relativas al análisis de datos. Es im posible exagerar la im p o rtan cia que tiene, al u tiliza r cualquier técn ica estad ística, el te n e r p re sen te las presunciones im plícitas q u e el p ro ced im ien to requiere. E n el curso del p re sen te exam en, u n a de las p rim era s p reg u n tas a fo rm u larse es la relativ a al nivel de m edición que puede legítim am ente aceptarse. II.4. O rganización del libro La organización de los re sta n te s capítulos viene d eterm in ad a p o r c iertas consideraciones, la p rim e ra de las cuales consiste en p re se n ta r a n te to d o las ideas m ás sim ples, p asan d o gradualm ente a las d e m ay o r com plejidad. Como cada u n a de las secciones p resu p o n e el conocim iento de m ateriales que prev iam en te h an sido tra ta d o s, re su lta conveniente seguir e s ta organización, p a san d o p o r alto solam ente los p árrafo s o secciones precedidos de asterisco. E l capítulo xiv, p o r excepción, p u ed e se r saltad o e n su to talid ad , o bien englobado con las p ru e b a s y procedim ientos "no p aram étrico s" contenidos en los capítulos xvi y x v m . El ca p ítu lo xxi, acerca del m u estreo , puede s e r leído en relación con el cap ítu lo ix relativo a la p robabilidad, a u n cuando el capítulo so b re m u estreo contiene v arias secciones q u e sólo p o d rá n en ten derse cuan d o hayan sido leídos los capítulos xi, x m y xvi. Lo fu n d am en tal del cap ítulo x v n p o d rá se r asim ilado sin h a b e r p re v iam ente ab o rd ad o el cap ítu lo xvi sobre análisis de diferencias. Se recom ienda, en general, que se estu d ien ios distin to s tem as en el o rd en en que se p re sen tan . Los in stru m en to s estad ístico s n o son fácilm ente agrupables b a jo u n o o dos ap artad o s, y p o r ta l razón los títu lo s que o sten tan las principales divisiones del libro son sólo parcialm ente adecua dos, lim itándose p o r el co n trario a c e n tra r la atención prim aria. La Segunda P arte se lim ita al tem a de la estad ística descriptiva, en tan to que en las p arte s T ercera y C uarta el principal, aunque no el único, foco de atención, se refiere a la inducción, a la p ru eb a de hipótesis y a la estim ación de p arám etro s de pobla ción basad a en datos de m uestreo. E n las p arte s Segunda y T ercera nos lim itarem os casi p o r en tero a los procedim ientos que tra e n im plícita u n a sola variable p o r vez, en ta n to que en la C uarta P arte pasam os a problem as m ás difíciles tales como el m an ejo sim ultáneo de dos o m ás variables. E n trelazad a en estas distinciones e n tre descripción e inducción, así como en tre las estadísticas univariables y bivariables o multivariables, se observa u n te rc e r principio organizativo, a sab er: el relativo a los niveles de m edición p a ra cada u n a de las variables. M uchos de los títulos de los capítulos señalan este nivel de m edición, p ero tal vez el m e jo r m étodo p a ra lo g rar u n a perspec tiva resu m id a del contenido consista en acu d ir al cu ad ro de p ru e bas y m ediciones que aparece en las guardas. E n su p rim era colum na ap arecen los procedim ientos a u sa r con variables sim ples. Vemos allí que en el cap ítu lo m nos ocuparem os de las m ediciones m uy sim ples (p o rcen tajes, proporciones y razones), utilizados ta n to con las dicotom ías como con las escalas genera les nom inales con m ás de dos categorías. Las p ru e b as de hipóte sis relativas a escalas nom inales sim ples serán estu d iad as en los capítulos x, xi y x n . Las m edidas (m ediana, desviación cuadril) adecuadas p a ra ser utilizadas con u n a escala ordinal, sencillas, serán exam inadas brevem ente en los capítulos v y vi, en ta n to que en el capítulo x se d iscutirá u n a m uy sencilla p ru e b a (la bino m ial), aplicable a datos ordinales. D edicarem os algo m ás de nues tra atención a las escalas de intervalos y razones, las que exa m inarem os e n los capítulos iv a v n , relativos a procedim ientos descriptivos univariados, y de nuevo en los capítulos xi y x n de la T ercera P arte, relativos a la estad ística inductiva. Com enzando con el capítulo x m volverem os n u e stra atención a las relaciones e n tre dos o m ás variables, lo que desde luego supone que habrem os de ocuparnos del nivel de m edición de la variable segunda (y adicional), ta n to com o de la prim era. Las colum nas 2 a 5 del cuadro ofrecen varias com binaciones en rela ción con el nivel de m edición de las dos variables. P or ejem plo: la casilla su p erio r de la colum na 2 se refiere a aquellas situacio nes en que se dan dos dicotom ías relacionadas e n tre sí (p o r ejem plo, sexo c o n tra preferencias p olíticas). E n la segunda casi lla de la colum na 2 se tiene en cuenta la posibilidad de que la p rim era escala nom inal tenga m ás de dos categorías (p o r ejem plo: p ro testan tes, católicos y ju d ío s). En la te rc e ra casilla una de las variables es u n a dicotom ía (p o r ejem plo, sexo) e n tan to que la segunda es u n a escala ordinal, y así sucesivam ente. Hay u n a sola casilla sin ocupar, a s a b e r : aquella e n que u n a variable se m ide en el nivel o rd in al y la segunda en el nivel de intervalo o de razón. Aun cuando tales situaciones p u ed en p o r supuesto s e r resu eltas, carecem os de in stru m en to s realm en te satisfactorios que no re q u ie ran u n a p érd id a de inform ación al re d u cir el nivel de m edición en cu alq u iera de las dos variables. No hay nece sid ad alguna de llen ar las casillas situadas sobre las que ocupan la diagonal del cuadro, ya que las cu b ren aquellas situadas b ajo dicha diagonal. R esu lta p re m a tu ro en estos m om entos p o n er a discusión cada u n a de las posibilidades relacionadas en el cuadro. El pu n to m ás im p o rta n te a señalar es el de que el nivel de m edición afectado co nstituye u n a de las consideraciones m ás im p o rtan tes al llevar a cabo u n a elección e n tre diversos procedim ientos. La elección es relativa, aunque no en teram ente, sim ple, en tan to u n o se en cu e n tre lim itado al uso de sólo dos variables. R esulta m ucho m ás difícil en el caso del análisis m ultivariado, en el que con frecuencia pued e u n o tra b a ja r con cinco o incluso h a sta quince o veinte variables al m ism o tiem po, y donde re s a lta com o sum a m en te im p ro b ab le que todas ellas sean m edidas al m ism o nivel, y donde a m enudo es poco deseable u tiliz a r dem asiados m étodos de p ru e b a y m edición. E n los capítulos xv, xvx, xix y xx se exa m in an estos p roblem as de análisis m ultivariado. E n ciertos luga res, p a rtic u la rm e n te al final de los capítulos xiv y xx, se en co n tra rán , en fo rm a resum ida, algunas de las consideraciones relativ as a la selección e n tre procedim ientos alternativos. Como se observará, n o todas las com binaciones posibles son m an ejad as e n este texto con el m ism o grado de m inuciosidad. O curre así, no sólo p o r lim itaciones de espacio y p o r la necesidad de d eten erse en el exam en de las ideas fundam entales, sino p o r q ue la teo ría estad ística se en cu en tra m ucho m ás avanzada en ciertos aspectos. Se h a tra b a ja d o m ucho m ás, en p artic u la r, en el sec to r de la llam ada “e stad ística p a ra m é tric a ”, relativa a las escalas de in terv alo y de razón, que en el de los procedim ientos ordinales, p o r lo cual n u estro s in stru m en to s p a ra el uso de las escalas de in terv alo y de tiem p o e stán m ucho m ás desarrollados, especialm ente en el caso del análisis m ultivariado. La diferencia e n tre las escalas de in terv alo y razón no h a sido tam poco explo ta d a en la teo ría estadística, p o r lo m enos h a sta el nivel que a n o so tro s nos in teresaría. La razón b ásica e strib a en que los m o delos estad ístico s con los que generalm ente tra b a ja m o s e stán b a sados en u n a ecuación lineal general que es aditiva, en lugar de a b a rc a r razones o variables. P o r tal m otivo, y p a ra todo objetivo p ráctico , no es necesario te n e r p re sen te ta l distinción según se avanza en la lectura. S erá em p ero n ecesario a c u d ir periódica m en te al cu ad ro de las guardas. G losario El lector h a rá bien en acostum brarse a explicar en sus propios té r m inos el significado de los conceptos im portantes. Los nuevos con ceptos introducidos en este capítulo son: la escala de intervalo, la escala nom inal, * la definición operativa, la escala ordinal y la escala de razón. B iblio g rafía 1. Blalock, H. M .: "The Measurement Problem: A Gap between the Languages of Theory and Research” ; en H. M. Blalock y Ann B. Blalock (E.) Methodology in Social Research, McGraw-Hill Book Company, Nueva York, 1968, cap. 1. 2. Bridgman, P. W .: The Logic of Modern Physics, The Macmillan Co„ Nueva York, 1938, pp. 1-39. 3. Cohén, M. R. y E, Nagel: An Introduction to Logic and Scientific Metkod, Harcourt, Brace and Company, Inc., Nueva York, 1937, caps. 12 y 15. 4. Coleman, James S.: Introduction to Mathematical Sociology, The Free Press, Nueva York, 1964, cap. 2. 5. Coombs, C. H., H. Raiffa y R. M. Thrall: "Some Views on Mathe matical Models and Measurement Theory", Psychological Review, vol. 61, pp. 132-144, marzo de 1954. 6. Coombs, C. H.: A Theory of Data, John Wiley & Sons, Inc., Nue va York, 1964. 7. Coombs, C. H .: "Theory and Methods of Social Measurement”, en L. Festinger y D. Katz (ed.), Research Methods in the Behavioral Sciences, The Dryden Press, Inc., Nueva York, 1953, pp. 471-535. 8. Lundberg, G. A.: Foundations of Sociology, The Macmillan Com pany, Nueva York, 1939, caps. 1-2. 9. Northrop, F. S. C., The Logic of the Sciences and the Humanities, The Macmillan Company, Nueva York, 1947, caps. 5-7. 10. Radcliffe-Brown, A. R.: A Natural Science of Society, The Free Press of Glencoe, 111., Nueva York, 1957, pp. 2842. 11. Selltiz, C., M. Jahoda, M. Deutsch y S. W. Cook: Research Me thods in Social Relations, Henry Holt and Company, Inc., Nueva York, 1959, caps. 5 y 10. 12. Senders, V. L., Measurement and Statistics, Oxford University Press, Nueva York, 1958, cap. 2. 13. Stevens, S. S.: "Mathematics, Measurement, and Psychophysics", en S. S. Stevens (ed.), Handbook of Experimental Psychology, John Wiley & Sons, Inc., Nueva York, 1951, pp. 1-49. 14. Stouffer, S. A., et ai.: Measurement and Prediction, Princeton Uni versity Press, Princeton, N. J., 1950, caps. 1 y 3. 15. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons, Inc., Nueva York, 1968, cap. 2. S eg u n d a P a rte E S T A D ÍS T IC A D E S C R IP T IV A UNIVARIADA I I I . ESCALAS N O M IN A L E S : P R O P O R C IO N E S , P O R C E N T A JE S Y R A ZO N ES E s m u c h o m ás sencillo re su m ir los datos que com portan escalas nom inales que en el caso en que se em plean escalas de intervalo. La operación aritm ética b ásica es, en el p rim e r supuesto, la de c o n tar el n ú m ero de los casos al in te rio r de cada categoría y de a n o ta r sus tam años relativos. Un grupo determ inado puede cons ta r de 36 varones y 24 m u jeres, o de 25 p ro testan te s, 20 católi cos y 15 judíos. Sin em bargo, p a ra p o d er estab lecer com para ciones con otro s grupos, hay que te n e r en cu en ta el n ú m ero de casos en cada un o de los grupos considerados. Las m edidas que se exam inan en el p re sen te capítulo p erm iten establecer com pa raciones e n tre diversos grupos, m ediante norm alización esencial m en te en relación con el tam año. Sin d u d a alguna, dos de las m edidas en cuestión, la de las proporciones y la de los p o rc en ta jes, son ya conocidas de todos. I I I .1. P roporciones Con o b jeto de p o d er servirnos de las proporciones, hem os de p re su m ir que el m éto do de clasificación h a sido ta l que las cate gorías son m u tu am en te exclusivas y exhaustivas. E n o tro s térm i n o s: cada individuo h a sido pu esto en u n a categoría y en u n a sola. Con fines de sim plificación, tom em os u n a escala nom inal q u e co n ste d e c u a tro categorías, con N u N 2, N s y N 4 casos re s pectivam ente. S upongam os que el nú m ero to ta l de los casos sea N. La pro p o rció n de casos en cualquier categoría dada e s tá defi n id a com o el nú m ero en la categoría dividido e n tre el nú m ero to tal de casos. P o r lo ta n to , la proporción de individuos de la p rim e ra categoría se halla d ad a p o r la ca n tid ad N 1/N , y las p ro porciones de las dem ás categorías son respectivam ente de N 2/N , N 3/ N y N J N . Es obvio que el valor de u n a proporción n o puede ser m ay o r que la unidad. .En efecto, com o q u iera que Nj. + N 2 + N 3 + N é = N tenem os que Nx N2 _ J_ + __L + N N Ns N Ni N _ L = -------- = i N N Así, pues, si adicionam os las proporciones de los casos en todas las categorías (m u tu am en te exclusivas), el re su ltad o es la unidad. 43 Es ésta u n a p ro p ied a d im p o rta n te de las p ro porciones que se d eja ex ten d er fácilm ente a cu alq u ier n ú m ero de categorías. Ilu strem o s el em pleo de las proporciones con los datos dados en el cu ad ro I I I .1. C uadro II I .l. N ú m ero de delincuentes y de no delincuentes en dos localidades hipotéticas Sujetos Localidad 1 Localidad 2 Delincuentes Prim er delito Reincidentes No delincuentes 58 43 481 68 137 1081 Total 582 1286 R esulta m ás bien difícil decir cuál de las dos localidades cuenta con m ayor n ú m ero de delincuentes, p o rq u e son diversam ente grandes. E n cam bio, si expresam os los datos en térm in o s de proporciones, podem os establecer u n a com paración directa. E n efecto, la p ro p o rció n de p rim ero s delitos es, en la com unidad 1, de 58/582, o .100; la de la localidad 2, en cam bio, es de 68/1 286 o sea .053. Las dem ás proporciones pu ed en calcularse en form a análoga, resu m ien d o los re su ltad o s en fo rm a de c u a d ro (cu ad ro III.2 ). El cu ad ro en cuestión nos p e rm ite ap re c ia r que los núm e ro s relativos de delincuentes son m u y parecidos en las dos lo calidades, p ero que la segunda de ellas contiene u n núm ero considerablem ente m ás b a jo de p rim ero s delitos y u n a p ro p o r ción m ás a lta de reincidentes. C uadro III.2. Proporciones de delincuentes y de no delincuentes en dos localidades hipotéticas Sujetos Localidad 1 Localidad 2 Delincuentes Prim er delito Reincidentes No delincuentes .100 .074 .826 .053 .107 .841 Total 1.000 1.001 La sum a de las proporciones d e la localidad 2 n o d a exacta m en te la unidad, debido a los e rro re s de redondeo. E n ocasiones es conveniente p re s e n ta r los dato s de ta l m odo que las sum as sean ex actam en te igual a 1.000. E sto puede acaso exigir el aju ste de algunas de las proporciones de las categorías, en cuyo caso m odificam os p o r convención las cifras de las categorías que com p re n d en el m ay o r n ú m ero de casos.1 E l argum ento en favor de ese pro ced im ien to está en que u n cam bio en la ú ltim a cifra deci m al de u n a p ro p o rció n m ayor es relativ am en te m enos im por ta n te que el m ism o cam bio en u n a cifra m enor. Así, p o r ejem plo, p o d ría cam b iarse la pro p o rció n de los no delincuentes de la localid ad 2 en .840, d e m odo q u e la su m a re s u lta n te sea igual a la unid ad . El cu ad ro III.2 com prende proporciones del n ú m ero to tal de casos en cada u n a de las com unidades. Supóngase, sin em bargo, que el in terés se c e n trab a sobre to d o en los delincuentes, y que deseábam os conocer la p ro p o rció n de los reincidentes entre los delincuentes. E l n ú m ero to ta l de delincuentes e n las dos localida des es resp ectivam ente de 101 y 205. P o r lo tan to , e n tre los delin cuentes, las pro p orciones de los reincidentes son respectivam ente de 43/101, o .426 y 137/205, o .668. A p rim e ra vista estas cifras p u ed en p ro p o rcio n ar u n a im presión lig eram en te diferente de la del p rim e r co n ju n to de proporciones. H abríam os de g u ard arn o s especialm en te de concluir que el segundo espécim en es “m ás delictivo" que el p rim ero. P o r supuesto, este ú ltim o co n ju n to de p ro p o rcio n es n ad a nos dice en absoluto acerca de las cifras rela tivas de no delincuentes en los dos especím enes considerados. E s obvio q ue no existe su stitu tiv o alguno de la lectu ra a te n ta de los cuadros. C onstituye u n bu en principio aco stu m b rarse a de te rm in a r siem pre las categorías que se hallan com prendidas en el nú m ero to tal de casos que sirve de denom inador de la p ro p o r ción. El lecto r debiera siem pre p re g u n ta r: "¿de qué es esto la p ro p o rció n ?” Y la re sp u esta re su lta rá clara del conjunto. I1I.2 P orcentajes Los p o rcen tajes pueden o b ten erse de las proporciones m ultipli cando sim plem ente p o r 100. La p a la b ra p o rc en taje significa por ciento. P or lo tan to , al servirnos de los p o rc en tajes norm alizam os en relación con el volum en, calculando el n ú m ero de individuos que h ab ría en u n a categoría d eterm in ad a si el to ta l de los casos fu era 100, perm aneciendo in altera d a la p roporción en cada cate goría. Y com o q uiera que las proporciones sum adas dan la uni dad, es obvio que los p o rcen tajes sum arán 100, a m enos que las categorías no sean m u tu am en te exclusivas o exhaustivas. Al re p ro d u cir resultados, los p o rcentajes se em plean con m ucha m ayor frecuencia que las proporciones. Las cifras del cua dro XII.2 h ab ría n podido expresarse lo m ism o e n térm inos de i Puede utilizarse exactamente el mismo procedimiento en el caso de poroentajes. p o rcen tajes. M ejor que servirnos de los m ism os datos, tom em os o tro cuadro que puede servir p a ra iiu s tra r otros diversos aspec tos. Supongam os que tenem os tres agencias de servicios dom és ticos con u n a distribución de casos com o la que se indica en el cu ad ro III.3. Como es usual, los p o rcen tajes se h an dado h a sta el p rim er decim al y se h an operado los aju stes de los últim os dígitos, de m odo que los totales den exactam ente 100. Aquí el núm ero de ca sos de cada agencia es lo suficientem ente grande com o p a ra ju s tificar el em pleo de p orcentajes. Sin em bargo, si el núm ero de casos h u b iera sido m enor, el em pleo de aquéllos h a b ría resultado equívoco'. E n efecto, supóngase que la agencia C h ab ía trata d o sólo 25 casos en total. Si h u b iera hab id o cu a tro m ad res solteras y siete p arejas de novios, los po rcen tajes en dichas categorías h ab ría n sido respectivam ente del 16 y del 28 p o r ciento. Y com o q u iera que m uchas personas aco stu m b ran m ira r sólo los p o r cen tajes y no el núm ero efectivo de casos com prendidos, po d ría fácilm ente o btenerse la im presión de que h ab ía m uchas m ás p arejas de novios que de m ad res solteras. Como se verá cuando lleguem os a la estad ística inductiva, la diferencia e n tre cuatro y siete casos p u ed e deberse perfectam en te a factores pu ram en te casuales. El em pleo de los p o rc en tajes y las proporciones com p o rta p o r lo re g u lar u n a estabilidad m ucho m ayor de las cifras. P o r lo tan to , he aquí dos reglas generales im p o rta n te s: 1) indí quese siem pre el núm ero de casos ju n ta m en te con los porcentajes o las proporciones, y 2) n o se calcule nunca u n porcentaje, a m e nos que el n ú m ero d e casos en que está basado se halle a proxiCuadro I I I .3. D istribución de los n úm eros y porcentajes de casos tratados p o r tres agencias hipotéticas de servicios dom ésticos Clase de casos Matrimonios Divorciados Novios Madres solteras Otros Total Agencia A Agencia B Agencia C Total N? % Ni °/0 M % N°- % 63 19 27 13 11 47.3 14.3 20.3 9.8 8.3 88 37 20 32 16 45.5 19.2 10.4 16.6 8.3 41 26 15 21 9 36.6 23.2 13.4 18.8 8.0 192 82 62 66 36 43.8 187 14.2 15.1 8.2 133 100.0 193 100.0 112 1.00.0 438 100.0 m id a d de los 50 o más. Si el núm ero de casos es m uy pequeño, será preferible in d icar el núm ero efectivo de ellos en cada cate goría, sin re c u rrir a los po rcen tajes. En el caso an terio r, por ejem plo, indicaríam os sim plem ente que la agencia C había tra ta d o cu a tro m ad res solteras y siete p arejas de novios. Véase ah o ra la colum na del to tal que indica la distribución en p o rcen tajes de las tres agencias ju n tas. E sas cifras se han ob tenido sum ando el n ú m ero de casos de cada tipo y el núm ero to tal de casos trata d o s p o r las tres agencias ju n tas. P a ra el cálculo de ios p o rcen tajes totales se utilizó, pues, com o base u n N de 438. Supóngase, sin em bargo, que el núm ero de casos no nos h u b iera sido dado en el cuerpo del cuadro, sino que se h u b iera presentado- com o en el cuadro III.4. E n tal caso po d ría d arse la tentación de o b ten er los po rcen tajes totales to m an d o directam ente la m edia aritm ética de los tres p o rc en ta je s de cad a hilera. S em ejante p rocedim iento n o ten d ría en cuenta el hecho de que las tre s agencias h ab ían tra ta d o núm eros di feren tes de casos; sólo se ju stific aría si los núm eros de éstos fu e ran efectivam ente iguales. El procedim iento correcto consis tiría en p o n d e ra r cada p o rc en taje p o r el núm ero correspondien te de casos. Uno de los m edios p a ra hacerlo consistiría en calcu la r h acia a trá s p a ra o b ten er el nú m ero efectivo de casos de cada casilla. Lo que p o d ría efectuarse m ultiplicando el núm ero to tal de casos tra ta d o s p o r la agencia p o r la proporción de u n a catego ría d eterm in ad a. P or ejem plo, (133)(.473) = 63. Cuadro III.4. D istribución en porcentajes de los casos tratados p o r tres agencias hipotéticas d e servicios dom ésticos, con los porcentajes dispuestos verticalm ente Clase de casos Agencia A (N = 133) % Agencia B (N = 193) Vo Agencia C (N = 112) Matrimonios Divorciados Novios Madres solteras Otros 47.3 14.3 20.3 9.8 8.3 45.5 19.2 10.4 16.6 8.3 36.6 23.2 13.4 18.8 8.0 Total 100.0 100.0 100.0 % O bsérvese que los p o rc en tajes dados en los cuadros III.3 y III.4 tien en p o r objeto- co n te sta r a ciertas p reg u n tas y n o otras. Nos p erm iten ex am inar cada agencia p o r sep arad o y v er la dis trib u ció n de los casos tra ta d o s. P erm iten adem ás la com para ción de las agencias e n tre sí e n relación con los casos trata d o s. Así, p o r ejem plo, las agencias B y C tra ta ro n relativ am en te m ás m ad res solteras y perso n as divorciadas de las que tra tó la agen cia A. Supóngase, sin em bargo, que nos in tere sa b an a n te todo los casos de cierto tip o y el n ú m ero relativo de ellos tra ta d o s p o r cada agencia. Así, p o r ejem plo, p o d ría eventualm ente interesar- Cuadro III.5 . D istribución en porcentajes de los casos tratados p o r tres agencias hipotéticas de servicios dom ésticos, con los porcentajes calculados horizontalm ente Clase de casos Agencia A (N = 133) Agencia B (N = 193) Agencia C (N = 112) 32.8 23.2 43.5 45.8 45.1 32.3 48.5 _* 21.4 31.7 24.2 31.8 _* % Matrimonios (N= 192) Divorciados (N =82) Novios (N = 62) Madres solteras ( N- 6 6 ) Otros ( N~36) 19.7 _* % % Total (N = 438) % 100.0 100.0 100.0 100.0 __ * * Los porcentajes no se calculan cuando la base es inferior a 50. n o s sab e r el p o rc en taje de todos los m atrim onios que pasaron p o r la agencia B . E n estas condiciones re su lta ría m ás conve nien te calcu lar los p o rcen tajes a través del cuadro. E a efecto, po d ríam o s to m a r el n ú m ero to ta l de m atrim onios y v er cuáles p o rcen tajes de dicha categoría fu e ro n tra ta d o s respectivam ente p o r las agencias A, B y C. Los p o rcen tajes su m arían entonces 100 en el sen tid o horizontal del cuadro, y no en el vertical, y los resu ltad o s se resu m irían com o en el cuadro III.5. De m odo que los p o rcen tajes pueden calcularse tan to en sen tid o vertical com o en sentido horizontal. Por lo tan to , los cua dros h an de exam inarse siem pre cuidadosam ente p a ra ver exac tam en te cóm o se h an calculado aquéllos. P ara los casos en que la p ro p ia teo ría nos dicta cuál es la variable que debe ser tom a da com o cau salm ente dependiente y cuál ha de ser considerada causalm ente p rim a ria o independiente, p o d rá b astarn o s u n a sim ple regla em pírica. Si tenem os la costum bre de s itu a r la varia ble independiente en la p a rte alta del cuadro, y la variable de p endiente al lado izquierdo, los p o rcen tajes su m ará n 100 hacia abajo, y las com paraciones se h a rá n de izquierda a derecha. En el ejem plo relativo a la com paración de niveles de delincuencias en dos localidades, ca b ría n o rm alm en te su p o n er que ciertas ca racterísticas locales pueden te n e r influencia sobre la delincuen cia, m ás bien que a la inversa. Cuando com putam os los p o rcen tajes p ara que sum en 100 hacia abajo, lo que en re alid ad hacem os es norm alizar los tam años de las localidades, ya que reconocem os que los factores que se refie re n a sus tam años relativos, o los m uestreos realizados dentro de cada localidad, no dependen causalm ente de sus niveles de delincuencia. Al co m p u tar hacia ab ajo los po rcen tajes estam os controlando aquellos factores que afectan al tam añ o de los dos m uestreos. E ste p u n to qu ed ará m ás en claro u n a vez que haya m os considerado el concepto de inclinación de u n a línea recta en la que u n a de las variables fig u ra com o dependiente de la o tra (v e r cap ítu lo xvrr). R esu ltará que los po rcen tajes com putados en la dirección su gerida p u ed en ser considerados com o casos especiales de dichos declives. II I.3. R azones La razón de u n n ú m ero A con respecto a o tro núm ero B se de fine com o A dividido e n tre B . La cantidad que precede se pone en el n u m erad o r, en tan to que la que sigue fo rm a el denom inador. S upóngase que en una elección local se hallan inscritos 365 re p u blicanos, 420 dem ócratas y 130 independientes en calidad de vo tan tes. E n este caso la razón de los republicanos a los dem ócra tas es de 365/420, y la de los republicanos y los dem ócratas a los independientes es de (365 + 420)/130. O bsérvese que, a diferen cia de la proporción, la razón puede to m a r u n valor su p erio r a la unidad. Vemos asim ism o q u e la expresión que precede o que sigue pueden constar, u n a y o tra, de cantidades d istin tas ( v.gr. republicanos y d em ócratas). G eneralm ente la razón se reduce a su expresión m ás sim ple elim inando en el n u m era d o r y el deno m in ad o r los factores com unes. Así, pues, la razón de los dem ó cratas a los independientes se escrib irá com o 42/13 o bien, en fo rm a equivalente, com o 42:13. En ocasiones es conveniente ex p re s a r la razón en térm inos de u n denom inador form ado p o r la unidad. P o r ejem plo, la razón de los dem ócratas a los indepen d ientes pu ed e escribirse com o 3.23 a 1. E s obvio que las proporciones re p resen tan u n tip o especial de razón en la que el denom inador es el nú m ero to tal de los casos y el n u m era d o r u n a cierta fracción de aquél. Sin em bargo, el térm in o de razón se em plea p o r lo re g u lar p a ra re ferirse a casos en los q ue A y B re p re se n ta n categorías separadas y distintas. P odríam os, p o r ejem plo, estab lecer la razón de los delincuentes a los n o delincuentes, o de los m atrim onios a los novios. Es evi d ente que con cu atro o cinco categorías el n ú m ero de razones posibles susceptible de calcularse es m uy grande. En consecuen cia, a m enos que el in terés se cen tre a n te to d o en uno o varios p ares de categorías, será en general m ás económ ico y m enos su je to a confusión p o r p a rte del lecto r servirse de los p o rcentajes y las proporciones. O bsérvese que, si las categorías sólo son dos, será posible calcular la proporción d irectam en te a p a r tir de la razón y viceversa. Así, p o r ejem plo, si sabem os que la razón de los varones a las m u jeres es de 3 :2, entonces en cada cinco p er sonas h a de darse u n prom edio de tres varones y dos m ujeres. La p ro p o rció n de los varones es, pues, de 3/5, o .6. Las razones pu eden ex presarse en térm inos de cualquier b ase que re su lte conveniente. L a base de la razón está indicada p o r la m ag n itu d del d enom inador. Así, p o r ejem plo, las razones relati vas al sexo se in d ican convencionalm ente en térm in o s del núm ero de varones p o r 100 m u jeres. P o r lo tan to , u n a razó n de 94 en m ateria de sexo in d icará que el n ú m ero de los varones es ligera m en te in fe rio r al de las m u jere s, en ta n to que u n a razón de sexos de 108 significaría u n a ligera p re p o n d eran cia de los p ri m eros. Las bases que co m p o rtan núm eros grandes, tales como 1 000 o 100 000, se em plean a m enudo al calcular cuotas, o tro tipo de razón, cuando el em pleo de las proporcion es o los po rcen tajes co n d u ciría a valores decim ales pequeños. Las cuotas de n atali dad, p o r ejem plo, suelen d arse e n térm in o s del n ú m ero de naci m ien to s vivos p o r 1 000 m u jeres e n ed ad de p ro c rea r. Las cuotas de asesinatos pueden darse en térm in o s del n ú m ero de asesinos p o r 100 000 h ab itan tes. Las cuotas de crecim iento constituyen o tro tip o co rrien te de razón. Al calcu lar u n a de estas cuotas, tom am os el crecim iento efectivo d u ra n te el perio d o considerado, dividido e n tre el volum en al principio del periodo. Así, p o r ejem plo, si la población de una ciu d ad au m en ta de 50 000 a 65 000 e n tre 1940 y 1950, la cuota de crecim iento d u ra n te el decenio en cuestión s e rá de 65 000 - 50 000 ---------- — ---------- = .30 50 000 o 30 p o r ciento. E n el caso de cuotas de crecim iento, es obvio q ue los p o rc en tajes se p re s ta n bien m ás allá del 100 p o r ciento, en ta n to que serán negativos si la ciu d ad h a experim entado un descenso de población. G losario Porcentaje Proporción Tasa Razón E j e r c ic io s 1. Supóngase que se da el siguiente cuadro que m uestra la relación entre la asistencia a la iglesia y el año de clase en una determinada universidad: Asistencia a la iglesia 1er. Año 2ü Año Inferior Superior Asistencia regular Asistencia irregular 83 31 71 44 82 61 59 78 295 214 Total 114 115 143 137 509 Año de clase Total a) ¿Cuál es el porcentaje de asistencia regular en el conjunto? Res puesta, 57.96 %. b ) ¿Cuál es la razón de los estudiantes de primer año a los del año superior? c) E ntre los asistentes regulares, ¿cuál es la razón de los años infe riores a los superiores (de los 1? y 2? años a los años inferior y superior)? Respuesta, 1.09 a 1. d) ¿Cuál es la proporción de los asistentes irregulares entre los es tudiantes del año superior? ¿La proporción de estudiantes de año superior entre los asistentes irregulares? Respuesta .364; .569. e) ¿Hay relativamente más asistentes irregulares entre los estudian tes de 1* y 2° años que entre los de las clases inferior y superior? Exprésense los resultados en porcentajes., f) Resúmanse los datos en varias proposiciones. 2. Al estudiar la relación entre la productividad industrial y el tipo de líder de los grupos, un psicólogo social obtiene los siguientes datos, que m uestran los niveles de productividad agrupados en tres tipos distintos de dirección: Grupos de tipo de líder del grupo Total Productividad Democrático Liberal Autoritario Alta Mediana Baja 37 26 24 36 12 20 13 71 29 86 109 73 Total 87 68 113 268 a) ¿En qué dirección preferiría el lector calcular los porcentajes? ¿Por qué? b ) Calcúlense los porcentajes y resúmanse los datos en forma breve. c) ¿Cuál es la razón de los productores de nivel alto a los de nivel bajo en cada uno de los grupos? En relación con estos datos par ticulares, ¿resumen las tres razones la situación de modo ade cuado? Expliqúese. 3. Si la razón de los blancos a los no blancos es de 8/5 en una deten minada localidad, ¿cuál es la proporción de los no blancos? Supóngase que la razón de los blancos a los negros fuera de 8/5, ¿podría obte nerse la proporción de negros en la misma forma? ¿Por qué, o por qué no? 4. Si una ciudad tenía una población de 153 468 habitantes en 1940 y de 176118 en 1950, ¿cuál fue la tasa de crecimiento (expresada en porcentaje) entre 1940 y 1950? Respuesta, 14.76%. 5. Si en un determinado condado hay 12160 varones y 11913 mu jeres, ¿cuál es la razón entre los sexos (expresada en términos del número de varones por 100 mujeres)? B iblio g ra fía 1. Anderson, T. R. y M. Zelditch: A Basic Course in Statistics, 2* ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, pp. 24 a 31. 2. Freeman, L. C.: Elementary Applied Statistics, John Wiley & Sons, Inc., Nueva York, 1965, cap. 4. 3. Hagood, M. J. y D. O. Price: Statistics for Soeiologists, Henry Holt and Company, Inc., Nueva York, 1952, cap. 7. 4. Weiss, R. S .: Statistics in Social Research, John Wiley & Sons, Inc., Nueva York, 1968, cap. 4. 5. Zeisel, H ans: Say I t w ith Figures, 5? edición, Harper and Row, Publishers, Incorporated, Nueva York, 1968, caps. 1 y 2. IV . ESCA LAS D E IN T E R V A L O : D IS T R IB U C IO N E S D E F R E C U E N C IA Y R E P R E S E N T A C IÓ N GRÁFICA E n e l p re se n te capítulo nos ocuparem os de m étodos p a ra el re su m en de datos m uy p arecid o s a los del capítulo precedente. V am os a ag ru p a r las escalas de intervalo en categorías, a o rd e n a r éstas y a servirnos de dichos grupos p a ra d a r u n a visión con ju n ta de la d istrib u ción d e los casos. Al p ro c ed er en esta form a, p odem os re d u c ir la in form ación relativ a a u n n ú m ero m uy gran de de casos a u n a fo rm a m uy sim ple, que p e rm ita al le c to r re p re se n ta rse en q u é fo rm a están d istrib u id o s los casos. M ás a d e la n te co m probarem os que ag rupando los datos podem os asi m ism o sim p lificar considerablem ente ciertos cálculos. E n los dos cap ítu lo s siguientes nos ocuparem os de m étodos de resu m en de dato s en fo rm a m ás com pacta, de m odo que p u ed an se r descri to s p o r varios n ú m eros expresando m edidas que re p re se n ta n fo rm as típ icas y grado de hom ogeneidad. IV .l. D istribuciones de frecuencia: agrupam iento de los datos E n el cap ítu lo p reced en te nos hem os en c o n trad o con sólo pocas decisiones im p o rtan tes, si h a h ab id o alguna, en relación con el re su m e n de los datos. E sto se debe al h echo de que, presu m ib le m ente, las clases estab a n y a d eterm inadas y lo único que h abía q ue h a c e r era c o n tar el nú m ero de casos en cada clase y luego n o rm alizar en relación co n el n ú m ero de casos del espécim en co n ju n to , calculando u n a proporción, u n p o rc e n ta je o u n a razón. E n cam bio, si los datos de la escala de in terv alo h an de re su m irse del m ism o m odo, hay que a d o p tar u n a decisión inicial en relación con las categorías q u e se van a u tilizar. Ya que p o r lo re g u la r los datos e sta rá n d istrib u id o s de m odo continuo, sin o con p eq u eñ as lagunas, e n tre cifras contiguas, el esq u em a de clasifi cación p u ed e se r m uy a rb itra rio . S erá m en este r decidir cu án tas categorías se van a u tiliza r y en dónde deban establecerse los 39.2 % 28.1 22.8 44.3 36.3 18.2 27.1 33.6 39.5 21.6 46.1 11.6% 263 33.4 58.1 20.7 37.1 28.8 19.3 32.3 37.9 21.5 36.3 % 27.1 25.6 33.1 9.3 21.6 27.8 43.7 22.4 37.1 13.3 26.3 % 35.1 21.6 13.4 26.3 17.5 33.6 28.2 15.1 24.9 37.1 % 23.0 46.8 27.8 29.9 12.3 26.5 19.9 26.3 10.0 53 15.3 % 26.1 7.1 33.4 39.4 23.6 28.3 83.6 26.1 20.7 27.3 % 31.0 16.8 22.1 5.3 37.2 26,9 47.1 29.2 11.8 23.5 % 36.3 26.9 42.7 24.3 37.1 24.8 4.8 14.3 22.9 13.3 % 27.3 46.6 33.0 17.8 25.1 41.0 9.7 14.6 36.0 pu ntos de intersección. In fo rtu n ad am en te, no- existen reglas sim ples p a ra h acer esto, ya que la decisión depende de los objetivos perseguidos p o r m edio de la clasificación. Sirvám onos, p a ra ilus tr a r el carác te r del problem a, de u n ejem plo sencillo. Supóngase que los núm eros indicados al final de la página a n te rio r re p re sen tan el p o rc en taje de electores elegibles que vo tan en la elec ción de u n consejo escolar, en 93 colegios electorales de u n a de term in ad a ciudad. Los datos b ru to s p resentados en esta fo rm a n o sirven p rá cti cam ente de n ad a en cu an to a p ro p o rcio n ar al lecto r u n a idea cla ra de lo que está sucediendo. Y esto es ta n to m ás así cuanto m ayor sea el n ú m ero de los casos. Supóngase que deseáram os co m p arar dicha localidad con o tra en relación con la p articip a ción electoral. Una rá p id a o jead a echada a los datos indica que la m ayoría de los d istrito s tuvieron u n a participación de 20 a 40 % y que h u b o u no con u n a cifra extrem adam ente alta. R esulta sin em bargo realm ente difícil ob ten er u n a id ea clara de la distribución total. N ú m ero y m a gnitud de los intervalos. Con o b jeto de represen tarn o s dicha d istribución total, será ú til clasificar las cifras ve cinas en u n a m ism a categoría. Sin em bargo, nos encontram os en seguida con un problem a. ¿De cuántos intervalos habrem os de servirnos al a g ru p ar los datos? ¿Cuál ha de se r su extensión? P o r lo pro n to , no tiene o b jeto em plear intervalos de am plitud o lím ites peculiares. Así, pues, escogerem os m ás bien intervalos de am plitud 5, 10 o 20 que u n o de am plitud 4.16, pongam os p o r caso. Y tam bién nu estro s puntos term inales, o lím ites de clase com o se los suele llam ar, serán p o r lo regular núm eros redondos, tales com o 5.0 o 10.0. Si tenem os duda acerca de los intervalos de los que h ab rem os de servirnos definitivam ente es preferible clasificar las cifras sirviéndonos de u n nú m ero m ayor de in ter valos relativam ente pequeños. La razón de ello es obvia: si nos servim os de intervalos pequeños, siem pre podem os agrupar, in m ediatam ente, los casos en intervalos m ayores. E n ta n to que si em pezáram os con u n pequeño nú m ero de intervalos grandes, no podem os luego subdividirlos, com o no sea rehaciendo todos los cálculos. P o r lo tan to , nos decidirem os probablem ente a clasifi ca r los datos en intervalos de am p litu d 5 p o r ciento, com o en el cuadro IV .l. Y si exam inam os ah o ra las frecuencias en cada categoría, ve m os que la im agen que p re sen tan es relativam ente angulosa e irreg u lar. Podem os probablem ente explicarnos las variaciones en tre categorías contiguas en térm inos de fluctuaciones casuales. Si hub iera hab ido m ás casos, habríam os podido c o n tar con u n a distribución m ás suavizada. El razonam iento que se halla a la base de este ju icio intuitivo se d estacará m ás claram en te en ca pítulos u lterio res. B aste de m om ento decir que em píricam ente Cuadro IV .1. D istribución de la frecuencia, con datos agrupados en intervalos de 5 por ciento Intervalo Frecuencia, f 0.0-- 4.9 5.0-- 9.9 10.0--14.9 15.0--19.9 20.0--24.9 25.0--29.9 30.0--34.9 35.0--39.9 40.0--44.9 1 4 9 8 16 23 8 14 4 Intervalo Frecuencia, f 45.0 - -49.9 50.0--54.9 55.0--59.9 60.0--64.9 65.0 - -69.9 70.0--74.9 75.0--79.9 80.0--84.9 4 0 1 0 0 0 0 1 — 93 siem p re p arece o c u rrir así. S in em bargo, dado n u estro N d e 93 d istrito s, lo m e jo r que podem os h a c e r p a ra o b ten er u n a d istri bu ció n de aspecto m ás re g u la r es servirnos de u n nú m ero m en o r de in terv alo s m ás am plios. S irviéndonos de intervalos de 10 en 10, obtenem os el cu ad ro IV.2. C uadro IV .2. D istribución de la frecuencia, con datos agrupados en intervalos de 10 por ciento Intervalo 0.0— 9.9 10.0— 19.9 20.0 — 29.9 30.0 — 39.9 40.0 — 49.9 50.0 — 59.9 60.0 — 69.9 70.0 — 79.9 80.0 — 89.9 Frecuencia, f 5 17 39 22 8 1 0 0 1 93 Si hu b iéram o s em pleado intervalos m ayores todavía, digam os, p o r ejem plo, de 20, el c u a d ro se p re se n ta ría com o el cuadro IV.3. Aquí em pezam os a o scu recer ya la m ayor p a rte de n u e stra in fo rm ación inicial. E n efecto, sabem os sólo que aproxim adam en te las dos terceras p a rte s de los casos se sitú an e n tre 20.0 y 39.9, p ero viendo los datos en esta form a, no podem os decir m ucho acerca de dónde se sitú e el grueso de los casos al in te rio r de ese C uadro IV.3. D istribución de las f recuencias con datos agrupados en intervalos de 20 por ciento Intervalo 0.0 — 19.9 20.0 — 39.9 40.0 — 59.9 60.0 — 79.9 80.0 — 99.9 Frecuencia, f 22 61 9 0 1 93 in terv alo realm ente m uy grande. E n resum en, hem os de encon tr a r u na fo rm a a m odo de servirnos de gran nú m ero de in tervalos de m odo que la visión n o re su lte dem asiado detallada o irregular, n i servirnos de ta n pocos que se p ierd a dem asiada inform ación. Y dicho sea de paso, observam os que, al resu m ir los datos de la escala de intervalo, se pierde prácticam ente siem pre algo de inform ación im portante. E n ta n to que, p o r o tra p a r te, incluir to d a la inform ación conduce a p re se n ta r ta n to detalle, que la visión re su lta m ás bien oscurecida que aclarada. Pese a que se h an indicado fórm ulas m atem áticas que pueden serv ir de guía p o r lo que se refiere al nú m ero de intervalos a utilizar, esas fórm ulas dan a m enudo la im presión de exactitud, en tan to que la m e jo r decisión se b a sa rá norm alm ente en el sen tid o com ún y en el o b jeto a que se destine la tab la de frecuencia. In d ep endientem ente del n ú m ero de casos o de la reg u larid ad de la línea, lo m ás p ru d e n te consiste en seguir la regla práctica de que el in terv alo n o debería ser m ayor que la m ag n itu d de di ferencia e n tre valores que pueden ignorarse sin perjuicio. Una diferencia de $ 5 e n tre precios de casas, p o r ejem plo, es insignifi cante, en ta n to que no es así si se tra ta de los precios de cam isas. P o r consiguiente, el intervalo d eberá com prender los casos cuyos valores pu ed an considerarse p a ra fines prácticos com o sem e jantes. Los datos indicados m ás a rrib a p resen tan o tro problem a. ¿Qué p asa con el único colegio que o sten ta u n a participación del 83.6 p o r ciento a la vista? Si nos servim os de intervalos de u n a am p litu d de 10, varias clases quedan vacías, con dicho único colegio abandonado, p o r así decir, a sí m ism o. Sin duda, esto es lo que hay que h acer, si es que los datos h an de resu m irse cuidadosa m ente. Dicho colegio es efectivam ente único. P or o tra p arte , en d eterm inadas circunstancias puede se r conveniente ab rev iar la tabla. Si los p o rcentajes fu eran bien m ás allá de 100 y si hubiera varios extrem os que se extendieran p o r sobre de 10 o m ás in ter valos, nos en frentaríam os a u n a decisión m ás difícil todavía. E n tal caso, en efecto, se p re se n ta n varias alternativas. P rim ero, podem os serv im o s de intervalos de am p litu d es diversas, p erm i tien d o que los intervalos extrem os sean m u ch o m ás grandes que los otro s. Así, p o r ejem plo, podríam os serv im o s de u n solo in terv alo de 50.0 a 89.9, lo que com prendería las dos m arcas m ayo res. P o r supuesto, al p ro c ed er en esta fo rm a perdem os in fo rm a ción, ya que ah o ra tenem os u n a indicación m ucho m enos precisa de las cifras correspondientes a los dos casos extrem os. E n segundo lugar, podríam os servim os de u n intervalo abierto p a ra co m p ren d er los casos extrem os. La ú ltim a categoría po d ría leerse en tal caso com o "50 p o r ciento o m ás". Aquí, sin em bargo, perdem os todavía m ás inform ación que an teriorm ente, au n q u e sabem os que en este ejem plo concreto los po rcen tajes no pued en ir m ás allá de 100. P ero si los datos se re firiera n a ingre sos y que el últim o in terv alo fu e ra de "$ 20 m il o m á s”, el lector n o te n d ría en ab so luto m an era alguna de adivinar, sobre la b ase de la sola tabla, cuáles pu d iero n h a b e r sido los ingresos m ás altos. Conviene observar, con todo, que e n d eterm inadas circuns tancias pued e no re v estir im p o rtan cia alguna sa b e r cuáles sean esos ingresos m ás altos. E n ta l caso, las sim plificaciones in tro ducidas m ed ian te el em pleo de intervalos ab ierto s pu ed en com p e n sa r con v en taja los inconvenientes. Con distribuciones que p re se n ta n xm nú m ero red u cid o de casos m uy extrem os, p u ed e no darse altern ativ a satisfac to ria alguna. Si alguien desea, p o r ejem plo, in d icar los ingresos de los ciudadanos m ás ricos sin desfigu r a r su tab la, le re su lta rá m ás fácil hacerlo e n el tex to de su exposición. Como lo verem os en capítulos sucesivos, no debieran em p learse in tervalos abiertos si el objetivo p rim ero de la ag ru pación de los datos consiste en sim plificar los cálculos y n o en exponer aquéllos de m odo significativo. L ím ite s verdaderos. El lecto r h a b rá observado que, al indicar los intervalos, los lím ites de las clases se h a n establecido de tal m odo que éstas no se en tre co rten . De hecho, existe u n pequeño vacío e n tre u n a y o tra . Los lím ites suelen p o r lo regular fija rse en esta fo rm a p a ra ev itar to d a am bigüedad fre n te al lector. E n efecto, si se h u b iera fijad o com o de 10 a 20, de 20 a 30, etcétera, se h a b ría p lan tead o la cuestión de qué hacem os con u n a m arca de 20 exactam ente. E n realidad, siem pre h a b rá am bigüedad, cual q u ie ra q u e sea la fo rm a e n q u e se fijen los intervalos, com o p o dem os ap reciarlo al p re g u n ta rn o s ah o ra qué h a b rá que h ac er con un caso q ue se sitúe e n tre 19.9 y 20. O bservam os, p o r supuesto, q ue no hay tales casos, p e ro u n poco de reflexión nos convencerá de q ue esto es debido al hecho de que los datos se h an redon deado a la décim a del p o rc en taje m ás próxim o. P or lo tan to , hem os d e co n testa r a la siguiente cuestión: "¿cuáles casos corres ponden en realid ad a un intervalo determ inado, puesto que los datos se h a n red ondeado?” V em os in m ed iatam en te que los ver daderos lím ites d e las clases n o son los m ism os que los que se h a n fijado. Si hu biéram os seguido las reglas convencionales del redondeo, u n colegio con u n a particip ació n ligeram ente superior a 19.95 se h a b ría redondeado en 20.0, situ án d o lo en el intervalo de 20.0 a 29.9. Y si el p o rc en taje h u b ie ra quedado p o r deb ajo de 19.95, p o r poco que así fuera, lo habríam os red o n d ead o en 19.9, colocando el colegio en cuestión en la categoría inm ediatam ente in ferio r. P o r lo tan to , los verdaderos lím ites efectivam ente em pleados son los sig u ien tes: d e -0 .0 5 a 9.95 de 9.95 a 19.95 de 19.95 a 29.95 etcétera. Vemos que, al servim os de los verdaderos lím ites, cada in ter valo tien e u n a am p litu d exactam ente de 10.0 (m ás bien que de 9.9) y que el lím ite su p erio r de u n intervalo coincide exactam ente con el lím ite in ferio r del siguiente.1 Si la m arc a h u b ie ra sido exacta m en te de 9.95000, h ab ríam o s seguido el p rocedim iento conven cional red o n d ean do hacia arrib a, ya que el n ú m ero dígito que preced e al ú ltim o cinco es im par.2 Podem os, pues, asig n ar a cada caso, de m odo inequívoco, su in terv alo propio. O bsérvese que si el red o n d eo se h a operado h ac ia la cifra próxim a, com o suele se r el caso, el v erd ad ero lím ite co m p o rta rá siem pre la separa ción de la diferencia e n tre los lím ites fijados de dos intervalos contiguos. Así, p o r ejem plo, si p artim o s la d iferencia e n tre 19.9 y 20.0, obtenem os 19.95. La convención consiste e n in d icar las cifras de ta l m odo que se exprese el grado de ex actitu d de la m edición, o sea que 10.45 indica u n a ex actitu d a dos lugares deci m ales, 10.450 a tre s y 10.4 a uno. Dicho grado de ex actitu d debe ind icarse siem pre, d e m odo que el le c to r p u ed a averiguar los lím ites v erdaderos si desea servirse d e ellos en sus cálculos. Así, p o r ejem plo, si se indica que los lím ites son respectivam ente 10.00 a 19.99, sabem os que la m edición es exacta h a s ta dos decim ales, que el red o n d eo se h a operado a la próxim a centésim a d e ----- 100 del 1 p o r ciento, y que, en consecuencia, los v erdaderos lím ites van de 9.995 a 19.995. Si los lím ites se h u b iera n indicado com o 1 Si el límite más bajo es cero y que los valores no pueden ser negativos (como en el caso de los porcentajes), consideramos de todos modos que to dos los intervalos son de la misma amplitud, imaginando que el límite in ferior del primer intervalo es en realidad —.05 y que las marcas se han re dondeado en 0.00. 2 Obsérvese que en el caso de los intervalos de los que nos hemos servido habría una desviación muy ligera, ya que los casos que quedan exactamente entre intervalos se situarán siempre en la categoría superior. En la mayoría de los casos prácticos dicha desviación puede ignorarse. 10 a 19, entonces los verdaderos lím ites h ab ría n sido, p o r su puesto, 9.5 a 19.5. E n unos pocos casos, como, p o r ejem plo, el de la edad en re la ción con el ú ltim o aniversario, los datos pueden n o hab erse red o n d ead o en la fo rm a convencional. S in em bargo, si nos pregun tam os a cuál intervalo corresponda u n caso determ inado, la re s p u esta h a b ría de ser siem pre clara. Como q u iera que, en efecto, u n a p erso n a que vaya a cu m p lir 20 años m añ an a cuenta hoy 19, es obvio que el intervalo fijad o com o de 15 a 19 tiene com o ver daderos lím ites los valores 15 y 20. Pese a que p u ed a p arece r que andam os con sutilezas al distinguir e n tre los lím ites indicados y los lím ites verdaderos, verem os, sin em bargo, en los capítulos sucesivos q ue estos últim os h a n de utilizarse en los cálculos, au n que p o r lo reg u lar n o se indiquen explícitam ente al p re sen tarse los dato s en form a de d istribución de frecuencia. D atos discretos y continuos. Los datos de los que nos hem os servido son continuos, en el sentido de que cualquier valor h u b iera p odido obtenerse teóricam ente p a ra u n porcentaje, a con dición que la ex actitud de m edición fu e ra lo suficientem ente p re cisa y q ue los intervalos fu e ran m uy grandes. Así, p o r ejem plo, el v alo r de 17.4531 p o r ciento es ta n posible com o el de 17.0000 p o r ciento. Algunos otros tipos de datos son discretos, ya que no todos los valores son posibles. E n efecto, u n a m u je r puede ten er ex actam ente 0, 1, 2 o inclusive 17 niños, p ero no puede te n e r 2.31 niños. El ingreso y el volum en de u n a ciudad son variables teó ricam en te discretas, y a que n o es posible te n e r u n ingreso de $ 3 219.5618, o que u n a ciudad tenga u n a población de 43 635.7 h a b itan tes. Debido a las lim itaciones de to d o in stru m en to de m e dición y a la necesidad subsiguiente de h ab e r de red o n d ear en u n p u n to u o tro, los datos em píricos vienen siem pre en fo rm a dis c re ta ; p ero en m uchos casos podem os p o r lo m enos concebir u n a distrib u ció n continua susceptible de alcanzarse con un in stru m en to de m edición perfecto. Como lo verem os en el capítulo relativ o a la curva n orm al, los m atem áticos h an de d esa rro llar a m en u d o distribuciones teóricas que ad o p tan u n a variable con tinua. E n algunos casos, com o los del ingreso o n ú m ero de h ab itan tes de u n a ciudad, n o re su lta dem asiado difícil concebir los datos com o continuos, aunque se tra te en realidad de unidades m uy pe queñas (centavos, p erso n as) que no se d ejan subdividir. Pero, ¿qué o cu rre con el n ú m ero de niños en u n a fam ilia? Aquí p a re ceríam os v io len tar excesivam ente los hechos si adm itiéram os continuidad. Al p re s e n ta r los datos en u n a distribución de fre cuencia no se nos o cu rrirá, p o r supuesto, servim os de intervalos que vayan de 0.5 a 2.4 o de 2.5 a 4.4 niños. E m plearem os senci llam en te intervalos com o de 0 a 2, de 3 a 4, etcétera, y no h ab rá am bigüedad alguna p o r lo que se refiere a los huecos e n tre aqué- líos. E n algunos cálculos, sin em bargo, se rá necesario, p o r razo nes p ragm áticas, tr a ta r los casos com o continuos y d isp o n er m a r cas discretas en in tervalos pequeños. E n efecto, p o r ra ro que se n o s p u ed a a n to ja r, podem os n ec esitar c o n sid erar a las m adres con u n h ijo com o e n u n in terv alo d e 0.5 a 1.5 niños. P a ra la m a y o ría de los o b jeto s obtendrem os lo s m ism os re su ltad o s que o b ten d ríam o s m an teniendo los datos en fo rm a discreta. Con el fin de ad a p ta rse a los m odelos establecidos p o r los m atem áticos, en este y otro s casos será necesario h a lla r u n com prom iso con la realidad. A condición de que nos dem os p erfec ta cu en ta de lo que estam os haciendo, n o re s u lta rá de ello confusión alguna o sólo m uy poca. IV.2. D istribuciones de frecuencia cum ulativa P a ra algunos o b jeto s es conveniente p re se n ta r los d ato s e n u n a fo rm a algo d istin ta. E n lugar de in d icar el n ú m ero d e casos en cad a intervalo, podem os in d icar el n ú m ero de m arc as que son m enores (o m ay o res) que xm v alor determ inado. E n el caso de los intervalos de los que nos hem os estad o sirviendo, n o hay, p o r supuesto, colegios electorales con u n a p articip ació n de votantes in ferio r a cero, hay cinco con m enos del 9.95 p o r ciento, 22 con m enos del 19.95 p o r ciento, y los 93 ju n to s tienen u n a p artic ip a ción in ferio r al 89.95 p o r ciento. Así, pues, podem os p re se n ta r los datos en fo rm a acum ulada, ta l com o se indica en el cuadro IV.4. O bsérvese que podem os acu m u lar lo m ism o h acia a rrib a que h a d a a b a jo p re g u n ta n d o cuántos casos están p o r encim a de u n valor d eterm inado. Las frecuencias cximulativas su elen indi carse p o r lo re g u la r con u n a F m ayúscula, en lu g ar de la miCuadro IV.4. D istribución de frecuencia cum ulativa Acumulación hacia arriba Número de casos por debajo de 0.0 9.95 19.95 29.95 39.95 49.95 59.95 69.95 79.95 89.95 Frecuencia acumulada, Por ciento F 0 5 22 61 83 91 92 92 92 93 0.0 5.4 23.7 65.6 89.2 97.8 98.9 98.9 98.9 100.0 Acumulación h ada abajo Número de Frecuencia casos por acumulada, Por ciento encima de F 0.0 9.95 19.95 29.95 39.95 49.95 59.95 69.95 79.95 89.95 93 88 71 32 10 2 1 1 1 0 100.0 94.6 76.3 34.4 10.8 2.2 1.1 1.1 1.1 0.0 núscula. Si querem os, podem os convertir las frecuencias efecti vas en p o rcen tajes. T endrem os ocasión de servim os d e las distrib u cio n es cum ulativas en el capítulo v al calcular las m edia nas, así com o m ás ad elan te en el capítulo xiv. IV.3. P resentación gráfica: histogram as, polígonos de frecuencia y ojivas H ay p erso n as que sienten re p aro en in te rp re ta r los cuadros y que ca p ta n m e jo r los m ateriales presen tad o s en fo rm a gráfica % -43.0 -32.3 -21.5 -10.8 0 10 20 30 40 50 60 70 80 90 100 F ig . IV .l. H istogram a de intervalos iguales. o visual. U no de los m odos m ás sencillos y útiles de p re se n ta r los dato s de tal m an era que las diferencias e n tre las frecuencias se d estaq u en fácilm ente consiste en servirse de figuras de áreas o a ltu ra s p roporcionales a las frecuencias en cada categoría. Puede, p o r ejem plo, u tilizarse u n a b a r ra p a ra re p re se n ta r cada categoría, ind icando la a ltu ra de la m ism a s u m ag n itu d relativa. Si la escala es nom inal, la ordenación efectiva de las b a rra s no rev iste im p o rtan cia. P o r lo que se refiere a las escalas ordinales y de in terv alo , las b a rra s pueden disponerse en s u p ro p io orden, con lo q ue d an u n a b u en a indicación visual de la distribución de la frecuencia. La fig u ra re su lta n te se llam a histogram a. La frecu en cia ab so lu ta o la p roporción de los casos pueden indi ca rse a lo larg o de la ordenada, com o en la fig u ra IV .l. H ay que o b serv ar que si las alturas de las b a rra s se tom an com o p roporcionales a las frecuencias en cada intervalo de clase, el c u a d ro visual puede re s u lta r confuso, a m enos q u e todos los in terv alo s sean cerrados y d e am p litu d igual. Supóngase, p o r ejem plo, q u e u n o de los intervalos cen trales h u b iera sido de an cho 20 e n lu g ar de 10. E n co n traríam o s en consecuencia un m ay o r n ú m ero de casos en el intervalo, y el re su lta d o sería com o e n la fig u ra IV.2. Es obvio que si deseam os o b ten er un h isto g ram a que re p resen te los datos en form a m ás adecuada, debiéram os d a r a la b a rra la m ita d solam ente del alto, ya que het % 40 -43.0 30 -32.3 20 -21.5 10 -10.8 — ..... , t____i— 0 --- --- --------1 —■■ 0 10 20 30 40 50 60 70 80 -- ■ . 90 100 Fig. IV.2. H istogram a de intervalos desiguales y alturas proporcionales a las frecuencias. m os doblado el ancho y, en prom edio, hem os incluido u n doble n ú m ero de casos en el intervalo m ay o r d e lo q u e sería el caso en uno u o tro de los dos intervalos de tam añ o norm al. E sto nos d aría u n h isto g ram a (véase figura IV.3) m ucho m ás sem ejante al % -43.0 -323 -21.5 -10.8 0 10 20 .... i 30 40 ________ _ 50 60 , _________1 70 80 j 90 100 Fig. IV.3. H istogram a d e intervalos desiguales y áreas proporcionales a las frecuencias. o btenido inicialm ente. Una breve reflexión nos convencerá de que si hem os de p e n sa r en térm inos de áreas m ás que en altu ras, podrem os m an ip u lar m ás fácilm ente los datos que com por tan intervalos desiguales. E n o tro s térm in o s: dejam os que las áreas de los rectángulos sean proporcionales al n ú m ero de los casos. E n el caso especial im p o rtan te en que todos los in terv a los sean de ancho igual, las altu ra s serán tam bién, p o r supuesto, prop o rcio n ales a las frecuencias. Si el ancho de cada rectángulo se to m a com o u n id ad y si las altu ra s se re p resen ta n com o p ro f % dnLdxn 1 0 i10 i___ i________ u-« i 20 30 40 50 60 70 80 90 100 F ig . I V .4. Polígono de frecuencia. porciones, entonces el á re a to ta l com prendida en el histo g ram a será la un id ad . Así, p o r ejem p lo : 1(5/93) + 1(17/93) + 1(39/93) + .......... + 1(1/93) = 1 Al e stu d ia r la curva n o rm al en el capítulo v n , verem os que es necesario' tr a ta r con áreas, antes que con a ltu ra s, y será conve n ien te to m a r el área to ta l b a jo el histo g ram a com o unidad. O tro m odo m uy p arecid o de p re se n ta r g ráficam ente u n a dis trib u ció n de frecuencia es el del polígono de frecuencia. P ara ob ten erlo , u nim os sim plem ente los p u n to s m edios de los lados su p erio res de cada rectángulo p o r m edio de re ctas y b o rram o s luego los rectángulos, com o e n la fig u ra IV.4. O bsérvese q u e los p u n to s extrem os del polígono de frecuencia se h a n colocado so b re la lín ea b ase (e je h o rizo n ta l) en los p u n to s m edios de los intervalos a uno y o tro lad o de los dos intervalos de los extre m os. N o rm alm en te n o nos serviríam os de los dos tipos de figu ras, p ero, su p erp oniendo el polígono de frecuencia sobre el h isto gram a, vem os que el á re a delim itada p o r las dos figuras h a de ser igual. E sto es así p o rq u e p o r to d o trián g u lo que queda al in te rio r del polígono de frecuencia, p ero ex terio rm en te al h isto gram a, hay u n trián g u lo idéntico debajo del histogram a, p ero fu e ra del polígono d e frecuencia. Así, pues, podem os tam bién co n sid erar com o u n id ad el á re a delim itada p o r dicho polígono. Obsérvese, sin em bargo, q u e n o hem os hecho m ás q u e conectar p o r m edio de re ctas cierto n ú m ero de puntos. Los puntos m is m os pu ed en re p re s e n ta r el n ú m ero de casos en cad a intervalo, p ero hem os de guardarnos de in fe rir que hay cierto nú m ero de casos en cu alq u ier o tro p u n to a lo largo del trazo continuo. Así, p o r ejem plo, no hem os d e in fe rir que hay aproxim adam ente 28 casos con m arcas de 20 exactam ente. Los polígonos de frecuencia pueden em plearse asim ism o p ara re p re se n ta r d istribuciones de frecuencia cum ulativa. La figura F % 93.00 -100 , , ' , - 60 70 80 90 100 69.75 -75 -------------, / 46.50 -50 23.25 -25 0, —-"i 0 10 / i i 20 30 40 50 Fig. IV.5. Ojiva que representa una distribución d e frecuencia acum ulativa. q ue en ta l caso re su lta se designa com o ojiva. A lo largo de la o rd en ad a o eje Y podem os in d icar frecuencias o porcentajes. Co locam os, en cam bio, las m arcas de la variable de escala de in tervalo a lo larg o del e je de las X (a b scisa), lo m ism o que an terio rm en te, e n el b ien en tendido de que las frecuencias re p resen tad as in dican el n ú m ero d e casos de valor inferior al eje de la X . P o r ejem plo, en la fig u ra IV.5 vem os q u e aproxim ada m en te el 75 % de las m arc as son m enores que 34. P or lo tanto, las ojivas se pueden u s a r com o u n m étodo gráfico de determ i n a r el n ú m ero de casos p o r encim a o p o r deb ajo de u n cierto valor. E s obvio que la fo rm a d e la ojiva h a b rá de se r siem pre o creciente o decreciente según que se acum ule hacia a rrib a o h acia ab ajo . La curva será, e n cam bio, horizontal e n los in te r valos vacíos. Si la distrib u ció n de frecuencia es del tip o de nues tro s datos anterio res, con el nú m ero m ayor de casos en los in te r valos que quedan cerca del cen tro de la distribución, la ojiva te n d rá fo rm a de S, con la inclinación m ás rá p id a a proxim idad de los in tervalos que contienen el m ayor nú m ero de casos. Glosario Datos continuos y datos discretos Distribución cumulativa Distribución de frecuencia Polígono de frecuencia Histograma Ojiva Límites verdaderos E j e r c ic io s 1. Supóngase que las cifras a continuación representan los ingresos anuales de un grupo de residentes de una localidad: $3 850 4 360 2140 3330 7 810 5 340 2 970 4140 3 000 1610 4 570 1940 2 780 $ 2 760 4340 5210 3410 4570 9300 3 320 1790 4560 3 800 13 460 5 210 2 690 $ 2 860 4 350 7 310 3 550 4210 5 490 2110 23 400 3 760 4170 6170 2 350 8 340 $ 3 890 11740 3 560 2740 7110 10300 4440 3 370 5170 3160 2 800 3180 4 240 $ 3 340 4350 2610 8190 4250 3 460 19310 2 670 3 100 5130 1710 4320 9 830 a) Constrúyase una distribución de frecuencia y una distribución cumulativa. b) ¿Cuáles son los verdaderos límites? c) Trácese un histograma, un polígono de frecuencia y una ojiva. 2. En un examen de tipos de visita entre amigos íntimos y parien tes, 81 interrogados son invitados a indicar el número de los amigos y parientes que visitan por lo menos una vez al mes. Los resultados son los siguientes (las cifras indican el núm ero efectivo de personas regularmente visitadas): 3 2 5 4 9 4 5 3 4 5 4 6 14 4 3 4 11 3 2 2 4 3 1 5 2 4 14 3 5 3 5 4 7 3 5 5 3 3 2 6 2 3 6 19 2 4 3 2 3 4 5 1 4 1 1 3 6 4 3 6 3 5 4 8 0 3 2 5 2 16 2 3 4 3 5 4 0 2 5 2 4 a) Constrúyase una distribución de frecuencia y una distribución cumulativa. b) Justifiqúese lo m ejor que se pueda la elección de los intervalos. c) Trácese un histograma, un polígono de frecuencia y una ojiva. 3. Indíquense los límites verdaderos en cada uno de los siguientes intervalos: a) 1000 — 1900 2000 — 2 900 b) 1000 — 1 999 2000 — 2 999 c) 1.000— 1.999 (Respuesta, 2.000 — 2.999 0.9995 — 1.9995) d) .010— .019 .020— .029 ¿Qué se ha supuesto en cada uno de los casos a propósito del méto do de redondeo? B ibliografía 1. Anderson, T. R. y M. Zelditch: A Basic Course in Statistics, 2- edv Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 4. 2. Downie, N. M. y R. W. H eath : Basic Statistical Methods, 2' ed., Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 3. 3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry Holt and Company, Inc., Nueva York, 1952, caps. 4 y 5. 4. McCollough, C., y L. van A íta: Introduction to Descriptive Statis tics and Correlation, McGraw-Hill Book Company, Nueva York, 1965, cap. 1. 5. Mueller, J. H., K. Schuessler y H, L. Costner: Statistical Reasoning in Sociology, 2‘ ed. Houghton Mifflin Company, Boston, 1970, cap. 4. 6. Weiss, R. S .: Statistics in Social Research, John Wiley & Sons, Inc., Nueva York, 1968, cap. 5. que las escalas nom inales pueden resu m irse fácilm ente en térm inos de porcen tajes, proporciones o razones, y que dichas m edidas de resum en son fundam entalm ente intercam biables. En o tro s térm in o s: b asta u n tipo determ inado de m edida p a ra des c rib ir los datos. E n el caso de las escalas de intervalo, a su vez, vimos que los datos pueden describirse p o r m edio de u n a distri bución de frecuencia. Podem os servirnos tam bién de tipos dis tin to s de m edidas, siendo las m ás im p o rtan tes de ellas las de tipism o o de tendencia central y las de heterogeneidad o dis persión. Verem os que existe en cada caso cierto núm ero de m e didas d istin tas e n tre las que podem os elegir, cada u n a de las cuales reú n e propiedades, ventajas e inconvenientes aigo diferen tes. P o r lo tan to , el resu m en de las escalas de intervalo es algo m enos directo que en el caso de las nom inales. E n el p resen te capítulo nos ocupam os de las m edidas de tipism o, en ta n to que en el siguiente exam inarem os las de dispersión. Tom ados ju n tos, dichos dos tipos de m edidas re su ltarán norm alm ente ade cuados p a ra la descripción de los datos de escala de intervalo. La idea que tiene el lego a p ropósito del térm in o prom edio pro pende a ser m ás bien vaga o am bigua. E n efecto, puede n o darse cu en ta de que existen varias m edidas diversas del tipism o y que, en d eterm inadas circunstancias, dichas m edidas dan resultados m uy d istintos. El hecho de que sea posible o b ten er tales m edi das diferen tes de tendencia central supone que es necesario co m p ren d er las v en tajas y los inconvenientes de cada u n a de ellas. Im p o rta, pues, sab e r en cuáles circunstancias cada u n a sea adecuada. ¿P o r qué la Oficina del Censo indica ingresos m e dianos y n o ingresos m edios? ¿T endría algún sentido in d icar al lego que la fam ilia "m ed ia” tiene 2.3 hijos y vive en u n a casa de 4.8 cu arto s? ¿E n cuáles circunstancias es de poca im portancia la m ed id a que se em plee? É stas son algunas de las num erosas cuestiones que p o d rían p lan tearse acerca del tip o de prom edio que hem os de calcular. V imos V .l. La m edia aritm ética H ay dos m edidas im p o rtan tes de tendencia cen tral em pleadas en la investigación sociológica: la m edia aritm ética (designada a continuación sim plem ente com o m e d ia ) y la m ediana. La m edia es con m ucho la m ás com ún de las dos y se define com o la sum a de las m arcas dividida p o r el núm ero to tal de los casos com pren didos. P a ra in d icar la m edia se utiliza p o r convención el sím bolo 67 X, au n q u e a veces se em plee tam b ién la le tra M. P o r lo tanto, la fó rm u la de la m ed ia aritm é tic a es la sig u ie n te : N 2 X' —■ X-± -V*X%“1".......... x = — ------- — ----------------- — = ------------- N N ' ( V .l ) en la que X x re p re se n ta la p u n tu ació n del p rim e r individuo, X 2 la del segundo, y X t la del individuo general.1 Si no existe am bi güedad, podem os p re sc in d ir de los subíndices y e sc rib ir sim ple m en te - 2X X = ------M en donde se en tien d e que to d as las cantidades se sum an. La m ed ia posee la p ro p ied a d algebraica de que la sum a de las desviaciones de cada m arc a con re sp ecto a la m ed ia será siem p re cero. S im bólicam ente esto pu ed e exp resarse m ed ian te la ecuación sig u ien te: 2 (X «-X ) = 0 «=*i E ste hecho n o h a de so rp re n d e r en absoluto si tenem os e n cuen ta la definición de la m edia. La p ru e b a es sencilla. Como quiera que tenem os u n a sum a de n ú m ero s cada u n o de los cuales, es en realidad, u n a diferencia, podem os descom poner la expresión in d icad a en la diferencia d e dos sum as. E n la siguiente fo rm a : y — 2 (Xt - X ) = <=*1 » 2 Xt 1=1 y _ 2 X i= 1 Pero, com o q u iera que X es u n a constante, ten em o s: N 2 X* & _ _ i=l N .2 X = N X = N ------------ = 2 X* í= i JV C i 1 y vem os in m ed iatam en te que la d iferencia es cero. La p ro p ied ad m encionada p u ed e u tilizarse p a ra sim plificar el 1 Para el examen de la notación de adición véase el Apéndice I. cálculo de la m edia. Supóngase, p o r ejem plo, que hem os de calcu lar la m edia de los n úm eros 72, 81, 86, 69 y 57. S um ando y dividiendo p o r cinco obtenem os u n a X — 73.0. Si sustraem os ah o ra esta m edia de cad a u n a de las cifras y adicionam os los re siduos, verificam os que la su m a re su lta n te es cero. X X-73 X-70 72 81 86 69 57 - 1 8 13 - 4 -1 6 2 11 16 - 1 -1 3 0 15 Supóngase, en cam bio, que hubiéram os an ticip ad o u n a m edia de 70 y la hu b iéram o s re sta d o de cada u n a de las cifras en cues tión. E ntonces la su m a re su lta n te n o es cero, sino que observa m os q ue cada u n a de las nuevas diferencias es m ayor en tre s u n id ad es (e n dirección positiv a) que las diferencias originarias. Vem os así q ue hem os an ticip ad o u n a m ed ia que es dem asiado p eq u eñ a en tre s u n idades. Si añadim os a h o ra u n fa c to r de co rrecció n de tre s a la m edia anticipada, obtenem os la m edia correc ta. E n la p ráctica, sin em bargo, no co m p araríam o s los dos ju e gos de diferencias e n esta form a, sino que, observando q u e la su m a del segundo g ru p o de diferencias es de + 15 y sabiendo q ue h ay cinco térm in os, e sto indica que en pro m ed io estábam os de 15/5, o sea 3.0 u n idades, p o r deb ajo de la m ed ia verdadera. Y com o pued e v erificarse fácilm ente, si h u b iéram o s anticipado u n v alo r dem asiado alto, entonces la su m a de las diferencias h a b ría sido negativa, y hubiéram os debido su stra e r de la m edia an ticip ad a p a ra o b ten er la correcta. Si X' re p resen ta la m e dia anticip ad a, podem os estab lecer u n a fó rm u la de la m edia en térm in o s d e la m edia su p u esta y de u n fa c to r de corrección: 1 ( X i - X ’) X = X ’ + — ----------------N ( V.2) o bien, en p a la b r a s : la suma de desviaciones de ésta La media verdadera = a la media supuesta + --------------------------------------------. número de casos Con o b jeto de verificar la corrección de esta fórm ula desarrolla m os la expresión de la derecha y o b te n e m o s: X' + - iV N N S xt i=i 2 X' i=i •= X ' + - JV N 2 X* t=i = X' + - A? _ Af NX’ N N 2 Xi i= l “ ÁT ■= x Pese a que p u ed a p arece r que nos hayam os to m ad o m ucha m olestia calculando X p o r rodeo en esta form a, este m étodo p er m ite sin em bargo ah o rra rse a m enudo u n a considerable cantidad de tra b a jo cuando no se dispone de calculadoras de escritorio. E l em pleo de u n a m edida an ticip ad a p erm ite p o r lo re g u lar re d u cir la m ag n itud de los núm eros que h a n de adicionarse. En efecto, cu an to m ás cerca quede la m edia su p u esta de la verda dera, ta n to m en ores serán en m agnitud las diferencias resu ltan tes. E ste p rin cipio nos será p artic u la rm en te ú til cuando em pren dam os el cálculo de las m edias de datos agrupados. O tra p ro p ied ad de la m edia puede fo rm u larse com o sigue: la sum a de las desviaciones cuadradas d e cada cifra con respecto a la m edia es m en o r que la sum a de las desviaciones cuadradas con resp ecto a cualquier o tro núm ero. O en o tro s té rm in o s : 2 (Xi ~ X ) 2 = m ínim o. i= l * La p ru eb a de esta propiedad es m uy sencilla. C onsiderem os las desviaciones de X t alrededor de cualquier o tro n ú m ero X ' que previam ente hayam os tra ta d o com o m edia anticipada. S um ando y re sta n d o la m edia real X de cada u n a de dichas expresiones podrem os a n o ta r : Xi - X ' = ( X í - X ) + ( X - X ' ) Elevando los dos térm inos al cu ad rad o obtenem os: (X i - X' ) s = ( X t - X )2 + 2( Xi - X ) ( X - X ’) + ( X ~ X ’)2 R esum iendo p a ra todos los casos N o b te n d re m o s: 2 ( X i - X ') 2 ^ 2 ( X i - X p í= i i= i + 2(X — X ') 2 ( X * - X ) + 2 ( X - X ' ) 2 í= i i= i en do n d e h a sido posible esc rib ir la ca n tid a d 2(X — X ') fre n te al signo d e su m ar en el segundo térm ino, ya q u e se tra ta de u n a co n stan te. In m ed iatam en te verem os que to d o el segundo térm in o N debe s e r igual a cero, pues acabam os de m o s tra r que 2 ( X¿ — _ i= l X ) = 0. P o r o tra p a rte , el últim o térm in o co n sta de N térm inos, to d o s iguales a (X — X ')2. T endrem os p o r ta n to 2 2 (X j — X )2 + N ( X — X ')2 i=i <=i y así se co m prueba que la sum a de las desviaciones a lre d ed o r de X ' al cu a d rad o es igual a la su m a de las desviaciones alred ed o r de la m ed ia verd adera, al cuadrado, m ás u n té rm in o al cuadrado que n u n ca pu ed e s e r negativo. C uanto m ás g ran d e sea la diferencia e n tre X ' y X, ta n to m ayor será el segundo térm in o situ ad o a la derecha. T endrem os frecuentes ocasiones p a ra u tiliza r e sta p ro p ied ad ¡v _ de los cu ad rad o s de la m edia, y la ca n tid a d 2 (X* — X )2 h a b rá de t= i a p a re c e r en g ran p a r te d e lo que sigue, com o u n a m edida de la variación to ta l o heterogeneidad. V.2. La m ediana A m en u d o necesitam os localizar la posición del caso m edio cuan do los d ato s se h a n o rd e n ad o de m ay o r a m enor. O podem os d iv id ir u n g rupo de estu d ian tes en p o rc en tajes localizando los in dividuos q ue tienen exactam ente el 10 p o r ciento de la clase que q u ed a d eb ajo de ellos, ex actam ente el 32 p o r ciento d eb ajo de ellos, etcétera. Las m ed id as de este tip o se designan a m enudo com o m ed id a s de posición, ya que localizan la posición de algún caso típ ico (o atípico) en relación con o tro s individuos. La m e d ian a es ta l vez la m ás im p o rta n te de estas m edidas de posición. D efinim os la m ed ian a com o u n núm ero que posee la pro p ied ad d e te n e r el m ism o n ú m ero de m arcas con valores m enores que las que h ay de valores m aypres. La m ed ian a divide h ab itu alm en te el to ta l de los datos en dos m itades. Si el n ú m ero de los ca sos es im p ar, la m ed ian a será sim plem ente la m arca del caso del m edio. Si N es p ar, no h a b rá caso cen tral y, de hecho, cual q u ier n úm ero e n tre los valores de los dos casos centrales ten d rá la p ro piedad de dividir las m arcas e n dos grupos iguales. Así, pues, si N es p ar, la m ediana queda definida am biguam ente. Por convención tom am os entonces com o valor único de la m ediana la m edia aritm ética de los dos datos centrales. Si tuviéram os los núm eros 72, 81, 86, 69 y 57, la m ediana sería 72 (e n ta n to que la m edia es 73). Si h u b iera u n sexto térm ino, digam os, p o r ejem plo, 55, las dos m arcas centrales serían 69 y 72, y tom aríam os com o m ediana (69 + 72)/2, o sea 70.5. Si se da el caso de que los dos casos centrales tengan la m ism a m arca, la m ediana será, p o r supuesto, este m ism o dato. O bsérvese que si N es im par, la m ediana será el dato (N + l) /2 . Si el núm ero de los datos es p ar, la m ediana se en c o n trará en el ce n tro e n tre el dato N /2 y el d ato (N + l)/2 . Así, p o r ejem plo, si N = 251, la m ediana será el dato del caso centésim o vigésim o sexto, y si N = 106, tom am os u n valor m edio e n tre las cifras de los casos quincuagésim o terc ero y quincuagésim o cuarto. E stas fórm ulas re su ltarán ú tiles p o r lo re g u lar cuando N sea relativam ente grande. Vimos que la m edia posee las propiedades sig u ien tes: S (X í - X ) = 0 i= l y 1 (X t —X )2 = m ínim o. i=l La razón de que la p rim e ra pro p ied ad se verifique es fundam en talm en te que, cuando se su strae la m edia de cada u n o de los datos, las diferencias resu ltan tes son tales que las m arcas nega tivas se eq u ilib ran exactam ente con las positivas. P ero supóngase que h ubiéram os prescindido p o r com pleto de los signos, consi deran d o to d as las diferencias com o positivas, ¿qué o c u rrirá en este caso? P uede d em o strarse que si se h u b iera re sta d o la m e diana de cada u n a las m arcas prescindiendo del signo de las di ferencias y sum ando los residuos, se o b ten d ría u n a sum a m enor que la cifra co m parable de cu alq u ier o tra m edida de tendencia central. E n sím bolos esto se expresa a s í : y 2 |Xi —M d | = m ínim o <=i en donde M d re p resen ta la m ediana y las b a rra s a am bos lados de la expresión (X i — M d ) indican q u e hay que to m a r el valor positivo (o "ab so lu to ” ) de cada diferencia. A unque esta p ro p ie d ad de la m ediana posea ta l vez algún interés, n o parece, sin em bargo, te n e r aplicaciones directas de alguna significación socio lógica. V.3. Cálculo de la m edia y la m ediana de datos agrupados M étodo largo para el cálculo de la m edia. C uando el nú m ero de datos se hace gran de y los cálculos se realizan a m ano, el com pu ta r la m ed ia o la m ediana puede re su lta r tedioso. La m ayoría de los científicos sociales cu en tan con p rogram as de com putación q ue resuelven estos y o tro s cálculos con facilidad. E n general re su lta p referib le u tiliza r tales program as cuando así parece con veniente, pues así dism inuyen los riesgos de in c u rrir en e rro res de com putación y redondeo, a la vez que se obtiene u n a econo m ía considerable e n tiem po y dinero. Debe, sin em bargo, conocer se el p rocedim iento p a ra co m p u tar varias m edidas sin re c u rrir a tales pro g ram as, ya que con frecuencia re su lta inconvenien te d isp o n er los datos en fo rm a adecuada p a r a su m an ejo p o r co m p u tad o ras rápidas. E n tales casos re su lta ú til a g ru p ar los da tos p o r categorías, com putando la m edia o la m ediana, tom ando com o base las re su ltan te s distribuciones de frecuencias. E n oca siones se tr a ta de datos que nos son dados ya en fo rm a agrupada, pud ien d o re su lta r im posible o inconveniente re g re sa r a los datos originales p a ra p ro ced er a su com putación. Un ejem plo de da tos en grupos lo constituyen los censos. P or ellos sabrem os que hay cierto n ú m ero d e p ersonas con edades d e 0 a 4 o d e 5 a 9 años, p e ro desconocerem os la edad exacta de cad a individuo. Como verem os m ás abajo, el em pleo d e los datos agrupados puede sim plificar n u e s tra la b o r considerablem ente. Pero, p o r o tra p arte, al agru p arlos en categorías, perdem os sin poderse evitar inform ación. Podem os sa b e r solam ente, p o r ejem plo, que hay 17 p erso n as con ingresos e n tre $ 2 000 y $ 2 900, p ero n o sabem os cóm o se h allan d istrib u id as exactam ente en el in te rio r de dicho intervalo. Con o b jeto de calcu lar la m edia o la m ediana de tales datos agrupados, hem os d e p ro c ed er a h a c e r ciertos supuestos sim plificadores acerca de la posición de los individuos en el in te rio r de cad a categoría. E n el caso de la m edia, tra ta re m o s todos los casos com o si se h allaran concentrados en los p untos m edios de sus in tervalos respectivos. Y al calcular la m ediana supon drem os que aquéllos se h allan esparcidos a distancias iguales en el in te rio r de cada intervalo. P o r supuesto, esas sim plificaciones llevan a p a re ja d a c ierta inexactitud. E n efecto, no podem os es p e ra r o b ten er en esta fo rm a exactam ente los m ism os resu ltad o s que nos p ro p o rcio n arían los datos b ru to s. Pero, p o r o tra p arte , si el n ú m ero de datos es grande, las distorsiones introducidas s e rá rrp o r lo re g u la r insignificantes y com pensarán so b rad am en te el ah S rro de tiem po. Es obvio, p o r lo dem ás, q u e cuanto m ás an gostos sean los intervalos, ta n to m enos inform ación perderem os y tan to m ay o r será la exactitud. Así, p o r ejem plo, si sabem os que hay 17 casos e n tre $ 2 000 y $ 2 900 y 26 casos e n tre $ 3 000 y $ 3 900, podem os o b ten er resu ltad o s m ás exactos im aginando que los 17 casos se h allan en el p u n to m edio del p rim e r in terv alo y los 26 en el p u n to m edio del segundo, que si hu b iéram o s de situ ar los 43 casos ju n to s en el p u n to m edio del in terv alo m ay o r de $ 2 000 a $ 3 900. E stas sim plificaciones tienen m ayores pro b ab i lidades de co n d u cir a e rro re s en el caso de intervalos extrem os, ya q ue los d ato s de dichos intervalos pueden re s u lta r desviados hacia el ce n tro de la distrib u ció n to tal. E n e s ta form a, si hay 17 casos en el in terv alo m ás bajo , la m ayoría de ellos pueden e n c o n trarse en la m ita d su p erio r del m ism o. Sin em bargo, si el n ú m ero de los individuos e n dichos intervalos extrem os es m uy pequeño, com o suele suceder, es p ro b a b le que la d isto rsió n in tro ducida sea insignificante. De ah í q u e al calcu lar la m edia de datos agrupados tratem os todos los casos com o si estuvieran situ ad o s e n el p u n to m edio de sus in tervalos respectivos. Si lo p refiriéram o s, podríam os su ponerlos esparcidos a distancias iguales en el in te rio r del in te r valo, pero, com o es fácil verificar, esto conduciría a los m ism os resu ltad o s, ya que la m edia de cada in terv alo q u ed a ría exactam en te en el p u n to m edio del m ism o. Como q u iera que todos los ca sos de u n in terv alo se tra ta n com o si tu v ieran el m ism o valor, podem os m u ltip licar el n ú m ero de casos de cada in terv alo p o r su v alo r com ún, en lu g ar de ad icio n ar los datos separadam ente. Así, p o r ejem plo, si hem os colocado 26 casos a la a ltu ra del valor d e 3 450, el p ro d u c to de 26 X 3 450 se rá igual a la su m a de 26 m arcas sep arad as de 3 450 cada una. Y si hacem os esto con to dos los intervalos, sum am os los p ro d u cto s y dividim os e n tre el n ú m ero to ta l de casos, ob ten d rem o s la m edia aritm ética. La fó rm u la de ésta se convierte e n ta l caso e n : fc 2 Te fitr ii 2 /¡Mj __ 4=1 i= 1 X = ---------------------------------N 2n (V.3) en la q ue /¡ = n ú m ero de casos de la categoría ¿-ésima con 2 / t=A/ m{ = p u n to m edio de la categoría í-ésima k = n úm ero de las categorías. E l ejem plo expuesto en el cu ad ro V .l a c la rará el proceso. E n el cu ad ro V .l todos los intervalos son de la m ism a am pli tu d . E sto no es esencial, a condición q ue se em pleen puntos m e dios correctos. S in em bargo, es necesario servirse de intervalos cerrados. Supóngase, en efecto, que el últim o intervalo hubiera sido de $ 7 000 p a ra arrib a . ¿Qué p u n to m edio tom aríam os? No poseem os abso lu tam ente base alguna qué nos p e rm ita juzgar, a m enos que nos rem ontem os a los datos originales. Algunas ve ces esto resu lta posible, ya que las categorías extrem as sólo com p ren d en a m enudo relativam ente pocos datos. E n éstos re su lta p o r lo re g u lar m ás lógico servirse de la m ed ia real de los datos Cuadro V .l. Cálculo de la m edia de datos agrupados por el m étodo largo Límites fijados Límites verdaderos Puntos medios ("«i) ft fimi $2000-2 900 3 000-3 900 4 000-4 900 5000-5900 6000-6 900 7 000-7 900 $ 1 950-2 950 2 950-3 950 3 950-4 950 4 950-5 950 5950-6950 6 950-7 950 $2450 3 450 4 450 5450 6450 7 450 17 26 38 51 36 21 $ 41650 89700 169100 277 950 232 200 156450 189 $967050 Totales 2 /„«, X = - ~Ñ 967050 = $5117 189 de la categoría ex trem a que del p u n to m edio de algún intervalo m ayor. E n los casos en que n o re su lta posible rem o n tarse a los datos originales, será necesario ad o p ta r u n supuesto razonable en relación con el v alor del p u n to m edio. De ah í que sea decidi d am en te m ás ventajoso p a ra nosotros servirnos de intervalos cerrad o s siem pre que h ay a de calcularse u n a m edia. Según ve rem o s en el cap ítulo vi, esto se aplica asim ism o al cálculo de la desviación están dar, la m edida m ás com únm ente em pleada de dispersión. M étodo corto para el cálculo de la m edia. El m étodo a rrib a in dicado co m p o rtará p o r lo re g u lar la m ultiplicación de núm eros b a sta n te grandes (v.gr., 2 450X 17), a m enos que re su lte que los p u n to s m edios son n úm eros sim ples. Con u n a calculadora m o d e rn a dichos p ro d u cto s pueden calcularse y acum ularse fácil m ente. Pero, si los cálculos h an de h acerse a m ano, existe un m edio m u ch o m ás sencillo de calcular la m ed ia de datos agru pados. E ste m étodo, llam ado "co rto ”, parece a p rim e ra vista com p o rta r m ás tra b a jo que el "largo", pero, u n a vez dom inado, se revela com o m ucho m ás sencillo que el otro. F undam entalm ente, el m éto d o co rto consiste en an ticip ar u n a m edia y servirse en e sta fo rm a de n ú m eros m ás pequeños en la m ultiplicación. Lue go se añade, com o an terio rm en te, u n fa c to r de corrección a la m edia supuesta. Con o b jeto de sim plificar n u estro s cálculos, tom em os com o m edia an ticip ad a el p u n to m edio de u n o de los intervalos. E n el ejem p lo a rrib a tra ta d o podem os v er p o r inspección que la m edia será algo in ferio r a $ 5 450, p u n to m edio del c u a rto intervalo. La v en taja de serv irn o s de u n p u n to m edio com o m edia su p u esta es obvia. E n efecto, todos los dem ás datos e starán en ta l caso a cierto n ú m ero de intervalos de distancia de la m edia supuesta, ya que cad a m arc a se supone h allarse en u n o u o tro de los puntos m edios. Si restam o s ah o ra la m edia su p u esta de cad a u n a de las m arcas, o b ten d rem os diferencias de exactam ente $ 1 000, $ 2 000 o $ 3 000 en am b as direcciones. M ultiplicam os luego esas diferen~ d a s p o r las frecu encias ap ro p iad as p a ra o b ten er el fa c to r de corrección q u e h a de añ ad irse a la m edia anticipada. E n o tro s térm inos, h a b rá 17 casos con m arc as de exactam ente $ 3 000 m e nos que aq u élla; h a b rá 26 casos con u n a diferencia de $ 2 000, etcétera. Si nos servim os de u n a colum na di que re p re se n te la diferencia e n tre las m arcas efectivas y la m edia anticipada, p o d e m os m o d ificar la fó rm u la (V.2) y esc rib ir la fó rm u la de la m edia com o sigue: ¿ fA x = r + _ LL— ( v .4) N donde di = X t - X ' y podem os d isp o n er n u estro s cálculos en u n cu ad ro com o en el cu ad ro V.2. Una vez m ás, el fa c to r de corrección se obtiene to m an d o la desviación to ta l con re sp ecto a la m ed ia an ticip ad a (a q u í —63 000) y después dividiendo e n tre el n ú m ero de casos, lo q ue d a la ca n tid ad prom edio en que la m edia an ticip ad a se sepa ra de la verdadera. E n este ejem plo, el fa c to r de corrección h a re su lta d o se r ne gativo, in dicando que la m edia an ticip ad a e ra dem asiado grande. H ay que o b serv ar que si hubiéram os an ticip ad o p a ra la m edia o tro v alo r cualquiera, h ab ríam o s llegado al m ism o resu ltad o . Si se elige com o m ed ia an ticip ad a el p u n to m edio de te rc e r in te r valo ($ 4 4 5 0 ), el fa c to r de corrección es de $667, el cual, adicio nado a $ 4 450 d a el re su ltad o correcto. Dicho sea de paso, esto constituye u n m edio de control m uy ú til de n u e s tra lab o r. Ob sérvese que si h u b iéram os elegido el p u n to m edio d e cualquier o tro intervalo, h ab ríam o s realizado m ás trab a jo , y a q u e los n ú m eros a su m a r en la colum na /td4 h a b ría n sido n u m éricam ente m ayores. Y si h u b iéram os fallad o en serv im o s de u n p u n to m e dio, las desviaciones resp ecto de la m edia su p u esta h ab ría n com p o rta d o n ú m ero s m ucho m enos sim ples, con lo que n o nos h ab ríam o s a h o rrad o tra b a jo alguno. U na vez que el proceso se h ay a com prendido bien, es posible o m itir en el cu ad ro de cálculo la colu m n a de los p u n to s m edios. E l lecto r h a b rá sin d u d a observado que cada u n a de las desvia ciones resp ecto de la m edia p re su n ta del ejem plo a n te rio r es un Cuadro V.2. Cálculo de la m edia de datos agrupados p o r el m éto d o corto Limites verdaderos Puntos medios n ¿i fA $1950-2950 2950-3 950 3 950-4950 4 950-5950 5950-6950 6 950-7 950 $2450 3 450 4 450 5450 6450 7450 17 26 38 51 36 21 $ - 3 000 - 2 000 -1 0 0 0 0 1000 2 000 $ -5 1 0 0 0 -5 2 0 0 0 - 3 8 000 0 36 000 42 000 Totales 189 $ - 6 3 000 le 2 fA — _ «—1 Jí X = =A * ' i+---— N = 5450 + -6 3 0 0 0 „ = 5 450 189 333 = $5117 m ú ltip lo exacto de 1 000, o sea la m agnitud del intervalo utilizado. E sto será siem pre así, a condición que todos los intervalos ten gan la m ism a am plitud. P o r lo tan to , podem os p o n e r la am p litu d del in terv alo com o fa c to r en cada u n o de los p ro d u cto s fA> m ul tip lican d o p o r d icha a m p litu d u n a vez te rm in a d a la adición. E n o tro s té rm in o s : pudim os h a b e r obtenido la su m a de — 63 000 de la m an era sig u iente: - 63 000 = 1 000( — 51 - 52 - 38 + 0 + 36 + 42). En lo que equivale a lo m ism o, pudim os h a b e r expresado las desviaciones originales en té r m inos del n ú m ero de intervalos (o “ desviaciones g ra d u an tes” ) resp ecto de la m edia supuesta. P or lo tan to , d eterm inam os cu án to s intervalos d ista la m edia supues ta de la v erd ad era y, finalm ente, tran sp o rta m o s la m agnitud del e rro r h acia a trá s a las unidades originales, m ultiplicando este fa c to r de corrección p o r la m agnitud del intervalo. Designando la desviación en am plitudes de intervalo com o d', podem os re visar n u e stro cu ad ro en la fo rm a indicada en el cu ad ro V.3. Si se han em pleado interválos desiguales, h a b rá que m odificar esta segunda fó rm ula del m étodo breve. A algunas personas les p arece rá m ás fácil re m o n ta rse al m étodo an terio r, sirviéndose Cuadro V.3. Cálculo de la m edia de datos agrupados p o r el m étodo corto y de las desviaciones graduales Límites verdaderos Puntos medios U *i U*i $ 1 950-2 950 2 950-3 950 3 950-4 950 4 950-5 950 5 950-6 950 6 950-7 950 $2 450 3 450 4 450 5 450 6450 7 450 17 26 38 51 36 21 -3 -2 1 0 1 2 -5 1 -5 2 -3 8 0 36 42 Totales 189 -6 3 La fó rm u la m odificada es a h o ra : A udi X = X ' + _1JL----- i N (V.5) en donde i re p resen ta la am p litu d de intervalo. P or co n siguiente: X - 5 450 + 189 1 000 = 5 117 de d t en lugar de d \ y escribiendo las diferencias efectivas en las u n id ad es originales. Y alternativam ente, si sólo difieren del re sto en cuanto' a am p litu d u n o o dos intervalos, podem os to m ar com o am p litu d i de in terv alo la am p litu d de la m ayoría de los intervalos de clase. Las desviaciones de los p u n to s m edios de los intervalos re sta n te s resp ecto de la m edia su p u esta pueden en este caso ex presarse en fo rm a de fracciones de los interva los enteros. Así, p o r ejem plo, si el últim o intervalo h u b iera sido de $ 6 950 a $ 8 950, en lu g ar de $ 6 950 a $ 7 950, entonces el p u n to m edio h a b ría sido $ 7 950 en lu g ar de $ 7 450. P o r lo tanto, la desviación resp ecto de la m edia p re su n ta h a b ría sido de $ 2 500, o sean 2.5 am p litudes de intervalo. Si el intervalo h u b iera ido h a sta $ 9 950, el v alor d \ h u b iera sido de 3.0, según se deja com p ro b a r fácilm ente. Cálculo de la m ediana. Al calcular la m ed ian a de datos agru pados, tra ta re m o s todos los casos al in te rio r de u n intervalo dado com o si estuvieran d istribuidos a distancias iguales en el m ism o. Localizam os p rim ero el intervalo que contiene el caso m edio, e interp o lam o s luego p a ra en c o n trar la posición exacta de la m ediana. Al d eterm in a r el intervalo que contiene a ésta, es p o r C uadro V.4. Cálculo de la m ediana de datos agrupados Límites verdaderos í F Ni de casos inferiores a 11 950-2 950 2 950-3 950 3 950-4950 4 950-5 950 5 950-6 950 6 950-7950 17 26 38 51 36 21 17 43 81) 132) 168 189 $2950 3 950 (4950 15 950 6950 7 950 Total 189 lo re g u la r conveniente o b ten er la distrib u ció n de frecuencia acum ulativa. Pese a que no es absolutam ente necesario, es p re ferib le ac o stu m b ra rse a disponer p o r e sc rito la distribución acu m u lativ a com pleta y a in d icar en u n a colum na sep arad a el significado de cada u n a de las cifras de dicha colum na (F ). La d istrib u ció n acum ulativa de los datos an terio res se da en el cua d ro V.4. A títu lo de co n tro l de n u e stra adición, observam os que todos los 189 casos h a n de q u ed a r p o r d eb a jo de $ 7 950. A continuación localizam os el intervalo q u e contiene el dato m edio o él JV/2-ésimo. Aquí es 189/2 = 94.5, de m odo que busca m os el in terv alo que contenga los casos nonagésim o c u a rto y nonagésim o quinto. O bsérvese que, si los datos n o h u b iera n es ta d o agrupados, h ab ría m o s localizado el d ato (N + l)/2-ésim o, o sea el nonagésim o quinto. La razón de esta inconsecuencia ap a ren te se ex am in ará m ás abajo. Como q u iera que hay 81 ca sos p o r deb ajo de $ 4 950 y 132 p o r debajo de $ 5 950, la m ediana h a de q u ed a r en algún lu g ar del in terv alo que va de $ 4 950 a $ 5 950. C onstituye u n b u en p rocedim iento m a rc a r dicho in te r valo con Un p arén tesis, y a que se d a a veces la tendencia de leer los dato s a p a r tir de la cifra 81, con lo que se obtiene el intervalo incorrecto' de $ 3 950 a $ 4 950. E xam inem os ah o ra m ás de cerca el intervalo que contiene la m ediana. H ay en éste 51 casos y, en consecuencia, habrem os de d iv id ir el in terv alo e n tero en 51 subintervalos de am plitud $ 1 000/51, o $49.61 cada uno. S ituam os cada uno de los 51 casos en el p u n to m edio de su subintervalo propio. El caso octogésim o p rim ero q u ed a rá así situ ad o en el últim o sub in terv alo del in ter valo de $ 3 950 a $ 4 950, y el caso 132-avo será sólo ligeram ente in ferio r al lím ite su p erio r del intervalo que contiene la m ediana. Ahora procedem os sim plem ente a c o n ta r subintervalos h asta lleg ar a aquélla. Si los datos no estuvieran agrupados, h ab ría m os localizado la m arc a del caso (N + \ )/2, o sea el nonagésim o quinto. De acuerdo con n u e stra convención, dicho caso se situa ría en el p u n to m ed io del decim ocuarto subintervalo o, exacta m ente, a 13.5 subintervalos del lím ite in ferio r del intervalo. Ob sérvese que este m ism o valor se h u b iera obtenido re sta n d o 81 81 94.5 -----J | +H I I I I l-l H I I | l | -------------------------------- ■---------------- 4,950 132 I ! 5,950 de 94.5 o N /2 . Es p o rq u e estam os operando con p u n to s m e dios de in tervalos pequeños que contam os exactam ente N /2 intervalos, con o b jeto de localizar la posición del caso {N + l)/2 . El v alo r de la m ed ian a pu ed e ah o ra o b ten erse m ultiplicando sim plem ente el n ú m ero de subintervalos ab arcad o s p o r la m ag n itu d de cada u no de ellos y añadiendo el re su lta d o al lím ite in ferio r del intervalo. E l procedim iento co n ju n to pu ed e resu m irse en la fó rm u la siguiente: N /2 — F M d = t + -------------- i (v .6 ) en la que F = frecuencia acum ulativa co rresp o n d ien te al lím ite in ferior, / = n ú m ero de casos del intervalo q u e contiene la mediana, l = lím ite in ferio r del intervalo q u e contiene la m e diana, i = am p litu d del in terv alo que contiene la m ediana. La can tid ad i / f re p resen ta la m ag n itu d de cada subintervalo, y N /2 — F da la d istan cia (e n su b in terv alo s) e n tre el lím ite inferior del in tervalo y la m ediana. E n n u estro p roblem a tenem os, pues : M d = 4 950 + — 5 ~ 81 1 000 = 4 950 + 13.5 - i — 51 51 = 4 950 + 265 = $ 5 215. E xiste u n cam ino alternativo, p e ro equivalente, de re p resen ta r el proceso conducente a la obtención de la m ediana. E n efecto, en lu g ar de b u sca r la m agnitud de cada subintervalo y m ultipli cando p o r el nú m ero de los subintervalos, podem os d iscu rrir que, com o quiera q ue hay 51 casos en el intervalo en tero y que hem os de re c o rre r 13.5 de estos intervalos m ás pequeños p a ra llegar a la m ediana, hem os de re co rre r 13.5/51 del intervalo en tero. P o r lo tan to , si m ultiplicam os la m ag n itu d del intervalo (1 000) p o r la fracción de la distancia to tal que hem os de reco rre r, obtenem os el re su ltad o deseado llam ado interpolación. Al u tiliza r la fórm ula es indiferente, p o r supuesto, cuál de las dos explicaciones nos parezca m ás satisfactoria. Con objeto de no h acem o s dem asiado dependientes de la fórm ula, es m ejo r discu r r ir el proceso cada vez, sirviéndonos de aquélla com o control, h a s ta que se haya co m prendido a fondo. A títu lo de o tro control hay que observ ar que la m ediana pudo h a b e rse asim ism o obte n ido restando cierta ca n tid ad del lím ite superior u. Como püede d em o strarse fácilm ente, la fórm ula se convierte en ta l caso e n : Md = u ~ ¿ (V.7) en la q ue F re p resen ta ah o ra la frecuencia acum ulativa co rresp o n d iente al lím ite su p erio r del intervalo. N um éricam ente esto d a : 132 * 94.5 __ M d = 5 950 --------- —----- 1000 = $5 215. V.4. C om paración de la m edia y la m ediana H abiendo exam inado los m étodos de cálculo utilizados en la ob tención de la m edia y la m ediana ta n to de datos agrupados com o no agrupados, tócanos ah o ra co m p arar sus propiedades. Saltan a la v ista varias diferencias e n tre las dos m edidas. P rim ero, la m edia u tiliza m ás inform ación que la m ediana, p o r cuanto al calcu la r la m edia nos servim os de la totalidad de las m arcas exactas, e n ta n to q ue la m ediana sólo com porta la m arc a del caso m edio. Volviendo a las m arcas 72, 81, 86, 69 y 57, vem os que si la m arca m ás a lta h u b iera sido 126 en lu g ar de 86, la m ediana h ab ría p erm an ecid o in alterada, en ta n to que la m edia h ab ría aum en tad o considerablem ente. Y en fo rm a análoga, si la m arca infe rio r h u b iera sido cero, la m edia h a b ría b ajad o , perm aneciendo la p W ia n a nuevam ente inalterada. P or consiguiente, podem os estab lecer u n a diferencia m uy im p o rtan te e n tre am bas m edidas, a sab e r :\ La m edia resulta afectada por cam bio de los valores extrem os, en tanto que la m ediana perm anece inalterada, a m e n os que cam bie asim ism o el valor del caso medió'. E n nuestro ejem plo, m ien tras 72 siga siendo el te rc e r caso después del re o r denam iento, la m ediana p erm an ecerá inalterada. E s ta im p o rta n te d iferencia e n tre las dos m edidas nos perm ite decid ir en la m ayoría de los casos cuál de ellas re su lta m ás a p ro p iada. P o r lo re g u la r deseam os q u e n u e s tra m ed id a se sirva de to d a la info rm ación disponible. E n u n a fo rm a u o tra ponem os in tu itiv am en te m ás fe e n la m ed id a que cum ple dicha condición. P ese q ue al p re sen te n o sea posible re fo rza r dicha fe con un sólido razo n am iento estadístico, p u ed e darse, con todo, cierta ju stificació n de la p re fere n cia de la m edia en las circunstancias co rrien tes. R esulta, en efecto, que la m edia es p o r lo re g u la r u n a m ed id a m ás estab le que la m ediana, en c u a n to v a ría m enos d e u n a m u e s tra a o tra. C uando enderecem os n u e s tra atención a la E stad ístic a inductiva, verem os q u e p o r lo re g u la r el inves tig ad o r tien e m ás in te ré s e n generalizar a p ro p ó sito d e la pobla ción q u e en su m u e stra p a rtic u la r. E stá p erfectam en te p ercatad o d e que si se h u b ie ra to m ad o o tra m u e stra los re su lta d o s n o h a b ría n sid o ex actam ente los m ism os. Si se h u b iera to m ad o u n a g ran can tid ad d e m u e stra s del m ism o tam año, h a b ría podido ver sim p lem en te e n cuánto las m edianas de las m u estras diferían e n tre sí. Lo q ue aquí decim os es q u e las m edianas de las m ues tr a s d ifieren d e u n o a o tro de ellos m ás que las m edias corres p o n d ien tes. P ero com o q u iera que en la p rá c tic a sólo extraem os p o r lo re g u la r u n a sola m u estra, im p o rta sab e r q u e la m edida q u e em pleam os d a rá re su ltad o s seguros, en cu a n to q u e h a b rá u n m ín im o de v ariab ilid ad de u n a m u e stra a la próxim a. Podem os, p o r consiguiente, estab le cer la siguiente regla p rá c tic a : en caso d e duda, em pléese la m edia con preferencia a la m ediana. D ebido al h echo de que u tiliza todos los datos, en ta n to que la m ed ian a n o depende de los valores extrem os, la m edia puede p ro p o rcio n ar e n d eterm in ad as circunstancias re su ltad o s m uy am biguos. H em os de te n e r p re se n te que, al serv im o s de u n a m ed id a de ten d en cia central, tra ta m o s de o b te n e r u n a sim ple descripción de lo q u e e n n u e stro s datos hay de "típico". Supón gase, p a ra to m a r u n caso extrem o, q u e en la serie de cinco n ú m eros el d ato su p e rio r fu e ra la de 962. La m ed ian a seguiría sien do en n u e s tro caso 72, e n ta n to que la m ed ia su b iría a 1 241/5, o sea 248.2. A hora bien, ¿es este v alo r "típ ico ”, en alguna form a, de los d ato s? C iertam ente no. N o se e n c u e n tra en p a rte alguna cerca de los d ato s de los cinco casos. Es verdad, p o r supuesto, que en u n ejem plo ta n extrem ado nin g u n a m ed id a p a rtic u la r p o d ría utilizarse p a r a d escrib ir adecuadam ente el caso típico, pero, com o q u iera q u e c u a tro de los cinco datos se sitú an alrededor de 72, el em pleo de la m ed ian a re su lta ría m an ifiestam en te m e nos equívoco. Podem os, pues, d ecir q u e: siem pre que una dis tribución es fu ertem e n te asim étrica, esto es, siem pre que hay consid erab lem ente m ás casos extrem os en u n a dirección que en o tra, la m ediana será por lo regular m á s apropiada que la media. La relación e n tre la desviación y las posiciones relativas de la m edia y la m ediana se indica en la figura V .l. Como q uiera que puede re su lta r afectad a p o r unos pocos valores extrem os, la m e dia se v erá "em p u ja d a” en la dirección de la asim etría, esto es, h acia la cola. Si la distribución es p erfectam ente sim étrica, la m edia y la m ediana coincidirán. Sabem os que las distribuciones relativas a los ingresos suelen e sta r desviadas p o r lo regular Simétrica . . . Asim étrica negativa x Asim étrica positiva Fig. V .l. R elación entre la asim etría y las posiciones relativas d e la m edia y la m ediana h acia los ingresos superiores, con m uy pocos de ellos extrem a d am en te altos. R esultaría, pues, m uy im preciso p re se n ta r ingre sos m edios en el m arco de u n a corporación o de u n a localidad pequeña. P o r ello los d ato s relativos al ingreso se d an p o r lo re g u la r sirviéndose de la m ediana, m ás que de la m edia. Sin duda, si la d istribución e s tá m uy desviada, el hecho debería m encionarse al p re se n ta r los datos. E n tales casos, puede resu l ta r ú til in d icar am bas cosas, la m edia y la m ediana, pese a que esto sólo ra ra m e n te se hace así en la práctica. La m ed ia tien e u n a segunda p ro p ied ad que n o posee la m e d ian a: se deja m an ip u lar algebraicam ente con m ayor facilidad. Así, p o r ejem plo, p recisa o b ten er a m enudo u n prom edio pon d erad o d e varios conjuntos de datos. Supóngase que tenem os los siguientes ingresos m edios correspondientes a las tres locali dades A, B y C : Localidad Habitantes Media A B C 10000 5000 8000 $3 518 4760 4122 Si el n ú m ero d e h a b ita n te s de las tre s localidades fu e ra el m is m o, po d ríam o s to m a r la m edia de esos tre s datos com o m edia general. P ero es el caso que la localidad A es dos veces m ayor que la localidad B, o sea, e n o tro s térm inos, que la cifra $ 3 518 re p re se n ta u n doble n ú m e ro de casos de los que re p resen ta la cifra $ 4 760. Si los 23 m il h a b ita n te s se h u b iera n p u esto ju n to s calculándose la m edia general, la cifra re su lta n te h a b ría refle ja d o dicho hecho. P ara o b te n e r la m edia co rrecta, hem os de p o n d e ra r cada m edia sep a rad a p o r el n ú m ero p ro p io de casos, sum ando luego y dividiendo fin alm en te e n tre el n ú m ero to tal de éstos (23 000). O btenem os en esta fo rm a : 2 N tX x X = — --------N (V.8) en donde N t y X { re p re se n ta n respectivam ente el n ú m e ro de ca sos y la m ed ia de la categoría i-ésima, indicando k el n ú m ero de las categorías. Tenem os, p o r consiguiente: - _ 10 000(3 518) + 5 000(4 760) + 8 000(4 122) Ji. — ........... ......... — 23 000 91 956 000 23 000 =$ 3 998.09 Podem os ju s tific a r fácilm ente ese p rocedim iento d e p o n d era ción observando que la m edia de la categoría i-ésim a fu e en re a lid ad o b ten id a adicionando los datos y dividiendo p o r A^.2 P or lo tan to , el p ro d u c to N iX t re p re se n ta la sum a de todos los datos d e dicha categoría. Así, pues, la adición de los p ro d u cto s y la di visión e n tre N nos d a el m ism o re su lta d o que se h a b ría obtenido si se h u b iera n ignorado las categorías p o r com pleto. E ste tipo de m anipulación algebraica de la m ed ia re su lta en ocasiones m uy ú til. N o h a d e re s u lta r difícil d arse cu en ta q u e la m ediana general de los d ato s com binados n o p u ed e o b ten erse en dicha 2 Casi siempre ponderemos X i con w{, representando la expresión '2wiX i/ 2 w4 nuestra media ponderada. Por lo regular hacemos la ponderación en tal forma que suma una cantidad conveniente como la unidad (esto es, = 1) o la muestra total de tamaño N, como en el ejemplo anterior. form a. E n efecto, si conociéram os los valores de los casos m e dios de cad a u n a de las categorías separadas, nos fa lta ría toda vía conocer el v alor del caso m edio de los datos com binados. Obsérvese, finalm ente, u n a diferencia im p o rtan te e n tre la m e dia y la m ediana. El cálculo de la m edia re q u ie re u n a escala de in terv alo . E n efecto, sin u n a escala de in terv alo no te n d ría sen tido alguno h a b la r de su m ar m arcas. E s m an ifiestam en te nece sario suponer, p o r ejem plo, que la su m a de los n ú m eros 30 y 45 equivale a la de los n ú m ero s 20 y 55, ya que am bos p ares poseen la m ism a m edia. La m ediana, en cam bio, puede em plearse ta n to con la s escalas o rd in ales com o con las de intervalo. La m arca n u m éric a real de la m ed ian a carecerá de sentido, a m enos que dispongam os de u n a escala de intervalo, p e ro será sin du d a posible situ a r la m a rc a m edia. E sto significa que, e n tre o tro s, po dem os se p a ra r los casos en u n a o dos categorías, según que aquéllos queden p o r en cim a o p o r d eb ajo d e la m ediana. P o r lo ta n to , las m ed id as de posición pu ed en em plearse con escalas o rd inales, hecho que re su lta m uy ú til p a ra el desarrollo' de p ru e b a s que n o req u ieren escalas de intervalo. V.5. O tras m edidas de tendencia central E x isten todavía algunas o tra s m edidas de tendencia cen tral, nin guna de las cuales, sin em bargo, e n c u e n tra u n em pleo m uy co rrie n te en la investigación sociológica. U na de ellas es el m odo, q u e es sim plem ente la m arc a m ás frecuente. Si, p o r ejem plo, to m am o s las tre s series de n úm eros siguientes: (1) ( 2) (3) 71, 71, 71, 75, 83, 75, 61, 68 75, 83, 74, 61, 68 75, 83, 75, 83, 68 podem os decir que la p rim e ra tien e u n m od o de 75, ya que hay d os térm in o s de dicha m arca, en ta n to q u e ninguna o tra a p a re ce dos veces. N o h ay m odo alguno en la segunda serie de nú m e ros, p e ro los h ay dos, en cam bio, e n la te rc e ra (75 y 83). E l m odo re su lta ta l vez m ás ú til cuando se d a u n núm ero m ayor de casos y cu an do los datos h an sido agrupados. E n ta l caso h ablam os a veces de u n a categoría m odal, to m an d o el p u n to m edio de la m ism a com o m odo. E n los datos agrupados que hem os utilizado, la categ o ría m odal sería la de $ 5 000 a $ 5 900. E n u n a d istribución de frecuencia, el m odo re s u lta rá indicado p o r el p u n to m ás elevado de la curva. E n u n a distrib u ció n sim é tric a con u n solo m odo en el centro, la m edia, la m ediana y el m odo serán p o r supuesto, idénticos. Podem os d istin g u ir asim is m o e n tre d istrib uciones "unim odales" y "bim odales”, tom ando esta ú ltim a la fo rm a que aparece en la fig u ra V.2. Al h a b la r de distribuciones bim odales, n o solem os p o r lo re g u la r su p o n er que am b as cúspides tengan exactam ente el m ism o alto, com o p are cería deducirse de la definición. H ay que o b serv ar que, com o q u iera que el m odo se refiere a la categoría con el m ayor núm e ro de casos, podem os servim os de dicho concepto ta n to al des c rib ir escalas nom inales, com o ordinales o de intervalo. De esta m an era en el caso de las escalas nom inales p o d rá considerarse la categoría m odal com o u n tip o d e tendencia central, siem pre que se tenga bien p re sen te que ello n o supone u n ordenam iento de categorías. O tras dos m edidas de tendencia central que prácticam ente n o se ven n u n ca en la lite ra tu ra sociológica son la m edia arm ó nica y la m edia geom étrica. Se definen respectivam ente p o r las siguientes fó rm u las: N M edia arm ónica = --------------ir i 2 —— « -1 Xi N ___________ _ M edia geom étrica = > / ( X x) ( X 2) ........ ( X N) E n esta ú ltim a fórm ula, la N a rrib a del radical indica que to m am os la raíz JV-ésima del p ro d u c to de N datos. V.6. Deciles, cuartiles y percentiles Al exam inar la m ediana, señalam os que hay o tras m edidas posicionales, ta le s com o los percentiles, que pueden utilizarse p ara fija r la p o sición de datos m ayores que u n a proporción determ i n ad a de casos. E sas m edidas, au n q u e n o sean necesariam ente m edidas de tip ic id a d o de tendencia central, son análogas di rectam en te a la m ediana. Así, p o r ejem plo, en lugar de buscar u n n ú m ero q u e tenga la m ita d de los datos p o r encim a o p o r d eb ajo de sí m ism o, podem os q u e re r d e te rm in a r el v alor del p ri m e r cu artil, que posee la p ro p ied a d d e que u n cu a rto de los datos sean de m en o r m ag n itu d que la suya. Y en fo rm a sem ejante, el te rc e r cu a rtil re p re se n ta la m arc a que tien e p o r deb ajo d e ella, e n cu an to a m agnitud, a los tre s cu a rto s de los casos. Si se p re fiere, se pu ed e dividir la d istrib u ció n en 10 deciles, fijan d o m a r cas q u e tengan u n a décim a, dos décim as o nueve décim as d e los casos con valores m enores. Tal vez el lecto r esté m ás fam iliari zado con los p ercentiles, q u e dividen la d istrib u ció n e n 100 p o r ciones d e tam añ o igual. Así, p o r ejem plo, el e stu d ia n te que falla en el nonagésim o p rim e r p ercen til sabe q u e el 91 p o r ciento de los dem ás estu d ian tes ten ían puntuaciones m ás b ajas q u e él. E l cálculo de los deciles, los cuartiles y los p ercentiles es direc ta m en te análogo al de la m ediana. E n el caso d e dato s ag ru p a dos, d eterm in arem os p rim e ro el in terv alo e n cuyo in te rio r que d a la m ed id a de posición deseada. S irviéndonos luego de los d ato s del cu ad ro V.4, ob ten d rem o s el p rim e r cu a rtil localizando la posición del caso N /4 o 47.25-ésimo. De la colum na de la fre cuencia cum ulativa vem os que el p rim e r cu a rtil h a de situ arse en algún lu g ar e n tre el in terv alo de $ 3 950 a $ 4 950. Y com o q u iera que en dicho in terv alo hay 38 casos, hem os de re c o rre r los (47.25 — 43 )/38 de e sa distancia. Así, pues, el valor del p rim e r c u a rtil Q i será: 47 25 — 43 Q1 = 3 950 + — ^---------- 1 000 = 3 950 + 112 = $ 4 062 38 O tras m edidas de posición pueden calcularse en fo rm a análoga. Obsérvese, in cid entalm ente, que p o r definición la m ediana es equ iv alen te al segundo cu artil, al q u in to decil, y al quincuagé sim o p ercen til. Si b ien los deciles, cu artiles y percentiles sólo se em plean m uy ra ra m e n te e n la investigación sociológica, con viene p o r lo m enos conocer su sentido. G losario Decil Media Mediana Modo Percentil Cuartil Distribución asim étrica E je r c ic io s 1. Indíquense la media, la m ediana y el modo de los números siguien tes: 26, 37, 43, 21, 58, 26, 33 y 45, Respuesta, 36.1; 35; 26. 2. Calcúlense una media y una mediana de los datos compilados en el ejercicio 1, cap. iv. Hágase lo mismo en relación con el ejercicio 2, cap. iv. 3. Calcúlense el tercer cuartil, el cuarto decil y el septuagésimo pri m er percentil de los datos del ejercicio 1, cap. iv. 4. Los siguientes datos (hipotéticos) m uestran la distribución del porcentaje de las familias granjeras en 60 distritos. Calcúlense la media y la mediana. Respuesta, 32.83; 32.83. Intervalo % Frecuencia 10-19 20-29 30-39 40-49 50-59 7 16 21 12 4 60 5. Sirviéndose de los datos del ejemplo anterior, indique el lector en qué form a resultarían afectadas la media y la mediana (aumenta das, reducidas, inalteradas) si: a) el último intervalo se ampliara de 50 a 69, permaneciendo las mismas frecuencias. Respuesta, aum entada; la misma. b) si se añadiera un 10 por ciento a cada intervalo (haciendo los intervalos 20 a 29, 30 a 39, etcétera), con frecuencias inalteradas; c) los intervalos permanecieran inalterados, pero pasando dos ca sos de la categoría 20 a 29 a la categoría 30 a 39 (haciendo que las frecuencias fueran 7, 14, 23, 12 y 4); d) los intervalos permanecieran inalterados, pero se doblaran to das las frecuencias. _6. Un grupo de 10 muchachos y 7 muchachas participaron en un acer tijo algebraico. Supóngase que la puntuación media de los muchachos íue 84 y su mediana 74, en tanto que, en relación con las mucha chas, tanto la media como la mediana resultaron en 79. El m aestro concluye que en esa prueba los muchachos obtuvieron un resultado mejor que las muchachas. ¿Está su conclusión justificada? ¿Por qué, o por qué no? ¿Cómo cabría explicar la gran diferencia entre la media y la mediana en los muchachos? 7. Supóngase que se ha encontrado que la edad media de los 50 go bernadores (de los Estados Unidos) es de 51.6 años, la de 100 sena dores 62.3, y la de 435 diputados de 44.7. ¿Cuál es la edad media de todos esos políticos? Supóngase que las cifras anteriores indicaran medianas, ¿podría obtenerse la mediana general del mismo modo? ¿Por qué, o por qué no? B iblio g rafía 1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2? ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 5. 2. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2' ed., Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 4. 3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry Holí and Company, Inc., Nueva York, 1952, cap. 8. 4. McCollouhg, C. y L. van Atta: Introduction to Descriptive Statis tics and Correlation, McGraw-Hill Book Company, Nueva York, 1965, cap. 2. 5. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning in Sociology, 2* ed. Houghton Mifflin Company, Boston, 1970, cap. 5. 6. Weinberg, G. H., y J. A. Schumaker: Statistics: An Intuitive Approach, Wadsworth Publishing Company, Inc., Belmont, Cal. 1962, caps. 2 y 6, V I. ESCA LA S D E IN T E R V A L O : M ED ID A S D E D IS P E R S IÓ N E n la investigación sociológica la atención se con cen tra en m u chos casos en m edidas de tendencia central. P o r ejem plo, pode m os q u e re r c o m p arar varios tipos de religión en relación con la asisten cia m ed ia a la iglesia o el nivel m edio de ingreso. Pode m os tam b ién d esear o btener, sin em bargo, m ed id as de hom oge neidad. Tal vez hayam os p a rtid o de la hipótesis que u n a de las religiones ex tra e rá sus adeptos en m ay o r g ra d o que las o tras de u n a m ism a capa social. S in em bargo, au n si estam o s interesados an te to d o en c o m p arar m edidas de tendencia cen tral, necesita m os, con todo, sab e r algo acerca de la dispersión en cada grupo. Nos dam os cu en ta in tu itiv am en te d e que, si cada religión fu e ra ex trem ad am en te heterogénea en cuanto al ingreso y a la asis ten cia a la iglesia, u n a d iferencia d eterm in ad a e n tre sus m e d ias (digam os de $ 2 000) n o sería ta n im p o rta n te o indicativa com o se ría el caso si cada g ru p o fu e ra p erfectam en te hom o géneo. C uando lleguem os a la estad ística inductiva, estarem o s en con diciones de ju stific a r dicha intuición y de a p re c ia r p o r qué las m edidas de d ispersión son ta n im p o rtan tes. E n el p re sen te capí tu lo vam os a co n cen trarn o s en el m ecanism o, en tan to que en el siguiente darem os u n a in terp re tació n de la m edida de dispersión m ás im p o rta n te : la desviación están d ar. V I.l. E l recorrido De las d istin tas m edidas de dispersión que vam os a exam inar en este capítulo, el re co rrid o es con m ucho el m ás sim ple. El reco rrid o se define com o la diferencia e n tre la m arc a m ás a lta y la m ás b aja. Así, pues, e n relación con los datos proporcionados en el capítulo a n te rio r (72, 81, 86, 69 y 57), el re c o rrid o sería la dife ren cia e n tre 86 y 57, o sea 29. P o r lo re g u lar solem os in d icar el re co rrid o ya sea p o r m edio de la diferencia real (29), o dando las dos m arc as extrem as, v.gr. 57 y 86. Si los datos se h a n agru pado, tom am os com o re co rrid o la diferencia e n tre los puntos m edios de las categorías extrem as. Así, pues, si el p u n to m edio del in tervalo in ferio r es 2 450 y el del intervalo su p e rio r 7 450, el re co rrid o será de 5 000. La sim plicidad extrem a del re co rrid o com o m ed id a de disper sión p re sen ta a la vez ven tajas e inconvenientes. E n efecto, el re co rrid o pued e re s u lta r m uy ú til si se tr a ta de o b ten er unos cálculos m uy rápidos que p u ed an p ro p o rcio n ar u n a indicación b ru ta de la dispersión, o si los cálculos h a de hacerlos alguna 90 p erso n a que n o esté fam iliarizada con la estad ística. Si los datos h an d e p re sen tarse a u n a audiencia relativ am en te ingenua, el reco rrid o será tal vez la ú n ica m edida de dispersión que aquélla esté en condiciones de in te rp re ta r fácilm ente. S in em bargo, el nivel de p re p aració n de los sociólogos está alcanzando ráp id am en te u n p u n to tal, que podem os legítim am ente su p o n er que en ten d erán tam b ién m edidas algo m ás com plicadas y satisfactorias. E l in conveniente del re co rrid o es obvio: se b a sa exclusivam ente en dos casos, que son, adem ás, los dos casos extrem os. Y com o q u iera que los casos extrem os suelen se r ra ro s o poco com unes en la m ay o ría de los problem as em píricos, nos dam os cu en ta que p o r lo re g u lar es u n a cuestión de az ar q u e obtengam os u n o o dos de ellos en n u e stra m u estra. Supóngase, p o r ejem plo, que en la localidad investigada hay u n m illonario. Si escogem os 10 perso nas al azar, es p ro b ab le que aquél n o e sté incluido e n tre ellas. Pero, supóngase que sí está. E n ta l caso el re co rrid o de los in gresos será ex trao rd in ariam en te am plio y m uy engañador en cu an to m edida de dispersión. Si nos servim os del re co rrid o com o m edida, n a d a sabem os acerca de la variación de las m a r cas e n tre los dos valores extrem os, excepto que éstas se sitú an en algún lu g ar en el in te rio r de dicho re co rrid o . Así, pues, com o re su lta del ejem plo a n terio r, el re co rrid o v a ria rá considerable m en te de u n a m u e stra a o tra. P or o tra p a rte , el re co rrid o será p o r lo re g u la r m ayor en las m u estras grandes que en las peque ñas, sim plem ente p o rq u e e n los p rim ero s tenem os m ás p ro b a bilidades de in clu ir a los casos individuales extrem os. É sta es la razón de que el re c o rrid o n o se em plee p o r lo re g u la r en so ciología, excepto al nivel de tipo m ás exploratorio. O tra m ed id a su m am ente sim ple, la razón de variación, puf de s e r utilizada e n el caso de los datos en grupo, lo que re su lta especialm ente adecuado en el caso de las escalas nom inales. C onsiste b ásicam ente en u n a m edida del grad o en que se con ce n tran los dato s en la categoría m odal, en lu g ar de que se les e n cu en tre distrib u idos u n iform em ente a lo larg o de to d as las ca tegorías. Se define a s í : V i?. = 1 - f moaJ N , en donde /modaj se re fiere al nú m ero de casos en la categoría mo dal, y N al n ú m ero to ta l de casos. E s evidente que e sta m edida re s u lta insensible a la distrib u ció n de casos en las categorías no m odales, siendo p o r o tra p a rte dependiente del proceso de categorización. S u v en taja ra d ic a en su sencillez extrem a y en su atracció n intuitiva, adem ás del hecho de que en el caso de las escalas nom inales no es posible h a c e r uso d e u n a ordenación de categorías que p erm ita h a b ilita r m edidas de u n m ayor re fin a m iento. VI.2. La desviación cuartil O tra m ed id a em pleada algunas veces en los cam pos de la psico logía y la enseñanza, p ero que ra ra m e n te ap arece en la lite ra tu ra sociológica, es la desviación cu a rtil o re co rrid o sem i-intercuartil. La desviación cu artil Q es u n tipo de reco rrid o , pero, en lugar de re p re se n ta r la diferencia e n tre los valores extrem os, sé define a rb itra ria m e n te com o la m ita d de la d istancia e n tre el p rim ero y el te rc e r cu artiles. O en fo rm a sim bólica: en donde Qi y Q3 re p resen ta n respectivam ente al p rim e ro y te r cer cu artiles. O bsérvese que la desviación c u a rtil m ide el reco rrid o ocupado p o r la m ita d ce n tral de los casos. Como quiera que Qi y Q3 v aria rán m enos de u n a m u e stra a o tra que los casos m ás extrem os, la desviación c u a rtil re p re se n ta u n a m ed id a m u cho m ás estab le que el re co rrid o . P or o tra p a rte , e n cam bio, no saca provecho del co n ju n to de la inform ación. N o estam os m i diendo la v ariabilidad e n tre los casos cen trales ni tom am os en consideración lo que o cu rre en los extrem os de la distribución. De ahí, pu es, q u e enderecem os n u e s tra atención, a o tra s dos m e didas que sí poseen esta p ro p ied a d deseable. VI.3. La desviación m edia Si deseam os serv im o s de todos los datos, el sentido com ún nos su g erirá que to m em os las desviaciones de cada d ato con resp ecto a alguna m ed ida de tendencia cen tral y que calculem os luego alguna especie de p ro m ed io d e dichas desviaciones, con o b jeto de co n tro lar el n ú m ero de casos com prendidos. S ería posible to m a r com o m ed id a de ten d en cia c e n tral la m ed ian a o el m odo, p ero p o r lo re g u la r tom am os la m edia, ya que é s ta es en la m ay o ría de los casos la m ed id a p a rtic u la r m ás satisfactoria. Supóngase que sum áram os sim plem ente las desviaciones efecti vas resp ecto d e la m edia. P o r desgracia, com o sabem os, el resu l ta d o sería siem p re cero, y a que las diferencias positivas y nega tivas se com pensan m u tu am en te. E sto sugiere que, p a ra o b ten er u n a m ed id a de d ispersión a lre d ed o r de la m edia, hem os de des h acem o s e n u n a fo rm a u o tra d e los signos negativos. Se nos o cu rren in m ed iatam en te dos m éto d o s: 1) ig n o rar los signos y to m a r sólo los valores absolutos d e las diferencias, o 2) cu a d rar las diferencias. E sto s dos m étodos conducen efectivam ente a las dos m edidas re sta n te s de dispersión que hem os d e exam inar en este capítulo, a sa b e r: la desviación m edia y la desviación es tán d ar. La desviación m edia se define com o la m edia aritm ética de las diferencias absolutas de cada m arca con resp ecto a la m edia, £> en sím b o lo s: 2 )Xt - X \ <==1 Desviación m edia = -----------------N (V I.2) La m edia de los n úm eros 72, 81, 86, 69 y 57 es 73.0. Si su stra e m os 73.0 de cada u n o de dichos núm eros, ignorando los signos, y luego adicionam os los re su ltad o s y dividim os en tre 5, o b te n e m o s: y _ 2 |j^ ._x \ ' 1 + 8 + 13 + 4 + 1 6 42 8.4 N 5 5 Podem os p o r consiguiente decir que el prom edio de los datos d ifiere de la m ed ia en 8.4. Pese a que la desviación m edia p re sen ta u n a in terp retació n in tu itiv a m ás d irecta que la desviación están d a r, tiene, con todo, varios inconvenientes graves. P rim ero, los valores absolutos no se d ejan m an ip u lar algebraicam ente con facilidad. Segundo y m ás im p o rtan te, la desviación m edia no es de fácil in terp re tació n teó rica ni conduce a re su ltad o s m atem áticos sim ples. Con fi nes p u ra m e n te descriptivos, la desviación m edia puede se r ade cuada, pese a que, según verem os, la desviación e stá n d a r se d eja in te rp re ta r m ás fácilm ente en térm inos de la curva norm al. C uando lleguem os a la estad ística inductiva verem os que la des viación e stá n d a r se u tiliza sobre todo a cau sa de su su p erio rid ad teórica. É sta es la razó n de que sólo ra ra m e n te encontrem os en la lite ra tu ra sociológica referencias a la desviación m edia. VI.4. La desviación estándar H abiendo elim inado m ás o m enos o tras varias m edidas de dis p ersión, podem os ah o ra d irig ir n u e stra atención a la m ás útil y frecu e n te de las m ed id as: la desviación estándar. É sta se de fin e com o la raíz cu a d rad a de la m edia aritm é tic a de las desvia ciones cu ad rad as con resp ecto a la m edia, o en sím b o lo s: (Xt-X)* N (V I.3) en donde s se em plea p a ra designar la desviación están d ar.1 O en 1 Algunos textos definen s con N —1 en el denominador en vez de N. La razón de ello no resultará clara hasta e n el capítulo XI. p a la b ra s : tom am os la desviación de cad a m arc a con respecto a la m edia, a la d ra m o s cada diferencia, sum am os los resultados, dividim os e n tre el n ú m ero de casos y extraem os la raíz cuadrada. P ara conseguir u n a re sp u esta correcta, es indispensable que las operaciones se efectúen exactam ente e n el o rd e n indicado. E n n u e stro ejem plo n um érico la desviación e stá n d a r p o d ría conse guirse com o sigue: *« (X.-X) (Xt - X P 72 81 86 69 57 1 8 13 - 4 -1 6 --- 1 64 169 16 256 --- X = 73.0 0 506 - s = V506/5 = V101.2 = 10.06 E l significado intuitivo de la desviación e s tá n d a r n o nos aparece r á claram en te h a s ta m ás adelante, cuando nos sirvam os de s p a ra d am o s las á re a s b a jo la curva norm al. P o r el m om ento la acepta m os sim plem ente com o u n n ú m ero ab stracto . Sin em bargo, algu n a s p ro p ied ad es de la desviación e stán d a r son y a m anifiestas desde ah o ra. O bservam os, en efecto, que cu an to m ay o r es la dis persió n alred ed o r d e la m edia ta n to m ayor es la desviación están dar. Si to d o s los cinco valores h u b iera n sido cero, las desviaciones alred ed o r de la m edia h a b ría n sido cero, y s tam b ién h ab ría sido cero. P o r o tra p a rte , vem os que las desviaciones extrem as con resp ecto a la m edia p esan m ás, con m ucho, en cu an to a deter m in a r el v alo r d e la desviación están d a r. E n efecto, los valores 169 y 256 dom inan las o tra s tre s desviaciones cuadradas. Al c u a d ra r las desviaciones, pese a que después extraigam os la raíz cu ad rad a, estam os en re alid ad dando m ás peso relativo a los va lores extrem os todavía de lo que e ra el caso al calcu lar la m edia. E sto sugiere q u e hem os d e m itig ar n u e stro en tu siasm o inicial a p ro p ó sito de la desviación e stá n d a r e n cu an to "la m e jo r" m edida p a rtic u la r de dispersión. C iertam ente, si hay varios casos extre m os, querem os que n u e stra m ed id a lo señale. P ero si la d istri bución p re se n ta unos pocos casos m uy extrem os, la desviación no rm al pued e conducir a re su ltad o s engañosos, e n cu an to pue de se r ex tra o rd in aria m e n te grande. E n tales casos nos serviría m os p ro b ab lem en te com o m edida de tendencia ce n tral de la m e diana y, ta l vez, de la desviación cu a rtil com o m edida de dispersión. S in em bargo, p a ra la m ayoría de los datos la des viación n o rm al re su lta rá adecuada. E s razonable p re g u n ta r: "¿p o r qué m o lestarse en e x tra e r la raíz cu a d rad a al calcu lar u n a m edida de d ispersión?” U na re s p u esta fácil, au n q ue poco satisfactoria, sería la d e decir que así es com o se define la desviación e stán d a r. P o d ría ju stific arse la extracción de la raíz c u a d ra d a señalando que, y a que hem os cu a d ra d o cada desviación, lo que hacem os es com pensar dicho paso an terio r. Sin em bargo, re s u lta m ás com prensible ju stific a r la ex tracció n de la raíz en térm in o s d e su c a rá c te r práctico. Como quie r a que, en efecto, m ás ad elan te habrem os d e h a c e r u n em pleo considerable de la cu rv a norm al, la desviación están d a r, ta l com o se la h a definido, re s u lta se r u n a m ed id a m uy ú til. P a ra o tro s fines nos servirem os del cu ad rad o d e la desviación n o rm al o va riancia, que se define com o: 2 ( Xt - X P <=i V ariancia = s2 = -------—----------N Los m atem ático s h a n en co n trad o q u e el concepto de variancia poseía m ay o r v alor teó ric o que la desviación están d ar. A p a r tir del cap ítu lo xvi, h arem o s u n uso creciente d e la variancia, p ero d e m o m en to podem os lim ita r n u e stra atención a la desviación e stá n d a r. Los dos conceptos son p o r lo dem ás ta n fácilm ente in tercam b iab les, q ue podem os p a s a r sin dificu ltad del u n o al otro . Que se defina la v arian cia com o cu a d rad o d e la desviación es tá n d a r o ésta com o raíz cu a d rad a d e la variancia, esto n o reviste im p o rtan cia alguna. Cálculo de la desviación estándar de datos no agrupados. Si b ien la desviación e stá n d a r puede calcularse siem pre a p a r tir de lá fó rm u la b ásica que se acaba de dar, re s u lta a m enudo m ás sencillo servirse de fó rm u las de cálculo que n o req u ieren la sus tracció n de la m edia de cada m arc a sep arad a. E n efecto, no sólo la m ed ia n o será p o r lo re g u la r u n n ú m e ro entero, sino que u su alm en te se co m eterán e rro re s d e redondeo al em p lear la fó rm u la an tes indicada. Con o b jeto de v er de qué m odo poda m os sim p lificar los cálculos, desarrollem os la expresión que está a b a jo del radical. T en e m o s: 2 . i= l 2 { X ? - 2X j l + X*) _ _ Í=1 _ 2 X ? - 2X 2 X i + N X 2 «—i t=i N O bsérvese que, com o q u iera que X es constante, pudim os tom ar la fre n te al signo de sum ación en el segundo térm in o del n u m era dor. E n el te rc e r térm ino, a su vez, nos hem os servido del hecho de que, p a r a to d a co nstante k, te n e m o s : 2 k = N k. i=l _ w Pero, com o q u iera q u e X = 2 X J N , el térm ino cen tral del nuí =*i m era d o r se red u ce a — 2X 2, y podem os e s c rib ir: X _ 2 2 (X t ~ X ) i= l N 2 4=1 N _, .V 2 2 X,2 X 4 ___ i= l ___ 2X2 + X2 = ------------X2 M N P o r lo ta n to : V N ír 2 2 X, -X * \T (W .4) Algunas o tras fórm ulas de cálculo altern ativ as son las sig u ien tes: v ^-(4y (^X i) -V 2 N \ 4=1 (VI.5) / 2 X ¿-------------------í= i jv 1 I N 2 / N (V I.6)3 \ 2 (VL7) Si b ien cu alquiera de las form as precedentes puede utilizarse com o fó rm u la de cálculo, la ecuación (V I.7) es la que com porta, 2 La obtención de las ecuaciones (VI.6) y (VI.7) a partir de la ecuación (VI.5) se deja como ejercicio. con todo, m enos errores d e redondeo, p o r ello se la recom ienda. Sirvám onos de u n a de dichas fórm ulas de cálculo (ec. VI.7) en el p roblem a an terio r, e n donde N = 5. Xi 72 81 86 69 57 *<2 5184 6561 7 396 4761 3 249 365 27151 E n adición al n ú m ero to ta l de casos, las dos cantidades requeri- -V !f 2 das son S I , y 2 X t. A m bas sum as pueden acum ularse sim ul«=i i=i „ tán eam en te con las m odernas calculadoras de oficina. Calcula m os ah o ra s a p a r tir de (V I .7): s = 1/5 V 5(27 151) - (365)2 = 1/5 V 135 755 - 133 225 = 10.06 Nos hem os servido de este problem a m uy sencillo p a ra ilu s tra r q u e Ja fó rm u la de cálculo d a el m ism o re su ltad o num érico que la fó rm u la b ásica de la ecuación (V I.3). Como q u iera que X resu ltó ser u n en tero , la fó rm u la de cálculo h a com portado en realidad m ás tra b a jo que la fórm ula original. P ero norm alm ente, p o r su p uesto, esto n o será así. * Cálculo de la desviación estándar de datos agrupados. Si los datos h an sido agrupados, podem os sim plificar n u e stra lab o r considerablem ente tra ta n d o cada caso com o si se h allara en el p u n to m edio de u n intervalo y sirviéndose de u n a m edida su pu esta. Sin du d a introducim os con ello alguna inexactitud, p ero el ah o rro de tiem po es sustancial. Siguiendo u n a convención co rrie n te , supongam os que = X t — X . E n consecuencia, las x m i núsculas re p resen ta n desviaciones resp ecto de la m edia, y la fó rm u la básica de la desviación está n d a r se convierte e n : Podem os m odificar ah o ra la fórm ula tom ando en cuenta el he cho de que h a b rá u n gran n ú m ero de casos trata d o s todos com o si tu v ieran el m ism o valor, esto es, uno de los p untos m edios. Si m u ltiplicam os el n ú m ero de casos en cada clase p o r el p u n to m edio p ro p io y sum am os luego los p ro d u cto s, nos podem os a h o rra r el tra b a jo de su m a r todos los N casos. La fó rm u la de la desviación e stá n d a r se convierte así en : (V I.8) en donde /{ es el n ú m ero de casos del intervalo i-ésimo y A: el n ú m ero de intervalos.8 S upongam os a h o ra que anticipam os u n a m ed ia y tom am os las desviaciones con re sp ecto a ésta, e n lu g ar de re sp ecto de la m e dia v erd ad era. M ostram os en el cap ítu lo a n te rio r que la sum a de las desviaciones c u a d rad a s de la m edia será m en o r —que cual q u ier o tro v alor— que la su m a d e las desviaciones cuadradas. E n p artic u la r, la su m a de las desviaciones cu a d rad a s de la m edia an ticip ad a se rá m ay o r que la cifra o b ten id a sirviéndonos de la m ed ia v erdadera, a m enos, p o r supuesto, que aquélla coincida con ésta. Puede, pues, d em o strarse que cu an to m ás cerca queda la m ed ia su p u esta de la v erdadera, ta n to m en o r re su lta la sum a de las desviaciones cu ad rad as de la m edia supuesta. E n o tro s té rm in o s: si nos servim os de u n a m ed ia su p u esta, esperam os o b ten er u n a sum a de cu ad rad o s dem asiado grande. Lo m ism o que an terio rm en te, podem os servirnos d e u n fa c to r de correc ción, al que su straem o s luego del valor o b ten id o utilizando la m ed ia an ticipada. La fó rm u la de la desviación está n d a r se con v ierte e n tal caso e n : en donde los d¡ re p re se n ta n las diferencias e n tre cada m arc a y la m ed ia an ticip ad a y son d irec tam en te análogos a los x, de la ecuación (V I.8). Antes de to m a r u n ejemplo- num érico, exam inem os la fó rm u la p reced en te con m ay o r atención. El segundo térm in o d eb ajo del rad ical re p re se n ta el fa c to r de corrección que h a de su strae rse de las desviaciones cu ad rad as de la m edia supuesta. R ecordando la fó rm u la de la m edia expresada en térm in o s de la m edia su p u esta, o sea: 8 Obsérvese que no se elevan al cuadrado las frecuencias ji que aparecen en el numerador de la expresión bajo el radical. k 2 fA vemos que & i—1 =X-X' N y que, p o r lo ta n to : fc V 2 ] fA \ De este modo, el fa c to r de corrección re su lta se r el cu ad rad o de la diferencia e n tre las m edias verd ad era y la supuesta. Vemos inm ed iatam en te que, si hubiéram os an ticip ad o la m edia exacta m ente, el facto r de corrección h a b ría sido cero. P o r lo tanto, cu an to m ay o r sea la diferencia e n tre las m edias verd ad era y su p u esta ta n to m ayor será el fa cto r de corrección. Una suposición deficiente conducirá siem pre al re su ltad o correcto, p ero com p o rta rá m arcas n u m éricas m ayores en am bos térm in o s de la fórm ula. É sta puede m odificarse m ás todavía si p referim os p en sa r en térm in o s de desviaciones graduales d¿. Lo m ism o que e n el capí tulo v, ponem os en fa c to r la am plitud del intervalo de cada dt y m ultiplicam os el re su ltad o final p o r i, lina vez el proceso te r m inado. La fó rm u la se convierte así e n : =i ' V n ¿ w ~( i ) 2 O bsérvese q u e efectivam ente n o hem os hecho m ás q u e sac ar la am p litu d i del intervalo, de d eb a jo del radical. Al calcu lar la desviación e stá n d a r de d ato s agrupados, pode m os ah o ra ex ten d e r el p rocedim iento em pleado p a r a la m edia, Cuadro VI. 1. Cálculo d e la desviación estándar utilizando datos agrupados Límites verdaderos Puntos medios $1950-2950 2 950-3 950 3 950-4 950 4 950-5950 5950-6950 6 950-7 950 $2450 3450 4450 5450 6 450 7 450 Totales fi 17 26 38 51 36 21 -3 -2 -1 0 1 2 189 V k = 1 000 J __ ( = " 189 V 189 / / k Wt W -5 1 -5 2 -3 8 0 36 42 153 104 38 0 36 84 -6 3 415 \ 2 1000 V 2.1%—.111 = 1444 añ adiendo la colum na f idi’2. Atraque en re alid ad p odríam os ob te n e r las desviaciones cu ad rad as d i2 y m u ltip licar luego p o r f u re su lta rá con to d o m ucho m ás sim ple m u ltip licar las dos últim as colum nas em pleadas en o b te n e r la m edia (e sto e s : d{ x f{d{). En efecto, h ab ien d o m u ltiplicado d / p o r sí m ism o, vem os que todos los nú m ero s negativos se h acen ah o ra positivos.4 Calculem os ah o ra la desviación e stá n d a r de los datos agrupados utilizados en el cap ítu lo precedente. Con fines de ilu stració n nos servire m os de la ecuación (V I.10), p ese a q u e p o r lo re g u la r la (V I.12) co m p o rta rá m enos e rro re s de redondeo. * Obsérvese bien que la última columna del cuadro VI.l no se obtiene elevando al cuadrado la columna ftdv ya que al hacerlo traería consigo ele var también al cuadrado. (w O btuvim os en esta fo rm a u n a m edia de $ 5 117 y u n a desvia ción e stá n d a r de $ 1 444. E stos dos n ú m ero s pueden serv ir ah o ra p a ra re su m ir los d ato s o p a ra co m p ararlo s con datos de o tra m u estra. Según verem os m ás ad elan te que p u ed en em plearse tam b ién p a ra v erificar hipótesis o p a ra ap re c ia r m edidas de población. VI.5. E l coeficiente d e variabilidad E s a veces conveniente c o m p arar varios grupos en relación con su hom ogeneidad relativa, en casos en que dichos gru p o s tienen m edias d istin tas. P odría, pues, re s u lta r engañoso co m p arar las m agnitudes ab so lu tas de las desviaciones e stá n d a r. C abría es p e ra r que, con u n a m edia m uy grande, p o d ría en c o n trarse p o r lo m enos u n a desviación e stá n d a r suficientem ente grande. Así, pues, alguien p o d ría in te re sa rse en p rim e r lu g ar p o r el tam añ o de la desviación e s tá n d a r en relación con el d e la m edia. E sto sugiere que podem os o b te n e r u n a m ed id a de la variabilidad re la tiv a dividiendo la desviación e stá n d a r e n tre la m edia. El resu l tad o se h a llam ado coeficiente de variabilidad y se designa con u n a V. Así, p u e s: c X P ara ilu s tra r las v en tajas del coeficiente de variabilidad con resp ecto a la desviación e stá n d a r, supóngase q u e xm psicólogo social tr a ta de d e m o stra r que p a ra todos los fines prácticos dos grupos son ig u alm ente hom ogéneos en relación con la edad. En u n o de los grupos la e d a d m ed ia es d e 26, con u n a desviación e stá n d a r de 3. E n el o tro la ed ad m edia es de 38 años, con u n a desviación e s tá n d a r de 5. P o r lo tan to , los coeficientes de varia b ilid a d son resp ectiv am en te 3/26 = .1 1 5 y 5/38 = .132, o sea u n a diferencia m u ch o m ás peq u eñ a que la q u e se d a e n tre las dos desviaciones e stán d a r. E n vista del hecho d e que p o r lo re g u lar la ed ad exacta re su lta m enos im p o rtan te, al d eterm in a r in te re ses, capacidades y posición social, a m ed id a que au m en ta la edad pro m ed io de los m iem bros del grupo, la com paración de los dos coeficientes de v ariabilidad p o d ría re s u lta r m uy bien, e n este caso, m u ch o m enos engañosa que si se em p learan las desviacio nes están d a r. Si se desea, puede u tilizarse tam b ién u n a variancia relativa. P o r desgracia, estas m edidas relativ as d e dispersión se hallan citad a s con m uy p oca frecu en cia en la lite ra tu ra sociológica. Es m u ch o m ás frecuente, efr efecto, e n c o n tra r las m edias y las des viaciones e s tá n d a r relacionadas en colum nas adyacentes. VI.6. Otras m edidas resum idas Sólo hem os exam inado dos tipos de m edidas resum idas : las de tendencia central y las de dispersión. Son posibles, adem ás, o tras m edidas, au n que sólo se las utiliza ra ra m e n te en la investigación sociológica. Sin duda, encontram os a m enudo d ad a la d istrib u ción de frecuencia en tera, p ero esto no constituye u n a m edida p a r ticu lar de resum en. R esulta a veces deseable in d icar en u n a dis trib u ció n el grado de asim etría. Una de las m edidas de ésta saca provecho del hecho de que cu an to m ayor es la asim etría tan to m ayor re su lta la diferencia e n tre la m edia y la m ediana. E sta m edida se h alla dada p o r la fó rm u la: 3(X - M d) A sim etría = -----------------5 Si la distrib u ción está desviada hacia la derecha (grandes m a r cas p o sitiv as), la m edia será m ayor que la m ediana, y el resu l tad o será u n n ú m ero positivo. En ta n to que la distribución des viada h acia la izquierda d ará u n resu ltad o negativo. Con m uy poca frecuencia, tam bién, hallam os en sociología re ferencias al ca rác te r general de las cúspides d e u n a distribución asim étrica. Utilízase el térm in o de picudez en relación con dicha m edida, que exam inarem os brevem ente u n a vez que hayam os vis to la curva norm al. P or lo regular, los textos de estad ística es critos an te to d o p a ra los estu d ian tes de econom ía se ocupan m ás a fondo ta n to de la desviación com o de la picudez. Tal vez cuando em pecem os a alcanzar u n a m ayor precisión en la des cripción de las form as exactas de las distribuciones de las varia bles sociológicas hallarem os u n m ayor em pleo p a ra estas o tra s m edidas descriptivas. Glosario Coeficiente de variabilidad Desviación media Desviación cuartil Recorrido Desviación estándar Variancia E jercicios 1. Calcúlense las desviaciones media y estándar de los datos indica dos en el ejercicio 1, cap. v. Respuesta, 9.62; 11.59. 2. Calcúlense las desviaciones estándar y cuartil de los datos agru pados en el ejercicio 1, cap. iv. Hágase lo mismo con los del ejercicio 2, cap. iv. 3. Calcúlese la desviación estándar de los datos del ejercicio 4, cap. v. Contrólense los cálculos escogiendo una media anticipada y una fórmula de cálculo distintas. Respuesta, 10.83. 4. Indíquese en qué form a resultaría afectada la desviación normal por los cambios indicados en el ejercicio 5, cap. v. B iblio g rafía 1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2- ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, pp. 76-84. 2. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2? ed., Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 5. 3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry Holt and Company, Inc., Nueva York, 1952, cap. 9. 4. McCollough, C., y L. van A tta: Introduction to Descriptive Sta tistics and Correlation, McGraw-Hill Book Company, Nueva York, 1965, cap. 3. 5. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning in Sociotogy, 2“ ed., Houghton Mifflin Company, Boston, 1970, cap. 6. 6. Weinberg, G. H., y J. A. Schumaker: Statistics: An Intuitive Approach, Wadsworth Publishing Company, Inc. Belmont, Cal. 1962, cap. 3. 7. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons, Inc., Nueva York, 1968, cap. 7. L a noción de la distribución de frecuencia es ya fam iliar. El p re sen te capítulo se ocupa de u n tipo m uy im p o rtan te de d istrib u ción de frecu en cia: la cu rv a n orm al. E sta distribución es m uy ú til, no sólo p o rq u e u n gran n ú m ero de distribuciones em píricas se en cu en tran se r aproxim adam ente norm ales, sino debido tam bién a su significado teórico en la estad ística inductiva. E n este m om ento, el le c to r n o debe preo cu p arse p o r las aplicaciones en las que se em plea la curva norm al. E n efecto, el o b jeto del p re sen te capítulo está en in d icar las propiedades de la curva en cuestión y en fam iliarizar al lecto r con el em pleo de cuadros basados en la m ism a. E sta distribución se exam ina e n la esta dística d escriptiva m ás que en la inductiva p o r dos razones p rin cipales. P rim ero, la curva n orm al puede em plearse p a ra p ro p o r cio n ar u n a in terp re tació n de la desviación están d ar. Y en segundo lugar, serán útiles al lecto r p a ra fam iliarizarse con la distribución norm al algunos capítulos antes de exponerse a pru eb as estad ís ticas que req u ieren facilidad en la m anipulación de la m ism a. P o r lo tan to , cuanto m e jo r se com prenda la m a te ria expuesta en este capítulo, tan to m enos dificultad se ex p erim en tará m ás ade lante. V II.1. D istribuciones de frecuencias finitas versus infinitas Las distribuciones de frecuencia h a s ta aquí exam inadas com por tab an un n ú m ero finito de casos. De hecho, p o r supuesto, todas las d istribuciones em píricas co m portan n ecesariam ente u n nú m ero fin ito de casos, aunque ta l vez m uy grande. Sin em bargo, los m atem áticos consideran ventajoso a m enudo p en sa r en té r m inos de distribuciones basadas en u n n ú m ero de casos infinita m en te grande. Más bien que tr a ta r con distribuciones em píricas de aspecto anguloso, com o las que ejem plifican el histogram a o el polígono de frecuencia, re su lta posible concebir curvas lisas basadas en u n nú m ero indefinidam ente grande de casos y sus ceptibles de se r expresadas en térm in o s de ecuaciones m atem á ticas relativ am ente sencillas. La distribución n o rm al es u n a de tales curvas. Antes de exam inar esta distribución específica, con v en d rá e stu d ia r la n atu raleza del proceso a través del cual se d esarrolla u n a curva lisa sem ejante. Em pecem os con un h istogram a que com prende cinco intervalos (fig u ra V ll.la ) . Con fines de sim plicidad supondrem os que la distribución de frecuencia es sim étrica. Ya vim os que si el n ú m ero de intervalos au m en tab a sin cam biar N , la fo rm a del h is to g ram a tien d e a hacerse irregular. Supóngase, sin em bargo, que 104 el n ú m ero de casos se h a aum entado asim ism o. E n ta l caso, com o en la fig u ra V II. Ib, será posible serv irse de u n m ayor n ú m ero de intervalos m ás angostos, cada u n o de los cuales tenga u n n ú m ero suficiente de casos p a ra m a n te n e r la regularidad. Si el n úm ero de casos sigue aum entando, pueden em plearse todavía m ás rectángulos, conservando, con todo, el tipo reg u lar (fig. :d f £ "TTTTt-t- - .. (í) Fig. V II.L C om paraciones d e curvas lisas con histogram as de a m plitudes diferentes de intervalo V II.lc ). Las curvas lisas se h an trazad o p o r los p u n to s m edios del lad o su p erio r de cada rectángulo. R esulta claro que los rec tángulos van form ando aproxim aciones cada vez m ejores a la cu rva lisa a m edida q u e el nú m ero de los m ism os aum enta, esto es, a m edida que dism inuye el ancho de cada intervalo. Im aginem os ah o ra u n n ú m ero de casos en au m en to incesante, con intervalos cada vez m ás angostos, h a sta que los rectángulos se aproxim en ta n íntim am en te a la curva lisa que ya n o podam os a p reciar diferencia alguna e n tre aquéllos y ésta. Designam os la curva lisa a la que se van acercando incesan tem en te los re ctán gulos cad a vez m ás angostos com o lím ite de la distribución de frecuencia.1 Pese a que no podam os im aginam os u n n ú m ero infi n ito de casos, podem os, sin em bargo, concebir u n n ú m ero tan gran d e de ellos, que los rectángulos se acerquen a la curva lisa con el grad o de ex actitu d deseado. Se re c o rd a rá q u e el área de cada rectángulo puede utilizarse p a ra re p re se n ta r la pro p o rció n de casos com prendidos en el in- Fig. V II.2. C omparación d e las áreas debajo de la curva y debajo del rectángulo tervalo. Como ya se indicó en el cap ítu lo iv, el á rea to tal de to dos los rectángulos se suele h a c e r igual a la unidad. Así, pues, si la p ro p o rción d e los casos del p rim e r in terv alo es .10, en to n ces dicho m ism o n ú m ero re p re se n ta el á re a re al del p rim e r rectángulo. O bservam os ah o ra que el área del rectángulo co rres p o n d ien te p u ed e ap ro x im arse al área que q u ed a deb ajo de la cu rv a lisa al in te rio r de cu alq u ier intervalo dado. Es lo que indica la fig u ra VII.2. A m edida q u e el n ú m ero de rectángulos au m enta, el á rea to tal de los rectángulos se convierte en u n a aproxim ación cada vez m e jo r al á rea que q u ed a b a jo la curva lisa. E sto puede verse observando que las á reas ach u rad as se van h acien d a cada vez m ás pequeñas. E n el lím ite, pues, el á rea d eb ajo de la curva lisa p u ed e o b ten erse sum ando las áreas de u n n ú m ero in definidam ente gran d e de rectángulos. Y com o quie r a q u e el á rea deb ajo d e los rectángulos es la unidad, el área d eb ajo de la curva lisa será asim ism o igual a la unidad. El p ro ceso q ue acabam os d e d escrib ir es exactam ente la clase de proce so que se h alla en la ra m a d e las m atem áticas designada com o cálculo. 1 La noción de límite se examina también en la sección IX.l. VII.2. F orm a general de la curva norm al La curva n o rm al es u n tipo especial de curva lisa sim étrica. Como q u iera q ue la curva norm al es lisa, perfectam en te sim étrica y se b asa en un n ú m ero indefinidam ente grande de casos, sólo es posible ap ro x im arse a la m ism a m ediante distribuciones de fre cuencia que co m p o rtan datos efectivos. Tiene fo rm a de cam pana y posee cierto n ú m e ro de propiedades m atem áticas notables, al gunas de las cuales se señalarán brevem ente. Como q uiera q u e es sim étrica y unim odal, su m edia, m ediana y m odo coinciden. La fo rm a general de la d istribución n o rm al se indica en la fi g u ra VII.3. * L a ecuación m atem ática de la curva n orm al es relativam ente sencilla en las n o rm as de los m atem áticos. A unque el lecto r no h a b rá de em p lear n u n ca dicha fórm ula, ya que se h an confeccio n ad o cuadros con ta l objeto, será ú til, sin em bargo, que la vea, p a ra señ alar y v erificar algunas de las propiedades de e s ta dis trib u ció n teórica. La fórm ula es com o sigue: Y = - - - - - -- - - - - e - ( x - x ) * / 2 í * sV2jc e n donde Y es la a ltu ra de la curva p a ra u n valor determ inado d e X . Como q u ie ra que ta n to jt com o e son co n stan tes (iguales resp ectivam ente a 3.14 y 2.72), la fó rm u la sólo com porta dos m e didas de resum en, la m edia X y la desviación e stá n d a r s? P or lo tan to , la fo rm a exacta de la curva n o rm al será conocida si se nos dan los valores de dichas m edidas. E n otros térm in o s: hay m uchas curvas n orm ales, u n a p a ra cada com binación d e la m edia y de la desviación están d ar. * R ecordando que u n a can tid ad afectad a de u n exponente ne gativo pued e esc rib irse com o la recíproca de dicha ca n tid a d ele2 Cuando lleguemos a la estadística inductiva se introducirá otra nota ción para la media y la desviación estándar. La fórmula de la curva nor mal suele escribirse en términos de una media de ¡i y una desviación es tándar de o. vada a la p o ten cia positiva, podem os esc rib ir la fó rm u la com o sig u e : en la que e h a sido su stitu id a p o r su valor num érico. Suponga m os q ue el v alo r de s es fijo, y busquem os el v alo r d e X p a ra el Fig. V II.4. C om paración d e curvas norm ales d e igual desviación estándar pero d e m edias d iferen tes cual Y será u n m áxim o. E s obvio q u e Y será m áxim a cuando el d enom inador incluido en los p arén tesis sea m ínim o. P ero dicho den o m in ad o r co n sta de u n n ú m ero positivo m ay o r que la unidad elevado a u n a p o ten cia que n o p u ed e se r negativa, ya que u n n ú m ero real cu ad rad o n o puede se r n u n ca m e n o r que cero. P o r consiguiente, el denom inador alcanzará su m ínim o cuando éi exponente sea cero. Y esto o c u rrirá cuando X ad o p te el valor de X , ya que ten d rem o s X — X — 0. E sto m u e stra q u e el m odo (y, p o r consiguiente, la m ed ia y la m ed ian a) es realm en te X , he cho q ue ya se h a b ía señalado, p e ro sin dem ostrarlo. Podem os ver, asim ism o, que la ecuación da u n a curva que es sim étrica alred ed o r de X . Como q u iera que la can tid ad X — X está al cua d ra d o y no puede, p o r consiguiente, ser negativa, las desviaciones resp ecto de X e n u n a u o tra dirección p ro d u c irán valores idén ticos de Y . La ecuación específica p a ra to d a curva n orm al p a rtic u la r pue de o b ten erse em pleando los valores propios de I y s. E n la fi gura V II.4 p u ed en verse curvas n o rm ales de la m ism a desviación están d ar, p ero d e m edias distin tas. P o r o tra p a rte , las curvas de desviaciones e stá n d a r d istin tas v a ria rá n en la configuración de las cúspides, ta l com o se indica en la fig u ra V II.5. C uanto m e n o r sea la desviación norm al, ta n to m ás p u n tiag u d a re su ltará la curva. H a b ría q ue señ a la r que no to d as las curvas sim étricas en fo r m a de cam pana son norm ales. A unque las curvas de la figura VII.5 difieran e n cu an to a las cúspides, e sto se debe únicam ente a diferencias en sus desviaciones norm ales. Todas ellas son n o r m ales en cu an to a la form a. P o r regla general, las curvas sim é tric a s unim odales p u ed en ser m ás o m enos puntiagudas o apla- Fig. VII.5. C om paración d e dos curvas norm ales d e m edias iguales p ero con desviaciones estándar diferentes n ad a s q u e la curva norm al, au n siendo su s desviaciones e stán d a r las m ism as. Algunas de estas curvas pueden verse e n la fig u ra VII.6. Las que son m ás p u n tiag u d as que la n o rm al se de- Fig. V II.6. C om paración d e una curva norm al con curvas de su m ism a desviación estándar pero d istin ta s en m a n to a las cim as signan com o leptocúrticas y las m ás p lan as que aquélla com o platicúrticas. A d iferencia de la curva n o rm al, las ecuaciones de las curvas lep to cú rticas y p laticú rtica s tien d en a c o m p o rta r m e didas de resum en, adem ás de la m edia y la desviación estándar. VII.3. Á reas bajo la curva norm al Con frecu en cia es n ecesario d e te rm in a r la p ro p o rció n de casos que quedan al in te rio r de u n in terv alo dado. A fortunadam ente, la curva n o rm al posee u n a p ro p ied ad im p o rtan te que hace que dicha ta re a re su lte relativam ente sencilla. E n efecto, resulta q u e in d ep en d ien tem ente de la m ed ia o de la desviación n o r m al que u n a curva ostente, h a b rá u n área constante (o p ro p o r ción de casos) en tre la m edia y una ordenada, que es una distan cia determ inada a partir de la m ed ia en térm inos de unidades de desviación estándar. La figura V II.7 ayuda a ilu s tra r el sen tid o de e s ta afirm ación. Así, pues, si vam os en u n a desviación está n d a r a la derecha d e la m edia, en co ntrarem os siem pre .3413 del á rea incluida en tre la m edia y la o rd e n ad a en dicho punto. P or consiguiente, dos veces dicha área, o .6826 e sta rá n incluidas e n tre las dos ordena d a s situ ad as a u n a desviación e stá n d a r a am bos lados d e la m edia. E n o tro s térm in o s: u n poco m ás d e dos tercios de los casos se e n c o n tra rá n siem pre en el in te rio r de una desviación están d a r de la m edia. Y en fo rm a análoga, el área com prendida e n tre la m ed ia y la o rd en ad a a dos desviaciones e stá n d a r de aquélla será siem p re .4773 y, p o r lo tan to , u n poco m ás del 95 p o r ciento del á re a e sta rá co m prendido e n tre la p a re ja de o rdenadas a dos des viaciones e s tá n d a r a am bos lados de la m edia. P rácticam ente, todos los casos esta rá n com prendidos en el in te rio r de tres desviaciones e s tá n d a r de la m edia, aunque la curva n o rm al se ex tien d a teó ricam ente al in fin ito en am bas direcciones. P o r su puesto, las d istancias de la m edia n o necesitan se r siem pre m úl tiplos exactos d e la desviación están d ar. M ediante u n procedi m ien to que vam os a d escrib ir en breve, es posible d eterm in a r las áreas e n tre dos o rdenadas cualesquiera. P or ejem plo, si nos ap a rtam o s e n 1.96 desviaciones e stá n d a r a am bos lados de la m edia, com prenderem os casi exactam ente el 95 p o r ciento del área, en ta n to q ue e n tre las ordenadas a 2.58 desviaciones n o r m ales de la m ed ia q u ed ará incluido el 99 p o r ciento del área. E sta p ro p ied ad de la curva n orm al b rin d a u n a in terp retació n de la desviación n orm al y u n m étodo p a ra re p re s e n ta r en fo rm a visual el significado de e s ta m edida de dispersión. C ierto núm ero de distrib u cio n es em píricas de frecuencia son lo b a sta n te sem e jan te s p a ra q ue estas relaciones e n tre las áreas y la desviación n o rm al se verifiquen razonablem ente bien. Inclusive en el caso de d istribuciones de ingresos, que p ropenden a disto rsio n arse en la dirección de los ingresos elevados, encontram os norm alm ente dos tercios de los casos en el in te rio r de u n a desviación está n d a r de la m edia. H ay que te n e r presente, con todo, que au n q u e la curva n o rm al p ro p o rcio n a u n a interpretación de la desviación están d ar, esta p ro p ied ad no pu ed e em plearse p a ra d efin ir lo que se en tien d e p o r desviación están d ar. L a definición se hace en térm in o s de la fórm ula. La propiedad en cuestión sólo se verifica en el caso de distribuciones norm ales o aproxim ada m en te tales. R esulta posible to m a r cualquier curva n o rm al y tra n sfo rm a r sus valores num éricos de ta l fo rm a que p u ed a utilizarse u n sim p le cu ad ro p a ra evaluar la p roporción de casos al in te rio r de cu alq u ier intervalo deseado. Vam os a ilu s tra r este proceso p o r m edio de u n ejem plo num érico. Supongam os que tenem os u n a cu rv a n o rm al con u n a m edia de 50 y u n a desviación está n d a r de 10. B usquem os la pro p o rció n de los casos en el intervalo de 50 a 65. E m pezam os p o r d eterm in a r a cuántas desviaciones es tá n d a r se h alla 65 de la m edia 50. P ara ello tom am os la diferencia e n tre estos dos valores, esto es, 15, y dividim os e n tre la m agnitud de la desviación están d a r. E n el p re sen te caso el re su ltad o es 1.5. De m odo general podem os servirnos de la fó rm u la: X -X Z = -----------s 10 en donde X es el valor de la ord en ad a y Z re p re se n ta la desvia ción con resp ecto a la m ed ia en unidades d e desviación están d ar. * Antes de ex am inar cóm o p u ed e u tilizarse el valor num érico d e Z p a ra d eterm in a r la pro p o rció n de los casos e n tre la m edia y la o rd en ad a co rrespondiente a Z, perm ítasen o s d a r u n a in te r p retació n altern ativ a de ésta. Podem os p e n sa r en térm in o s de u n a tran sfo rm ació n efectiva de la variable X en la variable Z. E n ta n to q u e la d istribución d e la variable X es n orm al con una m ed ia de X y u n a desviación e stá n d a r de s, la nueva variable, en cam bio, es n o rm al con u n a m edia de cero y u n a desviación e s tá n d a r de uno.8 E sta desviación con u n a m edia cero y u n a 3 La verificación de este hecho se deja como ejercicio (véase ejercicio 3). desviación e s tá n d a r de uno se designa com o fo rm a estándar, y la Z se designa a m enudo com o la marca. La tran sfo rm ació n de variables se ilu s tra en la figura VII.8. S ustraem os de cada X la co n stan te X . Al s u s tra e r este valor co n stan te (aq u í 50) de cada X , hem os co rrid o cada m arc a original en 50 unidades a la izquier d a y, p o r lo tan to , hem os desplazado efectivam ente la curva Fig. VII.8. C om paración de las fo rm a s estándar y general de la curva norm al n o rm al original a u n a posición d irectam en te sobre el origen. E sto tien e en cu en ta el n u m era d o r en la expresión d e Z. Divi dim os ah o ra cad a diferencia X — X e n tre la m ag n itu d d e la des viación están d a r. Al hacerlo, o estrecham os la curva o la ensan cham os, según que su desviación e stá n d a r sea o n o m ayor que la un id ad . Podem os, pues, p e n s a r que hem os desplazado prim e ro la posición d e la curva n orm al original y q u e luego hem os cam biado la m ag n itu d de la desviación están d a r, de m odo que quede so b re la fo rm a están d a r. Al dividir e n tre la desviación es tá n d a r de 10, hem os cam biado esencialm ente las unidades a lo larg o del e je horizontal, d e m odo que u n a distancia de 10 sobre el eje de X co rresponde a la d is ta n d a de 1 sobre el e je de Z. In d ep en d ien tem en te de la in terp re tació n que se dé, un valor de Z = 1.5 in d ica que la o rd e n ad a se en c u en tra a 1.5 desviaciones e stá n d a r de la m edia. E n el caso de la fo rm a están d a r, esto sig nifica, p o r supuesto, que la o rd e n ad a m ism a coincide con el va lo r 1.5 de la escala Z. Se h a n co n stru id o tablas que m u estran áreas exactas p a ra la fo rm a e stá n d a r d e la cu rv a norm al. El cu ad ro C del A péndice 2 es u n a de ellas. Los valores de Z se dan de a rrib a a b a jo en el m argen izquierdo, y horizontalm ente arrib a. Los dos dígitos de Z se o btienen leyendo de a rrib a abajo, y el terc ero leyendo horizontalm ente. L as cifras del cuerpo del cua d ro indican la p roporción del á rea e n tre la m edia (o sea cero) y la o rd e n ad a co rresp o n d ien te a Z. E n el ejem plo an terio r, ve m os que se hallan contenidas e n dichos lím ites las .4332 del área. Si Z h u b iera sido 1.52, el área co rrespondiente h a b ría sido .4357. VII.4. Ilustraciones suplem entarias del em pleo de la tabla norm al Supongam os que querem os h a lla r el área ach u rad a de la curva norm al indicada en la fig u ra VII.9. E n este caso el valor de Z e s : 143 - 168 -25 12 ~12~ = -2 .0 8 El hecho de que Z sea negativa indica sim plem ente que el área ach u rad a se sitú a a la izquierda de la m edia. Al u tilizar la tabla F ig . VII.9. Curva norm al, con porción achurada representando el área en una sola cola norm al, el signo de Z puede ignorarse, ya que la curva es p e r fectam ente sim étrica. Del cu ad ro vem os que el área com pren dida e n tre la m edia y u n a Z de 2.08 es .4812. Como quiera que el á rea to tal es la unidad, el á rea a la izquierda de la m edia h a de se r .5 (p o r sim etría). P or consiguiente, el área ach u rad a puede o b ten erse re sta n d o el área com prendida e n tre la m edia y la o rd en ad a del área to ta l a la izquierda de la m edia. Así, p u e s : (P ro p o rción de casos ^ 143) = .5000 — .4812 = .0188 P or lo tan to , m enos del 2 p o r ciento de los casos tienen m arcas in ferio res o iguales a 143.4 El tipo de problem a ilustrado en este ejem plo es m uy co rriente, debido al hecho de que las com pro baciones d e hipótesis casi siem pre com prenden las colas de u n a d istrib u ció n de frecuencia. Si hubiéram os qu erid o h allar el área 4 En una distribución continua, la proporción de los casos que sean exac tamente 143.0 será cero. Esto puede verse si imaginamos dos ordenadas extremadamente próximas una de otra. La proporción de casos entre estas dos ordenadas será también muy pequeña. Y si a continuación dejamos que las dos ordenadas se vayan aproximando indefinidamente, la propor ción de los casos se hará infinitamente pequeña. Recuérdese que la línea matemática no tiene grueso. En la práctica podrá haber algunos casos con marcas de 143.0, debido a defectos de medición. Sin embargo, como quiera que estamos tratando de una distribución teórica, no importa que la orde nada ella misma se incluya o no en el intervalo. En adelante, nos referi remos simplemente al área entre dos ordenadas (pero sin comprender a éstas), o área inferior a un valor dado. to ta l fu e ra de la región definida p o r 168 ± 25 (com o la indican las á re a s ac h u rad a s de la fig u ra V II.10), h ab ríam o s doblado simplem e n te el re su lta d o an te rio rm e n te obtenido, ya que las dos áreas ac h u rad a s son exactam ente del m ism o tam año. P a ra to m a r o tro ejem plo, supongam os q u e necesitam os obte n e r el área a c h u rad a indicada e n la fig u ra V I I .ll. E s ta á rea se Fig. V II.10. C urva norm al, con porciones achuradas presentando áreas en am bas colas calcu la h allan d o p rim ero la p ro p o rció n de casos e n tre la m edia y la o rd e n ad a B y su strayendo luego la p roporción de casos e n tre la m ed ia y la o rd e n ad a A. Las Z co rrespondientes a B y A son re sp ectiv am en te 2.0 y 1.2. Tenem os, p u e s: P rop o rció n e n tre B y la m ed ia P rop o rció n e n tre A y la m ed ia .4773 .3849 P roporción e n tre A y B .0924 P o r consiguiente, ligeram ente m ás del 9 p o r cien to d e los casos q u ed a n e n tre .42 y .46. O bsérvese que si se h u b ie ra deseado obte- Fig, V I I .ll. Curva norm al con porción achurada, representando el área entre d o s ordenadas n e r el á re a e n tre o rdenadas a am bos lados de la m edia, el resu l ta d o se h a b ría obtenido m ás fácilm ente p o r adición que p o r su stracció n . G losario Leptocúrtico Distribución de frecuencia límite Curva normal Platicúrtico Marca estándar E jercicios 1. Ya se calcularon la media y la desviación estándar de los datos del ejercicio 1, capítulo iv. ¿Cuál fue la proporción de los casos dentro de una desviación estándar de la media? ¿Al interior de dos desviacio nes estándar? ¿De tres desviaciones estándar? ¿Con cuánta aproxima ción corresponden dichas cifras a las que encontraríamos si la distri bución fuese exactamente normal? Contéstese a las mismas preguntas en relación con el ejercicio 2, capítulo iv. Compárense y expliqúense las diferencias entre los resultados de los dos grupos de datos. 2. Si la media de una distribución normal es de 80 y su desviación estándar de 12, a) ¿Qué proporción de casos se halla entre 80 y 93? Respuesta, .3606. b) ¿Qué proporción de casos se halla entre 90 y 105? ¿Entre 70 y 105? Respuesta, .1838. c) ¿Qué proporción de casos es inferior a 68? d) ¿Cuántas desviaciones estándar se necesitarían a ambos lados de la media para obtener dos colas que comprendan cada una el 2 por ciento exactamente del área total? ¿El 10 por ciento del área total? Respuesta, 2.054. ej ¿Cuál m arca tiene por encima de ella el 4 por ciento de los casos? (en otros términos, sitúese la percentil 96). * 3. Verifiqúese que la form a estándar de la curva normal tiene una media de cero y una desviación estándar igual a la unidad. (Indica ción: vuelva a escribirse la fórmula de la curva normal en términos de Z, aprovechando el hecho de que Z = (X —X)/ s. ) 4. Las calificaciones primarias de diversas pruebas de aptitud y actitud son tratadas a menudo por los psicólogos como escalas de intervalo. Dichas calificaciones suelen a menudo convertise luego en calificaciones estándar con medias y desviaciones estándar conve nientes. Supóngase que la calificación media prim aria en un examen de admisión en la universidad es de 117 con una desviación estándar de 28.5. Supóngase, además, que esas calificaciones primarias están dis tribuidas normalmente. a) ¿Cuál es la proporción de calificaciones por encima de 131? ¿De bajo de 79? b) ¿Cuáles son las calificaciones primarias correspondientes a los cuartiles primero, segundo y tercero? *c) En los exámenes de la universidad, las calificaciones primarias se normalizan de modo que la media de la distribución normal sea exactamente de 500 y la desviación estándar de 100. Concre tamente, ¿cómo se norm alizarán los grupos de datos anteriores para obtener una medía de 500 y una desviación estándar de 100? (Indicación: ¿cómo se normalizaría para obtener una media igual a cero y una desviación estándar igual a la unidad?) B ibliografía 1. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2‘ ed., Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 6. 2. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry Holt and Company, Inc., Nueva York, 1952, cap. 14. 3. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning in Sociology, 2‘ ed., Houghton Mifflin Company, Boston, 1970, cap. 6. 4. Weinberg, G. H., y J. A. Schum aker: Statistics: An Intuitive Approach, Wadsworth Publishing Company, Inc., Belmont, Cal., 1962, cap. 8. 5. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons, Inc., Nueva York, 1968, pp. 147-156. T ercera P arte E S T A D ÍS T IC A IN D U C TIV A E l objeto de este breve capítulo está en d a r u n b osquejo genera l de la estad ística inductiva y, en p artic u la r, de los razo n a m ien to s que se h allan a la base de la verificación de las h ip ó tesis estadísticas. E s m u y fácil verse ta n ab ru m ad o p o r ios detalles de cad a p ru e b a p a rtic u la r en co n trad a, que re su lte im posible p e rc ib ir las sem ejanzas q u e to d as ellas tien en en co m ún. E n ta l caso, el aprendizaje de la estad ística p u ed e con v ertirse fácilm ente en u n ejercicio de "re c e ta rio ” co n sisten te e n a p re n d e r de m em o ria las fórm ulas y los p rocedim ientos. P o r ello este capítulo es m uy im p o rtan te y deb ería releerse a te n ta m en te u n a vez que el le c to r haya visto las dos o tres p rim e ra s p ru e b as específicas.1 V III.l. E sta d ística y parám etros » E l o b jeto de las generalizaciones estad ísticas está en decir algo acerca de diversas ca rac te rístic as de la población estu d iad a, so b re la b ase de h echos conocidos a p ro p ó sito de u n a m u e s tra sa cad a de dicha población o universo.2 D esignarem os las c a ra c te rísticas de la población com o parám etros, en c o n tra ste con las carac te rístic as de la m u estra, que se designan com o estadísticos. A estas altu ras, el le c to r está ya fam iliarizado con cierto n ú m ero de p arám etro s y e stad ísticas: m edias, m edianas, proporciones, desviaciones están d a r, etcétera. Llegado aquí, el le c to r d eb ería h ac er u n a distinción p recisa e n tre las carac te rístic as q u e se re fieren a la población y las que se refieren a la m u estra. P a ra de sig n ar las p rim eras suelen p o r lo re g u la r em plearse las le tra s del alfab eto griego, e n ta n to que las le tra s latin as designan las carac te rísticas de la m u estra.3 Así, pues, en ad elan te designarem os la m ed ia de la población con jx, y la de la m u e stra con X ; la desvia ción e stá n d a r de la p rim e ra con a, y la de la m u e stra con s. P uede establecerse u n a distinción im p o rta n te e n tre p a rá m e tro s y estadísticas. E n efecto, los p arám etro s son valores fijos re fe rid o s a la población y, p o r lo regular, no se conocen.4 Así, p o r 1 Un momento muy adecuado para la nueva lectura será después del ca pítulo XI. 2 Los términos población y universo ( universe ) suelen ser intercambiables, en la literatura estadística. 8 Por desgracia, esta regla comporta cierto número de excepciones, 4 Los parámetros se tratarán siempre como fijos, aunque en realidad pue dan variar con el tiempo. Así, por ejemplo, la edad promedio de una po blación variará de un momento al próximo. Por ello deberá entenderse la noción de muestras repetidas en términos de un gran número de muestras sacadas simultáneamente, y no en secuencia temporal. En muchas ocasio119 ejem plo, en cualquier m om ento dado, la edad o el grado prom e dios de todos los estu d ian tes de la U niversidad de H arvard p u e den no conocerse, p ero se h allarán probablem ente ser los m is m os p a ra todos los observadores. Las estadísticas varían, por o tra p arte, de u n a m u estra a otra. Si se escogieran al azar 10 m u estras d iferentes de estudiantes universitarios, no esperaría m os que todos ellos p re sen tara n exactam ente las m ism as edades prom edios. Es m ás, desconfiaríam os si fu e ra así. A diferencia de los p arám etro s, los valores de las estad ísticas de uria m u estra d eterm in ad a se conocen o pueden calcularse. P ero no sabem os, sin em bargo, c u á n rep resen tativ a sea la m u estra en relación con la población, o h asta qué pu n to la estadística o b ten id a se aproxi m e al p a rá m e tro desconocido com parable. Lo que nos in tere sa efectivam ente es la población, y n o en una m u estra p a rtic u la r cualquiera. E n efecto, escogem os u n a m u estra p o r razón de conveniencia, p ero n u e stro objetivo consiste p rá cti cam ente siem pre en sacar conclusiones a p ro p ó sito de diversos p arám etro s de la población; sobre la base de estadísticas de m u estras conocidas, sin duda, p e ro sin im p o rtan cia en sí m ism os. E n las verificaciones de hipótesis form ulam os supuestos a p ro p ó sito de los p arám etro s desconocidos, y preg u n tam o s a conti nuación cóm o serían n u estras estadísticas específicas si dichos supuestos fu e ran correctos. Al p ro ced er así, trata m o s de decidir racionalm ente si los valores supuestos de dichos p arám etro s son o n o razonables a la vista de la evidencia de que disponem os. P o r lo tan to , la verificación de hipótesis puede considerarse como u n a fo rm a especial de proceso de decisión. Como q uiera que los raciocinios q ue se hallan a la b ase de las hipótesis son m ás bien com plejos, no e s ta rá p o r dem ás exam inarlos aquí brevem ente. E n capítulos sucesivos verem os cóm o se aplican a las verificaciones específicas. VIII.2. Pasos en la verificación de una hipótesis E n ciencias sociales el térm in o de hipótesis se em plea en cierto n úm ero de sentidos distintos. A veces se utiliza p a ra designar u n a proposición teó rica que p re sen ta alguna re m o ta posibilidad de verificación indirecta. O tras veces, en cam bio, se em plea p a ra designar el tip o de afirm ación que puede efectivam ente com pro b arse estadísticam ente. Con o b jeto d e re d u c ir la confusión será, pues, conveniente in d icar cóm o se em plea el térm in o en este texto. Los criterios utilizados p a ra definir lo que debam os en- nes, nuestro objetivo científico consiste en realidad en deducir la naturaleza de los procesos causales que dan origen a los valores de población, los que suponemos son fijos. Al estudiar estadística parece sin embargo prudente limitarse inicialmente al concepto más simple de generalización de poblacio nes fijas. ten d er p o r verificación de u n a hipótesis son m ás bien estricto s y d escartarían m uchas de las llam adas "p ru eb as” que se encuen tra n en la lite ra tu ra co rrien te en m ateria de ciencias sociales. Sin em bargo, son adecuados a los requisitos m ás b ien rígidos estable cidos p o r los estadígrafos. E n cuanto tales, en efecto, rep resen ta n u n ideal con referencia al cual puede com pararse el carácter adecuado o inadecuado de cualquier com probación real. La hipótesis es u n enunciado acerca de un acontecim iento fu tu ro , o de u n acontecim iento cuyo resu ltad o se desconoce e n el m om ento de la predicción, form ulado de m odo que pueda descar tarse. 0 en térm inos m ás precisos, digam os que se h a com pro b ad o u n a hipótesis cada vez que se h an efectuado los siguientes p asos: 1. Todos los re su ltad o s posibles del experim ento u observación se h an anticipado a la verificación.5 2. Se h a llegado a u n acuerdo, antes de p ro ced er a la verifica ción, acerca de las operaciones o procedim ientos a em p lear e n la determ inación de cuáles resultados se p ro d u c ía n efectivam ente. 3. Se h a decidido previam ente cuáles de los resultados im plica rán, caso de pro d ucirse, el d escarte de la hipótesis y cuáles su confirm ación. Como re su lta de lo indicado m ás arrib a, el d escarte h a de h ab erse ten ido en cuenta com o u n o de los resultados po sibles. 4. Se h a efectuado el experim ento, o se h a observado el acon tecim iento, se h an reg istra d o los re su ltad o s y se h a decidido si la hipótesis quedaba o n o descartada. Los p asos que se acaban de e n u m erar son m uy generales. La inducción estad ística tiene que ver an te to d o con los pasos 3 y 4, ya que el estadígrafo h a de suponer que los dos p rim ero s pasos se h a n efectuado ya. T endrem os ocasión de ver en qué fo rm a los dos últim os pasos se hacen m ás específicos en u n a com proba ción estadística. Tal vez lo m ás significativo de la lista an terio r es el de que to d as las decisiones deben se r tom adas antes de reali zar la pru eb a. Todos los resultados posibles se dividen en dos cla ses, a sa b e r: los que co m p o rtan d escarte y los que no. Si eso no se h ace con a n terio rid ad a la prueba, re su lta posible re te n e r u n a hipótesis cam biando sim plem ente las reglas a m edida que se avan za. E sto equivale a lo m ism o que lo que h a ría u n niño que ech ara a c a ra o cruz p a ra decidir si va o n o al cine. É ste decide, en efec to, "cara, v o y ; cruz, n o voy”. Si sale c a ra va al cine. P ero si sale cruz, decide h acer depender el éxito de dos cara o cruz sobre tres y sigue echándolos. E n e sta fo rm a acaba siem pre yendo al cine, a m enos que p ierd a la m oneda (resu lta d o que n o h ab ía antici p ad o ). 5 El término experimento lo emplea el estadígrafo en un sentido muy am plio. Un experimento puede consistir, por ejemplo, en interrogar a un ama de casa y anotar el "sí” o el "no” a una pregunta concreta. * Ya se indicó en el capítulo n que la p ru e b a sólo puede h a cerse acerca d e u n a proposición fo rm u lad a en conceptos que se hay an definido operativam ente. El p aso 2 indica que h ay que po n erse de acuerdo, con an terio rid ad a la pru eb a, acerca de las definiciones o perativas. A m enos que sea así, re s u lta siem pre posible re te n e r u n a hipótesis, independientem ente del re su lta do, d escartan d o los m étodos em pleados. S upóngase que alguien enuncia com o hipótesis suya que “cu an to m ás elevada sea la posición social de u n a persona, ta n to m enos p ro b ab le será que sea m uy e tn o cé n trica”. Si los resu ltad o s n o co nfirm an esta pro posición, p o d rá alegar que la m edida "posición social” o "etno'cen trism o ” n o m ed ía lo que se la suponía m edir, y q u e algún o tro índice (q u e confirm e su teo ría ) es m ás adecuado. Así, pues, p a rece p referib le re se rv a r el térm in o de h ipótesis p a ra designar enunciados q ue se hallen al nivel operativo y p u ed an d escartarse fran cam en te. E n efecto, si n o se puede llegar de antem ano a u n acu erd o acerca del procedim iento, es difícil que se produzca acu erd o a p ro p ó sito d e los resultados. Como ya se indicó en el capítulo II, este p u n to de v ista no niega, con todo, la im p o rtan cia de la teo ría, n i im plica que las definiciones operativas sean las únicas n ecesarias p a ra el desarrollo de la ciencia. El te rc e r p aso es crítico, y a que la decisión que se adopte c o m p o rtará p o r lo re g u la r ciertos peligros de erro r. E n algunos casos el p ro b lem a es relativ am en te sencillo. N o todas las verifi caciones de las hipótesis re q u ie ren inducción. E n efecto, puede fo rm u larse u n a hipótesis a p ro p ó sito del re su ltad o de u n acon tecim iento concreto, tal, p o r ejem plo, u n p a rtid o de fútbol. Po dem os p red ecir, p o r ejem plo, que el equipo A g an ará al equipo B . A condición que existan criterio s p a ra d eterm in a r si los proce dim ientos acordados se h an seguido adecuadam ente o no, las pro b abilidades de e r ro r en cu an to a decidir si h ay que d esc artar o no sem ejan te tip o de hipótesis son escasas. Sin em bargo, si la inform ación se basa en u n a m u e stra de acontecim ientos sacado de u n a población m ayor, existe m ay o r riesgo de erro r. E n efecto, d escartam o s o dejam os de d e sc a rta r la hipótesis dándonos cuen ta de que, ya que n u e stro ju icio sólo se b asa en u n a m u estra, hem os de a d m itir siem pre la posibilidad de e r ro r debida a la fa lta de c a rá c te r suficientem ente rep resen tativ o del m ism o. Es la teo ría de las probabilidades la que nos p e rm ite a p re c ia r los riesgos de e r ro r y tom arlos en consideración al decidir acerca de los criterio s que hay que em p lear p a ra d e sc a rta r las hipóte sis. E n las próxim as secciones se exam inarán dos tipos d e e r ro re s posibles. Podrem os luego volver a la cuestión del papel que juega la estad ística en las verificaciones de las hipótesis in ductivas. V III.3. La falacia de afirm ar el consecuente A m en u d o n o existe m an era alguna de v erificar n u e stra s p ropo siciones o teo rías m ás im p o rtan tes. E n lu g ar de ello, extraem os de ésas u n a serie de consecuencias que d eberían p ro d u cirse si la proposición o teo ría original fuese cierta, y es la validez de estas consecuencias la que se d eja d eterm in a r p o r m étodos em píricos.6 Así, pues, la p ru eb a de la teo ría original es indirecta. La teo ría A im plica determ inadas consecuencias B , o bien, en fo rm a sim bó lica, A = > B. H ay que recalcar que, al p a s a r de A a B , se em plea m ás bien el razonam iento lógico o deductivo que la p ru e b a em pírica. P o r consiguiente, si A es cierto, B lo h a de se r tam bién, a condición que n u e stro razonam iento al deducir A de B sea válido. Vemos luego si B se h a p roducido o n o ; si B n o se h a p ro d u cid o (B falso), entonces sabem os tam bién que la teo ría A h a de se r falsa asim ism o. P ero, ¿qué o cu rre si B re su lta se r cierto ? ¿Podem os decidir q ue A deba serlo asim ism o? No. Si lo hacem os, com etem os la falacia de afirm a r el consecuente, com o los lógicos aco stu m b ran llam arlo. Si B es cierto, podem os decir que A puede se r cierto, p ero p o d ría h a b e r o tro nú m ero cualquiera de teorías altern ativ as q u e im plicaran tam bién B. N o podem os e sta r seguros de que A sea necesariam ente cierto, a m enos que podam os d em o strar que n o existe o tra teo ría altern ativ a válida C p a ra la cual C = y B . P o r desgracia, no estam os p rácticam en te n u n ca en condiciones de hacerlo, y p o r ello m ás bien hem os de p ro ced er p o r elim ina ción de teorías que p o r su aceptación definitiva. La b u en a teo ría es la que no se d eja elim inar, a condición, p o r supuesto, que se la enuncie en fo rm a que se deje elim inar.7 En o tro s térm in o s: h a de co nducir á hipótesis que se dejen elim in ar ellas m ism as. Si dejam os de d e sc a rta r A cuando B es cierto, correm os riesgo d e equivocarnos, y a q u e A puede en re alid ad ser falso. E n esta dística, ese tip o de e rro r, o sea el error de no descartar una hi p ó tesis efectiva m ente falsa, se designa com o error de tipo I I o (3. Tal vez u n sencillo ejem plo h a rá que el razonam iento an terio r se p re sen te com o m enos abstracto. Supongam os que tenem os u n a te o ría A que co n sta de las tre s proposiciones sig u ien tes: 1) to d as las p ersonas se conform an a las n o rm as de su sociedad; « En rigor este enunciado no es totalmente exacto, ya que una teoría pura mente deductiva no conduce directamente a hipótesis comprobables. Véa se [21. f El papel del experimento crítico está en poner al científico en condicio nes de escoger entre varias teorías alternativas cada una de las cuales ha resistido previamente a la eliminación. Así, por ejemplo, las teorías A y A' pueden predecir ambas los acontecimientos Bv B2, ..., Bk, todos los cuales se producen. Pero A puede predecir que Bk+1 es cierto, en tanto que A' sostenga que será falso. Si BJe+l es efectivamente falso, entonces A puede eliminarse, y retenerse, de momento. A'. 2) u n a n o rm a de la sociedad X es la de n o ro b a r; y 3) Jones es m iem b ro de la sociedad X . Si to d as las p a rte s de la teo ría son co rrectas, podem os ded u cir B, que Jones n o ro b a rá. Supóngase que p o r alguna o tra razón n o estam os en condiciones de verifi ca r d irectam en te lo c ierto o falso de A, p e ro que estam os en con diciones, e n cam bio, de averiguar la co n d u cta de Jones. Es obvio q ue si Jo nes roba, la teo ría h a de se r in co rrecta, p o r lo m enos en p arte . E n consecuencia, si B es falso, descartam os Pero, si sabem os q ue Jones n o roba, n o p o r ello decidirem os que la teo ría sea cierta. Tal vez Jones sea sim plem ente m ás honrado que los otro s. O tal vez ni siquiera sea m iem bro de la sociedad X . E n sem ejan te caso, si fuéram os a a c e p ta r la teo ría com o co rre c ta , co rreríam os u n riesgo considerable de erro r. Llegaríam os p ro b ab lem en te a la conclusión de que, au n q u e el individuo p a r ticu lar en cuestión sea honrado, haríam os m e jo r en suspender n u e stro juicio. E l ab su rd o del ejem plo a n te rio r n o h a de o scu recer el pu n to cap ital de que, siem pre que tengam os u n a te o ría que im plica d eterm in ad as consecuencias y que éstas, p e ro n o así aquélla, sean susceptibles de verificación, nos en co n tram o s e n la posición ló gica de p o d er d esc artar la teoría, en ta n to que n o podem os acep tarla, en cam bio, sin c o rre r el riesgo de equivocam os. V III.4. La fo rm a de las hipótesis estadísticas E n ciencias sociales no encontram os proposiciones p o r el estilo d e la del ejem p lo an terio r, p o r la sencilla razón de que las te o rías acerca del m u n d o real no im plican certid u m b re. E n lugar de co n sid erar q u e si A es cierto B ha de serlo asim ism o, sostene m os solam ente que si A es cierto B lo será probablem ente tam bién. Tenem os así q u e a c e p ta r la posibilidad de que B sea falso incluso cu an d o A es verdadero. P ero si seguim os la reg la de des c a rta r A siem p re que B sea falso, correm os el riesgo de com eter o tro erro r, esto es, el de descartar una hipótesis cierta. Desig nam os esta clase de e rro r com o error de tipo I o a. Sirviéndonos del ejem plo a n terio r, n u estra s proposiciones h a b rá n de m odifi c a rse en el sen tido de d ecir: "la m ayoría de los individuos se conform an a las n o rm as de su sociedad” y “probablem ente Jones n o ro b a rá". Si Jones roba, descartam os la teo ría revisada con cierto riesgo de e rro r, ya que p u ed e con todo se r cierta, porque es posible que Jo nes sea u n o de los pocos m iem bros n o honrados. Así, pues, existen dos tipos de e rro r que h ay que te n e r en cuenta. El p rim e ro que exam inam os (el tip o I I ) procede de la falacia p u ra m e n te lógica consistente en a firm a r el consecuente. Y cuando in tro d ucim os elem entos de p ro b a b ilid ad en n u estra teoría, entonces adm itim os u n tip o adicional de e r ro r (el tipo I). Aunque h a s ta el p re se n te n o hayam os dicho n ad a todavía a p ro pó sito del razonam iento inductivo en c o n tra ste con el deductivo, se debe a la necesidad de generalizar m ás allá de los lím ites de los dato s que se poseen el que debam os servim os de sem ejantes enunciados de pro babilidad. ¿Q ué fo rm a específica ad o p tan las hipótesis estadísticas? ¿A q ué se p arecen el A y el B? En realidad, la teo ría A co n sta de cierto n ú m ero de supuestos acerca del c a rá c te r de la población y de los procedim ientos relativos a la selección de m uestras, ju n to con el razonam iento m atem ático necesario p a ra fo rm u lar enunciados de p ro b ab ilid ad a p ro p ó sito de la de los resu ltad o s p a rtic u la re s de la m u estra, si los supuestos adoptados son efec tiv am en te ciertos. P o r m edio de estos enunciados de probabili d ad decidim os con an terio rid ad al tiem po cuáles resultados son ta n probables, que descartaríam os los supuestos A si estos resul tad o s B no se p ro d u jeran . R azonam os, en efecto, en el sentido de que, si los supuestos son correctos, los resultados de n u estras m u estras qu ed arán la m ay o r p a rte del tiem p o d en tro de u n de term in ad o re co rrid o de resultados. P o r supuesto, sólo extraem os u n a m u estra, p ero si n u e stro resu ltad o p a rtic u la r cae fu e ra del reco rrid o , en lo que se denom ina región crítica, rechazarem os los supuestos, co rrien d o el riesgo de co m eter u n e rro r tip o I. Así, pues, el B está re p resen ta d o p o r cierto re co rrid o de resu l tad o s de m u estras. Si los resultados quedan fu e ra de dicho re corrido, entonces B es falso y la hipótesis se descarta. Al decidir la extensión del re co rrid o a in clu ir b a jo B, hem os de to m a r en co nsideración (id ealm en te) los riesgos de erro re s de los tipos I y II. P ara ilu s tra r el proceso, supongam os que deseam os co m p arar m u estras de em pleados d e oficina y de o b rero s de ta lle r en rela ción con el p o rc en taje de ellos que desean p a ra sus hijos ense ñ anza un iv ersitaria. Si querem os realm en te d em o strar que existe u n a diferencia e n tre dichos dos grupos, procedem os tra ta n d o de elim in ar la h ipótesis altern ativ a de que n o existe diferencia alguna. E sto p arece c o n stitu ir u n a m a n e ra de p ro ced er extre m ad am e n te in d irecta, p e ro hem os de re c o rd a r que no estarem os en condiciones de d e m o stra r directam ente que sí hay diferencia. Con o b jeto de ev itar la falacia de afirm a r el consecuente, hem os de p ro c ed er a la elim inación de las falsas hipótesis. E n el p re sen te caso sólo existen lógicam ente dos posibilidades : o hay d iferen cia o no la hay. Si la segunda posib ilid ad se d eja elim i n ar, entonces podem os concluir que existe efectivam ente alguna diferencia. E stablecem os, p o r consiguiente, la hipótesis de que el porcen ta je q u e desea la enseñanza u n iv ersitaria es el m ism o en am bos grupos o poblaciones. Podem os a co ntinuación d e m o stra r m ate m áticam en te que, en el 99 p o r ciento d e todos los p ares posibles de m u estras, las diferencias e n tre las dos series de po rcen tajes serían in feriores al 10 p o r ciento si ios supuestos fueran efecti va m en te ciertos. E n o tro s térm in o s: B consta de diferencias de m u estras q ue son inferiores al 10 p o r ciento. Y si realm ente no existen diferencias e n tre am bas poblaciones, es su m am ente p ro b ab le que los p o rcen tajes correspondien tes a las dos m u estras caerán d en tro del 10 p o r ciento u n o de otro . Puede, en conse cuencia, d ecidirse que, si la diferencia e n tre los po rcen tajes de las m u estras re su lta se r del 10 p o r ciento o m ás, los supuestos A h a n de d escartarse. E sto se hace a sabiendas de que en el 1 p o r ciento de las veces u n a d iferencia de e sta m agnitud o cu rrirá aun siendo A cierto. E n o tro s térm inos, el riesgo de in c u rrir en u n e rro r de tip o I (el de d e sc a rta r u n a hipótesis co rrec ta ) será de u n a p ro b ab ilid ad sobre ciento. Volvamos ah o ra a la lista original de pasos necesarios en la verificación de las hipótesis. Ya se señaló que la inducción esta dística se ocu pa básicam ente de los pasos 3 y 4. El investigador an ticip a todos los re su ltad o s posibles de las m u estras y los di vide en dos c la se s: aquellos resp ecto de los cuales puede descar ta r sus hip ó tesis y aquellos resp ecto de los cuales no puede descartarlas. E n realidad, lo que hace la estad ística es p ro p o r cio n ar los crite rio s a u tilizar en la división de los resultados en dos clases. E stos resu ltad o s se ponen en u n a u o tra de las dos clases, de conform idad con los riesgos que se está dispuesto a asu m ir en cu an to a in c u rrir en los e rro res de tipos I y II. La m ayor v e n ta ja de los procedim ientos estadísticos con respecto a los m étodos intuitivos está en el conocim iento que proporcio n an acerca d e esos riesgos de erro r. E xpuesta en esta form a, la estad ística n o parece valer m ucho la p en a de p reo cu p arse p o r ella. Sin em bargo, el p aso 3 n o r e su lta n ad a fácil d e efectu ar con o tro m éto d o cualquiera. Im a gínese, p o r ejem plo, u n experim iento consistente e n e c h ar 25 cara o cru z con u n a m oneda cuya b u en a m an u fa ctu ra se pone en en tredicho. Supóngase que tra ta m o s de d ecid ir acerca d e los resu ltad o s que, en caso d e producirse, d arían lu g ar a que llam á ram o s la atención a la p erso n a que echa los ca ra o cruz ¿D escar taríam o s la hipótesis de q u e el ca ra o cruz es co rrecto si salieran m ás de 15 caras?, ¿m ás de 18?, ¿o sólo si la m ita d de los cara o cruz d ieran c a ras? ; ¿si se d ieran 10 caras consecutivas, in d e p en d ien tem ente de los dem ás resu ltad o s? La te o ría de las p ro b a bilidades nos p erm ite a p reciar el n ú m ero de ellas que existen de o b ten er cu alq u ier com binación de resultados e n el supuesto de que la m oneda fuese co rrecta. Así, pues, escogerem os aque llos resu ltad o s que, en dicho supuesto, serían p rácticam en te im probables. No se esp era en m odo alguno que el estu d ian te q u e se en fren ta p o r p rim e ra vez con la inducción estad ística com prenda en p ri m era lectu ra to d o lo que se acaba de decir acerca de los razona m ientos relativos a la verificación de las hipótesis. R econoce m os, en efecto, q ue el proceso es com plicado y uno de los que p arece n p ro p o rcio n ar a los estu d ian tes m ás dificultades que cual q u ier o tra p a rte de la estadística. De ahí que el estu d ian te deba h acer u n esfuerzo especial p a ra co m p ren d er dichos razonam ien tos buscan d o las analogías básicas con los m ism os e n tre to d as las p ru e b as estadísticas. U na vez que la lógica subyacente se haya p en e trad o a fondo, el aprendizaje d e la estad ística se sim plifica considerablem ente. Glosario Hipótesis Parámetro Población Estadística Errores de tipo I y II B ibliografía 1. Ackoff, R. L.: The Design of Social Research, University of Chicago P rp c c P.hií'fiífív 1051 c a n . 5. 2. Northrop, F. s! C.: The Logic of the Sciences and the Humanities, The Macmillan Company, Nueva York, 1947, caps. 7 y 8. 3. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons, Inc., Nueva York, 1968, cap. 13. T odos tenem os sin ninguna clase de duda u n a noción intu itiv a de lo que se en tien d e p o r probabilidad, au nque n o estem os e n con diciones de fo rm u la r del térm in o u n a definición precisa. E n el len guaje co rrien te hay cierto n ú m ero de p alab ras y frases que se em plean en fo rm a casi intercam biable con el concepto de probabilidad, tales com o posibilidades, perspectivas, ventaja, etcétera. E stos conceptos se em plean en ocasiones en cierto n ú m ero de sentidos diversos. P reguntam os, p o r ejem plo, "¿cuál es la p ro b ab ilid ad de que hoy llueva?”, refiriéndonos a un aconte cim iento singular (el llover hoy) que puede o c u rrir o no en el futu ro . El enunciado "no es pro b ab le que Jones asesin ara a su su eg ra” se p arece al an terio r, p e ro se re fiere a un acontecim iento q u e h a ten id o ya lugar y a cuyo p ro p ó sito nos falta, con todo, inform ación suficiente p a ra fo rm u la r u n a afirm ación categórica. Puede u n o re fe rirse a lo que sucederá a la larg a : "si juegas, es p ro b ab le qu e llegues a p e rd e r h a sta la cam isa”. Aquí la alusión n o se refiere a que u n o h ay a de p e rd e r la cam isa con u n solo golpe de dados, sino a lo que o c u rrirá si el experim ento se rep ite u n gran n ú m ero de veces. "Un niñ o varón, nacido en los E sta dos Unidos, de p ad res blancos nativos, vivirá p robablem ente 65 años.” S em ejante enunciado p arece re ferirse m ás al tipo gene ralizado de niño de los cu ad ro s actu ariales q u e a u n Jim m y B row n co n creto cualquiera. Es obvio, sin em bargo, que si hem os de h a b la r de la probabi lidad de m odo inteligente y, en p artic u la r, si hem os de hacer in terv en ir al m atem ático, el concepto h a de definirse con la p re cisión suficiente p a ra que todos podam os em plearlo con el m is m o sentido. P o r desgracia, sin em bargo, no es ta n sencillo' obte n e r u n a definición que satisfaga al p ro p io tiem po al m atem ático y a n u e s tra noción in tu itiv a de aquello que p o r lo re g u lar enten dem os con el térm ino. Según verem os, en efecto, el m atem ático considera n ecesario p e n sa r en térm inos de probabilidades a vriori, que en re alid ad n o pueden obtenerse em píricam ente y que no dependen de cualquier m u estreo p a rtic u la r de datos. E n las secciones que siguen, el concepto de pro b ab ilid ad se d efinirá en lenguaje m atem ático y se exam inarán algunas de sus propieda des m atem áticas m ás im p o rtan tes. Al p ro p io tiem po tratarem o s de conseguir que dicha definición y dichas propiedades m atem á ticas parezcan razonables a la luz del em pleo y la experiencia cotidianos. E n estad ística nos ocupam os en establecer generalizaciones a p ro p ó sito de u n a población com puesta p o r lo regular de u n g ran nú m ero de individuos. S em ejante población puede ser u n a población fin ita realm en te existente —como, p o r ejem plo, la p o blación de los E stados Unidos, o los varones blancos nativos de m ás de 65 años— y, p o r lo tanto, claram en te delim itable. En tal caso, tom arem os p o r lo re g u la r algún tip o de m u estra de la po blación, y el in terés se dirigirá en p rim e r térm ino a la población p o r sí m ism a (o a algún subgrupo de ella), m ás que a los indi viduos que acontecen fig u ra r en una cualquiera de las m u estras p articu lares. P ero la población puede tam bién ser una población hip o tética que im plique, digam os, u n núm ero ilim itado de expe rim en to s efectuados “en condiciones sim ilares”. P or consiguien te, al estadígrafo n o le in teresan el acontecim iento o el individuo p articu lares, a no ser en la m edida en que el acontecim iento o individuo en cuestión puedan ayudarle a o b ten er inform ación a p ro p ó sito de la población. Como q uiera que este texto es u n texto de estad ística, nos servirem os en él del térm ino probabili dad p a ra re ferim o s no a acontecim ientos p articu lares (llover hoy, Jones asesino), sino a u n gran nú m ero de acontecim ientos o a lo que o cu rre a la larga.1 ¿Cóm o podem os o b ten er probabilidad desde el pu n to de vista de acontecim ientos repetidos? E n p rim e r lugar, es m enester p en sa r en térm inos de u n experim ento ideal que se deje re p e tir un g ran nú m ero de veces "en condiciones sim ilares”. Sin duda, las condiciones cam bian en la realidad, p ero h a de ser posible im a g in ar p o r lo m enos q u e n o lo hacen. En cada uno- de dichos expe rim en to s p erfectos h an de an ticip arse todos los resultados. Así, pues, hem os de ac o stu m b ra m o s a p en sa r en térm inos de una m oneda ideal que se lanza al aire un gran núm ero de veces, en circu n stan cias idénticas, y con sólo dos resu ltad o s posibles (c ara o cru z) en cada cara o cruz. P rescindim os del hecho de que en el p roceso del lanzam iento de la m oneda real po d ría ac ab ar por g astarse de m odo irreg u lar, o que en ocasiones se pu d iera m an te n e r de canto. A prendem os a concebir u n juego de naipes p er fectam en te b arajad o , en el que ninguno de ellos tienda a pegarse a o tro, pese a que sem ejan te juego no se en c o n trará nunca en lav ida real. L lam em os todo- re su ltad o o grupo de resultados un "aconteci m ien to ”. E n este caso el acontecim iento pu ed e ser sim ple ( que no i Resulta posible tratar las probabilidades desde el punto de vista del acontecimiento singular y servirse, con todo, de las propiedades matemá ticas que se examinan en la sección siguiente (véase C8]). Sin embargo, semejante tratamiento presenta por lo menos tantas diferencias conceptua les como el que empleamos en este texto. se d eja desco m poner) o com puesto (u n a com binación de acon tecim ientos sim ples). Así, pues, el acontecim iento' A puede ser u n 6 en u n solo golpe d e d ad o s; el acontecim iento B (com pues to ) p u ed e co n sistir en los re su ltad o s 2 y 4, o 6 en u n solo lanza m iento, en ta n to que el acontecim iento C (tam b ién com puesto) puede im p licar la obtención de u n 7 en dos jugadas. P or conven1.00 - - 0.75 - O. 0.25 - 0 __l__i__i__i__i__i... i ...i__ i__I_____________ ,_______ 0 10 20 30 40 50 100 « Núm ero de pruebas Fig. IX .l. Oscilación de la proporción de éxitos aproxim ándose al lim ite de .50 ción se u tiliza el térm in o d e éxito cuando el acontecim iento con sid erad o se produce, y el de fracaso cuando n o ocurre.2 Puede e fectu arse el experim ento u n gran nú m ero de veces y obtenerse la p ro p o rció n d e las veces e n q u e o c u rre cada acontecim iento p artic u la r. N o estam os todavía p o r com pleto en condiciones de d a r u n a definición fo rm al de la prob ab ilid ad . P rim ero, en efecto, hay que ap e la r al conocim iento del le c to r acerca de qué o cu rre em pí ricam en te cu an d o u n experim ento com o el de lan za r u n a m oneda al aire se re p ite u n gran n ú m ero de veces. Supongam os que em pezam os los lanzam ientos y que a cada décim o ca ra o cruz anota m os la razón de los éxitos (digam os " c a ra s” ) al n ú m ero to tal d e los m ism os. A hora bien, los re su ltad o s obtenidos tienden a ser sem ejan tes a los que se in d ican en la fig u ra IX.1. 2 Este uso técnico de los términos éxito y fracaso no necesita ser con forme al uso general. Así, por ejemplo, el éxito puede indicar la contrac ción de la polio o la elección de un demagogo. En los 10 p rim eros lanzam ientos no esperam os p o r lo regular o b ten er exactam ente 5 caras, ni aun con u n a m oneda correcta. Es posible, en efecto, que el núm ero de caras sea 7. La próxim a serie de lanzam ientos puede contener u n a larga secuencia de cruces, de m odo que al final de 20 lanzam ientos la proporción de caras sea de .45. La serie siguiente puede d a r asim ism o m ás cruces que caras, la próxim a, ligeram ente m ás caras que cruces, y así sucesivam ente. Después de 100 lanzam ientos con u n a m o n ed a n o sesgada esperam os que la p roporción de los éxitos se sitúe alred ed o r de .5, en ta n to que después de 1 000 lanzam ientos deberíam os en co n trarn o s aú n m ás cerca de dicha cifra. Así, pues, esperam os que la razón de los éxitos al nú m ero total de las p ru e bas se establezca de m odo que cese de flu c tu a r m ucho de u n a serie de 10 lanzam ientos a o tra. D espués de 10 m il pruebas, in clusive si obtuviéram os 20 cruces sucesivas (acontecim iento ex trem ad am en te im probable), el efecto de ello sería negligente en la razón en cuestión.3 E n cam bio, si esto se h u b iera producido en la terc era y cu a rta secuencias, el efecto h a b ría sido p ro n u n ciado. P o r lo tan to, cuanto m ayor es el n ú m ero de las pruebas, ta n to m ás se va acercando1la razón a u n determ inado valor que los m atem áticos designan com o "lím ite". Si podem os concebir que el experim ento se prolongue indefinidam ente, podem os con p ro b ab ilid ad concebir tam bién que la razón alcance exactam ente el v alo r lím ite, o sea .5. P or tanto, nos vam os encontrando con la noción de "in fin ito ” y que los m atem áticos h an hallado que éste es u n concepto m anifiestam ente am biguo, será preferible p e n s a r en térm inos de u n nú m ero de p ru e b as extrem adam ente grande. * La noción de lím ite se d eja d efin ir con algo m ás de p reci sión. Decimos, en efecto, que la razón se aproxim a a u n lím ite cuando, habiendo determ in ad o previam ente qué tip o de aproxi m ación deseam os, lanzam os la m oneda u n nú m ero finito d e ve ces, h a s ta e sta r v irtu alm en te seguros que la razón o b ten id a se ap rox im a al lím ite con el grado de exactitud deseado. E n otros térm in o s: escogem os p rim ero u n núm ero m uy pequeño e, que re p resen te el grado de aproxim ación deseado. Supóngase que p o nem os e = .0001. Si el lím ite existe, h ay u n núm ero finito de lan zam ientos N tal, que podem os p rácticam en te e sta r seguros que la p ro p o rció n de éxitos o b ten id a qu ed ará en el in te rio r de ± .0001 s Obsérvese bien que no se ha pretendido que los números absolutos de caras y creces sean aproximadamente iguales, ni que, si se da inicialmente un exceso de caras, las cruces acabarán por compensarlo. Puede seguir habiendo un exceso de caras indefinidamente, pero la razón se aproximará a .5 incluso en este caso. Así, por ejemplo, si tuviéramos 35 caras y 15 cruces en los 50 primeros lanzamientos, la proporción de caras sería de .7. Un exceso de 20 caras en 100 lanzamientos (o sean 60 caras) da una pro porción de .6, en tanto que el mismo exceso en 200 lanzamientos da un valor de .55. de la v erd ad era p robabilidad.4 Además, p o r m u y pequeño que escojam os e, siem pre en co n trarem o s u n n ú m ero fin ito de lanza m ien to s p a ra el q u e ello es verdadero. P ero si n o existe u n lím i te, entonces n o re su lta rá p o r lo general posible. No es e n m o d o alguno tin a n ecesidad lógica el q u e las razones ob ten id as en dicha fo rm a se establezcan en u n v alo r lím ite. En efecto, se d e ja p o r lo m enos concebir que las razones en cuestión sigan flu ctu an d o indefinidam ente. Si esto fu e ra efectivam ente así, n o p o d ríam os h a b la r de u n a sola p ro b a b ilid ad de caras en relación con la m oneda. S in em bargo, cuando sem ejan te lím ite existe, podem os d efin ir la probabilidad com o lim ite de la razón de los éxitos al nú m ero total de las pruebas. O bien, e n fo rm a m ás ru d a , la p ro b a b ilid ad es la pro p o rció n d e los éxitos " a la larga". E n el exam en u lte rio r será conveniente h a b la r com o si pensá ram o s en térm in o s de pro b ab ilid ad es de acontecim ientos singula res. Así p o drem os, p o r ejem plo, p re g u n ta r, “¿cuál es la p ro b a bilidad de o b te n e r u n 6 en u n solo golpe de dados o u n as ro jo al sac ar u n a so la c a rta de la b a ra ja ? ” E n re alid ad , al servim os de la fra se “u n solo golpe de dados", tra ta m o s sim plem ente de evi ta r el em pleo d e u n a fraseología com plicada. Lo q u e efectiva m en te querem os d ecir es : "¿qué p roporción de veces esperam os o b ten er u n 6, a la larga, lanzando u n solo dado re ite ra d a m e n te ? ” A títu lo de conveniencia, pues, hablarem os de u n solo golpe de dados cuan d o en re alid ad queram os significar u n n ú m ero inde fin id am en te gran d e de lanzam ientos p a rtic u la re s con el m ism o dado. Antes de p ro c ed er al exam en de las p ropiedades m atem áticas de las p ro b abilidades hem os de detenernos en algunos puntos. Los experim entos de la vida real, si se rep iten , parecen efectiva m en te seguir el tip o general exam inado an te rio rm e n te y re p resen ta d o en fo rm a de diagram a en la fig u ra IX .l, o sea que nos acercam os efectivam ente co n ellos a u n lím ite que se d eja calcu lar. E sto nos conduce a h a b la r de la “ley de los pro m ed io s" y a esp e ra r que la m ayoría de las m onedas d a rá n ca ras aproxim a d am en te la m ita d de las veces o que las buenas m anos a ltern a rá n en el bridge co n las m alas. S in em bargo, h ay q u e precaverse c o n tra esa ley de los prom edios. E n efecto, algunas personas h a n in te rp re ta d o dicha ley en el sen tid o de q u e si u n a m o n ed a da 10 veces caras consecutivas, entonces lo m ás p ro b a ble es que la vez siguiente dé cruz, "a causa de la ley de los p ro m edios". S em ejan te in terp re tació n im plica u n a predicción a p ro p ó sito de u n acontecim iento singular (esto es, el re su ltad o del u n décim o lanzam iento). S egún verem os m ás adelante, sole 4 El examen de los intervalos de confianza (cap. xn) ayudará a indicar que no podemos estar nunca absolutamente seguros de que la verdadera probabilidad se halle en el interior del intervalo obtenido. m os su p o n er que lo que h a sucedido en los lanzam ientos p rece d en tes n o tien e ab so lu tam en te im p o rtan cia alguna en relación con lo q ue sigue.® E n efecto, la m o n ed a n o posee ni m em o ria ni conciencia. D esde el p u n to de vista de u n a estrateg ia inteli gente, si u n ju g a d o r p resen cia 10 caras sucesivas en diez lanza m ientos, h a ría b ien e n p re d e c ir que e n el undécim o volverá a salir cara, e n el su p u esto d e que la m o n ed a debe e s ta r sesgada. D ebería re s u lta r p erfec ta m e n te claro q u e las p ro babilidades a priori ta l com o se definen en esta sección n o pueden obte n erse exactam ente p o r m edios em píricos, au n q u e sí pueden apre ciarse. Y esto se debe n o sólo al hecho de que hem os debido im ag in ar experim entos llevados a cabo en condiciones ideales, sino tam b ién a la circu n stan cia de que ningún experim ento puede re p e tirse in d efin idam ente. S in em bargo, con u n n ú m ero sufi cien te d e p ru eb as, u n a p ro b ab ilid ad p u ed e ap reciarse con cual q u ier g rad o deseado de exactitud. L as reglas m atem áticas que se d an en la sección siguiente y todos los razonam ientos m ate m áticos q ue se h allan en la b ase de la inducción estad ística se o cu p an m ás b ie n de las probabilidades a priori que de las cla ses de p ro b ab ilid ades que pu ed en efectivam ente o b ten erse p o r el investigador.6 Así, pues, al ap licar el razonam iento estad ístico a cualquier ciencia q u e se ocupe del m u n d o real, nos en co n trarem o s e n la posición lógica d esc rita en el capítulo v m . H em os de su p o n er alguna p ro b a b ilid ad a priori p a ra p o d e r ap licar el razonam iento m atem ático . P odem os d ecir que si é sta es la p ro b a b ilid ad a priori co rrecta, entonces determ inados re su ltad o s em píricos son p ro b ab les (o im p ro b ab les). E n e sta fo rm a, A es la te o ría m a te m ática, y B los re su ltad o s em píricos anticipados, y n o existe m e dio alguno de v erificar la teo ría d irectam en te. Si B re su lta ser falso, podem os d e sc a rta r A, pero, si B es cierto, alguna o tra teo ría C que com porte pro b ab ilid ad es a priori d istin tas p u ed a acaso ex plicar tam b ién los re su ltad o s. Si querem os, pues, ev itar la fa lacia de a firm a r el consecuente, h ab rem o s de a d o p ta r p ro b ab ili dad es de las que en re alid ad sospecham os q u e son falsas, proce dien d o p o r elim inación. E n el próxim o cap ítu lo verem os ejem plos p artic u la res en los que a sí se procede. IX.2. Propiedades m atem áticas de las probabilidadesí4 A unque el lecto r tal vez no haya de volver n u n ca m ás a calcu lar p ro b ab ilid ad es, im p o rta de todos m odos que se dé cu en ta de que s Esto no puede suponerse en el caso del ser humano, hecho que hay que tener presente siempre que se tomen mediciones repetidas con personas u otros animales. Véase sec. IX.4. « En rigor, el investigador sólo puede obtener proporciones debido al he cho de que el número de pruebas o casos será siempre finito. en la base de todos los cuadros de los que h a b rá de servirse p a ra v erificar hipótesis se en cu en tra cierto núm ero de propiedades asaz sim ples de las probabilidades. En u n texto com o el p resen te no es posible p ro fu n d izar m ucho en la teo ría de éstas. El o b jeto del exam en que sigue es, pues, sim plem ente el de d a r u n a idea de cóm o operan los m atem áticos con las probabilidades al p o n er los fu n dam entos de la inducción estadística. Podem os em pezar identificando tre s propiedades m atem áticas de las probabilidades a priori. La p rim e ra de ellas apenas re q u ie re algún com entario. Como q u iera que en N p ruebas n o podem os o b ten er m enos de cero éxitos n i m ás de N , síguese que p a ra cu alquier acontecim iento A la p ro b ab ilid ad de que A o c u rra [lo que se escribe P(A)~\ ha de se r m ayor o igual a cero y m en o r o igual a 1. Así, p u es: 0 < P (A )< 1 en donde el sím bolo ^ h a de leerse com o "m enor que o igual a ”. Si P( A) = 1, el acontecim iento A o cu rrirá con toda seguridad; si P(A) = 0, en cam bio, entonces n o es posible que A tenga lugar. La regla de la adición. La segunda p ro p ied ad de las probabili dades es m ás interesante. H abida cuenta de su sencillez, to m a rem os u n caso especial de la regla de adición que puede enun ciarse com o sigue: si los acontecim ientos A y B se excluyen m u tu a m en te, la probabilidad de obtener A o B [ escrito P(A o B )] es igual a la probabilidad de A m ás la probabilidad de B, o s e a : P ( A o B ) = P( A) + P( B) ( s i A y B se excluyen m u tu am en te) (IX .1) P o r exclusión m u tu a entendem os que A y B n o pu ed en ten er lu g ar sim u ltán eam ente en el m ism o experim ento. Así, p o r ejem plo, es im posible o b ten er a la vez u n as y u n rey si se tom a una sola c a rta de u n a b a ra ja corriente. P o r consiguiente, aplicando la re gla de la adición a u n a b a ra ja hipotéticam ente p erfec ta te n e m o s : P ( A o K ) r= P( A) + P ( K ) = 1/13 + 1/13 = 2/13 P or supuesto, pudim os h a b e r obtenido el m ism o re su ltad o te niendo en cu enta que hay cu a tro ases y cuatro reyes en la b a ra ja y, con iguales probabilidades de selección, la p ro babilidad de ob ten er el u n o o el o tro de dichos naipes sería de 8/52, o 2/13. Y en form a análoga, la p ro b ab ilid ad de sacar ya sea u n 5 o u n 6 en un sim ple golpe de dados sería de 1/6 + 1 /6 = 1/3. La regla de la adición puede h acerse extensiva a m ás de dos casos. Así, p o r ejem plo, si A, B, C . . . , son todos ellos m u tu a m en te exclusivos, entonces tenem os: P ( A o B o C ........ o K ) = P( A) + P ( B ) + P ( C ) . . . . . + P ( K ) (IX .2) Si tenem os u n a población com puesta de 100 p erso n as de la clase su p erio r, 200 de la clase su p erio r a la m edia, 400 de la in ferio r a la m edia y 300 de la inferior, p o r ejem plo, la p ro b ab ilid ad de sac ar u n a p erso n a de la clase superior, o u n a de la clase supe rio r a la m edia, o u n a de la clase in ferio r a la m edia en u n a sola vez se rá : 100 200 400 700 1 000 + 1 000 + 1 000 ~ 1 000 _ siem p re que cada p erso n a tenga las m ism as probabilidades de ser seleccionada. Como q u iera que las probabilidades son esencialm ente p ro p o r ciones, síguese que si tenem os todos los acontecim ientos posibles, cada u n o de ellos excluyendo a los dem ás, la sum a de dichos eventos será la unidad. Así, p o r ejem plo, si sum am os las p ro b a bilid ad es de sacar u n trébol, u n a espada, u n corazón o u n dia m ante, hem os de o b ten er u n a sum a de 1. La probabilidad^ de que el evento A no o c u rra es igual a la sum a de las pro b ab ilid a des de todos los eventos (m u tu am en te exclusivos) re sta n te s. P or consiguiente, si su straem os P( A) de la unidad, tenem os la p ro b a b ilid ad de no o b ten er A, y a que si 1 = P(A ) + P ( B ) + P ( C ) + ........ + P ( K ) , e n to n c e s : 1 — P( A) — P ( B ) + P(C) + .........+ P( K) . La p ro b ab ilid ad de n o sac ar u n a reina, p o r ejemplo', es de 1 12 1 ------o — . 13 13 H a sta aq u í sólo nos hem os ocupado de eventos que se excluyen m u tu am en te. Una fo rm a m ás general de la regla d e la adición p u ed e enunciarse com o s ig u e : si A y B son dos acontecim ientos cualesquiera (n o n ecesariam ente m u tu am en te exclusivos), en tonces : P(AoB)=P(A)+P(B)-P(A& B) (IX .3) en donde P ( A & B ) re p re se n ta la posibilidad de o b ten er a la vez A y B .7 E n el caso general, pues, la p ro b ab ilid ad de o b ten er A o i La partícula o tal como la emplean los matemáticos incluye la posibili dad de que A y B se verifiquen a la vez. Por consiguiente la expresión "A o B" significa "A y B, y A o B ”. En orden a la anotación por teoría de grupos “A o B" significa lo mismo que A [J B en tanto que A y B significa lo mismo que A f] B. B se obtiene adicionando p rim ero la p ro b ab ilid ad de A a la p ro babilidad de B y sustrayendo luego la p ro b ab ilid ad de obtener sim ultáneam ente A y B. La razón de su stra e r P ( A & B ) está en que la p ro b ab ilidad de esta ocurrencia c o n ju n ta se h a contado dos veces: u n a en P( A) y o tra en P( B) . La fig u ra IX.2 puede ay u d ar a co m p ren d er p o r qué es así. En efecto, en la figura IX.2, las probabilidades de A y B se han rep resen tad o p o r áreas proporcionales a sus respectivos va- Fig. IX.2. R epresentación geom étrica de probabilidades, con áreas proporcionales a P(A ), P (B ) y P (A & B ) lores num éricos, tom ándose la superficie del rectángulo com o unidad. E n el caso general h a b rá p o r lo re g u la r cierto cruza m iento, es d ec ir: A y B n o serán m u tu am en te exclusivos. La pro b ab ilid ad de o b ten er ya sea A o B (o am bos) e stá represen tad a p o r el to tal del á rea ac h u rad a en cruzado. Y com o quiera que el á rea a c h u rad a m ás pequeña se h a b rá contado dos veces, u n a en A y o tra en B, de ahí la necesidad de s u s tra e r P ( A & B ) p a ra o b ten er el á rea to tal ac h u rad a en cruz.8 Tom em os u n ejem plo num érico. Supongam os q u e A es el even to en que se obtenga u n a rein a en u n a sola extracción, y supon gam os que E es el evento de que la c a rta sea u n a espada. E n tonces A y B n o son m u tu am en te exclusivos ya que es posible o b ten er am bas cosas sim ultáneam ente (o sea la re in a de espadas). P o r consiguiente: 8 El lector ha de convencerse él mismo de que, para obtener la probabi lidad de .4 o Tí, pero no ambas, habremos de sustraer de 2 P(A & B) de P{A) + P(B). Debería también tratar de extender la forma general de la regla de adición trazando una gráfica semejante para los eventos A, B y C. (Véase ejercicio 4b). P ( A o B ) = P( A) + P ( B ) - P ( A & B ) = 4/52 + 13/52 — 1/52 = 16/52 — 4/13. E ste resu ltad o puede verificarse intuitivam ente teniendo en cuen ta q ue A o B p o d rían o b ten erse extrayendo cualquier esp ad a o u n a de las tre s reinas re sta n te s, o sea u n a de las 16 cartas con sideradas. Si h ubiéram os adicionado sim plem ente P( A) y P( B) , la re in a de espadas se h a b ría contado dos veces. E n la sección siguiente verem os Una regla general p a ra el cálculo de P ( A & B ) , ya q ue n o siem pre re su lta ta n sencillo o b ten er dicha cantidad. O bsérvese que si los dos eventos son m u tu am en te exclusivos no h a b rá cruzam iento, y P { A & B ) será igual a cero. P or lo tanto, la regla general reconduce, en esta ocasión, al caso especial d e la regla de la adición exam inada an terio rm en te. La regla de la m ultiplicación. La te rc e ra pro p ied ad de las p ro babilidades nos p e rm ite o b ten er la p ro b ab ilid ad de que dos (o m ás) eventos o c u rran co n ju n tam en te. P odríam os en u n ciar esta p ro p ied ad com o sigue: si A _y B son dos eventos cualesquiera, la probabilidad d e que se produzcan am bos es el producto de la probabilidad d e que se produzca uno de ellos por la probabi lidad condicional d e que se produzca el otro, dado que el p rim er even to haya ocurrido. O en sím b o lo s: P ( A & B ) = P ( A ) P ( B |A ) = P (B )P (A |B ) (IX .4) Los sím bolos P(A | B ) y P (B | A) re p re se n ta n lo q u e se designa com o p ro b abilidades condicionales. P(A | B ) debería leerse com o "la p ro b ab ilid ad de A, dad o que B haya o cu rrid o ”. La expresión d e probabilidad condicional significa que adm itim os que la p ro b ab ilid ad de A p u ed e depender de que B o c u rra o no. E n otros té rm in o s : la p ro b a b ilid ad de A dado B puede d iferir de la p ro b a bilid ad de A dado que B no haya ocurrido. Así, p o r ejem plo, si B es el evento de que u n individuo conduce el autom óvil te m era riam en te y A el evento de que se en c u en tre en u n accidente d e trá n sito , suponem os que P ( A |B ) es m ay o r que P (A ), ya que el co n d u cir tem erariam en te es causa de accidentes. Antes de p ro ced er a ilu s tra r la regla de la m ultiplicación, p e r m ítasenos in tro d u cir u n nuevo concepto im p o rtan te. Se dice de dos eventos A y B que son estadísticam ente independientes si, y sólo si, P(A \ B ) = P ( A ) ; y P ( B |A ) = P (B ). Así, pues, si la p ro b ab ilid ad de que A o cu rra es la m ism a, independientem ente d e si B h a o cu rrid o o no, y si lo m ism o es cierto resp ecto de B, entonces los dos eventos son independientes u n o de otro. E sto significa, en lenguaje llano, que el conocim iento de que u n o de los acontecim ientos se h a p roducido n o ayuda a p re d ecir el otro. P o r ejem p lo : la p ro b ab ilid ad de sac ar u n as, dado que la c a rta sea ro ja, es de 2/26, ya que hay dos ases ro jo s y u n to tal de 26 ca rtas ro jas. É sta es num éricam ente la m ism a que la pro b ab i lidad no condicional de sac ar u n as (4/52). P o r lo tanto, el color y el valor de la c a rta son estad ísticam en te independientes. Y en fo rm a análoga, el hecho d e sab e r que u n a c a rta es u n as no ayuda a ad iv inar su color. Obsérvese, de paso, q u e los eventos m u tu am en te exclusivos no son independientes. E n efecto, si A y B son m u tu am en te exclusivos, hem os de te n e r siem pre P(A | B) = P(B | ¿4.) = 0. ¿P o r qué? E n el caso en que A y B sean estad ísticam en te independientes, tenem os P(B | A) = P(B), y la regla de la m ultiplicación asum e la fo rm a sim ple d e: P(A& B) = P(A)P(B) (si A y B son independientes) P o r lo re g u la r encontrarem os que este caso especial de m ultipli cación es de em pleo m ucho m ás fácil que la regla general. Vamos a ilu s tra r p rim ero la regla de m ultiplicación en los casos especiales en que A y B son estad ísticam en te independien tes. P o r lo re g u la r pensam os que las repeticiones de u n experi m en to son in d ependientes u n a de o tra. Así, p o r ejem plo, si lan zam os la m oneda al aire u n a vez, suponem os q u e el resultado no afecta lo q u e p u ed a su ced er en el próxim o lanzam iento; la p ro b ab ilid ad de "cara " perm an ece co n stan te de u n lanzam iento al otro. E n efecto, el sab e r que salió ca ra no nos ayuda a p red ecir el resu ltad o del segundo lanzam iento.9 P or consiguiente, sirvién donos de la regla de m ultiplicación, podem os calcular la p ro b a b ilidad de sac ar caras en dos lanzam ientos sucesivos m ultipli cando e n tre si las pro b ab ilid ad es de o b ten er c a ra en cualquier p ru e b a dada. E n el caso de u n a m oneda n o sesgada, la p ro b a b ilidad de dos caras sucesivas será de (1 /2 )(1 /2 ) = 1/4. Y en fo rm a análoga, si A es el evento de sac ar u n a c a rta ro ja, y B el evento co n sisten te en o b ten er u n as, entonces la p ro b ab ilid ad de sac ar u n as ro jo P( A&B) se rá : P(A &B) = P(A)P(B) = 1/2 x 1/13 = 1/26. Suponemos que la verdadera probabilidad es conocida y Que nuestra tarea consiste en predecir el resultado de cualquier prueba particular. Es cierto, por supuesto, que sin dicho conocimiento la probabilidad podría acaso estimarse utilizando los resultados de pruebas anteriores y sirvién dose luego de dicha estimación para predecir el futuro. Esto no es lo que entendemos cuando decimos que en el caso de independencia el conocimien to de un evento no nos ayuda a anticipar el otro. Así, por ejemplo, sabiendo que han salido 20 caras consecutivas, nos veríamos llevados a predecir una moneda sesgada, esto es, que la probabilidad verdadera de sacar cara es algún valor superior a .5. Y esto nos llevaría a su vez a predecir cara en ocasion del vigésimo primer lanzamiento. Sin embargo, el supuesto es de que, si existe, el sesgo es ya conocido. Por lo tanto, si se sabe que p es .8, el conocimiento^ de 20 caras sucesivas no nos ayudará a predecir el resultado del lanzamiento siguiente. Tom em os dos ejem plos en los que n o se da independencia. E l p rim ero de ellos co m p o rta u n a situación en la que dos varia bles están relacionadas de ta l m odo que el conocim iento dé u n a ayuda a p re d ecir la o tra. Supóngase que tenem os los siguientes d ato s to talm en te hip o tético s: Carácter Morenas Rubias Pelirrojas Total Emprendedor Tímido 300 600 600 100 300 100 1200 800 Total 900 700 400 2 000 Si d e dicha población, arreg lad a p o r u n a perso n a ajena, se saca al a z a r 10 u n a m uchacha, ¿cuál es la p ro babilidad de que sea u n a p elirro ja em prendedora? Como q u iera q u e en el to tal de 2 m il m uchachas hay 300 p elirro jas em prendedoras, la p ro b a b ilidad de sac ar u n a de dicho g rupo p a rtic u la r es, obviam ente, 300/1 200, o sea .15. E sta m ism a pro b ab ilid ad se o b ten d rá ahora sirviéndose de la regla de m ultiplicación. Supongam os que A es el evento consistente en o b ten er una p elirro ja, y B el evento de que el c a rá c te r es em prendedor. Como q u iera que hay 400 p elirro ja s en conjunto, P( A) = 4 0 0 /2 000, o sea .2. Sin em bargo, e n tre estas 1 200 m uchachas em prendedoras hay 300 p elirro jas. P or lo tanto, si tenem os conocim iento de que el c a rá c te r es em prendedor, la pro b ab ilid ad de que la m uchacha sea p elirro ja es de 300/1 200, o sea .25. E n fo rm a análoga, la p ro b ab ilid ad de o b te n e r u n a m uchacha em prendedora es de 1 200/2 000, o sea .6, pero, si se sabe que el d ato es el de p elirro ja, la pro b ab ilid ad de que la m uchacha sea em prendedora es de 300/400, o sea .75. Tenem os, pu es: P( A) = .2 P ( A \ B ) ~ . 25 P (B ) = .6 P( B\ A) = .75 Sirviéndonos de la regla d e m ultiplicación llegam os a la siguien te p ro b ab ilid ad de o b ten er u n a p e lirro ja em p ren d ed o ra: P ( A & B ) = P ( A ) P ( B ) A ) = (.2) (.75) = .15 = P (B )P (A |B ) = (.6) (.25) = .15 P a ra el segundo ejem plo, supongam os que hem os de calcular la p ro b ab ilid ad de sac ar de u n a b a ra ja co rrien te dos ases en dos io La muestra al azar se definirá más adelante en el presente capítulo. En una muestra al azar, todos los individuos y todas las combinaciones de individuos tienen las mismas probabilidades de ser seleccionados. extracciones. Pongam os que A es el hecho de o b ten er u n as en la p rim era extracción y B el de que saquem os u n as en la segunda extracción. ¿Son A y B independientes? E sto depende de si vol vem os o n o a p o n e r el as en la b a ra ja después de la p rim era extracción y b a ra ja m o s de nuevo an tes de la segunda. Si proce dem os con su stitución, las dos extracciones serán independien tes, ya que la p ro b ab ilid ad de o b ten er u n as es c o n stan te d e u n a extracción a la p ró x im a y que el re su ltad o de la p rim e ra no p u ed e afe c ta r en m odo alguno el d e la segunda. E n este caso, P (A & B ) = P( A ) P ( B ) = (1 /1 3 )(1 /1 3 ) = 1/169. Supongam os ah o ra que procedem os sin reposición, esto es, que n o volvem os a co locar la p rim e ra c a rta en la b a ra ja . Si aconte ciera que sacáram os u n as en la p rim e ra extracción, entonces la p ro b ab ilid ad de o b ten er o tro sería de 3/51, ya que sólo h ab ría tres ases en las 51 ca rtas re sta n te s. P o r o tra p a rte , si n o sacá ram os u n as en la p rim e ra selección, la p ro b a b ilid ad d e o bte n erlo en la segunda sería de 4/51. P o r consiguiente, en este caso no tenem os in d ependencia y h ab ríam o s de servirnos de las p ro babilidades condicionales p a ra calcu lar P( A &l B) . Así: P( A & B ) = P ( A ) P ( B \ A ) = 4/52 X 3/51 = 1/221. Conviene a d v e rtir que la reg la d e m ultiplicación q u e hem os exam inado p o d ría extenderse igualm ente a m ás d e dos eventos. Así, si A, B y C son todos ellos independientes uno de otro: P ( A & B & C ) = P( A) P( B) P( C) P o r lo q ue se re fiere a las probabilidades condicionales, sus principios p u ed en ap licarse fácilm ente a ciertos casos sencillos. Así, p o r ejem plo, si hu b iéram o s de sac ar c u a tro ases co n reposi ción, po d ríam o s calcular la pro b ab ilid ad d e o b ten erlo s com o sigue: P (4 ases) = — ----- ------ - ----- L = ___ l___ 52 51 50 49 270 725 Si hay tre s acontecim ientos A, B y C que n o son m u tu am en te independientes, p o d rá o b serv arse la p ro b ab ilid ad d e su ocu rren cia c o n ju n ta con la siguiente fó rm u la : P ( A & B & C ) = P(A)P(B\A)P(C\A&B) en la que P { C \ A & B ) se re fiere a la p ro b ab ilid ad de C, ya que ta n to A com o B h a n ocurrido. Podem os u tilizar p o r supuesto o tras fó rm u las sim ilares, colocando e n o tro o rd e n las posiciones de A, B y C. S upongam os q u e tenem os la población siguiente: Actitud Blancos No blancos Republi Demó canos cratas Republi Demó canos cratas Total A favor del aumento de la asistencia social En contra del aumento 50 350 100 200 25 25 225 25 400 600 Total: 400 300 50 250 1000 Si A es el caso en que sacam os u n blanco, B aquel en que obte nem os u n republicano, y C la ocasión en q u e la perso n a está a fav o r del au m en to en la asistencia pública, y dado que sólo 50 re publicanos blancos están a favor de la asistencia, tendrem os P( A & B & C) = 50/1 000 = .05. E n el p ro p io cu ad ro vem os asim ism o que P( A) = 700/1 000; P( B\ A) — 400/700; y que P (C |A & B ) = 50/400. La ú ltim a d e éstas cifras re s u lta del hecho de que de e n tre las 400 personas que son a la vez A y B (rep u blicanos y blancos) sólo 50 apoyan la asis tencia. A plicando la regla de m u ltip licar obtendrem os el re su ltad o : P( A & B & C) = P( A) P( B\ A) P( C\ A & B ) 700 400 50 50 = ----------------------- = ----------= .05 1000 700 400 1 000 P a ra v erificarlo p o d ríam o s ap licar la siguiente fó rm u la: P(A&B&C)-P{C)P(B\C)P(A\B & C) 400 75 50 50 = — -------------------- = ----------= .05 1000 400 75 1 000 El concepto de acontecim ientos estad ísticam en te independien tes está en estrecha relación con el de la independencia e n tre dos (o m á s) variables, y será exam inado con m ayor detención en p osteriores capítulos. Ya hem os utilizado el ejem plo de la b a ra ja , pues ésta tiene la p ro p ied ad de que los valores faciales y la secuencia son indepen dientes, lo que supone que el conocer u no de los dos no ayuda p a ra p red ecir el otro. T anto en el ejem plo relativo al color del cabello de la m uchacha con la que se va a salir, y a su conducta, y aquel en que se relacionan e n tre sí la raza, la preferencia polí tica y la a c titu d an te la asistencia pública, consideram os necesa rio h acer u so de las probabilidades condicionadas p a ra lograr resu ltad o s correctos. E n estos casos afirm am os que las varia bles afectadas no son independientes, o que están correlaciona das. P ara h acerlo m ás sencillo considerem os el ejem plo de las m uchachas. Supongam os que exactam ente el m ism o p o rcen taje (60 p o r 100) de rubias, m orenas y p elirro jas fuesen em prendedo ras, en cuyo caso el conocim iento del color del cabello carecería de valor, en la predicción de la conducta. Si conservam os los m ism os totales m arginales, los resultados p asa rían a s e r: Rasgo Morenas Rubias Pelirrojas Total Emprende doras Tímidas Total 540 360 900 420 280 700 240 160 400 1200 800 2 000 Debe co m p robarse en p rim e r lu g ar que en el caso de estos datos h ipotéticos n o hay necesidad de em plear probabilidades condicionadas. O bsérvese adem ás que la p ro b ab ilid ad (o p ro p o rció n ) correspondiente a cada casilla del cu ad ro es igual al pro d u cto de las dos probabilidades en lo s m árgenes correspon dientes. Si p o r ejem plo exam inam os el cu ad ro su p erio r izquierdo verem os que la p ro b ab ilid ad 540/2 000 = .27, es ju stam en te el p ro d u c to de las probabilidades que corresponden a la p rim era colum na m arginal (es d ec ir: 900/2 000 = .45) y la p rim era fila m arginal (o se a : 1 200/2 000 = .6). Lo m ism o es cierto p a ra cad a u no de los re sta n te s cuadros. No im p o rta cu á n ta s ocasiones p u ed an d isponerse las categorías de dos variables en u n a clasi ficación cruzad a que cuente con e s ta propiedad, direm os que las variables son estad ísticam en te independientes e n tre sí. En pos terio res capítulos llevarem os a cabo p ru e b as estadísticas re la ti vas ta n to a la independencia com o a las m edidas de dependencia b asadas en esta sencillísim a idea. * N o ta acerca del teorem a de Bayes. Dado que P (A & B ) — P ( A) P( B\ A) podem os resolver la p ro b ab ilid ad condicional, obte niendo P(A&B) 1 P( A) _P(B)P(A\B) P( A) P ero P( A) e n el denom inador p u ed e se r descom puesto en los dos térm in o s P( B ) P ( A \ B ) + P( B) P( A\ B) , ya que B y B (n o B ) son posibilidades m u tu am en te exclusivas y exhaustivas. E sto nos lleva a la ecuación. P( B) P( A\ B) P( B\ A) P(B)P(A\B) + P(B)P(A\B) ecuación conocida com o teo rem a de Bayes. E ste teo rem a puede se r generalizado p a ra diversas alternativas B lt B 2, . . . , B k, en ta n to estas altern ativ as sean m u tu am en te exclusivas y exhaustik vas, de m odo que 2 ? (£ » ) = 1. La p ro b ab ilid ad de que u n B u i —1 dado, sup u esto que A h a ocurrido, puede escrib irse a s í : P( Bt \A) PjB^PjAlB^ S PÍBJPiAlBO i=l E s posible desde luego ap licar el teo rem a de Bayes siem pre que se nos den todas las probabilidades condicionales e incondicio nales, p e ro estas aplicaciones n o son especialm ente útiles. Puede sin em bargo ser ap licado tam b ién en casos en que las "p ro b ab i lidades psicológicas” hayan reem plazado los conceptos de fre cuencia relativa. H ays [5 ] previene c o n tra este em pleo. Las aplicaciones d irectas del concepto bayesiano e n relación con la e stad ística e stá n a ú n relativam ente poco p ro b ad as. P arece sin em bargo aconsejable su g erir m étodos p a ra su em pleo. Conside rem o s en p rim e r lu g ar u n p ro b lem a m uy sencillo. Supongam os q ue u n individuo escoge a capricho u n a de dos u rn a s, y a con tin u ació n selecciona a capricho u n a bola de la u rn a que había elegido. La p rim e ra de las u rn a s contiene u n a m ita d de bolas b lan cas y o tra m ita d negras, en ta n to que la segunda contiene dos tercios de bolas blancas y u n tercio de bolas negras. Sabem os que el in dividuo selecciona u n a bola blanca, y desea asig n ar u n a p ro b a b ilid ad al hecho de que h a seleccionado, digam os, la p rim e r a u rn a . O bsérvese q u e en este caso se tr a ta de u n a especie de "p ro b ab ilid ad in v ersa”, p a rtic u la rm e n te a p ro p ia d a al concepto d e p ro b ab ilid ad es e n el que se refleja el estad o de n u estro s co n ocim ientos. P uede decirse que el individuo seleccionó o n o se leccionó la p rim e ra u rn a , siendo las respectivas probabilidades 1 a 0. P ero si hu b iéram os de h ac er u n a apuesta, con base en el conocim iento que tenem os de que sacó u n a bola blanca, ¿qué v e n ta ja estaríam o s dispuestos a d a r a favor d e que escogiera la p rim e ra u rn a ? É sta es ciertam en te u n a fo rm a razonable de p la n te a r el problem a. Si denom inam os A al acontecim iento de la selección de u n a bola blanca, B al de q u e fu e seleccionada la p rim e ra u rn a, y B al acontecim iento de que fue seleccionada la segunda urn a, obten d rem o s, al ap lica r el teo rem a de Bayes P ( B |¿ ) = ________ P ( B ) P ( A \ B ) + P( B ) P ( A \ B ) (1 /2 )(1 /2 ) 1/4 3 ( l/2 ) ( 1/2) + (1 /2 ) (2 /3 ) 1 / 4 + 1/3 7 re su ltad o q u e n o h a b ría sido posible p re d ecir con sólo u sa r argu m entos de sen tid o com ún. O bsérvese que p u esto que las dos u r nas fu ero n seleccionadas con las m ism as probabilidades, ten d re m os P ( B ) — P ( B ) = .5, lo que h a b ría p erm itid o sim plificar la fó rm u la de Bayes. C onsiderem os a continuación u n a clase de p roblem a, p er se m uy alejad o de la estadística, p e ro que es razonablem ente realista desde el p u n to de vista de las probabilidades psicológicas im plí citas en la fa lta de conocim ientos, p o r p a r te de u n observador, en relación con las frecuencias relativas u o tra s consideraciones que p u d iera n se r usadas p a ra o b ten er probabilidades a priori. Supongam os que sabem os que u n g rupo de acción cuenta con c u a tro m edios alternativos, con costos y probabilidades de éxito diferentes. A dm itam os que u n observador, basándose en su apre ciación de los costos relativos de los procedim ientos alternativos, definidos com o B lt B 2, Bz, B it les asigna las probabilidades sub jetivas .4, .3, .2 y .1, respectivam ente. Supongam os que calcula las posibilidades de éxito p a ra los m edios alternativos com o .3, .5, .6 y .9, respectivam ente. Averigua que el g ru p o h a tenido éxito en su acción, p e ro no puede d eterm in a r cuál de los m edios fue el utilizado. ¿Cóm o p o d rá v alo ra r de nuevo su estim ación origi n al de las probabilidades de cada uno de los procedim ientos, sabiendo q ue el éxito (A) se h a producido? A plicando la form a m ás generalizada del teo rem a de Bayes p a ra las p rim eras m e días ( B j), obtenem os: P (B i|A ) = P ÍB J P jA lB J I P iB J P iA lB j (•4)(.3) .12 (.4 )(.3) + (.3)(.5) + (.2) (.6) + ( .l) ( .9 ) .48 _ • = .25 De esta fo rm a, apoyándose en este conocim iento adicional, p o d rá el ob servador asignar al p rim e r m étodo la probabilidad su b jetiv a de .25. U tilizando cálculos sim ilares asignaría a los re sta n te s m étodos las siguientes probabilidades subjetivas : .3125, .25 y .1875, respectivam ente. Es m en este r in tro d u cir u n a com plicación m ás. H a sta aquí he m os escogido problem as m uy sencillos, que casi h ab ría n podido resolverse intuitivam ente. N o hace fa lta decir que la m ayoría de los problem as de probabilidades son m ucho m ás com plejos que los que se acaban de exam inar. Con o b jeto de o p e ra r con p roblem as u n poco m ás com plicados, es necesario to m ar en cu en ta el orden en que los acontecim ientos pueden producirse. Supóngase, p o r ejem plo, que querem os h a lla r la probabilidad d e o b ten er u n as, u n rey y u n a reina en tre s extracciones con reposición. Podem os h a lla r la probabilidad de sac ar un as en la p rim e ra extracción, u n rey en la segunda y u n a rein a en la te r cera. E sta pro b abilidad sería de (1/13)®. P ero esto re p resen ta la p ro b ab ilid ad d e o b te n e r un as seguido d e u n rey seguido d e una reina. P ero hay o tras posibilidades de o b ten er u n as, u n rey y u n a rein a e n tre s extracciones si no nos im p o rta el orden de su cesión. E n realidad, estos naipes po d rían o b ten erse d e las seis siguientes m a n e ra s : ARR', A R R , RAR', R R ’A, R ’AR, R'RA. Puede verse q u e cad a u n a de dichas posibilidades p re se n ta las m ism as probabilidades. P or lo tan to , si nos in tere sa la probabilidad de sac ar dichas cartas en un orden determ inado cualquiera, pode m os ad icio n ar sus probabilidades separadas (ya que son m u tu a m en te exclusivas), con lo que obtenem os 6(1/13)®. E n esta form a, sirviéndonos de la regla de m ultiplicación, he m os re ferid o el acontecim iento A al p rim e r resultado, B al segun do, y así sucesivam ente. E n otros térm in o s: hem os tom ado en cu en ta el orden, en ta n to que p o r lo re g u la r estam os m ás in te resados en o b ten er u n a d eterm in ad a serie de resultados. Pode m os q u e re r sab er la p ro b ab ilid ad de cu a tro ases en u n a m ano de bridge o de o b ten er u n determ inado p o rc en taje de negros en u n a m u estra, in d ependientem ente del ord en de la extracción. Al calcu lar pro b ab ilid ades de esta clase, será por lo regular m ás sen cillo d eterm in a r p rim ero la probabilidad de cualquier orden dado de resultados, y luego, si todos los dem ás órdenes son igualm ente probables, podem os m u ltip licar sim plem ente el nú m ero d e los ó rdenes posibles p o r la probabilidad de que o cu rra u n o cualquie r a d eterm in ad o de ellos. O bsérvese q u e al p ro c ed er así nos ser vimos ta n to de la regla de m ultiplicación com o de la de adición. E x isten fó rm u las concretas que p erm iten calcular exactam ente cuántos sean los órdenes posibles en u n problem a determ inado. E n las ocasiones en q u e tenem os N diferentes acontecim ientos q u e o c u rren en u n ord en determ inado, nos referim os a ello com o u n a p erm u ta de dichos acontecim ientos. E n las ocasiones en que el ord en carece d e interés, denom inarem os com binación a la agrupación de acontecim ientos. P o r ejem p lo : en el caso de la com binación sim ple (A , R , R' ), h a b rá seis ordenam ientos dife ren tes. O bservem os cóm o pu ed en obtenerse fórm ulas p a ra d eter m in a r el nú m ero de p erm utaciones en casos sencillos. Com encem os con u n a situación en q u e todos los acontecim ien tos N son distintos. ¿De cu án tas m an eras pu ed en se r ord en a dos? E stá claro que si consideram os N posiciones ordinales (p o r ejem p lo : N sillas dispuestas en fila), la p rim e ra de aquéllas po d rá ser ocu p ada p o r cu alq u iera de los objetos o acontecim ientos. H abiendo llenado esta posición, podrem os h ac er lo m ism o con la segunda, utilizando cualq u iera de los N —1 acontecim ientos re sta n te s, la te rc e ra con u n o de los N —2, etcétera. C uando llegue m os a la ú ltim a posición sólo nos re sta u n a posibilidad. H ab rá pues: N ( N - l ) ( N - 2 ) ... (3 )(2 )(1 ) = N \ ó rdenes p o sib les; N I es la expresión del largo pro d u cto de la p a rte izq u ierda de la igualdad, y se le denom in a "facto rial N". Supongam os p o r ejem plo que tenem os 13 ca rtas, u n a de cada valor. Las volvem os de c a ra u n a p o r una. ¿C uántas son las di fe ren tes p erm u tacio n es p osibles? La p rim e ra c a rta p u ed e ten er u n o cu alq u iera de los tre c e valores. Como q u ie ra que esta c a rta y a h a sido descubierta, la segunda p o d rá te n e r u n o cualquiera de los doce valores re sta n te s, siendo p o r ta n to 13 x 12 las solucio n es posibles p a ra las dos p rim e ra s cartas. C ontinuando ad elan te con el m o n tó n de ca rtas determ inarem os q u e h a b r á : (1 3 )(1 2)(11)(10) . . . (3 )(2 )(1 ) = 13! = 6 227 020 800 pro ced im ien tos diferentes p a ra o rd e n a r las tre c e cartas. Supongam os a continuación que los acontecim ientos n o son todos d iferentes. C ontam os de nuevo con trec e cartas, p ero dos d e ellas p u ed en se r ases, y n o distinguirem os e n tre los diferentes ó rd enes, re su ltan d o así in d ifere n te el orden en que re su lten se leccionados los dos ases. Supongam os que h an sid o escogidos e n las posiciones q u in ta y undécim a. Si h u b iera n sido distintos en tre sí, y en tal caso denom inam os asj y as2, p a ra cada d istin ta p e r m u tació n en q u e el asx ap a rec ie ra an tes que el as2, h a b ría o tra p erm u tació n id én tica en la q u e el as2 p re ced e ría al asx. Vemos así que cuando n o podem os d istin g u ir e n tre estos dos ases, hay sólo la m ita d de p erm u ta s en relación con el caso de que todos los acontecim ientos sean distintos. P or ello el n ú m ero to tal de p erm u ta s en este caso será N ' l / 2 ! = Nl / 2 . Supongam os q u e los ases h u b iera n sido tre s en vez de dos. Si se les d en o m inase a s1( as2 y as3, observaríam os q u e h a b ría habido 3! = 6 p e rm u ta s e n tre dichos ases, im posibles d e distinguir. El n ú m ero to tal de p erm u ta s de las trec e c a rta s será 13 ! / 3 ! E n ge neral, si h ay N objetos, tres de los cuales no pueden se r distin guidos de los dem ás, h a b rá N I / 3! P uede generalizarse fácilm ente éste razonam iento, am pliándolo a m ás de u n grupo de objetos no distintos. Supongam os que n u estras trece ca rtas contienen tres ases y cu atro reyes, siendo distin tas las seis cartas restantes. Como q u iera que los ases, caso de se r diferenciados, pueden ser ordenados de 3! form as, y los cuatro reyes en 4! form as, divi direm os 13! en tre 3! 4! p a ra llegar al n ú m ero de p erm u tas verda d eram en te inconfundibles. La regla general re su lta ya obvia. Si tenem os N acontecim ien tos subdivididos de ta l m an era que el p rim e r grupo contenga rx elem entos no distinguibles, el segundo contenga r2 de dichos ele m en to s y, en general, el grupo i-ésímo contiene de los m ism os, tendrem os u n to tal k de tales grupos, todos distinguibles en tre ello s; el n ú m ero to tal de p erm u tas será N l / r 1 \r2 l . . . rk \ P ro poniendo o tro ejem plo: si hay 25 niños, 6 de los cuales tienen 3 años, 8 de ellos 4 años, o tro s 9, 5 años, contando con u n o de 6 y o tro de 7 años, h a b rá 25 !/6!8 !9 !1 !1 ! p erm u ta s e n tre dichos niños, si solam ente se les diferencia p o r sus edades. La regla general p a ra d eterm in a r el n ú m ero de p erm u tas de acontecim ientos, n o todos los cuales son distintos, p re sen ta un caso especial m uy im p o rtan te, en aquellas ocasiones en que sólo hay dos clases de acontecim ientos (p o r ejem p lo : éxitos y fraca so s). Si hay N acontecim ientos, r de los cuales son éxitos, y N —r fracasos, siendo los éxitos n o distinguibles e n tre ellos m ism os y lo m ism o ocu rre con los fracasos, la regla general p a ra lo g rar el n ú m ero de p erm u ta s se red u ce a N \ / r \ { N —r ) ! Si p o r ejem plo lanzam os 10 veces u n a m oneda y obtenem os 6 caras, el núm ero de disposiciones posibles de caras y cruces será 10!/6!4! = 210. E n el capítulo siguiente podrem os u tiliza r am pliam ente este caso especial cuando estudiem os la distribución binom ial. * P uede llegar a re s u lta r tedioso el tra b a ja r con factoriales sin re c u rrir a sim plificaciones del cálculo. P or fortu n a, al tra b a ja r con razones e n tre factoriales, re su lta posible llevar a cabo una ca n tid a d considerable de cancelaciones, com o en el caso del ejem p lo an terio r, en el que e stá im plicada la razón 10!/6!4! Los siguientes son los valores num éricos de los factoriales d e 1 a 2 0 : 1! = 1 2! — 2 3! = 6 4! = 24 51 = 120 6! = 720 7! = 5 040 8! = 40 320 9! = 362 880 10! = 3 628 800 11! = 3.992 X 10* 12! =4.790 x 10® 13! = 6.227 X 10» 14! = 8.718 x 10» 15! = 1.308 x l 0 « 16! = 2.092 x 1013 17! = 3.557 x lO 1* 18! = 6.402 x 10« 19! = 1.216 X 101* 20! =2.433 X ÍO1» P a ra valo res m ás elevados de N re su lta posible p re c isa r los lí m ites e n tre los cuales se h a lla rá N I, utilizando p a r a ello la aproxi m ación de S tirlin g : ^ ( - r ) ' < * ' < v ® 5 (-4 -) ' ( i + - s ^ r r ) en la q u e jt “ 3.14159 y e “ 2.71828. Los estu d ian tes fam iliariza dos con el u so d e logaritm os e n c o n tra rá n m uy conveniente tra b a ja r con los logaritm os de los factoriales, convirtiendo así pro du cto s en sum as y razones en diferencias. P or ejem p lo : , / 8! \ , 8 7 6 5 4 3 2 1 , o g ( T r ) = 1 “ B— m — r = jlo g 8 + log 7 + lo g ó + log 5 + log 4 + log 3 + log 2 + log l l r -i - jlo g 3 + log 2 + log 1j = log 8 + log 7 + log 6 + log 5 + log 4 A lgunos ejem plos. E studiem os a h o ra algunas aplicaciones de estos prin cip io s a o tro s p ro b lem as de pro b ab ilid ad , d e n atu raleza algo m ás com plicada que la d e los que hem os v isto h a s ta ahora. Como e s tá im p lícito en la in tro d u cció n a esta sección, u n a im p o rta n te e stra te g ia general en el caso de m uchos pro b lem as en los que el o rd en d e selección carece de im p o rtan cia consiste e n calcu lar la p ro b a b ilid ad d e u n a d eterm in a d a p erm u ta , m u lti plican d o a continuación aq u élla p o r el n ú m ero de p e rm u ta s im pli cadas. Supongam os q u e deseam os, p o r ejem plo, o b te n e r la p ro b ab ilid ad de conseguir ex actam ente u n as y p o r lo m enos dos reyes en c u a tro tira d a s, con reposición d e ca rtas. O bservarem os que esto p u ed e re alizarse al o b ten er bien u n as y tre s reyes o u n as, dos reyes y alguna o tra c a rta q u e n o sea as ni rey. Si re p re sen tam o s sim bólicam ente estas posibilidades com o A R R R y ARRO (en donde "O " re p re se n ta " o tra c a rta " ), verem os que hay 4 ! / 3 ! = 4 fo rm as de o rd e n a r el as y los tre s reyes, m ie n tra s existen 4 !/2 ! = 12 m an eras de d isponer la com binación ARRO . P o r ser d iferen tes los n ú m ero s d e las p e rm u ta s en am bas situaciones es p o r lo que debem os m an ten e rlas diferenciadas. Si n u e stra p ru e b a es con reposición, la p ro b a b ilid ad de o b ten er u n as en una sola tira d a es de 1/13, com o lo es la de o b te n e r u n rey, en tan to que la p ro b a b ilid ad d e sac ar u n a O es de 11/13. Así re su lta que la p ro b ab ilid ad de o b te n e r ex actam en te u n as y dos o m ás reyes será: 4(1 /1 3 )4 + 12(1/13)*(11/13) = 136/28 561 = .0048 Supongam os que deseam os o b ten er la p ro b a b ilid ad de conse guir exactam en te u n as y p o r lo m enos dos corazones en c u a tro tirad a s, con reposición. A parece a h o ra u n a com plicación m ás, y a q u e u n o de los corazones puede s e r u n as. S erá conveniente d istin g u ir e n tre c u a tro tip o s de c a rta s : el as d e corazones (AC), cuya p ro b a b ilid ad de se r seleccionado es d e 1/52; los ases n o de corazones (A C ), con p ro b a b ilid ad de 3/52; los n o ases d e cora zones (A C ), con p ro b a b ilid ad de selección de 12/52, y los n o ases d e corazón ( A C ) con u n a p ro b ab ilid ad de 36/52 de se r sacados. La su m a de to d as e sta s pro b ab ilid ad es es n a tu ra lm e n te igual a la u n id ad ya q ue los tipos en cuestión son m u tu am en te exclusivos y exhaustivos. Despleguem os a continuación las com binaciones que pueden p ro d u c ir ex actam ente u n as y dos o m ás corazones, calculando el n ú m e ro de p e rm u ta s en cada caso. D ichas com binaciones son las sig u ien tes: a) E x actam ente dos corazones: AC, ÁC, AC, AC (41/21) [1/52 • 12/52 • 36/52 • 36/52] = .02552 AC, AC, AC, AC ( 4 ! /2 ! ) [3/52 • 12/52 • 12/52 • 36/52] = .02552 b ) E x actam ente tre s corazones: AC, AC, AC, AC ( 4 ! /2 ! ) [1/52 • 12/52 • 12/52 • 36/52] = .00851 AC, AC, AC, AC ( 4 ! /3 ! ) [3/52 • 12/52 • 12/52 • 12/52] = .00284 c ) E xactam ente c u a tro co razo n e s: — — — 00094 AC, AC, AC, AC (41/31) [1/52 • 12/52 • 12/52 • 12/52] = ~ S u m an d o estas pro b ab ilid ad es de acontecim ientos m u tu am en te exclusivos obtenem os u n to ta l de pro b ab ilid ad es de .063. C onsiderem os p o r fin u n a situación en la que es m ás conve n ien te d ib u ja r lo que se denom ina u n diagram a de árbol que re p resen te las d istin tas posibilidades. O curre a veces que una secuencia de acontecim ientos te rm in a en p u n to s d iferentes, se gún sea el desenlace de o tro s acontecim ientos previos. La ilu stració n m ás fam iliar de este hecho se observa en los eventos atléticos en los que u n equipo se rá declarado vencedor si gana dos de tre s juegos, o tal vez c u a tro d e siete, y en los que no hay necesidad de seguir jugando u n a vez que el n ú m ero n e cesario de juegos h a sido ya ganado. Supongam os que hay dos equipos A y B jugando u n a serie de “dos de tre s ”. Supongam os tam bién que A es el m e jo r equipo y que, con b ase en sus an te rio res resu ltad o s, se le asigna u n a p ro babilidad de .6 p a ra ganar cu alq u ier juego dado. E n u n ejem plo m ás realista, la pro b ab i lidad de g an a r cada juego puede cam biar según los resultados de los juegos precedentes, lo que podrem os d eterm in a r utilizando el m étodo que vam os a proponer. P ara m ayor sencillez tom e m os com o p = .6 la p ro babilidad de que el equipo A gane cada juego, en cuyo caso q = .4 re p resen ta rá la pro b ab ilid ad del equipo B p a ra vencer en cada juego. Se supone, p o r tanto, que las p ru eb as sucesivas son independientes. ¿Cuál es la probabili d ad de que el equipo A gane la serie? ¿Cuáles son las p robabilida des individuales de cada posible secuencia de ganancias y p ér didas? Podem os ex p resar las posibles secuencias en el diagram a si guiente : Ganador del prim er juego Ganad or del segundo juego Ganador del tercer juego La ram a su p erio r del árbol re p resen ta las posibilidades, suponien do que A h a ganado el p rim er juego, en ta n to que la ram a b aja re p resen ta las correspondientes al triu n fo inicial de B. Si A gana el segundo1 juego después de h ab e r ganado el prim ero, la serie se detiene, y A gana con u n a probabilidad de p 2. Sin em bargo, si A gana el p rim e r juego y B el segundo, es preciso jugar u n te rc e r juego. Si éste es ganado p o r A la serie se detiene, y A gana con pro b abilidad de p 2q, p ero si B gana el te rc e r juego gana la serie con probabilidad p q \ E sta clase de series da origen a u n árbol p erfectam ente sim étrico, aun cuando es evidentem ente posible in v en tar com petencias con handicaps que produzcan árbo les asim étricos. P or ejem plo, el equipo A puede n ecesitar ganar cuatro juegos en tan to B con sólo tres vencerá. Las probabilidades de las varias posibilidades pueden s e r ya com putadas com o sigue: Secuencias según las cuales vence el equipo A(p = .6) p2 = .3 6 0 pqp = , 144 q p p = .1 4 4 P ro b a b ilid a d d e g a n a r la s e rie Secuencias según las cuales vence el equipo B (q = .4) 42 = 160 pqq ~ .0 9 6 qpq = . 0 9 6 ------.6 4 8 .3 5 2 E l h ech o de que las probabilidades sum an u n a u n id a d puede re p re se n ta rse alg ebraicam ente com o sigue: p 2 + 2p 2q + 2 p q 2 + q 2 = p 2 + 2p q ( p + q) + q s = p z + 2p q + q2 = ( p + q )2 = 1 IX.4. Valores esperados U na idea, su rg id a p ro b a b le m en te en u n casino de juego, tiene im p o rtan tes aplicaciones estadísticas. C onsiste e n que si u n o r e p ite u n ex perim ento u n g ra n nú m ero de veces, h aciendo apues tas so b re los resultados, será posible calcu lar las ganancias (o p é rd id a s ) esp eradas, con b ase e n diferentes suposiciones acer ca de la n atu raleza del juego que e stá siendo p racticad o . P ara p o n e r u n ejem plo m uy sencillo, supongam os que se e stán echan do m o n ed as a cara o cruz, apostando siem p re a caras, y que cad a vez q ue ap arece u n a c a ra se gana u n peso, p ero se p ierd en 2 pesos p o r cada vez que sale cruz. B ajo el su p u esto de que la m o n ed a no h a sido p re p a ra d a , es evidente que u n o n o d esearía m a n te n e r ta l juego d u ra n te m ucho tiem po. ¿P ero cóm o pu ed en calcu larse las ganancias o pérd id as esp erad as en o tro s casos m ás com plejos? E n el sencillo ejem plo a n te rio r el sentido com ún su g eriría m ul tip lic a r la p ro b ab ilid ad d e cada aparición p o r la ganancia o la p é rd id a co rresp o ndiente a dicho resultado, sum ando a continua ción los resu ltad os. O btendríam os así com o "ganancia" esperada la can tid ad (1) ( Vi) + ( —2) ( Vz) = — .5. E sto significa que, com o prom edio, u n o h a b ría de e sp e ra r p e rd e r 50 centavos p o r tirad a. Las ganancias o p érd id a s reales pu ed en p o r su puesto d ife rir de e s te v alo r esp erado, p e ro si hubiésem os de confiar en la teoría d e las p ro b ab ilidades y jugásem os u n bu en n ú m ero de veces, n u e s tra p érd id a to ta l sería aproxim adam ente de ,5¿V, en donde N re p re se n ta el número- de tiradas. Como segundo ejem plo, supongam os que lanzam os un solo dado, recibiendo u n p eso si sale p a r ; perdiendo dos pesos si sa len uno- o tres p untos, y ganando tres pesos si salen cinco pun tos. S uponiendo q u e to d as las caras tienen las m ism as posibili d ades de salir, n u estra s ganancias esperadas serían: ( - 2 ) ( l / 6 ) + ( 1 X 1 / 6 ) + ( - 2 ) ( l / 6 ) + ( 1 X 1 / 6 ) + ( 3 ) ( 1/6) + + ( 1 X 1 / 6 ) = 1/3 = 1.333 p o r juego. E n general, si hay k posibles resultados X t , X 2, . . . , X k, y si la p ro b ab ilid ad de X¡ es d ad a p o r p ( X i ) , podrem os defi n ir el valor esp erad o de las variables X, indicando con el sím bolo 7c E ( X ) , com o: E ( X ) = 2 X t p i X ^ . E n los ejem plos considerai=l dos h a sta ahora, la X t h a rep resen ta d o pagos (e n pesos) p ara cada g rupo de resultados, p ero es posible concebir en térm inos m ás generales esta idea del v alor esperado. Supongam os p o r ejem plo que tenem os u n a población que con tien e N individuos con puntuaciones en la X variable. Si elegi m os al azar e n tre esta población, cada individuo te n d rá una pro b ab ilid ad de Í / N de se r seleccionado. ¿Cuál es el valor espe ra d o de X ? E n este caso te n d ría m o s : E ( X ) = •X1p(.X1) + X zp ( X ¡¡) + . . . + X x p { X N) = ( X 1 + X 2 + . . . + X lr) ( l / N ) - X y obtendrem os el in tere sa n te re su ltad o de q ue el v alor espera do de X es su m edia, suponiendo que el m uestreo sea aleatorio. A p a rtir del ca p ítu lo siguiente n o s ocuparem os am pliam ente de las distribuciones de probabilidades, llam adas distribuciones p o r m uestreo. E n sentido estricto, tales distribuciones son infi nitas, ya que se refieren a probabilidades que aquí definim os solam ente en térm inos lim itadores. Podem os sin em bargo m en cionar estas distribuciones de p ro b ab ilid ad com o si tuviesen va lores esperados in terp re tab les com o sigue: im aginem os m ués treo s aleatorios hechos rep etid am en te con u n a d eterm in ad a población. Si tal población tiene u n a m edia a la que denom ina rem os con la le tra griega ¡i, entonces E ( X ) = p,. D esearem os en co n tra r tam bién los valores esperados de o tras cantidades, tales corno la m u estra m edia X , la que a su vez re su lta te n e r su valor esperado de E ( X ) igual a ¡x, en el caso de m u estreo aleatorio. O tra expresión de considerable in terés teórico e n la estadística es E [ X — E ( X ) 2 S, la que en el caso del m u estreo aleatorio, para el cual E ( X ) = p, es 2 (X, - n)2 p (X 4) = l / N 2 ( X t - u P , o la í=‘1 í==1 variancia de X. Aun cuando no harem os gran uso de la notación corresp o n d ien te a valores esperados, probab lem ente se encon tra rá n referencias a la m ism a en textos m ás avanzados, ya que en las p ru e b as de estad ística m atem ática es em pleada am plia m ente. Todas las p ru eb as estad ísticas a exam inar en este texto p a rte n del su p u esto de que hay independencia e n tre los acontecim ientos y que, p o r consiguiente, las probabilidades condicionales n o han de em p learse al m u ltip licar las probabilidades.11 E n o tro s té r m in o s: se supone que existe independencia d e selección en el in te rio r d e u n a m u estra, n o teniendo la selección de u n indivi duo in flu en cia alguna so b re la selección de o tro a in clu ir e n la m ism a m u estra. Sin em bargo, se d an m uchos casos e n que se pro p en d e a violar dicho im p o rta n te supuesto. De ahí que el lec to r d eba acostum brarse a p re g u n ta r siem p re si el su p u esto de independencia está o n o efectivam ente ju stific ad o en cualquier p ro b lem a dado. S erá ú til, e n e ste p u n to , in d icar unos pocos ejem plos de situaciones en las que se co rre riesgo de p rescin d ir del su p u esto en cuestión. Los estad íg rafo s o b tienen a m enudo lo que se designa com o m u estra al azar (o m u estra irrestricta aleatoria) con o b jeto ta n to de satisfacer el su p u esto necesario d e independencia com o p a ra d a r a to d o individuo de la población considerada u n n ú m ero igual d e oportu n id ades de fig u ra r en la m u estra. Sirviéndonos de u n a ta b la de núm eros al azar o algún o tro arreglo p o r el estilo, p u ed e ob ten erse u n a m u e stra en fo rm a esencialm ente idén tica a la de e x tra e r naipes de una b a ra ja bien b a ra ja d a o núm e ro s en u n ju ego de lo tería. La m u e stra a lea to ria posee la p ro p ie d ad no sólo d e dar a cada individuo la m ism a oportunidad de ser seleccionado, sino tam bién la de proporcionar a cada co m b i nación de individuos una oportunidad igual de selección -12 E n rigor, com o q uiera que casi siem pre extraem os las m u estras sin reposición, el su p u esto de independencia n o se cum ple p o r com pleto. Sin em bargo, cu an d o la población es grande en rela ción con la m ag n itud de la m uestra, podem os olvidar perfecta m en te la peq u eñ a d istorsión re su ltan te de que a ningún individuo se le dé la o p o rtu n id ad d e se r seleccionado o tra vez. P or ejem p lo : si de u n a población de 100 m il p erso n as se extraen 500, las p ro b ab ilid ad es son m uy pequeñas de que alguna de ellas volviera a seleccionarse en el caso de que su nom bre se p u siera de nuevo e n el grupo. Y en form a análoga, la diferencia es p rácticam en te m uy p eq u eñ a si reponem os o n o al ex tra er sólo tres cartas de u n a b a r a ja ; p ero, si ex trajéram o s 35, la diferencia sería considerable. Si la m u e stra es relativam ente grande en com paración con la 11 E s lo q u e s e v e r á e n el c a s o d e ¡a b in o m ia l q u e s e e x a m i n a r á e n e l s ig u ie n te c a p ítu lo . S in e m b a r g o , e n el c a s o d e o t r a s p r u e b a s , e l le c to r h a b r á d e a c e p t a r s im p le m e n te la v e r d a d d e e s t e a s e r to . a s E n e l c a p . x x i s e d i s t i n g u i r á l a e x tr a c c ió n d e m u e s t r a s a l a z a r d e o t r a s f o r m a s d e e x tr a c c ió n d e u s o c o r r ie n t e , ta le s c o m o la s i s t e m á ti c a , la e s t r a t i f i c a d a y l a d e c o n g lo m e r a d o s . población, entonces puede ap licarse a veces u n fa c to r de correc ción p a ra com pensar la fa lta de rem plazo.13 P ese a que los problem as re su ltan te s de la fa lta d e rem plazo no> sean graves, la fa lta de p ro p o rcio n ar a cada com binación de individuos la posibilidad de ap arecer en la m u e stra puede tra d u cirse en u n a grave violación del supuesto de independencia. Su póngase, p o r ejem plo, que nos dispusiéram os a clasificar los n ai pes corrientes en c u a tro m o n to n es: uno p a ra los tréboles, o tro p a ra las espadas, etcétera. Supóngase luego que fuéram os a se leccionar u n o de dichos m ontones al azar. E s obvio q u e cada c a rta de la b a ra ja te n d ría la m ism a o p o rtu n id ad (I sobre 4) de se r seleccionada, p ero in d u d ab lem en te todas las com binaciones no serían posibles, y n o digam os ya igualm ente probables. E n efecto, sab iendo que el n aipe de encim a es u n a espada, sabem os q u e todos los dem ás naipes del m o n tó n son igualm ente espadas. Las m u estras de área o p o r conglom erados em pleadas com ún m en te en las investigaciones sociales n o cum plen el su p u esto de independencia p o r esta m ism a razón. E n efecto, si se seleccionan al azar 100 m anzanas de casas de u n a población y luego se in cluye en la m u e stra cada te rc e ra fam ilia de las m anzanas en cues tión, es obvio que to d as las com binaciones de fam ilias no tienen la m ism a o p o rtu n id ad d e fig u ra r e n aquélla. E n efecto, dos fa m ilias de la m ism a m anzana tien en m ayor o p o rtu n id ad de fig u rar en la m ism a m u estra de lo que es el caso de dos fam ilias en dos m anzanas distin tas. Como quiera que las m anzanas de casas u rb a n as suelen se r p o r lo re g u la r relativ am en te hom ogéneas e n cuanto a ca rac te rístic as tales com o el ingreso o la in stru cció n del jefe de fam ilia, el re su ltad o de sem ejan te tip o de extracción d e m ues tr a será m enos exacto q u e u n a selección de u n a m u e stra aleatoria del m ism o tam año. E sto puede verse in tu itiv am en te si im agina m os u n a situación en que to d as las m anzanas sean to talm en te hom ogéneas, com o e ra el caso de los c u a tro m ontones de naipes. E n tal caso, en efecto, sólo necesitaríam os o b te n e r inform ación acerca de u n a vivienda e n cada m anzana, y el n ú m ero de "casos" sería de h echo el n ú m ero de las m anzanos seleccionadas, esto es, u n N b a sta n te m enor. Según verem os en el capítulo xxi, es posible o b ten er unos resu ltad o s ex trem adam ente engañosos, si h a biendo ex traíd o una m u e stra sem ejan te p o r conglom erados, el investigador se sirve luego de pru eb as estadísticas que presupon nen u n a extracción al azar. Un p ro b lem a análogo p u ed e fácilm ente en c o n trarse cuando se está in teresado en los actos individuales de conducta. Supóngase, p o r ejem plo, que u n sociólogo efectúa u n experim ento en el que se sirve de 30 su jeto s, cada uno de los cuales fo rm u la 50 juicios d istintos. Se ten d ría n en tal caso 1 500 juicios, y nos podríam os ver inducidos a servim os en u n a p ru e b a estad ística d e sem ejani s V é a s e se c c . X X I .l. te N artificialm en te ponderada, suponiendo que los 1 500 juicios en cuestión co n stituyeran u n a m u estra al a z ar de los juicios de al gún tip o de población. P ero sería m anifiestam ente ab su rd o en la m ayoría de los casos su p o n er que los juicios de u n m ism o individuo son estadísticam ente independientes unos de otros. En efecto, suS p rim eros 30 juicios afectarán probablem ente a los de m ás, ya que a diferencia de la m oneda, la p erso n a sí tiene m e m oria. Supóngase que u n sociólogo se in tere sa a n te todo en p ares de perso n as, com o unidad, m ás que en el individuo singular. Puede te n e r u n grupo de 20 personas, cada u n a de las cuales esté en interacció n con to d as las dem ás. T endría, en consecuencia, (20) (1 9 )/2 o 190 p ares de personas, p e ro no e staría en condiciones d e co n sid erar cada p a r com o in dependiente de los otros. Es obvio que el conocim iento a p ro p ó sito del p a r Sm ith-B row n su m in istra rá p ro b ab lem en te alguna inform ación sobre los p ares Sm ith-Jones o B row n-Jones, ya que las m ism as personas figuran en varios pares. Los ecólogos, antropólogos y otros sociólogos in teresad o s en generalizar a p ro p ó sito de localidades, sociedades u o tra s u n id a des definidas espacialm ente necesitan tam bién p reo cu p arse de la fa lta de independencia en u n a gran p a rte de su labor. Aquí el p ro b lem a p arece derivarse del hecho de que las unidades selec cionadas n o son a m enudo claram ente distintas. E n efecto, las fro n te ra s de u n a sociedad o u n a localidad pueden se r difíciles de definir, y u n a u n id ad sem ejante puede p a s a r gradualm ente a la o tra, siendo las divisiones m ás o m enos arb itra ria s.14 Así, p o r ejem plo, si se utilizan com o unidades los d istrito s del censo en el in te rio r de u n a ciudad o los d istrito s te rrito ria le s en el in te rio r de u n E stado, re su lta a m enudo posible p re d ecir a p ro p ó sito de u n a u n id ad sobre la b ase d e la un id ad vecina. Si la cuota de delin cuencia es elevada en u n distrito, es pro b ab le que lo sea tam bién en el vecino, y a q ue es incluso posible q u e las m ism as ban d as de delincuentes se extraigan de am bos distritos. Que "algo no e stá en o rd e n ” en relación con el su p u esto de independencia p u e de p ercib irse in tu itiv am en te dándose cuenta de que, cuando las u n id ad es no son claram ente distintas, sería posible p o n d e ra r el n ú m ero de "u n id a d es” a cualquier tam añ o deseado, co rtan d o sim plem ente el p astel en m uchos pedazos pequeños. Así, p o r ejem plo, si no h ay b astan te s sociedades en el m undo p a ra o b ten er significancia estadística, p o d ría dividirse cada sociedad en 10 subregiones y o b ten er 10 veces m ás "casos”. 14 E s t a s i t u a c ió n s e p a r e c e r í a e n c i e r t o m o d o a l a d e u n a b a r a j a c a d a u n a d e c u y a s c a r t a s p a s a r a in s e n s ib le m e n te a la s o t r a s , d e m o d o q u e r e s u l t a r a d if íc il d e c i r d ó n d e u n a d e e lla s t e r m in a b a y e m p e z a b a l a o t r a . O t a m b ié n , ¡ q u e c a d a c a r t a f u e r a c a p a z d e i n f lu i r l o s v a lo r e s f ig u r a d o s d e s u s v e c in a s in m e d ia ta s ! E n u n tex to com o éste n o es po sib le exam inar soluciones a los pro b lem as q ue com portan violaciones del su p u esto de indepen dencia. Que el a u to r sepa, m uchos de dichos problem as n o h an sido resu elto s satisfactoriam ente. R esulta a m en u d o difícil apre c ia r la g ravedad de los erro res introducidos cu an d o no se cum p len su p u esto s requeridos, com o el de independencia. Pisam os terren o firm e siem pre que tenem os la seg u rid ad d e que los su puesto s re q u erid o s p a ra alguna p ru e b a s í se c u m p le n ; p e ro si no se cum plen, ra ra m e n te re s u lta posible decidir exactam ente en q ué m edida nos ap artam o s de dichos supuestos. Con o b jeto de e s ta r seguro, el lecto r h a de ac o stu m b ra rse a exam inar cuida d o sam ente to d o supuesto. Si se tien en m otivos p a r a d u d a r de la validez d e alguno, entonces h a b ría q u e co n sid erar seriam ente el serv irse de o tro p rocedim iento que n o lo contenga. Así, p o r ejem plo, p o d ría decidirse re c u rrir a o tra u n id a d de análisis, o sea a la p erso n a, m ás bien q u e a los actos de la co nducta o a los p ares de personas, o b ien a los delincuentes p a rtic u la re s m ás que a las ta sa s de delincuencia e n relación con u n d istrito del censo. Si bien los sociólogos y o tro s que se sirven d e la estad ística aplicad a h a n p ro p en d id o en ocasiones a p re sc in d ir d e los supues tos, llegando así a conclusiones infundadas, es tam b ién posible, p o r o tra p a rte , p e c a r de p ru rito excesivo d e perfección. Como q u iera que, en efecto, n o nos la s habernos n u n ca con situaciones ta n sencillas com o las de lan zar u n a m oneda al a ire o sac ar nai p es de u n a b a ra ja p erfecta, re su lta siem pre posible p o n e r en tela de ju icio cu alq u ier pro ced im ien to a títu lo d e im p erfecto en rela ción con el ideal q u e se persigue. S e p u ed e a b rig a r u n tem o r ta l de v io lar supuestos, que se p re fiere p re sc in d ir p o r com pleto de to d a técn ica estadística. E s necesario, so b re to d o e n u n a dis ciplina q u e se ca rac te rice p o r estudios exploratorios y técnicas científicas relativ am en te im precisas, llegar a com prom isos con la realidad. E l proced im ien to m ás indicado co n sistirá en h acer el m en o r n ú m ero de com prom isos posible, d e n tro d e los lím ites de lo p racticable. Gwsario Sucesos Límite Sucesos m utuam ente exclusivos Probabilidad Muestra aleatoria Independencia estadística E jercicios 1. En un simple lanzamiento de u n dado no cargado, ¿cuál es la pro babilidad de: a) ¿sacar u n 6? b) ¿no sacar un 6? c) ¿sacar un 1 o un 6? Respuesta, 1/3 d) ¿sacar un 1 y un 6? e) ¿sacar un núm ero im par o un 6? 2. Cuál es la posibilidad de obtener cada uno de los siguientes resultados en tres extracciones de un juego de naipes bien barajado: a) ¿tres sotas, con reposición? Respuesta, 1/ 2197. b) ¿tres sotas, sin reposición? Respuesta, V6 520c) ¿una espada, un corazón y un diam ante (en cualquier orden), con reposición? d) ¿exactamente dos ases, con reposición? e ) ¿por lo menos un as, con reposición? (Indicación: ¿cuál es la al ternativa por al menos un as?) Respuesta, 4®®/2197. *f) ¿por lo menos un as y por lo menos un rey, con reposición? [Indicación: en f) y en algunos de los ejercicios que siguen, será útil dividir el problema en tres pasos: 1 ) determ inar las distintas combinaciones de cartas que dan por lo menos un as y por lo menos un rey (v.gr., un as, un rey y otra carta cualquiera: dos ases y un rey, etcétera); 2 ) determ inar la probabilidad de obtener dichos naipes en cualquier orden particular; y 3) determ inar para cada una de dichas combinaciones el número de ordena mientos posibles.] 3. Supóngase que se interroga a 1000 novatos acerca de sus gustos musicales. Se encuentra que 400 de los estudiantes son aficionados a la m úsica clásica, en tanto que los restantes no lo son. De estos 400 aficionados, sólo a 100 les gusta el rock and rail. Hay 400 personas a las que no les gusta ni un género ni otro de música, en tanto que a las restantes les gustó sólo el rock and roll. a) Si se escoge un estudiante al azar, de entre la población en cuestión, y si A es el acontecimiento consistente en que le gusta la música clásica y B el acontecimiento consistente en que le guste el rock and roll, ¿cuáles son P(A), P(B), P(A\B) y P(B|A)? b) Verifiqúese num éricam ente que P ( A & B ) = P(A)P(B|A) = P(B)P(A\ B) c) ¿Cuál es la probabilidad de seleccionar una persona a la que guste uno de los dos géneros de música, pero no ambos? *d) Observando que una persona puede tener uno de cuatro tipos de gusto (que le gusten los dos géneros, que no le guste ninguno, etcétera), ¿cuál es la probabilidad de que tres estudiantes selec cionados al azar como compañeros de cuarto tengan los mismos gustos? (Supóngase reposición). Respuesta, .10. *e) ¿Cuál es la probabilidad de que haya por lo menos dos aficiona dos al rock and roll en un corredor de ocho personas? (Supón gase selección al azar, con reposición.) " 4. En los datos que se consignan a continuación, supóngase que A es el acontecimiento consistente en seleccionar un varón, B el acon tecimiento consistente en seleccionar una persona de cultura univer sitaria, y C el consistente en seleccionar una persona de grado elevado de prejuicio: Grado de prejuicio Alto Bajo Cultura inferior a universitaria Cultura universitaria Varones Mujeres Varones Mujeres 100 150 50 100 200 150 250 200 a) Hállese P(A & B & C) en una sola extracción, sin servirse de fórmula. Verifiqúese que la fórmula es cierta en el caso de los datos numéricos de este ejercicio. b) Hágase lo mismo para P ( A o B o C ) . Será preciso desarrollar la fórmula para P(A 0 B 0 C). c) ¿Cuál es la probabilidad de seleccionar exactamente un varón de cultura universitaria, exactamente una m ujer de cultura univer sitaria y exactamente una persona de alto grado de prejuicio en una extracción al azar de tres personas? (Supóngase reposición.) * 5. Los estudiantes inscritos en un curso de introducción a la socio logía de la Universidad de Michigan fueron clasificados según sus aspiraciones profesionales para sí mismos o para sus cónyuges, con forme al sexo de los interrogados. Se obtuvieron los siguientes d ato s: Sexo Aspiraciones elevadas Aspiraciones modestas Total Varones Mujeres 43 71 10 93 53 164 Total --- __ - 114 103 217 Supóngase que de esta población de 217 estudiantes se seleccionan aleatoriam ente individuos, a) ¿Cuál es la probabilidad de seleccionar un estudiante de aspira ciones elevadas? ¿Cuál es la probabilidad de seleccionar un estu diante de aspiraciones elevadas, en el supuesto de que sea varón? ¿En el supuesto de que sea mujer? b) Supóngase que de dicha población se seleccionan individuos al azar (sin reposición), indicando por suposición en cada caso si se trata de un individuo de aspiraciones elevadas o modestas. ¿Con qué frecuencia se supondrá que tiene aspiraciones elevadas? ¿Mo destas? ¿Por qué? En 217 extracciones, ¿cuántos errores se es pera cometer? Respuesta, 103. c) Supóngase que se sabe el sexo del estudiante. Dado que es varón, ¿cuántos errores se espera cometer al asignar los 53 varones a las categorías respectivas de aspiraciones elevadas o modestas? ¿Cuántos en relación con las mujeres? Respuesta, 10; 71. d ) ¿Cómo podría construirse un índice que mostrara la reducción proporcional de errores, si el interrogado es varón, en compara ción con los errores en el caso de desconocerse el sexo? Como se verá en el capítulo xv, semejante índice puede emplearse para medir la fuerza o grado de relación entre el sexo del interrogado y sus aspiraciones profesionales. * 6. Hágase un diagrama de árbol para calcular las probabilidades de todos los resultados posibles de una Serie Mundial (el que gane 4 juegos de un máximo de 7), suponiendo que la probabilidad de que el equipo de la Liga Nacional gane cada juego es de .6. B ibliografía 1. Alder, H. L., y E. B. Roessler: Introduction to Probdbility and Sta tistics, 4- ed., W. H. Freeman and Company, San Francisco, 1968, cap. 5. 2. Feller, William: An Introduction to Prohability Theory and Its Applications, 3? ed., John Wiley & Sons, Inc. Nueva York, 1967. 3. Freund, J. E .: M odem Elementary Statistics, 3» ed., Prentice-Hall, Inc., Englewood Cliffs, N. J., 1967, caps. 5 y 6. 4. Gelbaum, B. L., y J. G. M arch: Mathematics for the Social and Bekavioral Sciences, W. B. Saunders Company, Filadelfia, 1969, caps. 24. 5. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc. Nueva York, 1963, caps. 2 y 4. 6. Kemeny, J. G., J. L. Shell y G. L. Thompson: Introduction to Finite Mathematics, 2- ed., Prentice-Hall, Inc., Englewood, Cliffs, N. J., 1966, caps. 3 y 4. 7. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning in Sociology, 2* ed., Houghton Mifflin Company, Boston, 1970, cap. 8. 8. Savage, L. J . : The Foundations of Statistics, John Wiley & Sons, Inc., Nueva York, 1954, caps. 1-3. X . P R U E B A S D E H IP Ó T E S IS : LA D IS T R IB U C IÓ N B IN O M IA L E n ciencias sociales nos encontram os a m enudo fre n te a sim ples dicotom ías com o la d e si u n individuo posee o n o u n determ inado a trib u to o d e si u n experim ento h a tenido éxito o h a fracasado. E n tales casos, siem p re que sea posible fo rm u la r u n a hipótesis acerca de cierta p ro b ab ilid ad de éxitos, siem pre que las p ruebas sean indep endientes u n as d e o tra s y siem pre que el n ú m e ro de éstas sea relativ am en te pequeño, es posible servirse de p ru eb as estad ísticas q u e se co m p o rtan com o u n a distribución binom ial. Pese a que existen num erosas p ru e b as estad ísticas m ás prácticas que las q u e se sirven de la distribución binom ial, es conve niente, con todo, dedicar u n tiem p o considerable a dicha d istri bución, a causa a n te to d o de su sencillez. Al em p lea r la d istrib u ción binom ial, el estu d ian te puede seguir en fo rm a relativam ente fácil to d o s los pasos que aquélla com porta, obteniendo con ello u n a visión d e los procedim ientos generales em pleados en todas las p ru e b as estadísticas. Es p ro b ab le que al le c to r el p re sen te capítulo se le an to je com o excepcionalm ente difícil, debido al hecho de que se expo n en e n el m ism o cierto n ú m e ro de ideas nuevas en fo rm a m ás bien com pacta. M uchas de esas ideas vuelven a tra ta rse e n el capítulo xi, y es tal vez p re ferib le que el le c to r considere estos dos capítulos com o u n a sola unidad, leyendo el capítulo xi an tes d e d o m in ar p o r com pleto la m a teria del p resen te. E n p articu lar, se puede d e ja r p a ra después la lectu ra de la sección X.3, que tra ta de diversas aplicaciones de la binom ial, y de la sección X.4, so b re extensiones. X .l. La distribución de m u estreo binom ial Antes d e exam inar cada u n o de los pasos im plicados en las p ru e bas estadísticas, será conveniente co n sid erar cóm o se obtienen las d istribuciones binom iales. P o r el m om ento sim plificarem os la cuestión lim itándonos al lanzam iento de m onedas. E n este tip o de p roblem as, el n ú m ero de los lanzam ientos constituye la m ag n itu d de la m u estra, y n u e stro in terés se ce n tra en el núm ero de caras (éxitos) obtenidas en N pruebas. S uponiendo q u e las N p ru e b as (lanzam ientos de m onedas) son estad ísticam en te in d ependientes u n a de o tra , podem os evaluar in m ed iatam ente la p ro b ab ilid ad d e o b ten er r caras y N — r cru ces en algún orden p artic u la r. Podem os, p o r ejem plo, o b ten er la p ro b ab ilidad de conseguir r caras sucesivas seguidas de N — r cruces. Supongam os que p es la p ro b ab ilid ad de o b ten er una 160 c a ra ; en este caso, la p ro babilidad de o b ten er u n a cruz, que designam os com o q, se rá de 1 — p. Como q u iera que las p ru eb as son independientes, podem os m ultiplicar sim plem ente las p ro b a bilidades incondicionales. La p robabilidad de obtener exacta m en te r caras en el orden que se acaba de indicar s e r á : p p p .... p q q q . . . q = p 'q * '-' ____ _ ______ J *______ _______ f r térm inos N — r térm inos E s obvio que en los supuestos de independencia estadística y p ro b a b ilid ad co n stante de los éxitos (v.gr., la m oneda n o se des g asta de m odo irre g u la r), la p ro babilidad de o b ten er cualquier o tro o rd en p a rtic u la r de r caras y N — r cruces será tam bién prqN-T' p o r jo tan to , con o b jeto de o b ten er la probabilidad de con seg u ir exactam ente r caras en cualquier orden sólo se nece sita c o n ta r el nú m ero de m aneras distin tas que tenem os de obte n e r r caras y N — r cruces. Sin em bargo, p o r poco que N sea grande, la ta re a se hace m uy fastidiosa. A fortunadam ente dispo nem os d e u n a fó rm ula m atem ática q u e hace innecesaria dicha operació n de co ntar. E n efecto, el nú m ero de m an eras posibles en q u e podem os o rd e n a r r éxitos y N — r fracasos, escrito sim bó licam en te com o (X.l) en donde N I (léase factorial N ) = N (N — 1) (N — 2) (3) (2 ) (1 ), y lo m ism o p o r lo que se refiere a r! y a (N — r ) ) 1 Con fines de cálculo, la fórm ula (X .l) puede sim plificarse ob serv an d o que algunos de los térm inos del n u m erad o r y el deno m in a d o r se elim inan recíprocam ente.1 Como q uiera que r < N , podem os escrib ir N ! com o p roducto de dos factores, com o sig u e: N I = [ N ( N - l ) ( N ~ 2 ) .. . ( N - r + 1 )] U N - r ) . .. (3 )(2 )(1 )] = [ N ( N — 1)(AÍ — 2 )...(A T — r + l ) ] [ ( A T — r ) ! ] y vem os in m ed iatam en te que (N — r ) \ p u ed e elim inarse ta n to del n u m era d o r com o del denom inador. E n esta fo rm a nos que da, p u e s : i El símbolo no ha de confundirse con N /r o N dividido entre r. ( N \ N (N — 1 ) ( N — 2 ) . . . ( N — r + 1) ( ~ r j =— ---------- tí--------------- (X2) Así, pues, si querem os e n c o n tra r el nú m ero de m an eras d e o b te n e r cu a tro caras en diez lanzam ientos, tenem os: A T - r + l = 1 0 -4 + l = 7 y p o r c o n sig u ien te: (4) (1 0 )(9 )(8 )(7 ) 210 (4 )(3 )(2 )(1 ) O bsérvese que al em p lea r la ecuación (X .2) se tiene el m ism o n ú m ero de facto res en el n u m era d o r y el denom inador. E sto es siem p re así. E sta segunda fo rm a es m ás sencilla, con fines de cálculo, que la p rim era. Si r > N/ 2, em pezam os a te n e r algunos térm in o s que aparecen ta n to en el n u m e ra d o r com o en el deno m in ad o r y, p o r consiguiente, se elim inan recíprocam ente. P or ejem plo, si r = 6, tenem os: 10 (1 0 )(9 )(8 )(7 ) (6 )(5 ) 6 / (Í)(2 )(3 )(4 ) (5 )(6 ) 210 / 10 \ lo que nos d a el m ism o re su lta d o obtenido que al c a l c u l a r ! - j - 1 E n general p u ed e d em o strarse que de m odo que p u ed e u tilizarse lo m ism o r que N — r, según cuál de ellos sea m enor. Si ah o ra querem os sa b e r la p ro b ab ilid ad de o b ten er exacta m e n te r éxitos e n N p ru e b as y no nos in teresam o s p o r el orden en que o cu rran , podem os m u ltip licar la p ro b a b ilid ad de o b ten er / N \ u n a secuencia p a rtic u la r cu alq u iera p o r I ----- I . D esignando la p ro b ab ilid ad deseada p o r P( r) , tenem os: p(t-) = P ro b ab ilid ad de r éxitos ex actam ente = N ( “7 " J N? d e m an eras de o b te n e r r X éxitos rrnX-r prq' P robabilidad (X .3) de u n a sucesión d ad a cualquiera Si la m oneda fu e ra perfectam en te correcta, esto es, si p = q = 1/2, la p ro b ab ilid ad de o b ten er exactam ente cu a tro caras en diez p ru eb as sería d e : 210 210 / 1 0 \ / l \ ' , í/ l \ 6 = )(t ) (?) = 210114>“ V024 = '205- Y en fo rm a análoga podem os calcular las probabilidades de o b ten er exactam ente 0, 1, 2, . . . , 10 caras en 10 pruebas. Ni de caras 0 1 2 3 4 5 6 7 8 9 10 Probabilidades (con p = Va) 1/1024= .001 10/1024= .010 45/1024= .044 120/1024= .117 210/1024= .205 252/1 024 = .246 210/1024= .205 120/1 024 = .117 45/1024= .044 10/1024= .010 1/1024= .001 1.000 O bsérvese que siendo r cero, la m agnitud y la fó rm u la falla. Vemos, sin em bargo, que, siendo r = 0, sólo hay u n o rd en posible (to d o cruces). E n este ejem plo, la d istri bu ción de p ro babilidades es perfectam en te sim étrica. Sirviéndose del hecho de que el lecto r debería convencerse p o r sí m isi será siem pre sim étrico, p ero que el fa c to r prqN~ r sólo será exactam ente sim étrico si p — q — Vi. E n el ejem plo an terio r, las probabilidades se h an asociado con cad a un o de los 11 resultados posibles del experim ento. E n di cho sencillo ejem plo, sólo' se daba u n pequeño nú m ero de resul tad o s concebibles, dado el supuesto de que en cada lanzam iento sólo dos de ellos era n posibles. En o tro s experim entos, en cam bio, el núm ero de re su ltad o s posibles puede ser m uy grande y au n infinito, y puede se r necesario a g ru p a r ciertos resultados y aso ciar u n a p ro b ab ilid ad con la serie en te ra de los m ism os. Así, p o r ejem plo, si la m oneda se h u b iera lanzado al aire 1 000 veces, pudim os h a b e r calculado las probabilidades de o b ten er de 400 a 449, de 450 a 499 o de 500 a 549 caras. Cuando asociam os probabilidades co n cada resultado posible de u n exp erim ento, ¡o con grupos d e resultados, designam os la d istrib u ció n resultante d e probabilidades com o d istrib u ció n de m u estreo . R ecordando que utilizam os el concepto de probabili dad p a ra d esig n ar el lím ite de la razó n de los éxitos al nú m ero to ta l de las p ru e b as, vem os q u e la d istribución de m u e stre o se refiere al n ú m ero relativo de veces que esperam os o b ten er cier tos resultados e n u n n ú m ero m u y grande d e experim entos. E n el ejem p lo nu m érico considerado, cad a experim ento consis te en lan za r la m oneda 10 veces al aire y a n o ta r el nú m ero de caras. N u estros cálculos nos dicen que si efectuáram os el expe rim en to 1 024 000 veces, podríam os e sp e ra r o b ten er aproxim ada m en te (p e ro no ex actam ente) 1 000 casos en que n o saliera u n a sola cara, 10 m il en que saliera exactam ente u n a cara, 45 m il casos con dos caras, etcétera. Adem ás, esp eraríam o s q u e cuanto m ay o r n ú m e ro de veces se efectu ara el experim ento, ta n to m ás cerca q u ed a ran las pro p o rcio n es em píricas de estas p robabilida des teóricas. E n realidad, el investigador nunca obtiene u n a distribución de m u estreo p o r m edios em píricos, y a que p o r lo> re g u la r sólo efec tú a u n ex p erim ento o extrae u n a m u e stra u n a sola vez o, a lo sum o, unas pocas veces. Im p o rta d arse cu en ta de que la d istri bu ció n de m u estreo es u n a d istrib u ció n hip o tética, teórica, que sólo se o b te n d ría si u n experim ento se efectu ara u n n ú m ero m uy gran d e de veces. La d istrib u ció n de m u estreo se obtiene aplican do razo n am ientos m atem áticos o deductivos, com o se hizo en el ejem p lo an terio r. Como q u iera que las distribuciones de m u estreo n o son el tipo de d istrib u cio nes q u e el investigador ve realm en te de su s datos, las p erso n as que n o sien tan afición p o r las m atem áticas ten d rá n p ro b ab lem en te alguna dificultad en co m p ren d er el papel que ju eg an estas distribuciones h ip o téticas en la inducción estadís tica. Pero, a m enos que la noción de d istrib u ció n d e m u estreo se co m p ren d a claram ente, el estu d ian te se e n c o n tra rá p ráctica m en te en la im posibilidad de conseguir de la estad ística u n a co m prensión q u e vaya m ás allá de la de u n m ero "recetario". De ahí q ue convenga ex am in ar aquí en fo rm a m ás sistem ática los p aso s q ue se d an al v erific ar u n a hipótesis estad ística y ver exactam en te cóm o se em plean dichas distribuciones de m uestreo. X.2. Pasos en las pruebas estadísticas T odas las p ru e b as estad ísticas co m p o rtan cierto n ú m ero de pasos específicos. H ay que re c a lc a r u n a vez m ás q u e cada uno de di chos pasos h a d e efectu arse con a n te rio rid a d a la inspección de los datos. P u eden en u m erarse com o s ig u e : 1. F o rm ulación de supuestos. 2. O btención de la d istrib u ció n de m uestreo. 3. Selección de u n nivel de significación y de u n a región crítica. 4. C álculo de la esta d ístic a de la pru eb a. 5. T o m ar u n a decisión. C ada u n o de esto s pasos se exam inará con cierto detalle en el p re se n te capítulo y luego, u n a vez m ás, en el capítulo xi, de m odo que el le c to r p u ed a fam iliarizarse con los procesos generales que co m p o rtan las p ru e b as estadísticas. 1. Form ulación d e supuestos. Con o b jeto de ap licar la teo ría de pro b ab ilid ad es a la obtención d e u n a d istrib u ció n d e selec ción, el investigador h a d e fo rm u la r ciertos su p u esto s acerca de la población re sp ecto de la cual v a a estab le cer conclusiones g enerales y de los p ro cedim ientos de m u e stre o a em plear. E sto s su p u esto s relativos a la población y a los p ro cedim ientos suelen c o rresp o n d er p o r lo re g u la r a u n a de las dos categorías siguien te s : 1 ) la de aquellos de los que el investigador e stá relativ am en te seguro o está d ispuesto a acep tar, y 2 j la d e los q u e le p arece n m ás p ro b lem ático s y en los que, p o r lo ta n to , e s tá m ás in teresado. Los su p u esto s de la p rim e ra categoría podem os ponerlos todos ju n to s en lo q ue llam arem os el m odelo. E n cu an to a los de la o tra categoría, son los q u e el investigador desea verificar y se desig n an com o hipótesis. P o r lo regular, p o r lo m enos en las verificaciones m ás sencillas de que nos ocuparem os en los próxim os capítulos, sólo h a b rá u n a h ip ótesis. Im p o rta d arse cu en ta de q u e desde el p u n to de vista d e la pru eb a estadística m ism a , todos los supuestos poseen el m ism o carácter lógico. Si los re su ltad o s de la p ru e b a aconse ja n d e sc a rta r los supuestos, to d o lo que p u ed e decirse, sobre la base de la prueba m ism a , es que p o r lo m enos u n o de los supues tos, y a u n p o siblem ente todos ellos, son p ro b ab lem en te falsos. Com o q u iera q u e la p ru e b a elló m ism a n o p u ed e su m in istra r in fo rm ació n acerca de cuál de los su p u esto s sea erróneo, es in dispensable, si los re su ltad o s h a n de te n e r algún sentido, que sólo u n o d e ellos sea re alm en te dudoso. E n estas condiciones será po sib le d e sc a rta r el su p u esto en cuestión (la h ip ó tesis) com o erróneo. Los estu d ian tes fo rm u lan a m enudo el siguiente tip o de p re g u n ta : "¿so b re qué b ase se escoge u n a d eterm in a d a p ru e b a esta d ística con p referen cia a o tra ? ” U no de los criterios que p u ed e d a rse a estas altu ra s es el de u n m odelo apropiado. E n o tro s té rm in o s : el in v estigador h a de seleccionar u n a p ru e b a q u e sólo co m p o rte u n su p u esto dudoso (su h ip ó tesis). E n efecto, si u n a d eterm in ad a p ru e b a re q u ie re dos o m ás supu estos dudosos, será difícil, p o r no decir im posible, decidir cuál de ellos d eb a d escar tarse . E n tal caso, el estu d ian te d eb erá tr a ta r de e n c o n tra r u n a p ru e b a altern ativ a q u e n o traig a consigo tan to s supuestos d u dosos. P ara ilu s tra r lo que precede con n u estro ejem plo de la m one da, la p ru e b a binom ial req u iere el supuesto de que 10 lanzam ien tos constituyen tina m u estra al az ar de todos los lanzam ientos posibles con la m ism a m oneda, y que todos ellos son indepen dientes u n o de otro. Suponem os, pues, que la m oneda es correcta. E sto ú ltim o sería p o r lo re g u la r n u e s tra hipótesis, en tan to que lo p rim ero co n stitu iría n u estro m odelo, ya que el in terés se con cen traría p ro bablem ente en sa b e r si la m oneda es o no correcta. Se concibe, sin em bargo, que podam os sospechar de la persona que efectúa los lanzam ientos. Si estuviéram os relativam ente se guros a p ro p ó sito de la m oneda, p o r h a b e r com probado previa m en te que d ab a aproxim adam ente caras la m ita d de las veces, entonces p odríam os cam biar el problem a y verificar u n a hipó tesis relativ a al^ m étodo del lanzam iento ( o sea el m étodo de m u estreo ). Supóngase que no estuviéram os dispuestos a ac ep tar com o m odelo la corrección de la m oneda o la corrección de la p ersona que efectúa el lanzam iento. En tal caso, si salen 50 ca ras consecutivas, decidiríam os que p o r lo m enos u n o de nu estro s supuestos e ra indudablem ente erróneo, p ero no estaríam os en con diciones de d ecidir cuál de ellos. E n general, p o r supuesto, pone m os to d a la atención necesaria en n u estro s m étodos de m uestreo p a ra te n e r u n a seguridad razonable de que los supuestos relativos a los m ism os son ciertos. P ara ilu s tra r el m ism o aspecto con u n ejem p lo de carácter sociológico, supongam os que se nos invita a fo rm u la r sólo dos supuestos en u n a p ru e b a estad ística determ inada, esto e s : 1 ) que en la población seleccionada las proporciones de personas de las clases m edia e in ferio r con grandes deseos de cam bio de situación son las m ism as, y 2 ) que se h a obten id o u n a m u estra aleato ria de todas las personas. Supóngase asim ism o que dichos supuestos conducen a d eterm inadas conclusiones qúe n o concuerdan con los hechos. Tal vez, p o r ejem plo, los datos de la m u estra señalan u n p o rc en taje m ucho m ás alto de personas de la clase m edia con grandes deseos de cam bio. Concluimos, pues, que u n o u o tro de los dos supuestos es p robablem ente erróneo. P ero ¿cuál de ellos habrem os de d escartar? Nos g u staría sacar la conclusión ^de que el falso e ra el p rim ero, p ero tal vez nos hayam os servido de m étodos de m u estreo sujetos a alguna in fluencia ajena. E n resum en, necesitam os datos adicionales, ap ar te de lo que indica la p ru e b a m ism a. . este ejem plo p articu lar, si hem os tom ado to d as las precau ciones p a ra aseg u rar la selección de u n a m u estra al azar, pode m os to m ar com o m odelo el su p u esto 2 ) y fo rm u lar la conclusión de que el supuesto falso e ra p robablem ente el 1). Aquí n u estra propensión a a c ep tar el su p u esto 2 ) se b asa en n u e stro conoci m iento acerca de los m étodos de selección em pleados, o sea de n u estra m etodología. E n o tro s casos, en cam bio, podem os acep ta r ciertos sup u estos so b re la b ase de hallazgos de investigacio nes an terio res. El p u n to im p o rtan te, sin em bargo, es q u e la prueba m ism a n o sirve para identificar el su p u esto o los supues tos erróneos. E n este sentido, todos los supuestos poseen el m ism o ca rác te r o grado lógico. P a ra p o n e r este hecho de m a n ifiesto y p a ra llam ar la atención del lecto r sobre los supues to s del m odelo, tra ta m o s la hipótesis exam inada com o u n a sola, sim plem ente, e n tre cierto nú m ero de supuestos exigidos p o r la pru eb a. Com o y a se d ijo an terio rm en te, el investigador tien e p o r lo re g u lar in terés en fo rm u la r u n a hipótesis q u e en realid ad le gus ta ría p o d er d escartar. La hipótesis efectivam ente exam inada se designa a m enudo com o hipótesis nula (sim bolizada p o r H 0), p o r c o n tra ste con la hipótesis de investigación ( H x), que se fo rm u la com o altern ativ a de H 0. P o r lo regular, au n q u e no siem pre, la h ipótesis n u la enuncia que no existe d iferencia e n tre varios gru pos o que no se d a relación alguna e n tre variables, en ta n to que la hipótesis de investigación puede a n tic ip a r u n a relación, ya sea positiva o negativa. E l investigador p u ed e e sp e ra r e n reali dad que la h ipótesis negativa sea e rró n ea y se deje d e sc a rta r en fav o r de la altern ativ a H t . N o ob stan te, con o b jeto de calcular u n a d istribución de m u estreo , h a de p ro c e d e r com o si H 0 fu e ra efectivam ente correcta. S upondría, p o r ejem plo, que la m oneda no está sesgada. O bsérvese q ue el su p u esto de tina m o neda co rre c ta p ro p o r ciona u n a m an era de calcular probabilidades exactas sirviéndose de la fó rm u la binom ial. E n efecto, si se fo rm u lara la h ip ó te sis de q ue la m oneda es "sesgada”, nos en co n traríam o s con que no podíam os o b ten er u n a d istribución de selección h a sta después de h a b e r especificado la hipótesis de m odo m ás preciso. H a b ría m os de re m itim o s a u n valor específico de p, digam os d e .75, p o r ejem plo. R ara vez estarem o s en condiciones de hacerlo. Y en fo rm a análoga, la hipótesis de investigación de que hay e n tre la clase m edia una p ro p o rció n m ay o r de p erso n as con grandes de« seos d e cam bio n o es ta n específica com o la hipótesis n u la en el sen tid o de que n o h ay en absoluto diferencia alguna e n tre las dos clases. 2. O btención de la distribución de m uestreo. H abiendo fo rm u lado los supuestos necesarios, estam os ah o ra en condiciones de serv im o s del razonam iento m atem ático p a ra o b ten er u n a d is tri bución de m u estreo a la que asociam os pro b ab ilid ad es con re su l tado s. S em ejante d istrib u ció n de pro b ab ilid ad es nos d irá sim plem en te cuán p ro b a b le sea cada u n o de los resu ltad o s posibles, si los su p u esto s adoptados son efectiva m en te correctos. S i los su p u esto s an terio res a p ro p ó sito de la m o n ed a y de los lanza m ientos fu eran realm en te correctos, ya vim os que a la larga sólo p o d ríam o s e s p e ra r o b te n e r todas las c a ra s u n a sola vez sobre 1 024, sólo 10 veces sobre 1 024 o b ten er nueve caras, etcétera. El conocim iento de la p ro b ab ilid ad de u n re su ltad o p a rtic u la r cualquiera, al pro d u cirse p o r azar si n u estro s supuestos fu eran efectivam ente ciertos, nos p e rm ite ah o ra to m a r u n a decisión racional a p ro p ó sito de las condiciones en las que podríam os arriesg am o s a d esc artar los supuestos en cuestión. Supóngase, p o r ejem plo, que obteníam os 10 caras en 10 lanzam ientos. Exis ten dos posibilidades: a) o bien los supuestos son correctos, y éste es uno de los casos en que se produce u n acontecim iento m uy raro , o bien b ) u n o p o r lo m enos de los supuestos (p ro b a blem ente la hipótesis n u la) es falso. P or desgracia, no podem os sab er n u n ca cuál de las dos alternativas sea la correcta. Si lo supiéram os, en efecto, h ab ríam o s sabido de an tem an o acerca de los supuestos, y ya no ten d ría o b jeto alguno e fectu ar el experi m ento. P ero podem os decir que la p rim era altern ativ a es m uy im probable. Establezcam os, pues, la regla de que cada vez que obtenem os 10 caras en 10 pru eb as sucesivas podem os llegar a la conclusión d e que u n o p o r lo m enos de los supuestos es falso y debería descartarse. A la larga podrem os eventualm ente com eter erro res ad h irien d o a dicha regla estricta, ya que sabem os que inclu so con u n a m oneda sesgada podem os e sp e ra r o b ten er 10 caras u n a vez so b re 1 024, sim plem ente p o r casualidad. S em ejante re gla no nos ay u d ará a d eterm in a r la corrección de n u e stra deci sión en relación con u n experim ento p a rtic u la r cualquiera, p ero las leyes de las probabilidades nos dicen exactam ente qué pro porción de veces podem os e sp e ra r to m a r decisiones correctas a la larga. E n cierto sentido, n u e stra fe se fu n d a m ás en el p ro cedim iento q ue seguim os que en la decisión q u e form ulam os en cada ocasión p artic u la r. Y dicho pvoc&d&fiti&ttto nos proporcion a rá decisiones correctas la m ayoría de las veces, aunque no podam os e sta r absolutam ente seguros de decidir co rrectam ente en u n a ocasión concreta cualquiera. 3. Selección d e u n nivel d e significación y de una región crítica. Désete u n p u n to d e vista ideal, las decisiones del investigador deberían to m arse con an terio rid ad al experim ento o al análisis efectivos de los datos. A p a r tir de su conocim iento de la d istri bución de m uestreo, selecciona u n grupo de altern ativ as las cua les, caso de p roducirse, le obligarían a d esc artar su s supuestos. E stos resu ltad os im probables se designan com o la región crítica. Asi, pues, divide los resultados posibles en dos c a te g o ría s: a ) aquellos en cuyo caso d esc artará (la región crítica ), y b ) aq u e llos que, de p roducirse, no le p e rm itirán d escartar. Con objeto de p o d er estab lecer u n a región crítica, h a de decidir dos aspectos adem ás de la elección de u n m odelo y u n a hipótesis. P rim ero ha de d ecidir los riesgos que está dispuesto a asu m ir d e in c u rrir en los erro res de tipos I y II. Y en segundo lu g ar h a de decidir si desea o no que su región crítica incluya am bas colas de la dis trib u ció n de m uestreo. Según se indicó en el capítulo v m , se h a n de to m a r en consi deración dos tipos de erro res posibles. El p rim ero consiste en d e sc a rta r u n g rupo de supuestos en re alid ad correctos. El tipo de e rro r II, en cam bio, im plica el no d e sc a rta r supuestos en re a lid ad falsos. S obre la b ase de la distribución de m u estreo pueden d eterm in a rse ex actam ente las probabilidades de que se p ro duzcan determ inados resultados si los supuestos son efectiva m en te correctos. Si el investigador decide que d esc artará cada vez que se produzca u n d eterm inado n ú m ero de resultados im p ro b ab les (digam os cero caras o diez c a ra s), entonces, si los supuestos son correctos, com eterá u n e rro r de tipo I cada vez que obtenga u n o de los resultados en cuestión. La p ro b ab ilid ad de com eter u n e rro r de ese tip o es igual a la sum a de pro b ab ilid ades de cada u n o de los resultados _en el in te rio r d e la región. Así, p o r ejem plo, si la región crítica consta de cero a diez caras, la p ro b ab ilid ad de e r ro r de tip o I será de 2/1 024, o sea .002. Si se escogiera u n a región crítica m ás am plia, el riesgo de dicho tip o de e rro r sería m ayor. S upóngase que se d ecid iera d e sc a rta r los supuestos si se o b ten ían cero, u n a, nueve, o diez caras. E n este caso la pro b ab ilid ad del e rro r del tip o I sería de (1 + 1 + 10 + 10)/1 024, o sea .022. La p ro b ab ilid ad de co m eter u n e rro r de tip o I se designa com o nivel de significan cia y p u ed e p o n erse a cu alq u ier valor deseado. Antes de exam inar los criterio s posibles p a ra decidir acerca del nivel de significancia, hay que decir algo a p ro p ó sito de los erro re s d e tip o II. E n vista de n u e stro exam en a n te rio r de la falacia consistente en a firm a r el consecuente, es m anifiestam ente in co rrecto sacar la conclusión de que si determ inados supuestos no se d ejan d e sc a rta r h a n de ser, e n consecuencia, ciertos. E n efecto, o tro g rupo de supuestos p u d o h a b e r llevado igualm ente a u n a distrib u ció n de m u estreo con la que se p o d ría h a b e r llega do a conclusiones sim ilares. P or ejem p lo : si la v erd ad era p ro bab ilid ad de caras fu e ra de .51 en lu g ar de .50, entonces la dis trib u ció n de m u estreo sería casi id én tica a la^ que calculam os. P o r consiguiente, p ro b ab lem en te se h a b ría elegido la m ism a re gión, y la decisión en cu an to a d e sc a rta r o no h a b ría sido la m ism a. Y sin em bargo, en rigor, la hipótesis de p = .5 sería falsa y d ebería en realid ad descartarse. Y si n o estuviéram os en con diciones de hacerlo, n o estaríam os sin em bargo dispuestos a co n sid erarla com o la ú n ica h ip ó tesis co rrecta, y a que hay u n n ú m ero adicional d e hipótesis que tam poco p o d ría descartarse. D ecidim os sim plem ente que "no debiéram os d e sc a rta r” n u e stra hipótesis. In clu so si en u n p lan conservador rechazam os a c e p ta r u n a hipótesis, nos g u staría, con todo, e sta r en condiciones de elim i n a r cu an tas falsas hipótesis h ubiera. E n este sentido com etem os u n e rro r siem p re q u e dejam os de d e sc a rta r u n a hipótesis falsa. ¿Y qué pued e decirse a p ro p ó sito de la p ro b ab ilid ad de in c u rrir en u n e rro r de tip o II? D esgraciadam ente n o es ta n fácil calcu la r los erro res de tip o I I com o es el caso con los de tipo I. Nece sitam os, pues, ap lazar n u e stro exam en de los m ism os h a sta el cap ítu lo xiv. Conviene, sin em bargo, o bservar u n hecho im por ta n te . Y es que, p a ra cualquier p ru e b a dada, las probabilidades de e rro res de los tipos I y I I son inversam ente proporcionales. E n o tro s té rm in o s: cuanto m e n o r es el riesgo d e u n error de tipo I, ta n to m ayor es la probabilidad de uno de tipo I I . E sto p u ed e verse en n u e stro ejem plo de los lanzam ientos. El lector h a de convencerse p o r sí m ism o que, si se elige u n a región crítica pequeña (digam os cero caras y diez c a ra s), te n d rá m enos p ro babilidades de d e sc a rta r cualquier su p u esto q u e si se sirviera de u n a región m ás com prensiva ( digam os cero, u n a, nueve y diez ca ras). E n el p rim e r caso, si b ien está m enos expuesto a descar ta r su p u esto s ciertos, tiene tam b ién m enos probabilidades de d e sc a rta r los falsos. De ahí que c o rra m ayor riesgo de com eter u n e rro r d e tipo II. Es, pues, im posible reducir sim ultáneam ente los riesgos d e los dos tipos de errores, a m enos que se vuelva a d isponer el estu d io en o tra fo rm a y se seleccionen casos adicionales o u n a pru eb a estad ística d istin ta. E n la p rá c tic a ponem os la p ro b ab ilid ad de e rro r de tip o I a u n nivel determ in ad o (digam os .05) y escoge m os la p ru e b a estad ística q u e m ás reduce el riesgo de e rro r de tip o II. Al elegir e n tre p ru e b as altern ativ as, escogem os aquella q ue tien e u n m odelo apro p iad o y red u ce m e jo r el riesgo de e rro r de tip o II.2 La decisión e n cu an to al nivel de significación a escoger depen de de los costos relativos re su ltan te s de co m eter u n o u otro tip o de e rro r y d eb ería ap reciarse de acuerdo con ello. E n oca siones h ay q ue a d o p ta r u n a decisión p rá ctica conform e al resu l ta d o del experim ento. Un fa b rican te puede decidir in sta la r u n equipo costoso, u n investigador p u ed e decidir e x tra e r o tra m ues tr a y re p e tir su estudio, o las au to rid ad es san itarias pueden decidir si deben o n o in te n ta r u n a vacunación en m asa con u n nuevo suero. E n o tro s casos n o se re q u ie re decisión p rá c tica alguna. U n sociólogo, p o r ejem plo, p u ed e p u b licar sim ple m en te los resu ltad o s de su estu d io e n u n periódico, sin ten er que s o p o rta r las consecuencias d e e r ro r d e u n tip o o del otro. E n situaciones e n las que h ay que to m a r decisiones de carác te r p ráctico la elección de u n nivel de significación re su lta p a r ticu larm en te difícil. E n el ejem plo del lanzam iento, supóngase que la decisión co m p o rta ra el d e ja r de seguir jugando con una m oneda de cuya perfección se sospecha. Si n u e stro ju g ad o r hipo2 Para el examen más a fondo de esta cuestión, véase la sec. XIV.l. tético tu v iera la perspectiva de u n a esposa regañona caso de vol v er a la casa con ios bolsillos vacíos, h a rá bien en d e ja r el juego si existe siq u iera la m ás leve duda a p ro p ó sito de la m oneda. E n tal caso elegiría u n a región crítica am plia, y a que las consecuen cias de un e rro r de tip o I I (e sto es, de seguir ju g an d o si la m o n ed a estab a realm ente sesgada) serían m uy lam entables. Por o tra p a rte , si co rriera el riesgo de in s u lta r a su je fe sosteniendo q u e la m o n ed a estab a sesgada, d esearía e s ta r perfectam en te se guro de ello an tes de a d o p ta r su decisión. E n este últim o caso escogería u n a región crítica m uy pequeña, reduciendo así al m í nim o el riesgo de e rro r de tip o I. Y en fo rm a análoga, si el costo de la vacunación en m asa fu e ra considerable o el suero eventual m en te peligroso, se d esearía e s ta r absolutam ente seguro antes de aplicarlo. D esearíase h a c e r m uy difícil d e sc a rta r la hipótesis n u la de que el suero no p ro d u ce efecto benéfico alguno. Si n o h ay m ás decisión p rá ctica a to m a r que la de publicar o n o los resu ltados de u n estudio, d eb ería seguirse o tra regla general. E n este caso, en efecto, el investigador debería aplicar se a d em o stra r a sí m ism o que está en error o a obtener resulta dos que en realidad no desea obtener. P o r lo regular, p e ro n o siem pre, se establece u n a hipótesis n u la que en realid ad se desea d escartar. Y com o q u iera que al investigador le g u staría e s ta r en condiciones de d escartarla, debería h a c e r la obtención del re su ltad o deseado m uy difícil, sirviéndose p a ra ello de u n a re gión crítica m uy pequeña. H ay ocasiones, en cam bio —y llam am os la atención del lecto r al resp ecto —, en que n o se desea realm en te d e sc a rta r la hipótesis nula. Así, p o r ejem plo, la hipótesis n u la p u ed e a d o p ta r la fo rm a d e u n a p redicción en el sen tid o de que n o hay diferencias reli giosas o de clase en cuanto a la ta sa de fecundidad. Si se desea realm en te estab lecer tales diferencias, debería escogerse u n a re gión crítica m uy pequeña, haciendo el d escarte de la hipótesis n u la m uy difícil. P ero supóngase que el investigador desea real m en te d em o strar que tales diferencias n o existen. Tal vez tra te de d em o strar que algunas teorías en boga a p ro p ó sito de dife ren cias en m ateria de fecundidad son in co rrectas o inadecuadas. O pued e e sp e rar que dichas diferencias n o existen, de m odo que n o ten g a q ue investigar desde los p u n to s d e vista d e clase o de religión al re fe rir las ta sa s de fecundidad a o tras variables. E n los casos que se acaban de m encionar, el investigador se h alla en cierto sentido del lado falso de la hipótesis y debería e s ta r e n consecuencia in teresad o a n te to d o en re d u cir el riesgo d e e rro r de tip o II. E n o tro s térm inos : debería p reo cu p arse a n te to d o de n o re te n e r la hipótesis n u la de la ausencia de di ferencias si e n re alid ad es falsa. De ahí que al escoger u n a región crític a p eq u eñ a n o siem pre se peque de conservador, haciendo a sí difícil d esc artar u n a hipótesis n u la q u e en realidad se desea reten er. Los niveles de significación com únm ente em pleados en la in v e stig a d o s estad ística son los de .05, .01, y .001. E n vista de lo que se acab a de exponer, el lecto r se h a b rá p ercatad o de que dichos niveles n ad a tienen de sagrado o absoluto. A unque u n a p erso n a fu e ra n o rm alm en te conservadora en el em pleo de los niveles en cuestión, e s ta ría de to d o s m odos en te rre n o m ás fírm e, si realm en te n o deseaba d e sc a rta r la h ip ó tesis nula, adop tan d o ta l vez los niveles .10, .20 o incluso .30, red u cien d o así el riesgo de e rro r de tipo II. Procede h ac er u n a ad v erten cia en relación con la in te rp re ta ción de los re su ltad o s de las p ru e b as de significado, y a que es posible o b tenerlos m ás bien falsos, a u n sirviéndose del nivel .001 y cuando se desea el descarte. Las p ru e b as de significado nos dicen cu án p ro b ab le u n g ru p o dado d e re su ltad o se ría si ciertos su p u esto s fu e ran verdaderos. H ay varios facto res que determ i n an la p ro b ab ilid ad de que estem os en co n d id o n es d e d e sc a rta r dichos supuestos. E l p rim e ro de ellos es el g rad o re al d e falta de p ro p ied ad de los supuestos. Si, p o r ejem plo, la v erdadera p ro b ab ilid ad de caras es .9, es m uy p ro b ab le q u e estem os en condiciones de d e sc a rta r la h ip ó tesis de que p sea .5, p o rq u e po dem os o b ten er efectivam ente u n a p ro p o rció n suficientem ente g rande de caras p a ra te rm in a r e n la región crítica. P o r o tra p arte , si la v erd ad era p ro b a b ilid ad es .53, es m enos p ro b ab le q u e obtengam os los re su ltad o s extrem os necesarios p a ra el d escarte. E l n ú m ero de casos es o tro fa c to r im p o rta n te en la d eterm in a ción de cuán extrem os d eban ser los re su ltad o s a n tes de que el d escarte sea posible. Con sólo 10 lanzam ientos o casos ya vimos que se req u ieren resu ltad o s m uy extrem os p a ra p o d e r d escartar. P ero si N es grande, la proporción de éxitos sólo necesita h acer la h ip ótesis p a r a d ife rir de p en m uy poco p a ra que estem os au torizados a h acerlo. Si la m o n ed a se lan zara al a ire 10 m il veces en lu g ar de 10, estaríam o s e n c o n d id o n es de d e sc a rta r la hipó tesis si obtuviéram os, p o r ejem plo, 5 200 ca ras o m ás. E n o tro s térm in o s : en el su p u esto de q u e p es exactam ente u n a m itad , o sea .5, 5 200 caras o m ás en 10 m il lanzam ientos serían m ás im p robables que 10 ca ras e n 10 lanzam ientos, pese a que los resul tados no sean ni con mucho- ta n extrem os. E sto concuerda, p o r supuesto, con n u e stra m ay o r fe in tu itiv a en grandes m u estras y con la inteligencia de que, en caso de m u estras m uy pequeñas, p o d rían o c u rrir con frecuencia resultados extrem os debidos al m ero azar. Y en fo rm a análoga, con u n a selección de 10 m il p e r sonas podríam os o b te n e r diferencias m u y pequeñas en las tasas d e fecundidad e n tre las m u jere s d e las clases m ed ia e inferior, y estar, con todo, en condiciones de d e sc a rta r la h ip ó tesis nula en el sentido de que no hay diferencia alguna en la población. Con u n n ú m ero m u y grande d e casos resulta casi siem pre posible descartar cualquier falsa hipótesis q u e pudiéram os fo rm u lar, in d ep en d ien tem ente de cu án to p u ed a d ife rir el valor de nues tr a h ip ó tesis del verdadero. E sto significa que si tenem os 10 m il casos, no d eb erá so rp ren d ern o s m ucho que estem os en condicio nes de d esc artar al nivel .001, y deberem os gu ard arn o s d e com u n ic a r n u e stro hallazgo com o si fu e ra m uy im p o rtan te. E n efecto, no d ebe confundirse la significación estad ística con la práctica. La significación estad ística sólo puede decirnos que ciertas dife ren cias d e m u estras n o o cu rrirían con m u ch a frecuencia p o r azar si n o h u b ie ra diferencias cualesquiera en la población. N ada nos dice, e n cam bio, en cu a n to a la m agnitud o la im p o rtan cia de di chas diferencias. P o r lo tan to , u n fa c to r suficientem ente grande p a ra p ro d u c ir diferencias estad ísticam en te significativas en una m u e stra p eq u eñ a es m ás digno de atención que u n fa c to r que sólo p ro d u ce pequeñas diferencias de las que ún icam en te puede d em o strarse q ue son significativas estad ísticam en te con una m u e s tra m uy grande. Si el estudio co m p o rta u n gran n ú m ero de casos, n o s interesam os p o r lo re g u la r p o r o tras clases de pro b lem as que las p ru e b as de significación. E sta cuestión se ex am in ará m ás a fondo en el capítulo xv, cuando trate m o s de m e didas de g rad o de relación. P o r el m om ento, b a ste señalar que la significación estad ística n o im plica necesariam ente diferencias im p resio n an tes o de las q u e son im p o rtan tes p a ra el sociólogo. Antes de p o d er d e te rm in a r la región crítica hay que a d o p tar o tra clase de decisión. H ay cierto n ú m ero de resu ltad o s o de gru p o s de resu ltad o s cuya p ro b ab ilid ad pu ed e se r m en o r que el nivel seleccionado d e significación. Así, p o r ejem plo, la pro b ab i lid ad de o b ten er exactam ente ocho caras es d e 45/1 024, o sea .044. P o r lo tan to , sería posible, au n q u e n o m uy sagaz, decidir recha z a r la h ip ó tesis n u la e n caso de darse exactam ente ocho caras, y n o rech azarla en o tro caso. L a p ro b a b ilid ad de e rro r de tip o I sería así de .044. La elección de sem ejan te región crítica, sin em bargo, apenas te n d ría sentido teóricam ente, ya que p o r lo re g u la r se vacilaría aú n m ás en cu an to a a c e p ta r la hipótesis n u la si fu e ran a sa lir nueve o diez caras, pese a q u e estas a lte r n ativ as no co rrespondieran a la región crítica. Casi siem pre te nem os in teré s en servirnos p o r lo m enos de u n a cola e n te ra de la d istrib u ció n . E n efecto, n o nos in tere sa la pro b ab ilid ad de ob te n e r exactam ente ocho caras, sino la p ro b ab ilid ad de o b ten er ocho o m ás caras, esto es, la p ro b ab ilid ad de o b ten er ocho ca ra s o algo incluso m ás insólito todavía. P ero, ¿ p o r q ué n o in clu ir en la región crític a cero, u n a y dos caras, ya que dichas altern ativ as son ta n im probables com o las de ocho, nueve y diez c a ra s? A m enudo no estam os en condicio n es de p re v e r en qué dirección puedan p ro d u c irse los resu ltad o s insólitos. E n n u e stro ejem p lo sólo podem os sospechar que la m oneda esté sesgada, p e ro podem os n o te n e r indicio alguno* en cu an to a si está influida en favor de las caras o de las cruces. Además, esto puede acaso n o im p o rtam o s. E n ta l caso desea ríam os e s ta r seguros y servim os de am bos extrem os de la d istri bución de selección. P orque, si nos sirviéram os de u n a región crítica de sólo ocho, nueve y diez caras, entonces, en caso de 005 F ig . X .l. Com paración de las regiones críticas de pruebas de una sola cola y d e dos colas, em pleando el nivel de significación de .05 o b ten er exactam ente u n a cara, nos en contraríam os en la situa ción desdichada de n o p o d er d e sc a rta r la hipótesis n u la aun siendo falsa. S in em bargo, h ay c ierto n ú m ero de ocasiones en las que o es tam os en condiciones de p re d ecir la dirección de la desviación, o nos interesam os a n te todo p o r las desviaciones en u n a sola dirección. Así, p o r ejem plo, u n a inform ación p revia p u ed e h a b ernos llevado a p re d ecir q u e la m oneda está a lterad a en favor de las caras. O podem os e s ta r ju g an d o cada vez a cruz, de m odo que, sí la m o n eda está afectad a en favor d e ésta, n o necesitam os ten er m iedo alguno de seguir el juego. E n estudios m ás reales, p o r o tra ‘p arte , re su lta a m enudo posible p re v er la dirección so b re la b ase de la te o ría o de estudios previos. P udo h ab erse p re dicho, p o r ejem plo, que los católicos te n d ría n fam ilias m ás n u m erosas q ue los p ro testan te s. Si se está in teresad o en dem os t r a r que la teo ría de u n o es correcta, sólo se h a rá n p ru eb as de significación cu an d o los resu ltad o s se pro d u cen en la dirección prevista. Si se p ro d u cen en sentido contrario, en cam bio, n o se necesita h a c e r p ru eb a, ya que los dato s n o confirm an de todos m odos la teoría. S iem pre que se haya p redicho la dirección, las p ru e b as de u n a sola cola serán preferibles, al m ism o nivel de significación, a las de dos, ya que será posible o b ten er u n a cola m ayor concentrando la región crítica e n te ra en el extrem o apro p iad o d e la d istrib u ción de m uestreo. E sta v e n ta ja de la p ru e b a de u n a sola cola se ilu stra en la fig u ra X .l en relación con el caso de u n a d istri bución de m u estreo, lisa, que o ste n ta la form a de u n a curva n o r m al. E n dicha figura, las probabilidades de com eter u n e rro r de tipo I son las m ism as en am bos casos, ya que las dos regiones críticas son del m ism o tam añ o (m edidas en térm inos de áreas). Sin em bargo, si los resu ltad o s o cu rren efectivam ente en la di rección p revista, el investigador te n d rá m ás probabilidades de d e s c a rta r la hipótesis sirviéndose de u n a p ru e b a de u n a sola cola, ya que existe m ayor p ro b ab ilid ad de caer e n la región crítica en la dirección en cuestión. E n efecto, si la v erd ad era p robabili dad está en la dirección prevista, el riesgo de com eter u n e rro r de tip o I I es m en o r que sirviéndose de u n a p ru e b a de dos colas. A estas altu ra s el lecto r n o h a de esp e ra r p o d e r com prender in tu itiv am en te las relaciones e n tre los e rro res de tipo II y las p ru e b as de u n a y dos colas. E n efecto-, m uchas de estas nocio nes m ás b ien difíciles sólo se irá n aclarando u n a vez que se hayan exam inado algunos ejem plos prácticos. El trata m ien to m ás de tallad o de los e rro re s de tip o I I h a de aplazarse h a sta el capí tu lo XIV. P a ra co n c retar en el p re se n te ejem plo, escojam os el nivel de .05 y sirvám onos de u n a p ru e b a de dos colas. La región crítica c o n sta rá e n este caso de las altern ativ as cero, una, nueve y diez caras, ya q ue la inclusión de altern ativ as adicionáles au m en taría la p ro b ab ilid ad de u n e r ro r de tipo I m ás allá del nivel de .05. E n n u e stro ejem plo, el nivel de significación realm en te em pleado será el de (1 + 1 4-10 + 10)/1 024, o sea .022. E n o tro s casos en que la distrib u ció n de m u estras es m ás b ie n continua que dis creta, se rá posible servirse del nivel exacto deseado (v.gr., .05, .0 1 ,0 .0 0 1 ). 4. Cálculo de la estadística de la prueba. Es siem pre necesario calcu lar lo que se designa com o estad ística de la pru eb a, cuya d istrib u ció n de selección h a de em plearse en la pru eb a. H asta aq u í sólo hem os tra ta d o con estadísticas tales com o las p ro p o r ciones de las m u estras, las m edias y las desviaciones están d a r, que son d irectam ente com parables con las m ism as cantidades en la población y pu eden u tiliza rse com o m edidas p a ra re su m ir los datos. La estad ística d e la p ru e b a es u n a estad ística que p o r lo re g u la r n o posee in terés en sí m ism a p o r lo que se refiere a la descripción, p ero que se em plea p a ra verificar hipótesis. Es la estad ística que co ntiene la distribución d e m u estreo la que se u tiliza d irectam en te en la pru eb a. E n o tro s térm in o s: calcula m os de los datos de la m u e stra u n a ca n tid ad que varía de m odo conocido conform e a la te o ría de las probabilidades. C om para m os luego su v alo r con la distrib u ció n de m uestreo, y adoptam os u n a decisión evaluando la p ro babilidad de su ocurrencia. P or su puesto, son m uchas las cantidades que pueden calcularse so b re la b ase de los dato s de las m uestras, p e ro sólo u n pequeño n ú m e ro de ellas tien e distribuciones de m u estreo conocidas q ue p u ed an u tilizarse con fines de verificación de hipótesis. E n este ejem plo de la p ru e b a binom ial, la estad ística de p ru e b a es ta n sencilla, que casi n o vale la p en a de llam ar la atención del lecto r al respecto. E n efecto, es sencillam ente el nú m ero de éxitos en N ensayos y no re q u ie re cálculo u lte rio r alguno. E n conexión con o tro s problem as, en cam bio, la estad ística de la p ru e b a h a b rá de calcularse. E n el caso de la p ru e b a binoxnial, hem os d ejad o que r to m ara todos los valores posibles, d e cero a N , y hem os luego asociado probabilidades con cada valor. Su pongam os que en este p roblem a concreto, que com porta 10 lan zam ientos, el n ú m ero de éxitos (c a ra s) re su lta se r ocho. Posee m o s ah o ra to d a la inform ación necesaria p a ra ad o p tar una decisión. 5. A dopción de una decisión. D espués de h a b e r elegido su re gión crítica y de h a b e r calculado su estad ística de prueba, el investigador d esc artará o n o d esc artará los supuestos según el re su ltad o del experim ento. Si el re su ltad o queda d en tro de la región crítica, descartará, con u n a p ro b ab ilid ad conocida de e rro r de tip o I. Y si aquél no cae en la región crítica, no d escartará los supuestos, asum iendo el riesgo de com eter u n e rro r de tipo II. E n el p re sen te ejem plo, com o q u iera que el re su ltad o de ocho caras no cae e n la región crítica, no d esc artará la hipótesis nula según la cual la m oneda es insesgada. Desde u n p u n to de vista ideal, to d as las decisiones anteriores a los pasos 4 y 5 deberían to m arse an tes de p ro c ed er a la tabula ción de los resultados. A m enudo, en la lab o r exploratoria el investigador exam inará p rim ero sus datos y pro ced erá luego a h acer p ru eb as de significación. A unque esto sea a veces necesa rio, hay que observar, con todo, que siem pre que o c u rra así n o se están re sp etan d o p o r com pleto las reglas del juego. E n tales casos sería p referib le n o p re te n d e r que se está procediendo real m en te a la verificación de hipótesis. De todos m odos, los resul tad o s p o d rían exponerse en fo rm a sugestiva, y cualquiera que p ro sig a el estu d io e sta rá así en condiciones de efectu ar pru eb as estad ísticas legítim as. ^Los com entarios que preceden po d rán p a re c e r excesivam ente rígidos y am biciosos, dado el c a rá c te r de exploración de gran p a rte de la investigación sociológica. Sin em bargo, el a u to r cree que es p referible fija r u n a "conciencia estad ística" estricta, no d ejan d o la im presión de que las cosas puedan h acerse de cual q u ier m odo. E n efecto, a m enos que se ad opten las decisiones con an terio rid ad al analisis de los datos, no puede hacerse legí tim am en te u so de la teo ría de las probabilidades, ya que el aná lisis es esencialm ente ex post fa d o . Y lo m alo de los análisis ex p o st fa d o está en que el experim ento puede disponerse de tal m odo que el investigador no tenga m an era de p erd er. Supóngase, p o r ejem plo, que haya decidido, a tientas, servirse del nivel de significado .05. Si encu en tra que sus resultados son significativos al nivel de .07, puede decidir d e sc a rta r sus hipótesis de todos m odos. P ero, supóngase que h a n sido significativos a los niveles .09 o .13 o .18, ¿dónde h a b rá que h acer alto? O tra m anera de h a cer tra m p a consiste en e sp e ra r h asta después del experim ento p a ra d ecidir si hay que servirse o no de u n a p ru e b a de u n a cola. E n tal caso, en efecto, si los resultados dan m ás caras que cru ces, se decide sim plem ente que hubo de h ab e rse utilizado u n a p ru e b a de u n a cola, ya que subconscientem ente se está antici p an d o u n a inclinación en favor de las caras. De este m odo, cual q u iera que sea la dirección de la desviación, se puede o b ten er u n a región crítica m ayor que con u n a p ru e b a de dos colas. X.3. Aplicaciones de la binom ial La prueba del signo. Supóngase que u n sociólogo se está sir viendo de un sim ple esquem a "antes-y-después” o “sólo-después” del experim ento, en el que se da u n pequeño nú m ero de casos y en el que sólo está en condiciones de d eterm in a r p a ra cada u n o d e ellos si su experim ento h a dado o n o resultados.3 Puede, p o r ejem plo, desear sab e r si la experiencia o btenida en un cam po in terra cial es o no eficaz en cuanto a re d u c ir los prejuicios fijos c o n tra los negros. S om ete sus investigados a u n a p ru e b a de p re juicios, an tes y después de la experiencia, y está e n condiciones de ap reciar si el tipo de p reju icio en cuestión h a dism inuido o no. Indiquem os con un + ("éx ito ") los casos en los que el p rejuicio se h a reducido, y con u n — ("fracaso ” ) aquellos en que el p re ju icio h a aum entado. Si hay personas que no m u estran el m e n o r cam bio, éstas qu ed arán excluidas del análisis. A m enos que la m edición haya sido m uy bu rd a, dichas p erso n as serán relati vam ente pocas.4 La binom ial requiere el supuesto de independencia de los ex p erim entos. P or lo tanto, el sociólogo su p o n d rá que su grupo experim ental constituye u n a m u estra aleatoria de la población a cuyo p ro p ó sito se p ro p o n e generalizar, y que en tre los p a rtic i p an tes no se h a p roducido influencia m u tu a alguna, o sólo poca, en cu an to a las m arcas de prejuicio. Supongam os que lo que tra ta de estab lecer es que la experiencia en un. cam po es real m en te eficaz en cu an to a re d u cir los prejuicios. Como q uiera q ue esto no puede hacerse directam ente, puede fo rm u lar la hipó tesis nula en el sentido de que la experiencia n o su rte efecto. Sí efectivam ente no pro d u ce efecto, entonces, si se som etiera a u n a experiencia sem ejante la población e n tera de la que se ex tra jo la m u estra, habríam os d e e sp e ra r en c o n trar el m ism o núm ero de 3 Para el examen de este y otros tipos da esquemas de experimento véa se [6,], 4 El problema de empate o no cambio resulta particulannente molesto en el caso de las variables ordinales, y será discutido en los caps, xiv y xvm. Para una explicación más amplia véase Bradley [3], cap. ni. p erso n as cuyo p re ju ic io se re d u jo y de aquellas cuyo preju icio au m en tó . E n o tro s té rm in o s: deberíam os te n e r las m ism as p ro porcio n es de signos m ás y signos m enos. Com o q u iera que cada m iem b ro de la población tien e la m ism a p o sibilidad de fig u ra r en u n a m u e stra aleatoria, la probabilidad de o b ten er u n + e n u n a extracción d eterm in ad a cualquiera será de .5 b a jo la hipótesis nula. Así, pues, u n su p u esto acerca de la proporción de signos + en la población p erm ite, si se lo co m b in a con el supuesto' del azar, en u n c ia r algo acerca de la pro babilidad de éxitos e n u n ensayo determ in ad o cualquiera. El azar aseg u ra al p ro p io tiem po la independencia de los experim entos. P erm ítasen os in sistir u n a vez m ás e n que es necesario form ular su p u esto s ta n to acerca d e la población com o acerca del m éto d o d e m uestreo. E n el p re se n te ejem plo, el in teré s se c e n tra e n la eficacia de la experiencia, esto es, en la p ro p o rció n d e éxitos en tre la población. P o r lo tanto, el sociólogo se ase g u rará de que se sirve de p ro cedim ientos correctos p a ra o b te n e r u n a m u e stra aleato ria. Si e n éste hay ocho personas, la distribución d e m u estreo de éxitos sería com o sig u e: N? de éxitos Probabilidad 0 1 2 3 4 5 6 7 8 V 258 = .004 8/ 256 = -031 23/256 = -109 w/sM = .219 TO/ 258 — -274 B8/ 256 = -219 “ / aM = .109 8/ 256 = .031 V M8 = .0W 1.000 Supongam os q u e el sociólogo q u iere em p lear u n nivel de signifi cación d e .05. Com o q u iera que la dirección se h a anticipado, p u ed e u tilizarse u n a p ru e b a de u n a sola cola. La región críti ca p u ed e d eterm in a rse acu m ulando pro b ab ilid ad es a p a r tir de ocho éxitos, luego siete, etcétera, h a s ta que la su m a re su lte m ayor q u e el nivel de significación. P o r lo re g u la r n o será necesario o b te n e r la distrib u ció n de m u estreo en tera, ya que en realid ad sólo se em plean las colas p a ra d e te rm in a r la extensión de la re gión crítica. E n el p re se n te caso, la p ro b ab ilid ad de ocho éxitos es de .004; la p ro b ab ilid ad de siete u ocho éxitos es de .035, y la de seis, siete u ocho éxitos es d e .144. Como q u ie ra q u e la sum a d e las p ro b abilidades de los re su ltad o s en el in te rio r de la re gión crítica ha de se r m en o r que, o igual al nivel de significación seleccionado, vem os que la región crítica sólo puede co n star de siete u ocho éxitos. Supóngase que el sociólogo efectúa el experim ento y en cu en tra que en seis casos el p rejuicio h a dism inuido, en ta n to que h a au m en tad o en los o tro s dos. E n consecuencia, no d escartará la h ipótesis de que el experim ento no es eficaz, ya que la probabili d ad de o b ten er dicho resultado, o inclusive u n o m ás insólito, es m ay o r que .05. La prueba en el caso de ausencia de azar. E n el ejem plo ante rio r se supuso azar y el interés se ce n trab a en la proporción de éxitos e n tre la población. E n otros tipos de problem as se po d rá te n e r inform ación acerca de la p roporción de personas que reú n en determ inadas características en u n a población, p ero pue de ex istir u n a cuestión acerca de la selectividad. Así, p o r ejem plo, p ued e disponerse u n a p ru e b a p ara v er si los profesionales están o n o rep resen tad o s con exceso en los consejos, o si los negros no están bien rep resen tad o s en el ju rad o . Supóngase que u n al calde designa a nueve personas p a ra u n a com isión, pretendiendo q u e son rep resen tativas, en el sentido de que todos los adultos tienen las m ism as probabilidades de se r elegidos. Es sabido que el 35 p o r ciento de la clase laboral son oficinistas y, con todo, de los nueve m iem bros de la com isión seis son oficinistas; puede utilizarse u n a p ru e b a binom ial p a ra d eterm in a r el grado de p ro b ab ilid ad de sem ejan te distribución profesional en el supuesto d e selección al azar. E n este problem a p artic u la r, la p robabili d ad de éxito p o r d eb ajo de la hipótesis n u la sería de .35, y la distrib u ció n de selección no sería sim étrica. C onsideraríam os cad a u n a de las nueve posiciones de la com isión com o ensayo. La p ro b ab ilid ad de o b ten er com o p rim e r com isionado a u n ofi cin ista sería de .35, y análogam ente p a ra cada u n a d e las ocho posiciones restan tes. O tros em pleos de la binom ial. Adem ás de los citados an terio r m ente, la binom ial p u ed e utilizarse en cierto nú m ero de otros tipos de problem as. E n ocasiones pueden utilizarse m edidas de posición, tales com o la m ediana o los cuartiles, p a ra p erm itim o s v erificar si u n a p equeña su b m u estra d e p erso n as es significativa m en te d istin ta de lo que esperaríam os en caso de azar. De una m u e stra grande es posible o b ten er u n a apreciación m uy buena de la distrib u ció n de los ingresos en relación con u n a ciudad de term in ad a. Si los datos sólo se h an obtenido de seis arm enios y si seis de estas p ersonas ss encuentran en el cuartil inferior, p o dem os efectu ar u n a p ru e b a p ara v er qué grado de probabilidad rev iste esto, a condición, p o r supuesto, de a d o p tar las decisiones con an terio rid ad al experim ento.15 Como q u iera que p o r definición 5 Necesitamos tener un número muy grande de casos, con objeto de obte ner una apreciación exacta de la medida de posición (v.gr., Q ^. En otro u n c u a rto de la población se e n c o n tra rá en el c u a rtil inferior, la d istrib u ció n b inom ial p ro p o rcio n a la p ro b a b ilid ad de ob ten er u n a d eterm in ad a p ro p o rció n de la su b m u estra p o r deb ajo del c u a rtil de población, en el su p u esto de que dicha su b m u estra co n stitu y a esencialm ente u n a m u e stra al az ar d e la población m ayor. Así, p o r ejem plo, com o q uiera que la p ro b ab ilid ad de que cual q u ier p erso n a d eterm in a d a se en c u en tre en el c u a rtil in ferio r es de .25, la p ro b a b ilid ad de o b te n e r exactam ente seis arm em os en el c u a rtil in ferio r se rla : ««-(!) O tam b ién w = ( !) 21 m r - (t)W= 16 384 1 16 384 Com o q u iera que necesitam os o b ten er la p ro b a b ilid ad de conse g u ir seis o m ás éxitos, sum am os estas probabilidades y te n e m o s : 21 + 1 P( 6) + P (7 ) = ---------= .0013 16 384 O tro em pleo d e la binom ial p o d ría c o n sistir en c o m p ro b a r el ca rá c te r adecuado d e u n a teo ría que p re d ije ra co rrec ta m e n te la dirección de ciertas diferencias en, p o r ejem plo, 11 d e 15 p ru e b as independientes. P ara que dichas p ru e b as fu e ra n indepen dientes, deberían c o m p o rta r m u estras distin tas. Así, p o r ejem plo, u n a de las m u estras p o d ría c o n sta r d e jóvenes varones p ro testan te s, o tro de jóvenes m uchachas p ro testan te s, o tro de v arones católicos d e m ás edad, etcétera. C ada u n a d e las sub m u estras p o d ría s e r dem asiado p eq u eñ a p a ra p ro p o rc io n a r sig nificación estad ística separadam ente, pero, si las su b m u estras se h u b iera n seleccionado independientem ente, p o d ría em plearse leg ítim am ente u n a binom ial p a ra av eriguar si u n n ú m ero sufi cien te d e sü b m u estras d ab a o n o re su ltad o s en la dirección esti m ad a. C ada su b m u e stra c o n stitu iría e n ta l caso u n ensayo, y la p ro b ab ilid ad de q u e en u n ensayo p a rtic u la r cu alq u iera el r e su ltad o fu e ra en la dirección e stim ad a sería de .5 con base en la hip ó tesis nula, en el sen tid o de q u e la te o ría n o ten ía ab so lu ta m en te n ingún v alor d e estim ación, esto es, e n el sentido de que estim a la dirección erró n eam en te con la m ism a frecuencia q u e lo caso, en efecto, habrá un grado de error suficiente en dicha apreciación para requerir el empleo de una prueba de dos muestras. La razón de ello se verá claramente una vez que se hayan expuesto las pruebas de dos muestras en el capítulo xm. hace co rrectam ente. O bsérvese q u e sem eja n te p ru e b a n o p o d ría em p learse si se to m a ra n 15 observaciones sobre la b ase de la m ism a m u e stra de personas. * X.4. Extensiones del binomio Son varios los posibles m étodos p a ra am p liar el plan team ien to b ásico ejem plificado con el em pleo d e la d istrib u ció n binom ial. Aun cu an d o dichos m éto d o s no son usados con frecuencia e n las p ru e b as estad ísticas de las ciencias sociales, debe al m enos cono cerse su existencia. La p rim e ra de ellas es la d istrib u ció n multinominal, utilizable en situaciones e n que se d an m ás d e dos cla ses de eventos. H em os v isto y a que si hay k clases d istin tas de eventos, y si r, es el nú m ero de eventos e n la z-ésima clase, resu l ta rá que el n úm ero de p e rm u ta s p a ra dichos eventos v en d rá dado p o r la expresión N \ / r x \r2\ ■. .rk\. Si los eventos son estad ística m en te indep en d ientes y las pro b ab ilid ad es de o b ten er las distin ta s clases de eventos vienen dados p o r pit con i = 1,2, . . . k, y con k 2 p i = 1, en tal caso la p ro b ab ilid ad d e o b ten er exactamente r L í=i eventos del tip o 1, r 2 eventos del tip o 2, . . . y rk eventos k e n al gún orden particular se rá : (P iP iP i ■■■) (P2P2P 2 • • • ) ■ • • (PkPkPk ■■■) = P ir'P'f* ■ • • Pk* V_______________ ) \ _______ ._______ I Y Y V_______________ J V rt térm ino s r2 térm in o s rh térm inos Si m ultiplicam os esta expresión p o r el n ú m ero de p erm u ta cio nes, obtendrem os la fó rm ula P ( r lt r2, N\ rk) = — — ------------ p / i p 2r* ... pf* ri'.r2l . . . r lc\ Es im p o rtan te o b serv ar que esta fó rm u la nos d a la p ro b ab ili d ad de o b ten er exactamente el n ú m ero especificado de eventos d e cada tipo. Supongam os p o r ejem plo q u e tenem os conocim ien to de q ue u n a escuela contiene 50 p o r ciento de caucásicos, 30 p o r ciento de negros y 20 p o r ciento de o rientales. ¿Cuál es la p ro b a b ilid ad de que el " p rim e r equipo" de fú tb o l contenga exactam en te 3 caucásicos, 7 negros y 1 oriental, b a jo el su p u esto de q u e la com posición racial del eq u ip o e stá su je ta a u n proceso de selec ción p u ra m e n te gobernado p o r el azar? U tilizando la distrib u ció n m ultinom ial, te n d re m o s : P( 3 ,7 ,1 ) = - H L (.5 )3( .3)»(.2)1 = .007 3 !7 !1 ! E ncontram os inm ediatam ente u n a dificultad que crea com pli caciones en el u so de la distribución m ultinom ial e n las pruebas estadísticas. No re su lta obvio en m uchos casos cóm o puede es pecificarse sin am bigüedad u n grupo de soluciones que sean m ás "in frecu en tes” que la ya obtenida. E n este ejem plo se dan varias clases de com binaciones “insólitas". Veam os las sig u ie n te s: el equipo pued e n o c o n tar con negro alguno, o n o in clu ir orientales, p ero ¿qué re su ltad o cae en la región crítica? Si es posible espe cificarlo, p o d rá idearse u n a p ru e b a correcta. Si reunim os por ejem plo a los caucásicos con los orientales, podríam os intere sarnos p o r la p ro b ab ilid ad de o b ten er siete o m ás negros en el equipo. P ero en este caso, com o en otros m uchos, estaríam os utilizando la distribución binom ial y no la m ultinom ial. R esulta posible u n segundo tip o de m odificación de la binom ial cuando se h a estad o m u estrean d o sin reposición u n a población relativa m ente pequeña. Si u n a población de tam año M contiene Aíj ele m entos del tip o 1, M2 elem entos del tip o 2, y, en general, M¡ elem entos del tipo i, y si los tam años correspondientes de la m u estra son N y N it la probabilidad de o b ten er exactam ente N lt N 2, . . . N k casos de cada tipo viene dada p o r lo que se denom ina distribución hipergeom étrica, a sa b e r: P ( N v N 2 ........ N Si deseam os p o r ejem plo d eterm in a r la p ro babilidad de obte n e r exactam ente seis espadas, seis tréboles y u n diam ante en una m ano de b rid g e de tre s ca rtas (to m ad as al azar, p ero sin repo sición), ten d ríam o s: P( 6 ,6 ,1 ) = lo que re su lta u n núm ero sum am ente pequeño. T ropezaríam os de nuevo con la m ism a dificultad al especificar las alternativas que pueden ser consideradas “m ás ra ra s ” que la a n te rio r p a rtic u la r com binación. E n el capítulo xv harem os u n a p ru e b a exacta de F ish er p a ra 2 x 2 tablas, b asad a en la distribución hipergeom étrica, en la que se incluyen sólo dos tipos de eventos. Se observ ará p o r últim o que la distribución binom ial puede ser aproxim ada p o r o tras distribuciones cuando la m u e stra total sea tan grande que haga que los cálculos resu lten aburridos. C uando N es grande y p tiene un valor interm edio, con el p ro d u cto N p > 5, cabe acercarse al binom io m ediante u n a d istribu ción norm al, en cuyo caso podrem os utilizar pru eb as basadas en proporciones de éxitos. E stas pru eb as serán p re sen tad as e n los cap ítu lo s x i y x m . Se d a a veces el caso de que el tam añ o de la m u e stra sea m o d erad am en te grande, en ta n to que p es m uy pequeño (o sum am en te g ra n d e). P or ejem p lo : p (o q ) puede re fe rirse a u n aconte cim ien to poco usual, ta l com o el c o n tra e r u n a en ferm ed ad o suicidarse. Si planteam os el p ro b lem a de m odo que p se re fie ra a la p ro b ab ilid ad de aquel ra ro evento, de m odo que p < q, y si N p < 5, p o d rá calcularse aproxim adam ente el binom io, haciendo u so d e la d istribución de Poisson, p o r m edio de la siguiente fó rm u la : P( r ) = ■ l re ~ X rl en la que r se refiere al nú m ero de éxitos en N in te n to s : ?. = Np, y e es la co n stan te n a tu ra l, aproxim adam ente igual a 2.718. H ay tab las p a ra h a lla r los valores de r! y de e ~ x (véase Spiegel [8 ]), m ed ian te cuyo em pleo se reduce el tra b a jo del cálculo. P a ra ilu s tra r el em pleo de la aproxim ación de Poisson, supon gam os que la p ro b a b ilid ad de se r a rre sta d o en u n a localidad de te rm in a d a es de .06, p ero que en u n m u estreo de 50 japonesesn o rteam erican o s ad u lto s sólo u n o de éstos h a sido arrestad o . E n ta l caso N p = 3.0 y ílg -3 P W = ---^---= 3e-8 De m an era análoga P (0 ) 3®e-* 0! en la que convencionalm ente definim os 0! com o la un id ad . Al o b jeto de o b ten er la pro b ab ilid ad de que u n o o m enos de los jap o n eses-n o rteam ericanos sea detenido, sum arem os P ( l ) y P ( 0), o b ten ien d o P ( l ) + P (0 ) = 4e~s = 4(.0498) = .199 X.5. Sum ario E ste capítulo contiene u n a can tid ad considerable de ideas, n u e vas y fu n dam entales, adem ás de exam inar el m ecanism o de la p ro p ia distrib u ción binom ial. E n el capítulo siguiente h ab rem o s de d iscu tir de nuevo, con cierta am plitud, m uchas de estas ideas co m plem entarias, ta n to b a jo la fo rm a de hipótesis acerca de las m edias, com o en función de o tras dos distribuciones de m u estras. P o d rán o b servarse las im p o rtan tes sem ejanzas que se dan en los pasos o rientados a p ro b a r las hipótesis, y en los conceptos gene rales que h an sido p resentados en este capítulo. R evisem os és tos de nuevo, brevem ente. R esulta en p rim e r lugar necesario fo rm u lar algunos supuestos, tanto acerca d e la población que va a ser estu d iad a com o en re la ción con el m étodo de m u estreo de dicha población. U tilizando tales supuestos y la teo ría de las probabilidades, podrem os hacer afirm aciones específicas acerca de los resultados, con referencia a la hipótesis nula. E n el caso del binom io, p o r ejem plo, aquellos supuestos h acen posible asignar u n valor num érico específico (p o r ejem plo, p = .5) a las probabilidades de éxito de u n a prueba determ inada. P ara to m a r decisiones en cu an to a la región crítica (es d ecir: el g rupo de soluciones p a ra las cuales rechazarem os H q), necesitam os o b ten er lo que se denom ina u n a distribución del m uestreo, es d ec ir: u n a pro b ab ilid ad de distribución que asigna u n a p ro b abilidad num éxica específica a cada solución o a cad a g rupo de soluciones. D ecidirem os a continuación lo relativo al nivel de significación, q ue es la p ro b ab ilid ad de rech azar la hipótesis n ula cuando ésta es en realid ad v erdadera (u n e rro r tip o I). Idealm ente debe h a ' cerse esta decisión evaluando los costos de u n e rro r tip o I p o r com paración con los de u n e rro r tip o II , n o rechazando H 0 cuan do en realid ad es falsa. Al decidir adem ás h ac er uso de una p ru e b a de u n a o de dos colas, queda d eterm in ad a n u e stra región crítica. E ste g rupo de resultados a excluir se en cu en tra acum u lan d o las probabilidades, com enzando con los resultados m ás extrem os y m oviéndose hacia el centro, h a sta que la sum a re su l ta n te de p ro b abilidades sea ligeram ente m en o r que el nivel de significación (p o r ejem plo, .05). Vemos entonces los datos, com putam os la estad ística de p ru e b a (p o r ejem plo, el núm ero de éxitos), y tom am os n u e stra decisión. Si el re su ltad o cae dentro de la región crític a nos verem os obligados a rech azar H n, sa biendo que com eteríam os u n e rro r tip o I con u n a probabilidad igual a la del nivel de significación seleccionado. Si el resu ltad o n o cae d en tro de la región crítica, n o rechazam os la hipótesis, corrien d o en este caso el riesgo de com eter u n e rro r tipo II. Aun cuando es difícil (com o verem os en el cap ítu lo xiv) deter m in ar con exactitud la p ro babilidad de com eter u n e rro r tipo II, pues ello depende de h a sta qué p u n to sea falsa n u e stra hipótesis nula, sabem os que, p ara u n a m u estra de tam año fijo, cuanto m en o r hagam os el riesgo de com eter u n e r ro r tipo I, ta n to m a y o r será el de com eter uno del tipo II. G losario Distribución binomial Región crítica Distribución hipergeométrica Modelo versus hipótesis Distribución multinomial Pruebas de una y de dos colas Distribución de Poisson Distribución de muestras Nivel de significación E jercicios 1. En 11 lanzamientos de una moneda insesgada, ¿cuál es la probabi lidad de obtener exactamente cuatro caras? ¿Exactamente siete caras? ¿Menos de tres caras? Respuesta, P(4) = 330/2.048. 2. Supóngase que la moneda del ejercicio anterior está sesgada y que la probabilidad de obtener cara es en realidad. 6. Sin efectuar los cálculos, indíquese de qué modo esto afectaría cada una de las pro babilidades anteriores (esto es, si las aumentaría, las reduciría o las dejaría inalteradas). Respuesta, menor de P(4) 3. Supóngase que se quiere verificar la hipótesis nula, en el sentido de que la moneda es insesgada, echando 11 lanzamientos. Indíquese la región crítica que se utilizaría: a) paî una prueba de dos colas al nivel de .05. Respuesta: 0, 1, 10 u 11 caras b) para una prueba de dos colas al nivel de .10 c) para una prueba de dos colas al nivel de .01 d) para una prueba de una sola cola al nivel de .05, anticipando que P (cara) > .5. Respuesta: 9, 10 u 11 caras. e) para una prueba de una sola cola al nivel de .10, anticipando que P(cara) < .5. 4. En una localidad determinada, el 10 por ciento de la población es judía. Un estudio de los consejos de directores de diversas agen cias de servicios indica que de un total de siete presidentes de los consejos cuatro son judíos. ¿Qué probabilidad existe de que esto pueda deberse al azar? En éste y los demás ejercicios que comportan verificación de hipótesis, indíquense los razonamientos y enumérense los supuestos adoptados. Respuesta, P = .0027. 5. Un psicosociólogo tom a 12 grupos que dispone por pares según la estatura. Tiene así seis pares de grupos, en los que cada par de un grupo constituye un grupo experimental y el otro el grupo de control. El experimento comporta un intento de aum entar la cohesión de los grupos, y el experimentador está en condiciones de apreciar si el gru po experimental es o no m ás coherente que el grupo de control con el que ha sido apareado. ¿Cómo puede servirse de la binomial para verificar la hipótesis nula en el sentido de que el experimento es ine ficaz? En este problema han de indicarse todos los supuestos reque ridos, calcularse la distribución de muestreo y proceder a la elección de una región crítica. * 6. Supóngase que se está estudiando un pequeño grupo de 12 per sonas y se desea verificar la hipótesis de que cuanto mayor es el grado de conformación a las normas del grupo tanto más elevada es la posición de la persona en el grupo. En relación con ambas va riables (conformación y posición) sólo se está en condiciones de apre ciar si el individuo está por encima o por debajo de la mediana. ¿Cómo se utilizaría la binomial para verificar la hipótesis nula de que no existe relación alguna entre dichas variables? No se deje de indi car el razonamiento. * 7. Supóngase que sabemos que la probabilidad de que se cometa suicidio entre un grupo de cierta edad es .003. Se ha descubierto que en una m uestra seleccionada al azar, de 1200 indios navajos del mis mo grupo de edad, no ha habido suicidios. ¿Cuán probable es que esto haya sucedido por pura casualidad? B ibliografía 1. Alder, H. L., y E. B. Roessler: Introduction to Probability and Statistics, 4‘ ed., W. H. Freeman and Company, San Francisco, 1968, cap. 6. 2. Anderson, T. R., y M.Zelditch: A Basic Course in Statistics, 2ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 11. 3. Bradley, J. V.: Distribution-free Statistical Tests, Prentice-Hall, Inc., Englewood Cliffs, N. J., 1968, caps. 3 y 7. 4. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva York, 1963, cap. 5. 5. Pierce, Albert: Fundamentáis of Nonparametric Statistics, Dickenson Publishing Company, Inc., Belmont, Cal., 1970, caps. 9 y 12. 6. Selltiz, C., M. Jahoda, M. Deutsch, y S. W. Cook: Research Methods in Social Relations, Henry Holt and Company, Inc., Nueva York, 1959, cap. 4. 7. Siegel, Sidney: Nonparametric Statistics for the Behavioral Scien ces, McGraw-Hill Book Company, Nueva York, 1956, pp. 36-42. 8. Spiegel, M. R.: Theory and Problems of Statistics, Schaum’s Outline Series, McGraw-Hill Book Company, Nueva York, 1961, cap. 7. 9. Tables of the Binomial Probability Distribution, National Bureau of Standards, Applied Mathematics Series, Núm. 6, 1950. X I. PR U EB A S D E M U E ST R A S S IM P L E S Q U E IM PLIC A N M E D IA S Y P R O PO R C IO N E S E n este capítulo nos ocuparem os de verificación de hipótesis acerca de las m edias y las proporciones de poblaciones. La m e dia o la pro p o rció n de u n a m u estra obtenida de u n a sola de éstas se co m p arará con el p a rá m e tro de la hipótesis y se decidirá si ésta debe o n o d escartarse. El lecto r no ta rd a rá en d escu b rir que las p ru eb as de la fo rm a exam inada en este capítulo tienen m ucho m enos u tilid ad p rá ctica que las que co m portan v arias m u estras. A estas altu ra s, sin em bargo, im p o rta m ás o b te n e r u n a b u en a com prensión de las ideas fundam entales que preocu p a rse excesivam ente p o r las aplicaciones prácticas. P or desgra cia, las p ru eb as m ás sencillas no siem pre son las m ás útiles. Se re c o rd a rá que las pru eb as estadísticas que incluyen la binom ial se servían de la regla de la m ultiplicación p a ra o b ten er u n a d istrib u ció n de m u estreo. Pudim os v er en esta fo rm a exactam en te de qué m odo se utilizaba la teo ría de las probabilidades p a ra conseguir dicha d istribución. De aquí en adelante, las considera ciones m atem áticas se van haciendo cada vez m ás com plicadas, a ta l p u n to que, pese al hecho de que sería deseable com prender lo que hay d etrás de cada argum ento, el lecto r h a b rá de em pezar a a c e p ta r cada vez m ás enunciados con la g aran tía de la palabra. Sin duda, hay p ru eb as m atem áticas disponibles, p ero la m ayoría de ellas n ecesita del cálculo o incluso de u n a prep aració n m a te m ática considerablem ente m ayor. X I.1. D istribución en m u estreo de las m edias Un teo rem a relativam ente notable, se b a sa en los m ism os princi pios y reglas de p robabilidades que la binom ial, p ero no se deja co m p ro b ar en u n texto com o éste. Dicho teo rem a puede en u n ciarse así: S i d e una población norm al d e m a g n itu d N con una m edia de \x.y una variancia de cr2 se extraen reiteradas m uestras al azar, la d istribución ¡de selección d e las m edias d e las \muestras será norm al, con la m edia ^ y la variancia o 2/N . E xam inarem os cu idadosam ente lo que dice el teorem a del lím ite central. P artim o s p rim ero de u n a población n orm al, a sabiendas, p o r su puesto, de que en la vida re al sem ejan te población p erfec ta m en te n o rm al n o existe. Nos im aginam os luego a nosotros m is m os extrayendo de la población en cuestión u n nú m ero m uy gran d e de m edias de m ag n itu d N al azar.1 P a ra cada u n a de di chas m u estras obtenem os u n a m edia X . P o r supuesto, estas m fr i No se confunda el número de muestras (que es infinito) con el tamaño de cada una de ellas ( N ). dias de las m u estras v aria rán algo de u n a a o tra de ellas, pero esperam os, con todo, que se am o n to n arán a lre d ed o r d e la ver d ad era m ed ia p, de la población. E sto es lo que n o s dice el teore m a del lím ite central. Dice que si dibujam os u n a gráfica de la distrib u ció n d e dichas m u estras, el re su ltad o se rá u n a curva n o r m al. P o r o tra p a rte , la desviación e stá n d a r d e esa d istribución F ig . X I.1. C om paración de las distribuciones norm ales de m u estreo para m uestras d e tam año d iferen te n o rm al de las m edias d e las m u estras será de cr/V N . P o r consi guiente, cu an to m ay o r sea el tam añ o escogido de m u estra, tan to m en o r será la desviación e stá n d a r en la d istrib u ció n de las m ues tra s , esto es, ta n to m ayor será el agolpam iento de las m edias de éstas (véase fig u ra X I.l). Si consideram os las m edias d e las m ues tra s com o apreciaciones de la m edia de la población, podem os d ecir que hay c ie rta ca n tid ad de e r ro r en n u e stro proceso de es tim ación, debido a fluctuaciones del m uestreo. P or consiguiente, designam os la desviación e s tá n d a r de u n a d istrib u ció n d e m ues treo com o error estándar. E n e ste caso, el e r ro r e stá n d a r de la m edia, in d icado sim bólicam ente com o o-, es o /\/~ Ñ 7 E l le c to r h a de te n e r claram en te p re se n te que se h allan im pli cadas tre s d istribuciones d istin tas, dos de las cuales acontecen se r ex actam en te norm ales. E n efecto, prim ero tenem os la pobla ción, de la q u e se p re su m e que es norm al, con u n a m edia d e n y u n a v arian cia de o2 [e sc rita en adelante, p a ra abreviar, com o N or(\i, d*)]. E n segundo lugar, tenem os u n a d istrib u ció n de dato s en el interior de cada m uestra. Si N es grande, e s ta distribución será p ro b ab lem en te con to d a razón rep resen ta tiv a de la pobla ción y pu ed e ser, p o r consiguiente, aproxim adam ente norm al. O bsérvese q ue ésta es la única d istribución que se obtiene en fo r m a efectivam ente em pírica.2 Y en tercer lugar, tenem os la distri- 2 Como quiera que ésta es la distribución que el investigador ve efectiva- bución de selección de u n a estad ística (en este caso, la m edia). Acabam os de v er que la distrib u ció n de m u e stra de la m edia será asim ism o norm al, p ero te n d rá u n a desviación están d a r m enor q u e la población (a m enos q u e el tam añ o de la m u e stra N sea u n o ). La relació n e n tre la población y la d istrib u ció n de m u estreo pued e verse en d iagram a en la figura XI.2. C uanto m ayor sea la Fig. XI.2. C om paración en tre las distribuciones de la población y d e la m u e stra m ag n itu d N de la m u estra, m ás pun tiag u d a se rá la distribución de selección, com o p u ed e verse en la fig u ra X I. 1. H ay q u e ten er c laram en te p re sen te que, pese a que sus desviaciones e stá n d a r se relacionan directam ente, constituyen, con todo, distribuciones com p letam en te d istin tas. T odos los "caso s’' de la distribución de m u estreo son m edias d e m u estras distin tas. Como e ra cierto en el caso de la binom ial y com o lo será en to d as las dem ás p ru e b as estadísticas, es m ás b ien la distribución de m u estreo y n o la p ob lació n original la que se u tiliza d irectam en te en las p ru e b as de significación. Los supuestos a p ro p ó sito de la población pue d en ap a rec er en el m odelo. M ediante la te o ría de las p ro b ab i lidades los enunciados acerca de la población y de los m étodos d e m u estreo se trad u c en en enunciados acerca de la d istrib u ción de m u estreo. E n resum en, las m edias y las desviaciones e stá n d a r de las tres clases de d istrib u ción son com o sigue: Desviación Media estándar Población {i o M uestra X s Distribución de m uestreo fx a /y / N mente, puede haber propensión a confundir esta dase de distribución con la de muestreo. El teo rem a del lím ite cen tral concuerda con la intuición del sentido' com ún e n que, suponiendo que se hayan evitado d isto r siones, pued e tenerse m ás confianza en la apreciación de la m edia de u n a m u e stra grande que de u n a peq u eñ a.3 Dice, en efecto, que las m edias de las m u estras v aria rán m enos de u n a m u estra a o tra si N es grande. P ero constituye, con todo, u n refinam iento considerable con resp ecto al sentido com ún, en cu an to p ro p o r ciona una indicación de cu á n ta m ás confianza deberíam os ten er si N es au m en tad o e n u n a ca n tid ad determ inada. Así, p o r ejem plo, podem os v er que p a ra p a r tir el e rro r están d a r p o r la m itad necesitam os h ac er N c u a tro veces m ayor. Nos dice asim ism o que cu an to m ás hom ogénea es la población, p a ra em pezar, esto es, cu an to m ás pequeño es el v alor de a, ta n to m en o r es el e rro r están d a r a / y / N y ta n to m ayor el agrupam iento de las m edias de las m u estras alre d ed o r de la m edia de la población. * Puede o frecerse u n a justificación teórica de este im p o rtan te teorem a in tro d u cien d o la idea de las com binaciones lineales, de la que h arem os uso m ás adelante en varias ocasiones. Una m edia es en realid ad u n a función lineal sim ple de las puntuaciones X u 1 ya que X = — (X x + X 2 + . . . + X N). P uede m o strarse , en form a m ás generalizada, que si tenem os u n a variable Y que es u n a com b inación lineal cualquiera de las X {, y si esta X f h a sido selec cionada independientem ente, com o o cu rre cuando sacam os al azar u n a sim ple m u estra, podrem os o b ten er expresiones sim ples de la m edia (v alo r esp erad o ) de Y, y p a ra la variancia de Y. E specíficam ente, si y = cjX j + c2x + C3X 1 + . . . + c¡fX]f y si las X t son seleccionadas independientem ente, entonces E ( Y ) = CíECTí) + c2E ( X 2) + . . . + cnE ( X n ) y V ar Y — a ,/ = câ * * + c 22ax22 + . . . + a ^ a ^ 2 * E n el caso de las m u estras al azar, el v alor esperado de cada X { es [x. Si situam os cada cy = l / N , entonces Y p asa a conver tirse en la m ed ia de la m u estra, y te n d re m o s : 3 Obsérvese que tenemos más confianza en apreciaciones basadas en grandes muestras; sin embargo, al descartar una hipótesis al nivel de .05, asumimos el mismo' riesgo de un error de tipo I, independientemente de la magnitud de JV. Como veremos dentro de poco, la extensión de la región crítica utilizada en la prueba toma en consideración la magnitud de la muestra, lo que explica la incongruencia aparente. £ ( X ) = £ ( F ) = ^ - i - J [ 1i + | i + . . . + n ] = ^ ( W í*) = u y = —- [ o2 + o2 + . . . + o®] 1 La ú ltim a fó rm u la es consecuencia del hecho de que la varíancia de cada X t es ju sto a2, ya que estam os tra ta n d o en casos in dividuales seleccionados con igual p ro b a b ilid ad de e n tre u n a población con variancia a2. V ista intuitivam ente, la idea es que si rep etim o s u n experim ento consistente e n sac ar el " p rim e r” caso u n g ra n n ú m ero de veces, la distribución de estos p rim ero s casos será ap ro x im adam ente Ñ o r (ji, a2). Lo m ism o o c u rriría con u n a sacad a re p etid a d e segundos casos, etcétera. E l teorem a del lím ite central. E stam os a h o ra en la posibili dad de fo rm u la r u n teo re m a m ás general, conocido con el nom b re de teo rem a del lím ite central, com o sigue: S i se extraen diversas m u estra s de m agnitud N al azar de una población cual quiera ( de la fo rm a que sea ) con una m edia de y una variancia de o2, entonces, a m edida que N crece, la distribución de m ues treo d e las m ed ia s de las m u estra s se aproxim a a la norm alidad, con la m edia \jl y la variancia <j®/N. E ste teo re m a es m ás n o tab le todavía que el anterior. Dice, en efecto, q u e p o r m uy n o tab le que sea la d istrib u ció n de la que p artim o s, a condición que N sea lo b a sta n te grande, podem os c o n ta r con u n a d istrib u ció n de m u estreo aproxim adam ente n o r m al. Como q u iera que es la d istribución de m u estreo , y n o la po blación, aquella de que nos servim os en las p ru e b as de significa ción, e s to significa que, siem pre que N es grande, podem os ab a n d o n a r p o r com pleto el su puesto acerca de la no rm alid ad de la p o blación y seguir sirviéndonos en n u e stra s pruebas, con todo, de la cu rva norm al. E l lecto r h a de tr a ta r de convencerse de que la ley de los grandes n ú m ero s tien e sentido* em pírico. La m e jo r m an era de o b ten er u n a b u en a com prensión de lo que el teo rem a del lím ite cen tral significa, y de convencerse al p ro p io tiem po u n o m ism o de q ue el e rro r e stá n d a r es realm en te a / y / N , consiste en e x tra e r u n n ú m ero de m u estras de u n a población d e m edia y desviación e s tá n d a r conocidas, calcu lar las m edias, h a lla r la desviación es- tá n d a r de las m u e stra s y co m p arar el re su ltad o obtenido con c¡/\ZÑ ~.4 ¿ P o r q u é d e b e ría la distribución de m u estreo hacerse norm al si la d istrib u ció n original no lo es? Echem os u n a ojeada P 2 3 4 Fig. XI.3. D istribución d e la población de las probabilidades de o b ten er caras de 1, 2, 3, 4, 5 o 6 con u n dado perfecto a u n a pob lación que diste de se r norm al y veam os qué ocurre a m ed id a q ue v am os to m an d o m u estras m ayores. Im agínese q u e estam os ech an d o algún dado m atem ático ideal, con el cual las p ro b a b ilid ad e s d e o b ten er cada u n a de las seis F ig . XI.4. D istribución d e m u estreo de las m edias de las caras, con dados p erfec to s y m u estra s d e tam año 2 caras son exactam ente 1/6. La d istribución de p ro b ab ilid ad p ara la ju g ad a de u n solo dado es e n este caso rectangular, es d ecir: todos los núm eros (d e 1 a 6 ) tienen la m ism a posibilidad d e ocu rrir. E ste tip o de d istribución fo rm a u n c o n tra ste pronunciado -i Véase el ejercicio 1 al final del capítulo. con la d istrib u ció n norm al, en la que los valores extrem os son m enos probables que los que quedan m ás próxim os a la m edia. S em ejan te d istribución rectan g u lar puede re p resen ta rse com o e n la fig u ra XI.3. E n rigor, p o r supuesto, la distribución sería discreta, y n o continua com o parece indicarlo el diagram a. Fig. XI.5. D istribución d e m uestreo d e las m edías de las caras, con dados p erfecto s y m uestras de tam año 3 Si consideram os u n a distribución sem ejan te com o población de to d as las ju g adas posibles del dado, calculem os la d istrib u ción de m uestreo de las m edias de m u estras de tam añ o 2. E sto significa q ue hem os de ech ar dos dados, su m ar los valores de las caras y dividir e n tre 2. Como bien lo saben los jugadores experi m en tad o s del “c ra p ”, esas sum as van d e 2 a 12, siendo 7 el valor m ás p robable. Al tr a ta r d e o b ten er las probabilidades d e ocu rren cia de cada u n a de dichas sum as, observem os p rim ero que h ay ( 6) ( 6) o sean 36 resu ltad o s posibles si los dados son d istin tos. Así, pues, el p rim e r dado puede ca er con cada u n a de las ca ras h acia arrib a, y lo p ro p io puede h a c e r el segundo. P ara o b ten er la pro b ab ilidad de conseguir u n a sum a de m arcas de 7 y, p o r lo tan to , u n a m ed ia d e 3.5, sólo necesitam os c o n ta r el n ú m ero de m aneras en que dicho re su ltad o pu ed e producirse. Ob viam ente, h ay seis p ares que pueden d a r u n a m arca de 7, a sa b e r : (1,6), (2,5), (3,4), (4,3), (5,2) y (6,1). Una sum a de 6 sólo pued e o b ten erse d e cinco m aneras d is tin ta s : (1,5), (2,4), (3,3), (4,2) y (5,1). Y en fo rm a análoga, sólo hay u n a m an era de o bte n e r u n a su m a de 12 ( 6,6) o u n a sum a de 2 (1,1). P or consiguien te, la distribución de la pro b ab ilid ad de las m edias puede re p re sen tarse com o s ig u e : Media Probabilidad Media 1.0 1.5 2 .0 a/36 4 .0 4.5 B/ s e V so 5 .0 5.5 6 .0 3/.86 25 2/ 36 s / 36 4/ 36 3 .0 5/ 30 3 .5 **/36 Probabili 2/ 86 v 36 36/36 Si se la re p re se n ta e n fo rm a de gráfica, esta d istrib u ció n asum e la fig u ra de u n triángulo (fig u ra X I.4). Si se ju eg a con tres dados, se sum an las caras y se obtienen las m edias, la d istrib u ció n de m u estreo será com o sigue: Media Probabilidad Media Probabilidad 1.00 1.33 1.67 2 .0 0 2.33 2.6 7 3 .0 0 3 .33 V 216 216 V 2I 6 10/ 218 3.67 4 .0 0 4.33 4 .6 7 5.0 0 5.33 5 .6 7 6.00 27/ 216 25/ 216 15/ 216 21/ 216 25/:216 27 21 g 21/ 216 15/ 21g 10/ 216 6/ 21 G 3/ 216 216 a le / 216 E s ta d istribución, com o p u ed e ap reciarse en la fig u ra XI.5 em pieza ya a acercarse a la fo rm a de la curva n orm al, pese a que el tam añ o de la m u e stra n o sea m ás que 3. Después de u n exa m en aten to d e las cifras an terio res, el lecto r e s ta rá e n condicio nes de co m p ren d er in tu itiv am en te lo que o cu rre y p o r qué se va obteniendo u n a cu rv a en fo rm a cad a vez m ás p ro n u n ciad a de cam p an a a m ed id a que la m ag n itu d de N au m en ta. E n efecto, si bien con u n a sola ju g ad a es tan p ro b ab le sac ar u n 6 com o u n 3 o* u n 4, y de hecho dos 6 son ta n p robables com o dos 3, sólo hay, con todo, u n a m an era de o b te n e r dos 6, e n tan to que hay cierto n ú m ero de m an eras d istin tas de o b ten er u n pro m ed io de 3.0 en dos o m ás jugadas. E n lenguaje com ún decim os que los g randes n ú m eros tienden a se r com pensados p o r pequeños, sobre to d o si N es grande. XI.2. Prueba para la m ed ia d e la población, conociendo a Veam os ah o ra cóm o el teorem a del lím ite cen tral y la ley de los grandes núm eros pueden ap licarse en las p ru e b as estadísticas. P a ra em pezar, vam os a to m a r el m odelo m ás sim ple posible con fines de ilustración. Como quiera que algunos de los supuestos req u erid o s en este m odelo no son prácticos, se ab an d o n arán m ás adelante. Se tra ta rá u n a vez m ás con cierto detalle cada uno de los cinco pasos exam inados en el capítulo x, con o b jeto de que el lecto r se vaya fam iliarizando con el proceso de d esarro llar p ru eb as estadísticas. Problem a. Supóngase que un investigador está in teresado en v erificar la pro piedad de los procedim ientos de m uestreo em pleados en u n estudio local, realizado p o r entrevistadores sin experiencia. El investigador en cuestión sospecha que los ingre sos correspondientes de las fam ilias de las clases m edia y. supe rio r p u ed an h ab e r sido subestim ados, esto es, que hayan tenido m ayor pro b ab ilidad de ap a rec er en la m u e stra que los d e las fam ilias de ingresos m ás bajos. Se dispone de datos del censo que m u estran que el ingreso fam iliar m edio de la localidad es de $ 7 500 y la desviación e stán d a r de $ 1 500. Una encuesta m ás re d u cid a com prende 100 fam ilias, que se suponen seleccionadas al azar, y se en cu en tra que el ingreso fam iliar m edio de esta m u estra es de $ 7 900. ¿Tiene razón el investigador al sospechar que la m u e stra estab a distorsionada? 1. A dopción de supuestos. Con o b jeto de p o d er servirse del teo rem a del lím ite central, hay que a d o p ta r ciertos supuestos. Como ya se indicó an terio rm en te, h a de h a b e r siem pre u n su puesto a p ro p ó sito del m étodo de m uestreo. E n el p resen te caso, suponem os que éste se h a hecho al azar. E n realidad, éste es el sup u esto que nos in te re sa verificar, y a q u e sospecham os de la h ab ilid ad de la perso n a que efectuó la en cuesta en cuanto a d ar a todas las fam ilias u n a o p o rtu n id ad d e selección igual. P resum i blem ente, estam os dispuestos a a c e p ta r ciertos supuestos acerca de la población, a sa b e r: que los datos del censo son m ás fide dignos. Si no podem os a c e p ta r las cifras de éste, entonces ten d re m os p o r lo m enos dos supuestos dudosos, y la in terp retació n de los resu ltad o s se h a rá excesivam ente difícil. E n consecuencia, n u e s tra hipótesis será la de m uestreo al azar. En cu an to a los dem ás su p u esto s relativos a la población, éstos co n stitu irán el m odelo. Si N no es dem asiado grande, se req u iere u n a población n o r m al. Aquí se p lan tea la cuestión de sa b e r: “¿cuán grande h a de se r N p a ra que podam os d e ja r el su p u esto de norm alidad y ser virnos del teo rem a del lím ite ce n tral?’' N o existe u n a resp u esta sencilla a dicha cuestión, y la respuesta depende, e n tre o tr o s : 1 ) d e qué grado de precisión se desea acerca de la apreciación de la p ro b ab ilid ad de e rro r de tip o I, y 2 ) de cuál grado de aproxi m ación poseem os resp ecto de u n a población norm al. Pese a que haya que se r cau to a p ro p ó sito de las sim ples reglas prácticas, p u ed e su g erirse que, si N 3 100, el supuesto de norm alidad puede casi siem pre tu rn arse. Si N 3: 50 y se tiene adem ás evidencia em p íric a e n el sen tid o de que la desviación con resp ecto a la n o rm a lid ad no es im p o rtan te, entonces pu ed en tam b ién u tilizarse p ru e b as del tipo exam inado en la p re se n te sección. P ero si N < 30, en cam bio, h a b ría que g u ard arse decididam ente del em pleo de sem e ja n te s p ru eb as, a m enos q u e se sepa que la aproxim ación a la n o rm alid ad es buena. C uando se em plean m u estras pequeñas, suele p o r lo re g u la r carecerse de sem ejante inform ación, ya que n o h ay casos suficientes en la m u e s tra p a ra in d icar la fo rm a de d istrib u ció n de la población. P o r lo tan to , en el caso d e m u estras pequeñas d eb erían p o r lo re g u la r em p learse o tro s tipos de p ru e bas. Supongam os en el p re sen te p ro b lem a que podem os servir nos legítim am ente del teorem a del lím ite cen tral. Como sabem os, las d istrib u cio n es relativas al ingreso suelen se r e n general algo disto rsio n ad as. P o r o tra p a rte , tenem os u n a m u e stra razonable m en te grande. A dicionalm ente a los supuestos anteriores, si vam os a servim os del teo rem a del lím ite cen tral necesitam os a c e p ta r asim ism o las cifras del censo relativas a [i y o y su p o n er u n a escala de in te r valo. Tenem os, p o r tan to , los siguientes su p u e sto s : N ivel de m e d ic ió n : escala de intervalo M odelo: población n o rm al (p u ed e ab a n d o n arse ) H = $ 7 500 c = $1500 H ip ó tesis (n u la ): selección al azar. 2. O btención d e la distrib u ció n de m uestreo. A fortunadam ente, la lab o r de o b ten er la d istrib u ció n de m u estreo nos la dan ya hecha. Como q uiera que sabem os que la distrib u ció n d e m u estreo d e las m edias de las m u estras es n orm al o aproxim adam ente norm al, podem os i r directam en te a la tab la norm al. E n adelan te, las d istrib u ciones de m u estreo se d arán siem p re en fo rm a de tab las del A péndice 2. Im p o rta te n e r p resen te, sin em bargo, que dichas tab las se h an calculado sirviéndose d e la teo ría de las p ro b abilidades. Es ta n fácil, en efecto, p e rd e rse en detalles d e cálculo, q ue se llega a olvidar que cuando en n u e stra s pru eb as estad ísticas nos servim os de tab las nos estam os sirviendo en re a lid ad de u n a d istrib u ció n de m uestreo. 3. Elección de u n nivel de significación y d e una región crítica. La elección del nivel de significación apropiado depende, p o r su puesto, de los costos relativos que im plican los e rro re s de tipos I y II. Si el in vestigador d eja de d e sc a rta r la hipótesis d e selec ción al azar cu an d o la m u e stra no está efectivam ente equilibrada, co rre el riesgo de in fo rm a r hallazgos falaces. P or o tra p a rte , si se d escarta cuando la hipótesis es realm en te cierta, p u ed e te n e r que re p e tir la encuesta, con los gastos considerables que ello p u ed a acaso ac arrear. D esde el p u n to de v ista ideal, h a b ría de a d o p ta r u n a decisión racional b asad a en los costos de dichos dos tipos d e erro r. E n la p ráctica, sin em bargo, e sto le re su lta rá ta l vez difícil. Supongam os, p o r ejem plo, q u e se decide p o r u n nivel d e .05. A continuación d eb ería decidir serv irse de u n a p ru e b a de u n a sola cola, y a q u e la dirección del sesgo s e h a estim ado. Si F ig . X I.6. D istribución norm al de m uestras, con área achurada representando una región crítica de una sola cola al nivel d e significación de .05 re su lta ra que la m edia de la m u e stra e ra in fe rio r a $ 7 500, difícil m en te sosp ech ará q u e los que realizaron la encuesta hayan sobreseleccionado los grupos de ingresos m edio y su p e rio r.6 D ada la elección del nivel de .05 y de u n a p ru e b a de u n a sola cola, la re gión c rític a se d eterm in a p o r la ta b la n orm al. Como q u iera que so lam en te el 5 p o r ciento del á rea de la cu rv a n orm al se sitú a a la d erech a de u n a o rd e n ad a de 1.65 desviaciones e stá n d a r m a y o r q u e la m edia, sabem os que, si el re su lta d o su p era la m ed ia [i e n m ás de 1.65 desviaciones están d a r, la hipótesis h a d e descar ta rs e (véase fig u ra X I.6 ). 4. Cálculo de la estadística de la prueba. S abem os q u e si todos los su p u esto s son correctos, la d istrib u ció n de m u estreo de las X se rá N or(\i, a^/ N). O sea, en los térm inos d e n u e stro ejem p lo : = f 7 500 y/N V I* » Con o b jeto de p o d er serv im o s de la ta b la n orm al, es necesario co n v e rtir a dato s e stá n d a r, o, e n o tro s térm inos, o b ten er u n a estad ística Z que sea Afor(O.l). A nteriorm ente nos servim os de la fó rm u la : s En este problema, los datos de la muestra se han dado en realidad, y Sin embargo, el lector debe pensar que esta decisión pueda efectuarse antes de conocer el resultado. sabemos la dirección del resultado. X -X Z = -----------E sta fórm ula es aplicable en el caso de u na m u estra que sea N o r(X , s2), p ero no en el caso de la distribución de selección. Recordem os, pues, cada uno de los pasos de nu estro procedim ien to. H em os form ulado un a serie de supuestos con o b jeto de obte n e r un a distribución de m uestreo. E sta distribución nos indica cuán probable sería u n a X determ inada si n u estro s supuestos fueran realm ente ciertos. El sociólogo, en cambio, h a obtenido de su m uestreo u n a sola X , y quiere servirse de la distribución de m uestreo teórica p a ra p oder ap reciar la pro babilidad de obtener u n resultado ta n insólito o m ás insólito que su X p articu lar. En efecto, al servirse de la tab la n orm al, opera en realidad con la distribución de m uestreo. E n esta distribución cada _^caso" es u n a X , la m edia es ¡x, y la d esv iación _están dares a /yJN . P or lo tanto, X sustituye a X , sustituye a X , y a / \ / N sustituye a s en la fórm u la an terio r de Z. Tenem os, pues: c /y /Ñ 7 900 - 7 500 150 2.67 E n otros té rm in o s : la m edia de la m u estra es 2.67 erro res están d a r m ayor que la m edia de la población. 5. Adopción de una decisión. Como quiera que X se desvía de la p resu n ta ¡i en m ás de 1.65 desviaciones e stán d a r en la dirección prevista, la hipótesis debería d escartarse al nivel .05. De hecho, sin em bargo, habiendo calculado Z exactam ente, podem os decir m ás que esto. E n efecto, sirviéndonos de u n a p ru e b a de u na sola cola, la probabilidad de ob ten er u n a Z de esta m agn itud o m ayor es de .0038. E n la p ráctica se recom ienda calcular exactam ente el nivel de significación, siem pre que ello sea posible. Al hacerlo así, en efecto, indicam os que el resu ltad o se sitú a en u n a región crítica m ás reducida todavía que la que o riginariam ente se esta bleciera. Como quiera que el lecto r p re ferirá tal vez servirse de un nivel de significación d istinto de aquel del au tor, re su lta p o r lo regular ú til p ro porcionar probabilidades exactas, o lo m ás exactas posibles, de m odo que aquél pueda sacar sus propias conclusiones en cuanto a acep tar o no los hallazgos. E n el pre sente ejem plo, el sociólogo d escartaría la hipótesis nu la de que la m u e stra fue al azar. Y h a b ría de decidir a continuación si q u iere o n o e x tra e r o tra m u estra. XI.3 La d istribución t de S tu d e n t E n la m ay o ría de los casos es to talm en te im p ráctico tr a ta r a o com o si fu e ra conocida. P or lo re g u la r in cu rrim o s en d ificulta des considerables con o b jeto de a se g u rar el ca rác te r fo rtu ito de la m u estra, ya que lo que nos in tere sa en p rim e r térm in o es la com probación de los su p u esto s acerca de la población a estu d iar. E n p ru e b as de la clase que se exam ina en este capítulo, es prob ab le q ue el lecto r desee verificar u n a hipótesis relativ a a [x. P ero si así fu e ra el caso, ¿ e sta rá jam ás en condiciones de conocer el valo r de o? P rácticam en te no. P orque si tu v iera conocimiento* de a, e sta ría tam b ién sin du d a alguna en condiciones de conocer ¡x, a m enos, p o r supuesto, que alguien como, p o r ejem plo, su m aes tr o de estad ística le estuviera d eliberadam ente o cultando in fo r m ación. P o r lo reg ular, pues, n o conocerá los valores ni de ¡x ni de 0. ¿Q ué puede, pues, h ac er en sem ejan te situación? Como q u iera que el teo rem a del lím ite ce n tral co m porta a, n o puede ig n o rar su v alo r p o r com pleto. U na solución p o d ría p arece r con sistir en rem p lazar a p o r s, desviación e s tá n d a r de la m uestra. De hecho, esto es lo que se hacía co rrien tem en te an tes del des a rro llo de la estad ística m oderna. E n efecto, en la fó rm u la de Z, a / \ / N se rem p lazaba sencillam ente p o r s / \ / N y, com o q uiera q ue s p o d ía calcu larse d irectam en te de los dato s de la m u estra, no h ab ía m ás incógnitas e n la fórm ula. Y de hecho, este pro ce d im iento da re su ltad o s razonablem ente buenos cuando N es gran de. Sin em bargo, com o habrem os de v er a continuación, las pro b ab ilid ad es o b tenidas e n esta fo rm a pueden ser to talm en te falaces cu an d o N es relativ am en te pequeño. Veam os p o r qué es así. Podem os co n stru ir u n a estad ística altern ativ a d e p ru e b a c o m o : s/V JV - 1 E sta estad ística fue in tro d u c id a p o r W. S. G osset, que escribía b a jo el seudónim o de " S tu d e n t”, y se conoce con el no m b re de d istrib u ció n t de S tudent. C om parando t con Z, observam os que, en ta n to que los n u m era d o res son idénticos, los denom ina dores difieren, en cam bio, e n dos aspectos, a s a b e r : 1 ) tenem os u n A? — 1 b ajo el radical, y 2) a h a sido* rem p lazad a p o r s. Con o b jeto de co m p ren d er e sta s m odificaciones, exam iném oslas u n a después de otra._ Al hacerlo habrem os de in tro d u c ir algunas ideas nuevas. La desviación están d a r de la m u estra s puede em plearse com o una estim ación de a. Si b ien el p roblem a de la apreciación se tra ta rá en el próxim o capítulo, b a ste m encionar aquí q u e a m enu d o necesitam os que u n a estim ación posea ciertas propiedades. U na de las propiedades de u n a "b u en a” estim ación es que sea insesgada. A hora bien, co n tra riam en te a lo que p o d ría suponerse, re su lta que s n o es u n a estim ación com pletam ente insesgada de a. P uede d em o strarse m atem áticam ente que o tra cantidad, que po dem os designar con c y se obtiene m ediante la fó rm u la 2 (X t - X Y -V- A \ l a: ' « -1 N - 1 es u n a estim ación insesgada de afi La ú n ica diferencia e n tre o y s es el fa c to r N — 1 del denom inador. Así, pues, p ese a que el lecto r h a ap ren d id o a calcular 5, se en c u en tra ah o ra con que debería servirse de o tra fó rm u la al estim a r o. E n el p resen te p ro blem a es m ás b ien a / y / N que a la que h a de estim arse, ya que es la p rim e ra expresión que aparece en el denom inador de Z. Aun siendo cierto q ue a /y /N sea u n a estim ación m en o r de a/ y / N, es posible, sin em bargo, ev itar p o r com pleto el cálculo de 5 si s se h a o btenido ya. O bsérvese que \/N y/N Y reco rd an d o que y / a / y / b puede escribirse com o y / a /b , te nem os : N (N — 1) ■« E n r ig o r , n o e s a, l a e s t im a c ió n e q u il ib r a d a d e a, s i n o q u e a 2 e s u n a e s t im a c ió n e q u i l i b r a d a d e a2. N o te n e m o s p o r q u é p r e o c u p a m o s , c o n to d o , p o r e s t a d i s t i n c i ó n s u ti l . E n e s t e te x to n o s s e r v ir e m o s n o r m a l m e n te d e u n a c e n to c i r c u n f l e j o ( * ) s o b r e u n a l e t r a g r ie g a p a r a i n d i c a r u n a e s tim a c ió n d e l p a r á m e t r o . A lg u n o s te x to s d e f in e n s c o n N — 1 e n e l d e n o m i n a d o r , p e r o p r e f e r im o s p o r n u e s t r a p a r t e m a n t e n e r l a d i s t in c ió n e n t r e l a s d o s f ó r m u l a s . [ I (X i-X m /N i= l 5 y'N -l y/N -í Así, pues, podem os to m a r u n a estim ación algo sesgada de a, divi d ir e n tre u n a can tid ad que es ligeram ente m ás pequeña que y / N , y lleg ar a s /-\/N — 1 com o estim ación insesgada d e a /^ /N . É sta es la razó n de q ue aparezca N — 1 en el denom inador de f.7 Al su s titu ir Z p o r t, la m odificación in tro d u cid a sirviéndonos d e N — 1 es relativam ente pequeña, p e ro la su stitu ció n de a p o r s, en cam bio, pued e re v estir u n significado considerable si N es p e queña. Como q u iera que s v aría de u n a m u e stra a o tra, el deno m in ad o r de t v aría lo m ism o que el n u m erad o r. P ara u n valor dad o de X , si la s de u n a m u e stra p a rtic u la r acontece s e r dem a siado pequeña, entonces t será m uy grande, y si s es grande, t será relativ am en te pequeña. P o r consiguiente, h a b rá u n a m ayor va riab ilid ad e n tre los valores de t que e n tre los valores com para bles de Z. E sto significa que la d istrib u ció n de m u estreo d e í será m ás ap lan ad a que la norm al. P o r lo tan to , la distribución t te n d rá colas m ayores. Qué ta n aplan ad a sea t dependerá de la m ag n itu d de la m u estra. Si N es m uy pequeña, la d istrib u ció n í será m uy p lan a en com paración con la cu rv a norm al. E n o tro s térm in o s: será n ecesario a p a rta rse u n n ú m ero m ayor de desvia ciones está n d a r de la m ed id a p a ra in clu ir el 95 p o r ciento d e los casos. A m edida q u e N crece, la d istrib u ció n t se va acercando cad a vez m ás a la d istribución norm al, p ero perm aneciendo siem p re, sin em bargo, ligeram ente m ás a c h atad a que ésta. Así, pues, hay u n a d istribución t p a ra cada m agnitud de la m u estra. El h echo de que la d istrib u ció n t se vaya acercando a la n o rm alidad co b ra sen tid o in tu itiv am en te si nos dam os cu en ta de que, a m e d id a que N crece, s se convierte en u n a estim ación m uy p recisa de a, de m odo que im p o rta poco que nos sirvam os en el denom i n a d o r de ésta o de aquélla. Con o b jeto de servirnos de la distribución t, hay que suponer un a población norm al, so b re to d o si N es relativam ente pequeña. El cálculo de la distrib u ció n de m u estreo de t req u iere que el n u m era d o r ( X — ¡x) esté n o rm alm en te d istrib u id o y que varíe tam b ién ind ep en dientem ente del denom inador s / y / N — 1. P o r lo general, no esp eraríam os que haya independencia e n tre el nu m e ra d o r y el denom inador, ya que s se calcula en realidad tom ando 7 A lg u n o s t e x to s r e c o m ie n d a n e l e m p le o d e N — 1 p a r a m u e s tr a s p e q u e ñ a s y d e N p a r a l a s g r a n d e s . S in e m b a r g o , s e m e j a n t e p r o c e d im ie n to p a r e c e a ñ a d i r u n a c o n f u s ió n in n e c e s a r ia . P o r s u p u e s to , e n e l c a s o d e m u e s t r a s g ra n d e s , es in d ife re n te s e rv ir s e d e u n a c if r a o d e la o tr a . desviaciones con resp ecto a X y, p o r consiguiente, sería sorpren d en te en c o n trar X y s estadísticam ente independientes u n a res p ecto de o tra. Conociendo la X de la m u estra, esperaríam os a u m en ta r n u e s tra posibilidad de an tic ip a r s p a ra la m ism a m ues tra . Acontece, sin em bargo, que, p a ra las poblaciones norm ales y m u estreo al azar, la m edia y la desviación e stá n d a r de la m ues tra son estad ísticam ente independientes u n a de o tra. Como q uiera que, con todo, esta pro p ied ad n o se verifica p a ra to d as las d istri buciones de la población y que, p o r o tra p a rte , X — jx n o estará d istrib u id a n o rm alm en te a m enos que N sea grande, de ahí que al serv im o s de la p ru e b a t hayam os de su p o n er u n a población norm al. Problema. S upóngase que se están apreciando los program as de u n a m u estra al azar de 25 agencias de asistencia social indi vidual seleccionadas e n tre la población de to d as las del E stado de Nueva Y ork. Cada u n a de ellas lleva u n reg istro del porcen ta je de los casos favorables, de acu erd o con u n crite rio uniform e. Se h a establecido u n a n o rm a según la cual el p o rc en taje m edio de éxitos sería del 60 p a ra todas las agencias. Sin em bargo, en su m u e stra el lecto r en c u en tra que el p o rc en taje m edio es del 52 y la. desviación e stá n d a r del 12 p o r ciento. ¿Tiene el lector algún fu n d am en to p a ra sospechar que p a ra la población co n ju n ta de las agencias el nivel de los éxitos está p o r debajo de la norm a esperada? 1. Form ulación d e supuestos. Los supuestos necesarios pueden en u m erarse com o sigue: N ivel de m e d ic ió n : escala de intervalo M o d elo : m u estreo al azar población n orm al H ip ó te sis : n = 60 p o r ciento. O bsérvese que n o se re q u ie re su p u esto alguno a p ro p ó sito de cr, ya que en re alid ad s se h a obten id o em píricam ente y puede em p learse d irectam en te en la p ru e b a t. El nivel de m edición, en cam bio, re q u ie re ciertos com entarios. Como q u iera que cad a clien te de u n a agencia es u n éxito o u n fracaso, y com o q u iera que las cifras obtenidas p a ra cada agencia, son p o rc en tajes de éxitos, ca b ría p en sa r q ue nos hallam os sim plem ente en p resencia de una escala nom inal dicotóm ica, y n o de u n a escala de intervalo. Y efectivam ente, si las unidades del análisis fu e ran clientes en lugar de agencias, éste se ría el caso. R ecuérdese, sin em bargo, que las unidades que se están estudiando son agencias. Se h a obtenido u n a m arca p a ra cada agencia (e sto es, u n p o rc en taje de éxitos), y esta m arc a re p resen ta legítim am ente u n a escala de intervalo. Así, p o r ejem plo, u n a diferencia e n tre el 30 y el 40 p o r ciento es lo m ism o que u n a diferencia e n tre el 70 y el 80 p o r ciento. Am b as diferencias pu eden convertirse en el m ism o núm ero real de clientes. 2. O btención de la distribución de m uestreo. Las distribucio nes de m u estreo p a ra t se dan en el cu ad ro D del A péndice 2. Como q u iera que esas distribuciones difieren p a ra cada m agnitud de la m u estra, el cu ad ro en cuestión se h a condensado de m odo que sólo dé las colas de cada distribución. Al servim os del cu ad ro necesitam os p rim e ro localizar la m agnitud ap ro p iad a de la m u estra leyendo la colum na de la izquierda de a rrib a abajo. E stos tam años de la m u e stra se dan p o r lo re g u lar en térm inos de grados de libertad df ( degrees o f freed o m ), que en este tipo de p ro b lem a es siem pre N — l .8 A continuación, hállese el nivel de significación apropiado leyendo horizontalm ente arrib a. Las cifras del cuerpo del c u a d ro indican la m ag n itu d de t necesaria p a ra o b ten er significación en el nivel designado. 3. Selección de u n n ivel de significación y d e una región crítica. Sirvám onos del nivel de .05 y de u n a p ru e b a de u n a sola cola. Del cu ad ro D vem os que p a ra 24 grados de lib ertad se necesita u n a t de 2.064 o m ás p a ra o b ten er significación al nivel de .05 p a ra u n a p ru e b a de dos colas. P ara u n a p ru e b a de u n a sola cola y el nivel de .05, sólo necesitam os u n a t de 1.711 o m ayor. E n el caso de p ru eb as de u n a cola sim plem ente p artim o s en dos los niveles de significación requeridos p a ra las pru eb as de dos colas. E sto se debe a que nos ap artam o s de la m edia el m ism o núm ero d e desviaciones están d a r, con o b jeto de o b ten er u n a región crí tica de u n a sola cola d e .05, que nos ap a rtaríam o s p a ra o b ten er u n a región de dos colas de .10. 4. Cálculo de la estadística de la prueba. Si bien es cierto que la d istrib u ció n de m u estreo de X es N o ria , a2 / N ) y que, p o r con siguiente, la d istrib u ció n de Z es Nor{ 0,1), e sta inform ación no n os sirve, con todo, de gran cosa, ya que a n o nos es conocida. E n lu g ar de ello calculam os el valor de t, y o b ten em o s: s/y/N - 1 12/V 24 5. Decisión. H allam os que toda t cuyo v alo r num érico fuera > 1.711 se en c o n trará en la región crítica. P or consiguiente, des cartam o s la hipótesis de que ji = 60 y, con cierto riesgo de erro r, vem os que el nivel real de éxitos de las agencias queda p o r d eb ajo del nivel esperado. Leyendo horizontalm ente en el cua d ro D la hilera correspondiente a 24 grados de lib ertad , vem os que p a ra u n a p ru e b a d e u n a sola cola el nivel de significación 8 P a r a e l e x a m e n d e lo s g r a d o s d e li b e r ta d v é a s e s e c c . X I I . l . co rresp o n d ien te a u n t de 3.27 cae en algún p u n to com prendido e n tre .005 y .0005.9 E n este p u n to p u ed en re g istra rse varios hechos a p ro p ó sito de la d istrib u ció n t. Si se exam ina la colum na co rresp o n d ien te a P ~ -05 p a ra u n a p ru e b a de dos colas, se ob serv ará que a m edida q u e la m ag n itu d de la m u e stra au m en ta, los valores de t dism i nuyen y convergen con b a sta n te rapidez h acia 1.96, o sea el valor necesario p a ra significación si se em p lea ra el c u a d ro norm al. E stos valores d eb ieran d a r urna id ea razonablem ente b u en a del grad o de aproxim ación a la curva n orm al p a ra cu alq u ier m ag n itu d dada de la m u estra. P ara valores d e N — 1 m ayores que 30, se necesitará p o r lo re g u la r interpolación, y p a ra valores m uy superiores a 120 h a b rá que servirse del cu ad ro n orm al, ya que los valores de t n o se dan. Algunos textos indican arb itra ria m e n te que sólo se n ecesita em p lear la ta b la t cuando N < 30. P ese a que e s ta regla p rá ctica dé resu ltad o s razonables, la posición que aquí ad o p tam o s es que siem pre es p re ferib le servirse d e la tabla t cuando a es desconocida y puede p re su m irse u n a población n o r m al. Como q u iera q u e el cu ad ro t n o es de u so m ás difícil, parece razonable serv irse de valores exactos con p re fere n cia a aproxi m aciones norm ales. Conviene recalca r tam b ién que n o hay una teo ría ú n ica que se aplique a m u estras pequeñas y o tra, to tal m en te distin ta, q ue se aplique a las grandes, com o algunos textos lo dan a en ten d er. Como pu ed e verse del cu ad ro t, las distribuciones n o rm al y t sólo difieren considerablem ente cuando la m ag n itu d de la m ues tra es relativ am en te pequeña. P o r o tra p a rte , siem pre q u e se em plea t hay que su p o n er u n a población normad, a m enos que N sea m uy grande, en cuyo caso Z puede su stitu ir aproxim adam ente a t . P o r lo tan to , la p ru e b a t reviste v alor p ráctico en situaciones en las que se tienen m u estras pequeñas y que se p u ed e suponer una población norm al. P o r desgracia, cu an d o las m u e stra s son pequeñas p o r lo re g u la r solem os sa b e r m enos acerca d e la n a tu raleza ex acta de aquélla. Así, p o r ejem plo, si u n investigador realiza u n estu d io de exploración con 17 casos, ¿tien e m uchas p ro babilidades de e s ta r en condiciones de a c e p ta r el su p u esto de n o rm alidad? P ro b ablem ente no. Según verem os en el cap ítu lo xiv, hay pruebas q ue pueden em plearse com o altern ativ as de la t y quo no im plican el su puesto d e norm alidad. XT.4. Pruebas que com portan proporciones H asta aquí sólo hem os considerado en este cap ítu lo ejem plos que 0 P e s e a q u e n o p u e d a n o b te n e r s e d e l a t a b l a d e p r o b a b ilid a d e s e x a c ta s , l a in te r p o la c ió n , c o n to d o , s ie m p r e e s p o s ib le . S i n e m b a r g o , p o r lo r e g a l a r b a s t a i n d i c a r q u e p q u e d a e n t r e d o s v a l o r e s d e t e r m i n a d o s , v.gr. .0005< p £ co m p o rtab an u n a escala de intervalo. P or o tra p arte , había q ue p re su m ir tam b ién n o rm alid ad de población en el caso de m u estras pequeñas. E n e sta sección verem os cóm o puede em p learse la ley de los grandes núm eros p a ra a b a rc a r p ru e b as que co m p o rtan proporciones, siem p re que N sea b a s ta n te grande. En efecto, las p ro p o rciones se tra ta rá n com o casos especiales de las m edias, de m odo que n u e stra s consideraciones an terio res segui rá n ten ien d o aplicación. Supóngase que tenem os u n a sim ple escala nom inal dicotóm ica. Podem os q u e re r verificar u n a hipótesis relativa, p o r ejem plo, a la p ro p o rció n de los varones en u n a población. Asignamos a rb i tra ria m e n te el v alor u n o a los varones y cero a las hem bras, y tra ta m o s las m arcas com o u n a escala de intervalo. Aunque no se dé u n a u n id ad claram en te concebida, a m enos que ésta sea el a trib u to de “m ascu lin id ad ”, que se posee o n o se posee, pode m os, con todo, tr a ta r dichas m arcas a rb itra ria s com o u n a escala d e in terv alo , p o rq u e sólo son dos. Si se añ a d ie ra u n a te rc era categoría, ello y a n o sería posible, sin em bargo, y a que en tal caso sería necesario d eterm in a r la posición exacta de dicha ca teg o ría e n relación con las de las o tra s dos. Lo q u e aq u í decim os, en efecto, es que n o es necesario h ac er u n a distinción e n tre es calas nom inales, o rdinales y d e intervalo en el caso de u n a dico tom ía, ya que el p ro b lem a de c o m p arar distancias e n tre m arcas n o se p la n te a nunca. Tenem os así u n a población com puesta p o r e n te ro de unos y ceros. E s é sta u n a d istrib u ció n bim odal, d e casos concentrados todos ellos en un o d e lo s dos puntos, que ciertam en te n o es n o r m al. P ero sabem os que, si N es suficientem ente grande, la dis trib u ció n de m u estreo de las m edias de las m u estras será aproxi m ad am e n te ATor(ji, a2 / M) , independientem ente de la fo rm a de la población. Todo lo que h ay que hacer, pues, es averiguar la m ed ia y la desviación e stá n d a r de esa población d e unos y ceros. Pongam os q u e p u re p re s e n ta la p ro p o rció n de varones en la p o blación y qu la p ro p o rció n d e hem bras, en la s que la u sub índice in d ica que tra ta m o s de la población universal. Con o b jeto d e o b ten er la m edia de los unos y los ceros de ésta, sum am os sim p lem en te los valores y dividim os e n tre el n ú m ero total d e ca sos. E l n ú m ero de unos será así el n ú m ero to ta l de casos m u lti p licad o p o r la p ro p o rció n de varones. In d ep en d ien tem en te del n ú m ero d e ceros, la contribución de éstos a la sum a será cero. P o r lo tan to , la m edia de la población s e r á : M pu en donde M re p resen ta la m agnitud de la población (en cuanto d istin ta de la m agnitud N de la m u e stra ). E n consecuencia, la m edia de cierto núm ero de unos y ceros es exactam ente la pro porción de unos. E n v irtu d de u n razonam iento sim ilar, X = p s, en donde p 8 re p resen ta la p roporción de varones en la m uestra. S irviéndonos de la fó rm u la general de la desviación están d ar, podem os d em o strar que a = \ f p uqu. Si em pleam os los sím bolos de los p arám etro s de población, la fó rm u la de a se tran sfo rm a en: I 31 S ( X « - f i )2 . = \ - M í M ^ ¡ ^ ( X { - Pu)2 * M O bservando el n u m era d o r de la cantidad debajo del radical, ve m os que h a b rá sólo dos tipos de cantidades que rep resen ten las desviaciones cu ad rad as de la m edia p u. P ara cada m arc a de uno, la desviación cu a d rad a resp ecto de la m edia será de ( I — p u)2, y p a ra cada cero será de (0 —p u)‘2. Como q u iera que en la sum a de cuadrados h a b rá M pu unos y M qu ceros, ten em o s: _ J M pu( 1 - p j 2 + M qu(0 - p u )2 _ J M puq u2 + M qup u2 ° 1 M M Si de cada térm in o del n u m era d o r ponem os M puqu en factor, ob tenem os : V M pvqv M puqu(q u +p „ ) _ J M ~ V M * PuQu Obsérvese, de paso, q u e M se elim ina ta n to e n la fó rm u la de ^ com o en la o, la m edia y la desviación e stá n d a r d e la población so n independientes de la m ag n itu d re al de la población. P o r lo tan to , podem os servim os del teorem a del lím ite central p a ra o b te n e r: v; PuQu °x = Gp* ' N en donde el sím bolo cPl indica que operam os con el e rro r están d a r de las p roporciones de la m u estra. E n n u e stra nueva term i nología, p s su stitu y e a X , pu sustituye a ¡i, y aPt sustituye a c - en la fó rm u la de Z. Así, p u e s : M* Oj P& Pu y/PuQu/N O bsérvese que au n q u e parezca que tengam os u n a fó rm u la to ta l m en te d istin ta de la an terio r, no hay e n é s ta e n realid ad n ad a nuevo, excepto u n cam bio de sím bolos. E sto es así p o rq u e hem os estad o en condiciones de d em o strar que las proporciones pu ed en tra ta rs e com o casos p artic u la res de las m edias. Conviene recalcar, con todo, que la ley de los grandes núm eros re q u ie re q u e N sea grande, con o b jeto de p o d er serv im o s de la aproxi m ación norm al. C uando N sea pequeña, la binom ial co n stitu irá u n a p ru e b a m ás apropiada. * E xiste u n a relación estre ch a e n tre esta p ru eb a, relativa a las p ro p o rcio n es, y la d istrib u ció n binom ial. Y a se h a indicado que si N es grande, y si N p > 5, en donde p < q, podrem os, m ed ian te u n a d istrib u ció n n orm al, aproxim am os a la d istribución bino m ial. Es cierto que en el caso de la d istribución binom ial u tili zam os cifras de éxitos, m ás que proporciones. E l v alor esp erad o del n ú m ero de éxitos re su lta se r N p, y la desviación e stá n d a r del n ú m ero de éxitos es y /N p q . P a ra con v e rtir cad a u n o de ellos e n proporciones podem os dividirlos e n tre N, obten ien d o p com o v alor esperado, y p a ra la desviación e stá n d a r. Así en el caso de m u estras grandes p o d ríam o s h a b e r fo rm u lad o u n p roblem a binom ial en fo rm a de p ro p o rcio n es, cam biando n u estro s sím bolos a p„ y qu y tra ta n do el p ro b lem a de acuerdo con los procedim ientos señalados en e ste m ism o capítulo. P o r ejem p lo : en el caso de u n a p ru e b a de signo p o dríam os h a b e r utilizado la hipótesis n u la de que p u = .5, co m p aran d o este v alor con la p roporción de éxitos p 8 que se halló en la m u estra. Problem a. El lecto r e stá in teresad o en a p re c ia r el p ro g ram a de u n a agencia de asistencia social individual y h a ex traíd o u n a m u e stra al azar de 125 casos de su archivo. Se h a en contrado q u e el p o rc en taje de los casos favorables es de 55, en co m p ara ción con la n o rm a del 60 p o r ciento. ¿Puede sacarse de ello la conclusión que el éxito de la agencia en cu estió n queda p o r de b a jo de la no rm a? 1. Form ulación de supuestos. N ivel de m edición: escala nom inal dicotóm ica M o d elo : m u estreo al azar H ip ó te sis: pu = .60 E ste ejem plo es deliberadam ente sem ejan te al an terio r, con o b jeto de p o n er de relieve la diferencia e n las unidades del análi sis. Aquí, en efecto, se estu d ia u n a sola agencia, y la m u e stra es de clientes, que constituyen éxitos o fracasos. E n el ejem p lo de an tes, las u n idades seleccionadas era n las agencias y no los clien tes, y la m edida de cada agencia consistía en el porcentaje de casos favorables. O bsérvese que n o se re q u ie re m ás supuesto acerca de la población que la hipótesis, ya que se supone im plí citam en te que aquélla es bim odal. 2. O btención d e la distribución de m uestreo. La distribución de m u estreo será aproxim adam ente norm al, ya que N es grande. 3. E lección de nivel de significación y región crítica. E n gracia a la variedad, elijam os u n nivel de .02 y u n a p ru e b a de u n a sola cola. 4. Cálculo de la estadística de la prueba. Calculam os Z de la siguiente fo rm a : Pe — Pu -55 — .60 —.05 Z = ——— ——- = --------------------------- = ------------= -1 .1 4 y / p uq J N V [(-6 ° )(.4 0 )]/1 2 5 .0438 O bsérvese que en el denom inador se em plean p„ y qu con prefe re n cia a p s y qs. E n el caso de que el lecto r se viera inclinado a servirse de t en lu g ar de Z, observe que en la hip ó tesis de p u el v alo r de a está determ in ad o p o r la fó rm u la o = V íW «5. Decisión. Del cu ad ro n o rm al p u ed e verse q u e u n a Z de —1.14 o m enos o c u rriría aproxim adam ente el 13 p o r ciento de las veces p o r azar, si los supuestos fu e ra n ciertos. E n consecuencia, n o descartam os la hipótesis al nivel de significación de .02. So b re la base de los dato s disponibles, n o se d eja estab lecer que la agencia se halle p o r d eb ajo de la norm a. Glosario Teorema del límite central Distribución rectangular Error estándar Distribución t E jercicios 1. Sirviéndonos del cuadro de números al azar del cuadro B del Apén dice 2 (véase sece. XXI.l para la explicación del empleo de dicho cua dro), elíjanse 10 muestras, de magnitud 4 cada una, de la población de los 65 cosos dados en ol ejercicio 1 del capítulo iv. Calcúlese la media de cada una de esas 10 m uestras y obténgase la desviación es tándar de estas 10 medias. Se tiene ahora una apreciación bruta y ligeramente distorsionada del error estándar de la media. ¿Cómo se presenta la cifra obtenida en comparación con el error estándar conseguido sirviéndonos del teorema del límite central y empleando para ello la desviación estándar calculada en el ejercicio 2 del capí tulo vx? * 2. Verifiqúese la distribución de selección de la media de tres gol pes de dados del diagrama de la figura XI.5. 3. Una m uestra de magnitud 50 tiene una media de 10.5 y una des viación estándar s de 2.2. Verifiqúese la hipótesis de que la media de la población es de 10.0 sirviéndose: a) de una prueba de una sola cola al nivel de .05, y b) de una prueba de dos colas al nivel de .01. Hágase lo mismo con muestras de tamaños 25 y 100 y compárense los resulta dos. Respuesta, para N = 50, t = 1.59; sin rechazo para a) y b). 4. Supóngase sabido que el ingreso medio anual de trabajadores que en una fábrica trabajan en la línea de ensamble es de $7 000 con una desviación estándar de $900. El lector sospecha que los trabaja dores sindicalmente activos obtendrán ingresos superiores al promedio, y tom a una m uestra aleatoria de 85 de dichos miembros activos, obte niendo una media de $ 7 200 y una desviación estándar de $ 1000. ¿Pue de decirse que los miembros activos del sindicato tengan ingresos notablemente superiores? (Empléese el nivel de ;01.) Respuesta Z = 2.05; no rechazar. 5. Se ha establecido una lista de 200 residentes de una localidad, en edad de voto, y se ha encontrado que de dos candidatos a un cargo el candidato A obtuvo el 54 por ciento de los votos seleccionados. ¿Existe fundamento para suponer que A ganará? Empléese el nivel de .05. Enumérense todos los supuestos que hay que formular. Respuesta, Z = 1.13. 6. Supóngase que se ha normalizado una prueba de medición de los "deseos de uniformidad” de estudiantes universitarios en todo el país. El 50 por ciento de los estudiantes tenía puntuaciones brutas de 26 o más (las puntuaciones altas indicando deseos mayores de uni formidad). Sospechando que estos deseos serán por lo regular más grandes en el caso de adultos sin instrucción universitaria, un soció logo extrae una m uestra aleatoria de adultos de 25 años o mayores, residentes de su localidad. Encuentra: 1) que el 67 por ciento de los 257 adultos sin instrucción universitaria m uestran m arcas de 26 o más altas, y 2) que el 59 por ciento de 80 adultos de instrucción universi taria presentan marcas dentro de dicho margen. a) ¿Puede deducir que las m arcas de cada grupo de adultos en la localidad son significativamente más altas que las correspondientes a los estudiantes universitarios, cuya prueba ha sido estandarizada? (utilícese el nivel .001). b) Supóngase que el sociólogo conoce la distribución exacta entera de las m arcas de los estudiantes universitarios de la prueba. Sobre la base del m aterial del presente capítulo, indíquense algunos proce dimientos alternativos para verificar el significado de las desviaciones de los dos grupos de marcas de los adultos respecto de las marcas normalizadas. ¿Requieren dichos procedimientos alternativos algunos supuestos adicionales? Expliqúese. B ibliografía 1. Freund, J. E.: Modern Elementary Statistics, 3? ed., Prentice-Hall, Inc., Englewood Cliffs, N. J., 1967, caps. 9 y 11. 2. Hagood, M. J., y D. O. P nce: Statistics for Sociotogists, Henry Holt and Company, Inc., Nueva York, 1952, caps. 15 y 16. 3. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva York, 1963, cap. 10. 4. Wallis, W. A., y H. V. Roberts: Statistics: A New Approach, The Free Press of Glencoe, 111., Chicago, 1956, caps. 11 y 13. H asta aquí el exam en de la inducción estad ística sólo h a trata d o de la verificación de hipótesis. A parte de ello puede tam bién h a b e r in terés en la estim ación de p arám etro s de población, y a este tem a se dedica el p resen te capítulo. Después de exami n a r los principios que la estim ación com porta, procederem os a e stu d iar las relaciones existentes e n tre las verificaciones de las estim aciones y las hipótesis. Exam inarem os en dicho m o m en to las m odificaciones que req u ieren p a ra ello la distribución t y las proporciones. Finalm ente, estudiarem os la cuestión gene ra l de la determ in ación del tam año de la m u estra, ilu stran d o el pro b lem a m ed ian te procedim ientos de estim ación. E n los dos capítulos precedentes, el lecto r h a b rá observado que en cierto nú m ero de problem as prácticos la verificación de las hipótesis es im practicable, p o rq u e n o estam os en condiciones de co n c retar algún valor hipotético determ inado p a ra el p arám e tro , p o r ejem plo, (i. V am os a ver ahora en qué form a los p ro c e dim ientos de estim ación pueden p ro p o rcio n ar en tales casos una altern ativ a m uy ú til de las pruebas reales. P or o tra p arte, el so ciólogo pued e ev entualm ente ten er m ayor in terés en las estim a ciones q ue en las verificaciones de hipótesis. Así, p o r ejem plo, en u n a en cu esta el objetivo práctico del estudio puede consistir en estim ar lji p ro p orción de personas que consum en u n d eterm i nad o p ro d u cto o que votan en u n as elecciones. O puede se r n e cesario e stim ar el ingreso m ediano en u n a región, o el núm ero m edio de hijos p o r m atrim onio. Sin duda, las pruebas de hipó tesis concretas p u ed en rev estir cierta u tilid ad en tales casos, p e ro la estim ación constituye, con todo, el procedim iento m ás obvio. H ay b ásicam ente dos clases de estim ación, a saber, la estim a ción del p u n to y la estim ación del intervalo. E n la p rim e ra de ellas nos in tere sa el m e jo r valor singular que pu ed a utilizarse p a ra ap reciar u n p arám etro . Así, p o r ejem plo, podem os ap reciar que el ingreso m edio en la ciudad de Nueva Y ork es de $ 8 500. Sin em bargo, p o r lo re g u la r querem os o b te n e r tam bién alguna idea acerca de cuán exacta sea n u e s tra estim ación. N os g u staría p o d er an ticip ar q u e el p arám etro se sitú a en algún lu g ar de un in terv alo determ inado, o a u n lado u o tro de la estim ación del p u n to . Así, p o r ejem plo, podem os q u e re r fo rm u lar u n enunciado p o r el estilo de "el ingreso m edio en la ciu d ad de Nueva Y ork se sitú a e n tre $ 8 000 y $ 9 000". E stos dos tipos de estim ación se exam inan en las secciones que siguen a continuación. E l p ro b lem a relativ o a cuál estad ística d eb a em plearse como estim ación de u n p a rá m e tro parece s e r ab so lu tam en te obvio y c o n stitu ir m a te ria de sentido com ún. E n efecto, si se q u iere es tim a r la m ed ia (o la m ed ian a o la desviación e s tá n d a r) de una población, ¿ p o r qué n o servirse d e la m edia (o la m ediana o la desviación e s tá n d a r) de la m uestra? Pese a que en tales casos el sen tid o com ún n o nos p ro p o rcio n aría resu ltad o s dem asiado abe rra n te s, verem os, con todo, q u e el p ro b lem a n o es ta n sencillo com o p arece. O bviam ente, podríam os a p reciar la m ed ia de u n a p oblación en cierto n ú m ero de m an eras distin tas. E n efecto, adem ás de la m ed ia de la m u estra, podríam os servirnos de la m ed ian a o del m odo, o p odríam os u tiliza r u n n ú m ero situado' en m edio de dos valores extrem os, o podríam os u tiliza r com o estim a ción el v alo r de la observación decim otercera. Algunos de esos procedim ientos serían m ejo res que otros. N ecesitam os, p o r con siguiente, criterio s que nos p erm itan a p reciar el grad o de bondad de cada clase de estim ación. E l sociólogo, q u e se sirve de las esta dísticas com o de u n in stru m en to aplicado, ra ra vez n ecesita p re o cu p arse p o r sem ejantes criterios. P o r lo regular, en efecto, sólo se le dice que se sirva de u n a estim ación d eterm in ad a. No obs tan te, vale la p e n a sab e r p o r lo m enos d e cuáles criterio s se sirve el m atem ático al decidir cuál estim ación deba em plearse. Dos de los criterio s m ás im p o rtan tes del m atem ático son el sesgo ( b ia s) y la eficiencia. Vam os a exam inarlos uno p o r uno. E n re lación con o tro s criterio s, tales com o la suficiencia, la consisten cia y el p rin cip io de la m áxim a p robabilidad, el le c to r h a de re c u rrir a textos m ás avanzados. Sesgo. Se dice de u n a estim ación q u e n o es sesgada si la m edia de su d istribución de m u e stre o es exactam ente igual al valor del parám etro que se aprecia. E n o tro s té rm in o s : el v alor esperado a la larg a de la estim ación es el p a rá m e tro m ism o. O bsérvese q u e n ad a se dice aquí acerca del v alor de cualquier re su ltad o de alguna m u e stra p artic u la r. De acu erd o con esta definición, X es u n a estim ación sesgada de jj,, ya que la distribución de m u estreo de X tien e a ¡x com o m edia o v alor esperado. E sto no significa, sin em bargo, q u e podam os e sp e ra r que algún valor p a rtic u la r cu alq u iera de X sea igual a ni sab rem o s nunca, en cualquier p ro b lem a reíd, si la m edia de n u e s tra m u e stra co rresp o n d e o no d e hecho a la m ed ia de la población. H ay que te n e r p resen te que el térm in o sesgo, ta l com o aq u í se em plea, se refiere a los resu ltad o s a la larga. E n la investigación p ráctica, en cam bio, el lecto r pued e e s ta r a c o stu m b ra d o a servirse del térm in o p ara re ferirse a las p ropiedades de la m u e stra p a rtic u la r q u e haya extraído. Ya se dijo e n el cap ítu lo a n te rio r q u e la desviación están d a r 5 de la m u e stra es u n a estim ación ligeram ente sesgada de o . La estad ística s tien e u n a distrib u ció n de selección, lo m ism o que la tien e X . E n o tro s térm in o s, las desviaciones e stá n d a r de la m u e stra esta rá n d istrib u id as alred ed o r de las desviaciones e stán d a r de la población real, del m ism o m odo e n q u e las m edias de las m u estras se d istrib u y en alre d ed o r de ja. S in em bargo, p u ed e d e m o stra rse m atem áticam en te que la m edia de la distribución d e m u estreo de s 2 es [Af — l/AHcr2, y n o o2. P o r consiguiente, s 2 es u n a estim ació n sesgada de a2. P ara h a lla r u n a estim ación no sesgada de o2, tom am os la can tid a d : N N S ( X t ~ X )2 4=1 N - l N - l N -------- 52 = -----------------------------I ( X t - X )2 «=i Como q u iera q u e la d istrib u ció n de m u estreo de s2 es [ N —l / N ] o 2 vem os q u e a 2 tiene u n a distribución de m u e stre o de m edia exac tam en te igual a : N [/ N -l \ 1 Si b ien la razón b ásica d e p o r qué sea a 2 (y n o s2) la estim a ción n o sesgada es que los m atem áticos o p e ra n en esta form a, a v ec es; con todo, se da de ello u n a explicación in tu itiv a e n té r m in o del concepto de los grados d e libertad, térm in o q u e será u sad o en capítulos p o sterio res. El n ú m ero de los grados de lib e rta d es igual al nú m ero de cantidades desconocidas m enos el n ú m ero d e ecuaciones independientes que ligan esta s incógnitas. E l lecto r re co rd a rá que, con o b jeto de llegar a u n a solución única de u n sistem a de ecuaciones algebraicas sim ultáneas, se necesi tab a el m ism o n ú m ero de ecuaciones que de incógnitas. Así, pues, p a ra p o d er resolver en relación con X , Y y Z se necesitan tre s ecuaciones que liguen e n tre sí estas variables. Si sólo se tuvie ra n dos ecuaciones, entonces se p o d ría asig n ar a alguna de las variables, p o r ejem p lo Z, cu alq u ier valor q u e se nos an to jara. Los valores de las o tra s dos variables p o d rían entonces se r d e te r m inados m ed ian te las dos ecuaciones sim ultáneas. Si se tu v ieran cinco incógnitas y sólo tre s ecuaciones p o r reso lv er sim ultánea m ente, entonces se p o d rían asig n ar valores a rb itra rio s a dos cualesquiera de las incógnitas, y los valores de las dem ás incóg nitas estarían determ inados. E n este caso tendríam os dos grados de libertad, ya q ue podem os a trib u ir lib rem en te valores a dos variables cualesquiera. Al calcular u n a desviación e stá n d a r de valores de la m uestra, hem os de servirnos de u n a ecuación que ligue las N variables X F ig . X II.l. Comparación de las distribuciones de m aestreo de una estim ación sesgada, con alta eficacia, y una estim ación no sesgada, de eficacia m enor N _ a la m edia de la m uestra, o sea la ecuación 2 X J N — X . Dado _ <=i el valor de X , podem os a trib u ir valores a rb itra rio s a N — 1 de las X (, y la ú ltim a de éstas e sta rá determ inada p o r la ecuación. Como q u iera que hem os perdido u n grado de lib e rta d al deter m in ar el valor de la m edia de la m u estra alrededor de la cual se han tom ado desviaciones, p a ra o b ten er n u e stra estim ación no sesgada de a2 hem os de dividir e n tre N — 1 en lugar de N. Si el lector p refiere p en sa r en esta form a, puede considerar que hem os aju stad o ligeram ente el núm ero de casos, con o b jeto de com pen sa r p o r el hecho de que hem os tom ado desviaciones resp ecto de la m edia de la m u estra y no de la m edia de la población verda dera. E sencialm ente, al calcular la m edia de la m u estra, hem os despreciado un caso. Se verá que las estim aciones no sesgadas n o obtienen frecu entem ente d iv id ien d o 'en tre los grados de libertuü, m ejor que dividiendo e n tre el nú m ero to tal de casos. I', f ¡ciencia. La eficiencia de u n a estim ación se refiere al grado en que la distribución de m uestreo está agrupada alrededor del verdadero valor del parám etro. Si la estim ación no está sesgada, dicho u gnipam iento puede m edirse p o r medio- del e rro r están d a r de la estim ació n : cuanto m en o r sea el e rro r están d ar, ta n to m a yor es la eficiencia d e la estim ación. La eficiencia siem pre es relativa. Ninguna estim ación puede se r to talm en te eficiente, ya que esto im plicaría que no existía e rro r de m u estreo alguno. Sin em bargo, podem os c o m p arar dos estim aciones y decir que u n a de ellas es m ás eficiente que la otra. Supóngase, p o r ejem plo, q ue tenem os u n a población norm al. E n e ste caso, el e rro r están d a r de la selección al azar es a / y / N . Si p a r a ap re c ia r la m edia de la población se u tilizara la m ediana d e la m u estra, entonces el e rro r e s tá n d a r de la m ediana sería de 1.253 o / y / Ñ ,1 p a ra m ues tra s al azar. P o r lo tan to , ya que el e rro r e stá n d a r de la m edia es m ás peq u eñ o que el de la m ediana, la m edia es la estim ación m ás eficiente. É sta es, p o r supuesto, la razón d e que p o r lo r e g u lar se u tilice la m edia con preferen cia a la m ediana, incluso cuando, com o en el caso d e u n a población norm al, su m edia y su m ed ian a son idénticas. Decimos que la m ed ia está m enos su je ta a las fluctuaciones de la m u estra o, en o tro s térm inos, que es m ás eficien te.2 De los dos criterios que acabam os de exam inar, el de la eficien cia es el m ás im p o rtan te. Si dos estim aciones tienen el m ism o grado de eficiencia, escogerem os, p o r supuesto, la que esté m enos sesgada. É sta es la razón de que se u tilice a con preferen cia a s. E n cam bio, u n a estim ación eficiente lig eram en te sesgada será p referib le a o tra no sesgada p e ro m enos eficiente. Un sim ple d iagram a ay u d ará a co m p ren d er el p o rq u é d e ello. E n la figu ra X II.l, la curva p u n tiag u d a ligeram ente sesgada sería p re fe ri ble, ya que, pese a que a la larg a p ropenderíam os a su b estim ar el p a rá m e tro en u n a peq u eñ a cantidad, tenem os con todo m ayor p ro b ab ilid ad , en el caso de u n a p ru e b a dada, de o b ten er u n a es tim ación de la m u e stra relativ am en te vecina del p arám etro . El hecho de que sepam os que a la larg a las estim aciones se irán p ro m ed ian d o hacia la cifra co rrecta no nos sirve de gran con suelo si, en relación con u n a m u estra d eterm in a d a cualquiera, la aproxim ación tiene probabilidades de a p a rta rs e m ucho del p arám etro . XII.2. E stim a ció n del intervalo El lecto r re co rd a rá que, cu an d o estu d iab a física elem ental, se le in v itab a a p esa r u n pedazo de m ad era varias veces y a bu scar luego el v alor m edio e in d icar el m argen de e r ro r posible. Así pudo, p o r ejem plo, h a b e r indicado que el peso del pedazo de 1 Aquí la media y la mediana de la población serían idénticas. 2 No siempre es cierto que la media constituya la estimación más efi ciente, aunque para la mayoría de las poblaciones, sobre todo si la desvia ción respecto de la normalidad no es demasiado grande, sea efectivamente así. Obsérvese que la cuestión acerca de la eficiencia relativa es totalmente distinta de la cuestión acerca de cuál medida sea la medida descriptiva más apropiada de la tendencia central. Esta última, en efecto, sólo se refiere al problema de hallar la medida singular mejor para representar los datos de la muestra. m ad era era de 102 ± 2 gram os, significando que consideraba que el peso verd ad ero se situ ab a en algún lugar e n tre 100 y 104 gra m os. Al p ro ced er así, el lecto r ad m itía la posibilidad de e rro r de la m edición e indicaba qué grado de confianza ten ía en la ex actitu d obtenida. Pese a que en dicho m om ento n o se llam ara expresam ente su atención al respecto, el lecto r tam b ién h ab ría ad m itido que no estab a absolutam ente cierto que el verdadero v alor estu v iera com prendido en el intervalo obtenido. Sin em bargo, si éste se h u b iera am pliado, aquél h a b ría estad o m ás se g u ro de que sí e sta b a com prendido en el nuevo intervalo. Así, p o r ejem plo, h a b ría estado p rácticam en te seguro de q u e el valor v erdadero h ab ía de situ arse e n tre 98 y 106 gram os, y se h ab ría ju g ad o h a sta el últim o centavo en favor de que se en co n trab a e n tre 2 y 202 gram os. Al o b ten er apreciaciones de intervalo en relación con p arám etro s, hacem os esencialm ente lo m ism o que hace el físico, con la diferencia que estarem os en m ejores con diciones de estim ar la probabilidad exacta de erro r. E l p rocedim iento efectivo em pleado p a ra o b ten er u n a estim a ción de intervalo, o lo que se designa com o intervalo de confian za, es m uy sencillo y n o co m p o rta idea básica realm en te nueva alguna. E stablecerem os p rim ero sim plem ente cóm o el intervalo se obtiene, p rocediendo luego a exam inar p o r qué se construye de este m odo. Se decide p rim ero acerca del riesgo de e rro r que se está d ispuesto a asu m ir al a firm a r que el p arám etro se sitúa en algún p u n to al in te rio r del intervalo si e n realidad no es así. Digam os q ue se decide e s ta r dispuesto a a d m itir que se está equivocado el .05 de las veces, lo q u e suele designarse com o in tervalo de confianza del 95 p o r ciento.8 El intervalo se obtiene ap artán d o se en am bas direcciones de la estim ación del pu n to ( v.gr. la m edia de la m u e stra ) cierto m ú ltip le de erro res e stán d a r co rrespondiente al nivel de confianza elegido. Así, p o r ejem plo, p a ra ap reciar la m edia de la población, obtenem os u n intervalo com o sigue (sirviéndonos del nivel de 95 p o r cien to ): X ± 1.96 (í- = X -± 1.96 — — X __ yJN en donde 1.96 co rresponde a la región crítica de la curva norm al, sirviéndonos del nivel de .05 y de u n a p ru eb a de dos colas. Si X — 15, a = 5, y N = 100, el in terv alo de confianza sería : 5 15 ± 1.96------------ = 15 ± 0.98 V io c T 3 Obsérvese que en el caso de intervalos de confianza nos referimos a la unidad menos la probabilidad de error. Esto indica que tenemos “confian za” de estar en lo cierto el 95 por ciento, por ejemplo, de las veces. E n o tro s térm in o s: el intervalo iría de 14.02 a 15.98.4 Con o b jeto de in te rp re ta r los intervalos obtenidos con dicho m étodo, necesitam os volver a lo que sabem os acerca de la d istri bución de m uestreo, en este caso la de la m edia. Supongam os que tenem os u n a distribución de m u estreo n orm al con u n a m e dia de ¡i y u n a desviación e stá n d a r de a / \ / N . P ara n u estro s proM F ig . XII.2. Comparación de intervalos de confianza con la d istri bución. d e ¡muestreo de la m edia, m o strando p o r q u é los inter valos de confianza del 95 por ciento com prenden jx el 95 p o r ciento d e tas veces p ó sitos hay dos clases de m edias de u n a m u estra, a sa b e r: 1 ) las q ue no caen en la región crítica, y 2 j las que sí caen en ella. S upongam os p rim ero que hem os obtenido u n a X ( X x de la figu ra X II.2 ) q u e n o cae en la región crítica. Sabem os que u n a X sem ejan te h a d e q u ed ar en el in terio r de_1.96 o-j de [i. Si pone m os u n in terv alo a am bos lados de esta X , ap artán d o n o s de ella en 1.96 o j en am bas direcciones, debem os c ru zar fre n te a fx, la m edia de la d istrib u ció n de m uestreo, ta n to si X está a la derecha com o a la izquierda de jx. Y en fo rm a análoga, si la X o b tenida queda al in te rio r de la región crítica (véase X 2 en la figura X II.2), entonces esta X qu ed ará a m ayor distancia de 1.96 erro res es tá n d a r de la (x, y el intervalo d e confianza n o llegará h a sta ésta. P ero sabem os tam bién q u e el 95 p o r ciento d e las veces o bten d rem o s X que n o caen en la región crítica, y sólo u n 5 p o r ciento de las veces X que caen en ella. En o tro s té rm in o s : sabem os que sólo un 5 p o r ciento de las veces obtendrem os con este procedi m ien to intervalos que no com prendan el parám etro (v.gr. fx). El 95 p o r ciento re sta n te de las veces el procedim iento nos d ará 4 Estos puntos terminales del intervalo se designan a menudo como lími tes de confianza. m edias de u n a m u e stra lo suficientem ente vecinas del p arám etro p a ra que los in terv alo s de confianza obtenidos com prendan efec tivam ente a éste. Al in te rp re ta r los intervalos de confianza conviene te n e r p re sentes las siguientes advertencias. El estu d ian te p rin cip ian te tien d e a servirse de frases vagas p o r el estilo de “tengo u n 95 p o r xz f3 ¿4 *5 *6 *1 -*3 ■*10 F ig. XII.3. Distribución de intervalos variables de confianza con respecto a un valor fijo del parám etro u, ciento de confianza en que el intervalo contiene el p arám etro ", o bien “la p ro b ab ilid ad de que el p a rá m e tro quede en el in terio r del intervalo es de .95”. Al hacerlo así puede n o darse cuenta cabal de que el p a rá m e tro es u n v alor fijo y que son los interva los los que v arían de u n a m u estra a o tra. De acuerdo con nues tr a definición de la probabilidad, la p ro b ab ilid ad de que el p ará m etro quede en el in te rio r de u n intervalo determ inado cual q u iera es cero o uno, ya que el p a rá m e tro está o n o está en el in terio r del in terv alo obtenido. Un sim ple diagram a indicando el v alo r fijo del p arám etro , en este caso ¡x, y la variabilidad de los intervalos ay u d ará a co m p ren d er m ás claram en te la in te rp re tación co rrecta. La figura X II.3 pone de m anifiesto que n u estra confianza está m ás bien en el procedim iento utilizado que en algún intervalo cualquiera. Podem os decir que el procedim iento es tal que, a la larga, el 95 p o r ciento de los intervalos obtenidos co m p ren d erán el v erd ad ero p arám etro (fijo ). E l lecto r h a de g u ard arse de concluir o su poner que el in terv alo p a rtic u la r o bte n ido posee alguna p ro p ied ad especial que n o poseen o tro s in te r valos com parables obtenidos de o tra s m u estras. Algunas veces se afirm a que, si se e x tra je ra n m u estras reiterad as, el 95 p o r cien to de las veces las m edias de estas m u estras caerían e n el in te rio r del in tervalo de confianza que se h a calculado (p o r ejem plo, 15 ± 0.98). E sto im plica, p o r supuesto, que la X obtenida en la m u estra del investigador es igual exactam ente a [i o es, p o r lo m enos, u n a aproxim ación m uy cercana a ¡i. E n realidad, sin em bargo, el intervalo p a rtic u la r obtenido puede ser tal que sólo u n as pocas X caigan en su in terio r. N u e stra confianza, com o sucede siem pre en la inducción estadística, no está en algún re su ltad o p a rtic u la r cualquiera de la m u estra, sino en el procedi m ien to em pleado. E s posible p o n er el riesgo de e rro r a cu alq u ier nivel deseado, sirviéndonos p a ra ello del m ú ltip le ap ro p iad o del e rro r están d ar. Sin em bargo, el lecto r h a de o bservar que, al re d u cir el riesgo d e e rro r, se au m en ta tam b ién necesariam ente la am p litu d del intervalo, a m enos que se aum ente sim ultáneam ente el núm ero de casos. C uanto m ás am plio sea el intervalo, ta n to m enos nos dice acerca del p arám etro . D ecir que el ingreso m ediano de las fam ilias de N ueva Y ork se sitú a e n tre $ 1 000 y $ 25 000 equivale a p ro clam ar lo que to d o el m undo sabe. Así, pues, el investigador se en fren ta a u n dilem a. Puede a firm a r que el p a rá m e tro se sitú a en el in te rio r de u n intervalo m uy angosto, p ero la p ro b a b ilidad de e rro r será grande, o puede h acer u n a afirm ación m uy vaga, con la seguridad v irtu al de e sta r en lo cierto. Lo que se decida a h acer exactam ente dependerá del c a rá c te r de la situa ción. A unque convencionalm ente suelan em plearse intervalos de confianza del 95 y el 99 p o r ciento, cabe in s istir en que dichos niveles n ad a tienen de sagrado. Intervalos de confianza y pruebas de hipótesis. Si bien el o b je to explícito de p o n er intervalos de confianza de u n a estim ación está en in d icar el grado de exactitud de ésta, los intervalos de confianza constituyen tam b ién pruebas im p lícitas de u n a vasta serie de h ip ó tesis.6 Son pru eb as im plícitas en el sentido de que las hipótesis concretas n o se form ulan, sino q u e se hallan sim plem en te im plicadas en aquéllos. E n efecto, en el intervalo de confianza tenem os u n a p ru e b a im plícita de todo valor posible de jí que pued a suponerse. L a figura X II.4 indica de qué m odo los intervalos de confianza se relacionan con las pru eb as de las hipótesis. C oncentrém onos en el intervalo de confianza trazado alrededor 6 Conviene insistir en que, si bien la estimación de intervalo y la prueba de hipótesis comportan ideas íntimamente relacionadas, constituyen, con todo, procedimientos distintos. de X . Supóngase que, en lugar de h a b e r obtenido sem ejan te in tervalo, hem os form ulado hipótesis a p ro p ó sito de varios valores altern ativ o s de p, y hem os procedido a com probarlas. Supóngase, p a ra m ayor sencillez, que el valor de a h a sido dado y que se ha em pleado el nivel de significación de .05 y se utilizó u n a prueba Fig. XII.4. Comparación de un intervalo de confianza del 95 por sie n to con p ruebas de hipótesis al nivel de .05 m ostrando el no rechazo d e la m edia hipotética \ilt q u e queda d en tro del intervalo, y el descarte d e la jx2 hipotética, que queda fu era del intervalo d e dos colas. S upóngase p rim ero que habíam os an ticip ad o hipo téticam en te u n v alo r com o el de ^ (fig u ra X II.4a), q u e se sitúa efectivam ente al in te rio r del in terv alo de confianza en cuestión. E n este caso, la m edia X de la m u e stra n o caería, m anifiesta m ente, en la región crítica, y la hipótesis n o se h a b ría descartado a l nivel de .05. P o r o tra p a rte , si hubiéram os su puesto un v a lo r al ex terio r del intervalo, ta l com o ^ (fig u ra X II.46), la dis tan cia e n tre la d e la hipótesis y X sería m ayor que 1.96 o - , y esta segunda hipótesis se h a b ría descartado. E stá claro, pues, que si supusiéram os valores hipotéticos de jx que se sitúan en ajgún p u n to al in te rio r del in terv alo de confianza, n o d escarta ríam os dichas h ipótesis al nivel d e significación apropiado. Y si supusiéram os valores de ji que quedan al ex terio r del intervalo, sabem os que estas hipótesis se d escartarían . Así, pues, h ab iendo o b tenido u n in terv alo d e confianza, pode m os d ecir a sim ple vista cuáles h a b ría n sido los resultados si h u b iéram o s verificado las hipótesis. Si el c a rá c te r de n u estro p ro b lem a fu e ra tal que n o se sugiriera hipótesis p a rtic u la r alguna com o p referib le a las o tra s, entonces, obviam ente, la altern ativ a p ráctica, en relación con u n a serie de pruebas, consistiría e n obte n e r u n solo in tervalo de confianza.6 El le c to r debería convencerse p o r sí m ism o de que los ejem plos exam inados en el capítulo p re cedente p u d iero n h ab e rse tra ta d o con igual facilidad p o r el m é to d o del in terv alo de confianza. S u p u esto s en relación con los intervalos de confianza. E l em p leo de intervalos de confianza no nos lib era de la necesidad de fo rm u la r supuestos ac erc a de la n atu ra leza de la población y del m éto d o de m u estreo utilizado. B ásicam ente, los supuestos en el caso de u n p ro b lem a de intervalo de confianza son los m ism os q ue los que se req u ieren p a ra cualesquier pru eb as im plícitas, con la diferencia d e que n o es necesario, p o r supuesto, suponer u n v alo r hip o tético d eterm in ad o p a ra el p a rá m e tro que se estim a. E n este tex to supondrem os siem pre el m u estreo aleatorio. P or o tra p arte , si se em plea u n a distribución de m uestreo, hem os de su p o n er u n a población n o rm al o de te n e r u n a m u e stra suficien tem en te grande. Si se em plea, en cam bio, u n a distribución t o cu alq u ier o tra d istrib u ció n d e m u estreo , entonces h a b ría que fo rm u la r los supuestos usuales req u erid o s en p ru e b as com pa rables. X II.3. In terva lo s de confianza para otros tipos de problem as H a sta aq u í el exam en de los intervalos de confianza sólo h a com p re n d id o casos en los q u e el p a rá m e tro que se estim ab a e ra la m edia de u n a población siendo 0 conocida. Si el p ro b lem a se cam bia, las m odificaciones del p rocedim iento son obvias, y la in te rp re ta c ió n b ásica de los intervalos de confianza y su relación con las p ru eb as de las hipótesis siguen siendo las m ism as. El in terv alo de confianza d e u n p a rá m e tro se o b tien e siem pre p r o cediendo a u n a e stim ación del p a rá m e tro en cuestión e incluyén dolo en u n in tervalo cuya am plitud es función del e rro r está n d a r d e la estim ació n .7 Si debido a n o conocerse a hay que servirse d e la distribución t, re cu rrim o s sim plem ente a la estim ación del e rro r e stá n d a r 6 Debe observarse, sin embargo, que cuando probamos una determinada hipótesis nula obtenemos un valor específico de probabilidad, tal corno P = .032, lo que normalmente no obtendríamos en relación con un inter valo de confianza. t En algunos casos, sin embargo, como en el de los intervalos de con fianza para coeficientes de correlación, la estimación del punto puede no caer exactamente en el centro del intervalo. y su stituim os el m ú ltip lo obten id o sirviéndonos del cu ad ro n o r m al p o r la cifra correspondiente del cu ad ro í. E n esta form a, p a ra u n in terv alo d e confianza de 99 p o r ciento p a ra la m edia y 24 grados de lib ertad , ten d ría m o s: X ± 2.797 = X ± 2.797 s v w -i Si en el ejem p lo de la sección XI.3 del capítulo a n te rio r se hubie r a operado con u n intervalo de confianza del 99 p o r ciento, el re su ltad o h a b ría sido: P or consiguiente, el intervalo de confianza del 99 p o r ciento va de 45.15 a 58.85. Vemos que este re su ltad o concuerda con el que se obtuvo p rev iam ente (esto es, .001 < p < .0 1), p o r cu a n to la ¡i su p u esta d e 60 cae efectivam ente fu e ra del in terv alo calculado, y sabem os, p o r lo tanto, que la hipótesis h a b ría debido descar ta rse al nivel de .01 (en u n a p ru e b a d e dos colas). Y en fo rm a análoga, podem os o b ten er intervalos de confianza p a ra las p ro p o rciones. E n efecto, su stituyendo X p o r p s y a /y J Ñ p o r V Puq J el intervalo de confianza del 95 p o r ciento se ría : Nos encontram os aquí con u n a dificultad que no se p re sen tab a cuando p o día an ticip arse p a ra p u u n valor determ inado. En efec to, com o q u iera que obviam ente p u n o será conocido, se hace n ecesario ap reciar el e r ro r e stán d a r. Pueden recom endarse a tal o b jeto dos p ro cedim ientos sencillos, u n o de los cuales es m ás conservador que el o tro .8 E n p rim e r lugar, to d a vez que la m ag n itu d de la m u e stra h a de se r gran d e p a ra ju stific a r el uso de las tablas norm ales, p s co n stitu irá p o r lo re g u lar u n a apreciación razonablem ente b u en a d e p„. P o r consiguiente, si sustituim os sim plem ente p a p o r p u (y qs p o r qu), podem os o b ten er u n in te r valo que p o r lo reg u lar será b a sta n te p arecido al correcto. Así, p o r ejem plo, en el caso d e la sección XI.4 del cap ítu lo precedente 8 Para un tercer método algo más preciso véase p. 244. h ab ríam o s o btenido el intervalo de confianza del 98 p o r ciento de la m an era siguiente : p , ± 2.33 \ l J ™ ! - = .55 ± 2.33 t i - - - - " N * 125 = .55 ± 0.1037 Si alguien siente preocupación en u tiliza r u n a estim ación del e rro r e stán d a r sin co rreg ir en alguna fo rm a el e rro r adicional de m uestreo in tro d u cid o de este m odo, p u ed e servirse de u n m étodo m ás conservador p a ra o b ten er el intervalo. E n efecto, com o quie ra q ue el p ro d u c to pq alcanza u n valor m áxim o p a ra p = q = .5, síguese que el in tervalo de confianza m ás extenso posible se ob te n d rá sirviéndose del v alor .5 com o estim ación de p „.9 T oda vez que p o r lo reg u lar se desea u n intervalo angosto, nos co m porta m os cau tam en te al o b ten er u n intervalo que es todo lo grande q u e p u ed a ser, in dependientem ente del v alo r de p u. Sirviéndonos de este m étodo m ás conservador, obtenem os u n intervalo algo d istin to , a sab e r: O bsérvese que este segundo intervalo es sólo ligeram ente m ás ancho que el p rim ero. S iem pre que .3 < p < .7, los dos m étodos d a rá n ap ro x im ad am ente los m ism os resultados. * Si p s re su lta se r m uy grande o m uy pequeño, el m étodo con serv ad o r pu ed e d a r u n intervalo que sea m uy am plio. Si alguien sien te p reocupación en u s a r el p rim e r m étodo en el que p u es e stim ad a p o r p s, es posible com binar los dos m étodos p a ra con seguir u n in tervalo m ás razonable que siga, con todo, siendo conservador. E n ta l caso, nos servim os p rim ero del m étodo m ás co n serv ad o r p a ra o b te n e r u n intervalo de confianza aproxim ado. S upóngase que este in terv alo vaya de .10 a .25, siendo p a d e .175. E starem o s entonces razonablem ente seguros de que el valor real de p u h a de situ a rse e n algún p u n to al in te rio r de dicho intervalo aproxim ado (y co n serv ad o r). Al calcular el in terv alo m ás exacto, tom am os ah o ra com o estim ación de p u el v alo r aproxim ado d en tro del in terv alo q u e q u ed e m ás cerca de .5. E n el ejem plo n u m érico a n te rio r escogeríam os el v alo r .25, ya que el em pleo del m ism o en la fó rm u la del e rro r e stá n d a r nos d a rá u n intervalo m ás am plio de lo que h a ría cualquier o tro v alo r del in terv alo .10 a .25. E n o tro s térm in o s : en lu g ar de servirnos de n u e stro p, real (e sto es, de .175), escogem os el m ay o r v alo r q u e suponem os que p u pu ed a ad o p tar. P o r consiguiente, calculam os el intervalo de confianza del 95 p o r ciento com o sig u e : ® El lector debería convencerse por sí mismo de que es así. (.25) (.75) N E ste intervalo será m ayor, y p o r consiguiente m ás conservador, que el q ue se o btiene to m ando b a jo el radical a p a, y n o com por ta, con todo, el em pleo del valor .5, del que sospecham os que es con m ucho d em asiado grande. X II.4. D eterm inación del tam año d e la m uestra De a c u erd a con la p rá ctica seguida de i r intro d u cien d o pocas ideas nuevas a la vez, hem os aplazado la cuestión de cóm o pue d a d eterm in arse el tam año de la m u e stra con an terio rid ad a la recopilación de los datos. Una de las preg u n tas que con m ayor frecuencia le p o nen al estad íg rafo es la de “¿cuántos casos nece sito ?" La re sp u esta depende, p o r supuesto, de lo que se tenga el p ro p ó sito de h ac er con los re su ltad o s de la m uestra. Más con c retam en te: hay que d eterm in a r diversos hechos an tes de poder d a r u n a re sp u esta adecuada. P o r lo regular, lo que hem os de h ac er es rem o n tarn o s hacia a trá s, a p a r tir de los datos que es peram o s o b ten er, p a ra p o d er d eterm in a r el tam añ o desconocido de la m u estra. H a sta aquí hem os considerado el tam año de la m u estra com o ca n tid a d conocida. Las estadísticas tales com o la m edia y la desviación e stá n d a r de la m u estra pueden ob ten er se de los re su ltad o s de ésta. Una vez que hem os decidido el nivel d e significación de u n a p ru e b a o el intervalo de confianza de seado, podem os p o n e r todos estos valores en u n a fó rm u la y d ecid ir la am p litu d del in terv alo de confianza, o b ien si deba o n o d esc artarse u n a hipótesis nula. Sin em bargo, en la clase de problem as que estam os considerando en esta sección el ta m añ o de la m u e stra será desconocido. E sto significa que, p a ra resolver n u e stra ecuación con resp ecto a N , hem os de conocer to d as las dem ás cantidades d e la fórm ula. Y u n a vez integrados todos esos valores en la ecuación, entonces la solución de N se convierte en u n sencillo p ro b lem a algebraico. Con o b jeto de ilu s tra r el p roceso nos servirem os de u n p roblem a de intervalo de confianza. Supóngase que querem os sab e r cuántos casos se requieren p a ra estim ar el n ú m ero prom edio de años de escuela com pleta dos p o r las personas de pad res nacidos en el ex tran jero . Antes de p o d er d a r u n a resp u esta a esta cuestión, necesitam os obte n e r los siguientes elem entos d e in fo rm ac ió n : 1 } el nivel d e con fianza a u tilizar, 2 ) el grado de exactitud con q u e deseam os ap reciar el p arám etro , y 3) alguna estim ación razonable d e los valores de cualesquier p arám etro s que pu ed an ap arecer en la fórm ula. Así, p o r ejem plo, podem os q u erer a p reciar la m edia con u n a aproxim ación de ± .1 año de escolaridad y servirnos de un in tervalo de confianza del 95 p o r ciento. O bsérvese q u e hay q ue c o n c retar ta n to la u n a com o la o tra de dichas cantidades, ya que podem os o b ten er siem pre u n a aproxim ación de ± .1 añ o si estam os dispuestos a a d m itir u n gran riesgo de e rro r. Nos ser vim os ah o ra de estos valores en la fó rm u la del intervalo de co n fian za: X ± 1.96— - — '------ V------ ' .1 E l conocim iento del nivel de confianza deseado nos h a perm itido in tro d u c ir el v alor 1.96. Como quiera que deseam os u n a aproxi m ación de ± .1 , o u n a am p litu d to tal de intervalo de .2, sabem os que la ca n tid a d de 1.96 o / \ / N h a de se r igual a .1. Aunque el va lo r de X sea desconocido, vem os inm ediatam ente que ello no rev iste im p o rtan cia alguna en este problem a, ya que deseam os o b ten er u n in tervalo de cierta am plitud, independientem ente del v alo r de X . S upóngase que tra ta m o s ah o ra de resolver la ecuación cr .1 = 1.96----- y /N resp ecto de N . Tenem os todavía u n a incógnita, o sea <r. Pero, ¿cóm o podem os o b ten er o an tes de h a b e r reu n id o los datos? La cosa es c la r a : hem os de estim a r su valor p o r algún m étodo que, en cierto sentido, vaya m ás allá de los datos que habrem os de reu n ir. E n esencia, hem os de fo rm u lar u n supuesto ilu strad o en cu an to a su valor, y a sea sirviéndonos de u n conocim iento experto, de los resu ltad o s de estudios previos, o eventualm ente de u n estudio-guía de cualquier clase que sea. P or lo regular, u n estudio-guía re su lta rá m uy costoso y, p o r consiguiente, hay que re m itirse a u n o u o tro de los dos m étodos restan tes. Incuestio nablem ente, el procedim iento m ás satisfactorio consistiría en de te rm in a r a exactam ente, pero, si esto p u d iera hacerse, ya no te n d ría pro b ab lem ente in terés alguno el e x tra e r u n a m u estra. O bsérvese que el tip o de estim ación necesario en esta clase de p ro b lem a es to talm en te distinto del que se em pleó en a p reciar a a p a r tir de los datos de la m uestra. P o r lo tanto, de n a d a sirve estim ar a con a o sirviéndonos de la distribución t. Si de todos m odos hem os de estim ar, lo m ism o podríam os estim ar el valor de a que el de o o s. E n el p re sen te ejem plo, supóngase que so b re la b ase de la m e jo r inform ación obtenible estim am os que o será de ap ro x im ad am en te 2.5 años. Sirviéndonos de este valor y resolviendo re sp ecto del tam añ o re q u erid o de la m uestra, te n e m o s : o sea V aT = J ^ L = 49 y N = 2 401 O bsérvese que hem os_resuelto re sp ecto de N p asando to d as las can tid ad es excepto \ / N a u n lado de la ecuación y sim plificando. F inalm ente elevam os al cu ad rad o am bos m iem bros de la ecua ción p a ra elim in ar el radical. S in duda, sólo podem os o b te n e r u n valor aproxim ado p a ra el tam año deseado de la m u estra, ya que los p a rá m e tro s h a b rá n de estim arse. No te n d ría ciertam en te sen tid o alguno, p o r ejem plo, to m ar ex actam ente los 2 401 casos. Sin em bargo, sem ejante aproxim ación nos d ará p o r lo re g u la r re su ltad o s m ucho m ejores q u e cu alq u ier corazonada in tu itiv a acerca del n ú m ero de casos necesario. E n las aplicaciones p rácticas solem os p o r lo re g u la r estu d ia r m ás de u n a variab le a la vez, lo q u e com plica todavía la cosa considerablem ente. E stam os tam b ién lim itados, general m ente, p o r los recu rso s disponibles, y a m enudo hem os de aco m o d am o s con cualquier grado de ex actitu d que podam os obtener. P ero au n así, se rá ú til a m enudo calcular el tam año necesario de la m u e stra a títu lo de guía de n u estro p ro p ó sito de inves tigación. Si bien la cuestión de d e te rm in a r el tam añ o de la m u e stra no se ex am in ará en los capítulos siguientes en conexión con otros p ro cedim ientos estadísticos, el le c to r e n c o n tra rá algunos e je r cicios que le im ponen la estim ación de N a p ro p ó sito de o tras clases de problem as. E n todos estos casos la aplicación es obvia, au n q u e en ocasiones haya que re c u rrir ab u n d a n te m en te al ál gebra. Glosakxo Intervalo de confianza Grados de libertad Eficiencia de la estimación Estimación del intervalo Estimación del punto Estimación no sesgada E je r c ic io s 1. Obténganse los intervalos de confianza para los ejercicios 3, 4 y 5 del cap. xr. ¿Concuerdan los resultados obtenidos con los de ejercicios anteriores? ¿Cómo se sabe? Respuesta al ejercicio 5, .47—.61. 2. Se toma una m uestra aleatoria de 200 familias de una localidad y se encuentra que en el 36 por ciento de los casos es el marido quien toma más de la m itad de las decisiones de carácter financiero. ¿Cuál es el intervalo de confianza del 99 por ciento para el porcentaje de familias en las que el marido toma más de la m itad de dichas decisio nes? ¿En qué sentido concreto proporciona el intervalo pruebas implí citas de hipótesis? 3. ¿Cuántos casos se necesitarán para establecer un intervalo de con fianza del 99.9 por ciento para la media si la amplitud total del inter valo de confianza no ha de rebasar $500 y la desviación estándar se supone ser de $ 1 300? Respuesta, N = 295. 4. Si se sospecha que la proporción de propietarios de casa es de aproximadamente .75 en una determinada zona de residencia, ¿cuántos casos se necesitarán para obtener un intervalo de confianza del 95 por ciento y de amplitud no mayor a .03, expresada en términos de propor ciones? Supóngase que la proporción de los propietarios de casa se aprecia en .5, ¿cuántos casos se necesitarán en este supuesto? 5. Sirviéndonos del hecho de que para poblaciones normales la dis tribución de muestreo de la mediana presenta un error estándar de 1.253 a/ VN, podemos situar un intervalo de confianza alrededor de la mediana. Supóngase que en el ejercicio 3 precedente se deseaba poner un intervalo de la misma amplitud alrededor de la mediana de la mues tra. Sirviéndonos de la misma apreciación de la desviación estándar, ¿cuántos casos necesitaríamos? ¿Qué revela el resultado a propósito de las eficiencias relativas de la media y la mediana? Respuesta, N = 463. * 6. Se ha sostenido que el intervalo de confianza del 95 por ciento representa una serie de pruebas implícitas de dos cotas al nivel de .05. Expliqúese por qué el intervalo de confianza del 95 por ciento no representa pruebas implícitas de una cola al nivel de .05. B iblio g rafía 1. Freund, J. E.: M odem Elementary Statistics, 3* ed., Prentice-Hall, Inc., Englewood Cliffs, N. J., 1967, caps. 9 y 11. 2. Hagood, M. J. y D. O. Price: Statistics for Sociologists, Henry Holt and Company, Inc., Nueva York, 1952, caps. 15 y 16. 3. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc.; Nueva York, 1963, caps. 7 y 9. 4. Wallis, W. A. y H. V. Roberts: Statistics: A New Approach, The Free Press of Glencoe, 111., Chicago, 1956, cap. 14. C uarta P a r te E S T A D IS T IC A S BIV A R IA D A S Y M ULTIVARIADA S X II I. PR U E B A S D E DOS M U E S T R A S : D IF E R E N C IA D E LAS M E D IA S Y LAS P R O P O R C IO N E S E n el cap ítu lo x i se exam inaron p ru e b as que consideraban u n a sola m u estra. H allam os que dichas p ru e b as n o e ra n m uy p rá c ti cas p a ra el sociólogo, ya que p o r lo re g u la r n o es posible encon tr a r u n a hipótesis suficientem ente concreta p a ra p re d ecir u n valor p a ra ¡i o p u. S in em bargo, cuando el in teré s se cen tra en co m paraciones en tre v arias categorías de m u estras, re su lta innecesa rio co n c retar los niveles absolutos de u n o u o tro de los grupos. E n lu g ar de ello, p u ed e p ro b a rse sencillam ente la hipótesis nula de que no existe e n tre ellos diferencia alguna. Así, p o r ejem plo, sería extrem ad am ente difícil a n ticip ar el nivel d e ingreso de los n eg ro s en D etroit o el nivel de p re ju ic io de los blancos en esa d u d a d . Sin em bargo, supóngase que nos in tere sa b a p ro b a r la hi p ótesis d e que el ingreso prom edio de los negros es el m ism o que el de los blancos nacidos en el ex tran jero , o q u e los judíos tienen p a ra los negros el m ism o grado de p re ju ic io que los n o judíos. E ste ú ltim o tip o de hipótesis lo reconsiderarem os aquí. E n u n a ciencia social com o la sociología, el in terés p ro p e n d e a c e n tra rse en estab lecer relaciones e n tre variables. E sto c o n tra sta con el tip o de la en cu esta que reú n e dato s y en la cual, según vim os, la estim ación del p u n to y el in terv alo de u n solo p a rá m e tro pu ed e re v estir im p o rtan cia prim ordial. C uando se establecen com paraciones e n tre dos m u estras, tenem os la clase m ás sim ple de p ro b lem a en el que dos variables pu ed en re fe rirse u n a a o tra. H a sta aq u í sólo nos hem os ocupado de u n a sola v ariab le a la vez. É sta es tal vez la razón principal de que las p ru e b as exam inadas h a s ta el p re sen te n o hayan sido dem asiado ú tile s p a ra los soció logos. E n este capítulo vam os a ocuparnos de p ru e b as en las q u e u n a sim ple variable dicotóm ica p u ed e se r re ferid a a o tra variable. Así, p o r ejem plo, al c o m p arar a los ju d ío s y los n o ju díos p o r lo que se re fiere al prejuicio, relacionam os de hecho a éste con la religión. Y en fo rm a análoga, p o d ría q u ererse com pa r a r los dos sexos co n re sp ecto a "otros asp e cto s” o desde el p u n to de v ista de o tras ca racterísticas relativas a la personalidad. Las com paraciones pu eden establecerse asim ism o e n tre u n g ru p o de co n tro l y u n grupo de experim ento en el q u e se h a in tro d u cid o alguna variable. E n los capítulos siguientes se exam inarán p ru e b as q ue co m p o rtan m ás d e dos m uestras. X III.1. Prueba de la diferencia de las m edias Con o b jeto de ex tender la p ru e b a de las m edias de una m u estra ú n ica a u n a p ru e b a e n la que p u ed a estab lecerse u n a com para231 ción e n tre las m edias de dos m u estras, hem os de servirnos n u e v am ente del teo rem a del lím ite central. Un teorem a im portante, derivado, pu ed e enunciarse com o sigue: si se extraen m uestras independientes al azar, de los tam años N x y N z respectivam ente, d e poblaciones que son respectivam ente N o r ^ j , al) y N or(ji2, al), la distribución de m u estreo de la. diferencia entre las dos m edias de las m u estra s ( X 1 —X 2) será igual a N or(n*—[¿2, Oi/JVi+ a l/N 2 ). Lo m ism o que en el caso de m u estras individuales, este teorem a puede generalizarse en el caso de m u estras grandes p a ra a b a rca r cualesquier poblaciones de m edidas ^ y ¡j.2 y de variancias of y respectivam ente. E n efecto, a m edida que y N 2 aum entan, la distribución de selección de X 1 — X 2 se aproxim a a la norm ali dad, lo m ism o que antes. Exam inem os ah o ra este teo rem a m ás de cerca. Se hace referencia a m u estras aleatorias independientes. E sto significa que las m u estras h an d e seleccionarse independiente m en te una de otra. El hecho de que la m u estra sea al azar ase g u ra independencia en el interior de ella, en el sen tid o de q u e el conocim iento de la m arc a del p rim e r individuo seleccionado no nos ayuda a p re d ecir la m arc a del segundo. E sto no es, con todo, lo que aquí se entiende p o r “m u estras al azar in d ependientes”. E n efecto, n o sólo h a de h a b e r independencia en el in te rio r de cada m u estra (aseg u rad a p o r el hecho de la selección al azar), sino q ue h a de h ab e rla adem ás entre las m u estras. Así, p o r ejem plo, las m u estras n o pueden aparearse, com o sería eventualm ente el caso e n tre grupos de control y grupos de experim ento. Si se fue ra n a co m parar, p o r ejem plo, los dos sexos, n o p o d ría utilizarse la p ru eb a de la diferencia de las m edidas en m u estras com pues ta s de p a re ja s de m arid o y m ujer. E l req u isito de que las m u estras sean independientes u n a de o tra es sum am ente im p o rtan te, au n q u e a m enudo se lo p ase p o r alto en la investigación, p artic u la rm en te cuando se m an eja con u n a m u estra en grupo. Si la m u e stra en con ju n to es estrictam en te al azar, y si se com paran dos su b m u estras tom adas de u n a m ism a m u e stra aleato ria m ayor, el supuesto de independencia e n tre las dos su b m u estras en cuestión te n d rá lugar, ya que todos los casos de la m u e stra m ayor se h a b rá n seleccionado indepen dientem ente u n o de otro. P or ejem p lo : si se com paran varones con hem bras, deberem os h ac er u n m u estreo general de los varo nes y otro m u estreo, seleccionado' independientem ente, de todas las hem bras. Es d ec ir: la selección de B ob Jones n o tiene in fluencia ninguna en la p robabilidad de que sea seleccionada Susie Sm ith. P or lo regular, en la investigación social tom am os una sola m u estra m ayor, aunque con fines d e análisis podam os conside r a r los datos como procedentes d e diversas m u estras indepen dientes. E n la m ayoría de los casos, el p roblem a de la fa lta de independencia en tre las m u estras no se p lan teará, a m enos que deliberadam ente las hayam os apareado. Como pueden d arse cir cunstancias en las que el diseño del m u estreo n o sea ta n sencillo, d eb erá p re sta rse atención a la posibilidad de que n o se satisfaga el sup u esto de independencia e n tre las m u estras. E n el teo rem a en cuestión se nos dice que si continuáram os a seleccionar indefinidam ente, seleccionando cad a vez dos m ues tra s y estableciendo u n a gráfica de sus m edias, la distribución de selección de e s ta diferencia e n tre m edias sería n o rm al o aproxi m ad am en te norm al. E l lecto r h a de tr a ta r de re p resen ta rse exac tam en te lo q ue aquí ocurre. Tenga p re sen te que, com o sociólogo, él sólo o b ten d rá en re alid ad dos m u estras y u n a sola diferencia, en tan to q ue aquí tra ta m o s de la distrib u ció n h ip o tética de to d as las diferencias posibles. Como q u iera q u e la distrib u ció n de m u estreo es p a ra u n a diferencia e n tre m edias de m uestras, la m e dia de la d istribución de m u estreo está d ad a p o r la diferencia e n tre dos m edias de población, m ás bien q u e p o r cu alq u iera de ellas separadam ente. E n el caso especial en que ¡J4 y {x2 sean igua les, la m edia de la d istribución de m u estreo será cero. Si > ¡j,2, esperam os que la m ayoría de las X 1 será m ay o r que las X 2, co rresp o n d ien tes, y que la m edia de la d istrib u ció n de selección será p o r consiguiente positiva. P or ejem plo, si (ix = 60 y = 40, la d istrib u ció n de X x — X 2 te n d rá 20 com o m edia o valor es perado. No es en cam bio ta n fácil v er p o r qué la variancia h a b ría de ser a l/N i + o l/N s, o sea la su m a de las variancias de la d istribución de m u estreo de las m edias separadas. Es obvio que no p o d ría em p learse u n a diferencia de variancias a f / N x — o l/N , ya q u e po d ría obtenerse, p a ra la distribución de m u estreo , cero o u n a va rian cia negativa. E n cam bio, la variancia ax/N 1 + c|/A ?2 es rnayor que cu alq u iera de las dos variancias a 1/ N 1 o a 2/ N s. ¿P or qué es esto así? A unque n o p u ed a darse u n a justificación com pleta de la fó rm u la sin re c u rrir al razonam iento m atem ático, puede, con todo d arse cierto tipo d e explicación intuitiva. F undam entalm en te, esperam os q ue el e r ro r e stá n d a r co rresp o n d ien te a la diferen cia de las m edias sea m ay o r que cualquiera de los e rro res e stán d a r separados, p o rq u e tenem os ah o ra dos fuentes de erro r, o sea u n a en cada m u estra. Así, pues, la m ita d d e las veces las dos X e sta rá n en e rro r en sentidos opuestos. Con fines de sim plifica ción, supongam os que |xx = u2- E n este caso, si X t es m ayor que ¡i! y X 2 es m ayor que el re su ltad o de la sustracción será u n a can tid ad gran d e positiva, p o rq u e los e rro res son e n sentidos opuestos. P o r ejem plo, si X x es m ás gran d e en 20 que (¿i y X<¡ es m en o r en 15 que |x2, la diferencia re su ltan te, X, — X 2 diferirá de [ii — |i2 en 35, com binando, pues, los erro res im plicados. Y en fo rm a análoga, si X t es pequeña y X 2 es grande, p u ed e re su lta r u n a diferencia negativa sustancial. E n o tro s té rm in o s : con m u cha frecuencia obtendrem os diferencias relativ am en te grandes en tre las m edias de las m u estras, ya que cada m edia v aria rá in dep en d ien tem ente de la otra. E n consecuencia, la distribución de m u estreo de u n a diferencia te n d rá u n a desviación e stá n d a r m a yor que cu alq u iera de las d istin tas distribuciones de m u estreo separadas. * La fó rm u la p a ra el v alor esp erad o y la variancia de X x — X¡¡ puede ser d educida utilizando una vez m ás las expresiones co rres pondientes a las com binaciones lineales. Se re c o rd a rá que si Y = cíX 1 + c^X2, tendrem os E ( Y ) = C jE C ^ ) + czE ( X 2), y aT2 ~ ci2 + c 22 Gx22, a condición de que X x y X s sean independien tes. Si hacem os ah o ra que Y re p resen te u n a diferencia de medias, sustitu y en d o X x p o r X ít y X 2 p o r X 2, haciendo cx = 1 y c2 = —1, tendrem os, com o caso especial, los resultados E ( Y ) = E ( X x - X 2) = ( D E m + ( - 1 ) £ ( X 2) = m - |x* y Oí2 022 0,* = ( l ) 2 0 / + ( - 1 ) 2 0j 2 = —¡ j— + —rf— i 2 Ni N2 Obsérvese que si hubiésem os fo rm ad o la sum a de X-¡ y X 2, la expresión de la variancia p a ra dicha can tid ad h u b ie ra sido la m is m a que la co rresp o n d ien te a su diferencia. E n el capítulo xvi estu d iarem o s o tro s tipos m ás com plejos de com paraciones en las q u e se incluye u n a generalización de esta sim ple com paración de dos m ed ias de m u estras. Vamos a v e r ah o ra u n ejemplo- ilu strativ o del em pleo de la p ru e b a de la diferencia de las m edias. El caso de las 0 conocidas n o lo exam inarem os, y a dicho p ro b lem a es obvio y m ás bien poco práctico-. S upondrem os, pues, que las 0 no se conocen. Con siderarem os dos casos p a rtic u la re s : en el p rim ero supondrem os que 0X= 02, en ta n to que e n el segundo se su p o n d rán dos 0 des iguales. Es obvio que estos dos m odelos com prenden todas las altern ativ as posibles, Problem a. Se establece u n a com paración e n tre dos tipos d e dis trito s, o sea e n tre los pred o m in an tem en te u rb an o s y lo-s que son fu n d am en talm ente ru rales. Los d istrito s en cuestión se com paran en relación con el p o rc e n ta je de p e rso n a s que votan p o r los de m ó cratas en u n a elección presidencial, con los siguientes resul tados : Distritos urbanos Distritos rurales N ± = 33 iV2 = 19 = 57 % 5! = 11 % X2 = 52 % s2 = 14 % ¿P resen tan estos datos m otivos razonables p a ra suponer que existen diferencias significativas en las preferen cias electorales de dichos dos tipos de d istrito s? Supóngase que éstos se h an se leccionado al azar d e u n a lista de todos los d istrito s del F a r W est, y que estudios previos h a n m o strad o que las respectivas d istri buciones de población son aproxim adam ente norm ales. M odelo 1: ai = o2 1. S u p u esto s N ivel de m e d ic ió n : el p o rc en taje de votos dem ocráticos es u n a escala de intervalo M odelo: m u estras aleatorias independientes poblaciones norm ales, ai — a2 = a. H ip ó te sis: = ^2. E l su p u esto de n o rm alid ad puede aban d o n arse siem pre que l a s . N sean grandes (p o r ejem plo, am bas so b re 50). El supuesto a — <r2 pued e co m probarse efectivam ente p o r m edio d e la p ru e b a F quse se exam inará en el capítulo xvi. E sta p ru e b a co m porta una com paración de las dos desviaciones e stá n d a r de las m u estras. Si Si y ss n o difieren m u ch o n o p o d rá rechazarse la hipótesis de que ai = a2- Si de acu erd o con los re su ltad o s de la p ru e b a F el su p u esto de desviaciones está n d a r iguales es razonable, será m ás eficaz aprovecharse de ello p a ra ap re c ia r el v alo r com ún de o. D ado el supuesto d e q u e las dos poblaciones sean norm ales, los su p u esto s adicionales de m edias y desviaciones e stá n d a r iguales equivalen a so stener que las dos poblaciones son idénticas. Como q u iera que estam os interesados e n sab e r si existe o no alguna diferencia e n tre los dos tipos de distrito s, n u e stra h ip ó te sis n u la será la de q u e n o existe diferencia. P or lo visto, sospe cham os que sí existe diferencia, y p o r ello form ulam os u n a hipó tesis que deseam os descartar. E n este caso podem os designar legítim am ente la hipótesis com o hipótesis "n u la”, que n o indica relación e n tre las variables “tip o de d is trito " y "preferencia elec to ra l”. Se concibe que hubiéram os podido e sta r e n condiciones de co n cretar que las m edias de la población se esp era que sea alguna co n stan te d istin ta de cero. Así, p o r ejem plo, las hipótesis pu d iero n h ab e r ad o p tad o la fo rm a de ^ — p,a = 10, si se hubiera an ticip ad o que la votación en favor de los dem ócratas sería un 10 % su p erio r e n los d istrito s u rb a n o s. S in em bargo, e n ciencias sociales estam o s ra ra m e n te en condiciones de p o d e r co n cretar tanto. 2. D istribución de m uestreo. Nos servirem os de la distribución t, ya q u e las a no se conocen y q u e el n ú m ero to ta l de casos es m uy in ferio r a 120. 3. N ivel de significación. E scojam os el nivel de .01 y u n a p ru e b a d e dos colas. 4. Cálculo del estadístico de la prueba. Se re c o rd a rá que la dis trib u ció n t se calcula to m ando la diferencia e n tre el valor o b te n id o de la m u e stra y la m edia de la d istrib u ció n de m u estreo , y dividiendo e n tre u n a estim ación del e rro r e stá n d a r d e e sta d istri bución. N os in te re sa aquí la diferencia e n tre las m edias de la m u estra, X 2. Como q uiera que la m ed ia d e la distribución de m u estreo es ^ — |x2, obtenem os p a ra t la siguiente expresión: en donde a j _ - g es u n a estim ación del e r ro r e stá n d a r de la dife re n cia e n tre las m edias de la s m u estras. Como q u iera que en la hipótesis n u la se h a su p u esto que ¡xj = ¡_i2, la expresión p a ra t se convierte, en este caso especial, e n La sem ejanza e n tre el n u m era d o r a n te rio r y el que utilizam os en la p ru e b a de u n a sola m u e stra es m ás o m enos casual, o sea re su ltad o del hecho de que, en la hipótesis nula, las ¡j, se elim inaron. Sin em bargo, no debe sacarse la conclusión de q u e la ¡j. del p ri m e r tip o de p ro b lem a se h a rem plazado sim plem ente p o r la de la m u estra de la segunda de éstas. E n realidad, la expresión (X j—X &) h a rem plazado a X , (¡ii~ ¡i2) h a rem plazado a ¡x, y h a rem plazado a a - . 12 Nos fa lta a h o ra evaluar o-^ . Sabem os, p o r supuesto, que Como q u iera que en este caso Oí = a2, podem os in d icar el valor com ún com o o, sacarlo del radical, y sim plificar la expresión de 7 com o sigue: la 2 o3 / l l |N i + #2 =V^vT+ ~ Ñ 7 ~ ° ^ ~ K "ÑT_aV La varian cia com ún o2 puede evaluarse ah o ra obteniendo u n a apreciación com binada de am bas m u estras. Como q u iera q u e las dos variancias de las m u estras se b a sa rá n p o r lo re g u lar en n ú m eros distin to s d e casos, podem os o b ten er u n a apreciación d e o2 to m an d o u n pro m edio p o n d erad o de las variancias de las m ues tra s, poniendo cuidado e n dividir e n tre los grados propios de liber tad , con o b jeto de conseguir u n a estim ación insesgada. E xtrayen d o la raíz cu ad rada, obtenem os la estim ación de o com o sigue: A a- . I ^1S18 + N 2 S 22 + N2 - 2 _ P u esto q u e : Ar1s12 = 2 ( X a - X x )2, podrem os su s titu ir N 1s 12 p o r : í=i — 2 ¿Cu2, en donde x it = X {1 — X i. Si hacem os lo m ism o p a r a iV2s22, obtenem os Xnz + 2 xiSz Nt + N2- 2 De este m odo, si tom am os la sum a de los cu ad rad o s alred ed o r de la m edia de la p rim e ra m u e stra y sum am os a ella la su m a de los cu ad rad o s de las desviaciones alre d ed o r de la m edia de la segunda m u estra, dividiendo finalm ente e n tre N í + N 2 — 2, o bte nem os u n a estim ación com binada de la variancia com ún. O bsérvese q ue el sím bolo a se em plea a h o ra p a ra re p re se n ta r u n a estim ación d istin ta de la que vim os en los capítulos an te riores. P ara in d icar u n a estim ación insesgada se em plea a m enu d o en la lite ra tu ra estad ística el sím bolo “A”. Como q u iera q u e hem os p erd id o 2 grados de lib ertad , u n o en cada cálculo de sx y s 2 a p a r tir de Xj y X¡, los grados to tales de lib ertad quedan en jVjl AT2 — 2. P a ra o b ten er n u e stra estim ación, nos hem os servido de am b as m u estras, d an d o u n m ayor peso a la variancia de la m ayor de ellas. S em ejan te estim ación com binada será m ás eficaz que las estim aciones b asa d as en u n a u o tra sola de las m u estras en cuestión. A títu lo de control del cálculo, el valor num érico de a se situ a rá p o r lo re g u la r e n tre los de sx y s2. F inalm ente, obtenem os u n a estim ación de a 2 tom ando nuestr a estim ación de a y m ultiplicando p o r Nt + N2 — com o en la ’ tfiiV2 ecuación (X III.2 ). Así: A ! N lSl* + ¡N1+ N2 c . _ T. = i - -, 7 2 i AT-i + iVo — 2 " N i N i ' (X III.4 ) O bsérvese que la ecuación ( X III.4 ) se diferencia de la ecuación (X III.2 ) en q ue el a de la ecuación (X III.2 ) h a sido sustituido p o r su estim ad o a, com o se define en la ecuación (X III.3 ). En este p u n to la fó rm u la parece terrib le. S in em bargo, el lecto r de b ería re p a sa r los p aso s algebraicos exam inados anteriorm ente, p a ra convencerse de que la fó rm u la n o es ta n com plicada com o a p rim e ra v ista parece. E n n u estro ejem plo num érico obtenem os los siguientes resu l tados : £_ _ = J ü (121) + 19 (-9— J ü ± Í L = ( 12.42) (.288) = 3.58 \ 33 + 1 9 - 2 T 33(19) P o r lo tan to , (X t — X 2) — 0 _ 5 7 - 5 2 _ 358 O bsérvese q ue n u e stro estim ado a = 12.42 cae e n tre ^ = 11 y s t ~ 14. 5. Decisión. Com o q uiera que se utilizó u n a estim ación com bi nad!! de la desviación está n d a r com ún, los grados de lib ertad asociados » t serán N, + N¡¡ — 2, o sea 50. E ncontram os que t = 1.40, cuya pro b ab ilidad sería considerablem ente su p erio r a .01 si todos los supuestos lu cra n correctos. Decidim os, pues, no des c a rta r la hipótesis nula al nivel de .01, y llegam os e n consecuen cia a la conclusión de que no se dan diferencias electorales signi ficativas en tre los d istrito s urbanos y ru rales del F a r W est. Modelo 2: a$. Vemos aliora cuáles m odificaciones resu ltan necesarias cuando es im posible suponer que las dos poblaciones p re sen tan las m ism as desviaciones están d ar. P robablem ente h a brem os verificado y d escartad o la hipótesis de <n = a2. E n conse cuencia, ya no es posible a h o ra sim plificar la fó rm u la cr-, in tro d u cien d o u n v alor com ún p a ra a, ni lo es tam poco fo rm a r u n a estim ación com binada. E n sem ejan te caso, estim am os las dos desviaciones e stá n d a r (d is tin ta s) separadam ente. E stim am os a p a r tir d e s12/(A r1 — 1), y a22/ N 2 so b re la base de s22/ (N 2 — 1), con lo que o b te n e m o s: a I s i2 s22 = 1 ñ = i + J ¡¿ ri W E n el ejem plo em pleado an terio rm en te tenem os, p u es: 121/32 + 196/18 = V3.78 + 10.89 = ^ /1 4 ¿ 7 = 3.83 Y p o r consiguiente, 57 — 52 í = ------------= 1.31. 3.83 Así, pues, los resultados obtenidos en los dos m odelos d istin to s no difieren grandem ente. Si b ien el p ro cedim iento em pleado e n el m odelo 2 es m ás sen cillo desd e los p u n to s de v ista lógico y de cálculo a la vez, la estim ación d e o - v n o es, con todo, ta n eficaz, en él, com o 1 2 la q u e se obtuvo an terio rm en te. P or o tra p arte , a u n si suponem os poblaciones norm ales, el m odelo 2 re su lta algo dudoso en los casos en que las N n o son m uy grandes o en que los tam años de las m u e stra s d ifieren m u ch o u n a de o tra. La dificultad se hace p re sen te al escoger el grado adecuado de lib ertad . Así, p o r ejem plo, si la p rim e ra m u e stra fu e ra excepcionalm ente pequeña, sería m uy falaz servirse de + N 2 — 2 com o grados de lib ertad , ya q u e sx sería u n a estim ación m uy deficiente de o1( y a que el valor de 5lV ( N i — 1 ) sería p o r lo re g u lar m u ch o m ayor que el de s 22 / ( N 2 — 1). E sto es c ie rto p o rq u e n o siendo m uy diferentes los valores de Sj2 y 5¡¡2, los tam años relativos d e las dos fracciones ven d rán fu n d am en talm en te determ inados p o r sus denom inadores. S e h a sugerido que, a m enos que las N sean grandes, es p re fe ri ble serv irse de la siguiente expresión p a ra o b ten er u n a aproxim a ción de los grados co rrecto s de lib e rta d : V a t.- i ” ( A Y ( « í i H n, - iJ & r (s~ n )™ , E n esta fo rm a obtenem os en el ejem plo a n te rio r: d f = "(3.78)*( 1/34) + (10.89)2(1720) ~ 2 = 33-89 ~ 2 = 3L89 ~ 32 Obsérvese que algunas de las m agnitudes de la fó rm u la de los grados d e lib e rta d ya se calcularan an terio rm en te. De la ta b la t, sirviéndonos de 32 grados de lib ertad , vem os que la hipótesis n u la no d eb ería d escartarse al nivel d e .0 1. P o r lo q ue se re fiere a los supuestos, la ú n ica diferencia en tre los m odelos 1 y 2 es el supuesto de que — or2. O bsérvese que n ad a h ay en el segundo procedim iento que requiera que las des viaciones e s tá n d a r sean desiguales. Si o cu rre que son iguales (o casi) el segundo m odelo será sencillam ente el m ás eficaz. Pa re cerá tal vez que el segundo p rocedim iento sea p referib le en general, p o rq u e no req u iere el su puesto de cr, = a2. Sin em bargo, según acabam os de ver, este m odelo necesita aproxim aciones p a r a los grados de lib ertad . E n el caso d e m u estras grandes, los dos m étodos p ro p o rcio n ará n p o r lo re g u lar re su ltad o s sim ilares, si tas desviaciones estándar son efectivam ente iguales, ya que las dos desviaciones e stá n d a r de las m u estras serán, u n a y o tra, b u e n as estim aciones d e la a com ún. Si se d a el caso d e q u e las a se conocen p a ra am bas poblacio nes, entonces sus respectivos valores pueden po n erse directam en te en la fó rm u la de a - -- , y a que no se re q u ie re estim ación i 2 alguna. P uede en este caso calcularse Z y u tilizarse el cuadro norm al. Con las a conocidas, n o h a b rá necesidad, p o r supuesto, d e distin g u ir e n tre los m odelas 1 y 2. Es obvio, sin em bargo, que los casos en que am bas <r sean conocidas serán extrem adam ente ra ra s en la investigación p ráctica. X III.2. Diferencia d e proporciones Lo m ism o que en el caso de p ru e b as q u e co m p o rtan proporcio nes de u n a sola m u estra, la diferencia e n tre dos proporciones puede tra ta rs e com o caso p a rtic u la r d e la diferencia e n tre dos m edias. Si com param os dos m u estras aleatorias, independientes, en relación con las proporciones de personas afectadas de p re juicios, podem os fo rm u lar la hipótesis n u la de q u e las proporcio nes y p u„, respectivam ente, de p erso n as con p rejuicios son igua les en las dos poblaciones. Como q u iera que ya se dem ostró en el caso de p roporciones que ai = y a2 = \ / p %2q un, síguese q u e las desviaciones e stá n d a r de las dos poblaciones h an de ser iguales. P or lo tan to , el siguiente ejem plo se sirve esencialm ente de los m ism os procedim ientos em pleados en el p rim e r m odelo, en el caso de la p ru e b a de diferencia de las m edias. Problem a. Supóngase que se establece u n a com paración a p ro p ó sito de los hábitos de recreación e n tre trab a jad o res de línea de ensam ble y personas cuyo tra b a jo n o consiste en u n a m era rep etició n ni se halla su jeto al ritm o de la m áquina. Suponga m os que el investigador sospecha que los trab a ja d o re s de línea d e ensam ble serán m ás propensos a escoger form as de re cre a ción del tipo de esp ectad o r "pasivo”. E n u n a m u estra aleatoria de 150 trab a jad o res de ensam ble en u n a determ in ad a fábrica se en c u en tra que el 57 p o r ciento dan preferencia a las form as de re creación pasivas. E n u n a segunda m u estra, seleccionada asim is m o al azar, el 46 p o r ciento de los trab a jad o res, sobre 120, indi can tam b ién p referencia p o r las form as de recreo pasivas. ¿E xiste al nivel de .05 diferencia significativa alguna en tre am bos grupos? 1. Supuestos. N ivel de m edición: el tipo de recreación com o dicotom ía M odelo: m u estreo al azar independiente H ip ó tesis: pUl = p n (im plica ax = as ) 2. D istribución d e m uestreo. Como q u iera que am bas N son relativ am en te grandes, la distribución de m u estreo de las dife rencias e n tre las proporciones será aproxim adam ente norm al, con la m edia p n - p U2 = 0, y u n a desviación e s tá n d a r d e : en donde qUl y q „2 son iguales, respectivam ente, a 1 — p H y 1 — 3. N ivel de significación y región crítica. E l problem a especi fica que hem os de servirnos del nivel .05. R esulta indicada u n a p ru e b a de u n a sola cola, ya que la dirección de la diferencia se anticipa. P o r consiguiente, cualquier v alo r positivo su p erio r a 1.65 in d icará que los resultados son ta n im probables, con dichos su puestos, que la hipótesis n u la h a de descartarse. 4. Cálculo d e la estadística de la prueba. Como q uiera que p o r hip ótesis tenem os p n = p t,2, síguese que Gi = a2 = a, pudiendo em p learse la fó rm u la especial: ¡N i + N 2 A nteriorm ente, en la p ru e b a de proporciones de una sola m ues- 1 Si las muestras son pequeñas, nos servimos de la prueba de Fisher, des crita en el capítulo xv. tra , p u d o p re scin d irse de la estim ación de a, ya q u e el valor de p u se suponía. Ahora, en cam bio, la hipótesis en u n cia sim plem en te que p Ul = p„2, p e ro sin especificar, con todo, cuál sea el valor re al de estas p roporciones. É sta es la razón de que necesitem os u n a estim ación com binada del e r ro r e stán d a r. E n lu g ar de b u s c a r u n p ro m ed io p onderado de las dos variancias d e las m u estras, q u e es lo q u e hicim os antes, podem os o b ten er u n a estim ación lig eram en te m en o r, calculando u n a estim ación com binada ( p u) d e p u. E n co n tram o s luego qu p o r sustracción. Ya q ue: o — ~\/PuQu p odem os p o n e r a = V PuQu Así, pues A A , ¡ ¿*1 + N2 ~ * J Ni C¡ p* i - p*2 “ ° 1 N tN 2 ^|a A 1 + Í V 1 NiN. 2 (XIIL8) Con o b jeto d e o b ten er p u, se to m a u n pro m ed io p o n d erad o de las pro p o rcio n es de las m u estras de la m a n e ra sig u ie n te : N i PH + N 2p S;¡ P* = --- nJT-TT ± + n t2---- (XIIL9) O bsérvese q u e el n u m e ra d o r de esta expresión n o es m ás que el n ú m ero to ta l d e los individuos d e am bas m u estras q u e p refieren fo rm as de recreació n de tipo pasivo. Así, en el caso de n u estro ejem plo num érico, obtenem os: a Pu- 150( .57) + 120(.46) = .521 150 + 120 P o r lo tan to , qu = 1 — p u = .479 SPn-> .2 = V ( - 5 2 1 ) ( . 4 7 9 ) / 150 + 120 (150)(120) = (.4996) (.1225) = .0612 Y de ahí que Z= ( P „ , - f t 2) - 0 .5 7 - .4 6 ---------------= _ ü_ _ = 1.80 5. Decisión. Como quiera que con u n a p ru e b a de u n a sola cola la p ro b ab ilid ad de o b ten er u n valor d e Z igual o m ayor que 1.80 es de .036, siem pre q u e la hipótesis n u la sea efectivam ente co rrecta, podem os d e sc a rta r esta hipótesis al nivel de .05. Conclui m os, pues, que existe u n a diferencia significativa en relación con la preferen cia de tipos de recreación pasiva en tre las dos clases de trab a jad o res d e la fáb rica considerada. H ay que m en cionar aquí que existen diversas clases a lte rn a ti vas de p ru ebas, la m ás im p o rtan te de las cuales es la de la 1 y_ al cuadrado, que se exam inará en el capítulo xv, que pueden u tili za rse en lu g ar de la p ru e b a de la diferencia de las proporciones. Com o q u iera que, e n efecto, el em pleo de la p ru e b a de la dife ren cia de las proporciones está lim itado a dos m uestras y una variab le dicotóm ica, é sta no re su lta ta n p rá ctica com o la p ru eb a % al cuadrado, que puede aplicarse lo m ism o a tres o m ás m ues tra s . Sin em bargo, u n a de las ventajas de la p ru e b a de la diferen cia de las p roporciones es que, m ed ian te m odificaciones adecua das, se la puede u tiliza r en el caso de m u estras de áreas o p o r conglom erados. D esafortunadam ente, las m odificaciones en cues tió n n o tienen cabida en el m arco del p re sen te texto. * Diferencia de diferencias de proporciones. Podem os am p liar fácilm ente el p rincipio de u n a p ru e b a p a ra u n a diferencia de p ro porciones (o m ed ias) h a sta a b a rc a r u n a diferencia de d iferen cias, o incluso u n a d iferencia de diferencias de diferencias. Su pongam os, p o r ejem plo, q u e tenem os datos relativos ta n to a trab a jad o res com o a trab a jad o ras, y que deseáram os co m parar los sexos en o rd en a la relación e n tre los trab a jo s realizados y las preferencias recreacionales. Tal vez encontraríam os en el caso de los h o m bres u n a diferencia ta l com o la que acaba m o s de ilu strar, p e ro ninguna en el caso de las m ujeres. O tal vez la dirección de la diferencia pu ed a re s u lta r co n tra ria e n tre am bos sexos. A m pliando esta ilustración podríam os d esear agre g ar el d ato relativo a las edades. E n tal caso puede concebirse que ten d ríam o s u n a diferencia de diferencias (e n tre h om bres y m u je re s) en el caso de los trab a jad o res jóvenes, y u n resu ltad o d istin to p a ra los trab a jad o res adultos. P uede observarse q u e es tam os an ticip an do problem as que ta l vez su rja n cuando m an eje m os m ás de dos variables, y cuando las diferentes variables pue d an cau sar peculiares efectos com binados. En tales casos se afirm a que hay "in teracció n ” e n tre las variables, o q u e sus efec to s unidos son n o aditivos. E n los capítulos xvi y xx tendrem os o p o rtu n id ad de estu d ia r con m ás d etalle estos tipos de posibili dades. E n el m uy sencillo ejem plo en el que deseam os co m p arar las diferencias de proporciones e n tre h om bres y m ujeres, suponga m os que p Ul y p „2 re p resen ta n las proporciones de población p a ra h om bres, com o en el a n te rio r ejem plo. T endrem os entonces dos pro p o rcio n es sem ejantes, p U3 y p „4 q u e re p re se n ta rá n las m u je res, y p o d ríam o s h ac er u n a p ru e b a sim ilar de la hipótesis nula, ta l como, p a ra las m u je re s p«3 —A,4. P ero podem os p ro b a r asi m ism o la h ip ó tesis m ás com pleja de que las diferencias (d e p o b lació n ) p a ra los sexos son tam b ién idénticas. N u e stra hipótesis n u la p asa así a se r PH ~ P«2 = Pus ~ PH o ( pn - p u 2 ) - ( p „ a - p ui) = 0 E xp resad o de o tra m an era, estam o s sen tan d o la hipótesis de que la relación e n tre clase de tra b a jo y p referen cias recreativas (m ed id a p o r u n a diferencia de p ro p o rcio n es), es igual p a ra am bos sexos. U na hipótesis altern ativ a p o d ría co n sistir en que la diferencia es m ay o r e n tre los h o m b res que e n tre las m u jeres. Podem os u tiliz a r de nuevo el p rin cip io de las com binaciones lineales, p lan tean d o Y = c xp Sl + c2p S2 + csp ss + c 4p H E n cu an to a la hipótesis n u la que estam os considerando, h a r e m os c 1 = c 4 = 1 , y c2 = c8 = 1 , re su ltan d o (siem p re que se tra te d e m u estras seleccionadas indep en d ien tem en te) E ( Y ) = E ( p , 1 ) - E ( P ''¡) - E ( p , 8 ) + E ( p H )¿=(pUl- p V2 ) - ( . p i,¡i- p ili) y g tt ~ P v xQux P«8<7«8 í*«4*7«4 — Nn -----¡rr------ 1— t í ------- 1-------- n — x 1--------N z Ns N4 podem os ya fo rm a r Z, com o sig u e : ( P gl ~ P s2 ) ~ ( P s 3 ~ P H ) Pv,-flnx P«2^,“2 P«g?«3 P«4^f«4 \ ---------- ¡------------ ----------- - H----------’ Nx N2 Ns N4 y u s a r el cuadro- n o rm al e n fo rm a directa. Como el denom inador contiene las incógnitas p u. y qu., podem os estim árselas m ediante las corresp o n d ientes p 8. y qs., fija n d o conservadoram ente cada g ru p o com o igual a .5. Es im p o rtan te a d v e rtir que la expresión p a ra la variancia de Y com prende c u a tro N t diferentes, las que aparecen com o denom i n ad o res en fracciones separadas. Com o q u iera q u e los p ro d u cto s paiq„i se en c u e n tra n n o rm alm en te cerca del v alor .25, verem os que el v alo r de cada fracción será p rim o rd ialm en te fu n d ó n del tam añ o de la su b m u estra. E n u n te rre n o práctico, si hay u n a subm u e stra m uy pequeña, ésta puede d o m in ar la expresión co rres p o n d ien te a la variancia de Y , y p o r ta n to tam b ién al denom ina d o r d e Z. De esta m an era, y p a ra lo g rar u n m áxim o de eficacia, desearem os u s a r su b m u estras del m ism o tam añ o aproxim ado. Si u n a su b m u estra es m uy pequeña, p o d rá n o re s u lta r significativa la p ru e b a an terio r, p o r razó n de se r g ra n d e el d enom inador de Z, re su ltan d o ad em ás in ju stifica d a la aproxim ación norm al. P uede seguirse exactam ente el m ism o pro ced im ien to e n relar ción con las diferencias e n tre las m edias, p o r ejem plo ( X x — X 2) — ( X 3 — X 4). H abrem os sin em bargo de ap lazar este asu n to h asta q ue e n el capítulo xvi abordem os las com paraciones generales en tre k m edias. X III.3. In terva lo s de confianza E n el caso de p ro b lem as de u n a sola m u estra, ya vim os que la con stru cció n de u n in terv alo de confianza constituye a m enudo u n p ro ced im ien to m ás p rá ctico que la verificación de las h ip ó te sis. E n la investigación social, sin em bargo, los intervalos de con fianza ra ra m e n te se em plean com o altern ativ as de p ru e b as de dos m u estras. La razó n de ello re sid e en que nos in te re sa p o r lo re g u la r estab lecer la existencia de u n a relació n e n tre dos varia bles, esto es, de u n a d iferencia significativa. E n ta n to que in tere sa m enos, en cam bio, la m ag n itu d efectiva de la diferencia en cues tión. E l sociólogo, en efecto, ra ra m e n te t r a ta de sac ar la conclu sión d e que la d iferencia e n tre dos m edias se sitú a e n tre 17 y 28, p o r ejem plo. P o r lo regular, se da p o r satisfecho si e n c u e n tra alguna diferencia significativa cualquiera. E ste hecho revela in d u d ab lem en te la fa lta de m adurez de las ciencias sociales y la p rep o n d eran cia de los estudios exploratorios. Es posible que, a m ed id a que las hipótesis se vayan haciendo m ás precisas, aum en te tam b ién la n ecesidad de los intervalos de confianza e n los p ro blem as de dos m u estras. E l pro ced im ien to em pleado p a ra el establecim iento de in terv a los de confianza es u n a extensión d irec ta del que se exam inó an terio rm en te. Se to m an sim plem ente los re su ltad o s de las m ues tra s, en este caso u n a d iferencia e n tre su s m edias, y se sitú a un in terv alo alre d ed o r de X t — X¡¡, que sea u n m ú ltip lo adecuado del e rro r e stá n d a r. Así, p o r ejem plo, si se deseaba u n intervalo de confianza del 95 p o r ciento, lo o b ten d ríam o s com o sigue: Si se re q u irie ra u n a estim ación del e rro r e stá n d a r y de la distri bución t, la fó rm u la se m odificaría de la m an era usual. X III.4. M uestras dependientes: pares asociados E n ocasiones re su lta ventajoso concebir u n estu d io e n el que las m u estras no sean independientes u n a de o tra. Uno de los tipos m ás com unes de los problem as de esta clase es aquel en que los casos de las dos m u estras se h a n asociado p o r pares. Puede h a b e r grupos de control y grupos experim entales, en los que los m iem bros se h ayan apareado desde el p u n to de vista de algunas características im portantes. O puede em plearse u n sim ple esque m a "antes y después”, en el que las m ism as p ersonas se com paran antes y después de haberse intro d u cid o alguna variable experi m ental. E n este últim o caso, las "d o s” m u estras constan de los m ism os individuos. Es obvio que sem ejantes m u estras n o son in dependientes u n a de otra. E n efecto, el conocim iento de las m arcas de los p rim eros m iem bros de cada p a r (p rim e ra m u e stra ) ayuda ría a p red ecir las de los segundos. De hecho, el objeto del aparea m iento, o de servirse dos veces de los m ism os individuos, con siste en c o n tro la r las m ás variables posibles, a p a rte de la ex perim en tal. Se persigue h acer las dos m u estras lo m ás iguales posibles, o sea m ucho m ás que si se h u b ieran seleccionado inde pendientem ente. E n relación con sem ejantes problem as, el investigador podría verse ten tad o a u sa r u n a p ru e b a de diferencia de las m edias. Sin em bargo, h a b ría de ser obvio que este procedim iento n o estaría justificado, ya que no tenem os 2N casos (N en cada m u e stra ) que se hayan seleccionado independientem ente. Como q u iera que, en efecto, las m u estras se h an apareado deliberadam ente, cualesq u ier peculiaridades de las m u estras se d arán probablem ente lo m ism o en la o tra. E n realidad, sólo se tienen N casos indepen dientes, siendo cada "caso" u n par de individuos, u n o de cada uno de las m u estras. P or consiguiente, si trata m o s cada p a re ja de individuos, com o u n solo caso, podem os legítim am ente proceder a efectu ar p ru eb as estadísticas, a condición que se cum plan los dem ás supuestos requeridos. E n lu g ar de efectu ar u n a pru eb a de diferencia de las m edias, podem os p ro ced er p o r com paración directa p o r pares, obteniendo u n a m arca de diferencia p a ra cada par. Si nos servim os de la hipótesis nula de que n o existe difer e n d a alguna e n tre las dos poblaciones, suponiendo así que la variable experim ental no- produce efecto alguno, podem os esta blecer sim plem ente la hipótesis de que la m edia de las diferencias p o r p ares (¡xfl) es cero. El problem a se reduce así a u n a verifica ción de u n a sola m u estra de la hipótesis u0 = 0. Problema. Supóngase que u n grupo de acción se propone in flu ir a los electores urbanos p a ra que voten en favor de unas p ro p u e sta s de viviendas populares en las próxim as elecciones. Se ap a rea n cuidadosam ente las ciudades del E stad o en relación con variables que se suponen se r significativas, y se em plean dos m étodos d istin to s de e je rc e r influencias so b re los electores. E l m é to d o del g rupo A co m p o rta u n procedim iento in d irecto co nsistente en in flu ir sobre los elem entos directivos de las ciudades, p ero sin ap e la r d irectam en te a la m asa. E n las ciudades del g ru p o B , en cam bio, la organización actú a com o g ru p o de presión, ape lando, com o organización ajena, d irec tam en te al elector. Las ci fras siguientes in dican los p o rc en tajes de votos en favor de la fluorización. ¿E s uno de los m étodos su p erio r al o tro ? Nám. del par Grupo A, % Grupo.B, % Diferencia, % 1 2 3 4 5 6 7 8 9 10 11 12 13 63 41 54 71 39 44 67 56 46 37 61 68 51 68 49 53 75 49 41 75 58 52 49 55 69 57 8 - 1 4 10 - 3 8 2 6 12 —6 1 6 5 52 1. S u p u esto s N ivel de m edición: El p o rc en taje de los votos es u n a escala de intervalo M odelo: muestreo- aleatorio diferencias de población d istrib u id as n o rm alm en te H ip ó te s is : [xD = 0. H ay q ue su p o n er que los p ares que fig u ran en las m u e stra s h an sid o seleccionados al azar de alguna población de p ares. Como se verá m ás abajo, este supuesto p lan tea algunas veces u n p ro b lem a difícil de in terp retació n . Como q u iera que son las dife ren cias de cada p a r las que nos in teresan directam ente, hay q u e su p o n er que la población de todas las diferencias posibles está d istrib u id a n o rm alm ente. Si N fu e ra grande, p o d ría p re sc in d irse de este supuesto. 2. D istribución de m uestreo. Como q u iera que n o se d a la- des viación e s tá n d a r de las diferencias de la población, hay que r o c u rrir a la distrib ución t, con N — 1, o sean 12 grados de libertad. O bsérvese que éstos re p resen ta n la m ita d de los grados de liber ta d que se h ab ría n utilizado si la p ru e b a de la diferencia de las m edias ( con ai = o2) h u b iera sido posible. 3. N ivel de significado y región crítica. Sirvám onos del nivel d e .05 y de u n a p ru e b a de dos colas. P or consiguiente, con 12 grados de lib ertad , si t ^ 2.179, descartarem os la hipótesis nula. 4. Cálculo de la estadística de la prueba. P rim ero hallam os la m edia de las diferencias de la m u estra sum ando las de la colum n a de diferencias y dividiendo en tre N( = 13). Se obtiene adem ás la desviación e stá n d a r de la m u estra de las diferencias. X D = 52/13 = 4.0 P o r consiguiente: Xj) —|A/> 4.0 — 0 sd / \ / N - 1 5 .0 2 3 y l2 = 2.76 O bsérvese que u n a vez que se h a obtenido la colum na de dife rencia, dejam os de p re s ta r atención a las re sta n te s colum nas. E ste m ism o p rin cipio es de aplicación en situaciones m ás com plejas, en las que p o r ejem plo podem os te n e r u n a diferencia de diferencias p o r cada par. (V er ejercicio 5.) 5. Decisión. Con 12 grados de lib ertad , u n a p ro babilidad de .02 corresponde a u n a t de 2.681. Decidim os, e n consecuencia, des c a rta r la hipótesis n u la y, observando la dirección de la diferen cia, concluim os que el m étodo1 B es su p erio r al A. X III.5. C om entarios a propósito de los esquem as experim entales y pruebas de significación Pese a que no sea posible p ro fu n d izar m ucho en u n texto com o éste en cuestiones de la planificación de experim entos, unos b r e ves com entarios tienen con todo aquí su lu g ar adecuado .2 El lec to r po d rá acaso hab erse p reg u n tad o a sí m ism o cóm o sea que preferíam os siem pre servirnos de m u estras asociadas, en lugar de m u estras independientes. Indudablem ente, se p ierd e n con aqué- s Para más detalles acerca de los esquemas experimentales, véase cual quier texto corriente sobre métodos de investigación. Véase en particular [8], capítulo iv. lias algunos grados de lib ertad y, com o q u iera que el em pleo de las m u estras asociadas im plica p a r tir los casos p o r la m ita d (e n relación con la p ru e b a ), ¿es que n o se p ierd e m ás, con ello, de lo que se gana? Todo esto depende de cuán acertados estem os en el apaream ien to de los casos. P or supuesto, el o b jeto d e la aso ciación e stá en re d u cir las diferencias debidas a variables extre m as. E sto significa que u n ap aream ien to cuidadoso debería re d u cir considerablem ente cad a u n a de las diferencias p o r pares. E n o tro s térm in o s: cu an to m e jo r sea el ap aream iento, tan to m en o r será la desviación e stá n d a r de las diferencias. Así, pues, si bien el n ú m ero de casos se reduce, la sD debería re d u cirse asi m ism o. Si se obtiene u n a fu e rte reducción de la desviación están d a r de las diferencias en relación con la p érd id a de casos, enton ces salim os ganando al a p a rea r. Como q u iera que, p o r lo regular se p e rd e rá n casos en los procedim ientos de apaream iento (véase infra), la conclusión lógica es la siguiente: n o se apareje, a m e nos de e s ta r co m pletam ente seguro de h a b e r localizado las varia bles significativas im p o rtan tes. Si el le c to r e stá estu d ian d o la delincuencia y ap area conform e al color del pelo, se v erá p ro b a b lem en te m ás ap u rad o que si n o a p a re a ra en absoluto. Los textos sobre m étodos suelen p o r lo re g u la r m encionar el hecho de q ue es p ro b ab le q u e con el procedim iento de ap a rea m ien to se p erd erá u n n ú m ero considerable d e casos. O sea que h a b rá que elim inar m uchos casos, p o rq u e n o hay casos sim ilares con los que se d ejen a p a rea r. S em ejante reducción p u ed e resu l ta r d esastro sa en el caso del supuesto de la m u estra aleatoria. E n efecto, u n sociólogo puede eventualm ente p a r tir de u n a m ues tr a aleato ria de 1 000 casos y te rm in a r con 200 que se dejen ap arear. Al p ro ced er así, es pro b ab le que se sesgue fu ertem en te su m u estra final, elim inando la m ayoría de los casos m ás ex tre m os o poco com unes, difíciles, efectivam ente, de ap arear. E n esta fo rm a re su lta a m enudo difícil d eterm in a r el c a rá c te r de la po blación a cuyo p ro p ó sito se está generalizando. P or ello hay que p ro c ed er con la m ayor p ru d en cia al generalizar los resultados. P o r lo tan to , este tipo de esquem a es p ro b ab lem en te m ás ú til en estu dio s en que el in terés p o r generalizar resp ecto de u n a pobla ción fin ita concreta, tal com o la de los blancos nativos en Chica go, es secundario. E n conexión con sem ejan te reducción de casos y las dificulta des en cu an to a generalizar a u n a población concreta, se sostiene a m enudo q ue no hay verd ad ero in terés en la población misma* ya q ue el o b jeto fu n d am en tal del investigador consiste e n esta b lecer "relaciones e n tre variab les”. Así, p o r ejem plo, u n psicólo go p u ed e acaso em pezar sirviéndose d e aquellos novatos varones b lancos que siguen u n cu rso de in troducción a la psicología y se p re s ta n v o lu n tariam en te com o sujetos de estudio. Puede p ro d u cirse m ay o r m u estreo todavía, a m edida q u e algunos sujetos se van elim in an d o en el proceso de apaream iento. Supóngase q u e se en c u en tra entonces u n a relación e n tre la v ariab le experim en tal y alguna variable dependiente. Se prop en d erá, en este caso, a sacar la conclusión que la m ism a relación su b sistiría indepen dientem ente de la población estudiada, esto es, concluir que se tra ta de u n a relación universal. Si ello re su lta efectivam ente ser así, el sociólogo puede m uy bien a firm a r que no tien e in teré s alguno p o r ex ten d er la generalización a cierta población fin ita cualquiera. Pero, ¿sobre cuál base puede su p o n er que la relación hallad a en u n a población ta n re strin g id a es c ie rta asim ism o en relación con o tra s poblaciones? O bviam ente, antes de p o d er h acer legítim am ente sem ejan te afirm ación, el experim ento h a de efec tu arse sobre u n gran nú m ero de poblaciones m uy distintas. Pese a que en u n experim ento' cuidadosam ente d ispuesto se p u ed e o b ten er el co ntrol de cierto n ú m ero de variables, p rodúcese casi siem pre u n a p é rd id a co rresp o n d ien te del grado en que los resul tados se pued en generalizar a poblaciones m ás extensas. E n el ag ru pam iento p o r p ares re su lta indicado seleccionar al azar en el in te rio r de cada p a r echando u n a m oneda al aire p a ra decidir cuál m iem b ro del p a r deba asignarse al g ru p o experim en tal y cuál al g rupo de control. S em ejante p rocedim iento confiere m ay o r contenido lógico a la in terp re tació n de los resultados, en el sentido de que cabe excluir la autoselección. Así, p o r ejem plo, en el in ten to de in flu ir sobre los electores en m a te ria de vivienda p op u lar, supóngase que se p erm itía a las au to rid ad es locales ele gir aquel de los dos tipos de influencia que p re fería n o q u e creían ib a a re s u lta r m ás eficaz en su localidad p artic u la r. Es posible, en estas condiciones, que todas o- la m ayoría de las lo calidades con cierto tipo de au to rid ad es fu e ran objeto' del m éto do' indirecto, en ta n to que las de o tro tipo' de dirigentes se verían tra ta d a s p o r el m étodo directo. Tendríam os así u n a variable in co n tro lad a (el tipo de au to rid a d es), cuyos efectos se confundirían irrem ed iab lem ente con los de la variable experim ental. Concre tam ente, supóngase que el g rupo B re su ltab a te n e r el p o rc e n ta je m ás elevado de votos favorables, pero que al p ro p io tiem po dicho grupo ten ía las autoridades m ás dem ocráticas, debido al hecho que éstas ten dían a favorecer la aplicación a sus respectivas lo calidades del m étodo indirecto. ¿Cóm o podríam os sab e r si la di ferencia en la votación se debía efectivam ente a la superioridad del m étodo B y no, acaso, a las diferencias e n tre las au to rid ad es de los dos grupos de localidades? Podría alegarse que el tipo de au to rid ad es h u b o de h ab erse con tro lad o en el proceso de apaream iento, de m odo que dos locali dades de u no cualquiera de los pares tuviera el m ism o tipo. Sin em bargo, es obviam ente im posible c o n tro la r en el proceso de ap aream ien to todas las variables operantes, no sólo debido a difi cultades prácticas, sino a causa de n u estro s conocim ientos lim i tad o s acerca de cuáles variables son efectivam ente las m ás im p o rtan te s. En algún pu n to habrem os de a d m itir que puede h ab e r variables im p o rtan tes, m uchas de las cuales el investigador n o conoce y q u e n o se h an controlado en el proceso de ap a rea m iento. Y es p recisam ente en dicho m om ento cuando confiam os en la selección al azar, o sea en las leyes de la probabilidad, espe ra n d o que los efectos d e las variables incontroladas se h ab rán neu tralizad o m u tu am ente. Así, p o r ejem plo, con una N m ayúscula, esperam os que, en núm eros redondos, la m ita d de las localidades de auto rid ad es m ás dem ocráticas h a b rá n quedado en el g ru p o A, y la o tra m ita d en el grupo B. Y lo m ism o acontecerá con o tras variables incontroladas. E n los esquem as experim entales ex p o st facto, en las que el investigador sólo e n tra en función después de h ab erse efectuado el experim ento y en las que, p o r lo tan to , n o h a tenido o p o rtu n i dad de efectu ar tales asignaciones al azar, la posibilidad de autoselección n u n ca puede descartarse. Ni nos ayudan las leyes de las pro babilidades a a p reciar los efectos de la variable experim ental e n com paración con los efectos posibles de variables resp ecto de las cuales los grupos n o se h an apareado. Una de las m ayores v en tajas de los experim entos de la b o ra to rio sobre los llam ados " n a tu ra le s”, o ex p o st fació, está p recisam en te en ese control al azar de la autoselección posible. Sugiérense a m enudo o tro s m étodos de asociación de m uestras, a títu lo de altern ativ as del m étodo p o r p ares. P o r lo regular, ta les m étodos altern ativos p re sen tan la v en taja de a te n u a r la re ducción de los casos, p e ro conducen a dificultades cuando* se llega al análisis estadístico. Uno de dichos m étodos co m porta la aso ciación p o r d istrib uciones de frecuencia. Así, p o r ejem plo, puede p o nerse atención en que los dos grupos sean sim ilares en relación con el ingreso m edio, la edad m edia, la distribución general del ingreso, etcétera. E n esta form a, los grupos re su ltan com pa rab les en relación con dichas m edidas de resum en, aunque algún individuo no tenga en el o tro grupo c o n tra p a rtid a exacta alguna con la que se lo p u ed a ap a rea r. E n ese tip o de esquem a violam os claram en te u n a vez m ás el supuesto de in d ep en d en cia; pero, que el a u to r sepa, n o existe m odo sim ple alguno de servirse de u n a p ru e b a estad ística que sea a la vez eficaz y no com porte algún supuesto en entredicho. Se po d rían a p a re a r casos lo m ejo r posi b le y p ro ced er com o acaba de indicarse, pero el apaream iento co nducirá in dudablem ente a u n esquem a inoperante. Sin duda, no sería legítim o servirse de u n a pru eb a de diferencia d e m edias de N x + N 2 — 2 grados de libertad. Pruebas de significación y generalizaciones a poblaciones. Se ha su scitad o un amplio' d ebate en la bibliografía sociológica en re la ción con la adecuación de las pru eb as de significación en aquellas ocasiones e n q ue u n o tr a ta con la población ín teg ra. (V er espe cialm ente [3 ], [7 ], [9 ] y [10].) Puede, p o r ejem plo, co n tarse con dato s corresp o ndientes a todos los condados o estados de los E stados Unidos o de u n a región en p artic u la r. Si así ocurre, no h a b rá u n a población m ás extensa en relación con la cual se desee generalizar, p u d ien d o ser difícil concebir el p roceso de generali zación in volucrando u n a extrapolación a u n universo m ás am plio de p ro b abilidades, o a estos m ism os casos b a jo circunstancias análogas. E n este caso re su lta ría n inadecuadas las p ru e b as de significación, y a que n o h a b ría ím plicito ningún e rro r en el m uestreo. La a c titu d que u n o adopte en esta cuestión depende en p rim er lu g ar de si está satisfecho con generalizaciones a poblaciones fijas, o si desea sac ar conclusiones acerca del proceso causal que pue den h ab e r generado los datos de población. E n este texto hem os conceptualizado el p ro b lem a com o si n u e stro único objetivo fuese el de deducir p artie n d o de poblaciones fijas, p e ro es evidente que cuando deseam os relacionar n u estro s hallazgos con análisis teó ricos n u estro s objetivos no son n u n ca ta n sencillos. El problem a d e sac ar deducciones causales p a rtie n d o de dato s n o experim en tales, basados b ien sea en m u estreo s o en la to talid a d de las p o blaciones, es dem asiado com plicado p a ra su exam en en u n texto elem ental com o éste. Sin em bargo, h ay u n procedim iento p a ra o b ten er las p ru e b as de significación m ucho m ás com patible con las explicaciones teóricas en lo que se refiere a p o r qué se h a h allado u n a relación p artic u la r. Supongam os, p o r ejem plo, que, hab ien d o u sad o la to talid a d de los 50 estados, hem os hallad o u n a diferencia e n tre los del n o rte y los del sur, o b ien en tre los que tienen gobernadores republi canos o d em ócratas. N orm alm ente n o nos conform aríam os con h acer u n a sim ple descripción de tales diferencias, sino que que rríam o s o frece r u n a explicación, relacionada ta l vez con las dife ren cias regionales o políticas. A dm itam os que hem os advertido q u e los estad o s del su r gastan u n a p ro p o rció n relativam ente m a y o r de su s p resu p u esto s en su p ercarretera s, p e ro m en o r en edu cación su p erior. A ntes de q u e podam os h ac er declaraciones acer ca de que n u e s tra explicación deberá o rien ta rse a b u sc a r factores causales d eterm in an tes de esta diferencia regional, habrem os de p en sa r en u n escéptico hipotético que establezca el planteam ien to de u n a sencilla explicación altern ativ a de n u e stro hallazgo, a sab e r: la “causalidad". Podría, en efecto, d ecirnos: "A firm a u sted que h a encontrado u n a diferencia achacable a ca racterísticas regionales. Yo podría h ab e r utilizado u n a tabla de n úm eros al azar p a ra dividir los 50 es tados. O bien, p o d ría haberlos o rd en ad o alfabéticam ente con base e n la te rc era le tra de sus nom bres. Si yo pudiese p ro b a r que tal proceso, b asad o o casi basad o en el azar, h u b iera p ro d u cid o u n a diferencia ta n g ran d e o m ay o r que la suya, re su lta ría que su ex plicación n o e ra m ás plausible que la m ía.” O bsérvese que aquí n o se h ab la de u n a generalización a una población m ay o r que la to ta l de los 50 estados. El argum ento gira a lre d ed o r de los procesos que pueden h a b e r generado diferencias e n tre subpoblaciones o rdenadas de d istin tas m aneras. Es eviden te q ue si h ubiese sido posible o b ten er diferencias ta n grandes com o las diferencias regionales al h acer uso de u n a ta b la de n ú m ero s elegidos al azar, y siendo la teoría del escéptico m ucho m ás sim ple que la n u estra , n o te n d ría o b je to ad e n trarse m ás en ios datos. Si adoptam os este p u n to de v ista en relación con el p ro ceso de la generalización, tiene sentido el h ac er p ru e b as de significación, incluso cuando se cuente con datos correspondien tes a la to talid a d de la población. P arecería com o si la m ayoría de los sociólogos tu v iera p re sen te este m ás am plio objetivo, o rien tán d o se a d ecir algo acerca de los procesos causales, y p o r ello p la n te a ra n p ru e b as dirigidas a elim in ar la altern ativ a del sim ple “proceso casu al”. Sin em bargo, debe in sistirse que la p ru e b a de significación n o excluye m uchas o tra s clases de expli caciones altern ativas, ta l com o la que, p o r ejem plo, in tro d u ce v ariab les adicionales com o causas com unes de las dos variables b a jo estudio. E n el cap ítu lo xix volverem os a este, m ás dificulto so, problem a. E je r c ic io s /. Se seleccionan al azar 50 distritos electorales en una ciudad. Se en cuentra que 20 de ellos están atendidos por centros de la localidad, en tanto que los restantes no lo están. Se comparan los porcentajes de delincuencia en esos dos tipos de distritos y se obtienen los siguientes datos (que se indican en el núm ero de delincuentes por 1000 adoles centes ): Medida Con centro Sin centro Magnitud de la m uestra Media Desviación estándar(es) 20 27 6 30 31 8 Efectúese una prueba de significación de la diferencia entre los dos tipos de distritos (nivel de .0 1), sirviéndose a) del modelo 1 , y b) del modelo 2. ¿Cómo se presentan unos respecto de otros los resultados? Respuesta, a) t = 1.87; no rechazo. 2. Una m uestra al azar de mujeres casadas que siguen viviendo con sus m aridos ha sido objeto de selección, clasificándose a las mujeres en ''satisfechas” o "insatisfechas” con sus respectivas vidas maritales. Se comparan luego los dos grupos de mujeres en relación con el tiem po de sus matrimonios, con los siguientes resultados: Tiempo del matrimonio (redondeado al año) Satisfechas fi Insatisfechas ^2 0-2 3-4 5-9 10-14 15-19 20-39 34 41 50 39 18 15 10 16 23 25 14 16 197 104 Total ¿Existe alguna diferencia significativa entre estos dos grupos al ni vel de .01? 5. Supóngase que se espera encontrar que la diferencia entre los in gresos medios anuales de m uestras de médicos y dentistas sea de unos $500 (esto es, X t — X 2 = 500). Se aprecia que las desviaciones están dar son respectivamente de $ 1 900 y $ 1 600. Se planea seleccionar en la m uestra total el mismo número de médicos que de dentistas. ¿Cuán tos casos se necesitarán para establecer significación entre los ingre sos medios de doctores y dentistas al nivel de .05? Supóngase que se quiere tom ar un núm ero doble de médicos que de dentistas. ¿Cuántos casos se necesitarán en este últim o supuesto? Respuesta, .95 de cada uno. 4. Se ha clasificado una m uestra aleatoria de estudiantes universi tarios como "dirigidos por otros” y "dirigidos por sí mismos”. Se en cuentra que el 58 por ciento de los alumnos avanzados son dirigidos por otros, en tanto que pertenece a esta categoría el 73 por ciento de los alumnos novatos. En la m uestra total figuran 117 alumnos avan zados y 171 alumnos novatos. ¿Es esta diferencia significativa al nivel de .001? * 5. Supóngase que se ha dispuesto un experimento de antes —y— después con grupo de control. En otros térm inos: se han relacio nado dos grupos por pares y se han tom ado medidas de ambos grupos Par A B C D E F G H I J Grupo de control ---------------------------Antes Después 72 61 48 55 81 50 42 64 77 69 75 60 37 64 76 59 49 55 75 78 Grupo experimental --------------------------Antes Después 66 61 43 55 76 52 40 65 67 64 77 65 49 53 91 68 51 74 79 63 antes y después del experimento. Empléese la prueba t en relación con la efectividad de la variable experim ental: a) sirviéndose solamen te de las m arcas de “después" e ignorando las de “antes” ; b) emplean do las m arcas "antes” y “después” en el grupo experimental única mente, y e ) utilizando los cuatro juegos de marcas. (Indicación: ¿Cómo pueden emplearse las cuatro m arcas para descartar los efectos sobre la variable experimental de factores ajenos susceptibles de haber afec tado ambos grupos? Compárense las ventajas y los inconvenientes de los métodos a) y b). ¿Cuáles son las ventajas de c) respecto de a) y b)7 Respuesta, a) t = 1.25, sin rechazo. * 6. En el cuadro XV.4 del capítulo xv se encontrarán algunos datos relacionando las puntuaciones que los niños reciben por su habilidad, esfuerzo y clase social. a) Teniendo en cuenta tan sólo la clase media, hágase una prueba para ver si la relación entre esfuerzo y grado varía según el nivel de habilidad del estudiante. b) Amplíese esta prueba para ver si la "interacción” probada median te a ) difiere según sea la clase social del estudiante. Nota: En realidad, en b) se estará buscando una interacción de una interacción, o lo que se denomina una interacción de segundo orden. B iblio g rafía 1. Alder, H. L., y E. B. Roessler: Introduction to Probability and Statistics, 4? ed., W. H. Freeman and Company, San Francisco, 1968, caps. 8 y 10. 2. Downie, N. M., y R. W. Heath: Basic Statistical Methods, 2? ed., Harper and Row, Publishers, Incoiporated, Nueva York, 1965, caps. 11 y 12. 3. Gold, David: “Statistical Tests and Substantive Significance", American Socialogist, Vol. 4 pp. 42-46, 1969. 4. Goodman, L. A.: “Modifications of the Dom-Stouffer-Tibbetts Me thods for ‘Testing the Significance of Comparisons in Sociological D a ta '”, American Journal of Sociology, Vol. 66, pp. 355-359, 1961. 5. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry Holt and Company, Inc., Nueva York, 1952, cap. 19. 6. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva York, 1963, cap. 10. 7. Kish, Leslie: “Sootne Statistical Problema in Research Design", American Sociological Review, Vol. 24, pp. 328-338, 1959. 8. Selltiz, C., M. Jahoda, M. Deutseh y S. W. Cook: Research Me thods in Social Retations, Henry Holt and Company, Inc., Nueva York, 1959, cap. 4. 9. Selvin, H. C„ "A Critique of Tests of Significance in Survey Re search", American Sociological Review, Vol. 22, pp. 519-527, 1957. 10. Winch, R. F., y D. T. Campbell: “Proof? No. Evidenee? Yes. The Significance of Tests of Significance", American Sociologist, Vol. 4, pp. 140-143, 1969. X IV . ESCALAS O R D IN A L E S : PR U E B A S NO PA R A M ÉTR IC A S D E DOS M U E ST R A S H a s t a aq u í n o hem os tenido ocasión de exam inar pru eb as de sig nificación que co m p o rtaran escalas ordinales, p ese a h a b e r seña lado en el capítulo n que éstas son m uy frecuentes en ciencias sociales. E n el p resen te capítulo vam os a ocuparnos de pruebas de dos m u estras que pueden em plearse con escalas ordinales, p ru eb as com parables d irectam ente con las que co m p o rtan dife rencias de m edias y proporciones, tales com o las vim os en el ca p ítu lo an terio r. P o r lo tan to , las pru eb as exam inadas en este capítulo pued en em plearse p a ra relacio n ar variables de escala o r dinal con las que co m portan u n a escala nom inal dicotóm ica. E n los capítulos sucesivos verem os luego pru eb as que p erm iten re lacionar u n a escala o rdinal con u n a escala nom inal de cualquier nú m ero de categorías o con o tra escala ordinal. Las p ru e b as que se exam inan en el p re sen te cap ítu lo se desig n an a m en u d o com o no param étricas, o com o p ru e b as libres de distribución, p o r cu an to no re q u ie ren el su puesto de u n a pobla ción norm al. E n realidad, ta n to u n térm ino com o el o tro son algo equívocos. Ñ o querem os significar, en efecto, que com portan dis tribuciones las p ru e b as que n o tienen p arám etro s. Ni puede es ta r u n a p oblación “libre d istribución''. De hecho, am bos térm i nos se em plean p a ra designar u n a v asta categoría d e pruebas que n o re q u ie ren el su puesto de n o rm alid ad n i algún o tro supues to que especifique la fo rm a exacta de la población. Sin duda, en todas las p ru e b as n o p aram étrica s se req u ieren algunos supues tos acerca de la n aturaleza de la población, p ero p o r lo general, con todo, dichos supuestos son m ás débiles y m enos restrictiv o s q u e los que n ecesitan las p ru e b as param étricas. P o r lo dem ás, ya nos hem os en c o n trad o con algunas p ru eb as n o param étricas. Así, p o r ejem plo, la p ru e b a binom ial, la del signo y la de diferencia de p roporciones n o req u ieren el su p u esto de norm alidad, ya que todas ellas se refiere n a escalas nom inales dicotóm icas. A dife ren cia de estas p ru e b as no p aram étrica s p artic u la res, aquellas de las que nos ocupam os en este capítulo com portan todas ellas escalas ordinales, lo que p e rm ite servirse de u n nivel de m edición algo m ás alto. E n el siguiente capítulo se exam inarán dos p ru e bas no p aram étrica s adicionales, que sólo com portan, u n a y otra, escalas nom inales. ¿Cuál es la v e n ta ja de las p ru e b as n o p aram étricas e n com pa ració n con u n a p ru e b a tal, p o r ejem plo, com o la de la diferencia de las m ed ias? Al servim os de la p ru e b a t en relación con una p ru eb a de diferencia de m edias, vim os que era indispensable ser vim o s n o sólo de u n a escala de intervalo, sino tam bién de una 256 población norm al. Sin duda, podría prescindirse del supuesto de norm alid ad en el caso de m u estras grandes, pero alegábase, con todo, que precisam ente cuando las m u estras son pequeñas el sup u esto de norm alidad re su lta m ás dudoso. P or consiguiente, esperarem os e n c o n trar que las alternativas no p aram étricas de la p ru eb a de la diferencia de las m edias sean m ás útiles siem pre que se dé u n a de las dos condiciones siguientes: 1) que no po dam os servirnos legítim am ente de una escala de intervalo, pero estan d o justificado, con todo, el ordenam iento de las m arcas, o 2) que la m u estra sea pequeña y la n o rm alidad no pueda p re su m ir se. Como q u iera que estas pruebas no p aram étricas com portan supuestos m ás débiles que la p ru e b a de la diferencia de las me dias, pueden acaso n o sac ar provecho de toda la inform ación disponible. Así, pues, si p u ed e em plearse legítim am ente u n a es cala de intervalo y si el supuesto de n orm alidad puede h acerse en el caso de m u estras pequeñas o ab andonarse en el caso de las grandes, la p ru e b a de la diferencia de las m edias será p o r lo general p referib le a las pru eb as no p aram étricas. ¿E n qué sentido podem os decir que u n a p ru e b a sea preferible a o tra? ¿Cuáles criterios se em plean p a ra a d o p ta r sem ejante deci sión? E n p rim e r lugar, com o ya se indicó anteriorm ente, si u n a p ru e b a nos im pone ciertos supuestos dudosos que n o se dejen verificar en sí m ism os, n o será tan satisfac to ria com o la que no nos los im ponga. Si todas las dem ás condiciones fu eran iguales, lo que p rácticam ente n u n ca ocurre, escogeríam os siem pre la p ru e b a que re q u irie ra los supuestos m ás débiles. Y si los resu l tad o s de la p ru e b a aconsejaran descartar, podríam os tan to m ás fácilm ente co n siderar la hipótesis nula com o único supuesto fal so. P o r desgracia, sin em bargo, el problem a no es tan sencillo. Si lo fuera, en efecto, siem pre nos serviríam os de procedim ientos n o p aram étricos. R esulta p o r lo regular que la prueba que re q u iere supuestos m ás firm es es tam bién m ás fuerte, en el sentido que su em pleo co m porta un riesgo in ferio r de e rro r de tipo II. Tenem os, pues, dos criterio s que actúan en sentidos opuestos y h an de evaluarse en consecuencia. O sea que las pruebas no p a ra m étricas req uieren supuestos m ás débiles, p ero son m enos fu ertes. O btendrem os u n a idea m ás clara de lo que se entiende p o r supuestos “fu e rte s” y "débiles” cuando lleguem os a las p ru e b as concretas no p aram étricas que pueden utilizarse com o alte r nativas de la p ru eb a de la diferencia de las m edias. Antes, sin em bargo, hem os de exam inar la cuestión de cóm o se ap recia la fu erza relativ a de u n a prueba. *XIV .l. Fuerza y eficiencia de la fuerza La fuerza de u n a p ru e b a se define com o 1 — (probabilidad de e rro r de tip o II), o sea com o 1 — (3. Así, pues, la fuerza de u n a p ru e b a es in v ersam en te pro p o rcio n al al riesgo de d e ja r de des c a rta r u n a h ipótesis falsa. C uanto m ás capaz es u n a p ru e b a de elim in ar falsas hipótesis, ta n to m ayor es su fuerza relativa. Como ya se indicó, es m u ch o m ás difícil a p re c ia r el riesgo d e e rro r de tip o I I que de tip o I. P a ra ello, en efecto, n o sólo hem os de co- F ig . X IV .l. Funciones de pótemela para pruebas de dos colas, con a = .05, para m u e stra s de tam año variable. ( Con la autorización de W. J. Dixon y F. J. Massey, "In tro d u ctio n to S tatistical A nalysis", M cGraw-Hill Book Com pany. N ueva York, 1957, fig. 14.6, p. 252.) n o cer la fo rm a exacta de la población, sino que hem os de sab er tam b ién el g ra d o en que el p a rá m e tro tom ado com o hipótesis difiere del v erd ad ero valor. E n o tro s térm in o s: la p ro b ab ilid ad de u n e rro r d e tip o II, y con ella la fu erza de la pru eb a, d e p en d e de cuál hipótesis altern ativ a sea efectivam ente correcta. P o r estas razones, de hecho, ra ra m e n te calculam os en la inves tigación aplicada las probabilidades de e rro re s del tip o II. Sin em bargo, com o ya se d ejó e n tre v e r an terio rm en te, la fuerza de u n a p ru e b a h a de em p learse al ap re c ia r su eficiencia relativa. P ueden h acerse v arias p ru e b as altern ativ as que com porten el m ism o riesgo d e e rro r de tipo I. Nos servim os, pues, de los ries gos relativos d e com eter erro re s d e tip o II p a ra seleccionar u n a p ru e b a que sea la m ás ap ro p iad a en u n d eterm inado co n ju n to de condiciones. Si b ien el p ro b lem a d e d e te rm in a r la fuerza de u n a p ru e b a es b a sta n te com plejo y v a m ás allá del p ro p ó sito del p re sen te texto, podem os in d icar con todo, de m odo general, lo q u e sem ejan tes com paraciones com portan. P a ra ello necesitam os in tro d u c ir la noción de la función de la fuerza. La fo rm a general de u n a función de la fuerza p a ra u n a p ru eb a d e dos colas p u ed e verse en la fig u ra X IV .l. S em ejan te función nos da la fu erza de u n a p ru e b a en relación con la s d istin tas a lte r nativas co rrectas posibles de la H 0. O e n fo rm a m ás c o rre c ta : supóngase que hem os tom ado com o hipótesis u n determ inado v alor [Xq p a ra la m edia de la población. Supóngase, sin em bargo, que la v erd ad era m edia de la población se sitú a en realidad a dos erro res están d a r de la m edia de la hipótesis. Es obvio, en este caso, que H 0 es fa lsa y debería descartarse. Como q u iera que la fu erza de u n a p ru e b a es 1 — ¡3, dicha fuerza nos da en realidad la pro b ab ilid ad de descartar H 0 cuando ésta es falsa. Y esta ú lti m a p robabilidad, y n o la probabilidad de e rro r, nos es d ad a p o r el alto de la curva. Si la v erd ad era m edia se sitú a a dos e rro re s e stá n d a r de [Xo, la probabilidad de d e sc a rta r H 0 puede d eter m in arse hallando la a ltu ra de la curva, en dicho punto, en el eje de las X . Así, pues, los valores a lo largo del eje de las X indican los valores correctos posibles de [x, en ta n to que los del e je de las Y in d ican las p robabilidades de d e sc a rta r H 0. O bsérvese q ue si el v alor correcto de la m edia es efectivam ente (jo (y q ue p o r lo ta n to com eteríam os e r ro r descartando H 0), la a ltu ra de la función de la fuerza viene dada p o r el nivel d e signi ficación de la p ru eb a. ¿P or qué? O bsérvese asim ism o q u e si el v alo r co rrecto de [x n o queda dem asiado d istan te de (Xo, la fuerza de la pru eb a, según la indica la a ltu ra d e la curva, es m en o r que e n el caso en que el verd ad ero valor es to talm en te d istin to de (XoE sto nos dice que n u estro riesgo de e r ro r de tip o II es relativa m en te grande cuando el valor tom ado com o hipótesis no queda d em asiado lejos del valor correcto, p ero que, si nos hem os ap a r tad o del blanco en u n grado considerable, tendrem os u n a p ro b a b ilid ad m ucho m ayor de d esc artar n u estra s hipótesis falsas. E sto co n cu erd a con el arg u m en to intuitivo que form ulam os a n te rio r m en te en conexión con la binom ial. Y corresponde asim ism o a n u estro s intereses prácticos. En efecto, si n u e stra hipótesis nula es casi co rrecta, n o nos preocupa m ucho que dejem os de descar tarla , pese a que, desde el p u n to de v ista técnico, estem os en e rro r al p ro ced er en esta form a. Cuando H 0 es sustancialm ente in co rrecta nos in te re sa v erdaderam ente d escartarla. * P a ra g en erar la a ltu ra de la función de fuerza en cualquier p u n to dado situ ad o en el eje horizontal, necesitarem os e s ta r lis tos p a ra su p o n er la fo rm a que tenga la distribución del m uestreo. E n este caso p a rtic u la r suponem os que la distribución del m ues tre o de X es Ñ o r (¡x, a2/N ) . Si la m edia verd ad era de [x se en c u e n tra a la d erecha de la m edia su p u esta [x0. com o aparece e n la fig u ra XIV.2, la distribución real del m u estreo (a lred ed o r de ¡x) se h allará a la d erecha de la d istribución supuesta del m ism o (a lred ed o r de j x o ) . U sam os desde luego la distribución supuesta del m u estreo p a ra d eterm in a r la región crítica, ya que descono1cem os la jx verd adera. Supongam os que la región crítica re su lta se r el grupo de X m enores que a p e ro m ayores que b. P ara de te rm in a r la fu erza de la p ru e b a debem os evaluar la probabilidad real de caer d e n tro de la región crítica, p u esto q u e la m edia ver d ad era es (x y n o ¡xo- E sto se logra calculando la superficie som b re a d a colocada bajo la distribución real de la m uestra, situada en el d iag ram a a la izquierda de a y a la derecha de b. Vemos que cuando ¡i y {x0 e stán alejadas, dicha superficie es casi la unidad, p e ro cuando [x y fx0 e stán m uy próxim as se aproxim a a a (p o r ejem plo .05), en su lím ite m ás bajo. F ig . XIV.2. Derivación de la fuerza com o función de (¡x — (x0). Con o b jeto de d a r u n a indicación m e jo r de cóm o se em plean en realid ad las funciones de la fuerza, podem os c o m p arar la función de la fu erza de u n a p ru e b a de dos colas (fig u ra X IV .l) con las de algunas de u n a sola cola. Supongam os, u n a vez m ás, que H 0 p red ice que la v erd ad era m edia es [x0. O bsérvese la p ru e b a de una sola cola en la que nos hem os servido com o región crítica de la cola su p erio r o positiva. Si el v erd ad ero v alo r de ¡x es efectiva m en te m ayor que ¡x0, la m ayoría de las m edias de la m u estra sacadas de la p oblación serán tam b ién m ayores que fxo, y ten d re m os m ayores p ro b ab ilid ad es de te rm in a r en dicha región crítica de u n a sola cola que si nos hu b iéram o s servido de u n a p ru e b a de dos colas al m ism o nivel de significación. E n otros té rm in o s : si ¡x queda efectivam ente a la d erecha de ¡xo, tenem os m ayores p ro babilidades de d e sc a rta r H„ con u n a p ru e b a de u n a sola cola en dicha dirección. E sto significa, p o r supuesto, que la fuerza de esta p ru e b a p a rtic u la r de u n a sola cola será m ay o r p a ra valores de [x en dirección positiva. P ero supóngase que el verdadero va lo r de [x qu ed a en realidad a la izquierda de ¡x0. E n tal caso, la m ayoría de las X qu ed ará a la izq u ierd a de }Xo, y m uy pocas de ellas caerán en la región crítica del extrem o opuesto' (o positivo) del continuo. E n este caso, p o r consiguiente, n o estarem o s p rá c ticam en te n u n ca en condiciones de d e sc a rta r H 0, y la fuerza de la p ru eb a de u n a sola cola será efectivam ente m uy débil. Y es obvio que el tip o opuesto de m odelo se p ro d u c irá en el caso de p ru e b as de u n a so la cola con regiones críticas e n las colas in feriores 01 negativas. Las funciones de la fuerza de p ru e b as de u n a y de dos colas p u ed en co m p ararse com o en la figura XIV.3. E n resum en, vem os que la p ru e b a de u n a sola cola será m ás fu e rte que la co rrespon diente de dos colas (sirviéndonos del m ism o nivel de significa ción) p a ra altern ativ as q u e se h allan en dirección d e la región crítica, p ero será m ucho m enos fu e rte si el p a rá m e tro qu ed a en realid ad en dirección o p u esta a la q u e se anticipó. P o r consi guiente, el riesgo de e r ro r de tipo I I es considerable si se efectúa u na, p ru e b a de u n a cola y se y e rra al an tic ip a r la dirección. En ta l caso, los datos tam poco pu ed en em plearse de cualquier m odo p a ra apoyar la teoría. P or lo tan to , p ro b ab lem en te no se ten d rá in teré s alguno en seg u ir ad elan te con la p ru e b a, a m enos que, con fines de exploración, se q u iera av eriguar si u n a teo ría to ta l m en te o p u esta te n d ría o no m érito alguno. Fig. XIV.3. C om paración de funciones de potencia para pruebas d e una y dos colas, con a — .05. a ) Rechace si Z > 1.645. b ) R e chace si Z < —1.645. c) Rechace si Z > 1.96 o si Z < —1.96. (Con la au torización de W. J. Dixon y F. J. M assey, " In tro d u ctio n to S ta tistical Analysis'', McGraw-Hill B ook Com pany. N ueva Y ork, 1957, fig. 14.5, p. 249.) Al co m p arar las p ru e b as de u n a y de dos colas, hem os visto q ue u n a p ru e b a d eterm in a d a p u ed e se r m ás fu e rte e n relación con ciertas altern ativ as y m enos fu e rte e n relación con o tras. E n térm in o s generales, esto puede o c u rrir tam b ién al co m p arar dos clases m uy d istin ta s de pruebas. Así, p o r ejem plo, no ta rd a re m o s en v er que u n a p ru e b a no p a ra m é tric a p a rtic u la r puede se r m ás fu e rte que o tra e n u n determ inado con ju n to de circuns- ta n d a s , p ero m enos en otras. Es este hecho lo que hace que sea difícil d esa rro llar generalizaciones relativam ente sim ples a p ro p ó sito de la su p erio rid ad de u n a p ru e b a resp ecto de o tra. Y la situación se com plica adem ás p o r el hecho de que u n a p ru eb a po d rá ser fu e rte en relación con m u estras grandes, p e ro relativa m en te m enos e n el caso de m u estras pequeñas. P or supuesto, la fu erza de cu alquier p ru e b a determ in ad a au m en ta rá con el tam año de la m u estra, ya que p a ra cualquier nivel de significación d eter m inado el au m en to del tam año de la m u estra hace posible des c a rta r la hipótesis n u la con m enores desviaciones resp ecto de los valores anticipados. H em os visto, p o r ejem plo, que el e rro r es tá n d a r de la m edia decrece a m edida que crece N y que, p o r con siguiente, a m edida que N aum enta, 1a. m edia de la m u estra ha de q u ed ar m ás cerca del valor tom ado com o hipótesis p a ra que podam os re te n e r H 0. Lo que decim os, pues, es que podem os des c a rta r m ás fácilm ente u n a hipótesis falsa cuando N es grande. S in em bargo, au n q u e la fuerza de u n a p ru e b a p u ed a au m en ta r al au m en tar N, la tasa del aum ento de fuerza puede n o se r la m is m a p a ra to d as las pruebas. P or lo tan to , u n a p ru e b a de fuerza relativam ente débil con u n a N peq u eñ a puede acaso "alcanzar” a otra, de m odo que la p rim era sea en realid ad m ás fu e rte en el caso de m u estras grandes. Con o b jeto de co m p arar la fuerza relativ a de dos pruebas, po dem os p re g u n ta rn o s cuántos casos se n ecesitarían con la prim era p a ra o b ten er la m ism a fuerza que con un n ú m ero determ inado de casos de la segunda. P or lo re g u la r com param os la fuerza de u n a p ru e b a d eterm in ad a con la de la altern ativ a m ás fuerte. En el caso de las tre s p rim eras pru eb as n o p aram étricas exam inadas en este capítulo, la altern ativ a m ás fu e rte será la p ru e b a t p ara la diferencia de las m edias. Se em plea com únm ente el térm ino de eficiencia d e la fuerza p a ra designar la fuerza d© tina p ru eb a determ in ad a en relación con su altern ativ a m ás fu e rte. Si desig nam os la eficiencia de la fuerza de u n a de dichas pru eb as no pa ra m étricas com o del 95 p o r ciento, querem os decir que la fuerza de la p ru eb a n o p aram étrica sirviéndose de 100 casos es aproxi m adam ente la m ism a que la de la p ru e b a t sirviéndose de 95 casos, si el m odelo em pleado en la prueba t as correcto. Como q u iera que es necesario su poner u n a d eterm in ad a form a de la población p a ra p o d er evaluar la fuerza de u n a prueba, nos im aginam os, en la ilustración an terio r, que tenem os en realidad u n nivel de m edición de escala d e intervalo y que las dos pobla ciones son n orm ales en cuanto a la form a. Al d eterm in a r la efi ciencia de la fuerza de la p ru eb a no' param étrica, nos estam os fund am en talm ente p reguntando a nosotros m ism os cu án to nos co stará el d e ja r de acep tar el supuesto de no rm alid ad si sem e ja n te supuesto- fu e ra de hecho legítim o. Aquí vem os que el hecho de d e ja r de a c e p ta r dicho supuesto y n u estro em pleo consecuen te de la p ru e b a n o p a ra m é tric a nos co staría cinco casos ad icio nales p o r encim a de los 95 utilizados en la p ru e b a de la d iferen cia de las m edias. Con u n a p érd id a de eficiencia ta n pequeña, es p ro b a b le que seguiríam os adelante con la p ru e b a n o p aram étrica si tuviéram os la m en o r duda respecto de los supuestos req u erid o s p o r aquélla. P o r o tra p a rte , si la eficiencia de la fuerza sólo fuera del 60 p o r ciento y si los alejam ientos re sp ecto de la no rm alid ad no fu eran demasiado* gran d es (o si N fu e ra gran d e) nos serv iría m os p ro b ab lem en te de la p ru e b a de la d iferencia de las m edias. Como ya se indicó en el cap ítu lo precedente, cuando las m u estras son pequeñas necesitam os p reo cuparnos m ás p o r el su p u esto de n o rm alidad. E n el caso de N peq u eñ a n o será p o r lo re g u la r posible tra d u c ir enunciados de eficiencia de la fuerza en com paraciones de tam añ o s exactos d e m u estras, y a que estas ú ltim as cantidades h a n de se r siem pre en teras. Así, p o r ejem plo, con 95 p o r ciento de eficacia, u n a m u e s tra de tam añ o 10 q u e se sirv iera de la p ru e b a n o p ara m é tric a sería equivalente de form a ap ro x im ad a a u n a de 9.5 que se sirviera de la p ru e b a t. Pese a que sem ejan te en unciado n o tenga sen tid o desde el p u n to de vista operacional, ayuda, p o r lo m enos, a estab lecer com paraciones. Antes de te rm in a r e sta sección, conviene re c o rd a r u n a vez m ás q ue la eficiencia de la fuerza de u n a p ru e b a d eterm in ad a puede d ep en d er del tam añ o de la m u e stra seleccionada. P uede se r m uy eficaz en relación con m u estras pequeñas, p e ro m ucho m enos efi caz e n el caso de m u estras grandes. XIV.2. La prueba de las secuencias (ru n s ) d e W ald-W olfow itz E n la p ru e b a de las secuencias, así com o en las o tras dos p ru e b as q u e se ex am inarán en este capítulo a continuación, supone m os que tenem os dos m u estras alea to rias independientes y que el nivel de m edición es p o r lo m enos u n a escala ordinal. E n las tre s p ru eb as en cuestión, n u e s tra h ip ó tesis n u la será que las dos m u estras se h an e x tra íd o de la m ism a población co n tin u a (o de poblaciones id én ticas). La dim ensión subyacente se su p o n d rá se r continua, y n o d iscreta, aunque adm itam os que puedan re s u lta r datos ligados e n tre sí, debido a la im perfección del in stru m e n to d e m edición. La hipótesis de que las dos m u estras se h ayan to m ad o de la m ism a población es en re alid ad m uy sim ilar a n u es tro su p u esto en la p ru e b a de la d iferencia de las m edias. E n efecto, com o ya se indicó an terio rm en te, cu an d o ju n tam o s los su p u esto s de norm alidad, de, variancias iguales y de m edias ta m b ién iguales, suponem os en realidad que las dos poblaciones son idénticas. E n el caso de la p ru e b a d e las secuencias, ponem os la h ip ótesis de q ue las dos poblaciones p re se n ta n exactam ente la m ism a fo rm a y p u ed e n p o r consiguiente to m arse como* iguales. Sin em bargo, no necesitam os especificar la n atu raleza d e dicha form a. É sta p o d rá s e r norm al o no serlo. P or lo tan to , hacem os u n con ju n to de supuestos m ás débil que el que se requiere en la p ru eb a de la diferencia de las m edias, o sea, m ás débil en el sen tido de que la p ru e b a de la diferencia de las m edias ( con o igua les) req u iere todos los supuestos de la pru eb a de las secuencias, con el supuesto, adem ás, de n orm alidad y el em pleo de u n a esca la de intervalo. En la p ru eb a de la diferencia de las m edias n u estro interés se ce n tra en diferencias de la tendencia central m ás que en las diferencias de dispersión o- de form a. La p ru e b a de las secuen cias, en cam bio, verifica esencialm ente todas esas posibles dife rencias sim ultáneam ente. Como verem os en seguida, su em pleo p rincipal está en la verificación de diferencias de dispersión o de form a, ya que, p a ra la verificación de diferencias de la tendencia central, h ay p ru eb as no p aram étricas m ás eficaces. Obsérvese, de paso, que la hipótesis n ula se h a establecido e n térm inos de m edias o de desviaciones están d ar, sino- m ás bien en térm inos de diferencias cualesquiera. Eso se aplica tam b ién a las pruebas no p aram étricas a exam inar en el p resen te capítulo. Con las es calas ordinales no tiene sentido, p o r supuesto, p en sa r en térm inos de m edias y de desviaciones están d ar. El principio básico im plicado en la p ru e b a de las secuencias es m uy sencillo, lo m ism o que los cálculos. Tom am os p rim ero los datos de am bas m u estras y ordenam os los datos de los m ás al tos a los m ás bajos, prescindiendo1 de que provienen de m u estras d istintas. Si la hipótesis nula es correcta, confiam os en que las dos m u estras e starán bien m ezcladas. En otros térm in o s: no con tam os con u n a gran serie de datos de la p rim era m u e stra seguida p o r o tra larga serie de datos de la segunda. Así, p o r ejem plo, si designam os las m u estras como A y B, esperam os que la ordena ción re su lta rá m ás o m enos com o sigue: ABBABAAABABBABBAAABAAB y no com o AAAAAAAAABABBBBBBBBBBB Con o b jeto de com probar h a sta qué p u n to las dos m u estras están m ezcladas u n a vez ordenadas, contam os sim plem ente el n ú m ero de series continuas que se producen. La secuencia se define com o serie co n tinua de datos de la m ism a m uestra. E n el p rim ero de los dos ejem plos anteriores tenem os u n a secuencia de u n a sola A, seguida de u n a serie de dos B, luego una sola A, u n a sola B, u n a serie de tres A, etcétera. El núm ero to tal de secuencias es, p o r lo- tan to, de 14. E n el segundo* ejem plo, en cam bio, las A están agrupadas en la m ita d in ferio r dél continuo, y sólo tenem os cuatro1 secuencias o runs. P or lo regular, el cóm puto de las se cuencias se facilitará evitándose adem ás erro res, trazan d o una línea d ebajo de los datos de la prim era m u estra y u n a raya a r r i b a de las de la segunda. E n esta form a sólo necesitam os c o n tar el n ú m ero de ray itas separadas. Si el núm ero de las secuencias es grande, com o en el p rim e r ejem plo, entonces las dos m u estras e sta rá n ta n bien m ezcladas que no estarem os en condiciones de d e sc a rta r la h ipótesis nula. P or o tra p arte, u n núm ero reducido de secuencias significa probablem ente que la hipótesis es inco rre c ta y d ebería descartarse. La distribución de m uestreo de las secuencias p u ed e utilizarse p ara establecer la región crítica de la que nos servim os p a ra d esc artar la hipótesis nula. P roblem a. Supóngase que unos jueces h an ordenado 19 organi zaciones sociales de acuerdo con el prestigio de las m ism as, a tri b uyendo u n a p u n tu ació n de 1 a la de m ayor prestigio y de 19 a la in ferio r. Diez de dichos grupos restringen la adm isión a los no judíos, en ta n to que los otros 9 adm iten tam b ién a éstos. S u p o niendo que dichas organizaciones sociales se h an seleccionado al azar so b re la b a se de u n a lista de todas las dem ás organizaciones sociales de la localidad, ¿podem os llegar a la conclusión de que en la población se da u n a diferencia significativa de p restigio en tre las organizaciones sociales restrictivas y las no restrictivas? A dm isión restrictiva: Rangos 1, 2, 4, 5, 6, 7, 9, 11, 14, 17 (N 1 = 10) A dm isión no restrictiva: Rangos, 3, 8, 10, 12, 13, 15, 16, 18, 19 ( t f a = 9) 1. Supuestos. N ivel de m e d ic ió n : el prestigio com o escala ordinal M odelo: m u estras aleatorias independientes H ip ó te s is : las m u estras se han extraído de poblaciones con las m ism as distribuciones continuas. 2. D istribución de m uestreo. Si tanto N t corno No son m enores o iguales a 20, la d istrib u ció n de m uestreo exacta del nú m ero de secuencias r está dada en el cuadro E del A péndice 2. P ara N m a yores, la distrib u ción de m uestreo de r es aproxim adam ente n o r m al, con la 2N1N 2 m edia = iv = ----- — + 1 ^ Nx+ N2 y la desviación e s tá n d a r = ar V M A M (X IV .l) - N, - n 2) (N 1 + N 2) H N 1 + N 2 - l ) ( XI V. 2 ) Obsérvese que, au n q u e n o se suponga la no rm alid ad de la pobla ción, la d istrib u ció n de m uestreo de r será aproxim adam ente n o r m al, incluso con N pequeñas. Como habrem os d e v e r e n segui da, cierto n ú m ero de estadísticas de p ru e b a n o p a ra m é tric a s poseen tam b ién esta propiedad. O bsérvese asim ism o que las fó rm u las de la m edia y del e rro r e stá n d a r sólo c o m p o rta n los ta m años de las m u e stra s y n o req u ieren , p o r lo ta n to , q u e p roceda m os a a p reciar los p a rá m e tro s de la población, com o e r a el caso con la p ru e b a de la diferencia de las m edias. La sim plicidad co m p arativ a d e las fórm ulas d e las distribuciones d e m u estreo de las estad ísticas no p aram étrica s se debe en p a r te al h ech o que, com o q u iera que las m arcas se h a n ordenado y h a n d e to m ar siem pre, p o r consiguiente, los valores num éricos 1, 2, 3, . . . , N, las m agnitudes tales com o la sum a y la desviación e s tá n d a r de los ó rdenes dependen únicam ente del n ú m ero de casos em pleado. 3. N ivel d e significación y región crítica. Como q u ie ra q u e el cu ad ro E, A péndice 2, sólo d a el n ú m ero de secuencias necesarias p a ra el d esc arte al nivel d e .05, nos vem os reducidos, e n relación con m u estras pequeñas, a dicho nivel de significación, p ese a que pueden en c o n trarse cuadros m ás com pletos e n [9 ]. O bsérvese que la p ru e b a de las secuencias n o to m a en consideración la di rección de la relación e n tre el prestig io y la re stric ció n de adm i sión. P o r o tra p a rte , cuando nos servim os de la d istrib u ció n de m u estreo de r, sólo estam os interesados en u n a cola, ya que sólo podem os d e sc a rta r la hipótesis n u la si hay u n p eq u eñ o n ú m ero de secuencias (in d ep en d ien tem en te de la dirección de la d iferen cia).1 E n sen tid o estricto, pues, em pleam os la p ru e b a de las secuencias com o p ru e b a de u n a sola cola, p ese a que no> se haya an ticip ad o la dirección de la relación. La m ism a situación se nos p re s e n ta rá con la p ru e b a d e M ann-W hitney, que se exa m in a en la sección siguiente, así com o en o tra s p ru e b as im por tan tes de las q u e habrem os de o cu p am o s en capítulos subsiguien tes. Con o b jeto de ev itar am bigüedades, distinguirem os, p o r lo tan to , e n tre p ru e b as de u n a sola cola y las situaciones en las que la dirección se haya anticipado. H a sta aquí sem ejan te distinción n o e ra necesaria, ya que to d as las p ru e b as de u n a sola cola com p o rtab a n predicciones en relación con la dirección. E n el caso de distribuciones de m u estras n o rm ales ya hem os visto que, cuando Ja dirección fu e prevista, cortábam os a la m itad u n nivel significativo al u tiliza r u n a sola cola de la distribución de m uestreo. E n el caso de las p ru e b as en secuencia y en el de o tras diversas aplicaciones, habrem os de confiar en o tro tipo de ju sti ficaciones al c o rta r p o r m ita d los niveles de significación cuando la dirección h a sido predicha. E n el cu rso del p resen te ejem plo i Sin embargo, hay otras aplicaciones de la prueba de las secuencias en las que pueden emplearse las dos colas. Así, por ejemplo, puede haber acaso demasiadas secuencias si las muestras se han mezclado más bien artificialmente que al azar, y este hecho puede utilizarse en una prueba del grado de aleatoriedad. supongam os que n o hay diferencia alguna en la población de las organizaciones sociales e n relación con el prestigio de las organi zaciones restrictivas y n o restrictivas. Llam em os A al aconteci m ien to consistente en h a b e r logrado resu ltad o s significativos a un nivel de, p o r ejem plo, .05 sin h ab e r p red ich o la dirección. C lara m ente P( A) = .05. Llam em os ahora B al acontecim iento que con siste en que la dirección de la diferencia de las m u estras es la predicha, suponiendo que no se den diferencias algunas en la po blación. E n tal caso, P( B ) = .5 si prescindim os de la p ro babilidad de que la diferencia sea exactam ente igual a cero. Como A y B serán no rm alm en te dos acontecim ientos sep a ra dos, tendrem os que la p ro babilidad de lo g rar significación al n i vel .05, sin p re d ecir la dirección y la pro b ab ilid ad de p re d ecir co rrectam en te la dirección, vendrá dada p o r P( A&B) = P( A ) P( B) = (.05) (.5) = .025. P odrá utilizarse este m ism o principio en cuan tas ocasiones la distribución de m u estreo de u n a estad ística de p ru e b a sea, o b ien sim étrica, o bien insensible a la dirección de u n a diferencia. Si hubiéram os estado, p o r ejem plo, interesados en co m p arar tre s m u estras ( com o vam os a h acer en los dos capí tu los próxim os), y si hubiéram os podido p re d ecir el o rd e n exac to de estas diferencias (p o r ejem plo > X 3), la p ro b ab ili d ad de o b ten er diferencias en este o rd en exactam ente sería de 1 / 6, b a jo el su p u esto d e q u e = ¡i2 = yis, pudiendo en tal caso d ar ju stificad am en te com o 1/6 el nivel de significación sin h a b e r p re dicho la dirección. P o r supuesto que e ste procedim iento se p re sta al razonam iento ex p o st jacto, y sólo pu ed e aplicarse a condición de que las predicciones h ayan precedido al exam en de los datos. Los núm eros en el cu ad ro nos d an el n ú m ero de secuencias que b rin d a rá n significación al nivel de .05, suponiendo que no se haya pred ich o la dirección. C ualquier valor de r, p o r lo tan to , que sea igual o m en o r que la cifra del cuadro nos in d icará q u e tenem os ta n po cas secuencias q u e b ien podem os rech azar la hipótesis nula a este nivel. Como el nú m ero de casos en las dos m u estras es de diez y nueve, respectivam ente, verem os que podrem os recha zarla si obtenem os seis o m enos secuencias. 4. Cálculo d e la estadística de la prueba. Si disponem os las o r ganizaciones p o r o rd en de prestigio y trazam os líneas debajo de los datos de la p rim e ra m u estra y a rrib a de las del segundo, vem os que se dan 12 secuencias. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Pese a que el n ú m ero de casos es u n po co pequeño p a ra que se verifique la aproxim ación norm al, podem os con to d o seguir ad elan te con el cálculo, sirviéndonos de e s ta aproxim ación p ara ilu s tra r su em pleo y co m p arar los resu ltad o s con los que se ob tienen sirviéndose del cu ad ro E del Apéndice 2. Como de costum bre, calculam os el valor de Z, que nos dirá a cu á n ta s desviaciones e stán d a r se sitú a el n ú m ero de secuencias obten id o respecto de la m edia o n ú m ero de secuencias esp erad o con la hipótesis nula. Así, pues, 2(10)(9) m = ------------ + l = 10.47 ^ 10 + 9 0 , 2 (1 0 )(9 )[2 (1 0 )(9 ) — 10 — 9] * ------------------------------------------= 2. 11 (19)2(18) Tenem os p o r consiguiente: r-Ur 12 - 10.47 Z = ----- üü = ---------------= .725 crr 2.11 Como q u iera que el n ú m ero de secuencias obten id o es efectiva m ente m ay or que la m ed ia o el núm ero esperado, n o necesitam os proseguir, ya que p a ra el rechace de la hipótesis se necesitan núm eros p equeños de secuencias. Si el n ú m ero de secuencias h u b iera sido m en o r que el esperado, habríam os buscado el valor de Z en el cu ad ro norm al, u san d o el cu ad ro com o si estuviéram os haciendo u n a p ru e b a de dos colas (es d ec ir: rechazando al nivel .05 si Z < — 1.96). 5. Decisión. Ya que el nú m ero de secuencias h a re su ltad o ser m ayor que seis, c ifra indicada en el cuadro E, decidim os no des c a rta r la h ipótesis n ula al nivel de .05. Como acabam os de ver, el em pleo d e la aproxim ación n orm al nos conduce tam bién a la m ism a conclusión. Sobre la base de n u estro s datos, concluim os, en consecuencia, que n o existe diferencia e n tre los dos tipos de organización en lo relativo al prestigio. E m p a tes. E n los datos an terio res n o h a hab id o dos organizacio nes que tu v ieran m arcas em patadas. El supuesto de la continui dad subyacente excluye teóricam ente la posibilidad de em pates, ya que dos m arcas no serán n u n ca ex actam ente iguales. Sin em bargo, debido a im perfecciones de m edición, y sem ejantes im perfecciones se d a rá n casi seguram ente en la m ayoría de la in vestigación social, e n la p rá ctica sem ejantes em pates se p resen tan . O bsérvese q u e si dos organizaciones de la m ism a m u e stra hubie ra n estado1 em patadas en relación con las m arcas de prestigio, la p ru e b a de las secuencias n o h a b ría sido afectada. Pero, supón gase que los em pates se p ro d u c ía n e n tre las m u estras. E n tal caso, el n ú m ero de secuencias p u ed e re s u lta r considerablem ente afectado, según la fo rm a en que los em pates se rom pan. Supón gase, p o r ejem plo, que dos organizaciones (de m u estras d istin tas) h u b iera n estado ligadas p o r lo que se re fie re a la octava y novena posiciones. Si estas posiciones se h u b iera n desplazado1 del orden an terio rm en te em pleado, habríam os obtenido 10 secuencias en lu g ar de 12. E n o tro s térm inos, ob ten d ríam o s 10 secuencias o 12, según el o rd en em pleado. Y com o q uiera que dicho ord en sería to talm e n te arb itra rio , podríam os en co n trarn o s con que a veces d escartam o s y o tra s veces dejam os de d e sc a rta r la hipótesis nula. E l p ro ced im ien to m ás seguro que podem os u tilizar en el caso* de em pates consiste e n c o n ta r el núm ero de secuencias sirviéndonos de todos los m edios posibles de ro m p erlas. Y si todos los o rd e nam ien to s conducen a la m ism a decisión (la de d e sc a rta r o de no d e sc a rta r), entonces nos podem os a d h e rir a la m ism a con seguridad. P ero si conducen a decisiones distin tas, se rá posible resolver el p ro b lem a echando u n a m oneda al aire, p e ro ta l vez el pro ced im ien to m ás seguro consista, e n ta l caso, en suspender el juicio. B radley recom ienda [1] u n inteligente procedim iento con sisten te en fa cilitar al lecto r la gam a de probabilidades obte n id as al ro m p er em pates p o r todos los m étodos posibles. Es evi d en te que si se da u n g ra n núm ero de órdenes con em pates, la estad ística de la p ru e b a n o deberá se r usada. XIV.3. La prueba d e M ann-W hitney o de W ilcoxon O tra p ru e b a n o p a ra m é tric a q u e p u ed e em plearse en las situacio nes en que la p ru e b a de las secuencias re su lta apropiada es u n a p ru e b a que p arece h a b e r sido inventada independientem ente p o r cierto n ú m ero de p erso n as y se conoce com únm ente con el nom b re de p ru eb a de M ann-W hitney o de W ilcoxon. E sta p ru e b a req u iere exactam ente los m ism os supuestos que la de las secuen cias y, lo m ism o que ésta, com porta u n p rocedim iento m uy sim ple. C om binam os n uevam ente los datos de las dos m u estras y las ordenam os de 1 a 19. C entram os a continuación n u e stra atención en la segunda m u e stra (o en la que sea m en o r). Tom ando cada dato de la segunda m u estra, contam os el nú m ero de datos de la p rim era m u estra que tengan u n orden m ayor. Una vez hecho esto con cada uno de los datos de la segunda m u estra, sum am os los resu ltad o s, que nos dan la estadística V. La distribución de m ues tre o de U puede o b ten erse exactam ente si las N son pequeñas, o se puede o b ten er con aproxim ación p o r m edio de u n a curva n o r m al en el caso de m u estras m ayores. Si V es excepcionalm ente peq u eñ a o excepcionalm ente grande, podem os d esc artar el su p u esto de que las dos m u estras se hayan ex traíd o de la m ism a población. Una fo rm a altern ativ a de exactam ente la m ism a p ru eb a puede em plearse con la aproxim ación norm al. E n lu g ar de o b ten er U directam en te, podem os c o n ta r la sum a de los órdenes de cada u n a de las m u estras. Procedem os luego en fo rm a análoga a la de la p ru e b a de la d iferencia de las m edias. Tom am os u n a diferen cia de las sum as de los órdenes p a ra cad a m u e stra y sustraem os de dicha d iferencia u n a ca n tid ad que re p resen ta la diferencia es p erad a con la hipótesis nula. E sta diferencia d e diferencias, aná loga a ( — X 2) — ( [i! — |x2), se divide luego p o r el e rro r e stá n d a r p a ra o b ten er Z. La analogía n o es perfecta, y a que trata m o s con sum as de ó rdenes y n o con sus m edias, p e ro el paralelo con la p ru eb a de la diferencia de las m edias es p erfectam en te claro. Aquí tam bién, u n v alo r n um érico gran d e de Z conducirá al re chazo. Vamos a ilu s tra r ah o ra el procedim iento de M ann-W hitney sirviéndonos del m ism o ejem plo an terio r. C om pararem os a conti nuación la eficacia d e la fuerza de esta p ru e b a con la de la p ru e b a de las secuencias. Problem a. El m ism o de la p ru e b a de las secuencias. A d m isió n re stric tiv a : órdenes 1, 2, 4, 5, 6, 7, 9, 11, 14, 17 (JV ÎO ) A dm isión no restrictiva : órd en es 3, 8, 10, 12, 13, 15, 16, 18, 19 (iV2 = 9) 1. S u p uestos. Los m ism os q u e e n la p ru e b a de las secuencias. 2. D istribución de m uestreo. La distribución de m u estreo de U se e n c o n tra rá en el cu ad ro F del A péndice 2, si n i N t n i N 2 son m ayores q u e ocho, y en el cu ad ro G, si u n a de las N queda e n tre 9 y 20 y la o tra e n tre 1 y 20. N ótese que los dos cuadros tienen d iferen te fo rm a to : El F tiene en la p a rte a lta diferentes com bina ciones de N x y N 2, con los valores d e U en el m argen in ferio r iz q u ierd o y con los valores de las probabilidades en el cuerpo del cuadro. Así, si N a = 6 y N x = 4, siendo siem pre N 2 el m ayor de los dos tam añ o s de las m u estras, y si U = 5, verem os que la probabili d ad de o b ten er U < 5 es de .086, con dirección predicha. Los otros cuadros del G, p o r o tra p a rte , corresponden a diferentes niveles d e significación, apareciendo los valores críticos de U en el cu e r p o del cuadro. Así, p a ra a = .0 0 1 , con dirección predicha, p a ra A/j = 13 y N z = 10 (n o siendo N 2 necesariam ente m ayor que A^), ob servarem os que u n v alor de U igual o m en o r que 17 supondrá significación. P a ra N m ayor, la d istrib u ció n de m u estreo de V s e rá ap ro x im adam ente n orm al, con la m edia = jip = — y la (XI V .3) ___________________ N j .N Ú N t + N a + 1 ) -------------—------------ (XIV.4) V 3. N ivel de significación y región critica. Con fines d e com pa ración, seguim os sirviéndonos del nivel de .05, sin p re d ecir la d irección de la relación. 4. Cálculo de la estadística de la prueba. La estad ística U pue de calcularse p o r u n o de los dos m étodos siguientes. Con N pe queñ a será relativ am en te sencillo calcu lar U siguiendo el proce d im iento im plicado en la fó rm u la de definición. C entrándonos en cad a u n o de los nueve grupos de la segunda m u estra, contem os el n ú m ero de casos de la p rim e ra m u e s tra que tienen m en o r prestig io y, p o r lo tan to , m ayores m arcas de orden. Como q u iera que la p rim e ra organización de la segunda m u e stra se h a clasifi cado com o te rc era en prestigio, hay en la p rim e ra m u e stra ocho grupos con m arcas de prestig io inferiores. Y en fo rm a análoga, el segundo g ru p o de la segunda m u e stra se clasifica com o octavo, de m o d o que hay cu atro grupos en la o tra m u e stra con m arc as de prestig io inferiores. P rosiguiendo el proceso p a ra cada u n a de las organizaciones re sta n te s de la m u e stra 2 y sum ando, o b te n e m o s: 17 = 8 + 4 + 3 + 2 + 2 + 1 + 1 + 0 + 0 = 21 O bsérvese que si hu b iéram o s seguido el m ism o procedim iento, p ero c e n tran d o n u e stra atención e n los grupos de la p rim e ra m u estra, hab ríam o s o b ten id o : í/' = 9 + 9 + 8 + 8 + 8 + 8 + 7 + 6 + 4 + 2 = 69 C ualquiera de estas dos cantidades p o d ría em plearse p a ra verifi ca r la significación de la relación, pero, com o q u iera que las ta b las se h a n estab lecido en té rm inos del v alor m enor de U, siem p re nos servim os de la m en o r de las dos can tid ad es en cuestión. No se rá n ecesario calcu lar U y V , ya que u n a vez obtenido uno de los valores el o tro p u ed e calcularse sirviéndose de la fó rm u la : U = N 1N 2 - U ' o U' = N ±N 2 - V (X IV .5) E n este caso nos serviríam os com o estad ística de p ru e b a del va lo r 2 1 . Si el n ú m ero de los casos es relativ am en te gran d e o si existen em p ates, será p ro b ab lem en te m ás conveniente o b ten er V sum an do los órdenes de las m u estras separados, designando estas su m as de órdenes com o 2?! {rango) y R 2 y sirviéndose de las fó rm u la s: N 2{ N 2 + 1) {X I V.6) U = N xiV2 + — — ------ - R 2 o b ien u- = n , n 2 + J ^ ± 1 L - Rí según cuál de ellas resu lte m ás conveniente. S um ando los órde nes obtenem os a s í: 1 3 2 8 4 10 5 12 6 13 7 15 9 16 11 18 14 19 17 R x = 76 Ro, = 114 A títu lo de co n trol habríam os de te n e r R ¡+ R a = 3 1 ± ± L o bien 19(20) 76 + 114 = ---- -— i - = 190 en donde N re p re se n ta el nú m ero to tal de casos en am bas m ues tras. P o r lo tan to : 1 7 = 1 0 (9 ) + 9(10) 114 = 90 + 4 5 - 114 = 21. * Las sum as de órdenes y R 2 pudieron h ab erse em pleado directam ente al h ac er la pru eb a, no siendo necesario en tal caso calcular U. Ya que las tablas exactas p a ra las N pequeñas suelen darse en térm in o s de V, p o r lo re g u la r re su lta rá ventajoso pensar en térm inos de estadística U. P ero el em pleo de las sum as de ór denes puede utilizarse eurístieam en te p a ra señalar la sem ejanza de la p ru eb a M ann-W hitney con la de la diferencia de las m edias. Una pequeña operación algebraica convencerá al lecto r de que podem os to m ar las ecuaciones de (X IV .3) a (X IV .7) y ob ten er el re su ltad o de que, p a ra la aproxim ación norm al, la estadística R .-R , X W + D /2 ( X I V g ) i/.V.A/.Í.V + 1 )/', será aproxim adam ente N o r (0 ,l). E xpresando Z en esta form a, observam os que el n u m era d o r consta de la diferencia R x — R 2, ju n to con u n térm ino que re su lta ser el valor esperado o a largo plazo* de dicha diferencia en la hipótesis nula. Dicho fa cto r de corrección es necesario, p o r supuesto, ya que trata m o s con una diferencia de sum as, y no de m edias, lo que nos obliga a to m ar en cu en ta el hecho de que, p o r lo regular, las dos N no serán iguales. Si y N 2 son iguales, observam os que el segundo fac to r en cuestión se convierte en cero, quedándonos sim plem ente co m o n u m era d o r R t - R z. Vem os en esta fo rm a la sem ejanza con la p ru eb a de la diferencia de las m edias, en la que el num erador se red u cía a X x — X 2 en el caso de la hipótesis n ula de que no h ab ía diferencias. P or lo tan to , cabría concebir la p ru eb a de M ann-W hitney com o p ru e b a de la diferencia de los órdenes su m ados. 5. Decisión. Sirviéndonos del cuadro G del Apéndice 2, vem os que al nivel de .05, si la dirección no se h a anticipado, necesita m os u n a U de 20, o m ás pequeña, p a ra p o d er d e sc a rta r la hipó tesis nula. De ahí que apenas dejem os de d esc artar la de que no h ay diferencia en tre los dos tipos de organizaciones. Obsérvese, sin em bargo, q u e si la dirección se h u b iera predicho de aníem ar no, habríam o s necesitado u n a U de 24, o m enos, al nivel de .05. Vemos, de paso, que a p e sa r de llegarse a la m ism a conclusión con las p ru e b as de las secuencias y de M ann-W hitney, estuvim os, con todo, m ucho m ás cerca del d escarte con la segunda que con la p rim e ra . P o r lo tan to , si i?0 fu e ra realm en te falsa, ten d ría m os e n este caso* u n riesgo m en o r de e rro r de tip o I I que con la p ru e b a de las secuencias. Si n u e s tra N h u b iera sido m ayor, podríam os habernos servido de la aproxim ación norm al. Con objeto de ilu s tra r el procedi m iento, podem os calcular Z en relación con los datos anteriores. O btenem os así: V - N XN J 2 2 1 -4 5 Z = ----------------- — ------------= ------------ ------------ = -1-96 y'Ñ ^Ñ J.W ^+ N 2 + l ) / l 2 V 1 0 ( 9 ) (20)/12 Si h ubiéram os rem plazado V p o r V ( = 6 9 ) , hubiéram os ob tenido* Z = + 1.96 * Si nos h ubiéram os servido de la ecuación (X IV .8), h a b ría m os obten id o asim ism o: Z 76 — 114 — (10 — 9) (20)/2 --------------------------------------V W (9 ) (2 0 )/3 —1.96 Así, pues, el em pleo de la aproxim ación n o rm al conduce a la conclusión de que, sin la dirección predicha, a d u ra s penas po dríam o s d e s c a rta r al nivel d e .05. P o r su p u esto que las tablas exactas son p referib les a la aproxim ación n o rm al siem pre que estén a n u e s tro alcance. E m p a tes. Si o c u rren em p ate s hem os d e su p o n er u n a vez m ás que se d eben a im perfecciones d e m edición y que las d istrib u ciones subyacentes son en re alid ad continuas. Si los em pates tien en lu g ar en el in te rio r de las clases, éstas n o ten d rán , p o r supuesto, efecto alguno sobre la U, y podem os p ro c ed er com o an terio rm en te. Y si los em p ates tien en lu g ar e n tre clases, dam os a ca d a u n o de los casos el p ro m ed io d e las m arc as q u e h a b ría tenido de no existir aquéllos. Así, pues, si dos organizaciones están em p atad as en los órdenes octavo y noveno, cada u n a de ellas re cib e tina m arc a de (8 + 9)/2 , o sea 8.5. Si la décim a orga nización h u b ie ra estad o asim ism o em p ata d a con los dos grupos an terio res, cad a u n o d e ellos h a b ría recibido el o rd e n (8 + 9 + 10)/3, o sea 9.0. Al calcu lar U, se p ro d u c irá p ro b a b le m en te a h o ra m enos co nfusión si nos servim os del m éto d o de la sum a de los órdenes. E n efecto, el fa c to r d e corrección c o m p o rta el e rro r e s tá n d a r de U y, p o r consiguiente, ap arece en el d enom inador de Z. La fó rm u la revisada se co n v ierte así e n : V - NrN.,/2 — — V l N iN n / N ( N - l)][(A ís - A /r) / 1 2 - 2 r i ] (X IV .9) en donde N = iVx + N 2 y r* = (í«® - t t )¡ 12, siendo t el núm ero de observaciones em p atad as en relación con u n o rd en determ inado1. Al calcu lar 22^, observam os p rim e ro todos los casos en los que se dan em pates. Tal vez dos grupos estén em patados en relación con las m arcas octava y novena, y tre s en relación con las m arcas inferiores. E n e s te caso tenem os im a t de dos y u n a de tres. O sea: 2 T¡ = T i + T« = í*— 1 + M ~ fa 12 23-2 12 33 — 3 6 12 12 12 24 = ------------ 1------------- = ----- i----- = 2 5 12 y E sta corrección de los em pates sólo p u ed e em plearse con la apro xim ación norm al, ya que las tablas exactas se h an calculado sin te n e r e n cu en ta los em pates. P or lo regular, el efecto del facto r de corrección será despreciable salvo si el núm ero de em pates es m uy gran d e.2 Si el n ú m ero de em pates es extrem adam ente g ran d e d eb erá u sarse probablem ente la p ru e b a de S m irnov (ver m ás a b a jo ) com o altern ativ a a la de M ann-W hitney. C om paración en tre las pruebas de M ann-W hitney y de las se cuencias. P ara am bas p ru e b as la hipótesis n u la es que las dos m u estras se h an extraído de poblaciones iguales. P or lo regular, n u e stro in terés se c e n tra en las diferencias de tendencia central, com o en el caso de la p ru eb a de la diferencia de las m edias. En ocasiones, sin em bargo, podrem os e s ta r m ás interesados e n las diferencias de d ispersión o de form a. A títu lo de enunciado ge neral, podem os d ecir que la p ru e b a d e M ann-W hitney será m ás fu e rte que la d e las secuencias, siem pre q u e las m ayores d iferen cias e n tre las dos poblaciones sean con respecto a la tendencia central, en ta n to q u e la segunda se rá m ás fu e rte en aquellas si tuaciones en que las poblaciones sólo difieren ligeram ente en cu an to a la ten d encia central, p ero sustancialm ente, en cam bio, en d ispersión o e n form a. Un sim ple ejem plo serv irá p a ra ilu s tra r este punto. Supóngase que tenem os dos poblaciones de m edianas iguales, pero, en u n caso, con u n a d istrib u ció n m uy hom ogénea y, en el otro, m uy heterogénea. P odríam os, en tal caso, e sp e ra r resultados com o los siguientes : Muestra 1 Muestra 2 5 6 7 8 9 10 11 12 1 2 3 4 13 14 15 16 ÍRj = 68 R2 = 68 2 P a r e c e r í a c o m o s i l a c o r r e c c ió n d e lo s e m p a te s r e d u j e r a s ie m p r e e l d e n o m i n a d o r s i n c a m b i a r e l n u m e r a d o r , p e r o d e b e m o s t e n e r p r e s e n t e q u e d i c h o s e m p a t e s h a r á n n o r m a l m e n t e q u e U y U’ s e a p r o x im e n , io q u e s e t r a d u c i r á a s u v e z e n u n a d i s m i n u c ió n d e l n u m e r a d o r . E n este ejem p lo extrem o, la p ru e b a de M ann-W hitney n o condu ciría a d e sc a rta r la hipótesis n u la (la cual es m an ifiestam en te fal sa), p o rq u e es exactam ente igual a R a. S irviéndonos d e la p ru e b a d e las secuencias, e n cam bio, estaría m o s m anifiesta m en te en condiciones de d esc artar, p o rq u e sólo ten d ríam o s tre s secuencias. Como q u iera que d e ja r de d e sc a rta r significa com eter un e rro r de tip o II, vem os q u e en este caso la fu erza de la p ru e b a de las secuencias es m ay o r que la de la M ann-W hitney. E n la m ayoría de los casos, tenem os m ás pro b ab ilid ad es de h a lla r dife rencias en la ten d en cia cen tral, con diferencias relativam ente m enores en dispersión. El le c to r h a r á bien en convencerse p o r sí m ism o q ue e n el caso de tales poblaciones tenem os pro b ab ilid a des de o b te n e r u n n ú m ero relativ am en te g ran d e d e secuencias h acia el ce n tro de la distribución. Y en relación con sem ejantes datos, la p ru e b a de las secuencias se rá m u ch o m enos fu e rte que la de M ann-W hitney. E n relación con la m ayoría de las aplicacio nes sociológicas, la p ru e b a de M ann-W hitney p arece ser la m ás ú til de las dos. * Si se h a conseguido u n nivel de escala de intervalo y se su ponen leg ítim am ente poblaciones norm ales, p u d o h ab e rse efec tu ad o la p ru e b a t p a ra la d iferen cia e n tre las m edias. E n tales condiciones, ¿cuánto p erd eríam o s sirviéndonos de la p ru e b a de M ann-W hitney, cayendo p a ra ello h ac ia a trá s en cu an to al nivel de m edición y sirviéndonos de u n m odelo m ás débil? La eviden cia está en que, en el caso de m u e s tra s m edianas y grandes, la eficacia de la fu erza de la p ru e b a d e M ann-W hitney es aproxim a d am en te del 95 p o r ciento en com paración con la de la t. La efi cacia de la fu erza es asim ism o m u y g ran d e en el caso de m ues tra s pequeñas, pese a que los valores n u m érico s exactos n o sean fáciles de o b tener. B radley [ 1 ] observa q u e e n general la eficacia de m uchas p ru e b a s n o p aram étrica s, e n tre ellas la d e MannW hitney, es relativ am en te m ay o r p a r a las m u estras pequeñas que p a ra las g randes. Así, pues, la p ru e b a de M ann-W hitney consti tuye u n a altern ativ a m uy fu e rte de la p ru e b a t. E n v ista del he*cho de que re q u ie re su p u esto s m u ch o m ás débiles, d eb e ría em p learse en aquellas situaciones en q u e existe alguna d u d a razo n ab le de la legitim idad ya sea d e la escala de in terv alo o de la n o rm alidad. Se sabe m enos, e n cam bio, a p ro p ó sito d e la eficien cia de la fu erza d e la p ru e b a d e las secuencias. S m ith [ 8] h a en c o n trad o eficiencias de ap ro x im ad am en te el 75 p o r ciento en varios ejem plos em píricos, en los q u e los tam añ o s de las m ues tra s eran d e alre d ed o r de 20 y las poblaciones norm ales presen ta b a n desviaciones e stá n d a r iguales. B radley [1 ] observa que la eficacia de la p ru e b a de secuencias con m u estra grande, es, p o r com paración con la p ru e b a t, d e ap ro x im ad am en te u n tercio, en igualdad de condiciones. X IV .4. La prueba de K olm ogorov-Sm im ov La p ru e b a de K olm ogorov-Sm irnov, que designarem os sim ple m en te com o p ru e b a de Sm irnov, es o tra p ru e b a n o p ara m é tric a de dos m u estras, que re q u ie re los m ism os su p u esto s q u e las p ru e b as de las secuencias y de M ann-W hitney. La fu erza de la p ru e b a S m irnov es e n general difícil d e evaluar, p e ro en aque llas situaciones en q u e la población difiere solam ente en relación con la tendencia cen tral, dicha fuerza parece e sta r co m p ren dida e n tre las de las p ru e b as de lás secuencias y la de MannW hitney. (B rad ley [1 ], p p . 291-292.) E n u n sen tid o estricto , la p ru e b a S m irnov tam poco supone em pates, pero, com o verem os, el p ro ced im ien to es m u y conveniente e n las situaciones en que se d a u n bu en n ú m e ro de em pates, com o re su ltad o de h ab e r ag ru p ad o los dato s e n categorías ordenadas. E n la investigación sociológica nos servim os con m u ch a fre cuencia d e variables q u e son en re alid ad escalas ordinales, p ero en relació n con las cuales los datos se h an agrupado, con todo, en tre s o m ás categorías grandes. Si se d an c u a tro o m ás categorías o rd en ad as de e s ta clase, la p ru e b a de S m irnov re su lta rá p a rtic u larm e n te ú til, en ta n to q u e el n ú m ero de em p ates p ro h ib iría p ro b ab lem en te el em pleo de la de M ann-W hitney. Un sociólogo pue de acaso h a b e r dividido los residentes de u n a localidad en seis clases sociales, tra ta n d o a todas las p erso n as de u n a clase com o ligadas a los dem ás m iem b ro s de la m ism a con respecto a la ca ra c te rístic a general. O pu ed en h a b e rse o rd en ad o las ocupaciones según la condición d e las p erso n as asignándose a todas las de la m ism a clase d e ocupación m arc as em p atad as. Tal vez se haya en co n trad o u n a v ariab le d e co m p o rtam ien to que dé u n a escala de G u ttm an con siete tip o s d e resp u estas. E n todos estos ejem plos podem os q u e re r concebir la v ariab le com o continua en re a lidad, p e ro el in stru m e n to de m edición h a sido excesivam ente im p erfecto y h a p ro p o rcio n ad o datos q u e se hallan agrupados en u n n ú m ero re lativ am en te pequeño d e categorías ordenadas. Lo m ism o que en el caso de las escalas de intervalo, cu an to m ás su tiles sean las distinciones y cu an to m ay o r sea el n ú m ero de las categorías em pleadas, ta n to m enos in fo rm ació n se pierde. E l p rin cip io que se h alla e n la base de la p ru e b a de S m irnov es m uy sencillo. Si la hipótesis n u la de que se h an extraído m u e stra s aleato rias independientes, de poblaciones idénticas, es co rrecta, entonces esperarem os que las distribuciones de frecuen cia acu m u lad a d e las dos m u estras sean fund am en talm en te si m ilares. La estad ística de la p ru e b a em pleada en la p ru e b a de Sm irnov es la d iferen cia m áxim a e n tre las dos distribuciones acum uladas. Si d icha d iferencia es m ay o r de lo que se esp eraría p o r azar con la h ip ó tesis nula, esto significa que la diferencia e n tre las d istrib u cio n es se h a hecho ta n gran d e que decidim os d esc artar la hipótesis. Podem os to m a r la diferencia m áxim a ya sea en u n a sola dirección (si ésta se h a anticipado) o en am bas direcciones. Problema. Supóngase que hem os dividido una m u e stra al azar de varones adultos de u n a localidad en seis clases sociales y los hem os clasificado al propio tiem po según sus aspiraciones b ajas o altas de cam bio. E stas dos últim as categorías pueden conside ra rse com o m u estras aleatorias independientes de las poblacio nes m ás am plias de varones adultos con aspiraciones b ajas o resp ectivam ente altas, ya que u n a m u estra to ta l com pletam ente al azar asegura la independencia e n tre las su b m u estras que po dam os escoger. Supóngase que hem os anticipado que los de as piraciones de cambio- elevadas ten d erán a ocu p ar u n a posición de clase su p erio r a los de aspiraciones b ajas. ¿Podem os concluir que los resu ltados son significativos al nivel de .0 1? Clase Aspiraciones bajas Aspiraciones altas B a ja in fe rio r B a ja s u p e rio r M e d ia in f e r io r M e d ia s u p e r io r A lta in f e rio r A lta s u p e rio r 58 51 47 44 22 14 31 46 53 73 51 20 T o ta l 23 6 27 4 1. Supuestos. Los m ism os que se requieren en la p ru eb a de M ann-W hitney y la de las secuencias. 2. D istribución de m uestreo. La distribución d e m u estreo de D, o sea la diferencia m áxim a en tre las distribuciones acum ula tivas, pued e d arse exactam ente en el caso de N pequeñas ( < 40), si Nj = N 2 ([7 ], p. 129). E ste caso no lo trata rem o s, ya que con Ñ relativam ente pequeñas puede em plearse, en lu g ar de la pru eb a de Smirnov, la de M ann-W hitney, y porque en la m ayoría de los ejem plos sociológicos no solem os p o r lo regular o b ten er m u estras exactam ente del m ism o tam año. Si las dos m u estras son m a yores que 40 y si no se h a anticipado la dirección, necesitarem os u n valor de D que sea p o r lo m enos tan grande com o 1.36 Y p a ra p o d er d e sc a rta r al nivel de .05. E n relación con los niveles de .01 y .001, el coeficiente de 1.36 puede rem plazarse p o r 1.63 y 1.95 respectivam ente. E n el caso del nivel de .10, el coeficiente co rresp o n d ien te es de 1 .22. Si la dirección se h a anticipado, podem os servirnos de la ap ro xim ación de la x-cuadrada. La e stad ística de la p ru e b a x-cuadrad a (x2) se co n sid erará e n el capítulo siguiente, y la ta b la d e la m ism a re su lta rá m á s fa m iliar en dicho momento.® E n treta n to , la fó rm u la de la aproxim ación es com o sigue: ■f = 4D2 N lN ‘2 1 Nx + Na ( X IV .10) en donde los grados d e lib e rta d asociados a la ^-cuadrada son siem pre dos en e s ta p a rtic u la r aplicación. Si bien al em p lear la aproxim ación de la ^-cuadrada se suponen distribuciones con tin u as de la población, si los datos son en re alid ad discretos y d an lugar, en consecuencia, a grandes n ú m ero s de em pates, las p ro b ab ilid ad es o b ten id as quedarán, e n caso de desearse el des carte, en sen tid o conservador. E n o tro s té rm in o s: las v erdade ra s p ro b ab ilid ad es serán m enores q u e las calculadas. 3. N ivel de significado y región crítica. El p ro b lem a re q u ie re el nivel de significado d e .01. Y a q u e se h a an ticip ad o la direc ción, nos servirem os d e la aproxim ación d e la ^-cuadrada. 4. Cálculo de la estadística de la prueba. O btenem os p rim ero las d istribuciones de frecuencia acu m u lad a de cada u n a de las m u estras (véase c u a d ro X IV .l), ex presando los valores de F com o p roporciones d e las m agnitudes to tales de las m u estras. Así, pues, el p rim e r v alo r in scrito e n la colum na de las F de la m u e stra 1 será 58/236, o sea .246; el segundo se rá 109/236, o .462, y así sucesivam ente. Las ú ltim as anotaciones de cada co lu m n a serán, p o r supuesto, la unidad. F orm am os ah o ra una colum na de las diferencias, F1 — F2, y localizam os la diferencia m ay o r con el signo positivo, ya que anticipam os m ayores p o r cen tajes de las clases in ferio res con aspiraciones b ajas, o sean m ayores valores de Ft . E ste valor de D re su lta se r de .187, com o lo indica la flecha. A continuación calculam os el v alor de la X - c u a d r a d a sirviéndonos de la ecuación (X IV .10). 5. Decisión. O bsérvese q u e cu an to m ay o r sea el v alor de D, ta n to m ay o r será la ^-cuadrada. P o r lo tan to , sólo necesitam os sa b e r cuán g ran d e d eb a s e r ésta p a r a d e sc a rta r la hipótesis nula. R ecurrim os, pues, al cu ad ro de la x-cuadrada (c u a d ro i del Apén dice 2 ), b u scam os los grados de lib e rta d de a rrib a a b a jo en el m arg en izquierdo, y el nivel de significación, arrib a, de izquierda a derecha, y vem os que, con 2 grados de lib ertad , co rresponde al nivel .01 el v alo r 9.210. E sto significa que si la hipótesis n u la fu e ra cierta, o b ten d ríam o s u n a ^-cuadrada de e s ta m agnitud, o> 3 D e b id o a e llo t a l v e z s e p o d r á a p l a z a r e l e s t u d io d e l a p r u e b a d e Smir*n o v h a s t a d e s p u é s d e h a b e r le íd o e l c a p . xv. C uadro X IV .l. Cálculos para la prueba de dos m uestras de S m irn o v Aspiraciones de cambio Clase Altas F1 Debajo de la baja superior Debajo de la media inferior Debajo de la media superior Debajo de la alta inferior Debajo de la alta superior Total /2 -4 m Diferencias Bajas F2 58 .246 31 .113 .133 109 .462 77 .281 .181 156 .661 130 .474 .187 200 .847 203 .741 .106 222 236 .941 1.000 254 274 .927 1.000 .014 n ,n 2 236(274) — 4(.187)2. - 17.74 Nx+ N 2 236 + 274 m ayor acaso, m enos del uno p o r ciento de las veces. Y ya que ob tuvim os u n a /-cu a d rad a de 17.74, vem os que podem os d esc artar la hipótesis nula. E sta m ism a p ru e b a de la /-cu a d rad a puede em p learse en relación con m u estras pequeñas cuando se h a antici p ad o la d irección; y si se tiene interés en d e sc a rta r la hipótesis nula, la aproxim ación de la /-cu a d rad a será en realid ad conser vadora. E n o tro s té rm in o s : las probabilidades obtenidas con este m étodo serán m ayores que las reales. Si no se h u b iera anticipado la dirección, entonces necesitaría m os, p a ra o b ten er significación al nivel de .01, u n valor de D que sea p o r lo m enos igual o su p erio r a 1.63 ¡N, + N 2 V NiN., ' 236 + 274 236(274) 1.63(.0888) = .145 E n este caso obtenem os D to m ando la diferencia m ayor, indepen d ien tem en te del signo. Y com o q u iera que este valor es el m ism o q u e el de la D utilizada an terio rm en te (.187), vem os q u e podem os tam bién d esc artar la hipótesis nula. XIV.5. La prueba de W ilcoxon de pares asociados y órdenes pro vistos de signo Las tres p ru eb as no param étricas exam inadas h a sta aquí, en el presen te capítulo, requerían que las dos m u estras se selecciona- ra n independientem ente u n a de otra. Se re c o rd a rá que, al asociar pares, no podíam os servirnos de la p ru e b a de la diferencia de las m edias. E n lu g ar de ello, tratá b am o s cada p a r com o caso sin g u lar y obteníam os u n a m arc a de diferencia p a ra cada uno de ellos. Procedíam os luego com o si tuviéram os u n a sola m u estra, y verificábam os la hipótesis n u la de que uB = 0. El lecto r re co rd a rá adem ás que, al servirnos de la p ru e b a de los signos, pudim os tam bién h a b e r em pleado p ares asociados, teniendo sólo en cuenta el signo de la diferencia y verificando la hipótesis n ula con ayuda de la distrib u ció n binom ial. E n la p ru e b a de los signos, había m os de d e ja r de lado to d a la inform ación que poseyéram os acer ca de la m agnitud de las diferencias im plicadas. P or o tra p arte, la p ru e b a m ás fuerte, o sea la p ru e b a t, re q u ería no sólo u n a escala de intervalos, sino, adem ás, el su p u esto de u n a población n o rm al de las m arcas de las diferencias. La p ru e b a de W ilcoxon de p ares asociados y órdenes provistos de signo, en cam bio, com b in a algunas de las características de esas dos pru eb as y se si tú a, en cu an to a eficacia d e la fuerza, e n tre am bas. Como verem os en seguida, la p ru e b a de W ilcoxon re q u ie re un nivel de m edición ligeram ente su p erio r al de la escala ordinal. N ecesitarem os, en efecto, u n a escala m étricam en te ordenada, en la que sea posible o rd e n a r no sólo las m arcas m ism as, sino ade m ás las diferencias e n tre ellas. Como q u iera que las escalas m étricam en te ordenadas se en cu en tran ra ra m e n te en la investiga ción sociológica, este requisito1 equivale p rácticam en te a que ne cesitem os u n a escala de intervalo. Sin em bargo, ya que la p ru e b a d e W ilcoxon no p resupone u n a población norm al, la exam inare m os ju n to con las dem ás p ru eb as d e dos m u estras no param é trica s en el p re sen te capítulo. La eficiencia de la fuerza de esta p ru e b a es su stan cialm ente m ayor que la de la p ru e b a de los sig nos, circu n stan cia que no debe so rp ren d er, ya que ésta obtiene v en taja de ta n poca inform ación disponible. Si los supuestos de la p ru e b a t son efectivam ente ciertos, entonces la eficacia de la fu erza de la p ru e b a de W ilcoxon es aproxim adam ente del 95 %, ta n to p a ra m u estras pequeñas com o grandes. De ahí que re su lte p artic u la rm en te ú til e n situaciones en las que tenem os u n nivel de m edición de escala de intervalo, p ero e n las que la m agni tu d d e la m u estra es con to d o dem asiado peq u eñ a p a ra ju stific a r el su p u esto de n orm alidad. E n esencia, la p ru e b a d e W ilcoxon co m p o rta la m ism a hipóte sis n u la em pleada en la p ru e b a de los signos y tam bién en la p ru e b a t p a ra p ares asociados. La hipótesis nula sostiene que no existen diferencias e n tre las m arcas d e las dos poblaciones. Al servirnos de e s ta p ru eb a, obtenem os p rim ero las m arcas d e la diferencia p a ra cada p ar. E stas diferencias se ordenan, p rescin diendo de sus signos respectivos. Así, pues, u n a diferencia de — 6 se o rd e n ará p o r encim a de la de + 3. U na vez ordenados e n esta fo rm a los valores absolutos de las diferencias, asignando siem pre el rango 1 a la m enor diferencia num érica, volvem os a trá s y anota m os los signos. Finalm ente, obtenem os las sum as de los órde nes de las diferencias, de las positivas y de las negativas. Si la hipótesis n u la es correcta, esperam os que la su m a d e los órdenes de las diferencias positivas será aproxim adam ente igual a la de los órdenes d e las diferencias negativas. Si éstas difieren m ucho e n tre sí en m agnitud, entonces la hipótesis n u la p u ed e descar tarse. F orm am os la estadística T, que es la m enor d e las sum as en cuestión. Nos servim os a continuación d e tab las exactas de la d istrib u ció n de selección de T si la A? es pequeña, y de u n a apro xim ación n o rm al si es grande. C uadro X IV .2. Cálculos de la prueba de W ilcoxon de pares asociados Ni del par Grupo A Grupo B Diferencia 1 2 3 4 5 6 7 8 9 10 11 12 13 63 41 54 71 39 44 67 56 46 37 61 68 51 68 49 53 75 49 41 75 58 52 49 55 69 57 5 8 Total -1 4 10 -3 8 2 6 12 -6 1 6 Orden de la diferen cia (+ ) 6 ( + ) 10.5 ( - ) 1.5 (+ ) 5 ( + ) 12 (-) 4 ( + ) 10.5 (+ ) 3 (+ ) 8 ( + ) 13 (-) 8 ( + ) 1.5 (+ ) 8 órdenes negativos 1.5 4 8 13.5 Con fines de com paración, sirvám onos de los m ism os datos u ti lizados en el caso de la p ru e b a t correspondiente. El cu ad ro X IV .2 re p ite dichos datos y p roporciona al p ro p io tiem po los cálculos necesarios p a ra la p ru e b a de W ilcoxon. O bsérvese que, al ignorar los signos, algunas de las m arcas de las diferencias re su ltan em p atad as en cu an to a la m agnitud. E n ta l caso, dam os u n a vez má* a las m arcas em patadas el valor prom edio que h ab ría n tenido de n o estarlo .4 Así, p o r ejem plo, tenem os dos diferencias d e tam a. * Otro procedimiento algo más conservador consistiría en romper los em pates de tal manera que se obtuviera el mayor valor posible de T. Los pares cuyas puntuaciones tuviesen una diferencia de 0 exactamente (es decir: nin gún cambio) deberían ser eliminados del análisis. ño 1. Como q u iera que atribuim os a las diferencias m ás pequeñas los rangos inferiores, cada u n a de aquéllas obtiene u n a m arc a de o rd en o rango de 1.5. E n la quinta colum na hem os indicado el signo asociado a cada orden, e n tre p arén tesis, a la izquierda del m ism o. Vemos a sim ple vista que la sum a de los órdenes negati vos será in ferio r a la de los positivos. P o r lo tanto, obtenem os T sum ando estos órdenes negativos. No es m en ester re te n e r los signos negativos al b u sc a r el valor de T en el cuadro, ya que los valores se h allan siem pre dados com o positivos. Así, pues, T = 1.5 + 4 + 8 = 13.5 Form alicem os ah o ra lo que hem os hecho, siguiendo los pasos en la fo n n a habitual. 1. S u p uestos. N ivel de m e d ició n : escala m étricam en te ord en ad a (las m a r cas de las diferencias pueden o rd en arse). M odelo: m u e stra s aleatorias. H ip ó tesis: la su m a de los órdenes positivos = a la de los órdenes negativos en la población. 2. D istribución de m uestreo. La distribución de m u estreo de T p a ra N < 2 5 se d a en el cu ad ro H del A péndice 2. E n relación con m u e stra s m ayores, la distribución d e T es aproxim adam ente n o rm al, co n : m ed ia = ¡xr = - í ^ + 1 ) y desviación e s tá n d a r = or = ^ (X I V .ll) ^ (X IV .12) 3. N ivel de significación y región critica. Lo m ism o que en el caso de la p ru eb a t, nos servirem os del nivel de .05, sin a n ticip ar la dirección del resultado. 4. Cálculo de la estadística de la prueba. É ste se halla ya efec tu ad o en el cu ad ro XIV.2, que nos d a u n a T de 13.5. 5. Decisión. El c u a d ro H del A péndice 2 d a valores críticos de T p a ra N < 25. Ya que T re p re se n ta la m en o r de las dos sum as de órdenes, necesitam os valores num éricos pequeños de T p ara d e sc a rta r la hipótesis nula. Así, pues, podrem os d e sc a rta r H 0 siem pre que T sea igual o in ferio r a los valores dados en el cuer p o del cuadro. Vemos que con u n a N de 13 necesitam os una T d e 17, o m enor, p a ra p o d er d e sc a rta r al nivel de .05. Vemos tam b ién que se n ecesitaría u n a T de 13 o m enos p a ra el d escarte al nivel de .02. AI servim os de la p ru e b a í en el capítulo an terio r, se h a b rá observado que, al nivel de .02, sólo logram os d esc artar allí con m uy poco m arg en ; aquí, en cam bio, estam os ligeram ente p o r encim a de dicho nivel, p e ro los re su ltad o s de am bas p ru e b as son, con todo, m uy sim ilares. Si b ien n u e stra N es m uy pequeña, podem os d e todos m odos servirnos de la aproxim ación n o rm al con fines de ilustración. Ob tenem os : T - N ( N + l)/4 Zu —* — —. , \ / N ( N + 1) (2JV + l)/2 4 13.5 — 13( 14 )/4 1 3 .5 -4 5 .5 --------------- .— - ----- = -------------------= - 2.24 •\/13( 14) (27)/24 V2Ó4?75 Como q u iera que u n a Z de — 2.24 corresponde a p = .025, re su lta que volvemos a llegar a la m ism a conclusión. El valor de T es m ucho m en o r que el que esp eraríam o s debido- al azar, y podem os en consecuencia d e sc a rta r la hipótesis nula. D ebe observarse que la a n te rio r aproxim ación n o rm al n o contiene u n a corrección ex p lícita de los em pates, no debiendo p o r tan to se r u sad a en los casos en que el n ú m ero relativo de em pates es ex trem adam ente grande. X IV .6. R esu m en E n el p re sen te capítulo hem os exam inado c u a tro p ru e b as n o p a ra m é tricas d istin tas. E n los capítulos sucesivos verem os otras. Tal lecto r h a b rá observado, sin duda, que todas esas p ru e b a s,n o p a ra m é tric a s co m p o rtan h a s ta aq u í ideas m uy sim ples y consi d erab lem en te m enos cálculos q u e la p ru e b a d e la d iferencia de las m edias, p o r ejem plo. É sta es u n a razón m ás e n fav o r de nues tr a tesis en el sen tid o de que, en el fu tu ro , los sociólogos se servirán m ucho m ás de estas p ru e b as n o p aram étricas. P o r des gracia, en u n tex to general n o se p u ed e h ac er m u ch o m ás que exam inar un as pocas de esas p ru e b as brevem ente. Algunas de las p ru e b as exam inadas en el p re se n te capítulo tienen adem ás algu n as o tras aplicaciones que no se h an exam inado. Así, p o r ejem plo, la p ru e b a de las secuencias p u ed e em plearse com o p ru e b a del c a rá c te r fo rtu ito . L a p ru e b a de Sm irnov, p o r su p a rte , puede u tilizarse com o p ru e b a de u n a sola m u e stra p a ra c o m p arar las frecuencias observadas con las q u e se h an an ticip ad o teórica m ente. E n algunos casos, pueden o b ten erse intervalos d e confian za em pleando procedim ientos no param étricos. P o r lo tanto, una vez que se h aya fam iliarizado con las p ru e b as tra ta d a s en este texto, el lecto r p ro p e n d erá ta l vez a co n su ltar o b ras m ás especia lizadas. A fortunadam ente, m uchos de estos procedim ientos no p aram étrico s pu ed en com prenderse fácilm ente, au n p o r p a rte del lecto r sin g ran p rep aració n m atem ática. Es u n a suerte, tam bién, que cierto n ú m ero de esos procedim ientos hayan sido resum idos en textos recientes de Siegel [7 ], B radley [1 ] y Pierce [5]. El lecto r p o d rá co n su ltar asim ism o con provecho la extensa biblio g rafía sobre m étodos n o p aram étrico s com pilada p o r Savage [ 6]. T anto en este ca p ítu lo com o en el a n te rio r hem os observado q u e es necesario' d istin g u ir e n tre m u estras que fu ero n seleccio n ad as in d ependientem ente, y aquellas que h a n sido paread as o en las que se incluyen com paraciones de puntuaciones correspon dientes a los m ism os individuos. De e sta m anera, la indepen dencia, o la fa lta de ella, e n tre m u estras, es u n a de las consideraraciones que deben h acerse cuando se escoge e n tre distintos pro cedim ientos estadísticos. E n el caso de m u estras paread as fo rm am o s u n a sim ple p u n tu ació n p a ra cad a p a r, y a continuación utilizam os el d ato com o si se tra ta ra d e u n a sola m uestra. Cuan do las m u estras h a n sido tra ta d a s independientem ente, no siendo ta l vez iguales p o r o tra p a rte los tam añ o s de las m u estras, fo rm ulam os la h ip ótesis nula, suponiendo que h a hab id o m u és treo s in dependientes de las m ism as poblaciones, y que la d is tri bu ció n de n u e stra estad ística de la p ru e b a (Z, t, r, U o D ) se b asó e n dicho su puesto. E stos principios se am plían fácilm ente a m ás de dos p ru eb as. E n los capítulos xv y xvi observarem os com paraciones e n tre tre s o m ás m u estras seleccionadas indepen dien tem ente, cuan do la segunda variable p u ed e se r u n a escala nom inal, o rd in al o de intervalo. Aun cuando no nos cen trarem o s en el exam en de ejem plos m ás com plejos, e n los que haya im plícitas m ás de dos m u e stra s p areadas, p o d rá verse e n el e je r cicio 5 del cap ítu lo a n te rio r y en el ejercicio 5 d e este m ism o capítulo, que la am pliación es directa. La id ea b ásica es la de que u n o o b tiene u n a sola p u n tu ació n p a ra cad a p a r (la que pu©d e re s u lta r de u n a d iferencia de diferencias o alguna o tra función! m ás com p leja), p ro ced ien d o a continuación com o si se hubiese tra ta d o de u n a sim ple m u e stra de tam añ o N, en la que N re p re se n ta el n ú m ero d e p ares (o d e trío s, etc é te ra ). E n el p re sen te ca p ítu lo abordam os p o r p rim e ra vez u n pro b le m a d e tip o general, a s a b e r : el del c rite rio q u e h a d e aplicarse al escoger e n tre p ro cedim ientos estadísticos altern ativ o s. Nos hem os c e n tra d o especialm ente en el concepto de la eficacia de las fu e r zas relativ as d e las p ru e b as p o r el hecho de que algunas d e éstas req u ieren supuestos m ás fu ertes que o tras. No debe sin em bargo el le c to r q u ed arse b a jo la im p resió n de que el problem a es tan sencillo com o aq u ella d istinción da a en ten d er. Ya se h a hecho n o ta r q ue en la m ayoría de los casos p ráctico s n o se conoce lo su ficien te acerca del v alo r real de los p a rá m e tro s com o p a ra b a s a r en ta l conocim iento unas conclusiones definitivas. H ay ad e m ás o tra cuestión, m ás técnica, que no hem os discutido. E n ella están im plicadas las sensibilidades relativas d e las p ru e b as en ord en a la violación de los supuestos requeridos. P or ejem plo : ¿qué p erju icio se causa si se u tiliza u n a p ru e b a de diferencia de m edias cu an d o la población tiene u n a fo rm a especificada com o no n o rm al? ¿Q ué o cu rre si se viola el su p u esto de las escalas de intervalo? Los estadísticos em plean la expresión robustez de una prueba cu an d o aluden a su sensibilidad a n te diversas clases de distorsiones. L a ro b u stez re su lta p a rtic u la rm e n te difícil de ev aluar cuando son varias las distorsiones, o los supuestos no cum plidos, cuya aplicación es sim ultánea. Aun cuando los proce dim ientos p aram étrico s, tales com o la p ru e b a de la diferencia de m edias, p u ed en parecer razo n ab lem en te ro b u sto s b a jo m uchas situaciones, hay diferencias d e opinión en cu a n to a lo aconseja ble que re su lte u tiliz a r tales p ru e b as cuando se dispone de a lte r nativas no p aram étricas. N u estra p o sición es la d e que cu an d o n o se pueden aplicar criterio s claros lo p ru d e n te es u tiliza r v arias p ru e b as diferentes, tan to p aram étrica s com o n o p aram étrica s, publicando los dos' grupos de re su ltad o s p a ra que el lecto r p u ed a sac ar sus propias conclusiones. H ab itu alm en te se hace esto dando, en no tas al pie de la página, los resultados de u n a segunda pru eb a, com entando las razones p o r las cuales las conclusiones no re su lta ro n idénti cas. C uando h ay u n a p ru e b a (o estim ación) n o p aram étrica dis ponible, cuya fuerza sea casi ta n a lta com o la de u n procedim ien to param étrico com parable, tal com o la p ru e b a de M ann-W hitney com o altern ativ a a la p ru eb a t, p arece ría p referib le confiar m ás bien en el p rocedim iento no p aram étrico . E nco n trarem o s em pe ro m uchos pro cedim ientos p aram étrico s m ultivariados p a ra los que no existe u n a altern ativ a no p aram étrica satisfactoria. An tes que u s a r u n a altern ativ a débil o teóricam ente n o satisfacto ria, re su lta preferible, si tal es el caso, re c u rrir decididam ente a los p ro cedim ientos p aram étrico s, conscientes de que n o se po d rán o b ten er con ellos resu ltad o s definitivos. No es posible, en pocas p alab ras, d a r u n a sim ple re sp u esta dogm ática a la p re g u n ta: ¿Qué clase de p ru e b a o m edida es la m ás apropiada? G losario Prueba no param étrica * Eficiencia de fuerza * Función de fuerza * Fuerza de una prueba E jercicios 1. Se ha clasificado cierto número de iglesias protestantes de una localidad como: 1) predominantemente de clase alta o clase media alta» o 2) predominantemente de clase media baja o clase baja. Se ordenan según el grado de formalismo de sus servicios, con los si guientes resultados: Clase alta o clase media alta: órdenes 1, 2, 3, 6, 7, 8, 11, 13, 14, 15, 17, 21, 25 Clase media baja o clase b a ja : órdenes 4, 5, 9,10, 12,16, 18, 19, 20, 22, 23, 24, 26, 27. Sirviéndose del nivel de .05, ¿puede establecerse una diferencia sig nificativa: a) con la prueba de las secuencias, y b) con la de MannWhitney? ¿Qué prueba preferiría el lector? ¿Por qué? Respuesta, a) r = 14, no rechazar; b) U = 52, no rechazar. 2. En el cuadro 18.3 se dan datos de los grados de popularidad de los miembros de un grupo de un campo de trabajo de verano. Con sidérese a las personas con los grados de participación del 1 al 8 como “activas" en las discusiones del grupo, poniendo a las demás en la categoría de “inactivas”. ¿Existe al nivel de .05 diferencia significa tiva alguna entre las personas "activas” y las “inactivas" por lo que se refiere a la popularidad? Empléense sucesivamente las pruebas de las secuencias y de Mann-Whitney. 3. Supóngase que se ha logrado ordenar las ocupaciones urbanas por grados descendentes, sirviéndose de las categorías generales de profesional y directivo, empleado, obrero calificado, semicalificado y no calificado. El investigador ha preguntado a todos los padres de familia si son o no partidarios del aumento de los beneficios de la seguridad social a expensas del contribuyente. Los resultados son como sigue: Nivel de ocupación Partidarios Contrarios Profesional y directivo Empleado Obrero calificado Obrero semicalificado Obrero no calificado 46 81 93 241 131 97 143 88 136 38 592 502 Total ¿Existe alguna relación significativa entre la ocupación y la actitud al nivel de .001? Respuesta, D — .282, P < .001. 4. Resolver el ejercicio 2 del capítulo x m utilizando la prueba de Smimov. Comparar estos resultados con los de la prueba í. 5. Efectúense todas las indagaciones del ejercicio 5 del capítulo xm , sirviéndose de la prueba de Wilcoxon de los pares asociados y los ór denes provistos de signo. ¿Cómo se comparan entre sí los resultados de las dos pruebas? Respuesta, a) T = 14.5, no rechazar; c) T = 11, no rechazar. * 6. Verifiqúese que la ecuación (XIV.8) es equivalente désete el pun to de vista algebraico a la otra fórmula de Z dada en la página 273. B iblio g ra fía 1. Bradley, J, V.: Distribution-free Statistical Tests, Prentice-Hall, Inc., Englewood Cliffs, N. J., 1968, caps. 1-3, 5, 11 y 13. 2. Dixon, W. J., y F. J. Massey: Introduction to Statistical Analysis 3? ed., McGraw-Hill Book Company, Nueva York, 1969, cap. 17. 3. Freund, J. E.: Modern Elementary Statistics, 3? ed., Prentice-Hall Inc., Englewood Cliffs, N. J., 1967, cap. 13. 4. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva York, 1963, cap. 18. 5. Pierce, Albert: Fundamentáis of Nonparametric Statistics, Dickenson Publishing Company, Inc. Belmont, Cal., 1970, cap. 14. 6. Savage, I. R.: "Bibliography of Nonparametric Statistics and Related Topics”, Journal of the American Statistical Association, vol. 48, pp. 844-906, 1953. 7. Siegel, S,: Nonparametric Statistics for the Behavioral Sciences, McGraw-Hill Book Company, Inc., Nueva York, 1956, caps. 5 y 6. 8. Smith, K.: "Distribution-free Statistical Methods and the Concept of Power Efficiency”, en L. Festinger y D. Katz (eds.) Research Methods in the Behavioral Sciences, The Dryden Press, Inc., Nue va York, 1953, pp. 536-577. 9. Swed, F. S., y C. Eisenhart: "Tables for Testing Randomness of Grouping in a Sequence of Altematives”, Annals of Mathematical Statistics, vol. 14, pp. 66-87, 1943. 10. Walker, H. M. y J. Lev: Statistical Inference, Henry Holt and Company, Inc. Nueva York, 1953, cap. 18. E n e l p resen te capítulo- vam os a estu d iar las relaciones en tre dos o m ás escalas nom inales. Ya vim os que el caso de dos escalas nom inales dicotóm icas podía tra ta rs e como u n problem a que com p o rta ra u n a diferencia de proporciones. R esulta a m enudo de seable servirse de u n procedim iento de p ru e b a m ás general, que nos ponga en condiciones de averiguar las diferencias que haya e n tre tres o m ás m uestras, o de co m parar dos (o m ás) m ues tra s con resp ecto a u n a variable de m ás de dos categorías. La p ru eb a de la ^-cuadrada que vam os a exam inar en la próxim a sección nos perm ite establecer relaciones e n tre escalas nom ina les con cu alquier n ú m ero de categorías. Se in tro d u cirán al p ro pio- tiem po algunos conceptos nuevos. H asta aquí sólo nos hem os ocupado de p ru eb as acerca de la existencia de u n a relación en tre dos variables. E n este capítulo se p re se n ta rá n algunas m e didas indicativas de la fuerza o grado de relación. Se exam inarán al p ro p io tiem po procedim ientos em pleados p a ra el control de u n a o m ás variables. XV.1. La prueba de la cuadrada La p ru e b a de la -/-cuadrada es u n a p ru e b a m uy general que pue de em plearse cuando- deseam os ap reciar si unas frecuencias obte nidas em píricam ente difieren significativam ente o no de las que se esp erarían b ajo cierto co n ju n to de supuestos teóricos. La p ru e b a general p re sen ta m uchas posibilidades de aplicación, la m ás com ún de las cuales, en ciencias sociales, es la relativa a los p roblem as de “contingencia” en los que dos variables de escala nom inal se h an clasificado p o r com paración de una con o tra .1 Supóngase, p o r ejem plo, que se h an relacionado u n a con o tra la confesión religiosa y la filiación política y que los datos se h an resum ido en el siguiente cuadro de contingencia de 3 x 3 : Partido Protestantes Católicos ludios Republicanos Demócratas Independientes Total 126 71 19 216 61 93 14 168 38 69 27 134 Total 2.25 233 60 5.18 1 En relación con otro empleo de la ^-cuadrada, véase el ejercicio 3 a! final del capítulo. 289 Obsérvese que si las frecuencias se convirtieran en porcentajes, p odríam os d ecir que, en ta n to que el 58.3 p o r cien to de los p ro testan tes son republicanos, sólo p re fiere n este p artid o el 36.3 por ciento de los católicos y el 28.4 p o r ciento de los judíos. Se nos p o d ría entonces o c u rrir p re g u n ta r si esas diferencias eran o no significativas desde el p u n to de vista estadístico. Como q uiera que se tienen tre s confesiones religiosas y tre s categorías de prefe ren cia política, no podernos servirnos d e u n a sim ple p ru e b a de las diferencias de las proporciones. Sin em bargo, sirviéndonos de la p ru e b a de la /^-cuadrada, podem os estab lecer esencialm ente la m ism a clase de hipótesis n u la que an terio rm en te. Podem os sup o n er, en efecto, que no existe d iferencia alguna e n tre las tres confesiones religiosas. E sto equivale a decir que las proporciones de republicanos, de dem ócratas y d e independientes deberían ser las m ism as en cada tino de dichos grupos. P artiendo, pues, del supuesto de que la hipótesis n u la es co rre c ta y d e que las m ues tra s son aleato rias e independientes, podem os calcu lar un con ju n to de frecuencias que p o d ría n esperarse, dados los totales m arginales en cuestión. E n o tro s térm inos, podem os calcular el n ú m ero de p ro te sta n te s de los que esp eraríam o s fu e ran republi canos y c o m p arar esta cifra con la que se h a obtenido en re a lidad. Si la diferencia y las diferencias co rrespondientes a las o tra s casillas son considerables, p ro b ab lem en te sospechem os de la hipótesis nula. H ay que o b tener, pues, alguna m ed id a de la d iferencia en tre las frecuencias observadas y las esperadas. Existe, p o r supues to, u n a g ran ca n tid a d d e m edidas, p ero necesitam os u n a con resp ecto a la cual la distribución de m u estras sea conocida y esté tab ulada. P o r ello nos servim os de u n a m edia designada com o de la ^-cuadrada (y'¿), que se define com o sigue: X2 = S Í Í L Z ^ 1 Je (XV.1) en lo que f0 y f e se refieren respectivam ente a las frecuencias ob servadas y esp eradas p a ra cada casilla.2 O en o tras p a la b r a s : la ^-cuadrada se o btiene tom ando p rim ero el cu ad rad o d e la diferen cia e n tre las frecuencias observadas y esperadas p a ra cada casilla. Dividimos d icha cifra e n tre el n ú m ero de casos esperados en cada casilla, con o b jeto de norm alizarla, de m odo que las m ayores contribuciones n o provengan siem p re de las casillas m ayores. Y la sum a de to d as esas cantidades no negativas p a ra todas las ca sillas es el v alo r de la ^-cuadrada. 2 Con objeto de reducir la confusión hemos abandonado el índice i, su poniéndose, con todo, que estamos sumando los resultados de todas las casillas. O bsérvese que cu an to m ayores son las diferencias e n tre las frecuencias observadas y las esperadas, tan to m ayor es el valor de la /-cu ad rad a. É sta sólo será cero si todas las frecuencias o bservadas y esperadas son idénticas. Podem os proceder a una verificación de la hipótesis n u la b uscando la distribución de m ues treo de la /-cu adrada. D ifícilm ente anticiparem os que las fre cuencias observadas y las esperadas sean exactam ente las m is m as. Sin em bargo, si el valor de la ^-cuadrada resu lta m ayor de lo que al azar se anticiparía, estarem os en condiciones de des c a rta r la hipótesis n u la siguiendo el procedim iento habitual. Problem a. Podem os servirnos del ejem plo pu esto anteriorm en te, p e ro sim plificándolo, de m an era que obtengam os u n a ta b la de 2 X 2. La extensión del m ism o al caso general re su lta rá después m uy sencilla. Supongam os, pues, que se h an com binado los ca tólicos y los judíos y que se h a prescindido de los independien tes. Tenem os así el siguiente cuadr& Partido Protestantes Católicos y judíos Total Republicanos Demócratas 126 71 99 162 225 233 Total 197 261 458 Im p o rta o b servar que las cifras de cada casilla son en realidad frecuencias y no po rcen tajes. Si ías cifras dadas son porcentajes, hay q ue convertirlas en frecuencias, ya que, desde el punto de vista estadístico, la p ru e b a de la /-cu a d rad a com porta u n a com p aració n de frecuencias y no de porcentajes. 1. S upuestos. N ivel de m e d ic ió n : dos escalas nom inales M odelo: m u estras aleatorias independientes H ip ó tesis: n o existen diferencias e n tre las poblaciones con fesionales e n relación con la preferen cia política. P o r supuesto, el nivel de m edición puede ser m ás elevado. En efecto1, las p ru ebas de la /-cu ad rad a se utilizan con frecuencia con escalas ordinales e inclusive, en ocasiones, con escalas de intervalo. Sin em bargo, según vim os en los capítulos preceden tes, se dispone en tales casos de pruebas m ás fu ertes que se em p learán p o r lo re g u lar con preferen cia a la /-cuadrada. Una vez m ás, h ay que su poner independencia e n tre las m u estras p ara serv irse de la p ru e b a de la /-cuadrada. La m agnitud de la m ués- t r a h a de se r re lativ am en te grande, p o rq u e la %-cuadrada, según la define la fórm ula, tiene u n a d istrib u ció n de m u estreo que sólo se ap roxim a a la del cu ad ro si N es grande.3 L a h ip ótesis n u la p u ed e fo rm u larse en cierto n ú m e ro de m o dos equivalentes. D ecir que no hay diferencia e n tre grupos con fesionales en m a te ria de p referen cia p o lítica equivale esencial m en te a d ecir que no- hay d iferencia alguna e n tre la filiación religiosa y la p re fere n cia electoral. H ay que te n e r p resen te, sin em bargo, que sem eja n te afirm ación sólo- se ap licaría a las varia bles tales com o se las haya definido o p erativ am en te; en este caso, p o r ejemplo-, la p referen cia política y la religión se definirían com o variables dicotóm icas. P o d ría tam bién enunciarse la hipó tesis n u la enum erando las diversas proporciones que se suponen iguales. Si bien este últim o m étodo sea ta l vez el m ás preciso, p u ed e re su lta r con todo m uy em barazoso en el caso general. 2. N ivel de significacióni^Siipongam os que querem os dem os t r a r u n a diferencia y que deseam os se r ex trem adam ente cautos. Nos servirem os, en consecuencia, del nivel de .001. Supóngase asim ism o que n o se h a anticipado- la dirección de la diferencia. 3. D istribución de m uestreo. Las distribuciones de m u estreo d e la %-cuadrada e stán dadas e n el cu ad ro I del A péndice 2. Ob sérvese que las distribuciones difieren de acu erd o con los grados de lib e rta d im plicados. La determ inación de los grados de liber tad se exam inará m ás abajo. Como q u iera que, independientem en te de la dirección de la relación e n tre la confesión y la p refe ren cia política, n u estro in terés e stá en sab e r si la ^-cuadrada o b ten id a es o n o m ayor de lo que se e sp e raría al azar, sólo nos ocupam os de la cola m ayor de la distribución. La cola m enor, que consta de valores m uy pequeños de la i-cuadrada, n o se suele em p lear p o r lo- reg u lar en los problem as de contingencia. 4. Cálculo de la estadística de la prueba. Lo p rim e ro que h a cem os en el cálculo de la ^-cuadrada es o b ten er las frecuencias esperad as. La hipótesis nula dice que no- hay preferencias de la gente en cuanto a la votación. P o r lo tan to , independientem ente d e cuál sea el v e rd ad ero n ú m ero de republicanos en cada u n a de las poblaciones confesionales, esperaríam os que, a la larga, h ab ría la m ism a p ro p o rció n de aquéllos en am bas m uestras. Como q uiera que la p ro p o rció n de republicanos en la m u estra com binada es de 225/458, o sea .4913, esp eraríam o s la m ism a cifra en cada u n a de las dos m u e stra s confesionales. Así, pues, anticiparíam os en cada uno de ellos los m ism os p o rcen tajes de republicanos y de dem ócratas. Podem os o b ten er luego el núm ero esp erad o de republicanos en tre los p ro te sta n te s m ultip lican d o .4913 p o r el n úm ero to tal 4de p ro te sta n te s de la m u estra. E n esta form a, el núm ero an ticipado de p ro te sta n te s republicanos sería (.4913) * Para un examen más detallado de este problema véanse las pp. 299-301. (197) = 96.8. Las dem ás frecuencias anticipadas pueden calcularse en fo rm a análoga. P o r lo re g u lar se recom ienda re te n e r p o r lo m enos u n a cifra decim al al calcular las frecuencias esperadas. De m odo que en el caso a n te rio r no redondearíam os a 97. Antes de p a sa r adelante, conviene ob serv ar que las frecuencias esp erad as tam bién pueden obtenerse razonando en fo rm a inver sa, esto1 es, en térm inos de la pro p o rció n de republicanos que esp eraríam o s que fu e ran p ro testan te s. Toda vez que la p roporción de p ro testan te s en la m u e stra com binada es de 197/458, o sea .4301, podem os o b ten er la frecuencia an ticip ad a de republicanos p ro te sta n te s com o sigue: (.4301) (225) = 96.8. El lecto r h a de ac o stu m b ra rse a o b ten er las frecuencias esp erad as en am bas fo r m as, a títu lo de co n tro l de los cálculos. U na vez que nos hayam os aco stu m b rad o al procedim iento, en co n trarem o s p ro b ab lem en te m ás sencillo' servim os de u n a sim ple fó rm u la com o la q u e se describe a continuación. Si designam os las casillas y los to tales m arginales com o a c b d a+c b+d a+ b c+d N entonces la frecuencia esp e rad a puede o b ten erse m ultiplicando los dos m arginales correspondientes a la casilla en cuestión y dividiendo e n tre N . Así, p o r ejem plo, la cifra esp erad a p a ra la casilla a sería (a + b ) ( a + c ) / N = (225) (197)/458 = 96.8 El em pleo de este ú ltim o procedim iento reduce todo e rro r de red o n d eo que p o d ría in tro d u cirse dividiendo1 p rim ero (p a ra ob ten er la p ro p o rció n ) y m ultiplicando luego. Se o b serv ará que este procedim iento de m u ltip licar m arginales p a ra dividirlos e n tre el núm ero to tal de casos, viene a ser b ásica m ente el m ism o que se exam inó en el capítulo ix en relación con la independencia de dos variables. E sto pone de relieve el hecho de q ue las frecuencias esperadas son com putadas sobre la b ase del supuesto de que las variables no e stá n relacionadas, en ta n to que las frecuencias observadas nos m u e stra n el grado en que se viola este supuesto. R ecuérdese que si los eventos (o va riab le s) A y B son estad ísticam en te independientes, el conocer el v alo r de u n o n o nos ay u d ará a p re d ecir el otro. Si las fre cuencias observadas y las esperadas son exactam ente iguales, ello significaría, en n u estro ejem plo, que el conocer las diferencias religiosas d e u n a p erso n a no1 nos p e rm itiría p re d ecir sus incli naciones políticas. P or convención, ponem os p o r lo reg u lar las frecuencias espe rad as e n tre p arén tesis, debajo de las frecuencias realm ente ob tenidas p a ra cada casilla, ta l com o se indica a co n tin u ac ió n : Partido Protestantes Católicos y judíos Republicanos 126 ( 96.8) 71 (100.2) 99 (128.2) 162 (132.8) 225 197 261 458 Demócratas Total Total 233 Los cálculos p a ra la /-cu ad rad a pueden resum irse en u n cuadro com o el X V .l. O bsérvese que la can tid ad f 0 — f e tiene el mis- Cuadro XV .l. Cálculos de la /-cuadrada Casilla f0 1e fo~fe (fo-fe* ( f o - f e Wf e a b c d 126 99 71 162 96.8 128.2 100.2 132.8 29.2 -29.2 -29.2 29.2 852.64 852.64 852.64 852.64 8.808 6.651 8.509 6.420 Total 458 458.0 30.388 m o valor p a ra cada casilla. E l lecto r debería convencerse p o r sí m ism o de que esto será siem pre así en el caso de tablas de 2 X 2, p ero que no se d eja con todo generalizar a otros casos. El hecho de elevar este valor al cu ad rad o tien e p o r efecto la elim ina ción de las can tidades negativas. Im p o rta que se em pleen en el d enom inador las frecuencias esperadas, y no las observadas. En efecto, estas ú ltim as v aria rán de u n a m u estra a o tra, y pueden incluso ser iguales a cero. R esulta a m enudo m ás conveniente servirse de u n a fórm ula de cálculo que no re q u ie ra la sustracción efectiva de cada frecuencia esperada de su correspondiente observada. D esarrollando el nu m erad o r en la expresión de la /-cu a d rad a y uniendo los térm inos o b ten em o s: ( f e - f e )2 ^ f <? - V o te + / .2 PROBLEMAS DE CONTINGENCIA 295 Pero, to d a vez que tan to 2 /„ com o 2/„ son iguales a N, te n e m o s: 2■ X /o2 ■N (XV.2) Sirviéndonos de esta fórm ula, que co m p o rta una sola su stra c ción, obtenem os el m ism o re su ltad o que an terio rm en te (véase cuadro XV.2). Cuadro XV.2. Cálculo de la %-cuadrada sirviéndose de la fórm ula Casilla f 2 10 fo2/fe a b c d 15 876 9 801 5 041 26244 164.008 76451 50.309 197.620 488.388 T o ta l y2 - 488.388 - 458 " = 30.388 E n el caso de u n a ta b la de solam ente 2 x 2 , re su lta posible ex p re s a r la /-cu a d rad a com o sim ple función de las frecuencias de las casillas y de los to tales m arginales. Si se designan las casillas com o an terio rm en te, ten em o s: f = --------------N("'ad ~ bC)¿-------------* (a + b) (c + d) (a + c ) (b + d) (XV.3) Si b ien este cálculo re q u ie re la m ultiplicación de núm eros gran des, el em pleo de los logaritm os lo- sim plificará con todo con siderablem ente. Vemos el paso, de la ecuación (XV.3), q u e la •/-cuadrada será cero cuando' el producto- diagonal ad sea exacta m en te igual al p ro d u c to be. E ste hecho puede em plearse com o m éto d o ráp id o p a ra sab e r si es o no necesario seguir adelante con la p ru e b a de significación. Si los p ro d u cto s diagonales son casi iguales, la /-cu a d rad a será dem asiado peq u eñ a p a ra p ro p o r cio n ar significación. E stos p roductos diagonales sirven asim ism o p a ra d eterm in a r la dirección de la relación sin que tengam os que m o lestarn o s en calcular los p orcentajes. El m ayor de los dos p ro d u cto s indica, en efecto, cuál de las diagonales contiene la m ay o ría de los casos. * T anto las an terio res fórm ulas p a ra / ( c h i) al cuadrado, com o el pro ced im ien to p a ra calcu lar frecuencias esperadas, son suficientes en la m ayoría de los casos, pero- puede re su lta r ú til co n ocer una versión algo distinta, aplicable al caso r X c en gene ral, conveniente p a ra quienes deseen proseguir el tem a de la 7 al cu adrado en otros textos m ás avanzados. E sta form ulación alter nativa será u tilizada m ás adelante p a ra ob ten er el lím ite supe rio r de x al cu adrado en el caso general r X c. P or o tra parte, esta fo rm a altern ativ a p a ra la fó rm u la n o requiere el cálculo ex plícito de las frecuencias esperadas. Sea N íj = n ú m ero observado en (i, ;')-ésima casilla del cuadro, y ei} = n úm ero esperado (b a jo H 0) en la casilla (i, j), p a ra Sea i = 1 , 2, . . . , r ; y / = 1 , 2, . . c. O N u — E N ijt p a ra i = 1, 2, . . r (to tal de filas), y i—i r N.¡ = 2 Nij, p a ra y = 1, 2, . . . , c (to tal de colum nas). Í-=1 Así podrem os expresar y al cu ad rad o com o sigue • Xa = (jv4 _ e " ’í 2 S 1,=1 )s p ero puesto que Ni. N., &ij~ N ' N N N;. N.t N la fórm ula com putadora (XV.2) pasa a ser r f = N r 2 c A l-Z 2 ----- *--------1 [. *=! ^ N¡. N.j y así vemos que no hay necesidad de co m putar explícitam ente las frecuencias esperadas. 5. Decisión. Antes de servirnos del cuadro de la ^-cuadrada, hem os de d eterm in a r los grados de lib ertad asociados a esta es tadística de prueba. En los problem as anteriores, los grados de lib ertad dependían siem pre del núm ero de los casos selecciona dos. En los problem as de contingencia, en cambio, dichos grados sólo dependen del núm ero de casillas del cuadro. Al calcular las frecuencias esperadas, pudo observarse que no es necesario cal cu lar valores p a ra cada casilla, ya que la m ayoría de ellas podían obtenerse p o r sustracción. Y de hecho, en la ta b la de 2 X 2 sólo necesitam os calcular u n a de las frecuencias esperadas, y las o tras quedan au to m áticam ente determ inadas. E sto es así porque, p a ra calcu lar las frecuencias esperadas, nos servim os de los totales m arginales de n u e stra m u estra. E n o tro s térm in o s: si ponem os el valor de u n a casilla cualquiera, los dem ás valores están p er fectam ente determ inados, ya que las frecuencias esperadas han de te n e r los m ism os totales m arginales que las observadas. Por lo tan to , sólo tenem os u n grado de lib ertad . H abiendo, pues, averiguado que en la ta b la de 2 X 2 sólo hay un grado de libertad, buscam os en el cu ad ro de la /-cu ad rad a a lo largo de la hilera correspondiente a u n grado de lib ertad h asta e n c o n trar el nivel de significación deseado. Vemos en esta fo rm a que al nivel de .001 le corresponde u n a /-cu ad rad a de 10.827. E sto significa que, si todos los supuestos son efectiva m ente correctos, obtendrem os u n valor de la /-cu ad rad a igual o m ayor que ése u n a vez e n tre mil. E n o tro s té rm in o s: sólo m uy ra ram en te d iferirán las frecuencias observadas y las esperadas en u n a cantidad que dé u n a /-cu ad rad a > 10.827, si no h u b iera relación alguna e n tre la confesión religiosa y la preferencia en cu anto al voto (ta l como se h a definido operativam ente en este p ro b lem a). Y com o q u iera que hem os obtenido p a ra la /-cua d ra d a u n valor igual a 30.388, concluim os que la hipótesis nula pued e descartarse al nivel de .001. Vemos, de paso, que, si N es grande, no es n ad a difícil llegar a o b ten er significación al nivel de .001. Pese a que sólo nos ocupáram os de valores grandes de la /-cu ad rad a, la dirección de la relación no se anticipó en el ejem plo an terio r. Independientem ente de si los p ro testan tes p re sen tab an m ás probabilidades de ser republicanos o dem ócratas, el re su ltad o h a b ría sido u n a /-cu ad rad a grande si los p o rcen tajes eran tam b ién grandes. E n otros térm inos, la estadística de la p ru e b a es aquí indiferente a la dirección de la relación, ya que co m p o rta los cuadrados de las desviaciones y, p o r consiguiente, no pued e ser negativa. Podem os sacar p a rtid o de las predicciones relativas a la dirección partien d o sim plem ente p o r la m ita d el nivel de significación obtenido. En efecto, si la /-cu ad rad a es lo b astan te grande p a ra d a r significación al nivel de .10 sin a n ti cip ar dirección, el re su ltad o será tam bién significativo al nivel de .05, a condición, p o r supuesto, que la dirección de la rela ción se haya fijado de antem ano. Si el nivel de significación deseado no puede obtenerse exacta m en te de la tab la d e la /-cuadrada, se conseguirá u n a aproxim a ción satisfacto ria extrayendo la raíz c u a d rad a de la /-cu ad rad a y recu rrien d o a la ta b la norm al. Así, p o r ejem plo, sabem os que u n a /-cuad rad a de 3.841 con u n grado de lib ertad corresponde al nivel de .05 si no se h a adivinado la dirección. La raíz cu adrada de esta cifra es 1.96, que es el valor de Z necesario p a ra ob ten er sig n ificació n co n la ta b la n o rm a l. É s ta , sin e m b arg o , sólo p u ed e e m p le a rse e n el c a so de p ro b le m a s d e co n tin g en c ia d e 2 X 2. Caso general. E n el caso general d e la tab la de contingencia con r hileras y c colum nas, los supuestos y cálculos p a ra la ^-cua d ra d a sólo req u ieren u n a ligera m odificación. La hipótesis nula de "ausencia de diferencias” o "ausencia de relación" im plica ah o ra que cada población te n d rá las m ism as proporciones p ara cada u n a de las categorías de la segunda variable. Las frecuen cias esperadas pueden obtenerse exactam ente en la m ism a fo r m a que an terio rm en te, p ero ten d rem o s ah o ra re casillas, y los grados de lib e rta d serán distintos. Supóngase que nos servim os del m ism o p roblem a an terio r, p ero en su fo rm a original, o sea la de u n a tab la de 3 X 3. O bser vemos de p aso que e sta tab la nos p roporciona m ay o r inform a ción que la de 2 X 2, en la que los católicos y los ju d ío s se com bin aro n en u n a sola categoría. Podem os, p o r lo tan to , esp erar resu ltad o s que difieran algo de aquellos obtenidos an terio rm en te. Calculando las frecuencias esperadas p o r uno cualquiera de los m étodos an terio rm en te sugeridos, obtenem os: Partido R e p u b lic a n o s D e m ó c ra ta s In d e p e n d ie n te s T o ta l Protestantes Católicos Judíos Total 126 ( 9 3 .8 ) 71 ( 9 7 .2 ) 19 ( 2 5 .0 ) 61 ( 7 3 .0 ) 93 ( 7 5 .6 ) 14 ( 1 9 .4 ) 38 ( 5 8 .2 ) 69 ( 6 0 .2 ) 27 ( 1 5 .6 ) 225 21 6 168 134 233 60 518 Puede co n stru irse u n a tab la de cálculo lo m ism o que a n te rio r m en te (véase cu ad ro XV.3). P ara d eterm in a r los grados apropiados de lib ertad , observam os que, u n a vez las dos p rim eras frecuencias esperadas in scritas en la p rim era colum na, la te rc e ra se h alla d eterm in ad a p o r su strac ción. Y lo m ism o es cierto de la segunda. Todas las frecuencias esperadas de la te rc e ra colum na e sta rá n determ inadas a p a rtir de los totales de la hilera. E n térm inos generales: p a ra cada u n a de las p rim era s c — 1 colum nas será posible llen ar todas las casillas m enos una, o r — 1. La colum na final estará, pues, siem p re p erfectam en te determ inada. P or 1o- tanto, el núm ero de los grados de lib ertad de la tab la de contingencia de r X c puede expresarse p o r m edio de la fó rm u la d f — (r — í ) (c — l ) Cuadro XV.3. Cálculo de la /-cuadrada para una tabla de contingencia de 3 x 3 Casilla fo fe •f 02 w u a b c d e f g h i 126 61 38 71 93 14 27 93.8 73.0 58.2 97.2 75.6 60.2 25.0 19.4 15.6 15 87 6 3 721 1444 5 041 8 649 4 761 361 196 729 169.254 50.973 24.811 51.862 114.405 79.086 14.440 10.103 46.731 T o ta l 518 5 18.0 69 19 561.665 x 2 = 5 6 1 .6 6 5 - 518 = 43.665 O bsérvese que esta fó rm u la da u n grado de lib ertad en el caso especial en que r = c = 2. T oda vez que son 4 los grados de lib e rta d asociados a n u estra tab la de 3 X 3, vem os que p a ra el rechazo al nivel de .001 se re q u iere u n a /-cu ad rad a de 18.465. R echazam os, p o r consiguiente, la hipótesis nula. O bsérvese que si p a ra rechazar se req u iere un valor m ayor de la /-cuadrada, es p orque hay m uchas m ás casillas que contribuyen a dicho valor. Como q u iera que la /-cu ad rad a re p re se n ta u n a sum a y n o un prom edio, esp eraríam os que, en igualdad de condiciones, cu an to m ayor sea el núm ero de casillas, ta n to m ay o r será la /-cuadrada. El hecho de que el valor de la /-cu a d rad a re q u erid o p a ra o b ten er significación aum ente con los grados de lib ertad n o d eb ería so rp ren d em o s.4 Corrección de continuidad. Ya se indicó que la p ru e b a de la /-cu a d rad a req u iere u n a N relativam ente grande debido al hecho de que la distribución de m u estreo de la estad ística de la p ru e b a sólo se aproxim a a la distribución de m u estreo dada en la tabla de la /-cu ad rad a si N es grande. P lantéase, pues, n atu ra lm e n te la cuestión de cuán gran d e debe ser N p a ra que podam os servirnos de d icha prueba. La resp u esta depende del nú m ero de casillas y de los totales m arginales. G eneralm ente, cu an to m en o r sea el n ú m ero de casillas y cu an to m ás aproxim adam ente iguales sean todos los totales m arginales, tan to m en o r p o d rá ser N . Los crite rio s n o rm alm ente utilizados p a ra decidir si el nú m ero de casos es o no suficiente, im plican las frecuencias esperadas de cada casilla. Siem pre que cualquiera de estas frecuencias sea * Obsérvese que esto era al revés en el caso de la distribución t. ¿Por qué? aproxim adam ente de cinco1 o m enor, se recom ienda p ro ced er a alguna clase de m odificación, com o se indica a continuación. Se supone que la distribución de la ^-cuadrada es continua. En realidad, sin em bargo, si el n ú m ero de casos es relativam ente pequeño, re su lta im posible que el v alo r calculado de la '/-cuadrada tom e m uchos valores distintos. E sto es así p o rq u e las frecu en cias observadas h an de ser siem pre núm eros enteros. Al co rre gir con fines d e continuidad, n o s im aginam os que las frecuen cias observadas pueden to m a r efectivam ente todos los valores posibles y nos servim os de los que quedan a u n a distancia de m edia u n id ad a u n o y o tro lado del en tero obtenido, lo que dará los resu ltad o s m ás conservadores. E n el caso de la tab la de 2 x 2, la corrección de continuidad p u ed e h acerse m uy fácilm en te. E sta corrección consiste ya sea en a ñ a d ir o su stra e r .5 de las frecuencias observadas, con objeto de re d u c ir el tam añ o de la /-cu ad rad a. La versión corregida de la ecuación ( X V 3 ) es la si guiente : / N ^ \ a d -b c \ N\ 2 j (a + b) (c + d) (a + c) (b + d ) P ara a p reciar el efecto de la corrección de continuidad, pode mos ver los siguientes c u a d ro s : (A) 7 13 (10) (10) 20 8 (5) 2 (5) 10 15 15 x2 = 5.40 30 (B) 7.5 12.5 (10) (10) 20 7.5 (5) 10 2.5 (5) 15 15 x2 = 3.75 30 E n el cuadro B hem os corregido p o r razones de continuidad re duciendo las diferencias e n tre las frecuencias observadas y espe rad as en m edia unidad. H em os su p u esto que h ab ía e n tre 6.5 y 7.5 casos en la casilla su p erio r de la izquierda, y hem os tom ad ó \e l n ú m ero de 7.5, p o rq u e es el valor m ás cercano, al in terio r de dicho intervalo, de la frecuencia esp e rad a de 10.0. E n este ejem plo, la corrección de con tin u id ad reduce el nivel de sig nificación de ap roxim adam ente .02 a algo m ás de .05. Es obvio, p o r lo dem ás, que las correcciones de co ntinuidad pro d u cirán m enos efecto cuando- las frecuencias esperadas sean m ayores. Toda vez que sem ejante corrección co m p o rta en realid ad un esfuerzo adicional m uy pequeño y que, p o r o tra p arte , al proce d e r así actuam os en sen tid o conservador, se recom ienda efec tu a rla siem pre que en cualquier casilla la frecuencia esperada descienda p o r debajo d e 10. Con m u estras m uy pequeñas, in cluso esta corrección pro d u ce resultados engañosos. P ara las tab las d e 2 X 2 se dispone de u n a p ru e b a altern ativ a que se exa m in a en la sección siguiente. E n el caso- de la ta b la general de contingencia, las correcciones de con tin u id ad n o son fáciles de hacer. Si el nú m ero de casillas es relativ am en te g ran d e y si solam ente u n a o dos de las casi llas tien en frecuencias esp erad as de 5 o m enos, entonces reco m iéndase, p o r lo general, seguir adelante con las pruebas de la /-cu ad rad a, sin p reo cu p arse mucho- p o r tales correcciones. En cam bio, si el nú m ero d e casillas es pequeño, la ú n ica alternativa p rá ctica con sistirá tal vez en com binar las categorías de m odo que dichas casillas re su lten elim inadas. P or supuesto, las cate gorías sólo pueden com binarse si ello- posee teóricam ente algún sentido. Así, p o r ejem plo, si h u b iera u n a categoría "de o tras con fesiones” que c o n sta ra de u n nú m ero ta n grande de grupos confesionales que la categoría n o tu v iera teóricam ente sentido alguno, ta l vez sería p referib le excluir a dichas personas p o r com pleto del análisis aunque, como- regla general, no- es buen sistem a el de excluir d ato s de u n análisis. *XV.2. La prueba exacta de Fisher E n el caso de tab las de 2 X 2 en las que N es m uy pequeña, es posible servirse de u n a p ru e b a d esarrollada p o r R. A. Fisher, que nos da p ro babilidades exactas, y no- aproxim adas. Si designam os las casillas y los m arginales de la tab la de 2 X 2 de la siguiente m a n e ra : a+ b b a c+d d c a+ c b+ d N podem os conseguir la p ro b ab ilid ad de o b ten er exactam ente esas frecuencias en la h ipótesis n ula de que no hay diferencias en las p ro p o rciones de las poblaciones. E sta p ro b ab ilid ad nos e stá dada p o r la fó rm u la: (a + & )!(c + d ) !(.« + c ) \ ( b -f d ) ! P = ~~ ~Ñ \a\b~\c\d\ E sta fó rm u la de p ro b ab ilid ad puede o b ten erse utilizando la dis trib u ció n h ip ergeom étrica p a ra el cálculo de probabilidades so b re la b ase de m u estreo sin reposición. E n esta prueba, com o en algunas o tra s p ru eb as no param étricas, podrem os en ten d er el pro b lem a com o si éste contuviera rep etid as m u estras de una “población” de tam año N. T ratam os así n u e stra m u e stra obte nida como si se tra ta ra de u n a población real, e im aginam os en este ejem plo que las categorías de nu estro s casos les dan cabida en una de las cu atro casillas. Como hay a + c individuos en la p rim era colum na, a + b en la p rim e ra fila, y así sucesivam ente, ¿cuál será la p ro b ab ilid ad de que de los a + b individuos de la p rim era fila co rresp o n d an exactam ente a a la p rim e ra colum na y b a la segunda? Nos im aginam os h a b e r m u estread o a + b in dividuos al azar p ero sin reposición, colocándolos en la prim era fila, con los re sta n te s cayendo p o r necesidad en la segunda fila. En efecto, re su lta que im aginam os que llenam os las casillas por un proceso esencialm ente al azar, y preguntam os cuál hubiera sido la ex actitu d de los resu ltad o s si hubiese sido seguido tal proceso. Aplicando la fó rm u la p a ra la distrib u ció n hipergeom étrica dada en la sección X.4, verem os que la p ro b ab ilid ad de o b ten er exac tam en te a y b casos en las dos casillas de la fila su p erio r vendría d ada p o r P(a,b) = E scribiendo cada u n o de los térm inos en función de factoriales, y sim plificando, o b ten em o s: (a + c)! P( a , b ) = (b + d)\ a\(a + c - a ) \ b\(b + d - b ) \ (a + c ) ! (b + d) \ alcl bldl NI N\ (a + b ) \ ( N — a — b ) \ (a + 1b ) \ (c + d ) ! (a + c ) \ { b + d ) \ ( a + b ) \ ( c + d ) \ Nlalblcldl P uede com p robarse fácilm ente que se h a b ría conseguido el m ism o re su ltad o si hubiéram os concebido el problem a com o o rien tad o a seleccionar u n a m u e stra de a + c individuos, asig nándolos a continuación a la p rim e ra colum na. Obsérvese q ue hay nueve factoriales en esta fó rm u la de P. Por lo tanto, la ta re a de calcularla sería form idable. P o r o tra p arte, com o q u iera que n o rm alm en te se e s tá in teresad o en o b ten er la cola e n te ra de la d istribución de m uestreo y no la probabilidad de av erig u ar exactam ente los resultados obtenidos, h a b ría que añ ad ir, a esta p ro b ab ilid ad p rim era, las probabilidades de obte n er incluso m ás resu ltad o s poco corrientes en la m ism a dirección. Un sencillo ejem plo num érico ilu s tra rá lo que esto significa. Supóngase que hem os obtenido la siguiente ta b la de 2 X 2: 9 5 12 17 15 14 29 3 12 Si suponem os que los m arginales perm anecen fijos, vem os in m ediatam en te q u e hay tre s resultados (e n la m ism a dirección) que son incluso m ás difíciles de obtenerse. Son los sig u ien tes: 2 10 13 4 12 17 1 11 14 3 12 17 0 12 15 2 12 17 15 14 29 15 14 29 15 14 29 O bsérvese q u e podem os llegar a las tablas sucesivas reduciendo cad a vez en uno las casillas a y d y au m entando en u n o las casi llas b y c, h a sta llegar a la ta b la final, en la que la casilla a está vacía. Supongam os que la casilla a es siem pre la que contiene el m e n o r n ú m ero de casos, ya que siem pre tendrem os la posibilidad de d isp o n er las tab las en ta l forma.® Sirvám onos del sím bolo P0 p a ra designar la p ro b a b ilid ad de o b ten er exactam ente cero casos en la casilla a (d ados los m arginales en cu e stió n ), en la hipótesis n u la ; pongam os que P± re p re se n ta la p ro b ab ilid ad de o b ten er ex actam en te u n caso en la casilla a, Pa la de o b te n e r exactam ente dos casos, etcétera. Así, pues, en este p ro b lem a p a rtic u la r h e m os de o b ten er la su m a d e las probabilidades Po + Pi + ^2 + P& p a ra calcu lar la p ro b ab ilid ad de o b ten er tre s o m enos casos en la casilla a. Y ya que nos estam os sirviendo de una p ru e b a de s En raros casos cambiará la dirección de la relación si se sigue la regla de que la casilla a sea siempre la más pequeña. Por ejemplo, si las dos distribuciones marginales son muy desiguales, la regla tal vez no se apli que. Así, si a, b, c y d son 1, 2., 3 y 7, respectivamente, el producto ad ( = 7 ) es mayor que el producto be ( = 6). Si uno reduce entonces a hasta 0, las casillas resultantes serán 0, 3, 4 y 6, y se producirá una inversión de direc ción, puesto que be > ad. Deben ser vigiladas tales inversiones y, en caso de que se produzcan, deberá denominarse como a la casilla más pequeña en la menor de las dos diagonales. u n a sola cola, habrem os de doblar el nivel de significación obte nido, si no estuviéram os en condiciones de p o d er p red ecir Ja di rección.0 S erá m ucho m ás conveniente que calcular cada u n a de las de la fó rm u la an terio r, que co m p o rta p ro d u cto s de factoriales, ob ten er P 0 d irectam en te y o b ten er luego las probabilidades res tan tes como funciones de P0. Con objeto de distin g u ir en tre las varias com binaciones posibles de los valores num éricos de a, b, c y d en el caso de m arginales fijos, sirvám onos de u n subíndice k p a ra d esig n ar la m agnitud de la casilla m ás pequeña a. Así, p o r ejem plo, si hay k individuos en la casilla a, designarem os las cantidades de las dh'ersas casillas como- a.k ( = k), bk, ck y dk. Toda vez q ue se supone que los m arginales perm anecen fijos, si dism inuim os % y d Jc en uno, hem os de au m en ta r b k y ck tam bién en uno. Podem os ah o ra sim plificar la fó rm u la de P 0, ya que ao = 0 y, p o r consiguiente, a0! = 1 (p o r definición), (cz0 + &«) ¡ = b0 \, y ( a0 + c.0)! = c0!. O sea que cierto número- de factoriales se elim inan, dejándonos c o n : n _ (cfí + d 0) \ ( b 0 + d0)\ El n u m era d o r consta ahora solam ente de los factoriales de dos de los m arginales, en lu g ar de los cuatro, y el denom inador sólo co m p o rta JV!' y d0 !. El valor de d 0 puede o b ten erse de la últim a de las tablas anteriores. P or lo tanto, en este ejem plo, (c0 + d 0) = 17, {b0 + d 0) — \A, N = 2,9, y d0 ~ 2, P0 puede calcularse ah o ra sirviéndonos de u n a tab la de logaritm os de factoriales, o bien escribiendo los factoriales y simplificando-. Con o bjeto de calcular los valores de Pít P2 y P?, necesitam os ah ora u n a fó rm u la general de Pk+1 en función de Pk. Ya que los m arginales se suponen fijos, tenem os: n ( a + b) !(c + d) !(a + c) \(b + d ) ! Pk+1 ~ N l ( a k + l ) l ( b k - l ) l ( d kT W debido al hecho de que, al a ñ a d ir uno a la casilla a, lo añadim os tam bién a la casilla d y lo sustraem os tanto de b com o de c. Si dividim os ah o ra Pk+1 en tre Ph, p rácticam en te todos los térm inos desaparecen. E n efecto, los n u m era d o res de am b as p robabilida des son idénticos, ya que todos ellos com portan los m ism os m ar ginales. El fa cto rial de N se elim ina. Y nos queda: 6 En un sentido estricto, la prueba de Fisher deberá ser usada probable mente sólo en el caso en que previamente se hubiera predicho la dirección, ya que las dos colas casi nunca serán perfectamente simétricas. PROBLEMAS DE CONTINGENCIA P¡c+i ^ - b k \ck \dk \ Pb ( afc+ l ) ! ( f o s - l ) ! ( c fc- l ) ! ( 4 + D ! 305 P ero ak l / ( ak + í ) ! es igual a l / ( a k + 1), y lo m ism o p o r lo que se refiere a d k \ / { d k + 1)!. O sea, pues, bk \ f ( b k - 1)! = b,„ y c b\¡ (ck — 1)! = Cj.. P o r co n sig u ien te: bi-c,, Pk ( «f c+nC^f c+l ) o sea P bA 7“+1 (fl,. + l ) ( 4 + l ) P * y los facto riales fastidiosos h a n desaparecido. P or lo tan to , po dem os servirnos de esta fó rm u la p a ra o b ten er P, a p a rtir de P0. Una vez o b ten id a P, podem os calcular P2, y así sucesivam ente. V olviendo a n u estro ejem plo num érico, obtenem os P 0 com o sig u e : 14!17! P0 = ------------= .17535 X 10-* 2912 E Y p o r consiguiente: bnC0 12(15) P = ---------- — --------- P0 = _ — 1 (.17535 x 10-5) _ 10.521 x 10-» (ao+l)(4>+D K3) Al calcu lar P2 hem os de cuidar de servirnos de a1: b¡, cx y d 1: y no de las cifras em pleadas p a ra o b ten er Pt . Tenemos, a s í : P , = ---------b -1 ----------= m i l i (10.521 x 1 0 -5) = 202.529 x 10-» ‘ (fll + l ) ( d 1 + l ) 2(4) Y análogam ente : boC2 10(13) P = ---------^ -------- p = _J:— 1 (202.529 x 1 0 -s ) = 1 755.252X 10-» (añ + l ) ( i 2 + l ) 3(5) O bsérvese que cada u n o de los factores del n u m era d o r va dis m inuyendo en 1, al calcular Ph+1 a p a rtir de P fc, en ta n to que los del d enom inador van aumentando* cada vez en una unidad. Su m an d o las p ro b abilidades te n e m o s /p u e s : P 0 + Pj + P2 + Po = (.175 + 10.521 + 202.529 + 1 755.252) x 10-= = 1 968.48 x 10-E = .0197 P o r lo tan to , la p robabilidad de o b ten er tres o m enos individuos en la casilla a es, con la hipótesis nula, de .02, y tom arem os nues tr a decisión de re ch az ar o no la hipótesis n u la en consecuencia. _D ebido a que la p ru e b a de F ish er es exacta, m erece p re fere n cia resp ecto de la p ru e b a de la /-c u a d ra d a corregida con fines de co n tinuidad. Y com o q uiera que p o r lo regular la p ru e b a de la /-c u a d ra d a d a rá probabilidades algo m ás b ajas que la p ru eb a de F isher, si lo que se desea en re alid ad es rech azar la hipótesis nula, o b rarem o s, al servirnos de ésta, en sentido conservador. En o tro s térm inos, si nos servim os de la p ru e b a de la '/-cuadrada, pu ed e se r que lleguem os a probabilidades que en realid ad sean dem asiado pequeñas, lo que nos llevaría acaso a la conclusión de que la h ipótesis n ula deba d esc artarse cuando en re alid ad n o sea así. Si la frecu en cia m ínim a esp e rad a es sensiblem ente superior a 5 y si se em plea la corrección de continuidad, las dos pruebas d arán ap ro x im adam ente los m ism os resultados. Aun logrando e v ita r el em pleo de factoriales en el caso de la p ru e b a de Fisher, se echa de v er que, si la frecuencia m en o r de la casilla es m ayor que 5, los cálculos necesarios p o d rá n re su lta r m uy fastidiosos. De ahí que se en c u en tre que dicha p ru e b a re su lta m ás p ráctica en el caso de N m uy pequeñas, o siem p re que el tam año de la m u estra sea m oderado y uno- o m ás de los m arginales sean m uy pequeños. E n los casos en que am bos, ( a + b ) y (c + d ) son < 30, existen tab las en (3) que sim plifican considerablem ente el em pleo de esa p ru e b a exacta. XV.3. M edidas de la fuerza de la relación H a sta aquí sólo nos hem os ocupado de la cuestión d e sab er si existía o no u n a relación en tre variables. H em os establecido hi pó tesis nulas en el sentido de que n o se d ab a relación alguna, y hem os tra ta d o de descartarlas. Pero, cuando estam os en condi ciones de d escartar, ¿qué es lo que hem os logrado? D esignam os u n a relación com o estad ísticam en te significativa cuando hem os establecido, b ajo el riesgo de e r ro r de tipp I, que sí existe una relación e n tre las dos variables. Sin em bargo, ¿quiere esto decir que la relación es significativa en el sen tid o d e s e r u n a relación fu e rte o im p o rtan te? N o necesariam ente. E n efecto, la cuestión de la fuerza de la relación es to talm e n te d istin ta de la de su existencia. E n esta sección vam os a ocuparnos de diversas m e didas de grados de asociación que ayudan a co n testa r la segun da de las p reg u n tas. A p rim e ra v ista p o d ría p arece r razonable tr a ta r de establecer la fuerza de la relación observando sim plem ente el nivel de signi ficación conseguido con u n a pru eb a. Así, p o r ejem plo, podría d isc u rrirse en el sen tid o de que si u n a p ru e b a es significativa al nivel de .001 y o tra al nivel de .05, la p rim era sería la m ás fuerte de las dos. Pero, ¿es esto necesariam ente así? El exam en de los dos niveles de significación nos dirá en cuál caso podem os e star m ás seguros de que la relación existe. Así, en el prim ero de los dos casos citados estaríam os casi seguros de que existe efectiva m ente u n a relación, pero no lo estaríam os tan to en el segundo. H em os de recordar, no obstante, que el nivel de significación alcanzado depende del tam año de las m u estras usadas. E n efec to, com o se indicó an teriorm ente, si las m uestras son m uy grandes, re su lta p o r lo regular m uy fácil establecer significación, au n en el caso de u n a relación m uy superficial. Esto significa, de hecho, que, cuando las m uestras son grandes, decim os en re a lidad m uy poca cosa al afirm a r que hem os establecido u n a re la ción “significativa”. E n el caso de m u estras grandes, es m ucho m ás im p o rtan te p re g u n ta r, “dado que existe u n a relación, ¿cuál es su fu erza?” Con o b jeto de ilu s tra r lo que se acaba de decir, veam os un poco m ás de cerca cierta propiedad de la /-cuadrada. Al hacerlo, el lecto r deberá te n e r p resen te que los m ism os principios se aplican exactam ente a o tra s clases de p ru e b as de significación. Preguntém onos qué sucede con la /-cu a d rad a cuando el núm ero de casos aum enta. Con fines de ilu stració n podem os to m a r la siguiente tab la de 2 X 2. 30 20 20 30 50 50 50 50 100 La /-cu a d rad a de esta tab la re su lta ser exactam ente 4.0. Suponga m os ah o ra que se duplican los tam años de las m uestras, m an te niendo las m ism as proporciones en .cada casilla. O btendríam os así : 40 100 60 60 100 40 100 100 200 y la /-cu ad rad a sería 8.0, o sea una cifra exactam ente doble de la an terio r. Exam inando la fórm ula de la /-cu ad rad a, re su lta m uy fácil d em o strar que, si las proporciones d e las casillas p erm ane cen in alterad as, la /-cu a d rad a varía directam ente con el núm ero de casos. Si duplicam os el nú m ero de éstos, duplicam os aquélla, y si triplicam os los p rim eros, triplicam os la segunda. Supóngase que el n ú m ero de casos inicial se m u ltip lica p o r el facto r k. E n tonces, com o q uiera que las proporciones de las casillas p erm a necen inalterad as, to d a nueva frecuencia observada será exacta m ente k veces la an terio r, y lo m ism o p o r lo que se refiere a las frecuencias esp eradas. La nueva y-cuadrada puede, pues, expre sarse com o: ,(X ) o - k f e )2 k ? ( f o - f e )2 ------71--------" = ^S ------—-------- = A,: 2^- ( f o ~ f e ) 2 ^ W k fe k fe fe Así, pues, el v alo r de la nueva ^-cuadrada es exactam ente k ve ces el de la p rim itiva. Las im plicaciones de este hecho pueden d estacarse p o r m edio de o tra ilu stració n. S upóngase que obtenem os los siguientes re su ltados al re la cio n ar las diferencias de sexo con la tolerancia resp ecto de co n d u ctas a n ó m a la s: Toterancia Varones Alta B aja 26 24 Mujeres 24 26 E n este caso la ^-cuadrada es 0.16, y estarem o s en lo cierto in form an d o que la relación n o es significativa. Supóngase, sin em bargo, que el estu dio fu e m uy am bicioso y que se re u n ie ro n datos corresp o n d ien tes a 10 000 casos, con los siguientes re su ltad o s: Tolerancia Varones Mujeres Alta B aja 2 600 2 400 2 400 2 600 La ^-cuadrada es a h o ra 16.0, o sea u n v alor altam en te significativo desde el p u n to de v ista estadístico. S in em bargo, si hubiéram os expresado los re su ltad o s en térm in o s de po rcen tajes, la cosa se h a b ría p re sen tad o com o m ucho m enos in tere sa n te. Si dijéram os q u e el 52 p o r cien to d e los varones e ra altam en te tolerante; en ta n to que sólo co rresp o n d ía a dicha categoría el 48 p o r ciento de las m ujeres, nos c ritica rían con razón p o r d estac ar las dife ren cias ap a ren tem e n te insignificantes ta n to desde el p u n to de v ista teórico com o del significado práctico. E ste ejem plo ilu stra u n p u n to m u y im p o rtan te. E n efecto, u n a d iferen cia_p u ed e ser in tere sa n te estad ísticam en te sin serlo en ningún o tro sentido. E n el caso en que se seleccionaron 10 000 casos, podem os e sta r b ien seguros q ue h ay cierta relación superficial, que p ro d u ciría u n a relación significativa desde el punto- de v ista estadístico. Vemos, pues, que si u n a m u e stra es pequeña, se req u iere una relación m ucho m ás m an ifiesta p a ra o b ten er significación. P or lo tan to , con las m u estras pequeñas las -pruebas de significación son m ucho m ás im p o rtan tes. E n tales casos es posible que diga m os m ucho cu an do podem os estab lecer significación. E l nivel de significación d epende de dos factores, a sa b e r: de la fuerza o grado de la relación y deí tam añ o de las m u estras. P uede ob ten erse significación con u n a relación m uy fu e rte y m u estras m uy peq u eñ as o, in versam ente, con u n a relación m uy débil y m ues tra s m uy grandes. E n la m ayor p a rte de la investigación social, n u e stro in terés p rim o rd ial está n o ta n to en h a lla r variables re la cionadas u n as con o tras, sino en localizar relaciones im p o rtan tes. A unque conviene recalca r que no to d as las relaciones fu e rtes son im p o rtan tes (v.gr. la relación e n tre las edades respectivas del m arid o y la m u je r), p a ra que u n a relación sea de alguna im p o rtan cia p rá ctica h a de ser p o r lo m enos m o deradam ente fu erte. U na vez que h a sido establecida la existencia de u n a re lación, el investigador deb ería p re g u n ta rse siem pre, “¿cuán fu er te es?” ¿Cóm o se m ide, pues, la fuerza de u n a relación? E stam os bus cando u n a m ed id a descriptiva que nos ayude a re su m ir la rela ción de tal modo- que podam os c o m p a ra r varias relaciones y lle g ar a u n a conclusión respecto de cuál sea la m ás fu erte. Desde el p u n to de v ista ideal, nos g u staría te n e r alguna clase de in te r p retació n o p erativa de la m edida que nos a tra e intuitivam ente. P o r convención, los estadígrafos h a n ad o p tad o la c o stu m b re de con ceb ir m edidas que tengan la u n id ad p o r lím ite superior, y cero o bien m enos un o (— 1.0) com o lím ite inferior. M uchas relaciones sólo p u ed en alcanzar s u lím ite de 1.0 (o — 1.0) cuando la relación es perfecta, y a d o p tan el valor de cero cu an d o e n tre las variables n o existe relación alguna, o sea cuando son independientes. Va m os a ex am in ar a continuación algunas m edidas que pu ed en u ti lizarse con las tab las de contingencia, procediendo a a p réciar sus propiedades. Antes de e n tra r en el exam en de varias m edidas d e asociación que pueden em plearse co n las tablas de contingencia, h a b ría que m encionar, p o r lo m enos, el pro ced im ien to relativ am en te sencillo y obvio- de in d icar diferencias e n térm in o s de p o rcen tajes. Es posible, sin la m en o r duda, o b ten er u n a indicación m uy bu en a del grado d e relación e n tre dos variables dicotóm icas co m p aran do p o rcen tajes. Así, p o r ejem plo, si el 60 p o r ciento* de los va ro n es seleccionados se clasifican com o altam en te to leran tes, en ta n to que sólo se po n e en tal categoría el 30 p o r ciento de las m u jeres, tenem os u n a diferencia del 30 p o r ciento e n tre los dos grupos. ¿P o r qué, pues, n o servirnos de u n a m edida sem ejan te com o m edida de la fuerza de la relación? Si com param os indivi duos de las clases m edia e inferior, p o r ejemplo;, desde el p u n to de v ista de la tolerancia, y sólo obtenem os u n a d iferencia del 20 p o r ciento, podem os a firm a r u n a relación m ás fu e rte e n tre el sexo y la to leran cia que e n tre é sta y la clase. E n el caso especial de la ta b la de 2 X 2, los p o rc en tajes p u e den efectivam ente co m p ararse en ta l form a, y la extensa fam iliarización con los p o rcen tajes, en c o n tra ste con o tro s tip o s de m edidas, h ab laría ciertam ente en favor de estas com paraciones.7 Pero, ¿qué p a sa rá con la tab la general de r X c? Aquí el uso de los p o rcen tajes puede dificultarle al lecto r ap reciar a p rim era vista cuán fu e rte sea la relación. Supóngase, p o r ejem plo, que se utilizaban tres clases con los siguientes re su ltad o s: clase su perior, 70 p o r ciento altam ente to le ra n te ; clase m edia, 50 por ciento altam en te tolerante, y clase inferior, 30 p o r ciento alta m ente to leran te. Tenem os ah o ra u n a distancia del 40 p o r ciento e n tre las clases superior e inferior, o sea u n a diferencia num éri cam ente m ayor que la que existe e n tre los varones y las m ujeres. P o r o tra p arte , p o r lo regular esperarem os una diferencia m ayor cuando sólo se consideran los extrem os. Supóngase que se h u bieran ten id o cinco clases, ¿qué clase de diferencias de porcen tajes esp eraríam os ahora, y cómo com pararíam os los resultados con los de la ta b la de 2 X 2? Y p a ra in tro d u cir u n a idea m ás, supóngase que nos sirviéram os de c u a tra categorías de toleran cia. Es obvio que se hace difícil establecer com paraciones de u n a tab la a o tra. N ecesitam os, pues, u n a m edida única de re su m en, que ten g a los m ism os lím ites su p erio r e inferior, indepen dientem ente del nú m ero de c a silla s.. M edidas tradicionales basadas en la ^-cuadrada. Ya se observó que la ^-cuadrada es d irectam ente proporcional a N . Podem os servirnos d e esfe hecho p a ra co n stru ir varias m ed id as de asocia ción. En el caso de las dos tablas de contingencia 30 20 20 30 50 50 50 50 100 y 60 40 40 60 100 100 100 100 200 deseam os u n a m edida que tenga el m ism o valor p a ra cada una de las tablas, y a que, cuando expresam os los resultados en té r m inos de p o rcen tajes, éstos son los m ism os en am bos casos. E n o tro s té rm in o s : diríam os p robablem ente que los grados o fuer zas de la relación son idénticos en los dos grupos de datos, y que la única diferencia está en la m agnitud de las m u estras. Aunque el valor de la ^ - c u a d r a d a Sea el doble en la segunda tab la de lo que es en la p rim era, observam os, con todo, que, si se la divide en cada caso e n tre el nú m ero to tal de los casos, los resultados son idénticos. E sto sugiere que la expresión y?/N o algún m ú lti plo de la m ism a nos daría u n a de las propiedades que buscam os en n u e stra m edida, o sea la de d a r el m ism o re su ltad o cuando las proporciones de casillas com parables son idénticas. t Veremos otra ventaja de los porcentajes cuando estudiemos declives en el capítulo xvn. Como ya se indicó en el caso de las pruebas para di-, ferencias de diferencias en proporciones, una diferencia de proporciones pue de ser considerada como un caso especial de declive. Obsérvese que el valor de y?/N, o <f>2 según se la escribe com ún m ente, es 0 cuando e n tre las variables n o existe relación en ab soluto. R esulta que, en el caso d e tablas de 2 X 2 (o 2 X k ), <¡ia tien e tam b ién la u n id ad p o r lím ite su p erio r cuando la relación e n tre las dos variables es perfecta. Supóngase, en efecto, que h u b iéram o s obten ido la siguiente ta b la : 0 50 50 50 50 100 P uede v erificarse fácilm ente que, en este caso, la ^-cuadrada es 100 y, p o r consiguiente, <f>2 es 100/100, o sea 1.0. O cu rrirá siem pre que, cuando dos casillas opuestas diagonalm ente sean am bas cero, el valor de la ^-cuadrada en u n a ta b la de 2 x 2 se ría N , y p o r lo tan to <¡b2 será la unidad. Es obvio que, en el ejem plo con siderado, la relación es perfecta. Si el sexo se relacio n ara en él con la tolerancia, p o d ríam o s decir que todos los varones son a lta m en te to leran tes y to d as las m u jeres a ltam en te in to leran tes. E n u n a term inología con la que n o hab rem o s de ta rd a r en fam iliari zarnos, podem os decir que el todo de la variación en m a te ria de to leran cia se explica p o r el sexo o está asociado con él.8 E n la tab la general de r x c, pu ed e alcanzar u n v alo r con sid erab lem en te m ayor que la unidad. P o r lo tanto, se h a n des arro llad o diversas o tras m edidas que son asim ism o sim ples fu n ciones de %2/N , p ero que tienen tam b ién com o lím ite su p erio r la unid ad . La p rim e ra de éstas, designada com o la T de Tschuprov, se define com o : T2 _ ________ t __________________ N ^/{r-l){c-\) y ( r - l ) ( c - 1) Aunque el lím ite su p erio r de T sea la unidad, este lím ite sólo pued e alcanzarse cuando los núm eros de hileras y dolum nas son iguales. E n otro s té rm in o s : T h a de ser siem pre m en o r q u e la u n id ad en u n a tab la de 2 x 3 o de 3 X 5. Si hay considerable m en te m ás h ileras que colum nas (o viceversa), el lím ite su p erio r de T pu ed e q u ed ar m uy p o r debajo de la unidad. P ara co rreg ir este hecho, podem os siem pre dividir el v alo r obtenido de T e n tre la m áxim a T posible p a ra núm eros dados de hileras y colum nas. Sin em bargo, com o q u iera que disponem os de m edidas m ás sa tisfactorias, n o necesitam os exam inar este procedim iento de co rrección. s Esto supone, por descontado, que la tolerancia se toma corno variable dicotómica. * Podem os m o stra r que el lím ite su p erio r de c — 1 ), utilizando la fó rm u la : I r es M in ( r — 1, c 2 /S 2i • <=i N i.N .j Obsérvese que: N i? Ni.N.j Ni? T T T r— y N i} < ------ p a ra ~ Ni_ i=l,2,...,r ^ Na . , , ; = 1 »2, . . . , C par a P o r tan to r c Ni? 2 , 2 --------- — r 0 r ° N if í = i í= .i Ní.N.j ~~ i=1 1=1 Ni. y 2 Así: 2 < 2 2 9 — r r = n 2 1 = r c 2 --------- - — < 2 2 — — = 2 1 = c < _ i i N i.N .j - / - i «-i Af.y í'” 1 r c 2 í= i --------N - ---- < - Min (r,c) y de allí: X2 < J V [ M i n ( r , c ) - 1 ] = AT[ Mi n ( r - 1, c - 1 ) ] P o r ta n to : <j>2 < Min ( r — 1, c — 1) Hay o tra m edida, in troducida p o r C ram ér y que designarem os com o V, que se define com o sigue: V2- ^ N M in (r — 1, c — 1) ^ M i n ( r — l , c — 1) e n donde M in (r — 1, c — 1) designa r — 1 o c — 1, según cuál de ellas sea m en o r (v alo r m ínim o de r — 1 y c — 1). Si bien V no se u tiliza co rrien tem en te en la bibliografía social, con todo parece s e r p referib le a T, en cuanto puede alcanzar la un id ad aun cuando los núm eros de hileras y colum nas n o sean iguales. Como puede verificarse fácilm ente, V y T son equivalentes siem pre que r = c. De o tra form a, siem pre será V algo m ayor que T. P or supuesto, am bas m edidas son equivalentes de <¿> en el caso de 2 X 2. Y ve m os tam b ién que V y <j> serán idénticas en el caso de 2 X k. O tra m ed id a de asociación b asad a en la /-cu ad rad a es el coefi cien te de contingencia de Pearson, C, que e stá dado p o r: Al igual que las o tras m edidas, C se hace cero cuando las v aria bles son independientes. Sin em bargo, el lím ite su p erio r de C depende del n ú m ero de hileras y colum nas. E n el caso de 2 X 2, el lím ite su p erio r de C2 se convierte e n . N / ( N + N) , ya que puede alcanzar u n valor m áxim o de N. P or lo tanto, el lím ite s u p e rio r de C es .707. Si b ien el lím ite su p erio r aum en ta a m edi da que au m en ta el n ú m ero de hileras y colum nas, dicho' lím ite siem pre es m en o r que la unidad. De ahí que C sea algo m ás difí cil de in te rp re ta r que las o tras m edidas, a m enos que se in tro duzca u n a corrección dividiendo e n tre el valor m áxim o de C p a ra n ú m ero s p articu lares de hileras y colum nas. E n el caso de la tab la 2 x 2 , p o r ejem plo, la C o btenida h a b ría de dividirse e n tre .707. Las m edidas an terio res de la fuerza de la relación se b asan to d as ellas en la '/-cuadrada. Como q u iera que p o r lo regular el v alo r de la ^-cuadrada se h a b rá calculado previam ente con ob je to de verificar el significado, todas las m edidas en cuestión re qu ieren en realid ad m uy poco cálculo adicional. P ero p o r o tra p arte , n o existe razón p a rtic u la r alguna en cuya v irtu d u n a m e dida de asociación haya de b asa rse en la estad ística de la p ru e b a correspondiente. E n efecto, puede d em o strarse que todas las m edidas basadas en la ^-cuadrada son algo- a rb itra ria s en su esen cia y sus in terp retacio n es d ejan m ucho que desear. Así, p o r ejem plo, to d as ellas confieren m ayor peso a las colum nas o hileras de m arg in ales m ás pequeños que a las de m arginales m ayores [ 2 ]. Sin em bargo, com o q u iera que ta n to la p ru e b a T com o la C se en cu en tran con frecuencia en la bibliografía, e¡l lecto r deb ería fa m iliarizarse con sus propiedades. La Q de Yute. O tra m ed id a de uso- co rrien te es la Q de Yule, que es tam b ién u n caso especial de la m edida y (gam m a) que se d isc u tirá en el capítulo x v in en relación con las escalas o rd in a les. E sta m edida sólo puede em plearse con la tab la de 2 X 2 y se define com o sigue: ad — be ad + be en donde a, b, c y d se refieren a las frecuencias de las casillas. Obsérvese que, u n a vez elevado al cu ad rad o y m ultiplicado p o r N, el n u m era d o r es el m ism o que en la expresión de la /-cu a d ra da. Lo m ism o que en el caso de las dem ás m edidas, Q desaparece cuando las variables son independientes, o sea, cuando los p ro ductos diagonales ad y be son iguales. A diferencia de <£2, sin em bargo, Q alcanza sus lím ites de ± 1.0 cuando una cualquiera de las casillas es igual a cero. Con o b jeto de com p ren d er el c a rá c te r de las circu n stancias en cuya v irtu d Q pueda se r igual a la u n i d ad en tan to que <f>2 queda p o r d eb a jo de dicho valor, tom em os los siguientes ejem p lo s: 3020 0 50 30 70 40 10 0 50 40 60 50 50 100 50 50 100 M ientras Q a d o p ta el valor de la u n id ad en estas dos tablas, los valores corresp o ndientes de <¿>2, en cam bio, son de .429 y .667 res pectivam ente. E n am bos casos sería im posible que desaparecie ra n dos casillas diagonalm ente opuestas, debido al c a rá c te r de los m arginales. De ahí que <f>2 sólo p u ed a a d o p ta r el v alo r de uno cuando se verifican determ inadas condiciones en relación con los m arginales. E n la tab la de 2 x 2, los m arginales de la p rim era variable h an de ser idénticos a los d e la segunda.9 C uanto m ayor sea, pues, la d iscrepancia e n tre los m arginales de las hileras y las colum nas, tanto- m en o r es el lím ite su p erio r de c¡>2. P lantéase ah o ra la cuestión de sab e r si querem os o n o conside r a r u na relación com o "p erfe cta” cuando sólo desaparece u n a de las casillas, Al p arecer, la resp u esta a esta cuestión d eb ería depen der, e n tre o tras cosas, de la m an era com o estén fo rm ad as las ca tegorías de las dos variables. P or lo re g u la r es posible concebir u n p roblem a en térm inos de u n a variable independiente y u n a varia ble dependiente. Parecería, pues, razonable sostener que, p a ra que u n a relación sea perfecta, los m arginales d e la variable dependien te h ab ría n de "convenir” n a tu ra lm e n te a los de la variable inde pendiente. Supóngase, p o r ejem plo, que h u b iera 60 p ro te sta n te s y sólo 40 católicos y judíos. E n este caso, p a ra que la relación fuera p erfecta, esperaríam os que todos los 60 p ro testan te s vota ra n republicano y todos los 40 re sta n te s v o taran e n favor de los dem ócratas. Los m arginales serían así los m ism os p a ra am bas variables, y tan to <f>2 com o Q serían iguales a la unidad. P or o tra parte, si la m ita d de la m u e stra v o ta ra republicano f la o tra mi- ® Esto no significa que los marginales hayan de comportar una partición de 50-50. Significa, en efecto, que si uno de los marginales se parte en 70 y 30, el otro ha de estar también partido de 70 y 30. Las correccciones de marginales desiguales son asimismo posibles, pero, como se desprende del examen que sigue, habrá que ser cauto en el empleo de tales correcciones. ta d dem ócrata, entonces, aunque todos los votos republicanos pro v in ieran de los p ro testan te s, no podríam os decir que la re la ción era perfecta, ya que 10 de los p ro testan te s h ab ría n votado dem ócrata. E n tal caso, los m arginales de la variable dependien te no coincidirían con los de la independiente, y <j>2 sería inferior a la unidad. P or lo tanto, en tal caso <¿>2 p arecería ser la m edida m ás apropiada, ya que Q to m aría el valor de la un id ad a pesar de la relación im p erfecta e n tre las dos variables. O curre en ocasiones que los m arginales de la variable depen diente son fijos, en v irtu d del m étodo em pleado al establecer las categorías. Así, p o r ejem plo, si la variable dependiente fu e ra en realid ad co n tin u a p ero se h u b iera hecho dicotóm ica en la m edia na, entonces los dos grupos de m arginales n o p o d rían ser id én ti cos, a no se r que los m arginales de las variables independientes estu v ieran tam bién p artid o s en 50 y 50. P or ejem plo: si la p re ferencia confesional se h u b iera referid o a las m arcas del conser vad u rism o político dividiendo en dos a la m ediana, entonces <£2 no p o d ría alcanzar la u n id ad (e n el su puesto de la m ism a p a rti ción confesional an te rio r). E n tal caso, Q p o d ría re s u lta r u n a m edida m ás apropiada, ya que tiene en cu en ta el hecho de que los m arginales de la variable dependiente se h an fijado p o r com pleto en v irtu d del m éto d o de investigación. La tau de G oodman y K ruskal. Cierto nú m ero de o tra s m e didas de asociación susceptibles de em plearse con las tablas de contingencia h an sido p re sen tad as p o r G oodm an y K ruskal [5 ], [ 6] y [7 ]. La m ayoría de ellas com portan lo que se h a designado com o in terp retacio nes probabilistas. Como q uiera que tienen u n sen tid o intuitivo que p erm ite in te rp re ta r valores interm edios en tre cero y uno, estas m edidas p o d rá n p a re c e r superiores a las q ue se b asan en la "/-cuadrada. Con o b jeto de ilu s tra r u n a de estas m edidas, la xt (ta u ), tom a m os u n ejem plo num érico. D esignarem os las escalas nom inales relacionadas u n a con o tra com o A y B , y tom arem os a B com o variable dependiente. Bi Bs Total 30 0 60 0 60 0 ^2 100 30 0 100 1200 800 T o ta l 900 70 0 400 2000 •^1 Supongam os ah ora que se nos da u n a m u estra (o población) de 2 000 personas y se nos p ide clasificarlas en u n a de las tres ca tegorías B lt B 2 o B 3, de tal m odo que term inem os exacta m en te con 900 casos en B 1, 700 en Bz y 400 en B :i. Supóngase p rim ero que no sabem os n ad a acerca de los individuos que nos van a ay u d ar en e sta tarea. Si los individuos nos son dados en u n orden to talm en te al azar, podem os calcular m uy fácilm ente el nú m ero de e rro re s q u e podem os esp e ra r com eter al asignar los individuos a u n a de las tres categorías en cuestión. Como q u iera que hem os de asig n ar 900 individuos a B x, en ta n to que 1 100 de cada 2 000 n o corresponden en re alid ad a dicha clase, podem os e sp e rar com eter a la larga 900(1 100/2 000), o sean 495 erro res. E n fo rm a análoga, hem os de asignar 700 individuos a B 2, en ta n to que de cada 2 000 los 1 300 n o corresp o n d en a ella. De ahí, pues, que al colocar a los individuos en B., podam os es p e ra r com eter 700(1 300/2 000), o sea 455 erro res. E n o tro s té r m inos, d e los 700 que ponem os en dicha categoría sólo podem os esp e rar que se clasifiquen correctam en te 700 — 455, o sean 245 individuos. P o r supuesto, n o esperam os com eter exactam ente 455 errores, p ero ésta es, con todo, la cifra que obtendríam os si pro m ediáram os n u estro s erro res a la larga. F inalm ente, esp era ríam os com eter 400(1 600/2 000) o 320 erro res al asig n ar los in dividuos a B s. O bsérvese que, pese a que hagam os a esta catego ría u n a asignación m enor, n u e stro riesgo de e rro r es su p erio r al de las dos categorías precedentes, ya que sólo- el 20 p o r ciento de los individuos corresponde a ella. P o r lo tanto, en conjunto, al co locar los 2 000 individuos, esperaríam os c o m e te r: 495 + 455 + 320 = 1 270 erro res. N u estro pro m ed io no sería m uy bueno. P ero supóngase ah o ra que se nos p ro p o rcio n ab a alguna infor m ación adicional acerca de cada individuo-, diciéndonos si está e n Ax o en A.,. Y nos p reguntam os si el hecho de conocer las cla ses A nos ay u d ará a re d u cir el n ú m ero de e rro res com etidos al asignar los individuos a las categorías B. Si las variables A y B son estad ísticam en te independientes, sabem os que el conocim ien to de A no nos ay u d ará a p re d ecir B . E n este caso, pues, espe rarem os co m eter exactam ente los m ism os e rro res en q u e incu rrim o s cuando n o poseíam os inform ación alguna acerca de A, Por o tra p arte, si la relación e n tre A y B fu e ra perfecta, estaríam os en condiciones de a n ticip ar B con p erfec ta precisión conociendo A. La m edida q u e vam os a d e sa rro llar nos indica la reducción pro p o rcio n al d e e rro res siendo- A conocida. Veamos cómo- calculam os el nú m ero de- e rro re s anticipados co nociendo- A. Si se nos d a el hecho de que el individuo co rresp o n de a la Ai , podem os servirnos de las cifras de la p rim e ra colum na. H em os de p o n er ah o ra exactam ente 300 de los 1 200 individuos en B v los 600 re sta n te s proviniendo de A2. Ya que de los 1 200 individuos de A r 900 n o corresponden en realid ad a B 1, podem os esp e ra r com eter 300(900/1 200) o- 225 erro res. Y e n form a aná loga, con los 600 individuos de A x que ponem os en B.¿ podem os e sp e ra r co m eter 300 erro res, siendo el núm ero de e rro res co rres p o n d ien te a B a = 225. Tom am os ah o ra los 800 individuos de A2 y asignam os 600 de ellos a B x y 100 de los 200 re sta n te s a cada u n a de las categorías B2 y B z. Al p ro ced er así, podem os esp erar com eter 150, 87.5 y 87.5 e rro re s respectivam ente. A dicionando las dos can tid ad es d e Ax y A2, vem os que podem os e sp e rar com eter u n to tal de 1 075 erro res, si A es conocida. Definim os la m edida t& com o reducción p ro p o rcio n al de e rro res. Así, pues : n úm ero de e rro re s con A desconocida — n ú m ero de e rro re s con A conocida — —— — ------------------------------------------------------- ------- — - n ú m ero de e rro res con A desconocida 1 270 - 1 075 195 Tí = ------------------ = ----------= .154 6 1 270 1 270 E n o tro s térm in o s : nos hem os evitado 195 e rro res del núm ero to tal esp erado de 1 270, y los hem os reducido en u n 15.4 p o r cien to. Si t 6 h u b iera re su ltad o se r .50, podríam os d a r así la in te rp re tación m u y sim ple de que el conocim iento de A red u ciría el núm e ro de e rro re s a la m itad, en ta n to que u n v alor d e .75 equivaldría a re d u cir el n ú m ero de los e rro re s a u n cuarto, y así sucesivam en te. E n el caso d e <f>2 en cam bio, sem ejante in terp re tació n sencilla no es posible (véase [2 ]). Si hubiéram os querido in te rp re ta r las clases B a p a r tir de las A, h ab ríam o s designado la m edida co rres p o n d ien te com o xa. P or lo general, xa y xb n o ten d rá n los m ism os valores num éricos. ¿P or qué? E n el caso del cu adro 2 x 2 puede d em o strarse que xa = t s = <p2. E sto nos in d ica que se dan dos tipos de dificultades en la anota ción. O bsérvese que algunas de n u estras m edidas (C, Q, T y V) vienen indicadas m ed ian te letra s latinas, e n ta n to que o tra s (<£ y r) lo son m ed ian te letra s griegas. Si fu éram o s consecuentes de beríam o s re se rv a r las letra s griegas p a ra los p arám etro s de po blación calculados m ed ian te m u estras estadísticas. P o r desgracia, u n a vez q ue los signos vienen siendo usados en fo rm a generali zada, re su lta difícil n o rm alizar su em pleo, y lo m e jo r que el lecto r p u ed e h ac er es to m a r n o ta de la inconsistencia. P o r o tra p arte , ciertas m edidas aparecen elevadas al cuadrado, e n ta n to o tras no lo están. Vem os especialm ente en el caso 2 x 2 q u e el sím bolo x, n o elevado al cu adrado, es equivalente a <f>z, el que en este caso es igual a P y V2. Así, en el caso del cu ad ro m ás general puede p a re c e r razonable c o m p arar x con los o tro s coeficientes al cua drado, au n q u e observando que no serán idénticos. E n general puede esp erarse que los valores num éricos de t sean m enores que los coeficientes no elevados al cuadrado <f>, T y V. Si hubie ra que p en sa r en función de ciertas m agnitudes absolutas, consi derándolas pequeñas, m edianas o grandes (p o r ejem p lo : u n valor in ferio r a .3 es "peq u eñ o ” ), fácilm ente p o d ría in cu rrirse en e rro r a m enos que se reconocieran claram en te las diferencias e n tre las m edidas. Lam bda. E xiste o tra m edida, lam bda (1) que es m uy sem ejan te a t y que igualm ente es asim étrica con resp ecto a A y B. To m ando a B com o la variable dependiente con la que se hacen predicciones, obsérvese que el nú m ero esperado de erro res se red u cirá si se nos perm ite colocar a todos los individuos en la m a y or de las categorías jB{ (véase ejercicio 5, capítulo ix ). E n el ejem plo a n te rio r esto h a b ría su p u esto colocar los 2 000 casos en B í en lu g ar de lim itarn o s a 900. Si lo hiciéram os así com etería m os 1 100 erro res, ya que hay u n to tal de 1100 casos en B 2 y B ñ. Obsérvese que éstos son m enos e rro res que los que hicim os en el caso del den o m inador de xh. Supongam os que sabem os la ca tegoría de A a la que pertenece el individuo. Si se nos perm ite asig n ar la to talid a d de los 1 200 individuos de A x a B 2, la fila que contiene el m ayor núm ero de individuos Alt com eterem os sola m ente 300 + 300 = 600 errores. De m an era análoga, si colocam os a todos los 800 individuos A2 en la categoría B lt com eterem os sólo 200 errores. Conociendo, pues, la categoría A, y si se nos perm ite h acer estas distribuciones m enos restrictivas, podrem os esp erar com eter 800 erro res. F orm arem os u n a m edida l hl de "reducción proporcional en el erro r", com o sig u e : 1 100 - 800 Vemos que lam b d a es m ás fácil de calcular que ta u ; que su pone u n a red u cción n o re stric tiv a de erro res, y que en este ejem plo tiene un v alor num érico considerablem ente m ayor que el de tau. Tiene sin em bargo la indeseable pro p ied ad de p o d er d a r un valor num érico igual a cero en casos en que todas las dem ás m edidas consideradas no serán cero, y cuando n o desearíam os referirnos a las variables com o no correlacionadas o estadística m ente independientes. Tal cosa puede o c u rrir sim plem ente p o r que una de las B m arginales sea m ucho m ayor que el resto, de tnl m an era que cualquiera que sea la categoría A, la decisión será siem pre de colocar todos los individuos (p a ra todo Ai ), en la m ism a categoría B. Si p o r ejem p lo las categorías B 1 y B 2 h u biesen sido com binadas en el a n te rio r ejem plo hipotético, la de cisión h u b iera sido siem pre la de colocar a todos los individuos en la categoría B t y B 2 y n o en la de B s, de ta l m an era que la re su lta n te As h u b iera sido- cero. P or la m ism a razón, aun cuando un sim ple to ta l m arginal (p o r ejem plo, Bx) no- dom ina al resto, es p ro b ab le que algunas de las categorías m enos num erosas no en tre n en absoluto en el círculo de lam bda. E n el ejem plo an te rio r la decisión nu nca re su lta en la asignación de individuos a B ?t. Si .se h u b iera co n tado con u n a fila m ás, B it tam bién con u n n ú m ero relativ am en te pequeño de casos, la lam bda m edida po d ría h a b e r sido ind iferente a la distribución de casos e n tre B s y B 4. P o r estas razones se p refiere a ta u sobre lam b d a en aquellos ca sos en que los totales m arginales no son de aproxim adam ente la m ism a m agnitud. XV.4. C ontrol de otras variables H a sta aq u í el exam en de las pruebas de significación y de m edi das de asociación sólo h a n com portado1 dos variables a la vez. En la m ayoría de los problem as prácticos, en cam bio, es necesario co n tro la r u n a o m ás variables adicionales, que pueden y a sea e n tu rb ia r u n a relación o c re a r u n a relación espuria. Si bien es a m enudo cierto que las generalizaciones en m a teria de ciencias sociales suelen estab lecerse en térm inos de sólo dos variables, se supone con to d o casi siem pre, im plícitam ente, que las variables relevantes se co n sideran com o controladas. Con o b jeto de su b ra y ar este hecho se em plea a m enudo la fra se "en igualdad de con diciones”. D esde el p u n to de vista ideal, u n a hipótesis h a b ría de en u n ciarse en fo rm a que se entienda claram en te cuáles variables h an de con tro larse. A m edida que u n a disciplina va pro g resan do h acia su m adurez, las generalizaciones se hacen m ás califica das, indicando las condiciones exactas en las que puede esp erarse que se realicen. E n las etapas iniciales de su desarrollo, sin em bargo, re su lta a m enudo im posible sab e r cuáles son las v aria bles relevantes que se n ecesita controlar. É sta es la razón de que en ciencias sociales las proposiciones no se enuncien a m enudo en fo rm a que sugieran cuáles variables deban co ntrolarse. No obs tan te, el lecto r debería ac o stu m b ra rse a b u s c a r siem pre las v aria bles even tu alm en te posibles de controlar, au n q u e no se le haya invitado expresam ente a hacerlo. Según verem os m ás adelante, hay varios m étodos posibles de control estadístico. E l que se exam ina en el p re sen te capítulo es tal vez el m ás directo y el que m ás se p arece al experim ento de lab o rato rio , en el que las variables de control se m an tien en efec tiv am en te co n stantes p o r m edios físicos. E n los experim entos de lab o ra to rio se m antiene u n a variable de control a u n valor co n stan te, en tan to que las o tras variables se relacionan e n tre sí. Así, p o r ejem plo, m ien tras se exam ina la relación en tre la p re sión y el volum en, la te m p e ra tu ra se m an tien e acaso a 70° F. Y si se en c u en tra una relación e n tre estas variables, puede re su lta r posible en u n ciar su ca rác te r con m u ch a m ayor precisión que si la te m p e ra tu ra no se h u b iera controlado. Sin em bargo, el cientí fico n o e sta rá autorizado a en u n ciar u n a generalización com o de realización constante, a m enos que la m ism a relación se verifi que exactam ente p a ra todas las tem p eratu ras. R ealizará, sin duda, to d a u n a serie de experim entos, cada uno de ellos a una te m p e ra tu ra diferente. Es m uy p ro b ab le que encuentre que la relación en cuestión sólo tiene lugar d en tro de c ierto m argen de tem p eratu ras. E n estas condiciones h a b rá d e especificar su generalización de m odo que diga: "La relación e n tre la p re sión y el volum en es tal y cual, a condición que la tem p eratu ra se m an ten g a e n tre —100 y 600UF .” Con su erte p o d rá h a lla r u n fac to r de corrección que le p e rm ita en u n ciar de nuevo su proposi ción en fo rm a que se aplique a u n m argen m ayor de tem p eratu ras. Y ex actam ente el m ism o tip o de razonam iento se aplicará al co n tro l de variables adicionales. P odrían efectu arse controles sim ultáneos de diversas variables, m anteniendo cad a u n a de ellas a un v alo r fijo-, y efectuando luego experim entos u lterio res con distin tas com binaciones de valores de las variables de control. Si varios controles a c tu a ra n sim ultáneam ente, se re q u e rirá un nú m ero m u cho m ayor de experim entos análogos. E xiste cierta sem ejanza e n tre el procedimiento* p a ra lo g rar el control estad ístico, que vam os a exam inar a continuación, y un experim ento de lab o ra to rio en el curso del cual las variables son m anipuladas físicam ente y m an ten id as co n stan tes e n diferentes niveles. E xiste sin embargo- u n a diferencia fundam ental, que re su lta vital, relacionada con la fo rm a en que el observador inter preta los resu ltados. C uando controlam os estadísticam ente, lleva m os a cabo m anipulaciones con lápiz y papel, en el curso de las cuales aju stam o s puntuaciones, o hacem os p a sa r a los individuos de u n o a o tro cuadro, pero en realid ad n o estam os m anejando sus pu n tu acio nes reales. Cuando, p o r ejem plo, estam os "controllando" estad ísticam en te u n IQ, esto n o significa que m anejem os las co n stantes de inteligencia del individuo- afectado. Podem os a ju s ta r las pu ntuaciones de los IQ, re sta n d o de unas y sum ando a o tras, de m an era que podam os p re te n d er que son iguales en tre sí, p e ro n o podrem os m an ip u lar la inteligencia real de u n a p erso n a en fo rm a que p u ed a co m p ararse con los controles que gobiernan la te m p e ra tu ra o la p resió n en uri experim ento d e la bo ratorio. E ste tipo- de control y a ju ste hipotético- es m uy conveniente, y no deberem os desconcertarnos si el m undo real coincide con lo que estam os haciendo-. Si u n cam bio real en la inteligencia p u d iera a fe c ta r n u e stra relación en u n sentido determ inado, pero al m an ten erla co n stan te en u n experim ento' ñ o s fu e ra posible ded u cir la relación verd ad era e n tre o tras dos variables “con la inteligencia m an ten id a en nivel constante", re su lta ría n ju stifica das n u estra s m anipulaciones con papel y lápiz. Debe reconocerse claram en te q ue tales "controles" a base de lápiz y papel pueden se r realizados sobre cualquier variable de la q u e tengam os m e didas (y categorías), incluso aquellas que son causalm ente depen dientes de las variables que estam os estu d ian d o y aquellas que de m an era esp u ria estén relacionadas, p o r razones extrañas, con alguna variable. Los controles estadísticos son básicam ente m ucho m ás fáciles de realizar que los verdaderos controles, p o r lo que el m arg en de flexibilidad p a ra su aplicación razonable es m ucho m ayor. Se req u iere fu n d am entalm ente u n a teoría que ju stifiq u e la aplica ción de tales controles, teo ría en la que están im plícitos supues tos acerca de la e stru c tu ra causal del sistem a de variables. A unque el tem a escapa al interés de u n texto general sobre estad ística, re su lta necesario fo rm u lar aquí unas p alab ras de cau tela, ya que m uchos m alos entendidos, en relación con las o p era ciones de control estadístico, se h an trad u c id o en u n a aplicación ciega de variables d e control sin apoyo en u n a teo ría que lo ju stifiq u e. Volviendo al ejem plo de la relación e n tre las preferencias reli giosas y los p artid o s políticos, se pueden co n tro lar estadística m en te variables tales com o el sexo y la clase social. P ara m an te n e r co n stan te el sexo pueden, p o r ejem plo, se r considerados solam ente los votantes varones. Si se observa que la relación se da en el caso de los varones y p o r separado e n el de las hem bras, p o d rá decirse que es aplicable al sexo, ya que habrem os exam i n ad o am bas categorías de la variable "sexo”. Es posible sin em bargo- que se observe la relación en el caso de los varones p ero n o en el d e las h e m b ra s ; en tales circunstancias h a b rá que cali fica r la generalización, volviendo n u e s tra atención a las causas p o r las cuales la relación existe p a ra u n sexo y no p a ra el otro. P uede verse que el co n tro lar las variables relevantes no sólo nos p erm ite u n a p ru e b a m ás rigurosa de u n a hipótesis, sino que nos su m in istra u n a m ay o r penetración e n el caso en que se en cu en tre que la relación difiere de u n a categoría de la variable de co n tro l a la otra. Algunas veces será conveniente co n tro la r diversas variables a la vez. D ebido a la escasez de ios casos, se hace necesario con frecu en cia co n tro la r las variables relevantes u n a p o r una, p er diéndose, sin embargo-, en e sta fo rm a cierta cantidad de in fo rm a ción. Supóngase, p o r ejem plo, que se h u b iera prescindido del sexo y se h u b iera introducido u n control en relación con la clase social de los electores. E xam inaríam os, pues, cada clase social, p a ra v er si la relación subsistía siem pre. E n co n tra ste con este p rocedim iento, pudim os h ab e r controlado sim ultáneam ente des de los p u n to s de v ista d e la clase y del sexo, tom ando todas las com binaciones posibles de las variables de control (v.gr. va. ró n d e la clase inferior, m u je r d e la clase inferior, varón de la clase m edia, e tc é te ra ) y estu d ian d o la relación en ca d a com binación de las categorías de control. Se concibe que la relación p u ed a v erificarse acaso p a ra to d as las com binaciones, con excep ción de la co rresp o n d ien te a las m u jere s de la clase inferior. Si esto fu e ra así, n os veríam os conducidos a investigar las peculia rid ad es de este su b g ru p o p a rtic u la r. Con o b jeto d e ilu s tra r el proceso, tom em os o tro ejem p lo con creto. Supóngase que tenem os los siguientes datos co rresp o n dientes a esc o la res: am b ien te de la clase, c u o ta d e inteligencia, grad o escolar y la aplicación de cad a niño. C onvendrá re su m ir los datos en térm inos de u n a ta b la m a e stra com o la del cua d ro XV.4. C uadro XV.4. Cuadro m aestro para correlacionar cuatro variables Clase media Inteligencia Clase baja Totales Grados Aplica ción elevada Aplica ción baja Aplica ción elevada Aplica ción baja Alto 60 40 40 18 158 Bajo 20 24 16 38 98 Alto 40 24 6 2 72 Bajo 24 12 32 54 122 144 100 94 112 450 Alta Baja Totales O bsérvese q ue u n cu ad ro com o éste contiene las casillas sufi cientes p a ra q u e los c u a tro tipos d e inform ación (clase, IQ, g ra dos y aplicación) p u ed a n ser, si así conviene, re co n stru id o s p a ra cad a individuo-, es decir, que sabem os cu á n ta s son las. p erso n as en las que se d a la m ism a com binación de rasgos (p o r ejemplo-: clase b aja, IQ elevado-, aplicación b a ja y grados a lto s). Si desea m o s u n a in fo rm ació n m enos d etallad a podrem os co m binar los dato s fo rm an d o agrupaciones m ás am plias. Podem os p o r ejem p lo re u n ir a los estu d ian tes de la clase m edia con los de la clase b aja, m anteniendo- ta n sólo- la distinción relativ a al IQ, la apli cación y los grados. P ero si se nos facilitase ta n sólo u n a inform a ció n m enos d etallad a no- nos se ría posible re c o b ra r el to ta l de la inform ación m ás que volviendo a h a c e r el análisis. P or ta l razón u n cuadro- m a e stro tal com o el XV.4 debe se r utilizado com o cua d ro d e tra b a jo , sacando de él los d ato s p a ra p re p a ra r u n a serie áe o tro s cu ad ro s separados. S erá e n general m ás conveniente h ac er el cuadro m aestro de tal m an era que la variable dependiente aparezca en la colum na ex trem a de la izquierda, en tan to que la variable independiente m ás in tere sa n te aparezca en la fila b a ja del encabezam iento, lo que se tra d u c irá en subcuadros con las frecuencias que están siendo com paradas directam ente. E n el cuadro XV.4, p o r ejem plo, tenem os cu atro subcuadros en cada uno de los cuales se relacio n an las aplicaciones y los grados. Todos los individuos del su b cu ad ro de la p a rte su p erio r izquierda son de la clase m edia y tienen elevado IQ, y así sucesivam ente. La exacta distribución de filas y colum nas n o tiene u n a im p o rtan cia decisiva, ya que es bien claro que se las puede o rd en ar d e acuerdo con la relación d e intereses (ta l com o se hace en el cu ad ro XV.5). C uadro XV .5. Serie de tablas de contingencia que relacionan dos variables con dos controles sim ultáneos Aplicación elevada Grados IQ alto IQ bajo Aplicación baja IQ alto IQ bajo 40 24 24 12 18 38 2 54 Clase media Alto Bajo 60 20 40 24 Clase baja Alto Bajo 40 16 6 32 Supóngase que sospecham os u n a propensión de los m aestro s en favor de la clase m edia, que se tra d u c iría en la tendencia a d a r b uenas no tas a los niños de la clase m edia, independiente m ente de su capacidad y aplicación, y buenas notas a los niños de la clase in ferio r solam ente cuando m u e stra n capacidad y apli cación a la vez. A nticiparíam os, en tal caso, que las notas h a b ría n de se r p o r lo re g u lar m ejores p a ra los niños de la clase m edia, con tro lan d o la inteligencia y el esfuerzo a la vez, excepto, posiblem ente, en el caso de niños de gran capacidad y aplicación. A nticiparíam os asim ism o q u e las relaciones e n tre las notas p o r u n a p a rte y la capacidad y la aplicación p o r la o tra h ab ría n de se r m ás fu ertes en la clase in ferio r que en la m edia. E n otros térm inos, si los niños de la clase m edia reciben siem pre buenas notas, n o d ebería h a b e r relación (o sólo u n a relación superficial), en esta clase, e n tre las n o tas p o r u n a p a rte y la capacidad o la aplicación p o r la otra. Fijém onos en la relación e n tre las n o tas y la capacidad y averigüem os si es o no m ás fu e rte en la clase inferior. E n este caso necesitarem os co n tro la r el esfuerzo. En am bas clases h a b rá estu d ian tes aplicados y n o ta n aplicados. P or lo tan to , podem os c o n stru ir c u a tro tablas d e contingencia com o las del cu ad ro XV.5. C om param os ah o ra las dos clases con respecto' a la existencia y la fu erza d é la relación, considerando' sep arad am en te a los alum nos de aplicación elevada y b a ja respectivam ente. La dirección d e la relación p u ed e tam b ién o b serv arse en cad a caso, ya sea calculando los p o rc en tajes o co m p aran d o los p ro d u cto s diagona les. C alculando la ^ c u a d ra d a y la <f¡ p a ra cada tab la, obtenem os los resu ltad o s del cu ad ro XV.6. Vemos e n esta fo rm a que las relaciones n o son significativas p o r lo' q u e se re fiere a los niños de la clase m edia, p e ro q u e en c u a n to a los d e la clase inferior, en cam bio, existe u n a relación positiva m o d erad am en te fu e rte en am b as categorías de aplicación e n tre la capacidad y las notas. O bservam os asim ism o que la relación es algo' m ás fu e rte en el caso de los estu d ian tes m ás aplicados. Cuadro X V .6 Clase Aplicación 3(,-cuadrada Nivel de significación Media Alta B aja 2.565 .188 no significativa no significativa .133 .043 Baja Alta Baja 28.064 15.582 p < .001 p < .001 .546 .373 El lecto r h a b rá sin du d a observado el efecto' p ro n u n ciad o del co n tro l sobre el n ú m ero de casos que figuran en cada casilla. E n lu g ar de te n e r sólo cu atro casillas, en efecto, tenem os cu a tro ve ces dicho n ú m ero al servim os de dos variables de co n tro l dicotóm icas. Si se h u b ie ra añadido u n te rc e r control sim ultáneo, p o r ejemplo', el sexo, habríam os tenido 32 casillas en lu g ar de 16. Y si cualquiera de las variables h u b ie ra com portado m ás de dos cate gorías, el n ú m e ro d e las casillas h a b ría aum entado. Así, pues, si bien los co n tro les sim ultáneos pu ed en en teo ría añ ad irse indefi nidam ente, el n ú m ero de casos h a de se r m uy gran d e p a ra con tro la rse con e ste método'. U na a lte rn a tiv a co n sistiría en re d u cir sim plem ente el c a rá c te r de la población y generalizar sólo res p ecto de los v arones de la clase m edia de educación universitaria, O' de algún o tro subgrupo correspondiente. P o d ría seleccionarse luego u n a m u e stra m ucho m ay o r de este subgrupo. P o r lo gene ral, si se h a de em p lear el co n tro l sim ultáneo, re su lta necesario seleccionar aquellos dos o tre s controles que se p re se n ta n com o m ás p ro m eted o res. Es posible, p o r supuesto, servirse de la prue- b a exacta de F ish er cuando el nú m ero de casos d e cada casilla se hace m uy p eq u e ñ o ; p e ro h ay que re c o rd a r que será en ta l caso necesario' te n e r u n alto' grado de relación p a ra o b ten er significa ción. D ebido a esta atenuación de los casos, el m ero hecho de que u n a relació n se haga n o significativa al in tro d u c ir controles no constituye u n a p ru e b a suficiente de q u e la variable de con tro l pro d u ce efecto. H ab ría que calcu lar y co m p arar siem pre m edidas del grado' de relación. E n los casos en que difieran las relaciones e n tre u n a categoría de u n a v ariable de co n tro l y la siguiente, tendrem os u n ejem plo de lo que se d enom ina no aditividad o interacción estadística. Ya se exam inó e s ta posib ilid ad al t r a ta r de la p ru e b a p a ra u n a d iferen cia de diferencias en las proporciones, y volverem os al tem a d e m an era m ás d etallad a e n los capítulos xvi y xx. S iem pre que se sospeche la posibilidad de u n a interacción, deberá h ac er se u n a p ru e b a estad ística q u e la localice, an tes d e seguir adelante. Com o in ev itab lem ente h a b rá algunas diferencias leves en las re laciones e n tre u n a m u e stra y la siguiente, la p re g u n ta b ásica p o r fo rm u la r en tales p ru e b as será la de si las m u estras d e in tera c ción son lo! suficientem ente grandes com o p a r a q u e aquélla haya o cu rrid o p o r casualidad, incluso en ausencia d e interacción en tre la población. E n este ejem plo, y dado el caso de que to d as las variables h a n sido dicotom izadas, p o d rá h acerse u n a p ru e b a sencilla de u n a d iferencia de diferencias en proporciones, tal com o sugiere el capítulo x m . Como e stá n siendo consideradas sim u ltán eam en te dos variables de control, p u ed e incluso d arse el caso de que se p ro d u zca lo que se denom ina u n a interacción de segundo' orden, o u n a d iferencia de diferencias de diferencias. P o r e je m p lo : la diferencia e n tre las relaciones d e aplicación ele v ada y aplicación b a ja puede ser m ay o r e n tre los niños de la clase b a ja que e n tre los de clase m edia. Si se o b serv a q u e la in teracció n tien e significación estadística, y es adem ás lo b a sta n te grande com o p a ra te n e r significación sustan tiv a, re s u lta rá necesario cualificar las generalizaciones h a ciendo' u n a referen cia específica a la categoría d e control. H ab ría q u e decir, p o r ejem plo : "S e encontró u n a relación e n tre grados y h ab ilid ad en el caso de los niños de clase b aja, p ero n o en los de clase m edia.” A p a rtir de dicho p u n to deb erán estu d iarse se p arad am en te las re sta n te s relaciones e n tre los dos niveles de cla se. Si la in teracció n es p o r el co n trario estad ísticam en te insigni ficante, o ta n p eq u e ñ a q u e p u ed a ser ignorada, au n siendo estad ísticam en te significativa, p o d rá ded u cirse razonablem ente que las relaciones son b ásicam en te sim ilares e n tre las categorías de control. E starem os en tal caso en la posibilidad d e sim plificar co n siderablem ente el análisis, reuniendo los resu ltad o s sep ara dos. Veam os a co n tinuación qué tipos específicos de sim plifica ción re su lta n posibles en el caso de datos categorizados. Podem os en p rim e r lugar re u n ir las p ru eb as de chi al cuadrado en una sola p ru e b a global, a condición de que aquéllas estén basadas en m u estras al azar seleccionadas independientem ente. E l procedim iento es extrem adam ente sencillo, b astan d o sum ar los distintos valores de chi al cu ad rad o y tam bién los grados de lib ertad , evaluando el re su ltad o de la m an era habitual. Supon gam os p o r ejem plo que en el caso de c u a tro cuadros 2 x 2, las chi cu ad rad as resu ltan tes fueron 2.1, 3.3, 2.7 y 2.9. La sum a de estos valores es 11.0, y la de los grados de lib ertad , 4. E n el cua d ro vem os que u n a chi cu ad rad a d e 11.0, con 4 grados de lib ertad re su lta significativa al nivel de .05. Así, au n cuando ninguno de los valores sep arados de chi al cu ad rad o fu e ra significativo, po dem os h ac er u so del hecho de que el re u n ir los resu ltad o s tiene significación teórica. E stam os en efecto diciendo que si u n a rela ción se re p ite aproxim adam ente cada vez, p ero la p ro babilidad de los resu ltad o s separados es en ca d a caso m ayor de .05, p o d re m os p re g u n ta m o s cuál sería el re su ltad o de tal com binación de resu ltad o s si no hubiese relación en cualquiera de los cuatro cuadros. O bsérvese que los resultados de sem ejan te operación de reu n ión p o d rían m uy bien d iferir de la relación to ta l e n tre dos va riables sin control alguno. Al ju n ta r los resultados, obtenem os esencialm ente u n a relación prom edia dentro de las categorías de la variable o las variables de control. Si hubiéram os prescindido sim plem ente de la variable o las variables de control, los efectos de sem ejantes controles h ab ría n perm anecido' oscuros p o r com pleto. En ta n to que, al unificar, efectuam os u n a sola p ru e b a de /-cu ad rad a de la relación c o n ju n ta e n tre dos variables, contro lando en relación con las variables adicionales. Y en form a análoga, podríam os d esear o b ten er u n a sola m edi da de asociación calculando u n pro m ed io p o nderado de las m e didas basado* en las c u a tro tab las separadas. Un m éto d o que se h a sugerido p a ra ta l o b jeto consiste en el em pleo de ponderacio nes que sean p roporcionales al nú m ero de los casos de cada tabla. Así, p o r ejem plo, podríam os m u ltip licar cada t 6 p o r el núm ero de casos de la tabla, su m ar los resultados y dividir, finalm ente, e n tre el n ú m ero to tal de casos de las cu a tro tablas. T erm inaría m os así con u n a sola p ru e b a d e significación y u n a sola m edida de asociación que re p resen ta rían un prom edio de los resu lta dos de las c u a tro tablas. O tro sim ple procedim iento p a ra o b ten er u n a m edia ponderada es el que describirem os brevem ente. (P a ra m ayores detalles véase R osenberg [12].) El procedim iento consiste, básicam ente, en estan d arizar todas las categorías de control, m ediante la ob tención de u n prom edio po n d erad o de proporciones (o porcen ta je s). Supongam os h ab e r obtenido separadam ente los resultados siguientes, p a ra hom bres y m u je re s : Hembras Varones Protes- Cata Protes Cató tantes licos Judíos Total tantes ticas Judías Republicanos Demócratas Independientes Total 180 90 30 300 80 80 40 200 20 50 30 100 280 220 100 600 100 60 40 200 50 30 20 100 10 70 20 100 Total 160 160 80 400 Com enzarem os p o r tra n sfo rm a r las cifras an terio res en p ro porciones, to talizando a 1 .00, ya que la variable independiente ap arece en la p a rte a lta de cada cuadro. Los re su ltad o s serán los sig u ie n te s: Varones Republicanos Demócratas Independientes Total Hembras Protes tantes Cató licos Judíos Protes tantes Cató licas Judías .60 .30 .10 1.00 .40 .40 .20 1.00 .20 .50 .30 1.00 .50 .30 .20 1.00 .50 .30 .20 1.00 .10 .70 .20 1.00 A ceptando que deseam os oscurecer las diferencias e n tre estos dos cuadros, u tilizando p a ra ello u n prom ediado, podrem os fo r m a r u n prom edio ponderado, m ultip lican d o cada pro p o rció n de las contenidas en el c u a d ro de varones p o r .6, ya que son 600 los varones en u n to ta l de 1 000 individuos en la m u estra. De m an era análoga podem os p o n d e ra r cada cifra e n el cu ad ro de las h e m b ras, m u ltip licán dola p o r .4. Los resu ltad o s serán los sig u ie n te s: Republicanos Demócratas Independientes Total Protestantes Católicos Judíos .56 (.36+ .20) .30 (.18+.12) .14 (.06+.08) 1.00 .44 (.24+ .20) .36 (.24+ .12) .20 (.1 2 + .08) 1.00 .16 (.1 2 + .04) .58 (.30+ .28) 26 (.18+.08) 1.00 en el que cada p ro p o rció n de las que aparecen en el cu ad ro derivado es igual a la su m a de las dos prop orciones po n d erad as (com o se indica en los p arén tesis), que a su vez figuraban e n los cuadros anteriores. Como la sum a de las ponderaciones es de 1 .0, tam bién lo será la de las proporciones en cada colum na del cuadro derivado. Los resultados pueden se r p resentados tam bién b a jo la fo rm a de porcentajes. E ste pro cedim iento p a ra co n tro lar m ed ian te la obtención de prom edios ponderados es, com o se verá, m uy generalizado. H e m os estandarizado el núm ero d e p ro testan tes, católicos y judíos, de tal m an era que sus tam años relativos en las m u estras de va rones y de h em b ras p ierd an significación. Si hubiese habido controles sim ultáneos p a ra variables adicionales, habríam os po dido am p liar este procedim iento de m an era directa. Así, si h u biéram os deseado co n tro la r según clases sociales, usando tres niveles, h ab ríam os obtenido seis cuadros, uno p a ra cada catego ría sexo-clase. Después de h a b e r vigilado si se produce in terac ción, y habiendo resu elto que ninguna d iferencia im p o rtan te p o d rá re s u lta r oscurecida p o r la aplicación del procedimiento-, podríam os asig n ar de nuevo gravám enes W¿ a cada uno de los cuadros de control, haciendo 2 W¡ = 1 .0, obteniendo así u n solo cu ad ro com binado, com o en el ejem plo anterior. Al su stitu ir así varias m edidas y pruebas separadas p o r u n a sola m edida y u n a sola pru eb a, nos enfrentam os a los proble m as que se en cu en tran siem pre que se em plean estadísticas de resum en. C oncentram os n u estro s datos, de m odo que resulten m enos estadísticos, pero, p o r o tra p arte, correm os el riesgo de d isto rsio n ar n u estro s resultados. P or ejem plo: si u n a de las cua tro tablas en cuestión d iera u n a /-cu ad rad a gran d e y u n gra do de relación m uy alto, en com paración con las dem ás, en to n ces el com binar los resultados, con lo que dicho hecho re su lta oscurecido, pu ed e revelarse com o sum am ente engañoso. O sea que, com o siem pre, las m anipulaciones estadísticas no pueden co n stitu ir n u n ca u n su stitu to del sentido com ún. Algunas de las ideas exam inadas en esta sección, en p artic u la r las relativas a la reunión de los resultados de tablas separadas, son in d u d ablem ente nuevas y p o d rá n p arece r algo confusas de m om ento. S erá ú til, p o r lo tanto, volver a re p a sa r e s ta sección, u n a vez que el le c to r se haya en fren tad o al m aterial de los capítu los xvi al xx. E n dicho m om ento, en efecto, se h a b rá n exam inado ya y co m parado diversos tipos de procedim ientos de control. E jercicios 1. Calcúlese la x-cuadrada para los datos del ejercicio 5 del capítulo ix. Tornando las aspiraciones profesionales como variable dependiente B, ¿cuál es el valor de t„? ¿Cómo se compara el valor de x,, con el de la medida que se calculó en la parte d) del ejercicio 5? 2. En el ejercicio 3 del capítulo xiv nos servimos de la prueba de Smimov. Tomando los mismos datos, ¿a qué conclusión llegamos al servimos de la prueba de la x-cuadrada? En relación con esos datos particulares, ¿cuál prueba se preferirá? ¿Por qué? Calcúlense <t>, T, V, c, t 6 y h- *3. La prueba de la /.-cuadrada puede emplearse en general para comparar frecuencias observadas y teóricas. En particular, puede uti lizarse para verificar la hipótesis nula de que los datos de la m uestra se han seleccionado al azar de una población normal. Las frecuencias observadas se comparan con las que se habrían anticipado en caso de ser la distribución efectivamente normal, con la misma media y desviación estándar que se han calculado de los datos de la muestra. Una vez obtenidos los valores de X y de s, podemos servil-nos de los verdaderos límites y de la tabla normal para dar las frecuencias es peradas dentro de cada intervalo. Los grados de libertad serán k — 3, en donde k representa el número de intervalos. Se perderá un grado de libertad, ya que el total de las frecuencias esperadas ha de ser N; los otros dos grados de libertad que se han perdido se deben a la necesidad de utilizar X y s a título de apreciaciones de los paráme tros reales jt y a. Teniendo estos hechos presentes, verifiqúese si los siguientes datos se apartan o no significativamente de la norm alidad: Respuesta %s — 2.53, sin rechazar. Intervalo 0.0- 9.9 10.0-19.9 20.0-29.9 30.0-39.9 40.049.9 50.0-59.9 60.0-69.9 Frecuencia 7 24 43 56 38 27 13 208 4. En un estudio reciente, H. L. Wilensky [14] encontró, al controlar la condición socioeconómica, una relación general entre la actividad sindica] por una parte y la orientación política y la preferencia elec toral por la otra. Los datos de 15 miembros negros tendían a apoyar este hallazgo general en relación con la preferencia electoral. Siete de los ocho negros que eran miembros inactivos del sindicato no si guieron la "línea” de éste al votar en 1948, en tanto que, de los siete miembros sindicalmente activos, cinco votaron de acuerdo con la su gerencia del sindicato. Averigüese si se da o no una relación signifi cativa, sirviéndose: a) de la prueba exacta de Fisher, con dirección anticipada, y b) de la x-cuadrada corregida con fines de continuidad con dirección anticipada. Respuesta: a) p ~ .035'; b) = 3.22, p < .05. 5. Utilice los datos que siguen (disponiendo los cuadros en o tra for ma, si es necesario) para obtener información acerca de la precisión de los enunciados a), b) y c). Allí donde sea adecuado, calcúlense medidas del grado de relación y control de las variables relevantes. a) Las mujeres tienen menos prejuicios que los hombres, indepen dientemente de la religión que profesen o de la clase social a que pertenezcan. b ) Los grados de relación entre la confesión y el prejuicio contra los negros dependerán de la clase social de la persona “afectada de prejuicio”. c) La razón de que los judíos aparezcan como menos afectados de prejuicio, en la tabla, que los no judíos se debe al alto porcentaje de mujeres y de personas de la clase superior en la m uestra re lativa a los judíos. Grado del prejuicio contra tos negros Religión Elevado Bajo S e x o ------------------------------------------------------- Totales Clase superior Clase Clase Clase inferior superior inferior No judíos Varones Mujeres 14 8 30 13 15 9 16 7 75 37 Judíos Varones Mujeres 13 18 7 9 22 33 15 21 - 57 81 Total 250 6. Utilizando los datos del anterior ejercicio 5, construyanse cua dros que relacionen la religión con los prejuicios, con controles simul táneos para sexo y clase social. Suponiendo despreciable la posible interacción, normalícense estos resultados de forma que la relación entre religión y prejuicio, con controles, pueda ser presentada en un solo cuadro 2 x 2. *7. Supongamos que se espera llevar a cabo una prueba chi al cuadra do con un cuadro 2 x 2, en que se relaciona la preferencia religiosa (protestante-católico), con la preferencia política (republicano-demó crata). Se planea tom ar muestras al azar, del mismo tamaño, de pro testantes y católicos, y se predice la dirección, esperando que la propor ción de protestantes que son republicanos resultara de .60 aproximada mente, en tanto que la proporción de católicos que son republicanos será a su vez de .40, m ás o menos. ¿Cuántos casos resultarán necesarios si se requiere establecer sig nificación al nivel de .05? B iblio g rafía 1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2" ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 9. 2. Blalock, H. M .: "Probabilistic Inteipretations for the Mean Square Contingency”, Journal of the American Statistical Association, vol. 53, pp. 102-105, 1958. 3. Bradley, J. V.: Distribution-free Statistical Tests, Prentice-Hall, Inc., Englewood Cliffs, N. J., 1968, cap. 8. 4. Downie, N. M., y R. W. Heath: Basic Statistical Methods, 2? ed., Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 14. 5. Goodman, L. A., y W. H. Kruskal: "Measures of Association for Cross Classifications”, Journal of the American Statistical Associa tion, vol. 49, pp. 732-764, 1954. 6. Goodman, L. A., y W. H. Kruskal: "Measures of Association for Cross Classifications, II: Further Discussion and References”, Journal of the American Statistical Association, vol. 54, pp. 123163, 1959. 7. Goodman, L. A., y W. H. Kruskal: “Measures of Association for Cross Classifications, III: Aproxímate Sampling Theory”, Journal of American Statistical Association, vol. 58, pp. 310-364, 1963. 8. Hagood, M. J., y D. O. Price: Statistics for Sociologist, Henry Holt and Company, Inc., Nueva York, 1952, cap. 21. 9. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva York, 1963, cap. 17. 10. McCarthy, P. J.: Introduction to Statistical Raasoning, McGrawHill Book Company, Nueva York, 1957, cap. 11. 11. Mueller, J. H., K. Schuessler, y H. L. Costner: Statistical Reasoning in Sociology, 2¡ ed. Houghton Mifflin Company, Boston, 1970, cap. 9. 12. Rosenberg, Morris: “Test Factor Standardization as a Method of Interpretation”, Social Forces, vol. 41, pp. 53-61, 1962. 13. Siegel, Sidney: Nonparametric Statistics for the Behavioral Scien ces, McGraw-Hill Book Company, Nueva York, 1956, pp. 96-111. 14. Wilensky, H. L.: "The Labor Vote: A Local Union’s Impact on the Political Conduct of its Members”, Social Forces, vol. 35, pp. 111120, 1956. E n el capítulo x m com param os dos m u estras investigando la significación de la diferencia e n tre las m edias y las proporcio nes. Dichas p ru e b as eran adecuadas al trata m ien to de situaciones e n las que u n a de las dos variables m u tu am en te relacionadas era u n a escala nom inal dicotóm ica. E n el ú ltim o capítulo vim os de qué m odo p o d ían co m p ararse m ás d e dos m u estras p o r m e dio de la p ru e b a de la ^-cuadrada. E n ©1 p resen te, p o r su p arte , vam os a ex am in ar u n tip o m uy im p o rta n te de pru eb a, el análisis de la variancia, que p u ed e u tilizarse p a ra verificar diferencias en tre las m edias de m ás de dos m u estras. Así, pues, el análisis de la varian cia re p re se n ta u n a extensión de la p ru e b a de la dife ren cia de las m edias y pu ed e em plearse siem pre q u e estem os verificando una relación e n tre u n a escala nom inal (o de orden su p erio r) y u n a escala de intervalo. V erem os asim ism o que, en determ inadas circunstancias, las p ru e b as de análisis de variancia pueden ex tenderse a situaciones en las cuales h ay u n a sola escala de in tervalo y dos o m ás escalas nom inales. Se exam inarán, ade m ás, u n a p ru e b a análoga no p a ra m é tric a y varias m edidas de grado de asociación. XVL1. Análisis sim ple d e la variancia Si bien el análisis de la variancia puede considerarse com o una extensión o generalización de la p ru e b a de la diferencia de las m edias, co m p o rta con todo algunos principios fund am en talm en te nuevos que req u ieren u n a explicación relativam ente larga. De ahí que u n a breve exposición general re su lte ta l vez indicada, a fin de que el le c to r n o se p ierd a en los detalles. Los supuestos del análisis de v ariancia son b ásicam ente los m ism os que los de la p ru eb a de la diferencia de las m edias, pero- la p ru e b a en sí m ism a es m uy d istin ta. H abrem os de suponer norm alidad, m ues tra s aleatorias independientes, poblaciones y desviaciones están d a r iguales, y la hipótesis nula será que las m edias de las pobla ciones son iguales. La p ru e b a m ism a supone el tra b a ja r d irec ta m ente con variancias y no con m edias y e rro res están d a r. Supóngase que los datos del cuadro X V I.1 re p resen ta n las tasas de crim in alidad de tres tipos de ciudades distintos, a sa b e r: centros in d u striales, com erciales, o políticos. Podem os calcu la r m edias sep arad as p a ra cada u n a de esas tres categorías o m u estras, y podem os o b ten er tam b ién u n a m edia grande, p re s cindiendo de las clases y prom ed ian d o los datos. E n el p resen te ejem plo, las tre s m u e stra s son del m ism o tam año, p ero esto no necesita ser siem pre así. Com o q u iera que se p resu m e que to d as las poblaciones tienen la m ism a desviación están d ar, podem os fo rm a r dos apreciacio n es in d ep en d ien tem ente d e la variancia a2 com ún. U na de estas apreciaciones será d irectam en te análoga a la estim ación unificada q u e utilizam os en la p ru e b a de la diferencia de las m edias. E sta estim ació n será u n prom edio p o nderado d e las variancias dentro de las m u estras separadas y será siem pre insesgada, incluso si las m edias de las m u estras difieren considerablem ente e n tre sí. E sto es así p o rq u e la v arian cia de cada m u e s tra se calculará sep ara d am en te y sólo co m p o rta rá las desviaciones respecto1 de la m edia d e la m u e s tra p artic u la r. C uadro X V I.1. Datos para el análisis de variancia Tasas de criminalidad Total Sumas Medias N? de casos Centro industrial Centro comercial Centro político 4.3 2.8 12.3 16.3 5,9 7.7 9.1 10.2 5.1 6.2 1.8 9.5 4.1 3.6 11.2 3.3 12.5 3.1 1.6 6.2 3.8 7.1 11.4 1.9 68,6 8.58 8 44.8 5.60 8 47.6 5.95 8 161.0 6.71 24 La segunda estim ación d e la variancia com ún co m p o rta la va rian cia de las m edias p artic u la res d e las m u e stra s tra ta d a s com o dato s individuales. E n este caso, las desviaciones d e las m edias d e las m u estras respecto de la m edia grande se u tilizarán p a ra la estim ación de a2. P a ra los datos del cu ad ro X V I.l o btendríam os la variación de las m edias de las tres m u estras, o sea 8.58, 5.60 y 5.95, resp ecto de la m edia to ta l de 6.71. E sta estim ación d e o2 sólo- será eq u ilib rada si las m edias de las poblaciones son de he cho iguales. Si las m edias de las poblaciones son iguales, en efecto, pued e esp e rarse que las de las m u estras v aria rán u n a res p ecto de o tra de acu erd o con el teo rem a del lím ite central, e sto es, acercándose a u n a d istrib u ció n n o rm al a m edida que au m en ta el tam añ o de la m u estra, y podem os servim os de esta ley y de las diferencias re ales e n tre las m edias de las m u estras p ara a p re c ia r la v erd ad era variancia. P or o tra p a rte , si las m edias de las poblaciones son en re alid ad diferentes, esperam os que las m edias de las m u estras d iferirán u n a resp ecto de o tra m ás de lo que sería el caso si las m edias de las poblaciones fu e ran las m ism as. P o r consiguiente, si la hipótesis n ula es falsa, la segunda estim ación de o2 se rá p o r lo general dem asiado grande, y será u n a estim ación sesgada. La p ru e b a em pleada en el análisis de la variancia com porta u n a com paración de las dos estim aciones distin tas de la varian cia de la población. Sin em bargo, en lugar de to m a r la diferencia e n tre las dos estim aciones, tom am os la razón de la segunda a la p rim era. Si la hipótesis n u la es correcta, las dos estim aciones serán insesgadas, y la razón h a b ría de ser aproxim adam ente la unidad. E n cam bio, si las m edias de la población difieren, la se gunda estim ación será p o r lo re g u la r m ayor que la p rim era, y la razón será m ay o r que la unidad. Como q uiera que las varia ciones de las m u estras son siem pre u n factor, hem os de pregun tarn o s cuán g ran d e sea la razón que estam os dispuestos a to lerar an tes de p o n er a la hipótesis n u la en duda. A fortunadam ente, la razón F de las dos estim aciones tiene u n a d istribución de m u estreo conocida, a condición que las dos estim aciones de la variancia sean efectivam ente independientes u n a de o tra, y d e ahí q ue pu ed a h acerse u n a p ru e b a relativam ente sencilla. E sto es lo que hacem os esencialm ente en la p ru e b a del análisis de la va riancia. Veam os ah o ra en detalle el procedim iento que ello com p o rta. F ragm entación de la variación total e n p artes com ponentes. Si bien n u e stro objetivo* últim o está en la form ación de dos esti m aciones d istin tas de la variancia, será m en este r in tro d u c ir u n nuevo concepto p a ra explicar cóm o dichas estim aciones se obtie nen. Sirvám onos del térm ino variación (d iferen te del de varian cia) p a ra d esignar la sum a de las desviaciones cu ad rad as con resp ecto a la m edia. E n este caso, la variación to tal resp ecto de N — la m edia grande será p a ra todas las m u estras 2 (X i — X )2. Así, i—1 pues, el térm in o variación designa u n a sum a de cuadrados, p re s cindiendo del n ú m ero de casos im plicado. Procedem os ah o ra a frag m en tar e s ta variación to ta l en dos p arte s com ponentes, cada u n a de las cuales se u tiliza rá en el cálculo de las dos estim aciones. R epresentem os n u estro s datos e n fo rm a sim bólica, com o en el cu ad ro XVI.2. Los datos individuales están re p resen ta d as p o r Xn> •■•>Xi j ; las m edias d e las m u estras, p o r X .u X .2l . . . , X .k, y la m ed ia gran de p o r X ... Los p u n to s se em plean en los sub índices p a ra d istin g u ir las m edias d e las colum nas de las m edias d e las hileras, que se em plearán cuando añadam os u n a segunda escala nom inal. El sím bolo general X iy re p resen ta la m arc a del f-ésimo individuo en la colum na j-é sim a. La sum a 2 X n indica que se h a n sum ado las N 1 m arcas de la p rim e ra colum na, y lo m ism o en relación con las colum nas re sta n te s.1 A hora practicam os algo de álgebra. Podem os e sc rib ir: X y - X . . = ( X i i - X . i) + ( X . i - X . . ) o sea ( d a to individual m edia V _ / g ra n d e / d ato m ed ia de \ \ individual la clase / ( m edia de m edia \ la clase g ra n d e / en lo que hem os re sta d o X.¡ (la m edia de la colum na /-ésim a) de Xi¡, p a ra volverla a adicionar inm ediatam ente. P or lo tan to , h e m os expresado la d iferencia e n tre u n d ato individual sin g u lar y la m ed ia gran d e com o sum a de dos cantidades, a sa b e r: i ) la diferencia e n tre su d a to y la m edia d e la categoría a la que p e r tenece, y 2 ) la diferencia e n tre la m edia d e la clase y la de la me- C uadro XVI.2. R epresentación sim bólica d e los datos para el análisis de la variancia Categorías Total Ai A2 *n *21 *31 *12 *22 *32 A-h *» * 2* *3fc . . . M arcas *AT11 Sum as M edias N? de casos 2 X tl i= l 2 * i2 i= l X .x X.O 2 í= i . . . *«, *•* Nk 2 2 * i¿ i ¡ X .. N i Como quiera que tenemos dos subíndices, i y /, importa distinguir entre 2 y 2 . En el último caso, los valores / se sumarían para cualquier i (fijo), i i y obtendríamos así la suma de los datos de la hilera í-ésima. d ia grande. E n el ejem plo n um érico a n te rio r podem os expresar la diferencia e n tre el d ato del p rim e r individuo de la p r im ara clase y la m ed ia grande como : 4.3 - 6.71 = (4.3 - 8.58) + (8.58 - 6.71) o sea — 2.41 = — 4.28 + 1.87 Si elevam os al cu ad rad o am bos m iem bros de la ecuación, ob tenem os : {Xi¡ - Z..)2 = ( X tj - X.j)2 + 2 { X is - X.¡) {X.¡ - X..) + (X ., - X..)2 S um ando am b os lados obtenem os la sum a de las desviaciones cu ad rad as de todos los individuos. Podem os su m ar p rim ero cada colum na y a ñ a d ir luego las cifras resu ltan tes de cad a clase. Al h acerlo así, el térm ino' cen tral se anula. P ara v er p o r qué esto es así, obsérvese que, al su m ar cu alq u ier colum na p artic u la r, el v alo r de / £erá constante. P o r lo tanto, p a ra la colum na /-ésim a el fa c to r (X.¡ — X. . ) será co n stan te y puede to m arse fu e ra de la su m a to tal. Así, p o r ejem plo, p a ra la sum a de los datos de la co lum na /-ésim a el térm ino cen tral se convierte en 2(X.,-X..) 2 (Xy-X.,) i Pero, com o q u iera que p a ra cada colum na las desviaciones res p ecto de la m ed ia de la colum na h an de ser cero, vem os inm e d iatam ente q ue el térm ino cen tral h a de desaparecer p a ra todas y cada u n a de las colum nas. O btenem os, p u e s : 2 2 * i ( Xi ,- X ..)2 = 2 2 ( X y - X . , ) 8 + 2 2 (X..-X..)* (X V I.l) i i i i Sum a to tal de sum a de cuadra- su m a de cu ád ra los cuad rados dos (d e n tro ) dos (e n tre ) Al p ro ced er así, obtenem os u n a doble sum a to tal que escribim os com o 2 2 , in d icando que hem os sum ado tan to las hileras com o i 3 las colum nas. H em os dividido la variación to ta l en dos p artes. La p rim era es u n a sum a de las desviaciones cu ad rad as de los datos indivi duales resp ecto de las m edias de sus clases respectivas. É sta se designa com o sum a dentro de los cuadrados y se em pleará p ara o b ten er n u e stra p rim e ra estim ación de la variancia com ún o2. O bsérvese que e sta sum a de cuadrados se obtiene esencialm ente en la m ism a fo rm a en que se form ó la estim ación unificada en la p ru e b a de la diferencia de las m edias. Si escribim os la sum a in te rio r de cuadrados com o: 2 ( X i l - X . 1y + 2 ( X i 2- X . 2)* + . . . + 2 { X i h- X . ky i= l t= l i= l vemos que el p rim e r térm in o es exactam ente AT1s12, en donde las desviaciones se h an tom ado respecto de la m edia de la categoría, y en fo rm a análoga en relación con los o tro s térm inos. P or lo ta n t o : SC in te rio r = + N2s2z + . . . + N ksk2 Si dividim os e n tre los grados apropiados de libertad, que resu lta rá n se r N — k, obtenem os u n a estim ación unificada, b asad a en todas las k categorías. La segunda sum a d e cuadrados, o sum a en tre colum nas, com porta las desviaciones de las m edias de las categorías resp ecto de la m edia grande, siendo p o r consiguiente u n a m edida de la variación e n tre las m u estras. La segunda esti m ación de la v ariancia se b a sa rá en e s ta sum a de cuadrados en tre colum nas. Las sum as d en tro y e n tre cuadrados se designan a m enudo com o variaciones explicadas e inexplicadas respectivam ente. Re su lta tal vez m ás fácil v er p o r qué la variación in terio r se designe com o inexplicada, y a que se refiere a la variación que no se tiene en cu enta en la variable de la categoría. Si d en tro de la categoría A hay todavía alguna o tra variabilidad resp ecto de la m edia de la categoría, esta v ariabilidad no p u ed e ciertam en te explicarse p o r la categoría. P or o tra parte, si las m edias de las categorías d ifieren co n siderablem ente e n tre sí, u n a fracción relativam ente g ran d e de la variación to tal puede a trib u irse a diferencias en tre varias categorías. Así, pues, es la m ag n itu d de la variabilidad d en tro de las categorías, com parada con las diferencias en tre ellas, la que d eterm in a h a sta qué grado las dos variables están asociadas. C ategorías hom ogéneas que difieran considerable m en te e n tre sí explican u n alto grado de variación.2 E n el caso extrem o, si tuviéram os categorías p erfectam ente hom ogéneas, la su m a d en tro de los cuadros sería cero, y to d a la variabilidad po d ría atrib u irse a la variable de la categoría. Así, p o r ejem plo, si todas las ciudades in d u striales tuvieran exactam ente la m ism a 2 Lo que sin embargo no implica causalidad, por supuesto. La palabra "explicado”, tal como se la emplea en la bibliografía estadística, se traduce mejor como: "asociado con”, no debiendo en forma alguna interpretarse en el sentido de suponer necesariamente que se haya localizado una varia ble explicativa en el sentido causal o teórico. ta sa de crim in alidad y d ifirieran de la de los centros com erciales, de tasas tam b ién to talm e n te hom ogéneas, etcétera, entonces po d ría decirse que el tip o de ciudad explicaba to d a la variación en m a teria de tasas de crim inalidad. O sea que, sabiendo d e cuál tip o de ciudad se tra ta , estaríam o s en condiciones de an ticip ar dicha ta s a exactam ente. Con o b jeto de o b ten er apreciaciones de estas dos sum as d istin tas de cuad rad o s, b a sta dividir e n tre los grados apropiados de li b ertad . A hora bien, los grados d e lib e rta d asociados a la sum a to tal de los cu ad rad o s es N — 1, ya que, según vim os, o 2 es la es tim ación insesg ada de o2, habiéndose perdido' u n grad o de liber ta d debido al cálculo de la m edia general X ... Veam os ah o ra la su m a de los cu adrados e n tre colum nas. E sta ca n tid ad re p resen ta la sum a de las desviaciones cu ad rad as de las m edias de la m ues tr a k resp ecto de la m edia general. E n efecto, la m edia de cada categoría se tra ta com o caso p artic u la r. P or lo tan to , están im plicados k — 1 grados de lib ertad , y a que u n grado se h a perdido, debido al h echo que el prom edio p onderado d e X,¡ h a de ser X ... E n el caso de la apreciación de la clase in terio r, se p erd erá un grad o de lib e rta d en cada colum na a causa del cálculo de la X.¡. P o r lo tan to , en conjunto' h a b rá N — k grados de lib e rta d asocia dos a la ap reciación in terio r. O bsérvese que los grados de lib er ta d se sum an, lo m ism o que las sum as d e cuadrados. Así, p u es: N -l = (N-k) + (k-í) dif. to ta l = dif. d e n tro + dif. e n tre colum nas E n esta form a, n u e stra s dos estim aciones de la v arian cia com ún se convierten e n : i j estim ación d en tro = --------------------------- (X V I.2) N —k S 2 ( I r i i L )s estim ación e n tre colum nas = --------------------------- (X V I.3) k - 1 Llegados a este punto, es posible que se le haya o cu rrid o al lec to r que, si incluim os la estim ación usu al b asad a en la sum a to tal de los cuad rados, tenem os en re alid ad tres estim aciones d istin tas de la varian cia total. ¿P or qué, pues, no co m p arar aquélla con cu alquiera de las o tra s dos, ya q u e dicha estim ación to ta l bien p o d ría c o n stitu ir u n a estim ación m e jo r que cu alq u iera d e éstas? Se reco rd ará, sin em bargo, que la p ru eb a F req u iere q u e las estim aciones com paradas sean independientes unas de otras. Y la estim ación b asad a en la sum a to tal de los cuadrados no es inde pen d ien te de las o tras, siendo ésta la razón de que no se la pueda u tilizar en la p ru e b a de la F. P or lo regular, las sum as de cu ad ra dos d en tro y e n tre colum nas no son independientes u n a de otra. Pero ocu rre que la d istribución norm al posee la propiedad de que dichas cantidades sean independientes, a p esa r de que las m ism as X. j figuren en am bas expresiones. É sta es la razón en cuya v irtu d hem os de su p o n er que todas las poblaciones son norm ales. Se re co rd a rá que tam b ién en el caso de la distribución t se req u ería norm alidad, debido a la necesidad de que el n u m erad o r fu era independiente del denom inador. Como lo verem os en seguida, la distrib u ció n t es u n caso p a rtic u la r de la distribución F. Problem a. Sirvám onos de los datos hipotéticos anteriores, que re p resen ta n tasas de crim inalidad p a ra tres tipos de ciudades. Nos in tere sa sab er si existen diferencias significativas e n tre las m edidas de los tres tipos de ciudades en cuestión. 1. Supuestos. N ivel de m e d ic ió n : Tasas d e crim inalidad, escala de interva lo. Tipo de ciudad com o escala nom inal. M odelo: M uestreo independiente aleatorio. Poblaciones norm ales p a ra cada tipo de ciudad. Las variancias de las poblaciones son iguales. (a i2 = a32 = . . . = ofc2 = a2) H ip ó tesis: Las m edias de las poblaciones son iguales. (fi.l = (1.2 = . . . = [X.fc) Lo m ism o que en el caso de la p ru e b a de la diferencia de las m edias, h ay que su poner que las m u estras se h an seleccionado ind ep en d ien tem en te u n a d e otra. E n o tro s té rm in o s: las ciuda des no1 están asociadas en form a alguna. Como q u iera que se supone que las poblaciones de los tre s tipos de ciudades son n o r m ales, con m edias y variancias iguales, estam os suponiendo en realid ad que son idénticas. P or lo tan to , las tres m u estras pue den considerarse com o si se hub ieran tom ado al azar de u n a m ism a población. P or lo regular, el investigador está in teresado en el supuesto de m edias iguales. E n el p resen te ejem plo, an ti cip ará p ro b ab lem en te diferencias en las tasas de crim inalidad de los tre s tipos de ciudades, y establecerá la hipótesis nula de que no existe e n tre ellos d iferencia alguna. Conviene observar que no se req u ieren m u estras grandes, debido al supuesto de norm alidad. Sin em bargo, es obvio* que si en cada categoría sólo h u b iera un caso, no h ab ría v ariabilidad en el in te rio r de las categorías, con lo que la p ru e b a n o sería posible. La p ru eb a de la F en sí m ism a n o verifica el supuesto de variancias iguales u hom oscedasticidad (com o se designa el supues to en len guaje técnico). E n situaciones e n las que las variancias de las m u estras parecen d iferir m u ch o e n tre sí, pu ed e p ra cticarse u n a p ru e b a in d ependiente p a ra la igualdad de las variancias (véa se [1], pp. 141 a 144). Si los re su ltad o s de u n a p ru e b a de esta clase in d ican q u e h ay desviaciones m ás b ien extrem as de la h o m ogeneidad de la variancia, entonces no debería em plearse el análisis de ésta. Sin em bargo, pu ed en con to d o to le ra rse desvia ciones m o d erad as de la hom ogeneidad. S em ejantes desviaciones pueden re d u cirse a m enudo considerablem ente m ed ian te tra n s form ación de las v ariables.3 Si u n a categoría p a rtic u la r es o m u cho m ás o m u ch o m enos hom ogénea que las o tras, pu ed e re su l ta r indicado d esc a rta rla del análisis de la variancia. E n térm inos generales, las desviaciones m o d erad as resp ecto d e la norm alidad y de la ig u ald ad de las variancias p u ed en to le ra rse sin necesidad de re c u rrir al u so de las altern ativ as n o p aram étrica s (véase [ 1 ], pp. 220 a 223). 2. N ivel de significación y región crítica. Sirvám onos de u n ni vel de .05. Si la hipótesis n u la es en realid ad in co rrecta, en to n ces, si tom am os siem pre la razón d e la estim ación d en tro a la e n tre colum nas, podem os e sp e ra r e n c o n tra r que el v alor de F sea m ayor que la unidad. P or lo tanto-, nos servirem os d e la cola m a yo r de la d istrib u ció n F com o región crítica. Si re su lta q u e F es m en o r q ue la u n id ad , n o te n d rá o b jeto alguno b u sc a r en la tab la el v alor de la p rob ab ilid ad , ya que, p a ra d e sc a rta r la hipótesis nula, se n ec esitarán valores de F su periores a la unidad. U na F m en o r que la u n id ad in d icaría u n grado m ayor de heterogeneidad d en tro de las categorías de lo q u e se esp eraría al azar. El lector h a de re c o rd a r u n a vez m ás que, aunque sólo nos sirvam os de una sola cola de la d istrib u ció n F, e sto n o significa en m odo alguno que anticipem os cuál de las m edias de las categorías será m ayor. 3. D istribución de m uestreo. La distribución de m u estreo de F está d ad a en el c u a d ro J del A péndice 2. El em pleo de este cua d ro se describ e m ás abajo. 4. Cálculo de la estadística de la prueba. Con o b je to de obte n e r u n v alor de F, razón de las estim aciones e n tre y d e n tro de colum nas, se rá necesario calcu lar p rim ero los totales e n tre y d en tro de cu ad rados. Como q u iera que la variación to tal es igual a la su m a d e las o tra s dos, sólo necesitarem os calcular dos de los valores en cuestión, y a q u e el terc ero se o b te n d rá p o r sum a o d iferen cia de éstos. S e re c o rd a rá que la su m a d en tro de los cu ad rad o s co m p o rta u n a operación de unificación. E sto re p re 3 Ocurre, por ejemplo, a veces que las categorías que tienen las medias más grandes son también las menos homogéneas. En tales casos, si se toma como escala de intervalo el logaritmo de la variable original, el efecto será el de igualar las variancias. Para un examen más detallado del empleo de la transformación logarítmica, véase la sec. XVIII2. sen ta considerablem ente m ás tra b a jo q u e el que se req u iere p a ra las o tra s dos sum as de cuadrados y, p o r lo tan to , obtenem os la su m a d en tro de éstos restan d o la sum a e n tre colum nas de la sum a to ta l de los m ism os. La fó rm u la de cálculo p a ra la su m a to ta l de los cuadrados se ob tiene en la m ism a fo rm a que la de la variancia [véase la ecua ción (V I .6)]. Así p u e s: S um a to ta l de los cuadrados = 2 2 ( X tj — X ..)2 = i j (2 2 1 ^ = 2 2 X íj2 ------— -------i i 3 N (X V I.4) É sta es la m ism a fó rm u la que em pleam os al calcu lar las des viaciones e stán d a r, sólo que ah o ra es necesario servirse de u n doble signo de su m a to tal. La fó rm u la de cálculo de las variaciones en tre colum nas se p re se n ta a p rim era vista com o form idable, pero, si se m ira m ás de cerca, en cu én trase que co m porta u n procedim iento relativ a m en te sencillo. E s com o sig u e : ( 2 X ¡y)2 ( 2 S I «)2 i i } S um a de cuad rad os e n tre colum nas = 2 ------ ----------------------------i Nj N (X V I.5) ~ ■(2x«)2 ( in i2)2 i (si x jn (ssii,)2 -i j ----- ------ - -|----------------1- . . . ~\---- 1------l— -----------------. N¿ N2 Nk N O bsérvese que el segundo térm in o de la expresión a n te rio r es el m ism o fa c to r que se su stra jo de 2 2 I ¡ / p a ra o b ten er la sum a í i to ta l de cuadrados. El p rim e r térm ino, en cam bio, es suscepti ble de d eso rie n ta r al lector. A nalizando e sta expresión, vem os que calculam os p rim e ro la sum a de cada colum na y luego la ele vam os al cu ad rad o p a ra o b ten er ( 2 X Í3)2. Dividimos luego dicha i expresión e n tre el núm ero de casos de la colum na, que no necesi ta ser siem pre el mismo-. Tenem os así p a ra la colum na j-ésim a: ( 2 Xi j Y/ Nj . F inalm ente, hacem os lo m ism o con cada colum na i y sum am os los resultados. Los cálculos del p ro b lem a n um érico q u e se dan a continuación ay u d arán a a c la ra r el procedim iento. Las sum as to tal y e n tre colum na d e cu ad rados se calculan com o sigue: 2 2 X ij1 = (4.3 )2 + (2.8)2 + . . . + (1.9)2 = 1 453.58 %j (2 4 # (lól.O)2 N 24 = 1 080.042 SC totales = 1 453.58 - 1 080.042 = 373.538 (68.6)2 (44.8)2 (47.6)2 SC en tre colum nas = ------------ 1----------------------------------------------- 1----------- 1 0 8 8 8 = 1 122.345 - 1 080.042 = 42.303 P ara o b ten er la sum a de cuadrados d en tro sustraem os sim ple m ente la segunda expresión de la p rim e ra obteniendo: SC d en tro = SC totales — SC e n tre colum nas o 331.235= 373.538 - 42.303 Las apreciaciones de la variancia com ún pueden calcularse aho ra dividiendo e n tre los grados apropiados de libertad. Finalm ente, la F se calcula dividiendo la estim ación e n tre colum nas e n tre la estim ación in terio r. Estos cálculos se resum en en el cuadro XVI.3. Cuadro XVI.3. Cálculos para el análisis de la variancia Total Entre columnas Dentro de columnas Sumas de cuadrados Grados de libertad Estimación de la variancia 373.538 42 303 331.235 N - 1 = 23 k ~ 1= 2 M — k — 21 21.152 15.773 p . ,. 5. Decisión. P ara decidir si descartam os o n o la hipótesis nula, hem os de averiguar si el valor de F queda o n o en la región crí tica. Se observ ará que se dan tres cuadro s distintos de F, que co rresponden a los niveles de significación del .05, .01 y .001 res pectivam ente. E sta inform ación no puede condensarse en u n solo cuadro, p o rque hay que asociar con cada F dos grados de libertad, uno p a ra el n u m era d o r y o tro p a ra el denom inador. Los grados de lib ertad asociados al num erador, O1 sea la estim ación entre colum nas, se en cu en tran buscando horizontalm ente a rrib a del cuadro, en ta n to que los del denom inador, o estim ación dentro, se obtienen leyendo el cuadro de a rrib a abajo. O bsérvese que todos los valores de F dados en el cuadro son > 1.0, lo que indica que el cu ad ro se h a establecido directam en te p a ra p ru e b as de u n a cola. E n otro s té rm in o s : el n u m e ra d o r es siem pre la m ayor de las dos estim aciones. E n n u estro p ro b lem a obtuvim os u n a F con 2 y 21 grados d e lib e rta d (se escribe ^ 2,21) igual a 1.34. S ir viéndonos del cu ad ro del nivel de significación del .05, y bu scan do los grados ap ropiados de lib ertad , encontram os la cifra de 3.47. Sabem os, pues, que, si los supuestos fu e ran correctos, ob ten d ríam o s u n v alor d e F igual o m ay o r que éste m enos del 5 p o r ciento de las veces. Com o q uiera que el v alo r efectivam ente ob ten id o p a ra F es m enos que 3.47, no d escartam o s la hipótesis nula al nivel del .05. D ecidim os que n o se dispone de p ru e b as sufi cientes p a ra concluir que los tipos d e ciudades difieren realm ente u n o resp ecto de o tro en cu an to a las ta sa s de crim inalidad. X V I.2. C om paración de m edias específicas Se h a b rá observado que el p ro b lem a a n te rio r p u d o h a b e rse tr a ta d o sirviéndonos de la p ru e b a de la d iferencia de las m edias que co m p o rta la d istrib u ció n t. P udieron h a b e rse hecho tre s com pa raciones distin tas, p o r pares, en tre las ciudades in d u striales y co m erciales, in d u striales y políticas, y com erciales y políticas. E n c o n tra ste con esto, el análisis de la variancia b rin d a u n a prueba sola acerca de si los tre s tipos de ciudades difieren o n o signifi cativam ente en tre sí o, en otros térm inos, si todos ellos pu d iero n p ro ced er de la m ism a población. La v en taja del análisis de la v arian cia está en que p u ed e em plearse u n a p ru e b a sola en lugar de m uchas. Si h u b iera hab id o cu a tro categorías, se h a b ría n re querido' 4 (3 )/2 , o sean 6 pru eb as de diferencia de las m edias. Con 6 categorías se n ecesitarían 15 pru eb as, y con 10 categorías 45. S upóngase que se n ecesitaban 15 p ru e b as y que solam ente 4 de ellas re su ltab a n significativas, ¿qué concluiríam os? S ería difícil decirlo. H ay u n a salida fácil q u e a p rim e ra v ista p arece se r u n p ro cedim iento razonable. ¿P o r qué n o e fectu ar sim plem ente una p ru e b a de diferencia de m edias con las dos categorías q u e p re sen tan resp ectivam ente las m edias m ay o r y m enor? P orque si és tas son significativam ente distintas, podem os concluir q u e las categorías difieren efectivam ente e n tre sí. H em os de re c o rd a r, sin em bargo, que (suponiendo m u estras del m ism o ta m a ñ o ) en esta fo rm a seleccionaríam os la p ru e b a ú n ica que p re s e n ta ra m ayores pro b ab ilidades de d ar significado, prescindiendo de las dem ás. Como q u iera que podem os e s p e ra r que al nivel del .05 u n a p ru e b a so b re veinte dé significado incluso si todas las m e didas de las poblaciones son iguales, es evidente que ca rg aría m os así los dados en favor del rechazo. E n otros té rm in o s : el nivel de significación realm en te em pleado no sería del .05, sino tal vez el del .5 o .7, ya que estam os obteniendo la p ro babilidad de conseguir p o r lo m enos un éxito (significación al nivel del .05) en u n gran n ú m ero de pruebas. Sin em bargo, no debe deducirse de ello que el análisis de la variancia sea siem pre preferible a u n a serie de pruebas de diferencia de m edias. E stas últim as, en efecto, si se em plean cautam ente, pueden su m in istra r considerable inform ación. Así, p o r ejem plo, el análisis de la variancia puede conducir a resultados significativos sobre todo debido al hecho de que u n a de las categorías se aleje m ucho de las restantes. De m odo que si dicha categoría se h u b iera excluido, la conclusión pudo h ab e r sido to talm e n te distinta. E n cambio, u n a serie de pru eb as de diferencia de m edias podría in d icar el hecho en cuestión con m ayor claridad. Si antes de em pezar la p ru e b a se sospecha, en p artic u la r, que u n a o varias categorías p o d rán acaso diferir m ucho de las o tras, entonces cierto n úm ero de pruebas de diferencia de m edias de u n a sola cola p o d rá re su lta r m ás adecuado. Es posible tam bién, en oca siones, a n ticip ar el orden en que quedarán las m edias de las categorías. Supóngase, p o r ejem plo, que se h u b iera predicho que las tasas de crim inalidad serían las m ayores en las ciudades in d u striales y m ínim as en las políticas. E n tal caso pud ieran h a berse utilizado dos pru eb as de diferencia de las m edias de una sola cola, o s e a : u n a de ellas anticipando u n a diferencia en tre las ciudades in d u striales y las com erciales, y o tra anticipando u n a di ferencia e n tre estas últim as y los centros gubernam entales. En térm inos generales, parece ser que cu an to m ayor conocim iento tengam os p a ra p red ecir las m agnitudes relativas de las diferen cias y sus direcciones, o éstas, tan to m ás pro b ab le re su lta que las p ru eb as d istin tas de la diferencia de las m edias sean adecua das. El análisis de la variancia, en cam bio, parece ser m ás ú til al nivel de exploración. F inalm ente, p u ed e observarse la relación e n tre las distribucio nes t y F. Si sólo h u b iera hab id o dos tipos de ciudades, podría tam bién h ab erse hecho u n a p ru e b a de análisis de variancia, com p aran d o luego los resultados con los de u n a p ru e b a t de dife rencia de las m edias. En este caso, los grados de lib ertad aso ciados al n u m era d o r de F h ab ría n sido 2 — 1, o sea 1. E n tan to q ue los grados de lib e rta d del denom inador h ab ría n sido N — 2, los m ism os que p a ra t en la p ru e b a de la diferencia de las m e dias. Hay que reco rd ar, tam bién, que cuando suponem os Ox = o2, los denom inadores tan to de t com o de F com portan estim acio nes unificadas de la variancia. R esulta que la distribución t puede co n siderarse como caso p a rtic u la r de la distrib u ció n F. S i calculáram os los valores de iz con N — 2 grados d e libertad, en contraríam os que son exactam ente los m ism os que los de una F de 1 y N — 2 grados de libertad, com o puede com probarse com p aran d o los cuadros F y t. E n o tro s térm inos, t es la raíz cua d rad a de u n a F que tenga u n grad o de lib ertad asociado a su n u m erad o r. E sto significa, p o r supuesto, que se llegará exacta m en te a las m ism as conclusiones en el caso de dos m uestras, in d ependientem ente de si nos servim os de la p ru e b a de análisis de variancia o de la de diferencia de las m edias. E n este sen tido, el análisis de la variancia es en realid ad u n a extensión de la p ru eb a de la diferencia de las m edias. * Com paraciones ortogonales. E n m u ch as ocasiones en q u e son com paradas m ás de dos categorías re su lta conveniente h ac er u n cierto nú m ero d e com paraciones específicas previam ente p la n eadas, b asadas en u n in terés teórico, y o rien tad as a com probar los procedim ientos de pru eb a. Supongam os p o r ejem plo que en u n experim ento aparecen cinco grupos, uno de los cuales es de co n tro l, en tan to los re sta n te s e stán su jeto s a diferentes tipos de m anipulación experim ental. Puede o c u rrir que los grupos se gundo y tercero cuenten con dirigentes au to ritario s que se h an visto som etidos a grados de fru stració n , m ediano en el del se gundo y elevado en el del tercero. T am bién los grupos cu arto y quinto pueden h ab erse visto sujetos a grados m oderados y ex trem o s de fru stració n , p e ro h an desarro llad o experiencias de dirección dem ocrática. Podem os desear co m p arar el grupo te sti go con cada un o de los cu atro grupos experim entales, p ero a la vez podem os p ro p o n e m o s co m parar los dos grupos au to ritario s con los dos dem ocráticos, o los dos grupos som etidos a u n a fru s tració n m oderada con los otros dos en los que la fru stració n e ra extrem ada. ¿Son legítim as todas estas com paraciones, en el sen tid o de que no nos vayan a b rin d a r inform ación re d u n d an te? Dicho de o tra m a n e ra : si conocem os el re su ltad o de u n a com p aración, ¿no p o d rá o c u rrir que tal re su ltad o haya de a r ro ja r luz so b re alguna de las dem ás? N ecesitam os u n sistem a que nos p e r m ita d ecid ir si las com paraciones son ortogonales o si son re al m en te in d ep en d ientes.4 Podem os h ac er uso de nuevo de la idea de las funciones linea les, m ed ian te u n procedim iento que viene a se r u n a am pliación d irecta de la p ru e b a de la diferencia de m edias. Si deseam os c o m p arar el g ru p o de co n tro l (grupo I) , con los grupos experi m entales, se nos o c u rriría n atu ra lm e n te re s ta r la m edia de las m edias de los cu a tro grupos experim entales, de la m edia del gru p o de control. De m an era análoga, si deseam os co m p arar los grupos au to ritario s con los dem ocráticos, restaríam o s n a tu ra l m en te la m edia de los grupos IV y V (dem ocráticos) d e la de los grupos II y III. Si dam os la m ism a ponderación a todos los 4 La idea de ortogonalidad se deriva de una interpretación geométrica de las asociaciones estadísticas, y se refiere a aquellas situaciones en las que la relación puede ser representada mediante ejes perpendiculares u or togonales. De interés para nosotros es que si también suponemos homos cedasticidad y normalidad en la distribución de la variable dependiente, puede demostrarse que la ortogonalidad implica la independencia esta dística. g rupos (con independencia del tam añ o relativo de las m u estras), ello su p o n d ría c o m p arar las m edias de las dos m edias, o ( ’A ) ( X 2 + X s ) — ( 1A ) ( X i + X 5), siendo la hipótesis n u la la de que ( Vi )(|x2 + (i3) ~ ( Vt )(^4 + M-e) = 0D efinam os de m odo m ás general u n a función de tyj p a ra la iésim a com paración que deseam os hacer, com o sigue: k . “i- 1k]líc — 2 3=1 Cij\Xj En donde c is son ponderaciones m uy sim ples, dependientes de la com paración q u e se lleva a cabo. Si im ponem os la restricción de que la su m a de las ponderaciones debe s e r igual a cero, es decir, 2 ci3- = 0, se sim plificará gran d em en te el análisis sin resi trin g ir de nin g u na m an era las com paraciones a realizar. Así, si n u e stra p rim e ra com paración se refiere al grupo de control con tr a la m edia de los cu a tro grupos re stan tes, podem os to m ar cu = 1, con los re sta n te s c1} iguales todos a - 54. Si u n a p a rtic u la r com paración d eja sim plem ente fu e ra u n a de las categorías (p o r ejem plo el g ru p o de co n tro l), h arem o s que el cis p a ra aque lla categoría sea igual a cero. De esta m an era tendrem os, en el caso de las tres com paraciones que estam os considerando: : control contra los demás (I vs. II, III, IV y V) ’1>2: autoritarios contra democráticos (II y III vs. IV y V) : frustración moderada contra extrema (II y IV vs. III y V) I II III IV V 1 -V i -V i -V i -V i 0 Va V2 -y 2 -'/2 0 V2 -y 2 V2 —lh Si las v arian cias de población o,2 son aproxim adam ente igua les, las poblaciones aproxim adam ente norm ales, y todas las m u estras del m ism o tam año, las com paraciones separadas serán m u tu am en te independientes (como- asim ism o ortogonales), siem p re que se p roduzca la siguiente relación é n tre los co eficien tes: k 2 c np i} = 0 i^ i p a ra to d as las h ^ i E n p a rtic u la r com enzarem os p o r exam inar el p rim e r p a r de com paraciones (h ~ 1, i = 2). E n n u e stro caso ten d rem o s: C11C21 + C12C22 + C13C23 + c14c24 + C15C25 = 1(0) + ( - 'A ) ( ¡A ) + (~>/4) ( a ) + (-V 4 ) ( - V z ) + ( - J4 ) ( - V 2 ) = o viendo q ue la condición se aplica. Pasam os a continuación a las com paraciones p rim e ra y te rc e ra y finalm ente a las segunda y tercera, observando de nuevo que la sum a req u erid a de los p ro ductos es igual a cero. Así: 1(0) + ( - # ) ( # ) + i - ' A X - ' A ) + ( - J 4 ) ( V í ) + ( —V4)(—Vi) = 0 Y 0(0) + ( 1/ 2) ( >/2) + ( ‘/2 ) ( - ‘/2 ) + { - V i ) ( ) + (-'/2 ) ( - '/ 2) = 0 Podem os d em o strar en general que si h ay k categorías, resul ta rá n cuando m ás k — 1 com paraciones m u tu am en te ortogona les. Asimismo, si los tam añ o s de las m u estras son distintos, re su lta rá n ecesario p o n d erar con los tam añ o s N¡ de la categoría de m u estra, siendo el m e jo r criterio p á ra lo g rar la o rto g o n alid ad : S ^ í-i N, = 0 E n n u e stro ejem plo hem os utilizado solam ente tre s com para ciones m u tu am en te ortogonales, en ta n to que k — 1 , o cuatro, son posibles. E n la m ayoría de los casos no te n d rá p o r su puesto sentido teó rico el u tiliza r todas las com paraciones ortogonales p o sibles; sin em bargo, es instru ctiv o d eterm in a r cuál sería la cu a rta. O bsérvese que ya hem os com parado el grupo de con tro l con todos los grupos experim entales, y p o r ello n o es de e sp e ra r que u n a com paración de dicho grupo de control con cu alq u iera de los subgrup-os (p o r ejem plo el de los grupos auto rita rio s ), re su lte ortogonal con la p rim e ra com paración. Puede co m p ro b arse esto fácilm ente aplicando el criterio de prueba. O bsérvese que hem os com parado el grupo II (ju n to al I I I o el IV ) con el grupo- V (en com binación a su vez con los grupos I I I y IV). Podríam os así e sp e rar que si los grupos I I y V son p a reados c o n tra los I I I y IV, la com paración re su ltan te fuese o rtogonal con las re sta n te s com paraciones, com o en efecto así o cu rre. A m enos que de m an era específica se buscase u n a in te r acción, tal com paración p a rtic u la r carecería probablem ente de sen tid o teórico-, ya que re q u eriría p ro m ed ia r las puntuaciones del g ru p o au to rita rio con fru stracio n es m edias con las del grupo dem ocrático con elevada frustración. O bsérvese que al co m p ro b ar la ortogonalidad o independencia m u tu a e n tre com paraciones no hem os dicho n ad a en relación con el tam añ o real de la m uestra, excepto en el caso d e las m u estras tam añ o N¡. E l crite rio de p ru e b a im plica solam ente las ponderaciones c i} y n o las m edias d e las m u estras o varian cias. Las decisiones relacionadas con las com paraciones deben se r hechas, en efecto, antes de realizar la recogida de datos. Se puede entonces b u sca r la significación estad ística de cada com paración, com o se indica m ás abajo. E sta p ru e b a incluye la dis trib u ció n t de m a n e ra exactam ente análoga a lo que o c u rre con la p ru e b a de la diferencia de m edias, la que es p o r su puesto la com paración m ás sim ple posible, en la que clí = l, y c12 = —1 . El n u m era d o r de t será u n a estim ación de la función lineal % o b ten id a su stitu y en d o las c o n tra p artes de la población con las m edias de las m u estras. Así, si hacem os: % = Ci l Xl + Ci 2 ^ 2 + .. • + cilcX k tendrem os el n u m era d o r p a ra la ¿-ésima com paración. E n el caso, p o r ejem plp, d e n u e stra p rim e ra com paración e n tre el grupo de co n tro l y todos los dem ás, hab ríam o s tenido % = x t - ( y*)(x2+ x z + x á+ x 5) ta l y com o el sen tid o com ún lo h a b ría sugerido. P ara n u e stro denom inador de t deseam os u s a r u n estim ador resu m id o b asad o e n todas las m u estras, incluso en los casos en q u e la com paración no ab a rq u e la to talid a d de dichas m u estras. R ecordando n u e stro resu ltad o p a ra la variancia de u n a com bi nación lineal, sabem os que v ar •$< = c n 2 v a r X x + c i22 v ar X 2 + . . . + cikz v ar X k Si suponem os n o rm alid ad y variancias iguales a*2 = a2 la expre sión se convierte en a o2 o2 ri2 s c -,2 varap* = cn 2 — + ci22 — + . . . + cifc2 = o2 2 - g Ni N2 N jc i - i Nj la que, al colocar u n estim ado p o r o2 y obteniendo la raíz cua d ra d a positiva, se convierte en el denom inador deseado de t, el que te n d rá N — k grados d e lib ertad . E sta m ism a expresión h ab ía sido u sa d a en el denom inador de t en los casos de nues tra s com paraciones segunda y terc era , en las que n o fig u ra el g ru p o d e co n trol. E n el caso de la segunda com paración, p o r ejem plo, h ab ríam os tenido o2= ^ í s i2 + N + . ■. + - 5 N 6 S b2 (d e n tro del grupo estim ad o de variancia) v *L i-1 Nf , (>/2 ) 2 Nt (Ü )2 ‘ H------ TZ------r ■ + { -V i )a , (- y * )* N. i i i \ + ~ Ñ r+ ~ Ñ r+ ~Ñ r) ( V2) ( X2 + X s) - ( Vz ) ( X4 + X s) y p o r lo ta n to í = --------------------------- ----------------- ;-----o ( J * W l / N 2 + 1/iSTg + 1 / J V 4 + \ / N s ( X 2 + X 8) - ( X 4 + X 5) oy / l / Nz + l / N ñ + í / N 4 + 1/ÑB lo que es u n a extensión evidente de la p ru e b a de la diferencia d e m edias. O bsérvese que el facto r (Vi ) se cancela en el num e ra d o r y en el denom inador, lo que re fle ja el hecho de que las m agnitudes ab so lutas de c(j n o im portan, en ta n to que 2 c i} = 0. a i D ebe re calcarse que el estim ad o r resu m id o o será precisam ente el b asa d o en la sum a in te rio r de los cuadrados (ta l com o se calcula en la p ru e b a F ) y en él estarán incluidas todas las ca te gorías, en ta n to que el n u m era d o r de t y la expresión b a jo el ra dical en el den o m inador no ab a rca rán todas las categorías. XVI.3. Análisis bim odal d e la variancia E n d eterm in ad as circunstancias re su lta posible ex tender el an á lisis de la varian cia añadiendo o tras variables de escala nom inal. S em ejan te p ro ced im iento es posible an te to d o en experim entos controlados, en los que el investigador p u ed e asignar individuos a varios grupos al azar, controlando así el n ú m ero de casos de cad a categoría. E n las situaciones n atu rales, sin em bargo, en las que n o pu ed e efectu arse sem ejante tip o de control, la exten sión que se describe en la p resen te sección será m enos útil. Algunas de las ideas básicas contenidas en lo que se h a denom i nad o análisis de v arian cia en dos form as ay u d arán a com prender algo del m aterial q u e se p re se n ta en los capítulos xix y xx. Si es posible in tro d u c ir o tra variable de escala nom inal de tal m o d o q u e to d as las com binaciones de subcategorías de las dos escalas n o m inales tengan el m ism o n ú m ero de casos, la exten sión del análisis de la v arian cia es m uy sencilla.5 Supóngase que s Si colocamos el mismo número de casos en cada categoría, y si cons truimos un cuadra de contingencia que relacione a las dos escalas nomina les, entonces podremos ver que no hay relación entre ellos en la muestra. Esta falta de relación entre las variables de escala nominal es lo que nos permite separar las sumas de cuadrados de hileras y columnas sin ambi güedad. las categorías de la segunda escala nom inal estén rep resen tad as p o r hileras. O btenem os ah o ra cierto nú m ero de subcasillas, con el m ism o n ú m ero de casos cada una. Con objeto de cum plir di cha condición, hem os de lim itam o s, p o r supuesto, a p o n er en colum na categorías de la m ism a m agnitud. A los datos num é ricos del cuadro X V I.1 añadim os la escala nom inal "región”, em p leando sólo las dos regiones N ordeste y Sudeste. Supongam os que hay el m ism o n ú m ero de ciudades en cada casilla de las seis en to tal. Si ello n o fu e ra así, h a b ría que re c u rrir a u n m étodo aproxim ado (véase infra). Los datos num éricos se dan ahora en el cu ad ro X V I.4, con las sum as y las m edias de las subcategorías in d icad as en cada casilla. C uadro XVI.4. Datos para el análisis de variancia en dos form as Tipo de ciudad Regiones Total N o rd e s te Comercial Gubernamental 4 .3 5 .9 2.8 7.7 2 X = 20.7 5.1 3 .6 1.8 3.3 2 X = 13.8 3.1 3.8 1.6 1.9 2 X = 10.4 X = 5.18 X = 3.45 X = 2 .6 0 4.1 X y = 4 4 .9 ) X x. = 3.74 9 .5 11.2 2 X = 3 1 .0 7.1 12.5 2 X = 3 7 .2 X = 11.98 X = 7.75 X = 9.30 2 * « = 6 8 .6 2 X i2 = 44.8 2 X i3 = 47.6 2 2 X y = 161.0 i i i i i X .x = 8.58 6 .2 2 12.3 9.1 16.3 10.2 2 X = 4 7 .9 S u d e s te T o ta l Industrial X 2 = 5 .6 0 6.2 11.4 X ,g = 5.95 2 = 116.1 i X 2. = 9.68 X.. = 6.71 Si hay el m ism o n ú m ero de casos en cada subcasilla, resu lta posible frag m en tar las sum as d e cuadrados del in te rio r de las colum nas, o inexplicadas, en diversos com ponentes. Podem os, p o r supuesto, efectu ar u n análisis de variancia a través de las hileras, prescindiendo de las colum nas p o r com pleto. Las sum as de cuad rad o s al in te rio r de las hileras y e n tre las m ism as se o b ten d rían en ta l caso exactam ente en la m ism a fo rm a en que se calcularon an terio rm en te las cifras al in te rio r de las colum nas y en tre ellas. D esde el punto- de vista m atem ático, re su lta que si hay el m ism o núm ero de casos en cada subcasilla la sum a de cuadrados e n tre las hileras p u ed e considerarse com o proce d en te p o r com pleto de la sum a de cuadrados d en tro o inexplicada (p o r las colum nas) de las colum nas. Así, pues, la variación to tal puede dividirse ah o ra en tre s porciones, com o sigue: SC totales = SC den tro de las colum nas + SC entre-hileras + + SC inexplicadas ( XVI .6) H em os tom ado la variación total, explicando todo lo que po díam os p o r m edio de la p rim e ra escala nom inal (tip o de ciudad). De lo q ue perm an ece inexplicado (la sum a de cuadrados d en tro de la colum na), cierta porció n puede explicarse m ediante la se gunda escala nom inal (reg ió n ). E n cu an to al rem anente, llam ado a m enudo térm in o de erro r, constituye la p roporción de la v aria ción to tal d ejad a sin explicar p o r am bas variables. Tenem os ah o ra tres apreciaciones de la variancia com ún, en adición a la estim ación b asa d a en la sum a to tal de los cuadrados, y éstas p u e den em p learse p a ra efectu ar dos pru eb as F distintas. E l térm in o de e rro r p u ed e em plearse en los denom inadores de am bas p ru e bas F, ya que la estim ación b asad a en la sum a de cuadrados inexplicada será siem p re insesgada e independiente de las o tra s dos. Los n u m erad ores de las F serán las estim aciones basad as en las sum as d e cu adrados e n tre colum nas y e n tre hileras. Cada p ru eb a será u n a p ru e b a de la existencia de u n a relación e n tre la variable de escala de in terv alo y u n a de las variables d e escala nom inal, con tro lando la o tra escala nom inal. Si bien este tip o d e operación de control se exam inará con m ay o r d etalle en el cap ítu lo xix, es m en este r decir aquí unas p a lab ras al p ropósito, ya que el control sirviéndose de u n análisis de v arian cia d e dos form as com porta u n principio algo diferente del q ue se exam inó en conexión con los problem as de contin gencia. E l lecto r observará, en efecto, q u e h a sta aquí n u estro pro ced im ien to de control h a consistido literalm en te en m an te n er co n stan te la v ariable de control y exam inar lo que acontece en el in te rio r de cada categoría de la variable de control. Así, p o r ejemplo-, hicim os u n a serie de p ru e b as de la /-cu ad rad a, u n a p a ra cad a u n a de dichas categorías. Aquí, en cam bio, hacem os una sola p ru e b a F en vez de varias, com o se hizo en el caso de la p ru e b a de la chi al cu ad rad o resum ida. E n efecto, tom am os su p resen cia en consideración ajustando valores de la escala de intervalo, de acu erd o con la categoría de la variable de control. El le c to r o b servará en el cu ad ro XVI.4, p o r ejem plo, que la tasa m edia de crim inalidad es de 3.74 p a ra todas las ciudades del N ordeste, en ta n to que la de las ciudades del S udeste es de 9.68. Supóngase q ue fuéram os a p re te n d e r q u e todas las ciudades estuvieran en la m ism a región, y realizando u n a ju ste estad ís tico de los niveles de crim inalidad agregando a todas las ciuda des del N o rd este u n a ca n tid ad fija (e sto es, 2.97) y sustrayendo la m ism a can tid ad de las ciudades del S udeste, de m odo que am bas categorías tuvieran la m ism a m edia (o sea la m edia ge n eral de 6.71). S em ejante operación de control equivale a plan te a r la cuestión hipotética de cuáles serían las tasas de crim ina lid ad si to d as ellas estuvieran expuestas a las m ism as influencias regionales. E n lu g ar de tr a ta r realm en te las regiones separada m ente, nos servim os del expediente auxiliar consistente en aju s ta r las m arcas d e la ta sa de crim inalidad, to m ando con ello en consideración la variable de control en cuestión. Lo que p erd e m os en rig o r científico lo ganam os en eficiencia del esquem a, ya que podem os servim os así d e u n a sola p ru e b a que com porta el n ú m ero to ta l d e los casos. Al a ju s ta r las tasas de crim inalidad en esta form a, reducim os en realid ad la variación to tal de las m arcas. E n efecto, su strae m os la p o rció n de la variación deb id a a la región. Tom ando las m arcas ajustadas, podríam os c o m p arar a continuación las esti m aciones e n tre las colum nas y d en tro de las m ism as, en la form a habitual. A fortunadam ente, 110 es necesario, en realidad, obtener las m arcas a ju sta d a s. Si lo hiciéram os, en efecto, en co n traría m os que los re su ltad o s serían idénticos a aquellos hallados sir viéndonos del análisis de variancia de dos form as. E n otros té r m inos : el tip o de análisis que vam os a d escrib ir equivale a la operación de a ju s te que acabam os de exam inar. E n efecto, lo que hacem os es, p rim ero, d e ja r que la variable de control actúe sobre la v ariab le dependiente, sacando la porción de la variación to tal explicada p o r la variable de control en cuestión. Tom am os luego el re m a n en te com o o tra variación "to tal nueva" y d eter m inam os cu án to de este re m a n en te p u ed e explicarse p o r la o tra variable independiente. E ste ‘‘nuevo to ta l" es equivalente a la variación to tal de las m arcas ajustadas. E n térm in o s generales, podem os co n tro la r variables adicionales en la m ism a form a. Al p ra c tic a r aju stes p a ra cada u n a d e las variables d e control, ex traem o s to d o aquello de la variación que puede explicarse por dichas variables. Y exam inam os luego el rem anente, p a ra ver cu án to pued e explicarse p o r la o tra variable independiente. E n los capítulos siguientes harem os u n u so considerable de este m ism o tip o de operación de control. Interacción. N o estam os todavía prep arad o s p a ra u n ejem plo num érico, ya q ue m ed ian te la adición de u n a segunda escala n o m inal se in tro d u ce u n a com plicación m ás. S iem pre que haya p o r lo m enos dos casos en cada subcasilla, debería h acerse una p ru eb a adicional. E sto constituye u n a p ru e b a de "in teracció n ”, o del efecto posible debido a las com binaciones peculiares de las dos variables d e escala nom inal. Con o b jeto de efectu ar la p ru e b a del an álisis de variancia en dos form as an terio rm en te des critas, es n ecesario suponer la pro p ied ad de aditividad. E nunciada form alm ente, esta pro p ied ad re q u ie re que las diferencias m edias de población e n tre colum nas sean las m ism as p a ra cada hilera, así como, inversam ente, que las diferencias e n tre hileras sean las m ism as p a ra cada colum na. La aditividad puede ilu strarse m e d ian te las siguientes cifras que re p resen ta n m edias hipotéticas de p o b lació n : ¿i a2 a3 5 10 Bs 25 *1 10 15 30 20 25 40 O bsérvese que las diferencias e n tre la p rim era y la segunda colum nas son de 5 p a ra cada h ile ra ; e n tre la segunda y la te r cera, las diferencias son de 10 p a ra cada hilera. Y asim ism o, las diferencias e n tre la p rim e ra y la segunda hileras son de 5 todas ellas, en ta n to que e n tre la segunda y la te rc e ra hileras son to d as de 15. Supóngase, sin em bargo, que la m edia de la casilla cen tral fu e ra 35 en lu g ar de 15. E ntonces la aditividad n o se verificaría. Pese a que norm alm ente As da m ayores m arcas que A¡¡, y B 3 m ayores que B 2, o cu rre algo p ecu liar cuando A2 y B 2 se ponen ju n tas, en cu an to re su lta u n a m edia m uy alta. El proceso es algo p arecid o al q u e tiene lugar cu an d o se com binan h id ró geno y oxígeno y se produce agua. El re su ltad o n o es lo q u e po d ría esp erarse si cada elem ento se exam inara separadam ente. Hem os en co n trado ya e sta posibilidad de interacción en el caso de los cu adros de contingencia, cuando vim os que la relación e n tre dos variables puede diferir de acu erd o con el nivel de una terc era variable. Ilu strem o s la idea con algunos ejem plos. Su póngase que p o r lo re g u la r las ciudades in d u striales tengan tasas de crim in alid ad m ás altas que los cen tro s políticos, y que las ciudades del S u deste las tengan m ás altas que las del N ordeste. Se concibe, en tal caso, que podríam os h a lla r ciudades in d u stria les e n el S u deste que p re se n ta ra n u n a ta sa m edia de crim inali d ad inesp erad am ente b aja. Podríam os entonces b u sca r alguna clase de in teracción tal, en tre la in d u stria y los factores regiona les, que p ro d u je ra u n a ta sa b aja. O tro tip o de ejem plo es tal vez m ás ilu strativ o todavía. Supóngase que se tenga que elegir e n tre tres tipos de m étodos pedagógicos. Se invita a cu atro m aes tro s a q ue em pleen los tre s m étodos. Es posible que en térm i nos generales el m aestro A sea m ás com petente que el B. Y en fo rm a análoga, el p rim e r m étodo p u ed e ser, acaso en conjunto, su p erio r al segundo. P ero se concibe q u e el m aestro A n o se ad a p te bien al p rim e r m étodo y tenga resu ltad o s inferiores a los esperados. Así, hay interacción e n tre el m a e stro y el m étodo. * Antes de p a s a r al cálculo de las d istin tas cantidades re su lta rá in stru ctiv o tra z a r u n m odelo lineal general, que re su lta rá ser análogo a los m odelos form ulados en relación con el análisis de la regresión. E n él expresam os u n a variable de escala de in te r valos com o función de o tras diversas variables que pu ed en se r tom adas, bien sea com o escalas de intervalos, o com o atrib u to s. Supongam os que la p u n tu ació n del individuo k-ésim o en la fila i-ésima y colum na j-ésim a se re p re se n ta p o r X ijk, acep tan d o que dicha p u n tu ació n esté com puesta p o r los siguientes in te g ra n te s : 1) u n o “deb id o a ” la m edia general de población, ¡i; 2) o tro debido a los efectos q u e son consecuencia de ap arecer en u n a d eterm i n ad a fila i, a los que denom inarem os efecto de fila, a*; 3) un efecto sim ilar debido a en c o n trarse en la colum na / ; 4) u n efec to de in teracció n yü debido a la com binación p ecu liar de la fila z-ésima y la colum na j-é sim a, y 5) u n efecto único, o térm in o de erro r, z iJk p ro d u c id o p o r facto res n o considerados d e m an era explícita en la ecuación. É sta re su lta ría a s í : X ijk — ^ + a » + P í + Y»/ + £i/fc la que p o r su p u esto se re fiere a los p a rá m e tro s de población que h an de se r estim ados con base en los datos de la m u estra. Re su lta q u e si todos los supuestos requeridos en el caso de u n análisis de la v arian cia p o r dos m étodos se dan re u n id o s (véase m ás ad e la n te), podem os o b te n e r estim ad o res n o sesgados de los p arám etro s de la a n te rio r ecuación, com o sigue: ^= y¡j = X i j — X i . — X.J + X . . <Xi=Xi . — X„ (3j= X .j — X .. = X tj —(ai + ¡3/ + [i) £¿jfc = X ijk — Xi¡ * C ada u n a de estas estim aciones tiene u n sen tid o intuitivo, salvo, ta l vez, la del efecto de in teracción y y. U tilizam os la gran m edia de la m u e stra X. . p a ra e stim a r ja y las desviaciones en tre X.. y las m edias d e fila y colum na, p a ra calcular los efectos de fila y d e colum na, a { y respectivam ente. L a desviación de X ijk en relación con la m ed ia X is de la m u e stra de la subcategoría, re p re se n ta la variación inexplicada en la m u estra, la que estim a el té rm in o residual com parable zijk. La estim ación del com ponente d e in teracció n yi¡ p o d rá entonces se r o b tenido p o r su stracció n . H em os expresado en efecto cada individuo X ijlc en función de los siguientes co m p o n en te s: X ijk = X. . + ( X t. - X „ ) +(X.,-X..) (g ran m ed ia -f (efecto de fila) + (efecto de colum na) + ( X l j - X i . ~ X . , + X. . ) + ( X m - X i , ) + (efecto de in teracció n ) + (té rm in o de e r ro r) P o r ejem plo, en el caso de la segunda ciudad política en el N ordeste ten d ríam o s: 1.60 = 6.71 + (3.74 - 6.71) + (5.95 - 6.71) + (2.60 - 3.74 - 5.95 + 6.71) + (1.60 - 2.60) * El procedim iento básico ta n to en el caso de este m odelo, com o en fo rm a m ás generalizada, consiste en realizar pru eb as separadas p a ra cada u n o de los efectos com ponentes a {, y y i}, evaluando la con tribución de cada u n o d e ellos en relación con el tam añ o del térm ino de erro r. Como p o r o tra p a rte siem pre es deseable u tilizar u n m odelo ta n sencillo com o re su lte posible, com enzarem os observando si tiene sentido la elim inación del com ponente de interacción y {j. Volvam os ah o ra al procedim ien to q ue utilizarem os p a ra el cálculo. La p ru e b a de la interacción puede efectuarse independiente m ente de las dos p ru e b a s descritas an terio rm en te y co m p o rta el m ism o p rocedim iento básico que ellas. La sum a de cuadrados inexplicada, o térm in o de erro r, se descom pone m ás todavía, restán d o le la p o rción q u e puede explicarse p o r la interacción. E n esta foim a, la su m a to tal de cuadrados se descom pone e n : SC to tal = SC e n tre colum nas + SC e n tre hileras + SC de interacción + SC d e e r ro r (XVI.7 ) E sto pued e efectuarse tom ando cada com binación de las catego rías A y B y tra tá n d o la com o categoría de u n a variable sola com binada. E n o tro s térm inos, tra ta m o s el problem a com o si tu viéram os u n a sola escala nom inal con las categorías, A xB ^ A2B lt . . . , AkB¡. Es obvio que si sólo h u b iera u n caso en cad a subeasi11a no p o d ría h a b e r variación alguna de subclase. Si n o existe interacció n en absoluto, deberíam os o b ten er exactam ente el m is m o e rro r o btenido adicionando separadam ente los efectos d e las h ileras y las colum nas [com o en la ecuación (X V I.6)]. P o r o tra p arte , si se d a u n a interacción significativa, el térm in o de e rro r será m en o r em pleando este segundo m étodo. Así, p o r ejem plo, el lecto r d ebería convencerse p o r sí m ism o d e que, si la casilla ij p ro d u je ra efectos en discrepancia con las dem ás, dioha casilla será relativ am en te hom ogénea en com paración y a sea con la colum na / o con la h ile ra i, y la sum a d en tro de cu ad rad o s de las subclases será m en o r que el resid u o obtenido re sta n d o la su m a de las sum as de cuadrados e n tre colum nas y e n tre hileras de la sum a to ta l d e cuadrados. La diferencia en tre la cantidad de variación explicada sirvién dose de esas subcasillas y la can tid ad explicada en el supuesto de ad itiv id ad p u ed e entonces a trib u irs e a interacción. Así te nem os : SC to ta l = SC e n tre subclases + SC d en tro de las subclases en donde la su m a de cu adrados e n tre subclases se h a descom p u esto en tre s com ponentes, a s a b e r: SC e n tre subclases = SC e n tre colum nas + SC e n tre hileras + SC de in teracció n Cátenlos. V olviendo ah o ra u n a vez m ás al p ro b lem a num érico q ue co m p o rta tipos de ciudades, región y tasas de crim inalidad, podem os em pezar enum erando los supuestos requeridos. 1. S u p u esto s N ivel d e m e d ic ió n : Dos escalas nom inales, u n a escala d e in terv alo ; M o d elo : M uestras independientes a le a to ria s; Todas las poblaciones de las subcasillas, las hileras y las colum nas son n o rm ales; Las variancias d e las poblaciones de las subcasillas son iguales. H ip ó tesis: 1. Las m edias de las colum nas de la población son iguales. 2. Las m edias d e las hileras de la población son iguales. 3. A dicionalidad d e la población (sin in teracció n ). Tenem os ah o ra tre s hipótesis d istin tas que pu ed en verificarse in d ep endientem ente. La p ru e b a de in teracció n h a de efectuarse prim ero , dependiendo las p ru e b as de las dem ás de aquélla. Si la hipótesis (3) n o se rechaza, el pro ced im ien to u su al consiste en su p o n er ad itiv idad en el m odelo, poniendo las sum as d e cu ad ra dos debidas a in teracción (e n la m u e s tra ) en el térm in o d e e rro r y sirviéndose d e este térm in o de e r ro r m ayor p a ra la verifica ción de las hip ótesis (1) y (2). P ero si la hipótesis de fa lta de interacció n se rechaza, entonces el pro ced im ien to a em p lear en las o tra s dos p ru e b a s dependerá del c a rá c te r de los d ato s (véase in fra ). O bsérvese que, con o b je to de verificar la interacción, he m os de su p o n er ah o ra n o rm alid ad e igualdad d e variancias p a ra cada u n a de las subcasillas. Los casos en las d istin ta s subcasi llas h an de seleccionarse ind ep en d ien tem en te y n o pueden apa rearse. 2. N ivel de significado. .05. 3. D istribución de m uestreo. F. 4. Cálculo d e la estadística de la prueba. H em os obtenido ya las sum as de cuadrados to tal y e n tre colum nas. La sum a de cua d rad o s e n tre h ileras se calcula exactam ente del m ism o m odo q u e la d e e n tre colum nas. Así, p u e s : 44.92 i 16.12 SC e n tre h ileras = ---------- 1-------------- 1 080.042 12 12 = 1 291.268 - 1 080.042 = 211.226 Con o b jeto de o b ten er la sum a de cuadrados d e interacción, nos servim os de las sum as de cada subclase. La sum a de cu ad ra dos e n tre subclases e s: 20.72 47.9a 37.22 SC en tre subclases = -----------1------------ h .. • H-------------- 1 080.042 4 4 4 = 1 341.585 - 1 080.042 = 261.543 O btenem os el térm in o de e rro r em pleado en la verificación d e la interacció n restan d o la sum a de cu ad rad o s e n tre subclases del to tal. O sea: SC del e rro r = 373.538 - 261.543 = 111.995 La can tid ad deb id a efectivam ente a interacción es la su m a de cuad rad o s e n tre colum nas m enos la su m a de las cantidades debi das a las h ileras y las colum nas separadam ente. P o r lo ta n to : SC de la interacción = 261.543 — (42.303 + 211.226) = 8.014 Los re su ltad o s p u ed e n re su m irse com o en el cu ad ro X V I .5. Grados de libertad Estimación de la variancia 373.538 261.543 42.303 211.226 8.014 N - 1 = 23 kl--l= 5 fc - 1 = 2 1-1- 1 ( f c - l ) ( 2- l ) = 2 21.152 211.226 4.007 111.995 6.222 09 Total E ntre subclases E ntre columnas E ntre hileras Interacción E rror ( dentro de las subclases Sumas de cuadrados l ?!• II Cuadro XVI.5. Cálculos para el análisis de variancia, d e dos fo r m as con prueba de interacción F 0.644 Los grados de lib ertad se d eterm in a n p o r los m edios usuales. Con Z h ileras y k colum nas h a b rá Z— 1 grados de lib ertad aso ciados con la sum a de cuadrados e n tre hileras. P ara o b ten er los grados de lib e rta d del térm in o de interacción, tom am os el nú m ero de subcasillas m enos u n o ( k l — 1 ) y restam os de esta can tid ad los grados de lib ertad asociados a las sum as d e cuadrados e n tre h ileras (Z — 1) y e n tre colum nas ( k — 1). Una regla p ráctica m ás sencilla consiste en to m a r el producto de los grados de lib ertad asociados a las sum as d e cuadrados e n tre colum nas y en tre hileras. Así, pues, si m ultiplicam os los grados de lib ertad e n tre colum nas y e n tre hileras obtenem os (fc— 1)(Z— 1) = 2 gra dos de lib ertad . É ste es el m ism o resu ltad o que obtendríam os tom ando los grados d e lib ertad en tre subclases ( = 5) y restan d o de ellos los grados de lib ertad d e las sum as de cu adrados en tre hileras y e n tre colum nas ( = 1 + 2). E sto puede expresarse alge braicam en te con la siguiente id en tid ad : (fc Z — 1 )’ — ( & — 1 + Z — l ) = ( f c — 1 ) ( Z — 1 ) Los re sta n te s grados de lib ertad , que deberían se r iguales al n ú m ero to tal de casos m enos 1 grado de lib ertad p a ra cada sub clase, pueden luego asociarse al térm in o de erro r. 5. Decisión. La p ru e b a de interacción da u n a F que es m enor que la unidad. N o tenem os, pues, m otivo p a ra rech azar la hipó tesis n u la de que n o se da interacción. E sto significa q u e la pe queña can tid ad adicional explicada p o r interacción al in te rio r de estas m u estra s puede explicarse fácilm ente p o r las fluctuaciones de la selección. E n este caso propenderíam os probablem ente a acep tar el sup uesto de aditividad, pese a que nos encontram os en el extrem o indebido de la p ru e b a y que, en consecuencia, de beríam os preo cuparnos en p rim e r térm in o p o r el riesgo de e rro r de tipo II. Añadim os de paso que si hubiéram os dispuesto de cuadros, p odríam os h ab e r utilizado u n nivel de significación de .3, p o r ejem plo, si realm ente hub iéram o s tenido in teré s en conser v ar el su p u esto de aditividad. H abiendo decidido que no existe interacción, podem os ah o ra p o n er la sum a de cuadrados debida a la in teracción (d e la m u e stra ) ju n to con el térm in o de erro r, y servirnos de este térm in o de e rro r m ayor com o base p a ra la estim ación del e rro r de la variancia. Al hacerlo obtenem os el cua d ro XVI.6, fin el que el térm in o de e rro r d e 120.009 re p resen ta la sum a de los térm inos de interacción y de e rro r del cuadro XVI.5. Del cuadro correspondiente se desprende que p a ra u n a F con 2 y 20 grados de lib ertad necesitam os u n a F de 3.49 o m ayor p a ra o b ten er significación al nivel de .05. Vemos asim ism o que una F de 35.204 con 1 y 20 grados de lib e rta d es altam en te significa tiva, ya que p a ra o b ten er significación al nivel de .001 se reque riría u n a F de sólo 14.82. Así, pues, existe poca duda de que se Cuadro XVI.6. Cálculos para el análisis de variancia en dos fo r mas, con la interacción añadida dentro del térm ino d e error Sumas de cuadrados Total E ntre columnas E ntre hileras E rror 373.538 42.303 211.226 120.009 Grados Estimación de de la libertad variancia 23 2 1 20 21.152 211.226 6.000 F Nivel de significación 3.525 35.204 p < .05 p < .001 d a u n a relación e n tre la región y la ta s a d e crim inalidad. O bsér vese que cuando controlam os en relación con la región dejando que e s ta v áriable explique todo lo que p u ed e acerca de las tasas d e crim inalidad, y d ejan d o luego que el tip o de ciudad explique to d o lo que pued e a propósito' del resto , obtenem os u n a relación significativa e n tre el tip o de la ciudad y las tasas de crim inali dad. Se re co rd a rá que la relación sin el co n tro l relativo a la re gión no d aba significación. Cabe o b serv ar q u e si la interacción n o es significativa, gana m os casi siem pre m ás de lo que perd em o s al a d ju n ta r la in tera c ción con el térm in o de erro r, sirviéndonos de este térm in o de e rro r com binado en el denom inador d e F. E n efecto, pese a que la su m a de los cuadrados de e r ro r re su lta rá en esta fo rm a lige ra m e n te au m en tada, h a b rá tam bién m ás grados de lib e rta d aso ciados al térm in o m ayor del erro r. Y com o q u iera que el térm in o de interacció n será relativ am en te pequeño, el efecto n e to será p o r lo re g u lar el de o b ten er u n denom inador de F m ás pequeño. H a b rá tam bién, p o r supuesto, u n m ay o r nú m ero de grados de lib e rta d asociados con F y, p o r lo tan to , se re q u erirá p a ra obte n e r significación u n valor m ás pequeño d e F. H em os de p re g u n ta r ah o ra qué h ab ríam o s hecho si la in te ra c ción h u b iera sido significativa. La re sp u e sta a dicha cuestión n o tiene n ad a d e sencillo, p ero podem os, con todo, fo rm u la r al g unas cu an tas sugerencias. El lecto r que se in tere se p o r u n tr a ta m ien to m ás com pleto d eberá co n su ltar u n texto com o el de Hays [7], K irk [9], o el A nderson y B ancroft [1]. Si la interacció n es significativa, a veces será posible h a lla r u n a o dos filas o colum nas, o aun unas cuantas subcasillas, que son las q ue p ro d u cen la interacción. Si hubiésem os utilizado, p o r ejem plo, cinco regiones, podríam os h a b e r observado que el S ud este difiere, de m an era fundam ental, del re sto de las regiones. De ser así po d ríam os h a b e r excluido del análisis dicha región en especial, averiguando si h ab ía interacción e n tre las categorías res tan tes, au n q u e reconociendo la n atu ra leza ex post facto d e tal procedim iento. E n o tra s m uchas aplicaciones no será ta n sencillo localizar las filas, colum nas o casillas aisladas responsables de la interacción, en cuyo caso nos enfrentam os a u n desafío teórico cuando deseam os fo rm u lar u n a explicación general razonable del esquem a logrado. E n realidad, el localizar u n efecto m ayor de interacción p u ed e re s u lta r se r el hallazgo aislado de m ayor im p o rtan cia en el estudio. A unque la conceptualización de m odelos m atem áticos en los que se h alla im plicada la interacción escapa al p ro p ó sito de este libro, d eb erá observarse que cabe fo rm u lar ciertas altern ativ as relativam ente sim ples a los m odelos aditivos lineales, tales com o los m odelos m ultiplicativos. (V éase Blalock [ 2 ]). Además de c e n tra r la atención en la interacción m ism a, puede ten erse in terés en d eterm in ar si u n a u o tra de las variables de la escala n o m inal se relaciona o n o con la escala de intervalo. ¿Cuáles p ru e b as pueden efectu arse de tales relaciones? La cues tió n se red u ce a lo siguiente: "¿Q ué estim ación de la variancia debería em p learse en el denom inador de F, en la estim ación del e rro r o en la estim ación b asad a en el térm in o de in teracción?” La resp u esta a esta p re g u n ta parece depender de la naturaleza de las dos variables de la escala nom inal y, en p artic u la r, de si las categorías em pleadas re p re se n ta n todas las categorías de la población o n o son m ás, p o r el co n trario , que u n a m era selección de categorías. E n los problem as sociales, en los que p o r lo re g u lar no asignam os los individuos a las categorías al azar, suele d arse con frecu encia el caso de q u e estas categorías rep resen ten todas las categorías posibles del esquem a de clasificación. Así, p o r ejem plo, si dividim os todas las ciudades en tre s tipos y no excluim os n inguna al proceder en esta form a, confiam os incluir algunas ciudades, p o r lo m enos, de cada tipo. Y en fo rm a análo ga, si clasificam os a personas com o varones o m u jeres, o como p ro testan tes, católicos o judíos, confiam os p o r lo re g u la r hab er incluido algunos rep resen tan tes de todas (o casi to d as) las cate gorías. P o r o tra p arte, n u estra s categorías p o d rían co m p o rtar ellas m ism as u n a selección de todos los tipos. Así, p o r ejem plo, p odríam os h a b e r seleccionado a m etodistas, cuáqueros y a tes tigos de Jehová com o tres grupos religiosos que re p re se n ta n u n nú m ero m ucho m ayor de ellos. Tal vez cada u n a de dichas deno m inaciones sea rep resen tativ a de cierto tipo d e religión. Exam i nem os cad a u n a d e estas situaciones p o r turno. E n la p rim e ra de ellas, n u estra s categorías de am bas variables re p resen tan todos o casi todos los tipos posibles. No se da cier tam en te e rro r alguno en la selección de las categorías, com o p o d ría h ab erlo si sólo nos hubiéram os servido a títu lo d e com paración de tre s denom inaciones religiosas. E n la m ayoría de estos problem as, n u estro in terés se c e n tra rá probablem ente en el grado d e hom ogeneidad de cada tipo, e n relación con la m ag n itu d de las diferencias e n tre los tipos. La segunda variable de la escala nom inal puede considerarse en p rim e r lugar com o una variable p e rtu rb a d o ra que necesita controlarse. La interacción p u ed e acaso co n stitu ir sim plem ente u n resu ltad o secundario in tere sa n te del análisis. E n este caso será razonable co m p arar u n a estim ación b asad a en la sum a de cu adrados e n tre con la apreciación b asad a en la sum a de cuadrados n o explicada. E sta ú ltim a estim ación es u n a estim ación d en tro d e las subclases y co m p o rta la variación que perm anece todavía inexplicada p o r la acción co n ju n ta de la variable independiente m ayor ( digam os el tip o de la ciu d ad ) y la variable de control. D ejam os que la va riab le de control actú e prim ero, y dejam os luego que la variable in d ependiente m ayor explique lo que p u ed e del resto. C ierta ca n tid ad adicional es explicada asim ism o p o r la interacción de las dos variables. Cada u n a de estas sum as d e cuadrados "expli cad as" pued e co m pararse con la sum a de cuadrados “no explica d a ”, o térm in o de erro r. A continuación tom aríam os esta esti m ación del e r ro r com o denom inador en cada u n a d e n u estras p ru eb as separadas de F. Al verificar en relación con la signifi cación de u n a diferencia e n tre colum nas, tom aríam os, p o r lo ta n to, la estim ación de e n tre colum nas dividida p o r el térm in o de e rro r, y en fo rm a análoga p o r lo q u e se re fiere a las h ileras. E n n u estro p roblem a num érico, si la in teracción h u b iera sido sig nificativa, estas razones de F h a b ría n sido respectivam ente de 21.152/6.222 y 211.226/6.222. Surgen o tras consideraciones cuando las categorías de u n a u o tra v ariab le (o de am b as) de la escala nom inal sólo co m portan u na peq u eñ a selección de las categorías posibles. Si la in tera c ción re su lta significativa y es m ayor, p o r lo tan to , que la e sti m ación del e rro r, añádase siem pre la cuestión de sab e r si esto n o se h a b ría pro d ucido de h ab e r sido d istin tas las categorías. Si tanto la v ariable de fila com o la de colum n a ab arcan u n a m u estra de categorías, nos referim os a ta l m odelo denom inándo lo m odelo de efectos aleatorios, p o r c o n tra ste con el m odelo de efectos fijos, p a ra el cual ninguna de las variables com prende un m u estreo de categorías. P ersonalm ente n o h e visto n u n ca u n a ilu stració n razonable de tal m odelo de efectos aleatorios, aunque los m odelos m ixto s en los que figuran u n o (o m ás) facto res no m u estread o s y u n fa c to r m uestreado, son razonablem ente com u nes. El m ás h ab itu al de los m odelos com unes en las aplicaciones a la ciencia social se p re se n ta en los casos en que son p ersonas (educadores, experim entadores, entrev istad o res, o peradores de equipo, e tcé tera ) las que figuran com o u n o de los factores. E n los experim entos en las aulas, p o r ejem plo, puede se r necesario co n sid erar el "efecto del m a e stro ” e n tre u n cóm puto de tal vez cinco educadores. E n u n laboratorio p o d rá o c u rrir que el inves tig ad o r h aya co n tado con tres experim entadores. A unque in stru i das p a ra conducirse de m an era análoga, tales p ersonas in troducen inevitablem ente en la situación algunos valores idiosincrásicos. E n u n a investigación puede el an alista n ecesitar se p a ra r los "efectos del e n tre v ista d o r” d e e n tre las dem ás variables. E n to dos estos ejem plos se reconocerá que las perso n as que en ellos figuran c o n stitu y e n 'u n a fracción m uy reducida del nú m ero po tencial en relación con el cual desea h acerse la generalización, y q u e la in teracción e n tre las p erso n as y el fa c to r de m ayor intérés p u ed e re s u lta r especialm ente p ertu rb ad o ra . E stas ideas intuitivas pueden se r o b jeto de u n a fundam entación m ás rig u ro sa (véase Hays [7 ], capítulo xnx). B a stará in d icar aquí el p rocedim iento preferido. Supongam os en p rim e r lugar que tenem os in terés en co m p ro b a r los efectos del fa c to r no m uestreado o fijo. Si la interacción h a sido significativa, ello im plica p o r su puesto que el cálculo de la variancia, basado en el térm in o de la interacción, debe h a b e r sido m ay o r que la esti m ación del " e rro r” (p roduciendo así u n a F > 1.0). Como se da la circu n stan cia de que el segundo fa cto r h a sido m uestreado, y que u n segundo m u estreo p o d ría h a b e r pro d u cid o u n a estim a ción m uy d iferen te de la interacción, el procedim iento m ás con serv ad o r co n sistiría en u tiliza r la interacción estim ada ( la m ayor de las dos can tid ad es) com o denom inador p a ra la razón de F en la p ru eb a de la significancia del fa cto r fijo o n o m uestreado. E n e fe c to : la interacción es considerada com o u n e rro r. E n nues tro ejem p lo num érico supongam os que considerásem os la región com o u n fa c to r m uestreado, ya que hem os seleccionado ta n sólo dos regiones de e n tre tal vez cinco o seis. Si el efecto de in terac ción hu b iese sido significativo y p o r ta n to no incluido en el térm in o de erro r, habríam os utilizado la razón 21.152/4.007 al co m p ro b ar la significancia de los efectos de la ciudad en los niveles de delincuencia. Si estam os adem ás in teresad o s en p ro b a r los efectos del facto r m u estread o (p o r ejem p lo : p erso n as o región), deberem os sin em bargo c o n tin u ar u sando la estim ación del e rro r, de p re fere n cia a la estim ación de la interacción, en el denom inador de F. La ju stificación in tu itiv a consiste en que el o tro fa c to r no está siendo m u estreado, y p o r ello n o puede o c u rrir q u e u n e rro r de m u estreo en dicho fa cto r constituya u n a fu en te de e rro r en nues tro cálculo de los efectos del fa c to r m u estread o sobre la varia ble dependiente. Así, si la interacción hubiese re su ltad o signifi cativa en n u e stro ejem plo, h ab ríam o s utilizado la razón 211.226/ 6.222 al co m p ro b a r los efectos de la región sobre los índices de crim inalidad. (E l hecho de q u e el denom inador, 6.222, es m ayor q u e el de 4.007 usado en relación con los efectos de tip o ciudad, refleja el h echo de que la F, u sa d a e n este ejem plo p a ra com pro b a r la in teracción, re su ltó se r m en o r que la unidad, en tan to que u n a interacción significativa h u b iera re q u erid o desde luego u n a F m ay o r que la un id ad .) P a ra u n a justificación m ás am plia de este pro cedim iento véase H ays [7]. R esulta necesario a d o p ta r u n a precaución m ás con respecto a la in terp retació n de interacciones significativas. E n la bibliogra fía estad ística se en c u en tran frecuentes referencias a los "efec tos principales" de las variables de fila o colum na, m ás los "efectos de in teracció n ”. R esulta posible in te rp re ta r estos efectos p rin cipales com o los efectos prom edios d e u n a de las variables in dependientes so b re el m argen d e la o tra u o tras variables. P ero si el com ponente de interacción es relativam ente grande, esta sim ple distinción e n tre efectos principales y efectos de in tera c ción re su lta rá difícil de tra d u c ir a valores sustantivos o teóricos, ya que cuando la interacción es gran d e n o tiene sen tid o teórico el o scurecer las diferencias reales hab lan d o de los efectos pro m e dios de, p o r ejem plo, el tipo de ciudad. Debe, pues, entenderse que esta distinción e n tre efectos principales y efectos de in tera c ción se lim ita al u so estadístico, lo m ism o que o cu rre con la re lativa a las sum as, "explicadas” y "n o explicadas”, de cuadrados. E s fácil a veces caer en la tra m p a d e u tilizar la term inología d e u n a su stan tiv a y personal disciplina en lu g ar de la term ino logía estadística, y creer que hay d istin to s tipos d e "efectos” q ue cu entan con u n a sim ple c o n tra p a rtid a en la p ro p ia su stan tiva teoría. Tal vez la precaución m ás o p o rtu n a consista e n com p re n d e r que en cuantas ocasiones se en cu en tran interacciones estadísticas de m agnitud sustancial, ello significa que dos o m ás variables tienen efecto co n ju n to so b re alguna variable depen d ien te; efectos dem asiado com plejos p a ra ser adecuadam ente descrito s m ediante u n sim ple m odelo aditivo. La presencia de la interacción estad ística constituye así u n a indicación de q u e las relaciones son m ás com plejas de lo q u e pudo pensarse, pero la in teracción p o r sí m ism a n o debe se r tra ta d a com o si fuese algo a p a rte de los efectos "p rin cip ales” de las variables que están siendo consideradas. E xten sió n a tres o m ás escalas nom inales. E n teo ría n a d a hay q u e nos im pida ex ten d er el análisis d e variancia a variables adi cionales. E n la p ráctica, sin em bargo, es p ro b ab le que nos veam os restrin g id o s p o r el req u isito de núm eros iguales de casos e n cada subcasilla, a m enos que estem os en condiciones de co n tro lar este fa c to r p o r vía experim ental. Si añadim os u n a te rc e ra escala nom inal, podem os dividir la sum a to tal de cuadrados en in terac ción e n tre A, en tre B, e n tre C y los térm in o s d e erro r, y podem os efectu ar cierto n ú m ero de p ru eb as de h ip ó tesis separadas. Ahora, sin em bargo, ten d rem o s m ás de u n tip o de interacción. E n efecto, pued e d arse interacción e n tre las variables A y B, A y C, B y C, así com o e n tre las tre s variables o p eran d o ju n tas. Procedem os p rim ero a u n a p ru e b a en relación con la interacción d e tre s fac to res (A X B X C ). Si ésta no re su lta significativa, podem os to m arla en el térm in o de e rro r y v erificar las tre s interacciones de dos factores. P ueden efectu arse p ru e b as de la significancia de A, B y C. La extensión a c u a tro o m ás escalas nom inales ten d ría lugar en la m ism a form a. E n el caso d e que el investigador esté en condiciones de c o n tro la r el n ú m ero de casos de cada catego ría m ed ian te asignación al azar, se dispone de m uchos o tro s es quem as experim entales, y el lecto r h a rá bien e n co n su ltar u n tex to de éstos. M uchos de esto s diseños alternativos hacen posi ble el logro d e u n a m ayor eficiencia (m ed ian te u n a reducción del tam añ o de la m u e stra ), al costo de u n a sim plificación de supuestos acerca de algunos de los térm inos de la interacción. Si un o está d ispuesto, p o r ejem plo, a su poner que ciertas in terac ciones son despreciables, p u ed e "co n fu n d ir" deliberadam ente estos efecto s principales al tra z a r u n diseño "incom pleto” m ás eficiente. * A nálisis de variancia d e dos fo rm a s con subclases desiguales. C uando el n ú m ero de casos n o es igual en cada subclase, com o o c u rrirá p o r lo re g u la r en la investigación sociológica, el análisis de la v arian cia de dos form as y a n o re su lta ta n sencillo. Si el n ú m ero de casos es suficientem ente grande, será siem pre posi ble, p o r su puesto, co n tro la r en relación con u n a segunda escala nom inal efectu ando análisis separados en cad a categoría de la variable de co n trol, com o lo hicim os e n el caso de los problem as de contingencia. P ero si p a ra em pezar, el n ú m ero d e casos es relativam ente pequeño, pueden em plearse algunos m étodos ap ro xim ados. Uno d e éstos co m p o rta el em pleo de los logaritm os, p ero es sencillo p o r lo dem ás (véanse [ 8], pp. 260 a 266). O tro procedim iento, d escrito p o r W alker y Lev [11], es m u cho m ás sencillo desde el p u n to d e v ista conceptual. E ste úl tim o m éto d o consiste en tr a ta r las m edias de las distin tas subcasiJlas com o si co n stitu y eran casos sim ples. P ueden obte n erse las sum as de cuadrados y las apreciaciones de variancia de los térm in o s e n tre h ileras, e n tre colum nas y de interacción, suponiendo esencialm ente que n o hay m ás que u n caso en cada su b casilla: la m edia. La su m a de los cuadrados del e rro r se ob tien e luego, al igual que en el análisis co rrien te de v arian cia de dos form as, re sta n d o la sum a de cuadrados de la subclase " e n tre ” de la su m a de cu adrados total, sirviéndonos p a ra ello del n ú m ero to tal de casos, y n o d e las m edias de cad a subcasilla. La apreciación del e rro r se obtiene dividiendo e n tre el e r ro r en el nú m ero de grados de lib ertad , com o antes, y dividiendo entonces esta ú ltim a cifra e n tre la m edia arm ónica del n ú m ero de casos en cada subcasilla. E sta ú ltim a operación es n ecesaria p a ra que la estim ación del erro r, b asad a en el n ú m ero to tal de los casos, p u ed a co m p ararse con las estim aciones b asadas ún icam en te en las m edias de las subcasillas tra ta d a s com o casos singulares. Las p ruebas F p u ed en luego efectu arse en la fo rm a h ab itu al. Si las subclases contienen u n n ú m ero desproporcionado de ca sos, com o o cu rre h ab itu alm en te en la investigación n o experi m ental, ta l cosa significa que las v ariables de fila y d e colum na e sta rá n interrelacionadas. E n efecto, alguna variación que viene "explicada” p o r la v ariab le de la colum na p u ed e asim ism o se r "ex p licad a” p o r la variable de la fila, dándose casos de am bigüedad acerca de a cuál de las variables h a b rá d e d arse el créd ito p o r u n a variancia, cu ando ésta es explicable d e dos m aneras. H alla rem os esta m ism a d ificu ltad e n relación con el análisis de re g re sión m últiple, y, d e m an era im plícita, en el análisis de la co variancia. D espués de estu d ia r ta n to la regresión m últiple com o el an á lisis d e la covariancia, exam inarem os brevem ente (e n el cap ítu lo xx), lo que se denom ina "variable sim ulada", utilizable p a ra m a n e ja r u n g ran n ú m ero de situaciones, en tre ellas aquella en la qu e-se tien en dos (o m á s) escalas nom inales variables indepen dientes e interrelacionadas. V erem os sin em bargo q u e este m uy am plio pro ced im iento estad ístico n o nos p erm ite su p e ra r las dificultades teóricas que surgen en aquellos casos en que las va riables in dependientes están interrelacionadas. Tales problem as sólo pueden ser resueltos p o r m edio d e procedim ientos de cálcu lo basad o s en ecuaciones sim ultáneas, cuestión que excede los lím ites de este libro. Debe observarse q u e u n a de las grandes v en tajas de los diseños experim entales consiste en que éstos p erm iten la m anipulación de variables independientes, de tal m an era q ue sus efectos pueden se r separados sin am bigüedad, lo que hace posible evaluar los efectos principales de cada varia ble, siem pre a condición de que la in teracció n no sea dem asia do n o tab le. XVI.4. A lternativas n o param étricas del análisis de variancia E n el caso en que los supuestos req u erid o s p a ra el análisis de v arian cia n o se cum plan, se dispone de p ru e b as no p aram étrica s que pu ed en u tilizarse com o análisis de v arian cia de u n a o de dos fo rm as. E xam inarem os en p rim e r lu g ar el análisis de u n p ro cedim iento de la v arian cia con categorías de K ruskal-W allis, p a ra v er a continuación la p ru e b a de F riedm an p a ra m u estras p a re a das, u tilizab le en aquellas ocasiones en que la variable d e fila co n stituye u n g ru p o de variables p aread a s y en las que hay un "caso” en cad a fila. Prueba de K ruskal-W allis. La p ru e b a tra ta d a en esta sección fue d esarro llad a p o r K ru sk al y W allis y re s u lta in d icad a siem pre que tengam os cierto n ú m ero de m u estras al azar independientes y u n nivel de m edición de escala ordinal. La eficacia de su fuerza es aproxim adam ente, en las m u estras grandes, del 95 p o r ciento. La p ru e b a es b ásicam en te m uy sencilla y co m porta la com para ción de las sum as d e los órdenes d e cada u n a de las categorías de la variab le de la escala nom inal. Se calcula u n a estad ística H con o b jeto d e m ed ir el grado en que las distin tas sum as de órde nes difieren de aquello que se esp e ra ría b a jo la hipótesis cero. Si hay m ás de cinco casos en cada clase, la distrib u ció n de selec ción de H es ap roxim adam ente la ^-cuadrada.6 Con fines de com paración, ilu strem o s el em pleo de la p ru eb a d e K ruskal-W allis con los m ism os datos. E n el cu ad ro XVI.7, las tasas de crim in alidad de los tre s tipos de ciudades se h an orde nad o de altas a b a ja s (los órdenes b ajo s indican tasas b a ja s). Cuadro XVI.7. Datos y cálculos para el análisis de variancia con rangos de K ruskal-W allis Sumas Ciudad política Ciudad industrial Ciudad comercial Cuota Orden Cuota Orden Cuota Orden 4.3 2.8 5.9 7.7 12.3 16.3 9.1 10.2 10 4 12 16 22 24 17 19 5.1 1.8 3.6 3.3 6.2 9.5 4.1 11.2 11 2 7 6 13.5 18 9 20 3.1 1.6 3.8 1.9 6.2 7.1 11.4 12.5 5 1 8 3 13.5 15 21 23 «2 = 86.5 R t = 124 R s = 89.5 1. Supuestos. N ivel d e m e d ic ió n : escalas o rd in al y nom inal M odelo: m u estreo al azar independiente H ip ó te sis : m u estras sacadas d e la m ism a población continua 2. N ivel de significación y región crítica. Tom em os el nivel del .05. 3. D istribución d e m uestreo. La distribución de m u estreo de H será ap ro x im adam ente la ^-cuadrada con k — 1 grados de lib er tad, en donde k re p resen ta el n ú m ero de categorías em pleadas. 4. Cálculo de la estadística de la prueba. Calculam os H p o r m e dio de la fó rm u la / 12 * R* \ (-w ñ í t t & h - ) - 3 ( N + 1 ) H = --------------------------------------------------1 - 27y(JV 3 — N ) (X V I.8) en donde N t y N re p resen ta n respectivam ente el n ú m ero de ca« En caso de tres clases y N muy pequeñas, véase [10], pp. 195-198. sos de la í-ésima categoría y d e la m u e stra to tal. El denom inador de la fó rm u la re p resen ta u n a corrección p o r ligaduras, en la que T *= t í-% s —t■ siendo el nú m ero d e observaciones ligadas en relación con un rango determ inado. E n este ejem plo p a rtic u la r hay sólo u n p a r de m arcas em p ata das. P o r lo ta n t o : T i = 23 — 2 = 6. Tenem os, p u e s : [ 12/24(25)](124^/8 + 86.5V8 + 89.52/ 8 ) - 3(25) . H = --------------------------------------------------------------------- = 2.17 1-6/(243-24) 5. Decisión. R efiriéndonos a la ta b la de la ^-cuadrada, vem os q u e con 2 grados de lib e rta d necesitam os u n a ^-cuadrada de 5.991 o m ay o r p a ra o b ten er significación al nivel del .05. H abiendo, pues, obten id o u n a H de 2.17, decidim os no rech azar la hipótesis n u la a dicho nivel de significación. Vemos, de paso, que llega m os a la m ism a conclusión q u e an terio rm en te. Análisis de F riedm an de dos m étodos con categorías. Los da tos o rdinales no p erm iten en ap ariencia m a n e ja r el concepto de interacción, a n o se r de m a n e ra m uy b u rd a y poco satisfactoria. S in em bargo, si se e stá d ispuesto a su p o n er que la interacción carece de im p o rtan cia, y se desea co n tro lar p a ra u n a o m ás va riables u tilizando lo que equivale a u n procedim iento de pareado, puede p ro ced erse com o sigue. Se e m p arejan los individuos (en este caso las ciu d ades) de acuerdo con el c rite rio que se desee aplicar. Uno de tales crite rio s puede se r el regional, o tro el ta m año, u n te rc e ro la edad d e las ciudades, etcétera. Se asigna a continuación u n m iem b ro de cada grupo a u n a situación experi m ental, to m an d o com o n ú m ero de “casos” el nú m ero d e grupos de individuos pareados. E stá bien claro que este procedim iento re p re se n ta u n a am pliación de las p ru e b as m ed ian te p a re s n o r m alizados, y a estu d iadas. E n algunos casos pueden darse obser vaciones rep etid as so b re cada individuo; en o tro s puede n o h a b e r re su ltad o posible a p lica r realm ente el azar a la asignación a los grupos de tra ta m ie n to o experim entales, en cuyo caso nues tra s in terp retacio n es d eb erán se r m ucho m ás cautelosas. E n el caso que estu d iam o s re su lta rá evidentem ente im posible d is tri b u ir al azar las ciudades en las categorías in d u strial, com ercial o política. C onsiderem os a continuación cada grupo d e individuos p area dos com o u n a re sp u e sta independiente. D entro de cada u n o de los grupos asignam os categorías 1, 2, 3, . . . , k, d e acuerdo con las pu n tu acio n es de la v ariab le dependiente. H acem os lo m ism o en cada caso y sum am os las filas, obteniendo u n a sum a de filas T¡ p a ra la colum na /-ésim a. Si la variable experim ental (colum na) n o tiene efecto alguno, podrem os esp e ra r que las varias T¡ resul ten ap ro x im adam ente iguales. E staríam o s en efecto asignando las filas d en tro de cada sec to r e n fo rm a to talm en te al azar, y no esp eraríam os que el to tal de puntuaciones de los sectores en cualquiera de las colum nas resu ltase desusadam ente grande o pequeño. H a b rá, em pero, de ordinario, diferencias m enores de m u estras e n tre las T¡, y p o r ello desearem os o b ten er u n a m edida de las diferencias e n tre las T¡ que cuenten con u n a distribución conocida de la m uestra. Si com putam os la estad ística S = 2 i (T,-T)* en la que k es el n ú m ero de categorías y T es la m ed ia d e las T¡, la distrib u ció n de la m u e stra de S puede ser calculada exacta m en te e n el caso de m u estras pequeñas, y aproxim adam ente en el de m u estras grandes. E n B radley [3 ] y Siegel [10] se dan cuadros p a ra las distribuciones exactas. C uando k > 4 y N > 10, en donde N re p re se n ta el nú m ero d e grupos de individuos p area dos, podem os u s a r u n a aproxim ación de ji al cuadrado, com o sigue: * - n w + í) ~ - m + » k T' - 3 H i t + » en la que el grado de lib ertad p a ra ji al cuadrado es k — 1 , y en donde el lad o de la extrem a derech a re su lta rá m ás conveniente p a ra fines del cálculo. Suponem os de nuevo u n a distribución básica co n tin u a de puntuaciones v erdaderas, d e m odo q u e los em pates re su lten ta n sólo de la crudeza de las m ediciones. Pode m os asig n ar a las puntuaciones em patadas las m edias de las fi las que h u b ie ra n recibido en caso de no p ro d u cirse em pates o, m ás conservadoram ente, podem os ro m p er los em pates, m inim i zando así el v alor obtenido de ji al cuadrado. P rocedam os ade lan te con u n ejem plo. C ontinuando con la m ism a ilustración, p o r conveniencia de la com parabilidad, conservam os el su p u esto de que hem os obtenido p o r lo m enos u n nivel ordinal de m edición p a ra los grados de delincuencia, y la hipótesis n u la de que las m u estras h an sido obtenidas de la m ism a población continua. E sta hipótesis equi vale, en efecto, al ase rto de que, en el contexto de u n experim en to real, la v ariab le experim ental no ten d ría efecto alguno. Supo nem os ahora, sin em bargo, que las m u estras e stán agrupadas, en este caso e n trío s de ciudades, u n a in d u strial, o tra com ercial y o tra política. H a b rá ocho réplicas, de m an era que k = 3 y N = 8. A nteriorm ente, al h ac er u n análisis p o r dos m étodos de la va riancia, utilizam os sólo dos series, u n a de ellas p a ra el S udeste y o tra p a ra el N ordeste. Aquí contam os con ocho series, lo que p erm ite em p arejam ientos individuales donde ello sea posible. Podem os p o r supuesto asignar arb itra ria m e n te cada ciudad del S u deste a cu alq u iera d e las cuatro series de m ás abajo, p ero el h acerlo su p o n d ría u n diseño m enos eficiente que el logrado usan do controles m ás refinados en el proceso de pareado. P ara ser concretos, supongam os que hem os utilizado cu a tro clases de dife re n te tam añ o p a ra cada u n a de las dos regiones, de m odo que las ciudades hayan re su ltad o em parejadas sim ultáneam ente p o r ta m añ o y p o r región. Supongam os que las ciudades han sido dis p u estas com o en el cu ad ro XVI.8. Cuadro X V I.8. Datos y cálculos para la prueba de F riedm an Ciudad industrial Ciudad comercial Ciudad política Grupo A B C D E F G H Ti Tasa Rango Tasa Rango Tasa 4.3 2.8 2 3 3 3 3 3 2 1 5.1 1.8 3.6 3.3 6.2 9.5 4.1 11.2 3 2 1 2 1.5(1) 2 1 2 3.1 1.6 3.8 1.9 6.2 7.1 11.4 12.5 5.9 7.7 12.3 16.3 9.1 10.2 20 14.5(14) Rango 1 1 2 1 1.5(2) 1 3 3 13.5(14) X = 16 Los rangos no coinciden p o r supuesto con los del cuadro XVI.7, ya que hem os tra ta d o cad a grupo com o u n a réplica separada, con los rangos llegando sólo en cada caso h a s ta k = 3. O bsérvese que hay sólo u n em p ate den tro del g rupo E, habiendo asignado u n ran g o pro m ed io de 1.5. El procedim iento m ás conservador h a b ría consistido en asignar rango 1 a la ciudad com ercial y ra n go 2 a la ciu d ad política, ya que p a ra los dem ás grupos T 2 > T 3. Los resu ltad o s p a ra el procedim iento m ás conservador aparecen e n tre p arén tesis. Aun cuando estam os m an ejan d o u n nú m ero m uy red u cid o de casos y de colum nas, utilizarem os, con fines de ilustración, la aproxim ación de ji al cuadrado. T en em o s: 12 v* = ------------[20* + 14.52 + 13.52] - 3(8) (4) = 3.06 * 8(3)(4) lo que p a ra d.f. = k — 1 = 2 no re su lta significativo ni aun al nivel d e .10. Si hubiésem os em pleado1 el m étodo m ás conservador ob teniendo T 2 — T s = 14, hab ríam o s logrado u n a ji al cuadrado d e 3.00. B radley [3 ] hace n o ta r que la eficacia de fuerza de la pru eb a d e F ried m an no sólo depende del tam año de la m u estra, sino del n ú m ero de categorías usado. E n el caso de m u estras grandes la eficacia d e la p ru e b a en relación con el de la p ru e b a F ( suponien do que todos los supuestos de esta ú ltim a estuviesen ju stificad o s), es ap ro x im ad am ente igual a De m an era que p a ra k = 2 la eficiencia de u n a m u e stra grande sería ap ro x im ad am ente de 2 /jt = .64, y p a ra k = 5 re su lta ría apro x im adam ente de 5/2jr = .80. B radley observa que a m edida que k dism inuye, dism inuye tam b ién la v en taja de u s a r categorías a trav és de las colum nas. E n el caso lím ite en que k = 2, podem os asig n ar sólo las dos categorías 1 y 2, re su ltan d o e s ta p ru eb a equivalente a la p ru e b a de signo, ten ien d o p o r su p u esto la m ism a escasa fu erza eficaz. Si la v ariable dependiente (en este caso los niveles de la cri m in alid ad ), es m ed id a de m an era ta n b u rd a que sólo pueden asignarse los dos valores de éxito y fracaso, será posible hacer u so de u n a p ru e b a no p ara m é tric a m uy sim ilar, conocida com o p ru e b a Q de C ochran. El procedim iento que en ésta se sigue con siste en asig n ar unos ( 1 ) y ceros ( 0) a las equis (X ) (ta l vez se gún se en cu en tren p o r a rrib a O' p o r ab ajo de la m edia global), u tilizando u n a d istribución exacta o u n a aproxim ación de ji al cu adrado, com o se hizo en el caso de la p ru e b a de F riedm an. La p ru e b a de C ochran es d iscutida p o r Hays [7] y B radley [3], y re su lta tam bién ap ro p iad a p a ra el u so con m u estras pareadas. XVI.5. M edidas de asociación: correlación intraclase Las p ru éb as de análisis de la v arian cia sólo nos p erm iten decidir si existe o n o alguna relación e n tre dos variables. Como ya vi m os, es re lativ am en te fácil o b ten er significación estad ística aun con u n a relación m uy superficial, a condición que se tenga u n nú m ero su ficientem ente gran d e de casos H abiendo decidido que sí existe relación, sujetos sin d u d a al riesgo de e rro r de tipo I, procedem os a continuación a m e d ir la fuerza o grad o de la m is m a. Puede o b ten erse alguna indicación acerca de la m agnitud de la relación, co m parando sim plem ente las m edias de las diversas categorías. Si estas m edias difieren m ucho, es p ro b a b le que la relación sea fu e r te ; p ero si las diferencias son pequeñas, en cam bio, podem os e sta r en condiciones de n o atrib u irles m ucha sig nificación p ráctica, au n en el caso en que hayam os obtenido signi ficación estadística. Sin em bargo, la m era com paración de las m edias de las categorías puede re su lta r equívoca, a m enos de o b serv ar tam bién el grado de hom ogeneidad en el in terio r de cada grupo. P or lo regular, aunque tal vez n o siem pre, n u estro interés se ce n tra en la m agnitud relativa de las diferencias e n tre las m edias, en com paración con las diferencias en el in terio r de las categorías. E n o tro s té rm in o s : deseam os o b ten er u n a m edida del grad o en que las categorías son hom ogéneas en com paración con la v ariabilidad to tal en la variable de la escala de intervalo. Si las categorías son p erfectam ente hom ogéneas, la asociación en tre las dos variables será com pleta, y sabiendo la categoría a la que u n individuo pertenece, podem os p re d ecir su m arc a exac tam ente. Se h an d esarro llado varias m edidas b ásicam ente in tercam b ia bles de asociación, que se sirven de las sum as de cuadrados total, " e n tre ” y "d en tro ", o b ien de las apreciaciones de la variancia basadas en dichas sum as de cuadrados. La razón de correlación E z, la m ás sim ple ta l vez de dichas m edidas, co m porta to m ar la razón de la sum a de cuadrados explicada, con respecto a la total. Así, p u es: SC explicada SC “e n tre ” (X V I.9) E* = --------- -----------= ------------------SC total SC total Según verem os en el próxim o capítulo, la in terpretación de la ra zón de correlación es d irectam en te análoga a la de la correlación producto-m om ento corriente, salvo p o r su falta de signo, y nos servirem os de dicha m edida p a ra verificar la no linealidad de la relación en tre dos escalas de intervalo. La razón de correlación, sin em bargo, es ligeram ente sesgada. El lecto r reco rd ará que la desviación e stá n d a r de la m uestra, o variancia, tiende a su b estim ar la desviación están d a r o variancia de la población, siendo el grado de sesgo relativam ente im p o rtan te en el caso de m u estras pequeñas. De ahí que. en el denom ina d or nos sirviéram os de N — 1, en lugar de N , con o bjeto de ob ten er u n a estim ación insesgada. Y en form a análoga, cuando el núm ero de casos de cada categoría se hace relativam ente peque ño, el valor esperado de la variabilidad en el in terio r de cada m u estra tenderá, en com paración con la desviación están d ar s, a ser m en or que la de la población. Con o b jeto de corregir en relación con un sesgo correspondiente en la razón de correla ción, podem os ob ten er lo que se designa com o la razón de corre lación insesgada, sirviéndonos de los grados de lib ertad adecua dos y operando directam ente con las estim aciones de la variancia y no con las sum as de cuadrados. La fó rm u la de la razón de correlación insesgada e2 re su lta ser la siguiente: = (XVI.10) en donde V w y V t figuran en lu g ar de las estim aciones in te rio r y to tal respectivam ente. Si bien n o hem os ten id o necesidad h asta el p re sen te d e calcular la estim ación total, su valor p u ed e con todo o b ten erse fácilm ente dividiendo la sum a d e cu ad rad o s to tal p o r N — 1. E n el ejem plo n um érico del que nos hem os servido, los valores de E y e son respectivam ente (véase el cu ad ro XVI.3, p, 342). 42.303 „ £ = .34 E 2 = ------------= .113 373.538 15.773 e2 = 1 ------------------ = .029 373.538/23 e = .17 O bsérvese q ue el valor de e es m ás pequeño q u e el d e E . Una m ed id a de asociación algo m ás c o rrien te es la del coefi ciente de correlación intraclase. E sta m edida d eriva su nom bre del hecho d e q u e b ásicam ente co m p o rta u n a correlación de m o m en to-producto e n tre todos los p ares posibles d e casos dentro de las categorías d e la variable de la escala no m in al.7 Al igual q u e las dem ás m edidas exam inadas en esta sección, el coeficiente de co rrelación d en tro de las clases, r¿, puede co n sid erarse tam bién com o m ed ida del grado de hom ogeneidad de las clases en relación con la variabilidad to ta l en la escala de intervalo. Su fó rm u la es com o sig u e : r¡ = ____V * ~ V ”-----Vt + ( ñ - í ) V „ (X V I.ll) en donde V t y V w son las estim aciones e n tre clases ( b — betw een) y d en tro de las clases (w = w ith in ) respectivam ente, y n re p re sen ta u n n ú m ero de casos prom edios en cad a clase. U na fórm ula altern ativ a p a ra averiguar ri en función de F es la sig u ien te: i*í = - F —1 F + ( k —1) Si el n ú m ero de casos en cad a clase es el m ism o, n o existe p ro blem a, p o r supuesto, en c u a n to al v alo r de n. E n el caso d e cla 7 D e s p u é s d e l e íd o e l c a p í tu lo x v n e l l e c t o r p o d r á e v e n tu a l m e n te c o n s u l t a r [5] para d a r s e c u e n t a d e l c a r á c t e r p r e c i s o d e l a r e l a c ió n e n t r e e s t a s d o s m e d id a s . ses desiguales, en cam bio, p u ed e em plearse u n a sim ple m edia aritm ética p a ra o b ten er el valor en cuestión. H aggard [5 ] reco m ienda u n a clase algo d istin ta de v alo r pro m ed io que h a b rá que utilizar siem pre que el n ú m ero de casos varíe considerablem ente de u n a categoría a o tra. Su fó rm u la p a ra el cálculo de ñ e s : en donde re p re se n ta el núm ero de casos de la categoría z-ésima y k el n ú m ero de categorías. E n n u e stro ejem plo num érico todas las categorías son de la m ism a m ag n itu d y, p o r consiguiente, ñ = 8. Así, pues, = 2 1 .1 5 2 - 15.773 5.379 21.152 + 7(15.773) 131.563 = .041 P ueden o b servarse algunas propiedades del coeficiente de co rre lación in traclase. Si las categorías son to d as ellas p erfectam en te hom ogéneas, no h a b rá variación d e n tro de las clases (es decir, Vw = 0)> y el valor de r { será de + 1.0. E n el caso extrem o opues to, supóngase, p o r el co n trario , que to d a la variación tien e lugar d en tro de las clases y q u e las m edias d e las categorías son exac tam en te iguales. E n este caso, desaparecerá, y el lím ite infe rio r se rá : 1 -V * (ñ-l)V w n —í Así, pues, el lím ite in ferio r no es — 1.0, excepto en el caso espe cial en q ue se tenga u n prom edio de 2 casos en cada clase. N or m alm ente, p o r lo tan to , el lím ite in ferio r s e rá m enor que la un i dad en v alo r absoluto. De hecho, esto ra ra m e n te nos preocupa, ya que pocas veces encontram os categorías que sean sustancialm en te m enos hom ogéneas d e lo que se esp e ra ría p o r azar. C uando las apreciaciones "en tre " y " d e n tro ” son exactam ente iguales, o sea cuando el v alo r de F es igual a la unidad, entonces r< será cero. Así, pues, Ti = 0, cuando las categorías son exactam ente ta n ho m ogéneas com o se e sp e raría p o r azar, si no h u b iera relación al guna e n tre las dos variables. P or lo regular, los valores de se situ a rá n e n tre 0 y 1.0. P o r desgracia, no parece ex istir in te rp re tación sencilla alguna d e los valores de r, e n tre dichos lím ites. * La noción d e correlación in traclase p u ed e generalizarse fácil m en te p a ra a b a rc a r el análisis de variancia d e dos form as. En aquellas situaciones en las que nos serviríam os del térm in o de e rro r en el d enom inador de F, podem os o b ten er u n a m edida del grado de correlación e n tre la variable de las colum nas y la escala de intervalo, con control en relación con la variable d e las hile ras, tom ando com o la estim ación e n tre colum nas y sustituyen do V w p o r el térm in o del erro r. Y en form a análoga, podríam os to m ar la estim ación e n tre hileras com o V it con lo q u e o b ten d ría m os u n a m edida del grado de asociación en tre la escala de in tervalo y la variable de las hileras, después de re sta d a la variación debida a la variable de las colum nas. Como verem os en el capí tu lo xix, este procedim iento es directam ente análogo a lo que hacem os al o b ten er correlaciones “parciales” e n tre dos escalas de intervalo, con control en relación con u n a te rc e ra escala de intervalo. G losario Razón de correlación Variación explicada e inexplicada Homoscedasticidad Interacción Correlación intraclase Comparaciones ortogonales. E j e r c ic io s 1. Como quiera que la prueba F puede utilizarse para probar la hipó tesis nula de que tenemos dos estimaciones independientes de la mis ma variancia, podemos servimos de la misma para verificar el supues to de que = <r2 en problemas de diferencia de las medias. Ya que por lo regular no será posible anticipar cuál valor de s2 será el mayor, tomamos la razón del mayor al m enor y duplicamos el valor de la probabilidad dado en el cuadro F. Teniendo presentes estos hechos, tómense los datos del ejercicio 1, capítulo x i i i , y verifiqúese la hipóte sis de que = o2. Respuesta, F = 1.75, no rechazo al nivel .10. 2. Supóngase que los datos expuestos más abajo representan los in gresos de los presidentes de los consejos de administración de diver sos tipos de organizaciones locales. Se han seleccionado al objeto al azar cinco organizaciones de cada tipo, tanto de localidades grandes como pequeñas, obteniendo en consecuencia números iguales de ca sos en cada subclase. a) Empléese el análisis de variancia en dos formas con objeto de verificar la existencia de una relación entre el tipo de organiza ción y los ingresos de los presidentes de consejos de administra ción, dejando de lado la extensión de la ciudad. ¿Cuáles son los valores de E y e? Respuesta, F = 4.97; E = .52; e = .47. *b) Utilizando el análisis de variancia, de dos tipos ¿qué puede de cirse acerca de la relación entre el tipo de organización y el in greso, controlando en relación con la extensión de la localidad? ¿Cómo se comparan estos resultados con los de aj? Respuesta, para la interacción, F = 3.52, rechazo al nivel de .05. c) C a l c ú l e s e l a r e l a c i ó n i n t r a c l a s e d e l o s a p a r t a d o s a) y *b). Tamaño de la localidad G ra n d e P equeño Tipo de organización Religioso Social Civil $ 13 00 0 11500 17 300 19 100 16700 $ 1 5 00 0 10600 12 30 0 11400 10 800 $ 2 0 800 18 100 14 600 22300 16 500 15 0 0 0 12 300 13 900 14 300 11700 9 30 0 10400 12 90 0 11000 9100 14 4 0 0 10 80 0 9 700 12300 13 100 3. T r a n s f ó r m e n s e l o s d a t o s d e l e j e r c i c i o 2 r e l a t i v o s a l i n g r e s o e n r a n g o y , u tiliz a n d o la p r u e b a d e K ru s k a l-W a llis , in v e s tig ú e s e s i e x is te o n o r e la c ió n e n tr e e l tip o d e o rg a n iz a c ió n y e l in g re s o : a ) P r e s c i n d i e n d o d e l t a m a ñ o d e l a l o c a l i d a d . R e s p u e s t a , H = 9 .2 ; r e c h a z o a l n i v e l .05. b) C o n t r o l a n d o e n r e l a c i ó n c o n e l t a m a ñ o . 4. U t i l i c e l o s d a t o s d e l e j e r c i c i o 2, y s u p o n g a q u e l a s c o m u n i d a d e s h a n s i d o o r g a n i z a d a s e n tríos d e a c u e r d o c o n s u t a m a ñ o , h a b i e n d o d ie z d e a q u é llo s . L a s o r g a n iz a c io n e s e n l a h i l e r a s u p e r io r ( c o n in g r e s o s d e $ 13 0 0 0 , $ 1 5 0 0 0 y $ 2 0 8 0 0 ) , r e p r e s e n t a n l a s l o c a l i d a d e s m a y o r e s ; la s d e la s e g u n d a h ile r a , la s s ig u ie n te s e n ta m a ñ o , y a s í s u c e s iv a m e n te . U tilíc e s e la p r u e b a d e F r ie d m a n p a r a h a l l a r la r e la c ió n e n tr e tip o d e o r g a n i z a c i ó n e i n g r e s o s d e l p r e s i d e n t e ( a n i v e l .0 5 ). *5. E l a n á l i s i s d e v a r i a n c i a p u e d e p r a c t i c a r s e l o m i s m o c o n d a t o s a g r u p a d o s q u e s in a g r u p a r . C o n o b je to d e r e d u c ir la c o n fu s ió n , lo m á s s e n c illo s e r á s e r v i r s e d e l a s e c u a c io n e s ( X V I.4 ) y ( X V I.5 ) , s in m o d i fic a r, p e ro re c o rd a n d o , s in e m b a rg o , q u e e n el c a s o d e d a to s a g ru p a d o s tr a ta m o s la s m a r c a s c o m o s i e s tu v ie ra n c o n c e n tr a d a s e n lo s p u n to s m e d io s d e lo s in te r v a lo s . T e n ie n d o e n c u e n t a e s ta s in d ic a c io n e s , e f e c t ú e s e u n a n á l i s i s ú n i c o d e v a r i a n c i a c o n l o s d a t o s d e l e j e r c i c i o 2, c a p ítu lo x m . A títu lo d e c o n tr o l d e lo s c á lc u lo s , ¿ c ó m o s e c o m p a r a n e n t r e s í lo s v a lo r e s d e F y f? 6. U t i l i z a n d o l o s d a t o s d e l e j e r c i c i o 2 a n t e r i o r : a ) Ig n o ra n d o el ta m a ñ o d e la lo c a lid a d , b ú s q u e s e la s ig n ific a c ió n d e la d if e r e n c ia e n tr e e l in g r e s o m e d io d e lo s p r e s id e n te s d e la s o r g a n iz a c io n e s re lig io s a s y la s d e lo s c o rre s p o n d ie n te s a la s o rg a n iz a c io n e s s o c ia le s y c iv ile s c o m b in a d a s . b) ¿ Q u é c o m p a r a c i ó n r e s u l t a r í a o r t o g o n a l c o n l a h e c h a e n a ) ? c) S u p ó n g a s e q u e t e n e m o s s e i s t i p o s d e o r g a n i z a c i o n e s ( r e l i g i o s a s e n lo c a lid a d g r a n d e , r e lig io s a s e n lo c a lid a d p e q u e ñ a , s o c ia l e n localidad grande, etcétera). ¿Cuántas comparaciones mutuamen te ortogonales serían posibles? Hállese un grupo específico del anterior núm ero de comparaciones que sean m utuam ente ortogo nales, comprobando que así es el caso. B ibliografía 1. Anderson, R. L., y T. A. Bancroft: Statistical Theory in Research, McGraw-Hill Book Company, Nueva York, 1952, caps. 17 y 18. 2. Blalock, H. M.: "Theory Building and the Statistical Concept of Interaction”, American Sociological Review, vol. 30, pp. 374-380, 1965. 3. Bradley, J. V.: Distribution-free Statistical Test, Prentice-Hall, Inc., Englewood Cliffs, N. J., 1968, cap. 5. 4. Dixon, W. J., y F. J. Massey: Jntroduction to Statistical Analysis, 2“ ed., McGraw-Hill Book Company, Nueva York, 1957, cap. 10. 5. Haggard, E. A.: Intraclass Correlation and the Analysis of Varíance, The Dryden Press, Inc., Nueva York, 1958, caps. 1-5. 6. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry Holt and Company, Inc., Nueva York, cap. 22. 7. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc. Nueva York, 1963, caps. 11-14. 8. Johnson, P. O.: Statistical Methods in Research, Prentice-Hall, Inc. Englewood Cliffs, N. J., 1949, caps. 10 y 11. 9. Kirk, R. E.: Experimental Design: Procedures for the Behavioral Sciences, Brooks/Cole Publishing Company, Belmont, Cal., 1968, cap. 3. 10. Siegel, S.: Nonparametric Statistics for the Behavioral Sciences, McGraw-Hill Book Company, Nueva York, 1956, pp. 166-172, 184-193. 11. Walker, H. M., y J. Lev: Statistical Inference, Henry Holt and Company, Inc., Nueva York, 1953, cap. 14. E n e l p resen te capítulo y en el siguiente exam inarem os la re la ción e n tre dos escalas de intervalo. La extensión a tres o m ás variables de escala de intervalo se verá en el capítulo xix, al tra ta r de la correlación m ú ltip le y parcial. De m om ento, considera m os situaciones en las que tenem os dos m edidas de escala de in tervalo p o r cada individuo. Así, p o r ejem plo, podem os conocer el n úm ero de años de enseñanza com pletados y el ingreso anual de los varones adultos de u n a localidad determ inada. O puede in tere sa m o s relacionar el p o rc en taje de m ano de o b ra em pleado en la in d u stria con el crecim iento dem ográfico de u n a población. E n algunos problem as de esta índole nos interesam os a m enu do no sólo en las pru eb as de significación y las m edidas de gra dos de relación, sino q u e podem os tam b ién q u erer d esc rib ir la naturaleza de la relación en tre las dos variables, de m odo que, conociendo u n a de ellas, podam os an ticip ar la otra. Así, p o r ejem plo, podem os q u erer p red ecir el ingreso fu tu ro de u n a p e r sona sobre la b ase d e su instrucción, o la tasa de crecim iento de u n a ciudad a p a r tir del p o rc en taje de su m an o de o b ra em pleada en la in d u stria. C uando el in teré s se ce n tra an te to d o en la ta re a exploradora de e n c o n tra r cuáles variables se relacionan con u n a variable determ inada, nos interesam os p o r lo regular p rincip alm en te p o r las m edidas de grados o fuerza de las re la ciones, tales com o los coeficientes de correlación. P or o tra p a r te, u n a vez halladas las variables significativas, propendem os a d irig ir n u e s tra atención al análisis d e regresión, en el que in ten tam os p re d ecir el v alor exacto de u n a variable a p a r tir d e la o tra . Si b ien el lecto r ya está fam iliarizado con las p ruebas de sig nificación y las m edidas de asociación, recom iéndase, con todo, em pezar n u estro exam en estudiando el p ro b lem a de la predicción. E sto se debe a que la noción de regresión es a la vez a n te rio r lógicam ente y m ás im p o rtan te teóricam ente q u e la de correlación^ L a razón d e ello se irá viendo m ás clara a m edida que vayam os avanzando. D espués de h a b e r exam inado el p roblem a de la p re dicción, dirigirem os n u e stra atención a la m edición de la fuerza d e la relación. E n el capítulo x v m , que d e hecho re p re se n ta la continuación del p resen te, exam inarem os diversas p ru e b as de significación, así com o la correlación del orden de lugares, que pueden em plearse p a ra relacionar dos escalas ordinales. X V II.1. R egresión lineal y m ínim os cuadrados E n cierto sentido, el objetivo ú ltim o de to d as las ciencias es el d e la predicción. E sto n o im plica, p o r supuesto, que sólo secun377 d ariam en te estem os interesados en com prender o su m in istra r explicaciones causales de p o r qué dos o m ás variables se relacio n an com o lo hacen. Tal vez sea m ás acertad o decir que la com pren sió n co nstituye el objetivo final y que, en la m edida en que la com prensión se va perfeccionando, la predicción se hace cada vez m ás p recisa. Es posible que si la com prensión fu e ra com p leta la pred icción p erfec ta sería tam b ién posible siem pre que se conociera asim ism o cierta inform ación factu al necesaria. P or ejem p lo : si u n o conoce las leyes del m ovim iento d e los planetas, el cam po g rav itato rio d en tro del sistem a solar, y la posición y la velocidad d e V enus en determ in ad o m om ento, p o d ría p re d ecir su m ovim iento fu tu ro . Sin em bargo, independientem ente de las im plicaciones filosóficas de sem eja n te p u n to de v ista determ i n ista, lo cierto es que la predicción constituye el objetivo de toda ciencia. E n sociología y en o tra s ciencias sociales, los enunciados predictivos se fo rm u lan a m enudo, p o r necesidad, en fo rm a relati vam ente b u rd a. P o r lo reg u lar esto se debe a que no hem os al canzado el nivel d e m edición de la escala de intervalo. Así, p o r ejem plo, po d ríam os p re d ecir que cuanto m ás elevada sea la posi ción de u n a p erso n a en el grupo, ta n to m ayor será su confor m ación a las n o rm as de éste. S em ejante enunciado n o necesita im plicar causalidad en u n a sola form a, sino que a firm a sim ple m en te que la posición y la conform idad se relacionan d e m odo positivo. E stableciendo u n a analogía con u n a term inología m ate m ática q ue n o es estricta m e n te correcta, decim os que la posi ción es u n a fu n ció n de la conform idad, o que la conform idad es u n a función d e la posición, eludiendo la cuestión d e la causali dad. Obsérvese, sin embargo-, que hem os dicho m uy poco acerca de la fo rm a de e sta relación, a p a rte de in d icar que es positiva. Y a m enos que tengam os u n nivel de m edición de escala de in ter valo p a ra am b as variables, re su lta efectivam ente m uy difícil de cir m ucho m ás. Supóngase, sin em bargo, que tenem os dos escalas de intervalo. Se hace entonces posible d esc rib ir m ás exactam ente de qué m odo u n a de las variables varía con la o tra. Así, p o r ejem plo podríam os e s ta r en condiciones de decir que, p o r cada añ o de in strucción recibida, el ingreso a u m en ta rá en f 1 000. Si esto fu e ra efectivam ente así, ten d ríam o s en re alid ad u n a relació n m uy sim ple, o sea u n a relación lineal o en línea recta. Sin em bargo, la m ayoría d e las relaciones no son ni con m ucho ta n sencillas, pese a que, según verem os, re su lta a m enudo posible ob ten er una aproxim ación m uy b u en a de la verd ad era relación suponien do linealidad. La fo rm a m ás elegante y sencilla de ex p resar una relación e n tre dos (o m ás) variables es p o r m edio d e u n a ecua ción m atem ática. Así, p o r ejem plo, el lecto r e s ta rá fam iliarizado con ciertas leyes físicas que enuncian u n a relación e n tre la p re sión, el volum en y la te m p e ra tu ra (P V /T = k ), o que indican u n a relación e n tre la razón de aceleración de u n cuerpo al caer, la d istan cia re co rrid a y la duración del tiem po en que h a estado cayendo. Podem os tam bién re p re se n ta r cada u n a de e sta s ecua ciones m atem áticas com o alguna clase de curva geom étrica. Afor tu n ad am en te, en sociología solem os p o r lo regular o p erar con ecuaciones m uy sim ples y con las curvas m ás sim ples posibles (re c ta s). Cuando añadim os m ás variables, no podem os re p re se n ta r tan fácilm ente las ecuaciones como figuras geom étricas, ya que nos salim os de las dim ensiones, de lo cual, sin em bargo, no necesita m os p reo cu p am o s p o r el m om ento. Supóngase que hay u n a variable dependiente Y que h a de p re decirse a p a rtir de u n a variable independiente X . E n algunos p roblem as, X p reced erá obviam ente a Y en el tiem po. P or ejem p lo : p o r lo reg u lar u n a persona com pleta su in stru cció n antes de o b ten er u n ingreso. E n tales casos, sem ejante m an era de re p re se n ta r las cosas re su lta m uy adecuada, pese a que hem os de p o n er cuidado en n o im plicar u n a relación necesaria o causal, o que X es la ú n ica variable que influye sobre el valor de Y. Si la dirección de la causa es am bigua, o si se piensa que cada va riab le es causa d e la otra, necesitarem os, si es que deseam os s u m in istra r u n a explicación teórica de la relación, u s a r u n m é todo de ecuaciones sim ultáneas que escapa a este texto. (V éanse [1], [2 ] y [ 6]. Si n u e stro objetivo es u n a sim ple estim ación o una predicción a plazo breve de Y a p a r tir de X , no se p re se n ta rá n tales am bigüedades, aunque deba señalarse u n a vez m ás que no hay n ad a en las operaciones estadísticas que nos im pida realizar operaciones m atem áticas teóricam ente carentes de sentido. E n éste y en los capítulos sucesivos supondrem os que la variable Y, seleccionada com o dependiente en sentido m atem ático, es asim is m o causalm ente dependiente, de m an era que la in terp re tació n teó rica puede re su lta r relativam ente directa. Y a vim os que si X y Y son estadísticam ente independientes, no podem os p re d ecir Y a p a rtir de X o, m ás exactam ente, el co nocim iento de X no m ejo ra en n ad a n u e stra predicción de Y . P re sum iblem ente, pues, cuando las variables no son estad ísticam en te independientes, el conocim iento de X sí nos ayuda a p re d ecir Y . C uanto m ás fu e rte sea la dependencia, ta n to m ás p recisa será n u e stra predicción. M ás adelante m edirem os la fuerza de esta relación p o r m edio de coeficientes de correlación. Nos concen tram o s de m o m ento en la cuestión acerca d e cóm o predecim os Y a p a r tir de X . Así, p o r ejem plo, podem os q u erer e stim a r el ingreso fu tu ro de u n individuo, sabiendo que h a com pletado tre s años de escuela secundaria. Sin este conocim iento relativo a la instrucción, n u e stra m ejo r estim ación (suponiendo q u e n o hay inflación) sería la del ingreso m edio d e todos los varones adul tos. E n cam bio, el hecho de conocer su instrucción debería p e r m itirn o s o b ten er u n a predicción m ejor. La ecuación d e regresión. R epresentém onos el p roblem a de la si guiente m an era. Nos im aginam os que p a ra cada valor fijo de la variable in d ep en d ien te X (in stru cc ió n ) tenem os u n a d istribución de Y (in g reso s). E n o tro s té rm in o s: p a ra cada nivel educacional O V» CP C3> *4 *5 Educación Fig. X V II.l. F orm a general de la regresión de Y sobre X , o curso de las m edias de los valores de Y para valores fijo s de X. h ab rá cierta d istrib u ció n de ingresos en la población. No todas las perso n as q u e h a n term in ad o la escuela secu n d aría ten d rá n exactam ente los m ism os ingresos, p o r supuesto, p e ro dichos in gresos estarán con todo d istrib u id o s alred ed o r de alguna m edia. Y h a b rá d istribuciones de ingresos sim ilares p a r a los egresados d e la escuela p rim aria, los de la universidad, los posgraduados, etcétera. C ada u n a de estas d istin tas distribuciones d e ingresos (p a ra X d eterm in ad as) te n d rá u n a m edia, y podem os h a c e r u n a g ráfica de la posición de dichas m edias sirviéndonos del sistem a fam iliar de las coordenadas rectangulares. D esignam os el curso re su ltan te de estas m edias de las Y p a ra X fija s com o ecuación de regresión de Y a X . S em ejante ecuación de regresión puede verse ilu stra d a en la fig u ra X V II.l. E stas ecuaciones de regresión son las "leyes” d e la ciencia. En algunos casos h ay m uy poca d ispersión alrededor de la ecuación d e regresión. E n tales casos, pueden h acerse predicciones m uy precisas, y las desviaciones resp ecto de la ley se consideran a m enudo com o e rro r de m edición o com o resu ltad o de influen cias m enores no controladas. La “ley” puede fo rm u larse así com o si existiera u n a perfecta relación e n tre F y l E n el caso ideal, se consid eraría que to d o s los p u n to s caen exactam ente en la curva, y la relación se a b stra e ría com o u n a función m atem ática p erfec ta e n la que n o hay m ás que u n a sola Y p a ra cada X . En las ciencias sociales n o podem os se r ni con m ucho ta n exigentes. E n efecto, esperam os u n a variabilidad considerable alre d ed o r de la ecuación de regresión, y preferim os p e n sa r en térm inos de m e dias y de variancias d e u n a d istribución de Y p a ra cada X . Sin em bargo, el p ro cedim iento es en p rincipio el m ism o en todas las ciencias, p ese a que las leyes de las ciencias sociales no sean ta n precisas com o las d e la física. E n la fig u ra X V II.l hem os indicado el ca rác te r general de las ecuaciones de regresión, q u e co m portan los cursos de las m edias de los valores d e Y p a ra determ inados valores de X . V am os a te n e r que p ro c ed er ah o ra a algunos supuestos sim plificadores, con o b jeto de p o d e r tr a ta r el p ro b lem a estadísticam ente. Si bien la id ea de regresión es perfectam en te general, la m ayoría de la la b o r estad ística sólo se h a realizado con los m ás sim ples d e los m odelos. E n p artic u la r, vam os a su p o n er d e m o m en to : 1) que la fo rm a de la ecuación d e regresión es lineal, 2) que las d istri buciones de los valores de Y p a ra cad a X son norm ales, y 3) que las v arian cias de las distribuciones d e Y son las m ism as p a ra cada valo r de X . Podem os ah o ra h ac er u n exam en de estos diversos su p u esto s un o p o r uno, p re sta n d o la m ay o r atención al p rim ero d e ellos. Si la regresión d e Y a X es lineal, o sea u n a relación en línea recta, podem os e sc rib ir u n a ecuación com o sigue: Y = a + $X (X V II.l) en la q ue a y (3 so n constantes. La ecuación (X V II.l) in d ica que la relación e n tre X y Y es exacta, p ero en brev e hem os d e in tro d u c ir en la ecuación u n térm in o de e rro r. U na fo rm a a lte r n ativ a d e escrib ir la ecuación es la siguiente: E ( Y \ X ) = a + f i X ; en la que E ( Y \ X ) pone de relieve que estam os preocupados con el v alo r esp erado de Y, el que depende de X. H em os utilizado le tra s griegas, ya que d e m om ento tra ta m o s de la población total. E n u n a ecuación de e sta clase, ta n to a com o f? tienen in te rp re ta ciones geom étricas definidas. Si ponem os X igual a cero, vem os que Y = a. P o r consiguiente, a re p re se n ta el p u n to en donde la línea de la regresión c o rta el eje de las Y (o sea, allí donde X = 0 ). La inclinación de la línea de la regresión está d ad a p o r ¡3, ya q u e esta co n stan te in d ica la m ag n itu d del cam bio de Y p a ra u n a u n id a d de cam bio e n X. E l hecho de que la relación sea lineal significa que to d o cam bio de X, digam os en 5 unidades, produce siem pre el m ism o cam bio en Y (e sto es, 5<3 unidades, indepen d ien tem en te de la posición sobre el e je d e X. (véase fig. X V II.2). E l lecto r h a d e convencerse p o r sí m ism o q u e si (3 = 1 y si las uni dades de X y Y están indicadas p o r distancias iguales a lo largo de los respectivos ejes, la línea de regresión fo rm a rá u n ángulo de 45 grados con el eje de las X. U na (3 m ayor que la u n id ad indica u na p en d ien te m ás rápida. C uanto m ás ráp id a sea la pendiente, tan to m ayor es el cam bio de Y p a ra u n cam bio dado de X. Y en fo rm a análoga, si {3 es m enor que la un id ad pero m ayor que cero, se re q u e rirá u n cam bio m ayor de X p a ra p ro d u c ir u n cam bio dado en Y. E n el caso lím ite, en que la línea es horizontal, (3 se hace cero, y los cam bios de X no producen cam bios de Y. E n otros térm inos, si (3 = 0, no existe relación lineal e n tre X y Y. El conocim iento de X no nos ayuda a predecir Y, si se supone un m odelo lineal.1 Si (3 es negativa, sabem os que se d a u n a rela ción negativa e n tre las dos variables, y que m ientras X crece, Y decrece. Una línea re c ta puede d eterm in arse siem pre p o r com pleto si conocem os ya sea dos puntos de la línea o un p u n to y la pen diente. P o r lo tan to , no hay m ás que u n a sola línea de ecuación Y = a + (3A', a condición, p o r supuesto, que se considere a a y |3 como can tid ades fijas (pero generales). Si a y p están dadas, podem os tra z a r la recta tom ando sim plem ente dos p untos d e la misma. Sabem os que cuando X = 0, Y = a. P or consiguiente, el punto (0, a ) se sitúa en la recta. Y así tam bién, cuando Y = 0, tenem os 0 = a + fSX o X = -a /|3 . E ste punto (-a /{ 3 ,0) es, p o r su puesto, el p u n to en donde la línea co rta el eje de las X. Si no i S e g ú n v e r e m o s m á s a d e la n te , la in d e p e n d e n c ia e s ta d ís tic a a s e g u r a q u e p se a c e r o , p e r o n o s e s ig u e n e c e s a r i a m e n te d e a h í que s i es c e ro te n g a m o s in d e p e n d e n c ia . conviene servirse de dichos dos p untos, pueden d eterm in arse otro s dos p u n to s cualesquiera p o r el m ism o p ro ced im ien to .2 S u p u esto s acerca de X y el térm ino de perturbación. H asta ah o ra n o hem os tra ta d o en form a explícita el hecho de que, pues to que h a b rá dispersión alred ed o r de la ecuación de regresión, h ab rem o s de re p re se n ta r el valor real d e Y p a ra cada individuo m ediante u n a ecuación que contenga u n térm in o de p ertu rb ació n o d e e rro r que es ú nico p a ra cada individuo. Si suponem os que Y i y X i se refieren a las puntuaciones correspondientes al i-ésimo individuo, p o drem os re p re se n ta r la relación (lin eal), com o sigue: Y i = a + ¡3X¡ + ei en la que e{ re p resen ta el térm ino de p ertu rb ació n , cuyo com por tam ien to necesitam os estu d iar. Podem os concebir este térm ino com o si contuviera el e rro r de m edición en Y (p e ro n o en X ), y com o re su lta n te de todas las varias causas de Y que n o h an sido llevadas a la ecuación de u n a m an era explícita. Si la m ayor p a r te de estas causas om itidas tienen individualm en te u n efecto m enor, y si adem ás están operando casi independientem ente e n tre ellas, será razonable su p o n er que el valor esperado co rres po n d ien te al fa c to r de p ertu rb ació n E (e {) será igual a cero, y que e¡ e sta rá d istrib u id o en fo rm a aproxim adam ente norm al. Lo que re su lta m uy im p o rtan te es el hecho d e que el fa c to r de p ertu rb ació n será estad ísticam en te in d ep en d ien te de X . R esulta que al u s a r m ínim os cuadrados p a ra e stu d ia r los coeficientes de regresión a y |3, es necesario suponer q u e E( e ) = 0, y que X t y no están relacionados. La suposición de norm alidad, m ás la su posición de hom oscedasticidad, de que oe2 es co nstante a trav és de todos los niveles de X será n ecesaria en las pru eb as de signi ficancia y p a ra la determ inación de los lím ites de confianza. El su p u esto fu n d am en tal que subraya él uso del análisis de regresión es el d e que X sea independiente del fa cto r d e erro r. E n aplicaciones experim entales nos encontram os con frecuencia en la posibilidad d e elegir niveles fijos de X ( como, p o r ejem plo, cuando m antenem os constantes de te m p e ra tu ra a intervalos de 50 g rad o s). E n tales casos, pu esto q u e el nivel de X está b ajo n u estro co n tro l y se p re su m e q u e no es m anipulado en fo rm a que v aríe sistem áticam ente con el fa c to r de p ertu rb ació n , será ra ro p reo cu p arse con este supuesto concreto. Un m om ento de reflexión nos convencería, sin em bargo, de que en m uchas situ a ciones experim entales incluso este su p u esto es inocente, ya que al m an ip u lar X u n o puede in ad v ertid am en te afectar o tro s facto res q u e se q u ed aron fu e ra d e la ecuación y contenidos p o r lo tan to en el facto r de pertu rb ació n . E n la investigación n o experim ental se tom a tan to a las X com o 2 Véase u n e je m p lo n u m é r i c o e n la p á g i n a 392. a las Y com o observadas y n o com o m anipuladas, siendo p o r lo ta n to X y Y variables aleatorias, o lo que se denom ina variables estocásticas, las que tienen u n a distribución de probabilidad. E n algunos casos la distrib u ció n de X será aproxim adam ente norm al, au n q u e esto no es necesario en el caso del análisis de regresión. Lo que resulta esencial, sin em bargo, es el fo rm u lar algunos su p u estos acerca de la distribució n c o n ju n ta de X i y el fa cto r d e p e rtu rb ació n e { . Si tuviéram os a priori razones sólidas p a ra especificar alguna d istribución p artic u la r, esto resu ltaría suficiente, p e ro en la p rá ctica se carece siem pre d e ta l inform a ción. Con m u ch a frecuencia suponem os que X¡ y e¡ son estadís ticam en te independientes, su puesto que re su lta rá justificado si las causas de Y om itidas son, 1) num erosas, aisladam ente sin im portancia, y no m uy interrelacionadas, o 2) sin relación con X en situaciones en las q u e predom inan uno o dos de los factores om itidos. Si u n o n o está disp u esto a h acer ta l suposición en algún caso p artic u la r, d eb erá tr a ta r de id en tificar los m ayores factores p e rtu rb a d o re s que h ayan sido om itidos, introduciéndo los explícitam ente en la ecuación corno variables adicionales. En el capítulo xix exam inarem os la regresión m últiple, en la q u e han sido incluidos tales factores causales adicionales. Una de las ventajas de la te o ría estad ística del análisis d e re gresión co n siste en que está lo suficientem ente d esarro llad a com o p a ra q ue tales supuestos acerca del com portam iento de los facto res de p ertu rb ació n resu lten explícitos. R esu ltará bien claro que lo que hem os dicho acerca del com portam iento de las variables om itidas se aplica igualm ente bien a todos los procedim ientos que h asta aquí hem os exam inado. Si se encuentra, p o r ejem plo, u n a diferencia estad ísticam en te significativa en m edias o proporcio nes, y si se desea a trib u ir u n a explicación causal a la variable in dependiente (p o r ejem plo, sexo) e n esta relación, h a b rá que supo n er tam bién que los factores om itidos no están sistem áticam ente relacionados con la escala nom inal dicotom izada (p o r ejem plo sexo). No es posible soslayar supuestos acerca de variables om i tid as cam biando sim plem ente el tip o del análisis y confiando en que así d esaparecerá el problem a. Ya se in dicó m ás a rrib a que p a ra las p ruebas de significación hem os de su p o n er que las Y están distrib u id as norm alm ente alred ed o r de cada valor de X . P ara las X estocásticas conven d rá tam b ién su p o n er q u e p a ra cad a valor fijo de Y las X están asim ism o d istrib u id as norm alm ente. Decimos que la distribución co n ju n ta de X y Y es u n a d istrib u ció n norm al bivariable, lo que significa que hay dos variables, cad a u n a de las cuales está dis trib u id a alred ed o r de la o tra en fo rm a norm al. S em ejante d istri bución n o rm al bivariable tiene u n a ecuación m atem ática definida y puede re p resen ta rse com o u n a superficie tridim ensional, com o en la fig u ra XVII.3. La a ltu ra de la superficie en u n punto dado (X , Y) es pro porcional al núm ero de casos en el m ism o. Así, pues, se req u iere u n diagram a tridim ensional p a ra re p resen ta r la d istrib u ció n co n ju n ta e n tre X y Y , del m ism o m odo que nece sitábam os dos dim ensiones p a ra re p re se n ta r la distribución de frecuencia de la X sola. La form a exacta de esta figura, que se Fig. XVII.3. La d istribución norm al bivariable. (Con autoriza ción de A. M. Mood, In tro d u ctio n to th e T heory o f Sta tistics, McGraw-Hill Book Company, Inc., N ueva York, 1950, fig. 41, p. 165.) parece m ucho a u n casco de bom bero, depend erá de cuán cerca n am ente estén relacionadas las variables e n tre sí. Si am bas variables se h a n expresado e n térm inos de unidades de desviación están d a r, entonces, cu an to m ás relacionadas estén las variables tan to m ás angosto será el casco. E n el caso extrem o, en el que Y puede p redecirse exactam ente a p a rtir de X y, p o r consiguiente, todos los p u n to s están exactam ente en la ecuación de regresión, las desviaciones están d a r de las Y p ara cada X se rían cero, y el casco n o ten d ría grueso alguno. P or o tra p a rte , si no ex istiera relación alguna en tre X y Y, la b ase del casco sería m ás ap roxim adam ente circular. C ualquier plano perp en d icu lar al p lan o X Y co rta ría la superficie en u n a curva norm al. E n ta n to que u n p lano paralelo al plan o X Y c o rta rá el casco en u n a elipse. La d istrib u ció n n orm al bivariable posee la propiedad de que la reg resió n de Y a X sea lineal. P or lo tan to , si tenem os u n a dis trib u ció n n o rm al bivariable, sabem os que, si trazam os las m edias de las Y p a ra cada X, el re su ltad o será u n a recta, No se sigue de ahí, sin em bargo, que si la regresión es lineal, la distribución co n ju n ta sea n ecesariam ente norm al bivariable. E n el caso de las p ru e b as de significancia necesitarem os tam bién su p o n er que las desviaciones está n d a r de las Y p a ra cada X son las m ism as, independientem ente del v alo r d e X . E ste su p u esto se ex am inará en conexión con el te m a d e la correlación, ya que ésta es esencialm ente u n a m edida de dispersión alrededor de la lín ea d e regresión. De m om ento b asta, con todo, señalar que si la d istrib u ció n co n ju n ta es n o rm al bivariable, las desvia- Fig. XVII.4. Diagrama de dispersión y recta d e m ínim os cuadrados. ciones e s tá n d a r de las Y p a r a ca d a X serán de hecho to d as idén ticas. E sta p ro p ied a d de v arian cias iguales se designa com o hom oscedasticidad y es análoga al su p u esto hecho en el análisis de v arian cia d e que ai = c2 — • • • = <*&• M ínim os cuadrados lineales. El m odelo de regresión que h e m os estad o exam inando es m ás bien sencillo en sus conceptos, p ero no es p o r desgracia d irec tam en te ú til en su fo rm a teórica. Es ra ro , en efecto, q u e tengam os suficientes casos p a ra exam inar la d istrib u ció n d e las Y p a ra valores fijos sucesivos d e X . Con m ayor frecu en cia encontram os que hay relativam ente pocos ca sos en los que las X sean idénticas o aproxim adam ente tales. Si hacem os u n a gráfica de la d istrib u ció n de los casos alrededor de los ejes d e las X y las Y e n la fo rm a convencional, en co n tra m os p o r lo re g u la r tina d ispersión d e p u n to s com o la que se indica en la fig u ra XVII.4. Y si hacem os u n a gráfica de la d is trib u ció n de los p u n to s en e sta form a, obtenem os lo que se de signa com o esquedogram a o diag ram a de dispersión. El estu d ian te h a d e aco stu m b rarse a d ib u ja r u n diagram a d e dispersión an tes de p ro c ed er al análisis u lterio r. La m era inspección del diagram a en cuestión, en efecto, puede acaso in d icar que no tiene o b jeto seguir adelante. Así, p o r ejem plo, si los puntos aparecen en el diagram a com o si estuvieran d istribuidos al azar, re su lta claro que no existe relación, o sólo u n a relación m uy débil, en tre las dos variables. Una vez fijad as las m arcas en u n diagram a de dispersión, po dem os q u erer acercarnos a dichos p u n to s p o r m edio de alguna clase de cu rva q ue sea la m ás adecuada. U na de las m an eras de hacerlo es tra z a r u n a curva (en el p re sen te caso una re c ta ) p o r inspección. Sin em bargo, existen p a ra ello m étodos m ás preci sos. Uno de éstos es el m étodo de los m ínim os cuadrados, que se exam inará en la p re sen te sección. N uestro objetivo es ah o ra algo d istin to del objetivo del análisis de regresión, en el que trazábam os el cu rso d e la m edia d e las Y . Aquí, en efecto, que rem os apro x im am o s a cierto núm ero d e p untos p o r m edio de u n a cu rva de m e jo r adaptación. Con o b jeto de serv im o s de la teo ría de los m ínim os cu ad ra dos, hem os d e p o stu la r la fo rm a de la curva a utilizar en la adap tación d e los datos. E n el caso del análisis de regresión, la fo rm a de la cu rva se h allaría p ro p iam en te d eterm in ad a p o r el curso de las m edias, suponiendo que se dispone de datos re la ti vos a la población en tera. Vamos a to m a r u n a vez m ás la curva m ás sim ple posible, la recta, com o curva d e nu estro s m ínim os cuadrados. E sto significa que hem os d e a d a p ta r los datos a una re c ta d e m e jo r aju ste, conform e al crite rio de los m ínim os cuadrados, obteniendo u n a ecuación de la fo rm a : Y = a + bX (X V II.2) R esu ltará así que la a y la b obtenidas con este m étodo son las apreciaciones insesgadas m ás eficaces d e los p arám etro s d e la población, a y p, si la ecuación d e regresión es efectivam ente u n a re cta y si suponem os : 1) M uestreo al azar, 2 j Que E ( e{) = 0, y 3) Que X{ y son estadísticam ente independientes. N u estro criterio d e los m ínim os cuadrados com porta h a lla r la única re c ta que posee la pro p ied ad de que la sum a de los cua d rados de las desviaciones de los valores reales de Y respecto de dicha re c ta sea m ínim a. Así, p o r ejem plo, si trazam os líneas verticales d e los p u n to s a la línea de los m ínim os cuadrados"^ y si elevam os al cuadrado dichas distancias y las sum am os, la sum a re su ltan te será m en o r que la su m a correspondiente de cua d rad o s a cu alq u ier o tra re c ta posible (véase la figura X V II.5). O bsérvese que son las distancias verticales, y no las perpendicu lares o las horizontales las que aquí se consideran. S ería posi ble m inim izar la sum a de los cuadrados de las distancias p er p endiculares (d esignada com o sum a ortogonal de los m ínim os cu ad rad o s), p e ro las ecuaciones de ello resu ltan tes no son ni con m u ch o ta n p rácticas. Y si se em plearan las distancias ho rizontales, la re c ta de m ínim os cu adrados re su lta n te p o d ría u ti lizarse p a ra ap re c ia r la regresión d e X a Y. E l lecto r h a de convencerse p o r sí m ism o q u e m inim izar la su m a de cuadra dos de las d istan cias verticales n o m inim iza necesariam ente la su m a de cu adrados de las d istancias horizontales. Así, pues, E cuación de m ín im o s cuadrados, que m in im iza las sum as de los cuadrados de las distancias verticales y estim a la regresión de Y sobre X . F ig . X V I I .5 . p odem os o b te n e r v arias líneas de m ínim os cu ad rad o s distin tas. P ero éstas sólo coincidirán si todos los p u n to s q u ed an exacta m en te en u n a sola línea. R esulta asim ism o que, al m inim izar la su m a d e los cu adrados de las distancias verticales, en c o n tra m os de hecho la re c ta q u e posee la p ro p ied a d d e q u e la sum a de las d istan cias verticales positivas y negativas sea cero y la desviación e stá n d a r de los p u n to s re sp ecto de aquélla sea m íni m a. E ste concepto d e la desviación e stá n d a r de las Y se exam i n a rá con m ay o r d etalle m ás adelante. Con o b jeto d e o b te n e r la línea d e m ínim os cuadrados, pues, necesitam os calcu lar la a y la & q u e d eterm in an la línea provista de la p ro p ied a d deseada. E sta clase d e problem as p u ed e resol verse fácilm ente p o r m edio del cálculo y conduce a las siguientes fó rm u las de cálculo d e a y 6.3 3 P a r a lo s e s t u d i a n te s f a m ilia r i z a d o s c o n e l c á lc u lo e l e m e n t a l v a m o s a d e l i n e a r l a n a t u r a l e z a d e l a d e r iv a c ió n . C o m e n z a r e m o s c o n l a e c u a c ió n y 4 = a + bXi + e{, e n l a q u e ei e s u n t é r m i n o r e s i d u a l q u e p u e d e s e r u t i l iz a d o p a r a e s t i m a r e l r e s i d u a l t i d e l a e c u a c ió n d e r e g r e s i ó n . D e s e a m o s m i n i m iz a r l a s u m a d e lo s c u a d r a d o s d e e s to s r e s id u a le s , e s d e c i r : l a c a n t i d a d 2 e i a = 2 ( 3 ^ — 'O— c o n r e s p e c to a l a s d o s c a n t i d a d e s a y b, N N 2 Y i - b 2 Xi a = — ----------- ÜIÍ-------------------------------------= Y — b X (X V II.3) N y 2 (Xí - X K Y í - Y ) i=X 6 = ------ — ----------- -------- 2 (Xt -X y * i= l 2 t= l = — -------- (X V II.4) 2 x 42 i= l en do n d e x i = X i — X y y t = Yt — Y. O bsérvese que en estas ecua ciones a y b son las incógnitas, hallándose las o tra s cantidades d eterm in ad as a p a r tir d e los datos. U na vez que se haya obtenido b, a p u ed e calcularse fácilm ente a p a r tir d e la p rim e ra de las dos fórm ulas. Podem os, pues, c e n tra r n u e s tra atención en el cálculo de b. N _ _ E l n u m era d o r d e b co m p o rta la expresión 2 ( X { — X ) ( Y i — Y ) i—i q u e se designa com o covariación de X y Y. E sta can tid ad es direc tam en te análoga a las sum as de cu adrados ta n to de X com o d e Y, excepto que, en lu g ar d e elevar al cu ad rad o ( X — X ) o ( Y — Y) , tom am os el p ro d u cto de estos dos térm in o s. O btenem os en esta fo rm a u n a m ed ida de cóm o X y Y v aría n ju n ta s, y d e ahí el nom b re de covariación. Si dividim os e sta expresión e n tre N , o b ten e m os, p o r analogía, lo que se designa com o covariancia. V erem os in m ed iatam en te que b p u ed e p o n erse igual a la razón de la co v ariancia a la variancia en X. Si exam inam os m ás d e cerca la covariación de X y Y, vem os que, a d iferen cia d e u n a sum a de cuadrados, la covariación puede to m a r valores ta n to positivos com o negativos. Si X y Y se re la cionan positivam ente, entonces valores grandes de X se asocia rá n p o r lo re g u la r con valores grandes de Y. Así, pues, si X > X, será p o r lo re g u lar cierto que Y > Y. Y asim ism o, en el caso de u n a relación positiva, si X < X, ten d rem o s generalm ente Y < Y. P o r consiguiente, el p ro d u c to de ( X — X ) y ( Y — Y ) será n o rm al m en te positivo, y la sum a de estos p ro d u cto s será asim ism o posi tiva. Y en fo rm a análoga, si X y Y se relacionan negativam ente, esp eraríam o s que, si X > X, entonces Y será m en o r q u e Y, y la su m a d e p ro d u cto s re su lta n te será negativa. Si no existe relación, entonces ap ro x im adam ente la m ita d d e los p ro d u cto s serán posi tivos y la o tra m ita d negativos, ya que X y Y v ariarán indepena l a s q u e a q u í s e t r a t a c o m o d e s c o n o c id a s . T o m a m o s d e r iv a tiv o s p a r c i a le s c o n r e s p e c to a a y 6 ; l a s h a c e m o s ig u a l a c e r o , y r e s o lv e m o s l a s d o s e c u a c io n e s r e s u l t a n t e s ( a l a s q u e s e d e n o m in a ecuaciones normales ) p a r a a y b. E s t e m i s m o p r o c e d i m i e n t o e s d e a p lic a c ió n a l c a s o m u l t i v a r i a d o . dientem ente. E n este caso, b se rá cero, o vecino de cero. P or lo tan to , cu an to m ayor sea el valor num érico de la relación, inde p en d ien tem en te de la dirección, ta n to m ayor será el valor num é rico de la covariación. Como h ab rem o s de v er en breve, la co variación fig u ra tam bién en el n u m era d o r del coeficiente de correlación, que es n u e stra m edida del grado de asociación. En el caso de b, tom am os la covariación y la dividim os e n tre la sum a de los cuad rados en X , con o b jeto d e o b ten er n u e s tra estim a ción de la p en d ien te de la ecuación de regresión. E s m ás conveniente servirse p a ra la covariación de u n a fórm u la que es d irectam en te análoga a la fórm ula de cálculo de la sum a de los cu ad rad os y puede derivarse en fo rm a sim ilar. Podem os escrib ir la fó rm u la de cálculo de b com o sig u e : n z x y - o x x sr) N 2 X 2 - ( 2 X )2 E n la ecuación (X V II.5), ta n to el n u m era d o r com o el denom ina d o r se h a n m ultiplicado p o r N, con o b jeto d e re d o n d ear los erro res debidos a la división y con o b jeto de facilitar el cálculo con u n a calcu lad o ra.4 Problem a. S upóngase que tenem os los datos del cu ad ro X V II.l, en donde X re p resen ta el p o rc en taje de negros en las grandes ciudades del M edio Oeste, y Y indica la diferencia e n tre las m edia n as de los ingresos de los blancos y los negros, com o m edida de d iscrim inación económ ica.6 Cuadro X V II.l. Datos para u n problem a de correlación Porcentaje de negros X Diferencia de ingresos Y Porcentaje de negros X Diferencia de ingresos Y 2.13 2.52 11.86 2.55 2.87 4.23 • $809 763 612 492 679 635 4.62 5.19 6.43 6.70 1.53 1.87 10.38 $859 228 897 867 513 335 868 4 En esta y las fórmulas posteriores hemos prescindido de los subíndi ces, ya que se opera siempre la suma total de los casos, del cuadro N. 5 Aunque la palabra "negro" puede resultar ofensiva para algunos lecto res, resulta necesario mantener esta terminología al referirse a los datos del censo, como contraste con otros datos hipotéticos o los obtenidos de otras fuentes. A p a r tir de los dato s podem os calcu lar cinco sum as que, ju n to con N , son to d o lo que necesitam os p a ra tr a ta r los p ro b lem as de regresión y correlación. Todas estas su m as m enos u n a se em p learán en los cálculos d e a y b. Los cálculos pueden resu m irse com o sigue: N = 13 2 X = 62.88 2 Z 2 = 432.2768 2 Y = 8 557 2 Y 2 = 6 192 505 H X Y = 43 943.32 Aquí la ú n ica ca n tid a d nueva es 2X Y . Si ponem os estos valores en las fó rm u las d e a y b, tenem os a h o ra : W 2 X Y -(2 X )(2 Y ) W2 X 2 - ( 2 X )2 13(43 943.32) -( 6 2 .8 8 )( 8 557) _ 33 199.0 13(432.2768) - (62.88)® 1 665.7 ~ 19-931 2 Y -& 2 X a = -----------------N 8 557 — (19.931)(62.88) = ------------:---------1:------- 1 = 561.83 13 P o r lo tanto, la ecuación lineal re su lta n te es : Y P = a + b X = 561.83 + 19.931X en donde hem os utilizado Y P p a ra in d ic a r que los valores de Y se h a n estim ado a p a r tir de u n a ecuación d e m ínim os cuadrados. Como ya se indicó an terio rm en te, las a y b obtenidas p o r este m éto d o son las estim aciones insesgadas m ás eficaces d e a y p, o sea los coeficientes de regresión reales a condición d e que el fa c to r de p ertu rb ació n e» en la ecuación Y i = a + pXj + gj tenga u n v alo r esp erad o d e cero n o relacionado con X , y siem pre, p o r o tra p a rte , de que tengam os u n a m u e stra al azar de la población q ue estudiam os. P o r consiguiente, la lín ea de m ínim os cu a d ra dos será la m e jo r apreciación d e la v erd ad era regresión, si la ecuación d e reg resión es efectivam ente lineal. La ecuación de los m ínim os cuadrados posee asim ism o la p ro p ied ad d e p a s a r p o r el p u n to (X ,Y ), que re p re se n ta las m edias d e X y d e Y. E sto p u ed e verse en la ecuación (X V II.3). Ya que a = Y — bX te n e m o s : Y = a + bX lo que indica que estos valores de X y Y satisfacen la ecuación. P o r consiguiente, el p u n to (X , Y ) queda exactam ente sobre la línea. E n el p ro b lem a an terio r, si sabem os el valor de X (p o rcen taje de negros) p a ra cualquier ciudad d ad a del M edio Oeste, n u estra m ejo r estim ación del valor de Y sería aquel valor de Y que co- Porciento de nearos Fig. X V II.6. Diagrama de dispersión y recta de m ín im o s cuadra dos para los datos del cuadro X V I I A. rresp o n d e en la ecuación de los m ínim os cuadrados a la X dada. Como q u iera que las m arcas d e discrim inación indican diferen cias (en d ó lares) entre los ingresos (en m edianas) de los blancos y los negros, vem os que u n au m ento del 1 p o r ciento de los ne gros co rresp o nde a u n a diferencia de $ 19.93 en dichos ingresos. En la fig u ra X V II.6 se h an trazad o u n diagram a de dispersión y la ecuación de los m ínim os cuadrados. Con objeto de ilu stra r el em pleo de sem ejante ecuación d e predicción, si supiéram os que h ab ía u n 8 p o r ciento de negros en u n a ciudad determ inada, la diferencia estim ativa del ingreso m ediano sería: Y p = a + b( 8) = 561.83 + (19.931 ) ( 8) = f 721.28 Vemos en la fig u ra que se h a b ría obtenido aproxim adam ente el m ism o re su ltad o con la gráfica. Observem os de p aso que, hacien do X = 8 y resolviendo en relación con Y, hem os localizado un segundo p u n to d e la línea, que puede utilizarse a continuación con o bjeto de tra z a r la línea en el diagram a de dispersión. XVII.2. Correlación Supongam os a p a r tir de ah o ra que X es estocástica, y n o so m etid a p o r tan to al control del investigador. No sólo deseam os conocer la fo rm a o la n atu raleza de la relación e n tre X y Y, de m odo que u n a de las varia bles p u ed a p re d ecirse a p ar tir de la o tra, sino que es necesario al p ro p io tiem po conocer el grado o fuerza de la relación. E s obvio que si la relación es m uy débil, no tie n e o b jeto tra ta r de p red ecir Y a p a r tir de X . Los soció logos tien en a m en u do in te rés an te todo en d escu b rir cuáles de u n g ran n ú m ero de variables se relacionan m ás de cerca con u n a variable dependiente determ inada. En los estudios de exploración de esta clase, el análisis de S in relación regresión rev iste im p o rtan cia secundaria. A m ed ida que u n a ciencia va m ad u ran d o y que se d escubren variables im p o rtan tes, la atención pue (*> de c e n trarse en m étodos de p redicción exacta. Algunos estadígrafos son del p arece r Relación negativa débil x que en conjunto se h a p re s tado dem asiada atención a F ig. XVII.7. Diagrama de dispersión la correlación y casi ningu que muestra las diferentes fuerzas y n a al análisis de regresión. direcciones de las relaciones entre Que esto sea así o que no lo X y Y. sea depende, p o r supuesto, del estad o del conocim iento en la ciencia considerada. El coeficiente de correlación r, que vam os a exam inar en esta sección, fuie in tro d u cid o p o r K arl P earson y se designa a m enudo com o correlación m om ento-producto, con o b jeto de distinguirla de o tra s m edidas de asociación. E ste coeficiente m ide la canti d ad de dispersión a lre d ed o r de la ecuación lineal de los m ínim os cuad rad o s. H ay u n coeficiente correspondiente de población rh o (p ), que m ide la b o n d ad del a ju ste a la verd ad era ecuación de regresión. O btenem os u n a estim ación r d e dicho p arám etro mi* diendo las desviaciones r e s p e t o de’ la lín ea calculada p o r m edio de los m ínim os cuadrados. Como q u iera q u e la ecuación d e regresión re p re se n ta el curso d e las m edias de las Y p a ra u n as X dadas, sería tam b ién posible m ed ir la d isp ersión resp ecto d e esa línea tom ando u n a desviación e stá n d a r d e la m ism a.6 S in em bargo, los investigadores de la m ayoría d e los cam pos de aplicación se h an aco stu m b rad o al coe ficiente de co rrelació n ; es probable, con todo, que el coeficiente de correlación se m antenga. Posee la v en taja de se r de fácil in terp retació n , v su re co rrid o va de — 1.0 a 1 .0. hecho que re su lta atractiv o p a r a la m ayoría de los p rácticos. Según verem os, en efecto, la relación e n tre el coeficiente de correlación y la des viación e stá n d a r respecto de la lín ea d e los m ínim os cuadrados es m uy sencilla, hecho que p u ed e u tilizarse p a ra p ro p o rcio n ar u n a in terp re tació n de r. Se acaba de in d icar que r tiene u n lím ite su p erio r de 1.0. Si todos los p u n to s se hallan, exactam ente sobre la x e c ta . r será OT o — LO. según q ue l a relación sea positiva ó negativa. Y si los p u n to s están disperâdos_^L azaj^.x^firá cero. C uanto m e j o r s ^ el a ju s te /ta n to m ay o r será la m ag n itu d de r. Es lo que se indica en la fig u ra XVII.7. O bsérvese que r es u n a m edida d e relación lineal, ya que es una m ed id a de la b o n d ad de a ju ste d e la línea, d e los m ínim os cua drados. El lecto r n o debe caer en el e rro r de su p o n er que si r = 0 (o srQ = 0 - ) ;n o c is t e relación alguna,. E n efecto, si n o hay relación, síguese que r será aproxim adam ente cero y h a b rá una dispersión de p u n to s al azar. Sin em bargo, puede h a b e r u n a rela ción p erfec ta m e n te curvilínea y, con todo, se r r cero, indicando que n o se d a recta alguna que satisfaga los datos. É ste es el caso en la fig u ra X V II.8, p o r ejem plo. P or lo tan to , si el investigador en cu en tra u n a correlación d e cero, h a b rá d e p recav erse c o n tra la deducción de q u e n o existe relación e n tre las variables. P o r lo re gular, la inspección del diagram a d e dispersión in d icará si hay o no relación d e hecho, o si la relación es suficientem ente no li neal p a ra p ro d u c ir u n a correlación de cero. E n la m ayoría de los pro b lem as sociológicos, las relaciones pueden aproxim arse razonablem ente p o r m edio de re ctas. Sin em bargo, esto no signi fica que n o se d eb a e sta r b a sta n te a le rta co n tra excepciones even tuales. H asta el p re sen te no hem os definido todavía el coeficiente de correlación, p e ro podem os h ac erlo fácilm ente en los térm inos d e la fó rm u la: 8 La naturaleza exacta de semejante medida se examinará más adelante. De momento podemos señalar simplemente que representa una extensión del concepto de la desviación estándar, en la que la media de las Y ya no se toma como fija, sino que se considera función de X. V[2(X-X)2][2(y-D2] VtS^XSy2) U o ralm en te: el coeficiente de correlación es la razón de la co variación a la raíz cu a d rad a del p ro d u c to de la variación de X y la variación de Y. D ividiendo el n u m era d o r y el denom inador e n tre N y poniendo esta cantidad com o JV2 b a jo el radical, vem os r Fig. X V II.8. Diagrama de dispersión de una relación no lineal perfecta, en que r = 0. que r p u ed e tam bién definirse com o la razón d e la covariancia al p ro d u cto de las desviaciones e stá n d a r d e X y Y. lia covariancia es la medida, d éla"ygffácigñ conju n ta de X y Y, p ero su m agnitud depende d e l a can tid ad to ta l de v a ria b ilid a d d é las dos variables. Como q u iera que el v alo r num érico de la covariancia pu ed e ser considerablem ente m ayor que la unidad, n o re su lta conveniente em plearlo d irectam en te com o m edida d e asociación. E n lugar de ello, estan d árizam os dividiendo e n tre el p ro d u c to d e las dos des viaciones están d ar, con lo que obtenem os u n a m edida que varía e n tre — 1.0 y 1 .0. Y a vim os que la covariancia será cero siem pre que X y Y no estén relacionadas. P uede d em o strarse tam b ién fácilm ente que el lím ite su p erio r de r es la unidad. Tom em os, p o r ejem plo, el caso en q u e b es positiva y todos los p u n to s se en cu en tran exac tam en te so b re la recta. E n ta l caso, p a ra cad a Y podem os escrib ir Y = a + b X . Y com o q u iera q u e el p u n to ( X , Y ) se en cu en tra tam bién so b re la recta, tenem os Y = a + bX. P or consiguiente, p a ra todos los p u n to s sobre la re c ta te n e m o s : Y - Y = ( a + b X ) - ( a + bX) = b (X - X ) De d o n d e: y 2¡(X - X ) ( Y - Y ) = - X)* 2 ( y - r ) 2 = b s2 ( X - X )2 La inspección del n u m era d o r y el denom inador d e r in d ica ah o ra que, en estas condiciones, r = 1.0. Y en fo rm a análoga, puede d em o strarse q u e si todos los p u n to s se en c u en tran exactam ente so b re u n a lín ea d e pen d ien te negativa, la r re su lta n te se rá — 1 .0. Conviene o b serv ar asim ism o la relación e n tre el coeficiente de correlación y las pendientes de las dos ecuaciones de los m ínim os cuadrados. Si hacem os que byx sea la pendiente de la ecuación de m ínim os cu adrados estim ando la regresión de Y sobre X, y dejam os que bmy indique la p en d ien te de la estim ación de la re gresión de X so b re Y, tenem os, p o r sim etría, q ue: t _ 2 (X -X )(Y -Y ) ®ccy — — 2 ( Y — Y )2 en donde X = axy + bxyY Así, pues, r tien e el m ism o n u m era d o r que las dos b. Si éstas son cero, síguese que r h a de se r tam b ién cero y viceversa. P ara sum as de cuadrados en X y Y dadas, el valor de byx (o de b ^ ) será p ro p orcional a r. E sto p arece ría conducir a la conclu sión de que la fuerza de la relación sea proporcional a la pendien te de la línea de los m ínim os cuadrados. Sin em bargo, esto sólo será así si el denom inador p erm an ece fijo. Así, pues, b es u n a función n o sólo de la fuerza de la relación, sino tam b ién de las desviaciones e s tá n d a r.7 Si h ay b a sta n te variabilidad en X , en re lación con Y, el v alor de b será relativ am en te pequeño, indicando que se re q u ie re u n gran cam bio de X p a ra p ro d u c ir u n cam bio m o derado de Y. Como lo verem os después, los valores nu m é ricos de las b dependen, p o r consiguiente, de la m ag n itu d de las unidades de m edida. El valor de r se h a estan d a rizad o d e m odo que sea h a sta cier to pu n to in d ependiente de las m agnitudes relativas d e las desvia ciones e s tá n d a r en X y Y. S ería en efecto desdichado que no fu e ra así, ya que difícilm ente deseam os u n a m ed id a que v aria ra 7 Excepto en los casos en que ello pudiera dar lugar a confusión, seguire mos sirviéndonos de b sin subíndice para representar & . según que escogiéram os com o u n id ad m o n etaria dólares o centa vos. Se o b serv ará en las fórm ulas de r y las b que r2 pu ed e ex p re sa rse en térm in o s d e estas últim as. Así, pu es: [S x y ]2 = (X V IL ?) E l le c to r h a rá bien en verificar que cuando r es 1.0 (o — 1.0), b ym= l/b zy, lo que significa que las dos ecuaciones d e m ínim os cu ad rad o s coinciden. P o r lo regular, a m edida que r se acerca a cero, el ángulo e n tre las dos líneas se va haciendo cada vez m a yor, h a s ta que, r = 0, las líneas se h acen perp endiculares. F inalm ente, podem os in tro d u c ir u n a fó rm u la de cálculo p a ra r que co m p o rta las cinco sum as prev iam en te obtenidas en co nexión con los cálculos de a y b. La fó rm u la e s : ________ V tW S X 2 - C£X)2][jV2Y2 - (2 Y )2] (X V II.8) E l n u m erad o r, p o r supuesto, h a sido ya calculado, lo m ism o que u n a p a rte del denom inador. Así, pues, la correlación e n tre el p o rc e n ta je de negros y el índice de discrim inación es: 13(43 943.32) - (62.88)(8 557) r = —---------------------------- ---------------------------------------------- y[13(432.2768) _ (62.88 )2][ 13(6192 505) - (8 557)2] 33 199 110120 ■= .301 Conviene o b servar que se pueden ad icio n ar valores ta n to a X com o a Y, o su straerlo s, sin afectar el v alo r del coeficiente de correlación. De fo rm a análoga, r no se v erá afectado p o r u n cam b io de escala en cu alq u iera d e las variables. E sto equivale a decir, d e hecho, que la correlación e n tre el ingreso y la educación es la m ism a, ya sea que se m ida el ingreso e n dólares o en cen tavos. Sin em bargo, au n q u e el coeficiente de correlación sea in v arian te en tran sform aciones d e e s ta clase, la ecuación de los m ínim os cuadrados, e n cam bio, n o lo es. E n efecto, la adición o su stracció n de valores afecta el v alo r n um érico de a. Y un cam bio de escala afecta la pen d ien te de la línea. Así, p o r ejem plo, si cad a X se divide e n tre 10 m an ten ien d o a la Y fija, la b re su lta n te se v e rá m u ltip licad a p o r 10. El lecto r h a rá bien en verificar q u e estas p ro p ied ad es se m antienen, exam inando las fórm ulas d e r, a y b. E stos hechos pu ed en u tilizarse con o b jeto de simpli- ficar los cálculos. Así, p o r ejem plo, si X co m p o rta u n núm ero m uy g ran d e o u n decim al m uy pequeño, u n cam bio d e escala pue de re d u cir el riesgo de e rro res d e cálculo. O bien, si la variable X consta d e valores tales com o 1 207, 1 409, 1 949 y 1 568, se reco m en d ará p ro b ab lem en te su s tra e r 1 000 de cada m arca. Algunas ru tin as d e cálculo requieren q u e todos los valores sean positivos. X (b) X Fig. XVII.9. Diagramas de dispersión que m uestran los efectos posibles de valores extrem os de X . P or lo tan to , al calcu lar r p u ed e re s u lta r necesario a ñ a d ir a cada valor u n n ú m ero ligeram ente su p erio r a la m arc a negativa m ayor. H ay que te n e r presente, e n este pu n to , o tro hecho relativo a la correlación. Y es que, com o q u iera que esta m ed id a com porta variancias y covariancias a la vez, se ve sum am ente afectada por unos pocos valores extrem os de cualq u iera de las dos variables. P o r o tra p a rte , la m agnitud d e r depende del grado de variabili d ad general d e la variable independiente. Es lo que ilu stra la figura XVII.9. E n la figura XVII.9a, el efecto de u n o o dos valo res extrem os p ro d u ce u n a correlación m oderadam ente alta cuan do no se d a nin g una en los casos re sta n te s. E n la fig u ra XVII.9&, tenem os u n a relación lineal m o d erad am en te elevada, excepto en cu anto al hecho d e que los casos extrem os n o quedan en línea re cta con los dem ás. E n este ú ltim o caso tenem os probablem en te u n ejem plo de relación n o lineal. El diagram a de dispersión re s u lta rá siem pre ú til p a ra in d icar la n atu ra leza de la situación en u n p ro b lem a determ inado. Veam os ah o ra lo que pu ed e h a cerse cu an d o se p re sen ta u n a u o tra de estas situaciones. La fig u ra X V II.9a ilu stra el p u n to an terio rm en te señalado de que la m ag n itu d del coeficiente d e correlación depende del m arY X Fig. X V II.10. Diagrama d e dispersión que no m u estra relación alguna den tro de u n recorrido lim itado de variación de X, pero con relación positiva sobre el recorrido total. gen de v ariab ilid ad de am b as variables. Si h u b iera h ab id o u n n ú m ero m ayor d e casos extrem os, la d istrib u ció n re su lta n te h a b ría p odido se r com o en la fig u ra XVII.10. E n este caso, la co rrelació n c o n ju n ta p o d ría se r alta, p e ro en el in te rio r d e cual q u ier re co rrid o lim itad o de las X la correlación puede se r vecina d e cero. E sto in d ica d e hecho que hay insuficiente v ariabilidad de X en el in te rio r d e dicho re co rrid o lim itad o p a ra c o n tra rre sta r los efectos de las nu m ero sas variables incontroladas. E n reali dad, X e s tá siendo m a n ten id a casi constante. P or consiguiente, si el diag ram a d e d ispersión re su lta se r sem ejan te al de la figura XVII.9íz, h a b ría q ue tr a ta r de ex ten d er el re co rrid o de variabili d ad de X h allan d o m ás casos extrem os. Si la extensión del re c o rrid o d e variab ilid ad no re su lta p rá c ti cam en te posible, o si el in te ré s del investigador se ce n tra an te to d o en casos m enos extrem os, será ta l vez m ás razonable p re s c in d ir to talm e n te e n el análisis de los casos extrem os. Así, p o r ejem plo, supongam os que X es el tam añ o d e las ciudades y que la ciu d ad de N ueva Y ork fig u ra en la m u estra. A m enos que haya u n g ra n n ú m ero de ciudades de tam año correspondiente, y n o las hay, p u ed e re s u lta r necesario lim ita r la atención a ciudades de m enos de 500 000 hab itan tes. E n algunos casos p o d rá parecer indicado calcu lar r ta n to con los casos extrem os com o sin ellos. Es obvio que la decisión dependerá de la naturaleza del problem a y del in terés del sociólogo. El lecto r h a de p ercatarse bien del hecho de que u n a o dos m arcas extrem as pueden eventualm ente ejercer u n efecto m uy pro n u n ciad o sobre el tam añ o de r, hecho que e n alguna fo rm a debe tenerse siem pre en cuenta. De ahí que el reco rrid o d e v ariabilidad debiera consignarse ju n tam en te con los coeficientes d e correlación. E sto constituye o tra ilustración del p u n to im p o rtan te relativo a q u e u n a sim ple m edida de resu m en, p o r m uy su p erio r que sea resp ecto de o tras, pu ed e ser a m enudo d eso rien tadora. Si los dato s se p re se n ta n com o en la figura XVII.9&, sospecha rem os, p o r supuesto, que n o existe linealidad. Aquí tam bién, pues, h a b ría que obtener, de ser posible, m ás casos extrem os. Si éstos son sólo u n o o dos, re su lta rá tal vez p referib le excluirlos del análisis. Las situaciones de esta índole ilu stra n el hecho de que, al in te rio r d e cierto reco rrid o u n a relación de variación pue de se r ap roxim adam ente lineal, resu ltan d o en cambio- inapropiada si se extiende el m odelo lineal. De ahí, pues, que se im ponga p ru d en cia en cu an to a generalizar m ás allá de los lím ites d e los datos. Un en u n ciado p o r el estilo de “den tro los lím ites de ---------y--------- la relación re su lta se r aproxim adam ente lineal” será m ás apropiado. Comparación en tre correlaciones y declives. Las observaciones an terio res acerca d e la sensibilidad d e los coeficientes de corre lación an te las diferencias en la can tid ad de variación de X , re lativ a a la disp ersión p ro d u c id a p o r facto res extraños, ap u n ta u no d e los pro b lem as fundam entales con cualquier m edida del grado de asociación. N u e stra atención debe e sta r c e n trad a en la n atu raleza d e la ley que relaciona X y Y , de si la relación es o no es lineal, y, si lo es, en la m agnitud del declive. Al co m p arar los resu ltad o s d e dos estudios o de varias subm uestras, debem os re conocer que es p erfectam ente posible o b ten er diferencias sustan ciales e n tre los coeficientes de correlación, aun cuando se apli quen las m ism as leyes (m edidas p o r los declives). E s decir, que las r pueden d ife rir aunque no- los declives, lo que p u ed e se r debi do ú n icam en te a diferencias en la can tid ad d e variación en la variable in d ependiente X , o a diferencias en la am p litu d con que h an sido som etidos a control otros factores extraños que p ro d u cen variaciones aleatorias en Y . Como verem os al tr a ta r del análi sis de la covariancia, al b u sca r la interacción estam os en efecto buscando u n a d iferencia en tre declives, y no correlaciones. E n el capítulo siguiente estudiarem os brevem ente las pru eb as p a ra en co n tra r diferencias e n tre correlaciones, pero el lecto r debe e sta r prevenido acerca del peligro de que tales diferencias, u n a vez encontradas, p u ed an se r fácilm ente m al in terp re tad as. Puede ser ú til concebir u n coeficiente de correlación r ^ com o función de dos tipos variables, con el declive bw y u n facto r sx/ s v abarcando la razón de las dos desviaciones e stán d a r que se apli can a la m u estra o su b m u estra p a rtic u la r que nos ocupa. A sí: El valor num érico de byx es, p o r supuesto, determ inado no sólo p o r la ley que une a X con Y , sino tam b ién p o r la elección que el investigador hace e n tre las unidades de m edida. El facto r s j s v es tam bién u n a función de tales unidades, las que son por sup u esto conocidas an tes que los datos de la población o la m ues tra. Pero la razón sx/ s y será tam bién única p a ra cada m u estra (y o J o y p a ra cada población), y se utiliza p a ra ob ten er la m e dida estandarizada r ^ . Un coeficiente de correlación tiene la ven ta ja de ser estandarizado, independizándolo así de la elección que se haga de unidades de m edida, p ero lam entablem ente tie ne que se r estandarizado en función de algo que re su lta ser una can tid ad no invariable e n relación con m u estras o poblaciones. E sta circu n stan cia debe s e r claram ente entendida, debiendo ser señalados siem pre los declives n o estandarizados, de m odo que las réplicas no resu lten desorientadoras a este respecto. Planteando el asu n to en fo rm a algo diferente, podem os recono cer que en la inferencia y estim ación estadísticas se da una je ra rq u ía de m etas científicas. Probam os buscando p rim ero la significancia, p a ra d ecid ir si se h a en co n trad o u n a relación que no p u ed a ser fácilm ente explicable p o r m ecanism os casuales. O bservam os a este resp ecto que el nivel de probabilidad o signi ficación es función del grado de relación y del tam añ o de la m u estra. Si ésta es m uy grande podrem os o b ten er u n pequeño nivel de p robabilidad, incluso con una relación m uy débil y tal vez sin im p o rtancia p ráctica. Pero habiendo encontrado al m e nos u n a relación m oderadam ente fuerte, se nos plantea de nuevo u n a ta re a m ás im p o rtan te, a sab e r: la de estim ar la n aturaleza de tal relación, m edida p o r u n coeficiente d e regresión en el caso lineal. Cuando las correlaciones son m oderadam ente fuertes, en lugar de co m p arar estas r directam ente, estim am os los declives, y los com param os en n u estras pru eb as de interacción. El p ro ceso p u ed e p re sen tarse d iagram áticam ente así: P donde la d irección d e las flechas re p re se n ta el “c u rso causal” (p o r ejem p lo : pro b ab ilid ad es influidas p o r m agnitudes de rela ciones y tam añ o s de m u e stra s), lo q u e va frecu e n te m e n te en di rección o p u esta a la que siguen los p aso s del proced im ien to em p lead o en u n análisis estadístico. E l diagram a in d ica que p es u n a función d e dos variables, u n a d e las cuales (e l tam añ o de la m u e stra ) no es d e in teré s in h eren te, y que la correlación es asim ism o u n a fu n ció n de dos facto res, u n o de los cuales { s j s v), n o es d e in teré s. N u e stro objetivo consiste en llevar el análisis h acia a rrib a en el diagram a h a s ta la estim ación d e los coeficien tes de regresión, en lu g ar de deten ern o s en los niveles d e p ro b a bilidad, o fo rm u lan d o declaraciones en relación con los coeficien tes de correlación. R esulta q u e en cu an tas ocasiones se m an eja n m edidas ordina les de asociación, tales com o las q u e se v erán en el cap ítu lo si guiente, d esap arece la distinción e n tre declives y m edidas de asociación. E n el caso d e dicotom ías, sin em bargo, p u ed e dem os tra rs e que si se sigue la regla d e colocar la variable independien te al trav és d e la p a rte a lta del cuadro, y se co m p u tan las p ro porciones (o p o rc en tajes) de m odo que sum en 1.00 (o 100) hacia abajo, co m p aran d o a continuación de izquierda a derecha, la d iferen cia de p ro porciones re su ltan te puede se r considerada com o u n caso especial del declive byx, en ta n to q u e -<j> p asa a ser u n caso especial de rmy. Si se co m p u tan las pro p o rcio n es en la o tra dirección, la diferencia de proporciones p asa a s e r u n caso especial de b ^ , d e m odo que ten d re m o s u n a ju stificació n m ás p a ra seguir la regla em pírica p rev iam en te sugerida. Pueden ob ten erse estos re su ltad o s p o r el sim ple procedim iento de asignar pu n tu acio n es d e 0 y 1 ta n to a X com o a Y , utilizan d o a continua ción las fó rm u las básicas p a ra el cálculo de rxy y byw. * Cálculos a p a rtir de datos agrupados. Si el n ú m ero de casos es gran d e o si no' se dispone de u n a calculado ra m oderna, el cálculo de los coeficientes de correlación p u ed e re s u lta r ex trem adam ente laborioso. E n tal caso será ta l vez m ás indicado servirse de d a tos agrupados, au n a riesgo de in tro d u c ir eventualm ente algunas im precisiones. E n principio, estos cálculos de dato s agrupados no son m ás que aplicaciones abreviadas de los procedim ientos em pleados p a ra o b te n e r la m edia y la desviación están d a r. Tene m os ah ora dos variables que h a n d e clasificarse cruzadam ente com o en el c u a d ro XVII.2. H em os de an tic ip a r u n a m edia p a ra cad a variable, to m an d o desviaciones graduales de cada u n a de las m edias y sirviéndonos de facto res de corrección en cada caso. Además, n ecesitarem os u n térm in o d e p ro d u c to cruzado equiva len te a 2x>\ Como que las desviaciones ta n to de X com o de Y se to m ará n de las m edias adivinadas respectivas, necesitam os serv im o s de u n fa cto r de corrección a s u s tra e r del térm in o del p ro d u c to cru zad o apreciado. Podem os m odificar así las fórm ulas de cálculo de r y b de m odo que se tenga en cu en ta que nos he m os servido d e m edias adivinadas en lugar de las correctas. Se re co rd a rá que u n a de las fórm ulas de s sirviéndose de datos agrupados era (d e ja n d o de lado los su b ín d ices): 5 = ^ - V ^ 2 / d '2 - ( 2 / d ' ) 2 Como q u iera que tenem os ah o ra dos variables, X y Y , nos servi rem os de subíndices con objeto de distin g u ir las frecuencias y las desviaciones graduales d e X (e sto es, fx y d'x) de las de Y (o sea, f v y d'v). Al calcular el térm ino del pro d u cto cruzado, nece sitam os o b ten er tam bién las frecuencias d e cada subcasilla. E stas últim as serán p o r lo regular m ás pequeñas que fa o Así, pues, si bien hay 24 casos en la categoría de 40.0 a 49.9 p a ra la variable X y 30 casos en la categoría de 15.0 a 19.9 de Y, sólo hay 6 casos en la subcasilla correspondiente a am bas categorías. El lecto r h a de convencerse p o r sí m ism o d e que la fó rm u la de cálculo de r (ecuación X V II.8) puede m odificarse com o sigue: N V f x y d ’w d ' v - a f x d ’* ) ( ? f v d ’v ) V I I 9 VüiVS/A2- (2 ¿ A )»][ ATSMV - ( ^ f y d ’ y r - ] Y en fo rm a análoga, la fó rm u la de b se convierte e n : _ N '2fxvd'xd'y - C2fxd'x )('2f1/d'v) iv N V fwd ' / - ( 2 fxd'x )* (X V II.10) en donde i„ e ia re p resen ta n las am plitudes de intervalos de y y X respectivam ente. El valor d e a p u ed e calcularse ah o ra a p a rtir de la ecuación: 2 Y -6 2 X = y —bX a — -------------------— N en donde X y Y pueden obtenerse sirviéndonos de la fórm ula usual de los datos agrupados. Calculemos ah o ra los valores en esos coeficientes en relación con los datos de 150 d istrito s del S u r consignados en el cuadro XVII.2. Tom arem os como variable dependiente Y, o sea el p o r cen taje de m ujeres de la clase trab a jad o ra, siendo la variable independiente el p o rcentaje de la población clasificada como granjas rurales. C onvendrá servirse de u n a fórm ula de cálculo com o la que se d a en el cuadro XVII.3. E n ésta, los lím ites de las clases y los p u n to s m edios se indican ho rizo n talm en te en la p a rte su p e rio r (p a ra Y ) y de a rrib a abajo, a m an o izquierda, p a ra X . O bsérvese el á re a c e rra d a e n el in te rio r del cuadro. Se verá q ue h ay tre s n úm eros en cad a subcasilla. E n ca d a casilla, el n ú m ero de a rrib a re p re se n ta el n ú m ero d e casos d e la subcasilla, tal com o se d a en el cuadro XVII.2. Los n úm eros re sta n te s de la C uadro XV II.2. Datos clasificados cruzados para obtener correlaciones de datos agrupados Porcentaje de mujeres de la clase trabajadora, Y Porcentaje de granjas rurales, X 10.014.9 15.019.9 20.024.9 25.029.9 30.034.9 35.039.9 0.0- 9.9 10.0-19.9 20.0-29.9 30.0-39.9 40.0-49.9 50.0-59.9 60.0-69.9 70.0-79.9 80.0-89.9 0 1 2 2 4 3 2 2 1 0 2 5 0 6 10 4 3 0 0 0 1 5 6 9 3 4 1 1 2 2 5 7 6 7 1 0 8 4 3 7 1 2 4 0 0 4 1 3 3 0 0 0 0 0 0 3 0 0 0 0 0 0 0 13 13 16 22 24 30 20 10 2 Totales 17 30 29 31 29 11 3 150 Fuente: 40.0- Totales 44.9 Censo de los Estados Unidos de 1950. subcasilla se em plean p a ra calcu lar el térm in o del p ro d u c to cru zado. La cifra cen tral de cada subcasilla re p re se n ta el p ro d u cto de las desviaciones graduales d \ d ’v. Así, p o r ejem plo, en la sub casilla m ás b a ja de la izquierda (c o rresp o n d ie n te a las categorías d e 80.0 a 89.9 y d e 10.0 a 14.9), la cifra — 12 es el p ro d u c to de 4 p o r —3. E n o tro s té rm in o s : la categoría de 80.0 a 89.9 se halla 4 desviaciones graduales p o r encim a d e la m edia an ticip ad a de X , y la categoría d e 10.0 a 14.9 se e n c u en tra 3 desviaciones graduales por debajo de la m edia an ticip ad a de Y . F inalm ente, el núm ero in ferio r en cada subcasilla re p re se n ta el p ro d u c to d e los dos nú m ero s que tien e a rrib a y pu ed e p o r consiguiente re p resen ta rse sim b ó licam ente com o f^d'^d'y. P o r lo tan to , la sum a de estas cifras in ferio res de to d as las subcásillas nos d a el térm in o del p ro d u c to cruzado, sin corrección d e los e rro re s in tro d u ci dos sirviéndose de m edias estim adas. E sta su m a se em pleará en el p rim e r térm in o del n u m e ra d o r de r; es n u m éricam ente igual a — 200, y se h a d isp u esto e n el ángulo in fe rio r derecho del cuadro. Las can tid ad es re sta n te s n ecesitadas en el cálculo d e r y fe pue den o b ten erse en la fo rm a usual. Las c u a tro ú ltim as colum nas C uadro XVII.3. Cálculos de la correlación de datos agrupados * Limites de clase X 0.09.9 10.019.9 20.029.9 30.039.9 40.049.9 50.059.9 60.069.9 70.079.9 80.089.9 U d'v h,d'v u * v y* Y 10.0- 15.0- 20.0- 25.0- 30.0- 35.0- 40.014.9 19.9 24.9 29.9 34.9 39.9 44.9 d'X Puntos 12.45 17.45 22.45 27.45 32.45 37.45 42.45 medios 4 1 8 0 -4 - 8 13 —4 4.95 0 -32 -32 2 1 3 4 2 1 13 - 3 0 -3 - 6 - 9 14.95 +9 +6 0 -12 - 6 -27 9 12 3 2 3 5 2 1 16 - 2 0 -2 -4 24.95 +6 +4 +2 0 - 6 -12 12 20 2 3 5 7 2 5 0 -1 - 2 22 -1 34.95 +3 +1 0 -7 -6 6 5 7 4 6 6 1 24 0 0 0 0 0 44.95 0 0 0 0 0 0 2 6 3 10 9 30 1 0 +1 54.95 - 3 - 2 -1 2 0 - 9 -20 —9 7 4 3 4 2 20 2 0 +2 64.95 -6 - 4 - 2 0 8 -12 -16 - 6 4 2 3 1 0 74.95 —9 - 6 - 3 10 3 0 -18 -18 -12 1 1 2 4 -4 84.95 -12 -12 —4 17 30 29 31 29 11 3 N= 150 -3 -2 -1 0 1 2 3 -51 -60 -29 0 29 22 9 -80 153 120 29 0 29 44 27 h d’w ¿ W -52 208 -39 117 -32 64 -22 22 0 0 30 30 40 80 30 90 8 32 -37 643 2 a y = --200 402 * Esta forma de cálculo se ha tomado, con ligeras adaptaciones, de [1], cuadro XIX.4 de la p. 476, con la amable autorización del editor. del cu ad ro se em plean p a r a o b ten er f ? , d ’x< f x d ' x y f x ( d ' x ) 2 , las su m as de las dos últim as de estas cantidades utilizándose d irecta m ente en la fórm ula de r. O bsérvese que al calcu lar los valores n um éricos de estas cu a tro colum nas prescindim os p o r com pleto de los valores de Y. Así, pues, si dejam os to talm e n te de lado el área encerrad a, tenem os exactam ente la m ism a clase d e tab la de la que n o s servim os al calcular la m edia y la desviación están d a r de datos agrupados. Y en fo rm a análoga, las cu a tro hileras infe rio res pu ed en em plearse p a ra o b ten er sum as correspondientes en relación con la variable Y . T odas las cantidades necesitadas en las fó rm ulas de r y b pueden po n erse ah o ra en las casillas infe riores d e la d erecha d e la ta b la m ayor. O btenem os ah o ra los valores d e r y b com o sigue: 150(— 200) — ( — 3 7 )(— 80) - 3 2 960 r = -------------------------------------------------------------- —-------------= —.460 v t 150(643) - ( - 37)»][ 150(402) - ( - 80)*] 71 590 150( — 200) — ( — 37)(— 80) 5.0 -3 2 9 6 0 1 b = -----------------------;------------------------ = —:------------- = — .1733 1 5 0 ( 6 4 3 ) - ( ~ 37)2 10.0 95 081 2 Como q u iera q u e los valores de X y Y son 42.48 y 24.78, respectiva m ente, obten em os: a = Y — b X = 24.78 - ( - ,1733)(42.48) = 32.14 y la ecuación de los m ínim os cu ad rad o s puede escribirse c o m o : Y P = 32.14 - .1733X Interpretación del coeficiente de correlación. Con objeto de ob ten er u n a in terp retació n de r que tenga sentido cuando r no es ni cero ni 1 .0, volvam os al concepto d e variabilidad a propósito de la ecuación de regresión. H em os definido la variancia respec to de la m edia de Y com o: , 2 ( 7 - ji,)* en donde M re p resen ta la m agnitud d e la población (fre n te al tam año de la m u e stra N ) y donde nos servim os de los subíndices p a ra recalcar el hecho de que tenem os ah o ra dos variables que h an de distinguirse. Así, pues, el concepto co rrien te de la varian cia co m p o rta desviaciones resp ecto de u n a m edida fija d e ten dencia central, o sea la m edia co n ju n ta. P ero podem os ob ten er tam b ién la m ed ia de las Y p a ra u n a X fija, y estam os suponien do q ue estos valores v arían con X d e m a n e ra que p roduzcan u n a reg resió n lineal. Podem os generalizar en esta fo rm a el concepto d e la m edia, ob teniendo u n a especie de m edia condicional de Y p a ra u n a X dada, que podem os sim bolizar com o iiy\x o com o E(Y\X). Si generalizam os el concepto de v arian cia en fo rm a sim ilar, podem os o b ten er u n a m ed id a d e disp ersió n i-especto de la ecua ción d e regresión ta l com o: _ -------- ------- M ( X V II.ll) en d o n d e el sím bolo ay \m se em plea p a ra señ a la r el hecho d e que la m ag n itu d d e la v ariab ilid ad re sp ecto d e la ecuación d e regre sión, lo m ism o q u e la m ed ia de Y, depende del valor de X . E n o tro s térm in o s : p a ra cad a X se d an ta n to u n a m edia d e las Y com o u n a v arian cia re sp ecto d e d icha m edia. L a ca n tid a d d e dis p ersió n alre d ed o r d e la línea n o n ecesita s e r siem pre la m ism a p a ra cada X , pese a q u e vam os a su p o n er la p ro p ied ad d e hom osced asticid ad o d e variancias iguales. Tenem os ah o ra dos m ed id as de v ariab ilid ad p a ra Y . La p rim e r a m id e la disp ersión alred ed o r del v alor d e Y , la gran m ed ia |x„, que sería el m e jo r v alo r anticipado d e Y si n o se conociera X . E n o tro s térm in o s: si se nos p id iera a n tic ip a r Y n o conociendo X , la m e jo r anticipación sería ix¡, (o Y, si sólo se d isp u siera de los d ato s de la m u e s tra ). E n cam bio, si conociéram os X , an ticip a ríam o s el v alo r co rresp o n d ien te de Y que se sitú a en la ecuación d e regresión. A m enos que no ex istiera relación e n tre X y Y, el conocim iento de X nos ay u d ará a p re d e c ir el v alo r de Y. Si la re lación fu e ra p erfecta, po d ríam o s p re d ecir Y exactam ente, ya que todos los p u n to s q u ed arían exactam ente so b re la línea. P o r lo reg u lar, no estarem os en condiciones d e h ac erlo así, pero, com o q u iera que estam os suponiendo u n a d istrib u ció n n o rm al de las Y y u n a desviación e stá n d a r av\x fija, podem os e m itir enunciados de p ro b ab ilid ad acerca d e los riesgos y de la m agnitud del e rro r. Y lo q ue es m ás im p o rta n te todavía desde el p u n to de vista de n u estro s pro p ó sitos, podem os c o m p arar las dos desviaciones es tá n d a r (o v arian cias) y o b ten er u n a m ed id a acerca d e en qué p ro p o rció n se h a m ejo ra d o la anticipación p o r el conocim iento de X . Al p ro ced er e n esta form a, podem os servirnos de pro ced i m ientos con los que estam os ya fam iliarizados a p a r tir del análi sis de la variancia. E n dicho análisis, en efecto, tom am os la variación to ta l o su m a d e cu ad rad os y descom pusim os d ich a can tid ad en porcio nes explicadas e inexplicadas. V am os a serv im o s ah o ra exacta m ente del m ism o procedim iento, obteniendo casi a m an era de 2 p ro ducto accesorio los valores de ay \x y r2. Con lo que estarem os en condiciones de d a r u n a in terp re tació n lógica del coeficiente d e correlación. P rim ero, podem os expresar las desviaciones de cada Y resp ecto de Y com o sum a de dos cantidades ( Y — Y p) + (y „ — Y ) (véase la figura X V II.l 1). La p rim era de estas cantida- x Fig. X V II.11. R epresentación geom étrica que m uestra las desvia ciones respecto de la m edia Y com o una sum a de desviaciones respecto de la recta de m ín im o s cuadrados y desviaciones de la recta de m ínim os cuadrados respecto de la Y. des re p resen ta la desviación del valor de Y respecto de la línea de los m ínim os cuadrados e indica la cantidad de e r ro r que se com ete cuando se em plea Y P p a ra p re d ecir Y . La segunda expre sión, en cam bio, indica la desviación de la línea de m ínim os cua drados (p a ra u n a X d ad a) respecto de Y . E n la m ayoría de los casos, esta can tid ad re p re se n ta rá el m o n to en que se reduce el e rro r al conocer Y P. Si elevam os al cuadrado ahora am bos m iem bros de la ecuación y sum am os luego todos los casos, o b ten em o s: 2(7- y )2= 2 ( y - y,p + 22(Y - y , ) ( y p - ? ) + 2 ( y p - yp A fortunadam ente, el térm ino c e n tral vuelve a desaparecer, y nos quedam os c o n : 2 ( y - y ) 2= SC to tal 2( y - y pp + 2(yJ, - y )2 (xvii.12) = SC inexplicada + SC explicada La p rim era cantidad de la derecha de la ecuación re p resen ta la sum a de los cuadrados de las desviaciones de los valores re a les de Y respecto de la línea de los m ínim os cuadrados. E sta can tid ad es inexplicada, ya que indica la m agnitud del e rro r en la predicción. Y la cantidad re sta n te indica lo que hem os gana do al servim os de Y v con preferen cia a Y , pudiendo designarse com o la sum a de cuadrados explicada. P or explicada n o enten dem os, p o r supuesto, u n a explicación causal, sino sim plem ente u n a asociación e n tre las dos variables. Considerem os ah o ra m ás de cerca cad a u n a de estas cantidades. Si tom am os u n a sum a de cuadrados inexplicada y dividim os en tre el núm ero to tal de casos, obtenem os la variancia de la m ues tra Sy\x respecto de la línea de los m ínim os cuadrados. O sea: = (X V II.13) Si deseam os o b ten er u n a estim ación insesgada de la variancia de la población <^y \x respecto de la regresión real, hem os d e divi d ir n o e n tre N sino e n tre los grados apropiados de lib ertad . E n este caso hem os perdido 2 grados d e lib e rta d al calcular a y b com o estim aciones de a y (3. P or consiguiente, si deseam os esti m a r Cy|» nos servirem os de: A2 S Í F - F ,) 2 o*\m = ----- — ~----Ai — 2 /VW TT14-V (X V II.14) E n esta form a, la sum a d e cuadrados inexplicada p u ed e con v ertirse fácilm ente en u n a estim ación d e la variancia resp ecto de la ecuación de regresión. El lecto r h a rá bien en convencerse p o r sí m ism o de que lo que hem os hecho es d irectam en te p a ra lelo a n u estro tra ta m ie n to a n te rio r del análisis de la variancia. La v ariab ilid ad resp ecto de la ecuación d e m ínim os cu adrados h a su stitu id o la noción d e variabilidad en el interior d e las ca tegorías de X . Volviendo ah o ra a la sum a de cuadrados explicada 2 ( F P — F ) 2, podem os m o s tra r fácilm ente que esta can tid ad es equivalente a r® [S(F — F ) 2], o r 2Ey2. Como quiera que Y p = a + b X y F = a + bX , te n e m o s: (Yp- Y ) = b ( X - X ) P o r consiguiente: 2*2 (2 x2)2 ( 2 xy)2 7 • ( 2 y2) = r22y2 2x22y2 = r22 ( y - y )2 Hem os dem o strado así que: •2 — . 2 (yp- Y )2 SC explicada 2(y — Y ) s SC to tal P o r m edio de u n razonam iento sim ilar pudim os h a b e r dem os tra d o q ue f 2 re p re se n ta la razón d e la variación explicada en X a la variación to ta l en X. P or lo tan to , el cu ad rad o del coeficien te de correlación p u ed e in te rp re ta rse com o la p ro p o rció n de variación to tal en u n a de las variables explicada p o r la o tra. La can tid ad de \ / \ — r2, designada a m enudo com o coeficiente de alienación, re p re se n ta la raíz c u a d ra d a de la pro p o rció n d e la sum a to tal de cu ad rad o s que perm an ece sin explicar p o r la varia ble independiente. Cabe o b serv ar que no se d a in terp re tació n d ire c ta y sim ple alguna de la r m ism a. De hecho, es posible d ejarse d eso rie n ta r p o r los valores d e r, ya que estos valores serán n u m éricam ente m ayores que los d e r2 (a m enos que r sea 0 o ± 1 .0 ). Así, p o r ejem plo, p o d ría p arece r que u n a r d e .5 sea la m ita d de buena q ue u n a correlación perfecta, en ta n to que vem os que, en este caso, sólo explicam os u n 25 p o r ciento de la variación. Una co rrelación d e .7 indica que algo m enos de la m ita d d e la variación re su lta explicada. Vemos asim ism o que correlaciones d e .3 o m e nores significan que sólo u n a fracción m uy pequeña de la varia ción es explicada. E l cu ad ro XVI 1.4 indica las relaciones e n tre las diversas cantidades. Como q u iera que 1 — r 2 re p re se n ta la pro p o rció n d e variación inexplicada, ten em o s: <i - r2)[2(y - y)2] = 2(y - ypp P or consiguiente: 2 ( y - y )2 2 ( y - y p)» N N o bien : (l-r* )V = 4 . De d o n d e : = V 1 - r 2 Sí- E ste re su ltad o nos p ro p o rcio n a u n a indicación acerca de en qué m edida podem os re d u c ir la desviación e stá n d a r conociendo X. C uadro XVII.4. Relaciones num éricas entre r, r2, 1 — r2 y \ / l — r‘~ r i® 1 - /-2 V 1 " ’’2 .90 .80 .70 .60 .50 .40 .30 .20 .10 .81 .64 .49 .36 .25 .16 .09 .04 .01 .19 .36 .51 .64 .75 .84 .91 .96 .99 .44 .60 .71 .80 .87 .92 .95 .98 .995 (Véase la ú ltim a colum na del cu ad ro X V II.4.) Si r es cero, las dos desviaciones e stá n d a r son iguales. E ste hecho es obvio, p o r supuesto, si nos percatam o s de que la línea de los m ínim os cua d rados será en tal caso u n a re cta ho rizo n tal de ecuación Y — Y. Si r2 es igual a la unidad, s,,], será cero, p o r supuesto, y a que to dos los p u ntos q u ed arán exactam ente so b re la recta. Del cua d ro XVII.4 se desp ren d e que la m ag n itu d de r h a de se r gran de p a ra que obtengam os u n a reducción sustancial de las des viaciones están d a r. P a ra u n a r d e .80, la desviación e stá n d a r resp ecto de la línea de los m ínim os cuadrados es d e .60 d e la desviación e stán d a r c o rrie n te ; pero, con u n a r de .40, vem os que no h em os ganado m ucho e n cuanto a a p reciar Y a p a r tir de X , Glosario Distribución normal bivariada Coeficiente de alienación Coeficiente de correlación Covariancia Intercepción Ecuación de los mínimos cuadrados Regresión de Y sobre X Declive. E jercicios 1. Los siguientes datos relativos a 29 ciudades de 100 mil o m ás habi tantes de regiones fuera del Sur están tomados del estudio de R. C. .Angelí sobre la integración m oral de las ciudades norteamericanas. El índice de integración m oral se ha derivado combinando los índi ces de tasas de criminalidad con los de la labor de mejoramiento. La heterogeneidad se midió en térm inos de los números relativos de los no blancos y los blancos nacidos en el extranjero contenidos en la población. Y se calculó asimismo, a título de segunda variable inde pendiente, un índice de movilidad, que mide los números relativos de las personas que se establecen o dejan la ciudad. Ciudad Indice de integración Indice de heterogeneidad Indice de movilidad Rochester Syracuse Worcester Erie Milwaukee Bridgeport Buffalo Dayton Reading Des Moines Cleveland Denver Peoría Wichita Trenton Grand Rapids Toledo San Diego Baltimore South Bend Akron Detroit Tacoma Flint Spokane Seattle Indianapolis Columbus Portland (Ore.) 19.0 17.0 16.4 16.2 15.8 15.3 15.2 14.3 14.2 14.1 14.0 13.9 13.8 13.6 13.0 12.8 12.7 12.5 12.0 11.8 11.3 11.1 10.9 9.8 9.6 9.0 8.8 8.0 7.2 20.6 15.6 22.1 14.0 17.4 27.9 22.3 23.7 10.6 12.7 39.7 13.0 10.7 11.9 32.5 15.7 19.2 15.9 45.8 17.9 20.4 38.3 17.8 19.3 12.3 23.9 29.2 27.4 16.4 15.0 202 13.6 14.8 17.6 17.5 14.7 23.8 19.4 31.9 18.6 34.5 35.1 42.7 15.8 24.2 21.6 49.8 12.1 27.4 22.1 19.5 31.2 32.2 38.9 34.2 23.1 25.0 35.8 Fuente: R. C. Angelí, "The Moral Integration of American Cities" ("La in tegración moral de las ciudades norteamericanas"), American Journal of Sociology, vol. 57, 2? parte, p. 17, julio de 1951, con la amable autorización del autor y el editor. (Copyright 1951 de 1a Universidad de Chicago). a) Trácese un diagrama de dispersión que relacione la integración moral con la heterogeneidad. b) Calcúlense r, a y b para las mismas variables, y trácese en el dia gram a de dispersión la línea de mínimos cuadrados, tomando la integración m oral como Y. Respuesta, r = — .156; a =13.9; b = — .049. c) ¿De cuánto es la desviación estándar respecto de la línea de los mínimos cuadrados comparada con la desviación estándar res pecto de Y? 2. Con objeto de resolver los ejercicios del capítulo xix, se necesi tará obtener las correlaciones entre la integración moral y la movili dad, así como entre la heterogeneidad y la movilidad. Calcúlense las dos r. Respuesta, r = — .456; r = — .513. 3. Agrúpense los índices de integración moral y heterogeneidad en intervalos y calcúlense r, a y b sirviéndose de las fórmulas de datos agrupados. Compárense los resultados con los datos sin agrupar. B ibliografía 1. Blalock, H. M.: Causal Inferenees in Nonexperimental Research. University of North Carolina Press, Chapel Hill, 1964, caps. 2 y 3. 2. Christ, Cari: Econometric Modets and Methods, John Wiley & Sons, Inc., Nueva York, 1966, Parte III. 3. Croxton, F. E„ y D. J. Cowden: Applied General Statistics, 3- ed., Prentice-Hall, Inc.: Englewood Cliffs, N. J. 1967, caps. 19 y 20. 4. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry Holt and Company Inc., Nueva York, 1952, cap. 23. 5. Hays, W. L.: Statistics, Holt, Rinehart and Winston. Inc., Nueva York, 1963, cap. 15. 6. Johnston, J.: Econometric Methods, McGraw-Hill Book Company, Nueva York, 1963, Parte II. 7. McCollough, C., y L. Van A tta: Introduction to Descriptive Statistics and Correlation, McGraw-Hill Book Company, Nueva York, 1965, caps. 5-8. 8. Mueller, J. H., K. Schuessler, y H. L. Costner: Statistical Reasoning in Sociology, 2? ed., Houghton Mifflin Company, Boston, 1970, cap. 1 1 . 9. Wallis, W. A., y H. V. Roberts: Statistics: a New Approach, The Free Press of Glencoe, 111., Chicago, 1956, cap. 17. 10. Weinberg, G. H., y J. A. Schum aker: Statistics: An intuitive Appro ach, Wadsworth Publishing Company, Inc., Belmont, Cal., 1962, caps. 16-18. E n el p resen te capítulo proseguim os el exam en de la correlación y la regresión. Se tra ta rá n p rim e ro algunas pru eb as de signifi cación, a continuación de lo cual pasarem os a las relaciones no lineales, tem a que se exam inará asim ism o brevem ente en el ca p ítu lo xix. A continuación estudiarem os los efectos d e los erro res de m edición en las pendientes y las correlaciones. F inalm en te, se exam inará el tem a de la correlación grado-orden. X V III.l. P rueba de significación e intervalos de confianza Prueba de significación de r y b. Como q uiera que r y los coefi cientes d e m ínim os cuadrados a y b sólo describen los datos de las m u estras, n u e stro interés se c e n tra p o r lo re g u la r en los p a rám etro s co rresp ondientes d e las poblaciones, q, a y (3. E n p a r ticu lar, desearíam os p ro b a r la hipótesis n ula de que n o hay rela ció n (lin eal) alguna en la población, o podem os q u e re r o b ten er intervalos de confianza p a ra q o p a ra los coeficientes de regre sión. E xam inarem os p rim ero la p ru e b a de la hipótesis n u la en el sen tid o de que n o se d a relación en la población. Según vere m os, si podem os su p o n er u n a d istribución n orm al d e Y acerca d e X y hom oscedasticidad, podem os tam bién servirnos del an á lisis de la v arian cia p a ra verificar la h ip ó tesis de que q = (5 = 0. Sirvám onos del hecho de que, to d a ve/, que r v b (y, p o r con siguiente, tam b ién o v (3) tien en los m ism os, n u m eradores, u n a verificación de la hipótesis d e que q = (Tío es asim ism o de la h ipótesis p = 0 y viceversa. E n o tros té rm in o s : si n o se d a aso ciación lineal en la población, la pen d ien te de la ecuación de regresión será cero y, p o r tan to , la línea será horizontal". ' R ecor d an d o q ue la ecuación de regresión re p resen ta el cam inó de las m ed ias de las Y p a ra valores fijos de X , vem os in m ediatam ente q u e siem pre q u e (3 = 0, las m edias d e las Y h an d e se r las m is m as p a ra todos los valores de X (véase fig u ra X V III.l). E sto im plica, p o r su puesto, que la ecuación d e regresión sea realm ente d e fo rm a lineal. E n p artic u la r, si dividiéram os el e je de las X en cierto n ú m ero de categorías, en co n traríam o s que las m edias de las categorías d e la población son exactam ente iguales. Así, pues, p odem os tra d u c ir la hipótesis d e q u e p = q = 0 en el enunciado de que las m edias de Y serán iguales p a ra cada u n a de las cate gorías de X . Si nos im aginam os u n a población in finita, com o h ab rá que h acerlo p a ra satisfacer el supuesto de norm alidad, podem os concebir el eje de las X com o dividido en u n núm ero indefinido de categorías, cad a u n a d e las cuales tenga m edias idénticas en Y . E n esta form a, n u e stra hipótesis cero se con414 v ierte en u„i = u,,z = u„3 = . . . . en donde nos servim os del subín dice doble p a ra recalcar que son las m edias de las Y las q u e nos in tere sa n y que tenem os u n nú m ero indefinidam ente grande de categ o rías X . El cu rso del razonam iento a n te rio r sugiere obviam ente u n a ex tensión d e la p ru e b a de análisis de variancia p a ra a b a rc a r un Fig. X V III.l. R epresentación geom étrica del hecho de que la hipó tesis de p = 0 es equivalente a la hipótesis fxx = ¡j,2 = . . . = n ú m ero indefin idam ente grande de categorías de la v ariab le de escala nom inal (a h o ra X ) . R ecordem os los supuestos requeridos e n el análisis de variancia. Además de la h ipótesis n u la y del su p u esto de que los casos se h an m u estread o alea to ria e indepen d ien tem en te de cada u n a de las categorías, hem os d e suponer tam b ién poblaciones norm ales y variancias iguales den tro d e cada categoría. A condición, pues, d e que podam os su p o n er tam bién m u estreo aleatorio, vem os que to d o s esto s supuestos pueden cu m p lirse si suponem os que la d istrib u ció n co n ju n ta de X y Y sea n o rm al bivariable. E l lecto r re c o rd a rá que este ú ltim o su p u esto no s asegura sim ultáneam ente u n a ecuación d e regresión lineal, n o rm alid ad de las Y p a ra cad a v alor fijo de X e iguales v ariancias p a ra todos los valores d e e s ta variable. De hecho, pues, los su p u esto s de m u estreo al az ar y de n o rm alid ad biva ria b le nos capacitan p a ra servim os del análisis de variancia con o b je to de v erificar la hipótesis de que q = p = 0, au n cuando no se re q u ie re la n o rm alid ad de las X en ta n to las e¿ tengan una d istrib u ció n ap roxim adam ente norm al. A n terio rm en te encontram os que e ra necesario o b ten er las su m as to tales de cuadrados y la de e n tre clases y re sta rlas, con o b jeto de o b ten er la su m a de cuadrados d en tro . Sin em bargo, al v erificar la hipótesis d e que q = 0, el proceso se sim plifica con siderablem ente. Ya vimos, en efecto, que la proporción de k. sum a de cu ad rados to tal de la J L£XPHcada..nQr. X nos es dada por r^T^Y en fo rm a análoga, la p ro p o rción que de ia m o s'm explicada ñ o r X será 1 — r 2. Como q u iera que la sum a to tal de cuadrados puede sim bolizarse con 2 y2, las sum as de cuadrados explicada e inexplicada se convierten en r22 y2 y (1 — r 2)2 y2 respectivam ente. Los grados de lib ertad asociados a la sum a to tal de cuadrados son, p o r supuesto, N — 1. Al calcular la sum a inexplicada de cua- Cuadro X V III. 1. Prueba de análisis de variancia de la hipótesis o= 0 Suma de cuadrados Grados de libertad Total 2 y2 N -l Explicada r't'S.y2 1 Inexplicada (1 — r2)2 y2 N -2 Apreciaciones de la variancia F fV2y2 1 (1 — r2)2 y2 N -2 r2(N - 2) ( 1 - r 2) drados, to m am os la sum a de las desviaciones al cuadrado res pecto de la lín ea de m ínim os cuadrados, y no resp ecto de la gran m edia de las Y . Pero, con o b jeto de o b ten er la línea de los m í nim os cuadrados, hem os de serv im o s de los dos coeficientes a y b. P o r consiguiente, hem os p erd id o 2 grados de lib ertad , o sea uno m ás de los que perdim os al to m a r las desviaciones resp ecto del valor p a rtic u la r de Y. Podem os, pues, asociar N — 2 grados con la sum a inexplicada de cu adrados y, restando, vem os que hay que aso ciar u n grado de lib ertad a la sum a de cuadrados explicada. Los re su ltad o s pueden resu m irse ah o ra com o en el cuadro X V III.1. La v en taja de in s e rta r sím bolos en lu g ar de núm eros en tab la está en que vem os inm ediatam ente que la cantidad 2 y2 desaparece cu an d o form am os la razón de las apreciaciones ex plicadas a las inexplicadas. E n o tro s térm in o s: la sum a total de cuadrados se elim ina, y podem os escrib ir u n a fórm ula de F en térm in o s de las proporciones de las sum as de cuadrados expli cada e inexplicada. De este m odo, la fó rm u la de F sólo com porta las cantidades r2 y 1 — r 2, ju n to con los prados de lib ertad de Af — 2 y 1. Podem os, p o r consiguiente, servim os de la fórm ula: F I,Jf_ 2 = - 1r — ^ r2 (iV - 2) (X V III.l) sin ten er q ue o cupam os en co n stru ir u n a ta b la de análisis de variancia, com o fue el caso en el capítulo an terio r. Como los cua dros p a ra F sólo ad m iten pru eb as a los niveles de .05, .01 y .001, puede re su lta r preferib le to m a r la raíz cu a d rad a positiva de (X V III.l) y u tiliza r la distribución t, con N — 2 grados de li b ertad. Podem os ilu s tra r el em pleo de esta p ru e b a de análisis de va riancia p a ra la significancia d e r con los datos del cuadro X V II.l. Obtuvim os allí u n a correlación d e r = .301 én tre el p o rc en taje do negros y n u estro índice de discrim inación. Al verificar en relación con el significado de r hacem os en realid ad la im p o r tan te p re g u n ta : "¿Con qué p ro b ab ilid ad ob ten d ríam o s u n a r de .301 o m ayor (e n valor ab so lu to ) si no h u b iera efectivam ente aso ciación lineal alguna en la población?’’ Con o bjeto de efectu ar In pru eb a F, calculam os sim plem ente r 2 y 1 — r2 y nos servim os de la ecuación X V III.l. Así, pues, ya que r se b asab a en 13 casos, leñem os: (.301)2 .0906 F, = ----------- ------ 11 = ----------1 1 = 1.10 ’ [ 1 - (.301)2] .9094 R efiriéndonos a la tab la F, vem os que p a ra 1 y 11 grados de li b erta d neoesitam os u n a F de 4.84 o m ayor p a ra d e sc a rta r al nivel de .05 suponiendo que la dirección no hubiese sido establecida con anticipación. D ecidim os, p o r consiguiente, no d e sc a rta r la hipó le-ais nula de que q = 0. A parentem ente podríam os h a b e r obteni do una r de .301 o m ayor, sim plem ente p o r casualidad, a u n si no se d iera asociación alguna en la población. Una vez m ás, es n ecesario in sistir en la diferencia en tre una prueba de significación y u n a m edida del grado de relación. Si hubiéram os obtenido u n a r de .301 con u n tam año de m u estra de 50, hab ríam os tenido : .0906 ^ 1 « m 48 = 4-78 0 sea un valor significativo al nivel de .05. En am bos casos hem os explicado ap ro x im adam ente el 9 p o r ciento de la variación total de lit m uestra, p e ro en el ú ltim o de ellos tenem os m ás confian/«, iiiinque ligeram ente, de que se d a u n a relación en la población. íHiérvalos de confianza. S iem pre que p u ed a p resu p o n erse o ap reciarse ap ro xim adam ente u n a población n orm al bivariable, m posible c o n s tru ir intervalos de confianza p a ra o y (j, así com o In línea de regresión. El e rro r está n d a r de r nos está dado p o r la 1 Virulilla. P o r desgracia, la distribución de m u estreo de r no será p o r lo reg u lar sim étrica, excepto en el caso especial en que o = 0. En efecto, la d istribución de selección se distorsiona m ás y m ás a m edida que el valor absoluto de q se aproxim a a la unidad. Ade m ás, observam os que, p a ra p o d er servim os de la fó rm u la an terio r del e rro r e stá n d a r de r, necesitaríam os conocer o p o d er ap reciar el valor d e q. E stas dos com plicaciones h acen que sea difícil o b ten er in tervalos de confianza p a ra 9 en fo rm a abreviada. Al calcular u n intervalo de confianza resp ecto de r, converti m os p rim ero r en u n a nueva estad ística z que tiene u n a d istribu ción de m uestreo aproxim adam ente norm al. Ponem os luego un in terv alo de confianza alred ed o r d e z en la fo rm a habitual. Final m ente, u n a vez anotados los lím ites su p erio r e in ferio r de con fianza de z, reconvertim os estos valores p articu lares d e z en r, con lo que obtenem os los lím ites de confianza de esta últim a. T ransform am os r en z p o r m edio de la fó rm u la: 1 -j- Y z = 1.151 log — — 1 —r en donde z p u ed e to m ar valores d e cero al infinito. Conviene llam ar la atención del lecto r acerca del hecho de que el valor z calculado m ed ian te la fó rm u la a n te rio r n o tiene en absoluto conexión alguna con los valores d e Z que utilizam os con la curva norm al están d ar. Los valores de z pueden o b ten erse directam en te del cu ad ro K , Apéndice 2, en lu g ar de servirse de los logarit mos. Los dos p rim ero s dígitos d e r se buscan de a rrib a abajo en el m argen izquierdo, en ta n to que el terc ero se localiza horizon talm en te en la p a rte superior. Los valores de z correspondientes están dados e n el cuerpo del cuadro. Así, p o r ejem plo, u n a z de 0.3228 co rresp onde a u n a r de .312; u n a z de 1.3892 corresponde a una r de .883. Al servirnos del cu ad ro K, prescindim os del sig no de r, asignando a z el signo correspondiente u n a vez hallado su valor num érico. O bsérvese que los valores de z sólo son lige ram en te m ayores que r cuando \r\ < .40, p ero a m edida que r crece, z em pieza a to m ar valores m ayores que la unidad. Podem os servim os ah o ra de la transform ación de z e n u n p ro blem a de in terv alo d e confianza. La distribución de selección de z es ap roxim ada a la norm al, au n p a ra N pequeñas y desvia ciones m oderadas de la n orm alidad bivariada. Su e rro r están d ar nos está d ad o p o r : 1 (X V IlI.2) = -----------V ^ -3 Y esto n o sólo p erm ite servirse de la tab la norm al, sino que he- iiion elim inado adem ás la necesidad d e h a b e r estim ado q, y a que i<| e rro r están d a r d e z sólo depende d e N . Tom ando com o ejem plo num érico la correlación d e .301 e n tre el p o rc en taje de negros y In ilIncrim inación, hallam o s que el v alo r co rresp o n d ien te d e z t*s ilc* 0.3106. Como q u ie ra que no h a b ía m ás que 13 casos, te nemos : a0 = ----- i----- = — = 0.3162 y i3 - 3 v io Ht ¡póngase que deseam os o b ten er p a r a @ u n intervalo de con fluí ia» de l 95 p o r ciento. P rim ero calculam os dicho in terv alo en térm inos de valores de z. Así, pues, to m aríam o s: z ± 1.96a* = 0.3106 ± 1.96(0.3162) = 0.3106 ±0.6198 l'o r consiguiente, el in terv alo de confianza alre d ed o r de z va de ,3092 a + .9304. O bsérvese que p a ra o b ten er el lím ite in ferio r tuvim os que re s ta r u n n ú m ero m ayor, num éricam ente, q u e 0.3106. Kslo da u n re su ltad o negativo, lo cual significa a su vez que el vitlor de r co rresp o n d ien te a dicho lím ite in ferio r h a de to m arse tam bién com o negativo. B uscando los valores d e r corresponillente.s a los dos lím ites de confianza d e z, obtenem os los valo ren ile — .300 y .731 p a r a los lím ites in fe rio r y su p erio r resp ec tivam ente. O bsérvese que el intervalo n o es to talm e n te sim étrico en re la ción con el v alo r de .301 obten id o p a ra r. E n este caso, el lím ite su p erio r está algo m ás cerca de r que el lím ite inferior. Si hubit'rnm os h allad o u n a r de .80, el in terv alo re su lta n te h a b ría esIttilo todavía m ás d isto rsio n ad o en la m ism a dirección. Puede co m prenderse in tu itiv am en te que esto sea así si tenem os p re sente t|uo, siem pre q u e em pezam os a acerc am o s al lím ite su p erio r de la unidad, ponem os tam b ién u n a restricció n al lím ite su p erio r del in tervalo d e confianza. E n e sta form a, re su lta ría Im posible, p o r ejem plo, o b ten er u n in terv alo de confianza de ,H(> i .16. Si o cu rre que r sea negativa, la dirección de la d isto r sión será opuesta, p o r supuesto, a la a n terio r. El in terv alo sola m ente llegará a ser sim étrico en relación con r cuando é sta sea I|ri i¡11 a cero. Piulemos in te rp re ta r este in terv alo de confianza en la fo rm a luihlitial. N u estro p ro ced im ien to es tal q u e a la larg a podem os esp ern r o b ten er intervalos que incluyan el valor (fijo ) de o el OS p o r ciento de las veces. P odem os tam b ién u tilizar tales in te r valos de confianza com o verificaciones im plícitas de hipótesis. I'n el problem a an terio r, en efecto, y a hem os observado que el lím ite in ferio r del intervalo es negativo. Y com o q uiera que cero e stá incluido en el intervalo, sabem os inm ediatam ente que no descartaríam os la hipótesis n u la de que q = 0. Y si quisiéram os v erificar algún o tro valor supuesto de q, procederíam os igual. Si p o r ejem plo hubiéram os anticipado que q = .80, habríam os d escartad o al nivel de .05, y a que este valor cae fu e ra del lím ite su p erio r de .731. S ería conveniente tam bién calcular intervalos de confianza a p ro p ó sito de o tras m edidas de grados de relación. P or desgracia, se conoce dem asiado poco acerca de las distribuciones de m ues treo de la m ayoría de las m edidas de asociación en m ateria de problem as de contingencia p a ra p o d er c o n stru ir intervalos de con fianza en relación con ellas. H aggard [11] sugiere u n m étodo p a ra co m p u tar intervalos de confianza acerca de r» o correlación interclase, y G oodm an y K ruskal [10] discuten la distribución de m u estras de varias m edidas nom inales y ordinales. O casionalm ente se q uiere p o d e r p o n er u n intervalo de con fianza con referencia a b, o se puede ten er necesidad de encon tr a r u n cin tu ró n a cuyo in te rio r pu ed a esperarse que la verdade ra ecuación de regresión se encuentre. E n am bos casos podem os servirnos d e la distribución t en fo rm a relativam ente directa. La apreciación del e rro r e stán d a r de b está d ad a p o r : A A (X V III.3) <*!>= en donde se re co rd a rá q ue: Con fines de cálculo puede d em o strarse algebraicam ente q u e : A / S (Y t-Y ^-b <—1 \ ' 2 (X* - X ) { Y i - Y ) i=l (X V III.4) N -2 Podem os servirnos ahora de los cálculos num éricos obtenidos ya p ara los datos de discrim inación del cu ad ro X V II.l, con lo que o b te n e m o s: 560 0 2 4 - 1 9 .9 3 1 ( 2 553.77) = V 46 284 = 215.1 , 6= _ j m _ = _2m V128.131 =1900 11.32 Si deseam os calcular el intervalo de confianza del 99 p o r ciento, i tu tirrim os d irectam ente a la tab la t y nos servim os de N — 2 ii 11 grudos de lib ertad. O btenem os en esta fo rm a: b ± (3.106)(19.00) = 19.931 ± 59.014 * Al ap reciar la ecuación de regresión, vem os que n u e stra me|o r « p red ació n singular (d e “p u n to ” ) es la línea de los m ínim os eimdrudos. Como q u iera que la cantidad que estam os aprecian do nliora ya no es u n valor singular, sino u n a línea entera, nuesInv apreciación del intervalo ya tam poco será u n intervalo, sino miti hunda a am bos lados de la línea de m ínim os cuadrados. De hurnns a prim eras po d ría esperarse que dicha ban d a consistiera un dos líneas paralelas a la de los m ínim os cuadrados. S in emlinrgo, sem ejante b an d a im plicaría que conocem os la verdadera pendiente y que la ú nica fuente de e rro r está en la apreciación de a. I-Ieinos de re co rd a r que se aprecian ah o ra dos cantidades (u v |l), y, p o r lo tan to , tenem os dos fuentes de erro r. El lector luí i le p ercatarse p o r sí m ism o de que to d a vez que la pendiente puede habese apreciado asim ism o incorrectam ente, cu an to m ás nos vamos alejando del p u n to (X , Y ), tan to m ayor re su lta la im precisión. La ban d a de confianza ad o p ta la form a general de la fljpiru XVIII.2. * Para traz ar esta b an d a de confianza, será necesario calcular el e rro r están d a r de Y v p a ra varios valores de X . La apreciación del e rro r están d a r nos está d ad a p o r la fó rm u la: V I 1— —----------------(X-X)* ,(X Y,,VnIII.5) „v 2 (Xi-X)* i= i ,en donde el valor p a rtic u la r de X a u tilizar en ( X — X ) 2 puede ponerse en cu alq u ier lugar del eje de las X. Obsérvese, de paso, que eunnto m ás lejos X queda de X, ta n to m ayor es el valor num áiieo del e rro r están d ar. Supóngase que deseam os o b ten er el rm > r e stá n d a r estim ado cuando X = 10.0. Como q uiera que V 4.837, obtenem os: o„ - 215.1 J j L + " 113 N — 4-837.)2 = 215.1 V-28496 = 114.86 128.131 V * S irviéndonos nuevam ente d e la tab la t y d e u n intervalo del 99 p o r ciento resp ecto de Y p calculado para este valor f i j o de X, o b te n d ría m o s: Y p ± (3.106)( 114.86) = Y P ± 356.8 U na vez que hayam os obten id o o tro s in terv alo s sem ejantes de Y p p a ra o tro s valores p artic u la res de X, podem os tra z a r la grá- Fig. X V III.2. B anda de confianza con respecto de la recta de m ín im o s cuadrados. fíca de la b a n d a en tera. In ú til es decir que el procedim iento en cuestión se h a ría m uy fastid io so si se d eseara o b ten er la banda e n tera y n o se c o n ta ra con calculadoras. Probando la diferencia entre dos correlaciones. Como se indicó antes, tien e h ab itu alm en te m ás sen tid o teórico el c o m p arar dos o m ás declives q u e el c o m p arar co rrelacio n es; ta l com paración e n tre declives o cu p ará n u e stra atención en el cap ítu lo xx sobre análisis d e covariancia. S in em bargo, o cu rre con frecuencia que se h an o b ten id o v arias correlaciones y se desea estab lecer que u n a de ellas es significativam ente m ás a lta que las dem ás. M ientras nos co n ten tam os en d esc rib ir relaciones d en tro d e n u e s tra m ues tr a p artic u la r, podem os c o m p a ra r sim plem ente las m agnitudes relativas d e las dos r y re g is tra r la m agnitud d e la diferencia. Sin em bargo, si deseam os generalizar a u n a población m ayor, p lan téase la cuestión d e si la diferencia o b ten id a p u ed a o no de b erse acaso al azar. Supóngase, p o r ejem plo, q u e se h a n o bte nido u n a r de .50 y o tra de .30. Puede desearse verificar la hipó tesis n u la de que las dos correlaciones de las poblaciones son idénticas, esto es, pt = q2. Cabe im aginar dos situaciones d istin tas en las que podrían hacerse verificaciones de esta clase. P rim ero, pueden acaso te nerse dos m uestras independientes y desearse co m p arar los gra dos de relación e n tre X y Y y d en tro de cada u n a de las m u estras. Así, p o r ejem plo, la relación e n tre el p o rc en taje de negros y la discrim inación puede acaso no ser la m ism a en los estados del S ur que en los del N orte. P odría en este caso establecerse la hipó tesis de investigación de que Qxy es m ás a lta en el S u r que e n el Norte, verificando la hipótesis nula de que las dos correlaciones son iguales. Un segundo tipo de situación, fácil de confundir con el prim ero, puede p re sen tarse cuando se dispone de una sota m uestra. P uede h ab e r en este caso u n a sola variable dependien te (p o r ejem plo, la discrim inación) y dos variables independientes (p o r ejem plo, el p o rc en taje de negros y el p o rcen taje de m ano de o b ra em pleada en la in d u stria). P uede acaso desearse esta blecer que u n a de estas variables independientes está m ás direc tam ente relacionada con la variable dependiente que la otra. Si designam os la segunda variable independiente com o Z, podem os Icncr in terés e n verificar la hipótesis n u la de que qxv — q¡,v. Vea mos p rim eram en te cóm o trata m o s el p rim e r tipo de situación, p a ra p a sa r luego a la p ru e b a de u n a sola m uestra. Si las dos correlaciones se basan en m u estras independientes, podernos co n v ertir cad a u n a de las r e n z y servirnos de la fó rm u la del e rro r está n d a r de la diferencia e n tre las z, que es análoga a la del e rro r está n d a r d e u n a diferencia e n tre m edias y se p ré senla com o sigue: (X V III.6) Podem os a continuación ya sea estab lecer u n intervalo de con fianza relativo a (zx — z2) o b u sca r el valor d e : Z= ( Z i — Zb ) - 0 en la tab la norm al. El cero figura en la fó rm u la a n terio r debido ni hecho de que n u e stra hipótesis n u la ad o p ta la form a oj = p2. S upóngase que p a ra 17 ciudades del S u r la correlación e n tre el p o rc en taje de negros y la discrim inación re su lta ser de .567, fre n te1 a la d e .301 de las ciudades del N orte. Así, p u es: = .301 Z t= 0.3106 ro = .567 za = 0.6431 = V l/ i o + V i 4 = + -0714 = .414 P o r lo ta n to : .3106 - .6431 -.3 3 2 5 Z = ------------------ = -------------= -.8 0 3 .414 .414 y vem os que e sta d iferencia de las r no es significativa al nivel de .05. Así, pues, pese a que la correlación sea m ayor p o r lo que se refiere a las ciudades del S ur, esta diferencia p u ed e deberse sim plem ente al azar. E n el segundo tipo de situación m encionado, no disponem os de dos m u estras independientes y n o podem os, p o r consiguiente, serv im o s de la m ism a fó rm u la del e rro r e stá n d a r de zx — z2- Se dispone de u n m éto d o p a ra tr a ta r este tipo de problem a, a condi ción que sólo tengam os in teré s en generalizar a subpoblaciones de to d as las m u estras posibles p a ra los que X y Z (las dos varia bles in d ep en d ien tes) tienen las m ism as com binaciones d e valo res que las de la m u estra p a rtic u la r que hem os obtenido. E n la m ayoría de los casos prácticos puede p rescin d irse im punem ente de esta restricció n , a m enos que ex ista alguna razón p a ra supo n e r que el m argen de variación es m ucho m ayor en la población q u e en la m u e stra estudiada, en cuyo caso deberem os de todos m odos g u ard arn o s de generalizar en u n sen tid o o e n otro. Si verificam os la hipótesis n u la de que qxv = form am os t de la m an era siguiente: t - (r *• — \ * x y _ r } (W -3 )(l + r„ ) r zy f ' 2(1 1xy“ r X !? 2 r x y r x z V zy ) (X V III.7) Podem os b u sc a r luego el valor de t en el cuadro, sirviéndonos de N — 3 grados de lib ertad . E n n u e stro ejem plo num érico, su póngase que la correlación e n tre X y Z p a ra las ciudades del N orte re s u lta se r de .172 y que la correlación en tre Y y Z es de .749. T endríam os en esta fo rm a : 10(1 + .172) (.301 = .749 ) J ______ y¡ 2[1 711 -— .3012 — .1722 — ,7492 + 2( .301)(.172)(.749) 3 = -1.72. Como tenem os 10 grados d e lib ertad , vem os que no podem os d esc artar la hipótesis n ula d e que n o hay d iferencia e n tre las correlaciones de las poblaciones de cada u n a de las variables in dependientes con discrim inación. XVIII.2. Correlación no lineal y regresión H asta aquí hem os venido suponiendo que la ecuación d e regre sión e ra de fo rm a lineal. E n m uchos problem as sociológicos prácticos, el m odelo lineal, aunque ta l vez n o exacto, d a con todo u n a aproxim ación b a sta n te cercana a la form a v erdadera de la ecuación, de m odo que n o necesitam os ocuparnos de m odelos altern ativ o s m ás com plicados. E sto es así, en p artic u la r, en re la ción con los estudios d e exploración en los que el grado de adap tación no es excesivam ente exacto. H ay casos, sin em bargo, en los que la inspección del diagram a de dispersión p o d rá indicar claram en te u n a relación no lineal, o en los que n u e stra teoría h a an ticip ad o u n a relación de esta clase. S iem pre que se dé u n a relación no lineal sem ejante, el coeficiente m om ento-producto d a rá obviam ente u n a subestim ación del grado verdadero de re la ción, ya que este coeficiente sólo m ide él grado de adaptación de la m ejo r re c ta singular. Y a vim os que con u n a cu rv a en fo rm a de U es posible te n e r u n a fu e rte relación con u n a r de ap ro xim adam ente cero, y se advirtió al lecto r que era, p o r lo tanto, in co rrecto sacar la conclusión de que dos variables son indepen dientes sim plem ente p o rq u e r sea cero. Si el diagram a de dis persión indica u n a d istrib u ció n de p u n to s m ás o m enos al azar, podem os co n clu ir que n o existe relación, p ero hem os de e s ta r al acecho al pro p io tiem po de las relaciones no lineales. É sta es, p o r supuesto, u n a razón m ás en favor de que el lecto r debe acos tu m b ra rse a tra z a r siem pre diagram as de dispersión an tes de seguir ad elan te con el análisis. E l tem a general de la correlación y la regresión no lineales es dem asiado com plejo p a ra p o d e r tra ta rlo adecuadam ente en este texto. La razón de la com plejidad del análisis n o lineal está en que, u n a vez que progresem os m ás allá de la ecuación de la recta, hay n u m ero so s tipos de ecuaciones que re p re se n ta n las d istin tas fo rm as posibles susceptibles de se r ad o p tad as p o r las relaciones no lineales. Sólo las m ás sim ples d e estas ecuaciones pueden tra ta rs e aquí. A fortunadam ente, estas ecuaciones relativam ente sencillas suelen se r p o r lo re g u lar adecuadas p a ra la solución de las clases de relaciones que se p lan tean en la investigación socio lógica. Un tipo general de función n o lineal puede re p resen ta rse en térm in o s de polinom ios d e grado enésim o, que tienen ecua ciones de la fo rm a : Y = a + b X + cX* + dX» + . . . + k X n El exam en de las relaciones n o lineales d e este tipo general lo d ejarem os h a s ta el próxim o capítulo, o sea h a sta el m om ento de em p ren d er el estudio de los problem as de regresión m últiple. E n efecto, u n a vez com prendidos estos problem as de regresión, dispondrem os de un m étodo relativam ente sim ple p a ra el tra ta m iento de aquellos tipos de relaciones no lineales que se dejan d escrib ir ad ecuadam ente p o r m edio d e polinom ios. Algún o tro tipo d e relaciones no lineales relativam ente sencillo pued e tra ta rs e a m enudo' m ed ian te u n a transform ación de varia bles que p e rm ite el em pleo del m odelo lineal fam iliar. E ste p ro ceso pu ed e ilu stra rse con el caso de las funciones logarítm icas rep resen tad as p o r ecuaciones del tip o : Y = a + b log X que p re se n ta n la fo rm a general de la figura X V III.3. E n una ecuación de este tipo, en efecto, Y es en realid ad u n a función lineal no de la X m ism a, sino de su logaritm o. E sto sugiere que si podem os tra n sfo rm a r cada u n a de las m arcas d e X en una nueva variab le Z = log X , podem os esc rib ir Y com o función lineal d e Z. Así, p o r ejem plo: Y — a + b log X = a + bZ Podem os ca lc u lar ah o ra la correlación e n tre Y y Z (o sea de y y de log X ) en la fo rm a habitual. Si dam os a conocer la d istrib u ción de las m arcas a los ejes d e las Y y las Z, el re su lta d o h ab rá d e ser ap roxim adam ente de fo rm a lineal. Si querem os, podem os co m p arar el grado de relación e n tre Y y Z con el q u e existe en tre Y y X . Si rvz es significativam ente m ayor que rX!1, entonces el m odelo logarítm ico da u n a m e jo r aproxim ación que el m odelo lineal e n tre X y Y . Los m odelos logarítm icos del tip o a n te rio r se p re se n ta n a m e n u d o en casos en que la variable independiente X asum e u n gran m argen de valores, p ero en los que, u n a vez alcanzado cierto valor, los au m entos u lterio res p ro d u cen cada vez m enos efecto sobre la v ariab le dependiente. La m agnitud de u n a ciudad es una variable que p re se n ta con frecuencia esta clase de efecto. Es posible, p o r tan to , que las ciudades d e m ás d e 500 m il h ab itan tes p resen ten to d as ellas m arcas d e Y m uy parecidas. Pero, si se incluye en la m u e stra a la ciudad de Nueva York, p o r ejem plo, el v alo r de X p a ra esta ciudad será tan su p erio r al de las dem ás ciudades, que el efecto n eto co n sistirá en in clin ar la relación en fo rm a m uy p arecid a a la d e la fig u ra XVIII.3. E n tal caso podrá re su lta r p referib le relacionar Y con log X , ya que el hecho de to m ar el lo g aritm o de la m ag n itu d u rb an a p ro d u c irá el efecto de a g ru p ar las m arcas extrem adam ente grandes y de dism inuir el "efecto de c u rv a tu ra ” de estas ciudades m ayores. E n c ierto n ú m ero de casos el investigador n o te n d rá ta l vez in teré s e n h allar la fo rm a exacta d e la ecuación de predicción q u e m e jo r se ad a p te a su s datos. Acaso sólo tra te , p o r ejem plo, de d em o strar que la relación es de fo rm a n o lineal, o de o b ten er u n a m ed id a p a ra el grad o de relación, independientem ente de su form a. Cuando p u e d a efectu arse u n a tran sfo rm ació n sencilla Fig. X V III.3. E cuación logarítm ica de m ín im o s cuadrados de la fo rm a Y = a + b log X. com o la logarítm ica, será indudablem ente ventajoso servirse de dicho procedim iento. P ero a u n así, el investigador q u e rrá acaso v erificar si la m ed id a q u e h a o b tenido co nstituye o n o u n a buena aproxim ación del re su ltad o que h a b ría hallado si se h u b iera en co n trad o la m e jo r adaptación posible. Con o b jeto d e tr a ta r los p ro b lem as de e s ta índole, podem os servirnos de los principios básicos del análisis d e variancia y de algunas de las m edidas de los grados de asociación desarrolladas en el capítulo sobre aná lisis de variancia. El lecto r re c o rd a rá que p a ra o b ten er la sum a de cu adrados " d e n tro ” en el análisis d e variancia de u n a fo rm a tom am os la su m a de las desviaciones al cu ad rad o de cad a u n a de las m edias de las categorías. Supongam os ah o ra q u e las X se h an subdivid ido en c ierto n ú m ero de categorías y que la sum a de los cua d rad o s en Y se analizaban e n la fo rm a habitual. Sabem os que p a ra to d a categoría d ad a de X la su m a d e los cuadrados alrede d o r de la m edia d e la categoría p ro d u c irá u n re su ltad o num érico in ferio r al de la su m a de los cu ad rad o s alred ed o r de cualquier o tro n úm ero. Síguese, en p a rtic u la r, que la sum a in te rio r de cu ad rad o s será m en o r q u e la su m a d e las desviaciones cu a d ra d as resp ecto d e aquellos p u n to s d e la línea de m ínim os cim d rados que caen en los p u n to s m edios de los intervalos (véase la figura X V III.4). Si o cu rre que la ecuación sea de fo rm a lineal, podem os esp erar que Y ,} caerá aproxim adam ente en la línea de los m ínim os cua drados, de m odo que cam biará poco que las desviaciones se to m en respecto de las m edias de las categorías o resp ecto de la lí- Fig. XVIII.4. C om paración de las desviaciones respecto de la rec ta de m ín im o s cuadrados con las desviaciones respecto de las m edias d e las categorías. n ea en cuestión. P or o tra p arte , si la ecuación es realm en te no lineal, entonces, p a ra algunas, al m enos, de las categorías, la sum a de los cu ad rad o s referidos a la m edia de la categoría será consi derab lem en te m ás pequeña que la d e los cuadrados referidos a la línea de los m ínim os cuadrados. E n otros té rm in o s : la sum a in terio r o inexplicada d e cuadrados será m ínim a em pleando las m edias de las categorías y, p o r consiguiente, la sum a de cu ad ra dos en tre categorías, o explicada, s e rá m áxim a. Así, pues, la proporción de variación explicada p o r las categorías, m edida p o r la razón de correlación JE2, será m ayor que la p roporción expli cada p o r la lín ea de m ínim os cuadrados, a m enos que la verda d era relación sea efectivam ente lineal. Podem os sac ar u tilid ad de este hecho p ractican d o u n a p ru eb a de no linealidad. Si form am os la can tid ad E 2 — r2, obtenem os la proporción d e v ariación explicada en el su p u esto de u n a form a cualquiera de relación n o explicada p o r u n a relación lineal. Es obvio que p a ra o b ten er E 2 perm itim os que la relación adopte cualquier fo rm a posible, ya que sólo hem os tom ado desviaciones respecto de las m edias de las categorías, p rescindiendo de dónde estas m edias acontezcan encontrarse. N os estam os p reg u n tan d o fun d am en talm en te en cu án to podem os m e jo ra r n u e stra posi bilidad de p red ecir valores de Y no restringiéndonos al m odelo lineal. Si la m ejo ra es m ayor de lo q u e esperaríam os del azar Cuadro XV III.2. Prueba de análisis de variancia para el caso de no linealidad Grados Estimacio Sumas nes de la de de cuadrados libertad variancia 2y2 Total Explicada por el mo delo lineal Adicional, explicada por el modelo no ( £ 2 _ r2)2y2 lineal Inexplicada F N -l 1 ( £ 2—r2)Sy2 k -2 (1 - £ 2)2y2 N - k k -2 (1 —JB2)2y2 (E 2- r 2)(W -fc) (1 — E 2) ( k — 2) N -k en el supuesto de que la ecuación de regresión sea efectivam ente lineal, entonces podem os concluir que la relación es no lineal. La p ru eb a de análisis de variancia que em plearem os p a ra veri ficar la no linealidad asum e u n a fo rm a con la que no tard a rem o s en fam iliarizarnos. H allam os p rim ero la ca n tid a d d e variación que puede explicarse sirviéndonos del m odelo lineal. A lgebraica m ente, e s ta can tid ad p u ed e re p re se n ta rse com o r 22 y 2. De la va riación d ejad a sin explicar p o r el m odelo lineal, ( 1 — r 2)S y2, vemos a continuación qué tan to p u ed a explicarse p o r m edio del m odelo general. Como q u iera que £ 22 y 2 nos da la sum a de cua d rados que puede explicarse p o r Y cuando no pesa sobre la fo r m a de la relación restricció n alguna, la can tid ad ( £ 2 — r2)2 y2 re p resen ta el in crem ento explicado debido a la no linealidad. Su poniendo que n o haya erro res de redondeo, e s ta ca n tid ad h a b rá de ser siem pre p ositiva.1 Y como q u iera que la ca n tid ad (1 — í?2)2 y2 nos da la sum a de cu adrados que n o re su lta explicada ni siquiera p o r el m odelo m e jo r adaptado, podem os e fectu ar una p ru eb a F tal com o se indica en el cuadro X V III.2. Como de cos tu m b re, el den om inador de F es el térm in o d e e rro r y, com o i Siempre que N sea pequeña y sólo pueda, por tanto, usarse un corto número de categorías, resulta poco realista el supuesto de que las puntua ciones de X están agrupadas en los puntos medios de cada intervalo. Esto puede llevar a agrupar los errores, dando un valor a & menor que r2. q u iera que estam os verificando en relación con desviaciones res p ecto de la linealidad, tom am os com o n u m era d o r u n a aprecia ción de la v arian cia basada e n ( £ 2 — r2)2 y2, o sea la can tid ad explicada p o r el m odelo general m ejo r, que no h a sido explicada todavía p o r el m odelo lineal. Los grados de lib e rta d asociados al n u m era d o r p u ed en o b ten erse p o r sustracción. Una vez m ás observam os que la su m a to tal de cu ad rad o s se elim ina, deján d o nos con la siguiente fó rm u la p a ra F : ( £ 2 — r2) ( N — k) (XVIIL8) en donde k re p re se n ta el n ú m ero d e categorías en las que se ha descom puesto X. Ilu strem o s la p ru e b a de n o linealidad con los d ato s que se ag ru p aro n en el cu ad ro XVII.2. Según p u ed e com probarse fá cilm ente, las sum as to tal y e n tre categorías d e cu ad rad o s en Y son com o s ig u e : SC to ta l = 101 115.38 - 92 132.04 = 8 983.34 SC en tre categorías = 94 792.59 — 92 132.04 = 2 660.55 en donde hem os tra ta d o todas las m areas de Y com o si se encon tra ra n en los p u n to s m edios d e sus respectivos intervalos y en donde nos hem os servido de los procedim ientos p a ra los datos agrupados (véase sec. VI.4). P o r lo ta n to : SC e n tre cu ad rad o s 2 660.55 ................ = ________ — 2962 £2 — ............. SC to tal 8 983.34 Toda vez que an terio rm en te encontram os u n a r de —.460 supo niendo u n a relación lineal, o b te n e m o s: _ .2 9 6 2 - ( - .4 6 0 ) 2 150 - 9 7,141 “ 1 — .2962 9-2 _ .0846 141 _ 11.929 ~ .7038 7 4.927 “ M y vem os que al nivel de .05 podem os d e sc a rta r la hipótesis nula de u n a relación lineal e n tre el p o rc e n ta je de p erso n as clasifica d as com o tra b a ja d o ra s de g ran jas ru rales y el p o rc e n ta je d e m u jere s que tra b a ja n en la in d u stria. Si u n a relación re su lta se r n o lineal e n cuanto a la form a, es m uy posible que r no sea significativa estadísticam ente, en tan to q ue E sí lo será. P or supuesto, la significación de E puede com p ro b a rse p o r m edio de u n análisis directo* de variancia, tom ando la razón de las estim aciones explicada e inexplicada de la va riancia. Son, pues, así tres las p ru e b as que pueden efectuarse, a sab e r: 1) la de la significación de r; 2) la de la significación de las desviaciones resp ecto de la linealidad (E 2 — r2), y 3) la de la significación de E . Si se en cu en tra u n a relación no lineal y se desea u n a estim a ción del grado de relación en la población, es preferible servirse de la razón de correlación insesgada £, exam inada en el capítu lo xvi y d ad a p o r la fó rm u la: t2 y ! ------ ü . ya que el valor num érico de E es función del nú m ero d e catego rías em pleadas y pro b ab lem en te so b restim ará ligeram ente p o r lo regular la relación e n la población. Si y a se h a calculado E , el valor de e pu ede tam b ién calcularse a p a r tir de la fó rm u la: E H N -l)-(k-í) E2 = — 1 1 -------------------------------------i (X V III.9) N —k X V I 11.3. E fectos de los errores de. m edición .SI hay m ediciones d e e rro r en X o Y , bien sean al azar o sisteinri ticas, puede esp erarse u n a alteración en n u estro s resultados. l'.Mu se aplica p o r supuesto a todas las p ru e b as y m ediciones que lin n o s exam inado h a s ta ahora, incluso los procedim ientos no pm am étricos. E n realidad, u n o de los tipos de erro res d e medit I i'iii m ás com unes en sociología, ciencia p o lítica y la m ayoría de Ihn restantes ciencias sociales, p arece ría se r consecuencia del uso i|e dicotom ías m ás bien b u rd as, tales com o alto y bajo o presante y ausente. No se com prenden bien las consecuencias que se deri van d e los errores d e m edición, pero- la m ayor p a rte del tra b a jo iIntem ático so bre el tem a se h a llevado a cabo en las escalas de intervalo y en los problem as que im plican análisis de correlación y regresión. El tem a es p o r desgracia dem asiado técnico p a ra ser U n t a d o cu el p re sen te texto, p ero re su lta rá conveniente p ro n u n ciar |m r lo m enos algunas p alab ras precau to rias. SI hay una m edición de e rro r sistem ática, o n o aleatoria, cual quier tipo de distorsión re su lta posible, siendo así necesario expilcar cuáles son las fuentes del e rro r no aleatorio y la fo rm a en •|i te actúan. Si se co m p aran p o r ejem plo las m edias de tres m uesItici, v el e rro r de m edición es tal que coloque las m edias de las tmienlras segunda y te rc e ra cercanas a la co rresp o n d ien te a la pilm ei u, no so logrará significación estad ística cuando, con base en m ediciones m ás exactas, p u ed a rechazarse fácilm ente la hipóIfttiM nula. P¡ero si los e rro res de m edición son estrictam en te al ii/ h i , resu ltará posible te n e r u n a m ayor clarid ad acerca de los efectos d e tales erro res. E n general, las m edidas d e asociación re su ltarán aten u ad as p o r los e rro res aleatorios de m edición en cu alq u ier variable. P or ejem plo, en el análisis de las situaciones d e variancia, las m ediciones aleato rias de e rro r en la escala de intervalos a u m en ta rán las variaciones dentro de las categorías, p ero no afectarán sistem áticam ente las variaciones e n tre las cate gorías, lo que h a rá b a ja r tan to el v alo r de F com o la correlación in terciases. E n el caso de dos escalas de intervalo los erro res aleatorios de m edición en cu alq u ier variable re d u cirán la m agnitud del coefi ciente d e correlación. E n algunos textos elem entales d e estadís tica se exam inan los procedim ientos correctivos de atenuación, p ero se hace basándose en supuestos especiales, inapropiados p ara u so en la investigación sociológica. (V éase [3 ].) E n general, cuando se cu e n ta con dos o m ás m edidas de cada variable, resu lta posible o b ten er estim aciones corregidas b a jo grupos variables de supuestos. (V éanse [ 2 ], [ 6] y [14].) Si hay e rro re s aleatorios de m edición en Y p e ro n o en X , po dem os co n ceb ir la situación com o u n a contribución q u e alcanza sólo al fa c to r de e rro r en la ecuación Y t = a + (3Z { + g¡, pudiendo d em o strarse que n o h a b rá efecto sistem ático en la estim ación bvm del declive, salvo que el e rro r e stá n d a r en tal estim ación se verá in crem en tad o debido al aum ento del e rro r en la variancia. Pero si hay tam b ién e rro r aleatorio de m edición en X —lo que es m uy posible en to d a investigación re alista—, la estim ación bym del de clive se verá asim ism o atenuada. E n el caso de m u estras grandes puede aplicarse u n a fó rm u la aproxim ada p a ra d eterm in a r el va lo r esperado del declive bvo: 2 <V + o„a en la que X ' re p re se n ta el valor m edido de X , tal com o se le re p resen ta en la ecuación X ' = X + u, en donde se supone a u com o un com ponente estricta m e n te aleatorio, con valor esperado igual a cero, y sin que haya correlación e n tre u y X . La razón de la atenuación e strib a en que la variancia del valor m edido X ' será m ayor que la v ariancia verd ad era de X , según la fó rm u la: <V2 = oa + Vemos así que la atenuación en la estim ación de u n desnivel es función d e la variancia del e r ro r de m edición, relativa a la variancia en X . E ste hecho tien e consecuencias im p o rtan tes en la p ráctica. Sig nifica que en cuantos casos haya e rro r aleatorio de m edición en una variable independiente, n o podem os c o n ta r con iguales decli ves estim ados, incluso en el caso de que los declives verdaderos 10 sean. Si varias poblaciones (o m u e stra s) difieren con resp ecto 11 la can tid ad de variación en X , incluso co n las m ism as varianriiis de e rro r de m edición, las atenuaciones d e los declives d iferi rán. Vale la p en a te n e r e sto p re sen te cuando se llevan a cabo com paraciones de los re su ltad o s de diferen tes estudios. La difi cultad señalada se aplica tam b ién a to d as las m edidas de asocia ción, y no pu ed e ser considerado com o u n defecto privativo del análisis de regresión. XVIII.4. Escalas ordinales: correlación de rangos Ñus hem os ocupado a h o ra de m edidas d e asociación que pueden iillllznrse p a ra relacio n ar dos escalas nom inales (<¿>2, xh, e tc é te ra ), mui escala nom inal y u n a d e intervalo (co rrelació n in trac la se), y¡ iltm escalas d e intervalo ( r ) . Las tre s m ed id as que vam os a exa m inar en esta sección, o sean la rs de S p earm an y la tau y la gamiiih d r K endall, pu ed en em p learse p a rp S I a c i o n a r e n tre sí d o s cut iiliib o rd in ales. A condición que las dos variables pueden aliHciu se, cu alquiera d e estas ú ltim as m edidas puede em plearse jirtnt llar correlaciones q u e son algo parecid as a las del m om en to producto. I,n* m edidas ordinales exam inadas en e s ta sección re su lta n m|ii i vellidas cuando la relación e n tre X y Y es la q u e se denom ina tm w nlónica en a um ento o bien m onotónica en dism inución. La Itúni ile linealidad es desde luego in ap ro p ia d a en el caso de las McnlitM ordinales, com o lo es tam bién la id ea de u n a distan cia milit* vnlores de X (o d e Y ). Podem os, sin em bargo, h a b la r de i#»tw limes que se en c u en tran en aum ento (o dism inución) cons tituir' línn función de au m en to m onotónico es aquella que o bien «leinprc o p erm anece constante, a m ed id a que X aum enta. |íii olí un palabras : cuando X aum enta, Y n o dism inuye. U na funtílrtli lliienl constituye u n caso especial d e u n a función m onotóMlt i« i~Ip Huiliento (o dism inución), p e ro tam b ién lo es u n a función !m#hi lint leu tal com o Y = a + b lo g X . R econocem os dos clases iIh i «Ilición no lineal, a sa b e r: las q u e son m onotónicas y las t|M« in» lo No n . El ú ltim o tip o de relación n o lineal te n d rá p o r *H|Mit'nlu mui o m ás c u rv atu ras o inversiones de dirección, com o í»|i*ni|tliri( n una paráb o la o ecuación d e te rc e r grado. I un fn v u e n e ia encontram os proposiciones teóricas de la forHtn ‘Vmtnln m nyor la X , m ayor la Y (o m en o r la Y )". E stas afirMim Ihih 'i quieren d ecir q u e la relación e n tre l y F e s m onotóniM, («< i <i mi especifican en qué form a. Las m edidas ordinales «propínelas cuando' se tra ta de proposiciones de esta na♦ Hería por supuesto p re ferib le re fin a r n u estra s teorías, i4t> iiinilu que .se especificase si existe linealidad o alguna clase p a rtic u la r d e no lin earid ad (p o r ejem plo, lo g arítm ica), pero si la m edición no h a su p erad o el nivel ordinal, re s u lta rá im posible d istin g u ir em p íricam en te e n tre altern ativ as lineales o n o lineales. (V éase [22].) /LarrB de Spearm an:< El p rin cip io q u e se halla en la base de la m ed id a d e Spearrffanf es m uy sim ple. C om param os la o rdenación d e dos gru p o s de m arcas to m an d o las diferencias d e los rangos, c u ad rán d o las y luego adicionándolas, y tra ta n d o finalm en te dicha m gdida. d e m odo' que su v alor sea.-fcLQ, siem pre que.Joa..6rdenes estén p erfec ta m e n te de acuerdo, —1.0 si los órdenes discxgpan to talm e n te, y cero si no se d a relación alguna. Si sim bolizam os la d iferen cia e n tre dos lugares cualesquiera com o Dit hallam os el N v alo r de 2 D 42 y calculam os r, p o r m edio d e la fó rm u la : <=i y 6 2 D* rs = i ---------íü L .-----N ( N * ~ 1) ( X V III.10) E sta fó rm u la p a ra r„ se obtiene to m an d o la fó rm u la p a ra una co rrelació n m om ento-producto y aplicándola a rangos y no a pu n tu acio n es b ru ta s, pudiendo así in te rp re ta r la m edida de S p earm an com o la correlación m om ento-producto e n tre los ra n gos d e X y los de Y. Ilu strém o sla con algunos dato s reunidos p o r el au to r. Los m iem b ro s d e u n cam p am en to d e tra b a jo fu e ro n ordenados de su p e rio r a in ferio r desde los p u n to s de vista de la popularidad, m ed id a p o r las am istades y d e la particip ació n en las discusiones d e grupo. P a ra am bas variables el orden de clasificación de uno significa u n a m arc a elevada. Los órdenes em patados se calculan atrib u y en d o a cad a m arc a em p a ta d a la m edia aritm é tic a de la p u n tu ació n q ue h a b ría recibido si no h u b iera em pates. Los v alo re s d e Di se calculan a continuación, tal com o se indica en el cu a d ro X V III.3. Si el n ú m ero de em pates es pequeño, com o en el p re se n te caso, no necesitam os in tro d u c ir m odificación en la fó rm u la de rs. P ero si el n ú m e ro de em pates es considerable, en to n ces p u ed e calcu larse u n fa c to r de corrección (véase [19], pp. 215-220). O btenem os, p u e s : 6(207.50) r - i ------i--------- i- = 1 - .305 = .695 16(255) O bsérvese que si las clasificaciones concuerdan perfectam ente, x 2 D¡2 será cero, y el v alor d e rs se rá la unidad. Si bien la ins- l i n t ¡ón directa de la fó rm u la no n o s d a inm ediatam ente los va loren de r, p a ra la independencia y la asociación perfectam ente ueguliva, re su lta que p a ra la asociación negativa p erfec ta el valor ili'l segundo térm in o será de —2.0 y, p o r lo tanto, r, será —1 .0. C uaduo XVIII.3. Cálculo del coeficiente de Spearm an de la correlación de rango l't'tsonas Ana mu Jim iiiuis Mttrclu liiiui Ruth Dorls limitara ( ’ynlhiu lUllo lio Nniity Mnrl Ni mi Nmuli Tolnl O r d e n de O r d e n de popularidad participación 1 2.5 2.5 4 5 6 7 8 9 10 11.5 11.5 13.5 13.5 15 16 5.5 5.5 1 2 3 9.5 55 13.5 9.5 16 5.5 11.5 8 15 11.5 13.5 4.5 3.0 — 1.5 —2.0 —2.0 3.5 —1.5 5,5 0.5 6.0 —6.0 0.0 —5.5 1.5 —3.5 —2.5 30.25 2.25 12J25 6.25 0.0 207.50 20.25 9.00 2.25 4.00 4.00 12.25 2.25 30.25 0.25 36.00 36.00 0.00 I'hi ii In no asociación, el segundo fa c to r será exactam ente la IHilttntl N '• 10, la distribución d e selección de rs es aproxim adam en te uní-tiinl, ro n una desviación e stán d a r de l / y / N — 1. P or lo tanto, ♦»! i'Jrniplo que estam o s exam inando, el e rro r e stá n d a r será de I A / 1 1 Como p ru e b a d e la hipótesis n u la de que n o se d a relaiwt* n i Im población, podem os calcular Z com o sigue: Z = — r* ° = .695 y /Í 5 = 2.69 í/y w -i •tilvMniiono* de la tab la n o rm al vem os que la relación es signiflrwllvt* «I nivel tle .0 1. t a (>iu tfs K nutall. Al calcular la rs de S pearm an nos servim os rft» lim i iimlindos de las diferencias en los rangos. La ta u de fcwülrtl!, t'tt t timbio, que tam bién varía e n tre —1.0 y 1 .0, se b asa •H utm (ípt'tiu lón algo d istin ta. E n efecto, calculam os p rim ero u n a estad ística S buscando todos los pares posibles de casos y observando si las puntuaciones están o n o en el m ism o orden. Así, p o r ejem plo, supongam os que teníam os las siguientes com binaciones de lugares: A B a b c 1 2 2 3 4 3 1 4 d Como q u iera que las m arcas d e A se h an d ad o en orden ascen dente, podem os calcular S exam inando las clasificaciones d e B u n a p o r u na. F ijándonos en el p rim e r valor de la h ilera B (indi viduo a), vem os que la m arc a d e B está en el orden apropiado p a ra los p ares ( a ,b ) y (a,d). E n o tro s térm in o s: el individuo a ocupa u n lu g ar in ferio r a b y d en am bas variables A y B. Por o tra p arte , la m arca de B discrepa (con respecto a la m arca de A ) p a ra el p a r (a,c), ya q u e a ocupa u n lugar in ferio r a c en cuan to a A, p ero inversam ente en c u a n to a B. Sirvám onos de +1 cada vez que u n p a r determ in ad o se halla ord en ad o igualm ente p a ra A y B (lo que se denom ina p a r “con co rd an te” ) y d e —1 cada vez que se h alla ordenado al revés (lo que se denom ina p a r "d isc o rd an te” ). El valor de S se obtiene sum ando dichos +1 y —1 p a ra todos los pares posibles. P or lo tanto, 5 es igual al nú m ero d e pares concordantes C, m enos el nú m ero de p ares discordantes D. P or lo tan to , la contribución de los p a re s ( a,b), (a,c) y ( a,d ) e s: + 1 - 1 +1 = ( 2 - 1) = 1 . Con objeto de te n e r en cuenta los dem ás pares, recorrem os la tabla de izquierda a derecha. Vemos así que la contribución de los p a res ( b ,c ) y ( b,d) es de —1 + 1, o sea cero. Finalm ente, la co n tri bución del p a r (c,d ) es de + 1 . O bsérvese que de hecho podem os o b ten er el v alo r to tal de S disponiendo p rim ero A en el orden ap ropiado y exam inando luego sucesivam ente los lugares de la h ilera B, co ntando cada vez el núm ero de lugares de la derecha que están en el orden apro p iad o y sustrayendo los que están en el orden co n trario. De este m odo, en este sencillo ejem plo ob tenem os : S = C - D = ( 2 - l ) + ( l - l ) + ( l - 0) = 2 Si ah o ra dividim os S e n tre el v alo r m áxim o posible que podría tener, esto e s : (N - 1) + (N - 2) + . . . + 2 + 1 = N (N — l)/2 , ob tenem os u n coeficiente que p u ed e v aria r de —1 a +1. Definimos así el coeficiente tau 0 (según K endall [16]), adecuado cuando no hay em pates, com o sigue :2 2 Este coeficiente, derivado de los datos de la muestra, se denomina a veces t, en tanto que tau se reserva para la contrapartida de la pobla- T° S C —D V i N i N - 1) lA N ( N - 1) (X V III .ll) IU olí vio que si hay discrepancia perfecta en tre los dos sistem as tlt» ni lim ación (esto es, si B estuviera ordenado com o 4, 3, 2, 1), ni valor de S será —ViN^N — 1), y x será —1.0. Y asim ism o, si las it'i'4 v¡iriubles no tienen relación alguna e n tre sí, las contribucio nes a .S positivas y negativas se invalidarán, y x será cero. ( un o b jeto de ilu s tra r el caso de los órdenes em patados, sir vámonos nuevam ente del ejem plo del cam pam ento de trab ajo . iJUpongairios a los individuos en orden horizontal y reemplace* iiiiih los nom bres p o r letras. N u estra disposición se p re sen ta en i»i»l¡i turm a: a I) cdef g h i j k l m n o p A I 2.5 2.5 4 5 6 7 8 9 10 11.5 11.5 13.5 13.5 15 II V5 5.5 1 2 3 9.5 5.5 13.5 9.5 16 5.5 11.5 8 15 11.5 16 13.5 llm u m do seguir la regla de que siem p re que algún p a r com porit» un em pate, ya sea en la m arc a A o B , su contribución a S será i »«i o, M irando p rim ero todos los pares que pueden fo rm arse con a, VíMiion <iuc los pares (a ,b ), ( a,g) y (a.,k) no co n trib u irán con mullí a S, ya que las m arcas de B p a ra todos dichos individuos i*f»bin ligadas en 5.5. P o r lo tanto, la contribución de todos los lienirtN pares será: <»i,i ) (i/,*0 («,«) (a,f)(a,h ) (a,i) (a,j) (a,l) (a,m) (a,n) (a,o) (a,p) I I -1 +1 +1 +1 +1 +1 +1 +1 +1 +1 = 9 —3 = 6 /V ron lin u ación com param os las m arcas de b con cada u n a de In* m u irás a su derecha. Obsérvese, sin em bargo, que b y c están IIUihIon con respecto a A. Como quiera, p o r lo tanto, que b y e piirltr'ffin haberse dado lo m ism o en el o rd en inverso, hem os de Hllnilmir r! p ar (b,c). Y en fo rm a análoga, los pares (b,g) y (b ,k ) i’Mfin tinados en B y, p o r consiguiente, no h arán contribución iil|Mmu ¡i N. En e sta form a, p a ra los pares de b, obtenem os una niinii» de () 2, o sea 7. R ecorriendo la ta b la de izquierda a deret luí obtenem os finalm ente: c /> - ( 9 - 3 ) + ( 9 - 2 ) + ( 1 3 - 0 ) + ( 1 2 - 0 ) + ■i ( 6 — 3 ) + ( 8 — 0 ) + ( 2 - 5 ) + ( 5 - 2 ) + ( 1 1 - 0 ) ( 0 - 6 ) | (4-0) + (2 - 1 )+ (2-0)+ (0-2)+ (1-0) 60 ilini ■tcuiiiremos, sin embargo, el uso más convencional. La tau de Ken11,111 un ili-lir con Cundirse con las tau0 y tauft de Goodman y Kruskal, lii-i i|in '.mi nproptadas para datos nominales, Con o b jeto de corregir en relación con los em pates, hem os de p ra cticar ah o ra u n a ju ste en el denom ina d o r d e tau. S em ejante aju ste tiene el efecto de p ro d u c ir u n aum ento del v alo r num érico de tau , si bien dicho aum ento será ligero, a m enos que el núm e r o de em pates sea m uy grande. L a fó rm u la de ta u (la que Kendall designó com o t s ) puede generalizarse com o sigue: Xh = --------------------------£ -------------------------- (X V III.12) V '/ 2N(W - 1) - T y /V iN ( N — 1) - 17 en donde T = ,A 2 f i ( f i — 1), siendo t¡ el n ú m ero d e em pates en cada g rupo d e em pates en A, y U = J4S «í(m í— 1), siendo u¡ el nú m ero de em pates en cada grupo d e em pates en B . E n el ejem p lo a n te rio r tenem os tre s em pates, de dos cada uno, en la varia ble A (p o p u larid a d ). P or lo ta n to : T = M [2 (l) + 2(1) + 2 (1 )] = 3 Y en fo rm a análoga, hay tre s em pates, de dos cada uno, y una m arca con c u a tro em pates en la variable B (p articip ació n ). Por con sig u ien te: U = 1/ 2[2(1) + 2(1) + 2(1) + 4 (3 )] = 9 De donde: 60 60 60 rh = ------------------------------------ ----------------------= ------- = .526 V [8 (1 5 )-3 ][8 (1 5 )-9 ] y/(U7)(lll) 114.0 Prueba de significación para tau. K endall [16] h a dem ostrado que p a ra tam añ o s de m u estras de 10 o m ás, la d istribución de m uestreo de S b a jo la hipótesis n u la será aproxim adam ente nor mal, con m ed ia de cero y variancia d ad a p o r: o*2 = V is N ( N — 1 )(2 N + 5) (X V III.1 3 ) H ablando estrictam ente, la fó rm u la an terio r es aplicable sólo cuando no h ay em pates, p e ro p u ed e se r usad a cuando el núm ero de éstos es relativam ente pequeño. Si se d a u n gran nú m ero de em pates, u n fa c to r d e corrección b a sta n te volum inoso h ab rá de ser aplicado. P ara p ro b a r la significancia d e ta u con los datos del cam po de trab ajo , com enzam os p o r c o m p u tar as2 com o sigue: O bteniendo la ra íz cu a d ra d a te n e m o s: <r„ = 22.21 valor que p u ed e se r u sad o en el d enom inador de Z al p ro b a r la hipótesis n u la d e que A y B no e stán relacionados. Así S- 0 60.0 c3 22.21 : 2.70 y vemos q ue u n v alor d e ta u de .526 es significativo al nivel de .01. M edidas ordinales para datos agrupados: tauc, gam m a, d yx y d ,y. Una de las v en tajas de ta u resp ecto d e rs es que aquélla p u e do u tilizarse fácilm ente cuando se d a u n n ú m ero gran d e d e em pates. Pese a q ue el cálculo de ru tin a q u e se acab a de d esc rib ir resu ltaría sum am ente fastidioso en tales casos, podem os sim pli ficar m ucho el p rocedim iento cuando am bas categorías se h an agrupado en categorías algo toscas. Así, p o r ejem plo, p u ed e haberse colocado a perso n as e n cinco clases sociales, co n sid erán dolas com o em p atadas co n resp ecto a la posición. Si la segunda variable se h a categorizado en la m ism a form a, podem os serv ir nos de u n a fó rm u la de ta u m odificada, aprovechando con ello la Inform ación d e q u e los d ato s h an sido efectivam ente o rdenados, y rio sim plem ente p u esto s en categorías. Podem os calcular S = C — D m ed ian te u n pro ced im ien to que np d escribe m ás abajo. S irviéndonos de las fó rm u las que se aca ban de d ar, en co ntrarem os que el lím ite su p erio r de tauj, sólo xcrá la u n id ad cuando el n ú m ero de h ilera s y d e colum nas sea el mismo. Con o b jeto de co rreg ir p a ra el caso en que r¥=c, form amoN la razó n : c —l)/m ] (X V III.14) ilomle m = M in (r,c ) Ai|u( seguim os a K endall en el em pleo del sím bolo xc, con o b jeto ile distin g u ir la ecuación (X V III.14) de las fórm ulas p reced en tes. Veamos ah o ra cóm o se calcula rc. l , o s dato s del cu adro X V III.4 re p re se n ta n los lugares asigna

Blalock Hubert - Estadistica Social

Documentos relacionados

Productos

Apoyo

Blalock Hubert - Estadistica Social

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib