Subido por Néstor Díaz

FONDO DE CULTURA ECONOMICA

Anuncio
HUBERT M. BLALOCK, JR.
ESTADISTICA
SOCIAL
GB
¿0 ANIVERSARIO
FONDO DE CULTURA ECONÓMICA
MÉXICO
Prim era edición en inglés
Prim era edición e n español,
Segunda edición e n inglés,
Segunda edición en español, d e la segunda en inglés,
Q uinta reim presión,
1960
1966
1972
1978
1994
T ítulo original:
Social Statistics
© 1960, 1972, Me Graw-Hill, Inc. Nueva York
D . R . © 1966, F o n d o d e C u l t u r a E c o n ó m ic a
D. R. © 1986, F o n d o d e C u l t u r a E c o n ó m ic a , S. A. d e C. V.
C arretera PicachoA jusco 227; 14200 México, D. F.
ISBN 968-16-0135-1
Im preso e n México
A
An n , S u s ie
y K atie
E ste lib r o h a sid o e s c rito fu n d a m e n ta lm e n te p a r a aq u e llo s e s tu ­
d ia n te s d e sociología, ta n to los y a titu la d o s c o m o lo s q u e a ú n
n o lo e s tá n , q u e se p ro p o n g a n d e d ic a rs e a la in v e stig a ció n social.
D u ran te los doce años tran sc u rrid o s desde que apareció la p ri­
m era edición, ta n to el nivel de p rep aració n com o la com plejidad
de la estad ística ap licad a h a n experim entado u n a m ejo ría consi­
derable, n o sólo en el cam po de la sociología, sino e n los de la
ciencia política, la antropología, la geografía y el tra b a jo social.
A p e sa r de ello, u n a ab ru m a d o ra m ayoría de los estudiantes, o
de los q ue ejercen en estos terren o s, carecen de la necesaria
b ase m atem ática que les p erm ita o b ten er p len a v en taja de la bi­
blio g rafía técn ica sobre estad ística, m atem ática y econom etría,
cuyos m ateriales au m en ta n rápidam ente. T eniendo e n m en te tales
dato s básicos h a sido escrito este texto, tra ta n d o de evitar, h asta
donde es posible, la s derivaciones m atem áticas, bastan d o u n a
rá p id a revisión de ciertos principios algebraicos, listados en el
A péndice 1, p a ra q ue el estu d ian te m edio obtenga u n a p re p a ra ­
ción suficiente. Aun cu an d o n o re su lte n ecesario e n u n p rim e r
cu rso de estad ística p o n e r de relieve dichas derivaciones m atem á­
ticas, el a u to r está convencido de la necesidad de en te n d e r p e r­
fectam en te ciertas ideas básicas y fundam entales so b re las que
se asien tan los prin cipios de la deducción estadística. Tal cosa
re s u lta ind isp en sab le si h a de lograrse algo m ás que u n conoci­
m ien to lim itad o a "re c e ta s” estadísticas. H em os pu esto p o r ello
especial in teré s en la lógica q u e fu n d a m e n ta la deducción esta­
dística, incluyendo asim ism o u n capítulo relativo a la p robabili­
dad, en ta n to se h a p re sta d o m en o r atención a m ateria s m ás o
m enos ru tin a ria s estu d iad as e n textos elem entales.
Uno de los p roblem as m ás difíciles e n la enseñanza de la esta ­
dística ap licad a es el de lo g rar in c ita r a los estudiantes, de m a­
n e ra q u e éstos su p eren su te m o r a las m atem áticas y ap ren d an
a ap lica r la estad ística e n su s p ro p io s cam pos de in terés. P or
e sta ú ltim a razón el a u to r n o h a in te n ta d o c u b rir u n a gam a am ­
p lia de aplicaciones, eligiendo p o r el co n tra rio ejem plos de in te­
rés fu n d am en tal p a ra los sociólogos. T am bién h a escogido o tro s
ejem plos de cam pos fronterizos de la sociología, tom ados de te­
rren o s tales com o la psicología social, el tra b a jo social y la con­
d u cta política. E n la m ayoría de los casos cada nuevo tem a h a
sido ilu stra d o con u n solo ejem plo, p o r su p o n er que m uchos
e stu d ian tes p e rd erían el hilo básico del razonam iento si se u tili­
zasen m uchos de ellos p a ra ilu s tra r u n punto. Se proporcionan,
sin em bargo, ejem plos adicionales b a jo la fo rm a de ejercicios
q ue ap arecen al final de cada capítulo. E n general h a tra ta d o
el a u to r de lo g rar u n equilibrio razonable e n tre la conveniencia
d e estab lecer los principios básicos e n fo rm a ta n clara y concisa
com o re su lte posible, y la necesidad de re p e tir algunas de las
ideas m ás dificultosas cada vez que exam ina u n nuevo tem a.
H a sta donde es posible, las ideas nuevas h an sid o p resen tad as
grad u alm en te y —lo q u e es igualm ente im p o rtan te— se h a n he­
cho esfuerzos p a ra que cada nuevo tem a quede relacionado con
los que h an p reeedido. Al h acerlo así se tuvo p re se n te la m eta
fun d am en tal, co nsistente en b rin d a r u n a apreciación de las sem e­
janzas básicas que fu n d am en tan m uchas de las p ru e b as (te sts)
y m ediciones m ás com únm ente usadas.
Casi to d as las sugerencias que h e recibido de p erso n as deseo­
sas de ay u d ar a m e jo ra r la p rim e ra edición se re fería n m ás a la
conveniencia de au m en ta r que a la de re d u cir el libro, dando a
en ten d e r q ue m uchos de los tem as trata d o s originalm ente debe­
ría n ser exam inados m ás técnicam ente. E n m i opinión, ta n to los
sociólogos com o los estudiosos de ciencias políticas, en p artic u la r,
precisan verse m ás expuestos, ta n to a una bibliografía de m ayor
nivel técnico so b re diseños experim entales, com o a procedim ien­
tos p a ra el u so de ecuaciones sim ultáneas relacionadas con la
investigación n o experim ental. R esultó claro q u e si se agregaban
estos m ateriales al texto original, éste p e rd e ría su atra ctiv o com o
in tro d u cció n ad ecuada p a ra los estu d ian tes que asp ira n a la m aes­
tría en ciencias sociales. Se resolvió, pues, que los diseños expe­
rim entales, el análisis de facto res y los m étodos de ecuaciones
sim ultáneas, así com o o tro s tem as m ás avanzados, serían tra ta ­
dos en u n tex to separado, a cargo de dos de m is colegas: Lewis
F. C árter y K rishnan N am boodiri.
Se incluye en el texto cierto n ú m ero de secciones, p árrafo s
y ejercicios que, o bien son conceptualm ente difíciles o p resupo­
nen q ue el estu d ian te posee cierta fam iliaridad con tem as cubier­
to s en cursos acerca de los m étodos de investigación. E stas p a r­
tes del tex to h a n sido señaladas con asteriscos (* ), y pueden ser
leídas sin d eten erse en ellas, o b ien elim inadas del todo. Los
in stru cto re s q u e utilicen el tex to en cursos de u n sem estre
p o d rá n in d icar a los estu d ian tes la conveniencia de o m itir dichos
m ateriales.
Se h a llevado a cabo u n a leve revaluación e n los aspectos téc­
nicos, em p ero sin cam b iar la e stru c tu ra b ásica del texto. Hay
ciertas m odificaciones en la sección relativa a la estad ística des­
criptiva, sección a la que el a u to r h a añadido discusiones sobre
supuestos y conceptos básicos, confiando así en a c la ra r la rela­
ción en tre los m odelos estadísticos y el m undo re al con el que
el científico social h a de tra ta r. Además de estos cam bios, la
p resen te edición contiene discusiones acerca de diversos proce­
dim ientos, tests y m ediciones que h an venido siendo usados cada
vez m ás d u ra n te la década de 1960-1969.
El cap ítu lo ix, sobre la probabilidad, h a sido am pliado m edian­
te el exam en de p erm u tas, diagram as e n árbol, T eorem a d e Ba­
yes y cálculos relacionados con las probabilidades condicionales
y la noción de valores previstos. T am bién al capítulo x, q u e in­
cluye u n a explicación d e la distribución binom ial, h a agregado
el a u to r u n a breve discusión de dicha d istribución binom ial, la
distrib u ció n h ipergeom étrica y la distribución de Poisson. E stas
agregaciones facilitarán la transición a o tro s textos,^orientados
específicam ente a la estad ística n o p aram étrica.
E l a u to r h a au m entado asim ism o el espacio dedicado a técnicas
n o p aram étricas, incluyendo el test de F riedm an p a ra análisis
recíprocos de fluctuaciones con o rd e n ; gam m a y dyx, com o m edi­
das de asociación o rd in a l; u n te st p a ra la interacción relativa a la
d iferencia de diferencias de proporciones, y la norm alización en
el caso de procedim ientos con escala nom inal. El lecto r encon­
tr a r á adem ás u n a discusión am pliada acerca de las propiedades
de las v arias m edidas ordinales y técnicas d e divisibilidad con
escalas ordinales.
De m an era análoga h a sido am pliado el com entario de los acer­
cam ientos p aram étricos p a ra incluir en él la discusión de los
supuestos p a ra el m odelo lineal general, cubriendo adem ás el
acercam iento de la variab le sim ulada com o perspectiva altern a
en el análisis de la covariación. T am bién se h an agregado los
principios esenciales básicos d e la teo ría que fu n d am en ta el uso
de com binaciones lineales, aplicándola a la discusión del e rro r
n o rm al de la m edia, la diferencia de m edias, la diferencia de las
diferencias de p roporciones y el em pleo d e com paraciones o rto ­
gonales en el caso de m u estras m últiples.
E n u n esfuerzo p a ra a y u d a r al lecto r en la apreciación del cua­
d ro global, el a u to r h a incluido u n a ta b la resu m en d e tests y
m ediciones, tab la que aparece en el in te rio r de la tap a, así com o
am plios sum arios al final de los capítulos u , xiv y xx.
Son m uchas las personas que h an colaborado e n esta revisión,
p ero el a u to r desearía d a r gracias de m an era especial a R ichard
G. Ames, E rica B orden y Louis G oodm an p o r sus com entarios en
relación con la to talid a d del m anuscrito.
P o r su ayuda en la p rep aració n de la p rim e ra edición, deseo
d a r gracias de m an era destacada a los estud iantes y colegas de
la U niversidad de M ichigan, quienes leyeron varios b o rrad o res
del lib ro y sugirieron m ejoras. A R ichard T. LaPierre, S anford
D om busch, R obert Ellis, S an to Cam illeri y T heodore A nderson
m i ap recio p o r leer y c ritic a r el m an u scrito original. Deseo igual­
m en te agrad ecer p o r la corrección de pruebas, el m ecanografiado
y la revisión de los cálculos, la ayuda p re sta d a p o r Ann Blalock,
D iane Etzel, Ann Laux y Doris Slesinger. G racias igualm ente a
Daniel O. Price, m erecedor de am plio reconocim iento p o r h ab e r
estim u lad o m i in terés e n la estadística.
Quedo en deu d a con el p ro feso r S ir R onald A. F isher, de Cam­
bridge, con el d o cto r F ran k Yates, de R otham sted y con los se­
ñores Oliver a n d Boyd, Ltd., de Edim burgo, p o r su autorización
p a ra re im p rim ir los cuadros iii, iv y v de su lib ro Cuadros esta­
d ísticos para investigaciones biológicas y agrícolas. T am bién es­
toy reconocido a los distin to s editores y autores, m encionados
en los lugares adecuados, quienes am ablem ente dieron perm iso
p a ra el u so de varios cuadros y form as de com putación.
H ubert M. B lalock , Ja.
P rim e ra P a r te
INTRODUCCIÓN
E l cam po d e la estad ística tien e m últiples aplicaciones, com o lo
d em u estra el hecho de que se den cursos de ella en m ateria s ta n
dispares com o son la odontología y la sociología, la ad m in istra­
ción de negocios y la zoología, la salud pública y la enseñanza.
A p e sa r d e ello, existen to d av ía m uchas concepciones erró n eas
acerca de la n atu raleza d e esta disciplina en estad o de rá p id o
desarrollo. La id ea que de la estad ística se h ace el lego, puede
d ife rir m u ch o de la que tien e de ella el estad íg rafo profesional.
A veces se supone q u e el estadígrafo es u n a p erso n a que m ani­
p u la n ú m ero s p a ra d em o strar s u p u n to d e vista. P o r o tra p a rte ,
en cam bio, algunos estu d ian tes de sociología o de o tra s ciencias
sociales, p ro p en d en a ad m ira rle com o a alguien que, con la ayuda
d e su calculadora, p u ed e co n v ertir casi cualquier estu d io en
"cien tífico ”. D ebido p osiblem ente al re sp eto q u e m uchas p e rso ­
n as sien ten p o r to d o aquello que en alguna fo rm a se relaciona
con las m atem áticas, a m uchos estu d ian tes les re s u lta difícil
in scrib irse en u n cu rso d e estad ística sin c ie rta aprehensión.
P ese a q u e les in fu n d a te m o r la perspectiva de tra b a ja r con n ú ­
m eros, es posible tam b ién que esp eren dem asiado d e u n a disci­
p lin a q u e p arece ta n form idable. Antes, pues, de e n tra r dem asia­
do rá p id a m en te en m ateria , con lo que correm o s el riesgo d e
p e rd e r la perspectiva, em pecem os p o r p re g u n ta rn o s q u é e s exac­
tam en te la estad ística y q u é es aquello q u e p u ed e y aquello que
n o p u ed e hacer.
T al vez re su lte m ás fácil em pezar indicando aquello q u e la
estad ística n o e s .»E n p rim e r lugar, la estad ística n o es en m odo
alguno u n m scodo con el q u e u n o p u e d a p ro b a r casi to d o aquello
que d esea p ro b a r. V erem os, a n te s bien, q u e los estadígrafos
po n en especial em peño e n estab lecer las reglas del juego d e ta l
m an era q u e las in terp retacio n es n o vayan m ás allá de los lím ites
de los datos. Sin em bargo, n o h ay n ad a en los m étodos estad ís­
ticos e n sí m ism os q ue sea capaz de ev itar q u e el individuo su­
perficial o intelectu alm ente poco escrupuloso saq u e sus p ro p ias
conclusiones, a p e sa r de los datos, y u n o de los aspectos m ás
im p o rtan tes de u n cu rso d e introducción a la estad ística consiste
p recisam en te en p o n e r a los estu d ian tes en gu ard ia c o n tra los
posibles abusos de esta h erram ien ta.
La estad ística no es sencillam ente u n a colección d e hechos. Si
lo fu era, n o v ald ría m ucho la p en a estudiarla. Ni constituye ta m ­
poco u n su stitu tiv o del p en sam iento a b stra c to teó rico o del exa­
m en m inucioso de los casos excepcionales. E n algunos d e los
lib ro s de texto m ás antiguos solían e n c o n tra rse p ro lijas discu-
15
siones acerca de los m éritos del estu d io casuístico, fre n te al m é­
todo estadístico. Ahora, en cam bio, ad m ítese claram en te que los
m étodos estadísticos n o se "oponen" en m odo alguno al análisis
cualitativo de los casos p artic u la res, sino que am bos m étodos se
com plem entan. Y n i siq u iera es exacto que la estad ística sólo
sea aplicable en , p resencia de u n gran n ú m ero de casos, o que
no p u ed a em p learse en los estudios de exploración. Finalm ente,
la estad ística n o es tam poco u n s u s titu to de la m edida, o de la
p rep aració n cuidadosa de u n a cédula de investigación o de otros
in stru m en to s p a ra la recolección de datos. Se in sistirá con m a­
y o r detalle en este ú ltim o aspecto al final del p re se n te capítulo
y en el siguiente.
Y ahora, habiendo indicado lo q u e la estad ística n o es, ¿pode­
m os acaso a firm a r decididam ente aquello que es? In fo rtu n ad a­
m ente, los estadígrafos m ism os p arece n d iscre p ar algo e n tre sí
en cu an to a la extensión de aquello que deba co m p ren d erse b ajo
el apelativo general de "estad ístic a”. A doptando u n p u n to de vista
pragm ático, podem os decir p o r n u e stra p a rte q u e la estad ística
com prende dos funciones m uy vastas, y que n a d a de aquello que
no cum ple dichas $ o s M ic ió ñ é s fo rm a p a rte de ella. L a p rim era
es la de la descripción, el resu m en de la info rm ación de tal m odo
que se p u ed a em p lear m ejo r. Y la segunda es la de la inducción,
con sisten te en fo rm u la r generalizaciones a p ro p ó sito de u n a de­
term in ad a población sobre la base de u n a m u e stra ex traíd a de
la m ism a. E sta s dos funciones se exam inarán a su tiem po.
1.1. Funciones de la estadística
La estadística descriptiva. E n la investigación social, u n a persona
se e n c o n tra rá a m enudo en la situación de d isponer de tan to s
datos, que le re su lte difícil ab so rb e r la inform ación en tera. Puede
h a b e r re u n id o 200 cuestionarios y p re g u n ta rse con todo, em ba­
razosam ente, "¿q ué hago con to d o ello?" Con ta m a ñ a inform ación
h a b ría de re s u lta r excesivam ente difícil, excepto tal vez p a ra las
m en tes ex tra o rd in aria m e n te fotográficas, ca p ta r intuitivam ente
lo que los datos contienen. E n u n a fo rm a u o tra, pues, la infor­
m ación h a de re d u cirse h a sta un p u n to en que p u ed a verse cla­
ra m e n te lo que hay en e lla : h a de resum irse^ Con el em pleo de
m edidas de cálculo, tales com o po rcen tajes, prom edios, desvia­
ciones e stán d a r y coeficientes de correlación, re su lta posible re­
d u cir los datos a proporciones m anuables. Al re su m ir los datos
su stituyendo grandes cantidades p o r unas pocas m edidas, cierta
inform ación h a de p erd érse necesariam ente y, lo q u e es m ás
grave, es posible o b ten er re su ltad o s engañadores, a m enos que
pe los in te rp re te con m ucha precaución. De ah í que convenga
in d icar claram en te las lim itaciones de to d a m edida resum ida.
La estad ística descriptiva es m u y ú til en aquellos casos e n que
el investigador necesita m an eja r relaciones m u tu as en tre m ás de
dos variables. Supongam os, p o r ejem plo, que resu lte preciso
em p lear ocho o diez variables com o ayuda p a ra explicar las ta­
sas de delincuencia, y supongam os p o r o tra p a rte que aquellas
variables explicativas o independientes e stán altam ente relacio­
nad as e n tre sí. Si se desea aislar el efecto ocasionado p o r u n a
o dos de tales variables, lim itándonos a las consecuencias de
las dem ás, ¿cóm o h ab ría que proceder? ¿Qué género de supues­
tos re su ltarían necesarios? Situaciones de este grado de com ­
plejid ad se p lantean en u n a ram a de la estadística conocida
con el n om bre de análisis m ultivariado. E n los capítulos xv,
xvi, xix y xx exam inarem os algunos problem as relativam ente sen­
cillos de análisis m ultivariado, reservando otros casos m ás com ­
plejos p a ra un segundo volum en.
La estadística inductivai La estad ística re su lta ría u n a m ateria
m uy fácil si la atención p u d iera lim itarse a las m edidas descrip­
tivas. Tal vez u n a función m ucho m ás im p o rtan te de la estad ís­
tica, y en todo caso la que re te n d rá la m ayor p a rte de n u estra
atención en este texto, es la derla inducción? consistente en infe­
r ir p ropiedades de u n a población sobre la base de u n a m u estra
con resu ltad o s conocidos. La inducción estadística, com o se la
aco stu m b ra llam ar, im plica u n razonam iento m ucho m ás com ­
plejo que el de la estad ística descriptiva, pero, si se la com pren­
de y utiliza bien, se convierte en un in stru m en to m uy im p o rtan te
p a ra el d esarrollo de u n a disciplina científica. La estadística in­
ductiva se b asa d irectam ente en la teo ría de la probabilidad, que
es u n a ram a de las m atem áticas. Tenem os, pues, así, una disci­
plin a p u ram en te deductiva que p ro p o rcio n a u n a b ase racional
p a ra el razonam iento inductivo. Que el a u to r sepa, no existe o tra
b ase racional alguna p a ra la inducción. E ste p u n to general se
exam inará con m ayor detalle en el capítulo vm .
E xisten algunas razones de orden práctico en cuya v irtu d re ­
su lta a veces necesario tr a ta r de generalizar sobre la base de una
inform ación lim itada. La m ás obvia de ellas es la del facto r tiem ­
po-costo. Sería absolutam ente im practicable, y no digam os ya
p ro h ib itiv am en te costoso, p re g u n ta r a cada electo r cóm o se pro­
pone votar, con objeto de p red ecir en esta form a el resultado
d e u n a votación nacional. Ni puede el investigador co rrien te
p erm itirse visitar a todos y cada uno de los residentes de una
g ran ciu d ad p a ra e stu d ia r sus prejuicios, la m ovilidad social o
cu alq u ier o tro fenóm eno p o r el estilo. Lo p rim ero que hace, en
efecto, es decidir la n atu raleza exacta del grupo que se propone
generalizar ("la población” ). Puede escoger a todos los ciudada­
nos en edad de votar, o todos los varones blancos de dieciocho
años cum plidos, que viven en los lím ites' de la ciudad de D etroit.
E n tal caso suele p o r lo reg u lar ex tra er una m u estra consistente
en u n a p ro p o rció n relativam ente pequeña de las p ersonas en
cuestión, p e ro in teresándose a n te to d o no en esa m u e stra p a r­
ticu lar, sino en la población m ás n um erosa de la q u e h a sido
ex traída. Puede en co n trar, p o r ejem plo, que, en esa m u estra
p a rtic u la r de 200 varones blancos, existe u n a relación negativa
e n tre la educación y el prejuicio. Aun adm itiendo que en o tro
co n ju n to de 200 individuos m u estread o s el re su ltad o p u d o hab er
sid o to talm en te d istinto, p ro p e n d erá sin em b arg o a establecer
ciertas in feren cias acerca del c a rá c te r de la relación en el caso
de h ab erse estu d iad o la población e n te ra de los varones blancos
ad u lto s e n D etroit.
O tra razón que lleva a generalizar so b re la base de u n a infor­
m ación lim itad a es la de que p u ed e se r im posible u tiliza r a toda
la población, p o rq u e ésta sea in fin ita o difícil de definir. Al repli­
c a r u n ex p erim ento en las ciencias n atu ra les o sociales, el obje­
tivo p arece s e r siem pre c ie rta clase de generalización d e la que
se esp era que se v erificará "en circunstancias sim ilares". O bien
u n esp ecialista en ciencias sociales puede h a b e r re u n id o datos de
todos los casos d e que dispone. P uede h ab erse servido, p o r ejem ­
plo, com o unidades de análisis, en u n estudio so b re la m igración
in terio r, d e todos los 50 estados [d e los E stados U nidos], desean­
d o sin em bargo generalizar acerca d e la m igración e n condicio­
n es "se m ejan tes”. E n cada u n o de dichos casos, la situación
re q u ie re el re cu rso a la estad ística inductiva.
Llegados a este pun to , alguien p o n d rá tal vez u n a p reg u n ta
p o r el estilo de é s ta : "si la estad ística es ta n im p o rtan te, ¿cóm o
es que ciencias com o la física y la quím ica, p o r ejem plo, hayan
p o d id o p ro g resar ta n to sin el em pleo extenso de las técnicas es­
tad ísticas? ¿D ifieren acaso éstas en algo?” Es obvio que sí lo
hacen. Algunas d e las ciencias n atu ra les se h an desarrollado,
sin duda, p o r espacio de siglos sin el em pleo de la estadística
inductiva. P ero esto parece se r an te to d o cuestión d e su erte o,
p a ra reco n o cer el m érito de los esfuerzos de los científicos, se
d a u n co n tro l relativam ente satisfacto rio de los elem entos p er­
tu rb a d o re s del m edio. E n efecto, ta l com o se p o n d rá de m ani­
fiesto en cap ítu lo s ulteriores, en la m edida en que im p era n condi-'
ciones de lab o ra to rio escrupulosam ente controladas, la necesidad
p rá ctica de las técnicas estadísticas es m enor. E n este sentido,
la estad ística es el sustitutivo, p a ra el indigente, d e los experi­
m entos com plicados de lab o ra to rio en los que se h a n tenido en
cu en ta todas las variables re lev an tes1in ip o rtan tes. H ay que sub-.
ray ar, con todo, que m uchos de los knismos principios estad ísti­
cos se aplican a los experim entos de lab o rato rio en m a teria de
física, a los experim entos algo m enos precisos en m a te ria de agri­
c u ltu ra y a las investigaciones sociales. Así, p o r ejem plo, si un
ex perim ento en física se h a replicado 37 veces con los m ism os
resu ltad o s, es p erfectam en te concebible, sin em bargo, que ensa-
yos subsiguientes den resultados distintos. P or consiguiente, el
científico h a de generalizar sobre la b ase de u n nú m ero lim itado
de experim entos, y las inferencias que establece son en esencia
estad ísticas p o r su carácter. E n fo rm a análoga, el problem a del
e rro r de m edición puede concebirse tam bién en térm inos de es­
tadística. E n efecto, p o r m uy preciso que sea el in stru m en to de
m edición, el científico nu n ca obtiene exactam ente el m ism o re­
sultad o con cada replicación. Puede a trib u ir dichas diferencias
ya sea a e rro r de m edición o a efectos p ertu rb ad o re s de algunas
variables incontroladas. La estadística se hace especialm ente ne­
cesaria cuan d o de u n a replicación a o tra las diferencias son ta ­
les, que n i se las puede ig n o rar n i a trib u ir a e rro r de m edición.
P or lo tan to , fundam entalm ente, la inferencia estad ística p u n tu a­
liza todas las generalizaciones científicas, au n q u e la necesidad de
u n a p rep aració n estad ística y el em pleo de técnicas estadísticas
com plicadas varíe considerablem ente de u n cam po de actividad
a otro.
1.2. E l lugar d e la estadística en el proceso de la investigación
La im p o rtan cia de la estad ística en el proceso de la investigación
se exagera e n ocasiones debido al destacado lugar que ocupa en
los planes d e estudios de graduación. La estad ística m ism a no
co m prende problem as d e m edición, tales com o la elaboración
de índices o la pu ntuación de las preg u n tas d e u n cuestionario.
C om prende, an tes bien, u n a m anipulación de cifras, p artiendo
del su p u esto que se h a n cum plido determ inados requisitos en el
proceso de m edición. De hecho, las consideraciones estadísticas
sólo se in tro d u cen en la fase de análisis del proceso de investi­
gación u n a vez que se h an re u n id o todos los datos, al principio
de la m ism a, cuando se pro y ectan los planes iniciales del análi­
sis y cu an d o se h a de e x tra e r u n a m uestra.
M ientras que la indicación que acaba de h acerse en el sentido
de que la estad ística sólo e n tra en las fases técnicam ente co­
rrectas del análisis y del m u estreo del proceso de investigación,
p o d ría con to d o in d u cir a e rro r, a m enos que fu e ra preciso. No
significa ciertam en te que el científico en m a te ria social pu ed a
p lan ea r y llevar a cabo su investigación e n te ra sin conocim ien­
to alguno de estad ística, y p o n erla luego en m anos del estadígra­
fo diciéndole: "H e aquí, m i lab o r está te rm in a d a : ahora, analí­
cela u sted .” Si así lo hiciera, los resultados p robablem ente serán
poco satisfactorios, cuando n o inútiles p o r com pleto. Es obvio,
e n efecto; que los problem as que h a b rá n de en c o n trarse en el
análisis h an de anticiparse e n cada etap a del proceso de inves­
tigación, y en este sentido las consideraciones estadísticas hallan
aplicación a to d o lo largo del m ism o. Un análisis estadístico, p o r
m uy elab o rad o que sea, ra ra m e n te o nunca llegará a com pensar
las fallas de u n pro y ecto m al concebido o d e u n in stru m e n to de
recolección de datos deficiente. E ste ú ltim o p u n to m erece u n
co m en tario especial. Significa, en efecto, que la estad ística pue­
de ciertam en te c o n stitu ir u n au x iliar valioso de u n ac ertad o dis­
c u rrir juicioso, p e ro nunca, en cam bio, u n s u stitu to del m ism o.
D esde el p u n to de vista del sociólogo n o es m ás q u e u n in stru ­
m ento.
Dicho lo a n terio r, agregaré q u e la estad ística re s u lta en los
exám enes ex p loratorios u n a h e rra m ie n ta m ucho m ás flexible de
lo que p o d ría im aginarse. B uena p a rte de la investigación social
se b asa en ideas teóricas sum am ente ten tativ as, las que n o cons­
titu y en u n a guía p recisa en función de las interrelacxones que
cabe esp erar, de las variables que h an de s e r co n tro lad as en el
análisis, o incluso de las p rio rid ad e s y secuencias a que h an de
s u je ta rs e las etap as del análisis. Con frecuencia se sorprenden
los estu d ian tes a n te la com plejidad que ad q u iere el análisis de
datos, ta n p ro n to com o se in tro d u cen en el c u a d ro h a sta una
m ed ia docena de variables. E s especialm ente e n estos casos
cu an d o u n conocim iento de la teo ría estad ística de diseños ex­
p erim en tales, o de la técnica de la estim ación m ed ian te ecua­
ciones sim u ltáneas p asa a se r u n in stru m en to valioso, m ediante
el cual pu ed en ser clarificadas algunas relaciones de u n a gran
com plejidad. Los m étodos verbales o intuitivos re su lta n absolu­
tam en te inadecuados. E n u n tex to general, tal com o el presente,
sólo pu ed en ab o rd arse tem as de diseño experim ental y análisis
m u ltiv ariad o , p e ro es im p o rta n te te n e r en cu en ta q u e hay n u ­
m erosas m ateria s m ucho m ás avanzadas, las q u e h a n m o strad o
su valía in clu so en aquellas investigaciones ex ploratorias cuyo
p ro p ó sito co n siste en d eterm in a r la im p o rtan cia relativ a de n u ­
m erosos facto res, al o b je to de re d u c ir d e m a n e ra sistem ática el
m arg en de altern ativ as, crean d o hipótesis m ás p recisas p a ra su
u so en investigaciones u lterio res.
1.3. A dvertencia
E n p resen cia de u n n ú m ero o de u n a ecuación m atem ática, algu­
nos estu d ian tes ex p erim en tan u n tem o r que va desde u n a ligera
ap reh en sió n h a sta la inhibición m en tal com pleta. Si el lecto r es
de éstos, d eb erá tr a ta r especialm ente de deponer to d a idea p o r
el estilo acerca de que “la estad ística es algo que ya sé que nunca
llegaré a e n te n d e r”. E n efecto, el grado de m atem áticas reque.
rid o en este texto es tal, que los cursos de álgebra de la escuela
secundaria, añadidos a las pocas operaciones algebraicas elem en­
tales q u e se exponen en el A péndice 1, constituyen u n a p re p ara­
ción suficiente. H ay que re c o rd a r, con todo, q u e los textos de
m atem áticas y estad ística n o se leen com o u n a novela. P o r lo
reg u lar, e n efecto, la m a te ria se p re se n ta en fo rm a m uy conden-
sa d a . D e a h í, p u e s, q u e se re q u ie ra n u n a le c tu r a a te n ta y u n a
d isp o sic ió n de e s p ír itu activ a, y n o sim p le m e n te p asiv a , f r e n te
al m a te ria l p re s e n ta d o . É s ta es la ra z ó n d e q u e n o se p u e d a
p r e s c in d ir de u n tr a b a jo c o tid ia n o y d e la re so lu c ió n d e los p ro ­
b le m a s p rá c tic o s in c lu id o s al fin a l de c a d a ca p ítu lo .
B iblio g ra fía
1. Downie, N. M. y R. W. H eath: Basic Statistical Methods, 2- ed. Harper and Row, Fublishers, Incorporated, Nueva York, 1965, caps. 1 y 2.
2. Hagood, M. J. y D. O. Price: Statistics for Sociotogisís, Henry Holt
and Company, Inc., Nueva York, 1952, caps. 1 y 2.
3. Hammond, K. R., y J. E. Householder: Introduction to the Statisti­
cal Method, Alfred A. Knopf, Inc., Nueva York, 1962, cap. 1.
4. Hays, W. L .: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, pp. 1-12.
5. Tippett, L. H. C .: Statistics, 2? ed., Oxford University Press, Nueva
York, 1956.
6. Walker, H. M .: Mathematics Essential for Elementary Statistics,
Henry Holt and Co., Inc., Nueva York, 1951.
7. Waliis, W. A. y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, caps. 1-3.
E s t e capítulo tien e p o r objeto esbozar en líneas generales las re­
laciones existentes e n tre las proposiciones teóricas, las hipótesis
em píricas, la m edida y los m odelos m atem áticos. M uchos de los
problem as trata d o s en este capítulo no suelen exam inarse en
conexión con los cursos de estadística, lo que se debe en p arte
a la tendencia poco afo rtu n ad a consistente en dividir la m ateria
en cursos con las apelaciones de "te o ría ”, "m étodos de investiga­
ción” y "estad ística”. E sto ocasiona que las relaciones internas
e n tre dichas m aterias resu lten a veces oscurecidas. Con objeto
de situ a r a la estad ística en la debida perspectiva, conviene pres­
ta r atención a las relaciones e n tre las proposiciones teóricas y
las hipótesis de investigación p o r u n a p arte, y e n tre estas ú lti­
m as y los m odelos m atem áticos p o r la otra.
Se suele decir con frecuencia que el objeto de la investigación
está en v erificar hipótesis desarrolladas teóricam ente y que los
m étodos estadísticos capacitan p a ra efectu ar dichas pruebas. Hay
que te n e r p resente, sin em bargo, que los procesos im plicados
en p asa r de la teo ría a las hipótesis reales de investigación y de
éstas a los enunciados de probabilidad del tip o em pleado en la
inferencia estad ística no son en m odo,alguno directos. En efecto,
en am bos casos hay que to m a r decisiones, las cuales pueden d ar
lu g ar a u n grado considerable de controversia. Exam inem os
p rim ero el ca rác te r de las decisiones que se req u ieren p a ra des­
arro llar, a p a r tir de proposiciones teóricas, hipótesis verificables.
*11.1. Teoría e h ip ó te sis: definiciones operativas
E n el in stan te en que em pezam os a diseñar u n proyecto de inves­
tigación enderezado a verificar u n a proposición que puede apa­
recer en u n tra b a jo teórico, re su lta evidente que h ay que h acer
varias cosas an tes de p o d er p ro ced er a la prueba. Tom em os a
títu lo de ejem plo concreto la siguiente proposición: "Cuanto
m ás elevada es la condición social de u n a persona, tan to m en o ­
res son sus prejuicios en relación con los negros.” Supongam os
que la "condición social” se haya definido com o la posición que
la p erso n a ocupa en relación con o tras en la je ra rq u ía social, y
los "p reju icio s" com o tendencia latente a la discrim inación de
* El asterisco que precede una sección, párrafo o ejercicio indica que la
materia que contiene o es de comprensión difícil o trata de conceptos con
los que probablemente no están familiarizados los estudiantes que sólo disr
ponen de una preparación limitada en materia de metodología de investiga­
ción. El estudiante principiante puede perfectamente omitir dichos pasajes
o leerlos superficialmente. Por su parte, el asterisco que precede al título
de una sección indica que la sección entera puede omitirse si se quiere.
22
u n a m in o ría o com o a c titu d negativa b a sa d a en juicios preform ados. Aun si sé p re fie re s u stitu ir p o r o tra s las definiciones de
esos dos conceptos, se d e sc u b rirá sin d u d a alguna que, cuales­
q u iera que sean las definiciones escogidas, re su lta im posible s e r­
v irse d irectam en te de ellas p a ra decidir cuál sea exactam ente la
condición de Jones, pongam os p o r caso, o el grado de sus p r e ­
juicios.
La razón de ello resid e en que la m ayoría d e las proposiciones
son m ás bien teóricas q u e operativas. E n la definición teórica,
en efecto, u n concepto se define en térm inos d e o tro s conceptos
que se d an p o r com prendidos. E n el m odelo ideal del sistem a
co m pletam ente deductivo, se to m arían ciertos conceptos sin d e­
fin ir (p rim a rio s), y todos los dem ás se definirían en térm inos
de aquéllos. E n la g eom etría euclidiana, p o r ejem plo, los con­
ceptos de p u n to y recta pueden to m arse sin definir, pudiendo
luego d efinirse las nociones d e ángulo, triángulo o rectángulo
en fu nción de aquellos térm inos. Pese a que la elección de
conceptos n o definidos es h a s ta cierto p u n to a rb itra ria , el hecho
de que ten g an que ex istir siem pre algunos conceptos p rim ero s o
p rim ario s re su lta de la necesidad in h ere n te de definir los con­
cep to s teóricos en térm in o s unos de otros.
P or o tra p arte , las definiciones operativas son definiciones que
enuncian efectivam ente los procedim ientos em pleados en la m e­
dición ([8 ], pp. 58 a 65). La definición op erativ a de "lo n g itu d ”,
p o r ejem plo, in d icará exactam ente cóm o deba m ed irse el largo
de u n cuerpo. El ejem plo de u n a definición o p erativ a del p re ­
ju icio im p licará u n a p ru e b a com o la de la escala d e la distancia
social de B ogardus o, ta l vez, u n a relación de conceptos a n ti­
negros en u n a lista de 24 puntos, ju n ta m e n te con instrucciones
d etallad as p a ra recoger los datos, v alo ra r los puntos, etbétera.
Como q u iera que to d a m edición im plica com o re q u isito m ínim o
alguna clasificación, la definición o p erativ a p u ed e co n sid erarse
com o u n co n ju n to d etallad o de instrucciones q u e p erm iten cla­
sificar a los individuos en fo rm a inequívoca. De este m odo, la
noción del grado d e confianza o g aran tía de seguridad queda in­
teg ra d a en dicho concepto de la definición operativa. La defini­
ción h a de se r lo b a s ta n te p recisa p a ra que todas las personas
q ue se sirvan del p rocedim iento lleguen a los m ism os resultados.
Lo q ue las definiciones teóricas del p reju icio y de la condición,
social consignadas m ás a rrib a no lo p erm itirán , p o r supuesto, di­
rectam en te.
S ostenem os, pues, que en to d a ciencia se utilizan dos tipos dis­
tin to s de definiciones. D iversas m aneras altern ativ as de en fo car
la relación e n tre la te o ría y la investigación conducen esencial­
m en te a la m ism a conclusión. N o rth ro p designa lo que hem os
llam ado definiciones teóricas com o "conceptos p o r postu lació n ”,
y las definiciones operativas com o “conceptos p o r intuición" [9].
P o r n u estra p a rte nos hem os servido de u n a term inología que
p arece im p licar que hay dos m aneras distintas de definir un
"m ism o ” concepto, en tanto que N orthrop p re fiere referirse a
dos tipos distintos de conceptos. Otros, todavía prefieren pen sar
en térm inos de índices, m ás que de definiciones operativas. El
concepto de índice im plica p o r lo regular que el procedim iento
em pleado da sólo un indicador im perfecto de alguna variable
señalada que no es m edible directam ente. De acuerdo con este
pu n to de vista, pues, hay dos cosas: u n a variable señalada y un
in dicador de esta variable. Pero, independientem ente del punto
de vista que cada cual prefiera, es indispensable com prender el
carácter del nexo en tre ias dos clases de definiciones, de concep­
tos o de variables. Podem os p re g u n ta r si existe o 210 un m étodo
p u ram en te lógico de ju n ta r las dos clases de definiciones. O tra
fo rm a de p lan tea r la cuestión consistiría en p re g u n ta r si existe
o no m odo lógico alguno de decidir si una definición operativa
d eterm in ad a (o un índice) m ide "realm en te” el concepto o la
variable teó ricam ente definidos. La resp u esta a am bas cuestio­
nes p arece ser negativa.
N o rth ro p sostiene esencialm ente que no hay m an era alguna de
asociar las dos clases de conceptos o definiciones, excepto p o r
vía de convención o de com ún acuerdo. La gente en general está
sim plem ente de acuerdo en que debería em plearse u n a determ i­
n ad a definición operativa como m edida de u n determ inado con­
cepto, si las operaciones parecen razonables sobre la base de la
definición teórica. Puede p resu m irse que, si varias definiciones
operativas son posibles, se escogerán aquellas que parecen m ás
apropiadas y al m ism o tiem po m ás seguras. El ca rác te r de “apro­
p iado” h a de juzgarse inevitablem ente sobre la b ase de la com­
prensión que uno tiene de la definición teórica. Se em plea a
veces el térm in o de validez aparente p a ra designar el carácter
ap ropiado de u n índice o de una definición operacional ([11],
p. 165). Idealm ente, según lo señala B ridgm an, las operaciones
y las definiciones teóricas h ab ría n de asociarse sobre la base de
u n o a uno ([2 ], pp. 2 3 ss). O en o tro s térm inos, si cam biam os
la operación, deberíam os servirnos de o tro concepto. Sin em ­
bargo, sem ejante ideal es tal vez irre al en el estad o actual de
desarrollo de las ciencias sociales. Su aplicación conduciría sin
du d a alguna ya sea a u n a rigidez capaz de ahogar todo nuevo
progreso m etodológico o a u n a proliferación de conceptos teó­
ricos [1].
¿Qué puede hacerse, pues? Podem os a d m itir la posibilidad de
ten er asociado un núm ero de diversas operaciones o de índices
a cada concepto teórico. Pero en tal caso podem os en contrarnos
con una dificultad com ún: dichos procedim ientos pueden d ar
resu ltad o s d istintos. Uno de los procedim ientos em pleados p a ra
m ed ir el p reju icio puede llevar a resultados que indiquen que
n u estra "h ip ó tesis” h a sido confirm ada. E n ta n to que, en otro
caso, o tro procedim iento puede conducir a la conclusión opues­
ta. E n cierto sentido, así es com o se opera el progreso, a condi­
ción de que no conduzca a u n a disp u ta interm inable acerca de
cuál p rocedim iento m ide "realm en te” el p reju icio (cuya esencia
se supone co m prendida). Con objeto de prev en ir confusiones
im p o rta darse cuenta de que la prueba efectiva se hace en tér­
m inos de los conceptos tal com o se los ha definido opéracionalm ente. Por lo tanto, ¡as proposiciones que com portan conceptos
definidos teóricam ente no son verificadles directam ente. Así, pues,
si se dan dos definiciones operativas d istin tas del p reju icio se
verificarán dos hipótesis distintas.
Se h a adm itido que puede re su lta r deseable ten er asociada m ás
de una operación con cualquier concepto teórico dado, y se ha
señalado que sem ejantes operaciones pueden conducir a re su lta­
dos diversos. E stam os ah o ra en condiciones de p ro p o rcio n ar un
criterio eficaz, pragm ático, p a ra una definición teórica em pírica­
m ente satisfacto ria del concepto. Supongam os que tenem os un
concepto definido teóricam ente y varias definiciones operativas
susceptibles de asociarse con dicha definición teórica. S obre la
base de esta ú ltim a definición, la m ayoría de los científicos esta­
rá n p ro b ablem ente de acuerdo en que algunas de las operaciones
d eb erían elim inarse p o r cuanto no se aplican a lo que está con­
tenido en la definición teórica. Pueden decidir, p o r ejem plo, que
las p reg u n tas relativas a las tendencias delictivas o los gustos
m usicales no deberían em plearse p a ra m ed ir el prejuicio. Pero
puede h ab e r varias operaciones que ocupen m ás o m enos el m is­
m o lu g ar en la opinión de dichos jueces. E n o tro s térm in o s:
sobre la b ase de la definición teórica, los expertos pueden no
e s ta r en condiciones de ponerse de acuerdo acerca de que u n de­
term in ad o p rocedim iento operativo debiera escogerse con p re fe­
ren cia a otros. Podem os decir en tal caso que, en la m edida &n
que dichos diversos procedim ientos dan resultados diferentes (en
igualdad de circu n stan cias), la definición teórica es deficiente,
en el sentido de que necesita p robablem ente revisión o aclara­
ción. P o r ejem p lo : el concepto prejuicio p u ed e acaso hab erse de­
finido de tal m odo que re su lte dem asiado vago. Tal vez se consi­
d e ra rá necesario d istin g u ir en tre varias clases o dim ensiones del
prejuicio, asociando operaciones d istin tas a cada u n a de ellas. En
u n a fo rm a p o r el estilo de ésta —que se la reconozca explícita­
m en te o no—, el proceso de investigación puede utilizarse p a ra
ay u d ar a ac la rar los conceptos teóricos.
Parece, pues, h ab e r en esta form a, dos lenguajes distintos, re­
lacionados. p o r u n a especie de diccionario al que se h a llegado
p o r consenso, que perm ite asociar los conceptos de u n o de ellos
con los del otro. Los científicos piensan en el lenguaje teórico
y realizan sus experim entos en el lenguaje operativo. No es ne­
cesario aso ciar operaciones con todos los conceptos del lenguaje
teórico. Sin em bargo, im p o rta p ercatarse de q u e los conceptos
que n o h an sido definidos operativam ente n o deberían p o r lo
re g u la r ap a rec er en enunciados que p reten d en co n stitu ir hipóte­
sis com probadas. E n efecto, si esto ocurre, las cuestiones plan­
tead as p o r las "hipótesis" carecerán p o r lo re g u lar de sentido
desde el p u n to de vista operativo y conducirán probablem ente a
u n d eb ate interm inable.
II.2. E l nivel de m e d ició n : escalas nom inóles, órdinales
y d e intervalo
A cabam os de v er que el proceso consistente e n p a sa r de los con­
ceptos definidos teóricam ente a los definidos o p erativam ente no
es en m odo alguno directo. E n efecto, al aso c ia r u n ,tipo de con­
cepto con el otro , h an de tom arse ciertas decisiones. Y en fo r­
m a análoga, el proceso enderezado a seleccionar el m odelo m a­
tem ático o estadístico apro p iad o p a ra em plearlo en u n a técnica
de investigación determ in ad a o en un procedim iento operativo
co m p o rta asim ism o cierto núm ero de decisiones im portantes.
P odría acaso pen sarse que, u n a vez que un fenóm eno h a sido
m edido, la elección de u n sistem a m atem ático sería cosa de sim ­
ple ru tin a. E sto depende de lo q u e se en tien d e p o r m edida. Si
em pleam os el térm in o p a ra re fe rim o s ún icam en te a aquellos ti­
pos de m édición usu alm en te em pleados en u n a ciencia com o la
física ( v.gr. la m edición d e la longitud, del tiem p o o la m asa),
entonces la elección de u n sistem a m atem ático n o constituye
p rácticam en te problem a. P ero si am pliam os el concepto de la
m edición p a ra incluir en él ciertos procedim ientos m enos preci­
sos de em pleo co rrien te en las ciencias sociales com o se h a rá en
este texto, en to n ces el p roblem a se hace m ás com plejo. Podem os,
pues, d istin g u ir e n tre distin to s niveles de m edición, y habrem os
de en c o n tra r diversos m odelos estadísticos ap ro p iad o s a cada
u n o de ellos.1
Escalas nom inales. La operación básica y a la vez m ás sencilla
en toda ciencia es la de la clasificación. Al clasificar trata m o s de
sep arar elem entos desde el p u n to de vista de determ inadas ca­
racterísticas, decidiendo acerca de cuáles son m ás sem ejantes y
cuáles m ás distintos. N u e stro p ropósito consiste en agruparlos
p o r categorías que sean lo m ás hom ogéneas posible en com pa­
ración con las diferencias e n tre las categorías. Si la clasificación
es ú til, se verá que las categorías son tam bién hom ogéneas con
resp ecto a otras variables [10]. Así p o r ejem plo, agrupam os unas
p ersonas de acuerdo con sus respectivas religiones (m etodistas,
p resb iterian o s, católicos, etc.) y vem os si la religión g u ard a al­
1 Para exámenes más detallados de estos distintos niveles de medición
véanse [5], [7], [12] y [13].
guna relación con el preju icio o el conservadurism o político. Po­
dríam os acaso h allar que los p resb iterian o s tienden a se r m ás
conservadores que los católicos, siendo las puntuaciones de
aquéllos relativam ente altas en com paración con éstos. Si se hu­
b ie ra n seleccionado los individuos según el color del pelo, criterio
de clasificación perfectam ente adecuado, probablem ente n o se
h ab ría n en contrado diferencias significativas e n tre las clases en
relación con o tras variables estudiadas. E n otros térm in o s: las
diferencias en tre las clases de color del pelo h ab rían sido ligeras
en com paración con la s diferencias den tro de cada categoría.
Así, pues, la clasificación es fundam ental p a ra toda ciencia.
Todos los dem ás niveles de m edición, cualquiera que sea su p re­
cisión, com prenden básicam ente la clasificación com o operación
m ínim a. Podem os, pues, considerar la clasificación com o el nivel
m ás b a jo de m edición, en el sentido m ás am plio del térm ino.
Damos a las categorías nom bres arb itra rio s, a m an era de etique­
ta s convenientes, sin fo rm u lar supuesto alguno acerca de las
relaciones en tre aquéllas. Así p o r ejem plo, colocam os a los p res­
b iterian o s y a los católicos en c a te g o ría s, distintas p ero n o p re­
suponem os que los u nos sean "m ayores que" o "m ejores" que los
otros. A condición de que las categorías sean exhaustivas (que
com prendan todos los casos) y no se superpongan o se excluyan
m u tu am en te (q u e ningún caso figure en m ás de u n a categoría),
tenem os las condiciones m ínim as necesarias p a ra la aplicación
de los m étodos estadísticos. Se h a utilizado la expresión de es­
cala nom inal con referencia a ese nivel, el m ás sim ple de todos,
de m edición. Desde el p u n to de vista form al, las escalas n o m i­
nales poseen las propiedades de sim etría y transitividad. P or
sim etría entendem os q u e una relación q u e sea v erd ad e n tre A y
B lo es tam bién e n tre B y A. En ta n to que p o r tran sitiv id ad en­
tendem os que si A = B y B = C, entonces A — C. R esum ido, esto
significa sim plem ente que si A está en la m ism a clase que B, o en
una clase distinta, B está en la m ism a clase que A, o en u n a
clase distin ta, respectivam ente, y que si A y B están en u n a nism a clase y B y C tam bién en u n a m ism a clase entonces A y C
han de e sta r tam bién en la m ism a clase.
H ab ría que señ alar que los núm eros pueden asociarse a rb itra ­
riam en te con cada categoría, p ero esto n o autoriza en ningún
m odo el em pleo de las operaciones aritm éticas usuales con di­
chos núm eros. La función de los núm eros, en este caso, gs exac­
tam en te la m ism a que la de nom bres, esto es la de designar las
categorías. E s obvio que no ten d ría sentido alguno adicionar
cifras de seguridad social y núm eros de cu arto s e n u n hotel. Pese
a que nunca caerem os en la tentación de efectu ar u n a operación
tan ridicula com o ésta se dan casos, sin em bargo, en la inves­
tigación científica social, en que el ab surdo n o re su lta en m odo
alguno tan obvio. Así pues, pese a que los valores num éricos
pu ed an a trib u irse a rb itra ria m e n te a diversas categorías el em ­
pleo de ciertas operaciones m atem áticas de las m ás corrientes
(sum a, resta, m ultiplicación y división) requiere, con todo, la
ejecución de ciertas operaciones m etodológicas en el procedim ien­
to de clasificación. Tendrem os en breve ocasión de v er cuál deba
se r el c a rá c te r de dichas operaciones.
Escalas ordinales. R esulta a m enudo posible o rd e n a r las cate­
gorías según el grado en que poseen u n a carac te rístic a determ i­
nada, sin que p o r ello estem os en condiciones de decir cuántas
poseen. Así pues, nos representam os u n sim ple continuo a cuyo
largo pueden o rdenarse los individuos. Tal vez podam os colocar
a los individuos de tal m odo que nu n ca estén dos en el m ism o
lu g ar del continuo. Sin em bargo, p o r lo re g u lar existirá cierto
n úm ero de conexiones. E n tal caso n o estam os en condiciones
de distin g u ir e n tre determ inados individuos, y los hem os ag ru p a­
do ju n to s en u n a m ism a categoría. P ero estam os en condiciones,
con todo, es d ecir que todos esos individuos tienen puantuaciones su p eriores a las de o tro s individuos determ inados. Podem os,
p o r ejem plo, clasificar fam ilias conform e a su respectivo estado
socioeconóm ico, en "su p e rio r”, “m edia superior", “m edia infe­
rio r" e “in fe rio r”. P odríam os incluso lim itarn o s a dos catego­
rías, la "su p e rio r" y la "in ferio r”.
El tipo de m edición que estam os exam inando se sitú a m ani­
fiestam en te a u n nivel algo su p e rio r al que em pleam os p a ra obte­
n e r u n a escala nom inal, ya que con ella podem os n o sólo ag ru p ar
a los individuos en categorías separadas, sino o rd e n a r adem ás
estás categorías unas con resp ecto a las o tras. D esignam os este
nivel de m edición cóm o “escala o rd in al”. A dem ás de poseer las
p ropiedades sim étricas de la escala nom inal, la escala ordinal es
asim étrica en el sentido de que algunas relaciones especiales pue­
den ser verd ad e n tre A y B y no serlo, en cam bio, e n tre B y A.
Así p o r ejem plo, la relación “m ay o r que" ( > ) es asim étrica, p o r
cu an to si A > B , no puede se r cierto que B > A. La transitividad,
en cam bio, sigue subsistiendo, ya que si A > B y B > C ,\entonces
A > C. Son estas propiedades, p o r supuesto, las que nos perm iten
colocar A, B , C . .. a lo largo de u n m ism o continuo.
Im p o rta a d v e rtir que el nivel o rd in al de m edición n o nos p ro ­
porciona inform ación alguna acerca de la m agnitud d e las diferen­
cias e n tre los elem entos. E n efecto sabem os solam ente que A
es m ayor que tí, p ero n o sabem os cuánto m ayor sea. Como tam ­
poco podem os decir que la diferencia e n tre A y B sea m en o r que
la que hay e n tre C y D.2 P o r consiguiente, n o podem os adicionar
o re s ta r d istancias sino en u n sen tid o m uy restrin g id o . Así p o r
ejem plo, si tuviéram os las siguientes relaciones
2 Se ha empleado el término métricamente ordenado para designar escalas
en las que es posible ordenar la magnitud de las diferencias entre elemen­
tos. Véase [73.
--------- 1-------------- 1----------------- ¡------ 1---------D
C
B
A
podem os decir que la distancia
AD = AB + BC + CD
p ero no podem os tr a ta r de co m p arar e n tre sí las distancias
AB y CD. E n o tro s térm inos, cuando tran sfo rm am o s relaciones
de ord en en operaciones m atem áticas, no podem os p o r lo regular
servirnos de las operaciones usuales de sum a, resta, m ultiplica­
ción y división. E n cam bio, sí podem os em p lear las operaciones
"m ayor q u e" y “m e n o r q u e ”, siem pre que esto p re sen te alguna
utilidad.
Escalas de intervalo y de proporción. E n el sentido restrin g id o
de la p alab ra, el térm in o m edida puede em plearse p a ra designar
casos en los que n o sólo estam os en condiciones de o rd e n ar
o b jeto s según el grado en que poseen u n a carac te rístic a d eter­
m inada, sino que podem os in d icar asim ism o la distancia exacta
e n tre ellos. Si esto es posible, podem os o b ten er lo que se designa
com o u n a escala de intervalo. No re su lta difícil co m p ren d er que
el nivel de m edición de escala de intervalo req u iere el estableci­
m ien to de algún tip o de u n id ad física de m edición que pueda
co n sid erarse p o r todos com o u n a n o rm a com ún y sea repetible,
esto es, que pueda aplicarse in d efin id am en te con los m ism os
resu ltad o s. El largo se m ide en térm in o s de pie o m etros, el
tiem po en segundos, la te m p e ra tu ra en grados F ahrenheit o cen­
tíg rad o s, el p eso en lib ras o gram os, y el ingreso en dólares, etcé­
tera . P o r o tra p arte , n o existen u nidades sem ejantes de inteli­
gencia, au to rid a d o prestigio, en las que todos los sociólogos
p u ed an p o n erse de acu erd o y de las que se pueda su p o n er que
perm an ecen co n stan tes d e u n a situación a o tra. D ada u n a unidad
de m edida, re su lta posible decir que la d iferencia e n tre dos m a r­
cas es de veinte unidades, o que u n a d iferencia es dos veces m a­
y o r que o tra. E sto significa que es posible adicionar o re s ta r
m arc as en fo rm a análoga a com o añadim os pesas a u n a balanza
o quitam os 6 pulgadas de u n a ta b la con u n a sie rra ([3 ], pp. 296 a
298). Y en fo rm a sem ejan te podem os adicionar los ingresos de
m arid o y m u jer, en ta n to que carece d e sen tid o ad icio n ar sus
cu o tas de inteligencia (IQ ).
Si adem ás es posible situ a r en la escala u n p u n to cero absoluto
o n o arb itra rio , entonces tenem os u n nivel de m edición algo m a­
yor, que suele designarse com o escala de razón ( ratio scale). En
ta l caso estam os en condiciones de co m p arar m arcas sirviéndo­
nos de sus proporciones. Podem os, p o r ejem plo, decir que una
m arca es dos veces m ás a lta que o tra. Si el p u n to cero fu era
arb itra rio , com o es el caso en las escalas de grados centígrados
y de F ah renheit, aquello n o sería legítim o. Así, p o r ejem plo, no
decim os que 70° F ahrenheit son el doble de 35° centígrados si
bien podem os decir que la diferencia e n tre dichas tem p eratu ras
es la m ism a que en tre 105c y 70° F ahrenheit. S in em bargo, p rác­
ticam ente en todos los casos que conoce el au to r, e s ta distinción
e n tre escala de intervalo y escala de proporción es p u ram en te
académ ica, ya que es ex trem adam ente difícil e n c o n tra r u n a es­
cala legítim a de intervalo que n o sea al propio tiem po u n a escala
de proporción. E sto se debe al hecho de que, u n a vez establecida
la m ag n itu d de la unidad, es casi siem pre posible concebir cero
unidades, p ese a que nunca podam os h a lla r u n cuerpo que no
posea largo o m asa, u o b ten er u n a te m p e ra tu ra de cero 'ab so lu to .
Así pues, p rácticam en te en todos los casos en que se dispone de
una unidad, será legítim o em plear todas las operaciones corrien­
tes de la aritm ética, incluidas las raíces cuadradas, las potencias
y los logaritm os.
* S uscítanse algunas im p o rtan tes cuestiones acerca de la legiti­
m idad de servirse de escalas de intervalo en el caso de cierto
n ú m ero d e variables sociológicas y sociopsicológicas. In fo rtu ­
nad am en te, no re su lta posible d iscu tir estas cuestiones e n detalle
en u n texto general com o el p resen te, p ese a lo cual vam os a
m encionar brevem ente alguna d e ellas. Se sostiene en ocasiones
que u n a variab le como, p o r ejem plo, el ingreso n o constituye en
realidad, si se calcula en dólares, u n a escala de intervalo ya que
u n a diferencia de $ 1 000 posee u n significado psicológico distinto
según que se dé e n tre ingresos de $ 2 000 y $ 3 000 o e n tre ingre­
sos de f 30 000 y $ 31 000. Al parecer, este argum ento confunde la
cuestión. P o rq u e lo q u e aquí se dice efectivam ente es que el in­
greso calculado en dólares y el "ingreso psicológico" (a suponer
que se lo p u ed a m ed ir en térm inos de alguna u n id a d ) n o se rela­
cionan d irectam en te o en fo rm a lineal. Y esto es u n a cuestión
de hecho q u e carece d e im p o rtan cia e n relación con la cuestión de
sab e r si existe o n o u n a u n id ad legítim a de m edida.
* AI llevar a cabo la enum eración de actos de conducta, de p er­
sonas, de ocupaciones, o de grupos de diversa índole, se obten­
drán m uchas escalas de razón. La proporción de actos crim ina­
les, p o r ejem plo, se obtiene co n tan d o el nú m ero re g istrad o de
tales actos y com parándolos con la b ase de población. La m a­
y o r p a rte d e n u estro s datos censales de ciudades, éstados o regiones, se ob tien en contando varias clases de gente y dividiendo
las cifras así o b ténidas p o r la b a se de la población: p o r ciento
urbano, p o rc en táje d e la fuerza de tra b a jo en situación de desem ­
pleo, tam añ o pro m edio d e las fam ilias, p o rc en taje de n o blancos,
etcétera. L a com plejidad de la división del tra b a jo puede ser
m edida en función del núm ero de ocupaciones diferentes, o bien
puede obten erse u n índice de la com plejidad organizativa contan­
do el n ú m ero de oficinas sucursales. E n ocasiones surgen dis­
cusiones acerca de si tales m ediciones constituyen realm ente "es­
calas de razón" (v er C olem an [4 ] p ara u n excelente planteam iento
de este p ro b lem a). Si se tom a el p u n to de vista estricta m e n te
operativo, según el cual la m edida utilizada constituye la defini­
ción d e la v ariable de in terés, cabrá poca duda de que se h ab rá
así o btenido u n a legítim a escala de razón, y a que h an sido con­
tad as u n id ad es p recisas, y tales unidades h an sido tom adas com o
equivalentes (y p o r ta n to in tercam b iab les). De esta, m anera, si
añadim os a u n a d eterm in ad a población 1 000 negros y le re sta ­
m os 1 000 blancos, harem os la suposición fun d am en tal de que, en
ord en a la m edida usada, n o hay diferencia, b ien sean unos u
o tro s los negros o los blancos im plicados. P o r o tra p a rte el
p u n to cero está bien definido. La afirm ación de que el porcen­
ta je de n o blancos en u n a ciudad es igual a cero n o ofrece am ­
bigüedad.
* E n cu an tas ocasiones surge u n a discrepancia acerca de la ade­
cuación de las m edidas enum eradas, o de sí éstas legitim an la
adopción de m ediciones relativas al nivel proporcional, experi­
m en to u n a vehem ente sospecha de que el p ro b lem a básico tiene
u n c a rá c te r to talm en te distinto, a s a b e r: el de la relación e n tre la
m ed id a u tilizad a y la construcción teó rica q ue in te n ta m edirse.
P o r ejem p lo : la pro p o rció n de desem pleados puede s e r utilizada
com o indicación del m al funcionam iento d e la eco n o m ía; u n p o r­
ce n ta je m in o rito rio, com o indicador de u n a am enaza p lan tead a
p o r la m inoría, o u n p o rc en taje u rb a n o com o in dicador de la
influencia ejercida p o r los valores urbanos. E n tales casos n u n ­
ca p o d rá la estad ística resolver per se u n a controversia, re su l­
tan d o p o r ello necesario soslayar lo s p ro b lem as básicos, supo­
niendo, p o r el co n trario , q u e sólo nos in te re sa la variable que
in ten tam o s m edir.
* P u ed e su scitarse o tra cuestión a p ro p ó sito de si es posible o
n o conseguir u n a escala de intervalo en m a te ria de m edición de
la actitu d . Se h an efectu ad o varios in ten to s enderezados a con­
seguir dicho fin. E n el m éto d o T h u rsto n e d e los intervalos de
aparien cia igual, se p ide a lo s jueces que agrupen objetos en m on­
to n es situ ad o s-a distancias iguales a lo largo del continuo de la
ac titu d ([1 1 ], pp. 359 a 365). Se d iscu rre esencialm ente diciendo
que, si se d a u n alto grad o de consenso e n tre los jueces, puede
em p learse legítim am ente u n a escala de intervalo. E ste procedi­
m iento, así se sostiene, es esencialm ente el m ism o que se em plea
p a ra o b te n e r escalas de intervalo en o tra s disciplinas. E ste argu­
m en to p arece legítim o, a condición q u e se dé efectivam ente u n
alto grad o de consenso e n tre los jueces y a condición que éstos
dispongan de u n gran n ú m ero de m ontones en los que se pu ed an
clasificar los objetos. Así, p o r ejem plo, si se vieran obligados
a clasificar los objetos en u n o de tre s o c u a tro m ontones, po d ría­
m os c o n tar con u n grado elevado de consenso, debido sim ple­
m en te a la to squedad del in stru m en to de m edición. H abría, en
efecto, tal m argen de variabilidad d en tro de cada m ontón, que
difícilm ente p o d ría sostenerse que los objetos de los diversos
m ontones estaban a igual distancia unos de otros. P ero aun ad­
m itiendo u n a concordancia p erfec ta y la m áxim a lib ertad en el
ag ru pam iento de los objetos en m ontones, aun así sigue el m étodo
de T h u rsto n e p re sen tan d o dificultades p o r lo que se refiere al
concepto de la u n id ad de referencia. Se hace necesario p o stu lar
que es la existencia de dicha un id ad la que hace posible el acuer­
do e n tre los jueces. P uede afirm a rse razonablem ente que, en
este p u n to del desarrollo de la m edición de la actitu d , la m ayoría
de las técnicas dan unas aproxim aciones m uy m ediocres de las
escalas de intervalo. P robablem ente de m uchas de ellas no de­
b iera siq u iera considerarse que proporcio nan escalas ordinales
legítim as. Las consecuencias de ello p o r lo que se refiere al aná­
lisis estad ístico se irá n haciendo m ás claras a m edida que vaya­
m os avanzando.
II.3. M edición y estadística
Hem os visto que existen diversos niveles de m edición, con sus
p ro piedades peculiares cada uno. Debe observarse que estos dis­
tin to s niveles fo rm an u n a escala cum ulativa ellos m ism os. En
efecto, la escala o rdinal posee todas las p ropiedades de la escala
nom inal adem ás de la ordinal. A su vez, la escala de intervalo
posee todas las propiedades de las escalas nom inal y ordinal y,
adem ás, u n a u n id ad de m edida, en ta n to que la escala de p ro p o r­
ción p re sen ta el nivel m ás elevado, ya que posee n o sólo una
un id ad de m edida, sino, adem ás, u n cero absoluto. El carácter
cum ulativo de estas escalas significa que, al analizar nuestros
datos estam os siem pre autorizados a descender u n o o m ás gra­
dos en el nivel de m edición. E n efecto, si tenem os u n a escala de
intervalo, tenem os al p ro p io tiem po u n a escala ordinal, y pode­
m os servirnos de esta circunstancia en n u estro s análisis estadís­
ticos. E sto re su lta rá a veces necesario, cuando no dispongam os
de técnicas estadísticas o éstas sean en algún m odo deficientes en
cu an to a m an ip u lar la variable com o escala de intervalo. Sin
em bargo, al p ro c ed er así perdem os inform ación. Así, p o r ejem ­
plo, si sabem os que Jones tiene u n ingreso de $ 11 000 y Sm ith
un o de $ 6 000 y sólo nos servim os del hecho de que Jones cuenta
con el m ayor de los dos ingresos en cuestión, entonces desperdi­
ciam os la inform ación relativa a que la diferencia de los ingresos
es de $ 5 000. P o r lo tanto, en la m ayoría de los casos resu ltará
v entajoso servirnos del nivel de m edición m ás alto que podam os
legítim am ente adoptar.
¿Y qué pu ed e decirse del proceso inverso consistente en subir
la escala de m edición, pasando, p o r ejem plo, de la ordinal a la
de intervalo? E stam os a veces ten tad o s de hacerlo, ya que esta­
ríam os en condiciones de servirnos de técnicas estadísticas m ás
poten tes. Es incluso posible que lo hagam os sin darnos cuenta
en ab soluto de lo que h a sucedido exactam ente. Im p o rta p erca­
ta rs e de que no hay n a d a en los procedim ientos estadísticos o
m atem ático s de los que nos servim os en ú ltim a instancia que
nos p e rm ita verificar la legitim idad de n u estro s m étodos de in­
vestigación. E l em pleo de un determ inado m odelo m atem ático
supone que se ha alcanzado cierto nivel de m edición. La respon­
sabilidad en cu anto a decidir si sus procedim ientos operativos
p erm iten o no el em pleo de determ inadas operaciones m atem á­
ticas recae exclusivam ente sobre el investigador. É ste h a de deci­
dirse en p rim e r lu gar p o r el nivel de m edición adecuado, y esto
decidirá a su vez acerca del sistem a m atem ático apropiado. En
otro s térm in o s: u n determ inado m odelo m atem ático puede aso­
ciarse a cierto nivel de m edición conform e a las consideraciones
exam inadas en la sección precedente. Así, p o r ejem plo, las ope­
raciones aritm éticas corrientes sólo pueden em plearse p o r lo re ­
g u lar con las escalas de intervalo y de razón.
*
Nos en fren tam os aquí u n a vez m ás con el problem a de ten er
que tra d u c ir de u n lenguaje a otro. El lenguaje operativo com­
p o rta determ in ad as operaciones físicas, tales com o el em pleo de
u n a u n id ad de m edida. El lenguaje m atem ático, a su vez, im pli­
ca un sistem a to talm en te ab stra cto de sím bolos y operaciones
m atem áticas, y es ú til no sólo porque es preciso y está altam ente
d esarrollado1, sino debido tam bién a que su carác te r ab stracto
p erm ite la aplicación a u n a gran variedad de problem as em píri­
cos. Las m atem áticas se sirven del razonam iento deductivo p o r
el que se p asa de u n co n ju n to de definiciones, supuestos y reglas
de operación a un conjunto de conclusiones m ediante u n razona­
m iento p u ram en te lógico. En sí m ism as, las m atem áticas n ad a
nos dicen acerca de la realidad, ya que todas las conclusiones
están contenidas en las definiciones, los supuestos y las reglas
originales, no habiéndose determ inado em píricam ente. Así, pues,
si h an de ser de alguna u tilid ad p ara el científico las conclusio­
nes m atem áticas han de trad u c irse inversam ente a los lenguajes
op erativ o y teórico [5].
Sostenem os, pues, que n o es legítim o servirse de un sistem a
m atem ático que com porta las operaciones de su m ar o re sta r, si
esto no está legitim ado p o r el m étodo de m edición. Aunque el
sentido de este hecho sólo nos re su ltará plenam ente claro cuando
em pecem os a servirnos de las diversas escalas de m edida, esta­
m os diciendo en realidad que no podem os re m o n ta r legítim am en­
te en la jera rq u ía de m edición, a m enos que el proceso m ism o de
la m edición haya sido m ejorado. Lo que ninguna m anipulación
m atem ática puede hacer. ¿Cómo decidim os, pues, cuál nivel de
m edición es el legítim o? In fo rtu n ad am en te , el p ro b lem a no es tan
sencillo com o p o d ría suponerse. Unos pocos ejem plos b astarán
p a ra d ar u n a id ea de la com plejidad del m ism o.
* P ara ilu s tra r u n o de estos problem as es necesario distinguir
las escalas ordinales y de in terv alo de la escala parcialm ente or­
denada que re su lta de la com binación de dos o m ás escalas ord i­
nales (o de in terv alo ) en u n solo- índice. O curre con frecuencia,
en sociología y en las o tras ciencias sociales, que aquello que p o r
lo p ro n to p arece ser u n a sim ple escala o rdinal (o de intervalo)
es en re alid ad u n a com binación de varias escalas o rd in ale s (o de
in terv alo ), con el re su ltad o de que no puede h acerse u n a clasifi­
cación inequívoca de individuos sin a d o p ta r p rev iam en te ciertas
o tra s decisiones. Tom em os, p o r ejem plo, el caso de la condición
socioeconóm ica. P or lo regular, solem os d eterm in a r la condi­
ción de u n a p erso n a exam inando cierto núm ero de crite rio s distin ­
tos, tales com o su ingreso, ocupación, educación, antecedentes
fam iliares o la zona de residencia. Si A se clasifica m e jo r que B
según todos y cada uno- de dichos criterios, entonces A puede
obviam ente clasificarse com o m ás alto que B p o r lo que se refie­
re a la condición general. Pero, ¿qué o cu rre si A tien e u n ingreso
su p erio r al de B , y éste, en cam bio, u n no m b re de fam ilia m ás
p ro m in en te? ¿Cuál de los dos ocupa e n este caso el m e jo r rango
social? Tenem os aquí v aria s/a lte rn ativ as. La p rim e ra consiste en
d e ja r de lado la noción de condición general y p e n sa r en térm inos
de dim ensiones sep arad as de la m ism a, cada u n a de las cuales
p u ed a acaso a d m itir u n nivel o rd in al de m edición. T erm inam os
así n o con una, sino con varias escalas ordinales, y la cuestión
em p írica está en sa b e r h a sta qué p u n to las d istin tas dim ensiones
pu ed an relacionarse e n tre sí. P o r supuesto, si existe u n a relación
p erfec ta e n tre to d as las dim ensiones, la cuestión se convierte en
p u ram en te académ ica, y a que A, si es su p erio r a B en cada u n a
de las dim ensiones, lo será tam b ién e n todas ellas. E n la p rá c ­
tica, sin duda, e sto no o cu rre nunca.
* N u e stra segunda altern ativ a consiste en tr a ta r de " fo rz a r” la
aplicación de u n a escala o rdinal a los datos, ad o p tan d o algunas
decisiones acerca del peso relativ o de cada dim ensión y de las
equivalencias que ello im plica. Así, p o r ejem plo, si podem os ad­
m itir que u n año suplem entario de in stru cció n equivale a $1 338.49
de ingreso su p lem entario, podem os tra d u c ir las un id ad es educa­
tivas en u n id ad es de ingreso, llegando así a u n a escala unidim en­
sional. O bviam ente, el p roblem a de tra d u c ir los antecedentes fa­
m iliares o el área de residencia es m ás com plicado todavía. El
m éto d o de m edición que aquí estam os exam inando co m porta un
tip o de con stru cción de índice. B aste decir que sem ejan te cons­
tru cció n de índice com porta usu alm en te algunas decisiones arb i­
tra ria s a p ro p ó sito de los pesos relativos que haya que a trib u ir.
Si el sistem a d e ponderación se d e ja ju stific ar, entonces puede
em plearse u n a escala o rd in al; en caso contrario, subsiste la duda
acerca de si los individuos pueden o no clasificarse legítim am en­
te en relación con el rango.
* U no de los m étodos com únm ente em pleados p a ra obtener
una escala ordinal consiste en servirse de uno o m ás jueces p ara
clasificar a los individuos conform e a u n criterio como, p o r ejem ­
plo, el del po d er o del prestigio. Supongam os, p a ra sim plificar,
que no hay m ás que un juez y que se le ha im puesto la tare a de
clasificar a los individuos según su “posición social” en la locali­
dad. Suponiendo que la p ersona coopere, el m étodo em pleado
nos garan tiza la obtención de u n a escala o rdinal independiente­
m en te de cóm o los individuos se com paren realm en te a los ojos
del juez. Es posible que, si se h u b iera em pleado otro m étodo,
no se h a b ría obtenido escala ordinal alguna. Si se h u b iera utili­
zado u n a técnica de com paraciones apareadas, en la que se p ro ­
n u n ciaran juicios en tre cada com binación p o r pares, el juez po­
d ría h ab er tasado a Sm ith m ás alto que a Brown, a éste m ás alto
que a Jones, p ero a este últim o m ás alto que al prim ero, S m ith;
violando en esta form a la propiedad de tran sitiv id ad de las esca­
las ordinales. El investigador h a de proceder ah o ra a u n a elección.
Puede llegar a la conclusión de que existe u n a escala parcial­
m ente o rd en ad a de u n a clase u otra. O puede considerar que el
juez es inconsecuente o com ete “e rro r”. Como lo' señala Coombs,
este pro b lem a relativo a lo que haya que designar como e rro r de
m edición es un dilem a básico1con el que se en cu en tra el sociólofo ([7 ], pp. 485 a 488). E n térm inos generales, éste puede adop­
ta r u n alto nivel de m edición y considerar las desviaciones del
tip o que se acaba de señalar com o erro res de m edición, o puede
d escen d er a u n nivel m ás b ajo de ésta.
* Puede ilu strarse el m ism o dilem a en el caso de la escala de
G uttm an. E n el tipo perfecto de ésta, las preg u n tas tienen una
p ro p ied ad cum ulativa que ju stifica la adopción de u n a escala
o rd in al [14]. Las preg u n tas pueden o rdenarse de m odo que se
vaya pasando de un lím ite in ferio r a u n lím ite superior, de tal
m odo que el tipo exacto de re sp u esta de un individuo pueda
rep ro d u cirse a p a rtir de su puntuación total. Así, p o r ejem plo,
si se tienen cinco problem as aritm éticos que vayan del m ás fácil
al m ás difícil, la p ersona que resuelva el m ás difícil e s ta rá tam ­
bién lógicam ente en condiciones de resolver los m ás fáciles. Si
resuelve co rrectam ente tre s de los problem as, éstos serán los
tres m ás fáciles, fallando en los otros dos. E n u n a escala perfec­
ta de d istancia social, las preg u n tas relativas al p rejuicio pueden
disponerse conform e al grado de la intim idad de contacto con la
m inoría considerada. U na persona que esté dispuesta a casarse
con un negro, e sta rá dispuesta, p o r supuesto, a vivir en la m ism a
calle que uno de ellos; si lo acepta como vecino, no te n d rá in­
conveniente en sen tarse a su lado en el autobús. Así, pues, pode­
m os v er e n la escala p e rfe c ta de G uttm an que la p erso n a que
co n teste afirm ativ am en te c u a tro p re g u n ta s h a b rá co n testad o exac­
tam en te las m ism as que u n a p erso n a con tre s afirm aciones, m ás
una. Si la escala sólo estu v iera p arcialm en te ord en ad a, p o d ría
decirse que en ciertos aspectos A tien e m ás p reju icio s que B,
y en o tro s aspectos m enos, ya que los dos individuos h a n acep­
tad o com binaciones d istin tas de preguntas.
* Sin em bargo, en la p rá ctica ra ra m e n te alcanzam os u n a escala
p erfec ta de G uttm an, si es q u e la alcanzam os alguna vez. E n efec­
to, h ay siem p re algunas p ersonas cuyo tip o de re sp u estas se des­
vía del tipo ideal. ¿S on éstas acaso inconsecuentes p o rq u e acep­
ta n a u n neg ro com o vecino p e ro se niegan a se n ta rse a su lado
en el au to b ú s? T al vez. Pero, p o r o tra p arte , tal vez no sea así.
A m enos que el in vestigador esté d ispuesto a suponer q u e dispone
de u n a escala o rd inal legítim a, n o puede so sten er que el individuo
consid erad o com eta e rro r. Y si el n ú m ero de e rro re s alim enta,
em pezam os a so spechar de n u e stra escala. P or o tra p a rte , siem ­
p re estam o s dispuestos a to le ra r cierto n ú m ero relativam ente
p equeño de erro res. Es este p rin cip io el que se h alla a la base
de la decisión relativ a a a c e p ta r la escala de G u ttm an com o escala
ordinal, si el n ú m e ro de erro res, m edido p o r el coeficiente de
rep ro d u ctib ilid ad , es m uy pequeño. Sin em bargo, conviene p er­
catarse del hecho de que la decisión es h a sta cierto p u n to arb i­
tra ria , y de que en ú ltim a in stan cia nos en fren tarem o s con el
p ro b lem a de d ecidir a qué debam os llam ar erro r.
* E sto s ejem plos deberían b a s ta r p a ra in d icar que n o siem pre
es cosa fácil d ecidir cuál tip o de escala pueda em p learse legíti­
m am ente. Desde u n pu n to de vista ideal, h a b ría que servirse de
u n a técnica de reu n ió n de datos que p e rm ita los niveles m ás bajos
de m edición, si éstos son los únicos que los datos adm iten, antes
que re c u rrir a técnicas que ad a p te n violentam ente la escala a los
datos. Así, pues, el m étodo de las com paraciones ap aread as sólo
d a rá u n a escala ordinal si el juez está efectivam ente en condi­
ciones de clasificar a los individuos. P or o tra p arte, si se !e in­
v ita a colocarlos en u n orden preciso de clasificación, h ab rá de
hacerlo, así crea o n o que esto puede lograrse legítim am ente.
H abiéndose servido de este últim o m étodo de reunión de datos
y no estan d o en condiciones de d e m o stra r em píricam ente que los
individuos pueden o rd en arse sin vio len tar los datos, h ab rá de
suponer la existencia de u n solo continuo.
Con o b jeto de in sistir en el hecho de que toda técnica estadís­
tica co n sid erad a presupone siem pre u n nivel específico de me­
dición, nos aco stu m b rarem o s a in d icar siem pre el nivel de
m edición re q u erid o p o r cada procedim iento. Al elegir e n tre p ro ­
cedim ientos alternativos u n a de las preg u n tas m ás im p o rtan tes
a fo rm u lar es é s ta : "¿E s legítim o a c ep tar el nivel de m edición
que u n a d eterm in ad a técnica re q u ie re ? ” Si no lo es, ta l vez deba
e n c o n trarse u n pro cedim iento alternativo. S i la ú n ica considera­
ción fuese el nivel de m edición, se sim plificaría el p roblem a de
la elección e n tre pro cedim ientos alternativos.
E n co n tram o s con frecuencia, sin em bargo, que ciertos procedi­
m ientos que n o tien en gran d es exigencias en c u a n to a la m edida,
y que p o r ta l razón p arece n preferibles, re su lta n m enos satisfac­
torios en relación con o tra s ca racterísticas deseables. Así se ve
u n o e n fre n ta d o con decisiones difíciles, en las que está im plícita
la n ecesidad de so p esar la seriedad relativ a de las diversas cla­
ses de p resunciones violadas. E n tales casos puede re s u lta r de­
seable an alizar n u estro s d ato s m ed ian te la aplicación de diferen­
tes m étodos, observando si las conclusiones así obtenidas difieren
e n tre sí en fo rm a considerable.
E n este p u n to puede o c u rrir que n u e stro exam en d e estos
d iferen tes niveles de m edición y de los problem as de elección
e n tre p ru e b as y m ediciones alternativas, no n o s ilu stre gran cosa.
Uno de los peligros de la estad ística "de re cetario " consiste e n u n a
excesiva sim plificación de los criterios y los problem as im plícitos
en la adopción de decisiones relativas al análisis de datos. Es
im posible exagerar la im p o rtan cia que tiene, al u tiliza r cualquier
técn ica estad ística, el te n e r p re sen te las presunciones im plícitas
q u e el p ro ced im ien to requiere. E n el curso del p re sen te exam en,
u n a de las p rim era s p reg u n tas a fo rm u larse es la relativ a al nivel
de m edición que puede legítim am ente aceptarse.
II.4. O rganización del libro
La organización de los re sta n te s capítulos viene d eterm in ad a p o r
c iertas consideraciones, la p rim e ra de las cuales consiste en p re ­
se n ta r a n te to d o las ideas m ás sim ples, p asan d o gradualm ente
a las d e m ay o r com plejidad. Como cada u n a de las secciones
p resu p o n e el conocim iento de m ateriales que prev iam en te h an
sido tra ta d o s, re su lta conveniente seguir e s ta organización, p a­
san d o p o r alto solam ente los p árrafo s o secciones precedidos de
asterisco. E l capítulo xiv, p o r excepción, p u ed e se r saltad o e n su
to talid ad , o bien englobado con las p ru e b a s y procedim ientos
"no p aram étrico s" contenidos en los capítulos xvi y x v m . El ca­
p ítu lo xxi, acerca del m u estreo , puede s e r leído en relación con
el cap ítu lo ix relativo a la p robabilidad, a u n cuando el capítulo
so b re m u estreo contiene v arias secciones q u e sólo p o d rá n en ten ­
derse cuan d o hayan sido leídos los capítulos xi, x m y xvi. Lo
fu n d am en tal del cap ítulo x v n p o d rá se r asim ilado sin h a b e r p re­
v iam ente ab o rd ad o el cap ítu lo xvi sobre análisis de diferencias.
Se recom ienda, en general, que se estu d ien ios distin to s tem as
en el o rd en en que se p re sen tan .
Los in stru m en to s estad ístico s n o son fácilm ente agrupables
b a jo u n o o dos ap artad o s, y p o r ta l razón los títu lo s que o sten tan
las principales divisiones del libro son sólo parcialm ente adecua­
dos, lim itándose p o r el co n trario a c e n tra r la atención prim aria.
La Segunda P arte se lim ita al tem a de la estad ística descriptiva,
en tan to que en las p arte s T ercera y C uarta el principal, aunque
no el único, foco de atención, se refiere a la inducción, a la
p ru eb a de hipótesis y a la estim ación de p arám etro s de pobla­
ción basad a en datos de m uestreo. E n las p arte s Segunda y
T ercera nos lim itarem os casi p o r en tero a los procedim ientos
que tra e n im plícita u n a sola variable p o r vez, en ta n to que en
la C uarta P arte pasam os a problem as m ás difíciles tales como
el m an ejo sim ultáneo de dos o m ás variables.
E n trelazad a en estas distinciones e n tre descripción e inducción,
así como en tre las estadísticas univariables y bivariables o multivariables, se observa u n te rc e r principio organizativo, a sab er:
el relativo a los niveles de m edición p a ra cada u n a de las variables.
M uchos de los títulos de los capítulos señalan este nivel de
m edición, p ero tal vez el m e jo r m étodo p a ra lo g rar u n a perspec­
tiva resu m id a del contenido consista en acu d ir al cu ad ro de p ru e­
bas y m ediciones que aparece en las guardas. E n su p rim era
colum na ap arecen los procedim ientos a u sa r con variables sim ­
ples. Vemos allí que en el cap ítu lo m nos ocuparem os de las
m ediciones m uy sim ples (p o rcen tajes, proporciones y razones),
utilizados ta n to con las dicotom ías como con las escalas genera­
les nom inales con m ás de dos categorías. Las p ru e b as de hipóte­
sis relativas a escalas nom inales sim ples serán estu d iad as en los
capítulos x, xi y x n . Las m edidas (m ediana, desviación cuadril)
adecuadas p a ra ser utilizadas con u n a escala ordinal, sencillas,
serán exam inadas brevem ente en los capítulos v y vi, en ta n to que
en el capítulo x se d iscutirá u n a m uy sencilla p ru e b a (la bino­
m ial), aplicable a datos ordinales. D edicarem os algo m ás de nues­
tra atención a las escalas de intervalos y razones, las que exa­
m inarem os e n los capítulos iv a v n , relativos a procedim ientos
descriptivos univariados, y de nuevo en los capítulos xi y x n de
la T ercera P arte, relativos a la estad ística inductiva.
Com enzando con el capítulo x m volverem os n u e stra atención
a las relaciones e n tre dos o m ás variables, lo que desde luego
supone que habrem os de ocuparnos del nivel de m edición de la
variable segunda (y adicional), ta n to com o de la prim era. Las
colum nas 2 a 5 del cuadro ofrecen varias com binaciones en rela­
ción con el nivel de m edición de las dos variables. P or ejem plo:
la casilla su p erio r de la colum na 2 se refiere a aquellas situacio­
nes en que se dan dos dicotom ías relacionadas e n tre sí (p o r
ejem plo, sexo c o n tra preferencias p olíticas). E n la segunda casi­
lla de la colum na 2 se tiene en cuenta la posibilidad de que la
p rim era escala nom inal tenga m ás de dos categorías (p o r ejem ­
plo: p ro testan tes, católicos y ju d ío s). En la te rc e ra casilla una
de las variables es u n a dicotom ía (p o r ejem plo, sexo) e n tan to
que la segunda es u n a escala ordinal, y así sucesivam ente. Hay
u n a sola casilla sin ocupar, a s a b e r : aquella e n que u n a variable
se m ide en el nivel o rd in al y la segunda en el nivel de intervalo
o de razón. Aun cuando tales situaciones p u ed en p o r supuesto
s e r resu eltas, carecem os de in stru m en to s realm en te satisfactorios
que no re q u ie ran u n a p érd id a de inform ación al re d u cir el nivel
de m edición en cu alq u iera de las dos variables. No hay nece­
sid ad alguna de llen ar las casillas situadas sobre las que ocupan
la diagonal del cuadro, ya que las cu b ren aquellas situadas b ajo
dicha diagonal.
R esu lta p re m a tu ro en estos m om entos p o n er a discusión cada
u n a de las posibilidades relacionadas en el cuadro. El pu n to m ás
im p o rta n te a señalar es el de que el nivel de m edición afectado
co nstituye u n a de las consideraciones m ás im p o rtan tes al llevar
a cabo u n a elección e n tre diversos procedim ientos. La elección
es relativa, aunque no en teram ente, sim ple, en tan to u n o se en­
cu e n tre lim itado al uso de sólo dos variables. R esulta m ucho
m ás difícil en el caso del análisis m ultivariado, en el que con
frecuencia pued e u n o tra b a ja r con cinco o incluso h a sta quince
o veinte variables al m ism o tiem po, y donde re s a lta com o sum a­
m en te im p ro b ab le que todas ellas sean m edidas al m ism o nivel,
y donde a m enudo es poco deseable u tiliz a r dem asiados m étodos
de p ru e b a y m edición. E n los capítulos xv, xvx, xix y xx se exa­
m in an estos p roblem as de análisis m ultivariado. E n ciertos luga­
res, p a rtic u la rm e n te al final de los capítulos xiv y xx, se en­
co n tra rán , en fo rm a resum ida, algunas de las consideraciones
relativ as a la selección e n tre procedim ientos alternativos.
Como se observará, n o todas las com binaciones posibles son
m an ejad as e n este texto con el m ism o grado de m inuciosidad.
O curre así, no sólo p o r lim itaciones de espacio y p o r la necesidad
de d eten erse en el exam en de las ideas fundam entales, sino p o r­
q ue la teo ría estad ística se en cu en tra m ucho m ás avanzada en
ciertos aspectos. Se h a tra b a ja d o m ucho m ás, en p artic u la r,
en el sec to r de la llam ada “e stad ística p a ra m é tric a ”, relativa a las
escalas de in terv alo y de razón, que en el de los procedim ientos
ordinales, p o r lo cual n u estro s in stru m en to s p a ra el uso de las
escalas de in terv alo y de tiem p o e stán m ucho m ás desarrollados,
especialm ente en el caso del análisis m ultivariado. La diferencia
e n tre las escalas de in terv alo y razón no h a sido tam poco explo­
ta d a en la teo ría estadística, p o r lo m enos h a sta el nivel que a
n o so tro s nos in teresaría. La razón b ásica e strib a en que los m o­
delos estad ístico s con los que generalm ente tra b a ja m o s e stán b a ­
sados en u n a ecuación lineal general que es aditiva, en lugar de
a b a rc a r razones o variables. P o r tal m otivo, y p a ra todo objetivo
p ráctico , no es necesario te n e r p re sen te ta l distinción según se
avanza en la lectura. S erá em p ero n ecesario a c u d ir periódica­
m en te al cu ad ro de las guardas.
G
losario
El lector h a rá bien en acostum brarse a explicar en sus propios té r­
m inos el significado de los conceptos im portantes. Los nuevos con­
ceptos introducidos en este capítulo son:
la
la
* la
la
la
escala de intervalo,
escala nom inal,
definición operativa,
escala ordinal y
escala de razón.
B iblio g rafía
1. Blalock, H. M .: "The Measurement Problem: A Gap between the
Languages of Theory and Research” ; en H. M. Blalock y Ann B.
Blalock (E.) Methodology in Social Research, McGraw-Hill Book
Company, Nueva York, 1968, cap. 1.
2. Bridgman, P. W .: The Logic of Modern Physics, The Macmillan
Co„ Nueva York, 1938, pp. 1-39.
3. Cohén, M. R. y E, Nagel: An Introduction to Logic and Scientific
Metkod, Harcourt, Brace and Company, Inc., Nueva York, 1937,
caps. 12 y 15.
4. Coleman, James S.: Introduction to Mathematical Sociology, The
Free Press, Nueva York, 1964, cap. 2.
5. Coombs, C. H., H. Raiffa y R. M. Thrall: "Some Views on Mathe­
matical Models and Measurement Theory", Psychological Review,
vol. 61, pp. 132-144, marzo de 1954.
6. Coombs, C. H.: A Theory of Data, John Wiley & Sons, Inc., Nue­
va York, 1964.
7. Coombs, C. H .: "Theory and Methods of Social Measurement”,
en L. Festinger y D. Katz (ed.), Research Methods in the Behavioral Sciences, The Dryden Press, Inc., Nueva York, 1953, pp. 471-535.
8. Lundberg, G. A.: Foundations of Sociology, The Macmillan Com­
pany, Nueva York, 1939, caps. 1-2.
9. Northrop, F. S. C., The Logic of the Sciences and the Humanities,
The Macmillan Company, Nueva York, 1947, caps. 5-7.
10. Radcliffe-Brown, A. R.: A Natural Science of Society, The Free
Press of Glencoe, 111., Nueva York, 1957, pp. 2842.
11. Selltiz, C., M. Jahoda, M. Deutsch y S. W. Cook: Research Me­
thods in Social Relations, Henry Holt and Company, Inc., Nueva
York, 1959, caps. 5 y 10.
12. Senders, V. L., Measurement and Statistics, Oxford University
Press, Nueva York, 1958, cap. 2.
13. Stevens, S. S.: "Mathematics, Measurement, and Psychophysics",
en S. S. Stevens (ed.), Handbook of Experimental Psychology,
John Wiley & Sons, Inc., Nueva York, 1951, pp. 1-49.
14. Stouffer, S. A., et ai.: Measurement and Prediction, Princeton Uni­
versity Press, Princeton, N. J., 1950, caps. 1 y 3.
15. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 2.
S eg u n d a P a rte
E S T A D ÍS T IC A D E S C R IP T IV A UNIVARIADA
I I I . ESCALAS N O M IN A L E S : P R O P O R C IO N E S ,
P O R C E N T A JE S Y R A ZO N ES
E s m u c h o m ás sencillo re su m ir los datos que com portan escalas
nom inales que en el caso en que se em plean escalas de intervalo.
La operación aritm ética b ásica es, en el p rim e r supuesto, la
de c o n tar el n ú m ero de los casos al in te rio r de cada categoría y de
a n o ta r sus tam años relativos. Un grupo determ inado puede cons­
ta r de 36 varones y 24 m u jeres, o de 25 p ro testan te s, 20 católi­
cos y 15 judíos. Sin em bargo, p a ra p o d er estab lecer com para­
ciones con otro s grupos, hay que te n e r en cu en ta el n ú m ero de
casos en cada un o de los grupos considerados. Las m edidas que
se exam inan en el p re sen te capítulo p erm iten establecer com pa­
raciones e n tre diversos grupos, m ediante norm alización esencial­
m en te en relación con el tam año. Sin d u d a alguna, dos de las
m edidas en cuestión, la de las proporciones y la de los p o rc en ta­
jes, son ya conocidas de todos.
I I I .1. P roporciones
Con o b jeto de p o d er servirnos de las proporciones, hem os de
p re su m ir que el m éto do de clasificación h a sido ta l que las cate­
gorías son m u tu am en te exclusivas y exhaustivas. E n o tro s térm i­
n o s: cada individuo h a sido pu esto en u n a categoría y en u n a
sola. Con fines de sim plificación, tom em os u n a escala nom inal
q u e co n ste d e c u a tro categorías, con N u N 2, N s y N 4 casos re s­
pectivam ente. S upongam os que el nú m ero to ta l de los casos sea
N. La pro p o rció n de casos en cualquier categoría dada e s tá defi­
n id a com o el nú m ero en la categoría dividido e n tre el nú m ero
to tal de casos. P o r lo ta n to , la proporción de individuos de la
p rim e ra categoría se halla d ad a p o r la ca n tid ad N 1/N , y las p ro ­
porciones de las dem ás categorías son respectivam ente de N 2/N ,
N 3/ N y N J N . Es obvio que el valor de u n a proporción n o puede
ser m ay o r que la unidad. .En efecto, com o q u iera que
Nj. + N 2 + N 3 + N é = N
tenem os que
Nx
N2
_ J_ + __L +
N
N
Ns
N
Ni
N
_ L = -------- = i
N
N
Así, pues, si adicionam os las proporciones de los casos en todas
las categorías (m u tu am en te exclusivas), el re su ltad o es la unidad.
43
Es ésta u n a p ro p ied a d im p o rta n te de las p ro porciones que se
d eja ex ten d er fácilm ente a cu alq u ier n ú m ero de categorías.
Ilu strem o s el em pleo de las proporciones con los datos dados
en el cu ad ro I I I .1.
C uadro II I .l.
N ú m ero de delincuentes y de no delincuentes en
dos localidades hipotéticas
Sujetos
Localidad 1
Localidad 2
Delincuentes
Prim er delito
Reincidentes
No delincuentes
58
43
481
68
137
1081
Total
582
1286
R esulta m ás bien difícil decir cuál de las dos localidades cuenta
con m ayor n ú m ero de delincuentes, p o rq u e son diversam ente
grandes. E n cam bio, si expresam os los datos en térm in o s de
proporciones, podem os establecer u n a com paración directa. E n
efecto, la p ro p o rció n de p rim ero s delitos es, en la com unidad 1,
de 58/582, o .100; la de la localidad 2, en cam bio, es de 68/1 286
o sea .053. Las dem ás proporciones pu ed en calcularse en form a
análoga, resu m ien d o los re su ltad o s en fo rm a de c u a d ro (cu ad ro
III.2 ). El cu ad ro en cuestión nos p e rm ite ap re c ia r que los núm e­
ro s relativos de delincuentes son m u y parecidos en las dos lo­
calidades, p ero que la segunda de ellas contiene u n núm ero
considerablem ente m ás b a jo de p rim ero s delitos y u n a p ro p o r­
ción m ás a lta de reincidentes.
C uadro
III.2. Proporciones de delincuentes y de no delincuentes
en dos localidades hipotéticas
Sujetos
Localidad 1
Localidad 2
Delincuentes
Prim er delito
Reincidentes
No delincuentes
.100
.074
.826
.053
.107
.841
Total
1.000
1.001
La sum a de las proporciones d e la localidad 2 n o d a exacta­
m en te la unidad, debido a los e rro re s de redondeo. E n ocasiones
es conveniente p re s e n ta r los dato s de ta l m odo que las sum as
sean ex actam en te igual a 1.000. E sto puede acaso exigir el aju ste
de algunas de las proporciones de las categorías, en cuyo caso
m odificam os p o r convención las cifras de las categorías que com ­
p re n d en el m ay o r n ú m ero de casos.1 E l argum ento en favor de
ese pro ced im ien to está en que u n cam bio en la ú ltim a cifra deci­
m al de u n a p ro p o rció n m ayor es relativ am en te m enos im por­
ta n te que el m ism o cam bio en u n a cifra m enor. Así, p o r ejem plo,
p o d ría cam b iarse la pro p o rció n de los no delincuentes de la localid ad 2 en .840, d e m odo q u e la su m a re s u lta n te sea igual a la
unid ad .
El cu ad ro III.2 com prende proporciones del n ú m ero to tal de
casos en cada u n a de las com unidades. Supóngase, sin em bargo,
que el in terés se c e n trab a sobre to d o en los delincuentes, y que
deseábam os conocer la p ro p o rció n de los reincidentes entre los
delincuentes. E l n ú m ero to ta l de delincuentes e n las dos localida­
des es resp ectivam ente de 101 y 205. P o r lo tan to , e n tre los delin­
cuentes, las pro p orciones de los reincidentes son respectivam ente
de 43/101, o .426 y 137/205, o .668. A p rim e ra vista estas cifras
p u ed en p ro p o rcio n ar u n a im presión lig eram en te diferente de la
del p rim e r co n ju n to de proporciones. H abríam os de g u ard arn o s
especialm en te de concluir que el segundo espécim en es “m ás
delictivo" que el p rim ero. P o r supuesto, este ú ltim o co n ju n to de
p ro p o rcio n es n ad a nos dice en absoluto acerca de las cifras rela­
tivas de no delincuentes en los dos especím enes considerados.
E s obvio q ue no existe su stitu tiv o alguno de la lectu ra a te n ta de
los cuadros. C onstituye u n bu en principio aco stu m b rarse a de­
te rm in a r siem pre las categorías que se hallan com prendidas en
el nú m ero to tal de casos que sirve de denom inador de la p ro p o r­
ción. El lecto r debiera siem pre p re g u n ta r: "¿de qué es esto la
p ro p o rció n ?” Y la re sp u esta re su lta rá clara del conjunto.
I1I.2 P orcentajes
Los p o rcen tajes pueden o b ten erse de las proporciones m ultipli­
cando sim plem ente p o r 100. La p a la b ra p o rc en taje significa por
ciento. P or lo tan to , al servirnos de los p o rc en tajes norm alizam os
en relación con el volum en, calculando el n ú m ero de individuos
que h ab ría en u n a categoría d eterm in ad a si el to ta l de los casos
fu era 100, perm aneciendo in altera d a la p roporción en cada cate­
goría. Y com o q uiera que las proporciones sum adas dan la uni­
dad, es obvio que los p o rcen tajes sum arán 100, a m enos que las
categorías no sean m u tu am en te exclusivas o exhaustivas.
Al re p ro d u cir resultados, los p o rcentajes se em plean con
m ucha m ayor frecuencia que las proporciones. Las cifras del cua­
dro XII.2 h ab ría n podido expresarse lo m ism o e n térm inos de
i Puede utilizarse exactamente el mismo procedimiento en el caso de poroentajes.
p o rcen tajes. M ejor que servirnos de los m ism os datos, tom em os
o tro cuadro que puede servir p a ra iiu s tra r otros diversos aspec­
tos. Supongam os que tenem os tres agencias de servicios dom és­
ticos con u n a distribución de casos com o la que se indica en el
cu ad ro III.3.
Como es usual, los p o rcen tajes se h an dado h a sta el p rim er
decim al y se h an operado los aju stes de los últim os dígitos, de
m odo que los totales den exactam ente 100. Aquí el núm ero de ca­
sos de cada agencia es lo suficientem ente grande com o p a ra ju s ­
tificar el em pleo de p orcentajes. Sin em bargo, si el núm ero de
casos h u b iera sido m enor, el em pleo de aquéllos h a b ría resultado
equívoco'. E n efecto, supóngase que la agencia C h ab ía trata d o
sólo 25 casos en total. Si h u b iera hab id o cu a tro m ad res solteras
y siete p arejas de novios, los po rcen tajes en dichas categorías
h ab ría n sido respectivam ente del 16 y del 28 p o r ciento. Y com o
q u iera que m uchas personas aco stu m b ran m ira r sólo los p o r­
cen tajes y no el núm ero efectivo de casos com prendidos, po­
d ría fácilm ente o btenerse la im presión de que h ab ía m uchas m ás
p arejas de novios que de m ad res solteras. Como se verá cuando
lleguem os a la estad ística inductiva, la diferencia e n tre cuatro
y siete casos p u ed e deberse perfectam en te a factores pu ram en te
casuales. El em pleo de los p o rc en tajes y las proporciones com­
p o rta p o r lo re g u lar u n a estabilidad m ucho m ayor de las cifras.
P o r lo tan to , he aquí dos reglas generales im p o rta n te s: 1) indí­
quese siem pre el núm ero de casos ju n ta m en te con los porcentajes
o las proporciones, y 2) n o se calcule nunca u n porcentaje, a m e­
nos que el n ú m ero d e casos en que está basado se halle a proxiCuadro I I I .3. D istribución de los n úm eros y porcentajes de casos
tratados p o r tres agencias hipotéticas de servicios dom ésticos
Clase de casos
Matrimonios
Divorciados
Novios
Madres solteras
Otros
Total
Agencia A
Agencia B
Agencia C
Total
N?
%
Ni
°/0
M
%
N°-
%
63
19
27
13
11
47.3
14.3
20.3
9.8
8.3
88
37
20
32
16
45.5
19.2
10.4
16.6
8.3
41
26
15
21
9
36.6
23.2
13.4
18.8
8.0
192
82
62
66
36
43.8
187
14.2
15.1
8.2
133 100.0
193 100.0
112 1.00.0
438 100.0
m id a d de los 50 o más. Si el núm ero de casos es m uy pequeño,
será preferible in d icar el núm ero efectivo de ellos en cada cate­
goría, sin re c u rrir a los po rcen tajes. En el caso an terio r, por
ejem plo, indicaríam os sim plem ente que la agencia C había tra ­
ta d o cu a tro m ad res solteras y siete p arejas de novios.
Véase ah o ra la colum na del to tal que indica la distribución en
p o rcen tajes de las tres agencias ju n tas. E sas cifras se han ob­
tenido sum ando el n ú m ero de casos de cada tipo y el núm ero
to tal de casos trata d o s p o r las tres agencias ju n tas. P a ra el
cálculo de ios p o rcen tajes totales se utilizó, pues, com o base
u n N de 438. Supóngase, sin em bargo, que el núm ero de casos
no nos h u b iera sido dado en el cuerpo del cuadro, sino que se
h u b iera presentado- com o en el cuadro III.4. E n tal caso po­
d ría d arse la tentación de o b ten er los po rcen tajes totales to­
m an d o directam ente la m edia aritm ética de los tres p o rc en ta­
je s de cad a hilera. S em ejante p rocedim iento n o ten d ría en cuenta
el hecho de que las tre s agencias h ab ían tra ta d o núm eros di­
feren tes de casos; sólo se ju stific aría si los núm eros de éstos
fu e ran efectivam ente iguales. El procedim iento correcto consis­
tiría en p o n d e ra r cada p o rc en taje p o r el núm ero correspondien­
te de casos. Uno de los m edios p a ra hacerlo consistiría en calcu­
la r h acia a trá s p a ra o b ten er el nú m ero efectivo de casos de cada
casilla. Lo que p o d ría efectuarse m ultiplicando el núm ero to tal
de casos tra ta d o s p o r la agencia p o r la proporción de u n a catego­
ría d eterm in ad a. P or ejem plo, (133)(.473) = 63.
Cuadro III.4. D istribución en porcentajes de los casos tratados
p o r tres agencias hipotéticas d e servicios dom ésticos, con los
porcentajes dispuestos verticalm ente
Clase de casos
Agencia A
(N = 133)
%
Agencia B
(N = 193)
Vo
Agencia C
(N = 112)
%
Matrimonios
Divorciados
Novios
Madres solteras
Otros
47.3
14.3
20.3
9.8
8.3
45.5
19.2
10.4
16.6
8.3
36.6
23.2
13.4
18.8
8.0
Total
100.0
100.0
100.0
O bsérvese que los p o rc en tajes dados en los cuadros III.3 y
III.4 tien en p o r objeto- co n te sta r a ciertas p reg u n tas y n o otras.
Nos p erm iten ex am inar cada agencia p o r sep arad o y v er la dis­
trib u ció n de los casos tra ta d o s. P erm iten adem ás la com para­
ción de las agencias e n tre sí e n relación con los casos trata d o s.
Así, p o r ejem plo, las agencias B y C tra ta ro n relativ am en te m ás
m ad res solteras y perso n as divorciadas de las que tra tó la agen­
cia A. Supóngase, sin em bargo, que nos in tere sa b an a n te todo
los casos de cierto tip o y el n ú m ero relativo de ellos tra ta d o s p o r
cada agencia. Así, p o r ejem plo, p o d ría eventualm ente interesar-
Cuadro
III.5 . D istribución en porcentajes de los casos tratados
p o r tres agencias hipotéticas de servicios dom ésticos, con los
porcentajes calculados horizontalm ente
Clase de casos
Agencia A
(N = 133)
Agencia B
(N = 193)
Agencia C
(N = 112)
32.8
23.2
43.5
45.8
45.1
32.3
48.5
_*
21.4
31.7
24.2
31.8
_*
%
Matrimonios (N= 192)
Divorciados (N =82)
Novios (N = 62)
Madres solteras ( N- 6 6 )
Otros ( N~36)
*
19.7
_*
%
%
Total
(N = 438)
%
100.0
100.0
100.0
100.0
__ *
Los porcentajes no se calculan cuando la base es inferior a 50.
n o s sab e r el p o rc en taje de todos los m atrim onios que pasaron
p o r la agencia B . E n estas condiciones re su lta ría m ás conve­
nien te calcu lar los p o rcen tajes a través del cuadro. E a efecto,
po d ríam o s to m a r el n ú m ero to ta l de m atrim onios y v er cuáles
p o rcen tajes de dicha categoría fu e ro n tra ta d o s respectivam ente
p o r las agencias A, B y C. Los p o rcen tajes su m arían entonces
100 en el sen tid o horizontal del cuadro, y no en el vertical, y los
resu ltad o s se resu m irían com o en el cuadro III.5.
De m odo que los p o rcen tajes pueden calcularse tan to en sen­
tid o vertical com o en sentido horizontal. Por lo tan to , los cua­
dros h an de exam inarse siem pre cuidadosam ente p a ra ver exac­
tam en te cóm o se h an calculado aquéllos. P ara los casos en que
la p ro p ia teo ría nos dicta cuál es la variable que debe ser tom a­
da com o cau salm ente dependiente y cuál ha de ser considerada
causalm ente p rim a ria o independiente, p o d rá b astarn o s u n a sim ­
ple regla em pírica. Si tenem os la costum bre de s itu a r la varia­
ble independiente en la p a rte alta del cuadro, y la variable de­
p endiente al lado izquierdo, los p o rcen tajes su m ará n 100 hacia
abajo, y las com paraciones se h a rá n de izquierda a derecha. En
el ejem plo relativo a la com paración de niveles de delincuencias
en dos localidades, ca b ría n o rm alm en te su p o n er que ciertas ca­
racterísticas locales pueden te n e r influencia sobre la delincuen­
cia, m ás bien que a la inversa.
Cuando com putam os los p o rcen tajes p ara que sum en 100 hacia
abajo, lo que en re alid ad hacem os es norm alizar los tam años de
las localidades, ya que reconocem os que los factores que se refie­
re n a sus tam años relativos, o los m uestreos realizados dentro
de cada localidad, no dependen causalm ente de sus niveles de
delincuencia. Al co m p u tar hacia ab ajo los po rcen tajes estam os
controlando aquellos factores que afectan al tam añ o de los dos
m uestreos. E ste p u n to qu ed ará m ás en claro u n a vez que haya­
m os considerado el concepto de inclinación de u n a línea recta
en la que u n a de las variables fig u ra com o dependiente de la o tra
(v e r cap ítu lo xvrr).
R esu ltará que los po rcen tajes com putados en la dirección su­
gerida p u ed en ser considerados com o casos especiales de dichos
declives.
II I.3. R azones
La razón de u n n ú m ero A con respecto a o tro núm ero B se de­
fine com o A dividido e n tre B . La cantidad que precede se pone en
el n u m erad o r, en tan to que la que sigue fo rm a el denom inador.
S upóngase que en una elección local se hallan inscritos 365 re p u ­
blicanos, 420 dem ócratas y 130 independientes en calidad de vo­
tan tes. E n este caso la razón de los republicanos a los dem ócra­
tas es de 365/420, y la de los republicanos y los dem ócratas a los
independientes es de (365 + 420)/130. O bsérvese que, a diferen­
cia de la proporción, la razón puede to m a r u n valor su p erio r a
la unidad. Vemos asim ism o q u e la expresión que precede o que
sigue pueden constar, u n a y o tra, de cantidades d istin tas ( v.gr.
republicanos y d em ócratas). G eneralm ente la razón se reduce a
su expresión m ás sim ple elim inando en el n u m era d o r y el deno­
m in ad o r los factores com unes. Así, pues, la razón de los dem ó­
cratas a los independientes se escrib irá com o 42/13 o bien, en
fo rm a equivalente, com o 42:13. En ocasiones es conveniente ex­
p re s a r la razón en térm inos de u n denom inador form ado p o r la
unidad. P o r ejem plo, la razón de los dem ócratas a los indepen­
d ientes pu ed e escribirse com o 3.23 a 1.
E s obvio que las proporciones re p resen tan u n tip o especial de
razón en la que el denom inador es el nú m ero to tal de los casos
y el n u m era d o r u n a cierta fracción de aquél. Sin em bargo, el
térm in o de razón se em plea p o r lo re g u lar p a ra re ferirse a casos
en los q ue A y B re p re se n ta n categorías separadas y distintas.
P odríam os, p o r ejem plo, estab lecer la razón de los delincuentes
a los n o delincuentes, o de los m atrim onios a los novios. Es evi­
d ente que con cu atro o cinco categorías el n ú m ero de razones
posibles susceptible de calcularse es m uy grande. En consecuen­
cia, a m enos que el in terés se cen tre a n te to d o en uno o varios
p ares de categorías, será en general m ás económ ico y m enos su­
je to a confusión p o r p a rte del lecto r servirse de los p o rcentajes
y las proporciones. O bsérvese que, si las categorías sólo son dos,
será posible calcular la proporción d irectam en te a p a r tir de la
razón y viceversa. Así, p o r ejem plo, si sabem os que la razón de
los varones a las m u jeres es de 3 :2, entonces en cada cinco p er­
sonas h a de darse u n prom edio de tres varones y dos m ujeres.
La p ro p o rció n de los varones es, pues, de 3/5, o .6.
Las razones pu eden ex presarse en térm inos de cualquier b ase
que re su lte conveniente. L a base de la razón está indicada p o r la
m ag n itu d del d enom inador. Así, p o r ejem plo, las razones relati­
vas al sexo se in d ican convencionalm ente en térm in o s del núm ero
de varones p o r 100 m u jeres. P o r lo tan to , u n a razó n de 94 en
m ateria de sexo in d icará que el n ú m ero de los varones es ligera­
m en te in fe rio r al de las m u jere s, en ta n to que u n a razón de
sexos de 108 significaría u n a ligera p re p o n d eran cia de los p ri­
m eros. Las bases que co m p o rtan núm eros grandes, tales como
1 000 o 100 000, se em plean a m enudo al calcular cuotas, o tro tipo
de razón, cuando el em pleo de las proporcion es o los po rcen tajes
co n d u ciría a valores decim ales pequeños. Las cuotas de n atali­
dad, p o r ejem plo, suelen d arse e n térm in o s del n ú m ero de naci­
m ien to s vivos p o r 1 000 m u jeres e n ed ad de p ro c rea r. Las cuotas
de asesinatos pueden darse en térm in o s del n ú m ero de asesinos
p o r 100 000 h ab itan tes.
Las cuotas de crecim iento constituyen o tro tip o co rrien te de
razón. Al calcu lar u n a de estas cuotas, tom am os el crecim iento
efectivo d u ra n te el perio d o considerado, dividido e n tre el volum en
al principio del periodo. Así, p o r ejem plo, si la población de una
ciu d ad au m en ta de 50 000 a 65 000 e n tre 1940 y 1950, la cuota de
crecim iento d u ra n te el decenio en cuestión s e rá de
65 000 - 50 000
---------- — ---------- = .30
50 000
o 30 p o r ciento. E n el caso de cuotas de crecim iento, es obvio
q ue los p o rc en tajes se p re s ta n bien m ás allá del 100 p o r ciento,
en ta n to que serán negativos si la ciu d ad h a experim entado un
descenso de población.
G
losario
Porcentaje
Proporción
Tasa
Razón
E j e r c ic io s
1. Supóngase que se da el siguiente cuadro que m uestra la relación
entre la asistencia a la iglesia y el año de clase en una determinada
universidad:
Asistencia
a la
iglesia
1er. Año
2ü Año
Inferior
Superior
Asistencia regular
Asistencia irregular
83
31
71
44
82
61
59
78
295
214
Total
114
115
143
137
509
Año de clase
Total
a) ¿Cuál es el porcentaje de asistencia regular en el conjunto? Res­
puesta, 57.96 %.
b ) ¿Cuál es la razón de los estudiantes de primer año a los del año
superior?
c) E ntre los asistentes regulares, ¿cuál es la razón de los años infe­
riores a los superiores (de los 1? y 2? años a los años inferior y
superior)? Respuesta, 1.09 a 1.
d) ¿Cuál es la proporción de los asistentes irregulares entre los es­
tudiantes del año superior? ¿La proporción de estudiantes de año
superior entre los asistentes irregulares? Respuesta .364; .569.
e) ¿Hay relativamente más asistentes irregulares entre los estudian­
tes de 1* y 2° años que entre los de las clases inferior y superior?
Exprésense los resultados en porcentajes.,
f) Resúmanse los datos en varias proposiciones.
2. Al estudiar la relación entre la productividad industrial y el tipo
de líder de los grupos, un psicólogo social obtiene los siguientes datos,
que m uestran los niveles de productividad agrupados en tres tipos
distintos de dirección:
Grupos de tipo de líder del grupo
Total
Productividad
Democrático
Liberal
Autoritario
Alta
Mediana
Baja
37
26
24
36
12
20
13
71
29
86
109
73
Total
87
68
113
268
a) ¿En qué dirección preferiría el lector calcular los porcentajes?
¿Por qué?
b ) Calcúlense los porcentajes y resúmanse los datos en forma breve.
c) ¿Cuál es la razón de los productores de nivel alto a los de nivel
bajo en cada uno de los grupos? En relación con estos datos par­
ticulares, ¿resumen las tres razones la situación de modo ade­
cuado? Expliqúese.
3. Si la razón de los blancos a los no blancos es de 8/5 en una deten
minada localidad, ¿cuál es la proporción de los no blancos? Supóngase
que la razón de los blancos a los negros fuera de 8/5, ¿podría obte­
nerse la proporción de negros en la misma forma? ¿Por qué, o por
qué no?
4. Si una ciudad tenía una población de 153 468 habitantes en 1940
y de 176118 en 1950, ¿cuál fue la tasa de crecimiento (expresada en
porcentaje) entre 1940 y 1950? Respuesta, 14.76%.
5. Si en un determinado condado hay 12160 varones y 11913 mu­
jeres, ¿cuál es la razón entre los sexos (expresada en términos del
número de varones por 100 mujeres)?
B iblio g ra fía
1. Anderson, T. R. y M. Zelditch: A Basic Course in Statistics, 2* ed.,
Holt, Rinehart and Winston, Inc., Nueva York, 1968, pp. 24 a 31.
2. Freeman, L. C.: Elementary Applied Statistics, John Wiley & Sons,
Inc., Nueva York, 1965, cap. 4.
3. Hagood, M. J. y D. O. Price: Statistics for Soeiologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 7.
4. Weiss, R. S .: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 4.
5. Zeisel, H ans: Say I t w ith Figures, 5? edición, Harper and Row,
Publishers, Incorporated, Nueva York, 1968, caps. 1 y 2.
IV . ESCA LAS D E IN T E R V A L O : D IS T R IB U C IO N E S D E
F R E C U E N C IA Y R E P R E S E N T A C IÓ N GRÁFICA
E n e l p re se n te capítulo nos ocuparem os de m étodos p a ra el re ­
su m en de datos m uy p arecid o s a los del capítulo precedente.
V am os a ag ru p a r las escalas de intervalo en categorías, a o rd e n a r
éstas y a servirnos de dichos grupos p a ra d a r u n a visión con­
ju n ta de la d istrib u ción d e los casos. Al p ro c ed er en esta form a,
p odem os re d u c ir la in form ación relativ a a u n n ú m ero m uy gran­
de de casos a u n a fo rm a m uy sim ple, que p e rm ita al le c to r
re p re se n ta rse en q u é fo rm a están d istrib u id o s los casos. M ás
a d e la n te co m probarem os que ag rupando los datos podem os asi­
m ism o sim p lificar considerablem ente ciertos cálculos. E n los dos
cap ítu lo s siguientes nos ocuparem os de m étodos de resu m en de
dato s en fo rm a m ás com pacta, de m odo que p u ed an se r descri­
to s p o r varios n ú m eros expresando m edidas que re p re se n ta n
fo rm as típ icas y grado de hom ogeneidad.
IV .l. D istribuciones de frecuencia: agrupam iento de los datos
E n el cap ítu lo p reced en te nos hem os en c o n trad o con sólo pocas
decisiones im p o rtan tes, si h a h ab id o alguna, en relación con el
re su m e n de los datos. E sto se debe al h echo de que, presu m ib le­
m ente, las clases estab a n y a d eterm inadas y lo único que h abía
q ue h a c e r era c o n tar el nú m ero de casos en cada clase y luego
n o rm alizar en relación co n el n ú m ero de casos del espécim en
co n ju n to , calculando u n a proporción, u n p o rc e n ta je o u n a razón.
E n cam bio, si los datos de la escala de in terv alo h an de re su ­
m irse del m ism o m odo, hay que a d o p tar u n a decisión inicial en
relación con las categorías q u e se van a u tilizar. Ya que p o r lo
re g u la r los datos e sta rá n d istrib u id o s de m odo continuo, sin o con
p eq u eñ as lagunas, e n tre cifras contiguas, el esq u em a de clasifi­
cación p u ed e se r m uy a rb itra rio . S erá m en este r decidir cu án tas
categorías se van a u tiliza r y en dónde deban establecerse los
39.2 %
28.1
22.8
44.3
36.3
18.2
27.1
33.6
39.5
21.6
46.1
11.6%
263
33.4
58.1
20.7
37.1
28.8
19.3
32.3
37.9
21.5
36.3 %
27.1
25.6
33.1
9.3
21.6
27.8
43.7
22.4
37.1
13.3
26.3 %
35.1
21.6
13.4
26.3
17.5
33.6
28.2
15.1
24.9
37.1 %
23.0
46.8
27.8
29.9
12.3
26.5
19.9
26.3
10.0
53
15.3 %
26.1
7.1
33.4
39.4
23.6
28.3
83.6
26.1
20.7
27.3 %
31.0
16.8
22.1
5.3
37.2
26,9
47.1
29.2
11.8
23.5 %
36.3
26.9
42.7
24.3
37.1
24.8
4.8
14.3
22.9
13.3 %
27.3
46.6
33.0
17.8
25.1
41.0
9.7
14.6
36.0
pu ntos de intersección. In fo rtu n ad am en te, no- existen reglas sim ­
ples p a ra h acer esto, ya que la decisión depende de los objetivos
perseguidos p o r m edio de la clasificación. Sirvám onos, p a ra ilus­
tr a r el carác te r del problem a, de u n ejem plo sencillo. Supóngase
que los núm eros indicados al final de la página a n te rio r re p re­
sen tan el p o rc en taje de electores elegibles que vo tan en la elec­
ción de u n consejo escolar, en 93 colegios electorales de u n a de­
term in ad a ciudad.
Los datos b ru to s p resentados en esta fo rm a n o sirven p rá cti­
cam ente de n ad a en cu an to a p ro p o rcio n ar al lecto r u n a idea cla­
ra de lo que está sucediendo. Y esto es ta n to m ás así cuanto
m ayor sea el n ú m ero de los casos. Supóngase que deseáram os
co m p arar dicha localidad con o tra en relación con la p articip a­
ción electoral. Una rá p id a o jead a echada a los datos indica que la
m ayoría de los d istrito s tuvieron u n a participación de 20 a 40 %
y que h u b o u no con u n a cifra extrem adam ente alta.
R esulta sin em bargo realm ente difícil ob ten er u n a id ea clara de
la distribución total.
N ú m ero y m a gnitud de los intervalos. Con o b jeto de represen­
tarn o s dicha d istribución total, será ú til clasificar las cifras ve­
cinas en u n a m ism a categoría. Sin em bargo, nos encontram os
en seguida con un problem a. ¿De cuántos intervalos habrem os
de servirnos al a g ru p ar los datos? ¿Cuál ha de se r su extensión?
P o r lo pro n to , no tiene o b jeto em plear intervalos de am plitud
o lím ites peculiares. Así, pues, escogerem os m ás bien intervalos
de am plitud 5, 10 o 20 que u n o de am plitud 4.16, pongam os p o r
caso. Y tam bién nu estro s puntos term inales, o lím ites de clase
com o se los suele llam ar, serán p o r lo regular núm eros redondos,
tales com o 5.0 o 10.0. Si tenem os duda acerca de los intervalos
de los que h ab rem os de servirnos definitivam ente es preferible
clasificar las cifras sirviéndonos de u n nú m ero m ayor de in ter­
valos relativam ente pequeños. La razón de ello es obvia: si nos
servim os de intervalos pequeños, siem pre podem os agrupar, in­
m ediatam ente, los casos en intervalos m ayores. E n ta n to que si
em pezáram os con u n pequeño nú m ero de intervalos grandes, no
podem os luego subdividirlos, com o no sea rehaciendo todos los
cálculos. P o r lo tan to , nos decidirem os probablem ente a clasifi­
ca r los datos en intervalos de am p litu d 5 p o r ciento, com o en el
cuadro IV .l.
Y
si exam inam os ah o ra las frecuencias en cada categoría, ve­
m os que la im agen que p re sen tan es relativam ente angulosa e
irreg u lar. Podem os probablem ente explicarnos las variaciones
en tre categorías contiguas en térm inos de fluctuaciones casuales.
Si hub iera hab ido m ás casos, habríam os podido c o n tar con u n a
distribución m ás suavizada. El razonam iento que se halla a la
base de este ju icio intuitivo se d estacará m ás claram en te en ca­
pítulos u lterio res. B aste de m om ento decir que em píricam ente
Cuadro IV .1. D istribución de la frecuencia, con datos agrupados
en intervalos de 5 por ciento
Intervalo
Frecuencia, f
0.0-- 4.9
5.0-- 9.9
10.0--14.9
15.0--19.9
20.0--24.9
25.0--29.9
30.0--34.9
35.0--39.9
40.0--44.9
1
4
9
8
16
23
8
14
4
Intervalo
Frecuencia, f
45.0 - -49.9
50.0--54.9
55.0--59.9
60.0--64.9
65.0 - -69.9
70.0--74.9
75.0--79.9
80.0--84.9
4
0
1
0
0
0
0
1
—
93
siem p re p arece o c u rrir así. S in em bargo, dado n u estro N d e 93
d istrito s, lo m e jo r que podem os h a c e r p a ra o b ten er u n a d istri­
bu ció n de aspecto m ás re g u la r es servirnos de u n nú m ero m en o r
de in terv alo s m ás am plios. S irviéndonos de intervalos de 10 en
10, obtenem os el cu ad ro IV.2.
C uadro
IV .2. D istribución de la frecuencia, con datos agrupados
en intervalos de 10 por ciento
Intervalo
0.0— 9.9
10.0— 19.9
20.0 — 29.9
30.0 — 39.9
40.0 — 49.9
50.0 — 59.9
60.0 — 69.9
70.0 — 79.9
80.0 — 89.9
Frecuencia, f
5
17
39
22
8
1
0
0
1
93
Si hu b iéram o s em pleado intervalos m ayores todavía, digam os,
p o r ejem plo, de 20, el c u a d ro se p re se n ta ría com o el cuadro IV.3.
Aquí em pezam os a o scu recer ya la m ayor p a rte de n u e stra in­
fo rm ación inicial. E n efecto, sabem os sólo que aproxim adam en­
te las dos terceras p a rte s de los casos se sitú an e n tre 20.0 y 39.9,
p ero viendo los datos en esta form a, no podem os decir m ucho
acerca de dónde se sitú e el grueso de los casos al in te rio r de ese
C uadro
IV.3. D istribución de las f recuencias con datos agrupados
en intervalos de 20 por ciento
Intervalo
0.0 — 19.9
20.0 — 39.9
40.0 — 59.9
60.0 — 79.9
80.0 — 99.9
Frecuencia, f
22
61
9
0
1
93
in terv alo realm ente m uy grande. E n resum en, hem os de encon­
tr a r u na fo rm a a m odo de servirnos de gran nú m ero de in­
tervalos de m odo que la visión n o re su lte dem asiado detallada
o irregular, n i servirnos de ta n pocos que se p ierd a dem asiada
inform ación. Y dicho sea de paso, observam os que, al resu m ir
los datos de la escala de intervalo, se pierde prácticam ente siem ­
pre algo de inform ación im portante. E n ta n to que, p o r o tra p a r­
te, incluir to d a la inform ación conduce a p re se n ta r ta n to detalle,
que la visión re su lta m ás bien oscurecida que aclarada.
Pese a que se h an indicado fórm ulas m atem áticas que pueden
serv ir de guía p o r lo que se refiere al nú m ero de intervalos a
utilizar, esas fórm ulas dan a m enudo la im presión de exactitud,
en tan to que la m e jo r decisión se b a sa rá norm alm ente en el sen­
tid o com ún y en el o b jeto a que se destine la tab la de frecuencia.
In d ep endientem ente del n ú m ero de casos o de la reg u larid ad de
la línea, lo m ás p ru d e n te consiste en seguir la regla práctica
de que el in terv alo n o debería ser m ayor que la m ag n itu d de di­
ferencia e n tre valores que pueden ignorarse sin perjuicio. Una
diferencia de $ 5 e n tre precios de casas, p o r ejem plo, es insignifi­
cante, en ta n to que no es así si se tra ta de los precios de cam isas.
P o r consiguiente, el intervalo d eberá com prender los casos cuyos
valores pu ed an considerarse p a ra fines prácticos com o sem e­
jantes.
Los datos indicados m ás a rrib a p resen tan o tro problem a. ¿Qué
p asa con el único colegio que o sten ta u n a participación del 83.6
p o r ciento a la vista? Si nos servim os de intervalos de u n a am ­
p litu d de 10, varias clases quedan vacías, con dicho único colegio
abandonado, p o r así decir, a sí m ism o. Sin duda, esto es lo que
hay que h acer, si es que los datos h an de resu m irse cuidadosa­
m ente. Dicho colegio es efectivam ente único. P or o tra p arte , en
d eterm inadas circunstancias puede se r conveniente ab rev iar la
tabla. Si los p o rcentajes fu eran bien m ás allá de 100 y si hubiera
varios extrem os que se extendieran p o r sobre de 10 o m ás in ter­
valos, nos en frentaríam os a u n a decisión m ás difícil todavía. E n
tal caso, en efecto, se p re se n ta n varias alternativas. P rim ero,
podem os serv im o s de intervalos de am p litu d es diversas, p erm i­
tien d o que los intervalos extrem os sean m u ch o m ás grandes que
los otro s. Así, p o r ejem plo, podríam os serv im o s de u n solo in­
terv alo de 50.0 a 89.9, lo que com prendería las dos m arcas m ayo­
res. P o r supuesto, al p ro c ed er en esta fo rm a perdem os in fo rm a­
ción, ya que ah o ra tenem os u n a indicación m ucho m enos precisa
de las cifras correspondientes a los dos casos extrem os.
E n segundo lugar, podríam os servim os de u n intervalo abierto
p a ra co m p ren d er los casos extrem os. La ú ltim a categoría po d ría
leerse en tal caso com o "50 p o r ciento o m ás". Aquí, sin em ­
bargo, perdem os todavía m ás inform ación que an teriorm ente,
au n q u e sabem os que en este ejem plo concreto los po rcen tajes no
pued en ir m ás allá de 100. P ero si los datos se re firiera n a ingre­
sos y que el últim o in terv alo fu e ra de "$ 20 m il o m á s”, el lector
n o te n d ría en ab so luto m an era alguna de adivinar, sobre la b ase
de la sola tabla, cuáles pu d iero n h a b e r sido los ingresos m ás
altos. Conviene observar, con todo, que e n d eterm inadas circuns­
tancias pued e no re v estir im p o rtan cia alguna sa b e r cuáles sean
esos ingresos m ás altos. E n ta l caso, las sim plificaciones in tro ­
ducidas m ed ian te el em pleo de intervalos ab ierto s pu ed en com ­
p e n sa r con v en taja los inconvenientes. Con distribuciones que
p re se n ta n xm nú m ero red u cid o de casos m uy extrem os, p u ed e no
darse altern ativ a satisfac to ria alguna. Si alguien desea, p o r ejem ­
plo, in d icar los ingresos de los ciudadanos m ás ricos sin desfigu­
r a r su tab la, le re su lta rá m ás fácil hacerlo e n el tex to de su
exposición. Como lo verem os en capítulos sucesivos, no debieran
em p learse in tervalos abiertos si el objetivo p rim ero de la ag ru ­
pación de los datos consiste en sim plificar los cálculos y n o en
exponer aquéllos de m odo significativo.
L ím ite s verdaderos. El lecto r h a b rá observado que, al indicar
los intervalos, los lím ites de las clases se h a n establecido de tal
m odo que éstas no se en tre co rten . De hecho, existe u n pequeño
vacío e n tre u n a y o tra . Los lím ites suelen p o r lo regular fija rse
en esta fo rm a p a ra ev itar to d a am bigüedad fre n te al lector. E n
efecto, si se h u b iera fijad o com o de 10 a 20, de 20 a 30, etcétera,
se h a b ría p lan tead o la cuestión de qué hacem os con u n a m arca
de 20 exactam ente. E n realidad, siem pre h a b rá am bigüedad, cual­
q u ie ra q u e sea la fo rm a e n q u e se fijen los intervalos, com o p o ­
dem os ap reciarlo al p re g u n ta rn o s ah o ra qué h a b rá que h ac er con
un caso q ue se sitúe e n tre 19.9 y 20. O bservam os, p o r supuesto,
q ue no hay tales casos, p e ro u n poco de reflexión nos convencerá
de q ue esto es debido al hecho de que los datos se h an redon­
deado a la décim a del p o rc en taje m ás próxim o. P or lo tan to ,
hem os d e co n testa r a la siguiente cuestión: "¿cuáles casos corres­
ponden en realid ad a un intervalo determ inado, puesto que los
datos se h a n red ondeado?” V em os in m ed iatam en te que los ver­
daderos lím ites d e las clases n o son los m ism os que los que se
h a n fijado. Si hu biéram os seguido las reglas convencionales del
redondeo, u n colegio con u n a particip ació n ligeram ente superior
a 19.95 se h a b ría redondeado en 20.0, situ án d o lo en el intervalo
de 20.0 a 29.9. Y si el p o rc en taje h u b ie ra quedado p o r deb ajo de
19.95, p o r poco que así fuera, lo habríam os red o n d ead o en 19.9,
colocando el colegio en cuestión en la categoría inm ediatam ente
in ferio r. P o r lo tan to , los verdaderos lím ites efectivam ente em ­
pleados son los sig u ien tes:
d e -0 .0 5 a 9.95
de 9.95 a 19.95
de 19.95 a 29.95
etcétera.
Vemos que, al servim os de los verdaderos lím ites, cada in ter­
valo tien e u n a am p litu d exactam ente de 10.0 (m ás bien que de 9.9)
y que el lím ite su p erio r de u n intervalo coincide exactam ente con
el lím ite in ferio r del siguiente.1 Si la m arc a h u b ie ra sido exacta­
m en te de 9.95000, h ab ríam o s seguido el p rocedim iento conven­
cional red o n d ean do hacia arrib a, ya que el n ú m ero dígito que
preced e al ú ltim o cinco es im par.2 Podem os, pues, asig n ar a cada
caso, de m odo inequívoco, su in terv alo propio. O bsérvese que si
el red o n d eo se h a operado h ac ia la cifra próxim a, com o suele
se r el caso, el v erd ad ero lím ite co m p o rta rá siem pre la separa­
ción de la diferencia e n tre los lím ites fijados de dos intervalos
contiguos. Así, p o r ejem plo, si p artim o s la d iferencia e n tre 19.9
y 20.0, obtenem os 19.95. La convención consiste e n in d icar las
cifras de ta l m odo que se exprese el grado de ex actitu d de la
m edición, o sea que 10.45 indica u n a ex actitu d a dos lugares deci­
m ales, 10.450 a tre s y 10.4 a uno. Dicho grado de ex actitu d debe
ind icarse siem pre, d e m odo que el le c to r p u ed a averiguar los
lím ites v erdaderos si desea servirse d e ellos en sus cálculos. Así,
p o r ejem plo, si se indica que los lím ites son respectivam ente 10.00
a 19.99, sabem os que la m edición es exacta h a s ta dos decim ales,
que el red o n d eo se h a operado a la próxim a centésim a d e -----
100
del 1 p o r ciento, y que, en consecuencia, los v erdaderos lím ites
van de 9.995 a 19.995. Si los lím ites se h u b iera n indicado com o
1 Si el límite más bajo es cero y que los valores no pueden ser negativos
(como en el caso de los porcentajes), consideramos de todos modos que to­
dos los intervalos son de la misma amplitud, imaginando que el límite in­
ferior del primer intervalo es en realidad —.05 y que las marcas se han re­
dondeado en 0.00.
2 Obsérvese que en el caso de los intervalos de los que nos hemos servido
habría una desviación muy ligera, ya que los casos que quedan exactamente
entre intervalos se situarán siempre en la categoría superior. En la mayoría
de los casos prácticos dicha desviación puede ignorarse.
10 a 19, entonces los verdaderos lím ites h ab ría n sido, p o r su­
puesto, 9.5 a 19.5.
E n unos pocos casos, como, p o r ejem plo, el de la edad en re la ­
ción con el ú ltim o aniversario, los datos pueden n o hab erse
red o n d ead o en la fo rm a convencional. S in em bargo, si nos pregun­
tam os a cuál intervalo corresponda u n caso determ inado, la re s­
p u esta h a b ría de ser siem pre clara. Como q u iera que, en efecto,
u n a p erso n a que vaya a cu m p lir 20 años m añ an a cuenta hoy 19,
es obvio que el intervalo fijad o com o de 15 a 19 tiene com o ver­
daderos lím ites los valores 15 y 20. Pese a que p u ed a p arece r que
andam os con sutilezas al distinguir e n tre los lím ites indicados
y los lím ites verdaderos, verem os, sin em bargo, en los capítulos
sucesivos q ue estos últim os h a n de utilizarse en los cálculos, au n ­
que p o r lo reg u lar n o se indiquen explícitam ente al p re sen tarse
los dato s en form a de d istribución de frecuencia.
D atos discretos y continuos. Los datos de los que nos hem os
servido son continuos, en el sentido de que cualquier valor h u ­
b iera p odido obtenerse teóricam ente p a ra u n porcentaje, a con­
dición que la ex actitud de m edición fu e ra lo suficientem ente p re­
cisa y q ue los intervalos fu e ran m uy grandes. Así, p o r ejem plo,
el v alo r de 17.4531 p o r ciento es ta n posible com o el de 17.0000
p o r ciento. Algunos otros tipos de datos son discretos, ya que no
todos los valores son posibles. E n efecto, u n a m u je r puede ten er
ex actam ente 0, 1, 2 o inclusive 17 niños, p ero no puede te n e r 2.31
niños. El ingreso y el volum en de u n a ciudad son variables teó­
ricam en te discretas, y a que n o es posible te n e r u n ingreso de
$ 3 219.5618, o que u n a ciudad tenga u n a población de 43 635.7 h a ­
b itan tes. Debido a las lim itaciones de to d o in stru m en to de m e­
dición y a la necesidad subsiguiente de h ab e r de red o n d ear en u n
p u n to u o tro, los datos em píricos vienen siem pre en fo rm a dis­
c re ta ; p ero en m uchos casos podem os p o r lo m enos concebir u n a
distrib u ció n continua susceptible de alcanzarse con un in stru ­
m en to de m edición perfecto. Como lo verem os en el capítulo
relativ o a la curva n orm al, los m atem áticos h an de d esa rro llar
a m en u d o distribuciones teóricas que ad o p tan u n a variable con­
tinua.
E n algunos casos, com o los del ingreso o n ú m ero de h ab itan tes
de u n a ciudad, n o re su lta dem asiado difícil concebir los datos
com o continuos, aunque se tra te en realidad de unidades m uy pe­
queñas (centavos, p erso n as) que no se d ejan subdividir. Pero,
¿qué o cu rre con el n ú m ero de niños en u n a fam ilia? Aquí p a re ­
ceríam os v io len tar excesivam ente los hechos si adm itiéram os
continuidad. Al p re s e n ta r los datos en u n a distribución de fre­
cuencia no se nos o cu rrirá, p o r supuesto, servim os de intervalos
que vayan de 0.5 a 2.4 o de 2.5 a 4.4 niños. E m plearem os senci­
llam en te intervalos com o de 0 a 2, de 3 a 4, etcétera, y no h ab rá
am bigüedad alguna p o r lo que se refiere a los huecos e n tre aqué-
líos. E n algunos cálculos, sin em bargo, se rá necesario, p o r razo ­
nes p ragm áticas, tr a ta r los casos com o continuos y d isp o n er m a r­
cas discretas en in tervalos pequeños. E n efecto, p o r ra ro que se
n o s p u ed a a n to ja r, podem os n ec esitar c o n sid erar a las m adres
con u n h ijo com o e n u n in terv alo d e 0.5 a 1.5 niños. P a ra la m a­
y o ría de los o b jeto s obtendrem os lo s m ism os re su ltad o s que
o b ten d ríam o s m an teniendo los datos en fo rm a discreta. Con el
fin de ad a p ta rse a los m odelos establecidos p o r los m atem áticos,
en este y otro s casos será necesario h a lla r u n com prom iso con la
realidad. A condición de que nos dem os p erfec ta cu en ta de lo que
estam os haciendo, n o re s u lta rá de ello confusión alguna o sólo
m uy poca.
IV.2. D istribuciones de frecuencia cum ulativa
P a ra algunos o b jeto s es conveniente p re se n ta r los d ato s e n u n a
fo rm a algo d istin ta. E n lugar de in d icar el n ú m ero d e casos en
cad a intervalo, podem os in d icar el n ú m ero de m arc as que son
m enores (o m ay o res) que xm v alor determ inado. E n el caso de
los intervalos de los que nos hem os estad o sirviendo, n o hay, p o r
supuesto, colegios electorales con u n a p articip ació n de votantes
in ferio r a cero, hay cinco con m enos del 9.95 p o r ciento, 22 con
m enos del 19.95 p o r ciento, y los 93 ju n to s tienen u n a p artic ip a­
ción in ferio r al 89.95 p o r ciento. Así, pues, podem os p re se n ta r
los datos en fo rm a acum ulada, ta l com o se indica en el cuadro
IV.4. O bsérvese que podem os acu m u lar lo m ism o h acia a rrib a
que h a d a a b a jo p re g u n ta n d o cuántos casos están p o r encim a de
u n valor d eterm inado. Las frecuencias cximulativas su elen indi­
carse p o r lo re g u la r con u n a F m ayúscula, en lu g ar de la miCuadro IV.4. D istribución de frecuencia cum ulativa
Acumulación hacia arriba
Número de
casos por
debajo de
0.0
9.95
19.95
29.95
39.95
49.95
59.95
69.95
79.95
89.95
Frecuencia
acumulada, Por ciento
F
0
5
22
61
83
91
92
92
92
93
0.0
5.4
23.7
65.6
89.2
97.8
98.9
98.9
98.9
100.0
Acumulación h ada abajo
Número de Frecuencia
casos por acumulada, Por ciento
encima de
F
0.0
9.95
19.95
29.95
39.95
49.95
59.95
69.95
79.95
89.95
93
88
71
32
10
2
1
1
1
0
100.0
94.6
76.3
34.4
10.8
2.2
1.1
1.1
1.1
0.0
núscula. Si querem os, podem os convertir las frecuencias efecti­
vas en p o rcen tajes. T endrem os ocasión de servim os d e las
distrib u cio n es cum ulativas en el capítulo v al calcular las m edia­
nas, así com o m ás ad elan te en el capítulo xiv.
IV.3. P resentación gráfica: histogram as, polígonos de frecuencia
y ojivas
H ay p erso n as que sienten re p aro en in te rp re ta r los cuadros y
que ca p ta n m e jo r los m ateriales presen tad o s en fo rm a gráfica
%
-43.0
-32.3
-21.5
-10.8
0
10 20 30 40
50 60 70 80 90 100
F ig . IV .l. H istogram a de intervalos iguales.
o visual. U no de los m odos m ás sencillos y útiles de p re se n ta r
los dato s de tal m an era que las diferencias e n tre las frecuencias
se d estaq u en fácilm ente consiste en servirse de figuras de áreas
o a ltu ra s p roporcionales a las frecuencias en cada categoría.
Puede, p o r ejem plo, u tilizarse u n a b a r ra p a ra re p re se n ta r cada
categoría, ind icando la a ltu ra de la m ism a s u m ag n itu d relativa.
Si la escala es nom inal, la ordenación efectiva de las b a rra s no
rev iste im p o rtan cia. P o r lo que se refiere a las escalas ordinales
y de in terv alo , las b a rra s pueden disponerse en s u p ro p io orden,
con lo q ue d an u n a b u en a indicación visual de la distribución
de la frecuencia. La fig u ra re su lta n te se llam a histogram a. La
frecu en cia ab so lu ta o la p roporción de los casos pueden indi­
ca rse a lo larg o de la ordenada, com o en la fig u ra IV .l.
H ay que o b serv ar que si las alturas de las b a rra s se tom an
com o p roporcionales a las frecuencias en cada intervalo de clase,
el c u a d ro visual puede re s u lta r confuso, a m enos q u e todos los
in terv alo s sean cerrados y d e am p litu d igual. Supóngase, p o r
ejem plo, q u e u n o de los intervalos cen trales h u b iera sido de
an cho 20 e n lu g ar de 10. E n co n traríam o s en consecuencia un
m ay o r n ú m ero de casos en el intervalo, y el re su lta d o sería
com o e n la fig u ra IV.2. Es obvio que si deseam os o b ten er un
h isto g ram a que re p resen te los datos en form a m ás adecuada,
debiéram os d a r a la b a rra la m ita d solam ente del alto, ya que het
%
40 -43.0
30 -32.3
20 -21.5
10 -10.8
— ..... ,
t____i—
0 --- --- --------1
—■■
0 10 20 30 40 50 60 70 80
-- ■
.
90 100
Fig. IV.2. H istogram a de intervalos desiguales y alturas
proporcionales a las frecuencias.
m os doblado el ancho y, en prom edio, hem os incluido u n doble
n ú m ero de casos en el intervalo m ay o r d e lo q u e sería el caso
en uno u o tro de los dos intervalos de tam añ o norm al. E sto nos
d aría u n h isto g ram a (véase figura IV.3) m ucho m ás sem ejante al
%
-43.0
-323
-21.5
-10.8
0
10
20
.... i
30 40
________ _
50
60
,
70
_________1
80
j
90 100
Fig. IV.3. H istogram a d e intervalos desiguales y áreas
proporcionales a las frecuencias.
o btenido inicialm ente. Una breve reflexión nos convencerá de
que si hem os de p e n sa r en térm inos de áreas m ás que en altu ­
ras, podrem os m an ip u lar m ás fácilm ente los datos que com por­
tan intervalos desiguales. E n o tro s térm in o s: dejam os que las
áreas de los rectángulos sean proporcionales al n ú m ero de los
casos. E n el caso especial im p o rtan te en que todos los in terv a­
los sean de ancho igual, las altu ra s serán tam bién, p o r supuesto,
prop o rcio n ales a las frecuencias. Si el ancho de cada rectángulo
se to m a com o u n id ad y si las altu ra s se re p resen ta n com o p ro ­
f %
dnLdxn
1
0
i10
i___ i________ u-« i
20 30
40
50 60
70
80
90 100
F ig . I V .4. Polígono de frecuencia.
porciones, entonces el á re a to ta l com prendida en el histo g ram a
será la un id ad . Así, p o r ejem p lo :
1(5/93) + 1(17/93) + 1(39/93) + .......... + 1(1/93) = 1
Al e stu d ia r la curva n o rm al en el capítulo v n , verem os que es
necesario' tr a ta r con áreas, antes que con a ltu ra s, y será conve­
n ien te to m a r el área to ta l b a jo el histo g ram a com o unidad.
O tro m odo m uy p arecid o de p re se n ta r g ráficam ente u n a dis­
trib u ció n de frecuencia es el del polígono de frecuencia. P ara
ob ten erlo , u nim os sim plem ente los p u n to s m edios de los lados
su p erio res de cada rectángulo p o r m edio de re ctas y b o rram o s
luego los rectángulos, com o e n la fig u ra IV.4. O bsérvese q u e los
p u n to s extrem os del polígono de frecuencia se h a n colocado so­
b re la lín ea b ase (e je h o rizo n ta l) en los p u n to s m edios de los
intervalos a uno y o tro lad o de los dos intervalos de los extre­
m os. N o rm alm en te n o nos serviríam os de los dos tipos de figu­
ras, p ero, su p erp oniendo el polígono de frecuencia sobre el h isto ­
gram a, vem os que el á re a delim itada p o r las dos figuras h a de
ser igual. E sto es así p o rq u e p o r to d o trián g u lo que queda al
in te rio r del polígono de frecuencia, p ero ex terio rm en te al h isto ­
gram a, hay u n trián g u lo idéntico debajo del histogram a, p ero
fu e ra del polígono d e frecuencia. Así, pues, podem os tam bién
co n sid erar com o u n id ad el á re a delim itada p o r dicho polígono.
Obsérvese, sin em bargo, q u e n o hem os hecho m ás q u e conectar
p o r m edio de re ctas cierto n ú m ero de puntos. Los puntos m is­
m os pu ed en re p re s e n ta r el n ú m ero de casos en cad a intervalo,
p ero hem os de guardarnos de in fe rir que hay cierto nú m ero de
casos en cu alq u ier o tro p u n to a lo largo del trazo continuo. Así,
p o r ejem plo, no hem os d e in fe rir que hay aproxim adam ente 28
casos con m arcas de 20 exactam ente.
Los polígonos de frecuencia pueden em plearse asim ism o p ara
re p re se n ta r d istribuciones de frecuencia cum ulativa. La figura
F
%
93.00 -100
,
, '
,
-
69.75 -75 -------------,
/
46.50 -50
23.25 -25
0, —-"i
0 10
/
i
i
20
30
40
50
60
70
80
90 100
Fig. IV.5. Ojiva que representa una distribución d e frecuencia
acum ulativa.
q ue en ta l caso re su lta se designa com o ojiva. A lo largo de la
o rd en ad a o eje Y podem os in d icar frecuencias o porcentajes. Co­
locam os, en cam bio, las m arcas de la variable de escala de in­
tervalo a lo larg o del e je de las X (a b scisa), lo m ism o que
an terio rm en te, e n el b ien en tendido de que las frecuencias re­
p resen tad as in dican el n ú m ero d e casos de valor inferior al eje
de la X . P o r ejem plo, en la fig u ra IV.5 vem os q u e aproxim ada­
m en te el 75 % de las m arc as son m enores que 34. P or lo tanto,
las ojivas se pueden u s a r com o u n m étodo gráfico de determ i­
n a r el n ú m ero de casos p o r encim a o p o r deb ajo de u n cierto
valor. E s obvio que la fo rm a d e la ojiva h a b rá de se r siem pre
o creciente o decreciente según que se acum ule hacia a rrib a o
h acia ab ajo . La curva será, e n cam bio, horizontal e n los in te r­
valos vacíos. Si la distrib u ció n de frecuencia es del tip o de nues­
tro s datos anterio res, con el nú m ero m ayor de casos en los in te r­
valos que quedan cerca del cen tro de la distribución, la ojiva
te n d rá fo rm a de S, con la inclinación m ás rá p id a a proxim idad
de los in tervalos que contienen el m ayor nú m ero de casos.
Glosario
Datos continuos y datos discretos
Distribución cumulativa
Distribución de frecuencia
Polígono de frecuencia
Histograma
Ojiva
Límites verdaderos
E j e r c ic io s
1. Supóngase que las cifras a continuación representan los ingresos
anuales de un grupo de residentes de una localidad:
$3 850
4 360
2140
3330
7 810
5 340
2 970
4140
3 000
1610
4 570
1940
2 780
$ 2 760
4340
5210
3410
4570
9300
3 320
1790
4560
3 800
13 460
5 210
2 690
$ 2 860
4 350
7 310
3 550
4210
5 490
2110
23 400
3 760
4170
6170
2 350
8 340
$ 3 890
11740
3 560
2740
7110
10300
4440
3 370
5170
3160
2 800
3180
4 240
$ 3 340
4350
2610
8190
4250
3 460
19310
2 670
3 100
5130
1710
4320
9 830
a) Constrúyase una distribución de frecuencia y una distribución
cumulativa.
b) ¿Cuáles son los verdaderos límites?
c) Trácese un histograma, un polígono de frecuencia y una ojiva.
2. En un examen de tipos de visita entre amigos íntimos y parien­
tes, 81 interrogados son invitados a indicar el número de los amigos
y parientes que visitan por lo menos una vez al mes. Los resultados
son los siguientes (las cifras indican el núm ero efectivo de personas
regularmente visitadas):
3
2
5
4
9
4
5
3
4
5
4
6
14
4
3
4
11
3
2
2
4
3
1
5
2
4
14
3
5
3
5
4
7
3
5
5
3
3
2
6
2
3
6
19
2
4
3
2
3
4
5
1
4
1
1
3
6
4
3
6
3
5
4
8
0
3
2
5
2
16
2
3
4
3
5
4
0
2
5
2
4
a) Constrúyase una distribución de frecuencia y una distribución
cumulativa.
b) Justifiqúese lo m ejor que se pueda la elección de los intervalos.
c) Trácese un histograma, un polígono de frecuencia y una ojiva.
3. Indíquense los límites verdaderos en cada uno de los siguientes
intervalos:
a) 1000 — 1900
2000 — 2 900
b) 1000 — 1 999
2000 — 2 999
c) 1.000— 1.999 (Respuesta,
2.000 — 2.999 0.9995 — 1.9995)
d) .010— .019
.020— .029
¿Qué se ha supuesto en cada uno de los casos a propósito del méto­
do de redondeo?
B
ibliografía
1. Anderson, T. R. y M. Zelditch: A Basic Course in Statistics, 2- edv
Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 4.
2. Downie, N. M. y R. W. H eath : Basic Statistical Methods, 2' ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 3.
3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, caps. 4 y 5.
4. McCollough, C., y L. van A íta: Introduction to Descriptive Statis­
tics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, cap. 1.
5. Mueller, J. H., K. Schuessler y H, L. Costner: Statistical Reasoning in Sociology, 2‘ ed. Houghton Mifflin Company, Boston,
1970, cap. 4.
6. Weiss, R. S .: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 5.
i m o s que las escalas nom inales pueden resu m irse fácilm ente en
térm inos de porcen tajes, proporciones o razones, y que dichas
m edidas de resum en son fundam entalm ente intercam biables. En
o tro s térm in o s: b asta u n tipo determ inado de m edida p a ra des­
c rib ir los datos. E n el caso de las escalas de intervalo, a su vez,
vimos que los datos pueden describirse p o r m edio de u n a distri­
bución de frecuencia. Podem os servirnos tam bién de tipos dis­
tin to s de m edidas, siendo las m ás im p o rtan tes de ellas las de
tipism o o de tendencia central y las de heterogeneidad o dis­
persión. Verem os que existe en cada caso cierto núm ero de m e­
didas d istin tas e n tre las que podem os elegir, cada u n a de las
cuales reú n e propiedades, ventajas e inconvenientes aigo diferen­
tes. P o r lo tan to , el resu m en de las escalas de intervalo es algo
m enos directo que en el caso de las nom inales. E n el p resen te
capítulo nos ocupam os de las m edidas de tipism o, en ta n to que
en el siguiente exam inarem os las de dispersión. Tom ados ju n ­
tos, dichos dos tipos de m edidas re su ltarán norm alm ente ade­
cuados p a ra la descripción de los datos de escala de intervalo.
La idea que tiene el lego a p ropósito del térm in o prom edio pro­
pende a ser m ás bien vaga o am bigua. E n efecto, puede n o darse
cu en ta de que existen varias m edidas diversas del tipism o y que,
en d eterm inadas circunstancias, dichas m edidas dan resultados
m uy d istintos. El hecho de que sea posible o b ten er tales m edi­
das diferen tes de tendencia central supone que es necesario
co m p ren d er las v en tajas y los inconvenientes de cada u n a de
ellas. Im p o rta, pues, sab e r en cuáles circunstancias cada u n a
sea adecuada. ¿P o r qué la Oficina del Censo indica ingresos m e­
dianos y n o ingresos m edios? ¿T endría algún sentido in d icar al
lego que la fam ilia "m ed ia” tiene 2.3 hijos y vive en u n a casa de
4.8 cu arto s? ¿E n cuáles circunstancias es de poca im portancia
la m ed id a que se em plee? É stas son algunas de las num erosas
cuestiones que p o d rían p lan tearse acerca del tip o de prom edio
que hem os de calcular.
V
V .l. La m edia aritm ética
H ay dos m edidas im p o rtan tes de tendencia cen tral em pleadas en
la investigación sociológica: la m edia aritm ética (designada a
continuación sim plem ente com o m e d ia ) y la m ediana. La m edia
es con m ucho la m ás com ún de las dos y se define com o la sum a
de las m arcas dividida p o r el núm ero to tal de los casos com pren­
didos. P a ra in d icar la m edia se utiliza p o r convención el sím bolo
67
X, au n q u e a veces se em plee tam b ién la le tra M. P o r lo tanto,
la fó rm u la de la m ed ia aritm é tic a es la sig u ie n te :
N
2 X'
—■
X-± -V*X%“1"..........
x = —
------- — ----------------- — = ------------N
N
'
( V .l )
en la que X x re p re se n ta la p u n tu ació n del p rim e r individuo, X 2
la del segundo, y X t la del individuo general.1 Si no existe am bi­
güedad, podem os p re sc in d ir de los subíndices y e sc rib ir sim ple­
m en te
-
2X
X = ------M
en donde se en tien d e que to d as las cantidades se sum an.
La m ed ia posee la p ro p ied a d algebraica de que la sum a de las
desviaciones de cada m arc a con re sp ecto a la m ed ia será siem ­
p re cero. S im bólicam ente esto pu ed e exp resarse m ed ian te la
ecuación sig u ien te:
2 (X «-X ) = 0
«=*i
E ste hecho n o h a de so rp re n d e r en absoluto si tenem os e n cuen­
ta la definición de la m edia. La p ru e b a es sencilla. Como quiera
que tenem os u n a sum a de n ú m ero s cada u n o de los cuales, es
en realidad, u n a diferencia, podem os descom poner la expresión
in d icad a en la diferencia d e dos sum as. E n la siguiente fo rm a :
y
—
2 (Xt - X ) =
<=*1
»
2 Xt 1=1
y _
2 X
i= 1
Pero, com o q u iera que X es u n a constante, ten em o s:
N
2 X*
&
_
_
i=l
N
.2 X = N X = N ------------ = 2 X*
í= i
JV
C i
1
y vem os in m ed iatam en te que la d iferencia es cero.
La p ro p ied ad m encionada p u ed e u tilizarse p a ra sim plificar el
1 Para el examen de la notación de adición véase el Apéndice I.
cálculo de la m edia. Supóngase, p o r ejem plo, que hem os de
calcu lar la m edia de los n úm eros 72, 81, 86, 69 y 57. S um ando
y dividiendo p o r cinco obtenem os u n a X — 73.0. Si sustraem os
ah o ra esta m edia de cad a u n a de las cifras y adicionam os los re ­
siduos, verificam os que la su m a re su lta n te es cero.
X
X-73
72
81
86
69
57
X-70
1
8
13
- 4
-1 6
2
11
16
- 1
-1 3
0
15
-
Supóngase, en cam bio, que hubiéram os an ticip ad o u n a m edia
de 70 y la hu b iéram o s re sta d o de cada u n a de las cifras en cues­
tión. E ntonces la su m a re su lta n te n o es cero, sino que observa­
m os q ue cada u n a de las nuevas diferencias es m ayor en tre s
u n id ad es (e n dirección positiv a) que las diferencias originarias.
Vem os así q ue hem os an ticip ad o u n a m ed ia que es dem asiado
p eq u eñ a en tre s u n idades. Si añadim os a h o ra u n fa c to r de co­
rrecció n de tre s a la m edia anticipada, obtenem os la m edia correc­
ta. E n la p ráctica, sin em bargo, no co m p araríam o s los dos ju e ­
gos de diferencias e n esta form a, sino que, observando q u e la
su m a del segundo g ru p o de diferencias es de + 15 y sabiendo
q ue h ay cinco térm in os, e sto indica que en pro m ed io estábam os
de 15/5, o sea 3.0 u n idades, p o r deb ajo de la m ed ia verdadera.
Y com o pued e v erificarse fácilm ente, si h u b iéram o s anticipado
u n v alo r dem asiado alto, entonces la su m a de las diferencias
h a b ría sido negativa, y hubiéram os debido su stra e r de la m edia
an ticip ad a p a ra o b ten er la correcta. Si X' re p resen ta la m e­
dia anticip ad a, podem os estab lecer u n a fó rm u la de la m edia en
térm in o s d e la m edia su p u esta y de u n fa c to r de corrección:
1
( X i - X ’)
X = X ’ + — ----------------N
( V.2)
o bien, en p a la b r a s :
la suma de desviaciones de ésta
La media verdadera = a la media supuesta + --------------------------------------------.
número de casos
Con o b jeto de verificar la corrección de esta fórm ula desarrolla­
m os la expresión de la derecha y o b te n e m o s:
N
N
S xt
i=i
X' + -
iV
•= X ' + -
JV
N
2 X*
t=i
= X' + -
A?
_
2 X'
i=i
Af
NX’
N
N
2 Xi
i= l
“ ÁT
■= x
Pese a que p u ed a p arece r que nos hayam os to m ad o m ucha
m olestia calculando X p o r rodeo en esta form a, este m étodo p er­
m ite sin em bargo ah o rra rse a m enudo u n a considerable cantidad
de tra b a jo cuando no se dispone de calculadoras de escritorio.
E l em pleo de u n a m edida an ticip ad a p erm ite p o r lo re g u lar re ­
d u cir la m ag n itud de los núm eros que h a n de adicionarse. En
efecto, cu an to m ás cerca quede la m edia su p u esta de la verda­
dera, ta n to m en ores serán en m agnitud las diferencias resu ltan ­
tes. E ste p rin cipio nos será p artic u la rm en te ú til cuando em pren­
dam os el cálculo de las m edias de datos agrupados.
O tra p ro p ied ad de la m edia puede fo rm u larse com o sigue: la
sum a de las desviaciones cuadradas d e cada cifra con respecto
a la m edia es m en o r que la sum a de las desviaciones cuadradas
con resp ecto a cualquier o tro núm ero. O en o tro s té rm in o s :
2 (Xi ~ X ) 2 = m ínim o.
i= l
* La p ru eb a de esta propiedad es m uy sencilla. C onsiderem os
las desviaciones de X t alrededor de cualquier o tro n ú m ero X ' que
previam ente hayam os tra ta d o com o m edia anticipada. S um ando
y re sta n d o la m edia real X de cada u n a de dichas expresiones
podrem os a n o ta r :
Xi - X ' = ( X í - X ) + ( X - X ' )
Elevando los dos térm inos al cu ad rad o obtenem os:
(X i - X' ) s = ( X t - X )2 + 2( Xi - X ) ( X - X ’) + ( X ~ X ’)2
R esum iendo p a ra todos los casos N o b te n d re m o s:
2 ( X i - X ') 2 ^ 2 ( X i - X p
í= i
i= i
+ 2(X — X ') 2 ( X * - X ) + 2 ( X - X ' ) 2
í
= i
i= i
en do n d e h a sido posible esc rib ir la ca n tid a d 2(X — X ') fre n te al
signo d e su m ar en el segundo térm ino, ya q u e se tra ta de u n a
co n stan te. In m ed iatam en te verem os que to d o el segundo térm in o
N
debe s e r igual a cero, pues acabam os de m o s tra r que 2 ( X¿ —
_
i= l
X ) = 0. P o r o tra p a rte , el últim o térm in o co n sta de N térm inos,
to d o s iguales a (X — X ')2. T endrem os p o r ta n to
2
2 (X j — X )2 + N ( X — X ')2
i=i
<=i
y así se co m prueba que la sum a de las desviaciones a lre d ed o r de
X ' al cu a d rad o es igual a la su m a de las desviaciones alred ed o r
de la m ed ia verd adera, al cuadrado, m ás u n té rm in o al cuadrado
que n u n ca pu ed e s e r negativo.
C uanto m ás g ran d e sea la diferencia e n tre X ' y X, ta n to m ayor
será el segundo térm in o situ ad o a la derecha.
T endrem os frecuentes ocasiones p a ra u tiliza r e sta p ro p ied ad
¡v
_
de los cu ad rad o s de la m edia, y la ca n tid a d 2 (X* — X )2 h a b rá de
t= i
a p a re c e r en g ran p a r te d e lo que sigue, com o u n a m edida de la
variación to ta l o heterogeneidad.
V.2. La m ediana
A m en u d o necesitam os localizar la posición del caso m edio cuan­
do los d ato s se h a n o rd e n ad o de m ay o r a m enor. O podem os
d iv id ir u n g rupo de estu d ian tes en p o rc en tajes localizando los in­
dividuos q ue tienen exactam ente el 10 p o r ciento de la clase que
q u ed a d eb ajo de ellos, ex actam ente el 32 p o r ciento d eb ajo de
ellos, etcétera. Las m ed id as de este tip o se designan a m enudo
com o m ed id a s de posición, ya que localizan la posición de algún
caso típ ico (o atípico) en relación con o tro s individuos. La m e­
d ian a es ta l vez la m ás im p o rta n te de estas m edidas de posición.
D efinim os la m ed ian a com o u n núm ero que posee la pro p ied ad
d e te n e r el m ism o n ú m ero de m arcas con valores m enores que
las que h ay de valores m aypres. La m ed ian a divide h ab itu alm en ­
te el to ta l de los datos en dos m itades. Si el n ú m ero de los ca­
sos es im p ar, la m ed ian a será sim plem ente la m arca del caso
del m edio. Si N es p ar, no h a b rá caso cen tral y, de hecho, cual­
q u ier n úm ero e n tre los valores de los dos casos centrales ten d rá
la p ro piedad de dividir las m arcas e n dos grupos iguales. Así,
pues, si N es p ar, la m ediana queda definida am biguam ente. Por
convención tom am os entonces com o valor único de la m ediana
la m edia aritm ética de los dos datos centrales.
Si
tuviéram os los núm eros 72, 81, 86, 69 y 57, la m ediana sería
72 (e n ta n to que la m edia es 73). Si h u b iera u n sexto térm ino,
digam os, p o r ejem plo, 55, las dos m arcas centrales serían 69 y 72,
y tom aríam os com o m ediana (69 + 72)/2, o sea 70.5. Si se da el
caso de que los dos casos centrales tengan la m ism a m arca,
la m ediana será, p o r supuesto, este m ism o dato. O bsérvese que
si N es im par, la m ediana será el dato (N + l) /2 . Si el núm ero
de los datos es p ar, la m ediana se en c o n trará en el ce n tro e n tre
el dato N /2 y el d ato (N + l)/2 . Así, p o r ejem plo, si N = 251, la
m ediana será el dato del caso centésim o vigésim o sexto, y si
N = 106, tom am os u n valor m edio e n tre las cifras de los casos
quincuagésim o terc ero y quincuagésim o cuarto. E stas fórm ulas
re su ltarán ú tiles p o r lo re g u lar cuando N sea relativam ente
grande.
Vimos que la m edia posee las propiedades sig u ien tes:
S (X í - X ) = 0
i= l
y
1 (X t —X )2 = m ínim o.
i=l
La razón de que la p rim e ra pro p ied ad se verifique es fundam en­
talm en te que, cuando se su strae la m edia de cada u n o de los
datos, las diferencias resu ltan tes son tales que las m arcas nega­
tivas se eq u ilib ran exactam ente con las positivas. P ero supóngase
que h ubiéram os prescindido p o r com pleto de los signos, consi­
deran d o to d as las diferencias com o positivas, ¿qué o c u rrirá en
este caso? P uede d em o strarse que si se h u b iera re sta d o la m e­
diana de cada u n a las m arcas prescindiendo del signo de las di­
ferencias y sum ando los residuos, se o b ten d ría u n a sum a m enor
que la cifra co m parable de cu alq u ier o tra m edida de tendencia
central. E n sím bolos esto se expresa a s í :
y
2 |Xi —M d | = m ínim o
<=i
en donde M d re p resen ta la m ediana y las b a rra s a am bos lados
de la expresión (X i — M d ) indican q u e hay que to m a r el valor
positivo (o "ab so lu to ” ) de cada diferencia. A unque esta p ro p ie­
d ad de la m ediana posea ta l vez algún interés, n o parece, sin em ­
bargo, te n e r aplicaciones directas de alguna significación socio­
lógica.
V.3. Cálculo de la m edia y la m ediana de datos agrupados
M étodo largo para el cálculo de la m edia. C uando el nú m ero de
datos se hace gran de y los cálculos se realizan a m ano, el com pu­
ta r la m ed ia o la m ediana puede re su lta r tedioso. La m ayoría
de los científicos sociales cu en tan con p rogram as de com putación
q ue resuelven estos y o tro s cálculos con facilidad. E n general
re su lta p referib le u tiliza r tales program as cuando así parece con­
veniente, pues así dism inuyen los riesgos de in c u rrir en e rro res
de com putación y redondeo, a la vez que se obtiene u n a econo­
m ía considerable e n tiem po y dinero. Debe, sin em bargo, conocer­
se el p rocedim iento p a ra co m p u tar varias m edidas sin re c u rrir
a tales pro g ram as, ya que con frecuencia re su lta inconvenien­
te d isp o n er los datos en fo rm a adecuada p a r a su m an ejo p o r
co m p u tad o ras rápidas. E n tales casos re su lta ú til a g ru p ar los da­
tos p o r categorías, com putando la m edia o la m ediana, tom ando
com o base las re su ltan te s distribuciones de frecuencias. E n oca­
siones se tr a ta de datos que nos son dados ya en fo rm a agrupada,
pud ien d o re su lta r im posible o inconveniente re g re sa r a los datos
originales p a ra p ro ced er a su com putación. Un ejem plo de da­
tos en grupos lo constituyen los censos. P or ellos sabrem os que
hay cierto n ú m ero d e p ersonas con edades d e 0 a 4 o d e 5 a 9
años, p e ro desconocerem os la edad exacta de cad a individuo.
Como verem os m ás abajo, el em pleo d e los datos agrupados
puede sim plificar n u e s tra la b o r considerablem ente. Pero, p o r o tra
p arte, al agru p arlos en categorías, perdem os sin poderse evitar
inform ación. Podem os sa b e r solam ente, p o r ejem plo, que hay
17 p erso n as con ingresos e n tre $ 2 000 y $ 2 900, p ero n o sabem os
cóm o se h allan d istrib u id as exactam ente en el in te rio r de dicho
intervalo. Con o b jeto de calcu lar la m edia o la m ediana de tales
datos agrupados, hem os d e p ro c ed er a h a c e r ciertos supuestos
sim plificadores acerca de la posición de los individuos en el in te­
rio r de cad a categoría. E n el caso de la m edia, tra ta re m o s todos
los casos com o si se h allaran concentrados en los p untos m edios
de sus in tervalos respectivos. Y al calcular la m ediana supon­
drem os que aquéllos se h allan esparcidos a distancias iguales en
el in te rio r de cada intervalo. P o r supuesto, esas sim plificaciones
llevan a p a re ja d a c ierta inexactitud. E n efecto, no podem os es­
p e ra r o b ten er en esta fo rm a exactam ente los m ism os resu ltad o s
que nos p ro p o rcio n arían los datos b ru to s. Pero, p o r o tra p arte ,
si el n ú m ero de datos es grande, las distorsiones introducidas
s e rá rrp o r lo re g u la r insignificantes y com pensarán so b rad am en te
el ah S rro de tiem po. Es obvio, p o r lo dem ás, q u e cuanto m ás an ­
gostos sean los intervalos, ta n to m enos inform ación perderem os
y tan to m ay o r será la exactitud. Así, p o r ejem plo, si sabem os que
hay 17 casos e n tre $ 2 000 y $ 2 900 y 26 casos e n tre $ 3 000 y $ 3 900,
podem os o b ten er resu ltad o s m ás exactos im aginando que los 17
casos se h allan en el p u n to m edio del p rim e r in terv alo y los
26 en el p u n to m edio del segundo, que si hu b iéram o s de situ ar
los 43 casos ju n to s en el p u n to m edio del in terv alo m ay o r de
$ 2 000 a $ 3 900. E stas sim plificaciones tienen m ayores pro b ab i­
lidades de co n d u cir a e rro re s en el caso de intervalos extrem os,
ya q ue los d ato s de dichos intervalos pueden re s u lta r desviados
hacia el ce n tro de la distrib u ció n to tal. E n e s ta form a, si hay
17 casos en el in terv alo m ás bajo , la m ayoría de ellos pueden
e n c o n trarse en la m ita d su p erio r del m ism o. Sin em bargo, si el
n ú m ero de los individuos e n dichos intervalos extrem os es m uy
pequeño, com o suele suceder, es p ro b a b le que la d isto rsió n in tro ­
ducida sea insignificante.
De ah í q u e al calcu lar la m edia de datos agrupados tratem os
todos los casos com o si estuvieran situ ad o s e n el p u n to m edio
de sus in tervalos respectivos. Si lo p refiriéram o s, podríam os su­
ponerlos esparcidos a distancias iguales en el in te rio r del in te r­
valo, pero, com o es fácil verificar, esto conduciría a los m ism os
resu ltad o s, ya que la m edia de cada in terv alo q u ed a ría exactam en­
te en el p u n to m edio del m ism o. Como q u iera que todos los ca­
sos de u n in terv alo se tra ta n com o si tu v ieran el m ism o valor,
podem os m u ltip licar el n ú m ero de casos de cada in terv alo p o r
su v alo r com ún, en lu g ar de ad icio n ar los datos separadam ente.
Así, p o r ejem plo, si hem os colocado 26 casos a la a ltu ra del valor
d e 3 450, el p ro d u c to de 26 X 3 450 se rá igual a la su m a de 26
m arcas sep arad as de 3 450 cada una. Y si hacem os esto con to­
dos los intervalos, sum am os los p ro d u cto s y dividim os e n tre el
n ú m ero to ta l de casos, ob ten d rem o s la m edia aritm ética. La
fó rm u la de ésta se convierte e n ta l caso e n :
fc
2
Te
fitr ii
2
/¡Mj
__
4=1
i= 1
X = ---------------------------------N
2n
(V.3)
en la q ue /¡ = n ú m ero de casos de la categoría ¿-ésima con 2 / t=A/
m{ = p u n to m edio de la categoría í-ésima
k = n úm ero de las categorías.
E l ejem plo expuesto en el cu ad ro V .l a c la rará el proceso.
E n el cu ad ro V .l todos los intervalos son de la m ism a am pli­
tu d . E sto no es esencial, a condición q ue se em pleen puntos m e­
dios correctos. S in em bargo, es necesario servirse de intervalos
cerrados. Supóngase, en efecto, que el últim o intervalo hubiera
sido de $ 7 000 p a ra arrib a . ¿Qué p u n to m edio tom aríam os? No
poseem os abso lu tam ente base alguna qué nos p e rm ita juzgar, a
m enos que nos rem ontem os a los datos originales. Algunas ve­
ces esto resu lta posible, ya que las categorías extrem as sólo com ­
p ren d en a m enudo relativam ente pocos datos. E n éstos re su lta
p o r lo re g u lar m ás lógico servirse de la m ed ia real de los datos
Cuadro V .l. Cálculo de la m edia de datos agrupados por el
m étodo largo
Límites fijados
$2000-2 900
3 000-3 900
4 000-4 900
5000-5900
6000-6 900
7 000-7 900
Límites verdaderos
Puntos medios
("«i)
ft
fimi
$ 1 950-2 950
2 950-3 950
3 950-4 950
4 950-5 950
5950-6950
6 950-7 950
$2450
3 450
4 450
5450
6450
7 450
17
26
38
51
36
21
$ 41650
89700
169100
277 950
232 200
156450
189
$967050
Totales
2 /„«,
X = -
~Ñ
967050
= $5117
189
de la categoría ex trem a que del p u n to m edio de algún intervalo
m ayor. E n los casos en que n o re su lta posible rem o n tarse a los
datos originales, será necesario ad o p ta r u n supuesto razonable
en relación con el v alor del p u n to m edio. De ah í que sea decidi­
d am en te m ás ventajoso p a ra nosotros servirnos de intervalos
cerrad o s siem pre que h ay a de calcularse u n a m edia. Según ve­
rem o s en el cap ítulo vi, esto se aplica asim ism o al cálculo de la
desviación están dar, la m edida m ás com únm ente em pleada de
dispersión.
M étodo corto para el cálculo de la m edia. El m étodo a rrib a in­
dicado co m p o rtará p o r lo re g u lar la m ultiplicación de núm eros
b a sta n te grandes (v.gr., 2 450X 17), a m enos que re su lte que los
p u n to s m edios son n úm eros sim ples. Con u n a calculadora m o­
d e rn a dichos p ro d u cto s pueden calcularse y acum ularse fácil­
m ente. Pero, si los cálculos h an de h acerse a m ano, existe un
m edio m u ch o m ás sencillo de calcular la m ed ia de datos agru­
pados. E ste m étodo, llam ado "co rto ”, parece a p rim e ra vista com ­
p o rta r m ás tra b a jo que el "largo", pero, u n a vez dom inado, se
revela com o m ucho m ás sencillo que el otro. F undam entalm ente,
el m éto d o co rto consiste en an ticip ar u n a m edia y servirse en
e sta fo rm a de n ú m eros m ás pequeños en la m ultiplicación. Lue­
go se añade, com o an terio rm en te, u n fa c to r de corrección a la
m edia supuesta.
Con o b jeto de sim plificar n u estro s cálculos, tom em os com o
m edia an ticip ad a el p u n to m edio de u n o de los intervalos. E n el
ejem p lo a rrib a tra ta d o podem os v er p o r inspección que la m edia
será algo in ferio r a $ 5 450, p u n to m edio del c u a rto intervalo. La
v en taja de serv irn o s de u n p u n to m edio com o m edia su p u esta es
obvia. E n efecto, todos los dem ás datos e starán en ta l caso a
cierto n ú m ero de intervalos de distancia de la m edia supuesta,
ya que cad a m arc a se supone h allarse en u n o u o tro de los puntos
m edios. Si restam o s ah o ra la m edia su p u esta de cad a u n a de las
m arcas, o b ten d rem os diferencias de exactam ente $ 1 000, $ 2 000
o $ 3 000 en am b as direcciones. M ultiplicam os luego esas diferen~
d a s p o r las frecu encias ap ro p iad as p a ra o b ten er el fa c to r de
corrección q u e h a de añ ad irse a la m edia anticipada. E n o tro s
térm inos, h a b rá 17 casos con m arc as de exactam ente $ 3 000 m e­
nos que aq u élla; h a b rá 26 casos con u n a diferencia de $ 2 000,
etcétera. Si nos servim os de u n a colum na di que re p re se n te la
diferencia e n tre las m arcas efectivas y la m edia anticipada, p o d e­
m os m o d ificar la fó rm u la (V.2) y esc rib ir la fó rm u la de la m edia
com o sigue:
¿
fA
x = r + _ LL—
( v .4)
N
donde
di = X t - X '
y podem os d isp o n er n u estro s cálculos en u n cu ad ro com o en el
cu ad ro V.2. Una vez m ás, el fa c to r de corrección se obtiene to ­
m an d o la desviación to ta l con re sp ecto a la m ed ia an ticip ad a
(a q u í —63 000) y después dividiendo e n tre el n ú m ero de casos, lo
q ue d a la ca n tid ad prom edio en que la m edia an ticip ad a se sepa­
ra de la verdadera.
E n este ejem plo, el fa c to r de corrección h a re su lta d o se r ne­
gativo, in dicando que la m edia an ticip ad a e ra dem asiado grande.
H ay que o b serv ar que si hubiéram os an ticip ad o p a ra la m edia
o tro v alo r cualquiera, h ab ríam o s llegado al m ism o resu ltad o . Si
se elige com o m ed ia an ticip ad a el p u n to m edio de te rc e r in te r­
valo ($ 4 4 5 0 ), el fa c to r de corrección es de $667, el cual, adicio­
nado a $ 4 450 d a el re su ltad o correcto. Dicho sea de paso, esto
constituye u n m edio de control m uy ú til de n u e s tra lab o r. Ob­
sérvese que si h u b iéram os elegido el p u n to m edio d e cualquier
o tro intervalo, h ab ríam o s realizado m ás trab a jo , y a q u e los n ú ­
m eros a su m a r en la colum na /td4 h a b ría n sido n u m éricam ente
m ayores. Y si h u b iéram os fallad o en serv im o s de u n p u n to m e­
dio, las desviaciones resp ecto de la m edia su p u esta h ab ría n com ­
p o rta d o n ú m ero s m ucho m enos sim ples, con lo que n o nos
h ab ríam o s a h o rrad o tra b a jo alguno. U na vez que el proceso se
h ay a com prendido bien, es posible o m itir en el cu ad ro de cálculo
la colu m n a de los p u n to s m edios.
E l lecto r h a b rá sin d u d a observado que cada u n a de las desvia­
ciones resp ecto de la m edia p re su n ta del ejem plo a n te rio r es un
Cuadro V.2. Cálculo de la m edia de datos agrupados p o r el
m éto d o corto
Limites
verdaderos
Puntos
medios
n
¿i
$1950-2950
2950-3 950
3 950-4950
4 950-5950
5950-6950
6 950-7 950
$2450
3 450
4 450
5450
6450
7450
17
26
38
51
36
21
$ - 3 000
- 2 000
-1 0 0 0
0
1000
2 000
Totales
189
fA
$ -5 1 0 0 0
-5 2 0 0 0
- 3 8 000
0
36 000
42 000
$ - 6 3 000
le
2 fA
— _
«—1
Jí
X =
=A
* ' i+---—
N
= 5450 +
-6 3 0 0 0
„ = 5 450
189
333
= $5117
m ú ltip lo exacto de 1 000, o sea la m agnitud del intervalo utilizado.
E sto será siem pre así, a condición que todos los intervalos ten ­
gan la m ism a am plitud. P o r lo tan to , podem os p o n e r la am p litu d
del in terv alo com o fa c to r en cada u n o de los p ro d u cto s fA> m ul­
tip lican d o p o r d icha a m p litu d u n a vez te rm in a d a la adición. E n
o tro s té rm in o s : pudim os h a b e r obtenido la su m a de — 63 000 de
la m an era sig u iente:
- 63 000 = 1 000( — 51 - 52 - 38 + 0 + 36 + 42).
En lo que equivale a lo m ism o, pudim os h a b e r expresado las
desviaciones originales en té r m inos del n ú m ero de intervalos (o
“ desviaciones g ra d u an tes” ) resp ecto de la m edia supuesta. P or
lo tan to , d eterm inam os cu án to s intervalos d ista la m edia supues­
ta de la v erd ad era y, finalm ente, tran sp o rta m o s la m agnitud del
e rro r h acia a trá s a las unidades originales, m ultiplicando este
fa c to r de corrección p o r la m agnitud del intervalo. Designando
la desviación en am plitudes de intervalo com o d', podem os re ­
visar n u e stro cu ad ro en la fo rm a indicada en el cu ad ro V.3.
Si se han em pleado interválos desiguales, h a b rá que m odificar
esta segunda fó rm ula del m étodo breve. A algunas personas les
p arece rá m ás fácil re m o n ta rse al m étodo an terio r, sirviéndose
Cuadro V.3.
Cálculo de la m edia de datos agrupados p o r el m étodo
corto y de las desviaciones graduales
Límites
verdaderos
Puntos medios
U
*i
U*i
$ 1 950-2 950
2 950-3 950
3 950-4 950
4 950-5 950
5 950-6 950
6 950-7 950
$2 450
3 450
4 450
5 450
6450
7 450
17
26
38
51
36
21
-3
-2
1
0
1
2
-5 1
-5 2
-3 8
0
36
42
Totales
189
-6 3
La fó rm u la m odificada es a h o ra :
A udi
X = X ' + _1JL----- i
N
(V.5)
en donde i re p resen ta la am p litu d de intervalo. P or co n siguiente:
X - 5 450 +
189
1 000 = 5 117
de d t en lugar de d \ y escribiendo las diferencias efectivas en
las u n id ad es originales. Y alternativam ente, si sólo difieren del
re sto en cuanto' a am p litu d u n o o dos intervalos, podem os to m ar
com o am p litu d i de in terv alo la am p litu d de la m ayoría de los
intervalos de clase. Las desviaciones de los p u n to s m edios de
los intervalos re sta n te s resp ecto de la m edia su p u esta pueden
en este caso ex presarse en fo rm a de fracciones de los interva­
los enteros. Así, p o r ejem plo, si el últim o intervalo h u b iera sido
de $ 6 950 a $ 8 950, en lu g ar de $ 6 950 a $ 7 950, entonces el p u n to
m edio h a b ría sido $ 7 950 en lu g ar de $ 7 450. P o r lo tanto, la
desviación resp ecto de la m edia p re su n ta h a b ría sido de $ 2 500,
o sean 2.5 am p litudes de intervalo. Si el intervalo h u b iera ido
h a sta $ 9 950, el v alor d \ h u b iera sido de 3.0, según se deja com ­
p ro b a r fácilm ente.
Cálculo de la m ediana. Al calcular la m ed ian a de datos agru­
pados, tra ta re m o s todos los casos al in te rio r de u n intervalo dado
com o si estuvieran d istribuidos a distancias iguales en el m ism o.
Localizam os p rim ero el intervalo que contiene el caso m edio,
e interp o lam o s luego p a ra en c o n trar la posición exacta de la
m ediana. Al d eterm in a r el intervalo que contiene a ésta, es p o r
C uadro V.4.
Cálculo de la m ediana de datos agrupados
Límites verdaderos
í
F
Ni de casos
inferiores a
11 950-2 950
2 950-3 950
3 950-4950
4 950-5 950
5 950-6 950
6 950-7950
17
26
38
51
36
21
17
43
81)
132)
168
189
$2950
3 950
(4950
15 950
6950
7 950
Total
189
lo re g u la r conveniente o b ten er la distrib u ció n de frecuencia
acum ulativa. Pese a que no es absolutam ente necesario, es p re­
ferib le ac o stu m b ra rse a disponer p o r e sc rito la distribución
acu m u lativ a com pleta y a in d icar en u n a colum na sep arad a el
significado de cada u n a de las cifras de dicha colum na (F ). La
d istrib u ció n acum ulativa de los datos an terio res se da en el cua­
d ro V.4. A títu lo de co n tro l de n u e stra adición, observam os que
todos los 189 casos h a n de q u ed a r p o r d eb a jo de $ 7 950.
A continuación localizam os el intervalo q u e contiene el dato
m edio o él JV/2-ésimo. Aquí es 189/2 = 94.5, de m odo que busca­
m os el in terv alo que contenga los casos nonagésim o c u a rto y
nonagésim o quinto. O bsérvese que, si los datos n o h u b iera n es­
ta d o agrupados, h ab ría m o s localizado el d ato (N + l)/2-ésim o,
o sea el nonagésim o quinto. La razón de esta inconsecuencia
ap a ren te se ex am in ará m ás abajo. Como q u iera que hay 81 ca­
sos p o r deb ajo de $ 4 950 y 132 p o r debajo de $ 5 950, la m ediana
h a de q u ed a r en algún lu g ar del in terv alo que va de $ 4 950 a
$ 5 950. C onstituye u n b u en p rocedim iento m a rc a r dicho in te r­
valo con Un p arén tesis, y a que se d a a veces la tendencia de leer
los dato s a p a r tir de la cifra 81, con lo que se obtiene el intervalo
incorrecto' de $ 3 950 a $ 4 950.
E xam inem os ah o ra m ás de cerca el intervalo que contiene la
m ediana. H ay en éste 51 casos y, en consecuencia, habrem os
de d iv id ir el in terv alo e n tero en 51 subintervalos de am plitud
$ 1 000/51, o $49.61 cada uno. S ituam os cada uno de los 51 casos
en el p u n to m edio de su subintervalo propio. El caso octogésim o
p rim ero q u ed a rá así situ ad o en el últim o sub in terv alo del in ter­
valo de $ 3 950 a $ 4 950, y el caso 132-avo será sólo ligeram ente
in ferio r al lím ite su p erio r del intervalo que contiene la m ediana.
Ahora procedem os sim plem ente a c o n ta r subintervalos h asta
lleg ar a aquélla. Si los datos no estuvieran agrupados, h ab ría­
m os localizado la m arc a del caso (N + \ )/2, o sea el nonagésim o
quinto. De acuerdo con n u e stra convención, dicho caso se situa­
ría en el p u n to m ed io del decim ocuarto subintervalo o, exacta­
m ente, a 13.5 subintervalos del lím ite in ferio r del intervalo. Ob­
sérvese que este m ism o valor se h u b iera obtenido re sta n d o 81
81
94.5
-----J | +H I I I I l-l H I I | l | -------------------------------- ■----------------
4,950
132
I !
5,950
de 94.5 o N /2 . Es p o rq u e estam os operando con p u n to s m e­
dios de in tervalos pequeños que contam os exactam ente N /2
intervalos, con o b jeto de localizar la posición del caso {N + l)/2 .
El v alo r de la m ed ian a pu ed e ah o ra o b ten erse m ultiplicando
sim plem ente el n ú m ero de subintervalos ab arcad o s p o r la m ag­
n itu d de cada u no de ellos y añadiendo el re su lta d o al lím ite
in ferio r del intervalo. E l procedim iento co n ju n to pu ed e resu­
m irse en la fó rm u la siguiente:
N /2 — F
M d = t + -------------- i
(v .6 )
en la que F = frecuencia acum ulativa co rresp o n d ien te al lím ite
in ferior,
/ = n ú m ero de casos del intervalo q u e contiene la mediana,
l = lím ite in ferio r del intervalo q u e contiene la m e­
diana,
i = am p litu d del in terv alo que contiene la m ediana.
La can tid ad i / f re p resen ta la m ag n itu d de cada subintervalo, y
N /2 — F da la d istan cia (e n su b in terv alo s) e n tre el lím ite inferior
del in tervalo y la m ediana. E n n u estro p roblem a tenem os, pues :
M d = 4 950 + — 5 ~ 81 1 000 = 4 950 + 13.5 - i — 51
51
= 4 950 + 265 = $ 5 215.
E xiste u n cam ino alternativo, p e ro equivalente, de re p resen ta r
el proceso conducente a la obtención de la m ediana. E n efecto,
en lu g ar de b u sca r la m agnitud de cada subintervalo y m ultipli­
cando p o r el nú m ero de los subintervalos, podem os d iscu rrir
que, com o quiera q ue hay 51 casos en el intervalo en tero y que
hem os de re c o rre r 13.5 de estos intervalos m ás pequeños p a ra
llegar a la m ediana, hem os de re co rre r 13.5/51 del intervalo en­
tero. P o r lo tan to , si m ultiplicam os la m ag n itu d del intervalo
(1 000) p o r la fracción de la distancia to tal que hem os de reco­
rre r, obtenem os el re su ltad o deseado llam ado interpolación. Al
u tiliza r la fórm ula es indiferente, p o r supuesto, cuál de las dos
explicaciones nos parezca m ás satisfactoria. Con objeto de no
h acem o s dem asiado dependientes de la fórm ula, es m ejo r discu­
r r ir el proceso cada vez, sirviéndonos de aquélla com o control,
h a s ta que se haya co m prendido a fondo. A títu lo de o tro control
hay que observ ar que la m ediana pudo h a b e rse asim ism o obte­
n ido restando cierta ca n tid ad del lím ite superior u. Como püede
d em o strarse fácilm ente, la fórm ula se convierte en ta l caso e n :
Md = u ~
¿
(V.7)
en la q ue F re p resen ta ah o ra la frecuencia acum ulativa co rresp o n ­
d iente al lím ite su p erio r del intervalo. N um éricam ente esto d a :
132 * 94.5 __
M d = 5 950 --------- —----- 1000 = $5 215.
V.4. C om paración de la m edia y la m ediana
H abiendo exam inado los m étodos de cálculo utilizados en la ob­
tención de la m edia y la m ediana ta n to de datos agrupados com o
no agrupados, tócanos ah o ra co m p arar sus propiedades. Saltan
a la v ista varias diferencias e n tre las dos m edidas. P rim ero, la
m edia u tiliza m ás inform ación que la m ediana, p o r cuanto al calcu­
la r la m edia nos servim os de la totalidad de las m arcas exactas,
e n ta n to q ue la m ediana sólo com porta la m arc a del caso m edio.
Volviendo a las m arcas 72, 81, 86, 69 y 57, vem os que si la m arca
m ás a lta h u b iera sido 126 en lu g ar de 86, la m ediana h ab ría
p erm an ecid o in alterada, en ta n to que la m edia h ab ría aum en­
tad o considerablem ente. Y en fo rm a análoga, si la m arca infe­
rio r h u b iera sido cero, la m edia h a b ría b ajad o , perm aneciendo
la p W ia n a nuevam ente inalterada. P or consiguiente, podem os
estab lecer u n a diferencia m uy im p o rtan te e n tre am bas m edidas,
a sab e r :\ La m edia resulta afectada por cam bio de los valores
extrem os, en tanto que la m ediana perm anece inalterada, a m e­
n os que cam bie asim ism o el valor del caso medió'. E n nuestro
ejem plo, m ien tras 72 siga siendo el te rc e r caso después del re o r­
denam iento, la m ediana p erm an ecerá inalterada.
E s ta im p o rta n te d iferencia e n tre las dos m edidas nos perm ite
decid ir en la m ayoría de los casos cuál de ellas re su lta m ás a p ro ­
p iada. P o r lo re g u la r deseam os q u e n u e s tra m ed id a se sirva de
to d a la info rm ación disponible. E n u n a fo rm a u o tra ponem os
in tu itiv am en te m ás fe e n la m ed id a que cum ple dicha condición.
P ese q ue al p re sen te n o sea posible re fo rza r dicha fe con un
sólido razo n am iento estadístico, p u ed e darse, con todo, cierta
ju stificació n de la p re fere n cia de la m edia en las circunstancias
co rrien tes. R esulta, en efecto, que la m edia es p o r lo re g u la r
u n a m ed id a m ás estab le que la m ediana, en c u a n to v a ría m enos
d e u n a m u e s tra a o tra. C uando enderecem os n u e s tra atención
a la E stad ístic a inductiva, verem os q u e p o r lo re g u la r el inves­
tig ad o r tien e m ás in te ré s e n generalizar a p ro p ó sito d e la pobla­
ción q u e en su m u e stra p a rtic u la r. E stá p erfectam en te p ercatad o
d e que si se h u b ie ra to m ad o o tra m u e stra los re su lta d o s n o h a­
b ría n sid o ex actam ente los m ism os. Si se h u b iera to m ad o u n a
g ran can tid ad d e m u e stra s del m ism o tam año, h a b ría podido ver
sim p lem en te e n cuánto las m edianas de las m u estras diferían
e n tre sí. Lo q ue aquí decim os es q u e las m edianas de las m ues­
tr a s d ifieren d e u n o a o tro de ellos m ás que las m edias corres­
p o n d ien tes. P ero com o q u iera que en la p rá c tic a sólo extraem os
p o r lo re g u la r u n a sola m u estra, im p o rta sab e r q u e la m edida
q u e em pleam os d a rá re su ltad o s seguros, en cu a n to q u e h a b rá u n
m ín im o de v ariab ilid ad de u n a m u e stra a la próxim a. Podem os,
p o r consiguiente, estab le cer la siguiente regla p rá c tic a : en caso
d e duda, em pléese la m edia con preferencia a la m ediana.
D ebido al h echo de que u tiliza todos los datos, en ta n to que
la m ed ian a n o depende de los valores extrem os, la m edia puede
p ro p o rcio n ar e n d eterm in ad as circunstancias re su ltad o s m uy
am biguos. H em os de te n e r p re se n te que, al serv im o s de u n a
m ed id a de ten d en cia central, tra ta m o s de o b te n e r u n a sim ple
descripción de lo q u e e n n u e stro s datos hay de "típico". Supón­
gase, p a ra to m a r u n caso extrem o, q u e en la serie de cinco n ú ­
m eros el d ato su p e rio r fu e ra la de 962. La m ed ian a seguiría sien­
do en n u e s tro caso 72, e n ta n to que la m ed ia su b iría a 1 241/5,
o sea 248.2. A hora bien, ¿es este v alo r "típ ico ”, en alguna form a,
de los d ato s? C iertam ente no. N o se e n c u e n tra en p a rte alguna
cerca de los d ato s de los cinco casos. Es verdad, p o r supuesto,
que en u n ejem plo ta n extrem ado nin g u n a m ed id a p a rtic u la r p o ­
d ría utilizarse p a r a d escrib ir adecuadam ente el caso típico, pero,
com o q u iera q u e c u a tro de los cinco datos se sitú an alrededor
de 72, el em pleo de la m ed ian a re su lta ría m an ifiestam en te m e­
nos equívoco. Podem os, pues, d ecir q u e: siem pre que una dis­
tribución es fu ertem e n te asim étrica, esto es, siem pre que hay
consid erab lem ente m ás casos extrem os en u n a dirección que en
o tra, la m ediana será por lo regular m á s apropiada que la media.
La relación e n tre la desviación y las posiciones relativas de la
m edia y la m ediana se indica en la figura V .l. Como q uiera que
puede re su lta r afectad a p o r unos pocos valores extrem os, la m e­
dia se v erá "em p u ja d a” en la dirección de la asim etría, esto es,
h acia la cola. Si la distribución es p erfectam ente sim étrica, la
m edia y la m ediana coincidirán. Sabem os que las distribuciones
relativas a los ingresos suelen e sta r desviadas p o r lo regular
Simétrica
. . .
Asim étrica negativa
x
Asim étrica positiva
Fig. V .l. R elación entre la asim etría y las posiciones relativas
d e la m edia y la m ediana
h acia los ingresos superiores, con m uy pocos de ellos extrem a­
d am en te altos. R esultaría, pues, m uy im preciso p re se n ta r ingre­
sos m edios en el m arco de u n a corporación o de u n a localidad
pequeña. P o r ello los d ato s relativos al ingreso se d an p o r lo
re g u la r sirviéndose de la m ediana, m ás que de la m edia. Sin
duda, si la d istribución e s tá m uy desviada, el hecho debería
m encionarse al p re se n ta r los datos. E n tales casos, puede resu l­
ta r ú til in d icar am bas cosas, la m edia y la m ediana, pese a que
esto sólo ra ra m e n te se hace así en la práctica.
La m ed ia tien e u n a segunda p ro p ied ad que n o posee la m e­
d ian a: se deja m an ip u lar algebraicam ente con m ayor facilidad.
Así, p o r ejem plo, p recisa o b ten er a m enudo u n prom edio pon­
d erad o d e varios conjuntos de datos. Supóngase que tenem os
los siguientes ingresos m edios correspondientes a las tres locali­
dades A, B y C :
Localidad
Habitantes
A
B
C
10000
5000
8000
Media
$3 518
4760
4122
Si el n ú m ero d e h a b ita n te s de las tre s localidades fu e ra el m is­
m o, po d ríam o s to m a r la m edia de esos tre s datos com o m edia
general. P ero es el caso que la localidad A es dos veces m ayor
que la localidad B, o sea, e n o tro s térm inos, que la cifra $ 3 518
re p re se n ta u n doble n ú m e ro de casos de los que re p resen ta la
cifra $ 4 760. Si los 23 m il h a b ita n te s se h u b iera n p u esto ju n to s
calculándose la m edia general, la cifra re su lta n te h a b ría refle­
ja d o dicho hecho. P ara o b te n e r la m edia co rrecta, hem os de
p o n d e ra r cada m edia sep a rad a p o r el n ú m ero p ro p io de casos,
sum ando luego y dividiendo fin alm en te e n tre el n ú m ero to tal de
éstos (23 000). O btenem os en esta fo rm a :
2 N tX x
X = — --------N
(V.8)
en donde N t y X { re p re se n ta n respectivam ente el n ú m e ro de ca­
sos y la m ed ia de la categoría i-ésima, indicando k el n ú m ero de
las categorías. Tenem os, p o r consiguiente:
- _ 10 000(3 518) + 5 000(4 760) + 8 000(4 122)
Ji. — ........... ......... —
23 000
91 956 000
23 000
=$ 3 998.09
Podem os ju s tific a r fácilm ente ese p rocedim iento d e p o n d era­
ción observando que la m edia de la categoría i-ésim a fu e en re a­
lid ad o b ten id a adicionando los datos y dividiendo p o r A^.2 P or
lo tan to , el p ro d u c to N iX t re p re se n ta la sum a de todos los datos
d e dicha categoría. Así, pues, la adición de los p ro d u cto s y la di­
visión e n tre N nos d a el m ism o re su lta d o que se h a b ría obtenido
si se h u b iera n ignorado las categorías p o r com pleto. E ste tipo
de m anipulación algebraica de la m ed ia re su lta en ocasiones m uy
ú til. N o h a d e re s u lta r difícil d arse cu en ta q u e la m ediana
general de los d ato s com binados n o p u ed e o b ten erse en dicha
2 Casi siempre ponderemos X i con w{, representando la expresión '2wiX i/
2 w4 nuestra media ponderada. Por lo regular hacemos la ponderación en
tal forma que suma una cantidad conveniente como la unidad (esto es,
= 1) o la muestra total de tamaño N, como en el ejemplo anterior.
form a. E n efecto, si conociéram os los valores de los casos m e­
dios de cad a u n a de las categorías separadas, nos fa lta ría toda­
vía conocer el v alor del caso m edio de los datos com binados.
Obsérvese, finalm ente, u n a diferencia im p o rtan te e n tre la m e­
dia y la m ediana. El cálculo de la m edia re q u ie re u n a escala de
in terv alo . E n efecto, sin u n a escala de in terv alo no te n d ría sen­
tido alguno h a b la r de su m ar m arcas. E s m an ifiestam en te nece­
sario suponer, p o r ejem plo, que la su m a de los n ú m eros 30 y 45
equivale a la de los n ú m ero s 20 y 55, ya que am bos p ares poseen
la m ism a m edia. La m ediana, en cam bio, puede em plearse ta n to
con la s escalas o rd in ales com o con las de intervalo. La m arca
n u m éric a real de la m ed ian a carecerá de sentido, a m enos que
dispongam os de u n a escala de intervalo, p e ro será sin du d a
posible situ a r la m a rc a m edia. E sto significa que, e n tre o tro s, po­
dem os se p a ra r los casos en u n a o dos categorías, según que
aquéllos queden p o r en cim a o p o r d eb ajo d e la m ediana. P o r lo
ta n to , las m ed id as de posición pu ed en em plearse con escalas
o rd inales, hecho que re su lta m uy ú til p a ra el desarrollo' de p ru e ­
b a s que n o req u ieren escalas de intervalo.
V.5. O tras m edidas de tendencia central
E x isten todavía algunas o tra s m edidas de tendencia cen tral, nin­
guna de las cuales, sin em bargo, e n c u e n tra u n em pleo m uy co­
rrie n te en la investigación sociológica. U na de ellas es el m odo,
q u e es sim plem ente la m arc a m ás frecuente. Si, p o r ejem plo,
to m am o s las tre s series de n úm eros siguientes:
(1)
( 2)
(3)
71,
71,
71,
75, 83, 75, 61, 68
75, 83, 74, 61, 68
75, 83, 75, 83, 68
podem os decir que la p rim e ra tien e u n m od o de 75, ya que hay
d os térm in o s de dicha m arca, en ta n to q u e ninguna o tra a p a re ­
ce dos veces. N o h ay m odo alguno en la segunda serie de nú m e­
ros, p e ro los h ay dos, en cam bio, e n la te rc e ra (75 y 83). E l
m odo re su lta ta l vez m ás ú til cuando se d a u n núm ero m ayor
de casos y cu an do los datos h an sido agrupados. E n ta l caso
h ablam os a veces de u n a categoría m odal, to m an d o el p u n to
m edio de la m ism a com o m odo. E n los datos agrupados que
hem os utilizado, la categ o ría m odal sería la de $ 5 000 a $ 5 900.
E n u n a d istribución de frecuencia, el m odo re s u lta rá indicado
p o r el p u n to m ás elevado de la curva. E n u n a distrib u ció n sim é­
tric a con u n solo m odo en el centro, la m edia, la m ediana y el
m odo serán p o r supuesto, idénticos. Podem os d istin g u ir asim is­
m o e n tre d istrib uciones "unim odales" y "bim odales”, tom ando
esta ú ltim a la fo rm a que aparece en la fig u ra V.2. Al h a b la r de
distribuciones bim odales, n o solem os p o r lo re g u la r su p o n er que
am b as cúspides tengan exactam ente el m ism o alto, com o p are­
cería deducirse de la definición. H ay que o b serv ar que, com o
q u iera que el m odo se refiere a la categoría con el m ayor núm e­
ro de casos, podem os servim os de dicho concepto ta n to al des­
c rib ir escalas nom inales, com o ordinales o de intervalo. De esta
m an era en el caso de las escalas nom inales p o d rá considerarse la
categoría m odal com o u n tip o d e tendencia central, siem pre que
se tenga bien p re sen te que ello n o supone u n ordenam iento de
categorías.
O tras dos m edidas de tendencia central que prácticam ente
n o se ven n u n ca en la lite ra tu ra sociológica son la m edia arm ó­
nica y la m edia geom étrica. Se definen respectivam ente p o r las
siguientes fó rm u las:
N
M edia arm ónica = --------------ir
i
2 ——
« -1 Xi
N ___________ _
M edia geom étrica = > / ( X x) ( X 2) ........ ( X N)
E n esta ú ltim a fórm ula, la N a rrib a del radical indica que to ­
m am os la raíz JV-ésima del p ro d u c to de N datos.
V.6. Deciles, cuartiles y percentiles
Al exam inar la m ediana, señalam os que hay o tras m edidas posicionales, ta le s com o los percentiles, que pueden utilizarse p ara
fija r la p o sición de datos m ayores que u n a proporción determ i­
n ad a de casos. E sas m edidas, au n q u e n o sean necesariam ente
m edidas de tip ic id a d o de tendencia central, son análogas di­
rectam en te a la m ediana. Así, p o r ejem plo, en lugar de buscar
u n n ú m ero q u e tenga la m ita d de los datos p o r encim a o p o r
d eb ajo de sí m ism o, podem os q u e re r d e te rm in a r el v alor del p ri­
m e r cu artil, que posee la p ro p ied a d d e que u n cu a rto de los datos
sean de m en o r m ag n itu d que la suya. Y en fo rm a sem ejante, el
te rc e r cu a rtil re p re se n ta la m arc a que tien e p o r deb ajo d e ella,
e n cu an to a m agnitud, a los tre s cu a rto s de los casos. Si se p re­
fiere, se pu ed e dividir la d istrib u ció n en 10 deciles, fijan d o m a r­
cas q u e tengan u n a décim a, dos décim as o nueve décim as d e los
casos con valores m enores. Tal vez el lecto r esté m ás fam iliari­
zado con los p ercentiles, q u e dividen la d istrib u ció n e n 100 p o r­
ciones d e tam añ o igual. Así, p o r ejem plo, el e stu d ia n te que falla
en el nonagésim o p rim e r p ercen til sabe q u e el 91 p o r ciento de
los dem ás estu d ian tes ten ían puntuaciones m ás b ajas q u e él.
E l cálculo de los deciles, los cuartiles y los p ercentiles es direc­
ta m en te análogo al de la m ediana. E n el caso d e dato s ag ru p a­
dos, d eterm in arem os p rim e ro el in terv alo e n cuyo in te rio r que­
d a la m ed id a de posición deseada. S irviéndonos luego de los
d ato s del cu ad ro V.4, ob ten d rem o s el p rim e r cu a rtil localizando
la posición del caso N /4 o 47.25-ésimo. De la colum na de la fre­
cuencia cum ulativa vem os que el p rim e r cu a rtil h a de situ arse
en algún lu g ar e n tre el in terv alo de $ 3 950 a $ 4 950. Y com o
q u iera que en dicho in terv alo hay 38 casos, hem os de re c o rre r
los (47.25 — 43 )/38 de e sa distancia. Así, pues, el valor del p rim e r
c u a rtil Q i será:
47 25 — 43
Q1 = 3 950 + — ^---------- 1 000 = 3 950 + 112 = $ 4 062
38
O tras m edidas de posición pueden calcularse en fo rm a análoga.
Obsérvese, in cid entalm ente, que p o r definición la m ediana es
equ iv alen te al segundo cu artil, al q u in to decil, y al quincuagé­
sim o p ercen til. Si b ien los deciles, cu artiles y percentiles sólo
se em plean m uy ra ra m e n te e n la investigación sociológica, con­
viene p o r lo m enos conocer su sentido.
G losario
Decil
Media
Mediana
Modo
Percentil
Cuartil
Distribución asim étrica
E je r c ic io s
1. Indíquense la media, la m ediana y el modo de los números siguien­
tes: 26, 37, 43, 21, 58, 26, 33 y 45, Respuesta, 36.1; 35; 26.
2. Calcúlense una media y una mediana de los datos compilados en
el ejercicio 1, cap. iv. Hágase lo mismo en relación con el ejercicio 2,
cap. iv.
3. Calcúlense el tercer cuartil, el cuarto decil y el septuagésimo pri­
m er percentil de los datos del ejercicio 1, cap. iv.
4. Los siguientes datos (hipotéticos) m uestran la distribución del
porcentaje de las familias granjeras en 60 distritos. Calcúlense la
media y la mediana. Respuesta, 32.83; 32.83.
Intervalo
%
Frecuencia
10-19
20-29
30-39
40-49
50-59
7
16
21
12
4
60
5. Sirviéndose de los datos del ejemplo anterior, indique el lector
en qué form a resultarían afectadas la media y la mediana (aumenta­
das, reducidas, inalteradas) si:
a) el último intervalo se ampliara de 50 a 69, permaneciendo las
mismas frecuencias. Respuesta, aum entada; la misma.
b) si se añadiera un 10 por ciento a cada intervalo (haciendo los
intervalos 20 a 29, 30 a 39, etcétera), con frecuencias inalteradas;
c) los intervalos permanecieran inalterados, pero pasando dos ca­
sos de la categoría 20 a 29 a la categoría 30 a 39 (haciendo que las
frecuencias fueran 7, 14, 23, 12 y 4);
d) los intervalos permanecieran inalterados, pero se doblaran to­
das las frecuencias.
_6. Un grupo de 10 muchachos y 7 muchachas participaron en un acer­
tijo algebraico. Supóngase que la puntuación media de los muchachos
íue 84 y su mediana 74, en tanto que, en relación con las mucha­
chas, tanto la media como la mediana resultaron en 79. El m aestro
concluye que en esa prueba los muchachos obtuvieron un resultado
mejor que las muchachas. ¿Está su conclusión justificada? ¿Por qué,
o por qué no? ¿Cómo cabría explicar la gran diferencia entre la media
y la mediana en los muchachos?
7. Supóngase que se ha encontrado que la edad media de los 50 go­
bernadores (de los Estados Unidos) es de 51.6 años, la de 100 sena­
dores 62.3, y la de 435 diputados de 44.7. ¿Cuál es la edad media de
todos esos políticos? Supóngase que las cifras anteriores indicaran
medianas, ¿podría obtenerse la mediana general del mismo modo?
¿Por qué, o por qué no?
B iblio g rafía
1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2? ed.,
Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 5.
2. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2' ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 4.
3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holí and Company, Inc., Nueva York, 1952, cap. 8.
4. McCollouhg, C. y L. van Atta: Introduction to Descriptive Statis­
tics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, cap. 2.
5. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning in Sociology, 2* ed. Houghton Mifflin Company, Boston,
1970, cap. 5.
6. Weinberg, G. H., y J. A. Schumaker: Statistics: An Intuitive Approach, Wadsworth Publishing Company, Inc., Belmont, Cal. 1962,
caps. 2 y 6,
V I. ESCA LA S D E IN T E R V A L O : M ED ID A S
D E D IS P E R S IÓ N
E n la investigación sociológica la atención se con cen tra en m u­
chos casos en m edidas de tendencia central. P o r ejem plo, pode­
m os q u e re r c o m p arar varios tipos de religión en relación con la
asisten cia m ed ia a la iglesia o el nivel m edio de ingreso. Pode­
m os tam b ién d esear o btener, sin em bargo, m ed id as de hom oge­
neidad. Tal vez hayam os p a rtid o de la hipótesis que u n a de las
religiones ex tra e rá sus adeptos en m ay o r g ra d o que las o tras de
u n a m ism a capa social. S in em bargo, au n si estam o s interesados
an te to d o en c o m p arar m edidas de tendencia cen tral, necesita­
m os, con todo, sab e r algo acerca de la dispersión en cada grupo.
Nos dam os cu en ta in tu itiv am en te d e que, si cada religión fu e ra
ex trem ad am en te heterogénea en cuanto al ingreso y a la asis­
ten cia a la iglesia, u n a d iferencia d eterm in ad a e n tre sus m e­
d ias (digam os de $ 2 000) n o sería ta n im p o rta n te o indicativa
com o se ría el caso si cada g ru p o fu e ra p erfectam en te hom o­
géneo.
C uando lleguem os a la estad ística inductiva, estarem o s en con­
diciones de ju stific a r dicha intuición y de a p re c ia r p o r qué las
m edidas de d ispersión son ta n im p o rtan tes. E n el p re sen te capí­
tu lo vam os a co n cen trarn o s en el m ecanism o, en tan to que en el
siguiente darem os u n a in terp re tació n de la m edida de dispersión
m ás im p o rta n te : la desviación están d ar.
V I.l. E l recorrido
De las d istin tas m edidas de dispersión que vam os a exam inar en
este capítulo, el re co rrid o es con m ucho el m ás sim ple. El reco­
rrid o se define com o la diferencia e n tre la m arc a m ás a lta y la
m ás b aja. Así, pues, e n relación con los datos proporcionados en
el capítulo a n te rio r (72, 81, 86, 69 y 57), el re c o rrid o sería la dife­
ren cia e n tre 86 y 57, o sea 29. P o r lo re g u lar solem os in d icar el
re co rrid o ya sea p o r m edio de la diferencia real (29), o dando
las dos m arc as extrem as, v.gr. 57 y 86. Si los datos se h a n agru­
pado, tom am os com o re co rrid o la diferencia e n tre los puntos
m edios de las categorías extrem as. Así, pues, si el p u n to m edio
del in tervalo in ferio r es 2 450 y el del intervalo su p e rio r 7 450, el
re co rrid o será de 5 000.
La sim plicidad extrem a del re co rrid o com o m ed id a de disper­
sión p re sen ta a la vez ven tajas e inconvenientes. E n efecto, el
re co rrid o pued e re s u lta r m uy ú til si se tr a ta de o b ten er unos
cálculos m uy rápidos que p u ed an p ro p o rcio n ar u n a indicación
b ru ta de la dispersión, o si los cálculos h a de hacerlos alguna
90
p erso n a que n o esté fam iliarizada con la estad ística. Si los datos
h an d e p re sen tarse a u n a audiencia relativ am en te ingenua, el reco­
rrid o será tal vez la ú n ica m edida de dispersión que aquélla esté
en condiciones de in te rp re ta r fácilm ente. S in em bargo, el nivel de
p re p aració n de los sociólogos está alcanzando ráp id am en te u n
p u n to tal, que podem os legítim am ente su p o n er que en ten d erán
tam b ién m edidas algo m ás com plicadas y satisfactorias. E l in­
conveniente del re co rrid o es obvio: se b a sa exclusivam ente en
dos casos, que son, adem ás, los dos casos extrem os. Y com o
q u iera que los casos extrem os suelen se r ra ro s o poco com unes
en la m ay o ría de los problem as em píricos, nos dam os cu en ta que
p o r lo re g u lar es u n a cuestión de az ar q u e obtengam os u n o o dos
de ellos en n u e stra m u estra. Supóngase, p o r ejem plo, que en la
localidad investigada hay u n m illonario. Si escogem os 10 perso­
nas al azar, es p ro b ab le que aquél n o e sté incluido e n tre ellas.
Pero, supóngase que sí está. E n ta l caso el re co rrid o de los in­
gresos será ex trao rd in ariam en te am plio y m uy engañador en
cu an to m edida de dispersión. Si nos servim os del re co rrid o
com o m edida, n a d a sabem os acerca de la variación de las m a r­
cas e n tre los dos valores extrem os, excepto que éstas se sitú an
en algún lu g ar en el in te rio r de dicho re co rrid o . Así, pues, com o
re su lta del ejem plo a n terio r, el re co rrid o v a ria rá considerable­
m en te de u n a m u e stra a o tra. P or o tra p a rte , el re co rrid o será
p o r lo re g u la r m ayor en las m u estras grandes que en las peque­
ñas, sim plem ente p o rq u e e n los p rim ero s tenem os m ás p ro b a ­
bilidades de in clu ir a los casos individuales extrem os. É sta es
la razón de que el re c o rrid o n o se em plee p o r lo re g u la r en so­
ciología, excepto al nivel de tipo m ás exploratorio.
O tra m ed id a su m am ente sim ple, la razón de variación, puf de
s e r utilizada e n el caso de los datos en grupo, lo que re su lta
especialm ente adecuado en el caso de las escalas nom inales.
C onsiste b ásicam ente en u n a m edida del grad o en que se con­
ce n tran los dato s en la categoría m odal, en lu g ar de que se les
e n cu en tre distrib u idos u n iform em ente a lo larg o de to d as las ca­
tegorías. Se define a s í :
V i?. = 1 - f moaJ N ,
en donde /modaj se re fiere al nú m ero de casos en la categoría mo­
dal, y N al n ú m ero to ta l de casos. E s evidente que e sta m edida
re s u lta insensible a la distrib u ció n de casos en las categorías no
m odales, siendo p o r o tra p a rte dependiente del proceso de categorización. S u v en taja ra d ic a en su sencillez extrem a y en su
atracció n intuitiva, adem ás del hecho de que en el caso de las
escalas nom inales no es posible h a c e r uso d e u n a ordenación de
categorías que p erm ita h a b ilita r m edidas de u n m ayor re fin a­
m iento.
VI.2. La desviación cuartil
O tra m ed id a em pleada algunas veces en los cam pos de la psico­
logía y la enseñanza, p ero que ra ra m e n te ap arece en la lite ra tu ra
sociológica, es la desviación cu a rtil o re co rrid o sem i-intercuartil.
La desviación cu artil Q es u n tipo de reco rrid o , pero, en lugar
de re p re se n ta r la diferencia e n tre los valores extrem os, sé define
a rb itra ria m e n te com o la m ita d de la d istancia e n tre el p rim ero
y el te rc e r cu artiles. O en fo rm a sim bólica:
en donde Qi y Q3 re p resen ta n respectivam ente al p rim e ro y te r­
cer cu artiles. O bsérvese que la desviación c u a rtil m ide el reco­
rrid o ocupado p o r la m ita d ce n tral de los casos. Como quiera
que Qi y Q3 v aria rán m enos de u n a m u e stra a o tra que los casos
m ás extrem os, la desviación c u a rtil re p re se n ta u n a m ed id a m u­
cho m ás estab le que el re co rrid o . P or o tra p a rte , e n cam bio, no
saca provecho del co n ju n to de la inform ación. N o estam os m i­
diendo la v ariabilidad e n tre los casos cen trales ni tom am os en
consideración lo que o cu rre en los extrem os de la distribución.
De ahí, pu es, q u e enderecem os n u e s tra atención, a o tra s dos m e­
didas que sí poseen esta p ro p ied a d deseable.
VI.3. La desviación m edia
Si deseam os serv im o s de todos los datos, el sentido com ún nos
su g erirá que to m em os las desviaciones de cada d ato con resp ecto
a alguna m ed ida de tendencia cen tral y que calculem os luego
alguna especie de p ro m ed io d e dichas desviaciones, con o b jeto
de co n tro lar el n ú m ero de casos com prendidos. S ería posible
to m a r com o m ed id a de ten d en cia c e n tral la m ed ian a o el m odo,
p ero p o r lo re g u la r tom am os la m edia, ya que é s ta es en la
m ay o ría de los casos la m ed id a p a rtic u la r m ás satisfactoria.
Supóngase que sum áram os sim plem ente las desviaciones efecti­
vas resp ecto d e la m edia. P o r desgracia, com o sabem os, el resu l­
ta d o sería siem p re cero, y a que las diferencias positivas y nega­
tivas se com pensan m u tu am en te. E sto sugiere que, p a ra o b ten er
u n a m ed id a de d ispersión a lre d ed o r de la m edia, hem os de des­
h acem o s e n u n a fo rm a u o tra d e los signos negativos. Se nos
o cu rren in m ed iatam en te dos m éto d o s: 1) ig n o rar los signos y
to m a r sólo los valores absolutos d e las diferencias, o 2) cu a d rar
las diferencias. E sto s dos m étodos conducen efectivam ente a las
dos m edidas re sta n te s de dispersión que hem os d e exam inar en
este capítulo, a sa b e r: la desviación m edia y la desviación es­
tán d ar.
La desviación m edia se define com o la m edia aritm ética de las
diferencias absolutas de cada m arca con resp ecto a la m edia,
£> en sím b o lo s:
2 )Xt - X \
<==1
Desviación m edia = -----------------N
(V I.2)
La m edia de los n úm eros 72, 81, 86, 69 y 57 es 73.0. Si su stra e ­
m os 73.0 de cada u n o de dichos núm eros, ignorando los signos, y
luego adicionam os los re su ltad o s y dividim os en tre 5, o b te n e m o s:
y
_
2 |j^ ._x \
'
1 + 8 + 13 + 4 + 1 6
42
8.4
N
5
5
Podem os p o r consiguiente decir que el prom edio de los datos
d ifiere de la m ed ia en 8.4.
Pese a que la desviación m edia p re sen ta u n a in terp retació n
in tu itiv a m ás d irecta que la desviación están d a r, tiene, con todo,
varios inconvenientes graves. P rim ero, los valores absolutos no
se d ejan m an ip u lar algebraicam ente con facilidad. Segundo y m ás
im p o rtan te, la desviación m edia no es de fácil in terp re tació n
teó rica ni conduce a re su ltad o s m atem áticos sim ples. Con fi­
nes p u ra m e n te descriptivos, la desviación m edia puede se r ade­
cuada, pese a que, según verem os, la desviación e stá n d a r se
d eja in te rp re ta r m ás fácilm ente en térm inos de la curva norm al.
C uando lleguem os a la estad ística inductiva verem os que la des­
viación e stá n d a r se u tiliza sobre todo a cau sa de su su p erio rid ad
teórica. É sta es la razó n de que sólo ra ra m e n te encontrem os
en la lite ra tu ra sociológica referencias a la desviación m edia.
VI.4. La desviación estándar
H abiendo elim inado m ás o m enos o tras varias m edidas de dis­
p ersión, podem os ah o ra d irig ir n u e stra atención a la m ás útil
y frecu e n te de las m ed id as: la desviación estándar. É sta se de­
fin e com o la raíz cu a d rad a de la m edia aritm é tic a de las desvia­
ciones cu ad rad as con resp ecto a la m edia, o en sím b o lo s:
(Xt-X)*
N
(V I.3)
en donde s se em plea p a ra designar la desviación están d ar.1 O en
1 Algunos textos definen s con N —1 en el denominador en vez de N. La
razón de ello no resultará clara hasta e n el capítulo XI.
p a la b ra s : tom am os la desviación de cad a m arc a con respecto
a la m edia, a la d ra m o s cada diferencia, sum am os los resultados,
dividim os e n tre el n ú m ero de casos y extraem os la raíz cuadrada.
P ara conseguir u n a re sp u esta correcta, es indispensable que las
operaciones se efectúen exactam ente e n el o rd e n indicado. E n
n u e stro ejem plo n um érico la desviación e stá n d a r p o d ría conse­
guirse com o sigue:
*«
(X.-X)
(Xt - X P
72
81
86
69
57
1
8
13
- 4
-1 6
1
64
169
16
256
X = 73.0
-
---
0
--506
s = V506/5 = V101.2 = 10.06
E l significado intuitivo de la desviación e s tá n d a r n o nos aparece­
r á claram en te h a s ta m ás adelante, cuando nos sirvam os de s p a ra
d am o s las á re a s b a jo la curva norm al. P o r el m om ento la acepta­
m os sim plem ente com o u n n ú m ero ab stracto . Sin em bargo, algu­
n a s p ro p ied ad es de la desviación e stán d a r son y a m anifiestas
desde ah o ra. O bservam os, en efecto, que cu an to m ay o r es la dis­
persió n alred ed o r d e la m edia ta n to m ayor es la desviación están­
dar. Si to d o s los cinco valores h u b iera n sido cero, las desviaciones
alred ed o r de la m edia h a b ría n sido cero, y s tam b ién h ab ría sido
cero. P o r o tra p a rte , vem os que las desviaciones extrem as con
resp ecto a la m edia p esan m ás, con m ucho, en cu an to a deter­
m in a r el v alo r d e la desviación están d a r. E n efecto, los valores
169 y 256 dom inan las o tra s tre s desviaciones cuadradas. Al
c u a d ra r las desviaciones, pese a que después extraigam os la raíz
cu ad rad a, estam os en re alid ad dando m ás peso relativo a los va­
lores extrem os todavía de lo que e ra el caso al calcu lar la m edia.
E sto sugiere q u e hem os d e m itig ar n u e stro en tu siasm o inicial
a p ro p ó sito de la desviación e stá n d a r e n cu an to "la m e jo r" m edida
p a rtic u la r de dispersión. C iertam ente, si hay varios casos extre­
m os, querem os que n u e stra m ed id a lo señale. P ero si la d istri­
bución p re se n ta unos pocos casos m uy extrem os, la desviación
no rm al pued e conducir a re su ltad o s engañosos, e n cu an to pue­
de se r ex tra o rd in aria m e n te grande. E n tales casos nos serviría­
m os p ro b ab lem en te com o m edida de tendencia ce n tral de la m e­
diana y, ta l vez, de la desviación cu a rtil com o m edida de
dispersión. S in em bargo, p a ra la m ayoría de los datos la des­
viación n o rm al re su lta rá adecuada.
E s razonable p re g u n ta r: "¿p o r qué m o lestarse en e x tra e r la
raíz cu a d rad a al calcu lar u n a m edida de d ispersión?” U na re s­
p u esta fácil, au n q ue poco satisfactoria, sería la d e decir que así
es com o se define la desviación e stán d a r. P o d ría ju stific arse la
extracción de la raíz c u a d ra d a señalando que, y a que hem os cu a­
d ra d o cada desviación, lo que hacem os es com pensar dicho paso
an terio r. Sin em bargo, re s u lta m ás com prensible ju stific a r la ex­
tracció n de la raíz en térm in o s d e su c a rá c te r práctico. Como quie­
r a que, en efecto, m ás ad elan te habrem os d e h a c e r u n em pleo
considerable de la cu rv a norm al, la desviación están d a r, ta l com o
se la h a definido, re s u lta se r u n a m ed id a m uy ú til. P a ra o tro s
fines nos servirem os del cu ad rad o d e la desviación n o rm al o va­
riancia, que se define com o:
2 ( Xt - X P
<=i
V ariancia = s2 = -------—----------N
Los m atem ático s h a n en co n trad o q u e el concepto de variancia
poseía m ay o r v alor teó ric o que la desviación están d ar. A p a r tir
del cap ítu lo xvi, h arem o s u n uso creciente d e la variancia, p ero
d e m o m en to podem os lim ita r n u e stra atención a la desviación
e stá n d a r. Los dos conceptos son p o r lo dem ás ta n fácilm ente in­
tercam b iab les, q ue podem os p a s a r sin dificu ltad del u n o al otro .
Que se defina la v arian cia com o cu a d rad o d e la desviación es­
tá n d a r o ésta com o raíz cu a d rad a d e la variancia, esto n o reviste
im p o rtan cia alguna.
Cálculo de la desviación estándar de datos no agrupados. Si
b ien la desviación e stá n d a r puede calcularse siem pre a p a r tir
de lá fó rm u la b ásica que se acaba de dar, re s u lta a m enudo m ás
sencillo servirse de fó rm u las de cálculo que n o req u ieren la sus­
tracció n de la m edia de cada m arc a sep arad a. E n efecto, no sólo
la m ed ia n o será p o r lo re g u la r u n n ú m e ro entero, sino que
u su alm en te se co m eterán e rro re s d e redondeo al em p lear la
fó rm u la an tes indicada. Con o b jeto de v er de qué m odo poda­
m os sim p lificar los cálculos, desarrollem os la expresión que está
a b a jo del radical. T en e m o s:
2
.
i= l
2 { X ? - 2X j l + X*)
_
_
Í=1
_
2 X ? - 2X 2 X i + N X 2
«—i
t=i
N
O bsérvese que, com o q u iera que X es constante, pudim os tom ar­
la fre n te al signo de sum ación en el segundo térm in o del n u m era­
dor. E n el te rc e r térm ino, a su vez, nos hem os servido del hecho
de que, p a r a to d a co nstante k, te n e m o s :
2 k = N k.
i=l
_
w
Pero, com o q u iera q u e X = 2 X J N , el térm ino cen tral del nuí =*i
m era d o r se red u ce a — 2X 2, y podem os e s c rib ir:
X
_ 2
2 (X t ~ X )
i= l
N
2
4=1
N
_,
.V
2
2 X,2 X 4
___
i= l
___
2X2 + X2 = ------------X2
M
N
P o r lo ta n to :
V
N
ír
2
2 X,
-X *
\T
(W .4)
Algunas o tras fórm ulas de cálculo altern ativ as son las sig u ien tes:
v ^-(4y
(^X
i)
-V
2
N
\
4=1
(VI.5)
/
2 X ¿-------------------í= i
jv
1
I
N
2
/ N
(V I.6)3
\ 2
(VL7)
Si b ien cu alquiera de las form as precedentes puede utilizarse
com o fó rm u la de cálculo, la ecuación (V I.7) es la que com porta,
2 La obtención de las ecuaciones (VI.6) y (VI.7) a partir de la ecuación
(VI.5) se deja como ejercicio.
con todo, m enos errores d e redondeo, p o r ello se la recom ienda.
Sirvám onos de u n a de dichas fórm ulas de cálculo (ec. VI.7) en
el p roblem a an terio r, e n donde N = 5.
Xi
72
81
86
69
57
*<2
5184
6561
7 396
4761
3 249
365
27151
E n adición al n ú m ero to ta l de casos, las dos cantidades requeri-
-V
!f
2
das son S I , y 2 X t. A m bas sum as pueden acum ularse sim ul«=i
i=i
„
tán eam en te con las m odernas calculadoras de oficina. Calcula­
m os ah o ra s a p a r tir de (V I .7):
s = 1/5 V 5(27 151) - (365)2 = 1/5 V 135 755 - 133 225 = 10.06
Nos hem os servido de este problem a m uy sencillo p a ra ilu s tra r
q u e Ja fó rm u la de cálculo d a el m ism o re su ltad o num érico que la
fó rm u la b ásica de la ecuación (V I.3). Como q u iera que X resu ltó
ser u n en tero , la fó rm u la de cálculo h a com portado en realidad
m ás tra b a jo que la fórm ula original. P ero norm alm ente, p o r su­
p uesto, esto n o será así.
* Cálculo de la desviación estándar de datos agrupados. Si los
datos h an sido agrupados, podem os sim plificar n u e stra lab o r
considerablem ente tra ta n d o cada caso com o si se h allara en el
p u n to m edio de u n intervalo y sirviéndose de u n a m edida su­
pu esta. Sin du d a introducim os con ello alguna inexactitud, p ero
el ah o rro de tiem po es sustancial. Siguiendo u n a convención co­
rrie n te , supongam os que
= X t — X . E n consecuencia, las x m i­
núsculas re p resen ta n desviaciones resp ecto de la m edia, y la
fó rm u la básica de la desviación está n d a r se convierte e n :
Podem os m odificar ah o ra la fórm ula tom ando en cuenta el he­
cho de que h a b rá u n gran n ú m ero de casos trata d o s todos com o
si tu v ieran el m ism o valor, esto es, uno de los p untos m edios. Si
m u ltiplicam os el n ú m ero de casos en cada clase p o r el p u n to
m edio p ro p io y sum am os luego los p ro d u cto s, nos podem os
a h o rra r el tra b a jo de su m a r todos los N casos. La fó rm u la de la
desviación e stá n d a r se convierte así en :
(V I.8)
en donde /{ es el n ú m ero de casos del intervalo i-ésimo y A: el
n ú m ero de intervalos.8
S upongam os a h o ra que anticipam os u n a m ed ia y tom am os las
desviaciones con re sp ecto a ésta, e n lu g ar de re sp ecto de la m e­
dia v erd ad era. M ostram os en el cap ítu lo a n te rio r que la sum a de
las desviaciones c u a d rad a s de la m edia será m en o r —que cual­
q u ier o tro v alor— que la su m a d e las desviaciones cuadradas. E n
p artic u la r, la su m a de las desviaciones cu a d rad a s de la m edia
an ticip ad a se rá m ay o r que la cifra o b ten id a sirviéndonos de
la m ed ia v erdadera, a m enos, p o r supuesto, que aquélla coincida
con ésta. Puede, pues, d em o strarse que cu an to m ás cerca queda
la m ed ia su p u esta de la v erdadera, ta n to m en o r re su lta la sum a
de las desviaciones cu ad rad as de la m edia supuesta. E n o tro s
té rm in o s: si nos servim os de u n a m ed ia su p u esta, esperam os
o b ten er u n a sum a de cu ad rad o s dem asiado grande. Lo m ism o
que an terio rm en te, podem os servirnos d e u n fa c to r de correc­
ción, al que su straem o s luego del valor o b ten id o utilizando la
m ed ia an ticipada. La fó rm u la de la desviación está n d a r se con­
v ierte e n tal caso e n :
en donde los d¡ re p re se n ta n las diferencias e n tre cada m arc a y
la m ed ia an ticip ad a y son d irec tam en te análogos a los x, de la
ecuación (V I.8).
Antes de to m a r u n ejemplo- num érico, exam inem os la fó rm u la
p reced en te con m ay o r atención. El segundo térm in o d eb ajo del
rad ical re p re se n ta el fa c to r de corrección que h a de su strae rse
de las desviaciones cu ad rad as de la m edia supuesta. R ecordando
la fó rm u la de la m edia expresada en térm in o s de la m edia su ­
p u esta, o sea:
8 Obsérvese que no se elevan al cuadrado las frecuencias
en el numerador de la expresión bajo el radical.
ji
que aparecen
k
2 fA
vemos que
&
i—1
=X-X'
N
y que, p o r lo ta n to :
fc
V
2 ] fA \
De este modo, el fa c to r de corrección re su lta se r el cu ad rad o de
la diferencia e n tre las m edias verd ad era y la supuesta. Vemos
inm ed iatam en te que, si hubiéram os an ticip ad o la m edia exacta­
m ente, el facto r de corrección h a b ría sido cero. P o r lo tanto,
cu an to m ay o r sea la diferencia e n tre las m edias verd ad era y su­
p u esta ta n to m ayor será el fa cto r de corrección. Una suposición
deficiente conducirá siem pre al re su ltad o correcto, p ero com­
p o rta rá m arcas n u m éricas m ayores en am bos térm in o s de la
fórm ula.
É sta puede m odificarse m ás todavía si p referim os p en sa r en
térm in o s de desviaciones graduales d¿. Lo m ism o que e n el capí­
tulo v, ponem os en fa c to r la am plitud del intervalo de cada dt
y m ultiplicam os el re su ltad o final p o r i, lina vez el proceso te r­
m inado. La fó rm u la se convierte así e n :
=i ' V
¿
n
w
~( i
) 2
O bsérvese q u e efectivam ente n o hem os hecho m ás q u e sac ar la
am p litu d i del intervalo, de d eb a jo del radical.
Al calcu lar la desviación e stá n d a r de d ato s agrupados, pode­
m os ah o ra ex ten d e r el p rocedim iento em pleado p a r a la m edia,
Cuadro
VI. 1. Cálculo d e la desviación estándar utilizando datos
agrupados
Límites verdaderos Puntos medios
$1950-2950
2 950-3 950
3 950-4 950
4 950-5950
5950-6950
6 950-7 950
fi
$2450
3450
4450
5450
6 450
7 450
Wt
17
26
38
51
36
21
Totales
-3
-2
-1
0
1
2
189
V
k
= 1 000 J
" 189
__ (
/
=
V 189 /
k
W
-5 1
-5 2
-3 8
0
36
42
153
104
38
0
36
84
-6 3
415
\ 2
1000 V 2.1%—.111
= 1444
añ adiendo la colum na f idi’2. Atraque en re alid ad p odríam os ob­
te n e r las desviaciones cu ad rad as d i2 y m u ltip licar luego p o r f u
re su lta rá con to d o m ucho m ás sim ple m u ltip licar las dos últim as
colum nas em pleadas en o b te n e r la m edia (e sto e s : d{ x f{d{). En
efecto, h ab ien d o m u ltiplicado d / p o r sí m ism o, vem os que todos
los nú m ero s negativos se h acen ah o ra positivos.4 Calculem os
ah o ra la desviación e stá n d a r de los datos agrupados utilizados
en el cap ítu lo precedente. Con fines de ilu stració n nos servire­
m os de la ecuación (V I.10), p ese a q u e p o r lo re g u la r la (V I.12)
co m p o rta rá m enos e rro re s de redondeo.
* Obsérvese bien que la última columna del cuadro VI.l no se obtiene
elevando al cuadrado la columna
var también al cuadrado.
ftdv
ya que al hacerlo traería consigo ele­
(w
O btuvim os en esta fo rm a u n a m edia de $ 5 117 y u n a desvia­
ción e stá n d a r de $ 1 444. E stos dos n ú m ero s pueden serv ir ah o ra
p a ra re su m ir los d ato s o p a ra co m p ararlo s con datos de o tra
m u estra. Según verem os m ás ad elan te que p u ed en em plearse
tam b ién p a ra v erificar hipótesis o p a ra ap re c ia r m edidas de
población.
VI.5. E l coeficiente d e variabilidad
E s a veces conveniente c o m p arar varios grupos en relación con
su hom ogeneidad relativa, en casos en que dichos gru p o s tienen
m edias d istin tas. P odría, pues, re s u lta r engañoso co m p arar las
m agnitudes ab so lu tas de las desviaciones e stá n d a r. C abría es­
p e ra r que, con u n a m edia m uy grande, p o d ría en c o n trarse p o r
lo m enos u n a desviación e stá n d a r suficientem ente grande. Así,
pues, alguien p o d ría in te re sa rse en p rim e r lu g ar p o r el tam añ o
de la desviación e s tá n d a r en relación con el d e la m edia. E sto
sugiere que podem os o b te n e r u n a m ed id a de la variabilidad re la ­
tiv a dividiendo la desviación e stá n d a r e n tre la m edia. El resu l­
tad o se h a llam ado coeficiente de variabilidad y se designa con
u n a V. Así, p u e s: c
X
P ara ilu s tra r las v en tajas del coeficiente de variabilidad con
resp ecto a la desviación e stá n d a r, supóngase q u e xm psicólogo
social tr a ta de d e m o stra r que p a ra todos los fines prácticos dos
grupos son ig u alm ente hom ogéneos en relación con la edad. En
u n o de los grupos la e d a d m ed ia es d e 26, con u n a desviación
e stá n d a r de 3. E n el o tro la ed ad m edia es de 38 años, con u n a
desviación e s tá n d a r de 5. P o r lo tan to , los coeficientes de varia­
b ilid a d son resp ectiv am en te 3/26 = .1 1 5 y 5/38 = .132, o sea u n a
diferencia m u ch o m ás peq u eñ a que la q u e se d a e n tre las dos
desviaciones e stán d a r. E n vista del hecho d e que p o r lo re g u lar
la ed ad exacta re su lta m enos im p o rtan te, al d eterm in a r in te re ­
ses, capacidades y posición social, a m ed id a que au m en ta la edad
pro m ed io de los m iem bros del grupo, la com paración de los dos
coeficientes de v ariabilidad p o d ría re s u lta r m uy bien, e n este
caso, m u ch o m enos engañosa que si se em p learan las desviacio­
nes están d a r.
Si se desea, puede u tilizarse tam b ién u n a variancia relativa.
P o r desgracia, estas m edidas relativ as d e dispersión se hallan
citad a s con m uy p oca frecu en cia en la lite ra tu ra sociológica. Es
m u ch o m ás frecuente, efr efecto, e n c o n tra r las m edias y las des­
viaciones e s tá n d a r relacionadas en colum nas adyacentes.
VI.6. Otras m edidas resum idas
Sólo hem os exam inado dos tipos de m edidas resum idas : las de
tendencia central y las de dispersión. Son posibles, adem ás, o tras
m edidas, au n que sólo se las utiliza ra ra m e n te en la investigación
sociológica. Sin duda, encontram os a m enudo d ad a la d istrib u ­
ción de frecuencia en tera, p ero esto no constituye u n a m edida p a r­
ticu lar de resum en. R esulta a veces deseable in d icar en u n a dis­
trib u ció n el grado de asim etría. Una de las m edidas de ésta saca
provecho del hecho de que cu an to m ayor es la asim etría tan to
m ayor re su lta la diferencia e n tre la m edia y la m ediana. E sta
m edida se h alla dada p o r la fó rm u la:
3(X - M d)
A sim etría = -----------------5
Si la distrib u ción está desviada hacia la derecha (grandes m a r­
cas p o sitiv as), la m edia será m ayor que la m ediana, y el resu l­
tad o será u n n ú m ero positivo. En ta n to que la distribución des­
viada h acia la izquierda d ará u n resu ltad o negativo.
Con m uy poca frecuencia, tam bién, hallam os en sociología re ­
ferencias al ca rác te r general de las cúspides d e u n a distribución
asim étrica. Utilízase el térm in o de picudez en relación con dicha
m edida, que exam inarem os brevem ente u n a vez que hayam os vis­
to la curva norm al. P or lo regular, los textos de estad ística es­
critos an te to d o p a ra los estu d ian tes de econom ía se ocupan
m ás a fondo ta n to de la desviación com o de la picudez. Tal vez
cuando em pecem os a alcanzar u n a m ayor precisión en la des­
cripción de las form as exactas de las distribuciones de las varia­
bles sociológicas hallarem os u n m ayor em pleo p a ra estas o tra s
m edidas descriptivas.
Glosario
Coeficiente de variabilidad
Desviación media
Desviación cuartil
Recorrido
Desviación estándar
Variancia
E jercicios
1. Calcúlense las desviaciones media y estándar de los datos indica­
dos en el ejercicio 1, cap. v. Respuesta, 9.62; 11.59.
2.
Calcúlense las desviaciones estándar y cuartil de los datos agru­
pados en el ejercicio 1, cap. iv. Hágase lo mismo con los del ejercicio
2, cap. iv.
3. Calcúlese la desviación estándar de los datos del ejercicio 4,
cap. v. Contrólense los cálculos escogiendo una media anticipada y
una fórmula de cálculo distintas. Respuesta, 10.83.
4. Indíquese en qué form a resultaría afectada la desviación normal
por los cambios indicados en el ejercicio 5, cap. v.
B iblio g rafía
1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2- ed.,
Holt, Rinehart and Winston, Inc., Nueva York, 1968, pp. 76-84.
2. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2? ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 5.
3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 9.
4. McCollough, C., y L. van A tta: Introduction to Descriptive Sta­
tistics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, cap. 3.
5. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning
in Sociotogy, 2“ ed., Houghton Mifflin Company, Boston, 1970, cap. 6.
6. Weinberg, G. H., y J. A. Schumaker: Statistics: An Intuitive
Approach, Wadsworth Publishing Company, Inc. Belmont, Cal. 1962,
cap. 3.
7. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 7.
L a noción de la distribución de frecuencia es ya fam iliar. El p re ­
sen te capítulo se ocupa de u n tipo m uy im p o rtan te de d istrib u ­
ción de frecu en cia: la cu rv a n orm al. E sta distribución es m uy
ú til, no sólo p o rq u e u n gran n ú m ero de distribuciones em píricas
se en cu en tran se r aproxim adam ente norm ales, sino debido tam ­
bién a su significado teórico en la estad ística inductiva. E n este
m om ento, el le c to r n o debe preo cu p arse p o r las aplicaciones en
las que se em plea la curva norm al. E n efecto, el o b jeto del p re ­
sen te capítulo está en in d icar las propiedades de la curva en
cuestión y en fam iliarizar al lecto r con el em pleo de cuadros
basados en la m ism a. E sta distribución se exam ina e n la esta ­
dística d escriptiva m ás que en la inductiva p o r dos razones p rin ­
cipales. P rim ero, la curva n orm al puede em plearse p a ra p ro p o r­
cio n ar u n a in terp re tació n de la desviación están d ar. Y en segundo
lugar, serán útiles al lecto r p a ra fam iliarizarse con la distribución
norm al algunos capítulos antes de exponerse a pru eb as estad ís­
ticas que req u ieren facilidad en la m anipulación de la m ism a.
P o r lo tan to , cuanto m e jo r se com prenda la m a te ria expuesta en
este capítulo, tan to m enos dificultad se ex p erim en tará m ás ade­
lante.
V II.1. D istribuciones de frecuencias finitas versus infinitas
Las distribuciones de frecuencia h a s ta aquí exam inadas com por­
tab an un n ú m ero finito de casos. De hecho, p o r supuesto, todas
las d istribuciones em píricas co m portan n ecesariam ente u n nú­
m ero fin ito de casos, aunque ta l vez m uy grande. Sin em bargo,
los m atem áticos consideran ventajoso a m enudo p en sa r en té r­
m inos de distribuciones basadas en u n n ú m ero de casos infinita­
m en te grande. Más bien que tr a ta r con distribuciones em píricas
de aspecto anguloso, com o las que ejem plifican el histogram a
o el polígono de frecuencia, re su lta posible concebir curvas lisas
basadas en u n nú m ero indefinidam ente grande de casos y sus­
ceptibles de se r expresadas en térm in o s de ecuaciones m atem á­
ticas relativ am ente sencillas. La distribución n o rm al es u n a de
tales curvas. Antes de exam inar esta distribución específica, con­
v en d rá e stu d ia r la n atu raleza del proceso a través del cual se
d esarrolla u n a curva lisa sem ejante.
Em pecem os con un h istogram a que com prende cinco intervalos
(fig u ra V ll.la ) . Con fines de sim plicidad supondrem os que la
distribución de frecuencia es sim étrica. Ya vim os que si el n ú ­
m ero de intervalos au m en tab a sin cam biar N , la fo rm a del h is­
to g ram a tien d e a hacerse irregular. Supóngase, sin em bargo, que
104
el n ú m ero de casos se h a aum entado asim ism o. E n ta l caso,
com o en la fig u ra V II. Ib, será posible serv irse de u n m ayor n ú ­
m ero de intervalos m ás angostos, cada u n o de los cuales tenga
u n n ú m ero suficiente de casos p a ra m a n te n e r la regularidad. Si
el n úm ero de casos sigue aum entando, pueden em plearse todavía
m ás rectángulos, conservando, con todo, el tipo reg u lar (fig.
:d f £
"TTTTt-t- - ..
(í)
Fig. V II.L C om paraciones d e curvas lisas con histogram as de
a m plitudes diferentes de intervalo
V II.lc ). Las curvas lisas se h an trazad o p o r los p u n to s m edios
del lad o su p erio r de cada rectángulo. R esulta claro que los rec­
tángulos van form ando aproxim aciones cada vez m ejores a la
cu rva lisa a m edida q u e el nú m ero de los m ism os aum enta,
esto es, a m edida que dism inuye el ancho de cada intervalo.
Im aginem os ah o ra u n n ú m ero de casos en au m en to incesante,
con intervalos cada vez m ás angostos, h a sta que los rectángulos
se aproxim en ta n íntim am en te a la curva lisa que ya n o podam os
a p reciar diferencia alguna e n tre aquéllos y ésta. Designam os la
curva lisa a la que se van acercando incesan tem en te los re ctán ­
gulos cad a vez m ás angostos com o lím ite de la distribución de
frecuencia.1 Pese a que no podam os im aginam os u n n ú m ero infi­
n ito de casos, podem os, sin em bargo, concebir u n n ú m ero tan
gran d e de ellos, que los rectángulos se acerquen a la curva lisa
con el grad o de ex actitu d deseado.
Se re c o rd a rá q u e el área de cada rectángulo puede utilizarse
p a ra re p re se n ta r la pro p o rció n de casos com prendidos en el in-
Fig. V II.2. C omparación d e las áreas debajo de la curva y debajo
del rectángulo
tervalo. Como ya se indicó en el cap ítu lo iv, el á rea to tal de to ­
dos los rectángulos se suele h a c e r igual a la unidad. Así, pues,
si la p ro p o rción d e los casos del p rim e r in terv alo es .10, en to n ­
ces dicho m ism o n ú m ero re p re se n ta el á re a re al del p rim e r
rectángulo. O bservam os ah o ra que el área del rectángulo co rres­
p o n d ien te p u ed e ap ro x im arse al área que q u ed a deb ajo de la
cu rv a lisa al in te rio r de cu alq u ier intervalo dado. Es lo que
indica la fig u ra VII.2. A m edida q u e el n ú m ero de rectángulos
au m enta, el á rea to tal de los rectángulos se convierte en u n a
aproxim ación cada vez m e jo r al á rea que q u ed a b a jo la curva
lisa. E sto puede verse observando que las á reas ach u rad as se
van h acien d a cada vez m ás pequeñas. E n el lím ite, pues, el á rea
d eb ajo de la curva lisa p u ed e o b ten erse sum ando las áreas de
u n n ú m ero in definidam ente gran d e de rectángulos. Y com o quie­
r a q u e el á rea deb ajo d e los rectángulos es la unidad, el área
d eb ajo de la curva lisa será asim ism o igual a la unidad. El p ro ­
ceso q ue acabam os d e d escrib ir es exactam ente la clase de proce­
so que se h alla en la ra m a d e las m atem áticas designada com o
cálculo.
1 La noción de límite se examina también en la sección IX.l.
VII.2. F orm a general de la curva norm al
La curva n o rm al es u n tipo especial de curva lisa sim étrica.
Como q u iera q ue la curva norm al es lisa, perfectam en te sim étrica
y se b asa en un n ú m ero indefinidam ente grande de casos, sólo es
posible ap ro x im arse a la m ism a m ediante distribuciones de fre ­
cuencia que co m p o rtan datos efectivos. Tiene fo rm a de cam pana
y posee cierto n ú m e ro de propiedades m atem áticas notables, al­
gunas de las cuales se señalarán brevem ente. Como q uiera q u e es
sim étrica y unim odal, su m edia, m ediana y m odo coinciden. La
fo rm a general de la d istribución n o rm al se indica en la fi­
g u ra VII.3.
* L a ecuación m atem ática de la curva n orm al es relativam ente
sencilla en las n o rm as de los m atem áticos. A unque el lecto r no
h a b rá de em p lear n u n ca dicha fórm ula, ya que se h an confeccio­
n ad o cuadros con ta l objeto, será ú til, sin em bargo, que la vea,
p a ra señ alar y v erificar algunas de las propiedades de e s ta dis­
trib u ció n teórica. La fórm ula es com o sigue:
Y = - - - - - -- - - -
- e - ( x - x ) * / 2 í*
sV2jc
e n donde Y es la a ltu ra de la curva p a ra u n valor determ inado
d e X . Como q u ie ra que ta n to jt com o e son co n stan tes (iguales
resp ectivam ente a 3.14 y 2.72), la fó rm u la sólo com porta dos m e­
didas de resum en, la m edia X y la desviación e stá n d a r s? P or
lo tan to , la fo rm a exacta de la curva n o rm al será conocida si se
nos dan los valores de dichas m edidas. E n otros térm in o s: hay
m uchas curvas n orm ales, u n a p a ra cada com binación d e la m edia
y de la desviación están d ar.
* R ecordando que u n a can tid ad afectad a de u n exponente ne­
gativo pued e esc rib irse com o la recíproca de dicha ca n tid a d ele2 Cuando lleguemos a la estadística inductiva se introducirá otra nota­
ción para la media y la desviación estándar. La fórmula de la curva nor­
mal suele escribirse en términos de una media de ¡i y una desviación es­
tándar de o.
vada a la p o ten cia positiva, podem os esc rib ir la fó rm u la com o
sig u e :
en la que e h a sido su stitu id a p o r su valor num érico. Suponga­
m os q ue el v alo r de s es fijo, y busquem os el v alo r d e X p a ra el
Fig. V II.4. C om paración d e curvas norm ales d e igual desviación
estándar pero d e m edias d iferen tes
cual Y será u n m áxim o. E s obvio q u e Y será m áxim a cuando
el d enom inador incluido en los p arén tesis sea m ínim o. P ero dicho
den o m in ad o r co n sta de u n n ú m ero positivo m ay o r que la unidad
elevado a u n a p o ten cia que n o p u ed e se r negativa, ya que u n
n ú m ero real cu ad rad o n o puede se r n u n ca m e n o r que cero.
P o r consiguiente, el denom inador alcanzará su m ínim o cuando
éi exponente sea cero. Y esto o c u rrirá cuando X ad o p te el valor
de X , ya que ten d rem o s X — X — 0. E sto m u e stra q u e el m odo
(y, p o r consiguiente, la m ed ia y la m ed ian a) es realm en te X , he­
cho q ue ya se h a b ía señalado, p e ro sin dem ostrarlo. Podem os
ver, asim ism o, que la ecuación da u n a curva que es sim étrica
alred ed o r de X . Como q u iera que la can tid ad X — X está al cua­
d ra d o y no puede, p o r consiguiente, ser negativa, las desviaciones
resp ecto de X e n u n a u o tra dirección p ro d u c irán valores idén­
ticos de Y .
La ecuación específica p a ra to d a curva n orm al p a rtic u la r pue­
de o b ten erse em pleando los valores propios de I y s. E n la fi­
gura V II.4 p u ed en verse curvas n o rm ales de la m ism a desviación
están d ar, p ero d e m edias distin tas. P o r o tra p a rte , las curvas
de desviaciones e stá n d a r d istin tas v a ria rá n en la configuración de
las cúspides, ta l com o se indica en la fig u ra V II.5. C uanto m e­
n o r sea la desviación norm al, ta n to m ás p u n tiag u d a re su ltará
la curva.
H a b ría q ue señ a la r que no to d as las curvas sim étricas en fo r­
m a de cam pana son norm ales. A unque las curvas de la figura
VII.5 difieran e n cu an to a las cúspides, e sto se debe únicam ente
a diferencias en sus desviaciones norm ales. Todas ellas son n o r­
m ales en cu an to a la form a. P o r regla general, las curvas sim é­
tric a s unim odales p u ed en ser m ás o m enos puntiagudas o apla-
Fig. VII.5. C om paración d e dos curvas norm ales d e m edias
iguales p ero con desviaciones estándar diferentes
n ad a s q u e la curva norm al, au n siendo su s desviaciones e stán ­
d a r las m ism as. Algunas de estas curvas pueden verse e n la
fig u ra VII.6. Las que son m ás p u n tiag u d as que la n o rm al se de-
Fig. V II.6. C om paración d e una curva norm al con curvas de su
m ism a desviación estándar pero d istin ta s en m a n to a las cim as
signan com o leptocúrticas y las m ás p lan as que aquélla com o
platicúrticas. A d iferencia de la curva n o rm al, las ecuaciones de
las curvas lep to cú rticas y p laticú rtica s tien d en a c o m p o rta r m e­
didas de resum en, adem ás de la m edia y la desviación estándar.
VII.3. Á reas bajo la curva norm al
Con frecu en cia es n ecesario d e te rm in a r la p ro p o rció n de casos
que quedan al in te rio r de u n in terv alo dado. A fortunadam ente,
la curva n o rm al posee u n a p ro p ied ad im p o rtan te que hace que
dicha ta re a re su lte relativam ente sencilla. E n efecto, resulta
q u e in d ep en d ien tem ente de la m ed ia o de la desviación n o r­
m al que u n a curva ostente, h a b rá u n área constante (o p ro p o r­
ción de casos) en tre la m edia y una ordenada, que es una distan­
cia determ inada a partir de la m ed ia en térm inos de unidades
de desviación estándar. La figura V II.7 ayuda a ilu s tra r el sen­
tid o de e s ta afirm ación.
Así, pues, si vam os en u n a desviación está n d a r a la derecha
d e la m edia, en co ntrarem os siem pre .3413 del á rea incluida en tre
la m edia y la o rd e n ad a en dicho punto. P or consiguiente, dos
veces dicha área, o .6826 e sta rá n incluidas e n tre las dos ordena­
d a s situ ad as a u n a desviación e stá n d a r a am bos lados d e la m edia.
E n o tro s térm in o s: u n poco m ás d e dos tercios de los casos se
e n c o n tra rá n siem pre en el in te rio r de una desviación están d a r
de la m edia. Y en fo rm a análoga, el área com prendida e n tre la
m ed ia y la o rd en ad a a dos desviaciones e stá n d a r de aquélla será
siem p re .4773 y, p o r lo tan to , u n poco m ás del 95 p o r ciento del
á re a e sta rá co m prendido e n tre la p a re ja de o rdenadas a dos des­
viaciones e s tá n d a r a am bos lados de la m edia. P rácticam ente,
todos los casos esta rá n com prendidos en el in te rio r de tres
desviaciones e s tá n d a r de la m edia, aunque la curva n o rm al se
ex tien d a teó ricam ente al in fin ito en am bas direcciones. P o r su­
puesto, las d istancias de la m edia n o necesitan se r siem pre m úl­
tiplos exactos d e la desviación están d ar. M ediante u n procedi­
m ien to que vam os a d escrib ir en breve, es posible d eterm in a r las
áreas e n tre dos o rdenadas cualesquiera. P or ejem plo, si nos
ap a rtam o s e n 1.96 desviaciones e stá n d a r a am bos lados de la
m edia, com prenderem os casi exactam ente el 95 p o r ciento del
área, en ta n to q ue e n tre las ordenadas a 2.58 desviaciones n o r­
m ales de la m ed ia q u ed ará incluido el 99 p o r ciento del área.
E sta p ro p ied ad de la curva n orm al b rin d a u n a in terp retació n
de la desviación n orm al y u n m étodo p a ra re p re s e n ta r en fo rm a
visual el significado de e s ta m edida de dispersión. C ierto núm ero
de distrib u cio n es em píricas de frecuencia son lo b a sta n te sem e­
jan te s p a ra q ue estas relaciones e n tre las áreas y la desviación
n o rm al se verifiquen razonablem ente bien. Inclusive en el caso
de d istribuciones de ingresos, que p ropenden a disto rsio n arse en
la dirección de los ingresos elevados, encontram os norm alm ente
dos tercios de los casos en el in te rio r de u n a desviación está n d a r
de la m edia. H ay que te n e r presente, con todo, que au n q u e la
curva n o rm al p ro p o rcio n a u n a interpretación de la desviación
están d ar, esta p ro p ied ad no pu ed e em plearse p a ra d efin ir lo
que se en tien d e p o r desviación están d ar. L a definición se hace
en térm in o s de la fórm ula. La propiedad en cuestión sólo se
verifica en el caso de distribuciones norm ales o aproxim ada­
m en te tales.
R esulta posible to m a r cualquier curva n o rm al y tra n sfo rm a r
sus valores num éricos de ta l fo rm a que p u ed a utilizarse u n sim ­
p le cu ad ro p a ra evaluar la p roporción de casos al in te rio r de
cu alq u ier intervalo deseado. Vam os a ilu s tra r este proceso p o r
m edio de u n ejem plo num érico. Supongam os que tenem os u n a
cu rv a n o rm al con u n a m edia de 50 y u n a desviación está n d a r
de 10. B usquem os la pro p o rció n de los casos en el intervalo de
50 a 65. E m pezam os p o r d eterm in a r a cuántas desviaciones es­
tá n d a r se h alla 65 de la m edia 50. P ara ello tom am os la diferencia
e n tre estos dos valores, esto es, 15, y dividim os e n tre la m agnitud
de la desviación están d a r. E n el p re sen te caso el re su ltad o es
1.5. De m odo general podem os servirnos de la fó rm u la:
X -X
Z = -----------s
10
en donde X es el valor de la ord en ad a y Z re p re se n ta la desvia­
ción con resp ecto a la m ed ia en unidades d e desviación están d ar.
* Antes de ex am inar cóm o p u ed e u tilizarse el valor num érico
d e Z p a ra d eterm in a r la pro p o rció n de los casos e n tre la m edia
y la o rd en ad a co rrespondiente a Z, perm ítasen o s d a r u n a in te r­
p retació n altern ativ a de ésta. Podem os p e n sa r en térm in o s de
u n a tran sfo rm ació n efectiva de la variable X en la variable Z.
E n ta n to q u e la d istribución d e la variable X es n orm al con una
m ed ia de X y u n a desviación e stá n d a r de s, la nueva variable,
en cam bio, es n o rm al con u n a m edia de cero y u n a desviación
e s tá n d a r de uno.8 E sta desviación con u n a m edia cero y u n a
3 La verificación de este hecho se deja como ejercicio (véase ejercicio 3).
desviación e s tá n d a r de uno se designa com o fo rm a estándar, y
la Z se designa a m enudo com o la marca. La tran sfo rm ació n de
variables se ilu s tra en la figura VII.8. S ustraem os de cada X la
co n stan te X . Al s u s tra e r este valor co n stan te (aq u í 50) de cada
X , hem os co rrid o cada m arc a original en 50 unidades a la izquier­
d a y, p o r lo tan to , hem os desplazado efectivam ente la curva
Fig. VII.8. C om paración de las fo rm a s estándar y general de la
curva norm al
n o rm al original a u n a posición d irectam en te sobre el origen.
E sto tien e en cu en ta el n u m era d o r en la expresión d e Z. Divi­
dim os ah o ra cad a diferencia X — X e n tre la m ag n itu d d e la des­
viación están d a r. Al hacerlo, o estrecham os la curva o la ensan­
cham os, según que su desviación e stá n d a r sea o n o m ayor que
la un id ad . Podem os, pues, p e n s a r que hem os desplazado prim e­
ro la posición d e la curva n orm al original y q u e luego hem os
cam biado la m ag n itu d de la desviación están d a r, de m odo que
quede so b re la fo rm a están d a r. Al dividir e n tre la desviación es­
tá n d a r de 10, hem os cam biado esencialm ente las unidades a lo
larg o del e je horizontal, d e m odo que u n a distancia de 10 sobre
el eje de X co rresponde a la d is ta n d a de 1 sobre el e je de Z.
In d ep en d ien tem en te de la in terp re tació n que se dé, un valor
de Z = 1.5 in d ica que la o rd e n ad a se en c u en tra a 1.5 desviaciones
e stá n d a r de la m edia. E n el caso de la fo rm a están d a r, esto sig­
nifica, p o r supuesto, que la o rd e n ad a m ism a coincide con el va­
lo r 1.5 de la escala Z. Se h a n co n stru id o tablas que m u estran
áreas exactas p a ra la fo rm a e stá n d a r d e la cu rv a norm al. El
cu ad ro C del A péndice 2 es u n a de ellas. Los valores de Z se dan
de a rrib a a b a jo en el m argen izquierdo, y horizontalm ente arrib a.
Los dos dígitos de Z se o btienen leyendo de a rrib a abajo, y el
terc ero leyendo horizontalm ente. L as cifras del cuerpo del cua­
d ro indican la p roporción del á rea e n tre la m edia (o sea cero)
y la o rd e n ad a co rresp o n d ien te a Z. E n el ejem plo an terio r, ve­
m os que se hallan contenidas e n dichos lím ites las .4332 del área.
Si Z h u b iera sido 1.52, el área co rrespondiente h a b ría sido .4357.
VII.4. Ilustraciones suplem entarias del em pleo de la tabla norm al
Supongam os que querem os h a lla r el área ach u rad a de la curva
norm al indicada en la fig u ra VII.9. E n este caso el valor de Z e s :
143 - 168
-25
12
~12~
= -2 .0 8
El hecho de que Z sea negativa indica sim plem ente que el área
ach u rad a se sitú a a la izquierda de la m edia. Al u tilizar la tabla
F ig .
VII.9. Curva norm al, con porción achurada representando
el área en una sola cola
norm al, el signo de Z puede ignorarse, ya que la curva es p e r­
fectam ente sim étrica. Del cu ad ro vem os que el área com pren­
dida e n tre la m edia y u n a Z de 2.08 es .4812. Como quiera que
el á rea to tal es la unidad, el á rea a la izquierda de la m edia h a
de se r .5 (p o r sim etría). P or consiguiente, el área ach u rad a puede
o b ten erse re sta n d o el área com prendida e n tre la m edia y la
o rd en ad a del área to ta l a la izquierda de la m edia. Así, p u e s :
(P ro p o rción de casos ^ 143) = .5000 — .4812 = .0188
P or lo tan to , m enos del 2 p o r ciento de los casos tienen m arcas
in ferio res o iguales a 143.4 El tipo de problem a ilustrado en este
ejem plo es m uy co rriente, debido al hecho de que las com pro­
baciones d e hipótesis casi siem pre com prenden las colas de u n a
d istrib u ció n de frecuencia. Si hubiéram os qu erid o h allar el área
4 En una distribución continua, la proporción de los casos que sean exac­
tamente 143.0 será cero. Esto puede verse si imaginamos dos ordenadas
extremadamente próximas una de otra. La proporción de casos entre estas
dos ordenadas será también muy pequeña. Y si a continuación dejamos
que las dos ordenadas se vayan aproximando indefinidamente, la propor­
ción de los casos se hará infinitamente pequeña. Recuérdese que la línea
matemática no tiene grueso. En la práctica podrá haber algunos casos con
marcas de 143.0, debido a defectos de medición. Sin embargo, como quiera
que estamos tratando de una distribución teórica, no importa que la orde­
nada ella misma se incluya o no en el intervalo. En adelante, nos referi­
remos simplemente al área entre dos ordenadas (pero sin comprender a
éstas), o área inferior a un valor dado.
to ta l fu e ra de la región definida p o r 168 ± 25 (com o la indican las
á re a s ac h u rad a s de la fig u ra V II.10), h ab ríam o s doblado simplem e n te el re su lta d o an te rio rm e n te obtenido, ya que las dos áreas
ac h u rad a s son exactam ente del m ism o tam año.
P a ra to m a r o tro ejem plo, supongam os q u e necesitam os obte­
n e r el área a c h u rad a indicada e n la fig u ra V I I .ll. E s ta á rea se
Fig. V II.10. C urva norm al, con porciones achuradas presentando
áreas en am bas colas
calcu la h allan d o p rim ero la p ro p o rció n de casos e n tre la m edia
y la o rd e n ad a B y su strayendo luego la p roporción de casos e n tre
la m ed ia y la o rd e n ad a A. Las Z co rrespondientes a B y A son
re sp ectiv am en te 2.0 y 1.2. Tenem os, p u e s:
P rop o rció n e n tre B y la m ed ia
P rop o rció n e n tre A y la m ed ia
P roporción e n tre A y B
.4773
.3849
.0924
P o r consiguiente, ligeram ente m ás del 9 p o r cien to d e los casos
q u ed a n e n tre .42 y .46. O bsérvese que si se h u b ie ra deseado obte-
Fig, V I I .ll. Curva norm al con porción achurada, representando
el área entre d o s ordenadas
n e r el á re a e n tre o rdenadas a am bos lados de la m edia, el resu l­
ta d o se h a b ría obtenido m ás fácilm ente p o r adición que p o r
su stracció n .
G losario
Leptocúrtico
Distribución de frecuencia límite
Curva normal
Platicúrtico
Marca estándar
E jercicios
1. Ya se calcularon la media y la desviación estándar de los datos del
ejercicio 1, capítulo iv. ¿Cuál fue la proporción de los casos dentro
de una desviación estándar de la media? ¿Al interior de dos desviacio­
nes estándar? ¿De tres desviaciones estándar? ¿Con cuánta aproxima­
ción corresponden dichas cifras a las que encontraríamos si la distri­
bución fuese exactamente normal? Contéstese a las mismas preguntas
en relación con el ejercicio 2, capítulo iv. Compárense y expliqúense
las diferencias entre los resultados de los dos grupos de datos.
2.
Si la media de una distribución normal es de 80 y su desviación
estándar de 12,
a) ¿Qué proporción de casos se halla entre 80 y 93? Respuesta, .3606.
b) ¿Qué proporción de casos se halla entre 90 y 105? ¿Entre 70 y 105?
Respuesta, .1838.
c) ¿Qué proporción de casos es inferior a 68?
d) ¿Cuántas desviaciones estándar se necesitarían a ambos lados de
la media para obtener dos colas que comprendan cada una el 2
por ciento exactamente del área total? ¿El 10 por ciento del área
total? Respuesta, 2.054.
ej ¿Cuál m arca tiene por encima de ella el 4 por ciento de los casos?
(en otros términos, sitúese la percentil 96).
* 3. Verifiqúese que la form a estándar de la curva normal tiene una
media de cero y una desviación estándar igual a la unidad. (Indica­
ción: vuelva a escribirse la fórmula de la curva normal en términos
de Z, aprovechando el hecho de que Z = (X —X)/ s. )
4.
Las calificaciones primarias de diversas pruebas de aptitud y
actitud son tratadas a menudo por los psicólogos como escalas de
intervalo. Dichas calificaciones suelen a menudo convertise luego
en calificaciones estándar con medias y desviaciones estándar conve­
nientes. Supóngase que la calificación media prim aria en un examen
de admisión en la universidad es de 117 con una desviación estándar de
28.5. Supóngase, además, que esas calificaciones primarias están dis­
tribuidas normalmente.
a) ¿Cuál es la proporción de calificaciones por encima de 131? ¿De­
bajo de 79?
b) ¿Cuáles son las calificaciones primarias correspondientes a los
cuartiles primero, segundo y tercero?
*c) En los exámenes de la universidad, las calificaciones primarias
se normalizan de modo que la media de la distribución normal
sea exactamente de 500 y la desviación estándar de 100. Concre­
tamente, ¿cómo se norm alizarán los grupos de datos anteriores
para obtener una medía de 500 y una desviación estándar de 100?
(Indicación: ¿cómo se normalizaría para obtener una media
igual a cero y una desviación estándar igual a la unidad?)
B ibliografía
1. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2‘ ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 6.
2. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 14.
3. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning
in Sociology, 2‘ ed., Houghton Mifflin Company, Boston, 1970,
cap. 6.
4. Weinberg, G. H., y J. A. Schum aker: Statistics: An Intuitive Approach, Wadsworth Publishing Company, Inc., Belmont, Cal., 1962,
cap. 8.
5. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons, Inc.,
Nueva York, 1968, pp. 147-156.
T ercera P arte
E S T A D ÍS T IC A IN D U C TIV A
E l objeto de este breve capítulo está en d a r u n b osquejo genera l de la estad ística inductiva y, en p artic u la r, de los razo n a­
m ien to s que se h allan a la base de la verificación de las h ip ó ­
tesis estadísticas. E s m u y fácil verse ta n ab ru m ad o p o r ios
detalles de cad a p ru e b a p a rtic u la r en co n trad a, que re su lte im ­
posible p e rc ib ir las sem ejanzas q u e to d as ellas tien en en co ­
m ún. E n ta l caso, el aprendizaje de la estad ística p u ed e con­
v ertirse fácilm ente en u n ejercicio de "re c e ta rio ” co n sisten te
e n a p re n d e r de m em o ria las fórm ulas y los p rocedim ientos. P o r
ello este capítulo es m uy im p o rtan te y deb ería releerse a te n ta ­
m en te u n a vez que el le c to r haya visto las dos o tres p rim e ra s
p ru e b as específicas.1
V III.l. E sta d ística y parám etros »
E l o b jeto de las generalizaciones estad ísticas está en decir algo
acerca de diversas ca rac te rístic as de la población estu d iad a, so ­
b re la b ase de h echos conocidos a p ro p ó sito de u n a m u e s tra sa­
cad a de dicha población o universo.2 D esignarem os las c a ra c te ­
rísticas de la población com o parám etros, en c o n tra ste con las
carac te rístic as de la m u estra, que se designan com o estadísticos.
A estas altu ras, el le c to r está ya fam iliarizado con cierto n ú m ero
de p arám etro s y e stad ísticas: m edias, m edianas, proporciones,
desviaciones están d a r, etcétera. Llegado aquí, el le c to r d eb ería
h ac er u n a distinción p recisa e n tre las carac te rístic as q u e se re ­
fieren a la población y las que se refieren a la m u estra. P a ra de­
sig n ar las p rim eras suelen p o r lo re g u la r em plearse las le tra s del
alfab eto griego, e n ta n to que las le tra s latin as designan las carac­
te rísticas de la m u estra.3 Así, pues, en ad elan te designarem os la
m ed ia de la población con jx, y la de la m u e stra con X ; la desvia­
ción e stá n d a r de la p rim e ra con a, y la de la m u e stra con s.
P uede establecerse u n a distinción im p o rta n te e n tre p a rá m e tro s
y estadísticas. E n efecto, los p arám etro s son valores fijos re fe ­
rid o s a la población y, p o r lo regular, no se conocen.4 Así, p o r
1 Un momento muy adecuado para la nueva lectura será después del ca­
pítulo XI.
2 Los términos población y universo ( universe ) suelen ser intercambiables,
en la literatura estadística.
8 Por desgracia, esta regla comporta cierto número de excepciones,
4 Los parámetros se tratarán siempre como fijos, aunque en realidad pue­
dan variar con el tiempo. Así, por ejemplo, la edad promedio de una po­
blación variará de un momento al próximo. Por ello deberá entenderse la
noción de muestras repetidas en términos de un gran número de muestras
sacadas simultáneamente, y no en secuencia temporal. En muchas ocasio119
ejem plo, en cualquier m om ento dado, la edad o el grado prom e­
dios de todos los estu d ian tes de la U niversidad de H arvard p u e­
den no conocerse, p ero se h allarán probablem ente ser los m is­
m os p a ra todos los observadores. Las estadísticas varían, por
o tra p arte, de u n a m u estra a otra. Si se escogieran al azar 10
m u estras d iferentes de estudiantes universitarios, no esperaría­
m os que todos ellos p re sen tara n exactam ente las m ism as edades
prom edios. Es m ás, desconfiaríam os si fu e ra así. A diferencia
de los p arám etro s, los valores de las estad ísticas de uria m u estra
d eterm in ad a se conocen o pueden calcularse. P ero no sabem os,
sin em bargo, c u á n rep resen tativ a sea la m u estra en relación con
la población, o h asta qué pu n to la estadística o b ten id a se aproxi­
m e al p a rá m e tro desconocido com parable.
Lo que nos in tere sa efectivam ente es la población, y n o en una
m u estra p a rtic u la r cualquiera. E n efecto, escogem os u n a m u estra
p o r razón de conveniencia, p ero n u e stro objetivo consiste p rá cti­
cam ente siem pre en sacar conclusiones a p ro p ó sito de diversos
p arám etro s de la población; sobre la base de estadísticas de
m u estras conocidas, sin duda, p e ro sin im p o rtan cia en sí m ism os.
E n las verificaciones de hipótesis form ulam os supuestos a p ro ­
p ó sito de los p arám etro s desconocidos, y preg u n tam o s a conti­
nuación cóm o serían n u estras estadísticas específicas si dichos
supuestos fu e ran correctos. Al p ro ced er así, trata m o s de decidir
racionalm ente si los valores supuestos de dichos p arám etro s son
o n o razonables a la vista de la evidencia de que disponem os.
P o r lo tan to , la verificación de hipótesis puede considerarse como
u n a fo rm a especial de proceso de decisión. Como q uiera que los
raciocinios q ue se hallan a la b ase de las hipótesis son m ás bien
com plejos, no e s ta rá p o r dem ás exam inarlos aquí brevem ente. E n
capítulos sucesivos verem os cóm o se aplican a las verificaciones
específicas.
VIII.2. Pasos en la verificación de una hipótesis
E n ciencias sociales el térm in o de hipótesis se em plea en cierto
n úm ero de sentidos distintos. A veces se utiliza p a ra designar
u n a proposición teó rica que p re sen ta alguna re m o ta posibilidad
de verificación indirecta. O tras veces, en cam bio, se em plea p a ra
designar el tip o de afirm ación que puede efectivam ente com pro­
b arse estadísticam ente. Con o b jeto d e re d u c ir la confusión será,
pues, conveniente in d icar cóm o se em plea el térm in o en este
texto. Los criterios utilizados p a ra definir lo que debam os en-
nes, nuestro objetivo científico consiste en realidad en deducir la naturaleza
de los procesos causales que dan origen a los valores de población, los que
suponemos son fijos. Al estudiar estadística parece sin embargo prudente
limitarse inicialmente al concepto más simple de generalización de poblacio­
nes fijas.
ten d er p o r verificación de u n a hipótesis son m ás bien estricto s
y d escartarían m uchas de las llam adas "p ru eb as” que se encuen­
tra n en la lite ra tu ra co rrien te en m ateria de ciencias sociales. Sin
em bargo, son adecuados a los requisitos m ás b ien rígidos estable­
cidos p o r los estadígrafos. E n cuanto tales, en efecto, rep resen ­
ta n u n ideal con referencia al cual puede com pararse el carácter
adecuado o inadecuado de cualquier com probación real.
La hipótesis es u n enunciado acerca de un acontecim iento fu­
tu ro , o de u n acontecim iento cuyo resu ltad o se desconoce e n el
m om ento de la predicción, form ulado de m odo que pueda descar­
tarse. 0 en térm inos m ás precisos, digam os que se h a com pro­
b ad o u n a hipótesis cada vez que se h an efectuado los siguientes
p asos:
1. Todos los re su ltad o s posibles del experim ento u observación
se h an anticipado a la verificación.5
2. Se h a llegado a u n acuerdo, antes de p ro ced er a la verifica­
ción, acerca de las operaciones o procedim ientos a em p lear e n la
determ inación de cuáles resultados se p ro d u c ía n efectivam ente.
3. Se h a decidido previam ente cuáles de los resultados im plica­
rán, caso de pro d ucirse, el d escarte de la hipótesis y cuáles su
confirm ación. Como re su lta de lo indicado m ás arrib a, el d escarte
h a de h ab erse ten ido en cuenta com o u n o de los resultados po­
sibles.
4. Se h a efectuado el experim ento, o se h a observado el acon­
tecim iento, se h an reg istra d o los re su ltad o s y se h a decidido si la
hipótesis quedaba o n o descartada.
Los p asos que se acaban de e n u m erar son m uy generales. La
inducción estad ística tiene que ver an te to d o con los pasos 3 y 4,
ya que el estadígrafo h a de suponer que los dos p rim ero s pasos
se h a n efectuado ya. T endrem os ocasión de ver en qué fo rm a
los dos últim os pasos se hacen m ás específicos en u n a com proba­
ción estadística. Tal vez lo m ás significativo de la lista an terio r
es el de que to d as las decisiones deben se r tom adas antes de reali­
zar la pru eb a. Todos los resultados posibles se dividen en dos cla­
ses, a sa b e r: los que co m p o rtan d escarte y los que no. Si eso no
se h ace con a n terio rid ad a la prueba, re su lta posible re te n e r u n a
hipótesis cam biando sim plem ente las reglas a m edida que se avan­
za. E sto equivale a lo m ism o que lo que h a ría u n niño que ech ara
a c a ra o cruz p a ra decidir si va o n o al cine. É ste decide, en efec­
to, "cara, v o y ; cruz, n o voy”. Si sale c a ra va al cine. P ero si sale
cruz, decide h acer depender el éxito de dos cara o cruz sobre tres
y sigue echándolos. E n e sta fo rm a acaba siem pre yendo al cine,
a m enos que p ierd a la m oneda (resu lta d o que n o h ab ía antici­
p ad o ).
5 El término experimento lo emplea el estadígrafo en un sentido muy am­
plio. Un experimento puede consistir, por ejemplo, en interrogar a un ama
de casa y anotar el "sí” o el "no” a una pregunta concreta.
*
Ya se indicó en el capítulo n que la p ru e b a sólo puede h a­
cerse acerca d e u n a proposición fo rm u lad a en conceptos que se
hay an definido operativam ente. El p aso 2 indica que h ay que po­
n erse de acuerdo, con an terio rid ad a la pru eb a, acerca de las
definiciones o perativas. A m enos que sea así, re s u lta siem pre
posible re te n e r u n a hipótesis, independientem ente del re su lta­
do, d escartan d o los m étodos em pleados. S upóngase que alguien
enuncia com o hipótesis suya que “cu an to m ás elevada sea la
posición social de u n a persona, ta n to m enos p ro b ab le será que
sea m uy e tn o cé n trica”. Si los resu ltad o s n o co nfirm an esta pro­
posición, p o d rá alegar que la m edida "posición social” o "etno'cen trism o ” n o m ed ía lo que se la suponía m edir, y q u e algún o tro
índice (q u e confirm e su teo ría ) es m ás adecuado. Así, pues, p a­
rece p referib le re se rv a r el térm in o de h ipótesis p a ra designar
enunciados q ue se hallen al nivel operativo y p u ed an d escartarse
fran cam en te. E n efecto, si n o se puede llegar de antem ano a
u n acu erd o acerca del procedim iento, es difícil que se produzca
acu erd o a p ro p ó sito d e los resultados. Como ya se indicó en el
capítulo II, este p u n to de v ista no niega, con todo, la im p o rtan cia
de la teo ría, n i im plica que las definiciones operativas sean las
únicas n ecesarias p a ra el desarrollo de la ciencia.
El te rc e r p aso es crítico, y a que la decisión que se adopte
c o m p o rtará p o r lo re g u la r ciertos peligros de erro r. E n algunos
casos el p ro b lem a es relativ am en te sencillo. N o todas las verifi­
caciones de las hipótesis re q u ie ren inducción. E n efecto, puede
fo rm u larse u n a hipótesis a p ro p ó sito del re su ltad o de u n acon­
tecim iento concreto, tal, p o r ejem plo, u n p a rtid o de fútbol. Po­
dem os p red ecir, p o r ejem plo, que el equipo A g an ará al equipo B .
A condición que existan criterio s p a ra d eterm in a r si los proce­
dim ientos acordados se h an seguido adecuadam ente o no, las
pro b abilidades de e r ro r en cu an to a decidir si h ay que d esc artar
o no sem ejan te tip o de hipótesis son escasas. Sin em bargo, si la
inform ación se basa en u n a m u e stra de acontecim ientos sacado
de u n a población m ayor, existe m ay o r riesgo de erro r. E n efecto,
d escartam o s o dejam os de d e sc a rta r la hipótesis dándonos cuen­
ta de que, ya que n u e stro ju icio sólo se b asa en u n a m u estra,
hem os de a d m itir siem pre la posibilidad de e r ro r debida a la
fa lta de c a rá c te r suficientem ente rep resen tativ o del m ism o. Es
la teo ría de las probabilidades la que nos p e rm ite a p re c ia r los
riesgos de e r ro r y tom arlos en consideración al decidir acerca
de los criterio s que hay que em p lear p a ra d e sc a rta r las hipóte­
sis. E n las próxim as secciones se exam inarán dos tipos d e e r ro ­
re s posibles. Podrem os luego volver a la cuestión del papel que
juega la estad ística en las verificaciones de las hipótesis in­
ductivas.
V III.3. La falacia de afirm ar el consecuente
A m en u d o n o existe m an era alguna de v erificar n u e stra s p ropo­
siciones o teo rías m ás im p o rtan tes. E n lu g ar de ello, extraem os
de ésas u n a serie de consecuencias que d eberían p ro d u cirse si la
proposición o teo ría original fuese cierta, y es la validez de estas
consecuencias la que se d eja d eterm in a r p o r m étodos em píricos.6
Así, pues, la p ru eb a de la teo ría original es indirecta. La teo ría A
im plica determ inadas consecuencias B , o bien, en fo rm a sim bó­
lica, A = > B. H ay que recalcar que, al p a s a r de A a B , se em ­
plea m ás bien el razonam iento lógico o deductivo que la p ru e b a
em pírica. P o r consiguiente, si A es cierto, B lo h a de se r tam bién,
a condición que n u e stro razonam iento al deducir A de B sea
válido. Vemos luego si B se h a p roducido o n o ; si B n o se h a
p ro d u cid o (B falso), entonces sabem os tam bién que la teo ría A
h a de se r falsa asim ism o.
P ero, ¿qué o cu rre si B re su lta se r cierto ? ¿Podem os decidir
q ue A deba serlo asim ism o? No. Si lo hacem os, com etem os la
falacia de afirm a r el consecuente, com o los lógicos aco stu m b ran
llam arlo. Si B es cierto, podem os decir que A puede se r cierto,
p ero p o d ría h a b e r o tro nú m ero cualquiera de teorías altern ativ as
q u e im plicaran tam bién B. N o podem os e sta r seguros de que A
sea necesariam ente cierto, a m enos que podam os d em o strar que
n o existe o tra teo ría altern ativ a válida C p a ra la cual C = y B .
P o r desgracia, no estam os p rácticam en te n u n ca en condiciones
de hacerlo, y p o r ello m ás bien hem os de p ro ced er p o r elim ina­
ción de teorías que p o r su aceptación definitiva. La b u en a teo ría
es la que no se d eja elim inar, a condición, p o r supuesto, que se la
enuncie en fo rm a que se deje elim inar.7 En o tro s térm in o s:
h a de co nducir á hipótesis que se dejen elim in ar ellas m ism as.
Si dejam os de d e sc a rta r A cuando B es cierto, correm os riesgo
d e equivocarnos, y a q u e A puede en re alid ad ser falso. E n esta­
dística, ese tip o de e rro r, o sea el error de no descartar una hi­
p ó tesis efectiva m ente falsa, se designa com o error de tipo I I o (3.
Tal vez u n sencillo ejem plo h a rá que el razonam iento an terio r
se p re sen te com o m enos abstracto. Supongam os que tenem os
u n a te o ría A que co n sta de las tre s proposiciones sig u ien tes: 1)
to d as las p ersonas se conform an a las n o rm as de su sociedad;
« En rigor este enunciado no es totalmente exacto, ya que una teoría pura­
mente deductiva no conduce directamente a hipótesis comprobables. Véa­
se [21.
f El papel del experimento crítico está en poner al científico en condicio­
nes de escoger entre varias teorías alternativas cada una de las cuales ha
resistido previamente a la eliminación. Así, por ejemplo, las teorías A y A'
pueden predecir ambas los acontecimientos Bv B2, ..., Bk, todos los cuales
se producen. Pero A puede predecir que Bk+1 es cierto, en tanto que A'
sostenga que será falso. Si BJe+l es efectivamente falso, entonces A puede
eliminarse, y retenerse, de momento. A'.
2) u n a n o rm a de la sociedad X es la de n o ro b a r; y 3) Jones es
m iem b ro de la sociedad X . Si to d as las p a rte s de la teo ría son
co rrectas, podem os ded u cir B, que Jones n o ro b a rá. Supóngase
que p o r alguna o tra razón n o estam os en condiciones de verifi­
ca r d irectam en te lo c ierto o falso de A, p e ro que estam os en con­
diciones, e n cam bio, de averiguar la co n d u cta de Jones. Es obvio
q ue si Jo nes roba, la teo ría h a de se r in co rrecta, p o r lo m enos
en p arte . E n consecuencia, si B es falso, descartam os
Pero,
si sabem os q ue Jones n o roba, n o p o r ello decidirem os que la
teo ría sea cierta. Tal vez Jones sea sim plem ente m ás honrado
que los otro s. O tal vez ni siquiera sea m iem bro de la sociedad
X . E n sem ejan te caso, si fuéram os a a c e p ta r la teo ría com o co­
rre c ta , co rreríam os u n riesgo considerable de erro r. Llegaríam os
p ro b ab lem en te a la conclusión de que, au n q u e el individuo p a r­
ticu lar en cuestión sea honrado, haríam os m e jo r en suspender
n u e stro juicio.
E l ab su rd o del ejem plo a n te rio r n o h a de o scu recer el pu n to
cap ital de que, siem pre que tengam os u n a te o ría que im plica
d eterm in ad as consecuencias y que éstas, p e ro n o así aquélla, sean
susceptibles de verificación, nos en co n tram o s e n la posición ló­
gica de p o d er d esc artar la teoría, en ta n to que n o podem os acep­
tarla, en cam bio, sin c o rre r el riesgo de equivocam os.
V III.4. La fo rm a de las hipótesis estadísticas
E n ciencias sociales no encontram os proposiciones p o r el estilo
d e la del ejem p lo an terio r, p o r la sencilla razón de que las te o ­
rías acerca del m u n d o real no im plican certid u m b re. E n lugar
de co n sid erar q u e si A es cierto B ha de serlo asim ism o, sostene­
m os solam ente que si A es cierto B lo será probablem ente tam ­
bién. Tenem os así q u e a c e p ta r la posibilidad de que B sea falso
incluso cu an d o A es verdadero. P ero si seguim os la reg la de des­
c a rta r A siem p re que B sea falso, correm os el riesgo de com eter
o tro erro r, esto es, el de descartar una hipótesis cierta. Desig­
nam os esta clase de e rro r com o error de tipo I o a. Sirviéndonos
del ejem plo a n terio r, n u estra s proposiciones h a b rá n de m odifi­
c a rse en el sen tido de d ecir: "la m ayoría de los individuos se
conform an a las n o rm as de su sociedad” y “probablem ente Jones
n o ro b a rá". Si Jones roba, descartam os la teo ría revisada con
cierto riesgo de e rro r, ya que p u ed e con todo se r cierta, porque
es posible que Jo nes sea u n o de los pocos m iem bros n o honrados.
Así, pues, existen dos tipos de e rro r que h ay que te n e r en
cuenta. El p rim e ro que exam inam os (el tip o I I ) procede de la
falacia p u ra m e n te lógica consistente en a firm a r el consecuente.
Y cuando in tro d ucim os elem entos de p ro b a b ilid ad en n u estra
teoría, entonces adm itim os u n tip o adicional de e r ro r (el tipo I).
Aunque h a s ta el p re se n te n o hayam os dicho n ad a todavía a p ro ­
pó sito del razonam iento inductivo en c o n tra ste con el deductivo,
se debe a la necesidad de generalizar m ás allá de los lím ites de
los dato s que se poseen el que debam os servim os de sem ejantes
enunciados de pro babilidad.
¿Q ué fo rm a específica ad o p tan las hipótesis estadísticas? ¿A
q ué se p arecen el A y el B? En realidad, la teo ría A co n sta de
cierto n ú m ero de supuestos acerca del c a rá c te r de la población
y de los procedim ientos relativos a la selección de m uestras,
ju n to con el razonam iento m atem ático necesario p a ra fo rm u lar
enunciados de p ro b ab ilid ad a p ro p ó sito de la de los resu ltad o s
p a rtic u la re s de la m u estra, si los supuestos adoptados son efec­
tiv am en te ciertos. P o r m edio de estos enunciados de probabili­
d ad decidim os con an terio rid ad al tiem po cuáles resultados son
ta n probables, que descartaríam os los supuestos A si estos resul­
tad o s B no se p ro d u jeran . R azonam os, en efecto, en el sentido
de que, si los supuestos son correctos, los resultados de n u estras
m u estras qu ed arán la m ay o r p a rte del tiem p o d en tro de u n de­
term in ad o re co rrid o de resultados. P o r supuesto, sólo extraem os
u n a m u estra, p ero si n u e stro resu ltad o p a rtic u la r cae fu e ra del
reco rrid o , en lo que se denom ina región crítica, rechazarem os
los supuestos, co rrien d o el riesgo de co m eter u n e rro r tip o I.
Así, pues, el B está re p resen ta d o p o r cierto re co rrid o de resu l­
tad o s de m u estras. Si los resultados quedan fu e ra de dicho re­
corrido, entonces B es falso y la hipótesis se descarta. Al decidir
la extensión del re co rrid o a in clu ir b a jo B, hem os de to m a r en
co nsideración (id ealm en te) los riesgos de erro re s de los tipos
I y II.
P ara ilu s tra r el proceso, supongam os que deseam os co m p arar
m u estras de em pleados d e oficina y de o b rero s de ta lle r en rela­
ción con el p o rc en taje de ellos que desean p a ra sus hijos ense­
ñ anza un iv ersitaria. Si querem os realm en te d em o strar que existe
u n a diferencia e n tre dichos dos grupos, procedem os tra ta n d o
de elim in ar la h ipótesis altern ativ a de que n o existe diferencia
alguna. E sto p arece c o n stitu ir u n a m a n e ra de p ro ced er extre­
m ad am e n te in d irecta, p e ro hem os de re c o rd a r que no estarem os
en condiciones de d e m o stra r directam ente que sí hay diferencia.
Con o b jeto de ev itar la falacia de afirm a r el consecuente, hem os
de p ro c ed er a la elim inación de las falsas hipótesis. E n el p re ­
sen te caso sólo existen lógicam ente dos posibilidades : o hay
d iferen cia o no la hay. Si la segunda posib ilid ad se d eja elim i­
n ar, entonces podem os concluir que existe efectivam ente alguna
diferencia.
E stablecem os, p o r consiguiente, la hipótesis de que el porcen­
ta je q u e desea la enseñanza u n iv ersitaria es el m ism o en am bos
grupos o poblaciones. Podem os a co ntinuación d e m o stra r m ate­
m áticam en te que, en el 99 p o r ciento d e todos los p ares posibles
de m u estras, las diferencias e n tre las dos series de po rcen tajes
serían in feriores al 10 p o r ciento si ios supuestos fueran efecti­
va m en te ciertos. E n o tro s térm in o s: B consta de diferencias de
m u estras q ue son inferiores al 10 p o r ciento. Y si realm ente no
existen diferencias e n tre am bas poblaciones, es su m am ente p ro ­
b ab le que los p o rcen tajes correspondien tes a las dos m u estras
caerán d en tro del 10 p o r ciento u n o de otro . Puede, en conse­
cuencia, d ecidirse que, si la diferencia e n tre los po rcen tajes de
las m u estras re su lta se r del 10 p o r ciento o m ás, los supuestos
A h a n de d escartarse. E sto se hace a sabiendas de que en el 1 p o r
ciento de las veces u n a d iferencia de e sta m agnitud o cu rrirá aun
siendo A cierto. E n o tro s térm inos, el riesgo de in c u rrir en u n
e rro r de tip o I (el de d e sc a rta r u n a hipótesis co rrec ta ) será de
u n a p ro b ab ilid ad sobre ciento.
Volvamos ah o ra a la lista original de pasos necesarios en la
verificación de las hipótesis. Ya se señaló que la inducción esta­
dística se ocu pa básicam ente de los pasos 3 y 4. El investigador
an ticip a todos los re su ltad o s posibles de las m u estras y los di­
vide en dos c la se s: aquellos resp ecto de los cuales puede descar­
ta r sus hip ó tesis y aquellos resp ecto de los cuales no puede
descartarlas. E n realidad, lo que hace la estad ística es p ro p o r­
cio n ar los crite rio s a u tilizar en la división de los resultados en
dos clases. E stos resu ltad o s se ponen en u n a u o tra de las dos
clases, de conform idad con los riesgos que se está dispuesto a
asu m ir en cu an to a in c u rrir en los e rro res de tipos I y II. La
m ayor v e n ta ja de los procedim ientos estadísticos con respecto
a los m étodos intuitivos está en el conocim iento que proporcio­
n an acerca d e esos riesgos de erro r.
E xpuesta en esta form a, la estad ística n o parece valer m ucho
la p en a de p reo cu p arse p o r ella. Sin em bargo, el p aso 3 n o r e ­
su lta n ad a fácil d e efectu ar con o tro m éto d o cualquiera. Im a­
gínese, p o r ejem plo, u n experim iento consistente e n e c h ar 25
cara o cru z con u n a m oneda cuya b u en a m an u fa ctu ra se pone
en en tredicho. Supóngase que tra ta m o s de d ecid ir acerca d e los
resu ltad o s que, en caso d e producirse, d arían lu g ar a que llam á­
ram o s la atención a la p erso n a que echa los ca ra o cruz ¿D escar­
taríam o s la hipótesis de q u e el ca ra o cruz es co rrecto si salieran
m ás de 15 caras?, ¿m ás de 18?, ¿o sólo si la m ita d de los cara
o cruz d ieran c a ras? ; ¿si se d ieran 10 caras consecutivas, in d e ­
p en d ien tem ente de los dem ás resu ltad o s? La te o ría de las p ro b a­
bilidades nos p erm ite a p reciar el n ú m ero de ellas que existen de
o b ten er cu alq u ier com binación de resultados e n el supuesto
de que la m oneda fuese co rrecta. Así, pues, escogerem os aque­
llos resu ltad o s que, en dicho supuesto, serían p rácticam en te im ­
probables.
No se esp era en m odo alguno que el estu d ian te q u e se en fren ta
p o r p rim e ra vez con la inducción estad ística com prenda en p ri­
m era lectu ra to d o lo que se acaba de decir acerca de los razona­
m ientos relativos a la verificación de las hipótesis. R econoce­
m os, en efecto, q ue el proceso es com plicado y uno de los que
p arece n p ro p o rcio n ar a los estu d ian tes m ás dificultades que cual­
q u ier o tra p a rte de la estadística. De ahí que el estu d ian te deba
h acer u n esfuerzo especial p a ra co m p ren d er dichos razonam ien­
tos buscan d o las analogías básicas con los m ism os e n tre to d as las
p ru e b as estadísticas. U na vez que la lógica subyacente se haya
p en e trad o a fondo, el aprendizaje d e la estad ística se sim plifica
considerablem ente.
Glosario
Hipótesis
Parámetro
Población
Estadística
Errores de tipo I y II
B ibliografía
1. Ackoff, R. L.: The Design of Social Research, University of Chicago
P rp c c
P.hií'fiífív
1051
c a n . 5.
2. Northrop, F. s! C.: The Logic of the Sciences and the Humanities,
The Macmillan Company, Nueva York, 1947, caps. 7 y 8.
3. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 13.
T odos tenem os sin ninguna clase de duda u n a noción intu itiv a de
lo que se en tien d e p o r probabilidad, au nque n o estem os e n con­
diciones de fo rm u la r del térm in o u n a definición precisa. E n el
len guaje co rrien te hay cierto n ú m ero de p alab ras y frases que
se em plean en fo rm a casi intercam biable con el concepto de
probabilidad, tales com o posibilidades, perspectivas, ventaja,
etcétera. E stos conceptos se em plean en ocasiones en cierto n ú ­
m ero de sentidos diversos. P reguntam os, p o r ejem plo, "¿cuál es
la p ro b ab ilid ad de que hoy llueva?”, refiriéndonos a un aconte­
cim iento singular (el llover hoy) que puede o c u rrir o no en el
futu ro . El enunciado "no es pro b ab le que Jones asesin ara a su
su eg ra” se p arece al an terio r, p e ro se re fiere a un acontecim iento
q u e h a ten id o ya lugar y a cuyo p ro p ó sito nos falta, con todo,
inform ación suficiente p a ra fo rm u la r u n a afirm ación categórica.
Puede u n o re fe rirse a lo que sucederá a la larg a : "si juegas, es
p ro b ab le qu e llegues a p e rd e r h a sta la cam isa”. Aquí la alusión
n o se refiere a que u n o h ay a de p e rd e r la cam isa con u n solo
golpe de dados, sino a lo que o c u rrirá si el experim ento se rep ite
u n gran n ú m ero de veces. "Un niñ o varón, nacido en los E sta ­
dos Unidos, de p ad res blancos nativos, vivirá p robablem ente 65
años.” S em ejante enunciado p arece re ferirse m ás al tipo gene­
ralizado de niño de los cu ad ro s actu ariales q u e a u n Jim m y B row n
co n creto cualquiera.
Es obvio, sin em bargo, que si hem os de h a b la r de la probabi­
lidad de m odo inteligente y, en p artic u la r, si hem os de hacer
in terv en ir al m atem ático, el concepto h a de definirse con la p re ­
cisión suficiente p a ra que todos podam os em plearlo con el m is­
m o sentido. P o r desgracia, sin em bargo, no es ta n sencillo' obte­
n e r u n a definición que satisfaga al p ro p io tiem po al m atem ático
y a n u e s tra noción in tu itiv a de aquello que p o r lo re g u lar enten­
dem os con el térm ino. Según verem os, en efecto, el m atem ático
considera n ecesario p e n sa r en térm inos de probabilidades a vriori,
que en re alid ad n o pueden obtenerse em píricam ente y que no
dependen de cualquier m u estreo p a rtic u la r de datos. E n las
secciones que siguen, el concepto de pro b ab ilid ad se d efinirá en
lenguaje m atem ático y se exam inarán algunas de sus propieda­
des m atem áticas m ás im p o rtan tes. Al p ro p io tiem po tratarem o s
de conseguir que dicha definición y dichas propiedades m atem á­
ticas parezcan razonables a la luz del em pleo y la experiencia
cotidianos.
E n estad ística nos ocupam os en establecer generalizaciones a
p ro p ó sito de u n a población com puesta p o r lo regular de u n
g ran nú m ero de individuos. S em ejante población puede ser u n a
población fin ita realm en te existente —como, p o r ejem plo, la p o ­
blación de los E stados Unidos, o los varones blancos nativos de
m ás de 65 años— y, p o r lo tanto, claram en te delim itable. En tal
caso, tom arem os p o r lo re g u la r algún tip o de m u estra de la po­
blación, y el in terés se dirigirá en p rim e r térm ino a la población
p o r sí m ism a (o a algún subgrupo de ella), m ás que a los indi­
viduos que acontecen fig u ra r en una cualquiera de las m u estras
p articu lares. P ero la población puede tam bién ser una población
hip o tética que im plique, digam os, u n núm ero ilim itado de expe­
rim en to s efectuados “en condiciones sim ilares”. P or consiguien­
te, al estadígrafo n o le in teresan el acontecim iento o el individuo
p articu lares, a no ser en la m edida en que el acontecim iento
o individuo en cuestión puedan ayudarle a o b ten er inform ación a
p ro p ó sito de la población. Como q uiera que este texto es u n
texto de estad ística, nos servirem os en él del térm ino probabili­
dad p a ra re ferim o s no a acontecim ientos p articu lares (llover hoy,
Jones asesino), sino a u n gran nú m ero de acontecim ientos o a
lo que o cu rre a la larga.1
¿Cóm o podem os o b ten er probabilidad desde el pu n to de vista
de acontecim ientos repetidos? E n p rim e r lugar, es m enester p en ­
sa r en térm inos de u n experim ento ideal que se deje re p e tir un
g ran nú m ero de veces "en condiciones sim ilares”. Sin duda, las
condiciones cam bian en la realidad, p ero h a de ser posible im a­
g in ar p o r lo m enos q u e n o lo hacen. En cada uno- de dichos expe­
rim en to s p erfectos h an de an ticip arse todos los resultados. Así,
pues, hem os de ac o stu m b ra m o s a p en sa r en térm inos de una
m oneda ideal que se lanza al aire un gran núm ero de veces, en
circu n stan cias idénticas, y con sólo dos resu ltad o s posibles (c ara
o cru z) en cada cara o cruz. P rescindim os del hecho de que en
el p roceso del lanzam iento de la m oneda real po d ría ac ab ar por
g astarse de m odo irreg u lar, o que en ocasiones se pu d iera m an­
te n e r de canto. A prendem os a concebir u n juego de naipes p er­
fectam en te b arajad o , en el que ninguno de ellos tienda a pegarse
a o tro, pese a que sem ejan te juego no se en c o n trará nunca en lav ida real.
L lam em os todo- re su ltad o o grupo de resultados un "aconteci­
m ien to ”. E n este caso el acontecim iento pu ed e ser sim ple ( que no
i Resulta posible tratar las probabilidades desde el punto de vista del
acontecimiento singular y servirse, con todo, de las propiedades matemá­
ticas que se examinan en la sección siguiente (véase C8]). Sin embargo,
semejante tratamiento presenta por lo menos tantas diferencias conceptua­
les como el que empleamos en este texto.
se d eja desco m poner) o com puesto (u n a com binación de acon­
tecim ientos sim ples). Así, pues, el acontecim iento' A puede ser
u n 6 en u n solo golpe d e d ad o s; el acontecim iento B (com pues­
to ) p u ed e co n sistir en los re su ltad o s 2 y 4, o 6 en u n solo lanza­
m iento, en ta n to que el acontecim iento C (tam b ién com puesto)
puede im p licar la obtención de u n 7 en dos jugadas. P or conven1.00
--
0.75 -
O.
0.25 -
0 __l__i__i__i__i__i... i ...i__ i__I_____________ ,_______
0 10 20 30 40 50
100
«
Núm ero de pruebas
Fig. IX .l. Oscilación de la proporción de éxitos aproxim ándose
al lim ite de .50
ción se u tiliza el térm in o d e éxito cuando el acontecim iento con­
sid erad o se produce, y el de fracaso cuando n o ocurre.2 Puede
e fectu arse el experim ento u n gran nú m ero de veces y obtenerse
la p ro p o rció n d e las veces e n q u e o c u rre cada acontecim iento
p artic u la r.
N o estam os todavía p o r com pleto en condiciones de d a r u n a
definición fo rm al de la prob ab ilid ad . P rim ero, en efecto, hay que
ap e la r al conocim iento del le c to r acerca de qué o cu rre em pí­
ricam en te cu an d o u n experim ento com o el de lan za r u n a m oneda
al aire se re p ite u n gran n ú m ero de veces. Supongam os que em ­
pezam os los lanzam ientos y que a cada décim o ca ra o cruz anota­
m os la razón de los éxitos (digam os " c a ra s” ) al n ú m ero to tal d e
los m ism os. A hora bien, los re su ltad o s obtenidos tienden a ser
sem ejan tes a los que se in d ican en la fig u ra IX.1.
2 Este uso técnico de los términos éxito y fracaso no necesita ser con­
forme al uso general. Así, por ejemplo, el éxito puede indicar la contrac­
ción de la polio o la elección de un demagogo.
En los 10 p rim eros lanzam ientos no esperam os p o r lo regular
o b ten er exactam ente 5 caras, ni aun con u n a m oneda correcta.
Es posible, en efecto, que el núm ero de caras sea 7. La próxim a
serie de lanzam ientos puede contener u n a larga secuencia de
cruces, de m odo que al final de 20 lanzam ientos la proporción
de caras sea de .45. La serie siguiente puede d a r asim ism o m ás
cruces que caras, la próxim a, ligeram ente m ás caras que cruces,
y así sucesivam ente. Después de 100 lanzam ientos con u n a m o­
n ed a n o sesgada esperam os que la p roporción de los éxitos se
sitúe alred ed o r de .5, en ta n to que después de 1 000 lanzam ientos
deberíam os en co n trarn o s aú n m ás cerca de dicha cifra. Así, pues,
esperam os que la razón de los éxitos al nú m ero total de las p ru e ­
bas se establezca de m odo que cese de flu c tu a r m ucho de u n a
serie de 10 lanzam ientos a o tra. D espués de 10 m il pruebas, in­
clusive si obtuviéram os 20 cruces sucesivas (acontecim iento ex­
trem ad am en te im probable), el efecto de ello sería negligente en
la razón en cuestión.3 E n cam bio, si esto se h u b iera producido
en la terc era y cu a rta secuencias, el efecto h a b ría sido p ro n u n ­
ciado. P o r lo tan to, cuanto m ayor es el n ú m ero de las pruebas,
ta n to m ás se va acercando1la razón a u n determ inado valor que
los m atem áticos designan com o "lím ite". Si podem os concebir
que el experim ento se prolongue indefinidam ente, podem os con
p ro b ab ilid ad concebir tam bién que la razón alcance exactam ente
el v alo r lím ite, o sea .5. P or tanto, nos vam os encontrando con
la noción de "in fin ito ” y que los m atem áticos h an hallado que
éste es u n concepto m anifiestam ente am biguo, será preferible
p e n s a r en térm inos de u n nú m ero de p ru e b as extrem adam ente
grande.
*
La noción de lím ite se d eja d efin ir con algo m ás de p reci­
sión. Decimos, en efecto, que la razón se aproxim a a u n lím ite
cuando, habiendo determ in ad o previam ente qué tip o de aproxi­
m ación deseam os, lanzam os la m oneda u n nú m ero finito d e ve­
ces, h a s ta e sta r v irtu alm en te seguros que la razón o b ten id a se
ap rox im a al lím ite con el grado de exactitud deseado. E n otros
térm in o s: escogem os p rim ero u n núm ero m uy pequeño e, que
re p resen te el grado de aproxim ación deseado. Supóngase que p o ­
nem os e = .0001. Si el lím ite existe, h ay u n núm ero finito de lan­
zam ientos N tal, que podem os p rácticam en te e sta r seguros que
la p ro p o rció n de éxitos o b ten id a qu ed ará en el in te rio r de ± .0001
s Obsérvese bien que no se ha pretendido que los números absolutos de
caras y creces sean aproximadamente iguales, ni que, si se da inicialmente
un exceso de caras, las cruces acabarán por compensarlo. Puede seguir
habiendo un exceso de caras indefinidamente, pero la razón se aproximará
a .5 incluso en este caso. Así, por ejemplo, si tuviéramos 35 caras y 15
cruces en los 50 primeros lanzamientos, la proporción de caras sería de .7.
Un exceso de 20 caras en 100 lanzamientos (o sean 60 caras) da una pro­
porción de .6, en tanto que el mismo exceso en 200 lanzamientos da un
valor de .55.
de la v erd ad era p robabilidad.4 Además, p o r m u y pequeño que
escojam os e, siem pre en co n trarem o s u n n ú m ero fin ito de lanza­
m ien to s p a ra el q u e ello es verdadero. P ero si n o existe u n lím i­
te, entonces n o re su lta rá p o r lo general posible.
No es e n m o d o alguno tin a n ecesidad lógica el q u e las razones
ob ten id as en dicha fo rm a se establezcan en u n v alo r lím ite. En
efecto, se d e ja p o r lo m enos concebir que las razones en cuestión
sigan flu ctu an d o indefinidam ente. Si esto fu e ra efectivam ente
así, n o p o d ríam os h a b la r de u n a sola p ro b a b ilid ad de caras en
relación con la m oneda. S in em bargo, cuando sem ejan te lím ite
existe, podem os d efin ir la probabilidad com o lim ite de la razón
de los éxitos al nú m ero total de las pruebas. O bien, e n fo rm a
m ás ru d a , la p ro b a b ilid ad es la pro p o rció n d e los éxitos " a la
larga".
E n el exam en u lte rio r será conveniente h a b la r com o si pensá­
ram o s en térm in o s de pro b ab ilid ad es de acontecim ientos singula­
res. Así p o drem os, p o r ejem plo, p re g u n ta r, “¿cuál es la p ro b a­
bilidad de o b te n e r u n 6 en u n solo golpe de dados o u n as ro jo al
sac ar u n a so la c a rta de la b a ra ja ? ” E n re alid ad , al servim os de
la fra se “u n solo golpe de dados", tra ta m o s sim plem ente de evi­
ta r el em pleo d e u n a fraseología com plicada. Lo q u e efectiva­
m en te querem os d ecir es : "¿qué p roporción de veces esperam os
o b ten er u n 6, a la larga, lanzando u n solo dado re ite ra d a m e n te ? ”
A títu lo de conveniencia, pues, hablarem os de u n solo golpe de
dados cuan d o en re alid ad queram os significar u n n ú m ero inde­
fin id am en te gran d e de lanzam ientos p a rtic u la re s con el m ism o
dado.
Antes de p ro c ed er al exam en de las p ropiedades m atem áticas
de las p ro b abilidades hem os de detenernos en algunos puntos.
Los experim entos de la vida real, si se rep iten , parecen efectiva­
m en te seguir el tip o general exam inado an te rio rm e n te y re p resen ­
ta d o en fo rm a de diagram a en la fig u ra IX .l, o sea que nos
acercam os efectivam ente co n ellos a u n lím ite que se d eja calcu­
lar. E sto nos conduce a h a b la r de la “ley de los pro m ed io s" y a
esp e ra r que la m ayoría de las m onedas d a rá n ca ras aproxim a­
d am en te la m ita d de las veces o que las buenas m anos a ltern a­
rá n en el bridge co n las m alas. S in em bargo, h ay q u e precaverse
c o n tra esa ley de los prom edios. E n efecto, algunas personas
h a n in te rp re ta d o dicha ley en el sen tid o de q u e si u n a m o­
n ed a da 10 veces caras consecutivas, entonces lo m ás p ro b a­
ble es que la vez siguiente dé cruz, "a causa de la ley de los p ro ­
m edios". S em ejan te in terp re tació n im plica u n a predicción a
p ro p ó sito de u n acontecim iento singular (esto es, el re su ltad o
del u n décim o lanzam iento). S egún verem os m ás adelante, sole­
4 El examen de los intervalos de confianza (cap. xn) ayudará a indicar
que no podemos estar nunca absolutamente seguros de que la verdadera
probabilidad se halle en el interior del intervalo obtenido.
m os su p o n er que lo que h a sucedido en los lanzam ientos p rece­
d en tes n o tien e ab so lu tam en te im p o rtan cia alguna en relación
con lo q ue sigue.® E n efecto, la m o n ed a n o posee ni m em o ria
ni conciencia. D esde el p u n to de vista de u n a estrateg ia inteli­
gente, si u n ju g a d o r p resen cia 10 caras sucesivas en diez lanza­
m ientos, h a ría b ien e n p re d e c ir que e n el undécim o volverá a
salir cara, e n el su p u esto d e que la m o n ed a debe e s ta r sesgada.
D ebería re s u lta r p erfec ta m e n te claro q u e las p ro babilidades
a priori ta l com o se definen en esta sección n o pueden obte­
n erse exactam ente p o r m edios em píricos, au n q u e sí pueden apre­
ciarse. Y esto se debe n o sólo al hecho de que hem os debido
im ag in ar experim entos llevados a cabo en condiciones ideales,
sino tam b ién a la circu n stan cia de que ningún experim ento puede
re p e tirse in d efin idam ente. S in em bargo, con u n n ú m ero sufi­
cien te d e p ru eb as, u n a p ro b ab ilid ad p u ed e ap reciarse con cual­
q u ier g rad o deseado de exactitud. L as reglas m atem áticas que
se d an en la sección siguiente y todos los razonam ientos m ate­
m áticos q ue se h allan en la b ase de la inducción estad ística se
o cu p an m ás b ie n de las probabilidades a priori que de las cla­
ses de p ro b ab ilid ades que pu ed en efectivam ente o b ten erse p o r
el investigador.6
Así, pues, al ap licar el razonam iento estad ístico a cualquier
ciencia q u e se ocupe del m u n d o real, nos en co n trarem o s e n la
posición lógica d esc rita en el capítulo v m . H em os de su p o n er
alguna p ro b a b ilid ad a priori p a ra p o d e r ap licar el razonam iento
m atem ático . P odem os d ecir que si é sta es la p ro b a b ilid ad a
priori co rrecta, entonces determ inados re su ltad o s em píricos son
p ro b ab les (o im p ro b ab les). E n e sta fo rm a, A es la te o ría m a te ­
m ática, y B los re su ltad o s em píricos anticipados, y n o existe m e­
dio alguno de v erificar la teo ría d irectam en te. Si B re su lta ser
falso, podem os d e sc a rta r A, pero, si B es cierto, alguna o tra teo­
ría C que com porte pro b ab ilid ad es a priori d istin tas p u ed a acaso
ex plicar tam b ién los re su ltad o s. Si querem os, pues, ev itar la fa­
lacia de a firm a r el consecuente, h ab rem o s de a d o p ta r p ro b ab ili­
dad es de las que en re alid ad sospecham os q u e son falsas, proce­
dien d o p o r elim inación. E n el próxim o cap ítu lo verem os ejem plos
p artic u la res en los que a sí se procede.
IX.2. Propiedades m atem áticas de las probabilidadesí4
A unque el lecto r tal vez no haya de volver n u n ca m ás a calcu lar
p ro b ab ilid ad es, im p o rta de todos m odos que se dé cu en ta de que
s Esto no puede suponerse en el caso del ser humano, hecho que hay que
tener presente siempre que se tomen mediciones repetidas con personas u
otros animales. Véase sec. IX.4.
« En rigor, el investigador sólo puede obtener proporciones debido al he­
cho de que el número de pruebas o casos será siempre finito.
en la base de todos los cuadros de los que h a b rá de servirse p a ra
v erificar hipótesis se en cu en tra cierto núm ero de propiedades
asaz sim ples de las probabilidades. En u n texto com o el p resen te
no es posible p ro fu n d izar m ucho en la teo ría de éstas. El o b jeto
del exam en que sigue es, pues, sim plem ente el de d a r u n a idea
de cóm o operan los m atem áticos con las probabilidades al p o n er
los fu n dam entos de la inducción estadística. Podem os em pezar
identificando tre s propiedades m atem áticas de las probabilidades
a priori.
La p rim e ra de ellas apenas re q u ie re algún com entario. Como
q u iera que en N p ruebas n o podem os o b ten er m enos de cero
éxitos n i m ás de N , síguese que p a ra cu alquier acontecim iento
A la p ro b ab ilid ad de que A o c u rra [lo que se escribe P(A)~\ ha
de se r m ayor o igual a cero y m en o r o igual a 1. Así, p u es:
0 < P (A )< 1
en donde el sím bolo ^ h a de leerse com o "m enor que o igual a ”.
Si P( A) = 1, el acontecim iento A o cu rrirá con toda seguridad; si
P(A) = 0, en cam bio, entonces n o es posible que A tenga lugar.
La regla de la adición. La segunda p ro p ied ad de las probabili­
dades es m ás interesante. H abida cuenta de su sencillez, to m a­
rem os u n caso especial de la regla de adición que puede enun­
ciarse com o sigue: si los acontecim ientos A y B se excluyen
m u tu a m en te, la probabilidad de obtener A o B [ escrito P(A o B )]
es igual a la probabilidad de A m ás la probabilidad de B, o s e a :
P ( A o B ) = P( A) + P( B) ( s i A y B se excluyen m u tu am en te) (IX .1)
P o r exclusión m u tu a entendem os que A y B n o pu ed en ten er lu­
g ar sim u ltán eam ente en el m ism o experim ento. Así, p o r ejem plo,
es im posible o b ten er a la vez u n as y u n rey si se tom a una sola
c a rta de u n a b a ra ja corriente. P o r consiguiente, aplicando la re­
gla de la adición a u n a b a ra ja hipotéticam ente p erfec ta te n e m o s :
P ( A o K ) r= P( A) + P ( K ) = 1/13 + 1/13 = 2/13
P or supuesto, pudim os h a b e r obtenido el m ism o re su ltad o te­
niendo en cu enta que hay cu a tro ases y cuatro reyes en la b a ra ja
y, con iguales probabilidades de selección, la p ro babilidad de ob­
ten er el u n o o el o tro de dichos naipes sería de 8/52, o 2/13. Y
en form a análoga, la p ro b ab ilid ad de sacar ya sea u n 5 o u n 6 en
un sim ple golpe de dados sería de 1/6 + 1 /6 = 1/3.
La regla de la adición puede h acerse extensiva a m ás de dos
casos. Así, p o r ejem plo, si A, B, C . . . , son todos ellos m u ­
tu a m en te exclusivos, entonces tenem os:
P ( A o B o C ........ o K ) = P( A) + P ( B ) + P ( C ) . . . . . + P ( K ) (IX .2)
Si tenem os u n a población com puesta de 100 p erso n as de la clase
su p erio r, 200 de la clase su p erio r a la m edia, 400 de la in ferio r
a la m edia y 300 de la inferior, p o r ejem plo, la p ro b ab ilid ad de
sac ar u n a p erso n a de la clase superior, o u n a de la clase supe­
rio r a la m edia, o u n a de la clase in ferio r a la m edia en u n a sola
vez se rá :
100
1 000 +
200
400
700
_
1 000 + 1 000 ~ 1 000
siem p re que cada p erso n a tenga las m ism as probabilidades de
ser seleccionada.
Como q u iera que las probabilidades son esencialm ente p ro p o r­
ciones, síguese que si tenem os todos los acontecim ientos posibles,
cada u n o de ellos excluyendo a los dem ás, la sum a de dichos
eventos será la unidad. Así, p o r ejem plo, si sum am os las p ro b a ­
bilid ad es de sacar u n trébol, u n a espada, u n corazón o u n dia­
m ante, hem os de o b ten er u n a sum a de 1. La probabilidad^ de
que el evento A no o c u rra es igual a la sum a de las pro b ab ilid a­
des de todos los eventos (m u tu am en te exclusivos) re sta n te s. P or
consiguiente, si su straem os P( A) de la unidad, tenem os la p ro b a ­
b ilid ad de no o b ten er A, y a que
si
1 = P(A ) + P ( B ) + P ( C ) + ........ + P ( K ) ,
e n to n c e s :
1 — P( A) — P ( B ) + P(C) + .........+ P( K) .
La p ro b ab ilid ad de n o sac ar u n a reina, p o r ejemplo', es de
1
12
1 ------o — .
13
13
H a sta aq u í sólo nos hem os ocupado de eventos que se excluyen
m u tu am en te. Una fo rm a m ás general de la regla d e la adición
p u ed e enunciarse com o s ig u e : si A y B son dos acontecim ientos
cualesquiera (n o n ecesariam ente m u tu am en te exclusivos), en­
tonces :
P(AoB)=P(A)+P(B)-P(A& B)
(IX .3)
en donde P ( A & B ) re p re se n ta la posibilidad de o b ten er a la vez
A y B .7 E n el caso general, pues, la p ro b ab ilid ad de o b ten er A o
i La partícula o tal como la emplean los matemáticos incluye la posibili­
dad de que A y B se verifiquen a la vez. Por consiguiente la expresión
"A o B" significa "A y B, y A o B ”. En orden a la anotación por teoría de
grupos “A o B" significa lo mismo que A [J B en tanto que A y B significa
lo mismo que A f] B.
B se obtiene adicionando p rim ero la p ro b ab ilid ad de A a la p ro ­
babilidad de B y sustrayendo luego la p ro b ab ilid ad de obtener
sim ultáneam ente A y B. La razón de su stra e r P ( A & B ) está en
que la p ro b ab ilidad de esta ocurrencia c o n ju n ta se h a contado
dos veces: u n a en P( A) y o tra en P( B) . La fig u ra IX.2 puede
ay u d ar a co m p ren d er p o r qué es así.
En efecto, en la figura IX.2, las probabilidades de A y B se
han rep resen tad o p o r áreas proporcionales a sus respectivos va-
Fig. IX.2. R epresentación geom étrica de probabilidades, con
áreas proporcionales a P(A ), P (B ) y P (A & B )
lores num éricos, tom ándose la superficie del rectángulo com o
unidad. E n el caso general h a b rá p o r lo re g u la r cierto cruza­
m iento, es d ec ir: A y B n o serán m u tu am en te exclusivos. La
pro b ab ilid ad de o b ten er ya sea A o B (o am bos) e stá represen­
tad a p o r el to tal del á rea ac h u rad a en cruzado. Y com o quiera
que el á rea a c h u rad a m ás pequeña se h a b rá contado dos veces,
u n a en A y o tra en B, de ahí la necesidad de s u s tra e r P ( A & B )
p a ra o b ten er el á rea to tal ac h u rad a en cruz.8
Tom em os u n ejem plo num érico. Supongam os q u e A es el even­
to en que se obtenga u n a rein a en u n a sola extracción, y supon­
gam os que E es el evento de que la c a rta sea u n a espada. E n­
tonces A y B n o son m u tu am en te exclusivos ya que es posible
o b ten er am bas cosas sim ultáneam ente (o sea la re in a de espadas).
P o r consiguiente:
8 El lector ha de convencerse él mismo de que, para obtener la probabi­
lidad de .4 o Tí, pero no ambas, habremos de sustraer de 2 P(A & B) de
P{A) + P(B). Debería también tratar de extender la forma general de la
regla de adición trazando una gráfica semejante para los eventos A, B y C.
(Véase ejercicio 4b).
P ( A o B ) = P( A) + P ( B ) - P ( A & B )
= 4/52 + 13/52 — 1/52 = 16/52 — 4/13.
E ste resu ltad o puede verificarse intuitivam ente teniendo en cuen­
ta q ue A o B p o d rían o b ten erse extrayendo cualquier esp ad a o
u n a de las tre s reinas re sta n te s, o sea u n a de las 16 cartas con­
sideradas. Si h ubiéram os adicionado sim plem ente P( A) y P( B) ,
la re in a de espadas se h a b ría contado dos veces. E n la sección
siguiente verem os Una regla general p a ra el cálculo de P ( A & B ) ,
ya q ue n o siem pre re su lta ta n sencillo o b ten er dicha cantidad.
O bsérvese que si los dos eventos son m u tu am en te exclusivos no
h a b rá cruzam iento, y P { A & B ) será igual a cero. P or lo tanto,
la regla general reconduce, en esta ocasión, al caso especial d e la
regla de la adición exam inada an terio rm en te.
La regla de la m ultiplicación. La te rc e ra pro p ied ad de las p ro ­
babilidades nos p e rm ite o b ten er la p ro b ab ilid ad de que dos (o
m ás) eventos o c u rran co n ju n tam en te. P odríam os en u n ciar esta
p ro p ied ad com o sigue: si A _y B son dos eventos cualesquiera, la
probabilidad d e que se produzcan am bos es el producto de
la probabilidad d e que se produzca uno de ellos por la probabi­
lidad condicional d e que se produzca el otro, dado que el p rim er
even to haya ocurrido. O en sím b o lo s:
P ( A & B ) = P ( A ) P ( B |A ) = P (B )P (A |B )
(IX .4)
Los sím bolos P(A | B ) y P (B | A) re p re se n ta n lo q u e se designa
com o p ro b abilidades condicionales. P(A | B ) debería leerse com o
"la p ro b ab ilid ad de A, dad o que B haya o cu rrid o ”. La expresión
d e probabilidad condicional significa que adm itim os que la p ro ­
b ab ilid ad de A p u ed e depender de que B o c u rra o no. E n otros
té rm in o s : la p ro b a b ilid ad de A dado B puede d iferir de la p ro b a­
bilid ad de A dado que B no haya ocurrido. Así, p o r ejem plo,
si B es el evento de que u n individuo conduce el autom óvil te ­
m era riam en te y A el evento de que se en c u en tre en u n accidente
d e trá n sito , suponem os que P ( A |B ) es m ay o r que P (A ), ya
que el co n d u cir tem erariam en te es causa de accidentes.
Antes de p ro ced er a ilu s tra r la regla de la m ultiplicación, p e r­
m ítasenos in tro d u cir u n nuevo concepto im p o rtan te. Se dice de
dos eventos A y B que son estadísticam ente independientes si,
y sólo si, P(A \ B ) = P ( A ) ; y P ( B |A ) = P (B ). Así, pues, si
la p ro b ab ilid ad de que A o cu rra es la m ism a, independientem ente
d e si B h a o cu rrid o o no, y si lo m ism o es cierto resp ecto de B,
entonces los dos eventos son independientes u n o de otro. E sto
significa, en lenguaje llano, que el conocim iento de que u n o de
los acontecim ientos se h a p roducido n o ayuda a p re d ecir el otro.
P o r ejem p lo : la p ro b ab ilid ad de sac ar u n as, dado que la c a rta
sea ro ja, es de 2/26, ya que hay dos ases ro jo s y u n to tal de 26
ca rtas ro jas. É sta es num éricam ente la m ism a que la pro b ab i­
lidad no condicional de sac ar u n as (4/52). P o r lo tanto, el color
y el valor de la c a rta son estad ísticam en te independientes. Y en
fo rm a análoga, el hecho d e sab e r que u n a c a rta es u n as no
ayuda a ad iv inar su color. Obsérvese, de paso, q u e los eventos
m u tu am en te exclusivos no son independientes. E n efecto, si A
y B son m u tu am en te exclusivos, hem os de te n e r siem pre
P(A | B) = P(B | ¿4.) = 0. ¿P o r qué?
E n el caso en que A y B sean estad ísticam en te independientes,
tenem os P(B | A) = P(B), y la regla de la m ultiplicación asum e
la fo rm a sim ple d e:
P(A& B) = P(A)P(B)
(si A y B son independientes)
P o r lo re g u la r encontrarem os que este caso especial de m ultipli­
cación es de em pleo m ucho m ás fácil que la regla general.
Vamos a ilu s tra r p rim ero la regla de m ultiplicación en los
casos especiales en que A y B son estad ísticam en te independien­
tes. P o r lo re g u la r pensam os que las repeticiones de u n experi­
m en to son in d ependientes u n a de o tra. Así, p o r ejem plo, si lan­
zam os la m oneda al aire u n a vez, suponem os q u e el resultado
no afecta lo q u e p u ed a su ced er en el próxim o lanzam iento; la
p ro b ab ilid ad de "cara " perm an ece co n stan te de u n lanzam iento
al otro. E n efecto, el sab e r que salió ca ra no nos ayuda a p red ecir
el resu ltad o del segundo lanzam iento.9 P or consiguiente, sirvién­
donos de la regla de m ultiplicación, podem os calcular la p ro b a­
b ilidad de sac ar caras en dos lanzam ientos sucesivos m ultipli­
cando e n tre si las pro b ab ilid ad es de o b ten er c a ra en cualquier
p ru e b a dada. E n el caso de u n a m oneda n o sesgada, la p ro b a­
b ilidad de dos caras sucesivas será de (1 /2 )(1 /2 ) = 1/4. Y en
fo rm a análoga, si A es el evento de sac ar u n a c a rta ro ja, y B el
evento co n sisten te en o b ten er u n as, entonces la p ro b ab ilid ad de
sac ar u n as ro jo P( A&B) se rá :
P(A &B) = P(A)P(B) = 1/2 x 1/13 = 1/26.
Suponemos que la verdadera probabilidad es conocida y Que nuestra
tarea consiste en predecir el resultado de cualquier prueba particular. Es
cierto, por supuesto, que sin dicho conocimiento la probabilidad podría
acaso estimarse utilizando los resultados de pruebas anteriores y sirvién­
dose luego de dicha estimación para predecir el futuro. Esto no es lo que
entendemos cuando decimos que en el caso de independencia el conocimien­
to de un evento no nos ayuda a anticipar el otro. Así, por ejemplo, sabiendo
que han salido 20 caras consecutivas, nos veríamos llevados a predecir
una moneda sesgada, esto es, que la probabilidad verdadera de sacar cara
es algún valor superior a .5. Y esto nos llevaría a su vez a predecir cara en
ocasion del vigésimo primer lanzamiento. Sin embargo, el supuesto es
de que, si existe, el sesgo es ya conocido. Por lo tanto, si se sabe que
p es .8, el conocimiento^ de 20 caras sucesivas no nos ayudará a predecir
el resultado del lanzamiento siguiente.
Tom em os dos ejem plos en los que n o se da independencia.
E l p rim ero de ellos co m p o rta u n a situación en la que dos varia­
bles están relacionadas de ta l m odo que el conocim iento dé u n a
ayuda a p re d ecir la o tra. Supóngase que tenem os los siguientes
d ato s to talm en te hip o tético s:
Carácter
Morenas
Rubias
Pelirrojas
Total
Emprendedor
Tímido
300
600
600
100
300
100
1200
800
Total
900
700
400
2 000
Si d e dicha población, arreg lad a p o r u n a perso n a ajena, se saca
al a z a r 10 u n a m uchacha, ¿cuál es la p ro babilidad de que sea
u n a p elirro ja em prendedora? Como q u iera q u e en el to tal de
2 m il m uchachas hay 300 p elirro jas em prendedoras, la p ro b a­
b ilidad de sac ar u n a de dicho g rupo p a rtic u la r es, obviam ente,
300/1 200, o sea .15. E sta m ism a pro b ab ilid ad se o b ten d rá ahora
sirviéndose de la regla de m ultiplicación.
Supongam os que A es el evento consistente en o b ten er una
p elirro ja, y B el evento de que el c a rá c te r es em prendedor. Como
q u iera que hay 400 p elirro ja s en conjunto, P( A) = 4 0 0 /2 000, o
sea .2. Sin em bargo, e n tre estas 1 200 m uchachas em prendedoras
hay 300 p elirro jas. P or lo tanto, si tenem os conocim iento de que
el c a rá c te r es em prendedor, la pro b ab ilid ad de que la m uchacha
sea p elirro ja es de 300/1 200, o sea .25. E n fo rm a análoga, la
p ro b ab ilid ad de o b te n e r u n a m uchacha em prendedora es de
1 200/2 000, o sea .6, pero, si se sabe que el d ato es el de p elirro ja,
la pro b ab ilid ad de que la m uchacha sea em prendedora es de
300/400, o sea .75. Tenem os, pu es:
P( A) = .2
P ( A \ B ) ~ . 25
P (B ) = .6
P( B\ A) = .75
Sirviéndonos de la regla d e m ultiplicación llegam os a la siguien­
te p ro b ab ilid ad de o b ten er u n a p e lirro ja em p ren d ed o ra:
P ( A & B ) = P ( A ) P ( B ) A ) = (.2) (.75) = .15
= P (B )P (A |B ) = (.6) (.25) = .15
P a ra el segundo ejem plo, supongam os que hem os de calcular
la p ro b ab ilid ad de sac ar de u n a b a ra ja co rrien te dos ases en dos
io La muestra al azar se definirá más adelante en el presente capítulo. En
una muestra al azar, todos los individuos y todas las combinaciones de
individuos tienen las mismas probabilidades de ser seleccionados.
extracciones. Pongam os que A es el hecho de o b ten er u n as en la
p rim era extracción y B el de que saquem os u n as en la segunda
extracción. ¿Son A y B independientes? E sto depende de si vol­
vem os o n o a p o n e r el as en la b a ra ja después de la p rim era
extracción y b a ra ja m o s de nuevo an tes de la segunda. Si proce­
dem os con su stitución, las dos extracciones serán independien­
tes, ya que la p ro b ab ilid ad de o b ten er u n as es c o n stan te d e u n a
extracción a la p ró x im a y que el re su ltad o de la p rim e ra no
p u ed e afe c ta r en m odo alguno el d e la segunda. E n este caso,
P (A & B ) = P( A ) P ( B ) = (1 /1 3 )(1 /1 3 ) = 1/169.
Supongam os ah o ra que procedem os sin reposición, esto es, que
n o volvem os a co locar la p rim e ra c a rta en la b a ra ja . Si aconte­
ciera que sacáram os u n as en la p rim e ra extracción, entonces la
p ro b ab ilid ad de o b ten er o tro sería de 3/51, ya que sólo h ab ría
tres ases en las 51 ca rtas re sta n te s. P o r o tra p a rte , si n o sacá­
ram os u n as en la p rim e ra selección, la p ro b a b ilid ad d e o bte­
n erlo en la segunda sería de 4/51. P o r consiguiente, en este caso
no tenem os in d ependencia y h ab ríam o s de servirnos de las p ro ­
babilidades condicionales p a ra calcu lar P( A &l B) . Así:
P( A & B ) = P ( A ) P ( B \ A ) = 4/52
X
3/51 = 1/221.
Conviene a d v e rtir que la reg la d e m ultiplicación q u e hem os
exam inado p o d ría extenderse igualm ente a m ás d e dos eventos.
Así, si A, B y C son todos ellos independientes uno de otro:
P ( A & B & C ) = P( A) P( B) P( C)
P o r lo q ue se re fiere a las probabilidades condicionales, sus
principios p u ed en ap licarse fácilm ente a ciertos casos sencillos.
Así, p o r ejem plo, si hu b iéram o s de sac ar c u a tro ases co n reposi­
ción, po d ríam o s calcular la pro b ab ilid ad d e o b ten erlo s com o
sigue:
P (4 ases) = — ----- ------ - ----- L = ___ l___
52 51 50 49
270 725
Si hay tre s acontecim ientos A, B y C que n o son m u tu am en te
independientes, p o d rá o b serv arse la p ro b ab ilid ad d e su ocu rren ­
cia c o n ju n ta con la siguiente fó rm u la :
P ( A & B & C ) = P(A)P(B\A)P(C\A&B)
en la
ta n to
o tras
de A,
que P { C \ A & B ) se re fiere a la p ro b ab ilid ad de C, ya que
A com o B h a n ocurrido. Podem os u tilizar p o r supuesto
fó rm u las sim ilares, colocando e n o tro o rd e n las posiciones
B y C. S upongam os q u e tenem os la población siguiente:
Actitud
Blancos
No blancos
Republi­ Demó­
canos
cratas
Republi­ Demó­
canos
cratas
Total
A favor del aumento de
la asistencia social
En contra del aumento
50
350
100
200
25
25
225
25
400
600
Total:
400
300
50
250
1000
Si A es el caso en que sacam os u n blanco, B aquel en que obte­
nem os u n republicano, y C la ocasión en q u e la perso n a está a
fav o r del au m en to en la asistencia pública, y dado que sólo 50 re ­
publicanos blancos están a favor de la asistencia, tendrem os
P( A & B & C) = 50/1 000 = .05.
E n el p ro p io cu ad ro vem os asim ism o que P( A) = 700/1 000;
P( B\ A) — 400/700; y que P (C |A & B ) = 50/400. La ú ltim a d e éstas
cifras re s u lta del hecho de que de e n tre las 400 personas que son
a la vez A y B (rep u blicanos y blancos) sólo 50 apoyan la asis­
tencia.
A plicando la regla de m u ltip licar obtendrem os el re su ltad o :
P( A & B & C) = P( A) P( B\ A) P( C\ A & B )
700 400 50
50
= ----------------------- = ----------= .05
1000 700 400
1 000
P a ra v erificarlo p o d ríam o s ap licar la siguiente fó rm u la:
P(A&B&C)-P{C)P(B\C)P(A\B & C)
400
75 50
50
= — -------------------- = ----------= .05
1000 400 75
1 000
El concepto de acontecim ientos estad ísticam en te independien­
tes está en estrecha relación con el de la independencia e n tre dos
(o m á s) variables, y será exam inado con m ayor detención en
p osteriores capítulos.
Ya hem os utilizado el ejem plo de la b a ra ja , pues ésta
tiene la
p ro p ied ad de que los valores faciales y la secuencia son indepen­
dientes, lo que supone que el conocer u no de los dos no ayuda
p a ra p red ecir el otro. T anto en el ejem plo relativo al color del
cabello de la m uchacha con la que se va a salir, y a su conducta,
y aquel en que se relacionan e n tre sí la raza, la preferencia polí­
tica y la a c titu d an te la asistencia pública, consideram os necesa­
rio h acer u so de las probabilidades condicionadas p a ra lograr
resu ltad o s correctos. E n estos casos afirm am os que las varia­
bles afectadas no son independientes, o que están correlaciona­
das. P ara h acerlo m ás sencillo considerem os el ejem plo de las
m uchachas. Supongam os que exactam ente el m ism o p o rcen taje
(60 p o r 100) de rubias, m orenas y p elirro jas fuesen em prendedo­
ras, en cuyo caso el conocim iento del color del cabello carecería
de valor, en la predicción de la conducta. Si conservam os los
m ism os totales m arginales, los resultados p asa rían a s e r:
Rasgo
Morenas
Rubias
Pelirrojas
Total
Emprende doras
Tímidas
Total
540
360
900
420
280
700
240
160
400
1200
800
2 000
Debe co m p robarse en p rim e r lu g ar que en el caso de estos
datos h ipotéticos n o hay necesidad de em plear probabilidades
condicionadas. O bsérvese adem ás que la p ro b ab ilid ad (o p ro ­
p o rció n ) correspondiente a cada casilla del cu ad ro es igual al
pro d u cto de las dos probabilidades en lo s m árgenes correspon­
dientes. Si p o r ejem plo exam inam os el cu ad ro su p erio r izquierdo
verem os que la p ro b ab ilid ad 540/2 000 = .27, es ju stam en te el
p ro d u c to de las probabilidades que corresponden a la p rim era
colum na m arginal (es d ec ir: 900/2 000 = .45) y la p rim era fila
m arginal (o se a : 1 200/2 000 = .6). Lo m ism o es cierto p a ra
cad a u no de los re sta n te s cuadros. No im p o rta cu á n ta s ocasiones
p u ed an d isponerse las categorías de dos variables en u n a clasi­
ficación cruzad a que cuente con e s ta propiedad, direm os que las
variables son estad ísticam en te independientes e n tre sí. En pos­
terio res capítulos llevarem os a cabo p ru e b as estadísticas re la ti­
vas ta n to a la independencia com o a las m edidas de dependencia
b asadas en esta sencillísim a idea.
*
N o ta acerca del teorem a de Bayes. Dado que P (A & B ) —
P ( A) P( B\ A) podem os resolver la p ro b ab ilid ad condicional, obte­
niendo
P(A&B)
1
P( A)
_P(B)P(A\B)
P( A)
P ero P( A) e n el denom inador p u ed e se r descom puesto en los
dos térm in o s P( B ) P ( A \ B ) + P( B) P( A\ B) , ya que B y B (n o B )
son posibilidades m u tu am en te exclusivas y exhaustivas. E sto nos
lleva a la ecuación.
P( B) P( A\ B)
P( B\ A)
P(B)P(A\B) + P(B)P(A\B)
ecuación conocida com o teo rem a de Bayes. E ste teo rem a puede
se r generalizado p a ra diversas alternativas B lt B 2, . . . , B k, en
ta n to estas altern ativ as sean m u tu am en te exclusivas y exhaustik
vas, de m odo que 2 ? (£ » ) = 1. La p ro b ab ilid ad de que u n B u
i —1
dado, sup u esto que A h a ocurrido, puede escrib irse a s í :
P( Bt \A)
PjB^PjAlB^
S PÍBJPiAlBO
i=l
E s posible desde luego ap licar el teo rem a de Bayes siem pre que
se nos den todas las probabilidades condicionales e incondicio­
nales, p e ro estas aplicaciones n o son especialm ente útiles. Puede
sin em bargo ser ap licado tam b ién en casos en que las "p ro b ab i­
lidades psicológicas” hayan reem plazado los conceptos de fre ­
cuencia relativa. H ays [5 ] previene c o n tra este em pleo. Las
aplicaciones d irectas del concepto bayesiano e n relación con la
e stad ística e stá n a ú n relativam ente poco p ro b ad as. P arece sin
em bargo aconsejable su g erir m étodos p a ra su em pleo. Conside­
rem o s en p rim e r lu g ar u n p ro b lem a m uy sencillo. Supongam os
q ue u n individuo escoge a capricho u n a de dos u rn a s, y a con­
tin u ació n selecciona a capricho u n a bola de la u rn a que había
elegido. La p rim e ra de las u rn a s contiene u n a m ita d de bolas
b lan cas y o tra m ita d negras, en ta n to que la segunda contiene dos
tercios de bolas blancas y u n tercio de bolas negras. Sabem os que
el in dividuo selecciona u n a bola blanca, y desea asig n ar u n a
p ro b a b ilid ad al hecho de que h a seleccionado, digam os, la p rim e­
r a u rn a . O bsérvese q u e en este caso se tr a ta de u n a especie de
"p ro b ab ilid ad in v ersa”, p a rtic u la rm e n te a p ro p ia d a al concepto
d e p ro b ab ilid ad es e n el que se refleja el estad o de n u estro s co­
n ocim ientos. P uede decirse que el individuo seleccionó o n o se­
leccionó la p rim e ra u rn a , siendo las respectivas probabilidades
1 a 0. P ero si hu b iéram os de h ac er u n a apuesta, con base en el
conocim iento que tenem os de que sacó u n a bola blanca, ¿qué
v e n ta ja estaríam o s dispuestos a d a r a favor d e que escogiera
la p rim e ra u rn a ? É sta es ciertam en te u n a fo rm a razonable de
p la n te a r el problem a.
Si denom inam os A al acontecim iento de la selección de u n a
bola blanca, B al de q u e fu e seleccionada la p rim e ra u rn a, y
B al acontecim iento de que fue seleccionada la segunda urn a,
obten d rem o s, al ap lica r el teo rem a de Bayes
P ( B |¿ ) = ________
P ( B ) P ( A \ B ) + P( B ) P ( A \ B )
(1 /2 )(1 /2 )
1/4
3
( l/2 ) ( 1/2) + (1 /2 ) (2 /3 )
1 / 4 + 1/3
7
re su ltad o q u e n o h a b ría sido posible p re d ecir con sólo u sa r argu­
m entos de sen tid o com ún. O bsérvese que p u esto que las dos u r ­
nas fu ero n seleccionadas con las m ism as probabilidades, ten d re­
m os P ( B ) — P ( B ) = .5, lo que h a b ría p erm itid o sim plificar la
fó rm u la de Bayes.
C onsiderem os a continuación u n a clase de p roblem a, p er se m uy
alejad o de la estadística, p e ro que es razonablem ente realista
desde el p u n to de vista de las probabilidades psicológicas im plí­
citas en la fa lta de conocim ientos, p o r p a r te de u n observador,
en relación con las frecuencias relativas u o tra s consideraciones
que p u d iera n se r usadas p a ra o b ten er probabilidades a priori.
Supongam os que sabem os que u n g rupo de acción cuenta con
c u a tro m edios alternativos, con costos y probabilidades de éxito
diferentes. A dm itam os que u n observador, basándose en su apre­
ciación de los costos relativos de los procedim ientos alternativos,
definidos com o B lt B 2, Bz, B it les asigna las probabilidades sub­
jetivas .4, .3, .2 y .1, respectivam ente. Supongam os que calcula
las posibilidades de éxito p a ra los m edios alternativos com o .3,
.5, .6 y .9, respectivam ente. Averigua que el g ru p o h a tenido éxito
en su acción, p e ro no puede d eterm in a r cuál de los m edios fue
el utilizado. ¿Cóm o p o d rá v alo ra r de nuevo su estim ación origi­
n al de las probabilidades de cada uno de los procedim ientos,
sabiendo q ue el éxito (A) se h a producido? A plicando la form a
m ás generalizada del teo rem a de Bayes p a ra las p rim eras m e­
días ( B j), obtenem os:
P (B i|A ) =
P ÍB J P jA lB J
I
P iB J P iA lB j
(•4)(.3)
.12
(.4 )(.3) + (.3)(.5) + (.2) (.6) + ( .l) ( .9 )
.48
_
• = .25
De esta fo rm a, apoyándose en este conocim iento adicional,
p o d rá el ob servador asignar al p rim e r m étodo la probabilidad
su b jetiv a de .25. U tilizando cálculos sim ilares asignaría a los
re sta n te s m étodos las siguientes probabilidades subjetivas : .3125,
.25 y .1875, respectivam ente.
Es m en este r in tro d u cir u n a com plicación m ás. H a sta aquí he­
m os escogido problem as m uy sencillos, que casi h ab ría n podido
resolverse intuitivam ente. N o hace fa lta decir que la m ayoría
de los problem as de probabilidades son m ucho m ás com plejos
que los que se acaban de exam inar. Con o b jeto de o p e ra r con
p roblem as u n poco m ás com plicados, es necesario to m ar en
cu en ta el orden en que los acontecim ientos pueden producirse.
Supóngase, p o r ejem plo, que querem os h a lla r la probabilidad
d e o b ten er u n as, u n rey y u n a reina en tre s extracciones con
reposición. Podem os h a lla r la probabilidad de sac ar un as en la
p rim e ra extracción, u n rey en la segunda y u n a rein a en la te r­
cera. E sta pro b abilidad sería de (1/13)®. P ero esto re p resen ta
la p ro b ab ilid ad d e o b te n e r un as seguido d e u n rey seguido d e una
reina. P ero hay o tras posibilidades de o b ten er u n as, u n rey y
u n a rein a e n tre s extracciones si no nos im p o rta el orden de su­
cesión. E n realidad, estos naipes po d rían o b ten erse d e las seis
siguientes m a n e ra s : ARR', A R R , RAR', R R ’A, R ’AR, R'RA. Puede
verse q u e cad a u n a de dichas posibilidades p re se n ta las m ism as
probabilidades. P or lo tan to , si nos in tere sa la probabilidad de
sac ar dichas cartas en un orden determ inado cualquiera, pode­
m os ad icio n ar sus probabilidades separadas (ya que son m u tu a ­
m en te exclusivas), con lo que obtenem os 6(1/13)®.
E n esta form a, sirviéndonos de la regla de m ultiplicación, he­
m os re ferid o el acontecim iento A al p rim e r resultado, B al segun­
do, y así sucesivam ente. E n otros térm in o s: hem os tom ado en
cu en ta el orden, en ta n to que p o r lo re g u la r estam os m ás in te­
resados en o b ten er u n a d eterm in ad a serie de resultados. Pode­
m os q u e re r sab er la p ro b ab ilid ad de cu a tro ases en u n a m ano
de bridge o de o b ten er u n determ inado p o rc en taje de negros en
u n a m u estra, in d ependientem ente del ord en de la extracción. Al
calcu lar pro b ab ilid ades de esta clase, será por lo regular m ás sen ­
cillo d eterm in a r p rim ero la probabilidad de cualquier orden dado
de resultados, y luego, si todos los dem ás órdenes son igualm ente
probables, podem os m u ltip licar sim plem ente el nú m ero d e los
ó rdenes posibles p o r la probabilidad de que o cu rra u n o cualquie­
r a d eterm in ad o de ellos. O bsérvese q u e al p ro c ed er así nos ser­
vimos ta n to de la regla de m ultiplicación com o de la de adición.
E x isten fó rm u las concretas que p erm iten calcular exactam ente
cuántos sean los órdenes posibles en u n problem a determ inado.
E n las ocasiones en q u e tenem os N diferentes acontecim ientos
q u e o c u rren en u n ord en determ inado, nos referim os a ello
com o u n a p erm u ta de dichos acontecim ientos. E n las ocasiones
en que el ord en carece d e interés, denom inarem os com binación
a la agrupación de acontecim ientos. P o r ejem p lo : en el caso de
la com binación sim ple (A , R , R' ), h a b rá seis ordenam ientos dife­
ren tes. O bservem os cóm o pu ed en obtenerse fórm ulas p a ra d eter­
m in a r el nú m ero de p erm utaciones en casos sencillos.
Com encem os con u n a situación en q u e todos los acontecim ien­
tos N son distintos. ¿De cu án tas m an eras pu ed en se r ord en a­
dos? E stá claro que si consideram os N posiciones ordinales (p o r
ejem p lo : N sillas dispuestas en fila), la p rim e ra de aquéllas po­
d rá ser ocu p ada p o r cu alq u iera de los objetos o acontecim ientos.
H abiendo llenado esta posición, podrem os h ac er lo m ism o con
la segunda, utilizando cualq u iera de los N —1 acontecim ientos
re sta n te s, la te rc e ra con u n o de los N —2, etcétera. C uando llegue­
m os a la ú ltim a posición sólo nos re sta u n a posibilidad. H ab rá
pues:
N ( N - l ) ( N - 2 ) ...
(3 )(2 )(1 ) = N \
ó rdenes p o sib les; N I es la expresión del largo pro d u cto de la
p a rte izq u ierda de la igualdad, y se le denom in a "facto rial N".
Supongam os p o r ejem plo que tenem os 13 ca rtas, u n a de cada
valor. Las volvem os de c a ra u n a p o r una. ¿C uántas son las di­
fe ren tes p erm u tacio n es p osibles? La p rim e ra c a rta p u ed e ten er
u n o cu alq u iera de los tre c e valores. Como q u ie ra que esta c a rta
y a h a sido descubierta, la segunda p o d rá te n e r u n o cualquiera
de los doce valores re sta n te s, siendo p o r ta n to 13 x 12 las solucio­
n es posibles p a ra las dos p rim e ra s cartas. C ontinuando ad elan te
con el m o n tó n de ca rtas determ inarem os q u e h a b r á :
(1 3 )(1 2)(11)(10) . . . (3 )(2 )(1 ) = 13! = 6 227 020 800
pro ced im ien tos diferentes p a ra o rd e n a r las tre c e cartas.
Supongam os a continuación que los acontecim ientos n o son
todos d iferentes. C ontam os de nuevo con trec e cartas, p ero dos
d e ellas p u ed en se r ases, y n o distinguirem os e n tre los diferentes
ó rd enes, re su ltan d o así in d ifere n te el orden en que re su lten se­
leccionados los dos ases. Supongam os que h an sid o escogidos
e n las posiciones q u in ta y undécim a. Si h u b iera n sido distintos en­
tre sí, y en tal caso denom inam os asj y as2, p a ra cada d istin ta p e r­
m u tació n en q u e el asx ap a rec ie ra an tes que el as2, h a b ría o tra
p erm u tació n id én tica en la q u e el as2 p re ced e ría al asx. Vemos
así que cuando n o podem os d istin g u ir e n tre estos dos ases, hay
sólo la m ita d de p erm u ta s en relación con el caso de que todos
los acontecim ientos sean distintos. P or ello el n ú m ero to tal de
p erm u ta s en este caso será N ' l / 2 ! = Nl / 2 .
Supongam os q u e los ases h u b iera n sido tre s en vez de dos. Si
se les d en o m inase a s1( as2 y as3, observaríam os q u e h a b ría habido
3! = 6 p e rm u ta s e n tre dichos ases, im posibles d e distinguir. El
n ú m ero to tal de p erm u ta s de las trec e c a rta s será 13 ! / 3 ! E n ge­
neral, si h ay N objetos, tres de los cuales no pueden se r distin­
guidos de los dem ás, h a b rá N I / 3! P uede generalizarse fácilm ente
éste razonam iento, am pliándolo a m ás de u n grupo de objetos
no distintos. Supongam os que n u estras trece ca rtas contienen
tres ases y cu atro reyes, siendo distin tas las seis cartas restantes.
Como q u iera que los ases, caso de se r diferenciados, pueden ser
ordenados de 3! form as, y los cuatro reyes en 4! form as, divi­
direm os 13! en tre 3! 4! p a ra llegar al n ú m ero de p erm u tas verda­
d eram en te inconfundibles.
La regla general re su lta ya obvia. Si tenem os N acontecim ien­
tos subdivididos de ta l m an era que el p rim e r grupo contenga rx
elem entos no distinguibles, el segundo contenga r2 de dichos ele­
m en to s y, en general, el grupo i-ésímo contiene
de los m ism os,
tendrem os u n to tal k de tales grupos, todos distinguibles en tre
ello s; el n ú m ero to tal de p erm u tas será N l / r 1 \r2 l . . . rk \ P ro­
poniendo o tro ejem plo: si hay 25 niños, 6 de los cuales tienen
3 años, 8 de ellos 4 años, o tro s 9, 5 años, contando con u n o de
6 y o tro de 7 años, h a b rá 25 !/6!8 !9 !1 !1 ! p erm u ta s e n tre dichos
niños, si solam ente se les diferencia p o r sus edades.
La regla general p a ra d eterm in a r el n ú m ero de p erm u tas de
acontecim ientos, n o todos los cuales son distintos, p re sen ta un
caso especial m uy im p o rtan te, en aquellas ocasiones en que sólo
hay dos clases de acontecim ientos (p o r ejem p lo : éxitos y fraca­
so s). Si hay N acontecim ientos, r de los cuales son éxitos, y N —r
fracasos, siendo los éxitos n o distinguibles e n tre ellos m ism os y
lo m ism o ocu rre con los fracasos, la regla general p a ra lo g rar el
n ú m ero de p erm u ta s se red u ce a N \ / r \ { N —r ) ! Si p o r ejem plo
lanzam os 10 veces u n a m oneda y obtenem os 6 caras, el núm ero
de disposiciones posibles de caras y cruces será 10!/6!4! = 210.
E n el capítulo siguiente podrem os u tiliza r am pliam ente este caso
especial cuando estudiem os la distribución binom ial.
*
P uede llegar a re s u lta r tedioso el tra b a ja r con factoriales sin
re c u rrir a sim plificaciones del cálculo. P or fortu n a, al tra b a ja r
con razones e n tre factoriales, re su lta posible llevar a cabo una
ca n tid a d considerable de cancelaciones, com o en el caso del
ejem p lo an terio r, en el que e stá im plicada la razón 10!/6!4! Los
siguientes son los valores num éricos de los factoriales d e 1 a 2 0 :
1! = 1
2!
—
2
3! = 6
4! = 24
51 = 120
6! = 720
7! = 5 040
8! = 40 320
9! = 362 880
10! = 3 628 800
11!
12!
13!
14!
15!
16!
17!
18!
19!
20!
= 3.992 X 10*
=4.790 x 10®
= 6.227 X 10»
= 8.718 x 10»
= 1.308 x l 0 «
= 2.092 x 1013
= 3.557 x lO 1*
= 6.402 x 10«
= 1.216 X 101*
=2.433 X ÍO1»
P a ra valo res m ás elevados de N re su lta posible p re c isa r los lí­
m ites e n tre los cuales se h a lla rá N I, utilizando p a r a ello la aproxi­
m ación de S tirlin g :
^ ( - r ) ' < * ' < v ® 5 (-4 -) ' ( i + - s ^ r r )
en la q u e jt “ 3.14159 y e “ 2.71828. Los estu d ian tes fam iliariza­
dos con el u so d e logaritm os e n c o n tra rá n m uy conveniente tra ­
b a ja r con los logaritm os de los factoriales, convirtiendo así pro­
du cto s en sum as y razones en diferencias. P or ejem p lo :
,
/ 8! \
,
8 7 6 5 4 3 2 1
, o g ( T r ) = 1 “ B—
m
—
r
= jlo g 8 + log 7 + lo g ó + log 5 + log 4 + log 3 + log 2 + log l l
r
-i
- jlo g 3 + log 2 + log 1j = log 8 + log 7 + log 6 + log 5 + log 4
A lgunos ejem plos. E studiem os a h o ra algunas aplicaciones de
estos prin cip io s a o tro s p ro b lem as de pro b ab ilid ad , d e n atu raleza
algo m ás com plicada que la d e los que hem os v isto h a s ta ahora.
Como e s tá im p lícito en la in tro d u cció n a esta sección, u n a im ­
p o rta n te e stra te g ia general en el caso de m uchos pro b lem as en
los que el o rd en d e selección carece de im p o rtan cia consiste
e n calcu lar la p ro b a b ilid ad d e u n a d eterm in a d a p erm u ta , m u lti­
plican d o a continuación aq u élla p o r el n ú m ero de p e rm u ta s im pli­
cadas. Supongam os q u e deseam os, p o r ejem plo, o b te n e r la p ro ­
b ab ilid ad de conseguir ex actam ente u n as y p o r lo m enos dos
reyes en c u a tro tira d a s, con reposición d e ca rtas. O bservarem os
que esto p u ed e re alizarse al o b ten er bien u n as y tre s reyes o u n
as, dos reyes y alguna o tra c a rta q u e n o sea as ni rey. Si re p re­
sen tam o s sim bólicam ente estas posibilidades com o A R R R y ARRO
(en donde "O " re p re se n ta " o tra c a rta " ), verem os que hay 4 ! / 3 ! =
4 fo rm as de o rd e n a r el as y los tre s reyes, m ie n tra s existen
4 !/2 ! = 12 m an eras de d isponer la com binación ARRO . P o r ser
d iferen tes los n ú m ero s d e las p e rm u ta s en am bas situaciones es
p o r lo que debem os m an ten e rlas diferenciadas. Si n u e stra p ru e­
b a es con reposición, la p ro b a b ilid ad de o b ten er u n as en una
sola tira d a es de 1/13, com o lo es la de o b te n e r u n rey, en tan to
que la p ro b a b ilid ad d e sac ar u n a O es de 11/13. Así re su lta que
la p ro b ab ilid ad de o b te n e r ex actam en te u n as y dos o m ás reyes
será:
4(1 /1 3 )4 + 12(1/13)*(11/13) = 136/28 561 = .0048
Supongam os que deseam os o b ten er la p ro b a b ilid ad de conse­
guir exactam en te u n as y p o r lo m enos dos corazones en c u a tro
tirad a s, con reposición. A parece a h o ra u n a com plicación m ás,
y a q u e u n o de los corazones puede s e r u n as. S erá conveniente
d istin g u ir e n tre c u a tro tip o s de c a rta s : el as d e corazones (AC),
cuya p ro b a b ilid ad de se r seleccionado es d e 1/52; los ases n o de
corazones (A C ), con p ro b a b ilid ad de 3/52; los n o ases d e cora­
zones (A C ), con p ro b a b ilid ad de selección de 12/52, y los n o ases
d e corazón ( A C ) con u n a p ro b ab ilid ad de 36/52 de se r sacados.
La su m a de to d as e sta s pro b ab ilid ad es es n a tu ra lm e n te igual a la
u n id ad ya q ue los tipos en cuestión son m u tu am en te exclusivos
y exhaustivos.
Despleguem os a continuación las com binaciones que pueden
p ro d u c ir ex actam ente u n as y dos o m ás corazones, calculando
el n ú m e ro de p e rm u ta s en cada caso. D ichas com binaciones son
las sig u ien tes:
a) E x actam ente dos corazones:
AC, ÁC,
AC, AC (41/21) [1/52 • 12/52 • 36/52 • 36/52] =
.02552
AC, AC,
AC, AC ( 4 ! /2 ! ) [3/52 • 12/52 • 12/52 • 36/52] =
.02552
b ) E x actam ente tre s corazones:
AC, AC, AC, AC ( 4 ! /2 ! ) [1/52 • 12/52 • 12/52 • 36/52] =
.00851
AC, AC, AC, AC ( 4 ! /3 ! ) [3/52 • 12/52 • 12/52 • 12/52] =
.00284
c ) E xactam ente c u a tro co razo n e s:
— — —
00094
AC, AC, AC, AC (41/31) [1/52 • 12/52 • 12/52 • 12/52] =
~
S u m an d o estas pro b ab ilid ad es de acontecim ientos m u tu am en te
exclusivos obtenem os u n to ta l de pro b ab ilid ad es de .063.
C onsiderem os p o r fin u n a situación en la que es m ás conve­
n ien te d ib u ja r lo que se denom ina u n diagram a de árbol que re ­
p resen te las d istin tas posibilidades. O curre a veces que una
secuencia de acontecim ientos te rm in a en p u n to s d iferentes, se­
gún sea el desenlace de o tro s acontecim ientos previos.
La ilu stració n m ás fam iliar de este hecho se observa en los
eventos atléticos en los que u n equipo se rá declarado vencedor
si gana dos de tre s juegos, o tal vez c u a tro d e siete, y en los que
no hay necesidad de seguir jugando u n a vez que el n ú m ero n e­
cesario de juegos h a sido ya ganado. Supongam os que hay dos
equipos A y B jugando u n a serie de “dos de tre s ”. Supongam os
tam bién que A es el m e jo r equipo y que, con b ase en sus an te­
rio res resu ltad o s, se le asigna u n a p ro babilidad de .6 p a ra ganar
cu alq u ier juego dado. E n u n ejem plo m ás realista, la pro b ab i­
lidad de g an a r cada juego puede cam biar según los resultados
de los juegos precedentes, lo que podrem os d eterm in a r utilizando
el m étodo que vam os a proponer. P ara m ayor sencillez tom e­
m os com o p = .6 la p ro babilidad de que el equipo A gane cada
juego, en cuyo caso q = .4 re p resen ta rá la pro b ab ilid ad del
equipo B p a ra vencer en cada juego. Se supone, p o r tanto, que
las p ru eb as sucesivas son independientes. ¿Cuál es la probabili­
d ad de que el equipo A gane la serie? ¿Cuáles son las p robabilida­
des individuales de cada posible secuencia de ganancias y p ér­
didas?
Podem os ex p resar las posibles secuencias en el diagram a si­
guiente :
Ganador del
prim er juego
Ganad or del
segundo juego
Ganador del
tercer juego
La ram a su p erio r del árbol re p resen ta las posibilidades, suponien­
do que A h a ganado el p rim er juego, en ta n to que la ram a b aja
re p resen ta las correspondientes al triu n fo inicial de B. Si A
gana el segundo1 juego después de h ab e r ganado el prim ero, la
serie se detiene, y A gana con u n a probabilidad de p 2. Sin em­
bargo, si A gana el p rim e r juego y B el segundo, es preciso jugar
u n te rc e r juego. Si éste es ganado p o r A la serie se detiene, y A
gana con pro b abilidad de p 2q, p ero si B gana el te rc e r juego gana
la serie con probabilidad p q \ E sta clase de series da origen a
u n árbol p erfectam ente sim étrico, aun cuando es evidentem ente
posible in v en tar com petencias con handicaps que produzcan árbo­
les asim étricos. P or ejem plo, el equipo A puede n ecesitar ganar
cuatro juegos en tan to B con sólo tres vencerá.
Las probabilidades de las varias posibilidades pueden s e r ya
com putadas com o sigue:
Secuencias según las cuales
vence el equipo A(p = .6)
p2 =
.3 6 0
pqp = , 144
q p p = .1 4 4
P ro b a b ilid a d d e
g a n a r la s e rie
Secuencias según las cuales
vence el equipo B (q = .4)
42 =
160
pqq ~ .0 9 6
qpq = . 0 9 6
------.6 4 8
.3 5 2
E l h ech o de que las probabilidades sum an u n a u n id a d puede
re p re se n ta rse alg ebraicam ente com o sigue:
p 2 + 2p 2q + 2 p q 2 + q 2 = p 2 + 2p q ( p + q) + q s
= p z + 2p q + q2 = ( p + q )2 = 1
IX.4. Valores esperados
U na idea, su rg id a p ro b a b le m en te en u n casino de juego, tiene
im p o rtan tes aplicaciones estadísticas. C onsiste e n que si u n o r e ­
p ite u n ex perim ento u n g ra n nú m ero de veces, h aciendo apues­
tas so b re los resultados, será posible calcu lar las ganancias (o
p é rd id a s ) esp eradas, con b ase e n diferentes suposiciones acer­
ca de la n atu raleza del juego que e stá siendo p racticad o . P ara
p o n e r u n ejem plo m uy sencillo, supongam os que se e stán echan­
do m o n ed as a cara o cruz, apostando siem p re a caras, y que
cad a vez q ue ap arece u n a c a ra se gana u n peso, p ero se p ierd en
2 pesos p o r cada vez que sale cruz. B ajo el su p u esto de que la
m o n ed a no h a sido p re p a ra d a , es evidente que u n o n o d esearía
m a n te n e r ta l juego d u ra n te m ucho tiem po. ¿P ero cóm o pu ed en
calcu larse las ganancias o pérd id as esp erad as en o tro s casos m ás
com plejos?
E n el sencillo ejem plo a n te rio r el sentido com ún su g eriría m ul­
tip lic a r la p ro b ab ilid ad d e cada aparición p o r la ganancia o la
p é rd id a co rresp o ndiente a dicho resultado, sum ando a continua­
ción los resu ltad os. O btendríam os así com o "ganancia" esperada
la can tid ad (1) ( Vi) + ( —2) ( Vz) = — .5. E sto significa que, com o
prom edio, u n o h a b ría de e sp e ra r p e rd e r 50 centavos p o r tirad a.
Las ganancias o p érd id a s reales pu ed en p o r su puesto d ife rir de
e s te v alo r esp erado, p e ro si hubiésem os de confiar en la teoría
d e las p ro b ab ilidades y jugásem os u n bu en n ú m ero de veces,
n u e s tra p érd id a to ta l sería aproxim adam ente de ,5¿V, en donde
N re p re se n ta el número- de tiradas.
Como segundo ejem plo, supongam os que lanzam os un solo
dado, recibiendo u n p eso si sale p a r ; perdiendo dos pesos si sa­
len uno- o tres p untos, y ganando tres pesos si salen cinco pun­
tos. S uponiendo q u e to d as las caras tienen las m ism as posibili­
d ades de salir, n u estra s ganancias esperadas serían:
( - 2 ) ( l / 6 ) + ( 1 X 1 / 6 ) + ( - 2 ) ( l / 6 ) + ( 1 X 1 / 6 ) + ( 3 ) ( 1/6) +
+ ( 1 X 1 / 6 ) = 1/3 = 1.333
p o r juego. E n general, si hay k posibles resultados X t , X 2, . . . ,
X k, y si la p ro b ab ilid ad de X¡ es d ad a p o r p ( X i ) , podrem os defi­
n ir el valor esp erad o de las variables X, indicando con el sím bolo
7c
E ( X ) , com o: E ( X ) = 2 X t p i X ^ . E n los ejem plos considerai=l
dos h a sta ahora, la X t h a rep resen ta d o pagos (e n pesos) p ara
cada g rupo de resultados, p ero es posible concebir en térm inos
m ás generales esta idea del v alor esperado.
Supongam os p o r ejem plo que tenem os u n a población que con­
tien e N individuos con puntuaciones en la X variable. Si elegi­
m os al azar e n tre esta población, cada individuo te n d rá una
pro b ab ilid ad de Í / N de se r seleccionado. ¿Cuál es el valor espe­
ra d o de X ? E n este caso te n d ría m o s :
E ( X ) = •X1p(.X1) + X zp ( X ¡¡) + . . . + X x p { X N)
= ( X 1 + X 2 + . . . + X lr) ( l / N ) - X
y obtendrem os el in tere sa n te re su ltad o de q ue el v alor espera­
do de X es su m edia, suponiendo que el m uestreo sea aleatorio.
A p a rtir del ca p ítu lo siguiente n o s ocuparem os am pliam ente
de las distribuciones de probabilidades, llam adas distribuciones
p o r m uestreo. E n sentido estricto, tales distribuciones son infi­
nitas, ya que se refieren a probabilidades que aquí definim os
solam ente en térm inos lim itadores. Podem os sin em bargo m en­
cionar estas distribuciones de p ro b ab ilid ad com o si tuviesen va­
lores esperados in terp re tab les com o sigue: im aginem os m ués­
treo s aleatorios hechos rep etid am en te con u n a d eterm in ad a
población. Si tal población tiene u n a m edia a la que denom ina­
rem os con la le tra griega ¡i, entonces E ( X ) = p,. D esearem os en­
co n tra r tam bién los valores esperados de o tras cantidades, tales
corno la m u estra m edia X , la que a su vez re su lta te n e r su valor
esperado de E ( X ) igual a ¡x, en el caso de m u estreo aleatorio.
O tra expresión de considerable in terés teórico e n la estadística
es E [ X — E ( X ) 2 S, la que en el caso del m u estreo aleatorio, para
el cual E ( X ) = p, es 2 (X, - n)2 p (X 4) = l / N 2 ( X t - u P , o la
í=‘1
í==1
variancia de X. Aun cuando no harem os gran uso de la notación
corresp o n d ien te a valores esperados, probab lem ente se encon­
tra rá n referencias a la m ism a en textos m ás avanzados, ya que
en las p ru e b as de estad ística m atem ática es em pleada am plia­
m ente.
Todas las p ru eb as estad ísticas a exam inar en este texto p a rte n
del su p u esto de que hay independencia e n tre los acontecim ientos
y que, p o r consiguiente, las probabilidades condicionales n o han
de em p learse al m u ltip licar las probabilidades.11 E n o tro s té r­
m in o s: se supone que existe independencia d e selección en el
in te rio r d e u n a m u estra, n o teniendo la selección de u n indivi­
duo in flu en cia alguna so b re la selección de o tro a in clu ir e n la
m ism a m u estra. Sin em bargo, se d an m uchos casos e n que se
pro p en d e a violar dicho im p o rta n te supuesto. De ahí que el lec­
to r d eba acostum brarse a p re g u n ta r siem p re si el su p u esto de
independencia está o n o efectivam ente ju stific ad o en cualquier
p ro b lem a dado. S erá ú til, e n e ste p u n to , in d icar unos pocos
ejem plos de situaciones en las que se co rre riesgo de p rescin d ir
del su p u esto en cuestión.
Los estad íg rafo s o b tienen a m enudo lo que se designa com o
m u estra al azar (o m u estra irrestricta aleatoria) con o b jeto ta n ­
to de satisfacer el su p u esto necesario d e independencia com o
p a ra d a r a to d o individuo de la población considerada u n n ú m ero
igual d e oportu n id ades de fig u ra r en la m u estra. Sirviéndonos
de u n a ta b la de núm eros al azar o algún o tro arreglo p o r el
estilo, p u ed e ob ten erse u n a m u e stra en fo rm a esencialm ente idén­
tica a la de e x tra e r naipes de una b a ra ja bien b a ra ja d a o núm e­
ro s en u n ju ego de lo tería. La m u e stra a lea to ria posee la p ro p ie­
d ad no sólo d e dar a cada individuo la m ism a oportunidad de
ser seleccionado, sino tam bién la de proporcionar a cada co m b i­
nación de individuos una oportunidad igual de selección -12
E n rigor, com o q uiera que casi siem pre extraem os las m u estras
sin reposición, el su p u esto de independencia n o se cum ple p o r
com pleto. Sin em bargo, cu an d o la población es grande en rela­
ción con la m ag n itud de la m uestra, podem os olvidar perfecta­
m en te la peq u eñ a d istorsión re su ltan te de que a ningún individuo
se le dé la o p o rtu n id ad d e se r seleccionado o tra vez. P or ejem ­
p lo : si de u n a población de 100 m il p erso n as se extraen 500, las
p ro b ab ilid ad es son m uy pequeñas de que alguna de ellas volviera
a seleccionarse en el caso de que su nom bre se p u siera de nuevo
e n el grupo. Y en form a análoga, la diferencia es p rácticam en te
m uy p eq u eñ a si reponem os o n o al ex tra er sólo tres cartas de u n a
b a r a ja ; p ero, si ex trajéram o s 35, la diferencia sería considerable.
Si la m u e stra es relativam ente grande en com paración con la
11
E s lo q u e s e v e r á e n el c a s o d e ¡a b in o m ia l q u e s e e x a m i n a r á e n e l
s ig u ie n te c a p ítu lo . S in e m b a r g o , e n el c a s o d e o t r a s p r u e b a s , e l le c to r h a b r á
d e a c e p t a r s im p le m e n te la v e r d a d d e e s t e a s e r to .
a s E n e l c a p . x x i s e d i s t i n g u i r á l a e x tr a c c ió n d e m u e s t r a s a l a z a r d e o t r a s
f o r m a s d e e x tr a c c ió n d e u s o c o r r ie n t e , ta le s c o m o la s i s t e m á ti c a , la e s t r a t i ­
f i c a d a y l a d e c o n g lo m e r a d o s .
población, entonces puede ap licarse a veces u n fa c to r de correc­
ción p a ra com pensar la fa lta de rem plazo.13
P ese a que los problem as re su ltan te s de la fa lta d e rem plazo
no> sean graves, la fa lta de p ro p o rcio n ar a cada com binación de
individuos la posibilidad de ap arecer en la m u e stra puede tra d u ­
cirse en u n a grave violación del supuesto de independencia. Su­
póngase, p o r ejem plo, que nos dispusiéram os a clasificar los n ai­
pes corrientes en c u a tro m o n to n es: uno p a ra los tréboles, o tro
p a ra las espadas, etcétera. Supóngase luego que fuéram os a se­
leccionar u n o de dichos m ontones al azar. E s obvio q u e cada
c a rta de la b a ra ja te n d ría la m ism a o p o rtu n id ad (I sobre 4) de
se r seleccionada, p ero in d u d ab lem en te todas las com binaciones
no serían posibles, y n o digam os ya igualm ente probables. E n
efecto, sab iendo que el n aipe de encim a es u n a espada, sabem os
q u e todos los dem ás naipes del m o n tó n son igualm ente espadas.
Las m u estras de área o p o r conglom erados em pleadas com ún­
m en te en las investigaciones sociales n o cum plen el su p u esto de
independencia p o r esta m ism a razón. E n efecto, si se seleccionan
al azar 100 m anzanas de casas de u n a población y luego se in­
cluye en la m u e stra cada te rc e ra fam ilia de las m anzanas en cues­
tión, es obvio que to d as las com binaciones de fam ilias no tienen
la m ism a o p o rtu n id ad d e fig u ra r e n aquélla. E n efecto, dos fa ­
m ilias de la m ism a m anzana tien en m ayor o p o rtu n id ad de fig u rar
en la m ism a m u estra de lo que es el caso de dos fam ilias en dos
m anzanas distin tas. Como quiera que las m anzanas de casas u rb a ­
n as suelen se r p o r lo re g u la r relativ am en te hom ogéneas e n cuanto
a ca rac te rístic as tales com o el ingreso o la in stru cció n del jefe
de fam ilia, el re su ltad o de sem ejan te tip o de extracción d e m ues­
tr a será m enos exacto q u e u n a selección de u n a m u e stra aleatoria
del m ism o tam año. E sto puede verse in tu itiv am en te si im agina­
m os u n a situación en que to d as las m anzanas sean to talm en te
hom ogéneas, com o e ra el caso de los c u a tro m ontones de naipes.
E n tal caso, en efecto, sólo necesitaríam os o b te n e r inform ación
acerca de u n a vivienda e n cada m anzana, y el n ú m ero de "casos"
sería de h echo el n ú m ero de las m anzanos seleccionadas, esto
es, u n N b a sta n te m enor. Según verem os en el capítulo xxi, es
posible o b ten er unos resu ltad o s ex trem adam ente engañosos, si h a­
biendo ex traíd o una m u e stra sem ejan te p o r conglom erados, el
investigador se sirve luego de pru eb as estadísticas que presupon
nen u n a extracción al azar.
Un p ro b lem a análogo p u ed e fácilm ente en c o n trarse cuando se
está in teresado en los actos individuales de conducta. Supóngase,
p o r ejem plo, que u n sociólogo efectúa u n experim ento en el que
se sirve de 30 su jeto s, cada uno de los cuales fo rm u la 50 juicios
d istintos. Se ten d ría n en tal caso 1 500 juicios, y nos podríam os
ver inducidos a servim os en u n a p ru e b a estad ística d e sem ejani s V é a s e se c c . X X I .l.
te N artificialm en te ponderada, suponiendo que los 1 500 juicios
en cuestión co n stituyeran u n a m u estra al a z ar de los juicios de al­
gún tip o de población. P ero sería m anifiestam ente ab su rd o en
la m ayoría de los casos su p o n er que los juicios de u n m ism o
individuo son estadísticam ente independientes unos de otros. En
efecto, suS p rim eros 30 juicios afectarán probablem ente a los de­
m ás, ya que a diferencia de la m oneda, la p erso n a sí tiene m e­
m oria.
Supóngase que u n sociólogo se in tere sa a n te todo en p ares de
perso n as, com o unidad, m ás que en el individuo singular. Puede
te n e r u n grupo de 20 personas, cada u n a de las cuales esté en
interacció n con to d as las dem ás. T endría, en consecuencia, (20)
(1 9 )/2 o 190 p ares de personas, p e ro no e staría en condiciones
d e co n sid erar cada p a r com o in dependiente de los otros. Es
obvio que el conocim iento a p ro p ó sito del p a r Sm ith-B row n su­
m in istra rá p ro b ab lem en te alguna inform ación sobre los p ares
Sm ith-Jones o B row n-Jones, ya que las m ism as personas figuran
en varios pares.
Los ecólogos, antropólogos y otros sociólogos in teresad o s en
generalizar a p ro p ó sito de localidades, sociedades u o tra s u n id a­
des definidas espacialm ente necesitan tam bién p reo cu p arse de la
fa lta de independencia en u n a gran p a rte de su labor. Aquí el
p ro b lem a p arece derivarse del hecho de que las unidades selec­
cionadas n o son a m enudo claram ente distintas. E n efecto, las
fro n te ra s de u n a sociedad o u n a localidad pueden se r difíciles
de definir, y u n a u n id ad sem ejante puede p a s a r gradualm ente a
la o tra, siendo las divisiones m ás o m enos arb itra ria s.14 Así, p o r
ejem plo, si se utilizan com o unidades los d istrito s del censo en
el in te rio r de u n a ciudad o los d istrito s te rrito ria le s en el in te rio r
de u n E stado, re su lta a m enudo posible p re d ecir a p ro p ó sito de
u n a u n id ad sobre la b ase d e la un id ad vecina. Si la cuota de delin­
cuencia es elevada en u n distrito, es pro b ab le que lo sea tam bién
en el vecino, y a q ue es incluso posible q u e las m ism as ban d as
de delincuentes se extraigan de am bos distritos. Que "algo no
e stá en o rd e n ” en relación con el su p u esto de independencia p u e­
de p ercib irse in tu itiv am en te dándose cuenta de que, cuando las
u n id ad es no son claram ente distintas, sería posible p o n d e ra r el
n ú m ero de "u n id a d es” a cualquier tam añ o deseado, co rtan d o
sim plem ente el p astel en m uchos pedazos pequeños. Así, p o r
ejem plo, si no h ay b astan te s sociedades en el m undo p a ra o b ten er
significancia estadística, p o d ría dividirse cada sociedad en 10
subregiones y o b ten er 10 veces m ás "casos”.
14 E s t a s i t u a c ió n s e p a r e c e r í a e n c i e r t o m o d o a l a d e u n a b a r a j a c a d a u n a
d e c u y a s c a r t a s p a s a r a in s e n s ib le m e n te a la s o t r a s , d e m o d o q u e r e s u l t a r a
d if íc il d e c i r d ó n d e u n a d e e lla s t e r m in a b a y e m p e z a b a l a o t r a . O t a m b ié n ,
¡ q u e c a d a c a r t a f u e r a c a p a z d e i n f lu i r l o s v a lo r e s f ig u r a d o s d e s u s v e c in a s
in m e d ia ta s !
E n u n tex to com o éste n o es po sib le exam inar soluciones a los
pro b lem as q ue com portan violaciones del su p u esto de indepen­
dencia. Que el a u to r sepa, m uchos de dichos problem as n o h an
sido resu elto s satisfactoriam ente. R esulta a m en u d o difícil apre­
c ia r la g ravedad de los erro res introducidos cu an d o no se cum ­
p len su p u esto s requeridos, com o el de independencia. Pisam os
terren o firm e siem pre que tenem os la seg u rid ad d e que los su­
puesto s re q u erid o s p a ra alguna p ru e b a s í se c u m p le n ; p e ro si no
se cum plen, ra ra m e n te re s u lta posible decidir exactam ente en
q ué m edida nos ap artam o s de dichos supuestos. Con o b jeto
de e s ta r seguro, el lecto r h a de ac o stu m b ra rse a exam inar cuida­
d o sam ente to d o supuesto. Si se tien en m otivos p a r a d u d a r de
la validez d e alguno, entonces h a b ría q u e co n sid erar seriam ente
el serv irse de o tro p rocedim iento que n o lo contenga. Así, p o r
ejem plo, p o d ría decidirse re c u rrir a o tra u n id a d de análisis, o sea
a la p erso n a, m ás bien q u e a los actos de la co nducta o a los
p ares de personas, o b ien a los delincuentes p a rtic u la re s m ás que
a las ta sa s de delincuencia e n relación con u n d istrito del censo.
Si bien los sociólogos y o tro s que se sirven d e la estad ística
aplicad a h a n p ro p en d id o en ocasiones a p re sc in d ir d e los supues­
tos, llegando así a conclusiones infundadas, es tam b ién posible,
p o r o tra p a rte , p e c a r de p ru rito excesivo d e perfección. Como
q u iera que, en efecto, n o nos la s habernos n u n ca con situaciones
ta n sencillas com o las de lan zar u n a m oneda al a ire o sac ar nai­
p es de u n a b a ra ja p erfecta, re su lta siem pre posible p o n e r en tela
de ju icio cu alq u ier pro ced im ien to a títu lo d e im p erfecto en rela­
ción con el ideal q u e se persigue. S e p u ed e a b rig a r u n tem o r
ta l de v io lar supuestos, que se p re fiere p re sc in d ir p o r com pleto
de to d a técn ica estadística. E s necesario, so b re to d o e n u n a dis­
ciplina q u e se ca rac te rice p o r estudios exploratorios y técnicas
científicas relativ am en te im precisas, llegar a com prom isos con
la realidad. E l proced im ien to m ás indicado co n sistirá en h acer
el m en o r n ú m ero de com prom isos posible, d e n tro d e los lím ites
de lo p racticable.
Gwsario
Sucesos
Límite
Sucesos m utuam ente exclusivos
Probabilidad
Muestra aleatoria
Independencia estadística
E jercicios
1. En un simple lanzamiento de u n dado no cargado, ¿cuál es la pro­
babilidad de:
a)
b)
c)
d)
e)
¿sacar u n
¿no sacar
¿sacar un
¿sacar un
¿sacar un
6?
un 6?
1 o un 6? Respuesta, 1/3
1 y un 6?
núm ero im par o un 6?
2. Cuál es la posibilidad de obtener cada uno de los siguientes
resultados en tres extracciones de un juego de naipes bien barajado:
a) ¿tres sotas, con reposición? Respuesta, 1/ 2197.
b) ¿tres sotas, sin reposición? Respuesta, V6 520c) ¿una espada, un corazón y un diam ante (en cualquier orden),
con reposición?
d) ¿exactamente dos ases, con reposición?
e ) ¿por lo menos un as, con reposición? (Indicación: ¿cuál es la al­
ternativa por al menos un as?) Respuesta, 4®®/2197.
*f) ¿por lo menos un as y por lo menos un rey, con reposición?
[Indicación: en f) y en algunos de los ejercicios que siguen, será
útil dividir el problema en tres pasos: 1 ) determ inar las distintas
combinaciones de cartas que dan por lo menos un as y por lo
menos un rey (v.gr., un as, un rey y otra carta cualquiera: dos
ases y un rey, etcétera); 2 ) determ inar la probabilidad de obtener
dichos naipes en cualquier orden particular; y 3) determ inar
para cada una de dichas combinaciones el número de ordena­
mientos posibles.]
3. Supóngase que se interroga a 1000 novatos acerca de sus gustos
musicales. Se encuentra que 400 de los estudiantes son aficionados a
la m úsica clásica, en tanto que los restantes no lo son. De estos 400
aficionados, sólo a 100 les gusta el rock and rail. Hay 400 personas
a las que no les gusta ni un género ni otro de música, en tanto que a
las restantes les gustó sólo el rock and roll.
a) Si se escoge un estudiante al azar, de entre la población en
cuestión, y si A es el acontecimiento consistente en que le gusta
la música clásica y B el acontecimiento consistente en que le
guste el rock and roll, ¿cuáles son P(A), P(B), P(A\B) y P(B|A)?
b) Verifiqúese num éricam ente que
P ( A & B ) = P(A)P(B|A) = P(B)P(A\ B)
c) ¿Cuál es la probabilidad de seleccionar una persona a la que
guste uno de los dos géneros de música, pero no ambos?
*d) Observando que una persona puede tener uno de cuatro tipos de
gusto (que le gusten los dos géneros, que no le guste ninguno,
etcétera), ¿cuál es la probabilidad de que tres estudiantes selec­
cionados al azar como compañeros de cuarto tengan los mismos
gustos? (Supóngase reposición). Respuesta, .10.
*e) ¿Cuál es la probabilidad de que haya por lo menos dos aficiona­
dos al rock and roll en un corredor de ocho personas? (Supón­
gase selección al azar, con reposición.)
" 4. En los datos que se consignan a continuación, supóngase que A
es el acontecimiento consistente en seleccionar un varón, B el acon­
tecimiento consistente en seleccionar una persona de cultura univer­
sitaria, y C el consistente en seleccionar una persona de grado elevado
de prejuicio:
Grado de
prejuicio
Alto
Bajo
Cultura inferior a
universitaria
Cultura universitaria
Varones
Mujeres
Varones
Mujeres
100
150
50
100
200
150
250
200
a) Hállese P(A & B & C) en una sola extracción, sin servirse de
fórmula. Verifiqúese que la fórmula es cierta en el caso de los
datos numéricos de este ejercicio.
b) Hágase lo mismo para P ( A o B o C ) . Será preciso desarrollar la
fórmula para P(A 0 B 0 C).
c) ¿Cuál es la probabilidad de seleccionar exactamente un varón de
cultura universitaria, exactamente una m ujer de cultura univer­
sitaria y exactamente una persona de alto grado de prejuicio en
una extracción al azar de tres personas? (Supóngase reposición.)
*
5. Los estudiantes inscritos en un curso de introducción a la socio­
logía de la Universidad de Michigan fueron clasificados según sus
aspiraciones profesionales para sí mismos o para sus cónyuges, con­
forme al sexo de los interrogados. Se obtuvieron los siguientes d ato s:
Sexo
Aspiraciones
elevadas
Aspiraciones
modestas
Total
Varones
Mujeres
43
71
10
93
53
164
Total
---
__
-
114
103
217
Supóngase que de esta población de 217 estudiantes se seleccionan
aleatoriam ente individuos,
a) ¿Cuál es la probabilidad de seleccionar un estudiante de aspira­
ciones elevadas? ¿Cuál es la probabilidad de seleccionar un estu­
diante de aspiraciones elevadas, en el supuesto de que sea varón?
¿En el supuesto de que sea mujer?
b) Supóngase que de dicha población se seleccionan individuos al
azar (sin reposición), indicando por suposición en cada caso si se
trata de un individuo de aspiraciones elevadas o modestas. ¿Con
qué frecuencia se supondrá que tiene aspiraciones elevadas? ¿Mo­
destas? ¿Por qué? En 217 extracciones, ¿cuántos errores se es­
pera cometer? Respuesta, 103.
c) Supóngase que se sabe el sexo del estudiante. Dado que es varón,
¿cuántos errores se espera cometer al asignar los 53 varones
a las categorías respectivas de aspiraciones elevadas o modestas?
¿Cuántos en relación con las mujeres? Respuesta, 10; 71.
d ) ¿Cómo podría construirse un índice que mostrara la reducción
proporcional de errores, si el interrogado es varón, en compara­
ción con los errores en el caso de desconocerse el sexo? Como
se verá en el capítulo xv, semejante índice puede emplearse para
medir la fuerza o grado de relación entre el sexo del interrogado
y sus aspiraciones profesionales.
* 6. Hágase un diagrama de árbol para calcular las probabilidades
de todos los resultados posibles de una Serie Mundial (el que gane
4 juegos de un máximo de 7), suponiendo que la probabilidad de que
el equipo de la Liga Nacional gane cada juego es de .6.
B ibliografía
1. Alder, H. L., y E. B. Roessler: Introduction to Probdbility and Sta­
tistics, 4- ed., W. H. Freeman and Company, San Francisco, 1968,
cap. 5.
2. Feller, William: An Introduction to Prohability Theory and Its
Applications, 3? ed., John Wiley & Sons, Inc. Nueva York, 1967.
3. Freund, J. E .: M odem Elementary Statistics, 3» ed., Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1967, caps. 5 y 6.
4. Gelbaum, B. L., y J. G. M arch: Mathematics for the Social and
Bekavioral Sciences, W. B. Saunders Company, Filadelfia, 1969,
caps. 24.
5. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc. Nueva
York, 1963, caps. 2 y 4.
6. Kemeny, J. G., J. L. Shell y G. L. Thompson: Introduction to Finite Mathematics, 2- ed., Prentice-Hall, Inc., Englewood, Cliffs, N. J.,
1966, caps. 3 y 4.
7. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning in Sociology, 2* ed., Houghton Mifflin Company, Boston, 1970,
cap. 8.
8. Savage, L. J . : The Foundations of Statistics, John Wiley & Sons,
Inc., Nueva York, 1954, caps. 1-3.
X . P R U E B A S D E H IP Ó T E S IS : LA D IS T R IB U C IÓ N
B IN O M IA L
E n ciencias sociales nos encontram os a m enudo fre n te a sim ples
dicotom ías com o la d e si u n individuo posee o n o u n determ inado
a trib u to o d e si u n experim ento h a tenido éxito o h a fracasado.
E n tales casos, siem p re que sea posible fo rm u la r u n a hipótesis
acerca de cierta p ro b ab ilid ad de éxitos, siem pre que las p ruebas
sean indep endientes u n as d e o tra s y siem pre que el n ú m e ro de
éstas sea relativ am en te pequeño, es posible servirse de p ru eb as
estad ísticas q u e se co m p o rtan com o u n a distribución binom ial.
Pese a que existen num erosas p ru e b as estad ísticas m ás prácticas
que las q u e se sirven de la distribución binom ial, es conve­
niente, con todo, dedicar u n tiem p o considerable a dicha d istri­
bución, a causa a n te to d o de su sencillez. Al em p lea r la d istrib u ­
ción binom ial, el estu d ian te puede seguir en fo rm a relativam ente
fácil to d o s los pasos que aquélla com porta, obteniendo con ello
u n a visión d e los procedim ientos generales em pleados en todas
las p ru e b as estadísticas.
Es p ro b ab le que al le c to r el p re sen te capítulo se le an to je
com o excepcionalm ente difícil, debido al hecho de que se expo­
n en e n el m ism o cierto n ú m e ro de ideas nuevas en fo rm a m ás
bien com pacta. M uchas de esas ideas vuelven a tra ta rse e n el
capítulo xi, y es tal vez p re ferib le que el le c to r considere estos
dos capítulos com o u n a sola unidad, leyendo el capítulo xi an tes
d e d o m in ar p o r com pleto la m a teria del p resen te. E n p articu lar,
se puede d e ja r p a ra después la lectu ra de la sección X.3, que
tra ta de diversas aplicaciones de la binom ial, y de la sección X.4,
so b re extensiones.
X .l. La distribución de m u estreo binom ial
Antes d e exam inar cada u n o de los pasos im plicados en las p ru e ­
bas estadísticas, será conveniente co n sid erar cóm o se obtienen
las d istribuciones binom iales. P o r el m om ento sim plificarem os
la cuestión lim itándonos al lanzam iento de m onedas. E n este
tip o de p roblem as, el n ú m ero de los lanzam ientos constituye la
m ag n itu d de la m u estra, y n u e stro in terés se ce n tra en el núm ero
de caras (éxitos) obtenidas en N pruebas.
S uponiendo q u e las N p ru e b as (lanzam ientos de m onedas) son
estad ísticam en te in d ependientes u n a de o tra , podem os evaluar
in m ed iatam ente la p ro b ab ilid ad d e o b ten er r caras y N — r cru ­
ces en algún orden p artic u la r. Podem os, p o r ejem plo, o b ten er
la p ro b ab ilidad de conseguir r caras sucesivas seguidas de N — r
cruces. Supongam os que p es la p ro b ab ilid ad de o b ten er una
160
c a ra ; en este caso, la p ro babilidad de o b ten er u n a cruz, que
designam os com o q, se rá de 1 — p. Como q u iera que las p ru eb as
son independientes, podem os m ultiplicar sim plem ente las p ro b a­
bilidades incondicionales. La p robabilidad de obtener exacta­
m en te r caras en el orden que se acaba de indicar s e r á :
p p p .... p
q q q . . . q = p 'q * '-'
____ _ ______ J
*______ _______ f
r térm inos
N — r térm inos
E s obvio que en los supuestos de independencia estadística y
p ro b a b ilid ad co n stante de los éxitos (v.gr., la m oneda n o se des­
g asta de m odo irre g u la r), la p ro babilidad de o b ten er cualquier
o tro o rd en p a rtic u la r de r caras y N — r cruces será tam bién
prqN-T' p o r jo tan to , con o b jeto de o b ten er la probabilidad de
con seg u ir exactam ente r caras en cualquier orden sólo se nece­
sita c o n ta r el nú m ero de m aneras distin tas que tenem os de obte­
n e r r caras y N — r cruces. Sin em bargo, p o r poco que N sea
grande, la ta re a se hace m uy fastidiosa. A fortunadam ente dispo­
nem os d e u n a fó rm ula m atem ática q u e hace innecesaria dicha
operació n de co ntar. E n efecto, el nú m ero de m an eras posibles
en q u e podem os o rd e n a r r éxitos y N — r fracasos, escrito sim bó­
licam en te com o
(X.l)
en donde N I (léase factorial N ) = N (N — 1) (N — 2)
(3)
(2 ) (1 ), y lo m ism o p o r lo que se refiere a r! y a (N — r ) ) 1
Con fines de cálculo, la fórm ula (X .l) puede sim plificarse ob­
serv an d o que algunos de los térm inos del n u m erad o r y el deno­
m in a d o r se elim inan recíprocam ente.1 Como q uiera que r < N ,
podem os escrib ir N ! com o p roducto de dos factores, com o sig u e:
N I = [ N ( N - l ) ( N ~ 2 ) .. . ( N - r + 1 )] U N - r ) . .. (3 )(2 )(1 )]
= [ N ( N — 1)(AÍ — 2 )...(A T — r + l ) ] [ ( A T — r ) ! ]
y vem os in m ed iatam en te que (N — r ) \ p u ed e elim inarse ta n to
del n u m era d o r com o del denom inador. E n esta fo rm a nos que­
da, p u e s :
i El símbolo
no ha de confundirse con
N /r
o
N
dividido entre r.
( N
\
N (N — 1 ) ( N — 2 ) . . . ( N — r + 1)
( ~ r j =—
---------- tí---------------
(X2)
Así, pues, si querem os e n c o n tra r el nú m ero de m an eras d e o b ­
te n e r cu a tro caras en diez lanzam ientos, tenem os:
A T - r + l = 1 0 -4 + l = 7
y p o r c o n sig u ien te:
(4)
(1 0 )(9 )(8 )(7 )
210
(4 )(3 )(2 )(1 )
O bsérvese que al em p lea r la ecuación (X .2) se tiene el m ism o
n ú m ero de facto res en el n u m era d o r y el denom inador. E sto es
siem p re así. E sta segunda fo rm a es m ás sencilla, con fines de
cálculo, que la p rim era. Si r > N/ 2, em pezam os a te n e r algunos
térm in o s que aparecen ta n to en el n u m e ra d o r com o en el deno­
m in ad o r y, p o r consiguiente, se elim inan recíprocam ente. P or
ejem plo, si r = 6, tenem os:
10
(1 0 )(9 )(8 )(7 )
(6 )(5 )
6 /
(Í)(2 )(3 )(4 )
(5 )(6 )
210
/ 10 \
lo que nos d a el m ism o re su lta d o obtenido que al c a l c u l a r ! - j - 1
E n general p u ed e d em o strarse que
de m odo que p u ed e u tilizarse lo m ism o r que N — r, según cuál de
ellos sea m enor.
Si ah o ra querem os sa b e r la p ro b ab ilid ad de o b ten er exacta­
m e n te r éxitos e n N p ru e b as y no nos in teresam o s p o r el orden
en que o cu rran , podem os m u ltip licar la p ro b a b ilid ad de o b ten er
/ N \
u n a secuencia p a rtic u la r cu alq u iera p o r I ----- I . D esignando la
p ro b ab ilid ad deseada p o r P( r) , tenem os:
p(t-)
=
P ro b ab ilid ad
de r éxitos
ex actam ente
=
N
( “7 " J
N? d e m an eras
de o b te n e r r
X
éxitos
rrnX-r
prq'
P robabilidad (X .3)
de u n a sucesión
d ad a cualquiera
Si la m oneda fu e ra perfectam en te correcta, esto es, si p = q = 1/2,
la p ro b ab ilid ad de o b ten er exactam ente cu a tro caras en diez
p ru eb as sería d e :
210
210
/ 1 0 \ / l \ ' , í/ l \ 6
=
)(t ) (?)
= 210114>“ V024 = '205-
Y en fo rm a análoga podem os calcular las probabilidades de
o b ten er exactam ente 0, 1, 2, . . . , 10 caras en 10 pruebas.
Ni de caras
0
1
2
3
4
5
6
7
8
9
10
Probabilidades (con p
1/1024=
10/1024=
45/1024=
120/1024=
210/1024=
252/1 024 =
210/1024=
120/1 024 =
45/1024=
10/1024=
1/1024=
= Va)
.001
.010
.044
.117
.205
.246
.205
.117
.044
.010
.001
1.000
O bsérvese que siendo r cero, la m agnitud
y la fó rm u la falla. Vemos, sin em bargo, que, siendo r = 0, sólo
hay u n o rd en posible (to d o cruces). E n este ejem plo, la d istri­
bu ción de p ro babilidades es perfectam en te sim étrica. Sirviéndose del hecho de que
vencerse p o r sí m isi
el lecto r debería conserá siem pre sim étrico,
p ero que el fa c to r prqN~ r sólo será exactam ente sim étrico si
p — q — Vi.
E n el ejem plo an terio r, las probabilidades se h an asociado con
cad a un o de los 11 resultados posibles del experim ento. E n di­
cho sencillo ejem plo, sólo' se daba u n pequeño nú m ero de resul­
tad o s concebibles, dado el supuesto de que en cada lanzam iento
sólo dos de ellos era n posibles. En o tro s experim entos, en cam ­
bio, el núm ero de re su ltad o s posibles puede ser m uy grande y
au n infinito, y puede se r necesario a g ru p a r ciertos resultados
y aso ciar u n a p ro b ab ilid ad con la serie en te ra de los m ism os.
Así, p o r ejem plo, si la m oneda se h u b iera lanzado al aire 1 000
veces, pudim os h a b e r calculado las probabilidades de o b ten er de
400 a 449, de 450 a 499 o de 500 a 549 caras.
Cuando asociam os probabilidades co n cada resultado posible
de u n exp erim ento, ¡o con grupos d e resultados, designam os la
d istrib u ció n resultante d e probabilidades com o d istrib u ció n de
m u estreo . R ecordando que utilizam os el concepto de probabili­
dad p a ra d esig n ar el lím ite de la razó n de los éxitos al nú m ero
to ta l de las p ru e b as, vem os q u e la d istribución de m u e stre o se
refiere al n ú m ero relativo de veces que esperam os o b ten er cier­
tos resultados e n u n n ú m ero m u y grande d e experim entos.
E n el ejem p lo nu m érico considerado, cad a experim ento consis­
te en lan za r la m oneda 10 veces al aire y a n o ta r el nú m ero de
caras. N u estros cálculos nos dicen que si efectuáram os el expe­
rim en to 1 024 000 veces, podríam os e sp e ra r o b ten er aproxim ada­
m en te (p e ro no ex actam ente) 1 000 casos en que n o saliera u n a
sola cara, 10 m il en que saliera exactam ente u n a cara, 45 m il
casos con dos caras, etcétera. Adem ás, esp eraríam o s q u e cuanto
m ay o r n ú m e ro de veces se efectu ara el experim ento, ta n to m ás
cerca q u ed a ran las pro p o rcio n es em píricas de estas p robabilida­
des teóricas.
E n realidad, el investigador nunca obtiene u n a distribución de
m u estreo p o r m edios em píricos, y a que p o r lo> re g u la r sólo efec­
tú a u n ex p erim ento o extrae u n a m u e stra u n a sola vez o, a lo
sum o, unas pocas veces. Im p o rta d arse cu en ta de que la d istri­
bu ció n de m u estreo es u n a d istrib u ció n hip o tética, teórica, que
sólo se o b te n d ría si u n experim ento se efectu ara u n n ú m ero m uy
gran d e de veces. La d istrib u ció n de m u estreo se obtiene aplican­
do razo n am ientos m atem áticos o deductivos, com o se hizo en el
ejem p lo an terio r.
Como q u iera que las distribuciones de m u estreo n o son el tipo
de d istrib u cio nes q u e el investigador ve realm en te de su s datos,
las p erso n as que n o sien tan afición p o r las m atem áticas ten d rá n
p ro b ab lem en te alguna dificultad en co m p ren d er el papel que
ju eg an estas distribuciones h ip o téticas en la inducción estadís­
tica. Pero, a m enos que la noción de d istrib u ció n d e m u estreo
se co m p ren d a claram ente, el estu d ian te se e n c o n tra rá p ráctica­
m en te en la im posibilidad de conseguir de la estad ística u n a
co m prensión q u e vaya m ás allá de la de u n m ero "recetario".
De ahí q ue convenga ex am in ar aquí en fo rm a m ás sistem ática
los p aso s q ue se d an al v erific ar u n a hipótesis estad ística y ver
exactam en te cóm o se em plean dichas distribuciones de m uestreo.
X.2. Pasos en las pruebas estadísticas
T odas las p ru e b as estad ísticas co m p o rtan cierto n ú m ero de pasos
específicos. H ay que re c a lc a r u n a vez m ás q u e cada uno de di­
chos pasos h a d e efectu arse con a n te rio rid a d a la inspección de
los datos. P u eden en u m erarse com o s ig u e :
1. F o rm ulación de supuestos.
2. O btención de la d istrib u ció n de m uestreo.
3. Selección de u n nivel de significación y de u n a región crítica.
4. C álculo de la esta d ístic a de la pru eb a.
5. T o m ar u n a decisión.
C ada u n o de esto s pasos se exam inará con cierto detalle en el
p re se n te capítulo y luego, u n a vez m ás, en el capítulo xi, de m odo
que el le c to r p u ed a fam iliarizarse con los procesos generales que
co m p o rtan las p ru e b as estadísticas.
1. Form ulación d e supuestos. Con o b jeto de ap licar la teo ría
de pro b ab ilid ad es a la obtención d e u n a d istrib u ció n d e selec­
ción, el investigador h a d e fo rm u la r ciertos su p u esto s acerca de
la población re sp ecto de la cual v a a estab le cer conclusiones
g enerales y de los p ro cedim ientos de m u e stre o a em plear. E sto s
su p u esto s relativos a la población y a los p ro cedim ientos suelen
c o rresp o n d er p o r lo re g u la r a u n a de las dos categorías siguien­
te s : 1 ) la de aquellos de los que el investigador e stá relativ am en te
seguro o está d ispuesto a acep tar, y 2 j la d e los q u e le p arece n
m ás p ro b lem ático s y en los que, p o r lo ta n to , e s tá m ás in teresado.
Los su p u esto s de la p rim e ra categoría podem os ponerlos todos
ju n to s en lo q ue llam arem os el m odelo. E n cu an to a los de la o tra
categoría, son los q u e el investigador desea verificar y se desig­
n an com o hipótesis.
P o r lo regular, p o r lo m enos en las verificaciones m ás sencillas
de que nos ocuparem os en los próxim os capítulos, sólo h a b rá
u n a h ip ótesis. Im p o rta d arse cu en ta de q u e desde el p u n to de
vista d e la pru eb a estadística m ism a , todos los supuestos poseen
el m ism o carácter lógico. Si los re su ltad o s de la p ru e b a aconse­
ja n d e sc a rta r los supuestos, to d o lo que p u ed e decirse, sobre la
base de la prueba m ism a , es que p o r lo m enos u n o de los supues­
tos, y a u n p o siblem ente todos ellos, son p ro b ab lem en te falsos.
Com o q u iera q u e la p ru e b a elló m ism a n o p u ed e su m in istra r
in fo rm ació n acerca de cuál de los su p u esto s sea erróneo, es in­
dispensable, si los re su ltad o s h a n de te n e r algún sentido, que sólo
u n o d e ellos sea re alm en te dudoso. E n estas condiciones será
po sib le d e sc a rta r el su p u esto en cuestión (la h ip ó tesis) com o
erróneo.
Los estu d ian tes fo rm u lan a m enudo el siguiente tip o de p re­
g u n ta : "¿so b re qué b ase se escoge u n a d eterm in a d a p ru e b a esta ­
d ística con p referen cia a o tra ? ” U no de los criterios que p u ed e
d a rse a estas altu ra s es el de u n m odelo apropiado. E n o tro s
té rm in o s : el in v estigador h a de seleccionar u n a p ru e b a q u e sólo
co m p o rte u n su p u esto dudoso (su h ip ó tesis). E n efecto, si u n a
d eterm in ad a p ru e b a re q u ie re dos o m ás supu estos dudosos, será
difícil, p o r no decir im posible, decidir cuál de ellos d eb a d escar­
tarse . E n tal caso, el estu d ian te d eb erá tr a ta r de e n c o n tra r u n a
p ru e b a altern ativ a q u e n o traig a consigo tan to s supuestos d u ­
dosos.
P ara ilu s tra r lo que precede con n u estro ejem plo de la m one­
da, la p ru e b a binom ial req u iere el supuesto de que 10 lanzam ien­
tos constituyen tina m u estra al az ar de todos los lanzam ientos
posibles con la m ism a m oneda, y que todos ellos son indepen­
dientes u n o de otro. Suponem os, pues, que la m oneda es correcta.
E sto ú ltim o sería p o r lo re g u la r n u e s tra hipótesis, en tan to que
lo p rim ero co n stitu iría n u estro m odelo, ya que el in terés se con­
cen traría p ro bablem ente en sa b e r si la m oneda es o no correcta.
Se concibe, sin em bargo, que podam os sospechar de la persona
que efectúa los lanzam ientos. Si estuviéram os relativam ente se­
guros a p ro p ó sito de la m oneda, p o r h a b e r com probado previa­
m en te que d ab a aproxim adam ente caras la m ita d de las veces,
entonces p odríam os cam biar el problem a y verificar u n a hipó­
tesis relativ a al^ m étodo del lanzam iento ( o sea el m étodo de
m u estreo ). Supóngase que no estuviéram os dispuestos a ac ep tar
com o m odelo la corrección de la m oneda o la corrección de la
p ersona que efectúa el lanzam iento. En tal caso, si salen 50 ca­
ras consecutivas, decidiríam os que p o r lo m enos u n o de nu estro s
supuestos e ra indudablem ente erróneo, p ero no estaríam os en con­
diciones de d ecidir cuál de ellos. E n general, p o r supuesto, pone­
m os to d a la atención necesaria en n u estro s m étodos de m uestreo
p a ra te n e r u n a seguridad razonable de que los supuestos relativos
a los m ism os son ciertos.
P ara ilu s tra r el m ism o aspecto con u n ejem p lo de carácter
sociológico, supongam os que se nos invita a fo rm u la r sólo dos
supuestos en u n a p ru e b a estad ística determ inada, esto e s : 1 )
que en la población seleccionada las proporciones de personas
de las clases m edia e in ferio r con grandes deseos de cam bio de
situación son las m ism as, y 2 ) que se h a obten id o u n a m u estra
aleato ria de todas las personas. Supóngase asim ism o que dichos
supuestos conducen a d eterm inadas conclusiones qúe n o concuerdan con los hechos. Tal vez, p o r ejem plo, los datos de la
m u estra señalan u n p o rc en taje m ucho m ás alto de personas de
la clase m edia con grandes deseos de cam bio. Concluimos, pues,
que u n o u o tro de los dos supuestos es p robablem ente erróneo.
P ero ¿cuál de ellos habrem os de d escartar? Nos g u staría sacar
la conclusión ^de que el falso e ra el p rim ero, p ero tal vez nos
hayam os servido de m étodos de m u estreo sujetos a alguna in­
fluencia ajena. E n resum en, necesitam os datos adicionales, ap ar­
te de lo que indica la p ru e b a m ism a.
.
este ejem plo p articu lar, si hem os tom ado to d as las precau­
ciones p a ra aseg u rar la selección de u n a m u estra al azar, pode­
m os to m ar com o m odelo el su p u esto 2 ) y fo rm u lar la conclusión
de que el supuesto falso e ra p robablem ente el 1). Aquí n u estra
propensión a a c ep tar el su p u esto 2 ) se b asa en n u e stro conoci­
m iento acerca de los m étodos de selección em pleados, o sea de
n u estra m etodología. E n o tro s casos, en cam bio, podem os acep­
ta r ciertos sup u estos so b re la b ase de hallazgos de investigacio­
nes an terio res. El p u n to im p o rtan te, sin em bargo, es q u e la
prueba m ism a n o sirve para identificar el su p u esto o los supues­
tos erróneos. E n este sentido, todos los supuestos poseen el
m ism o ca rác te r o grado lógico. P a ra p o n e r este hecho de m a­
n ifiesto y p a ra llam ar la atención del lecto r sobre los supues­
to s del m odelo, tra ta m o s la hipótesis exam inada com o u n a sola,
sim plem ente, e n tre cierto nú m ero de supuestos exigidos p o r la
pru eb a.
Com o y a se d ijo an terio rm en te, el investigador tien e p o r lo re ­
g u lar in terés en fo rm u la r u n a hipótesis q u e en realid ad le gus­
ta ría p o d er d escartar. La hipótesis efectivam ente exam inada se
designa a m enudo com o hipótesis nula (sim bolizada p o r H 0), p o r
c o n tra ste con la hipótesis de investigación ( H x), que se fo rm u la
com o altern ativ a de H 0. P o r lo regular, au n q u e no siem pre, la
h ipótesis n u la enuncia que no existe d iferencia e n tre varios gru­
pos o que no se d a relación alguna e n tre variables, en ta n to que
la hipótesis de investigación puede a n tic ip a r u n a relación, ya
sea positiva o negativa. E l investigador p u ed e e sp e ra r e n reali­
dad que la h ipótesis negativa sea e rró n ea y se deje d e sc a rta r en
fav o r de la altern ativ a H t . N o ob stan te, con o b jeto de calcular
u n a d istribución de m u estreo , h a de p ro c e d e r com o si H 0 fu e ra
efectivam ente correcta. S upondría, p o r ejem plo, que la m oneda
no está sesgada.
O bsérvese q ue el su p u esto de tina m o neda co rre c ta p ro p o r­
ciona u n a m an era de calcular probabilidades exactas sirviéndose
de la fó rm u la binom ial. E n efecto, si se fo rm u lara la h ip ó te­
sis de q ue la m oneda es "sesgada”, nos en co n traríam o s con que
no podíam os o b ten er u n a d istribución de selección h a sta después
de h a b e r especificado la hipótesis de m odo m ás preciso. H a b ría­
m os de re m itim o s a u n valor específico de p, digam os d e .75, p o r
ejem plo. R ara vez estarem o s en condiciones de hacerlo. Y en
fo rm a análoga, la hipótesis de investigación de que hay e n tre la
clase m edia una p ro p o rció n m ay o r de p erso n as con grandes de«
seos d e cam bio n o es ta n específica com o la hipótesis n u la en
el sen tid o de que n o h ay en absoluto diferencia alguna e n tre las
dos clases.
2.
O btención de la distribución de m uestreo. H abiendo fo rm u ­
lado los supuestos necesarios, estam os ah o ra en condiciones de
serv im o s del razonam iento m atem ático p a ra o b ten er u n a d is tri­
bución de m u estreo a la que asociam os pro b ab ilid ad es con re su l­
tado s. S em ejante d istrib u ció n de pro b ab ilid ad es nos d irá sim ­
plem en te cuán p ro b a b le sea cada u n o de los resu ltad o s posibles,
si los su p u esto s adoptados son efectiva m en te correctos. S i los
su p u esto s an terio res a p ro p ó sito de la m o n ed a y de los lanza­
m ientos fu eran realm en te correctos, ya vim os que a la larga sólo
p o d ríam o s e s p e ra r o b te n e r todas las c a ra s u n a sola vez sobre
1 024, sólo 10 veces sobre 1 024 o b ten er nueve caras, etcétera.
El conocim iento de la p ro b ab ilid ad de u n re su ltad o p a rtic u la r
cualquiera, al pro d u cirse p o r azar si n u estro s supuestos fu eran
efectivam ente ciertos, nos p e rm ite ah o ra to m a r u n a decisión
racional a p ro p ó sito de las condiciones en las que podríam os
arriesg am o s a d esc artar los supuestos en cuestión. Supóngase,
p o r ejem plo, que obteníam os 10 caras en 10 lanzam ientos. Exis­
ten dos posibilidades: a) o bien los supuestos son correctos, y
éste es uno de los casos en que se produce u n acontecim iento
m uy raro , o bien b ) u n o p o r lo m enos de los supuestos (p ro b a­
blem ente la hipótesis n u la) es falso. P or desgracia, no podem os
sab er n u n ca cuál de las dos alternativas sea la correcta. Si lo
supiéram os, en efecto, h ab ríam o s sabido de an tem an o acerca de
los supuestos, y ya no ten d ría o b jeto alguno e fectu ar el experi­
m ento. P ero podem os decir que la p rim era altern ativ a es m uy
im probable.
Establezcam os, pues, la regla de que cada vez que obtenem os
10 caras en 10 pru eb as sucesivas podem os llegar a la conclusión
d e que u n o p o r lo m enos de los supuestos es falso y debería
descartarse. A la larga podrem os eventualm ente com eter erro ­
res ad h irien d o a dicha regla estricta, ya que sabem os que inclu­
so con u n a m oneda sesgada podem os e sp e ra r o b ten er 10 caras
u n a vez so b re 1 024, sim plem ente p o r casualidad. S em ejante re ­
gla no nos ay u d ará a d eterm in a r la corrección de n u e stra deci­
sión en relación con u n experim ento p a rtic u la r cualquiera, p ero
las leyes de las probabilidades nos dicen exactam ente qué pro­
porción de veces podem os e sp e ra r to m a r decisiones correctas
a la larga. E n cierto sentido, n u e stra fe se fu n d a m ás en el p ro ­
cedim iento q ue seguim os que en la decisión q u e form ulam os en
cada ocasión p artic u la r. Y dicho pvoc&d&fiti&ttto nos proporcion a rá decisiones correctas la m ayoría de las veces, aunque no
podam os e sta r absolutam ente seguros de decidir co rrectam ente
en u n a ocasión concreta cualquiera.
3.
Selección d e u n nivel d e significación y de una región crítica.
Désete u n p u n to d e vista ideal, las decisiones del investigador
deberían to m arse con an terio rid ad al experim ento o al análisis
efectivos de los datos. A p a r tir de su conocim iento de la d istri­
bución de m uestreo, selecciona u n grupo de altern ativ as las cua­
les, caso de p roducirse, le obligarían a d esc artar su s supuestos.
E stos resu ltad os im probables se designan com o la región crítica.
Asi, pues, divide los resultados posibles en dos c a te g o ría s: a )
aquellos en cuyo caso d esc artará (la región crítica ), y b ) aq u e­
llos que, de p roducirse, no le p e rm itirán d escartar. Con objeto
de p o d er estab lecer u n a región crítica, h a de decidir dos aspectos
adem ás de la elección de u n m odelo y u n a hipótesis. P rim ero ha
de d ecidir los riesgos que está dispuesto a asu m ir d e in c u rrir en
los erro res de tipos I y II. Y en segundo lu g ar h a de decidir si
desea o no que su región crítica incluya am bas colas de la dis­
trib u ció n de m uestreo.
Según se indicó en el capítulo v m , se h a n de to m a r en consi­
deración dos tipos de erro res posibles. El p rim ero consiste en
d e sc a rta r u n g rupo de supuestos en re alid ad correctos. El tipo
de e rro r II, en cam bio, im plica el no d e sc a rta r supuestos en re a­
lid ad falsos. S obre la b ase de la distribución de m u estreo pueden
d eterm in a rse ex actam ente las probabilidades de que se p ro ­
duzcan determ inados resultados si los supuestos son efectiva­
m en te correctos. Si el investigador decide que d esc artará cada
vez que se produzca u n d eterm inado n ú m ero de resultados im ­
p ro b ab les (digam os cero caras o diez c a ra s), entonces, si los
supuestos son correctos, com eterá u n e rro r de tipo I cada vez
que obtenga u n o de los resultados en cuestión.
La p ro b ab ilid ad de com eter u n e rro r de ese tip o es igual a la
sum a de pro b ab ilid ades de cada u n o de los resultados _en el in te­
rio r d e la región. Así, p o r ejem plo, si la región crítica consta
de cero a diez caras, la p ro b ab ilid ad de e r ro r de tip o I será de
2/1 024, o sea .002. Si se escogiera u n a región crítica m ás am plia,
el riesgo de dicho tip o de e rro r sería m ayor. S upóngase que se
d ecid iera d e sc a rta r los supuestos si se o b ten ían cero, u n a, nueve,
o diez caras. E n este caso la pro b ab ilid ad del e rro r del tip o I
sería de (1 + 1 + 10 + 10)/1 024, o sea .022. La p ro b ab ilid ad de
co m eter u n e rro r de tip o I se designa com o nivel de significan­
cia y p u ed e p o n erse a cu alq u ier valor deseado.
Antes de exam inar los criterio s posibles p a ra decidir acerca
del nivel de significancia, hay que decir algo a p ro p ó sito de los
erro re s d e tip o II. E n vista de n u e stro exam en a n te rio r de la
falacia consistente en a firm a r el consecuente, es m anifiestam ente
in co rrecto sacar la conclusión de que si determ inados supuestos
no se d ejan d e sc a rta r h a n de ser, e n consecuencia, ciertos. E n
efecto, o tro g rupo de supuestos p u d o h a b e r llevado igualm ente
a u n a distrib u ció n de m u estreo con la que se p o d ría h a b e r llega­
do a conclusiones sim ilares. P or ejem p lo : si la v erd ad era p ro ­
bab ilid ad de caras fu e ra de .51 en lu g ar de .50, entonces la dis­
trib u ció n de m u estreo sería casi id én tica a la^ que calculam os.
P o r consiguiente, p ro b ab lem en te se h a b ría elegido la m ism a re­
gión, y la decisión en cu an to a d e sc a rta r o no h a b ría sido la
m ism a. Y sin em bargo, en rigor, la hipótesis de p = .5 sería falsa
y d ebería en realid ad descartarse. Y si n o estuviéram os en con­
diciones de hacerlo, n o estaríam os sin em bargo dispuestos a
co n sid erarla com o la ú n ica h ip ó tesis co rrecta, y a que hay u n
n ú m ero adicional d e hipótesis que tam poco p o d ría descartarse.
D ecidim os sim plem ente que "no debiéram os d e sc a rta r” n u e stra
hipótesis.
In clu so si en u n p lan conservador rechazam os a c e p ta r u n a
hipótesis, nos g u staría, con todo, e sta r en condiciones de elim i­
n a r cu an tas falsas hipótesis h ubiera. E n este sentido com etem os
u n e rro r siem p re q u e dejam os de d e sc a rta r u n a hipótesis falsa.
¿Y qué pued e decirse a p ro p ó sito de la p ro b ab ilid ad de in c u rrir
en u n e rro r de tip o II? D esgraciadam ente n o es ta n fácil calcu­
la r los erro res de tip o I I com o es el caso con los de tipo I. Nece­
sitam os, pues, ap lazar n u e stro exam en de los m ism os h a sta el
cap ítu lo xiv. Conviene, sin em bargo, o bservar u n hecho im por­
ta n te . Y es que, p a ra cualquier p ru e b a dada, las probabilidades
de e rro res de los tipos I y I I son inversam ente proporcionales.
E n o tro s té rm in o s: cuanto m e n o r es el riesgo d e u n error de
tipo I, ta n to m ayor es la probabilidad de uno de tipo I I . E sto
p u ed e verse en n u e stro ejem plo de los lanzam ientos. El lector
h a de convencerse p o r sí m ism o que, si se elige u n a región crítica
pequeña (digam os cero caras y diez c a ra s), te n d rá m enos p ro ­
babilidades de d e sc a rta r cualquier su p u esto q u e si se sirviera
de u n a región m ás com prensiva ( digam os cero, u n a, nueve y diez
ca ras). E n el p rim e r caso, si b ien está m enos expuesto a descar­
ta r su p u esto s ciertos, tiene tam b ién m enos probabilidades de
d e sc a rta r los falsos. De ahí que c o rra m ayor riesgo de com eter
u n e rro r d e tipo II.
Es, pues, im posible reducir sim ultáneam ente los riesgos d e los
dos tipos de errores, a m enos que se vuelva a d isponer el estu d io
en o tra fo rm a y se seleccionen casos adicionales o u n a pru eb a
estad ística d istin ta. E n la p rá c tic a ponem os la p ro b ab ilid ad de
e rro r de tip o I a u n nivel determ in ad o (digam os .05) y escoge­
m os la p ru e b a estad ística q u e m ás reduce el riesgo de e rro r de
tip o II. Al elegir e n tre p ru e b as altern ativ as, escogem os aquella
q ue tien e u n m odelo apro p iad o y red u ce m e jo r el riesgo de e rro r
de tip o II.2
La decisión e n cu an to al nivel de significación a escoger depen­
de de los costos relativos re su ltan te s de co m eter u n o u otro
tip o de e rro r y d eb ería ap reciarse de acuerdo con ello. E n oca­
siones h ay q ue a d o p ta r u n a decisión p rá ctica conform e al resu l­
ta d o del experim ento. Un fa b rican te puede decidir in sta la r u n
equipo costoso, u n investigador p u ed e decidir e x tra e r o tra m ues­
tr a y re p e tir su estudio, o las au to rid ad es san itarias pueden
decidir si deben o n o in te n ta r u n a vacunación en m asa con
u n nuevo suero. E n o tro s casos n o se re q u ie re decisión p rá c ­
tica alguna. U n sociólogo, p o r ejem plo, p u ed e p u b licar sim ple­
m en te los resu ltad o s de su estu d io e n u n periódico, sin ten er
que s o p o rta r las consecuencias d e e r ro r d e u n tip o o del otro.
E n situaciones e n las que h ay que to m a r decisiones de carác­
te r p ráctico la elección de u n nivel de significación re su lta p a r­
ticu larm en te difícil. E n el ejem plo del lanzam iento, supóngase
que la decisión co m p o rta ra el d e ja r de seguir jugando con una
m oneda de cuya perfección se sospecha. Si n u e stro ju g ad o r hipo2 Para el examen más a fondo de esta cuestión, véase la sec. XIV.l.
tético tu v iera la perspectiva de u n a esposa regañona caso de vol­
v er a la casa con ios bolsillos vacíos, h a rá bien en d e ja r el juego
si existe siq u iera la m ás leve duda a p ro p ó sito de la m oneda. E n
tal caso elegiría u n a región crítica am plia, y a que las consecuen­
cias de un e rro r de tip o I I (e sto es, de seguir ju g an d o si la m o­
n ed a estab a realm ente sesgada) serían m uy lam entables. Por
o tra p a rte , si co rriera el riesgo de in s u lta r a su je fe sosteniendo
q u e la m o n ed a estab a sesgada, d esearía e s ta r perfectam en te se­
guro de ello an tes de a d o p ta r su decisión. E n este últim o caso
escogería u n a región crítica m uy pequeña, reduciendo así al m í­
nim o el riesgo de e rro r de tip o I. Y en fo rm a análoga, si el costo
de la vacunación en m asa fu e ra considerable o el suero eventual­
m en te peligroso, se d esearía e s ta r absolutam ente seguro antes de
aplicarlo. D esearíase h a c e r m uy difícil d e sc a rta r la hipótesis
n u la de que el suero no p ro d u ce efecto benéfico alguno.
Si n o h ay m ás decisión p rá ctica a to m a r que la de publicar
o n o los resu ltados de u n estudio, d eb ería seguirse o tra regla
general. E n este caso, en efecto, el investigador debería aplicar­
se a d em o stra r a sí m ism o que está en error o a obtener resulta­
dos que en realidad no desea obtener. P o r lo regular, p e ro n o
siem pre, se establece u n a hipótesis n u la que en realid ad se desea
d escartar. Y com o q u iera que al investigador le g u staría e s ta r
en condiciones de d escartarla, debería h a c e r la obtención del
re su ltad o deseado m uy difícil, sirviéndose p a ra ello de u n a re­
gión crítica m uy pequeña.
H ay ocasiones, en cam bio —y llam am os la atención del lecto r
al resp ecto —, en que n o se desea realm en te d e sc a rta r la hipótesis
nula. Así, p o r ejem plo, la hipótesis n u la p u ed e a d o p ta r la fo rm a
d e u n a p redicción en el sen tid o de que n o hay diferencias reli­
giosas o de clase en cuanto a la ta sa de fecundidad. Si se desea
realm en te estab lecer tales diferencias, debería escogerse u n a re­
gión crítica m uy pequeña, haciendo el d escarte de la hipótesis
n u la m uy difícil. P ero supóngase que el investigador desea real­
m en te d em o strar que tales diferencias n o existen. Tal vez tra te
de d em o strar que algunas teorías en boga a p ro p ó sito de dife­
ren cias en m ateria de fecundidad son in co rrectas o inadecuadas.
O pued e e sp e rar que dichas diferencias n o existen, de m odo que
n o ten g a q ue investigar desde los p u n to s d e vista d e clase o de
religión al re fe rir las ta sa s de fecundidad a o tras variables.
E n los casos que se acaban de m encionar, el investigador se
h alla en cierto sentido del lado falso de la hipótesis y debería
e s ta r e n consecuencia in teresad o a n te to d o en re d u cir el riesgo
d e e rro r de tip o II. E n o tro s térm inos : debería p reo cu p arse
a n te to d o de n o re te n e r la hipótesis n u la de la ausencia de di­
ferencias si e n re alid ad es falsa. De ahí que al escoger u n a región
crític a p eq u eñ a n o siem pre se peque de conservador, haciendo
a sí difícil d esc artar u n a hipótesis n u la q u e en realidad se desea
reten er. Los niveles de significación com únm ente em pleados en
la in v e stig a d o s estad ística son los de .05, .01, y .001. E n vista
de lo que se acab a de exponer, el lecto r se h a b rá p ercatad o de
que dichos niveles n ad a tienen de sagrado o absoluto. A unque
u n a p erso n a fu e ra n o rm alm en te conservadora en el em pleo de
los niveles en cuestión, e s ta ría de to d o s m odos en te rre n o m ás
fírm e, si realm en te n o deseaba d e sc a rta r la h ip ó tesis nula, adop­
tan d o ta l vez los niveles .10, .20 o incluso .30, red u cien d o así el
riesgo de e rro r de tipo II.
Procede h ac er u n a ad v erten cia en relación con la in te rp re ta ­
ción de los re su ltad o s de las p ru e b as de significado, y a que es
posible o b tenerlos m ás bien falsos, a u n sirviéndose del nivel .001
y cuando se desea el descarte. Las p ru e b as de significado nos
dicen cu án p ro b ab le u n g ru p o dado d e re su ltad o se ría si ciertos
su p u esto s fu e ran verdaderos. H ay varios facto res que determ i­
n an la p ro b ab ilid ad de que estem os en co n d id o n es d e d e sc a rta r
dichos supuestos. E l p rim e ro de ellos es el g rad o re al d e falta
de p ro p ied ad de los supuestos. Si, p o r ejem plo, la v erdadera
p ro b ab ilid ad de caras es .9, es m uy p ro b ab le q u e estem os en
condiciones de d e sc a rta r la h ip ó tesis de que p sea .5, p o rq u e po­
dem os o b ten er efectivam ente u n a p ro p o rció n suficientem ente
g rande de caras p a ra te rm in a r e n la región crítica. P o r o tra
p arte , si la v erd ad era p ro b a b ilid ad es .53, es m enos p ro b ab le
q u e obtengam os los re su ltad o s extrem os necesarios p a ra el
d escarte.
E l n ú m ero de casos es o tro fa c to r im p o rta n te en la d eterm in a­
ción de cuán extrem os d eban ser los re su ltad o s a n tes de que el
d escarte sea posible. Con sólo 10 lanzam ientos o casos ya vimos
que se req u ieren resu ltad o s m uy extrem os p a ra p o d e r d escartar.
P ero si N es grande, la proporción de éxitos sólo necesita h acer
la h ip ótesis p a r a d ife rir de p en m uy poco p a ra que estem os au ­
torizados a h acerlo. Si la m o n ed a se lan zara al a ire 10 m il veces
en lu g ar de 10, estaríam o s e n c o n d id o n es de d e sc a rta r la hipó­
tesis si obtuviéram os, p o r ejem plo, 5 200 ca ras o m ás. E n o tro s
térm in o s : en el su p u esto de q u e p es exactam ente u n a m itad , o
sea .5, 5 200 caras o m ás en 10 m il lanzam ientos serían m ás im ­
p robables que 10 ca ras e n 10 lanzam ientos, pese a que los resul­
tados no sean ni con mucho- ta n extrem os. E sto concuerda, p o r
supuesto, con n u e stra m ay o r fe in tu itiv a en grandes m u estras y
con la inteligencia de que, en caso de m u estras m uy pequeñas,
p o d rían o c u rrir con frecuencia resultados extrem os debidos al
m ero azar. Y en fo rm a análoga, con u n a selección de 10 m il p e r­
sonas podríam os o b te n e r diferencias m u y pequeñas en las tasas
d e fecundidad e n tre las m u jere s d e las clases m ed ia e inferior,
y estar, con todo, en condiciones de d e sc a rta r la h ip ó tesis nula
en el sentido de que no hay diferencia alguna en la población.
Con u n n ú m ero m u y grande d e casos resulta casi siem pre
posible descartar cualquier falsa hipótesis q u e pudiéram os fo rm u ­
lar, in d ep en d ien tem ente de cu án to p u ed a d ife rir el valor de nues­
tr a h ip ó tesis del verdadero. E sto significa que si tenem os 10 m il
casos, no d eb erá so rp ren d ern o s m ucho que estem os en condicio­
nes de d esc artar al nivel .001, y deberem os gu ard arn o s d e com u­
n ic a r n u e stro hallazgo com o si fu e ra m uy im p o rtan te. E n efecto,
no d ebe confundirse la significación estad ística con la práctica.
La significación estad ística sólo puede decirnos que ciertas dife­
ren cias d e m u estras n o o cu rrirían con m u ch a frecuencia p o r azar
si n o h u b ie ra diferencias cualesquiera en la población. N ada nos
dice, e n cam bio, en cu a n to a la m agnitud o la im p o rtan cia de di­
chas diferencias. P o r lo tan to , u n fa c to r suficientem ente grande
p a ra p ro d u c ir diferencias estad ísticam en te significativas en una
m u e stra p eq u eñ a es m ás digno de atención que u n fa c to r que
sólo p ro d u ce pequeñas diferencias de las que ún icam en te puede
d em o strarse q ue son significativas estad ísticam en te con una
m u e s tra m uy grande. Si el estudio co m p o rta u n gran n ú m ero
de casos, n o s interesam os p o r lo re g u la r p o r o tras clases de
pro b lem as que las p ru e b as de significación. E sta cuestión se
ex am in ará m ás a fondo en el capítulo xv, cuando trate m o s de m e­
didas de g rad o de relación. P o r el m om ento, b a ste señalar que
la significación estad ística n o im plica necesariam ente diferencias
im p resio n an tes o de las q u e son im p o rtan tes p a ra el sociólogo.
Antes de p o d er d e te rm in a r la región crítica hay que a d o p tar
o tra clase de decisión. H ay cierto n ú m ero de resu ltad o s o de
gru p o s de resu ltad o s cuya p ro b ab ilid ad pu ed e se r m en o r que el
nivel seleccionado d e significación. Así, p o r ejem plo, la pro b ab i­
lid ad de o b ten er exactam ente ocho caras es d e 45/1 024, o sea .044.
P o r lo tan to , sería posible, au n q u e n o m uy sagaz, decidir recha­
z a r la h ip ó tesis n u la e n caso de darse exactam ente ocho caras,
y n o rech azarla en o tro caso. L a p ro b a b ilid ad de e rro r de tip o I
sería así de .044. La elección de sem ejan te región crítica, sin
em bargo, apenas te n d ría sentido teóricam ente, ya que p o r lo
re g u la r se vacilaría aú n m ás en cu an to a a c e p ta r la hipótesis
n u la si fu e ran a sa lir nueve o diez caras, pese a q u e estas a lte r­
n ativ as no co rrespondieran a la región crítica. Casi siem pre te ­
nem os in teré s en servirnos p o r lo m enos de u n a cola e n te ra de
la d istrib u ció n . E n efecto, n o nos in tere sa la pro b ab ilid ad de ob­
te n e r exactam ente ocho caras, sino la p ro b ab ilid ad de o b ten er
ocho o m ás caras, esto es, la p ro b ab ilid ad de o b ten er ocho ca­
ra s o algo incluso m ás insólito todavía.
P ero, ¿ p o r q ué n o in clu ir en la región crític a cero, u n a y dos
caras, ya que dichas altern ativ as son ta n im probables com o las
de ocho, nueve y diez c a ra s? A m enudo no estam os en condicio­
n es de p re v e r en qué dirección puedan p ro d u c irse los resu ltad o s
insólitos. E n n u e stro ejem p lo sólo podem os sospechar que la
m oneda esté sesgada, p e ro podem os n o te n e r indicio alguno* en
cu an to a si está influida en favor de las caras o de las cruces.
Además, esto puede acaso n o im p o rtam o s. E n ta l caso desea­
ríam os e s ta r seguros y servim os de am bos extrem os de la d istri­
bución de selección. P orque, si nos sirviéram os de u n a región
crítica de sólo ocho, nueve y diez caras, entonces, en caso de
005
F ig . X .l. Com paración de las regiones críticas de pruebas de una
sola cola y d e dos colas, em pleando el nivel de significación de .05
o b ten er exactam ente u n a cara, nos en contraríam os en la situa­
ción desdichada de n o p o d er d e sc a rta r la hipótesis n u la aun
siendo falsa.
S in em bargo, h ay c ierto n ú m ero de ocasiones en las que o es­
tam os en condiciones de p re d ecir la dirección de la desviación,
o nos interesam os a n te todo p o r las desviaciones en u n a sola
dirección. Así, p o r ejem plo, u n a inform ación p revia p u ed e h a ­
b ernos llevado a p re d ecir q u e la m oneda está a lterad a en favor
de las caras. O podem os e s ta r ju g an d o cada vez a cruz, de m odo
que, sí la m o n eda está afectad a en favor d e ésta, n o necesitam os
ten er m iedo alguno de seguir el juego. E n estudios m ás reales,
p o r o tra ‘p arte , re su lta a m enudo posible p re v er la dirección so­
b re la b ase de la te o ría o de estudios previos. P udo h ab erse p re­
dicho, p o r ejem plo, que los católicos te n d ría n fam ilias m ás
n u m erosas q ue los p ro testan te s. Si se está in teresad o en dem os­
t r a r que la teo ría de u n o es correcta, sólo se h a rá n p ru eb as de
significación cu an d o los resu ltad o s se pro d u cen en la dirección
prevista. Si se p ro d u cen en sentido contrario, en cam bio, n o se
necesita h a c e r p ru eb a, ya que los dato s n o confirm an de todos
m odos la teoría.
S iem pre que se haya p redicho la dirección, las p ru e b as de u n a
sola cola serán preferibles, al m ism o nivel de significación, a las
de dos, ya que será posible o b ten er u n a cola m ayor concentrando
la región crítica e n te ra en el extrem o apro p iad o d e la d istrib u ­
ción de m uestreo. E sta v e n ta ja de la p ru e b a de u n a sola cola
se ilu stra en la fig u ra X .l en relación con el caso de u n a d istri­
bución de m u estreo, lisa, que o ste n ta la form a de u n a curva n o r­
m al. E n dicha figura, las probabilidades de com eter u n e rro r de
tipo I son las m ism as en am bos casos, ya que las dos regiones
críticas son del m ism o tam añ o (m edidas en térm inos de áreas).
Sin em bargo, si los resu ltad o s o cu rren efectivam ente en la di­
rección p revista, el investigador te n d rá m ás probabilidades de
d e s c a rta r la hipótesis sirviéndose de u n a p ru e b a de u n a sola cola,
ya que existe m ayor p ro b ab ilid ad de caer e n la región crítica
en la dirección en cuestión. E n efecto, si la v erd ad era p robabili­
dad está en la dirección prevista, el riesgo de com eter u n e rro r
de tip o I I es m en o r que sirviéndose de u n a p ru e b a de dos colas.
A estas altu ra s el lecto r n o h a de esp e ra r p o d e r com prender
in tu itiv am en te las relaciones e n tre los e rro res de tipo II y las
p ru e b as de u n a y dos colas. E n efecto-, m uchas de estas nocio­
nes m ás b ien difíciles sólo se irá n aclarando u n a vez que se hayan
exam inado algunos ejem plos prácticos. El trata m ien to m ás de­
tallad o de los e rro re s de tip o I I h a de aplazarse h a sta el capí­
tu lo XIV.
P a ra co n c retar en el p re se n te ejem plo, escojam os el nivel de
.05 y sirvám onos de u n a p ru e b a de dos colas. La región crítica
c o n sta rá e n este caso de las altern ativ as cero, una, nueve y diez
caras, ya q ue la inclusión de altern ativ as adicionáles au m en taría
la p ro b ab ilid ad de u n e r ro r de tipo I m ás allá del nivel de .05.
E n n u e stro ejem plo, el nivel de significación realm en te em pleado
será el de (1 + 1 4-10 + 10)/1 024, o sea .022. E n o tro s casos en
que la distrib u ció n de m u estras es m ás b ie n continua que dis­
creta, se rá posible servirse del nivel exacto deseado (v.gr., .05,
.0 1 ,0 .0 0 1 ).
4. Cálculo de la estadística de la prueba. Es siem pre necesario
calcu lar lo que se designa com o estad ística de la pru eb a, cuya
d istrib u ció n de selección h a de em plearse en la pru eb a. H asta
aq u í sólo hem os tra ta d o con estadísticas tales com o las p ro p o r­
ciones de las m u estras, las m edias y las desviaciones están d a r,
que son d irectam ente com parables con las m ism as cantidades en
la población y pu eden u tiliza rse com o m edidas p a ra re su m ir los
datos. La estad ística d e la p ru e b a es u n a estad ística que p o r
lo re g u la r n o posee in terés en sí m ism a p o r lo que se refiere
a la descripción, p ero que se em plea p a ra verificar hipótesis. Es la
estad ística que co ntiene la distribución d e m u estreo la que se
u tiliza d irectam en te en la pru eb a. E n o tro s térm in o s: calcula­
m os de los datos de la m u e stra u n a ca n tid ad que varía de m odo
conocido conform e a la te o ría de las probabilidades. C om para­
m os luego su v alo r con la distrib u ció n de m uestreo, y adoptam os
u n a decisión evaluando la p ro babilidad de su ocurrencia. P or
su puesto, son m uchas las cantidades que pueden calcularse so­
b re la b ase de los dato s de las m uestras, p e ro sólo u n pequeño
n ú m e ro de ellas tien e distribuciones de m u estreo conocidas
q ue p u ed an u tilizarse con fines de verificación de hipótesis.
E n este ejem plo de la p ru e b a binom ial, la estad ística de p ru e­
b a es ta n sencilla, que casi n o vale la p en a de llam ar la atención
del lecto r al respecto. E n efecto, es sencillam ente el nú m ero de
éxitos en N ensayos y no re q u ie re cálculo u lte rio r alguno. E n
conexión con o tro s problem as, en cam bio, la estad ística de la
p ru e b a h a b rá de calcularse. E n el caso de la p ru e b a binoxnial,
hem os d ejad o que r to m ara todos los valores posibles, d e cero
a N , y hem os luego asociado probabilidades con cada valor. Su­
pongam os que en este p roblem a concreto, que com porta 10 lan­
zam ientos, el n ú m ero de éxitos (c a ra s) re su lta se r ocho. Posee­
m o s ah o ra to d a la inform ación necesaria p a ra ad o p tar una
decisión.
5.
A dopción de una decisión. D espués de h a b e r elegido su re ­
gión crítica y de h a b e r calculado su estad ística de prueba, el
investigador d esc artará o n o d esc artará los supuestos según
el re su ltad o del experim ento. Si el re su ltad o queda d en tro de la
región crítica, descartará, con u n a p ro b ab ilid ad conocida de e rro r
de tip o I. Y si aquél no cae en la región crítica, no d escartará
los supuestos, asum iendo el riesgo de com eter u n e rro r de tipo II.
E n el p re sen te ejem plo, com o q u iera que el re su ltad o de ocho
caras no cae e n la región crítica, no d esc artará la hipótesis nula
según la cual la m oneda es insesgada.
Desde u n p u n to de vista ideal, to d as las decisiones anteriores
a los pasos 4 y 5 deberían to m arse an tes de p ro c ed er a la tabula­
ción de los resultados. A m enudo, en la lab o r exploratoria el
investigador exam inará p rim ero sus datos y pro ced erá luego a
h acer p ru eb as de significación. A unque esto sea a veces necesa­
rio, hay que observar, con todo, que siem pre que o c u rra así n o
se están re sp etan d o p o r com pleto las reglas del juego. E n tales
casos sería p referib le n o p re te n d e r que se está procediendo real­
m en te a la verificación de hipótesis. De todos m odos, los resul­
tad o s p o d rían exponerse en fo rm a sugestiva, y cualquiera que
p ro sig a el estu d io e sta rá así en condiciones de efectu ar pru eb as
estad ísticas legítim as.
^Los com entarios que preceden po d rán p a re c e r excesivam ente
rígidos y am biciosos, dado el c a rá c te r de exploración de gran
p a rte de la investigación sociológica. Sin em bargo, el a u to r cree
que es p referible fija r u n a "conciencia estad ística" estricta, no
d ejan d o la im presión de que las cosas puedan h acerse de cual­
q u ier m odo. E n efecto, a m enos que se ad opten las decisiones
con an terio rid ad al analisis de los datos, no puede hacerse legí­
tim am en te u so de la teo ría de las probabilidades, ya que el aná­
lisis es esencialm ente ex post fa d o . Y lo m alo de los análisis ex
p o st fa d o está en que el experim ento puede disponerse de tal
m odo que el investigador no tenga m an era de p erd er. Supóngase,
p o r ejem plo, que haya decidido, a tientas, servirse del nivel de
significado .05. Si encu en tra que sus resultados son significativos
al nivel de .07, puede decidir d e sc a rta r sus hipótesis de todos
m odos. P ero, supóngase que h a n sido significativos a los niveles
.09 o .13 o .18, ¿dónde h a b rá que h acer alto? O tra m anera de h a ­
cer tra m p a consiste en e sp e ra r h asta después del experim ento
p a ra d ecidir si hay que servirse o no de u n a p ru e b a de u n a cola.
E n tal caso, en efecto, si los resultados dan m ás caras que cru ­
ces, se decide sim plem ente que hubo de h ab e rse utilizado u n a
p ru e b a de u n a cola, ya que subconscientem ente se está antici­
p an d o u n a inclinación en favor de las caras. De este m odo, cual­
q u iera que sea la dirección de la desviación, se puede o b ten er
u n a región crítica m ayor que con u n a p ru e b a de dos colas.
X.3. Aplicaciones de la binom ial
La prueba del signo. Supóngase que u n sociólogo se está sir­
viendo de un sim ple esquem a "antes-y-después” o “sólo-después”
del experim ento, en el que se da u n pequeño nú m ero de casos
y en el que sólo está en condiciones de d eterm in a r p a ra cada u n o
d e ellos si su experim ento h a dado o n o resultados.3 Puede, p o r
ejem plo, desear sab e r si la experiencia o btenida en un cam po
in terra cial es o no eficaz en cuanto a re d u c ir los prejuicios fijos
c o n tra los negros. S om ete sus investigados a u n a p ru e b a de p re ­
juicios, an tes y después de la experiencia, y está e n condiciones
de ap reciar si el tipo de p reju icio en cuestión h a dism inuido o no.
Indiquem os con un + ("éx ito ") los casos en los que el p rejuicio
se h a reducido, y con u n — ("fracaso ” ) aquellos en que el p re ­
ju icio h a aum entado. Si hay personas que no m u estran el m e­
n o r cam bio, éstas qu ed arán excluidas del análisis. A m enos que
la m edición haya sido m uy bu rd a, dichas p erso n as serán relati­
vam ente pocas.4
La binom ial requiere el supuesto de independencia de los ex­
p erim entos. P or lo tanto, el sociólogo su p o n d rá que su grupo
experim ental constituye u n a m u estra aleatoria de la población
a cuyo p ro p ó sito se p ro p o n e generalizar, y que en tre los p a rtic i­
p an tes no se h a p roducido influencia m u tu a alguna, o sólo poca,
en cu an to a las m arcas de prejuicio. Supongam os que lo que
tra ta de estab lecer es que la experiencia en un. cam po es real­
m en te eficaz en cu an to a re d u cir los prejuicios. Como q uiera
q ue esto no puede hacerse directam ente, puede fo rm u lar la hipó­
tesis nula en el sentido de que la experiencia n o su rte efecto. Sí
efectivam ente no pro d u ce efecto, entonces, si se som etiera a u n a
experiencia sem ejante la población e n tera de la que se ex tra jo
la m u estra, habríam os d e e sp e ra r en c o n trar el m ism o núm ero de
3 Para el examen de este y otros tipos da esquemas de experimento véa­
se [6,],
4 El problema de empate o no cambio resulta particulannente molesto
en el caso de las variables ordinales, y será discutido en los caps, xiv y
xvm. Para una explicación más amplia véase Bradley [3], cap. ni.
p erso n as cuyo p re ju ic io se re d u jo y de aquellas cuyo preju icio
au m en tó . E n o tro s té rm in o s: deberíam os te n e r las m ism as p ro ­
porcio n es de signos m ás y signos m enos.
Com o q u iera que cada m iem b ro de la población tien e la m ism a
p o sibilidad de fig u ra r en u n a m u e stra aleatoria, la probabilidad
de o b ten er u n + e n u n a extracción d eterm in ad a cualquiera
será de .5 b a jo la hipótesis nula. Así, pues, u n su p u esto acerca
de la proporción de signos + en la población p erm ite, si se lo
co m b in a con el supuesto' del azar, en u n c ia r algo acerca de la pro­
babilidad de éxitos e n u n ensayo determ in ad o cualquiera. El azar
aseg u ra al p ro p io tiem po la independencia de los experim entos.
P erm ítasen os in sistir u n a vez m ás e n que es necesario form ular
su p u esto s ta n to acerca d e la población com o acerca del m éto d o
d e m uestreo. E n el p re se n te ejem plo, el in teré s se c e n tra e n la
eficacia de la experiencia, esto es, en la p ro p o rció n d e éxitos en­
tre la población. P o r lo tanto, el sociólogo se ase g u rará de que
se sirve de p ro cedim ientos correctos p a ra o b te n e r u n a m u e stra
aleato ria.
Si e n éste hay ocho personas, la distribución d e m u estreo de
éxitos sería com o sig u e:
N? de éxitos
0
1
2
3
4
5
6
7
8
Probabilidad
V 258 = .004
8/ 256 = -031
23/256 = -109
w/sM = .219
TO/ 258 — -274
B8/ 256 = -219
“ / aM = .109
8/ 256 = .031
V M8 = .0W
1.000
Supongam os q u e el sociólogo q u iere em p lear u n nivel de signifi­
cación d e .05. Com o q u iera que la dirección se h a anticipado,
p u ed e u tilizarse u n a p ru e b a de u n a sola cola. La región críti­
ca p u ed e d eterm in a rse acu m ulando pro b ab ilid ad es a p a r tir de
ocho éxitos, luego siete, etcétera, h a s ta que la su m a re su lte m ayor
q u e el nivel de significación. P o r lo re g u la r n o será necesario
o b te n e r la distrib u ció n de m u estreo en tera, ya que en realid ad
sólo se em plean las colas p a ra d e te rm in a r la extensión de la re­
gión crítica. E n el p re se n te caso, la p ro b ab ilid ad de ocho éxitos
es de .004; la p ro b ab ilid ad de siete u ocho éxitos es de .035, y la de
seis, siete u ocho éxitos es d e .144. Como q u ie ra q u e la sum a
d e las p ro b abilidades de los re su ltad o s en el in te rio r de la re ­
gión crítica ha de se r m en o r que, o igual al nivel de significación
seleccionado, vem os que la región crítica sólo puede co n star de
siete u ocho éxitos.
Supóngase que el sociólogo efectúa el experim ento y en cu en tra
que en seis casos el p rejuicio h a dism inuido, en ta n to que h a
au m en tad o en los o tro s dos. E n consecuencia, no d escartará la
h ipótesis de que el experim ento no es eficaz, ya que la probabili­
d ad de o b ten er dicho resultado, o inclusive u n o m ás insólito, es
m ay o r que .05.
La prueba en el caso de ausencia de azar. E n el ejem plo ante­
rio r se supuso azar y el interés se ce n trab a en la proporción
de éxitos e n tre la población. E n otros tipos de problem as se po­
d rá te n e r inform ación acerca de la p roporción de personas que
reú n en determ inadas características en u n a población, p ero pue­
de ex istir u n a cuestión acerca de la selectividad. Así, p o r ejem plo,
p ued e disponerse u n a p ru e b a p ara v er si los profesionales están
o n o rep resen tad o s con exceso en los consejos, o si los negros
no están bien rep resen tad o s en el ju rad o . Supóngase que u n al­
calde designa a nueve personas p a ra u n a com isión, pretendiendo
q u e son rep resen tativas, en el sentido de que todos los adultos
tienen las m ism as probabilidades de se r elegidos. Es sabido que
el 35 p o r ciento de la clase laboral son oficinistas y, con todo, de
los nueve m iem bros de la com isión seis son oficinistas; puede
utilizarse u n a p ru e b a binom ial p a ra d eterm in a r el grado de p ro ­
b ab ilid ad de sem ejan te distribución profesional en el supuesto
d e selección al azar. E n este problem a p artic u la r, la p robabili­
d ad de éxito p o r d eb ajo de la hipótesis n u la sería de .35, y la
distrib u ció n de selección no sería sim étrica. C onsideraríam os
cad a u n a de las nueve posiciones de la com isión com o ensayo.
La p ro b ab ilid ad de o b ten er com o p rim e r com isionado a u n ofi­
cin ista sería de .35, y análogam ente p a ra cada u n a d e las ocho
posiciones restan tes.
O tros em pleos de la binom ial. Adem ás de los citados an terio r­
m ente, la binom ial p u ed e utilizarse en cierto nú m ero de otros
tipos de problem as. E n ocasiones pueden utilizarse m edidas de
posición, tales com o la m ediana o los cuartiles, p a ra p erm itim o s
v erificar si u n a p equeña su b m u estra d e p erso n as es significativa­
m en te d istin ta de lo que esperaríam os en caso de azar. De una
m u e stra grande es posible o b ten er u n a apreciación m uy buena
de la distrib u ció n de los ingresos en relación con u n a ciudad de­
term in ad a. Si los datos sólo se h an obtenido de seis arm enios y
si seis de estas p ersonas ss encuentran en el cuartil inferior, p o ­
dem os efectu ar u n a p ru e b a p ara v er qué grado de probabilidad
rev iste esto, a condición, p o r supuesto, de a d o p tar las decisiones
con an terio rid ad al experim ento.15 Como q u iera que p o r definición
5 Necesitamos tener un número muy grande de casos, con objeto de obte­
ner una apreciación exacta de la medida de posición (v.gr., Q ^. En otro
u n c u a rto de la población se e n c o n tra rá en el c u a rtil inferior, la
d istrib u ció n b inom ial p ro p o rcio n a la p ro b a b ilid ad de ob ten er
u n a d eterm in ad a p ro p o rció n de la su b m u estra p o r deb ajo del
c u a rtil de población, en el su p u esto de que dicha su b m u estra
co n stitu y a esencialm ente u n a m u e stra al az ar d e la población
m ayor.
Así, p o r ejem plo, com o q uiera que la p ro b ab ilid ad de que cual­
q u ier p erso n a d eterm in a d a se en c u en tre en el c u a rtil in ferio r es
de .25, la p ro b a b ilid ad de o b te n e r exactam ente seis arm em os en
el c u a rtil in ferio r se rla :
««-(!)
O tam b ién
w = ( !)
21
m
r
-
(t)W=
16 384
1
16 384
Com o q u iera que necesitam os o b ten er la p ro b a b ilid ad de conse­
g u ir seis o m ás éxitos, sum am os estas probabilidades y te n e m o s :
21 + 1
P( 6) + P (7 ) = ---------= .0013
16 384
O tro em pleo d e la binom ial p o d ría c o n sistir en c o m p ro b a r el ca­
rá c te r adecuado d e u n a teo ría que p re d ije ra co rrec ta m e n te la
dirección de ciertas diferencias en, p o r ejem plo, 11 d e 15 p ru e­
b as independientes. P ara que dichas p ru e b as fu e ra n indepen­
dientes, deberían c o m p o rta r m u estras distin tas. Así, p o r ejem ­
plo, u n a de las m u estras p o d ría c o n sta r d e jóvenes varones
p ro testan te s, o tro de jóvenes m uchachas p ro testan te s, o tro de
v arones católicos d e m ás edad, etcétera. C ada u n a d e las sub­
m u estras p o d ría s e r dem asiado p eq u eñ a p a ra p ro p o rc io n a r sig­
nificación estad ística separadam ente, pero, si las su b m u estras
se h u b iera n seleccionado independientem ente, p o d ría em plearse
leg ítim am ente u n a binom ial p a ra av eriguar si u n n ú m ero sufi­
cien te d e sü b m u estras d ab a o n o re su ltad o s en la dirección esti­
m ad a. C ada su b m u e stra c o n stitu iría e n ta l caso u n ensayo, y la
p ro b ab ilid ad de q u e en u n ensayo p a rtic u la r cu alq u iera el r e ­
su ltad o fu e ra en la dirección e stim ad a sería de .5 con base en la
hip ó tesis nula, en el sen tid o de q u e la te o ría n o ten ía ab so lu ta­
m en te n ingún v alor d e estim ación, esto es, e n el sentido de que
estim a la dirección erró n eam en te con la m ism a frecuencia q u e lo
caso, en efecto, habrá un grado de error suficiente en dicha apreciación
para requerir el empleo de una prueba de dos muestras. La razón de ello
se verá claramente una vez que se hayan expuesto las pruebas de dos
muestras en el capítulo xm.
hace co rrectam ente. O bsérvese q u e sem eja n te p ru e b a n o p o d ría
em p learse si se to m a ra n 15 observaciones sobre la b ase de la
m ism a m u e stra de personas.
* X.4. Extensiones del binomio
Son varios los posibles m étodos p a ra am p liar el plan team ien to
b ásico ejem plificado con el em pleo d e la d istrib u ció n binom ial.
Aun cu an d o dichos m éto d o s no son usados con frecuencia e n las
p ru e b as estad ísticas de las ciencias sociales, debe al m enos cono­
cerse su existencia. La p rim e ra de ellas es la d istrib u ció n multinominal, utilizable en situaciones e n que se d an m ás d e dos cla­
ses de eventos. H em os v isto y a que si hay k clases d istin tas de
eventos, y si r, es el nú m ero de eventos e n la z-ésima clase, resu l­
ta rá que el n úm ero de p e rm u ta s p a ra dichos eventos v en d rá dado
p o r la expresión N \ / r x \r2\ ■. .rk\. Si los eventos son estad ística­
m en te indep en d ientes y las pro b ab ilid ad es de o b ten er las distin ­
ta s clases de eventos vienen dados p o r pit con i = 1,2, . . . k, y con
k
2 p i = 1, en tal caso la p ro b ab ilid ad d e o b ten er exactamente r L
í=i
eventos del tip o 1, r 2 eventos del tip o 2, . . . y rk eventos k e n al­
gún orden particular se rá :
(P iP iP i ■■■) (P2P2P 2 • • • ) ■ • • (PkPkPk ■■■) = P ir'P'f* ■ • • Pk*
V_______________
) \ _______ ._______ I
Y
Y
V_______________
J
V
rt térm ino s r2 térm in o s
rh térm inos
Si m ultiplicam os esta expresión p o r el n ú m ero de p erm u ta cio ­
nes, obtendrem os la fó rm ula
P ( r lt r2,
N\
rk) = — — ------------ p / i p 2r* ... pf*
ri'.r2l . . . r lc\
Es im p o rtan te o b serv ar que esta fó rm u la nos d a la p ro b ab ili­
d ad de o b ten er exactamente el n ú m ero especificado de eventos
d e cada tipo. Supongam os p o r ejem plo q u e tenem os conocim ien­
to de q ue u n a escuela contiene 50 p o r ciento de caucásicos, 30 p o r
ciento de negros y 20 p o r ciento de o rientales. ¿Cuál es la p ro b a ­
b ilid ad de que el " p rim e r equipo" de fú tb o l contenga exactam en­
te 3 caucásicos, 7 negros y 1 oriental, b a jo el su p u esto de q u e la
com posición racial del eq u ip o e stá su je ta a u n proceso de selec­
ción p u ra m e n te gobernado p o r el azar? U tilizando la distrib u ció n
m ultinom ial, te n d re m o s :
P( 3 ,7 ,1 ) = - H L (.5 )3( .3)»(.2)1 = .007
3
!7 !1 !
E ncontram os inm ediatam ente u n a dificultad que crea com pli­
caciones en el u so de la distribución m ultinom ial e n las pruebas
estadísticas. No re su lta obvio en m uchos casos cóm o puede es­
pecificarse sin am bigüedad u n grupo de soluciones que sean m ás
"in frecu en tes” que la ya obtenida. E n este ejem plo se dan varias
clases de com binaciones “insólitas". Veam os las sig u ie n te s: el
equipo pued e n o c o n tar con negro alguno, o n o in clu ir orientales,
p ero ¿qué re su ltad o cae en la región crítica? Si es posible espe­
cificarlo, p o d rá idearse u n a p ru e b a correcta. Si reunim os por
ejem plo a los caucásicos con los orientales, podríam os intere­
sarnos p o r la p ro b ab ilid ad de o b ten er siete o m ás negros en el
equipo. P ero en este caso, com o en otros m uchos, estaríam os
utilizando la distribución binom ial y no la m ultinom ial. R esulta
posible u n segundo tip o de m odificación de la binom ial cuando
se h a estad o m u estrean d o sin reposición u n a población relativa­
m ente pequeña. Si u n a población de tam año M contiene Aíj ele­
m entos del tip o 1, M2 elem entos del tip o 2, y, en general, M¡
elem entos del tipo i, y si los tam años correspondientes de la
m u estra son N y N it la probabilidad de o b ten er exactam ente N lt
N 2, . . . N k casos de cada tipo viene dada p o r lo que se denom ina
distribución hipergeom étrica, a sa b e r:
P ( N v N 2 ........ N
Si deseam os p o r ejem plo d eterm in a r la p ro babilidad de obte­
n e r exactam ente seis espadas, seis tréboles y u n diam ante en una
m ano de b rid g e de tre s ca rtas (to m ad as al azar, p ero sin repo­
sición), ten d ríam o s:
P( 6 ,6 ,1 ) =
lo que re su lta u n núm ero sum am ente pequeño. T ropezaríam os de
nuevo con la m ism a dificultad al especificar las alternativas que
pueden ser consideradas “m ás ra ra s ” que la a n te rio r p a rtic u la r
com binación. E n el capítulo xv harem os u n a p ru e b a exacta de
F ish er p a ra 2 x 2 tablas, b asad a en la distribución hipergeom étrica, en la que se incluyen sólo dos tipos de eventos.
Se observ ará p o r últim o que la distribución binom ial puede
ser aproxim ada p o r o tras distribuciones cuando la m u e stra total
sea tan grande que haga que los cálculos resu lten aburridos.
C uando N es grande y p tiene un valor interm edio, con el p ro ­
d u cto N p > 5, cabe acercarse al binom io m ediante u n a d istribu­
ción norm al, en cuyo caso podrem os utilizar pru eb as basadas en
proporciones de éxitos. E stas pru eb as serán p re sen tad as e n los
cap ítu lo s x i y x m .
Se d a a veces el caso de que el tam añ o de la m u e stra sea m o ­
d erad am en te grande, en ta n to que p es m uy pequeño (o sum am en­
te g ra n d e). P or ejem p lo : p (o q ) puede re fe rirse a u n aconte­
cim ien to poco usual, ta l com o el c o n tra e r u n a en ferm ed ad o
suicidarse. Si planteam os el p ro b lem a de m odo que p se re fie ra
a la p ro b ab ilid ad de aquel ra ro evento, de m odo que p < q, y si
N p < 5, p o d rá calcularse aproxim adam ente el binom io, haciendo
u so d e la d istribución de Poisson, p o r m edio de la siguiente
fó rm u la :
P( r ) = ■
l re ~ X
rl
en la que r se refiere al nú m ero de éxitos en N in te n to s : ?. = Np,
y e es la co n stan te n a tu ra l, aproxim adam ente igual a 2.718.
H ay tab las p a ra h a lla r los valores de r! y de e ~ x (véase Spiegel
[8 ]), m ed ian te cuyo em pleo se reduce el tra b a jo del cálculo.
P a ra ilu s tra r el em pleo de la aproxim ación de Poisson, supon­
gam os que la p ro b a b ilid ad de se r a rre sta d o en u n a localidad de­
te rm in a d a es de .06, p ero que en u n m u estreo de 50 japonesesn o rteam erican o s ad u lto s sólo u n o de éstos h a sido arrestad o . E n
ta l caso N p = 3.0 y
ílg -3
P W = ---^---= 3e-8
De m an era análoga
P (0 )
3®e-*
0!
en la que convencionalm ente definim os 0! com o la un id ad . Al
o b jeto de o b ten er la pro b ab ilid ad de que u n o o m enos de los
jap o n eses-n o rteam ericanos sea detenido, sum arem os P ( l ) y P ( 0),
o b ten ien d o
P ( l ) + P (0 ) = 4e~s = 4(.0498) = .199
X.5. Sum ario
E ste capítulo contiene u n a can tid ad considerable de ideas, n u e­
vas y fu n dam entales, adem ás de exam inar el m ecanism o de la
p ro p ia distrib u ción binom ial. E n el capítulo siguiente h ab rem o s
de d iscu tir de nuevo, con cierta am plitud, m uchas de estas ideas
co m plem entarias, ta n to b a jo la fo rm a de hipótesis acerca de las
m edias, com o en función de o tras dos distribuciones de m u estras.
P o d rán o b servarse las im p o rtan tes sem ejanzas que se dan en los
pasos o rientados a p ro b a r las hipótesis, y en los conceptos gene­
rales que h an sido p resentados en este capítulo. R evisem os és­
tos de nuevo, brevem ente.
R esulta en p rim e r lugar necesario fo rm u lar algunos supuestos,
tanto acerca d e la población que va a ser estu d iad a com o en re la­
ción con el m étodo de m u estreo de dicha población. U tilizando
tales supuestos y la teo ría de las probabilidades, podrem os hacer
afirm aciones específicas acerca de los resultados, con referencia
a la hipótesis nula. E n el caso del binom io, p o r ejem plo, aquellos
supuestos h acen posible asignar u n valor num érico específico
(p o r ejem plo, p = .5) a las probabilidades de éxito de u n a prueba
determ inada. P ara to m a r decisiones en cu an to a la región crítica
(es d ecir: el g rupo de soluciones p a ra las cuales rechazarem os
H q), necesitam os o b ten er lo que se denom ina u n a distribución
del m uestreo, es d ec ir: u n a pro b ab ilid ad de distribución que
asigna u n a p ro b abilidad num éxica específica a cada solución o a
cad a g rupo de soluciones.
D ecidirem os a continuación lo relativo al nivel de significación,
q ue es la p ro b ab ilid ad de rech azar la hipótesis n ula cuando ésta
es en realid ad v erdadera (u n e rro r tip o I). Idealm ente debe h a '
cerse esta decisión evaluando los costos de u n e rro r tip o I p o r
com paración con los de u n e rro r tip o II , n o rechazando H 0 cuan­
do en realid ad es falsa. Al decidir adem ás h ac er uso de una
p ru e b a de u n a o de dos colas, queda d eterm in ad a n u e stra región
crítica. E ste g rupo de resultados a excluir se en cu en tra acum u­
lan d o las probabilidades, com enzando con los resultados m ás
extrem os y m oviéndose hacia el centro, h a sta que la sum a re su l­
ta n te de p ro b abilidades sea ligeram ente m en o r que el nivel de
significación (p o r ejem plo, .05). Vemos entonces los datos,
com putam os la estad ística de p ru e b a (p o r ejem plo, el núm ero de
éxitos), y tom am os n u e stra decisión. Si el re su ltad o cae dentro
de la región crític a nos verem os obligados a rech azar H n, sa­
biendo que com eteríam os u n e rro r tip o I con u n a probabilidad
igual a la del nivel de significación seleccionado. Si el resu ltad o
n o cae d en tro de la región crítica, n o rechazam os la hipótesis,
corrien d o en este caso el riesgo de com eter u n e rro r tipo II.
Aun cuando es difícil (com o verem os en el cap ítu lo xiv) deter­
m in ar con exactitud la p ro babilidad de com eter u n e rro r tipo II,
pues ello depende de h a sta qué p u n to sea falsa n u e stra hipótesis
nula, sabem os que, p ara u n a m u estra de tam año fijo, cuanto
m en o r hagam os el riesgo de com eter u n e r ro r tipo I, ta n to m a­
y o r será el de com eter uno del tipo II.
G losario
Distribución binomial
Región crítica
Distribución hipergeométrica
Modelo versus hipótesis
Distribución multinomial
Pruebas de una y de dos colas
Distribución de Poisson
Distribución de muestras
Nivel de significación
E jercicios
1. En 11 lanzamientos de una moneda insesgada, ¿cuál es la probabi­
lidad de obtener exactamente cuatro caras? ¿Exactamente siete caras?
¿Menos de tres caras? Respuesta, P(4) = 330/2.048.
2. Supóngase que la moneda del ejercicio anterior está sesgada y
que la probabilidad de obtener cara es en realidad. 6. Sin efectuar los
cálculos, indíquese de qué modo esto afectaría cada una de las pro­
babilidades anteriores (esto es, si las aumentaría, las reduciría o las
dejaría inalteradas). Respuesta, menor de P(4)
3. Supóngase que se quiere verificar la hipótesis nula, en el sentido
de que la moneda es insesgada, echando 11 lanzamientos. Indíquese
la región crítica que se utilizaría:
a) pa^i una prueba de dos colas al nivel de .05. Respuesta: 0, 1, 10
u 11 caras
b) para una prueba de dos colas al nivel de .10
c) para una prueba de dos colas al nivel de .01
d) para una prueba de una sola cola al nivel de .05, anticipando
que P (cara) > .5. Respuesta: 9, 10 u 11 caras.
e) para una prueba de una sola cola al nivel de .10, anticipando que
P(cara) < .5.
4. En una localidad determinada, el 10 por ciento de la población
es judía. Un estudio de los consejos de directores de diversas agen­
cias de servicios indica que de un total de siete presidentes de los
consejos cuatro son judíos. ¿Qué probabilidad existe de que esto
pueda deberse al azar? En éste y los demás ejercicios que comportan
verificación de hipótesis, indíquense los razonamientos y enumérense
los supuestos adoptados. Respuesta, P = .0027.
5. Un psicosociólogo tom a 12 grupos que dispone por pares según
la estatura. Tiene así seis pares de grupos, en los que cada par de un
grupo constituye un grupo experimental y el otro el grupo de control.
El experimento comporta un intento de aum entar la cohesión de los
grupos, y el experimentador está en condiciones de apreciar si el gru­
po experimental es o no m ás coherente que el grupo de control con
el que ha sido apareado. ¿Cómo puede servirse de la binomial para
verificar la hipótesis nula en el sentido de que el experimento es ine­
ficaz? En este problema han de indicarse todos los supuestos reque­
ridos, calcularse la distribución de muestreo y proceder a la elección
de una región crítica.
*
6. Supóngase que se está estudiando un pequeño grupo de 12 per­
sonas y se desea verificar la hipótesis de que cuanto mayor es el
grado de conformación a las normas del grupo tanto más elevada
es la posición de la persona en el grupo. En relación con ambas va­
riables (conformación y posición) sólo se está en condiciones de apre­
ciar si el individuo está por encima o por debajo de la mediana.
¿Cómo se utilizaría la binomial para verificar la hipótesis nula de que
no existe relación alguna entre dichas variables? No se deje de indi­
car el razonamiento.
* 7. Supóngase que sabemos que la probabilidad de que se cometa
suicidio entre un grupo de cierta edad es .003. Se ha descubierto que
en una m uestra seleccionada al azar, de 1200 indios navajos del mis­
mo grupo de edad, no ha habido suicidios. ¿Cuán probable es que esto
haya sucedido por pura casualidad?
B ibliografía
1. Alder, H. L., y E. B. Roessler: Introduction to Probability and
Statistics, 4‘ ed., W. H. Freeman and Company, San Francisco, 1968,
cap. 6.
2. Anderson, T. R., y M.Zelditch: A Basic Course in Statistics, 2ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 11.
3. Bradley, J. V.: Distribution-free Statistical Tests, Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1968, caps. 3 y 7.
4. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 5.
5. Pierce, Albert: Fundamentáis of Nonparametric Statistics, Dickenson Publishing Company, Inc., Belmont, Cal., 1970, caps. 9 y 12.
6. Selltiz, C., M. Jahoda, M. Deutsch, y S. W. Cook: Research Methods
in Social Relations, Henry Holt and Company, Inc., Nueva York,
1959, cap. 4.
7. Siegel, Sidney: Nonparametric Statistics for the Behavioral Scien­
ces, McGraw-Hill Book Company, Nueva York, 1956, pp. 36-42.
8. Spiegel, M. R.: Theory and Problems of Statistics, Schaum’s Outline Series, McGraw-Hill Book Company, Nueva York, 1961, cap. 7.
9. Tables of the Binomial Probability Distribution, National Bureau
of Standards, Applied Mathematics Series, Núm. 6, 1950.
X I. PR U EB A S D E M U E ST R A S S IM P L E S Q U E IM PLIC A N
M E D IA S Y P R O PO R C IO N E S
E n este capítulo nos ocuparem os de verificación de hipótesis
acerca de las m edias y las proporciones de poblaciones. La m e­
dia o la pro p o rció n de u n a m u estra obtenida de u n a sola de éstas
se co m p arará con el p a rá m e tro de la hipótesis y se decidirá
si ésta debe o n o d escartarse. El lecto r no ta rd a rá en d escu b rir
que las p ru eb as de la fo rm a exam inada en este capítulo tienen
m ucho m enos u tilid ad p rá ctica que las que co m portan v arias
m u estras. A estas altu ra s, sin em bargo, im p o rta m ás o b te n e r
u n a b u en a com prensión de las ideas fundam entales que preocu­
p a rse excesivam ente p o r las aplicaciones prácticas. P or desgra­
cia, las p ru eb as m ás sencillas no siem pre son las m ás útiles.
Se re c o rd a rá que las pru eb as estadísticas que incluyen la binom ial se servían de la regla de la m ultiplicación p a ra o b ten er u n a
d istrib u ció n de m u estreo. Pudim os v er en esta fo rm a exactam en­
te de qué m odo se utilizaba la teo ría de las probabilidades p a ra
conseguir dicha d istribución. De aquí en adelante, las considera­
ciones m atem áticas se van haciendo cada vez m ás com plicadas,
a ta l p u n to que, pese al hecho de que sería deseable com prender
lo que hay d etrás de cada argum ento, el lecto r h a b rá de em pezar
a a c e p ta r cada vez m ás enunciados con la g aran tía de la palabra.
Sin duda, hay p ru eb as m atem áticas disponibles, p ero la m ayoría
de ellas n ecesita del cálculo o incluso de u n a prep aració n m a te ­
m ática considerablem ente m ayor.
X I.1. D istribución en m u estreo de las m edias
Un teo rem a relativam ente notable, se b a sa en los m ism os princi­
pios y reglas de p robabilidades que la binom ial, p ero no se deja
co m p ro b ar en u n texto com o éste. Dicho teo rem a puede en u n ­
ciarse así: S i d e una población norm al d e m a g n itu d N con una
m edia de \x.y una variancia de cr2 se extraen reiteradas m uestras al
azar, la d istribución ¡de selección d e las m edias d e las \muestras
será norm al, con la m edia ^ y la variancia o 2/N . E xam inarem os
cu idadosam ente lo que dice el teorem a del lím ite central.
P artim o s p rim ero de u n a población n orm al, a sabiendas, p o r
su puesto, de que en la vida re al sem ejan te población p erfec ta­
m en te n o rm al n o existe. Nos im aginam os luego a nosotros m is­
m os extrayendo de la población en cuestión u n nú m ero m uy
gran d e de m edias de m ag n itu d N al azar.1 P a ra cada u n a de di­
chas m u estras obtenem os u n a m edia X . P o r supuesto, estas m fr
i No se confunda el número de muestras
de cada una de ellas ( N ).
(que es infinito) con el
tamaño
dias de las m u estras v aria rán algo de u n a a o tra de ellas, pero
esperam os, con todo, que se am o n to n arán a lre d ed o r d e la ver­
d ad era m ed ia p, de la población. E sto es lo que n o s dice el teore­
m a del lím ite central. Dice que si dibujam os u n a gráfica de la
distrib u ció n d e dichas m u estras, el re su ltad o se rá u n a curva n o r­
m al. P o r o tra p a rte , la desviación e stá n d a r d e esa d istribución
F ig .
X I.1. C om paración de las distribuciones norm ales de
m u estreo para m uestras d e tam año d iferen te
n o rm al de las m edias d e las m u estras será de cr/V N . P o r consi­
guiente, cu an to m ay o r sea el tam añ o escogido de m u estra, tan to
m en o r será la desviación e stá n d a r en la d istrib u ció n de las m ues­
tra s , esto es, ta n to m ayor será el agolpam iento de las m edias de
éstas (véase fig u ra X I.l). Si consideram os las m edias d e las m ues­
tra s com o apreciaciones de la m edia de la población, podem os
d ecir que hay c ie rta ca n tid ad de e r ro r en n u e stro proceso de es­
tim ación, debido a fluctuaciones del m uestreo. P or consiguiente,
designam os la desviación e s tá n d a r de u n a d istrib u ció n d e m ues­
treo com o error estándar. E n e ste caso, el e r ro r e stá n d a r de
la m edia, in d icado sim bólicam ente com o o-, es o /\/~ Ñ 7
E l le c to r h a de te n e r claram en te p re se n te que se h allan im pli­
cadas tre s d istribuciones d istin tas, dos de las cuales acontecen
se r ex actam en te norm ales. E n efecto, prim ero tenem os la pobla­
ción, de la q u e se p re su m e que es norm al, con u n a m edia d e n
y u n a v arian cia de o2 [e sc rita en adelante, p a ra abreviar, com o
N or(\i, d*)]. E n segundo lugar, tenem os u n a d istrib u ció n de dato s
en el interior de cada m uestra. Si N es grande, e s ta distribución
será p ro b ab lem en te con to d a razón rep resen ta tiv a de la pobla­
ción y pu ed e ser, p o r consiguiente, aproxim adam ente norm al.
O bsérvese q ue ésta es la única d istribución que se obtiene en fo r­
m a efectivam ente em pírica.2 Y en tercer lugar, tenem os la distri-
2 Como quiera que ésta es la distribución que el investigador ve efectiva-
bución de selección de u n a estad ística (en este caso, la m edia).
Acabam os de v er que la distrib u ció n de m u e stra de la m edia será
asim ism o norm al, p ero te n d rá u n a desviación están d a r m enor
q u e la población (a m enos q u e el tam añ o de la m u e stra N sea
u n o ).
La relació n e n tre la población y la d istrib u ció n de m u estreo
pued e verse en d iagram a en la figura XI.2. C uanto m ayor sea la
Fig. XI.2. C om paración en tre las distribuciones de la población
y d e la m u e stra
m ag n itu d N de la m u estra, m ás pun tiag u d a se rá la distribución
de selección, com o p u ed e verse en la fig u ra X I. 1. H ay q u e ten er
c laram en te p re sen te que, pese a que sus desviaciones e stá n d a r se
relacionan directam ente, constituyen, con todo, distribuciones
com p letam en te d istin tas. T odos los "caso s’' de la distribución
de m u estreo son m edias d e m u estras distin tas. Como e ra cierto
en el caso de la binom ial y com o lo será en to d as las dem ás p ru e­
b as estadísticas, es m ás b ien la distribución de m u estreo y n o la
p ob lació n original la que se u tiliza d irectam en te en las p ru e b as
de significación. Los supuestos a p ro p ó sito de la población pue­
d en ap a rec er en el m odelo. M ediante la te o ría de las p ro b ab i­
lidades los enunciados acerca de la población y de los m étodos
d e m u estreo se trad u c en en enunciados acerca de la d istrib u ­
ción de m u estreo.
E n resum en, las m edias y las desviaciones e stá n d a r de las tres
clases de d istrib u ción son com o sigue:
Desviación
Media
estándar
Población
{i
o
M uestra
X
s
Distribución de m uestreo
fx
a /y / N
mente, puede haber propensión a confundir esta dase de distribución con
la de muestreo.
El teo rem a del lím ite cen tral concuerda con la intuición del
sentido' com ún e n que, suponiendo que se hayan evitado d isto r­
siones, pued e tenerse m ás confianza en la apreciación de la m edia
de u n a m u e stra grande que de u n a peq u eñ a.3 Dice, en efecto,
que las m edias de las m u estras v aria rán m enos de u n a m u estra
a o tra si N es grande. P ero constituye, con todo, u n refinam iento
considerable con resp ecto al sentido com ún, en cu an to p ro p o r­
ciona una indicación de cu á n ta m ás confianza deberíam os ten er
si N es au m en tad o e n u n a ca n tid ad determ inada. Así, p o r ejem ­
plo, podem os v er que p a ra p a r tir el e rro r están d a r p o r la m itad
necesitam os h ac er N c u a tro veces m ayor. Nos dice asim ism o
que cu an to m ás hom ogénea es la población, p a ra em pezar, esto
es, cu an to m ás pequeño es el v alor de a, ta n to m en o r es el e rro r
están d a r a / y / N y ta n to m ayor el agrupam iento de las m edias
de las m u estras alre d ed o r de la m edia de la población.
* Puede o frecerse u n a justificación teórica de este im p o rtan te
teorem a in tro d u cien d o la idea de las com binaciones lineales, de
la que h arem os uso m ás adelante en varias ocasiones. Una m edia
es en realid ad u n a función lineal sim ple de las puntuaciones X u
1
ya que X = — (X x + X 2 + . . . + X N). P uede m o strarse , en form a
m ás generalizada, que si tenem os u n a variable Y que es u n a com ­
b inación lineal cualquiera de las X {, y si esta X f h a sido selec­
cionada independientem ente, com o o cu rre cuando sacam os al
azar u n a sim ple m u estra, podrem os o b ten er expresiones sim ples
de la m edia (v alo r esp erad o ) de Y, y p a ra la variancia de Y.
E specíficam ente, si
y = cjX j + c2x + C3X 1 + . . . + c¡fX]f
y si las X t son seleccionadas independientem ente, entonces
E ( Y ) = CíECTí) + c2E ( X 2) + . . . + cnE ( X n )
y
V ar Y — a ,/ = c^a * * + c 22ax22 + . . . + a ^ a ^ 2
* E n el caso de las m u estras al azar, el v alor esperado de cada
X { es [x. Si situam os cada cy = l / N , entonces Y p asa a conver­
tirse en la m ed ia de la m u estra, y te n d re m o s :
3 Obsérvese que tenemos más confianza en apreciaciones basadas en
grandes muestras; sin embargo, al descartar una hipótesis al nivel de .05,
asumimos el mismo' riesgo de un error de tipo I, independientemente de la
magnitud de JV. Como veremos dentro de poco, la extensión de la región
crítica utilizada en la prueba toma en consideración la magnitud de la
muestra, lo que explica la incongruencia aparente.
£ ( X ) = £ ( F ) = ^ - i - J [ 1i + | i + . . . + n ] = ^ ( W í*) = u
y
= —- [ o2 + o2 + . . . + o®]
1
La ú ltim a fó rm u la es consecuencia del hecho de que la varíancia de cada X t es ju sto a2, ya que estam os tra ta n d o en casos in­
dividuales seleccionados con igual p ro b a b ilid ad de e n tre u n a
población con variancia a2. V ista intuitivam ente, la idea es que
si rep etim o s u n experim ento consistente e n sac ar el " p rim e r”
caso u n g ra n n ú m ero de veces, la distribución de estos p rim ero s
casos será ap ro x im adam ente Ñ o r (ji, a2). Lo m ism o o c u rriría con
u n a sacad a re p etid a d e segundos casos, etcétera.
E l teorem a del lím ite central. E stam os a h o ra en la posibili­
dad de fo rm u la r u n teo re m a m ás general, conocido con el nom ­
b re de teo rem a del lím ite central, com o sigue: S i se extraen
diversas m u estra s de m agnitud N al azar de una población cual­
quiera ( de la fo rm a que sea ) con una m edia de y una variancia
de o2, entonces, a m edida que N crece, la distribución de m ues­
treo d e las m ed ia s de las m u estra s se aproxim a a la norm alidad,
con la m edia \jl y la variancia <j®/N.
E ste teo re m a es m ás n o tab le todavía que el anterior. Dice, en
efecto, q u e p o r m uy n o tab le que sea la d istrib u ció n de la que
p artim o s, a condición que N sea lo b a sta n te grande, podem os
c o n ta r con u n a d istrib u ció n de m u estreo aproxim adam ente n o r­
m al. Como q u iera que es la d istribución de m u estreo , y n o la po­
blación, aquella de que nos servim os en las p ru e b as de significa­
ción, e s to significa que, siem pre que N es grande, podem os
ab a n d o n a r p o r com pleto el su puesto acerca de la no rm alid ad
de la p o blación y seguir sirviéndonos en n u e stra s pruebas, con
todo, de la cu rva norm al.
E l lecto r h a de tr a ta r de convencerse de que la ley de los
grandes n ú m ero s tien e sentido* em pírico. La m e jo r m an era de
o b ten er u n a b u en a com prensión de lo que el teo rem a del lím ite
cen tral significa, y de convencerse al p ro p io tiem po u n o m ism o
de q ue el e rro r e stá n d a r es realm en te a / y / N , consiste en e x tra e r
u n n ú m ero de m u estras de u n a población d e m edia y desviación
e s tá n d a r conocidas, calcu lar las m edias, h a lla r la desviación es-
tá n d a r de las m u e stra s y co m p arar el re su ltad o obtenido con
c¡/\ZÑ ~.4 ¿ P o r q u é d e b e ría la distribución de m u estreo hacerse
norm al si la d istrib u ció n original no lo es? Echem os u n a ojeada
P
2
3
4
Fig. XI.3. D istribución d e la población de las probabilidades de
o b ten er caras de 1, 2, 3, 4, 5 o 6 con u n dado perfecto
a u n a pob lación que diste de se r norm al y veam os qué ocurre a
m ed id a q ue v am os to m an d o m u estras m ayores.
Im agínese q u e estam os ech an d o algún dado m atem ático ideal,
con el cual las p ro b a b ilid ad e s d e o b ten er cada u n a de las seis
F ig .
XI.4. D istribución d e m u estreo de las m edias de las caras,
con dados p erfec to s y m u estra s d e tam año 2
caras son exactam ente 1/6. La d istribución de p ro b ab ilid ad p ara
la ju g ad a de u n solo dado es e n este caso rectangular, es d ecir:
todos los núm eros (d e 1 a 6 ) tienen la m ism a posibilidad d e ocu­
rrir. E ste tip o de d istribución fo rm a u n c o n tra ste pronunciado
-i Véase el ejercicio 1 al final del capítulo.
con la d istrib u ció n norm al, en la que los valores extrem os son
m enos probables que los que quedan m ás próxim os a la m edia.
S em ejan te d istribución rectan g u lar puede re p resen ta rse com o
e n la fig u ra XI.3. E n rigor, p o r supuesto, la distribución sería
discreta, y n o continua com o parece indicarlo el diagram a.
Fig. XI.5. D istribución d e m uestreo d e las m edías de las caras,
con dados p erfecto s y m uestras de tam año 3
Si consideram os u n a distribución sem ejan te com o población
de to d as las ju g adas posibles del dado, calculem os la d istrib u ­
ción de m uestreo de las m edias de m u estras de tam añ o 2. E sto
significa q ue hem os de ech ar dos dados, su m ar los valores de las
caras y dividir e n tre 2. Como bien lo saben los jugadores experi­
m en tad o s del “c ra p ”, esas sum as van d e 2 a 12, siendo 7 el valor
m ás p robable. Al tr a ta r d e o b ten er las probabilidades d e ocu­
rren cia de cada u n a de dichas sum as, observem os p rim ero que
h ay ( 6) ( 6) o sean 36 resu ltad o s posibles si los dados son d istin ­
tos. Así, pues, el p rim e r dado puede ca er con cada u n a de las
ca ras h acia arrib a, y lo p ro p io puede h a c e r el segundo. P ara
o b ten er la pro b ab ilidad de conseguir u n a sum a de m arcas de 7
y, p o r lo tan to , u n a m ed ia d e 3.5, sólo necesitam os c o n ta r el n ú ­
m ero de m aneras en que dicho re su ltad o pu ed e producirse. Ob­
viam ente, h ay seis p ares que pueden d a r u n a m arca de 7, a sa­
b e r : (1,6), (2,5), (3,4), (4,3), (5,2) y (6,1). Una sum a de 6 sólo
pued e o b ten erse d e cinco m aneras d is tin ta s : (1,5), (2,4), (3,3),
(4,2) y (5,1). Y en fo rm a análoga, sólo hay u n a m an era de o bte­
n e r u n a su m a de 12 ( 6,6) o u n a sum a de 2 (1,1). P or consiguien­
te, la distribución de la pro b ab ilid ad de las m edias puede re p re­
sen tarse com o s ig u e :
Media
1.0
1.5
2 .0
Probabilidad
a/36
25
2/ 36
s / 36
4/ 36
3 .0
5/ 30
3 .5
**/36
Media
Probabili
4 .0
4.5
B/ s e
V so
5 .0
5.5
6 .0
3/.86
2/ 86
v 36
36/36
Si se la re p re se n ta e n fo rm a de gráfica, esta d istrib u ció n asum e
la fig u ra de u n triángulo (fig u ra X I.4).
Si se ju eg a con tres dados, se sum an las caras y se obtienen las
m edias, la d istrib u ció n de m u estreo será com o sigue:
Media
1.00
1.33
1.67
2 .0 0
2.33
2.6 7
3 .0 0
3 .33
Probabilidad
V
216
216
V 2I 6
10/ 218
15/ 216
21/ 216
25/:216
27 21 g
Media
3.67
4 .0 0
4.33
4 .6 7
5.0 0
5.33
5 .6 7
6.00
Probabilidad
27/ 216
25/ 216
21/ 216
15/ 21g
10/ 216
6/ 21 G
3/ 216
216
a le / 216
E s ta d istribución, com o p u ed e ap reciarse en la fig u ra XI.5 em ­
pieza ya a acercarse a la fo rm a de la curva n orm al, pese a que
el tam añ o de la m u e stra n o sea m ás que 3. Después de u n exa­
m en aten to d e las cifras an terio res, el lecto r e s ta rá e n condicio­
nes de co m p ren d er in tu itiv am en te lo que o cu rre y p o r qué se va
obteniendo u n a cu rv a en fo rm a cad a vez m ás p ro n u n ciad a de
cam p an a a m ed id a que la m ag n itu d de N au m en ta. E n efecto,
si bien con u n a sola ju g ad a es tan p ro b ab le sac ar u n 6 com o u n
3 o* u n 4, y de hecho dos 6 son ta n p robables com o dos 3, sólo
hay, con todo, u n a m an era de o b te n e r dos 6, e n tan to que hay
cierto n ú m ero de m an eras d istin tas de o b ten er u n pro m ed io de
3.0 en dos o m ás jugadas. E n lenguaje com ún decim os que los
g randes n ú m eros tienden a se r com pensados p o r pequeños, sobre
to d o si N es grande.
XI.2. Prueba para la m ed ia d e la población, conociendo a
Veam os ah o ra cóm o el teorem a del lím ite cen tral y la ley de los
grandes núm eros pueden ap licarse en las p ru e b as estadísticas.
P a ra em pezar, vam os a to m a r el m odelo m ás sim ple posible con
fines de ilustración. Como quiera que algunos de los supuestos
req u erid o s en este m odelo no son prácticos, se ab an d o n arán m ás
adelante. Se tra ta rá u n a vez m ás con cierto detalle cada uno de
los cinco pasos exam inados en el capítulo x, con o b jeto de que
el lecto r se vaya fam iliarizando con el proceso de d esarro llar
p ru eb as estadísticas.
Problem a. Supóngase que un investigador está in teresado en
v erificar la pro piedad de los procedim ientos de m uestreo em ­
pleados en u n estudio local, realizado p o r entrevistadores sin
experiencia. El investigador en cuestión sospecha que los ingre­
sos correspondientes de las fam ilias de las clases m edia y. supe­
rio r p u ed an h ab e r sido subestim ados, esto es, que hayan tenido
m ayor pro b ab ilidad de ap a rec er en la m u e stra que los d e las
fam ilias de ingresos m ás bajos. Se dispone de datos del censo
que m u estran que el ingreso fam iliar m edio de la localidad es de
$ 7 500 y la desviación e stán d a r de $ 1 500. Una encuesta m ás re ­
d u cid a com prende 100 fam ilias, que se suponen seleccionadas al
azar, y se en cu en tra que el ingreso fam iliar m edio de esta m u estra
es de $ 7 900. ¿Tiene razón el investigador al sospechar que la
m u e stra estab a distorsionada?
1.
A dopción de supuestos. Con o b jeto de p o d er servirse del
teo rem a del lím ite central, hay que a d o p ta r ciertos supuestos.
Como ya se indicó an terio rm en te, h a de h a b e r siem pre u n su­
puesto a p ro p ó sito del m étodo de m uestreo. E n el p resen te caso,
suponem os que éste se h a hecho al azar. E n realidad, éste es
el sup u esto que nos in te re sa verificar, y a q u e sospecham os de la
h ab ilid ad de la perso n a que efectuó la en cuesta en cuanto a d ar
a todas las fam ilias u n a o p o rtu n id ad d e selección igual. P resum i­
blem ente, estam os dispuestos a a c e p ta r ciertos supuestos acerca
de la población, a sa b e r: que los datos del censo son m ás fide­
dignos. Si no podem os a c e p ta r las cifras de éste, entonces ten d re­
m os p o r lo m enos dos supuestos dudosos, y la in terp retació n
de los resu ltad o s se h a rá excesivam ente difícil. E n consecuencia,
n u e s tra hipótesis será la de m uestreo al azar. En cu an to a los
dem ás su p u esto s relativos a la población, éstos co n stitu irán el
m odelo.
Si N no es dem asiado grande, se req u iere u n a población n o r­
m al. Aquí se p lan tea la cuestión de sa b e r: “¿cuán grande h a de
se r N p a ra que podam os d e ja r el su p u esto de norm alidad y ser­
virnos del teo rem a del lím ite ce n tral?’' N o existe u n a resp u esta
sencilla a dicha cuestión, y la respuesta depende, e n tre o tr o s : 1 )
d e qué grado de precisión se desea acerca de la apreciación de
la p ro b ab ilid ad de e rro r de tip o I, y 2 ) de cuál grado de aproxi­
m ación poseem os resp ecto de u n a población norm al. Pese a que
haya que se r cau to a p ro p ó sito de las sim ples reglas prácticas,
p u ed e su g erirse que, si N 3 100, el supuesto de norm alidad puede
casi siem pre tu rn arse. Si N 3: 50 y se tiene adem ás evidencia em ­
p íric a e n el sen tid o de que la desviación con resp ecto a la n o rm a­
lid ad no es im p o rtan te, entonces pu ed en tam b ién u tilizarse p ru e­
b as del tipo exam inado en la p re se n te sección. P ero si N < 30, en
cam bio, h a b ría que g u ard arse decididam ente del em pleo de sem e­
ja n te s p ru eb as, a m enos q u e se sepa que la aproxim ación a la
n o rm alid ad es buena. C uando se em plean m u estras pequeñas,
suele p o r lo re g u la r carecerse de sem ejante inform ación, ya que
n o h ay casos suficientes en la m u e s tra p a ra in d icar la fo rm a de
d istrib u ció n de la población. P o r lo tan to , en el caso d e m u estras
pequeñas d eb erían p o r lo re g u la r em p learse o tro s tipos de p ru e ­
bas. Supongam os en el p re sen te p ro b lem a que podem os servir­
nos legítim am ente del teorem a del lím ite cen tral. Como sabem os,
las d istrib u cio n es relativas al ingreso suelen se r e n general algo
disto rsio n ad as. P o r o tra p a rte , tenem os u n a m u e stra razonable­
m en te grande.
A dicionalm ente a los supuestos anteriores, si vam os a servim os
del teo rem a del lím ite cen tral necesitam os a c e p ta r asim ism o las
cifras del censo relativas a [i y o y su p o n er u n a escala de in te r­
valo. Tenem os, p o r tan to , los siguientes su p u e sto s :
N ivel de m e d ic ió n : escala de intervalo
M odelo: población n o rm al (p u ed e ab a n d o n arse )
H = $ 7 500
c = $1500
H ip ó tesis (n u la ): selección al azar.
2. O btención d e la distrib u ció n de m uestreo. A fortunadam ente,
la lab o r de o b ten er la d istrib u ció n de m u estreo nos la dan ya
hecha. Como q uiera que sabem os que la distrib u ció n d e m u estreo
d e las m edias de las m u estras es n orm al o aproxim adam ente
norm al, podem os i r directam en te a la tab la norm al. E n adelan­
te, las d istrib u ciones de m u estreo se d arán siem p re en fo rm a de
tab las del A péndice 2. Im p o rta te n e r p resen te, sin em bargo,
que dichas tab las se h an calculado sirviéndose d e la teo ría de
las p ro b abilidades. Es ta n fácil, en efecto, p e rd e rse en detalles
d e cálculo, q ue se llega a olvidar que cuando en n u e stra s pru eb as
estad ísticas nos servim os de tab las nos estam os sirviendo en re a ­
lid ad de u n a d istrib u ció n de m uestreo.
3. Elección de u n nivel de significación y d e una región crítica.
La elección del nivel de significación apropiado depende, p o r su­
puesto, de los costos relativos que im plican los e rro re s de tipos
I y II. Si el in vestigador d eja de d e sc a rta r la hipótesis d e selec­
ción al azar cu an d o la m u e stra no está efectivam ente equilibrada,
co rre el riesgo de in fo rm a r hallazgos falaces. P or o tra p a rte , si
se d escarta cuando la hipótesis es realm en te cierta, p u ed e te n e r
que re p e tir la encuesta, con los gastos considerables que ello
p u ed a acaso ac arrear. D esde el p u n to de v ista ideal, h a b ría de
a d o p ta r u n a decisión racional b asad a en los costos de dichos dos
tipos d e erro r. E n la p ráctica, sin em bargo, e sto le re su lta rá ta l
vez difícil. Supongam os, p o r ejem plo, q u e se decide p o r u n nivel
d e .05. A continuación d eb ería decidir serv irse de u n a p ru e b a de
u n a sola cola, y a q u e la dirección del sesgo s e h a estim ado. Si
F ig . X I.6. D istribución norm al de m uestras, con área achurada
representando una región crítica de una sola cola al nivel d e
significación de .05
re su lta ra que la m edia de la m u e stra e ra in fe rio r a $ 7 500, difícil­
m en te sosp ech ará q u e los que realizaron la encuesta hayan sobreseleccionado los grupos de ingresos m edio y su p e rio r.6 D ada la
elección del nivel de .05 y de u n a p ru e b a de u n a sola cola, la re ­
gión c rític a se d eterm in a p o r la ta b la n orm al. Como q u iera que
so lam en te el 5 p o r ciento del á rea de la cu rv a n orm al se sitú a
a la d erech a de u n a o rd e n ad a de 1.65 desviaciones e stá n d a r m a­
y o r q u e la m edia, sabem os que, si el re su lta d o su p era la m ed ia [i
e n m ás de 1.65 desviaciones están d a r, la hipótesis h a d e descar­
ta rs e (véase fig u ra X I.6 ).
4. Cálculo de la estadística de la prueba. S abem os q u e si todos
los su p u esto s son correctos, la d istrib u ció n de m u estreo de las
X se rá N or(\i, a^/ N). O sea, en los térm inos d e n u e stro ejem p lo :
= f 7 500
y/N
V I* »
Con o b jeto de p o d er serv im o s de la ta b la n orm al, es necesario
co n v e rtir a dato s e stá n d a r, o, e n o tro s térm inos, o b ten er u n a
estad ística Z que sea Afor(O.l). A nteriorm ente nos servim os de
la fó rm u la :
s En este problema, los datos de la muestra se han dado en realidad, y
la dirección del resultado. Sin embargo, el lector debe pensar que
esta decisión pueda efectuarse antes de conocer el resultado.
sabemos
X -X
Z = -----------E sta fórm ula es aplicable en el caso de u na m u estra que sea
N o r(X , s2), p ero no en el caso de la distribución de selección.
Recordem os, pues, cada uno de los pasos de nu estro procedim ien­
to. H em os form ulado un a serie de supuestos con o b jeto de obte­
n e r un a distribución de m uestreo. E sta distribución nos indica
cuán probable sería u n a X determ inada si n u estro s supuestos
fueran realm ente ciertos. El sociólogo, en cambio, h a obtenido
de su m uestreo u n a sola X , y quiere servirse de la distribución de
m uestreo teórica p a ra p oder ap reciar la pro babilidad de obtener
u n resultado ta n insólito o m ás insólito que su X p articu lar. En
efecto, al servirse de la tab la n orm al, opera en realidad con la
distribución de m uestreo. E n esta distribución cada _^caso" es
u n a X , la m edia es ¡x, y la d esv iación _están dares a /yJN . P or lo
tanto, X sustituye a X , sustituye a X , y a / \ / N sustituye a s en
la fórm u la an terio r de Z. Tenem os, pues:
c /y /Ñ
7 900 - 7 500
150
2.67
E n otros té rm in o s : la m edia de la m u estra es 2.67 erro res están ­
d a r m ayor que la m edia de la población.
5. Adopción de una decisión. Como quiera que X se desvía de
la p resu n ta ¡i en m ás de 1.65 desviaciones e stán d a r en la dirección
prevista, la hipótesis debería d escartarse al nivel .05. De hecho,
sin em bargo, habiendo calculado Z exactam ente, podem os decir
m ás que esto. E n efecto, sirviéndonos de u n a p ru e b a de u na sola
cola, la probabilidad de ob ten er u n a Z de esta m agn itud o m ayor
es de .0038. E n la p ráctica se recom ienda calcular exactam ente
el nivel de significación, siem pre que ello sea posible. Al hacerlo
así, en efecto, indicam os que el resu ltad o se sitú a en u n a región
crítica m ás reducida todavía que la que o riginariam ente se esta­
bleciera. Como quiera que el lecto r p re ferirá tal vez servirse de
un nivel de significación d istinto de aquel del au tor, re su lta p o r
lo regular ú til p ro porcionar probabilidades exactas, o lo m ás
exactas posibles, de m odo que aquél pueda sacar sus propias
conclusiones en cuanto a acep tar o no los hallazgos. E n el pre­
sente ejem plo, el sociólogo d escartaría la hipótesis nu la de que
la m u e stra fue al azar. Y h a b ría de decidir a continuación si
q u iere o n o e x tra e r o tra m u estra.
XI.3 La d istribución t de S tu d e n t
E n la m ay o ría de los casos es to talm en te im p ráctico tr a ta r a o
com o si fu e ra conocida. P or lo re g u la r in cu rrim o s en d ificulta­
des considerables con o b jeto de a se g u rar el ca rác te r fo rtu ito de
la m u estra, ya que lo que nos in tere sa en p rim e r térm in o es la
com probación de los su p u esto s acerca de la población a estu d iar.
E n p ru e b as de la clase que se exam ina en este capítulo, es prob ab le q ue el lecto r desee verificar u n a hipótesis relativ a a [x. P ero
si así fu e ra el caso, ¿ e sta rá jam ás en condiciones de conocer el
valo r de o? P rácticam en te no. P orque si tu v iera conocimiento* de
a, e sta ría tam b ién sin du d a alguna en condiciones de conocer ¡x,
a m enos, p o r supuesto, que alguien como, p o r ejem plo, su m aes­
tr o de estad ística le estuviera d eliberadam ente o cultando in fo r­
m ación. P o r lo reg ular, pues, n o conocerá los valores ni de ¡x ni
de 0. ¿Q ué puede, pues, h ac er en sem ejan te situación? Como
q u iera que el teo rem a del lím ite ce n tral co m porta a, n o puede
ig n o rar su v alo r p o r com pleto. U na solución p o d ría p arece r con­
sistir en rem p lazar a p o r s, desviación e s tá n d a r de la m uestra.
De hecho, esto es lo que se hacía co rrien tem en te an tes del des­
a rro llo de la estad ística m oderna. E n efecto, en la fó rm u la de
Z, a / \ / N se rem p lazaba sencillam ente p o r s / \ / N y, com o q uiera
q ue s p o d ía calcu larse d irectam en te de los dato s de la m u estra,
no h ab ía m ás incógnitas e n la fórm ula. Y de hecho, este pro ce­
d im iento da re su ltad o s razonablem ente buenos cuando N es gran ­
de. Sin em bargo, com o habrem os de v er a continuación, las
pro b ab ilid ad es o b tenidas e n esta fo rm a pueden ser to talm en te
falaces cu an d o N es relativ am en te pequeño. Veam os p o r qué
es así.
Podem os co n stru ir u n a estad ística altern ativ a d e p ru e b a c o m o :
s/V JV - 1
E sta estad ística fue in tro d u c id a p o r W. S. G osset, que escribía
b a jo el seudónim o de " S tu d e n t”, y se conoce con el no m b re de
d istrib u ció n t de S tudent. C om parando t con Z, observam os
que, en ta n to que los n u m era d o res son idénticos, los denom ina­
dores difieren, en cam bio, e n dos aspectos, a s a b e r : 1 ) tenem os
u n A? — 1 b ajo el radical, y 2) a h a sido* rem p lazad a p o r s. Con
o b jeto de co m p ren d er e sta s m odificaciones, exam iném oslas u n a
después de otra._ Al hacerlo habrem os de in tro d u c ir algunas ideas
nuevas.
La desviación están d a r de la m u estra s puede em plearse com o
una estim ación de a. Si b ien el p roblem a de la apreciación se
tra ta rá en el próxim o capítulo, b a ste m encionar aquí q u e a m enu­
d o necesitam os que u n a estim ación posea ciertas propiedades.
U na de las propiedades de u n a "b u en a” estim ación es que sea
insesgada. A hora bien, co n tra riam en te a lo que p o d ría suponerse,
re su lta que s n o es u n a estim ación com pletam ente insesgada de a.
P uede d em o strarse m atem áticam ente que o tra cantidad, que po­
dem os designar con c y se obtiene m ediante la fó rm u la
2 (X t - X Y
-V-
A
a:
\ l
'
« -1
N - 1
es u n a estim ación insesgada de afi La ú n ica diferencia e n tre o
y s es el fa c to r N — 1 del denom inador. Así, pues, p ese a que el
lecto r h a ap ren d id o a calcular 5, se en c u en tra ah o ra con que
debería servirse de o tra fó rm u la al estim a r o. E n el p resen te p ro ­
blem a es m ás b ien a / y / N que a la que h a de estim arse, ya que
es la p rim e ra expresión que aparece en el denom inador de Z. Aun
siendo cierto q ue a /y /N sea u n a estim ación m en o r de a/ y / N, es
posible, sin em bargo, ev itar p o r com pleto el cálculo de 5 si s se
h a o btenido ya. O bsérvese que
\/N
y/N
Y reco rd an d o que y / a / y / b puede escribirse com o y / a /b , te­
nem os :
N (N — 1)
■« E n r ig o r , n o e s a, l a e s t im a c ió n e q u il ib r a d a d e a, s i n o q u e a 2 e s u n a
e s t im a c ió n e q u i l i b r a d a d e a2. N o te n e m o s p o r q u é p r e o c u p a m o s , c o n to d o ,
p o r e s t a d i s t i n c i ó n s u ti l . E n e s t e te x to n o s s e r v ir e m o s n o r m a l m e n te d e u n
a c e n to c i r c u n f l e j o ( * ) s o b r e u n a l e t r a g r ie g a p a r a i n d i c a r u n a e s tim a c ió n
d e l p a r á m e t r o . A lg u n o s te x to s d e f in e n s c o n N — 1 e n e l d e n o m i n a d o r , p e r o
p r e f e r im o s p o r n u e s t r a p a r t e m a n t e n e r l a d i s t in c ió n e n t r e l a s d o s f ó r m u l a s .
[ I (X i-X m /N
i= l
y'N -l
5
y/N -í
Así, pues, podem os to m a r u n a estim ación algo sesgada de a, divi­
d ir e n tre u n a can tid ad que es ligeram ente m ás pequeña que y / N ,
y lleg ar a s /-\/N — 1 com o estim ación insesgada d e a /^ /N . É sta
es la razó n de q ue aparezca N — 1 en el denom inador de f.7
Al su s titu ir Z p o r t, la m odificación in tro d u cid a sirviéndonos
d e N — 1 es relativam ente pequeña, p e ro la su stitu ció n de a p o r s,
en cam bio, pued e re v estir u n significado considerable si N es p e ­
queña. Como q u iera que s v aría de u n a m u e stra a o tra, el deno­
m in ad o r de t v aría lo m ism o que el n u m erad o r. P ara u n valor
dad o de X , si la s de u n a m u e stra p a rtic u la r acontece s e r dem a­
siado pequeña, entonces t será m uy grande, y si s es grande, t será
relativ am en te pequeña. P o r consiguiente, h a b rá u n a m ayor va­
riab ilid ad e n tre los valores de t que e n tre los valores com para­
bles de Z. E sto significa que la d istrib u ció n de m u estreo d e í
será m ás ap lan ad a que la norm al. P o r lo tan to , la distribución
t te n d rá colas m ayores. Qué ta n aplan ad a sea t dependerá de la
m ag n itu d de la m u estra. Si N es m uy pequeña, la d istrib u ció n í
será m uy p lan a en com paración con la cu rv a norm al. E n o tro s
térm in o s: será n ecesario a p a rta rse u n n ú m ero m ayor de desvia­
ciones está n d a r de la m ed id a p a ra in clu ir el 95 p o r ciento d e los
casos. A m edida q u e N crece, la d istrib u ció n t se va acercando
cad a vez m ás a la d istribución norm al, p ero perm aneciendo siem ­
p re, sin em bargo, ligeram ente m ás a c h atad a que ésta. Así, pues,
hay u n a d istribución t p a ra cada m agnitud de la m u estra. El
h echo de que la d istrib u ció n t se vaya acercando a la n o rm alidad
co b ra sen tid o in tu itiv am en te si nos dam os cu en ta de que, a m e ­
d id a que N crece, s se convierte en u n a estim ación m uy p recisa
de a, de m odo que im p o rta poco que nos sirvam os en el denom i­
n a d o r de ésta o de aquélla.
Con o b jeto de servirnos de la distribución t, hay que suponer
un a población norm al, so b re to d o si N es relativam ente pequeña.
El cálculo de la distrib u ció n de m u estreo de t req u iere que el
n u m era d o r ( X — ¡x) esté n o rm alm en te d istrib u id o y que varíe
tam b ién ind ep en dientem ente del denom inador s / y / N — 1. P o r lo
general, no esp eraríam os que haya independencia e n tre el nu m e­
ra d o r y el denom inador, ya que s se calcula en realidad tom ando
7
A lg u n o s t e x to s r e c o m ie n d a n e l e m p le o d e N — 1
y d e N p a r a l a s g r a n d e s . S in e m b a r g o , s e m e j a n t e
a ñ a d i r u n a c o n f u s ió n in n e c e s a r ia . P o r s u p u e s to , e n
g ra n d e s , es in d ife re n te s e rv ir s e d e u n a c if r a o d e la
p a r a m u e s tr a s p e q u e ñ a s
p r o c e d im ie n to p a r e c e
e l c a so d e m u e s tra s
o tra .
desviaciones con resp ecto a X y, p o r consiguiente, sería sorpren­
d en te en c o n trar X y s estadísticam ente independientes u n a res­
p ecto de o tra. Conociendo la X de la m u estra, esperaríam os
a u m en ta r n u e s tra posibilidad de an tic ip a r s p a ra la m ism a m ues­
tra . Acontece, sin em bargo, que, p a ra las poblaciones norm ales
y m u estreo al azar, la m edia y la desviación e stá n d a r de la m ues­
tra son estad ísticam ente independientes u n a de o tra. Como q uiera
que, con todo, esta pro p ied ad n o se verifica p a ra to d as las d istri­
buciones de la población y que, p o r o tra p a rte , X — jx n o estará
d istrib u id a n o rm alm en te a m enos que N sea grande, de ahí que
al serv im o s de la p ru e b a t hayam os de su p o n er u n a población
norm al.
Problema. S upóngase que se están apreciando los program as
de u n a m u estra al azar de 25 agencias de asistencia social indi­
vidual seleccionadas e n tre la población de to d as las del E stado
de Nueva Y ork. Cada u n a de ellas lleva u n reg istro del porcen­
ta je de los casos favorables, de acu erd o con u n crite rio uniform e.
Se h a establecido u n a n o rm a según la cual el p o rc en taje m edio
de éxitos sería del 60 p a ra todas las agencias. Sin em bargo, en
su m u e stra el lecto r en c u en tra que el p o rc en taje m edio es del
52 y la. desviación e stá n d a r del 12 p o r ciento. ¿Tiene el lector
algún fu n d am en to p a ra sospechar que p a ra la población co n ju n ta
de las agencias el nivel de los éxitos está p o r debajo de la norm a
esperada?
1. Form ulación d e supuestos. Los supuestos necesarios pueden
en u m erarse com o sigue:
N ivel de m e d ic ió n : escala de intervalo
M o d elo : m u estreo al azar
población n orm al
H ip ó te sis : n = 60 p o r ciento.
O bsérvese que n o se re q u ie re su p u esto alguno a p ro p ó sito de
cr, ya que en re alid ad s se h a obten id o em píricam ente y puede
em p learse d irectam en te en la p ru e b a t. El nivel de m edición, en
cam bio, re q u ie re ciertos com entarios. Como q u iera que cad a clien­
te de u n a agencia es u n éxito o u n fracaso, y com o q u iera que
las cifras obtenidas p a ra cada agencia, son p o rc en tajes de éxitos,
ca b ría p en sa r q ue nos hallam os sim plem ente en p resencia de una
escala nom inal dicotóm ica, y n o de u n a escala de intervalo. Y
efectivam ente, si las unidades del análisis fu e ran clientes en lugar
de agencias, éste se ría el caso. R ecuérdese, sin em bargo, que las
unidades que se están estudiando son agencias. Se h a obtenido
u n a m arca p a ra cada agencia (e sto es, u n p o rc en taje de éxitos),
y esta m arc a re p resen ta legítim am ente u n a escala de intervalo.
Así, p o r ejem plo, u n a diferencia e n tre el 30 y el 40 p o r ciento es
lo m ism o que u n a diferencia e n tre el 70 y el 80 p o r ciento. Am­
b as diferencias pu eden convertirse en el m ism o núm ero real de
clientes.
2. O btención de la distribución de m uestreo. Las distribucio­
nes de m u estreo p a ra t se dan en el cu ad ro D del A péndice 2.
Como q u iera que esas distribuciones difieren p a ra cada m agnitud
de la m u estra, el cu ad ro en cuestión se h a condensado de m odo
que sólo dé las colas de cada distribución. Al servim os del
cu ad ro necesitam os p rim e ro localizar la m agnitud ap ro p iad a de
la m u estra leyendo la colum na de la izquierda de a rrib a abajo.
E stos tam años de la m u e stra se dan p o r lo re g u lar en térm inos
de grados de libertad df ( degrees o f freed o m ), que en este tipo de
p ro b lem a es siem pre N — l .8 A continuación, hállese el nivel
de significación apropiado leyendo horizontalm ente arrib a. Las
cifras del cuerpo del c u a d ro indican la m ag n itu d de t necesaria
p a ra o b ten er significación en el nivel designado.
3. Selección de u n n ivel de significación y d e una región crítica.
Sirvám onos del nivel de .05 y de u n a p ru e b a de u n a sola cola.
Del cu ad ro D vem os que p a ra 24 grados de lib ertad se necesita
u n a t de 2.064 o m ás p a ra o b ten er significación al nivel de .05
p a ra u n a p ru e b a de dos colas. P ara u n a p ru e b a de u n a sola cola
y el nivel de .05, sólo necesitam os u n a t de 1.711 o m ayor. E n el
caso de p ru eb as de u n a cola sim plem ente p artim o s en dos los
niveles de significación requeridos p a ra las pru eb as de dos colas.
E sto se debe a que nos ap artam o s de la m edia el m ism o núm ero
d e desviaciones están d a r, con o b jeto de o b ten er u n a región crí­
tica de u n a sola cola d e .05, que nos ap a rtaríam o s p a ra o b ten er
u n a región de dos colas de .10.
4. Cálculo de la estadística de la prueba. Si bien es cierto que
la d istrib u ció n de m u estreo de X es N o ria , a2 / N ) y que, p o r con­
siguiente, la d istrib u ció n de Z es Nor{ 0,1), e sta inform ación no
n os sirve, con todo, de gran cosa, ya que a n o nos es conocida.
E n lu g ar de ello calculam os el valor de t, y o b ten em o s:
s/y/N - 1
12/V 24
5. Decisión. H allam os que toda t cuyo v alo r num érico fuera
> 1.711 se en c o n trará en la región crítica. P or consiguiente, des­
cartam o s la hipótesis de que ji = 60 y, con cierto riesgo de erro r,
vem os que el nivel real de éxitos de las agencias queda p o r
d eb ajo del nivel esperado. Leyendo horizontalm ente en el cua­
d ro D la hilera correspondiente a 24 grados de lib ertad , vem os
que p a ra u n a p ru e b a d e u n a sola cola el nivel de significación
8 P a r a e l e x a m e n d e lo s g r a d o s d e li b e r ta d v é a s e s e c c . X I I . l .
co rresp o n d ien te a u n t de 3.27 cae en algún p u n to com prendido
e n tre .005 y .0005.9
E n este p u n to p u ed en re g istra rse varios hechos a p ro p ó sito de
la d istrib u ció n t. Si se exam ina la colum na co rresp o n d ien te a
P ~ -05 p a ra u n a p ru e b a de dos colas, se ob serv ará que a m edida
q u e la m ag n itu d de la m u e stra au m en ta, los valores de t dism i­
nuyen y convergen con b a sta n te rapidez h acia 1.96, o sea el valor
necesario p a ra significación si se em p lea ra el c u a d ro norm al.
E stos valores d eb ieran d a r urna id ea razonablem ente b u en a del
grad o de aproxim ación a la curva n orm al p a ra cu alq u ier m ag­
n itu d dada de la m u estra. P ara valores d e N — 1 m ayores que 30,
se necesitará p o r lo re g u la r interpolación, y p a ra valores m uy
superiores a 120 h a b rá que servirse del cu ad ro n orm al, ya que
los valores de t n o se dan. Algunos textos indican arb itra ria m e n te
que sólo se n ecesita em p lear la ta b la t cuando N < 30. P ese a que
e s ta regla p rá ctica dé resu ltad o s razonables, la posición que aquí
ad o p tam o s es que siem pre es p re ferib le servirse d e la tabla t
cuando a es desconocida y puede p re su m irse u n a población n o r­
m al. Como q u iera q u e el cu ad ro t n o es de u so m ás difícil, parece
razonable serv irse de valores exactos con p re fere n cia a aproxi­
m aciones norm ales. Conviene recalca r tam b ién que n o hay una
teo ría ú n ica que se aplique a m u estras pequeñas y o tra, to tal­
m en te distin ta, q ue se aplique a las grandes, com o algunos textos
lo dan a en ten d er.
Como pu ed e verse del cu ad ro t, las distribuciones n o rm al y t
sólo difieren considerablem ente cuando la m ag n itu d de la m ues­
tra es relativ am en te pequeña. P o r o tra p a rte , siem pre q u e se
em plea t hay que su p o n er u n a población normad, a m enos que N
sea m uy grande, en cuyo caso Z puede su stitu ir aproxim adam ente
a t . P o r lo tan to , la p ru e b a t reviste v alor p ráctico en situaciones
en las que se tienen m u estras pequeñas y que se p u ed e suponer
una población norm al. P o r desgracia, cu an d o las m u e stra s son
pequeñas p o r lo re g u la r solem os sa b e r m enos acerca d e la n a­
tu raleza ex acta de aquélla. Así, p o r ejem plo, si u n investigador
realiza u n estu d io de exploración con 17 casos, ¿tien e m uchas
p ro babilidades de e s ta r en condiciones de a c e p ta r el su p u esto de
n o rm alidad? P ro b ablem ente no. Según verem os en el cap ítu lo xiv,
hay pruebas q ue pueden em plearse com o altern ativ as de la t y
quo no im plican el su puesto d e norm alidad.
XT.4. Pruebas que com portan proporciones
H asta aquí sólo hem os considerado en este cap ítu lo ejem plos que
0
P e s e a q u e n o p u e d a n o b te n e r s e d e l a t a b l a d e p r o b a b ilid a d e s e x a c ta s ,
l a in te r p o la c ió n , c o n to d o , s ie m p r e e s p o s ib le . S i n e m b a r g o , p o r lo r e g a l a r
b a s t a i n d i c a r q u e p q u e d a e n t r e d o s v a l o r e s d e t e r m i n a d o s , v.gr. .0005< p £
co m p o rtab an u n a escala de intervalo. P or o tra p arte , había
q ue p re su m ir tam b ién n o rm alid ad de población en el caso de
m u estras pequeñas. E n e sta sección verem os cóm o puede em ­
p learse la ley de los grandes núm eros p a ra a b a rc a r p ru e b as que
co m p o rtan proporciones, siem p re que N sea b a s ta n te grande. En
efecto, las p ro p o rciones se tra ta rá n com o casos especiales de las
m edias, de m odo que n u e stra s consideraciones an terio res segui­
rá n ten ien d o aplicación.
Supóngase que tenem os u n a sim ple escala nom inal dicotóm ica.
Podem os q u e re r verificar u n a hipótesis relativa, p o r ejem plo, a
la p ro p o rció n de los varones en u n a población. Asignamos a rb i­
tra ria m e n te el v alor u n o a los varones y cero a las hem bras, y
tra ta m o s las m arcas com o u n a escala de intervalo. Aunque no
se dé u n a u n id ad claram en te concebida, a m enos que ésta sea
el a trib u to de “m ascu lin id ad ”, que se posee o n o se posee, pode­
m os, con todo, tr a ta r dichas m arcas a rb itra ria s com o u n a escala
d e in terv alo , p o rq u e sólo son dos. Si se añ a d ie ra u n a te rc era
categoría, ello y a n o sería posible, sin em bargo, y a que en tal
caso sería necesario d eterm in a r la posición exacta de dicha ca­
teg o ría e n relación con las de las o tra s dos. Lo q u e aq u í decim os,
en efecto, es que n o es necesario h ac er u n a distinción e n tre es­
calas nom inales, o rdinales y d e intervalo en el caso de u n a dico­
tom ía, ya que el p ro b lem a de c o m p arar distancias e n tre m arcas
n o se p la n te a nunca.
Tenem os así u n a población com puesta p o r e n te ro de unos y
ceros. E s é sta u n a d istrib u ció n bim odal, d e casos concentrados
todos ellos en un o d e lo s dos puntos, que ciertam en te n o es n o r­
m al. P ero sabem os que, si N es suficientem ente grande, la dis­
trib u ció n de m u estreo de las m edias de las m u estras será aproxi­
m ad am e n te ATor(ji, a2 / M) , independientem ente de la fo rm a de
la población. Todo lo que h ay que hacer, pues, es averiguar la
m ed ia y la desviación e stá n d a r de esa población d e unos y ceros.
Pongam os q u e p u re p re s e n ta la p ro p o rció n de varones en la
p o blación y qu la p ro p o rció n d e hem bras, en la s que la u sub­
índice in d ica que tra ta m o s de la población universal. Con o b jeto
d e o b ten er la m edia de los unos y los ceros de ésta, sum am os
sim p lem en te los valores y dividim os e n tre el n ú m ero total d e ca­
sos. E l n ú m ero de unos será así el n ú m ero to ta l de casos m u lti­
p licad o p o r la p ro p o rció n de varones. In d ep en d ien tem en te del
n ú m ero d e ceros, la contribución de éstos a la sum a será cero.
P o r lo tan to , la m edia de la población s e r á :
M pu
en donde M re p resen ta la m agnitud de la población (en cuanto
d istin ta de la m agnitud N de la m u e stra ). E n consecuencia, la
m edia de cierto núm ero de unos y ceros es exactam ente la pro­
porción de unos. E n v irtu d de u n razonam iento sim ilar, X = p s,
en donde p 8 re p resen ta la p roporción de varones en la m uestra.
S irviéndonos de la fó rm u la general de la desviación están d ar,
podem os d em o strar que a = \ f p uqu. Si em pleam os los sím bolos
de los p arám etro s de población, la fó rm u la de a se tran sfo rm a
en:
I 31
S ( X « - f i )2
. =
\ -
M
í M
^ ¡ ^ ( X { - Pu)2
*
M
O bservando el n u m era d o r de la cantidad debajo del radical, ve­
m os que h a b rá sólo dos tipos de cantidades que rep resen ten las
desviaciones cu ad rad as de la m edia p u. P ara cada m arc a de uno,
la desviación cu a d rad a resp ecto de la m edia será de ( I — p u)2, y
p a ra cada cero será de (0 —p u)‘2. Como q u iera que en la sum a
de cuadrados h a b rá M pu unos y M qu ceros, ten em o s:
_ J M pu( 1 - p j 2 + M qu(0 - p u )2 _ J M puq u2 + M qup u2
°
1
M
M
Si de cada térm in o del n u m era d o r ponem os M puqu en factor, ob­
tenem os :
V
M pvqv
M puqu(q u +p „ ) _ J
M
~ V
M
* PuQu
Obsérvese, de paso, q u e M se elim ina ta n to e n la fó rm u la de ^
com o en la o, la m edia y la desviación e stá n d a r d e la población
so n independientes de la m ag n itu d re al de la población.
P o r lo tan to , podem os servim os del teorem a del lím ite central
p a ra o b te n e r:
v;
PuQu
°x = Gp* '
N
en donde el sím bolo cPl indica que operam os con el e rro r están­
d a r de las p roporciones de la m u estra. E n n u e stra nueva term i­
nología, p s su stitu y e a X , pu sustituye a ¡i, y aPt sustituye a c - en
la fó rm u la de Z. Así, p u e s :
M*
Oj
P&
Pu
y/PuQu/N
O bsérvese que au n q u e parezca que tengam os u n a fó rm u la to ta l­
m en te d istin ta de la an terio r, no hay e n é s ta e n realid ad n ad a
nuevo, excepto u n cam bio de sím bolos. E sto es así p o rq u e
hem os estad o en condiciones de d em o strar que las proporciones
pu ed en tra ta rs e com o casos p artic u la res de las m edias. Conviene
recalcar, con todo, que la ley de los grandes núm eros re q u ie re
q u e N sea grande, con o b jeto de p o d er serv im o s de la aproxi­
m ación norm al. C uando N sea pequeña, la binom ial co n stitu irá
u n a p ru e b a m ás apropiada.
*
E xiste u n a relación estre ch a e n tre esta p ru eb a, relativa a las
p ro p o rcio n es, y la d istrib u ció n binom ial. Y a se h a indicado que
si N es grande, y si N p > 5, en donde p < q, podrem os, m ed ian te
u n a d istrib u ció n n orm al, aproxim am os a la d istribución bino­
m ial. Es cierto que en el caso de la d istribución binom ial u tili­
zam os cifras de éxitos, m ás que proporciones.
E l v alor esp erad o del n ú m ero de éxitos re su lta se r N p, y la
desviación e stá n d a r del n ú m ero de éxitos es y /N p q . P a ra con­
v e rtir cad a u n o de ellos e n proporciones podem os dividirlos e n tre
N, obten ien d o p com o v alor esperado, y
p a ra la desviación e stá n d a r. Así en el caso de m u estras grandes
p o d ríam o s h a b e r fo rm u lad o u n p roblem a binom ial en fo rm a de
p ro p o rcio n es, cam biando n u estro s sím bolos a p„ y qu y tra ta n ­
do el p ro b lem a de acuerdo con los procedim ientos señalados en
e ste m ism o capítulo. P o r ejem p lo : en el caso de u n a p ru e b a de
signo p o dríam os h a b e r utilizado la hipótesis n u la de que p u =
.5, co m p aran d o este v alor con la p roporción de éxitos p 8 que se
halló en la m u estra.
Problem a. El lecto r e stá in teresad o en a p re c ia r el p ro g ram a de
u n a agencia de asistencia social individual y h a ex traíd o u n a
m u e stra al azar de 125 casos de su archivo. Se h a en contrado
q u e el p o rc en taje de los casos favorables es de 55, en co m p ara­
ción con la n o rm a del 60 p o r ciento. ¿Puede sacarse de ello la
conclusión que el éxito de la agencia en cu estió n queda p o r de­
b a jo de la no rm a?
1. Form ulación de supuestos.
N ivel de m edición: escala nom inal dicotóm ica
M o d elo : m u estreo al azar
H ip ó te sis: pu = .60
E ste ejem plo es deliberadam ente sem ejan te al an terio r, con
o b jeto de p o n er de relieve la diferencia e n las unidades del análi­
sis. Aquí, en efecto, se estu d ia u n a sola agencia, y la m u e stra es
de clientes, que constituyen éxitos o fracasos. E n el ejem p lo de
an tes, las u n idades seleccionadas era n las agencias y no los clien­
tes, y la m edida de cada agencia consistía en el porcentaje de
casos favorables. O bsérvese que n o se re q u ie re m ás supuesto
acerca de la población que la hipótesis, ya que se supone im plí­
citam en te que aquélla es bim odal.
2. O btención d e la distribución de m uestreo. La distribución
de m u estreo será aproxim adam ente norm al, ya que N es grande.
3. E lección de nivel de significación y región crítica. E n gracia
a la variedad, elijam os u n nivel de .02 y u n a p ru e b a de u n a sola
cola.
4. Cálculo de la estadística de la prueba. Calculam os Z de la
siguiente fo rm a :
Pe — Pu
-55 — .60
—.05
Z = ——— ——- = --------------------------- = ------------= -1 .1 4
y / p uq J N
V [(-6 ° )(.4 0 )]/1 2 5
.0438
O bsérvese que en el denom inador se em plean p„ y qu con prefe­
re n cia a p s y qs. E n el caso de que el lecto r se viera inclinado a
servirse de t en lu g ar de Z, observe que en la hip ó tesis de p u el
v alo r de a está determ in ad o p o r la fó rm u la o = V íW «5. Decisión. Del cu ad ro n o rm al p u ed e verse q u e u n a Z de
—1.14 o m enos o c u rriría aproxim adam ente el 13 p o r ciento de las
veces p o r azar, si los supuestos fu e ra n ciertos. E n consecuencia,
n o descartam os la hipótesis al nivel de significación de .02. So­
b re la base de los dato s disponibles, n o se d eja estab lecer que la
agencia se halle p o r d eb ajo de la norm a.
Glosario
Teorema del límite central
Distribución rectangular
Error estándar
Distribución t
E
jercicios
1. Sirviéndonos del cuadro de números al azar del cuadro B del Apén­
dice 2 (véase sece. XXI.l para la explicación del empleo de dicho cua­
dro), elíjanse 10 muestras, de magnitud 4 cada una, de la población
de los 65 cosos dados en ol ejercicio 1 del capítulo iv. Calcúlese la
media de cada una de esas 10 m uestras y obténgase la desviación es­
tándar de estas 10 medias. Se tiene ahora una apreciación bruta y
ligeramente distorsionada del error estándar de la media. ¿Cómo se
presenta la cifra obtenida en comparación con el error estándar
conseguido sirviéndonos del teorema del límite central y empleando
para ello la desviación estándar calculada en el ejercicio 2 del capí­
tulo vx?
*
2. Verifiqúese la distribución de selección de la media de tres gol­
pes de dados del diagrama de la figura XI.5.
3. Una m uestra de magnitud 50 tiene una media de 10.5 y una des­
viación estándar s de 2.2. Verifiqúese la hipótesis de que la media de
la población es de 10.0 sirviéndose: a) de una prueba de una sola cola
al nivel de .05, y b) de una prueba de dos colas al nivel de .01. Hágase
lo mismo con muestras de tamaños 25 y 100 y compárense los resulta­
dos. Respuesta, para N = 50, t = 1.59; sin rechazo para a) y b).
4. Supóngase sabido que el ingreso medio anual de trabajadores que
en una fábrica trabajan en la línea de ensamble es de $7 000 con
una desviación estándar de $900. El lector sospecha que los trabaja­
dores sindicalmente activos obtendrán ingresos superiores al promedio,
y tom a una m uestra aleatoria de 85 de dichos miembros activos, obte­
niendo una media de $ 7 200 y una desviación estándar de $ 1000. ¿Pue­
de decirse que los miembros activos del sindicato tengan ingresos
notablemente superiores? (Empléese el nivel de ;01.) Respuesta Z =
2.05; no rechazar.
5. Se ha establecido una lista de 200 residentes de una localidad,
en edad de voto, y se ha encontrado que de dos candidatos a un cargo
el candidato A obtuvo el 54 por ciento de los votos seleccionados.
¿Existe fundamento para suponer que A ganará? Empléese el nivel de
.05. Enumérense todos los supuestos que hay que formular. Respuesta,
Z = 1.13.
6. Supóngase que se ha normalizado una prueba de medición de los
"deseos de uniformidad” de estudiantes universitarios en todo el
país. El 50 por ciento de los estudiantes tenía puntuaciones brutas
de 26 o más (las puntuaciones altas indicando deseos mayores de uni­
formidad). Sospechando que estos deseos serán por lo regular más
grandes en el caso de adultos sin instrucción universitaria, un soció­
logo extrae una m uestra aleatoria de adultos de 25 años o mayores,
residentes de su localidad. Encuentra: 1) que el 67 por ciento de los
257 adultos sin instrucción universitaria m uestran m arcas de 26 o más
altas, y 2) que el 59 por ciento de 80 adultos de instrucción universi­
taria presentan marcas dentro de dicho margen.
a) ¿Puede deducir que las m arcas de cada grupo de adultos en la
localidad son significativamente más altas que las correspondientes a
los estudiantes universitarios, cuya prueba ha sido estandarizada?
(utilícese el nivel .001).
b) Supóngase que el sociólogo conoce la distribución exacta entera
de las m arcas de los estudiantes universitarios de la prueba. Sobre
la base del m aterial del presente capítulo, indíquense algunos proce­
dimientos alternativos para verificar el significado de las desviaciones
de los dos grupos de marcas de los adultos respecto de las marcas
normalizadas. ¿Requieren dichos procedimientos alternativos algunos
supuestos adicionales? Expliqúese.
B ibliografía
1. Freund, J. E.: Modern Elementary Statistics, 3? ed., Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1967, caps. 9 y 11.
2. Hagood, M. J., y D. O. P nce: Statistics for Sociotogists, Henry Holt
and Company, Inc., Nueva York, 1952, caps. 15 y 16.
3. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 10.
4. Wallis, W. A., y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, caps. 11 y 13.
H asta aquí el exam en de la inducción estad ística sólo h a trata d o
de la verificación de hipótesis. A parte de ello puede tam bién
h a b e r in terés en la estim ación de p arám etro s de población, y
a este tem a se dedica el p resen te capítulo. Después de exami­
n a r los principios que la estim ación com porta, procederem os
a e stu d iar las relaciones existentes e n tre las verificaciones de
las estim aciones y las hipótesis. Exam inarem os en dicho m o­
m en to las m odificaciones que req u ieren p a ra ello la distribución
t y las proporciones. Finalm ente, estudiarem os la cuestión gene­
ra l de la determ in ación del tam año de la m u estra, ilu stran d o el
pro b lem a m ed ian te procedim ientos de estim ación.
E n los dos capítulos precedentes, el lecto r h a b rá observado
que en cierto nú m ero de problem as prácticos la verificación de
las hipótesis es im practicable, p o rq u e n o estam os en condiciones
de co n c retar algún valor hipotético determ inado p a ra el p arám e­
tro , p o r ejem plo, (i. V am os a ver ahora en qué form a los p ro c e ­
dim ientos de estim ación pueden p ro p o rcio n ar en tales casos una
altern ativ a m uy ú til de las pruebas reales. P or o tra p arte, el so­
ciólogo pued e ev entualm ente ten er m ayor in terés en las estim a­
ciones q ue en las verificaciones de hipótesis. Así, p o r ejem plo, en
u n a en cu esta el objetivo práctico del estudio puede consistir
en estim ar lji p ro p orción de personas que consum en u n d eterm i­
nad o p ro d u cto o que votan en u n as elecciones. O puede se r n e ­
cesario e stim ar el ingreso m ediano en u n a región, o el núm ero
m edio de hijos p o r m atrim onio. Sin duda, las pruebas de hipó­
tesis concretas p u ed en rev estir cierta u tilid ad en tales casos,
p e ro la estim ación constituye, con todo, el procedim iento m ás
obvio.
H ay b ásicam ente dos clases de estim ación, a saber, la estim a­
ción del p u n to y la estim ación del intervalo. E n la p rim e ra de
ellas nos in tere sa el m e jo r valor singular que pu ed a utilizarse
p a ra ap reciar u n p arám etro . Así, p o r ejem plo, podem os ap reciar
que el ingreso m edio en la ciudad de Nueva Y ork es de $ 8 500.
Sin em bargo, p o r lo re g u la r querem os o b te n e r tam bién alguna
idea acerca de cuán exacta sea n u e s tra estim ación. N os g u staría
p o d er an ticip ar q u e el p arám etro se sitú a en algún lu g ar de un
in terv alo determ inado, o a u n lado u o tro de la estim ación del
p u n to . Así, p o r ejem plo, podem os q u e re r fo rm u lar u n enunciado
p o r el estilo de "el ingreso m edio en la ciu d ad de Nueva Y ork se
sitú a e n tre $ 8 000 y $ 9 000". E stos dos tipos de estim ación
se exam inan en las secciones que siguen a continuación.
E l p ro b lem a relativ o a cuál estad ística d eb a em plearse como
estim ación de u n p a rá m e tro parece s e r ab so lu tam en te obvio y
c o n stitu ir m a te ria de sentido com ún. E n efecto, si se q u iere es­
tim a r la m ed ia (o la m ed ian a o la desviación e s tá n d a r) de una
población, ¿ p o r qué n o servirse d e la m edia (o la m ediana o la
desviación e s tá n d a r) de la m uestra? Pese a que en tales casos el
sen tid o com ún n o nos p ro p o rcio n aría resu ltad o s dem asiado abe­
rra n te s, verem os, con todo, q u e el p ro b lem a n o es ta n sencillo
com o p arece. O bviam ente, podríam os a p reciar la m ed ia de u n a
p oblación en cierto n ú m ero de m an eras distin tas. E n efecto,
adem ás de la m ed ia de la m u estra, podríam os servirnos de la
m ed ian a o del m odo, o p odríam os u tiliza r u n n ú m ero situado' en
m edio de dos valores extrem os, o podríam os u tiliza r com o estim a­
ción el v alo r de la observación decim otercera. Algunos de esos
procedim ientos serían m ejo res que otros. N ecesitam os, p o r con­
siguiente, criterio s que nos p erm itan a p reciar el grad o de bondad
de cada clase de estim ación. E l sociólogo, q u e se sirve de las esta­
dísticas com o de u n in stru m en to aplicado, ra ra vez n ecesita p re­
o cu p arse p o r sem ejantes criterios. P o r lo regular, en efecto, sólo
se le dice que se sirva de u n a estim ación d eterm in ad a. No obs­
tan te, vale la p e n a sab e r p o r lo m enos d e cuáles criterio s se sirve
el m atem ático al decidir cuál estim ación deba em plearse. Dos
de los criterio s m ás im p o rtan tes del m atem ático son el sesgo
( b ia s) y la eficiencia. Vam os a exam inarlos uno p o r uno. E n re ­
lación con o tro s criterio s, tales com o la suficiencia, la consisten­
cia y el p rin cip io de la m áxim a p robabilidad, el le c to r h a de
re c u rrir a textos m ás avanzados.
Sesgo. Se dice de u n a estim ación q u e n o es sesgada si la m edia
de su d istribución de m u e stre o es exactam ente igual al valor del
parám etro que se aprecia. E n o tro s té rm in o s : el v alor esperado
a la larg a de la estim ación es el p a rá m e tro m ism o. O bsérvese
q u e n ad a se dice aquí acerca del v alor de cualquier re su ltad o de
alguna m u e stra p artic u la r. De acu erd o con esta definición, X es
u n a estim ación sesgada de jj,, ya que la distribución de m u estreo
de X tien e a ¡x com o m edia o v alor esperado. E sto no significa,
sin em bargo, q u e podam os e sp e ra r que algún valor p a rtic u la r
cu alq u iera de X sea igual a
ni sab rem o s nunca, en cualquier
p ro b lem a reíd, si la m edia de n u e s tra m u e stra co rresp o n d e o no
d e hecho a la m ed ia de la población. H ay que te n e r p resen te
que el térm in o sesgo, ta l com o aq u í se em plea, se refiere a los
resu ltad o s a la larga. E n la investigación p ráctica, en cam bio,
el lecto r pued e e s ta r a c o stu m b ra d o a servirse del térm in o p ara
re ferirse a las p ropiedades de la m u e stra p a rtic u la r q u e haya
extraído.
Ya se dijo e n el cap ítu lo a n te rio r q u e la desviación están d a r
5 de la m u e stra es u n a estim ación ligeram ente sesgada de o . La
estad ística s tien e u n a distrib u ció n de selección, lo m ism o que
la tien e X . E n o tro s térm in o s, las desviaciones e stá n d a r de la
m u e stra esta rá n d istrib u id as alred ed o r de las desviaciones e stán ­
d a r de la población real, del m ism o m odo e n q u e las m edias de
las m u estras se d istrib u y en alre d ed o r de ja. S in em bargo, p u ed e
d e m o stra rse m atem áticam en te que la m edia de la distribución
d e m u estreo de s 2 es [Af — l/AHcr2, y n o o2. P o r consiguiente, s 2
es u n a estim ació n sesgada de a2. P ara h a lla r u n a estim ación no
sesgada de o2, tom am os la can tid a d :
N
N
S ( X t ~ X )2
4=1
N - l
N - l
N
-------- 52 = -----------------------------I ( X t - X )2
«=i
Como q u iera q u e la d istrib u ció n de m u estreo de s2 es [ N —l / N ] o 2
vem os q u e a 2 tiene u n a distribución de m u e stre o de m edia exac­
tam en te igual a :
N
[/
N -l
\
1
Si b ien la razón b ásica d e p o r qué sea a 2 (y n o s2) la estim a­
ción n o sesgada es que los m atem áticos o p e ra n en esta form a,
a v ec es; con todo, se da de ello u n a explicación in tu itiv a e n té r­
m in o del concepto de los grados d e libertad, térm in o q u e será
u sad o en capítulos p o sterio res. El n ú m ero de los grados de
lib e rta d es igual al nú m ero de cantidades desconocidas m enos el
n ú m ero d e ecuaciones independientes que ligan esta s incógnitas.
E l lecto r re co rd a rá que, con o b jeto de llegar a u n a solución única
de u n sistem a de ecuaciones algebraicas sim ultáneas, se necesi­
tab a el m ism o n ú m ero de ecuaciones que de incógnitas. Así, pues,
p a ra p o d er resolver en relación con X , Y y Z se necesitan tre s
ecuaciones que liguen e n tre sí estas variables. Si sólo se tuvie­
ra n dos ecuaciones, entonces se p o d ría asig n ar a alguna de las
variables, p o r ejem p lo Z, cu alq u ier valor q u e se nos an to jara.
Los valores de las o tra s dos variables p o d rían entonces se r d e te r­
m inados m ed ian te las dos ecuaciones sim ultáneas. Si se tu v ieran
cinco incógnitas y sólo tre s ecuaciones p o r reso lv er sim ultánea­
m ente, entonces se p o d rían asig n ar valores a rb itra rio s a dos
cualesquiera de las incógnitas, y los valores de las dem ás incóg­
nitas estarían determ inados. E n este caso tendríam os dos grados
de libertad, ya q ue podem os a trib u ir lib rem en te valores a dos
variables cualesquiera.
Al calcular u n a desviación e stá n d a r de valores de la m uestra,
hem os de servirnos de u n a ecuación que ligue las N variables X
F ig .
X II.l. Comparación de las distribuciones de m aestreo de
una estim ación sesgada, con alta eficacia, y una estim ación no
sesgada, de eficacia m enor
N
_
a la m edia de la m uestra, o sea la ecuación 2 X J N — X . Dado
_
<=i
el valor de X , podem os a trib u ir valores a rb itra rio s a N — 1 de
las X (, y la ú ltim a de éstas e sta rá determ inada p o r la ecuación.
Como q u iera que hem os perdido u n grado de lib e rta d al deter­
m in ar el valor de la m edia de la m u estra alrededor de la cual se
han tom ado desviaciones, p a ra o b ten er n u e stra estim ación no
sesgada de a2 hem os de dividir e n tre N — 1 en lugar de N. Si el
lector p refiere p en sa r en esta form a, puede considerar que hem os
aju stad o ligeram ente el núm ero de casos, con o b jeto de com pen­
sa r p o r el hecho de que hem os tom ado desviaciones resp ecto de
la m edia de la m u estra y no de la m edia de la población verda­
dera. E sencialm ente, al calcular la m edia de la m u estra, hem os
despreciado un caso. Se verá que las estim aciones no sesgadas
n o obtienen frecu entem ente d iv id ien d o 'en tre los grados de libertuü, m ejor que dividiendo e n tre el nú m ero to tal de casos.
I', f ¡ciencia. La eficiencia de u n a estim ación se refiere al grado
en que la distribución de m uestreo está agrupada alrededor del
verdadero valor del parám etro. Si la estim ación no está sesgada,
dicho u gnipam iento puede m edirse p o r medio- del e rro r están d a r
de la estim ació n : cuanto m en o r sea el e rro r están d ar, ta n to m a­
yor es la eficiencia d e la estim ación. La eficiencia siem pre es
relativa. Ninguna estim ación puede se r to talm en te eficiente, ya
que esto im plicaría que no existía e rro r de m u estreo alguno. Sin
em bargo, podem os c o m p arar dos estim aciones y decir que u n a
de ellas es m ás eficiente que la otra. Supóngase, p o r ejem plo,
q ue tenem os u n a población norm al. E n e ste caso, el e rro r están ­
d a r de la selección al azar es a / y / N . Si p a r a ap re c ia r la m edia
de la población se u tilizara la m ediana d e la m u estra, entonces
el e rro r e s tá n d a r de la m ediana sería de 1.253 o / y / Ñ ,1 p a ra m ues­
tra s al azar. P o r lo tan to , ya que el e rro r e stá n d a r de la m edia
es m ás peq u eñ o que el de la m ediana, la m edia es la estim ación
m ás eficiente. É sta es, p o r supuesto, la razón d e que p o r lo r e ­
g u lar se u tilice la m edia con preferen cia a la m ediana, incluso
cuando, com o en el caso d e u n a población norm al, su m edia y
su m ed ian a son idénticas. Decimos que la m ed ia está m enos
su je ta a las fluctuaciones de la m u estra o, en o tro s térm inos, que
es m ás eficien te.2
De los dos criterios que acabam os de exam inar, el de la eficien­
cia es el m ás im p o rtan te. Si dos estim aciones tienen el m ism o
grado de eficiencia, escogerem os, p o r supuesto, la que esté m enos
sesgada. É sta es la razón de que se u tilice a con preferen cia a s.
E n cam bio, u n a estim ación eficiente lig eram en te sesgada será
p referib le a o tra no sesgada p e ro m enos eficiente. Un sim ple
d iagram a ay u d ará a co m p ren d er el p o rq u é d e ello. E n la figu­
ra X II.l, la curva p u n tiag u d a ligeram ente sesgada sería p re fe ri­
ble, ya que, pese a que a la larg a p ropenderíam os a su b estim ar
el p a rá m e tro en u n a peq u eñ a cantidad, tenem os con todo m ayor
p ro b ab ilid ad , en el caso de u n a p ru e b a dada, de o b ten er u n a es­
tim ación de la m u e stra relativ am en te vecina del p arám etro . El
hecho de que sepam os que a la larg a las estim aciones se irán
p ro m ed ian d o hacia la cifra co rrecta no nos sirve de gran con­
suelo si, en relación con u n a m u estra d eterm in a d a cualquiera,
la aproxim ación tiene probabilidades de a p a rta rs e m ucho del
p arám etro .
XII.2. E stim a ció n del intervalo
El lecto r re co rd a rá que, cu an d o estu d iab a física elem ental, se le
in v itab a a p esa r u n pedazo de m ad era varias veces y a bu scar
luego el v alor m edio e in d icar el m argen de e r ro r posible. Así
pudo, p o r ejem plo, h a b e r indicado que el peso del pedazo de
1 Aquí la media y la mediana de la población serían idénticas.
2 No siempre es cierto que la media constituya la estimación más efi­
ciente, aunque para la mayoría de las poblaciones, sobre todo si la desvia­
ción respecto de la normalidad no es demasiado grande, sea efectivamente
así. Obsérvese que la cuestión acerca de la eficiencia relativa es totalmente
distinta de la cuestión acerca de cuál medida sea la medida descriptiva más
apropiada de la tendencia central. Esta última, en efecto, sólo se refiere
al problema de hallar la medida singular mejor para representar los datos
de la muestra.
m ad era era de 102 ± 2 gram os, significando que consideraba que
el peso verd ad ero se situ ab a en algún lugar e n tre 100 y 104 gra­
m os. Al p ro ced er así, el lecto r ad m itía la posibilidad de e rro r
de la m edición e indicaba qué grado de confianza ten ía en la
ex actitu d obtenida. Pese a que en dicho m om ento n o se llam ara
expresam ente su atención al respecto, el lecto r tam b ién h ab ría
ad m itido que no estab a absolutam ente cierto que el verdadero
v alor estu v iera com prendido en el intervalo obtenido. Sin em ­
bargo, si éste se h u b iera am pliado, aquél h a b ría estad o m ás se­
g u ro de que sí e sta b a com prendido en el nuevo intervalo. Así,
p o r ejem plo, h a b ría estado p rácticam en te seguro de q u e el valor
v erdadero h ab ía de situ arse e n tre 98 y 106 gram os, y se h ab ría
ju g ad o h a sta el últim o centavo en favor de que se en co n trab a
e n tre 2 y 202 gram os. Al o b ten er apreciaciones de intervalo en
relación con p arám etro s, hacem os esencialm ente lo m ism o que
hace el físico, con la diferencia que estarem os en m ejores con­
diciones de estim ar la probabilidad exacta de erro r.
E l p rocedim iento efectivo em pleado p a ra o b ten er u n a estim a­
ción de intervalo, o lo que se designa com o intervalo de confian­
za, es m uy sencillo y n o co m p o rta idea básica realm en te nueva
alguna. E stablecerem os p rim ero sim plem ente cóm o el intervalo
se obtiene, p rocediendo luego a exam inar p o r qué se construye de
este m odo. Se decide p rim ero acerca del riesgo de e rro r que
se está d ispuesto a asu m ir al a firm a r que el p arám etro se sitúa
en algún p u n to al in te rio r del intervalo si e n realidad no es así.
Digam os q ue se decide e s ta r dispuesto a a d m itir que se está
equivocado el .05 de las veces, lo q u e suele designarse com o in­
tervalo de confianza del 95 p o r ciento.8 El intervalo se obtiene
ap artán d o se en am bas direcciones de la estim ación del pu n to
( v.gr. la m edia de la m u e stra ) cierto m ú ltip le de erro res e stán d a r
co rrespondiente al nivel de confianza elegido. Así, p o r ejem plo,
p a ra ap reciar la m edia de la población, obtenem os u n intervalo
com o sigue (sirviéndonos del nivel de 95 p o r cien to ):
X ± 1.96 (í- = X -± 1.96 — —
X
__
yJN
en donde 1.96 co rresponde a la región crítica de la curva norm al,
sirviéndonos del nivel de .05 y de u n a p ru eb a de dos colas. Si
X — 15, a = 5, y N = 100, el in terv alo de confianza sería :
5
15 ± 1.96------------ = 15 ± 0.98
V io c T
3 Obsérvese que en el caso de intervalos de confianza nos referimos a la
unidad menos la probabilidad de error. Esto indica que tenemos “confian­
za” de estar en lo cierto el 95 por ciento, por ejemplo, de las veces.
E n o tro s térm in o s: el intervalo iría de 14.02 a 15.98.4
Con o b jeto de in te rp re ta r los intervalos obtenidos con dicho
m étodo, necesitam os volver a lo que sabem os acerca de la d istri­
bución de m uestreo, en este caso la de la m edia. Supongam os
que tenem os u n a distribución de m u estreo n orm al con u n a m e ­
dia de ¡i y u n a desviación e stá n d a r de a / \ / N . P ara n u estro s proM
F ig .
XII.2. Comparación de intervalos de confianza con la d istri­
bución. d e ¡muestreo de la m edia, m o strando p o r q u é los inter­
valos de confianza del 95 por ciento com prenden jx
el 95 p o r ciento d e tas veces
p ó sitos hay dos clases de m edias de u n a m u estra, a sa b e r: 1 )
las q ue no caen en la región crítica, y 2 j las que sí caen en ella.
S upongam os p rim ero que hem os obtenido u n a X ( X x de la figu­
ra X II.2 ) q u e n o cae en la región crítica. Sabem os que u n a X
sem ejan te h a d e q u ed ar en el in terio r de_1.96 o-j de [i. Si pone­
m os u n in terv alo a am bos lados de esta X , ap artán d o n o s de ella
en 1.96 o j en am bas direcciones, debem os c ru zar fre n te a fx, la
m edia de la d istrib u ció n de m uestreo, ta n to si X está a la derecha
com o a la izquierda de jx. Y en fo rm a análoga, si la X o b tenida
queda al in te rio r de la región crítica (véase X 2 en la figura X II.2),
entonces esta X qu ed ará a m ayor distancia de 1.96 erro res es­
tá n d a r de la (x, y el intervalo d e confianza n o llegará h a sta ésta.
P ero sabem os tam bién q u e el 95 p o r ciento d e las veces o bten­
d rem o s X que n o caen en la región crítica, y sólo u n 5 p o r ciento
de las veces X que caen en ella. En o tro s té rm in o s : sabem os que
sólo un 5 p o r ciento de las veces obtendrem os con este procedi­
m ien to intervalos que no com prendan el parám etro (v.gr. fx). El
95 p o r ciento re sta n te de las veces el procedim iento nos d ará
4 Estos puntos terminales del intervalo se designan a menudo como
tes de confianza.
lími­
m edias de u n a m u e stra lo suficientem ente vecinas del p arám etro
p a ra que los in terv alo s de confianza obtenidos com prendan efec­
tivam ente a éste.
Al in te rp re ta r los intervalos de confianza conviene te n e r p re ­
sentes las siguientes advertencias. El estu d ian te p rin cip ian te tien­
d e a servirse de frases vagas p o r el estilo de “tengo u n 95 p o r
xz
f3
¿4
*5
*6
*1
-*3
■*10
F ig. XII.3. Distribución de intervalos variables de confianza con
respecto a un valor fijo del parám etro u,
ciento de confianza en que el intervalo contiene el p arám etro ",
o bien “la p ro b ab ilid ad de que el p a rá m e tro quede en el in terio r
del intervalo es de .95”. Al hacerlo así puede n o darse cuenta
cabal de que el p a rá m e tro es u n v alor fijo y que son los interva­
los los que v arían de u n a m u estra a o tra. De acuerdo con nues­
tr a definición de la probabilidad, la p ro b ab ilid ad de que el p ará­
m etro quede en el in te rio r de u n intervalo determ inado cual­
q u iera es cero o uno, ya que el p a rá m e tro está o n o está en el
in terio r del in terv alo obtenido. Un sim ple diagram a indicando
el v alo r fijo del p arám etro , en este caso ¡x, y la variabilidad de
los intervalos ay u d ará a co m p ren d er m ás claram en te la in te rp re ­
tación co rrecta. La figura X II.3 pone de m anifiesto que n u estra
confianza está m ás bien en el procedim iento utilizado que en
algún intervalo cualquiera. Podem os decir que el procedim iento
es tal que, a la larga, el 95 p o r ciento de los intervalos obtenidos
co m p ren d erán el v erd ad ero p arám etro (fijo ). E l lecto r h a de
g u ard arse de concluir o su poner que el in terv alo p a rtic u la r o bte­
n ido posee alguna p ro p ied ad especial que n o poseen o tro s in te r­
valos com parables obtenidos de o tra s m u estras. Algunas veces
se afirm a que, si se e x tra je ra n m u estras reiterad as, el 95 p o r
cien to de las veces las m edias de estas m u estras caerían e n el
in te rio r del in tervalo de confianza que se h a calculado (p o r
ejem plo, 15 ± 0.98). E sto im plica, p o r supuesto, que la X obtenida
en la m u estra del investigador es igual exactam ente a [i o es,
p o r lo m enos, u n a aproxim ación m uy cercana a ¡i. E n realidad,
sin em bargo, el intervalo p a rtic u la r obtenido puede ser tal que
sólo u n as pocas X caigan en su in terio r. N u e stra confianza, com o
sucede siem pre en la inducción estadística, no está en algún re ­
su ltad o p a rtic u la r cualquiera de la m u estra, sino en el procedi­
m ien to em pleado.
E s posible p o n er el riesgo de e rro r a cu alq u ier nivel deseado,
sirviéndonos p a ra ello del m ú ltip le ap ro p iad o del e rro r están d ar.
Sin em bargo, el lecto r h a de o bservar que, al re d u cir el riesgo
d e e rro r, se au m en ta tam b ién necesariam ente la am p litu d del
intervalo, a m enos que se aum ente sim ultáneam ente el núm ero
de casos. C uanto m ás am plio sea el intervalo, ta n to m enos nos
dice acerca del p arám etro . D ecir que el ingreso m ediano de las
fam ilias de N ueva Y ork se sitú a e n tre $ 1 000 y $ 25 000 equivale
a p ro clam ar lo que to d o el m undo sabe. Así, pues, el investigador
se en fren ta a u n dilem a. Puede a firm a r que el p a rá m e tro se
sitú a en el in te rio r de u n intervalo m uy angosto, p ero la p ro b a­
b ilidad de e rro r será grande, o puede h acer u n a afirm ación m uy
vaga, con la seguridad v irtu al de e sta r en lo cierto. Lo que se
decida a h acer exactam ente dependerá del c a rá c te r de la situa­
ción. A unque convencionalm ente suelan em plearse intervalos de
confianza del 95 y el 99 p o r ciento, cabe in s istir en que dichos
niveles n ad a tienen de sagrado.
Intervalos de confianza y pruebas de hipótesis. Si bien el o b je ­
to explícito de p o n er intervalos de confianza de u n a estim ación
está en in d icar el grado de exactitud de ésta, los intervalos de
confianza constituyen tam b ién pruebas im p lícitas de u n a vasta
serie de h ip ó tesis.6 Son pru eb as im plícitas en el sentido de que
las hipótesis concretas n o se form ulan, sino q u e se hallan sim ­
plem en te im plicadas en aquéllos. E n efecto, en el intervalo de
confianza tenem os u n a p ru e b a im plícita de todo valor posible
de jí que pued a suponerse. L a figura X II.4 indica de qué m odo
los intervalos de confianza se relacionan con las pru eb as de las
hipótesis.
C oncentrém onos en el intervalo de confianza trazado alrededor
6 Conviene insistir en que, si bien la estimación de intervalo y la prueba
de hipótesis comportan ideas íntimamente relacionadas, constituyen, con
todo, procedimientos distintos.
de X . Supóngase que, en lugar de h a b e r obtenido sem ejan te in­
tervalo, hem os form ulado hipótesis a p ro p ó sito de varios valores
altern ativ o s de p, y hem os procedido a com probarlas. Supóngase,
p a ra m ayor sencillez, que el valor de a h a sido dado y que se ha
em pleado el nivel de significación de .05 y se utilizó u n a prueba
Fig. XII.4. Comparación de un intervalo de confianza del 95 por
sie n to con p ruebas de hipótesis al nivel de .05 m ostrando el no
rechazo d e la m edia hipotética \ilt q u e queda d en tro del intervalo,
y el descarte d e la jx2 hipotética, que queda fu era del intervalo
d e dos colas. S upóngase p rim ero que habíam os an ticip ad o hipo­
téticam en te u n v alo r com o el de ^ (fig u ra X II.4a), q u e se sitúa
efectivam ente al in te rio r del in terv alo de confianza en cuestión.
E n este caso, la m edia X de la m u e stra n o caería, m anifiesta­
m ente, en la región crítica, y la hipótesis n o se h a b ría descartado
a l nivel de .05. P o r o tra p a rte , si hubiéram os su puesto un v a
lo r al ex terio r del intervalo, ta l com o ^ (fig u ra X II.46), la dis­
tan cia e n tre la
d e la hipótesis y X sería m ayor que 1.96 o - ,
y esta segunda hipótesis se h a b ría descartado. E stá claro, pues,
que si supusiéram os valores hipotéticos de jx que se sitúan en
ajgún p u n to al in te rio r del in terv alo de confianza, n o d escarta­
ríam os dichas h ipótesis al nivel d e significación apropiado. Y si
supusiéram os valores de ji que quedan al ex terio r del intervalo,
sabem os que estas hipótesis se d escartarían .
Así, pues, h ab iendo o b tenido u n in terv alo d e confianza, pode­
m os d ecir a sim ple vista cuáles h a b ría n sido los resultados si
h u b iéram o s verificado las hipótesis. Si el c a rá c te r de n u estro
p ro b lem a fu e ra tal que n o se sugiriera hipótesis p a rtic u la r alguna
com o p referib le a las o tra s, entonces, obviam ente, la altern ativ a
p ráctica, en relación con u n a serie de pruebas, consistiría e n obte­
n e r u n solo in tervalo de confianza.6 El le c to r debería convencerse
p o r sí m ism o de que los ejem plos exam inados en el capítulo p re­
cedente p u d iero n h ab e rse tra ta d o con igual facilidad p o r el m é­
to d o del in terv alo de confianza.
S u p u esto s en relación con los intervalos de confianza. E l em ­
p leo de intervalos de confianza no nos lib era de la necesidad de
fo rm u la r supuestos ac erc a de la n atu ra leza de la población y del
m éto d o de m u estreo utilizado. B ásicam ente, los supuestos en el
caso de u n p ro b lem a de intervalo de confianza son los m ism os
q ue los que se req u ieren p a ra cualesquier pru eb as im plícitas,
con la diferencia d e que n o es necesario, p o r supuesto, suponer
u n v alo r hip o tético d eterm in ad o p a ra el p a rá m e tro que se estim a.
E n este tex to supondrem os siem pre el m u estreo aleatorio. P or
o tra p arte , si se em plea u n a distribución de m uestreo, hem os de
su p o n er u n a población n o rm al o de te n e r u n a m u e stra suficien­
tem en te grande. Si se em plea, en cam bio, u n a distribución t o
cu alq u ier o tra d istrib u ció n d e m u estreo , entonces h a b ría que
fo rm u la r los supuestos usuales req u erid o s en p ru e b as com pa­
rables.
X II.3. In terva lo s de confianza para otros tipos de problem as
H a sta aq u í el exam en de los intervalos de confianza sólo h a com ­
p re n d id o casos en los q u e el p a rá m e tro que se estim ab a e ra la
m edia de u n a población siendo 0 conocida. Si el p ro b lem a se
cam bia, las m odificaciones del p rocedim iento son obvias, y la
in te rp re ta c ió n b ásica de los intervalos de confianza y su relación
con las p ru eb as de las hipótesis siguen siendo las m ism as. El
in terv alo de confianza d e u n p a rá m e tro se o b tien e siem pre p r o ­
cediendo a u n a e stim ación del p a rá m e tro en cuestión e incluyén­
dolo en u n in tervalo cuya am plitud es función del e rro r está n d a r
d e la estim ació n .7
Si debido a n o conocerse a hay que servirse d e la distribución
t, re cu rrim o s sim plem ente a la estim ación del e rro r e stá n d a r
6 Debe observarse, sin embargo, que cuando probamos una determinada
hipótesis nula obtenemos un valor específico de probabilidad, tal corno
P = .032, lo que normalmente no obtendríamos en relación con un inter­
valo de confianza.
t En algunos casos, sin embargo, como en el de los intervalos de con­
fianza para coeficientes de correlación, la estimación del punto puede no
caer exactamente en el centro del intervalo.
y su stituim os el m ú ltip lo obten id o sirviéndonos del cu ad ro n o r­
m al p o r la cifra correspondiente del cu ad ro í. E n esta form a,
p a ra u n in terv alo d e confianza de 99 p o r ciento p a ra la m edia y
24 grados de lib ertad , ten d ría m o s:
X ± 2.797
= X ± 2.797
s
v w -i
Si en el ejem p lo de la sección XI.3 del capítulo a n te rio r se hubie­
r a operado con u n intervalo de confianza del 99 p o r ciento, el
re su ltad o h a b ría sido:
P or consiguiente, el intervalo de confianza del 99 p o r ciento va
de 45.15 a 58.85. Vemos que este re su ltad o concuerda con el que
se obtuvo p rev iam ente (esto es, .001 < p < .0 1), p o r cu a n to la ¡i
su p u esta d e 60 cae efectivam ente fu e ra del in terv alo calculado,
y sabem os, p o r lo tanto, que la hipótesis h a b ría debido descar­
ta rse al nivel de .01 (en u n a p ru e b a d e dos colas).
Y
en fo rm a análoga, podem os o b ten er intervalos de confianza
p a ra las p ro p o rciones. E n efecto, su stituyendo X p o r p s y a /y J Ñ
p o r V Puq J el intervalo de confianza del 95 p o r ciento se ría :
Nos encontram os aquí con u n a dificultad que no se p re sen tab a
cuando p o día an ticip arse p a ra p u u n valor determ inado. En efec­
to, com o q u iera que obviam ente p u n o será conocido, se hace
n ecesario ap reciar el e r ro r e stán d a r. Pueden recom endarse a tal
o b jeto dos p ro cedim ientos sencillos, u n o de los cuales es m ás
conservador que el o tro .8 E n p rim e r lugar, to d a vez que la m ag­
n itu d de la m u e stra h a de se r gran d e p a ra ju stific a r el uso de
las tablas norm ales, p s co n stitu irá p o r lo re g u lar u n a apreciación
razonablem ente b u en a d e p„. P o r consiguiente, si sustituim os
sim plem ente p a p o r p u (y qs p o r qu), podem os o b ten er u n in te r­
valo que p o r lo reg u lar será b a sta n te p arecido al correcto. Así,
p o r ejem plo, en el caso d e la sección XI.4 del cap ítu lo precedente
8 Para un tercer método algo más preciso véase p. 244.
h ab ríam o s o btenido el intervalo de confianza del 98 p o r ciento
de la m an era siguiente :
p , ± 2.33 \ l J ™ ! - = .55 ± 2.33 t i - - - - " N
*
125
= .55 ± 0.1037
Si alguien siente preocupación en u tiliza r u n a estim ación del
e rro r e stán d a r sin co rreg ir en alguna fo rm a el e rro r adicional de
m uestreo in tro d u cid o de este m odo, p u ed e servirse de u n m étodo
m ás conservador p a ra o b ten er el intervalo. E n efecto, com o quie­
ra q ue el p ro d u c to pq alcanza u n valor m áxim o p a ra p = q = .5,
síguese que el in tervalo de confianza m ás extenso posible se ob­
te n d rá sirviéndose del v alor .5 com o estim ación de p „.9 T oda vez
que p o r lo reg u lar se desea u n intervalo angosto, nos co m porta­
m os cau tam en te al o b ten er u n intervalo que es todo lo grande
q u e p u ed a ser, in dependientem ente del v alo r de p u. Sirviéndonos
de este m étodo m ás conservador, obtenem os u n intervalo algo
d istin to , a sab e r:
O bsérvese que este segundo intervalo es sólo ligeram ente m ás
ancho que el p rim ero. S iem pre que .3 < p < .7, los dos m étodos
d a rá n ap ro x im ad am ente los m ism os resultados.
*
Si p s re su lta se r m uy grande o m uy pequeño, el m étodo con­
serv ad o r pu ed e d a r u n intervalo que sea m uy am plio. Si alguien
sien te p reocupación en u s a r el p rim e r m étodo en el que p u es
e stim ad a p o r p s, es posible com binar los dos m étodos p a ra con­
seguir u n in tervalo m ás razonable que siga, con todo, siendo
conservador. E n ta l caso, nos servim os p rim ero del m étodo m ás
co n serv ad o r p a ra o b te n e r u n intervalo de confianza aproxim ado.
S upóngase que este in terv alo vaya de .10 a .25, siendo p a d e .175.
E starem o s entonces razonablem ente seguros de que el valor real
de p u h a de situ a rse e n algún p u n to al in te rio r de dicho intervalo
aproxim ado (y co n serv ad o r). Al calcular el in terv alo m ás exacto,
tom am os ah o ra com o estim ación de p u el v alo r aproxim ado d en ­
tro del in terv alo q u e q u ed e m ás cerca de .5. E n el ejem plo n u ­
m érico a n te rio r escogeríam os el v alo r .25, ya que el em pleo del
m ism o en la fó rm u la del e rro r e stá n d a r nos d a rá u n intervalo
m ás am plio de lo que h a ría cualquier o tro v alo r del in terv alo .10
a .25. E n o tro s térm in o s : en lu g ar de servirnos de n u e stro p,
real (e sto es, de .175), escogem os el m ay o r v alo r q u e suponem os
que p u pu ed a ad o p tar. P o r consiguiente, calculam os el intervalo
de confianza del 95 p o r ciento com o sig u e :
® El lector debería convencerse por sí mismo de que es así.
(.25) (.75)
N
E ste intervalo será m ayor, y p o r consiguiente m ás conservador,
que el q ue se o btiene to m ando b a jo el radical a p a, y n o com por­
ta, con todo, el em pleo del valor .5, del que sospecham os que es
con m ucho d em asiado grande.
X II.4. D eterm inación del tam año d e la m uestra
De a c u erd a con la p rá ctica seguida de i r intro d u cien d o pocas
ideas nuevas a la vez, hem os aplazado la cuestión de cóm o pue­
d a d eterm in arse el tam año de la m u e stra con an terio rid ad a la
recopilación de los datos. Una de las preg u n tas que con m ayor
frecuencia le p o nen al estad íg rafo es la de “¿cuántos casos nece­
sito ?" La re sp u esta depende, p o r supuesto, de lo que se tenga el
p ro p ó sito de h ac er con los re su ltad o s de la m uestra. Más con­
c retam en te: hay que d eterm in a r diversos hechos an tes de poder
d a r u n a re sp u esta adecuada. P o r lo regular, lo que hem os de
h ac er es rem o n tarn o s hacia a trá s, a p a r tir de los datos que es­
peram o s o b ten er, p a ra p o d er d eterm in a r el tam añ o desconocido
de la m u estra. H a sta aquí hem os considerado el tam año de la
m u estra com o ca n tid a d conocida. Las estadísticas tales com o
la m edia y la desviación e stá n d a r de la m u estra pueden ob ten er­
se de los re su ltad o s de ésta. Una vez que hem os decidido el nivel
d e significación de u n a p ru e b a o el intervalo de confianza de­
seado, podem os p o n e r todos estos valores en u n a fó rm u la y
d ecid ir la am p litu d del in terv alo de confianza, o b ien si deba
o n o d esc artarse u n a hipótesis nula. Sin em bargo, en la clase
de problem as que estam os considerando en esta sección el ta ­
m añ o de la m u e stra será desconocido. E sto significa que, p a ra
resolver n u e stra ecuación con resp ecto a N , hem os de conocer
to d as las dem ás cantidades d e la fórm ula. Y u n a vez integrados
todos esos valores en la ecuación, entonces la solución de N se
convierte en u n sencillo p ro b lem a algebraico. Con o b jeto de
ilu s tra r el p roceso nos servirem os de u n p roblem a de intervalo
de confianza.
Supóngase que querem os sab e r cuántos casos se requieren
p a ra estim ar el n ú m ero prom edio de años de escuela com pleta­
dos p o r las personas de pad res nacidos en el ex tran jero . Antes
de p o d er d a r u n a resp u esta a esta cuestión, necesitam os obte­
n e r los siguientes elem entos d e in fo rm ac ió n : 1 } el nivel d e con­
fianza a u tilizar, 2 ) el grado de exactitud con q u e deseam os
ap reciar el p arám etro , y 3) alguna estim ación razonable d e los
valores de cualesquier p arám etro s que pu ed an ap arecer en la
fórm ula. Así, p o r ejem plo, podem os q u erer a p reciar la m edia
con u n a aproxim ación de ± .1 año de escolaridad y servirnos de
un in tervalo de confianza del 95 p o r ciento. O bsérvese q u e hay
q ue c o n c retar ta n to la u n a com o la o tra de dichas cantidades,
ya que podem os o b ten er siem pre u n a aproxim ación de ± .1 añ o si
estam os dispuestos a a d m itir u n gran riesgo de e rro r. Nos ser­
vim os ah o ra de estos valores en la fó rm u la del intervalo de
co n fian za:
X ± 1.96— - —
'------ V------ '
.1
E l conocim iento del nivel de confianza deseado nos h a perm itido
in tro d u c ir el v alor 1.96. Como quiera que deseam os u n a aproxi­
m ación de ± .1 , o u n a am p litu d to tal de intervalo de .2, sabem os
que la ca n tid a d de 1.96 o / \ / N h a de se r igual a .1. Aunque el va­
lo r de X sea desconocido, vem os inm ediatam ente que ello no
rev iste im p o rtan cia alguna en este problem a, ya que deseam os
o b ten er u n in tervalo de cierta am plitud, independientem ente del
v alo r de X .
S upóngase que tra ta m o s ah o ra de resolver la ecuación
cr
.1 = 1.96----- y /N
resp ecto de N . Tenem os todavía u n a incógnita, o sea <r. Pero,
¿cóm o podem os o b ten er o an tes de h a b e r reu n id o los datos? La
cosa es c la r a : hem os de estim a r su valor p o r algún m étodo que,
en cierto sentido, vaya m ás allá de los datos que habrem os de
reu n ir. E n esencia, hem os de fo rm u lar u n supuesto ilu strad o
en cu an to a su valor, y a sea sirviéndonos de u n conocim iento
experto, de los resu ltad o s de estudios previos, o eventualm ente
de u n estudio-guía de cualquier clase que sea. P or lo regular, u n
estudio-guía re su lta rá m uy costoso y, p o r consiguiente, hay que
re m itirse a u n o u o tro de los dos m étodos restan tes. Incuestio­
nablem ente, el procedim iento m ás satisfactorio consistiría en de­
te rm in a r a exactam ente, pero, si esto p u d iera hacerse, ya no
te n d ría pro b ab lem ente in terés alguno el e x tra e r u n a m u estra.
O bsérvese que el tip o de estim ación necesario en esta clase de
p ro b lem a es to talm en te distinto del que se em pleó en a p reciar
a a p a r tir de los datos de la m uestra. P o r lo tanto, de n a d a sirve
estim ar a con a o sirviéndonos de la distribución t. Si de todos
m odos hem os de estim ar, lo m ism o podríam os estim ar el valor
de a que el de o o s. E n el p re sen te ejem plo, supóngase que so­
b re la b ase de la m e jo r inform ación obtenible estim am os que o
será de ap ro x im ad am en te 2.5 años. Sirviéndonos de este valor
y resolviendo re sp ecto del tam añ o re q u erid o de la m uestra,
te n e m o s :
o sea
V aT = J ^
L
= 49
y
N = 2 401
O bsérvese que hem os_resuelto re sp ecto de N p asando to d as las
can tid ad es excepto \ / N a u n lado de la ecuación y sim plificando.
F inalm ente elevam os al cu ad rad o am bos m iem bros de la ecua­
ción p a ra elim in ar el radical.
S in duda, sólo podem os o b te n e r u n valor aproxim ado p a ra el
tam año deseado de la m u estra, ya que los p a rá m e tro s h a b rá n
de estim arse. No te n d ría ciertam en te sen tid o alguno, p o r ejem ­
plo, to m ar ex actam ente los 2 401 casos. Sin em bargo, sem ejante
aproxim ación nos d ará p o r lo re g u la r re su ltad o s m ucho m ejores
q u e cu alq u ier corazonada in tu itiv a acerca del n ú m ero de casos
necesario. E n las aplicaciones p rácticas solem os p o r lo re g u la r
estu d ia r m ás de u n a variab le a la vez, lo q u e com plica todavía
la cosa considerablem ente. E stam os tam b ién lim itados, general­
m ente, p o r los recu rso s disponibles, y a m enudo hem os de aco­
m o d am o s con cualquier grado de ex actitu d que podam os obtener.
P ero au n así, se rá ú til a m enudo calcular el tam año necesario
de la m u e stra a títu lo de guía de n u estro p ro p ó sito de inves­
tigación.
Si bien la cuestión de d e te rm in a r el tam añ o de la m u e stra no
se ex am in ará en los capítulos siguientes en conexión con otros
p ro cedim ientos estadísticos, el le c to r e n c o n tra rá algunos e je r­
cicios que le im ponen la estim ación de N a p ro p ó sito de o tras
clases de problem as. E n todos estos casos la aplicación es obvia,
au n q u e en ocasiones haya que re c u rrir ab u n d a n te m en te al ál­
gebra.
Glosakxo
Intervalo de confianza
Grados de libertad
Eficiencia de la estimación
Estimación del intervalo
Estimación del punto
Estimación no sesgada
E je r c ic io s
1. Obténganse los intervalos de confianza para los ejercicios 3, 4 y 5 del
cap. xr. ¿Concuerdan los resultados obtenidos con los de ejercicios
anteriores? ¿Cómo se sabe? Respuesta al ejercicio 5, .47—.61.
2. Se toma una m uestra aleatoria de 200 familias de una localidad
y se encuentra que en el 36 por ciento de los casos es el marido quien
toma más de la m itad de las decisiones de carácter financiero. ¿Cuál
es el intervalo de confianza del 99 por ciento para el porcentaje de
familias en las que el marido toma más de la m itad de dichas decisio­
nes? ¿En qué sentido concreto proporciona el intervalo pruebas implí­
citas de hipótesis?
3. ¿Cuántos casos se necesitarán para establecer un intervalo de con­
fianza del 99.9 por ciento para la media si la amplitud total del inter­
valo de confianza no ha de rebasar $500 y la desviación estándar se
supone ser de $ 1 300? Respuesta, N = 295.
4. Si se sospecha que la proporción de propietarios de casa es de
aproximadamente .75 en una determinada zona de residencia, ¿cuántos
casos se necesitarán para obtener un intervalo de confianza del 95 por
ciento y de amplitud no mayor a .03, expresada en términos de propor­
ciones? Supóngase que la proporción de los propietarios de casa se
aprecia en .5, ¿cuántos casos se necesitarán en este supuesto?
5. Sirviéndonos del hecho de que para poblaciones normales la dis­
tribución de muestreo de la mediana presenta un error estándar de
1.253 a/ VN, podemos situar un intervalo de confianza alrededor de la
mediana. Supóngase que en el ejercicio 3 precedente se deseaba poner
un intervalo de la misma amplitud alrededor de la mediana de la mues­
tra. Sirviéndonos de la misma apreciación de la desviación estándar,
¿cuántos casos necesitaríamos? ¿Qué revela el resultado a propósito de
las eficiencias relativas de la media y la mediana? Respuesta, N = 463.
* 6. Se ha sostenido que el intervalo de confianza del 95 por ciento
representa una serie de pruebas implícitas de dos cotas al nivel de
.05. Expliqúese por qué el intervalo de confianza del 95 por ciento no
representa pruebas implícitas de una cola al nivel de .05.
B iblio g rafía
1. Freund, J. E.: M odem Elementary Statistics, 3* ed., Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1967, caps. 9 y 11.
2. Hagood, M. J. y D. O. Price: Statistics for Sociologists, Henry Holt
and Company, Inc., Nueva York, 1952, caps. 15 y 16.
3. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc.; Nueva
York, 1963, caps. 7 y 9.
4. Wallis, W. A. y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, cap. 14.
C uarta P a r te
E S T A D IS T IC A S BIV A R IA D A S Y M ULTIVARIADA S
X II I. PR U E B A S D E DOS M U E S T R A S : D IF E R E N C IA D E
LAS M E D IA S Y LAS P R O P O R C IO N E S
E n el cap ítu lo x i se exam inaron p ru e b as que consideraban u n a
sola m u estra. H allam os que dichas p ru e b as n o e ra n m uy p rá c ti­
cas p a ra el sociólogo, ya que p o r lo re g u la r n o es posible encon­
tr a r u n a hipótesis suficientem ente concreta p a ra p re d ecir u n valor
p a ra ¡i o p u. S in em bargo, cuando el in teré s se cen tra en co m ­
paraciones en tre v arias categorías de m u estras, re su lta innecesa­
rio co n c retar los niveles absolutos de u n o u o tro de los grupos.
E n lu g ar de ello, p u ed e p ro b a rse sencillam ente la hipótesis nula
de que no existe e n tre ellos diferencia alguna. Así, p o r ejem plo,
sería extrem ad am ente difícil a n ticip ar el nivel d e ingreso de los
n eg ro s en D etroit o el nivel de p re ju ic io de los blancos en esa
d u d a d . Sin em bargo, supóngase que nos in tere sa b a p ro b a r la hi­
p ótesis d e que el ingreso prom edio de los negros es el m ism o que
el de los blancos nacidos en el ex tran jero , o q u e los judíos tienen
p a ra los negros el m ism o grado de p re ju ic io que los n o judíos.
E ste ú ltim o tip o de hipótesis lo reconsiderarem os aquí.
E n u n a ciencia social com o la sociología, el in terés p ro p e n d e a
c e n tra rse en estab lecer relaciones e n tre variables. E sto c o n tra sta
con el tip o de la en cu esta que reú n e dato s y en la cual, según
vim os, la estim ación del p u n to y el in terv alo de u n solo p a rá m e ­
tro pu ed e re v estir im p o rtan cia prim ordial. C uando se establecen
com paraciones e n tre dos m u estras, tenem os la clase m ás sim ple
de p ro b lem a en el que dos variables pu ed en re fe rirse u n a a o tra.
H a sta aq u í sólo nos hem os ocupado de u n a sola v ariab le a la vez.
É sta es tal vez la razón principal de que las p ru e b as exam inadas
h a s ta el p re sen te n o hayan sido dem asiado ú tile s p a ra los soció­
logos. E n este capítulo vam os a ocuparnos de p ru e b as en las
q u e u n a sim ple variable dicotóm ica p u ed e se r re ferid a a o tra
variable. Así, p o r ejem plo, al c o m p arar a los ju d ío s y los n o ju ­
díos p o r lo que se re fiere al prejuicio, relacionam os de hecho a
éste con la religión. Y en fo rm a análoga, p o d ría q u ererse com pa­
r a r los dos sexos co n re sp ecto a "otros asp e cto s” o desde el p u n to
de v ista de o tras ca racterísticas relativas a la personalidad. Las
com paraciones pu eden establecerse asim ism o e n tre u n g ru p o de
co n tro l y u n grupo de experim ento en el q u e se h a in tro d u cid o
alguna variable. E n los capítulos siguientes se exam inarán p ru e ­
b as q ue co m p o rtan m ás d e dos m uestras.
X III.1. Prueba de la diferencia de las m edias
Con o b jeto de ex tender la p ru e b a de las m edias de una m u estra
ú n ica a u n a p ru e b a e n la que p u ed a estab lecerse u n a com para231
ción e n tre las m edias de dos m u estras, hem os de servirnos n u e­
v am ente del teo rem a del lím ite central. Un teorem a im portante,
derivado, pu ed e enunciarse com o sigue: si se extraen m uestras
independientes al azar, de los tam años N x y N z respectivam ente,
d e poblaciones que son respectivam ente N o r ^ j , al) y N or(ji2, al),
la distribución de m u estreo de la. diferencia entre las dos m edias
de las m u estra s ( X 1 —X 2) será igual a N or(n*—[¿2, Oi/JVi+ a l/N 2 ).
Lo m ism o que en el caso de m u estras individuales, este teorem a
puede generalizarse en el caso de m u estras grandes p a ra a b a rca r
cualesquier poblaciones de m edidas ^ y ¡j.2 y de variancias of y
respectivam ente. E n efecto, a m edida que
y N 2 aum entan, la
distribución de selección de X 1 — X 2 se aproxim a a la norm ali­
dad, lo m ism o que antes. Exam inem os ah o ra este teo rem a m ás
de cerca.
Se hace referencia a m u estras aleatorias independientes. E sto
significa que las m u estras h an d e seleccionarse independiente­
m en te una de otra. El hecho de que la m u estra sea al azar ase­
g u ra independencia en el interior de ella, en el sen tid o de q u e el
conocim iento de la m arc a del p rim e r individuo seleccionado no
nos ayuda a p re d ecir la m arc a del segundo. E sto no es, con todo,
lo que aquí se entiende p o r “m u estras al azar in d ependientes”. E n
efecto, n o sólo h a de h a b e r independencia en el in te rio r de cada
m u estra (aseg u rad a p o r el hecho de la selección al azar), sino
q ue h a de h ab e rla adem ás entre las m u estras. Así, p o r ejem plo,
las m u estras n o pueden aparearse, com o sería eventualm ente el
caso e n tre grupos de control y grupos de experim ento. Si se fue­
ra n a co m parar, p o r ejem plo, los dos sexos, n o p o d ría utilizarse
la p ru eb a de la diferencia de las m edidas en m u estras com pues­
ta s de p a re ja s de m arid o y m ujer.
E l req u isito de que las m u estras sean independientes u n a de
o tra es sum am ente im p o rtan te, au n q u e a m enudo se lo p ase p o r
alto en la investigación, p artic u la rm en te cuando se m an eja con
u n a m u estra en grupo. Si la m u e stra en con ju n to es estrictam en ­
te al azar, y si se com paran dos su b m u estras tom adas de u n a
m ism a m u e stra aleato ria m ayor, el supuesto de independencia
e n tre las dos su b m u estras en cuestión te n d rá lugar, ya que todos
los casos de la m u e stra m ayor se h a b rá n seleccionado indepen­
dientem ente u n o de otro. P or ejem p lo : si se com paran varones
con hem bras, deberem os h ac er u n m u estreo general de los varo­
nes y otro m u estreo, seleccionado' independientem ente, de todas
las hem bras. Es d ec ir: la selección de B ob Jones n o tiene in­
fluencia ninguna en la p robabilidad de que sea seleccionada Susie
Sm ith.
P or lo regular, en la investigación social tom am os una sola
m u estra m ayor, aunque con fines d e análisis podam os conside­
r a r los datos como procedentes d e diversas m u estras indepen­
dientes. E n la m ayoría de los casos, el p roblem a de la fa lta de
independencia en tre las m u estras no se p lan teará, a m enos que
deliberadam ente las hayam os apareado. Como pueden d arse cir­
cunstancias en las que el diseño del m u estreo n o sea ta n sencillo,
d eb erá p re sta rse atención a la posibilidad de que n o se satisfaga
el sup u esto de independencia e n tre las m u estras.
E n el teo rem a en cuestión se nos dice que si continuáram os a
seleccionar indefinidam ente, seleccionando cad a vez dos m ues­
tra s y estableciendo u n a gráfica de sus m edias, la distribución de
selección de e s ta diferencia e n tre m edias sería n o rm al o aproxi­
m ad am en te norm al. E l lecto r h a de tr a ta r de re p resen ta rse exac­
tam en te lo q ue aquí ocurre. Tenga p re sen te que, com o sociólogo,
él sólo o b ten d rá en re alid ad dos m u estras y u n a sola diferencia,
en tan to q ue aquí tra ta m o s de la distrib u ció n h ip o tética de to d as
las diferencias posibles. Como q u iera q u e la distrib u ció n de
m u estreo es p a ra u n a diferencia e n tre m edias de m uestras, la m e ­
dia de la d istribución de m u estreo está d ad a p o r la diferencia
e n tre dos m edias de población, m ás bien q u e p o r cu alq u iera de
ellas separadam ente. E n el caso especial en que ¡J4 y {x2 sean igua­
les, la m edia de la d istribución de m u estreo será cero. Si
> ¡j,2,
esperam os que la m ayoría de las X 1 será m ay o r que las X 2, co­
rresp o n d ien tes, y que la m edia de la d istrib u ció n de selección
será p o r consiguiente positiva. P or ejem plo, si (ix = 60 y
= 40,
la d istrib u ció n de X x — X 2 te n d rá 20 com o m edia o valor es­
perado.
No es en cam bio ta n fácil v er p o r qué la variancia h a b ría de ser
a l/N i + o l/N s, o sea la su m a de las variancias de la d istribución
de m u estreo de las m edias separadas. Es obvio que no p o d ría
em p learse u n a diferencia de variancias a f / N x — o l/N , ya q u e po­
d ría obtenerse, p a ra la distribución de m u estreo , cero o u n a va­
rian cia negativa. E n cam bio, la variancia ax/N 1 + c|/A ?2 es rnayor
que cu alq u iera de las dos variancias a 1/ N 1 o a 2/ N s. ¿P or qué es
esto así? A unque n o p u ed a darse u n a justificación com pleta de
la fó rm u la sin re c u rrir al razonam iento m atem ático, puede, con
todo d arse cierto tipo d e explicación intuitiva. F undam entalm en­
te, esperam os q ue el e r ro r e stá n d a r co rresp o n d ien te a la diferen­
cia de las m edias sea m ay o r que cualquiera de los e rro res e stán ­
d a r separados, p o rq u e tenem os ah o ra dos fuentes de erro r, o sea
u n a en cada m u estra. Así, pues, la m ita d d e las veces las dos X
e sta rá n en e rro r en sentidos opuestos. Con fines de sim plifica­
ción, supongam os que |xx = u2- E n este caso, si X t es m ayor que
¡i! y X 2 es m ayor que
el re su ltad o de la sustracción será u n a
can tid ad gran d e positiva, p o rq u e los e rro res son e n sentidos
opuestos. P o r ejem plo, si X x es m ás gran d e en 20 que (¿i y X<¡ es
m en o r en 15 que |x2, la diferencia re su ltan te, X, — X 2 diferirá de
[ii — |i2 en 35, com binando, pues, los erro res im plicados. Y en
fo rm a análoga, si X t es pequeña y X 2 es grande, p u ed e re su lta r
u n a diferencia negativa sustancial. E n o tro s té rm in o s : con m u­
cha frecuencia obtendrem os diferencias relativ am en te grandes
en tre las m edias de las m u estras, ya que cada m edia v aria rá in­
dep en d ien tem ente de la otra. E n consecuencia, la distribución de
m u estreo de u n a diferencia te n d rá u n a desviación e stá n d a r m a­
yor que cu alq u iera de las d istin tas distribuciones de m u estreo
separadas.
*
La fó rm u la p a ra el v alor esp erad o y la variancia de X x — X¡¡
puede ser d educida utilizando una vez m ás las expresiones co rres­
pondientes a las com binaciones lineales. Se re c o rd a rá que si
Y = cíX 1 + c^X2, tendrem os E ( Y ) = C jE C ^ ) + czE ( X 2), y aT2 ~
ci2
+ c 22 Gx22, a condición de que X x y X s sean independien­
tes. Si hacem os ah o ra que Y re p resen te u n a diferencia de medias,
sustitu y en d o X x p o r X ít y X 2 p o r X 2, haciendo cx = 1 y c2 = —1,
tendrem os, com o caso especial, los resultados
E ( Y ) = E ( X x - X 2) = ( D E m + ( - 1 ) £ ( X 2) = m - |x*
y
i
0,* = ( l ) 2 0 / + ( - 1 ) 2 0j 2 =
2
Oí2
—¡ j— +
Ni
022
—rf—
N2
Obsérvese que si hubiésem os fo rm ad o la sum a de X-¡ y X 2, la
expresión de la variancia p a ra dicha can tid ad h u b ie ra sido la m is­
m a que la co rresp o n d ien te a su diferencia. E n el capítulo xvi
estu d iarem o s o tro s tipos m ás com plejos de com paraciones en las
q u e se incluye u n a generalización de esta sim ple com paración
de dos m ed ias de m u estras.
Vamos a v e r ah o ra u n ejemplo- ilu strativ o del em pleo de la
p ru e b a de la diferencia de las m edias. El caso de las 0 conocidas
n o lo exam inarem os, y a dicho p ro b lem a es obvio y m ás bien
poco práctico-. S upondrem os, pues, que las 0 no se conocen. Con­
siderarem os dos casos p a rtic u la re s : en el p rim ero supondrem os
que 0X= 02, en ta n to que e n el segundo se su p o n d rán dos 0 des­
iguales. Es obvio que estos dos m odelos com prenden todas las
altern ativ as posibles,
Problem a. Se establece u n a com paración e n tre dos tipos d e dis­
trito s, o sea e n tre los pred o m in an tem en te u rb an o s y lo-s que son
fu n d am en talm ente ru rales. Los d istrito s en cuestión se com paran
en relación con el p o rc e n ta je de p e rso n a s que votan p o r los de­
m ó cratas en u n a elección presidencial, con los siguientes resul­
tados :
Distritos rurales
Distritos urbanos
iV2 = 19
N ± = 33
= 57 %
5! = 11 %
X2 = 52 %
s2 = 14 %
¿P resen tan estos datos m otivos razonables p a ra suponer que
existen diferencias significativas en las preferen cias electorales
de dichos dos tipos de d istrito s? Supóngase que éstos se h an se­
leccionado al azar d e u n a lista de todos los d istrito s del F a r W est,
y que estudios previos h a n m o strad o que las respectivas d istri­
buciones de población son aproxim adam ente norm ales.
M odelo 1: ai = o2
1. S u p u esto s
N ivel de m e d ic ió n : el p o rc en taje de votos dem ocráticos es u n a
escala de intervalo
M odelo: m u estras aleatorias independientes
poblaciones norm ales, ai — a2 = a.
H ip ó te sis:
= ^2.
E l su p u esto de n o rm alid ad puede aban d o n arse siem pre que l a s .
N sean grandes (p o r ejem plo, am bas so b re 50). El supuesto a —
<r2 pued e co m probarse efectivam ente p o r m edio d e la p ru e b a F
quse se exam inará en el capítulo xvi. E sta p ru e b a co m porta una
com paración de las dos desviaciones e stá n d a r de las m u estras.
Si Si y ss n o difieren m u ch o n o p o d rá rechazarse la hipótesis de
que ai = a2- Si de acu erd o con los re su ltad o s de la p ru e b a F el
su p u esto de desviaciones está n d a r iguales es razonable, será m ás
eficaz aprovecharse de ello p a ra ap re c ia r el v alo r com ún de o.
D ado el supuesto d e q u e las dos poblaciones sean norm ales, los
su p u esto s adicionales de m edias y desviaciones e stá n d a r iguales
equivalen a so stener que las dos poblaciones son idénticas.
Como q u iera que estam os interesados e n sab e r si existe o no
alguna diferencia e n tre los dos tipos de distrito s, n u e stra h ip ó te­
sis n u la será la de q u e n o existe diferencia. P or lo visto, sospe­
cham os que sí existe diferencia, y p o r ello form ulam os u n a hipó­
tesis que deseam os descartar. E n este caso podem os designar
legítim am ente la hipótesis com o hipótesis "n u la”, que n o indica
relación e n tre las variables “tip o de d is trito " y "preferencia elec­
to ra l”. Se concibe que hubiéram os podido e sta r e n condiciones
de co n cretar que las m edias de la población se esp era que sea
alguna co n stan te d istin ta de cero. Así, p o r ejem plo, las hipótesis
pu d iero n h ab e r ad o p tad o la fo rm a de ^ — p,a = 10, si se hubiera
an ticip ad o que la votación en favor de los dem ócratas sería un
10 % su p erio r e n los d istrito s u rb a n o s. S in em bargo, e n ciencias
sociales estam o s ra ra m e n te en condiciones de p o d e r co n cretar
tanto.
2. D istribución de m uestreo. Nos servirem os de la distribución
t, ya q u e las a no se conocen y q u e el n ú m ero to ta l de casos es
m uy in ferio r a 120.
3. N ivel de significación. E scojam os el nivel de .01 y u n a p ru e ­
b a d e dos colas.
4. Cálculo del estadístico de la prueba. Se re c o rd a rá que la dis­
trib u ció n t se calcula to m ando la diferencia e n tre el valor o b te­
n id o de la m u e stra y la m edia de la d istrib u ció n de m u estreo , y
dividiendo e n tre u n a estim ación del e rro r e stá n d a r d e e sta d istri­
bución. N os in te re sa aquí la diferencia e n tre las m edias de la
m u estra,
X 2. Como q uiera que la m ed ia d e la distribución
de m u estreo es ^ — |x2, obtenem os p a ra t la siguiente expresión:
en donde a j _ - g es u n a estim ación del e r ro r e stá n d a r de la dife­
re n cia e n tre las m edias de la s m u estras. Como q u iera que en la
hipótesis n u la se h a su p u esto que ¡xj = ¡_i2, la expresión p a ra t se
convierte, en este caso especial, e n
La sem ejanza e n tre el n u m era d o r a n te rio r y el que utilizam os en
la p ru e b a de u n a sola m u e stra es m ás o m enos casual, o sea re­
su ltad o del hecho de que, en la hipótesis nula, las ¡j, se elim inaron.
Sin em bargo, no debe sacarse la conclusión de q u e la ¡j. del p ri­
m e r tip o de p ro b lem a se h a rem plazado sim plem ente p o r la
de la m u estra de la segunda de éstas. E n realidad, la expresión
(X j—X &) h a rem plazado a X , (¡ii~ ¡i2) h a rem plazado a ¡x, y
h a rem plazado a a - .
12
Nos fa lta a h o ra evaluar o-^
. Sabem os, p o r supuesto, que
Como q u iera que en este caso Oí = a2, podem os in d icar el valor
com ún com o o, sacarlo del radical, y sim plificar la expresión
de
7 com o sigue:
la 2
o3
/
l
|N i + #2
l
=V^vT+ ~ Ñ 7 ~ ° ^ ~ K "ÑT_aV
La varian cia com ún o2 puede evaluarse ah o ra obteniendo u n a
apreciación com binada de am bas m u estras. Como q u iera q u e las
dos variancias de las m u estras se b a sa rá n p o r lo re g u lar en n ú ­
m eros distin to s d e casos, podem os o b ten er u n a apreciación d e o2
to m an d o u n pro m edio p o n d erad o de las variancias de las m ues­
tra s, poniendo cuidado e n dividir e n tre los grados propios de liber­
tad , con o b jeto de conseguir u n a estim ación insesgada. E xtrayen­
d o la raíz cu ad rada, obtenem os la estim ación de o com o sigue:
A
a-
. I ^1S18 +
N 2 S 22
+ N2 - 2
_
P u esto q u e : Ar1s12 = 2 ( X a - X x )2, podrem os su s titu ir N 1s 12 p o r :
í=i
—
2 ¿Cu2, en donde
x it = X {1 — X i.
Si hacem os lo m ism o p a r a iV2s22, obtenem os
Xnz + 2 xiSz
Nt + N2- 2
De este m odo, si tom am os la sum a de los cu ad rad o s alred ed o r
de la m edia de la p rim e ra m u e stra y sum am os a ella la su m a de
los cu ad rad o s de las desviaciones alre d ed o r de la m edia de la
segunda m u estra, dividiendo finalm ente e n tre N í + N 2 — 2, o bte­
nem os u n a estim ación com binada de la variancia com ún.
O bsérvese q ue el sím bolo a se em plea a h o ra p a ra re p re se n ta r
u n a estim ación d istin ta de la que vim os en los capítulos an te­
riores. P ara in d icar u n a estim ación insesgada se em plea a m enu­
d o en la lite ra tu ra estad ística el sím bolo “A”. Como q u iera q u e
hem os p erd id o 2 grados de lib ertad , u n o en cada cálculo de sx y
s 2 a p a r tir de Xj y X¡, los grados to tales de lib ertad quedan en
jVjl AT2 — 2. P a ra o b ten er n u e stra estim ación, nos hem os servido
de am b as m u estras, d an d o u n m ayor peso a la variancia de la
m ayor de ellas. S em ejan te estim ación com binada será m ás eficaz
que las estim aciones b asa d as en u n a u o tra sola de las m u estras
en cuestión. A títu lo de control del cálculo, el valor num érico
de a se situ a rá p o r lo re g u la r e n tre los de sx y s2.
F inalm ente, obtenem os u n a estim ación de a 2
tom ando nuestr a estim ación de a y m ultiplicando p o r
Nt + N2
— com o en la
’ tfiiV2
ecuación (X III.2 ). Así:
A
! N lSl* +
¡N1+ N2
c . _ T. = i - -,
7
2
i AT-i + iVo — 2 " N i N i
'
(X III.4 )
O bsérvese que la ecuación ( X III.4 ) se diferencia de la ecuación
(X III.2 ) en q ue el a de la ecuación (X III.2 ) h a sido sustituido
p o r su estim ad o a, com o se define en la ecuación (X III.3 ). En
este p u n to la fó rm u la parece terrib le. S in em bargo, el lecto r de­
b ería re p a sa r los p aso s algebraicos exam inados anteriorm ente,
p a ra convencerse de que la fó rm u la n o es ta n com plicada com o
a p rim e ra v ista parece.
E n n u estro ejem plo num érico obtenem os los siguientes resu l­
tados :
£_
_ = J ü (121) + 19 (-9— J ü ± Í L = ( 12.42) (.288) = 3.58
\
33 + 1 9 - 2
T 33(19)
P o r lo tan to ,
(X t — X 2) — 0 _ 5 7 - 5 2
_
358
O bsérvese q ue n u e stro estim ado a = 12.42 cae e n tre ^ = 11 y
s t ~ 14.
5.
Decisión. Com o q uiera que se utilizó u n a estim ación com bi­
nad!! de la desviación está n d a r com ún, los grados de lib ertad
asociados » t serán N, + N¡¡ — 2, o sea 50. E ncontram os que t =
1.40, cuya pro b ab ilidad sería considerablem ente su p erio r a .01 si
todos los supuestos lu cra n correctos. Decidim os, pues, no des­
c a rta r la hipótesis nula al nivel de .01, y llegam os e n consecuen­
cia a la conclusión de que no se dan diferencias electorales signi­
ficativas en tre los d istrito s urbanos y ru rales del F a r W est.
Modelo 2:
a$. Vemos aliora cuáles m odificaciones resu ltan
necesarias cuando es im posible suponer que las dos poblaciones
p re sen tan las m ism as desviaciones están d ar. P robablem ente h a ­
brem os verificado y d escartad o la hipótesis de <n = a2. E n conse­
cuencia, ya no es posible a h o ra sim plificar la fó rm u la cr-,
in tro d u cien d o u n v alor com ún p a ra a, ni lo es tam poco fo rm a r
u n a estim ación com binada. E n sem ejan te caso, estim am os las
dos desviaciones e stá n d a r (d is tin ta s) separadam ente. E stim am os
a p a r tir d e s12/(A r1 — 1), y a22/ N 2 so b re la base de s22/
(N 2 — 1), con lo que o b te n e m o s:
a
I s i2
s22
= 1 ñ = i + J ¡¿ ri
W
E n el ejem plo em pleado an terio rm en te tenem os, p u es:
121/32 + 196/18 = V3.78 + 10.89 = ^ /1 4 ¿ 7 = 3.83
Y p o r consiguiente,
57 — 52
í = ------------= 1.31.
3.83
Así, pues, los resultados obtenidos en los dos m odelos d istin to s
no difieren grandem ente.
Si b ien el p ro cedim iento em pleado e n el m odelo 2 es m ás sen­
cillo desd e los p u n to s de v ista lógico y de cálculo a la vez, la
estim ación d e o - v n o es, con todo, ta n eficaz, en él, com o
1 2
la q u e se obtuvo an terio rm en te. P or o tra p arte , a u n si suponem os poblaciones norm ales, el m odelo 2 re su lta algo dudoso en
los casos en que las N n o son m uy grandes o en que los tam años
de las m u e stra s d ifieren m u ch o u n a de o tra. La dificultad se hace
p re sen te al escoger el grado adecuado de lib ertad . Así, p o r ejem ­
plo, si la p rim e ra m u e stra fu e ra excepcionalm ente pequeña, sería
m uy falaz servirse de
+ N 2 — 2 com o grados de lib ertad , ya
q u e sx sería u n a estim ación m uy deficiente de o1( y a que el valor
de 5lV ( N i — 1 ) sería p o r lo re g u lar m u ch o m ayor que el de
s 22 / ( N 2 — 1). E sto es c ie rto p o rq u e n o siendo m uy diferentes los
valores de Sj2 y 5¡¡2, los tam años relativos d e las dos fracciones
ven d rán fu n d am en talm en te determ inados p o r sus denom inadores.
S e h a sugerido que, a m enos que las N sean grandes, es p re fe ri­
ble serv irse de la siguiente expresión p a ra o b ten er u n a aproxim a­
ción de los grados co rrecto s de lib e rta d :
V a t.- i
”
( A
Y
( « í i H
n,
-
&
iJ
r
(s~ n )™ ,
E n esta fo rm a obtenem os en el ejem plo a n te rio r:
d f = "(3.78)*( 1/34) + (10.89)2(1720) ~ 2 = 33-89 ~ 2 = 3L89 ~ 32
Obsérvese que algunas de las m agnitudes de la fó rm u la de los
grados d e lib e rta d ya se calcularan an terio rm en te. De la ta b la t,
sirviéndonos de 32 grados de lib ertad , vem os que la hipótesis
n u la no d eb ería d escartarse al nivel d e .0 1.
P o r lo q ue se re fiere a los supuestos, la ú n ica diferencia en tre
los m odelos 1 y 2 es el supuesto de que
— or2. O bsérvese que
n ad a h ay en el segundo procedim iento que requiera que las des­
viaciones e s tá n d a r sean desiguales. Si o cu rre que son iguales
(o casi) el segundo m odelo será sencillam ente el m ás eficaz. Pa­
re cerá tal vez que el segundo p rocedim iento sea p referib le en
general, p o rq u e no req u iere el su puesto de cr, = a2. Sin em bargo,
según acabam os de ver, este m odelo necesita aproxim aciones
p a r a los grados de lib ertad . E n el caso d e m u estras grandes, los
dos m étodos p ro p o rcio n ará n p o r lo re g u lar re su ltad o s sim ilares,
si tas desviaciones estándar son efectivam ente iguales, ya que las
dos desviaciones e stá n d a r de las m u estras serán, u n a y o tra, b u e ­
n as estim aciones d e la a com ún.
Si se d a el caso d e q u e las a se conocen p a ra am bas poblacio­
nes, entonces sus respectivos valores pueden po n erse directam en­
te en la fó rm u la de a - -- , y a que no se re q u ie re estim ación
i 2
alguna. P uede en este caso calcularse Z y u tilizarse el cuadro
norm al. Con las a conocidas, n o h a b rá necesidad, p o r supuesto,
d e distin g u ir e n tre los m odelas 1 y 2. Es obvio, sin em bargo, que
los casos en que am bas <r sean conocidas serán extrem adam ente
ra ra s en la investigación p ráctica.
X III.2. Diferencia d e proporciones
Lo m ism o que en el caso de p ru e b as q u e co m p o rtan proporcio­
nes de u n a sola m u estra, la diferencia e n tre dos proporciones
puede tra ta rs e com o caso p a rtic u la r d e la diferencia e n tre dos
m edias. Si com param os dos m u estras aleatorias, independientes,
en relación con las proporciones de personas afectadas de p re­
juicios, podem os fo rm u lar la hipótesis n u la de q u e las proporcio­
nes
y p u„, respectivam ente, de p erso n as con p rejuicios son igua­
les en las dos poblaciones. Como q u iera que ya se dem ostró en
el caso de p roporciones que ai =
y a2 = \ / p %2q un, síguese
q u e las desviaciones e stá n d a r de las dos poblaciones h an de ser
iguales. P or lo tan to , el siguiente ejem plo se sirve esencialm ente
de los m ism os procedim ientos em pleados en el p rim e r m odelo,
en el caso de la p ru e b a de diferencia de las m edias.
Problem a. Supóngase que se establece u n a com paración a p ro ­
p ó sito de los hábitos de recreación e n tre trab a jad o res de línea
de ensam ble y personas cuyo tra b a jo n o consiste en u n a m era
rep etició n ni se halla su jeto al ritm o de la m áquina. Suponga­
m os que el investigador sospecha que los trab a ja d o re s de línea
d e ensam ble serán m ás propensos a escoger form as de re cre a­
ción del tipo de esp ectad o r "pasivo”. E n u n a m u estra aleatoria
de 150 trab a jad o res de ensam ble en u n a determ in ad a fábrica se
en c u en tra que el 57 p o r ciento dan preferencia a las form as de re ­
creación pasivas. E n u n a segunda m u estra, seleccionada asim is­
m o al azar, el 46 p o r ciento de los trab a jad o res, sobre 120, indi­
can tam b ién p referencia p o r las form as de recreo pasivas. ¿E xiste
al nivel de .05 diferencia significativa alguna en tre am bos grupos?
1. Supuestos.
N ivel de m edición: el tipo de recreación com o dicotom ía
M odelo: m u estreo al azar independiente
H ip ó tesis: pUl = p n (im plica ax = as )
2. D istribución d e m uestreo. Como q u iera que am bas N son
relativ am en te grandes, la distribución de m u estreo de las dife­
rencias e n tre las proporciones será aproxim adam ente norm al, con
la m edia p n - p U2 = 0, y u n a desviación e s tá n d a r d e :
en donde qUl y q „2 son iguales, respectivam ente, a 1 — p H y 1 —
3. N ivel de significación y región crítica. E l problem a especi­
fica que hem os de servirnos del nivel .05. R esulta indicada u n a
p ru e b a de u n a sola cola, ya que la dirección de la diferencia se
anticipa. P o r consiguiente, cualquier v alo r positivo su p erio r a 1.65
in d icará que los resultados son ta n im probables, con dichos su­
puestos, que la hipótesis n u la h a de descartarse.
4. Cálculo d e la estadística de la prueba. Como q uiera que p o r
hip ótesis tenem os p n = p t,2, síguese que Gi = a2 = a, pudiendo em ­
p learse la fó rm u la especial:
¡N i + N 2
A nteriorm ente, en la p ru e b a de proporciones de una sola m ues-
1 Si las muestras son pequeñas, nos servimos de la prueba de Fisher, des­
crita en el capítulo xv.
tra , p u d o p re scin d irse de la estim ación de a, ya q u e el valor de
p u se suponía. Ahora, en cam bio, la hipótesis en u n cia sim plem en­
te que p Ul = p„2, p e ro sin especificar, con todo, cuál sea el valor
re al de estas p roporciones. É sta es la razón de que necesitem os
u n a estim ación com binada del e r ro r e stán d a r. E n lu g ar de b u s­
c a r u n p ro m ed io p onderado de las dos variancias d e las m u estras,
q u e es lo q u e hicim os antes, podem os o b ten er u n a estim ación
lig eram en te m en o r, calculando u n a estim ación com binada ( p u)
d e p u. E n co n tram o s luego qu p o r sustracción. Ya q ue:
o — ~\/PuQu
p odem os p o n e r
a = V PuQu
Así, pues
A
A ,
¡ ¿*1 + N2
~ * J Ni
C¡
p* i - p*2 “
°
1
N tN 2
^|a
A
1
+ Í V
1
NiN.
2
(XIIL8)
Con o b jeto d e o b ten er p u, se to m a u n pro m ed io p o n d erad o de
las pro p o rcio n es de las m u estras de la m a n e ra sig u ie n te :
N i PH + N 2p S;¡
P* = --- nJT-TT
± + n t2----
(XIIL9)
O bsérvese q u e el n u m e ra d o r de esta expresión n o es m ás que el
n ú m ero to ta l d e los individuos d e am bas m u estras q u e p refieren
fo rm as de recreació n de tipo pasivo. Así, en el caso de n u estro
ejem plo num érico, obtenem os:
a
Pu-
150( .57) + 120(.46)
= .521
150 + 120
P o r lo tan to , qu = 1 — p u = .479
SPn-> .2 = V ( - 5 2 1 ) ( . 4 7 9 ) /
150 + 120
(150)(120)
= (.4996) (.1225) = .0612
Y de ahí que
Z=
( P „ , - f t 2) - 0
.5 7 - .4 6
---------------= _ ü_ _ = 1.80
5. Decisión. Como quiera que con u n a p ru e b a de u n a sola cola
la p ro b ab ilid ad de o b ten er u n valor d e Z igual o m ayor que 1.80
es de .036, siem pre q u e la hipótesis n u la sea efectivam ente co­
rrecta, podem os d e sc a rta r esta hipótesis al nivel de .05. Conclui­
m os, pues, que existe u n a diferencia significativa en relación con
la preferen cia de tipos de recreación pasiva en tre las dos clases
de trab a jad o res d e la fáb rica considerada.
H ay que m en cionar aquí que existen diversas clases a lte rn a ti­
vas de p ru ebas, la m ás im p o rtan te de las cuales es la de la 1 y_ al
cuadrado, que se exam inará en el capítulo xv, que pueden u tili­
za rse en lu g ar de la p ru e b a de la diferencia de las proporciones.
Com o q u iera que, e n efecto, el em pleo de la p ru e b a de la dife­
ren cia de las proporciones está lim itado a dos m uestras y una
variab le dicotóm ica, é sta no re su lta ta n p rá ctica com o la p ru eb a
% al cuadrado, que puede aplicarse lo m ism o a tres o m ás m ues­
tra s . Sin em bargo, u n a de las ventajas de la p ru e b a de la diferen­
cia de las p roporciones es que, m ed ian te m odificaciones adecua­
das, se la puede u tiliza r en el caso de m u estras de áreas o p o r
conglom erados. D esafortunadam ente, las m odificaciones en cues­
tió n n o tienen cabida en el m arco del p re sen te texto.
*
Diferencia de diferencias de proporciones. Podem os am p liar
fácilm ente el p rincipio de u n a p ru e b a p a ra u n a diferencia de p ro ­
porciones (o m ed ias) h a sta a b a rc a r u n a diferencia de d iferen­
cias, o incluso u n a d iferencia de diferencias de diferencias. Su­
pongam os, p o r ejem plo, q u e tenem os datos relativos ta n to a
trab a jad o res com o a trab a jad o ras, y que deseáram os co m parar
los sexos en o rd en a la relación e n tre los trab a jo s realizados
y las preferencias recreacionales. Tal vez encontraríam os en el
caso de los h o m bres u n a diferencia ta l com o la que acaba­
m o s de ilu strar, p e ro ninguna en el caso de las m ujeres. O tal
vez la dirección de la diferencia pu ed a re s u lta r co n tra ria e n tre
am bos sexos. A m pliando esta ilustración podríam os d esear agre­
g ar el d ato relativo a las edades. E n tal caso puede concebirse
que ten d ríam o s u n a diferencia de diferencias (e n tre h om bres y
m u je re s) en el caso de los trab a jad o res jóvenes, y u n resu ltad o
d istin to p a ra los trab a jad o res adultos. P uede observarse q u e es­
tam os an ticip an do problem as que ta l vez su rja n cuando m an eje­
m os m ás de dos variables, y cuando las diferentes variables pue­
d an cau sar peculiares efectos com binados. En tales casos se
afirm a que hay "in teracció n ” e n tre las variables, o q u e sus efec­
to s unidos son n o aditivos. E n los capítulos xvi y xx tendrem os
o p o rtu n id ad de estu d ia r con m ás d etalle estos tipos de posibili­
dades.
E n el m uy sencillo ejem plo en el que deseam os co m p arar las
diferencias de proporciones e n tre h om bres y m ujeres, suponga­
m os que p Ul y p „2 re p resen ta n las proporciones de población p a ra
h om bres, com o en el a n te rio r ejem plo. T endrem os entonces dos
pro p o rcio n es sem ejantes, p U3 y p „4 q u e re p re se n ta rá n las m u je­
res, y p o d ríam o s h ac er u n a p ru e b a sim ilar de la hipótesis nula,
ta l como, p a ra las m u je re s p«3 —A,4. P ero podem os p ro b a r asi­
m ism o la h ip ó tesis m ás com pleja de que las diferencias (d e p o ­
b lació n ) p a ra los sexos son tam b ién idénticas. N u e stra hipótesis
n u la p asa así a se r
PH ~ P«2 = Pus ~ PH
o
( pn - p u 2 ) - ( p „ a - p ui) = 0
E xp resad o de o tra m an era, estam o s sen tan d o la hipótesis de
que la relación e n tre clase de tra b a jo y p referen cias recreativas
(m ed id a p o r u n a diferencia de p ro p o rcio n es), es igual p a ra am ­
bos sexos. U na hipótesis altern ativ a p o d ría co n sistir en que la
diferencia es m ay o r e n tre los h o m b res que e n tre las m u jeres.
Podem os u tiliz a r de nuevo el p rin cip io de las com binaciones
lineales, p lan tean d o
Y = c xp Sl + c2p S2 + csp ss + c 4p H
E n cu an to a la hipótesis n u la que estam os considerando, h a r e ­
m os c 1 = c 4 = 1 , y c2 = c8 = 1 , re su ltan d o (siem p re que se tra te
d e m u estras seleccionadas indep en d ien tem en te)
E ( Y ) = E ( p , 1 ) - E ( P ''¡) - E ( p , 8 ) + E ( p H )¿=(pUl- p V2 ) - ( . p i,¡i- p ili)
y
P v xQux
g tt
P«8<7«8
í*«4*7«4
~ — Nn -----¡rr------ 1— t í ------- 1-------- n —
x 1--------N
z
Ns
N4
podem os ya fo rm a r Z, com o sig u e :
( P gl ~ P s2 ) ~ ( P s 3 ~ P H )
Pv,-flnx P«2^,“2 P«g?«3 P«4^f«4
\ ---------- ¡------------ ----------- - H----------’ Nx
N2
Ns
N4
y u s a r el cuadro- n o rm al e n fo rm a directa. Como el denom inador
contiene las incógnitas p u. y qu., podem os estim árselas m ediante
las corresp o n d ientes p 8. y qs., fija n d o conservadoram ente cada
g ru p o com o igual a .5.
Es im p o rtan te a d v e rtir que la expresión p a ra la variancia de Y
com prende c u a tro N t diferentes, las que aparecen com o denom i­
n ad o res en fracciones separadas. Com o q u iera q u e los p ro d u cto s
paiq„i se en c u e n tra n n o rm alm en te cerca del v alor .25, verem os
que el v alo r de cada fracción será p rim o rd ialm en te fu n d ó n del
tam añ o de la su b m u estra. E n u n te rre n o práctico, si hay u n a subm u e stra m uy pequeña, ésta puede d o m in ar la expresión co rres­
p o n d ien te a la variancia de Y , y p o r ta n to tam b ién al denom ina­
d o r d e Z. De esta m an era, y p a ra lo g rar u n m áxim o de eficacia,
desearem os u s a r su b m u estras del m ism o tam añ o aproxim ado. Si
u n a su b m u estra es m uy pequeña, p o d rá n o re s u lta r significativa
la p ru e b a an terio r, p o r razó n de se r g ra n d e el d enom inador de Z,
re su ltan d o ad em ás in ju stifica d a la aproxim ación norm al.
P uede seguirse exactam ente el m ism o pro ced im ien to e n relar
ción con las diferencias e n tre las m edias, p o r ejem plo ( X x — X 2) —
( X 3 — X 4). H abrem os sin em bargo de ap lazar este asu n to h asta
q ue e n el capítulo xvi abordem os las com paraciones generales en­
tre k m edias.
X III.3. In terva lo s de confianza
E n el caso de p ro b lem as de u n a sola m u estra, ya vim os que la
con stru cció n de u n in terv alo de confianza constituye a m enudo
u n p ro ced im ien to m ás p rá ctico que la verificación de las h ip ó te­
sis. E n la investigación social, sin em bargo, los intervalos de con­
fianza ra ra m e n te se em plean com o altern ativ as de p ru e b as de
dos m u estras. La razó n de ello re sid e en que nos in te re sa p o r lo
re g u la r estab lecer la existencia de u n a relació n e n tre dos varia­
bles, esto es, de u n a d iferencia significativa. E n ta n to que in tere sa
m enos, en cam bio, la m ag n itu d efectiva de la diferencia en cues­
tión. E l sociólogo, en efecto, ra ra m e n te t r a ta de sac ar la conclu­
sión d e que la d iferencia e n tre dos m edias se sitú a e n tre 17 y 28,
p o r ejem plo. P o r lo regular, se da p o r satisfecho si e n c u e n tra
alguna diferencia significativa cualquiera. E ste hecho revela in­
d u d ab lem en te la fa lta de m adurez de las ciencias sociales y la
p rep o n d eran cia de los estudios exploratorios. Es posible que, a
m ed id a que las hipótesis se vayan haciendo m ás precisas, aum en­
te tam b ién la n ecesidad de los intervalos de confianza e n los p ro ­
blem as de dos m u estras.
E l pro ced im ien to em pleado p a ra el establecim iento de in terv a­
los de confianza es u n a extensión d irec ta del que se exam inó an ­
terio rm en te. Se to m an sim plem ente los re su ltad o s de las m ues­
tra s, en este caso u n a d iferencia e n tre su s m edias, y se sitú a un
in terv alo alre d ed o r de X t — X¡¡, que sea u n m ú ltip lo adecuado del
e rro r e stá n d a r. Así, p o r ejem plo, si se deseaba u n intervalo de
confianza del 95 p o r ciento, lo o b ten d ríam o s com o sigue:
Si se re q u irie ra u n a estim ación del e rro r e stá n d a r y de la distri­
bución t, la fó rm u la se m odificaría de la m an era usual.
X III.4. M uestras dependientes: pares asociados
E n ocasiones re su lta ventajoso concebir u n estu d io e n el que las
m u estras no sean independientes u n a de o tra. Uno de los tipos
m ás com unes de los problem as de esta clase es aquel en que los
casos de las dos m u estras se h a n asociado p o r pares. Puede h a­
b e r grupos de control y grupos experim entales, en los que los
m iem bros se h ayan apareado desde el p u n to de vista de algunas
características im portantes. O puede em plearse u n sim ple esque­
m a "antes y después”, en el que las m ism as p ersonas se com paran
antes y después de haberse intro d u cid o alguna variable experi­
m ental. E n este últim o caso, las "d o s” m u estras constan de los
m ism os individuos. Es obvio que sem ejantes m u estras n o son in­
dependientes u n a de otra. E n efecto, el conocim iento de las m arcas
de los p rim eros m iem bros de cada p a r (p rim e ra m u e stra ) ayuda­
ría a p red ecir las de los segundos. De hecho, el objeto del aparea­
m iento, o de servirse dos veces de los m ism os individuos, con­
siste en c o n tro la r las m ás variables posibles, a p a rte de la ex­
perim en tal. Se persigue h acer las dos m u estras lo m ás iguales
posibles, o sea m ucho m ás que si se h u b ieran seleccionado inde­
pendientem ente.
E n relación con sem ejantes problem as, el investigador podría
verse ten tad o a u sa r u n a p ru e b a de diferencia de las m edias. Sin
em bargo, h a b ría de ser obvio que este procedim iento n o estaría
justificado, ya que no tenem os 2N casos (N en cada m u e stra ) que
se hayan seleccionado independientem ente. Como q u iera que, en
efecto, las m u estras se h an apareado deliberadam ente, cualesq u ier peculiaridades de las m u estras se d arán probablem ente lo
m ism o en la o tra. E n realidad, sólo se tienen N casos indepen­
dientes, siendo cada "caso" u n par de individuos, u n o de cada uno
de las m u estras. P or consiguiente, si trata m o s cada p a re ja de
individuos, com o u n solo caso, podem os legítim am ente proceder
a efectu ar p ru eb as estadísticas, a condición que se cum plan los
dem ás supuestos requeridos. E n lu g ar de efectu ar u n a pru eb a de
diferencia de las m edias, podem os p ro ced er p o r com paración
directa p o r pares, obteniendo u n a m arca de diferencia p a ra cada
par. Si nos servim os de la hipótesis nula de que n o existe difer e n d a alguna e n tre las dos poblaciones, suponiendo así que la
variable experim ental no- produce efecto alguno, podem os esta­
blecer sim plem ente la hipótesis de que la m edia de las diferencias
p o r p ares (¡xfl) es cero. El problem a se reduce así a u n a verifica­
ción de u n a sola m u estra de la hipótesis u0 = 0.
Problema. Supóngase que u n grupo de acción se propone in­
flu ir a los electores urbanos p a ra que voten en favor de unas
p ro p u e sta s de viviendas populares en las próxim as elecciones. Se
ap a rea n cuidadosam ente las ciudades del E stad o en relación con
variables que se suponen se r significativas, y se em plean dos
m étodos d istin to s de e je rc e r influencias so b re los electores. E l m é ­
to d o del g rupo A co m p o rta u n procedim iento in d irecto co nsistente
en in flu ir sobre los elem entos directivos de las ciudades, p ero
sin ap e la r d irectam en te a la m asa. E n las ciudades del g ru p o B ,
en cam bio, la organización actú a com o g ru p o de presión, ape­
lando, com o organización ajena, d irec tam en te al elector. Las ci­
fras siguientes in dican los p o rc en tajes de votos en favor de la
fluorización. ¿E s uno de los m étodos su p erio r al o tro ?
Nám. del par
Grupo A, %
Grupo.B, %
1
2
3
4
5
6
7
8
9
10
11
12
13
63
41
54
71
39
44
67
56
46
37
61
68
51
68
49
53
75
49
41
75
58
52
49
55
69
57
Diferencia, %
5
8
- 1
4
10
- 3
8
2
6
12
—6
1
6
52
1. S u p u esto s
N ivel de m edición: El p o rc en taje de los votos es u n a escala
de intervalo
M odelo: muestreo- aleatorio
diferencias de población d istrib u id as n o rm alm en te
H ip ó te s is : [xD = 0.
H ay q ue su p o n er que los p ares que fig u ran en las m u e stra s
h an sid o seleccionados al azar de alguna población de p ares.
Como se verá m ás abajo, este supuesto p lan tea algunas veces u n
p ro b lem a difícil de in terp retació n . Como q u iera que son las dife­
ren cias de cada p a r las que nos in teresan directam ente, hay q u e
su p o n er que la población de todas las diferencias posibles está
d istrib u id a n o rm alm ente. Si N fu e ra grande, p o d ría p re sc in d irse
de este supuesto.
2. D istribución de m uestreo. Como q u iera que n o se d a la- des­
viación e s tá n d a r de las diferencias de la población, hay que r o
c u rrir a la distrib ución t, con N — 1, o sean 12 grados de libertad.
O bsérvese que éstos re p resen ta n la m ita d de los grados de liber­
ta d que se h ab ría n utilizado si la p ru e b a de la diferencia de las
m edias ( con ai = o2) h u b iera sido posible.
3. N ivel de significado y región crítica. Sirvám onos del nivel
d e .05 y de u n a p ru e b a de dos colas. P or consiguiente, con 12
grados de lib ertad , si t ^ 2.179, descartarem os la hipótesis nula.
4. Cálculo de la estadística de la prueba. P rim ero hallam os la
m edia de las diferencias de la m u estra sum ando las de la colum ­
n a de diferencias y dividiendo en tre N( = 13). Se obtiene adem ás
la desviación e stá n d a r de la m u estra de las diferencias.
X D = 52/13 = 4.0
P o r consiguiente:
Xj) —|A/>
sd /
\/N - 1
4.0 — 0
= 2.76
5 .0 2 3 y l2
O bsérvese que u n a vez que se h a obtenido la colum na de dife­
rencia, dejam os de p re s ta r atención a las re sta n te s colum nas.
E ste m ism o p rin cipio es de aplicación en situaciones m ás com­
plejas, en las que p o r ejem plo podem os te n e r u n a diferencia de
diferencias p o r cada par. (V er ejercicio 5.)
5.
Decisión. Con 12 grados de lib ertad , u n a p ro babilidad de .02
corresponde a u n a t de 2.681. Decidim os, e n consecuencia, des­
c a rta r la hipótesis n u la y, observando la dirección de la diferen­
cia, concluim os que el m étodo1 B es su p erio r al A.
X III.5. C om entarios a propósito de los esquem as experim entales
y pruebas de significación
Pese a que no sea posible p ro fu n d izar m ucho en u n texto com o
éste en cuestiones de la planificación de experim entos, unos b r e ­
ves com entarios tienen con todo aquí su lu g ar adecuado .2 El lec­
to r po d rá acaso hab erse p reg u n tad o a sí m ism o cóm o sea que
preferíam os siem pre servirnos de m u estras asociadas, en lugar de
m u estras independientes. Indudablem ente, se p ierd e n con aqué-
s Para más detalles acerca de los esquemas experimentales, véase cual­
quier texto corriente sobre métodos de investigación. Véase en particular
[8], capítulo iv.
lias algunos grados de lib ertad y, com o q u iera que el em pleo de
las m u estras asociadas im plica p a r tir los casos p o r la m ita d (e n
relación con la p ru e b a ), ¿es que n o se p ierd e m ás, con ello, de lo
que se gana? Todo esto depende de cuán acertados estem os en
el apaream ien to de los casos. P or supuesto, el o b jeto d e la aso­
ciación e stá en re d u cir las diferencias debidas a variables extre­
m as. E sto significa que u n ap aream ien to cuidadoso debería re­
d u cir considerablem ente cad a u n a de las diferencias p o r pares.
E n o tro s térm in o s: cu an to m e jo r sea el ap aream iento, tan to
m en o r será la desviación e stá n d a r de las diferencias. Así, pues,
si bien el n ú m ero de casos se reduce, la sD debería re d u cirse asi­
m ism o. Si se obtiene u n a fu e rte reducción de la desviación están ­
d a r de las diferencias en relación con la p érd id a de casos, enton­
ces salim os ganando al a p a rea r. Como q u iera que, p o r lo regular
se p e rd e rá n casos en los procedim ientos de apaream iento (véase
infra), la conclusión lógica es la siguiente: n o se apareje, a m e­
nos de e s ta r co m pletam ente seguro de h a b e r localizado las varia­
bles significativas im p o rtan tes. Si el le c to r e stá estu d ian d o la
delincuencia y ap area conform e al color del pelo, se v erá p ro b a ­
b lem en te m ás ap u rad o que si n o a p a re a ra en absoluto.
Los textos sobre m étodos suelen p o r lo re g u la r m encionar el
hecho de q ue es p ro b ab le q u e con el procedim iento de ap a rea­
m ien to se p erd erá u n n ú m ero considerable d e casos. O sea que
h a b rá que elim inar m uchos casos, p o rq u e n o hay casos sim ilares
con los que se d ejen a p a rea r. S em ejante reducción p u ed e resu l­
ta r d esastro sa en el caso del supuesto de la m u estra aleatoria.
E n efecto, u n sociólogo puede eventualm ente p a r tir de u n a m ues­
tr a aleato ria de 1 000 casos y te rm in a r con 200 que se dejen
ap arear. Al p ro ced er así, es pro b ab le que se sesgue fu ertem en te
su m u estra final, elim inando la m ayoría de los casos m ás ex tre­
m os o poco com unes, difíciles, efectivam ente, de ap arear. E n esta
fo rm a re su lta a m enudo difícil d eterm in a r el c a rá c te r de la po­
blación a cuyo p ro p ó sito se está generalizando. P or ello hay que
p ro c ed er con la m ayor p ru d en cia al generalizar los resultados.
P o r lo tan to , este tipo de esquem a es p ro b ab lem en te m ás ú til en
estu dio s en que el in terés p o r generalizar resp ecto de u n a pobla­
ción fin ita concreta, tal com o la de los blancos nativos en Chica­
go, es secundario.
E n conexión con sem ejan te reducción de casos y las dificulta­
des en cu an to a generalizar a u n a población concreta, se sostiene
a m enudo q ue no hay verd ad ero in terés en la población misma*
ya q ue el o b jeto fu n d am en tal del investigador consiste e n esta ­
b lecer "relaciones e n tre variab les”. Así, p o r ejem plo, u n psicólo­
go p u ed e acaso em pezar sirviéndose d e aquellos novatos varones
b lancos que siguen u n cu rso de in troducción a la psicología y se
p re s ta n v o lu n tariam en te com o sujetos de estudio. Puede p ro d u ­
cirse m ay o r m u estreo todavía, a m edida q u e algunos sujetos se
van elim in an d o en el proceso de apaream iento. Supóngase q u e
se en c u en tra entonces u n a relación e n tre la v ariab le experim en­
tal y alguna variable dependiente. Se prop en d erá, en este caso,
a sacar la conclusión que la m ism a relación su b sistiría indepen­
dientem ente de la población estudiada, esto es, concluir que se
tra ta de u n a relación universal. Si ello re su lta efectivam ente ser
así, el sociólogo puede m uy bien a firm a r que no tien e in teré s
alguno p o r ex ten d er la generalización a cierta población fin ita
cualquiera. Pero, ¿sobre cuál base puede su p o n er que la relación
hallad a en u n a población ta n re strin g id a es c ie rta asim ism o en
relación con o tra s poblaciones? O bviam ente, antes de p o d er h acer
legítim am ente sem ejan te afirm ación, el experim ento h a de efec­
tu arse sobre u n gran nú m ero de poblaciones m uy distintas. Pese
a que en u n experim ento' cuidadosam ente d ispuesto se p u ed e
o b ten er el co ntrol de cierto n ú m ero de variables, p rodúcese casi
siem pre u n a p é rd id a co rresp o n d ien te del grado en que los resul­
tados se pued en generalizar a poblaciones m ás extensas.
E n el ag ru pam iento p o r p ares re su lta indicado seleccionar al
azar en el in te rio r de cada p a r echando u n a m oneda al aire p a ra
decidir cuál m iem b ro del p a r deba asignarse al g ru p o experim en­
tal y cuál al g rupo de control. S em ejante p rocedim iento confiere
m ay o r contenido lógico a la in terp re tació n de los resultados, en
el sentido de que cabe excluir la autoselección. Así, p o r ejem plo,
en el in ten to de in flu ir sobre los electores en m a te ria de vivienda
p op u lar, supóngase que se p erm itía a las au to rid ad es locales ele­
gir aquel de los dos tipos de influencia que p re fería n o q u e
creían ib a a re s u lta r m ás eficaz en su localidad p artic u la r. Es
posible, en estas condiciones, que todas o- la m ayoría de las lo ­
calidades con cierto tipo de au to rid ad es fu e ran objeto' del m éto­
do' indirecto, en ta n to que las de o tro tipo' de dirigentes se verían
tra ta d a s p o r el m étodo directo. Tendríam os así u n a variable in­
co n tro lad a (el tipo de au to rid a d es), cuyos efectos se confundirían
irrem ed iab lem ente con los de la variable experim ental. Concre­
tam ente, supóngase que el g rupo B re su ltab a te n e r el p o rc e n ta je
m ás elevado de votos favorables, pero que al p ro p io tiem po dicho
grupo ten ía las autoridades m ás dem ocráticas, debido al hecho
que éstas ten dían a favorecer la aplicación a sus respectivas lo­
calidades del m étodo indirecto. ¿Cóm o podríam os sab e r si la di­
ferencia en la votación se debía efectivam ente a la superioridad
del m étodo B y no, acaso, a las diferencias e n tre las au to rid ad es
de los dos grupos de localidades?
Podría alegarse que el tipo de au to rid ad es h u b o de h ab erse con­
tro lad o en el proceso de apaream iento, de m odo que dos locali­
dades de u no cualquiera de los pares tuviera el m ism o tipo. Sin
em bargo, es obviam ente im posible c o n tro la r en el proceso de
ap aream ien to todas las variables operantes, no sólo debido a difi­
cultades prácticas, sino a causa de n u estro s conocim ientos lim i­
tad o s acerca de cuáles variables son efectivam ente las m ás im ­
p o rtan te s. En algún pu n to habrem os de a d m itir que puede
h ab e r variables im p o rtan tes, m uchas de las cuales el investigador
n o conoce y q u e n o se h an controlado en el proceso de ap a rea­
m iento. Y es p recisam ente en dicho m om ento cuando confiam os
en la selección al azar, o sea en las leyes de la probabilidad, espe­
ra n d o que los efectos d e las variables incontroladas se h ab rán
neu tralizad o m u tu am ente. Así, p o r ejem plo, con una N m ayúscula,
esperam os que, en núm eros redondos, la m ita d de las localidades
de auto rid ad es m ás dem ocráticas h a b rá n quedado en el g ru p o A,
y la o tra m ita d en el grupo B. Y lo m ism o acontecerá con o tras
variables incontroladas.
E n los esquem as experim entales ex p o st facto, en las que el
investigador sólo e n tra en función después de h ab erse efectuado
el experim ento y en las que, p o r lo tan to , n o h a tenido o p o rtu n i­
dad de efectu ar tales asignaciones al azar, la posibilidad de autoselección n u n ca puede descartarse. Ni nos ayudan las leyes de las
pro babilidades a a p reciar los efectos de la variable experim ental
e n com paración con los efectos posibles de variables resp ecto de
las cuales los grupos n o se h an apareado. Una de las m ayores
v en tajas de los experim entos de la b o ra to rio sobre los llam ados
" n a tu ra le s”, o ex p o st fació, está p recisam en te en ese control al
azar de la autoselección posible.
Sugiérense a m enudo o tro s m étodos de asociación de m uestras,
a títu lo de altern ativ as del m étodo p o r p ares. P o r lo regular, ta ­
les m étodos altern ativos p re sen tan la v en taja de a te n u a r la re ­
ducción de los casos, p e ro conducen a dificultades cuando* se llega
al análisis estadístico. Uno de dichos m étodos co m porta la aso ­
ciación p o r d istrib uciones de frecuencia. Así, p o r ejem plo, puede
p o nerse atención en que los dos grupos sean sim ilares en relación
con el ingreso m edio, la edad m edia, la distribución general del
ingreso, etcétera. E n esta form a, los grupos re su ltan com pa­
rab les en relación con dichas m edidas de resum en, aunque algún
individuo no tenga en el o tro grupo c o n tra p a rtid a exacta alguna
con la que se lo p u ed a ap a rea r. E n ese tip o de esquem a violam os
claram en te u n a vez m ás el supuesto de in d ep en d en cia; pero, que
el a u to r sepa, n o existe m odo sim ple alguno de servirse de u n a
p ru e b a estad ística que sea a la vez eficaz y no com porte algún
supuesto en entredicho. Se po d rían a p a re a r casos lo m ejo r posi­
b le y p ro ced er com o acaba de indicarse, pero el apaream iento
co nducirá in dudablem ente a u n esquem a inoperante. Sin duda, no
sería legítim o servirse de u n a pru eb a de diferencia d e m edias de
N x + N 2 — 2 grados de libertad.
Pruebas de significación y generalizaciones a poblaciones. Se ha
su scitad o un amplio' d ebate en la bibliografía sociológica en re la­
ción con la adecuación de las pru eb as de significación en aquellas
ocasiones e n q ue u n o tr a ta con la población ín teg ra. (V er espe­
cialm ente [3 ], [7 ], [9 ] y [10].) Puede, p o r ejem plo, co n tarse con
dato s corresp o ndientes a todos los condados o estados de los
E stados Unidos o de u n a región en p artic u la r. Si así ocurre, no
h a b rá u n a población m ás extensa en relación con la cual se desee
generalizar, p u d ien d o ser difícil concebir el p roceso de generali­
zación in volucrando u n a extrapolación a u n universo m ás am plio
de p ro b abilidades, o a estos m ism os casos b a jo circunstancias
análogas. E n este caso re su lta ría n inadecuadas las p ru e b as de
significación, y a que n o h a b ría ím plicito ningún e rro r en el
m uestreo.
La a c titu d que u n o adopte en esta cuestión depende en p rim er
lu g ar de si está satisfecho con generalizaciones a poblaciones fijas,
o si desea sac ar conclusiones acerca del proceso causal que pue­
den h ab e r generado los datos de población. E n este texto hem os
conceptualizado el p ro b lem a com o si n u e stro único objetivo fuese
el de deducir p artie n d o de poblaciones fijas, p e ro es evidente que
cuando deseam os relacionar n u estro s hallazgos con análisis teó­
ricos n u estro s objetivos no son n u n ca ta n sencillos. El problem a
d e sac ar deducciones causales p a rtie n d o de dato s n o experim en­
tales, basados b ien sea en m u estreo s o en la to talid a d de las p o ­
blaciones, es dem asiado com plicado p a ra su exam en en u n texto
elem ental com o éste. Sin em bargo, h ay u n procedim iento p a ra
o b ten er las p ru e b as de significación m ucho m ás com patible con
las explicaciones teóricas en lo que se refiere a p o r qué se h a
h allado u n a relación p artic u la r.
Supongam os, p o r ejem plo, que, hab ien d o u sad o la to talid a d de
los 50 estados, hem os hallad o u n a diferencia e n tre los del n o rte
y los del sur, o b ien en tre los que tienen gobernadores republi­
canos o d em ócratas. N orm alm ente n o nos conform aríam os con
h acer u n a sim ple descripción de tales diferencias, sino que que­
rríam o s o frece r u n a explicación, relacionada ta l vez con las dife­
ren cias regionales o políticas. A dm itam os que hem os advertido
q u e los estad o s del su r gastan u n a p ro p o rció n relativam ente m a­
y o r de su s p resu p u esto s en su p ercarretera s, p e ro m en o r en edu­
cación su p erior. A ntes de q u e podam os h ac er declaraciones acer­
ca de que n u e s tra explicación deberá o rien ta rse a b u sc a r factores
causales d eterm in an tes de esta diferencia regional, habrem os de
p en sa r en u n escéptico hipotético que establezca el planteam ien­
to de u n a sencilla explicación altern ativ a de n u e stro hallazgo,
a sab e r: la “causalidad".
Podría, en efecto, d ecirnos: "A firm a u sted que h a encontrado
u n a diferencia achacable a ca racterísticas regionales. Yo podría
h ab e r utilizado u n a tabla de n úm eros al azar p a ra dividir los 50 es­
tados. O bien, p o d ría haberlos o rd en ad o alfabéticam ente con base
e n la te rc era le tra de sus nom bres. Si yo pudiese p ro b a r que tal
proceso, b asad o o casi basad o en el azar, h u b iera p ro d u cid o u n a
diferencia ta n g ran d e o m ay o r que la suya, re su lta ría que su ex­
plicación n o e ra m ás plausible que la m ía.”
O bsérvese que aquí n o se h ab la de u n a generalización a una
población m ay o r que la to ta l de los 50 estados. El argum ento gira
a lre d ed o r de los procesos que pueden h a b e r generado diferencias
e n tre subpoblaciones o rdenadas de d istin tas m aneras. Es eviden­
te q ue si h ubiese sido posible o b ten er diferencias ta n grandes
com o las diferencias regionales al h acer uso de u n a ta b la de n ú ­
m ero s elegidos al azar, y siendo la teoría del escéptico m ucho
m ás sim ple que la n u estra , n o te n d ría o b je to ad e n trarse m ás en
ios datos. Si adoptam os este p u n to de v ista en relación con el
p ro ceso de la generalización, tiene sentido el h ac er p ru e b as de
significación, incluso cuando se cuente con datos correspondien­
tes a la to talid a d de la población. P arecería com o si la m ayoría
de los sociólogos tu v iera p re sen te este m ás am plio objetivo,
o rien tán d o se a d ecir algo acerca de los procesos causales, y p o r
ello p la n te a ra n p ru e b as dirigidas a elim in ar la altern ativ a del
sim ple “proceso casu al”. Sin em bargo, debe in sistirse que la
p ru e b a de significación n o excluye m uchas o tra s clases de expli­
caciones altern ativas, ta l com o la que, p o r ejem plo, in tro d u ce
v ariab les adicionales com o causas com unes de las dos variables
b a jo estudio. E n el cap ítu lo xix volverem os a este, m ás dificulto­
so, problem a.
E je r c ic io s
/. Se seleccionan al azar 50 distritos electorales en una ciudad. Se en­
cuentra que 20 de ellos están atendidos por centros de la localidad,
en tanto que los restantes no lo están. Se comparan los porcentajes de
delincuencia en esos dos tipos de distritos y se obtienen los siguientes
datos (que se indican en el núm ero de delincuentes por 1000 adoles­
centes ):
Medida
Magnitud de la m uestra
Media
Desviación estándar(es)
Con centro
Sin centro
20
27
6
30
31
8
Efectúese una prueba de significación de la diferencia entre los dos
tipos de distritos (nivel de .0 1), sirviéndose a) del modelo 1 , y b) del
modelo 2. ¿Cómo se presentan unos respecto de otros los resultados?
Respuesta, a) t = 1.87; no rechazo.
2. Una m uestra al azar de mujeres casadas que siguen viviendo con
sus m aridos ha sido objeto de selección, clasificándose a las mujeres
en ''satisfechas” o "insatisfechas” con sus respectivas vidas maritales.
Se comparan luego los dos grupos de mujeres en relación con el tiem­
po de sus matrimonios, con los siguientes resultados:
Tiempo del matrimonio
(redondeado al año)
Satisfechas
fi
Insatisfechas
^2
0-2
3-4
5-9
10-14
15-19
20-39
34
41
50
39
18
15
10
16
23
25
14
16
197
104
Total
¿Existe alguna diferencia significativa entre estos dos grupos al ni­
vel de .01?
5. Supóngase que se espera encontrar que la diferencia entre los in­
gresos medios anuales de m uestras de médicos y dentistas sea de unos
$500 (esto es, X t — X 2 = 500). Se aprecia que las desviaciones están­
dar son respectivamente de $ 1 900 y $ 1 600. Se planea seleccionar en
la m uestra total el mismo número de médicos que de dentistas. ¿Cuán­
tos casos se necesitarán para establecer significación entre los ingre­
sos medios de doctores y dentistas al nivel de .05? Supóngase que se
quiere tom ar un núm ero doble de médicos que de dentistas. ¿Cuántos
casos se necesitarán en este últim o supuesto? Respuesta, .95 de cada
uno.
4. Se ha clasificado una m uestra aleatoria de estudiantes universi­
tarios como "dirigidos por otros” y "dirigidos por sí mismos”. Se en­
cuentra que el 58 por ciento de los alumnos avanzados son dirigidos
por otros, en tanto que pertenece a esta categoría el 73 por ciento de
los alumnos novatos. En la m uestra total figuran 117 alumnos avan­
zados y 171 alumnos novatos. ¿Es esta diferencia significativa al nivel
de .001?
* 5. Supóngase que se ha dispuesto un experimento de antes —y—
después con grupo de control. En otros térm inos: se han relacio­
nado dos grupos por pares y se han tom ado medidas de ambos grupos
Par
A
B
C
D
E
F
G
H
I
J
Grupo de control
---------------------------Antes
Después
72
61
48
55
81
50
42
64
77
69
75
60
37
64
76
59
49
55
75
78
Grupo experimental
--------------------------Antes
Después
66
61
43
55
76
52
40
65
67
64
77
65
49
53
91
68
51
74
79
63
antes y después del experimento. Empléese la prueba t en relación
con la efectividad de la variable experim ental: a) sirviéndose solamen­
te de las m arcas de “después" e ignorando las de “antes” ; b) emplean­
do las m arcas "antes” y “después” en el grupo experimental única­
mente, y e ) utilizando los cuatro juegos de marcas. (Indicación: ¿Cómo
pueden emplearse las cuatro m arcas para descartar los efectos sobre
la variable experimental de factores ajenos susceptibles de haber afec­
tado ambos grupos? Compárense las ventajas y los inconvenientes de
los métodos a) y b). ¿Cuáles son las ventajas de c) respecto de a) y
b)7 Respuesta, a) t = 1.25, sin rechazo.
*
6. En el cuadro XV.4 del capítulo xv se encontrarán algunos datos
relacionando las puntuaciones que los niños reciben por su habilidad,
esfuerzo y clase social.
a) Teniendo en cuenta tan sólo la clase media, hágase una prueba
para ver si la relación entre esfuerzo y grado varía según el nivel de
habilidad del estudiante.
b) Amplíese esta prueba para ver si la "interacción” probada median­
te a ) difiere según sea la clase social del estudiante.
Nota: En realidad, en b) se estará buscando una interacción de una
interacción, o lo que se denomina una interacción de segundo orden.
B iblio g rafía
1. Alder, H. L., y E. B. Roessler: Introduction to Probability and
Statistics, 4? ed., W. H. Freeman and Company, San Francisco,
1968, caps. 8 y 10.
2. Downie, N. M., y R. W. Heath: Basic Statistical Methods, 2? ed.,
Harper and Row, Publishers, Incoiporated, Nueva York, 1965,
caps. 11 y 12.
3. Gold, David: “Statistical Tests and Substantive Significance",
American Socialogist, Vol. 4 pp. 42-46, 1969.
4. Goodman, L. A.: “Modifications of the Dom-Stouffer-Tibbetts Me­
thods for ‘Testing the Significance of Comparisons in Sociological D a ta '”, American Journal of Sociology, Vol. 66, pp. 355-359,
1961.
5. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 19.
6. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 10.
7. Kish, Leslie: “Sootne Statistical Problema in Research Design",
American Sociological Review, Vol. 24, pp. 328-338, 1959.
8. Selltiz, C., M. Jahoda, M. Deutseh y S. W. Cook: Research Me­
thods in Social Retations, Henry Holt and Company, Inc., Nueva
York, 1959, cap. 4.
9. Selvin, H. C„ "A Critique of Tests of Significance in Survey Re­
search", American Sociological Review, Vol. 22, pp. 519-527, 1957.
10. Winch, R. F., y D. T. Campbell: “Proof? No. Evidenee? Yes. The
Significance of Tests of Significance", American Sociologist, Vol.
4, pp. 140-143, 1969.
X IV . ESCALAS O R D IN A L E S : PR U E B A S NO
PA R A M ÉTR IC A S D E DOS M U E ST R A S
H a s t a aq u í n o hem os tenido ocasión de exam inar pru eb as de sig­
nificación que co m p o rtaran escalas ordinales, p ese a h a b e r seña­
lado en el capítulo n que éstas son m uy frecuentes en ciencias
sociales. E n el p resen te capítulo vam os a ocuparnos de pruebas
de dos m u estras que pueden em plearse con escalas ordinales,
p ru eb as com parables d irectam ente con las que co m p o rtan dife­
rencias de m edias y proporciones, tales com o las vim os en el ca­
p ítu lo an terio r. P o r lo tan to , las pru eb as exam inadas en este
capítulo pued en em plearse p a ra relacio n ar variables de escala o r­
dinal con las que co m portan u n a escala nom inal dicotóm ica. E n
los capítulos sucesivos verem os luego pru eb as que p erm iten re ­
lacionar u n a escala o rdinal con u n a escala nom inal de cualquier
nú m ero de categorías o con o tra escala ordinal.
Las p ru e b as que se exam inan en el p re sen te cap ítu lo se desig­
n an a m en u d o com o no param étricas, o com o p ru e b as libres de
distribución, p o r cu an to no re q u ie ren el su puesto de u n a pobla­
ción norm al. E n realidad, ta n to u n térm ino com o el o tro son algo
equívocos. Ñ o querem os significar, en efecto, que com portan dis­
tribuciones las p ru e b as que n o tienen p arám etro s. Ni puede es­
ta r u n a p oblación “libre d istribución''. De hecho, am bos térm i­
nos se em plean p a ra designar u n a v asta categoría d e pruebas
que n o re q u ie ren el su puesto de n o rm alid ad n i algún o tro supues­
to que especifique la fo rm a exacta de la población. Sin duda, en
todas las p ru e b as n o p aram étrica s se req u ieren algunos supues­
tos acerca de la n aturaleza de la población, p ero p o r lo general,
con todo, dichos supuestos son m ás débiles y m enos restrictiv o s
q u e los que n ecesitan las p ru e b as param étricas. P o r lo dem ás, ya
nos hem os en c o n trad o con algunas p ru eb as n o param étricas. Así,
p o r ejem plo, la p ru e b a binom ial, la del signo y la de diferencia
de p roporciones n o req u ieren el su p u esto de norm alidad, ya que
todas ellas se refiere n a escalas nom inales dicotóm icas. A dife­
ren cia de estas p ru e b as no p aram étrica s p artic u la res, aquellas de
las que nos ocupam os en este capítulo com portan todas ellas
escalas ordinales, lo que p e rm ite servirse de u n nivel de m edición
algo m ás alto. E n el siguiente capítulo se exam inarán dos p ru e ­
bas no p aram étrica s adicionales, que sólo com portan, u n a y otra,
escalas nom inales.
¿Cuál es la v e n ta ja de las p ru e b as n o p aram étricas e n com pa­
ració n con u n a p ru e b a tal, p o r ejem plo, com o la de la diferencia
de las m ed ias? Al servim os de la p ru e b a t en relación con una
p ru eb a de diferencia de m edias, vim os que era indispensable ser­
vim o s n o sólo de u n a escala de intervalo, sino tam bién de una
256
población norm al. Sin duda, podría prescindirse del supuesto de
norm alid ad en el caso de m u estras grandes, pero alegábase, con
todo, que precisam ente cuando las m u estras son pequeñas el
sup u esto de norm alidad re su lta m ás dudoso. P or consiguiente,
esperarem os e n c o n trar que las alternativas no p aram étricas de
la p ru eb a de la diferencia de las m edias sean m ás útiles siem pre
que se dé u n a de las dos condiciones siguientes: 1) que no po­
dam os servirnos legítim am ente de una escala de intervalo, pero
estan d o justificado, con todo, el ordenam iento de las m arcas, o 2)
que la m u estra sea pequeña y la n o rm alidad no pueda p re su m ir­
se. Como q u iera que estas pruebas no p aram étricas com portan
supuestos m ás débiles que la p ru e b a de la diferencia de las me­
dias, pueden acaso n o sac ar provecho de toda la inform ación
disponible. Así, pues, si p u ed e em plearse legítim am ente u n a es­
cala de intervalo y si el supuesto de n orm alidad puede h acerse
en el caso de m u estras pequeñas o ab andonarse en el caso de las
grandes, la p ru e b a de la diferencia de las m edias será p o r lo
general p referib le a las pru eb as no p aram étricas.
¿E n qué sentido podem os decir que u n a p ru e b a sea preferible
a o tra? ¿Cuáles criterios se em plean p a ra a d o p ta r sem ejante deci­
sión? E n p rim e r lugar, com o ya se indicó anteriorm ente, si u n a
p ru e b a nos im pone ciertos supuestos dudosos que n o se dejen
verificar en sí m ism os, n o será tan satisfac to ria com o la que no
nos los im ponga. Si todas las dem ás condiciones fu eran iguales,
lo que p rácticam ente n u n ca ocurre, escogeríam os siem pre la
p ru e b a que re q u irie ra los supuestos m ás débiles. Y si los resu l­
tad o s de la p ru e b a aconsejaran descartar, podríam os tan to m ás
fácilm ente co n siderar la hipótesis nula com o único supuesto fal­
so. P o r desgracia, sin em bargo, el problem a no es tan sencillo.
Si lo fuera, en efecto, siem pre nos serviríam os de procedim ientos
n o p aram étricos. R esulta p o r lo regular que la prueba que re­
q u iere supuestos m ás firm es es tam bién m ás fuerte, en el sentido
que su em pleo co m porta un riesgo in ferio r de e rro r de tipo II.
Tenem os, pues, dos criterio s que actúan en sentidos opuestos y
h an de evaluarse en consecuencia. O sea que las pruebas no p a ­
ra m étricas req uieren supuestos m ás débiles, p ero son m enos
fu ertes. O btendrem os u n a idea m ás clara de lo que se entiende
p o r supuestos “fu e rte s” y "débiles” cuando lleguem os a las p ru e ­
b as concretas no p aram étricas que pueden utilizarse com o alte r­
nativas de la p ru eb a de la diferencia de las m edias. Antes, sin
em bargo, hem os de exam inar la cuestión de cóm o se ap recia la
fu erza relativ a de u n a prueba.
*XIV .l. Fuerza y eficiencia de la fuerza
La fuerza de u n a p ru e b a se define com o 1 — (probabilidad de
e rro r de tip o II), o sea com o 1 — (3. Así, pues, la fuerza de u n a
p ru e b a es in v ersam en te pro p o rcio n al al riesgo de d e ja r de des­
c a rta r u n a h ipótesis falsa. C uanto m ás capaz es u n a p ru e b a de
elim in ar falsas hipótesis, ta n to m ayor es su fuerza relativa. Como
ya se indicó, es m u ch o m ás difícil a p re c ia r el riesgo d e e rro r de
tip o I I que de tip o I. P a ra ello, en efecto, n o sólo hem os de co-
F ig . X IV .l. Funciones de pótemela para pruebas de dos colas, con
a = .05, para m u e stra s de tam año variable. ( Con la autorización
de W. J. Dixon y F. J. Massey, "In tro d u ctio n to S tatistical A nalysis", M cGraw-Hill Book Com pany. N ueva York, 1957,
fig. 14.6, p. 252.)
n o cer la fo rm a exacta de la población, sino que hem os de sab er
tam b ién el g ra d o en que el p a rá m e tro tom ado com o hipótesis
difiere del v erd ad ero valor. E n o tro s térm in o s: la p ro b ab ilid ad
de u n e rro r d e tip o II, y con ella la fu erza de la pru eb a, d e ­
p en d e de cuál hipótesis altern ativ a sea efectivam ente correcta.
P o r estas razones, de hecho, ra ra m e n te calculam os en la inves­
tigación aplicada las probabilidades de e rro re s del tip o II. Sin
em bargo, com o ya se d ejó e n tre v e r an terio rm en te, la fuerza de
u n a p ru e b a h a de em p learse al ap re c ia r su eficiencia relativa.
P ueden h acerse v arias p ru e b as altern ativ as que com porten el
m ism o riesgo d e e rro r de tipo I. Nos servim os, pues, de los ries­
gos relativos d e com eter erro re s d e tip o II p a ra seleccionar u n a
p ru e b a que sea la m ás ap ro p iad a en u n d eterm inado co n ju n to de
condiciones. Si b ien el p ro b lem a d e d e te rm in a r la fuerza de u n a
p ru e b a es b a sta n te com plejo y v a m ás allá del p ro p ó sito del
p re sen te texto, podem os in d icar con todo, de m odo general, lo
q u e sem ejan tes com paraciones com portan. P a ra ello necesitam os
in tro d u c ir la noción de la función de la fuerza.
La fo rm a general de u n a función de la fuerza p a ra u n a p ru eb a
d e dos colas p u ed e verse en la fig u ra X IV .l. S em ejan te función
nos da la fu erza de u n a p ru e b a en relación con la s d istin tas a lte r­
nativas co rrectas posibles de la H 0. O e n fo rm a m ás c o rre c ta :
supóngase que hem os tom ado com o hipótesis u n determ inado
v alor [Xq p a ra la m edia de la población. Supóngase, sin em bargo,
que la v erd ad era m edia de la población se sitú a en realidad a dos
erro res están d a r de la m edia de la hipótesis. Es obvio, en este
caso, que H 0 es fa lsa y debería descartarse. Como q u iera que la
fu erza de u n a p ru e b a es 1 — ¡3, dicha fuerza nos da en realidad
la pro b ab ilid ad de descartar H 0 cuando ésta es falsa. Y esta ú lti­
m a p robabilidad, y n o la probabilidad de e rro r, nos es d ad a p o r
el alto de la curva. Si la v erd ad era m edia se sitú a a dos e rro ­
re s e stá n d a r de [Xo, la probabilidad de d e sc a rta r H 0 puede d eter­
m in arse hallando la a ltu ra de la curva, en dicho punto, en el eje
de las X . Así, pues, los valores a lo largo del eje de las X indican
los valores correctos posibles de [x, en ta n to que los del e je de las
Y in d ican las p robabilidades de d e sc a rta r H 0.
O bsérvese q ue si el v alor correcto de la m edia es efectivam ente
(jo (y q ue p o r lo ta n to com eteríam os e r ro r descartando H 0), la
a ltu ra de la función de la fuerza viene dada p o r el nivel d e signi­
ficación de la p ru eb a. ¿P or qué? O bsérvese asim ism o q u e si el
v alo r co rrecto de [x n o queda dem asiado d istan te de (Xo, la fuerza
de la pru eb a, según la indica la a ltu ra d e la curva, es m en o r que
e n el caso en que el verd ad ero valor es to talm en te d istin to de (XoE sto nos dice que n u estro riesgo de e r ro r de tip o II es relativa­
m en te grande cuando el valor tom ado com o hipótesis no queda
d em asiado lejos del valor correcto, p ero que, si nos hem os ap a r­
tad o del blanco en u n grado considerable, tendrem os u n a p ro b a­
b ilid ad m ucho m ayor de d esc artar n u estra s hipótesis falsas. E sto
co n cu erd a con el arg u m en to intuitivo que form ulam os a n te rio r­
m en te en conexión con la binom ial. Y corresponde asim ism o a
n u estro s intereses prácticos. En efecto, si n u e stra hipótesis nula
es casi co rrecta, n o nos preocupa m ucho que dejem os de descar­
tarla , pese a que, desde el p u n to de v ista técnico, estem os en
e rro r al p ro ced er en esta form a. Cuando H 0 es sustancialm ente
in co rrecta nos in te re sa v erdaderam ente d escartarla.
*
P a ra g en erar la a ltu ra de la función de fuerza en cualquier
p u n to dado situ ad o en el eje horizontal, necesitarem os e s ta r lis­
tos p a ra su p o n er la fo rm a que tenga la distribución del m uestreo.
E n este caso p a rtic u la r suponem os que la distribución del m ues­
tre o de X es Ñ o r (¡x, a2/N ) . Si la m edia verd ad era de [x se en­
c u e n tra a la d erecha de la m edia su p u esta [x0. com o aparece e n la
fig u ra XIV.2, la distribución real del m u estreo (a lred ed o r de ¡x)
se h allará a la d erecha de la d istribución supuesta del m ism o
(a lred ed o r de j x o ) . U sam os desde luego la distribución supuesta
del m u estreo p a ra d eterm in a r la región crítica, ya que descono1cem os la jx verd adera. Supongam os que la región crítica re su lta
se r el grupo de X m enores que a p e ro m ayores que b. P ara de­
te rm in a r la fu erza de la p ru e b a debem os evaluar la probabilidad
real de caer d e n tro de la región crítica, p u esto q u e la m edia ver­
d ad era es (x y n o ¡xo- E sto se logra calculando la superficie som ­
b re a d a colocada bajo la distribución real de la m uestra, situada
en el d iag ram a a la izquierda de a y a la derecha de b. Vemos que
cuando ¡i y {x0 e stán alejadas, dicha superficie es casi la unidad,
p e ro cuando [x y fx0 e stán m uy próxim as se aproxim a a a (p o r
ejem plo .05), en su lím ite m ás bajo.
F ig . XIV.2.
Derivación de la fuerza com o función de
(¡x — (x0).
Con o b jeto de d a r u n a indicación m e jo r de cóm o se em plean en
realid ad las funciones de la fuerza, podem os c o m p arar la función
de la fu erza de u n a p ru e b a de dos colas (fig u ra X IV .l) con las de
algunas de u n a sola cola. Supongam os, u n a vez m ás, que H 0
p red ice que la v erd ad era m edia es [x0. O bsérvese la p ru e b a de una
sola cola en la que nos hem os servido com o región crítica de la
cola su p erio r o positiva. Si el v erd ad ero v alo r de ¡x es efectiva­
m en te m ayor que ¡x0, la m ayoría de las m edias de la m u estra
sacadas de la p oblación serán tam b ién m ayores que fxo, y ten d re­
m os m ayores p ro b ab ilid ad es de te rm in a r en dicha región crítica
de u n a sola cola que si nos hu b iéram o s servido de u n a p ru e b a de
dos colas al m ism o nivel de significación. E n otros té rm in o s : si
¡x queda efectivam ente a la d erecha de ¡xo, tenem os m ayores p ro ­
babilidades de d e sc a rta r H„ con u n a p ru e b a de u n a sola cola en
dicha dirección. E sto significa, p o r supuesto, que la fuerza de
esta p ru e b a p a rtic u la r de u n a sola cola será m ay o r p a ra valores
de [x en dirección positiva. P ero supóngase que el verdadero va­
lo r de [x qu ed a en realidad a la izquierda de ¡x0. E n tal caso, la
m ayoría de las X qu ed ará a la izq u ierd a de }Xo, y m uy pocas de
ellas caerán en la región crítica del extrem o opuesto' (o positivo)
del continuo. E n este caso, p o r consiguiente, n o estarem o s p rá c ­
ticam en te n u n ca en condiciones de d e sc a rta r H 0, y la fuerza de
la p ru eb a de u n a sola cola será efectivam ente m uy débil. Y es
obvio que el tip o opuesto de m odelo se p ro d u c irá en el caso
de p ru e b as de u n a so la cola con regiones críticas e n las colas in­
feriores 01 negativas.
Las funciones de la fuerza de p ru e b as de u n a y de dos colas
p u ed en co m p ararse com o en la figura XIV.3. E n resum en, vem os
que la p ru e b a de u n a sola cola será m ás fu e rte que la co rrespon­
diente de dos colas (sirviéndonos del m ism o nivel de significa­
ción) p a ra altern ativ as q u e se h allan en dirección d e la región
crítica, p ero será m ucho m enos fu e rte si el p a rá m e tro qu ed a en
realid ad en dirección o p u esta a la q u e se anticipó. P o r consi­
guiente, el riesgo de e r ro r de tipo I I es considerable si se efectúa
u na, p ru e b a de u n a cola y se y e rra al an tic ip a r la dirección. En
ta l caso, los datos tam poco pu ed en em plearse de cualquier m odo
p a ra apoyar la teoría. P or lo tan to , p ro b ab lem en te no se ten ­
d rá in teré s alguno en seg u ir ad elan te con la p ru e b a, a m enos que,
con fines de exploración, se q u iera av eriguar si u n a teo ría to ta l­
m en te o p u esta te n d ría o no m érito alguno.
Fig. XIV.3. C om paración de funciones de potencia para pruebas
d e una y dos colas, con a — .05. a ) Rechace si Z > 1.645. b ) R e­
chace si Z < —1.645. c) Rechace si Z > 1.96 o si Z < —1.96. (Con
la au torización de W. J. Dixon y F. J. M assey, " In tro d u ctio n to
S ta tistical Analysis'', McGraw-Hill B ook Com pany. N ueva Y ork,
1957, fig. 14.5, p. 249.)
Al co m p arar las p ru e b as de u n a y de dos colas, hem os visto
q ue u n a p ru e b a d eterm in a d a p u ed e se r m ás fu e rte e n relación
con ciertas altern ativ as y m enos fu e rte e n relación con o tras.
E n térm in o s generales, esto puede o c u rrir tam b ién al co m p arar
dos clases m uy d istin ta s de pruebas. Así, p o r ejem plo, no ta rd a ­
re m o s en v er que u n a p ru e b a no p a ra m é tric a p a rtic u la r puede
se r m ás fu e rte que o tra e n u n determ inado con ju n to de circuns-
ta n d a s , p ero m enos en otras. Es este hecho lo que hace que sea
difícil d esa rro llar generalizaciones relativam ente sim ples a p ro ­
p ó sito de la su p erio rid ad de u n a p ru e b a resp ecto de o tra. Y la
situación se com plica adem ás p o r el hecho de que u n a p ru eb a
po d rá ser fu e rte en relación con m u estras grandes, p e ro relativa­
m en te m enos e n el caso de m u estras pequeñas. P or supuesto, la
fu erza de cu alquier p ru e b a determ in ad a au m en ta rá con el tam año
de la m u estra, ya que p a ra cualquier nivel de significación d eter­
m inado el au m en to del tam año de la m u estra hace posible des­
c a rta r la hipótesis n u la con m enores desviaciones resp ecto de los
valores anticipados. H em os visto, p o r ejem plo, que el e rro r es­
tá n d a r de la m edia decrece a m edida que crece N y que, p o r con­
siguiente, a m edida que N aum enta, 1a. m edia de la m u estra ha
de q u ed ar m ás cerca del valor tom ado com o hipótesis p a ra que
podam os re te n e r H 0. Lo que decim os, pues, es que podem os des­
c a rta r m ás fácilm ente u n a hipótesis falsa cuando N es grande.
S in em bargo, au n q u e la fuerza de u n a p ru e b a p u ed a au m en ta r al
au m en tar N, la tasa del aum ento de fuerza puede n o se r la m is­
m a p a ra to d as las pruebas. P or lo tan to , u n a p ru e b a de fuerza
relativam ente débil con u n a N peq u eñ a puede acaso "alcanzar”
a otra, de m odo que la p rim era sea en realid ad m ás fu e rte en el
caso de m u estras grandes.
Con o b jeto de co m p arar la fuerza relativ a de dos pruebas, po­
dem os p re g u n ta rn o s cuántos casos se n ecesitarían con la prim era
p a ra o b ten er la m ism a fuerza que con un n ú m ero determ inado
de casos de la segunda. P or lo re g u la r com param os la fuerza de
u n a p ru e b a d eterm in ad a con la de la altern ativ a m ás fuerte. En
el caso de las tre s p rim eras pru eb as n o p aram étricas exam inadas
en este capítulo, la altern ativ a m ás fu e rte será la p ru e b a t p ara
la diferencia de las m edias. Se em plea com únm ente el térm ino
de eficiencia d e la fuerza p a ra designar la fuerza d© tina p ru eb a
determ in ad a en relación con su altern ativ a m ás fu e rte. Si desig­
nam os la eficiencia de la fuerza de u n a de dichas pru eb as no pa­
ra m étricas com o del 95 p o r ciento, querem os decir que la fuerza
de la p ru eb a n o p aram étrica sirviéndose de 100 casos es aproxi­
m adam ente la m ism a que la de la p ru e b a t sirviéndose de 95
casos, si el m odelo em pleado en la prueba t as correcto.
Como q u iera que es necesario su poner u n a d eterm in ad a form a
de la población p a ra p o d er evaluar la fuerza de u n a prueba, nos
im aginam os, en la ilustración an terio r, que tenem os en realidad
u n nivel de m edición de escala d e intervalo y que las dos pobla­
ciones son n orm ales en cuanto a la form a. Al d eterm in a r la efi­
ciencia de la fuerza de la p ru eb a no' param étrica, nos estam os
fund am en talm ente p reguntando a nosotros m ism os cu án to nos
co stará el d e ja r de acep tar el supuesto de no rm alid ad si sem e­
ja n te supuesto- fu e ra de hecho legítim o. Aquí vem os que el hecho
de d e ja r de a c e p ta r dicho supuesto y n u estro em pleo consecuen­
te de la p ru e b a n o p a ra m é tric a nos co staría cinco casos ad icio ­
nales p o r encim a de los 95 utilizados en la p ru e b a de la d iferen­
cia de las m edias. Con u n a p érd id a de eficiencia ta n pequeña, es
p ro b a b le que seguiríam os adelante con la p ru e b a n o p aram étrica
si tuviéram os la m en o r duda respecto de los supuestos req u erid o s
p o r aquélla. P o r o tra p a rte , si la eficiencia de la fuerza sólo fuera
del 60 p o r ciento y si los alejam ientos re sp ecto de la no rm alid ad
no fu eran demasiado* gran d es (o si N fu e ra gran d e) nos serv iría­
m os p ro b ab lem en te de la p ru e b a de la d iferencia de las m edias.
Como ya se indicó en el cap ítu lo precedente, cuando las
m u estras son pequeñas necesitam os p reo cuparnos m ás p o r el
su p u esto de n o rm alidad. E n el caso de N peq u eñ a n o será p o r
lo re g u la r posible tra d u c ir enunciados de eficiencia de la fuerza
en com paraciones de tam añ o s exactos d e m u estras, y a que estas
ú ltim as cantidades h a n de se r siem pre en teras. Así, p o r ejem plo,
con 95 p o r ciento de eficacia, u n a m u e s tra de tam añ o 10 q u e se
sirv iera de la p ru e b a n o p ara m é tric a sería equivalente de form a
ap ro x im ad a a u n a de 9.5 que se sirviera de la p ru e b a t. Pese a que
sem ejan te en unciado n o tenga sen tid o desde el p u n to de vista
operacional, ayuda, p o r lo m enos, a estab lecer com paraciones.
Antes de te rm in a r e sta sección, conviene re c o rd a r u n a vez m ás
q ue la eficiencia de la fuerza de u n a p ru e b a d eterm in ad a puede
d ep en d er del tam añ o de la m u e stra seleccionada. P uede se r m uy
eficaz en relación con m u estras pequeñas, p e ro m ucho m enos efi­
caz e n el caso de m u estras grandes.
XIV.2. La prueba de las secuencias (ru n s ) d e W ald-W olfow itz
E n la p ru e b a de las secuencias, así com o en las o tras dos p ru e ­
b as q u e se ex am inarán en este capítulo a continuación, supone­
m os que tenem os dos m u estras alea to rias independientes y que
el nivel de m edición es p o r lo m enos u n a escala ordinal. E n las
tre s p ru eb as en cuestión, n u e s tra h ip ó tesis n u la será que las dos
m u estras se h an e x tra íd o de la m ism a población co n tin u a (o de
poblaciones id én ticas). La dim ensión subyacente se su p o n d rá se r
continua, y n o d iscreta, aunque adm itam os que puedan re s u lta r
datos ligados e n tre sí, debido a la im perfección del in stru m e n to
d e m edición. La hipótesis de que las dos m u estras se h ayan to­
m ad o de la m ism a población es en re alid ad m uy sim ilar a n u es­
tro su p u esto en la p ru e b a de la d iferencia de las m edias. E n
efecto, com o ya se indicó an terio rm en te, cu an d o ju n tam o s los su ­
p u esto s de norm alidad, de, variancias iguales y de m edias ta m ­
b ién iguales, suponem os en realidad que las dos poblaciones son
idénticas. E n el caso de la p ru e b a d e las secuencias, ponem os la
h ip ótesis de q ue las dos poblaciones p re se n ta n exactam ente
la m ism a fo rm a y p u ed e n p o r consiguiente to m arse como* iguales.
Sin em bargo, no necesitam os especificar la n atu raleza d e dicha
form a. É sta p o d rá s e r norm al o no serlo. P or lo tan to , hacem os
u n con ju n to de supuestos m ás débil que el que se requiere en la
p ru eb a de la diferencia de las m edias, o sea, m ás débil en el sen­
tido de que la p ru e b a de la diferencia de las m edias ( con o igua­
les) req u iere todos los supuestos de la pru eb a de las secuencias,
con el supuesto, adem ás, de n orm alidad y el em pleo de u n a esca­
la de intervalo.
En la p ru eb a de la diferencia de las m edias n u estro interés se
ce n tra en diferencias de la tendencia central m ás que en las
diferencias de dispersión o- de form a. La p ru e b a de las secuen­
cias, en cam bio, verifica esencialm ente todas esas posibles dife­
rencias sim ultáneam ente. Como verem os en seguida, su em pleo
p rincipal está en la verificación de diferencias de dispersión o de
form a, ya que, p a ra la verificación de diferencias de la tendencia
central, h ay p ru eb as no p aram étricas m ás eficaces. Obsérvese,
de paso, que la hipótesis n ula
se h a establecido e n térm inos de
m edias o de desviaciones están d ar, sino- m ás bien en térm inos
de diferencias cualesquiera. Eso se aplica tam b ién a las pruebas
no p aram étricas a exam inar en el p resen te capítulo. Con las es­
calas ordinales no tiene sentido, p o r supuesto, p en sa r en térm inos
de m edias y de desviaciones están d ar.
El principio básico im plicado en la p ru e b a de las secuencias es
m uy sencillo, lo m ism o que los cálculos. Tom am os p rim ero los
datos de am bas m u estras y ordenam os los datos de los m ás al­
tos a los m ás bajos, prescindiendo1 de que provienen de m u estras
d istintas. Si la hipótesis nula es correcta, confiam os en que las
dos m u estras e starán bien m ezcladas. En otros térm in o s: no con­
tam os con u n a gran serie de datos de la p rim era m u e stra seguida
p o r o tra larga serie de datos de la segunda. Así, p o r ejem plo, si
designam os las m u estras como A y B, esperam os que la ordena­
ción re su lta rá m ás o m enos com o sigue:
ABBABAAABABBABBAAABAAB
y no com o
AAAAAAAAABABBBBBBBBBBB
Con o b jeto de com probar h a sta qué p u n to las dos m u estras
están m ezcladas u n a vez ordenadas, contam os sim plem ente el n ú ­
m ero de series continuas que se producen. La secuencia se define
com o serie co n tinua de datos de la m ism a m uestra. E n el p rim ero
de los dos ejem plos anteriores tenem os u n a secuencia de u n a
sola A, seguida de u n a serie de dos B, luego una sola A, u n a sola
B, u n a serie de tres A, etcétera. El núm ero to tal de secuencias
es, p o r lo- tan to, de 14. E n el segundo* ejem plo, en cam bio, las A
están agrupadas en la m ita d in ferio r dél continuo, y sólo tenem os
cuatro1 secuencias o runs. P or lo regular, el cóm puto de las se­
cuencias se facilitará evitándose adem ás erro res, trazan d o una
línea d ebajo de los datos de la prim era m u estra y u n a raya a r r i­
b a de las de la segunda. E n esta form a sólo necesitam os c o n tar
el n ú m ero de ray itas separadas. Si el núm ero de las secuencias
es grande, com o en el p rim e r ejem plo, entonces las dos m u estras
e sta rá n ta n bien m ezcladas que no estarem os en condiciones de
d e sc a rta r la h ipótesis nula. P or o tra p arte, u n núm ero reducido
de secuencias significa probablem ente que la hipótesis es inco­
rre c ta y d ebería descartarse. La distribución de m uestreo de las
secuencias p u ed e utilizarse p ara establecer la región crítica de la
que nos servim os p a ra d esc artar la hipótesis nula.
P roblem a. Supóngase que unos jueces h an ordenado 19 organi­
zaciones sociales de acuerdo con el prestigio de las m ism as, a tri­
b uyendo u n a p u n tu ació n de 1 a la de m ayor prestigio y de 19 a
la in ferio r. Diez de dichos grupos restringen la adm isión a los no
judíos, en ta n to que los otros 9 adm iten tam b ién a éstos. S u p o ­
niendo que dichas organizaciones sociales se h an seleccionado al
azar so b re la b a se de u n a lista de todas las dem ás organizaciones
sociales de la localidad, ¿podem os llegar a la conclusión de que
en la población se da u n a diferencia significativa de p restigio en­
tre las organizaciones sociales restrictivas y las no restrictivas?
A dm isión restrictiva: Rangos 1, 2, 4, 5, 6, 7, 9, 11, 14, 17 (N 1 = 10)
A dm isión no restrictiva: Rangos, 3, 8, 10, 12, 13, 15, 16, 18, 19
( t f a = 9)
1. Supuestos.
N ivel de m e d ic ió n : el prestigio com o escala ordinal
M odelo: m u estras aleatorias independientes
H ip ó te s is : las m u estras se han extraído de poblaciones con
las m ism as distribuciones continuas.
2. D istribución de m uestreo. Si tanto N t corno No son m enores
o iguales a 20, la d istrib u ció n de m uestreo exacta del nú m ero de
secuencias r está dada en el cuadro E del A péndice 2. P ara N m a­
yores, la distrib u ción de m uestreo de r es aproxim adam ente n o r­
m al, con la
m edia =
2N1N 2
= ----- — + 1
^
Nx+ N2
(X IV .l)
iv
y la
desviación e s tá n d a r = ar
V
M
A
M
- N, -
n
2)
(N 1 + N 2) H N 1 + N 2 - l )
( XI V. 2 )
Obsérvese que, au n q u e n o se suponga la no rm alid ad de la pobla­
ción, la d istrib u ció n de m uestreo de r será aproxim adam ente n o r­
m al, incluso con N pequeñas. Como habrem os d e v e r e n segui­
da, cierto n ú m ero de estadísticas de p ru e b a n o p a ra m é tric a s
poseen tam b ién esta propiedad. O bsérvese asim ism o que las
fó rm u las de la m edia y del e rro r e stá n d a r sólo c o m p o rta n los ta ­
m años de las m u e stra s y n o req u ieren , p o r lo ta n to , q u e p roceda­
m os a a p reciar los p a rá m e tro s de la población, com o e r a el caso
con la p ru e b a de la diferencia de las m edias. La sim plicidad
co m p arativ a d e las fórm ulas d e las distribuciones d e m u estreo
de las estad ísticas no p aram étrica s se debe en p a r te al h ech o que,
com o q u iera que las m arcas se h a n ordenado y h a n d e to m ar
siem pre, p o r consiguiente, los valores num éricos 1, 2, 3, . . . , N,
las m agnitudes tales com o la sum a y la desviación e s tá n d a r de los
ó rdenes dependen únicam ente del n ú m ero de casos em pleado.
3.
N ivel d e significación y región crítica. Como q u ie ra q u e el
cu ad ro E, A péndice 2, sólo d a el n ú m ero de secuencias necesarias
p a ra el d esc arte al nivel d e .05, nos vem os reducidos, e n relación
con m u estras pequeñas, a dicho nivel de significación, p ese a que
pueden en c o n trarse cuadros m ás com pletos e n [9 ]. O bsérvese
que la p ru e b a de las secuencias n o to m a en consideración la di­
rección de la relación e n tre el prestig io y la re stric ció n de adm i­
sión. P o r o tra p a rte , cuando nos servim os de la d istrib u ció n de
m u estreo de r, sólo estam os interesados en u n a cola, ya que
sólo podem os d e sc a rta r la hipótesis n u la si hay u n p eq u eñ o n ú ­
m ero de secuencias (in d ep en d ien tem en te de la dirección de la
d iferen cia).1 E n sen tid o estricto, pues, em pleam os la p ru e b a de
las secuencias com o p ru e b a de u n a sola cola, p ese a que no> se
haya an ticip ad o la dirección de la relación. La m ism a situación
se nos p re s e n ta rá con la p ru e b a d e M ann-W hitney, que se exa­
m in a en la sección siguiente, así com o en o tra s p ru e b as im por­
tan tes de las q u e habrem os de o cu p am o s en capítulos subsiguien­
tes. Con o b jeto de ev itar am bigüedades, distinguirem os, p o r lo
tan to , e n tre p ru e b as de u n a sola cola y las situaciones en las que
la dirección se haya anticipado. H a sta aquí sem ejan te distinción
n o e ra necesaria, ya que to d as las p ru e b as de u n a sola cola com ­
p o rtab a n predicciones en relación con la dirección.
E n el caso de distribuciones de m u estras n o rm ales ya hem os
visto que, cuando Ja dirección fu e prevista, cortábam os a la m itad
u n nivel significativo al u tiliza r u n a sola cola de la distribución de
m uestreo. E n el caso de las p ru e b as en secuencia y en el de o tras
diversas aplicaciones, habrem os de confiar en o tro tipo de ju sti­
ficaciones al c o rta r p o r m ita d los niveles de significación cuando
la dirección h a sido predicha. E n el cu rso del p resen te ejem plo
i Sin embargo, hay otras aplicaciones de la prueba de las secuencias en
las que pueden emplearse las dos colas. Así, por ejemplo, puede haber
acaso demasiadas secuencias si las muestras se han mezclado más bien
artificialmente que al azar, y este hecho puede utilizarse en una prueba del
grado de aleatoriedad.
supongam os que n o hay diferencia alguna en la población de las
organizaciones sociales e n relación con el prestigio de las organi­
zaciones restrictivas y n o restrictivas. Llam em os A al aconteci­
m ien to consistente en h a b e r logrado resu ltad o s significativos a un
nivel de, p o r ejem plo, .05 sin h ab e r p red ich o la dirección. C lara­
m ente P( A) = .05. Llam em os ahora B al acontecim iento que con­
siste en que la dirección de la diferencia de las m u estras es la
predicha, suponiendo que no se den diferencias algunas en la po­
blación. E n tal caso, P( B ) = .5 si prescindim os de la p ro babilidad
de que la diferencia sea exactam ente igual a cero.
Como A y B serán no rm alm en te dos acontecim ientos sep a ra­
dos, tendrem os que la p ro babilidad de lo g rar significación al n i­
vel .05, sin p re d ecir la dirección y la pro b ab ilid ad de p re d ecir co ­
rrectam en te la dirección, vendrá dada p o r P( A&B) = P( A ) P( B) =
(.05) (.5) = .025. P odrá utilizarse este m ism o principio en cuan­
tas ocasiones la distribución de m u estreo de u n a estad ística de
p ru e b a sea, o b ien sim étrica, o bien insensible a la dirección
de u n a diferencia. Si hubiéram os estado, p o r ejem plo, interesados
en co m p arar tre s m u estras ( com o vam os a h acer en los dos capí­
tu los próxim os), y si hubiéram os podido p re d ecir el o rd e n exac­
to de estas diferencias (p o r ejem plo
> X 3), la p ro b ab ili­
d ad de o b ten er diferencias en este o rd en exactam ente sería de
1 / 6, b a jo el su p u esto d e q u e
= ¡i2 = yis, pudiendo en tal caso d ar
ju stificad am en te com o 1/6 el nivel de significación sin h a b e r p re­
dicho la dirección. P o r supuesto que e ste procedim iento se p re sta
al razonam iento ex p o st jacto, y sólo pu ed e aplicarse a condición
de que las predicciones h ayan precedido al exam en de los datos.
Los núm eros en el cu ad ro nos d an el n ú m ero de secuencias que
b rin d a rá n significación al nivel de .05, suponiendo que no se haya
pred ich o la dirección. C ualquier valor de r, p o r lo tan to , que sea
igual o m en o r que la cifra del cuadro nos in d icará q u e tenem os
ta n po cas secuencias q u e b ien podem os rech azar la hipótesis nula
a este nivel. Como el nú m ero de casos en las dos m u estras es
de diez y nueve, respectivam ente, verem os que podrem os recha­
zarla si obtenem os seis o m enos secuencias.
4.
Cálculo d e la estadística de la prueba. Si disponem os las o r­
ganizaciones p o r o rd en de prestigio y trazam os líneas debajo
de los datos de la p rim e ra m u estra y a rrib a de las del segundo,
vem os que se dan 12 secuencias.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Pese a que el n ú m ero de casos es u n po co pequeño p a ra que
se verifique la aproxim ación norm al, podem os con to d o seguir
ad elan te con el cálculo, sirviéndonos de e s ta aproxim ación p ara
ilu s tra r su em pleo y co m p arar los resu ltad o s con los que se ob­
tienen sirviéndose del cu ad ro E del Apéndice 2. Como de costum ­
bre, calculam os el valor de Z, que nos dirá a cu á n ta s desviaciones
e stán d a r se sitú a el n ú m ero de secuencias obten id o respecto de
la m edia o n ú m ero de secuencias esp erad o con la hipótesis nula.
Así, pues,
2(10)(9)
m = ------------ + l = 10.47
^
10 + 9
0
, 2 (1 0 )(9 )[2 (1 0 )(9 ) — 10 — 9]
*
------------------------------------------= 2. 11
(19)2(18)
Tenem os p o r consiguiente:
r-Ur
12 - 10.47
Z = ----- üü = ---------------= .725
crr
2.11
Como q u iera que el n ú m ero de secuencias obten id o es efectiva­
m ente m ay or que la m ed ia o el núm ero esperado, n o necesitam os
proseguir, ya que p a ra el rechace de la hipótesis se necesitan
núm eros p equeños de secuencias. Si el n ú m ero de secuencias
h u b iera sido m en o r que el esperado, habríam os buscado el valor
de Z en el cu ad ro norm al, u san d o el cu ad ro com o si estuviéram os
haciendo u n a p ru e b a de dos colas (es d ec ir: rechazando al nivel
.05 si Z < — 1.96).
5.
Decisión. Ya que el nú m ero de secuencias h a re su ltad o ser
m ayor que seis, c ifra indicada en el cuadro E, decidim os no des­
c a rta r la h ipótesis n ula al nivel de .05. Como acabam os de ver,
el em pleo d e la aproxim ación n orm al nos conduce tam bién a la
m ism a conclusión. Sobre la base de n u estro s datos, concluim os,
en consecuencia, que n o existe diferencia e n tre los dos tipos de
organización en lo relativo al prestigio.
E m p a tes. E n los datos an terio res n o h a hab id o dos organizacio­
nes que tu v ieran m arcas em patadas. El supuesto de la continui­
dad subyacente excluye teóricam ente la posibilidad de em pates,
ya que dos m arcas no serán n u n ca ex actam ente iguales. Sin
em bargo, debido a im perfecciones de m edición, y sem ejantes im ­
perfecciones se d a rá n casi seguram ente en la m ayoría de la in­
vestigación social, e n la p rá ctica sem ejantes em pates se p resen tan .
O bsérvese q u e si dos organizaciones de la m ism a m u e stra hubie­
ra n estado1 em patadas en relación con las m arcas de prestigio, la
p ru e b a de las secuencias n o h a b ría sido afectada. Pero, supón­
gase que los em pates se p ro d u c ía n e n tre las m u estras. E n tal
caso, el n ú m ero de secuencias p u ed e re s u lta r considerablem ente
afectado, según la fo rm a en que los em pates se rom pan. Supón­
gase, p o r ejem plo, que dos organizaciones (de m u estras d istin tas)
h u b iera n estado ligadas p o r lo que se re fie re a la octava y novena
posiciones. Si estas posiciones se h u b iera n desplazado1 del orden
an terio rm en te em pleado, habríam os obtenido 10 secuencias en
lu g ar de 12. E n o tro s térm inos, ob ten d ríam o s 10 secuencias o 12,
según el o rd en em pleado. Y com o q uiera que dicho ord en sería
to talm e n te arb itra rio , podríam os en co n trarn o s con que a veces
d escartam o s y o tra s veces dejam os de d e sc a rta r la hipótesis nula.
E l p ro ced im ien to m ás seguro que podem os u tilizar en el caso* de
em pates consiste e n c o n ta r el núm ero de secuencias sirviéndonos
de todos los m edios posibles de ro m p erlas. Y si todos los o rd e­
nam ien to s conducen a la m ism a decisión (la de d e sc a rta r o de
no d e sc a rta r), entonces nos podem os a d h e rir a la m ism a con
seguridad. P ero si conducen a decisiones distin tas, se rá posible
resolver el p ro b lem a echando u n a m oneda al aire, p e ro ta l vez el
pro ced im ien to m ás seguro consista, e n ta l caso, en suspender
el juicio. B radley recom ienda [1] u n inteligente procedim iento
con sisten te en fa cilitar al lecto r la gam a de probabilidades obte­
n id as al ro m p er em pates p o r todos los m étodos posibles. Es evi­
d en te que si se da u n g ra n núm ero de órdenes con em pates, la
estad ística de la p ru e b a n o deberá se r usada.
XIV.3. La prueba d e M ann-W hitney o de W ilcoxon
O tra p ru e b a n o p a ra m é tric a q u e p u ed e em plearse en las situacio­
nes en que la p ru e b a de las secuencias re su lta apropiada es u n a
p ru e b a que p arece h a b e r sido inventada independientem ente p o r
cierto n ú m ero de p erso n as y se conoce com únm ente con el nom ­
b re de p ru eb a de M ann-W hitney o de W ilcoxon. E sta p ru e b a
req u iere exactam ente los m ism os supuestos que la de las secuen­
cias y, lo m ism o que ésta, com porta u n p rocedim iento m uy sim ­
ple. C om binam os n uevam ente los datos de las dos m u estras y las
ordenam os de 1 a 19. C entram os a continuación n u e stra atención
en la segunda m u e stra (o en la que sea m en o r). Tom ando cada
dato de la segunda m u estra, contam os el nú m ero de datos de la
p rim era m u estra que tengan u n orden m ayor. Una vez hecho esto
con cada uno de los datos de la segunda m u estra, sum am os los
resu ltad o s, que nos dan la estadística V. La distribución de m ues­
tre o de U puede o b ten erse exactam ente si las N son pequeñas, o
se puede o b ten er con aproxim ación p o r m edio de u n a curva n o r­
m al en el caso de m u estras m ayores. Si V es excepcionalm ente
peq u eñ a o excepcionalm ente grande, podem os d esc artar el su­
p u esto de que las dos m u estras se hayan ex traíd o de la m ism a
población.
Una fo rm a altern ativ a de exactam ente la m ism a p ru eb a puede
em plearse con la aproxim ación norm al. E n lu g ar de o b ten er U
directam en te, podem os c o n ta r la sum a de los órdenes de cada
u n a de las m u estras. Procedem os luego en fo rm a análoga a la de
la p ru e b a de la d iferencia de las m edias. Tom am os u n a diferen­
cia de las sum as de los órdenes p a ra cad a m u e stra y sustraem os
de dicha d iferencia u n a ca n tid ad que re p resen ta la diferencia es­
p erad a con la hipótesis nula. E sta diferencia d e diferencias, aná­
loga a (
— X 2) — ( [i! — |x2), se divide luego p o r el e rro r e stá n d a r
p a ra o b ten er Z. La analogía n o es perfecta, y a que trata m o s con
sum as de ó rdenes y n o con sus m edias, p e ro el paralelo con la
p ru eb a de la diferencia de las m edias es p erfectam en te claro.
Aquí tam bién, u n v alo r n um érico gran d e de Z conducirá al re ­
chazo. Vamos a ilu s tra r ah o ra el procedim iento de M ann-W hitney
sirviéndonos del m ism o ejem plo an terio r. C om pararem os a conti­
nuación la eficacia d e la fuerza de esta p ru e b a con la de la p ru e­
b a de las secuencias.
Problem a. El m ism o de la p ru e b a de las secuencias.
A d m isió n re stric tiv a : órdenes 1, 2, 4, 5, 6, 7, 9, 11, 14, 17 (JV ^IO )
A dm isión no restrictiva : órd en es 3, 8, 10, 12, 13, 15, 16, 18, 19
(iV2 = 9)
1. S u p uestos. Los m ism os q u e e n la p ru e b a de las secuencias.
2. D istribución de m uestreo. La distribución de m u estreo de
U se e n c o n tra rá en el cu ad ro F del A péndice 2, si n i N t n i N 2 son
m ayores q u e ocho, y en el cu ad ro G, si u n a de las N queda e n tre
9 y 20 y la o tra e n tre 1 y 20. N ótese que los dos cuadros tienen
d iferen te fo rm a to : El F tiene en la p a rte a lta diferentes com bina­
ciones de N x y N 2, con los valores d e U en el m argen in ferio r iz­
q u ierd o y con los valores de las probabilidades en el cuerpo del
cuadro. Así, si N a = 6 y N x = 4, siendo siem pre N 2 el m ayor de los
dos tam añ o s de las m u estras, y si U = 5, verem os que la probabili­
d ad de o b ten er U < 5 es de .086, con dirección predicha. Los otros
cuadros del G, p o r o tra p a rte , corresponden a diferentes niveles
d e significación, apareciendo los valores críticos de U en el cu e r­
p o del cuadro. Así, p a ra a = .0 0 1 , con dirección predicha, p a ra
A/j = 13 y N z = 10 (n o siendo N 2 necesariam ente m ayor que A^),
ob servarem os que u n v alor de U igual o m en o r que 17 supondrá
significación. P a ra N m ayor, la d istrib u ció n de m u estreo de V
s e rá ap ro x im adam ente n orm al, con la
m edia =
y la
jip
= —
(XI V .3)
___________________
N j .N Ú N t + N a + 1 )
-------------—------------ (XIV.4)
V
3. N ivel de significación y región critica. Con fines d e com pa­
ración, seguim os sirviéndonos del nivel de .05, sin p re d ecir la
d irección de la relación.
4. Cálculo de la estadística de la prueba. La estad ística U pue­
de calcularse p o r u n o de los dos m étodos siguientes. Con N pe­
queñ a será relativ am en te sencillo calcu lar U siguiendo el proce­
d im iento im plicado en la fó rm u la de definición. C entrándonos en
cad a u n o de los nueve grupos de la segunda m u estra, contem os
el n ú m ero de casos de la p rim e ra m u e s tra que tienen m en o r
prestig io y, p o r lo tan to , m ayores m arcas de orden. Como q u iera
que la p rim e ra organización de la segunda m u e stra se h a clasifi­
cado com o te rc era en prestigio, hay en la p rim e ra m u e stra ocho
grupos con m arcas de prestig io inferiores. Y en fo rm a análoga,
el segundo g ru p o de la segunda m u e stra se clasifica com o octavo,
de m o d o que hay cu atro grupos en la o tra m u e stra con m arc as de
prestig io inferiores. P rosiguiendo el proceso p a ra cada u n a de las
organizaciones re sta n te s de la m u e stra 2 y sum ando, o b te n e m o s:
17 = 8 + 4 + 3 + 2 + 2 + 1 + 1 + 0 + 0 = 21
O bsérvese que si hu b iéram o s seguido el m ism o procedim iento,
p ero c e n tran d o n u e stra atención e n los grupos de la p rim e ra
m u estra, hab ríam o s o b ten id o :
í/' = 9 + 9 + 8 + 8 + 8 + 8 + 7 + 6 + 4 + 2 = 69
C ualquiera de estas dos cantidades p o d ría em plearse p a ra verifi­
ca r la significación de la relación, pero, com o q u iera que las ta ­
b las se h a n estab lecido en té rm inos del v alor m enor de U, siem ­
p re nos servim os de la m en o r de las dos can tid ad es en cuestión.
No se rá n ecesario calcu lar U y V , ya que u n a vez obtenido uno
de los valores el o tro p u ed e calcularse sirviéndose de la fó rm u la :
U = N 1N 2 - U '
o
U' = N ±N 2 - V
(X IV .5)
E n este caso nos serviríam os com o estad ística de p ru e b a del va­
lo r 2 1 .
Si el n ú m ero de los casos es relativ am en te gran d e o si existen
em p ates, será p ro b ab lem en te m ás conveniente o b ten er V sum an­
do los órdenes de las m u estras separados, designando estas su­
m as de órdenes com o 2?! {rango) y R 2 y sirviéndose de las fó rm u ­
la s:
N 2{ N 2 + 1)
{X I V.6)
U = N xiV2 + — — ------ - R 2
o b ien
u- = n , n 2 +
J ^ ± 1 L - Rí
según cuál de ellas resu lte m ás conveniente. S um ando los órde­
nes obtenem os a s í:
1
3
2
8
4
10
5
12
6
13
7
15
9
16
11
18
14
19
17
R x = 76
Ro, = 114
A títu lo de co n trol habríam os de te n e r
R ¡+ R a = 3 1 ± ± L
o bien
19(20)
76 + 114 = ---- -— i - = 190
en donde N re p re se n ta el nú m ero to tal de casos en am bas m ues­
tras. P o r lo tan to :
1 7 = 1 0 (9 ) +
9(10)
114 = 90 + 4 5 - 114 = 21.
*
Las sum as de órdenes
y R 2 pudieron h ab erse em pleado
directam ente al h ac er la pru eb a, no siendo necesario en tal caso
calcular U. Ya que las tablas exactas p a ra las N pequeñas suelen
darse en térm in o s de V, p o r lo re g u la r re su lta rá ventajoso pensar
en térm inos de estadística U. P ero el em pleo de las sum as de ór­
denes puede utilizarse eurístieam en te p a ra señalar la sem ejanza
de la p ru eb a M ann-W hitney con la de la diferencia de las m edias.
Una pequeña operación algebraica convencerá al lecto r de que
podem os to m ar las ecuaciones de (X IV .3) a (X IV .7) y ob ten er
el re su ltad o de que, p a ra la aproxim ación norm al, la estadística
R .-R ,
X W
+
D /2
( X I V g )
i/.V.A/.Í.V + 1 )/',
será aproxim adam ente N o r (0 ,l). E xpresando Z en esta form a,
observam os que el n u m era d o r consta de la diferencia R x — R 2,
ju n to con u n térm ino que re su lta ser el valor esperado o a largo
plazo* de dicha diferencia en la hipótesis nula. Dicho fa cto r de
corrección es necesario, p o r supuesto, ya que trata m o s con una
diferencia de sum as, y no de m edias, lo que nos obliga a to m ar
en cu en ta el hecho de que, p o r lo regular, las dos N no serán
iguales. Si
y N 2 son iguales, observam os que el segundo fac­
to r en cuestión se convierte en cero, quedándonos sim plem ente
co m o n u m era d o r R t - R z. Vem os en esta fo rm a la sem ejanza con
la p ru eb a de la diferencia de las m edias, en la que el num erador
se red u cía a X x — X 2 en el caso de la hipótesis n ula de que no
h ab ía diferencias. P or lo tan to , cabría concebir la p ru eb a de
M ann-W hitney com o p ru e b a de la diferencia de los órdenes su­
m ados.
5.
Decisión. Sirviéndonos del cuadro G del Apéndice 2, vem os
que al nivel de .05, si la dirección no se h a anticipado, necesita­
m os u n a U de 20, o m ás pequeña, p a ra p o d er d e sc a rta r la hipó­
tesis nula. De ahí que apenas dejem os de d esc artar la de que no
h ay diferencia en tre los dos tipos de organizaciones. Obsérvese,
sin em bargo, q u e si la dirección se h u b iera predicho de aníem ar
no, habríam o s necesitado u n a U de 24, o m enos, al nivel de .05.
Vemos, de paso, que a p e sa r de llegarse a la m ism a conclusión con
las p ru e b as de las secuencias y de M ann-W hitney, estuvim os,
con todo, m ucho m ás cerca del d escarte con la segunda que con
la p rim e ra . P o r lo tan to , si i?0 fu e ra realm en te falsa, ten d ría­
m os e n este caso* u n riesgo m en o r de e rro r de tip o I I que con la
p ru e b a de las secuencias.
Si n u e s tra N h u b iera sido m ayor, podríam os habernos servido
de la aproxim ación norm al. Con objeto de ilu s tra r el procedi­
m iento, podem os calcular Z en relación con los datos anteriores.
O btenem os así:
V - N XN J 2
2 1 -4 5
Z = ----------------- — ------------= ------------ ------------ = -1-96
y'Ñ ^Ñ J.W ^+ N 2 + l ) / l 2
V 1 0 ( 9 ) (20)/12
Si h ubiéram os rem plazado V p o r V ( = 6 9 ) , hubiéram os ob­
tenido*
Z = + 1.96
*
Si nos h ubiéram os servido de la ecuación (X IV .8), h a b ría ­
m os obten id o asim ism o:
Z
76 — 114 — (10 — 9) (20)/2
--------------------------------------V W (9 ) (2 0 )/3
—1.96
Así, pues, el em pleo de la aproxim ación n o rm al conduce a la
conclusión de que, sin la dirección predicha, a d u ra s penas po­
dríam o s d e s c a rta r al nivel d e .05. P o r su p u esto que las tablas
exactas son p referib les a la aproxim ación n o rm al siem pre que
estén a n u e s tro alcance.
E m p a tes. Si o c u rren em p ate s hem os d e su p o n er u n a vez m ás
que se d eben a im perfecciones d e m edición y que las d istrib u ­
ciones subyacentes son en re alid ad continuas. Si los em pates
tien en lu g ar en el in te rio r de las clases, éstas n o ten d rán , p o r
supuesto, efecto alguno sobre la U, y podem os p ro c ed er com o
an terio rm en te. Y si los em p ates tien en lu g ar e n tre clases, dam os
a ca d a u n o de los casos el p ro m ed io d e las m arc as q u e h a b ría
tenido de no existir aquéllos. Así, pues, si dos organizaciones
están em p atad as en los órdenes octavo y noveno, cada u n a de
ellas re cib e tina m arc a de (8 + 9)/2 , o sea 8.5. Si la décim a orga­
nización h u b ie ra estad o asim ism o em p ata d a con los dos grupos
an terio res, cad a u n o d e ellos h a b ría recibido el o rd e n (8 + 9 +
10)/3, o sea 9.0. Al calcu lar U, se p ro d u c irá p ro b a b le m en te a h o ra
m enos co nfusión si nos servim os del m éto d o de la sum a de los
órdenes. E n efecto, el fa c to r d e corrección c o m p o rta el e rro r
e s tá n d a r de U y, p o r consiguiente, ap arece en el d enom inador de
Z. La fó rm u la revisada se co n v ierte así e n :
V
- NrN.,/2
—
—
V l N iN n / N ( N - l)][(A ís - A /r) / 1 2 - 2 r i ]
(X IV .9)
en donde N = iVx + N 2 y r* = (í«® - t t )¡ 12, siendo t el núm ero de
observaciones em p atad as en relación con u n o rd en determ inado1.
Al calcu lar 22^, observam os p rim e ro todos los casos en los que
se dan em pates. Tal vez dos grupos estén em patados en relación
con las m arcas octava y novena, y tre s en relación con las m arcas
inferiores. E n e s te caso tenem os im a t de dos y u n a de tres.
O sea:
2 T¡ = T i + T« = í*— 1 + M ~ fa
12
23-2
33 — 3
12
6
24
= ------------ 1------------- = ----- i----- = 2 5
12
y
12 12
12
E sta corrección de los em pates sólo p u ed e em plearse con la apro­
xim ación norm al, ya que las tablas exactas se h an calculado sin
te n e r e n cu en ta los em pates. P or lo regular, el efecto del facto r
de corrección será despreciable salvo si el núm ero de em pates
es m uy gran d e.2 Si el n ú m ero de em pates es extrem adam ente
g ran d e d eb erá u sarse probablem ente la p ru e b a de S m irnov (ver
m ás a b a jo ) com o altern ativ a a la de M ann-W hitney.
C om paración en tre las pruebas de M ann-W hitney y de las se­
cuencias. P ara am bas p ru e b as la hipótesis n u la es que las dos
m u estras se h an extraído de poblaciones iguales. P or lo regular,
n u e stro in terés se c e n tra en las diferencias de tendencia central,
com o en el caso de la p ru eb a de la diferencia de las m edias. En
ocasiones, sin em bargo, podrem os e s ta r m ás interesados e n las
diferencias de d ispersión o de form a. A títu lo de enunciado ge­
neral, podem os d ecir que la p ru e b a d e M ann-W hitney será m ás
fu e rte que la d e las secuencias, siem pre q u e las m ayores d iferen­
cias e n tre las dos poblaciones sean con respecto a la tendencia
central, en ta n to q u e la segunda se rá m ás fu e rte en aquellas si­
tuaciones en que las poblaciones sólo difieren ligeram ente en
cu an to a la ten d encia central, p ero sustancialm ente, en cam bio,
en d ispersión o e n form a.
Un sim ple ejem plo serv irá p a ra ilu s tra r este punto. Supóngase
que tenem os dos poblaciones de m edianas iguales, pero, en u n
caso, con u n a d istrib u ció n m uy hom ogénea y, en el otro, m uy
heterogénea. P odríam os, en tal caso, e sp e ra r resultados com o los
siguientes :
Muestra 1
Muestra 2
5
6
7
8
9
10
11
12
1
2
3
4
13
14
15
16
ÍRj = 68
R2 =
68
2 P a r e c e r í a c o m o s i l a c o r r e c c ió n d e lo s e m p a te s r e d u j e r a s ie m p r e e l d e ­
n o m i n a d o r s i n c a m b i a r e l n u m e r a d o r , p e r o d e b e m o s t e n e r p r e s e n t e q u e d i­
c h o s e m p a t e s h a r á n n o r m a l m e n t e q u e U y U’ s e a p r o x im e n , io q u e s e t r a ­
d u c i r á a s u v e z e n u n a d i s m i n u c ió n d e l n u m e r a d o r .
E n este ejem p lo extrem o, la p ru e b a de M ann-W hitney n o condu­
ciría a d e sc a rta r la hipótesis n u la (la cual es m an ifiestam en te fal­
sa), p o rq u e
es exactam ente igual a R a. S irviéndonos d e la
p ru e b a d e las secuencias, e n cam bio, estaría m o s m anifiesta­
m en te en condiciones de d esc artar, p o rq u e sólo ten d ríam o s tre s
secuencias. Como q u iera que d e ja r de d e sc a rta r significa com eter
un e rro r de tip o II, vem os q u e en este caso la fu erza de la p ru e­
b a de las secuencias es m ay o r que la de la M ann-W hitney. E n la
m ayoría de los casos, tenem os m ás pro b ab ilid ad es de h a lla r dife­
rencias en la ten d en cia cen tral, con diferencias relativam ente
m enores en dispersión. El le c to r h a r á bien en convencerse p o r sí
m ism o q ue e n el caso de tales poblaciones tenem os pro b ab ilid a­
des de o b te n e r u n n ú m ero relativ am en te g ran d e d e secuencias
h acia el ce n tro de la distribución. Y en relación con sem ejantes
datos, la p ru e b a de las secuencias se rá m u ch o m enos fu e rte que
la de M ann-W hitney. E n relación con la m ayoría de las aplicacio­
nes sociológicas, la p ru e b a de M ann-W hitney p arece ser la m ás
ú til de las dos.
*
Si se h a conseguido u n nivel de escala de intervalo y se su­
ponen leg ítim am ente poblaciones norm ales, p u d o h ab e rse efec­
tu ad o la p ru e b a t p a ra la d iferen cia e n tre las m edias. E n tales
condiciones, ¿cuánto p erd eríam o s sirviéndonos de la p ru e b a de
M ann-W hitney, cayendo p a ra ello h ac ia a trá s en cu an to al nivel
de m edición y sirviéndonos de u n m odelo m ás débil? La eviden­
cia está en que, en el caso de m u e s tra s m edianas y grandes, la
eficacia de la fu erza de la p ru e b a d e M ann-W hitney es aproxim a­
d am en te del 95 p o r ciento en com paración con la de la t. La efi­
cacia de la fu erza es asim ism o m u y g ran d e en el caso de m ues­
tra s pequeñas, pese a que los valores n u m érico s exactos n o sean
fáciles de o b tener. B radley [ 1 ] observa q u e e n general la eficacia
de m uchas p ru e b a s n o p aram étrica s, e n tre ellas la d e MannW hitney, es relativ am en te m ay o r p a r a las m u estras pequeñas que
p a ra las g randes. Así, pues, la p ru e b a de M ann-W hitney consti­
tuye u n a altern ativ a m uy fu e rte de la p ru e b a t. E n v ista del he*cho de que re q u ie re su p u esto s m u ch o m ás débiles, d eb e ría em ­
p learse en aquellas situaciones en q u e existe alguna d u d a razo­
n ab le de la legitim idad ya sea d e la escala de in terv alo o de la
n o rm alidad. Se sabe m enos, e n cam bio, a p ro p ó sito d e la eficien­
cia de la fu erza d e la p ru e b a d e las secuencias. S m ith [ 8] h a
en c o n trad o eficiencias de ap ro x im ad am en te el 75 p o r ciento en
varios ejem plos em píricos, en los q u e los tam añ o s de las m ues­
tra s eran d e alre d ed o r de 20 y las poblaciones norm ales presen ­
ta b a n desviaciones e stá n d a r iguales. B radley [1 ] observa que la
eficacia de la p ru e b a de secuencias con m u estra grande, es, p o r
com paración con la p ru e b a t, d e ap ro x im ad am en te u n tercio, en
igualdad de condiciones.
X IV .4. La prueba de K olm ogorov-Sm im ov
La p ru e b a de K olm ogorov-Sm irnov, que designarem os sim ple­
m en te com o p ru e b a de Sm irnov, es o tra p ru e b a n o p ara m é tric a
de dos m u estras, que re q u ie re los m ism os su p u esto s q u e las
p ru e b as de las secuencias y de M ann-W hitney. La fu erza de
la p ru e b a S m irnov es e n general difícil d e evaluar, p e ro en aque­
llas situaciones en q u e la población difiere solam ente en relación
con la tendencia cen tral, dicha fuerza parece e sta r co m p ren ­
dida e n tre las de las p ru e b as de lás secuencias y la de MannW hitney. (B rad ley [1 ], p p . 291-292.) E n u n sen tid o estricto , la
p ru e b a S m irnov tam poco supone em pates, pero, com o verem os,
el p ro ced im ien to es m u y conveniente e n las situaciones en que
se d a u n bu en n ú m e ro de em pates, com o re su ltad o de h ab e r
ag ru p ad o los dato s e n categorías ordenadas.
E n la investigación sociológica nos servim os con m u ch a fre ­
cuencia d e variables q u e son en re alid ad escalas ordinales, p ero
en relació n con las cuales los datos se h an agrupado, con todo, en
tre s o m ás categorías grandes. Si se d an c u a tro o m ás categorías
o rd en ad as de e s ta clase, la p ru e b a de S m irnov re su lta rá p a rtic u ­
larm e n te ú til, en ta n to q u e el n ú m ero de em p ates p ro h ib iría p ro ­
b ab lem en te el em pleo de la de M ann-W hitney. Un sociólogo pue­
de acaso h a b e r dividido los residentes de u n a localidad en seis
clases sociales, tra ta n d o a todas las p erso n as de u n a clase com o
ligadas a los dem ás m iem b ro s de la m ism a con respecto a la ca­
ra c te rístic a general. O pu ed en h a b e rse o rd en ad o las ocupaciones
según la condición d e las p erso n as asignándose a todas las de
la m ism a clase d e ocupación m arc as em p atad as. Tal vez se haya
en co n trad o u n a v ariab le d e co m p o rtam ien to que dé u n a escala
de G u ttm an con siete tip o s d e resp u estas. E n todos estos ejem ­
plos podem os q u e re r concebir la v ariab le com o continua en re a ­
lidad, p e ro el in stru m e n to de m edición h a sido excesivam ente
im p erfecto y h a p ro p o rcio n ad o datos q u e se hallan agrupados en
u n n ú m ero re lativ am en te pequeño d e categorías ordenadas. Lo
m ism o que en el caso de las escalas de intervalo, cu an to m ás
su tiles sean las distinciones y cu an to m ay o r sea el n ú m ero de las
categorías em pleadas, ta n to m enos in fo rm ació n se pierde.
E l p rin cip io que se h alla e n la base de la p ru e b a de S m irnov
es m uy sencillo. Si la hipótesis n u la de que se h an extraído
m u e stra s aleato rias independientes, de poblaciones idénticas, es
co rrecta, entonces esperarem os que las distribuciones de frecuen­
cia acu m u lad a d e las dos m u estras sean fund am en talm en te si­
m ilares. La estad ística de la p ru e b a em pleada en la p ru e b a de
Sm irnov es la d iferen cia m áxim a e n tre las dos distribuciones
acum uladas. Si d icha d iferencia es m ay o r de lo que se esp eraría
p o r azar con la h ip ó tesis nula, esto significa que la diferencia
e n tre las d istrib u cio n es se h a hecho ta n gran d e que decidim os
d esc artar la hipótesis. Podem os to m a r la diferencia m áxim a ya
sea en u n a sola dirección (si ésta se h a anticipado) o en am bas
direcciones.
Problema. Supóngase que hem os dividido una m u e stra al azar
de varones adultos de u n a localidad en seis clases sociales y los
hem os clasificado al propio tiem po según sus aspiraciones b ajas
o altas de cam bio. E stas dos últim as categorías pueden conside­
ra rse com o m u estras aleatorias independientes de las poblacio­
nes m ás am plias de varones adultos con aspiraciones b ajas o
resp ectivam ente altas, ya que u n a m u estra to ta l com pletam ente
al azar asegura la independencia e n tre las su b m u estras que po­
dam os escoger. Supóngase que hem os anticipado que los de as­
piraciones de cambio- elevadas ten d erán a ocu p ar u n a posición
de clase su p erio r a los de aspiraciones b ajas. ¿Podem os concluir
que los resu ltados son significativos al nivel de .0 1?
Clase
Aspiraciones
bajas
Aspiraciones
altas
B a ja in fe rio r
B a ja s u p e rio r
M e d ia in f e r io r
M e d ia s u p e r io r
A lta in f e rio r
A lta s u p e rio r
58
51
47
44
22
14
31
46
53
73
51
20
23 6
27 4
T o ta l
1. Supuestos. Los m ism os que se requieren en la p ru eb a de
M ann-W hitney y la de las secuencias.
2. D istribución de m uestreo. La distribución d e m u estreo de
D, o sea la diferencia m áxim a en tre las distribuciones acum ula­
tivas, pued e d arse exactam ente en el caso de N pequeñas ( < 40),
si Nj = N 2 ([7 ], p. 129). E ste caso no lo trata rem o s, ya que con Ñ
relativam ente pequeñas puede em plearse, en lu g ar de la pru eb a
de Smirnov, la de M ann-W hitney, y porque en la m ayoría de los
ejem plos sociológicos no solem os p o r lo regular o b ten er m u estras
exactam ente del m ism o tam año. Si las dos m u estras son m a­
yores que 40 y si no se h a anticipado la dirección, necesitarem os
u n valor de D que sea p o r lo m enos tan grande com o
1.36 Y
p a ra p o d er d e sc a rta r al nivel de .05. E n relación con los niveles
de .01 y .001, el coeficiente de 1.36 puede rem plazarse p o r 1.63
y 1.95 respectivam ente. E n el caso del nivel de .10, el coeficiente
co rresp o n d ien te es de 1 .22.
Si la dirección se h a anticipado, podem os servirnos de la ap ro ­
xim ación de la x-cuadrada. La e stad ística de la p ru e b a x-cuadrad a (x2) se co n sid erará e n el capítulo siguiente, y la ta b la d e la
m ism a re su lta rá m á s fa m iliar en dicho momento.® E n treta n to ,
la fó rm u la de la aproxim ación es com o sigue:
■f = 4D2 N lN ‘2 1
Nx + Na
( X IV .10)
en donde los grados d e lib e rta d asociados a la ^-cuadrada son
siem pre dos en e s ta p a rtic u la r aplicación. Si bien al em p lear
la aproxim ación de la ^-cuadrada se suponen distribuciones con­
tin u as de la población, si los datos son en re alid ad discretos y
d an lugar, en consecuencia, a grandes n ú m ero s de em pates, las
p ro b ab ilid ad es o b ten id as quedarán, e n caso de desearse el des­
carte, en sen tid o conservador. E n o tro s té rm in o s: las v erdade­
ra s p ro b ab ilid ad es serán m enores q u e las calculadas.
3. N ivel de significado y región crítica. El p ro b lem a re q u ie re
el nivel de significado d e .01. Y a q u e se h a an ticip ad o la direc­
ción, nos servirem os d e la aproxim ación d e la ^-cuadrada.
4. Cálculo de la estadística de la prueba. O btenem os p rim ero
las d istribuciones de frecuencia acu m u lad a de cada u n a de las
m u estras (véase c u a d ro X IV .l), ex presando los valores de F
com o p roporciones d e las m agnitudes to tales de las m u estras.
Así, pues, el p rim e r v alo r in scrito e n la colum na de las F de la
m u e stra 1 será 58/236, o sea .246; el segundo se rá 109/236, o
.462, y así sucesivam ente. Las ú ltim as anotaciones de cada co ­
lu m n a serán, p o r supuesto, la unidad. F orm am os ah o ra una
colum na de las diferencias, F1 — F2, y localizam os la diferencia
m ay o r con el signo positivo, ya que anticipam os m ayores p o r­
cen tajes de las clases in ferio res con aspiraciones b ajas, o sean
m ayores valores de Ft . E ste valor de D re su lta se r de .187, com o
lo indica la flecha. A continuación calculam os el v alor de la
X - c u a d r a d a sirviéndonos de la ecuación (X IV .10).
5. Decisión. O bsérvese q u e cu an to m ay o r sea el v alor de D,
ta n to m ay o r será la ^-cuadrada. P o r lo tan to , sólo necesitam os
sa b e r cuán g ran d e d eb a s e r ésta p a r a d e sc a rta r la hipótesis nula.
R ecurrim os, pues, al cu ad ro de la x-cuadrada (c u a d ro i del Apén­
dice 2 ), b u scam os los grados de lib e rta d de a rrib a a b a jo en el
m arg en izquierdo, y el nivel de significación, arrib a, de izquierda
a derecha, y vem os que, con 2 grados de lib ertad , co rresponde
al nivel .01 el v alo r 9.210. E sto significa que si la hipótesis n u la
fu e ra cierta, o b ten d ríam o s u n a ^-cuadrada de e s ta m agnitud, o>
3 D e b id o a e llo t a l v e z s e p o d r á a p l a z a r e l e s t u d io d e l a p r u e b a d e Smir*n o v h a s t a d e s p u é s d e h a b e r le íd o e l c a p . xv.
C uadro X IV .l. Cálculos para la prueba de dos m uestras
de S m irn o v
Aspiraciones de cambio
Clase
Altas F1
Debajo de
superior
Debajo de
inferior
Debajo de
superior
Debajo de
inferior
Debajo de
superior
Total
Diferencias
Bajas F2
la baja
58
.246
31
.113
.133
109
.462
77
.281
.181
156
.661
130
.474
.187
200
.847
203
.741
.106
222
236
.941
1.000
254
274
.927
1.000
.014
la media
la media
la alta
la alta
/2 -4 m
n ,n 2
236(274)
— 4(.187)2.
- 17.74
Nx+ N 2
236 + 274
m ayor acaso, m enos del uno p o r ciento de las veces. Y ya que ob­
tuvim os u n a /-cu a d rad a de 17.74, vem os que podem os d esc artar
la hipótesis nula. E sta m ism a p ru e b a de la /-cu a d rad a puede em ­
p learse en relación con m u estras pequeñas cuando se h a antici­
p ad o la d irección; y si se tiene interés en d e sc a rta r la hipótesis
nula, la aproxim ación de la /-cu a d rad a será en realid ad conser­
vadora. E n o tro s té rm in o s : las probabilidades obtenidas con este
m étodo serán m ayores que las reales.
Si no se h u b iera anticipado la dirección, entonces necesitaría­
m os, p a ra o b ten er significación al nivel de .01, u n valor de D que
sea p o r lo m enos igual o su p erio r a
1.63
¡N, + N 2
NiN.,
V
' 236 + 274
236(274)
1.63(.0888) = .145
E n este caso obtenem os D to m ando la diferencia m ayor, indepen­
d ien tem en te del signo. Y com o q u iera que este valor es el m ism o
q u e el de la D utilizada an terio rm en te (.187), vem os q u e podem os
tam bién d esc artar la hipótesis nula.
XIV.5. La prueba de W ilcoxon de pares asociados y órdenes pro­
vistos de signo
Las tres p ru eb as no param étricas exam inadas h a sta aquí, en el
presen te capítulo, requerían que las dos m u estras se selecciona-
ra n independientem ente u n a de otra. Se re c o rd a rá que, al asociar
pares, no podíam os servirnos de la p ru e b a de la diferencia de
las m edias. E n lu g ar de ello, tratá b am o s cada p a r com o caso sin­
g u lar y obteníam os u n a m arc a de diferencia p a ra cada uno de
ellos. Procedíam os luego com o si tuviéram os u n a sola m u estra, y
verificábam os la hipótesis n u la de que uB = 0. El lecto r re co rd a rá
adem ás que, al servirnos de la p ru e b a de los signos, pudim os tam ­
bién h a b e r em pleado p ares asociados, teniendo sólo en cuenta el
signo de la diferencia y verificando la hipótesis n ula con ayuda
de la distrib u ció n binom ial. E n la p ru e b a de los signos, había­
m os de d e ja r de lado to d a la inform ación que poseyéram os acer­
ca de la m agnitud de las diferencias im plicadas. P or o tra p arte,
la p ru e b a m ás fuerte, o sea la p ru e b a t, re q u ería no sólo u n a
escala de intervalos, sino, adem ás, el su p u esto de u n a población
n o rm al de las m arcas de las diferencias. La p ru e b a de W ilcoxon
de p ares asociados y órdenes provistos de signo, en cam bio, com ­
b in a algunas de las características de esas dos pru eb as y se si­
tú a, en cu an to a eficacia d e la fuerza, e n tre am bas.
Como verem os en seguida, la p ru e b a de W ilcoxon re q u ie re un
nivel de m edición ligeram ente su p erio r al de la escala ordinal.
N ecesitarem os, en efecto, u n a escala m étricam en te ordenada, en
la que sea posible o rd e n a r no sólo las m arcas m ism as, sino ade­
m ás las diferencias e n tre ellas. Como q u iera que las escalas
m étricam en te ordenadas se en cu en tran ra ra m e n te en la investiga­
ción sociológica, este requisito1 equivale p rácticam en te a que ne­
cesitem os u n a escala de intervalo. Sin em bargo, ya que la p ru e b a
d e W ilcoxon no p resupone u n a población norm al, la exam inare­
m os ju n to con las dem ás p ru eb as d e dos m u estras no param é­
trica s en el p re sen te capítulo. La eficiencia de la fuerza de esta
p ru e b a es su stan cialm ente m ayor que la de la p ru e b a de los sig­
nos, circu n stan cia que no debe so rp ren d er, ya que ésta obtiene
v en taja de ta n poca inform ación disponible. Si los supuestos de
la p ru e b a t son efectivam ente ciertos, entonces la eficacia de la
fu erza de la p ru e b a de W ilcoxon es aproxim adam ente del 95 %,
ta n to p a ra m u estras pequeñas com o grandes. De ahí que re su lte
p artic u la rm en te ú til e n situaciones en las que tenem os u n nivel
de m edición de escala de intervalo, p ero e n las que la m agni­
tu d d e la m u estra es con to d o dem asiado peq u eñ a p a ra ju stific a r
el su p u esto de n orm alidad.
E n esencia, la p ru e b a d e W ilcoxon co m p o rta la m ism a hipóte­
sis n u la em pleada en la p ru e b a de los signos y tam bién en la
p ru e b a t p a ra p ares asociados. La hipótesis nula sostiene que no
existen diferencias e n tre las m arcas d e las dos poblaciones. Al
servirnos de e s ta p ru eb a, obtenem os p rim ero las m arcas d e la
diferencia p a ra cada p ar. E stas diferencias se ordenan, p rescin ­
diendo de sus signos respectivos. Así, pues, u n a diferencia de — 6
se o rd e n ará p o r encim a de la de + 3. U na vez ordenados e n esta
fo rm a los valores absolutos de las diferencias, asignando siem pre
el rango 1 a la m enor diferencia num érica, volvem os a trá s y anota­
m os los signos. Finalm ente, obtenem os las sum as de los órde­
nes de las diferencias, de las positivas y de las negativas. Si la
hipótesis n u la es correcta, esperam os que la su m a d e los órdenes
de las diferencias positivas será aproxim adam ente igual a la de
los órdenes d e las diferencias negativas. Si éstas difieren m ucho
e n tre sí en m agnitud, entonces la hipótesis n u la p u ed e descar­
tarse. F orm am os la estadística T, que es la m enor d e las sum as
en cuestión. Nos servim os a continuación d e tab las exactas de la
d istrib u ció n de selección de T si la A? es pequeña, y de u n a apro­
xim ación n o rm al si es grande.
C uadro
X IV .2. Cálculos de la prueba de W ilcoxon
de pares asociados
Ni del
par
Grupo A
Grupo B
1
2
3
4
5
6
7
8
9
10
11
12
13
63
41
54
71
39
44
67
56
46
37
61
68
51
68
49
53
75
49
41
75
58
52
49
55
69
57
Total
Diferencia
5
8
-1
4
10
-3
8
2
6
12
-6
1
6
Orden de
la diferen­
cia
(+ ) 6
( + ) 10.5
( - ) 1.5
(+ ) 5
( + ) 12
(-) 4
( + ) 10.5
(+ ) 3
(+ ) 8
( + ) 13
(-) 8
( + ) 1.5
(+ ) 8
órdenes
negativos
1.5
4
8
13.5
Con fines de com paración, sirvám onos de los m ism os datos u ti­
lizados en el caso de la p ru e b a t correspondiente. El cu ad ro X IV .2
re p ite dichos datos y p roporciona al p ro p io tiem po los cálculos
necesarios p a ra la p ru e b a de W ilcoxon. O bsérvese que, al ignorar
los signos, algunas de las m arcas de las diferencias re su ltan em ­
p atad as en cu an to a la m agnitud. E n ta l caso, dam os u n a vez má*
a las m arcas em patadas el valor prom edio que h ab ría n tenido de
n o estarlo .4 Así, p o r ejem plo, tenem os dos diferencias d e tam a.
* Otro procedimiento algo más conservador consistiría en romper los em­
pates de tal manera que se obtuviera el mayor valor posible de T. Los pares
cuyas puntuaciones tuviesen una diferencia de 0 exactamente (es decir: nin­
gún cambio) deberían ser eliminados del análisis.
ño 1. Como q u iera que atribuim os a las diferencias m ás pequeñas
los rangos inferiores, cada u n a de aquéllas obtiene u n a m arc a de
o rd en o rango de 1.5. E n la quinta colum na hem os indicado el
signo asociado a cada orden, e n tre p arén tesis, a la izquierda del
m ism o. Vemos a sim ple vista que la sum a de los órdenes negati­
vos será in ferio r a la de los positivos. P o r lo tanto, obtenem os T
sum ando estos órdenes negativos. No es m en ester re te n e r los
signos negativos al b u sc a r el valor de T en el cuadro, ya que
los valores se h allan siem pre dados com o positivos. Así, pues,
T = 1.5 + 4 + 8 = 13.5
Form alicem os ah o ra lo que hem os hecho, siguiendo los pasos
en la fo n n a habitual.
1. S u p uestos.
N ivel de m e d ició n : escala m étricam en te ord en ad a (las m a r­
cas de las diferencias pueden o rd en arse).
M odelo: m u e stra s aleatorias.
H ip ó tesis: la su m a de los órdenes positivos = a la de los
órdenes negativos en la población.
2. D istribución de m uestreo. La distribución de m u estreo de T
p a ra N < 2 5 se d a en el cu ad ro H del A péndice 2. E n relación con
m u e stra s m ayores, la distribución d e T es aproxim adam ente
n o rm al, co n :
m ed ia = ¡xr = - í ^ + 1 )
y desviación e s tá n d a r = or = ^
(X I V .ll)
^
(X IV .12)
3. N ivel de significación y región critica. Lo m ism o que en el
caso de la p ru eb a t, nos servirem os del nivel de .05, sin a n ticip ar
la dirección del resultado.
4. Cálculo de la estadística de la prueba. É ste se halla ya efec­
tu ad o en el cu ad ro XIV.2, que nos d a u n a T de 13.5.
5. Decisión. El c u a d ro H del A péndice 2 d a valores críticos de
T p a ra N < 25. Ya que T re p re se n ta la m en o r de las dos sum as
de órdenes, necesitam os valores num éricos pequeños de T p ara
d e sc a rta r la hipótesis nula. Así, pues, podrem os d e sc a rta r H 0
siem pre que T sea igual o in ferio r a los valores dados en el cuer­
p o del cuadro. Vemos que con u n a N de 13 necesitam os una T
d e 17, o m enor, p a ra p o d er d e sc a rta r al nivel de .05. Vemos tam ­
b ién que se n ecesitaría u n a T de 13 o m enos p a ra el d escarte al
nivel de .02. AI servim os de la p ru e b a í en el capítulo an terio r,
se h a b rá observado que, al nivel de .02, sólo logram os d esc artar
allí con m uy poco m arg en ; aquí, en cam bio, estam os ligeram ente
p o r encim a de dicho nivel, p e ro los re su ltad o s de am bas p ru e b as
son, con todo, m uy sim ilares.
Si b ien n u e stra N es m uy pequeña, podem os d e todos m odos
servirnos de la aproxim ación n o rm al con fines de ilustración. Ob­
tenem os :
T - N ( N + l)/4
Zu —*
— —.
,
\ / N ( N + 1) (2JV + l)/2 4
13.5 — 13( 14 )/4
1 3 .5 -4 5 .5
--------------- .— - ----- = -------------------= - 2.24
•\/13( 14) (27)/24
V2Ó4?75
Como q u iera que u n a Z de — 2.24 corresponde a p = .025, re su lta
que volvemos a llegar a la m ism a conclusión. El valor de T es
m ucho m en o r que el que esp eraríam o s debido- al azar, y podem os
en consecuencia d e sc a rta r la hipótesis nula. D ebe observarse que
la a n te rio r aproxim ación n o rm al n o contiene u n a corrección ex­
p lícita de los em pates, no debiendo p o r tan to se r u sad a en los
casos en que el n ú m ero relativo de em pates es ex trem adam ente
grande.
X IV .6. R esu m en
E n el p re sen te capítulo hem os exam inado c u a tro p ru e b as n o p a­
ra m é tricas d istin tas. E n los capítulos sucesivos verem os otras.
Tal lecto r h a b rá observado, sin duda, que todas esas p ru e b a s,n o
p a ra m é tric a s co m p o rtan h a s ta aq u í ideas m uy sim ples y consi­
d erab lem en te m enos cálculos q u e la p ru e b a d e la d iferencia de
las m edias, p o r ejem plo. É sta es u n a razón m ás e n fav o r de nues­
tr a tesis en el sen tid o de que, en el fu tu ro , los sociólogos se
servirán m ucho m ás de estas p ru e b as n o p aram étricas. P o r des­
gracia, en u n tex to general n o se p u ed e h ac er m u ch o m ás que
exam inar un as pocas de esas p ru e b as brevem ente. Algunas de las
p ru e b as exam inadas en el p re se n te capítulo tienen adem ás algu­
n as o tras aplicaciones que no se h an exam inado. Así, p o r ejem plo,
la p ru e b a de las secuencias p u ed e em plearse com o p ru e b a del
c a rá c te r fo rtu ito . L a p ru e b a de Sm irnov, p o r su p a rte , puede
u tilizarse com o p ru e b a de u n a sola m u e stra p a ra c o m p arar las
frecuencias observadas con las q u e se h an an ticip ad o teórica­
m ente. E n algunos casos, pueden o b ten erse intervalos d e confian­
za em pleando procedim ientos no param étricos. P o r lo tanto, una
vez que se h aya fam iliarizado con las p ru e b as tra ta d a s en este
texto, el lecto r p ro p e n d erá ta l vez a co n su ltar o b ras m ás especia­
lizadas. A fortunadam ente, m uchos de estos procedim ientos no
p aram étrico s pu ed en com prenderse fácilm ente, au n p o r p a rte del
lecto r sin g ran p rep aració n m atem ática. Es u n a suerte, tam bién,
que cierto n ú m ero de esos procedim ientos hayan sido resum idos
en textos recientes de Siegel [7 ], B radley [1 ] y Pierce [5]. El
lecto r p o d rá co n su ltar asim ism o con provecho la extensa biblio­
g rafía sobre m étodos n o p aram étrico s com pilada p o r Savage [ 6].
T anto en este ca p ítu lo com o en el a n te rio r hem os observado
q u e es necesario' d istin g u ir e n tre m u estras que fu ero n seleccio­
n ad as in d ependientem ente, y aquellas que h a n sido paread as o
en las que se incluyen com paraciones de puntuaciones correspon­
dientes a los m ism os individuos. De e sta m anera, la indepen­
dencia, o la fa lta de ella, e n tre m u estras, es u n a de las consideraraciones que deben h acerse cuando se escoge e n tre distintos
pro cedim ientos estadísticos. E n el caso de m u estras paread as
fo rm am o s u n a sim ple p u n tu ació n p a ra cad a p a r, y a continuación
utilizam os el d ato com o si se tra ta ra d e u n a sola m uestra. Cuan­
do las m u estras h a n sido tra ta d a s independientem ente, no siendo
ta l vez iguales p o r o tra p a rte los tam añ o s de las m u estras,
fo rm ulam os la h ip ótesis nula, suponiendo que h a hab id o m u és­
treo s in dependientes de las m ism as poblaciones, y que la d is tri­
bu ció n de n u e stra estad ística de la p ru e b a (Z, t, r, U o D ) se
b asó e n dicho su puesto. E stos principios se am plían fácilm ente
a m ás de dos p ru eb as. E n los capítulos xv y xvi observarem os
com paraciones e n tre tre s o m ás m u estras seleccionadas indepen­
dien tem ente, cuan do la segunda variable p u ed e se r u n a escala
nom inal, o rd in al o de intervalo. Aun cuando no nos cen trarem o s
en el exam en de ejem plos m ás com plejos, e n los que haya im ­
plícitas m ás de dos m u e stra s p areadas, p o d rá verse e n el e je r­
cicio 5 del cap ítu lo a n te rio r y en el ejercicio 5 d e este m ism o
capítulo, que la am pliación es directa. La id ea b ásica es la de
que u n o o b tiene u n a sola p u n tu ació n p a ra cad a p a r (la que pu©d e re s u lta r de u n a d iferencia de diferencias o alguna o tra función!
m ás com p leja), p ro ced ien d o a continuación com o si se hubiese
tra ta d o de u n a sim ple m u e stra de tam añ o N, en la que N re ­
p re se n ta el n ú m ero d e p ares (o d e trío s, etc é te ra ).
E n el p re sen te ca p ítu lo abordam os p o r p rim e ra vez u n pro b le­
m a d e tip o general, a s a b e r : el del c rite rio q u e h a d e aplicarse al
escoger e n tre p ro cedim ientos estadísticos altern ativ o s. Nos hem os
c e n tra d o especialm ente en el concepto de la eficacia de las fu e r­
zas relativ as d e las p ru e b as p o r el hecho de que algunas d e éstas
req u ieren supuestos m ás fu ertes que o tras. No debe sin em bargo
el le c to r q u ed arse b a jo la im p resió n de que el problem a es tan
sencillo com o aq u ella d istinción da a en ten d er. Ya se h a hecho
n o ta r q ue en la m ayoría de los casos p ráctico s n o se conoce lo
su ficien te acerca del v alo r real de los p a rá m e tro s com o p a ra
b a s a r en ta l conocim iento unas conclusiones definitivas. H ay ad e­
m ás o tra cuestión, m ás técnica, que no hem os discutido. E n ella
están im plicadas las sensibilidades relativas d e las p ru e b as en
ord en a la violación de los supuestos requeridos. P or ejem plo :
¿qué p erju icio se causa si se u tiliza u n a p ru e b a de diferencia de
m edias cu an d o la población tiene u n a fo rm a especificada com o
no n o rm al? ¿Q ué o cu rre si se viola el su p u esto de las escalas
de intervalo? Los estadísticos em plean la expresión robustez de
una prueba cu an d o aluden a su sensibilidad a n te diversas clases
de distorsiones. L a ro b u stez re su lta p a rtic u la rm e n te difícil de
ev aluar cuando son varias las distorsiones, o los supuestos no
cum plidos, cuya aplicación es sim ultánea. Aun cuando los proce­
dim ientos p aram étrico s, tales com o la p ru e b a de la diferencia
de m edias, p u ed en parecer razo n ab lem en te ro b u sto s b a jo m uchas
situaciones, hay diferencias d e opinión en cu a n to a lo aconseja­
ble que re su lte u tiliz a r tales p ru e b as cuando se dispone de a lte r­
nativas no p aram étricas.
N u estra p o sición es la d e que cu an d o n o se pueden aplicar
criterio s claros lo p ru d e n te es u tiliza r v arias p ru e b as diferentes,
tan to p aram étrica s com o n o p aram étrica s, publicando los dos'
grupos de re su ltad o s p a ra que el lecto r p u ed a sac ar sus propias
conclusiones. H ab itu alm en te se hace esto dando, en no tas al pie
de la página, los resultados de u n a segunda pru eb a, com entando
las razones p o r las cuales las conclusiones no re su lta ro n idénti­
cas. C uando h ay u n a p ru e b a (o estim ación) n o p aram étrica dis­
ponible, cuya fuerza sea casi ta n a lta com o la de u n procedim ien­
to param étrico com parable, tal com o la p ru e b a de M ann-W hitney
com o altern ativ a a la p ru eb a t, p arece ría p referib le confiar m ás
bien en el p rocedim iento no p aram étrico . E nco n trarem o s em pe­
ro m uchos pro cedim ientos p aram étrico s m ultivariados p a ra los
que no existe u n a altern ativ a no p aram étrica satisfactoria. An­
tes que u s a r u n a altern ativ a débil o teóricam ente n o satisfacto­
ria, re su lta preferible, si tal es el caso, re c u rrir decididam ente
a los p ro cedim ientos p aram étrico s, conscientes de que n o se
po d rán o b ten er con ellos resu ltad o s definitivos. No es posible,
en pocas p alab ras, d a r u n a sim ple re sp u esta dogm ática a la p re­
g u n ta: ¿Qué clase de p ru e b a o m edida es la m ás apropiada?
G losario
Prueba no param étrica
* Eficiencia de fuerza
* Función de fuerza
* Fuerza de una prueba
E jercicios
1. Se ha clasificado cierto número de iglesias protestantes de una
localidad como: 1) predominantemente de clase alta o clase media
alta» o 2) predominantemente de clase media baja o clase baja. Se
ordenan según el grado de formalismo de sus servicios, con los si­
guientes resultados:
Clase alta o clase media alta: órdenes 1, 2, 3, 6, 7, 8, 11, 13, 14, 15, 17,
21, 25
Clase media baja o clase b a ja : órdenes 4, 5, 9,10, 12,16, 18, 19, 20, 22,
23, 24, 26, 27.
Sirviéndose del nivel de .05, ¿puede establecerse una diferencia sig­
nificativa: a) con la prueba de las secuencias, y b) con la de MannWhitney? ¿Qué prueba preferiría el lector? ¿Por qué? Respuesta,
a) r = 14, no rechazar; b) U = 52, no rechazar.
2. En el cuadro 18.3 se dan datos de los grados de popularidad de
los miembros de un grupo de un campo de trabajo de verano. Con­
sidérese a las personas con los grados de participación del 1 al 8 como
“activas" en las discusiones del grupo, poniendo a las demás en la
categoría de “inactivas”. ¿Existe al nivel de .05 diferencia significa­
tiva alguna entre las personas "activas” y las “inactivas" por lo que
se refiere a la popularidad? Empléense sucesivamente las pruebas de
las secuencias y de Mann-Whitney.
3. Supóngase que se ha logrado ordenar las ocupaciones urbanas
por grados descendentes, sirviéndose de las categorías generales de
profesional y directivo, empleado, obrero calificado, semicalificado y
no calificado. El investigador ha preguntado a todos los padres de
familia si son o no partidarios del aumento de los beneficios de la
seguridad social a expensas del contribuyente. Los resultados son
como sigue:
Nivel de ocupación
Partidarios
Contrarios
Profesional y directivo
Empleado
Obrero calificado
Obrero semicalificado
Obrero no calificado
46
81
93
241
131
97
143
88
136
38
592
502
Total
¿Existe alguna relación significativa entre la ocupación y la actitud
al nivel de .001? Respuesta, D — .282, P < .001.
4. Resolver el ejercicio 2 del capítulo x m utilizando la prueba de
Smimov. Comparar estos resultados con los de la prueba í.
5. Efectúense todas las indagaciones del ejercicio 5 del capítulo xm ,
sirviéndose de la prueba de Wilcoxon de los pares asociados y los ór­
denes provistos de signo. ¿Cómo se comparan entre sí los resultados
de las dos pruebas? Respuesta, a) T = 14.5, no rechazar; c) T = 11,
no rechazar.
* 6. Verifiqúese que la ecuación (XIV.8) es equivalente désete el pun­
to de vista algebraico a la otra fórmula de Z dada en la página 273.
B iblio g ra fía
1. Bradley, J, V.: Distribution-free Statistical Tests, Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1968, caps. 1-3, 5, 11 y 13.
2. Dixon, W. J., y F. J. Massey: Introduction to Statistical Analysis
3? ed., McGraw-Hill Book Company, Nueva York, 1969, cap. 17.
3. Freund, J. E.: Modern Elementary Statistics, 3? ed., Prentice-Hall
Inc., Englewood Cliffs, N. J., 1967, cap. 13.
4. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 18.
5. Pierce, Albert: Fundamentáis of Nonparametric Statistics, Dickenson Publishing Company, Inc. Belmont, Cal., 1970, cap. 14.
6. Savage, I. R.: "Bibliography of Nonparametric Statistics and Related Topics”, Journal of the American Statistical Association,
vol. 48, pp. 844-906, 1953.
7. Siegel, S,: Nonparametric Statistics for the Behavioral Sciences,
McGraw-Hill Book Company, Inc., Nueva York, 1956, caps. 5 y 6.
8. Smith, K.: "Distribution-free Statistical Methods and the Concept
of Power Efficiency”, en L. Festinger y D. Katz (eds.) Research
Methods in the Behavioral Sciences, The Dryden Press, Inc., Nue­
va York, 1953, pp. 536-577.
9. Swed, F. S., y C. Eisenhart: "Tables for Testing Randomness of
Grouping in a Sequence of Altematives”, Annals of Mathematical
Statistics, vol. 14, pp. 66-87, 1943.
10. Walker, H. M. y J. Lev: Statistical Inference, Henry Holt and
Company, Inc. Nueva York, 1953, cap. 18.
E n e l p resen te capítulo- vam os a estu d iar las relaciones en tre dos
o m ás escalas nom inales. Ya vim os que el caso de dos escalas
nom inales dicotóm icas podía tra ta rs e como u n problem a que com ­
p o rta ra u n a diferencia de proporciones. R esulta a m enudo de­
seable servirse de u n procedim iento de p ru e b a m ás general, que
nos ponga en condiciones de averiguar las diferencias que haya
e n tre tres o m ás m uestras, o de co m parar dos (o m ás) m ues­
tra s con resp ecto a u n a variable de m ás de dos categorías. La
p ru eb a de la ^-cuadrada que vam os a exam inar en la próxim a
sección nos perm ite establecer relaciones e n tre escalas nom ina­
les con cu alquier n ú m ero de categorías. Se in tro d u cirán al p ro ­
pio- tiem po algunos conceptos nuevos. H asta aquí sólo nos hem os
ocupado de p ru eb as acerca de la existencia de u n a relación en­
tre dos variables. E n este capítulo se p re se n ta rá n algunas m e­
didas indicativas de la fuerza o grado de relación. Se exam inarán
al p ro p io tiem po procedim ientos em pleados p a ra el control de
u n a o m ás variables.
XV.1. La prueba de la
cuadrada
La p ru e b a de la -/-cuadrada es u n a p ru e b a m uy general que pue­
de em plearse cuando- deseam os ap reciar si unas frecuencias obte­
nidas em píricam ente difieren significativam ente o no de las que
se esp erarían b ajo cierto co n ju n to de supuestos teóricos. La
p ru e b a general p re sen ta m uchas posibilidades de aplicación, la
m ás com ún de las cuales, en ciencias sociales, es la relativa a los
p roblem as de “contingencia” en los que dos variables de escala
nom inal se h an clasificado p o r com paración de una con o tra .1
Supóngase, p o r ejem plo, que se h an relacionado u n a con o tra la
confesión religiosa y la filiación política y que los datos se h an
resum ido en el siguiente cuadro de contingencia de 3 x 3 :
Partido
Republicanos
Demócratas
Independientes
Total
Protestantes
Católicos
ludios
126
71
19
216
61
93
14
168
38
69
27
134
Total
2.25
233
60
5.18
1 En relación con otro empleo de la ^-cuadrada, véase el ejercicio 3 a!
final del capítulo.
289
Obsérvese que si las frecuencias se convirtieran en porcentajes,
p odríam os d ecir que, en ta n to que el 58.3 p o r cien to de los p ro ­
testan tes son republicanos, sólo p re fiere n este p artid o el 36.3 por
ciento de los católicos y el 28.4 p o r ciento de los judíos. Se nos
p o d ría entonces o c u rrir p re g u n ta r si esas diferencias eran o no
significativas desde el p u n to de vista estadístico. Como q uiera que
se tienen tre s confesiones religiosas y tre s categorías de prefe­
ren cia política, no podernos servirnos d e u n a sim ple p ru e b a de
las diferencias de las proporciones. Sin em bargo, sirviéndonos
de la p ru e b a de la /^-cuadrada, podem os estab lecer esencialm ente
la m ism a clase de hipótesis n u la que an terio rm en te. Podem os
sup o n er, en efecto, que no existe d iferencia alguna e n tre las tres
confesiones religiosas. E sto equivale a decir que las proporciones
de republicanos, de dem ócratas y d e independientes deberían ser
las m ism as en cada tino de dichos grupos. P artiendo, pues, del
supuesto de que la hipótesis n u la es co rre c ta y d e que las m ues­
tra s son aleato rias e independientes, podem os calcu lar un con­
ju n to de frecuencias que p o d ría n esperarse, dados los totales
m arginales en cuestión. E n o tro s térm inos, podem os calcular el
n ú m ero de p ro te sta n te s de los que esp eraríam o s fu e ran republi­
canos y c o m p arar esta cifra con la que se h a obtenido en re a ­
lidad. Si la diferencia y las diferencias co rrespondientes a las
o tra s casillas son considerables, p ro b ab lem en te sospechem os de
la hipótesis nula.
H ay que o b tener, pues, alguna m ed id a de la d iferencia en tre
las frecuencias observadas y las esperadas. Existe, p o r supues­
to, u n a g ran ca n tid a d d e m edidas, p ero necesitam os u n a con
resp ecto a la cual la distribución de m u estras sea conocida y
esté tab ulada. P o r ello nos servim os de u n a m edia designada
com o de la ^-cuadrada (y'¿), que se define com o sigue:
X2 = S Í Í L Z ^ 1
Je
(XV.1)
en lo que f0 y f e se refieren respectivam ente a las frecuencias ob­
servadas y esp eradas p a ra cada casilla.2 O en o tras p a la b r a s : la
^-cuadrada se o btiene tom ando p rim ero el cu ad rad o d e la diferen­
cia e n tre las frecuencias observadas y esperadas p a ra cada casilla.
Dividimos d icha cifra e n tre el n ú m ero de casos esperados en cada
casilla, con o b jeto de norm alizarla, de m odo que las m ayores
contribuciones n o provengan siem p re de las casillas m ayores. Y
la sum a de to d as esas cantidades no negativas p a ra todas las ca­
sillas es el v alo r de la ^-cuadrada.
2 Con objeto de reducir la confusión hemos abandonado el índice i, su­
poniéndose, con todo, que estamos sumando los resultados de todas las
casillas.
O bsérvese que cu an to m ayores son las diferencias e n tre las
frecuencias observadas y las esperadas, tan to m ayor es el valor
de la /-cu ad rad a. É sta sólo será cero si todas las frecuencias
o bservadas y esperadas son idénticas. Podem os proceder a una
verificación de la hipótesis n u la b uscando la distribución de m ues­
treo de la /-cu adrada. D ifícilm ente anticiparem os que las fre ­
cuencias observadas y las esperadas sean exactam ente las m is­
m as. Sin em bargo, si el valor de la ^-cuadrada resu lta m ayor
de lo que al azar se anticiparía, estarem os en condiciones de des­
c a rta r la hipótesis n u la siguiendo el procedim iento habitual.
Problem a. Podem os servirnos del ejem plo pu esto anteriorm en­
te, p e ro sim plificándolo, de m an era que obtengam os u n a ta b la de
2 X 2. La extensión del m ism o al caso general re su lta rá después
m uy sencilla. Supongam os, pues, que se h an com binado los ca­
tólicos y los judíos y que se h a prescindido de los independien­
tes. Tenem os así el siguiente cuadr&
Partido
Protestantes
Católicos
y
judíos
Total
Republicanos
Demócratas
126
71
99
162
225
233
Total
197
261
458
Im p o rta o b servar que las cifras de cada casilla son en realidad
frecuencias y no po rcen tajes. Si ías cifras dadas son porcentajes,
hay q ue convertirlas en frecuencias, ya que, desde el punto de
vista estadístico, la p ru e b a de la /-cu a d rad a com porta u n a com ­
p aració n de frecuencias y no de porcentajes.
1. S upuestos.
N ivel de m e d ic ió n : dos escalas nom inales
M odelo: m u estras aleatorias independientes
H ip ó tesis: n o existen diferencias e n tre las poblaciones con­
fesionales e n relación con la preferen cia política.
P o r supuesto, el nivel de m edición puede ser m ás elevado. En
efecto1, las p ru ebas de la /-cu ad rad a se utilizan con frecuencia
con escalas ordinales e inclusive, en ocasiones, con escalas de
intervalo. Sin em bargo, según vim os en los capítulos preceden­
tes, se dispone en tales casos de pruebas m ás fu ertes que se
em p learán p o r lo re g u lar con preferen cia a la /-cuadrada. Una
vez m ás, h ay que su poner independencia e n tre las m u estras p ara
serv irse de la p ru e b a de la /-cuadrada. La m agnitud de la m ués-
t r a h a de se r re lativ am en te grande, p o rq u e la %-cuadrada, según
la define la fórm ula, tiene u n a d istrib u ció n de m u estreo que sólo
se ap roxim a a la del cu ad ro si N es grande.3
L a h ip ótesis n u la p u ed e fo rm u larse en cierto n ú m e ro de m o­
dos equivalentes. D ecir que no hay diferencia e n tre grupos con­
fesionales en m a te ria de p referen cia p o lítica equivale esencial­
m en te a d ecir que no- hay d iferencia alguna e n tre la filiación
religiosa y la p re fere n cia electoral. H ay que te n e r p resen te, sin
em bargo, que sem eja n te afirm ación sólo- se ap licaría a las varia­
bles tales com o se las haya definido o p erativ am en te; en este caso,
p o r ejemplo-, la p referen cia política y la religión se definirían
com o variables dicotóm icas. P o d ría tam bién enunciarse la hipó­
tesis n u la enum erando las diversas proporciones que se suponen
iguales. Si bien este últim o m étodo sea ta l vez el m ás preciso,
p u ed e re su lta r con todo m uy em barazoso en el caso general.
2. N ivel de significacióni^Siipongam os que querem os dem os­
t r a r u n a diferencia y que deseam os se r ex trem adam ente cautos.
Nos servirem os, en consecuencia, del nivel de .001. Supóngase
asim ism o que n o se h a anticipado- la dirección de la diferencia.
3. D istribución de m uestreo. Las distribuciones de m u estreo
d e la %-cuadrada e stán dadas e n el cu ad ro I del A péndice 2. Ob­
sérvese que las distribuciones difieren de acu erd o con los grados
de lib e rta d im plicados. La determ inación de los grados de liber­
tad se exam inará m ás abajo. Como q u iera que, independientem en­
te de la dirección de la relación e n tre la confesión y la p refe­
ren cia política, n u estro in terés e stá en sab e r si la ^-cuadrada
o b ten id a es o n o m ayor de lo que se e sp e raría al azar, sólo nos
ocupam os de la cola m ayor de la distribución. La cola m enor,
que consta de valores m uy pequeños de la i-cuadrada, n o se
suele em p lear p o r lo- reg u lar en los problem as de contingencia.
4. Cálculo de la estadística de la prueba. Lo p rim e ro que h a­
cem os en el cálculo de la ^-cuadrada es o b ten er las frecuencias
esperad as. La hipótesis nula dice que no- hay preferencias de la
gente en cuanto a la votación. P o r lo tan to , independientem ente
d e cuál sea el v e rd ad ero n ú m ero de republicanos en cada u n a de
las poblaciones confesionales, esperaríam os que, a la larga, h ab ría
la m ism a p ro p o rció n de aquéllos en am bas m uestras. Como q uiera
que la p ro p o rció n de republicanos en la m u estra com binada es
de 225/458, o sea .4913, esp eraríam o s la m ism a cifra en cada
u n a de las dos m u e stra s confesionales. Así, pues, anticiparíam os
en cada uno de ellos los m ism os p o rcen tajes de republicanos y
de dem ócratas. Podem os o b ten er luego el núm ero esp erad o de
republicanos en tre los p ro te sta n te s m ultip lican d o .4913 p o r el
n úm ero to tal 4de p ro te sta n te s de la m u estra. E n esta form a,
el núm ero an ticipado de p ro te sta n te s republicanos sería (.4913)
* Para un examen más detallado de este problema véanse las pp. 299-301.
(197) = 96.8. Las dem ás frecuencias anticipadas pueden calcularse
en fo rm a análoga. P o r lo re g u lar se recom ienda re te n e r p o r lo
m enos u n a cifra decim al al calcular las frecuencias esperadas.
De m odo que en el caso a n te rio r no redondearíam os a 97.
Antes de p a sa r adelante, conviene ob serv ar que las frecuencias
esp erad as tam bién pueden obtenerse razonando en fo rm a inver­
sa, esto1 es, en térm inos de la pro p o rció n de republicanos que
esp eraríam o s que fu e ran p ro testan te s. Toda vez que la p roporción
de p ro testan te s en la m u e stra com binada es de 197/458, o sea
.4301, podem os o b ten er la frecuencia an ticip ad a de republicanos
p ro te sta n te s com o sigue: (.4301) (225) = 96.8. El lecto r h a de
ac o stu m b ra rse a o b ten er las frecuencias esp erad as en am bas fo r­
m as, a títu lo de co n tro l de los cálculos.
U na vez que nos hayam os aco stu m b rad o al procedim iento, en­
co n trarem o s p ro b ab lem en te m ás sencillo' servim os de u n a sim ple
fó rm u la com o la q u e se describe a continuación. Si designam os
las casillas y los to tales m arginales com o
a
c
b
d
a+c b+d
a+ b
c+d
N
entonces la frecuencia esp e rad a puede o b ten erse m ultiplicando
los dos m arginales correspondientes a la casilla en cuestión y
dividiendo e n tre N . Así, p o r ejem plo, la cifra esp erad a p a ra la
casilla a sería
(a + b ) ( a + c ) / N = (225) (197)/458 = 96.8
El em pleo de este ú ltim o procedim iento reduce todo e rro r de
red o n d eo que p o d ría in tro d u cirse dividiendo1 p rim ero (p a ra ob­
ten er la p ro p o rció n ) y m ultiplicando luego.
Se o b serv ará que este procedim iento de m u ltip licar m arginales
p a ra dividirlos e n tre el núm ero to tal de casos, viene a ser b ásica­
m ente el m ism o que se exam inó en el capítulo ix en relación con
la independencia de dos variables. E sto pone de relieve el hecho
de q ue las frecuencias esperadas son com putadas sobre la b ase
del supuesto de que las variables no e stá n relacionadas, en ta n ­
to que las frecuencias observadas nos m u e stra n el grado en que
se viola este supuesto. R ecuérdese que si los eventos (o va­
riab le s) A y B son estad ísticam en te independientes, el conocer
el v alo r de u n o n o nos ay u d ará a p re d ecir el otro. Si las fre ­
cuencias observadas y las esperadas son exactam ente iguales, ello
significaría, en n u estro ejem plo, que el conocer las diferencias
religiosas d e u n a p erso n a no1 nos p e rm itiría p re d ecir sus incli­
naciones políticas.
P or convención, ponem os p o r lo reg u lar las frecuencias espe­
rad as e n tre p arén tesis, debajo de las frecuencias realm ente ob­
tenidas p a ra cada casilla, ta l com o se indica a co n tin u ac ió n :
Partido
Protestantes
Republicanos
126
( 96.8)
71
(100.2)
Demócratas
Total
197
Católicos
y judíos
99
(128.2)
162
(132.8)
261
Total
225
233
458
Los cálculos p a ra la /-cu ad rad a pueden resum irse en u n cuadro
com o el X V .l. O bsérvese que la can tid ad f 0 — f e tiene el mis-
Cuadro
XV .l. Cálculos de la /-cuadrada
Casilla
f0
1e
fo~fe
(fo-fe*
( f o - f e Wf e
a
b
c
d
126
99
71
162
96.8
128.2
100.2
132.8
29.2
-29.2
-29.2
29.2
852.64
852.64
852.64
852.64
8.808
6.651
8.509
6.420
Total
458
458.0
30.388
m o valor p a ra cada casilla. E l lecto r debería convencerse p o r sí
m ism o de que esto será siem pre así en el caso de tablas de 2 X 2,
p ero que no se d eja con todo generalizar a otros casos. El hecho
de elevar este valor al cu ad rad o tien e p o r efecto la elim ina­
ción de las can tidades negativas. Im p o rta que se em pleen en el
d enom inador las frecuencias esperadas, y no las observadas. En
efecto, estas ú ltim as v aria rán de u n a m u estra a o tra, y pueden
incluso ser iguales a cero.
R esulta a m enudo m ás conveniente servirse de u n a fórm ula de
cálculo que no re q u ie ra la sustracción efectiva de cada frecuencia
esperada de su correspondiente observada. D esarrollando el nu­
m erad o r en la expresión de la /-cu a d rad a y uniendo los térm inos
o b ten em o s:
( f e - f e )2
^
f <? -
V o te +
/ .2
PROBLEMAS DE CONTINGENCIA
295
Pero, to d a vez que tan to 2 /„ com o 2/„ son iguales a N, te n e m o s:
2■
X
/o2
■N
(XV.2)
Sirviéndonos de esta fórm ula, que co m p o rta una sola su stra c ­
ción, obtenem os el m ism o re su ltad o que an terio rm en te (véase
cuadro XV.2).
Cuadro
XV.2. Cálculo de la %-cuadrada sirviéndose de la fórm ula
Casilla
f 2
10
fo2/fe
a
b
c
d
15 876
9 801
5 041
26244
164.008
76451
50.309
197.620
488.388
T o ta l
y2 - 488.388 - 458
" = 30.388
E n el caso de u n a ta b la de solam ente 2 x 2 , re su lta posible ex­
p re s a r la /-cu a d rad a com o sim ple función de las frecuencias de
las casillas y de los to tales m arginales. Si se designan las casillas
com o an terio rm en te, ten em o s:
f = --------------N("'ad ~ bC)¿-------------*
(a + b) (c + d) (a + c ) (b + d)
(XV.3)
Si b ien este cálculo re q u ie re la m ultiplicación de núm eros gran­
des, el em pleo de los logaritm os lo- sim plificará con todo con­
siderablem ente. Vemos el paso, de la ecuación (XV.3), q u e la
•/-cuadrada será cero cuando' el producto- diagonal ad sea exacta­
m en te igual al p ro d u c to be. E ste hecho puede em plearse com o
m éto d o ráp id o p a ra sab e r si es o no necesario seguir adelante
con la p ru e b a de significación. Si los p ro d u cto s diagonales son
casi iguales, la /-cu a d rad a será dem asiado peq u eñ a p a ra p ro p o r­
cio n ar significación. E stos p roductos diagonales sirven asim ism o
p a ra d eterm in a r la dirección de la relación sin que tengam os que
m o lestarn o s en calcular los p orcentajes. El m ayor de los dos
p ro d u cto s indica, en efecto, cuál de las diagonales contiene la
m ay o ría de los casos.
*
T anto las an terio res fórm ulas p a ra / ( c h i) al cuadrado, com o
el pro ced im ien to p a ra calcu lar frecuencias esperadas, son sufi-
cientes en la m ayoría de los casos, pero- puede re su lta r ú til co­
n ocer una versión algo distinta, aplicable al caso r X c en gene­
ral, conveniente p a ra quienes deseen proseguir el tem a de la 7 al
cu adrado en otros textos m ás avanzados. E sta form ulación alter­
nativa será u tilizada m ás adelante p a ra ob ten er el lím ite supe­
rio r de x al cu adrado en el caso general r X c. P or o tra parte,
esta fo rm a altern ativ a p a ra la fó rm u la n o requiere el cálculo ex­
plícito de las frecuencias esperadas.
Sea N íj = n ú m ero observado en (i, ;')-ésima casilla del cuadro, y
ei} = n úm ero esperado (b a jo H 0) en la casilla (i, j),
p a ra
Sea
i = 1 , 2, . . . , r ; y / = 1 , 2, . . c.
O
N u — E N ijt p a ra i = 1, 2, . . r (to tal de filas), y
i—i
r
N.¡ = 2 Nij, p a ra y = 1, 2, . . . , c (to tal de colum nas).
Í-=1
Así podrem os expresar y al cu ad rad o com o sigue
Xa =
2
1,=1
•
S
(jv4 _ e
" ’í
)s
p ero puesto que
Ni.
N.,
&ij~ N ' N
N
N;. N.t
N
la fórm ula com putadora (XV.2) pasa a ser
r
f = N
r
2
c
A l-Z
2 ----- *--------1
[. *=! ^
N¡. N.j
y así vemos que no hay necesidad de co m putar explícitam ente
las frecuencias esperadas.
5.
Decisión. Antes de servirnos del cuadro de la ^-cuadrada,
hem os de d eterm in a r los grados de lib ertad asociados a esta es­
tadística de prueba. En los problem as anteriores, los grados de
lib ertad dependían siem pre del núm ero de los casos selecciona­
dos. En los problem as de contingencia, en cambio, dichos grados
sólo dependen del núm ero de casillas del cuadro. Al calcular las
frecuencias esperadas, pudo observarse que no es necesario cal­
cu lar valores p a ra cada casilla, ya que la m ayoría de ellas podían
obtenerse p o r sustracción. Y de hecho, en la ta b la de 2 X 2 sólo
necesitam os calcular u n a de las frecuencias esperadas, y las o tras
quedan au to m áticam ente determ inadas. E sto es así porque, p a ra
calcu lar las frecuencias esperadas, nos servim os de los totales
m arginales de n u e stra m u estra. E n o tro s térm in o s: si ponem os
el valor de u n a casilla cualquiera, los dem ás valores están p er­
fectam ente determ inados, ya que las frecuencias esperadas han
de te n e r los m ism os totales m arginales que las observadas. Por
lo tan to , sólo tenem os u n grado de lib ertad .
H abiendo, pues, averiguado que en la ta b la de 2 X 2 sólo hay
un grado de libertad, buscam os en el cu ad ro de la /-cu ad rad a
a lo largo de la hilera correspondiente a u n grado de lib ertad
h asta e n c o n trar el nivel de significación deseado. Vemos en esta
fo rm a que al nivel de .001 le corresponde u n a /-cu ad rad a de
10.827. E sto significa que, si todos los supuestos son efectiva­
m ente correctos, obtendrem os u n valor de la /-cu ad rad a igual
o m ayor que ése u n a vez e n tre mil. E n o tro s té rm in o s: sólo m uy
ra ram en te d iferirán las frecuencias observadas y las esperadas
en u n a cantidad que dé u n a /-cu ad rad a > 10.827, si no h u b iera
relación alguna e n tre la confesión religiosa y la preferencia en
cu anto al voto (ta l como se h a definido operativam ente en este
p ro b lem a). Y com o q u iera que hem os obtenido p a ra la /-cua­
d ra d a u n valor igual a 30.388, concluim os que la hipótesis nula
pued e descartarse al nivel de .001. Vemos, de paso, que, si N es
grande, no es n ad a difícil llegar a o b ten er significación al nivel
de .001.
Pese a que sólo nos ocupáram os de valores grandes de la
/-cu ad rad a, la dirección de la relación no se anticipó en el ejem ­
plo an terio r. Independientem ente de si los p ro testan tes p re sen ­
tab an m ás probabilidades de ser republicanos o dem ócratas, el
re su ltad o h a b ría sido u n a /-cu ad rad a grande si los p o rcen tajes
eran tam b ién grandes. E n otros térm inos, la estadística de la
p ru e b a es aquí indiferente a la dirección de la relación, ya que
co m p o rta los cuadrados de las desviaciones y, p o r consiguiente,
no pued e ser negativa. Podem os sacar p a rtid o de las predicciones
relativas a la dirección partien d o sim plem ente p o r la m ita d el
nivel de significación obtenido. En efecto, si la /-cu ad rad a es lo
b astan te grande p a ra d a r significación al nivel de .10 sin a n ti­
cip ar dirección, el re su ltad o será tam bién significativo al nivel
de .05, a condición, p o r supuesto, que la dirección de la rela­
ción se haya fijado de antem ano.
Si el nivel de significación deseado no puede obtenerse exacta­
m en te de la tab la d e la /-cuadrada, se conseguirá u n a aproxim a­
ción satisfacto ria extrayendo la raíz c u a d rad a de la /-cu ad rad a
y recu rrien d o a la ta b la norm al. Así, p o r ejem plo, sabem os que
u n a /-cuad rad a de 3.841 con u n grado de lib ertad corresponde
al nivel de .05 si no se h a adivinado la dirección. La raíz cu adrada
de esta cifra es 1.96, que es el valor de Z necesario p a ra ob ten er
sig n ificació n co n la ta b la n o rm a l. É s ta , sin e m b arg o , sólo p u ed e
e m p le a rse e n el c a so de p ro b le m a s d e co n tin g en c ia d e 2 X 2.
Caso general. E n el caso general d e la tab la de contingencia con
r hileras y c colum nas, los supuestos y cálculos p a ra la ^-cua­
d ra d a sólo req u ieren u n a ligera m odificación. La hipótesis nula
de "ausencia de diferencias” o "ausencia de relación" im plica
ah o ra que cada población te n d rá las m ism as proporciones p ara
cada u n a de las categorías de la segunda variable. Las frecuen­
cias esperadas pueden obtenerse exactam ente en la m ism a fo r­
m a que an terio rm en te, p ero ten d rem o s ah o ra re casillas, y los
grados de lib e rta d serán distintos.
Supóngase que nos servim os del m ism o p roblem a an terio r,
p ero en su fo rm a original, o sea la de u n a tab la de 3 X 3. O bser­
vemos de p aso que e sta tab la nos p roporciona m ay o r inform a­
ción que la de 2 X 2, en la que los católicos y los ju d ío s se com ­
bin aro n en u n a sola categoría. Podem os, p o r lo tan to , esp erar
resu ltad o s que difieran algo de aquellos obtenidos an terio rm en ­
te. Calculando las frecuencias esperadas p o r uno cualquiera de
los m étodos an terio rm en te sugeridos, obtenem os:
Partido
R e p u b lic a n o s
D e m ó c ra ta s
In d e p e n d ie n te s
T o ta l
Protestantes
Católicos
Judíos
126
( 9 3 .8 )
71
( 9 7 .2 )
19
( 2 5 .0 )
61
( 7 3 .0 )
93
( 7 5 .6 )
14
( 1 9 .4 )
38
( 5 8 .2 )
69
( 6 0 .2 )
27
( 1 5 .6 )
21 6
168
134
Total
225
233
60
518
Puede co n stru irse u n a tab la de cálculo lo m ism o que a n te rio r­
m en te (véase cu ad ro XV.3).
P ara d eterm in a r los grados apropiados de lib ertad , observam os
que, u n a vez las dos p rim eras frecuencias esperadas in scritas en
la p rim era colum na, la te rc e ra se h alla d eterm in ad a p o r su strac­
ción. Y lo m ism o es cierto de la segunda. Todas las frecuencias
esperadas de la te rc e ra colum na e sta rá n determ inadas a p a rtir
de los totales de la hilera. E n térm inos generales: p a ra cada
u n a de las p rim era s c — 1 colum nas será posible llen ar todas las
casillas m enos una, o r — 1. La colum na final estará, pues, siem ­
p re p erfectam en te determ inada. P or 1o- tanto, el núm ero de los
grados de lib ertad de la tab la de contingencia de r X c puede
expresarse p o r m edio de la fó rm u la
d f — (r — í ) (c — l )
Cuadro
XV.3. Cálculo de la /-cuadrada para una tabla de
contingencia de 3 x 3
Casilla
fo
fe
•f 02
a
b
c
d
e
f
g
h
i
126
61
38
71
93
14
27
93.8
73.0
58.2
97.2
75.6
60.2
25.0
19.4
15.6
15 87 6
3 721
1444
5 041
8 649
4 761
361
196
729
T o ta l
518
5 18.0
69
19
w u
169.254
50.973
24.811
51.862
114.405
79.086
14.440
10.103
46.731
561.665
x 2 = 5 6 1 .6 6 5 - 518 = 43.665
O bsérvese que esta fó rm u la da u n grado de lib ertad en el caso
especial en que r = c = 2.
T oda vez que son 4 los grados de lib e rta d asociados a n u estra
tab la de 3 X 3, vem os que p a ra el rechazo al nivel de .001 se re ­
q u iere u n a /-cu ad rad a de 18.465. R echazam os, p o r consiguiente,
la hipótesis nula. O bsérvese que si p a ra rechazar se req u iere un
valor m ayor de la /-cuadrada, es p orque hay m uchas m ás casillas
que contribuyen a dicho valor. Como q u iera que la /-cu ad rad a
re p re se n ta u n a sum a y n o un prom edio, esp eraríam os que, en
igualdad de condiciones, cu an to m ayor sea el núm ero de casillas,
ta n to m ay o r será la /-cuadrada. El hecho de que el valor de la
/-cu a d rad a re q u erid o p a ra o b ten er significación aum ente con los
grados de lib ertad n o d eb ería so rp ren d em o s.4
Corrección de continuidad. Ya se indicó que la p ru e b a de la
/-cu a d rad a req u iere u n a N relativam ente grande debido al hecho
de que la distribución de m u estreo de la estad ística de la p ru e b a
sólo se aproxim a a la distribución de m u estreo dada en la tabla
de la /-cu ad rad a si N es grande. P lantéase, pues, n atu ra lm e n te la
cuestión de cuán gran d e debe ser N p a ra que podam os servirnos
de d icha prueba. La resp u esta depende del nú m ero de casillas
y de los totales m arginales. G eneralm ente, cu an to m en o r sea el
n ú m ero de casillas y cu an to m ás aproxim adam ente iguales sean
todos los totales m arginales, tan to m en o r p o d rá ser N . Los
crite rio s n o rm alm ente utilizados p a ra decidir si el nú m ero de
casos es o no suficiente, im plican las frecuencias esperadas
de cada casilla. Siem pre que cualquiera de estas frecuencias sea
*
Obsérvese que esto era al revés en el caso de la distribución t. ¿Por qué?
aproxim adam ente de cinco1 o m enor, se recom ienda p ro ced er a
alguna clase de m odificación, com o se indica a continuación.
Se supone que la distribución de la ^-cuadrada es continua. En
realidad, sin em bargo, si el n ú m ero de casos es relativam ente
pequeño, re su lta im posible que el v alo r calculado de la '/-cuadrada
tom e m uchos valores distintos. E sto es así p o rq u e las frecu en ­
cias observadas h an de ser siem pre núm eros enteros. Al co rre­
gir con fines d e continuidad, n o s im aginam os que las frecuen­
cias observadas pueden to m a r efectivam ente todos los valores
posibles y nos servim os de los que quedan a u n a distancia de
m edia u n id ad a u n o y o tro lado del en tero
obtenido, lo que dará
los resu ltad o s m ás conservadores. E n el caso de la tab la de
2 x 2, la corrección de continuidad p u ed e h acerse m uy fácilm en­
te. E sta corrección consiste ya sea en a ñ a d ir o su stra e r .5 de las
frecuencias observadas, con objeto de re d u c ir el tam añ o de la
/-cu ad rad a. La versión corregida de la ecuación ( X V 3 ) es la si­
guiente :
/
N ^ \ a d -b c \
N\ 2
j
(a + b) (c + d) (a + c) (b + d )
P ara a p reciar el efecto de la corrección de continuidad, pode­
mos ver los siguientes c u a d ro s :
(A)
7 13
(10) (10)
8
(5)
20
2
(5)
10
15 15
x2 = 5.40
30
(B)
7.5 12.5
(10) (10)
7.5
(5)
2.5
(5)
15 15
x2 = 3.75
20
10
30
E n el cuadro B hem os corregido p o r razones de continuidad re ­
duciendo las diferencias e n tre las frecuencias observadas y espe­
rad as en m edia unidad. H em os su p u esto que h ab ía e n tre 6.5 y
7.5 casos en la casilla su p erio r de la izquierda, y hem os tom ad ó \e l n ú m ero de 7.5, p o rq u e es el valor m ás cercano, al in­
terio r de dicho intervalo, de la frecuencia esp e rad a de 10.0. E n
este ejem plo, la corrección de con tin u id ad reduce el nivel de sig­
nificación de ap roxim adam ente .02 a algo m ás de .05. Es obvio,
p o r lo dem ás, que las correcciones de co ntinuidad pro d u cirán
m enos efecto cuando- las frecuencias esperadas sean m ayores.
Toda vez que sem ejante corrección co m p o rta en realid ad un
esfuerzo adicional m uy pequeño y que, p o r o tra p arte , al proce­
d e r así actuam os en sen tid o conservador, se recom ienda efec­
tu a rla siem pre que en cualquier casilla la frecuencia esperada
descienda p o r debajo d e 10. Con m u estras m uy pequeñas, in­
cluso esta corrección pro d u ce resultados engañosos. P ara las
tab las d e 2 X 2 se dispone de u n a p ru e b a altern ativ a que se exa­
m in a en la sección siguiente.
E n el caso- de la ta b la general de contingencia, las correcciones
de con tin u id ad n o son fáciles de hacer. Si el nú m ero de casillas
es relativ am en te g ran d e y si solam ente u n a o dos de las casi­
llas tien en frecuencias esp erad as de 5 o m enos, entonces reco­
m iéndase, p o r lo general, seguir adelante con las pruebas de la
/-cu ad rad a, sin p reo cu p arse mucho- p o r tales correcciones. En
cam bio, si el nú m ero d e casillas es pequeño, la ú n ica alternativa
p rá ctica con sistirá tal vez en com binar las categorías de m odo
que dichas casillas re su lten elim inadas. P or supuesto, las cate­
gorías sólo pueden com binarse si ello- posee teóricam ente algún
sentido. Así, p o r ejem plo, si h u b iera u n a categoría "de o tras con­
fesiones” que c o n sta ra de u n nú m ero ta n grande de grupos
confesionales que la categoría n o tu v iera teóricam ente sentido
alguno, ta l vez sería p referib le excluir a dichas personas p o r
com pleto del análisis aunque, como- regla general, no- es buen
sistem a el de excluir d ato s de u n análisis.
*XV.2. La prueba exacta de Fisher
E n el caso de tab las de 2 X 2 en las que N es m uy pequeña, es
posible servirse de u n a p ru e b a d esarrollada p o r R. A. Fisher, que
nos da p ro babilidades exactas, y no- aproxim adas. Si designam os
las casillas y los m arginales de la tab la de 2 X 2 de la siguiente
m a n e ra :
a+ b
b
a
c+d
d
c
a+ c
b+ d
N
podem os conseguir la p ro b ab ilid ad de o b ten er exactam ente esas
frecuencias en la h ipótesis n ula de que no hay diferencias en las
p ro p o rciones de las poblaciones. E sta p ro b ab ilid ad nos e stá dada
p o r la fó rm u la:
(a + & )!(c + d ) !(.« + c ) \ ( b -f d ) !
P = ~~
~Ñ \a\b~\c\d\
E sta fó rm u la de p ro b ab ilid ad puede o b ten erse utilizando la dis­
trib u ció n h ip ergeom étrica p a ra el cálculo de probabilidades so­
b re la b ase de m u estreo sin reposición. E n esta prueba, com o en
algunas o tra s p ru eb as no param étricas, podrem os en ten d er el
pro b lem a com o si éste contuviera rep etid as m u estras de una
“población” de tam año N. T ratam os así n u e stra m u e stra obte­
nida como si se tra ta ra de u n a población real, e im aginam os en
este ejem plo que las categorías de nu estro s casos les dan cabida
en una de las cu atro casillas. Como hay a + c individuos en la
p rim era colum na, a + b en la p rim e ra fila, y así sucesivam ente,
¿cuál será la p ro b ab ilid ad de que de los a + b individuos de la
p rim era fila co rresp o n d an exactam ente a a la p rim e ra colum na
y b a la segunda? Nos im aginam os h a b e r m u estread o a + b in­
dividuos al azar p ero sin reposición, colocándolos en la prim era
fila, con los re sta n te s cayendo p o r necesidad en la segunda fila.
En efecto, re su lta que im aginam os que llenam os las casillas por
un proceso esencialm ente al azar, y preguntam os cuál hubiera
sido la ex actitu d de los resu ltad o s si hubiese sido seguido tal
proceso.
Aplicando la fó rm u la p a ra la distrib u ció n hipergeom étrica dada
en la sección X.4, verem os que la p ro b ab ilid ad de o b ten er exac­
tam en te a y b casos en las dos casillas de la fila su p erio r vendría
d ada p o r
P(a,b) =
E scribiendo cada u n o de los térm inos en función de factoriales,
y sim plificando, o b ten em o s:
(a + c)!
P( a , b ) =
(b + d)\
a\(a + c - a ) \ b\(b + d - b ) \
(a + c ) ! (b + d) \
alcl
bldl
NI
N\
(a + b ) \ ( N — a — b ) \
(a + 1b ) \ (c + d ) !
(a + c ) \ { b + d ) \ ( a + b ) \ ( c + d ) \
Nlalblcldl
P uede com p robarse fácilm ente que se h a b ría conseguido el
m ism o re su ltad o si hubiéram os concebido el problem a com o
o rien tad o a seleccionar u n a m u e stra de a + c individuos, asig­
nándolos a continuación a la p rim e ra colum na.
Obsérvese q ue hay nueve factoriales en esta fó rm u la de P. Por
lo tanto, la ta re a de calcularla sería form idable. P o r o tra p arte,
com o q u iera que n o rm alm en te se e s tá in teresad o en o b ten er la
cola e n te ra de la d istribución de m uestreo y no la probabilidad
de av erig u ar exactam ente los resultados obtenidos, h a b ría que
añ ad ir, a esta p ro b ab ilid ad p rim era, las probabilidades de obte­
n er incluso m ás resu ltad o s poco corrientes en la m ism a dirección.
Un sencillo ejem plo num érico ilu s tra rá lo que esto significa.
Supóngase que hem os obtenido la siguiente ta b la de 2 X 2:
9
5
12
17
15 14
29
3
12
Si suponem os que los m arginales perm anecen fijos, vem os
in m ediatam en te q u e hay tre s resultados (e n la m ism a dirección)
que son incluso m ás difíciles de obtenerse. Son los sig u ien tes:
2 10
13 4
12
17
1 11
14 3
12
17
0 12
15 2
12
17
15 14
29
15 14
29
15 14
29
O bsérvese q u e podem os llegar a las tablas sucesivas reduciendo
cad a vez en uno las casillas a y d y au m entando en u n o las casi­
llas b y c, h a sta llegar a la ta b la final, en la que la casilla a está
vacía.
Supongam os que la casilla a es siem pre la que contiene el m e­
n o r n ú m ero de casos, ya que siem pre tendrem os la posibilidad
de d isp o n er las tab las en ta l forma.® Sirvám onos del sím bolo P0
p a ra designar la p ro b a b ilid ad de o b ten er exactam ente cero casos
en la casilla a (d ados los m arginales en cu e stió n ), en la hipótesis
n u la ; pongam os que P± re p re se n ta la p ro b ab ilid ad de o b ten er
ex actam en te u n caso en la casilla a, Pa la de o b te n e r exactam ente
dos casos, etcétera. Así, pues, en este p ro b lem a p a rtic u la r h e­
m os de o b ten er la su m a d e las probabilidades
Po + Pi + ^2 + P&
p a ra calcu lar la p ro b ab ilid ad de o b ten er tre s o m enos casos en
la casilla a. Y ya que nos estam os sirviendo de una p ru e b a de
s En raros casos cambiará la dirección de la relación si se sigue la regla
de que la casilla a sea siempre la más pequeña. Por ejemplo, si las dos
distribuciones marginales son muy desiguales, la regla tal vez no se apli­
que. Así, si a, b, c y d son 1, 2., 3 y 7, respectivamente, el producto ad ( = 7 )
es mayor que el producto be ( = 6). Si uno reduce entonces a hasta 0, las
casillas resultantes serán 0, 3, 4 y 6, y se producirá una inversión de direc­
ción, puesto que be > ad. Deben ser vigiladas tales inversiones y, en caso
de que se produzcan, deberá denominarse como a la casilla más pequeña en
la menor de las dos diagonales.
u n a sola cola, habrem os de doblar el nivel de significación obte­
nido, si no estuviéram os en condiciones de p o d er p red ecir Ja di­
rección.0
S erá m ucho m ás conveniente que calcular cada u n a de las
de la fó rm u la an terio r, que co m p o rta p ro d u cto s de factoriales,
ob ten er P 0 d irectam en te y o b ten er luego las probabilidades res­
tan tes como funciones de P0. Con objeto de distin g u ir en tre las
varias com binaciones posibles de los valores num éricos de a, b,
c y d en el caso de m arginales fijos, sirvám onos de u n subíndice
k p a ra d esig n ar la m agnitud de la casilla m ás pequeña a. Así,
p o r ejem plo, si hay k individuos en la casilla a, designarem os
las cantidades de las dh'ersas casillas como- a.k ( = k), bk, ck y dk.
Toda vez q ue se supone que los m arginales perm anecen fijos, si
dism inuim os % y d Jc en uno, hem os de au m en ta r b k y ck tam bién
en uno. Podem os ah o ra sim plificar la fó rm u la de P 0, ya que
ao = 0 y, p o r consiguiente, a0! = 1 (p o r definición), (cz0 + &«) ¡ =
b0 \, y ( a0 + c.0)! = c0!. O sea que cierto número- de factoriales se
elim inan, dejándonos c o n :
n _
(cfí + d 0) \ ( b 0 + d0)\
El n u m era d o r consta ahora solam ente de los factoriales de dos
de los m arginales, en lu g ar de los cuatro, y el denom inador sólo
co m p o rta JV!' y d0 !. El valor de d 0 puede o b ten erse de la últim a
de las tablas anteriores. P or lo tanto, en este ejem plo, (c0 + d 0) =
17, {b0 + d 0) — \A, N = 2,9, y d0 ~ 2, P0 puede calcularse ah o ra
sirviéndonos de u n a tab la de logaritm os de factoriales, o bien
escribiendo los factoriales y simplificando-.
Con o bjeto de calcular los valores de Pít P2 y P?, necesitam os
ah ora u n a fó rm u la general de Pk+1 en función de Pk. Ya que los
m arginales se suponen fijos, tenem os:
n
( a + b) !(c + d) !(a + c) \(b + d ) !
Pk+1 ~ N l ( a k + l ) l ( b k -
l ) l ( d kT W
debido al hecho de que, al a ñ a d ir uno a la casilla a, lo añadim os
tam bién a la casilla d y lo sustraem os tanto de b com o de c. Si
dividim os ah o ra Pk+1 en tre Ph, p rácticam en te todos los térm inos
desaparecen. E n efecto, los n u m era d o res de am b as p robabilida­
des son idénticos, ya que todos ellos com portan los m ism os m ar­
ginales. El fa cto rial de N se elim ina. Y nos queda:
6 En un sentido estricto, la prueba de Fisher deberá ser usada probable­
mente sólo en el caso en que previamente se hubiera predicho la dirección,
ya que las dos colas casi nunca serán perfectamente simétricas.
PROBLEMAS DE CONTINGENCIA
P¡c+i
Pb
305
^ - b k \ck \dk \
( afc+ l ) ! ( f o s - l ) ! ( c fc- l ) ! ( 4 + D !
P ero ak l / ( ak + í ) ! es igual a l / ( a k + 1), y lo m ism o p o r lo que
se refiere a d k \ / { d k + 1)!. O sea, pues, bk \ f ( b k - 1)! = b,„ y c b\¡
(ck — 1)! = Cj.. P o r co n sig u ien te:
bi-c,,
Pk
( «f c+nC^f c+l )
o sea
P
bA
7“+1
(fl,. + l ) ( 4 + l )
P
*
y los facto riales fastidiosos h a n desaparecido. P or lo tan to , po­
dem os servirnos de esta fó rm u la p a ra o b ten er P, a p a rtir de P0.
Una vez o b ten id a P, podem os calcular P2, y así sucesivam ente.
V olviendo a n u estro ejem plo num érico, obtenem os P 0 com o
sig u e :
14!17!
P0 = ------------= .17535 X 10-*
2912 E
Y p o r consiguiente:
bnC0
12(15)
P = ---------- — --------- P0 = _ — 1 (.17535 x 10-5) _ 10.521 x 10-»
(ao+l)(4>+D
K3)
Al calcu lar P2 hem os de cuidar de servirnos de a1: b¡, cx y d 1: y
no de las cifras em pleadas p a ra o b ten er Pt . Tenemos, a s í :
P , = ---------b -1 ----------= m i l i (10.521 x 1 0 -5) = 202.529 x 10-»
‘
(fll + l ) ( d 1 + l )
2(4)
Y análogam ente :
boC2
10(13)
P = ---------^ -------- p = _J:— 1 (202.529 x 1 0 -s ) = 1 755.252X 10-»
(añ + l ) ( i 2 + l )
3(5)
O bsérvese que cada u n o de los factores del n u m era d o r va dis­
m inuyendo en 1, al calcular Ph+1 a p a rtir de P fc, en ta n to que los
del d enom inador van aumentando* cada vez en una unidad. Su­
m an d o las p ro b abilidades te n e m o s /p u e s :
P 0 + Pj + P2 + Po = (.175 + 10.521 + 202.529 + 1 755.252) x 10-=
= 1 968.48 x 10-E = .0197
P o r lo tan to , la p robabilidad de o b ten er tres o m enos individuos
en la casilla a es, con la hipótesis nula, de .02, y tom arem os nues­
tr a decisión de re ch az ar o no la hipótesis n u la en consecuencia.
_D ebido a que la p ru e b a de F ish er es exacta, m erece p re fere n ­
cia resp ecto de la p ru e b a de la /-c u a d ra d a corregida con fines de
co n tinuidad. Y com o q uiera que p o r lo regular la p ru e b a de la
/-c u a d ra d a d a rá probabilidades algo m ás b ajas que la p ru eb a
de F isher, si lo que se desea en re alid ad es rech azar la hipótesis
nula, o b rarem o s, al servirnos de ésta, en sentido conservador. En
o tro s térm inos, si nos servim os de la p ru e b a de la '/-cuadrada,
pu ed e se r que lleguem os a probabilidades que en realid ad sean
dem asiado pequeñas, lo que nos llevaría acaso a la conclusión de
que la h ipótesis n ula deba d esc artarse cuando en re alid ad n o sea
así. Si la frecu en cia m ínim a esp e rad a es sensiblem ente superior
a 5 y si se em plea la corrección de continuidad, las dos pruebas
d arán ap ro x im adam ente los m ism os resultados. Aun logrando
e v ita r el em pleo de factoriales en el caso de la p ru e b a de Fisher,
se echa de v er que, si la frecuencia m en o r de la casilla es m ayor
que 5, los cálculos necesarios p o d rá n re su lta r m uy fastidiosos.
De ahí que se en c u en tre que dicha p ru e b a re su lta m ás p ráctica
en el caso de N m uy pequeñas, o siem p re que el tam año de la
m u estra sea m oderado y uno- o m ás de los m arginales sean m uy
pequeños. E n los casos en que am bos, ( a + b ) y (c + d ) son < 30,
existen tab las en (3) que sim plifican considerablem ente el em ­
pleo de esa p ru e b a exacta.
XV.3. M edidas de la fuerza de la relación
H a sta aquí sólo nos hem os ocupado de la cuestión d e sab er si
existía o no u n a relación en tre variables. H em os establecido hi­
pó tesis nulas en el sentido de que n o se d ab a relación alguna, y
hem os tra ta d o de descartarlas. Pero, cuando estam os en condi­
ciones de d escartar, ¿qué es lo que hem os logrado? D esignam os
u n a relación com o estad ísticam en te significativa cuando hem os
establecido, b ajo el riesgo de e r ro r de tipp I, que sí existe una
relación e n tre las dos variables. Sin em bargo, ¿quiere esto decir
que la relación es significativa en el sen tid o d e s e r u n a relación
fu e rte o im p o rtan te? N o necesariam ente. E n efecto, la cuestión
de la fuerza de la relación es to talm e n te d istin ta de la de su
existencia. E n esta sección vam os a ocuparnos de diversas m e­
didas de grados de asociación que ayudan a co n testa r la segun­
da de las p reg u n tas.
A p rim e ra v ista p o d ría p arece r razonable tr a ta r de establecer
la fuerza de la relación observando sim plem ente el nivel de signi­
ficación conseguido con u n a pru eb a. Así, p o r ejem plo, podría
d isc u rrirse en el sen tid o de que si u n a p ru e b a es significativa al
nivel de .001 y o tra al nivel de .05, la p rim era sería la m ás fuerte
de las dos. Pero, ¿es esto necesariam ente así? El exam en de los
dos niveles de significación nos dirá en cuál caso podem os e star
m ás seguros de que la relación existe. Así, en el prim ero de los
dos casos citados estaríam os casi seguros de que existe efectiva­
m ente u n a relación, pero no lo estaríam os tan to en el segundo.
H em os de recordar, no obstante, que el nivel de significación
alcanzado depende del tam año de las m u estras usadas. E n efec­
to, com o se indicó an teriorm ente, si las m uestras son m uy
grandes, re su lta p o r lo regular m uy fácil establecer significación,
au n en el caso de u n a relación m uy superficial. Esto significa,
de hecho, que, cuando las m uestras son grandes, decim os en re a­
lidad m uy poca cosa al afirm a r que hem os establecido u n a re la ­
ción “significativa”. E n el caso de m u estras grandes, es m ucho
m ás im p o rtan te p re g u n ta r, “dado que existe u n a relación, ¿cuál
es su fu erza?”
Con o b jeto de ilu s tra r lo que se acaba de decir, veam os un
poco m ás de cerca cierta propiedad de la /-cuadrada. Al hacerlo,
el lecto r deberá te n e r p resen te que los m ism os principios se
aplican exactam ente a o tra s clases de p ru e b as de significación.
Preguntém onos qué sucede con la /-cu a d rad a cuando el núm ero
de casos aum enta. Con fines de ilu stració n podem os to m a r la
siguiente tab la de 2 X 2.
30
20
20
30
50
50
50
50
100
La /-cu a d rad a de esta tab la re su lta ser exactam ente 4.0. Suponga­
m os ah o ra que se duplican los tam años de las m uestras, m an te­
niendo las m ism as proporciones en .cada casilla. O btendríam os
así :
40 100
60
60 100
40
100
100 200
y la /-cu ad rad a sería 8.0, o sea una cifra exactam ente doble de la
an terio r. Exam inando la fórm ula de la /-cu ad rad a, re su lta m uy
fácil d em o strar que, si las proporciones d e las casillas p erm ane­
cen in alterad as, la /-cu a d rad a varía directam ente con el núm ero
de casos. Si duplicam os el nú m ero de éstos, duplicam os aquélla,
y si triplicam os los p rim eros, triplicam os la segunda. Supóngase
que el n ú m ero de casos inicial se m u ltip lica p o r el facto r k. E n­
tonces, com o q uiera que las proporciones de las casillas p erm a­
necen inalterad as, to d a nueva frecuencia observada será exacta­
m ente k veces la an terio r, y lo m ism o p o r lo que se refiere a las
frecuencias esp eradas. La nueva y-cuadrada puede, pues, expre­
sarse com o:
,(X )
o - k f e )2
k ? ( f o - f e )2
------71--------" = ^S ------—-------- = A,: 2^- ( f o ~
^ W
k fe
k fe
f e )2
fe
Así, pues, el v alo r de la nueva ^-cuadrada es exactam ente k ve­
ces el de la p rim itiva.
Las im plicaciones de este hecho pueden d estacarse p o r m edio
de o tra ilu stració n. S upóngase que obtenem os los siguientes re ­
su ltados al re la cio n ar las diferencias de sexo con la tolerancia
resp ecto de co n d u ctas a n ó m a la s:
Toterancia
Varones
Alta
B aja
26
24
Mujeres
24
26
E n este caso la ^-cuadrada es 0.16, y estarem o s en lo cierto in­
form an d o que la relación n o es significativa. Supóngase, sin em ­
bargo, que el estu dio fu e m uy am bicioso y que se re u n ie ro n datos
corresp o n d ien tes a 10 000 casos, con los siguientes re su ltad o s:
Tolerancia
Varones
Alta
B aja
2 600
2 400
Mujeres
2 400
2 600
La ^-cuadrada es a h o ra 16.0, o sea u n v alor altam en te significativo
desde el p u n to de v ista estadístico. S in em bargo, si hubiéram os
expresado los re su ltad o s en térm in o s de po rcen tajes, la cosa se
h a b ría p re sen tad o com o m ucho m enos in tere sa n te. Si dijéram os
q u e el 52 p o r cien to d e los varones e ra altam en te tolerante; en
ta n to que sólo co rresp o n d ía a dicha categoría el 48 p o r ciento
de las m ujeres, nos c ritica rían con razón p o r d estac ar las dife­
ren cias ap a ren tem e n te insignificantes ta n to desde el p u n to de
v ista teórico com o del significado práctico. E ste ejem plo ilu stra
u n p u n to m u y im p o rtan te. E n efecto, u n a d iferen cia_p u ed e ser
in tere sa n te estad ísticam en te sin serlo en ningún o tro sentido.
E n el caso en que se seleccionaron 10 000 casos, podem os e sta r
b ien seguros q ue h ay cierta relación superficial, que p ro d u ciría
u n a relación significativa desde el punto- de v ista estadístico.
Vemos, pues, que si u n a m u e stra es pequeña, se req u iere una
relación m ucho m ás m an ifiesta p a ra o b ten er significación. P or
lo tan to , con las m u estras pequeñas las -pruebas de significación
son m ucho m ás im p o rtan tes. E n tales casos es posible que diga­
m os m ucho cu an do podem os estab lecer significación. E l nivel
de significación d epende de dos factores, a sa b e r: de la fuerza
o grado de la relación y deí tam añ o de las m u estras. P uede ob­
ten erse significación con u n a relación m uy fu e rte y m u estras m uy
peq u eñ as o, in versam ente, con u n a relación m uy débil y m ues­
tra s m uy grandes. E n la m ayor p a rte de la investigación social,
n u e stro in terés p rim o rd ial está n o ta n to en h a lla r variables re la­
cionadas u n as con o tras, sino en localizar relaciones im p o rtan ­
tes. A unque conviene recalca r que no to d as las relaciones fu e rtes
son im p o rtan tes (v.gr. la relación e n tre las edades respectivas
del m arid o y la m u je r), p a ra que u n a relación sea de alguna
im p o rtan cia p rá ctica h a de ser p o r lo m enos m o deradam ente
fu erte. U na vez que h a sido establecida la existencia de u n a re ­
lación, el investigador deb ería p re g u n ta rse siem pre, “¿cuán fu er­
te es?”
¿Cóm o se m ide, pues, la fuerza de u n a relación? E stam os bus­
cando u n a m ed id a descriptiva que nos ayude a re su m ir la rela­
ción de tal modo- que podam os c o m p a ra r varias relaciones y lle­
g ar a u n a conclusión respecto de cuál sea la m ás fu erte. Desde
el p u n to de v ista ideal, nos g u staría te n e r alguna clase de in te r­
p retació n o p erativa de la m edida que nos a tra e intuitivam ente.
P o r convención, los estadígrafos h a n ad o p tad o la c o stu m b re de
con ceb ir m edidas que tengan la u n id ad p o r lím ite superior, y cero
o bien m enos un o (— 1.0) com o lím ite inferior. M uchas relaciones
sólo p u ed en alcanzar s u lím ite de 1.0 (o — 1.0) cuando la relación
es perfecta, y a d o p tan el valor de cero cu an d o e n tre las variables
n o existe relación alguna, o sea cuando son independientes. Va­
m os a ex am in ar a continuación algunas m edidas que pu ed en u ti­
lizarse con las tab las de contingencia, procediendo a a p réciar
sus propiedades.
Antes de e n tra r en el exam en de varias m edidas d e asociación
que pueden em plearse co n las tablas de contingencia, h a b ría que
m encionar, p o r lo m enos, el pro ced im ien to relativ am en te sencillo
y obvio- de in d icar diferencias e n térm in o s de p o rcen tajes. Es
posible, sin la m en o r duda, o b ten er u n a indicación m uy bu en a
del grado d e relación e n tre dos variables dicotóm icas co m p aran ­
do p o rcen tajes. Así, p o r ejem plo, si el 60 p o r ciento* de los va­
ro n es seleccionados se clasifican com o altam en te to leran tes, en
ta n to que sólo se po n e en tal categoría el 30 p o r ciento de las
m u jeres, tenem os u n a diferencia del 30 p o r ciento e n tre los dos
grupos. ¿P o r qué, pues, n o servirnos de u n a m edida sem ejan te
com o m edida de la fuerza de la relación? Si com param os indivi­
duos de las clases m edia e inferior, p o r ejemplo;, desde el p u n to
de v ista de la tolerancia, y sólo obtenem os u n a d iferencia del
20 p o r ciento, podem os a firm a r u n a relación m ás fu e rte e n tre
el sexo y la to leran cia que e n tre é sta y la clase.
E n el caso especial de la ta b la de 2 X 2, los p o rc en tajes p u e­
den efectivam ente co m p ararse en ta l form a, y la extensa fam iliarización con los p o rcen tajes, en c o n tra ste con o tro s tip o s de
m edidas, h ab laría ciertam ente en favor de estas com paraciones.7
Pero, ¿qué p a sa rá con la tab la general de r X c? Aquí el uso de
los p o rcen tajes puede dificultarle al lecto r ap reciar a p rim era
vista cuán fu e rte sea la relación. Supóngase, p o r ejem plo, que
se utilizaban tres clases con los siguientes re su ltad o s: clase su­
perior, 70 p o r ciento altam ente to le ra n te ; clase m edia, 50 por
ciento altam en te tolerante, y clase inferior, 30 p o r ciento alta­
m ente to leran te. Tenem os ah o ra u n a distancia del 40 p o r ciento
e n tre las clases superior e inferior, o sea u n a diferencia num éri­
cam ente m ayor que la que existe e n tre los varones y las m ujeres.
P o r o tra p arte , p o r lo regular esperarem os una diferencia m ayor
cuando sólo se consideran los extrem os. Supóngase que se h u ­
bieran ten id o cinco clases, ¿qué clase de diferencias de porcen­
tajes esp eraríam os ahora, y cómo com pararíam os los resultados
con los de la ta b la de 2 X 2? Y p a ra in tro d u cir u n a idea m ás,
supóngase que nos sirviéram os de c u a tra categorías de toleran­
cia. Es obvio que se hace difícil establecer com paraciones de
u n a tab la a o tra. N ecesitam os, pues, u n a m edida única de re su ­
m en, que ten g a los m ism os lím ites su p erio r e inferior, indepen­
dientem ente del nú m ero de c a silla s..
M edidas tradicionales basadas en la ^-cuadrada. Ya se observó
que la ^-cuadrada es d irectam ente proporcional a N . Podem os
servirnos d e esfe hecho p a ra co n stru ir varias m ed id as de asocia­
ción. En el caso de las dos tablas de contingencia
30
20
20
30
50
50
50
50
100
y
60
40
40
60
100
100
100
100
200
deseam os u n a m edida que tenga el m ism o valor p a ra cada una
de las tablas, y a que, cuando expresam os los resultados en té r­
m inos de p o rcen tajes, éstos son los m ism os en am bos casos. E n
o tro s té rm in o s : diríam os p robablem ente que los grados o fuer­
zas de la relación son idénticos en los dos grupos de datos, y que
la única diferencia está en la m agnitud de las m u estras. Aunque
el valor de la ^ - c u a d r a d a Sea el doble en la segunda tab la de lo
que es en la p rim era, observam os, con todo, que, si se la divide
en cada caso e n tre el nú m ero to tal de los casos, los resultados
son idénticos. E sto sugiere que la expresión y?/N o algún m ú lti­
plo de la m ism a nos daría u n a de las propiedades que buscam os
en n u e stra m edida, o sea la de d a r el m ism o re su ltad o cuando
las proporciones de casillas com parables son idénticas.
t Veremos otra ventaja de los porcentajes cuando estudiemos declives
en el capítulo xvn. Como ya se indicó en el caso de las pruebas para di-,
ferencias de diferencias en proporciones, una diferencia de proporciones pue­
de ser considerada como un caso especial de declive.
Obsérvese que el valor de y?/N, o <f>2 según se la escribe com ún­
m ente, es 0 cuando e n tre las variables n o existe relación en ab­
soluto. R esulta que, en el caso d e tablas de 2 X 2 (o 2 X k ), <¡ia
tien e tam b ién la u n id ad p o r lím ite su p erio r cuando la relación
e n tre las dos variables es perfecta. Supóngase, en efecto, que
h u b iéram o s obten ido la siguiente ta b la :
0
50
50
50
50
100
P uede v erificarse fácilm ente que, en este caso, la ^-cuadrada es
100 y, p o r consiguiente, <f>2 es 100/100, o sea 1.0. O cu rrirá siem pre
que, cuando dos casillas opuestas diagonalm ente sean am bas
cero, el valor de la ^-cuadrada en u n a ta b la de 2 x 2 se ría N , y
p o r lo tan to <¡b2 será la unidad. Es obvio que, en el ejem plo con­
siderado, la relación es perfecta. Si el sexo se relacio n ara en él
con la tolerancia, p o d ríam o s decir que todos los varones son a lta ­
m en te to leran tes y to d as las m u jeres a ltam en te in to leran tes. E n
u n a term inología con la que n o hab rem o s de ta rd a r en fam iliari­
zarnos, podem os decir que el todo de la variación en m a te ria de
to leran cia se explica p o r el sexo o está asociado con él.8
E n la tab la general de r x c,
pu ed e alcanzar u n v alo r con­
sid erab lem en te m ayor que la unidad. P o r lo tanto, se h a n des­
arro llad o diversas o tras m edidas que son asim ism o sim ples fu n ­
ciones de %2/N , p ero que tienen tam b ién com o lím ite su p erio r la
unid ad . La p rim e ra de éstas, designada com o la T de Tschuprov,
se define com o :
T2 _ ________ t __________________
N ^/{r-l){c-\)
y ( r - l ) ( c - 1)
Aunque el lím ite su p erio r de T sea la unidad, este lím ite sólo
pued e alcanzarse cuando los núm eros de hileras y dolum nas son
iguales. E n otro s té rm in o s : T h a de ser siem pre m en o r q u e la
u n id ad en u n a tab la de 2 x 3 o de 3 X 5. Si hay considerable­
m en te m ás h ileras que colum nas (o viceversa), el lím ite su p erio r
de T pu ed e q u ed ar m uy p o r debajo de la unidad. P ara co rreg ir
este hecho, podem os siem pre dividir el v alo r obtenido de T e n tre
la m áxim a T posible p a ra núm eros dados de hileras y colum nas.
Sin em bargo, com o q u iera que disponem os de m edidas m ás sa­
tisfactorias, n o necesitam os exam inar este procedim iento de co­
rrección.
s Esto supone, por descontado, que la tolerancia se toma corno variable
dicotómica.
*
Podem os m o stra r que el lím ite su p erio r de
c — 1 ), utilizando la fó rm u la :
I
r
c
2 /S
2i
<=i
Obsérvese que:
N i?
Ni.N.j
Ni?
T T T r—
y
es M in ( r — 1,
•
N i.N .j
N i}
< ------ p a ra
~ Ni_
i=l,2,...,r
^ Na
. , ,
; = 1 »2,
par a
...,C
P o r tan to
r
c Ni?
2
, 2 --------- —
r
<
í = i í= .i Ní.N.j ~~
r
y
2
Así:
2
0
° N if
i=1 1=1 Ni.
2
2
9
—
r
r
=
n
2
1 =
r
c
2 --------- - — < 2 2 — — = 2 1 = c
< _ i i N i.N .j - / - i «-i Af.y
í'” 1
r
c
2
í= i
--------N - ---- <
- Min (r,c)
y de allí:
X2 < J V [ M i n ( r , c ) - 1 ] = AT[ Mi n ( r - 1, c - 1 ) ]
P o r ta n to :
<j>2 < Min ( r — 1, c — 1)
Hay o tra m edida, in troducida p o r C ram ér y que designarem os
com o V, que se define com o sigue:
V2-
^
N M in (r — 1, c — 1)
^
M i n ( r — l , c — 1)
e n donde M in (r — 1, c — 1) designa r — 1 o c — 1, según cuál de
ellas sea m en o r (v alo r m ínim o de r — 1 y c — 1). Si bien V no se
u tiliza co rrien tem en te en la bibliografía social, con todo parece
s e r p referib le a T, en cuanto puede alcanzar la un id ad aun cuando
los núm eros de hileras y colum nas n o sean iguales. Como puede
verificarse fácilm ente, V y T son equivalentes siem pre que r = c.
De o tra form a, siem pre será V algo m ayor que T. P or supuesto,
am bas m edidas son equivalentes de <¿> en el caso de 2 X 2. Y ve­
m os tam b ién que V y <j> serán idénticas en el caso de 2 X k.
O tra m ed id a de asociación b asad a en la /-cu ad rad a es el coefi­
cien te de contingencia de Pearson, C, que e stá dado p o r:
Al igual que las o tras m edidas, C se hace cero cuando las v aria­
bles son independientes. Sin em bargo, el lím ite su p erio r de C
depende del n ú m ero de hileras y colum nas. E n el caso de 2 X 2,
el lím ite su p erio r de C2 se convierte e n . N / ( N + N) , ya que
puede alcanzar u n valor m áxim o de N. P or lo tanto, el lím ite
s u p e rio r de C es .707. Si b ien el lím ite su p erio r aum en ta a m edi­
da que au m en ta el n ú m ero de hileras y colum nas, dicho' lím ite
siem pre es m en o r que la unidad. De ahí que C sea algo m ás difí­
cil de in te rp re ta r que las o tras m edidas, a m enos que se in tro ­
duzca u n a corrección dividiendo e n tre el valor m áxim o de C p a ra
n ú m ero s p articu lares de hileras y colum nas. E n el caso de la
tab la 2 x 2 , p o r ejem plo, la C o btenida h a b ría de dividirse e n tre
.707.
Las m edidas an terio res de la fuerza de la relación se b asan
to d as ellas en la '/-cuadrada. Como q u iera que p o r lo regular
el v alo r de la ^-cuadrada se h a b rá calculado previam ente con ob­
je to de verificar el significado, todas las m edidas en cuestión re ­
qu ieren en realid ad m uy poco cálculo adicional. P ero p o r o tra
p arte , n o existe razón p a rtic u la r alguna en cuya v irtu d u n a m e­
dida de asociación haya de b asa rse en la estad ística de la p ru e b a
correspondiente. E n efecto, puede d em o strarse que todas las
m edidas basadas en la ^-cuadrada son algo- a rb itra ria s en su esen­
cia y sus in terp retacio n es d ejan m ucho que desear. Así, p o r ejem ­
plo, to d as ellas confieren m ayor peso a las colum nas o hileras
de m arg in ales m ás pequeños que a las de m arginales m ayores [ 2 ].
Sin em bargo, com o q u iera que ta n to la p ru e b a T com o la C se
en cu en tran con frecuencia en la bibliografía, e¡l lecto r deb ería fa­
m iliarizarse con sus propiedades.
La Q de Yute. O tra m ed id a de uso- co rrien te es la Q de Yule,
que es tam b ién u n caso especial de la m edida y (gam m a) que se
d isc u tirá en el capítulo x v in en relación con las escalas o rd in a­
les. E sta m edida sólo puede em plearse con la tab la de 2 X 2 y se
define com o sigue:
ad — be
ad + be
en donde a, b, c y d se refieren a las frecuencias de las casillas.
Obsérvese que, u n a vez elevado al cu ad rad o y m ultiplicado p o r
N, el n u m era d o r es el m ism o que en la expresión de la /-cu a d ra­
da. Lo m ism o que en el caso de las dem ás m edidas, Q desaparece
cuando las variables son independientes, o sea, cuando los p ro ­
ductos diagonales ad y be son iguales. A diferencia de <£2, sin
em bargo, Q alcanza sus lím ites de ± 1.0 cuando una cualquiera de
las casillas es igual a cero. Con o b jeto de com p ren d er el c a rá c te r
de las circu n stancias en cuya v irtu d Q pueda se r igual a la u n i­
d ad en tan to que <f>2 queda p o r d eb a jo de dicho valor, tom em os
los siguientes ejem p lo s:
3020
50
0
50
50
30
70
40
10
0
50
40
60
100
50
50
100
M ientras Q a d o p ta el valor de la u n id ad en estas dos tablas, los
valores corresp o ndientes de <¿>2, en cam bio, son de .429 y .667 res­
pectivam ente. E n am bos casos sería im posible que desaparecie­
ra n dos casillas diagonalm ente opuestas, debido al c a rá c te r de
los m arginales. De ahí que <f>2 sólo p u ed a a d o p ta r el v alo r de uno
cuando se verifican determ inadas condiciones en relación con los
m arginales. E n la tab la de 2 x 2, los m arginales de la p rim era
variable h an de ser idénticos a los d e la segunda.9 C uanto m ayor
sea, pues, la d iscrepancia e n tre los m arginales de las hileras y
las colum nas, tanto- m en o r es el lím ite su p erio r de c¡>2.
P lantéase ah o ra la cuestión de sab e r si querem os o n o conside­
r a r u na relación com o "p erfe cta” cuando sólo desaparece u n a de
las casillas, Al p arecer, la resp u esta a esta cuestión d eb ería depen­
der, e n tre o tras cosas, de la m an era com o estén fo rm ad as las ca­
tegorías de las dos variables. P or lo re g u la r es posible concebir u n
p roblem a en térm inos de u n a variable independiente y u n a varia­
ble dependiente. Parecería, pues, razonable sostener que, p a ra que
u n a relación sea perfecta, los m arginales d e la variable dependien­
te h ab ría n de "convenir” n a tu ra lm e n te a los de la variable inde­
pendiente. Supóngase, p o r ejem plo, que h u b iera 60 p ro te sta n te s
y sólo 40 católicos y judíos. E n este caso, p a ra que la relación
fuera p erfecta, esperaríam os que todos los 60 p ro testan te s vota­
ra n republicano y todos los 40 re sta n te s v o taran e n favor de los
dem ócratas. Los m arginales serían así los m ism os p a ra am bas
variables, y tan to <f>2 com o Q serían iguales a la unidad. P or o tra
parte, si la m ita d de la m u e stra v o ta ra republicano f la o tra mi-
® Esto no significa que los marginales hayan de comportar una partición
de 50-50. Significa, en efecto, que si uno de los marginales se parte en 70 y
30, el otro ha de estar también partido de 70 y 30. Las correccciones de
marginales desiguales son asimismo posibles, pero, como se desprende del
examen que sigue, habrá que ser cauto en el empleo de tales correcciones.
ta d dem ócrata, entonces, aunque todos los votos republicanos
pro v in ieran de los p ro testan te s, no podríam os decir que la re la­
ción era perfecta, ya que 10 de los p ro testan te s h ab ría n votado
dem ócrata. E n tal caso, los m arginales de la variable dependien­
te no coincidirían con los de la independiente, y <j>2 sería inferior
a la unidad. P or lo tanto, en tal caso <¿>2 p arecería ser la m edida
m ás apropiada, ya que Q to m aría el valor de la un id ad a pesar
de la relación im p erfecta e n tre las dos variables.
O curre en ocasiones que los m arginales de la variable depen­
diente son fijos, en v irtu d del m étodo em pleado al establecer las
categorías. Así, p o r ejem plo, si la variable dependiente fu e ra en
realid ad co n tin u a p ero se h u b iera hecho dicotóm ica en la m edia­
na, entonces los dos grupos de m arginales n o p o d rían ser id én ti­
cos, a no se r que los m arginales de las variables independientes
estu v ieran tam bién p artid o s en 50 y 50. P or ejem plo: si la p re ­
ferencia confesional se h u b iera referid o a las m arcas del conser­
vad u rism o político dividiendo en dos a la m ediana, entonces <£2
no p o d ría alcanzar la u n id ad (e n el su puesto de la m ism a p a rti­
ción confesional an te rio r). E n tal caso, Q p o d ría re s u lta r u n a
m edida m ás apropiada, ya que tiene en cu en ta el hecho de que
los m arginales de la variable dependiente se h an fijado p o r com ­
pleto en v irtu d del m éto d o de investigación.
La tau de G oodman y K ruskal. Cierto nú m ero de o tra s m e­
didas de asociación susceptibles de em plearse con las tablas de
contingencia h an sido p re sen tad as p o r G oodm an y K ruskal [5 ],
[ 6] y [7 ]. La m ayoría de ellas com portan lo que se h a designado
com o in terp retacio nes probabilistas. Como q uiera que tienen
u n sen tid o intuitivo que p erm ite in te rp re ta r valores interm edios
en tre cero y uno, estas m edidas p o d rá n p a re c e r superiores a las
q ue se b asan en la "/-cuadrada.
Con o b jeto de ilu s tra r u n a de estas m edidas, la xt (ta u ), tom a­
m os u n ejem plo num érico. D esignarem os las escalas nom inales
relacionadas u n a con o tra com o A y B , y tom arem os a B com o
variable dependiente.
Bi
Bs
Total
30 0
60 0
60 0
^2
100
30 0
100
1200
800
T o ta l
900
70 0
400
2000
•^1
Supongam os ah ora que se nos da u n a m u estra (o población) de
2 000 personas y se nos p ide clasificarlas en u n a de las tres ca­
tegorías B lt B 2 o B 3, de tal m odo que term inem os exacta­
m en te con 900 casos en B 1, 700 en Bz y 400 en B :i. Supóngase
p rim ero que no sabem os n ad a acerca de los individuos que nos
van a ay u d ar en e sta tarea. Si los individuos nos son dados en
u n orden to talm en te al azar, podem os calcular m uy fácilm ente el
nú m ero de e rro re s q u e podem os esp e ra r com eter al asignar los
individuos a u n a de las tres categorías en cuestión.
Como q u iera que hem os de asig n ar 900 individuos a B x, en ta n ­
to que 1 100 de cada 2 000 n o corresponden en re alid ad a dicha
clase, podem os e sp e rar com eter a la larga 900(1 100/2 000), o sean
495 erro res. E n fo rm a análoga, hem os de asignar 700 individuos
a B 2, en ta n to que de cada 2 000 los 1 300 n o corresp o n d en a ella.
De ahí, pues, que al colocar a los individuos en B., podam os es­
p e ra r com eter 700(1 300/2 000), o sea 455 erro res. E n o tro s té r­
m inos, d e los 700 que ponem os en dicha categoría sólo podem os
esp e rar que se clasifiquen correctam en te 700 — 455, o sean 245
individuos. P o r supuesto, n o esperam os com eter exactam ente
455 errores, p ero ésta es, con todo, la cifra que obtendríam os si
pro m ediáram os n u estro s erro res a la larga. F inalm ente, esp era­
ríam os com eter 400(1 600/2 000) o 320 erro res al asig n ar los in­
dividuos a B s. O bsérvese que, pese a que hagam os a esta catego­
ría u n a asignación m enor, n u e stro riesgo de e rro r es su p erio r al
de las dos categorías precedentes, ya que sólo- el 20 p o r ciento de
los individuos corresponde a ella. P o r lo tanto, en conjunto, al co­
locar los 2 000 individuos, esperaríam os c o m e te r:
495 + 455 + 320 = 1 270
erro res. N u estro pro m ed io no sería m uy bueno.
P ero supóngase ah o ra que se nos p ro p o rcio n ab a alguna infor­
m ación adicional acerca de cada individuo-, diciéndonos si está
e n Ax o en A.,. Y nos p reguntam os si el hecho de conocer las cla­
ses A nos ay u d ará a re d u cir el n ú m ero de e rro res com etidos al
asignar los individuos a las categorías B. Si las variables A y B
son estad ísticam en te independientes, sabem os que el conocim ien­
to de A no nos ay u d ará a p re d ecir B . E n este caso, pues, espe­
rarem os co m eter exactam ente los m ism os e rro res en q u e incu
rrim o s cuando n o poseíam os inform ación alguna acerca de A, Por
o tra p arte, si la relación e n tre A y B fu e ra perfecta, estaríam os
en condiciones de a n ticip ar B con p erfec ta precisión conociendo
A. La m edida q u e vam os a d e sa rro llar nos indica la reducción
pro p o rcio n al d e e rro res siendo- A conocida.
Veamos cómo- calculam os el nú m ero de- e rro re s anticipados co­
nociendo- A. Si se nos d a el hecho de que el individuo co rresp o n ­
de a la Ai , podem os servirnos de las cifras de la p rim e ra colum na.
H em os de p o n er ah o ra exactam ente 300 de los 1 200 individuos
en B v los 600 re sta n te s proviniendo de A2. Ya que de los 1 200
individuos de A r 900 n o corresponden en realid ad a B 1, podem os
esp e ra r com eter 300(900/1 200) o- 225 erro res. Y e n form a aná
loga, con los 600 individuos de A x que ponem os en B.¿ podem os
e sp e ra r co m eter 300 erro res, siendo el núm ero de e rro res co rres­
p o n d ien te a B a = 225. Tom am os ah o ra los 800 individuos de A2
y asignam os 600 de ellos a B x y 100 de los 200 re sta n te s a cada
u n a de las categorías B2 y B z. Al p ro ced er así, podem os esp erar
com eter 150, 87.5 y 87.5 e rro re s respectivam ente. A dicionando las
dos can tid ad es d e Ax y A2, vem os que podem os e sp e rar com eter
u n to tal de 1 075 erro res, si A es conocida.
Definim os la m edida t& com o reducción p ro p o rcio n al de e rro ­
res. Así, pues :
n úm ero de e rro re s con A desconocida —
n ú m ero de e rro re s con A conocida
— —— —
------------------------------------------------------- ------- — -
n ú m ero de e rro res con A desconocida
1 270 - 1 075
195
Tí = ------------------ = ----------= .154
6
1 270
1 270
E n o tro s térm in o s : nos hem os evitado 195 e rro res del núm ero
to tal esp erado de 1 270, y los hem os reducido en u n 15.4 p o r cien­
to. Si t 6 h u b iera re su ltad o se r .50, podríam os d a r así la in te rp re ­
tación m u y sim ple de que el conocim iento de A red u ciría el núm e­
ro de e rro re s a la m itad, en ta n to que u n v alor d e .75 equivaldría
a re d u cir el n ú m ero de los e rro re s a u n cuarto, y así sucesivam en­
te. E n el caso d e <f>2 en cam bio, sem ejante in terp re tació n sencilla
no es posible (véase [2 ]). Si hubiéram os querido in te rp re ta r las
clases B a p a r tir de las A, h ab ríam o s designado la m edida co rres­
p o n d ien te com o xa. P or lo general, xa y xb n o ten d rá n los m ism os
valores num éricos. ¿P or qué?
E n el caso del cu adro 2 x 2 puede d em o strarse que xa = t s = <p2.
E sto nos in d ica que se dan dos tipos de dificultades en la anota­
ción. O bsérvese que algunas de n u estras m edidas (C, Q, T y V)
vienen indicadas m ed ian te letra s latinas, e n ta n to que o tra s (<£ y
r) lo son m ed ian te letra s griegas. Si fu éram o s consecuentes de­
beríam o s re se rv a r las letra s griegas p a ra los p arám etro s de po­
blación calculados m ed ian te m u estras estadísticas. P o r desgracia,
u n a vez q ue los signos vienen siendo usados en fo rm a generali­
zada, re su lta difícil n o rm alizar su em pleo, y lo m e jo r que el lecto r
p u ed e h ac er es to m a r n o ta de la inconsistencia. P o r o tra p arte ,
ciertas m edidas aparecen elevadas al cuadrado, e n ta n to o tras no
lo están. Vem os especialm ente en el caso 2 x 2 q u e el sím bolo x,
n o elevado al cu adrado, es equivalente a <f>z, el que en este caso
es igual a P y V2. Así, en el caso del cu ad ro m ás general puede
p a re c e r razonable c o m p arar x con los o tro s coeficientes al cua­
drado, au n q u e observando que no serán idénticos. E n general
puede esp erarse que los valores num éricos de t sean m enores
que los coeficientes no elevados al cuadrado <f>, T y V. Si hubie­
ra que p en sa r en función de ciertas m agnitudes absolutas, consi­
derándolas pequeñas, m edianas o grandes (p o r ejem p lo : u n valor
in ferio r a .3 es "peq u eñ o ” ), fácilm ente p o d ría in cu rrirse en e rro r
a m enos que se reconocieran claram en te las diferencias e n tre las
m edidas.
Lam bda. E xiste o tra m edida, lam bda (1) que es m uy sem ejan­
te a t y que igualm ente es asim étrica con resp ecto a A y B. To­
m ando a B com o la variable dependiente con la que se hacen
predicciones, obsérvese que el nú m ero esperado de erro res se
red u cirá si se nos perm ite colocar a todos los individuos en la m a­
y or de las categorías jB{ (véase ejercicio 5, capítulo ix ). E n el
ejem plo a n te rio r esto h a b ría su p u esto colocar los 2 000 casos en
B í en lu g ar de lim itarn o s a 900. Si lo hiciéram os así com etería­
m os 1 100 erro res, ya que hay u n to tal de 1100 casos en B 2 y B ñ.
Obsérvese que éstos son m enos e rro res que los que hicim os en
el caso del den o m inador de xh. Supongam os que sabem os la ca­
tegoría de A a la que pertenece el individuo. Si se nos perm ite
asig n ar la to talid a d de los 1 200 individuos de A x a B 2, la fila que
contiene el m ayor núm ero de individuos Alt com eterem os sola­
m ente 300 + 300 = 600 errores. De m an era análoga, si colocam os
a todos los 800 individuos A2 en la categoría B lt com eterem os sólo
200 errores. Conociendo, pues, la categoría A, y si se nos perm ite
h acer estas distribuciones m enos restrictivas, podrem os esp erar
com eter 800 erro res. F orm arem os u n a m edida l hl de "reducción
proporcional en el erro r", com o sig u e :
1 100 - 800
Vemos que lam b d a es m ás fácil de calcular que ta u ; que su­
pone u n a red u cción n o re stric tiv a de erro res, y que en este ejem ­
plo tiene un v alor num érico considerablem ente m ayor que el de
tau. Tiene sin em bargo la indeseable pro p ied ad de p o d er d a r un
valor num érico igual a cero en casos en que todas las dem ás
m edidas consideradas no serán cero, y cuando n o desearíam os
referirnos a las variables com o no correlacionadas o estadística­
m ente independientes. Tal cosa puede o c u rrir sim plem ente p o r­
que una de las B m arginales sea m ucho m ayor que el resto, de
tnl m an era que cualquiera que sea la categoría A, la decisión será
siem pre de colocar todos los individuos (p a ra todo Ai ), en la
m ism a categoría B. Si p o r ejem p lo las categorías B 1 y B 2 h u ­
biesen sido com binadas en el a n te rio r ejem plo hipotético, la de­
cisión h u b iera sido siem pre la de colocar a todos los individuos
en la categoría B t y B 2 y n o en la de B s, de ta l m an era que la
re su lta n te As h u b iera sido- cero. P or la m ism a razón, aun cuando
un sim ple to ta l m arginal (p o r ejem plo, Bx) no- dom ina al resto,
es p ro b ab le que algunas de las categorías m enos num erosas no
en tre n en absoluto en el círculo de lam bda. E n el ejem plo an te­
rio r la decisión nu nca re su lta en la asignación de individuos a B ?t.
Si .se h u b iera co n tado con u n a fila m ás, B it tam bién con u n n ú ­
m ero relativ am en te pequeño de casos, la lam bda m edida po d ría
h a b e r sido ind iferente a la distribución de casos e n tre B s y B 4.
P o r estas razones se p refiere a ta u sobre lam b d a en aquellos ca­
sos en que los totales m arginales no son de aproxim adam ente la
m ism a m agnitud.
XV.4. C ontrol de otras variables
H a sta aq u í el exam en de las pruebas de significación y de m edi­
das de asociación sólo h a n com portado1 dos variables a la vez. En
la m ayoría de los problem as prácticos, en cam bio, es necesario
co n tro la r u n a o m ás variables adicionales, que pueden y a sea
e n tu rb ia r u n a relación o c re a r u n a relación espuria. Si bien es
a m enudo cierto que las generalizaciones en m a teria de ciencias
sociales suelen estab lecerse en térm inos de sólo dos variables, se
supone con to d o casi siem pre, im plícitam ente, que las variables
relevantes se co n sideran com o controladas. Con o b jeto de su b ra­
y ar este hecho se em plea a m enudo la fra se "en igualdad de con­
diciones”. D esde el p u n to de vista ideal, u n a hipótesis h a b ría de
en u n ciarse en fo rm a que se entienda claram en te cuáles variables
h an de con tro larse. A m edida que u n a disciplina va pro g resan ­
do h acia su m adurez, las generalizaciones se hacen m ás califica­
das, indicando las condiciones exactas en las que puede esp erarse
que se realicen. E n las etapas iniciales de su desarrollo, sin
em bargo, re su lta a m enudo im posible sab e r cuáles son las v aria­
bles relevantes que se n ecesita controlar. É sta es la razón de que
en ciencias sociales las proposiciones no se enuncien a m enudo en
fo rm a que sugieran cuáles variables deban co ntrolarse. No obs­
tan te, el lecto r debería ac o stu m b ra rse a b u s c a r siem pre las v aria­
bles even tu alm en te posibles de controlar, au n q u e no se le haya
invitado expresam ente a hacerlo.
Según verem os m ás adelante, hay varios m étodos posibles de
control estadístico. E l que se exam ina en el p re sen te capítulo es
tal vez el m ás directo y el que m ás se p arece al experim ento de
lab o rato rio , en el que las variables de control se m an tien en efec­
tiv am en te co n stantes p o r m edios físicos. E n los experim entos
de lab o ra to rio se m antiene u n a variable de control a u n valor
co n stan te, en tan to que las o tras variables se relacionan e n tre sí.
Así, p o r ejem plo, m ien tras se exam ina la relación en tre la p re ­
sión y el volum en, la te m p e ra tu ra se m an tien e acaso a 70° F. Y si
se en c u en tra una relación e n tre estas variables, puede re su lta r
posible en u n ciar su ca rác te r con m u ch a m ayor precisión que si
la te m p e ra tu ra no se h u b iera controlado. Sin em bargo, el cientí­
fico n o e sta rá autorizado a en u n ciar u n a generalización com o de
realización constante, a m enos que la m ism a relación se verifi­
que exactam ente p a ra todas las tem p eratu ras. R ealizará, sin
duda, to d a u n a serie de experim entos, cada uno de ellos a una
te m p e ra tu ra diferente. Es m uy p ro b ab le que encuentre que la
relación en cuestión sólo tiene lugar d en tro de c ierto m argen
de tem p eratu ras. E n estas condiciones h a b rá d e especificar
su generalización de m odo que diga: "La relación e n tre la p re ­
sión y el volum en es tal y cual, a condición que la tem p eratu ra
se m an ten g a e n tre —100 y 600UF .” Con su erte p o d rá h a lla r u n fac­
to r de corrección que le p e rm ita en u n ciar de nuevo su proposi­
ción en fo rm a que se aplique a u n m argen m ayor de tem p eratu ­
ras. Y ex actam ente el m ism o tip o de razonam iento se aplicará
al co n tro l de variables adicionales. P odrían efectu arse controles
sim ultáneos de diversas variables, m anteniendo cad a u n a de ellas
a un v alo r fijo-, y efectuando luego experim entos u lterio res con
distin tas com binaciones de valores de las variables de control.
Si varios controles a c tu a ra n sim ultáneam ente, se re q u e rirá un
nú m ero m u cho m ayor de experim entos análogos.
E xiste cierta sem ejanza e n tre el procedimiento* p a ra lo g rar el
control estad ístico, que vam os a exam inar a continuación, y un
experim ento de lab o ra to rio en el curso del cual las variables son
m anipuladas físicam ente y m an ten id as co n stan tes e n diferentes
niveles. E xiste sin embargo- u n a diferencia fundam ental, que re­
su lta vital, relacionada con la fo rm a en que el observador inter­
preta los resu ltados. C uando controlam os estadísticam ente, lleva­
m os a cabo m anipulaciones con lápiz y papel, en el curso de las
cuales aju stam o s puntuaciones, o hacem os p a sa r a los individuos
de u n o a o tro cuadro, pero en realid ad n o estam os m anejando
sus pu n tu acio nes reales. Cuando, p o r ejem plo, estam os "controllando" estad ísticam en te u n IQ, esto n o significa que m anejem os
las co n stantes de inteligencia del individuo- afectado. Podem os
a ju s ta r las pu ntuaciones de los IQ, re sta n d o de unas y sum ando
a o tras, de m an era que podam os p re te n d er que son iguales en­
tre sí, p e ro n o podrem os m an ip u lar la inteligencia real de u n a
p erso n a en fo rm a que p u ed a co m p ararse con los controles que
gobiernan la te m p e ra tu ra o la p resió n en uri experim ento d e la­
bo ratorio.
E ste tipo- de control y a ju ste hipotético- es m uy conveniente,
y no deberem os desconcertarnos si el m undo real coincide con
lo que estam os haciendo-. Si u n cam bio real en la inteligencia
p u d iera a fe c ta r n u e stra relación en u n sentido determ inado, pero
al m an ten erla co n stan te en u n experim ento' ñ o s fu e ra posible
ded u cir la relación verd ad era e n tre o tras dos variables “con la
inteligencia m an ten id a en nivel constante", re su lta ría n ju stifica­
das n u estra s m anipulaciones con papel y lápiz. Debe reconocerse
claram en te q ue tales "controles" a base de lápiz y papel pueden
se r realizados sobre cualquier variable de la q u e tengam os m e­
didas (y categorías), incluso aquellas que son causalm ente depen­
dientes de las variables que estam os estu d ian d o y aquellas que
de m an era esp u ria estén relacionadas, p o r razones extrañas, con
alguna variable.
Los controles estadísticos son básicam ente m ucho m ás fáciles
de realizar que los verdaderos controles, p o r lo que el m arg en de
flexibilidad p a ra su aplicación razonable es m ucho m ayor. Se
req u iere fu n d am entalm ente u n a teoría que ju stifiq u e la aplica­
ción de tales controles, teo ría en la que están im plícitos supues­
tos acerca de la e stru c tu ra causal del sistem a de variables.
A unque el tem a escapa al interés de u n texto general sobre
estad ística, re su lta necesario fo rm u lar aquí unas p alab ras de cau­
tela, ya que m uchos m alos entendidos, en relación con las o p era­
ciones de control estadístico, se h an trad u c id o en u n a aplicación
ciega de variables d e control sin apoyo en u n a teo ría que lo
ju stifiq u e.
Volviendo al ejem plo de la relación e n tre las preferencias reli­
giosas y los p artid o s políticos, se pueden co n tro lar estadística­
m en te variables tales com o el sexo y la clase social. P ara m an­
te n e r co n stan te el sexo pueden, p o r ejem plo, se r considerados
solam ente los votantes varones. Si se observa que la relación se
da en el caso de los varones y p o r separado e n el de las hem bras,
p o d rá decirse que es aplicable al sexo, ya que habrem os exam i­
n ad o am bas categorías de la variable "sexo”. Es posible sin em ­
bargo- que se observe la relación en el caso de los varones p ero
n o en el d e las h e m b ra s ; en tales circunstancias h a b rá que cali­
fica r la generalización, volviendo n u e s tra atención a las causas
p o r las cuales la relación existe p a ra u n sexo y no p a ra el otro.
P uede verse que el co n tro lar las variables relevantes no sólo nos
p erm ite u n a p ru e b a m ás rigurosa de u n a hipótesis, sino que
nos su m in istra u n a m ay o r penetración e n el caso en que se en ­
cu en tre que la relación difiere de u n a categoría de la variable
de co n tro l a la otra.
Algunas veces será conveniente co n tro la r diversas variables a
la vez. D ebido a la escasez de ios casos, se hace necesario con
frecu en cia co n tro la r las variables relevantes u n a p o r una, p er­
diéndose, sin embargo-, en e sta fo rm a cierta cantidad de in fo rm a­
ción. Supóngase, p o r ejem plo, que se h u b iera prescindido del
sexo y se h u b iera introducido u n control en relación con la clase
social de los electores. E xam inaríam os, pues, cada clase social,
p a ra v er si la relación subsistía siem pre. E n co n tra ste con este
p rocedim iento, pudim os h ab e r controlado sim ultáneam ente des­
de los p u n to s de v ista d e la clase y del sexo, tom ando todas las
com binaciones posibles de las variables de control (v.gr. va.
ró n d e la clase inferior, m u je r d e la clase inferior, varón de la
clase m edia, e tc é te ra ) y estu d ian d o la relación en ca d a com ­
binación de las categorías de control. Se concibe que la relación
p u ed a v erificarse acaso p a ra to d as las com binaciones, con excep­
ción de la co rresp o n d ien te a las m u jere s de la clase inferior. Si
esto fu e ra así, n os veríam os conducidos a investigar las peculia­
rid ad es de este su b g ru p o p a rtic u la r.
Con o b jeto d e ilu s tra r el proceso, tom em os o tro ejem p lo con­
creto. Supóngase que tenem os los siguientes datos co rresp o n ­
dientes a esc o la res: am b ien te de la clase, c u o ta d e inteligencia,
grad o escolar y la aplicación de cad a niño. C onvendrá re su m ir
los datos en térm inos de u n a ta b la m a e stra com o la del cua­
d ro XV.4.
C uadro XV.4.
Cuadro m aestro para correlacionar cuatro variables
Inteligencia
Grados
Clase media
Clase baja
Totales
Aplica­
ción
elevada
Aplica­
ción
baja
Aplica­
ción
elevada
Aplica­
ción
baja
Alto
60
40
40
18
158
Bajo
20
24
16
38
98
Alto
40
24
6
2
72
Bajo
24
12
32
54
122
144
100
94
112
450
Alta
Baja
Totales
O bsérvese q ue u n cu ad ro com o éste contiene las casillas sufi­
cientes p a ra q u e los c u a tro tipos d e inform ación (clase, IQ, g ra­
dos y aplicación) p u ed a n ser, si así conviene, re co n stru id o s p a ra
cad a individuo-, es decir, que sabem os cu á n ta s son las. p erso n as
en las que se d a la m ism a com binación de rasgos (p o r ejemplo-:
clase b aja, IQ elevado-, aplicación b a ja y grados a lto s). Si desea­
m o s u n a in fo rm ació n m enos d etallad a podrem os co m binar los
dato s fo rm an d o agrupaciones m ás am plias. Podem os p o r ejem ­
p lo re u n ir a los estu d ian tes de la clase m edia con los de la clase
b aja, m anteniendo- ta n sólo- la distinción relativ a al IQ, la apli­
cación y los grados. P ero si se nos facilitase ta n sólo u n a inform a­
ció n m enos d etallad a no- nos se ría posible re c o b ra r el to ta l de la
inform ación m ás que volviendo a h a c e r el análisis. P or ta l razón
u n cuadro- m a e stro tal com o el XV.4 debe se r utilizado com o cua­
d ro d e tra b a jo , sacando de él los d ato s p a ra p re p a ra r u n a serie
áe o tro s cu ad ro s separados.
S erá e n general m ás conveniente h ac er el cuadro m aestro de
tal m an era que la variable dependiente aparezca en la colum na
ex trem a de la izquierda, en tan to que la variable independiente
m ás in tere sa n te aparezca en la fila b a ja del encabezam iento, lo
que se tra d u c irá en subcuadros con las frecuencias que están
siendo com paradas directam ente. E n el cuadro XV.4, p o r ejem ­
plo, tenem os cu atro subcuadros en cada uno de los cuales se
relacio n an las aplicaciones y los grados. Todos los individuos del
su b cu ad ro de la p a rte su p erio r izquierda son de la clase m edia
y tienen elevado IQ, y así sucesivam ente. La exacta distribución
de filas y colum nas n o tiene u n a im p o rtan cia decisiva, ya que es
bien claro que se las puede o rd en ar d e acuerdo con la relación
d e intereses (ta l com o se hace en el cu ad ro XV.5).
C uadro
XV .5. Serie de tablas de contingencia que relacionan dos
variables con dos controles sim ultáneos
Aplicación elevada
Grados
IQ alto
IQ bajo
Aplicación baja
IQ alto
IQ bajo
40
24
24
12
18
38
2
54
Clase media
Alto
Bajo
60
20
40
24
Clase baja
Alto
Bajo
40
16
6
32
Supóngase que sospecham os u n a propensión de los m aestro s
en favor de la clase m edia, que se tra d u c iría en la tendencia a
d a r b uenas no tas a los niños de la clase m edia, independiente­
m ente de su capacidad y aplicación, y buenas notas a los niños
de la clase in ferio r solam ente cuando m u e stra n capacidad y apli­
cación a la vez. A nticiparíam os, en tal caso, que las notas h a­
b ría n de se r p o r lo re g u lar m ejores p a ra los niños de la clase
m edia, con tro lan d o la inteligencia y el esfuerzo a la vez, excepto,
posiblem ente, en el caso de niños de gran capacidad y aplicación.
A nticiparíam os asim ism o q u e las relaciones e n tre las notas p o r
u n a p a rte y la capacidad y la aplicación p o r la o tra h ab ría n de
se r m ás fu ertes en la clase in ferio r que en la m edia. E n otros
térm inos, si los niños de la clase m edia reciben siem pre buenas
notas, n o d ebería h a b e r relación (o sólo u n a relación superficial),
en esta clase, e n tre las n o tas p o r u n a p a rte y la capacidad o la
aplicación p o r la otra. Fijém onos en la relación e n tre las n o tas
y la capacidad y averigüem os si es o no m ás fu e rte en la clase
inferior. E n este caso necesitarem os co n tro la r el esfuerzo. En
am bas clases h a b rá estu d ian tes aplicados y n o ta n aplicados. P or
lo tan to , podem os c o n stru ir c u a tro tablas d e contingencia com o
las del cu ad ro XV.5.
C om param os ah o ra las dos clases con respecto' a la existencia
y la fu erza d é la relación, considerando' sep arad am en te a los alum ­
nos de aplicación elevada y b a ja respectivam ente. La dirección
d e la relación p u ed e tam b ién o b serv arse en cad a caso, ya sea
calculando los p o rc en tajes o co m p aran d o los p ro d u cto s diagona­
les. C alculando la ^ c u a d ra d a y la <f¡ p a ra cada tab la, obtenem os
los resu ltad o s del cu ad ro XV.6. Vemos e n esta fo rm a que las
relaciones n o son significativas p o r lo' q u e se re fiere a los niños
de la clase m edia, p e ro q u e en c u a n to a los d e la clase inferior,
en cam bio, existe u n a relación positiva m o d erad am en te fu e rte en
am b as categorías de aplicación e n tre la capacidad y las notas.
O bservam os asim ism o que la relación es algo' m ás fu e rte en el
caso de los estu d ian tes m ás aplicados.
Cuadro
X V .6
Clase
Aplicación
3(,-cuadrada
Nivel de
significación
Media
Alta
B aja
2.565
.188
no significativa
no significativa
.133
.043
Baja
Alta
Baja
28.064
15.582
p < .001
p < .001
.546
.373
El lecto r h a b rá sin du d a observado el efecto' p ro n u n ciad o del
co n tro l sobre el n ú m ero de casos que figuran en cada casilla. E n
lu g ar de te n e r sólo cu atro casillas, en efecto, tenem os cu a tro ve­
ces dicho n ú m ero al servim os de dos variables de co n tro l dicotóm icas. Si se h u b ie ra añadido u n te rc e r control sim ultáneo, p o r
ejemplo', el sexo, habríam os tenido 32 casillas en lu g ar de 16. Y si
cualquiera de las variables h u b ie ra com portado m ás de dos cate­
gorías, el n ú m e ro d e las casillas h a b ría aum entado. Así, pues, si
bien los co n tro les sim ultáneos pu ed en en teo ría añ ad irse indefi­
nidam ente, el n ú m ero de casos h a de se r m uy gran d e p a ra con­
tro la rse con e ste método'. U na a lte rn a tiv a co n sistiría en re d u cir
sim plem ente el c a rá c te r de la población y generalizar sólo res­
p ecto de los v arones de la clase m edia de educación universitaria,
O' de algún o tro subgrupo correspondiente. P o d ría seleccionarse
luego u n a m u e stra m ucho m ay o r de este subgrupo. P o r lo gene­
ral, si se h a de em p lear el co n tro l sim ultáneo, re su lta necesario
seleccionar aquellos dos o tre s controles que se p re se n ta n com o
m ás p ro m eted o res. Es posible, p o r supuesto, servirse de la prue-
b a exacta de F ish er cuando el nú m ero de casos d e cada casilla
se hace m uy p eq u e ñ o ; p e ro h ay que re c o rd a r que será en ta l caso
necesario' te n e r u n alto' grado de relación p a ra o b ten er significa­
ción. D ebido a esta atenuación de los casos, el m ero hecho de
que u n a relació n se haga n o significativa al in tro d u c ir controles
no constituye u n a p ru e b a suficiente de q u e la variable de con­
tro l pro d u ce efecto. H ab ría que calcu lar y co m p arar siem pre
m edidas del grado' de relación.
E n los casos en que difieran las relaciones e n tre u n a categoría
de u n a v ariable de co n tro l y la siguiente, tendrem os u n ejem ­
plo de lo que se d enom ina no aditividad o interacción estadística.
Ya se exam inó e s ta posib ilid ad al t r a ta r de la p ru e b a p a ra u n a
d iferen cia de diferencias en las proporciones, y volverem os al
tem a d e m an era m ás d etallad a e n los capítulos xvi y xx. S iem pre
que se sospeche la posibilidad de u n a interacción, deberá h ac er­
se u n a p ru e b a estad ística q u e la localice, an tes d e seguir adelante.
Com o in ev itab lem ente h a b rá algunas diferencias leves en las re ­
laciones e n tre u n a m u e stra y la siguiente, la p re g u n ta b ásica p o r
fo rm u la r en tales p ru e b as será la de si las m u estras d e in tera c­
ción son lo! suficientem ente grandes com o p a r a q u e aquélla haya
o cu rrid o p o r casualidad, incluso en ausencia d e interacción en ­
tre la población. E n este ejem plo, y dado el caso de que to d as
las variables h a n sido dicotom izadas, p o d rá h acerse u n a p ru e b a
sencilla de u n a d iferencia de diferencias en proporciones, tal
com o sugiere el capítulo x m . Como e stá n siendo consideradas
sim u ltán eam en te dos variables de control, p u ed e incluso d arse el
caso de que se p ro d u zca lo que se denom ina u n a interacción de
segundo' orden, o u n a d iferencia de diferencias de diferencias.
P o r e je m p lo : la diferencia e n tre las relaciones d e aplicación ele­
v ada y aplicación b a ja puede ser m ay o r e n tre los niños de la
clase b a ja que e n tre los de clase m edia.
Si se o b serv a q u e la in teracció n tien e significación estadística,
y es adem ás lo b a sta n te grande com o p a ra te n e r significación
sustan tiv a, re s u lta rá necesario cualificar las generalizaciones h a ­
ciendo' u n a referen cia específica a la categoría d e control. H ab ría
q u e decir, p o r ejem plo : "S e encontró u n a relación e n tre grados
y h ab ilid ad en el caso de los niños de clase b aja, p ero n o en los
de clase m edia.” A p a rtir de dicho p u n to deb erán estu d iarse se­
p arad am en te las re sta n te s relaciones e n tre los dos niveles de cla­
se. Si la in teracció n es p o r el co n trario estad ísticam en te insigni­
ficante, o ta n p eq u e ñ a q u e p u ed a ser ignorada, au n siendo
estad ísticam en te significativa, p o d rá ded u cirse razonablem ente
que las relaciones son b ásicam en te sim ilares e n tre las categorías
de control. E starem os en tal caso en la posibilidad d e sim plificar
co n siderablem ente el análisis, reuniendo los resu ltad o s sep ara­
dos. Veam os a co n tinuación qué tipos específicos de sim plifica­
ción re su lta n posibles en el caso de datos categorizados.
Podem os en p rim e r lugar re u n ir las p ru eb as de chi al cuadrado
en una sola p ru e b a global, a condición de que aquéllas estén
basadas en m u estras al azar seleccionadas independientem ente.
E l procedim iento es extrem adam ente sencillo, b astan d o sum ar
los distintos valores de chi al cu ad rad o y tam bién los grados de
lib ertad , evaluando el re su ltad o de la m an era habitual. Supon­
gam os p o r ejem plo que en el caso de c u a tro cuadros 2 x 2, las
chi cu ad rad as resu ltan tes fueron 2.1, 3.3, 2.7 y 2.9. La sum a de
estos valores es 11.0, y la de los grados de lib ertad , 4. E n el cua­
d ro vem os que u n a chi cu ad rad a d e 11.0, con 4 grados de lib ertad
re su lta significativa al nivel de .05. Así, au n cuando ninguno de
los valores sep arados de chi al cu ad rad o fu e ra significativo, po­
dem os h ac er u so del hecho de que el re u n ir los resu ltad o s tiene
significación teórica. E stam os en efecto diciendo que si u n a rela­
ción se re p ite aproxim adam ente cada vez, p ero la p ro babilidad
de los resu ltad o s separados es en ca d a caso m ayor de .05, p o d re­
m os p re g u n ta m o s cuál sería el re su ltad o de tal com binación de
resu ltad o s si no hubiese relación en cualquiera de los cuatro
cuadros.
O bsérvese que los resultados de sem ejan te operación de reu­
n ión p o d rían m uy bien d iferir de la relación to ta l e n tre dos va­
riables sin control alguno. Al ju n ta r los resultados, obtenem os
esencialm ente u n a relación prom edia dentro de las categorías de
la variable o las variables de control. Si hubiéram os prescindido
sim plem ente de la variable o las variables de control, los efectos
de sem ejantes controles h ab ría n perm anecido' oscuros p o r com ­
pleto. En ta n to que, al unificar, efectuam os u n a sola p ru e b a de
/-cu ad rad a de la relación c o n ju n ta e n tre dos variables, contro­
lando en relación con las variables adicionales.
Y en form a análoga, podríam os d esear o b ten er u n a sola m edi­
da de asociación calculando u n pro m ed io p o nderado de las m e­
didas basado* en las c u a tro tab las separadas. Un m éto d o que se
h a sugerido p a ra ta l o b jeto consiste en el em pleo de ponderacio­
nes que sean p roporcionales al nú m ero de los casos de cada tabla.
Así, p o r ejem plo, podríam os m u ltip licar cada t 6 p o r el núm ero
de casos de la tabla, su m ar los resultados y dividir, finalm ente,
e n tre el n ú m ero to tal de casos de las cu a tro tablas. T erm inaría­
m os así con u n a sola p ru e b a d e significación y u n a sola m edida
de asociación que re p resen ta rían un prom edio de los resu lta­
dos de las c u a tro tablas.
O tro sim ple procedim iento p a ra o b ten er u n a m edia ponderada
es el que describirem os brevem ente. (P a ra m ayores detalles
véase R osenberg [12].) El procedim iento consiste, básicam ente,
en estan d arizar todas las categorías de control, m ediante la ob­
tención de u n prom edio po n d erad o de proporciones (o porcen­
ta je s). Supongam os h ab e r obtenido separadam ente los resultados
siguientes, p a ra hom bres y m u je re s :
Hembras
Varones
Protes- Cata­
Protes­ Cató­
tantes licos Judíos Total tantes ticas Judías
Republicanos
Demócratas
Independientes
Total
180
90
30
300
80
80
40
200
20
50
30
100
280
220
100
600
100
60
40
200
50
30
20
100
10
70
20
100
Total
160
160
80
400
Com enzarem os p o r tra n sfo rm a r las cifras an terio res en p ro ­
porciones, to talizando a 1 .00, ya que la variable independiente
ap arece en la p a rte a lta de cada cuadro. Los re su ltad o s serán los
sig u ie n te s:
Varones
Republicanos
Demócratas
Independientes
Total
Hembras
Protes­
tantes
Cató­
licos
Judíos
Protes­
tantes
Cató­
licas
Judías
.60
.30
.10
1.00
.40
.40
.20
1.00
.20
.50
.30
1.00
.50
.30
.20
1.00
.50
.30
.20
1.00
.10
.70
.20
1.00
A ceptando que deseam os oscurecer las diferencias e n tre estos
dos cuadros, u tilizando p a ra ello u n prom ediado, podrem os fo r­
m a r u n prom edio ponderado, m ultip lican d o cada pro p o rció n de
las contenidas en el c u a d ro de varones p o r .6, ya que son 600 los
varones en u n to ta l de 1 000 individuos en la m u estra. De m an era
análoga podem os p o n d e ra r cada cifra e n el cu ad ro de las h e m ­
b ras, m u ltip licán dola p o r .4. Los resu ltad o s serán los sig u ie n te s:
Republicanos
Demócratas
Independientes
Total
Protestantes
Católicos
Judíos
.56
(.36+ .20)
.30
(.18+.12)
.14
(.06+.08)
1.00
.44
(.24+ .20)
.36
(.24+ .12)
.20
(.1 2 + .08)
1.00
.16
(.1 2 + .04)
.58
(.30+ .28)
26
(.18+.08)
1.00
en el que cada p ro p o rció n de las que aparecen en el cu ad ro
derivado es igual a la su m a de las dos prop orciones po n d erad as
(com o se indica en los p arén tesis), que a su vez figuraban e n los
cuadros anteriores. Como la sum a de las ponderaciones es de
1 .0, tam bién lo será la de las proporciones en cada colum na del
cuadro derivado. Los resultados pueden se r p resentados tam ­
bién b a jo la fo rm a de porcentajes.
E ste pro cedim iento p a ra co n tro lar m ed ian te la obtención de
prom edios ponderados es, com o se verá, m uy generalizado. H e­
m os estandarizado el núm ero d e p ro testan tes, católicos y judíos,
de tal m an era que sus tam años relativos en las m u estras de va­
rones y de h em b ras p ierd an significación. Si hubiese habido
controles sim ultáneos p a ra variables adicionales, habríam os po­
dido am p liar este procedim iento de m an era directa. Así, si h u ­
biéram os deseado co n tro la r según clases sociales, usando tres
niveles, h ab ríam os obtenido seis cuadros, uno p a ra cada catego­
ría sexo-clase. Después de h a b e r vigilado si se produce in terac­
ción, y habiendo resu elto que ninguna d iferencia im p o rtan te
p o d rá re s u lta r oscurecida p o r la aplicación del procedimiento-,
podríam os asig n ar de nuevo gravám enes W¿ a cada uno de los
cuadros de control, haciendo 2 W¡ = 1 .0, obteniendo así u n solo
cu ad ro com binado, com o en el ejem plo anterior.
Al su stitu ir así varias m edidas y pruebas separadas p o r u n a
sola m edida y u n a sola pru eb a, nos enfrentam os a los proble­
m as que se en cu en tran siem pre que se em plean estadísticas de
resum en. C oncentram os n u estro s datos, de m odo que resulten
m enos estadísticos, pero, p o r o tra p arte, correm os el riesgo de
d isto rsio n ar n u estro s resultados. P or ejem plo: si u n a de las cua­
tro tablas en cuestión d iera u n a /-cu ad rad a gran d e y u n gra­
do de relación m uy alto, en com paración con las dem ás, en to n ­
ces el com binar los resultados, con lo que dicho hecho re su lta
oscurecido, pu ed e revelarse com o sum am ente engañoso. O sea
que, com o siem pre, las m anipulaciones estadísticas no pueden
co n stitu ir n u n ca u n su stitu to del sentido com ún.
Algunas de las ideas exam inadas en esta sección, en p artic u la r
las relativas a la reunión de los resultados de tablas separadas,
son in d u d ablem ente nuevas y p o d rá n p arece r algo confusas de
m om ento. S erá ú til, p o r lo tanto, volver a re p a sa r e s ta sección,
u n a vez que el le c to r se haya en fren tad o al m aterial de los capítu­
los xvi al xx. E n dicho m om ento, en efecto, se h a b rá n exam inado
ya y co m parado diversos tipos de procedim ientos de control.
E
jercicios
1. Calcúlese la x-cuadrada para los datos del ejercicio 5 del capítulo ix.
Tornando las aspiraciones profesionales como variable dependiente
B, ¿cuál es el valor de t„? ¿Cómo se compara el valor de x,, con el de
la medida que se calculó en la parte d) del ejercicio 5?
2. En el ejercicio 3 del capítulo xiv nos servimos de la prueba de
Smimov. Tomando los mismos datos, ¿a qué conclusión llegamos al
servimos de la prueba de la x-cuadrada? En relación con esos datos
particulares, ¿cuál prueba se preferirá? ¿Por qué? Calcúlense <t>, T, V,
h*3. La prueba de la /.-cuadrada puede emplearse en general para
comparar frecuencias observadas y teóricas. En particular, puede uti­
lizarse para verificar la hipótesis nula de que los datos de la m uestra
se han seleccionado al azar de una población normal. Las frecuencias
observadas se comparan con las que se habrían anticipado en caso
de ser la distribución efectivamente normal, con la misma media y
desviación estándar que se han calculado de los datos de la muestra.
Una vez obtenidos los valores de X y de s, podemos servil-nos de los
verdaderos límites y de la tabla normal para dar las frecuencias es­
peradas dentro de cada intervalo. Los grados de libertad serán k — 3,
en donde k representa el número de intervalos. Se perderá un grado
de libertad, ya que el total de las frecuencias esperadas ha de ser N;
los otros dos grados de libertad que se han perdido se deben a la
necesidad de utilizar X y s a título de apreciaciones de los paráme­
tros reales jt y a. Teniendo estos hechos presentes, verifiqúese si los
siguientes datos se apartan o no significativamente de la norm alidad:
Respuesta %s — 2.53, sin rechazar.
c, t 6 y
Intervalo
0.0- 9.9
10.0-19.9
20.0-29.9
30.0-39.9
40.049.9
50.0-59.9
60.0-69.9
Frecuencia
7
24
43
56
38
27
13
208
4. En un estudio reciente, H. L. Wilensky [14] encontró, al controlar
la condición socioeconómica, una relación general entre la actividad
sindica] por una parte y la orientación política y la preferencia elec­
toral por la otra. Los datos de 15 miembros negros tendían a apoyar
este hallazgo general en relación con la preferencia electoral. Siete
de los ocho negros que eran miembros inactivos del sindicato no si­
guieron la "línea” de éste al votar en 1948, en tanto que, de los siete
miembros sindicalmente activos, cinco votaron de acuerdo con la su­
gerencia del sindicato. Averigüese si se da o no una relación signifi­
cativa, sirviéndose: a) de la prueba exacta de Fisher, con dirección
anticipada, y b) de la x-cuadrada corregida con fines de continuidad
con dirección anticipada. Respuesta: a) p ~ .035'; b)
= 3.22, p < .05.
5. Utilice los datos que siguen (disponiendo los cuadros en o tra for­
ma, si es necesario) para obtener información acerca de la precisión
de los enunciados a), b) y c). Allí donde sea adecuado, calcúlense
medidas del grado de relación y control de las variables relevantes.
a) Las mujeres tienen menos prejuicios que los hombres, indepen­
dientemente de la religión que profesen o de la clase social a
que pertenezcan.
b ) Los grados de relación entre la confesión y el prejuicio contra los
negros dependerán de la clase social de la persona “afectada de
prejuicio”.
c) La razón de que los judíos aparezcan como menos afectados de
prejuicio, en la tabla, que los no judíos se debe al alto porcentaje
de mujeres y de personas de la clase superior en la m uestra re­
lativa a los judíos.
Grado del prejuicio contra tos negros
Religión
Elevado
Bajo
S e x o ------------------------------------------------------- Totales
Clase
superior
Clase
Clase
Clase
inferior superior inferior
No judíos
Varones
Mujeres
14
8
30
13
15
9
16
7
75
37
Judíos
Varones
Mujeres
13
18
7
9
22
33
15
21 -
57
81
Total
250
6. Utilizando los datos del anterior ejercicio 5, construyanse cua­
dros que relacionen la religión con los prejuicios, con controles simul­
táneos para sexo y clase social. Suponiendo despreciable la posible
interacción, normalícense estos resultados de forma que la relación
entre religión y prejuicio, con controles, pueda ser presentada en un
solo cuadro 2 x 2.
*7. Supongamos que se espera llevar a cabo una prueba chi al cuadra­
do con un cuadro 2 x 2, en que se relaciona la preferencia religiosa
(protestante-católico), con la preferencia política (republicano-demó­
crata). Se planea tom ar muestras al azar, del mismo tamaño, de pro­
testantes y católicos, y se predice la dirección, esperando que la propor­
ción de protestantes que son republicanos resultara de .60 aproximada­
mente, en tanto que la proporción de católicos que son republicanos
será a su vez de .40, m ás o menos.
¿Cuántos casos resultarán necesarios si se requiere establecer sig­
nificación al nivel de .05?
B iblio g rafía
1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2" ed.,
Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 9.
2. Blalock, H. M .: "Probabilistic Inteipretations for the Mean Square
Contingency”, Journal of the American Statistical Association,
vol. 53, pp. 102-105, 1958.
3. Bradley, J. V.: Distribution-free Statistical Tests, Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1968, cap. 8.
4. Downie, N. M., y R. W. Heath: Basic Statistical Methods, 2? ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965,
cap. 14.
5. Goodman, L. A., y W. H. Kruskal: "Measures of Association for
Cross Classifications”, Journal of the American Statistical Associa­
tion, vol. 49, pp. 732-764, 1954.
6. Goodman, L. A., y W. H. Kruskal: "Measures of Association for
Cross Classifications, II: Further Discussion and References”,
Journal of the American Statistical Association, vol. 54, pp. 123163, 1959.
7. Goodman, L. A., y W. H. Kruskal: “Measures of Association for
Cross Classifications, III: Aproxímate Sampling Theory”, Journal
of American Statistical Association, vol. 58, pp. 310-364, 1963.
8. Hagood, M. J., y D. O. Price: Statistics for Sociologist, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 21.
9. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 17.
10. McCarthy, P. J.: Introduction to Statistical Raasoning, McGrawHill Book Company, Nueva York, 1957, cap. 11.
11. Mueller, J. H., K. Schuessler, y H. L. Costner: Statistical Reasoning in Sociology, 2¡ ed. Houghton Mifflin Company, Boston, 1970,
cap. 9.
12. Rosenberg, Morris: “Test Factor Standardization as a Method of
Interpretation”, Social Forces, vol. 41, pp. 53-61, 1962.
13. Siegel, Sidney: Nonparametric Statistics for the Behavioral Scien­
ces, McGraw-Hill Book Company, Nueva York, 1956, pp. 96-111.
14. Wilensky, H. L.: "The Labor Vote: A Local Union’s Impact on the
Political Conduct of its Members”, Social Forces, vol. 35, pp. 111120, 1956.
E n el capítulo x m com param os dos m u estras investigando la
significación de la diferencia e n tre las m edias y las proporcio­
nes. Dichas p ru e b as eran adecuadas al trata m ien to de situaciones
e n las que u n a de las dos variables m u tu am en te relacionadas
era u n a escala nom inal dicotóm ica. E n el ú ltim o capítulo vim os
de qué m odo p o d ían co m p ararse m ás d e dos m u estras p o r m e­
dio de la p ru e b a de la ^-cuadrada. E n ©1 p resen te, p o r su p arte ,
vam os a ex am in ar u n tip o m uy im p o rta n te de pru eb a, el análisis
de la variancia, que p u ed e u tilizarse p a ra verificar diferencias
en tre las m edias de m ás de dos m u estras. Así, pues, el análisis
de la varian cia re p re se n ta u n a extensión de la p ru e b a de la dife­
ren cia de las m edias y pu ed e em plearse siem pre q u e estem os
verificando una relación e n tre u n a escala nom inal (o de orden
su p erio r) y u n a escala de intervalo. V erem os asim ism o que, en
determ inadas circunstancias, las p ru e b as de análisis de variancia
pueden ex tenderse a situaciones en las cuales h ay u n a sola escala
de in tervalo y dos o m ás escalas nom inales. Se exam inarán, ade­
m ás, u n a p ru e b a análoga no p a ra m é tric a y varias m edidas de
grado de asociación.
XVL1. Análisis sim ple d e la variancia
Si bien el análisis de la variancia puede considerarse com o una
extensión o generalización de la p ru e b a de la diferencia de las
m edias, co m p o rta con todo algunos principios fund am en talm en te
nuevos que req u ieren u n a explicación relativam ente larga. De
ahí que u n a breve exposición general re su lte ta l vez indicada, a
fin de que el le c to r n o se p ierd a en los detalles. Los supuestos
del análisis de v ariancia son b ásicam ente los m ism os que los de
la p ru eb a de la diferencia de las m edias, pero- la p ru e b a en sí
m ism a es m uy d istin ta. H abrem os de suponer norm alidad, m ues­
tra s aleatorias independientes, poblaciones y desviaciones están­
d a r iguales, y la hipótesis nula será que las m edias de las pobla­
ciones son iguales. La p ru e b a m ism a supone el tra b a ja r d irec ta­
m ente con variancias y no con m edias y e rro res están d a r.
Supóngase que los datos del cuadro X V I.1 re p resen ta n las
tasas de crim in alidad de tres tipos de ciudades distintos, a sa­
b e r: centros in d u striales, com erciales, o políticos. Podem os calcu­
la r m edias sep arad as p a ra cada u n a de esas tres categorías o
m u estras, y podem os o b ten er tam b ién u n a m edia grande, p re s­
cindiendo de las clases y prom ed ian d o los datos. E n el p resen te
ejem plo, las tre s m u e stra s son del m ism o tam año, p ero esto no
necesita ser siem pre así.
Com o q u iera que se p resu m e que to d as las poblaciones tienen
la m ism a desviación están d ar, podem os fo rm a r dos apreciacio­
n es in d ep en d ien tem ente d e la variancia a2 com ún. U na de estas
apreciaciones será d irectam en te análoga a la estim ación unificada
q u e utilizam os en la p ru e b a de la diferencia de las m edias. E sta
estim ació n será u n prom edio p o nderado d e las variancias dentro
de las m u estras separadas y será siem pre insesgada, incluso si las
m edias de las m u estras difieren considerablem ente e n tre sí. E sto
es así p o rq u e la v arian cia de cada m u e s tra se calculará sep ara­
d am en te y sólo co m p o rta rá las desviaciones respecto1 de la m edia
d e la m u e s tra p artic u la r.
C uadro
X V I.1. Datos para el análisis de variancia
Tasas de criminalidad
Total
Sumas
Medias
N? de casos
Centro
industrial
Centro
comercial
Centro
político
4.3
2.8
12.3
16.3
5,9
7.7
9.1
10.2
5.1
6.2
1.8
9.5
4.1
3.6
11.2
3.3
12.5
3.1
1.6
6.2
3.8
7.1
11.4
1.9
68,6
8.58
8
44.8
5.60
8
47.6
5.95
8
161.0
6.71
24
La segunda estim ación d e la variancia com ún co m p o rta la va­
rian cia de las m edias p artic u la res d e las m u e stra s tra ta d a s com o
dato s individuales. E n este caso, las desviaciones d e las m edias
d e las m u estras respecto de la m edia grande se u tilizarán p a ra la
estim ación de a2. P a ra los datos del cu ad ro X V I.l o btendríam os
la variación de las m edias de las tres m u estras, o sea 8.58, 5.60
y 5.95, resp ecto de la m edia to ta l de 6.71. E sta estim ación d e o2
sólo- será eq u ilib rada si las m edias de las poblaciones son de he­
cho iguales. Si las m edias de las poblaciones son iguales, en
efecto, pued e esp e rarse que las de las m u estras v aria rán u n a res­
p ecto de o tra de acu erd o con el teo rem a del lím ite central,
e sto es, acercándose a u n a d istrib u ció n n o rm al a m edida que au­
m en ta el tam añ o de la m u estra, y podem os servim os de esta ley
y de las diferencias re ales e n tre las m edias de las m u estras p ara
a p re c ia r la v erd ad era variancia. P or o tra p a rte , si las m edias de
las poblaciones son en re alid ad diferentes, esperam os que las
m edias de las m u estras d iferirán u n a resp ecto de o tra m ás de
lo que sería el caso si las m edias de las poblaciones fu e ran las
m ism as. P o r consiguiente, si la hipótesis n ula es falsa, la segunda
estim ación de o2 se rá p o r lo general dem asiado grande, y será
u n a estim ación sesgada.
La p ru e b a em pleada en el análisis de la variancia com porta
u n a com paración de las dos estim aciones distin tas de la varian­
cia de la población. Sin em bargo, en lugar de to m a r la diferencia
e n tre las dos estim aciones, tom am os la razón de la segunda a la
p rim era. Si la hipótesis n u la es correcta, las dos estim aciones
serán insesgadas, y la razón h a b ría de ser aproxim adam ente la
unidad. E n cam bio, si las m edias de la población difieren, la se­
gunda estim ación será p o r lo re g u la r m ayor que la p rim era, y
la razón será m ay o r que la unidad. Como q uiera que las varia­
ciones de las m u estras son siem pre u n factor, hem os de pregun­
tarn o s cuán g ran d e sea la razón que estam os dispuestos a to lerar
an tes de p o n er a la hipótesis n u la en duda. A fortunadam ente,
la razón F de las dos estim aciones tiene u n a d istribución de
m u estreo conocida, a condición que las dos estim aciones de la
variancia sean efectivam ente independientes u n a de o tra, y d e ahí
q ue pu ed a h acerse u n a p ru e b a relativam ente sencilla. E sto es
lo que hacem os esencialm ente en la p ru e b a del análisis de la va­
riancia. Veam os ah o ra en detalle el procedim iento que ello com ­
p o rta.
F ragm entación de la variación total e n p artes com ponentes.
Si bien n u e stro objetivo* últim o está en la form ación de dos esti­
m aciones d istin tas de la variancia, será m en este r in tro d u c ir u n
nuevo concepto p a ra explicar cóm o dichas estim aciones se obtie­
nen. Sirvám onos del térm ino variación (d iferen te del de varian­
cia) p a ra d esignar la sum a de las desviaciones cu ad rad as con
resp ecto a la m edia. E n este caso, la variación to tal resp ecto de
N
—
la m edia grande será p a ra todas las m u estras 2 (X i — X )2. Así,
i—1
pues, el térm in o variación designa u n a sum a de cuadrados, p re s­
cindiendo del n ú m ero de casos im plicado. Procedem os ah o ra a
frag m en tar e s ta variación to ta l en dos p arte s com ponentes, cada
u n a de las cuales se u tiliza rá en el cálculo de las dos estim aciones.
R epresentem os n u estro s datos e n fo rm a sim bólica, com o en
el cu ad ro XVI.2. Los datos individuales están re p resen ta d as p o r
Xn>
•■•>Xi j ; las m edias d e las m u estras, p o r X .u X .2l . . . , X .k,
y la m ed ia gran de p o r X ... Los p u n to s se em plean en los sub­
índices p a ra d istin g u ir las m edias d e las colum nas de las m edias
d e las hileras, que se em plearán cuando añadam os u n a segunda
escala nom inal. El sím bolo general X iy re p resen ta la m arc a del
f-ésimo individuo en la colum na j-é sim a. La sum a 2 X n indica
que se h a n sum ado las N 1 m arcas de la p rim e ra colum na, y lo
m ism o en relación con las colum nas re sta n te s.1
A hora practicam os algo de álgebra. Podem os e sc rib ir:
X y - X . . = ( X i i - X . i) + ( X . i - X . . )
o sea
(
d a to
individual
m edia V _ /
g ra n d e /
d ato
m ed ia de \
\ individual
la clase /
( m edia de
la clase
m edia \
g ra n d e /
en lo que hem os re sta d o X.¡ (la m edia de la colum na /-ésim a) de
Xi¡, p a ra volverla a adicionar inm ediatam ente. P or lo tan to , h e­
m os expresado la d iferencia e n tre u n d ato individual sin g u lar y
la m ed ia gran d e com o sum a de dos cantidades, a sa b e r: i ) la
diferencia e n tre su d a to y la m edia d e la categoría a la que p e r­
tenece, y 2 ) la diferencia e n tre la m edia d e la clase y la de la me-
C uadro
XVI.2. R epresentación sim bólica d e los datos para el
análisis de la variancia
Categorías
Total
Ai
A2
*n
*21
*31
*12
*22
*32
A-h
.
*»
* 2*
*3fc
. .
M arcas
*AT11
Sum as
M edias
N? de casos
2 X tl
i= l
2 * i2
i= l
X .x
X.O
2
í= i
. . .
*«,
*•*
Nk
2 2 * i¿
i ¡
X ..
N
i Como quiera que tenemos dos subíndices, i y /, importa distinguir entre
2 y 2 . En el último caso, los valores / se sumarían para cualquier i (fijo),
i
i
y obtendríamos así la suma de los datos de la hilera í-ésima.
d ia grande. E n el ejem plo n um érico a n te rio r podem os expresar
la diferencia e n tre el d ato del p rim e r individuo de la p r im ara
clase y la m ed ia grande como :
4.3 - 6.71 = (4.3 - 8.58) + (8.58 - 6.71)
o sea
— 2.41 = — 4.28 + 1.87
Si elevam os al cu ad rad o am bos m iem bros de la ecuación, ob­
tenem os :
{Xi¡ - Z..)2 =
( X tj -
X.j)2 + 2 { X is - X.¡) {X.¡ - X..) +
(X .,
- X..)2
S um ando am b os lados obtenem os la sum a de las desviaciones
cu ad rad as de todos los individuos. Podem os su m ar p rim ero cada
colum na y a ñ a d ir luego las cifras resu ltan tes de cad a clase. Al
h acerlo así, el térm ino' cen tral se anula. P ara v er p o r qué esto
es así, obsérvese que, al su m ar cu alq u ier colum na p artic u la r, el
v alo r de / £erá constante. P o r lo tanto, p a ra la colum na /-ésim a
el fa c to r (X.¡ — X. . ) será co n stan te y puede to m arse fu e ra de la
su m a to tal. Así, p o r ejem plo, p a ra la sum a de los datos de la co ­
lum na /-ésim a el térm ino cen tral se convierte en
2(X.,-X..) 2 (Xy-X.,)
i
Pero, com o
p ecto de la
d iatam ente
y cada u n a
2 2
* i
q u iera que p a ra cada colum na las desviaciones res­
m ed ia de la colum na h an de ser cero, vem os inm e­
q ue el térm ino cen tral h a de desaparecer p a ra todas
de las colum nas. O btenem os, p u e s :
( Xi ,- X ..)2 = 2
2
( X y - X . , ) 8+ 2 2
i i
i i
(X..-X..)* (X V I.l)
Sum a to tal de
sum a de cuadra-
su m a de cu ád ra­
los cuad rados
dos (d e n tro )
dos (e n tre )
Al p ro ced er así, obtenem os u n a doble sum a to tal que escribim os
com o 2 2 , in d icando que hem os sum ado tan to las hileras com o
i
3
las colum nas.
H em os dividido la variación to ta l en dos p artes. La p rim era
es u n a sum a de las desviaciones cu ad rad as de los datos indivi­
duales resp ecto de las m edias de sus clases respectivas. É sta se
designa com o sum a dentro de los cuadrados y se em pleará p ara
o b ten er n u e stra p rim e ra estim ación de la variancia com ún o2.
O bsérvese que e sta sum a de cuadrados se obtiene esencialm ente
en la m ism a fo rm a en que se form ó la estim ación unificada en
la p ru e b a de la diferencia de las m edias. Si escribim os la sum a
in te rio r de cuadrados com o:
2 ( X i l - X . 1y +
2 ( X i 2- X . 2)* + . . . + 2 { X i h- X . ky
i= l
t= l
i= l
vemos que el p rim e r térm in o es exactam ente AT1s12, en donde las
desviaciones se h an tom ado respecto de la m edia de la categoría,
y en fo rm a análoga en relación con los o tro s térm inos. P or lo
ta n t o :
SC in te rio r =
+ N2s2z + . . . + N ksk2
Si dividim os e n tre los grados apropiados de libertad, que resu lta­
rá n se r N — k, obtenem os u n a estim ación unificada, b asad a en
todas las k categorías. La segunda sum a d e cuadrados, o sum a
en tre colum nas, com porta las desviaciones de las m edias de las
categorías resp ecto de la m edia grande, siendo p o r consiguiente
u n a m edida de la variación e n tre las m u estras. La segunda esti­
m ación de la v ariancia se b a sa rá en e s ta sum a de cuadrados en­
tre colum nas.
Las sum as d en tro y e n tre cuadrados se designan a m enudo
com o variaciones explicadas e inexplicadas respectivam ente. Re­
su lta tal vez m ás fácil v er p o r qué la variación in terio r se designe
com o inexplicada, y a que se refiere a la variación que no se tiene
en cu enta en la variable de la categoría. Si d en tro de la categoría
A hay todavía alguna o tra variabilidad resp ecto de la m edia de
la categoría, esta v ariabilidad no p u ed e ciertam en te explicarse
p o r la categoría. P or o tra parte, si las m edias de las categorías
d ifieren co n siderablem ente e n tre sí, u n a fracción relativam ente
g ran d e de la variación to tal puede a trib u irse a diferencias en tre
varias categorías. Así, pues, es la m ag n itu d de la variabilidad
d en tro de las categorías, com parada con las diferencias en tre
ellas, la que d eterm in a h a sta qué grado las dos variables están
asociadas. C ategorías hom ogéneas que difieran considerable­
m en te e n tre sí explican u n alto grado de variación.2 E n el caso
extrem o, si tuviéram os categorías p erfectam ente hom ogéneas, la
su m a d en tro de los cuadros sería cero, y to d a la variabilidad po­
d ría atrib u irse a la variable de la categoría. Así, p o r ejem plo, si
todas las ciudades in d u striales tuvieran exactam ente la m ism a
2 Lo que sin embargo no implica causalidad, por supuesto. La palabra
"explicado”, tal como se la emplea en la bibliografía estadística, se traduce
mejor como: "asociado con”, no debiendo en forma alguna interpretarse
en el sentido de suponer necesariamente que se haya localizado una varia­
ble explicativa en el sentido causal o teórico.
ta sa de crim in alidad y d ifirieran de la de los centros com erciales,
de tasas tam b ién to talm e n te hom ogéneas, etcétera, entonces po­
d ría decirse que el tip o de ciudad explicaba to d a la variación en
m a teria de tasas de crim inalidad. O sea que, sabiendo d e cuál
tip o de ciudad se tra ta , estaríam o s en condiciones de an ticip ar
dicha ta s a exactam ente.
Con o b jeto de o b ten er apreciaciones de estas dos sum as d istin ­
tas de cuad rad o s, b a sta dividir e n tre los grados apropiados de li­
b ertad . A hora bien, los grados d e lib e rta d asociados a la sum a
to tal de los cu ad rad o s es N — 1, ya que, según vim os, o 2 es la es­
tim ación insesg ada de o2, habiéndose perdido' u n grad o de liber­
ta d debido al cálculo de la m edia general X ... Veam os ah o ra la
su m a de los cu adrados e n tre colum nas. E sta ca n tid ad re p resen ta
la sum a de las desviaciones cu ad rad as de las m edias de la m ues­
tr a k resp ecto de la m edia general. E n efecto, la m edia de cada
categoría se tra ta com o caso p artic u la r. P or lo tan to , están im ­
plicados k — 1 grados de lib ertad , y a que u n grado se h a perdido,
debido al h echo que el prom edio p onderado d e X,¡ h a de ser X ...
E n el caso de la apreciación de la clase in terio r, se p erd erá un
grad o de lib e rta d en cada colum na a causa del cálculo de la X.¡.
P o r lo tan to , en conjunto' h a b rá N — k grados de lib e rta d asocia­
dos a la ap reciación in terio r. O bsérvese que los grados de lib er­
ta d se sum an, lo m ism o que las sum as d e cuadrados. Así, p u es:
N -l = (N-k) + (k-í)
dif. to ta l = dif. d e n tro + dif. e n tre colum nas
E n esta form a, n u e stra s dos estim aciones de la v arian cia com ún
se convierten e n :
i j
estim ación d en tro = --------------------------- (X V I.2)
N —k
S 2 ( I r
i i
L )s
estim ación e n tre colum nas = --------------------------- (X V I.3)
k - 1
Llegados a este punto, es posible que se le haya o cu rrid o al lec­
to r que, si incluim os la estim ación usu al b asad a en la sum a to­
tal de los cuad rados, tenem os en re alid ad tres estim aciones d istin ­
tas de la varian cia total. ¿P or qué, pues, no co m p arar aquélla con
cu alquiera de las o tra s dos, ya q u e dicha estim ación to ta l bien
p o d ría c o n stitu ir u n a estim ación m e jo r que cu alq u iera d e éstas?
Se reco rd ará, sin em bargo, que la p ru eb a F req u iere q u e las es-
tim aciones com paradas sean independientes unas de otras. Y la
estim ación b asad a en la sum a to tal de los cuadrados no es inde­
pen d ien te de las o tras, siendo ésta la razón de que no se la pueda
u tilizar en la p ru e b a de la F. P or lo regular, las sum as de cu ad ra­
dos d en tro y e n tre colum nas no son independientes u n a de otra.
Pero ocu rre que la d istribución norm al posee la propiedad de que
dichas cantidades sean independientes, a p esa r de que las m ism as
X. j figuren en am bas expresiones. É sta es la razón en cuya v irtu d
hem os de su p o n er que todas las poblaciones son norm ales. Se
re co rd a rá que tam b ién en el caso de la distribución t se req u ería
norm alidad, debido a la necesidad de que el n u m erad o r fu era
independiente del denom inador. Como lo verem os en seguida, la
distrib u ció n t es u n caso p a rtic u la r de la distribución F.
Problem a. Sirvám onos de los datos hipotéticos anteriores, que
re p resen ta n tasas de crim inalidad p a ra tres tipos de ciudades.
Nos in tere sa sab er si existen diferencias significativas e n tre las
m edidas de los tres tipos de ciudades en cuestión.
1. Supuestos.
N ivel de m e d ic ió n : Tasas d e crim inalidad, escala de interva­
lo. Tipo de ciudad com o escala nom inal.
M odelo: M uestreo independiente aleatorio.
Poblaciones norm ales p a ra cada tipo de ciudad.
Las variancias de las poblaciones son iguales.
(a i2 = a32 = . . . = ofc2 = a2)
H ip ó tesis: Las m edias de las poblaciones son iguales.
(fi.l = (1.2 = . . . = [X.fc)
Lo m ism o que en el caso de la p ru e b a de la diferencia de las
m edias, h ay que su poner que las m u estras se h an seleccionado
ind ep en d ien tem en te u n a d e otra. E n o tro s té rm in o s: las ciuda­
des no1 están asociadas en form a alguna. Como q u iera que se
supone que las poblaciones de los tre s tipos de ciudades son n o r­
m ales, con m edias y variancias iguales, estam os suponiendo en
realid ad que son idénticas. P or lo tan to , las tres m u estras pue­
den considerarse com o si se hub ieran tom ado al azar de u n a
m ism a población. P or lo regular, el investigador está in teresado
en el supuesto de m edias iguales. E n el p resen te ejem plo, an ti­
cip ará p ro b ab lem en te diferencias en las tasas de crim inalidad de
los tre s tipos de ciudades, y establecerá la hipótesis nula de que
no existe e n tre ellos d iferencia alguna. Conviene observar que no
se req u ieren m u estras grandes, debido al supuesto de norm alidad.
Sin em bargo, es obvio* que si en cada categoría sólo h u b iera un
caso, no h ab ría v ariabilidad en el in te rio r de las categorías, con
lo que la p ru e b a n o sería posible.
La p ru eb a de la F en sí m ism a n o verifica el supuesto de va-
riancias iguales u hom oscedasticidad (com o se designa el supues­
to en len guaje técnico). E n situaciones e n las que las variancias
de las m u estras parecen d iferir m u ch o e n tre sí, pu ed e p ra cticarse
u n a p ru e b a in d ependiente p a ra la igualdad de las variancias (véa­
se [1], pp. 141 a 144). Si los re su ltad o s de u n a p ru e b a de esta
clase in d ican q u e h ay desviaciones m ás b ien extrem as de la h o ­
m ogeneidad de la variancia, entonces no debería em plearse el
análisis de ésta. Sin em bargo, pu ed en con to d o to le ra rse desvia­
ciones m o d erad as de la hom ogeneidad. S em ejantes desviaciones
pueden re d u cirse a m enudo considerablem ente m ed ian te tra n s­
form ación de las v ariables.3 Si u n a categoría p a rtic u la r es o m u­
cho m ás o m u ch o m enos hom ogénea que las o tras, pu ed e re su l­
ta r indicado d esc a rta rla del análisis de la variancia. E n térm inos
generales, las desviaciones m o d erad as resp ecto d e la norm alidad
y de la ig u ald ad de las variancias p u ed en to le ra rse sin necesidad
de re c u rrir al u so de las altern ativ as n o p aram étrica s (véase [ 1 ],
pp. 220 a 223).
2. N ivel de significación y región crítica. Sirvám onos de u n ni­
vel de .05. Si la hipótesis n u la es en realid ad in co rrecta, en to n ­
ces, si tom am os siem pre la razón d e la estim ación d en tro a la
e n tre colum nas, podem os e sp e ra r e n c o n tra r que el v alor de F sea
m ayor que la unidad. P or lo tanto-, nos servirem os d e la cola m a­
yo r de la d istrib u ció n F com o región crítica. Si re su lta q u e F es
m en o r q ue la u n id ad , n o te n d rá o b jeto alguno b u sc a r en la tab la
el v alor de la p rob ab ilid ad , ya que, p a ra d e sc a rta r la hipótesis
nula, se n ec esitarán valores de F su periores a la unidad. U na F
m en o r que la u n id ad in d icaría u n grado m ayor de heterogeneidad
d en tro de las categorías de lo q u e se esp eraría al azar. El lector
h a de re c o rd a r u n a vez m ás que, aunque sólo nos sirvam os de una
sola cola de la d istrib u ció n F, e sto n o significa en m odo alguno
que anticipem os cuál de las m edias de las categorías será m ayor.
3. D istribución de m uestreo. La distribución de m u estreo de F
está d ad a en el c u a d ro J del A péndice 2. El em pleo de este cua­
d ro se describ e m ás abajo.
4. Cálculo de la estadística de la prueba. Con o b je to de obte­
n e r u n v alor de F, razón de las estim aciones e n tre y d e n tro de
colum nas, se rá necesario calcu lar p rim ero los totales e n tre y
d en tro de cu ad rados. Como q u iera que la variación to tal es
igual a la su m a d e las o tra s dos, sólo necesitarem os calcular dos
de los valores en cuestión, y a q u e el terc ero se o b te n d rá p o r
sum a o d iferen cia de éstos. S e re c o rd a rá que la su m a d en tro de
los cu ad rad o s co m p o rta u n a operación de unificación. E sto re p re­
3 Ocurre, por ejemplo, a veces que las categorías que tienen las medias
más grandes son también las menos homogéneas. En tales casos, si se toma
como escala de intervalo el logaritmo de la variable original, el efecto será
el de igualar las variancias. Para un examen más detallado del empleo de
la transformación logarítmica, véase la sec. XVIII2.
sen ta considerablem ente m ás tra b a jo q u e el que se req u iere p a ra
las o tra s dos sum as de cuadrados y, p o r lo tan to , obtenem os la
su m a d en tro de éstos restan d o la sum a e n tre colum nas de la sum a
to ta l de los m ism os.
La fó rm u la de cálculo p a ra la su m a to ta l de los cuadrados se
ob tiene en la m ism a fo rm a que la de la variancia [véase la ecua­
ción (V I .6)]. Así p u e s:
S um a to ta l de los cuadrados = 2 2 ( X tj — X ..)2 =
i j
(2 2 1 ^
= 2 2 X íj2 ------— -------i i
3
N
(X V I.4)
É sta es la m ism a fó rm u la que em pleam os al calcu lar las des­
viaciones e stán d a r, sólo que ah o ra es necesario servirse de u n
doble signo de su m a to tal.
La fó rm u la de cálculo de las variaciones en tre colum nas se
p re se n ta a p rim era vista com o form idable, pero, si se m ira m ás
de cerca, en cu én trase que co m porta u n procedim iento relativ a­
m en te sencillo. E s com o sig u e :
( 2 X ¡y)2
( 2 S I «)2
i
i }
S um a de cuad rad os e n tre colum nas = 2 ------ ----------------------------i
Nj
N
(X V I.5)
~
■(2x«)2
( in i2)2
i
(si x jn
(ssii,)2
-i j
----- ------ - -|----------------1- . . . ~\---- 1------l— -----------------. N¿
N2
Nk
N
O bsérvese que el segundo térm in o de la expresión a n te rio r es el
m ism o fa c to r que se su stra jo de 2 2 I ¡ / p a ra o b ten er la sum a
í i
to ta l de cuadrados. El p rim e r térm ino, en cam bio, es suscepti­
ble de d eso rie n ta r al lector. A nalizando e sta expresión, vem os
que calculam os p rim e ro la sum a de cada colum na y luego la ele­
vam os al cu ad rad o p a ra o b ten er ( 2 X Í3)2. Dividimos luego dicha
i
expresión e n tre el núm ero de casos de la colum na, que no necesi­
ta ser siem pre el mismo-. Tenem os así p a ra la colum na j-ésim a:
( 2 Xi j Y/ Nj . F inalm ente, hacem os lo m ism o con cada colum na
i
y sum am os los resultados.
Los cálculos del p ro b lem a n um érico q u e se dan a continuación
ay u d arán a a c la ra r el procedim iento. Las sum as to tal y e n tre
colum na d e cu ad rados se calculan com o sigue:
2 2 X ij1 = (4.3 )2 + (2.8)2 + . . . + (1.9)2 = 1 453.58
%j
(2
4 #
(lól.O)2
N
24
= 1 080.042
SC totales = 1 453.58 - 1 080.042 = 373.538
(68.6)2
(44.8)2
(47.6)2
SC en tre colum nas = ------------ 1----------------------------------------------- 1----------- 1 0
8
8
8
= 1 122.345 - 1 080.042 = 42.303
P ara o b ten er la sum a de cuadrados d en tro sustraem os sim ple­
m ente la segunda expresión de la p rim e ra obteniendo:
SC d en tro = SC totales — SC e n tre colum nas
o
331.235=
373.538
-
42.303
Las apreciaciones de la variancia com ún pueden calcularse aho­
ra dividiendo e n tre los grados apropiados de libertad. Finalm ente,
la F se calcula dividiendo la estim ación e n tre colum nas e n tre la
estim ación in terio r. Estos cálculos se resum en en el cuadro XVI.3.
Cuadro
XVI.3. Cálculos para el análisis de la variancia
Total
Entre columnas
Dentro de columnas
Sumas de
cuadrados
Grados de
libertad
Estimación de
la variancia
373.538
42 303
331.235
N - 1 = 23
k ~ 1= 2
M — k — 21
21.152
15.773
p
. ,.
5.
Decisión. P ara decidir si descartam os o n o la hipótesis nula,
hem os de averiguar si el valor de F queda o n o en la región crí­
tica. Se observ ará que se dan tres cuadro s distintos de F, que
co rresponden a los niveles de significación del .05, .01 y .001 res­
pectivam ente. E sta inform ación no puede condensarse en u n solo
cuadro, p o rque hay que asociar con cada F dos grados de libertad,
uno p a ra el n u m era d o r y o tro p a ra el denom inador. Los grados
de lib ertad asociados al num erador, O1 sea la estim ación entre
colum nas, se en cu en tran buscando horizontalm ente a rrib a del
cuadro, en ta n to que los del denom inador, o estim ación dentro,
se obtienen leyendo el cuadro de a rrib a abajo. O bsérvese que
todos los valores de F dados en el cuadro son > 1.0, lo que indica
que el cu ad ro se h a establecido directam en te p a ra p ru e b as de
u n a cola. E n otro s té rm in o s : el n u m e ra d o r es siem pre la m ayor
de las dos estim aciones. E n n u estro p ro b lem a obtuvim os u n a F
con 2 y 21 grados d e lib e rta d (se escribe ^ 2,21) igual a 1.34. S ir­
viéndonos del cu ad ro del nivel de significación del .05, y bu scan ­
do los grados ap ropiados de lib ertad , encontram os la cifra de
3.47. Sabem os, pues, que, si los supuestos fu e ran correctos, ob­
ten d ríam o s u n v alor d e F igual o m ay o r que éste m enos del 5 p o r
ciento de las veces. Com o q uiera que el v alo r efectivam ente ob­
ten id o p a ra F es m enos que 3.47, no d escartam o s la hipótesis nula
al nivel del .05. D ecidim os que n o se dispone de p ru e b as sufi­
cientes p a ra concluir que los tipos d e ciudades difieren realm ente
u n o resp ecto de o tro en cu an to a las ta sa s de crim inalidad.
X V I.2. C om paración de m edias específicas
Se h a b rá observado que el p ro b lem a a n te rio r p u d o h a b e rse tr a ­
ta d o sirviéndonos de la p ru e b a de la d iferencia de las m edias que
co m p o rta la d istrib u ció n t. P udieron h a b e rse hecho tre s com pa­
raciones distin tas, p o r pares, en tre las ciudades in d u striales y co­
m erciales, in d u striales y políticas, y com erciales y políticas. E n
c o n tra ste con esto, el análisis de la variancia b rin d a u n a prueba
sola acerca de si los tre s tipos de ciudades difieren o n o signifi­
cativam ente en tre sí o, en otros térm inos, si todos ellos pu d iero n
p ro ced er de la m ism a población. La v en taja del análisis de la
v arian cia está en que p u ed e em plearse u n a p ru e b a sola en lugar
de m uchas. Si h u b iera hab id o cu a tro categorías, se h a b ría n re ­
querido' 4 (3 )/2 , o sean 6 pru eb as de diferencia de las m edias.
Con 6 categorías se n ecesitarían 15 pru eb as, y con 10 categorías 45.
S upóngase que se n ecesitaban 15 p ru e b as y que solam ente 4 de
ellas re su ltab a n significativas, ¿qué concluiríam os? S ería difícil
decirlo.
H ay u n a salida fácil q u e a p rim e ra v ista p arece se r u n p ro ­
cedim iento razonable. ¿P o r qué n o e fectu ar sim plem ente una
p ru e b a de diferencia de m edias con las dos categorías q u e p re ­
sen tan resp ectivam ente las m edias m ay o r y m enor? P orque si és­
tas son significativam ente distintas, podem os concluir q u e las
categorías difieren efectivam ente e n tre sí. H em os de re c o rd a r,
sin em bargo, que (suponiendo m u estras del m ism o ta m a ñ o ) en
esta fo rm a seleccionaríam os la p ru e b a ú n ica que p re s e n ta ra
m ayores pro b ab ilidades de d ar significado, prescindiendo de las
dem ás. Como q u iera que podem os e s p e ra r que al nivel del .05
u n a p ru e b a so b re veinte dé significado incluso si todas las m e­
didas de las poblaciones son iguales, es evidente que ca rg aría­
m os así los dados en favor del rechazo. E n otros té rm in o s : el
nivel de significación realm en te em pleado no sería del .05, sino
tal vez el del .5 o .7, ya que estam os obteniendo la p ro babilidad
de conseguir p o r lo m enos un éxito (significación al nivel del .05)
en u n gran n ú m ero de pruebas.
Sin em bargo, no debe deducirse de ello que el análisis de la variancia sea siem pre preferible a u n a serie de pruebas de diferencia
de m edias. E stas últim as, en efecto, si se em plean cautam ente,
pueden su m in istra r considerable inform ación. Así, p o r ejem plo, el
análisis de la variancia puede conducir a resultados significativos
sobre todo debido al hecho de que u n a de las categorías se aleje
m ucho de las restantes. De m odo que si dicha categoría se h u ­
b iera excluido, la conclusión pudo h ab e r sido to talm e n te distinta.
E n cambio, u n a serie de pru eb as de diferencia de m edias podría
in d icar el hecho en cuestión con m ayor claridad. Si antes de
em pezar la p ru e b a se sospecha, en p artic u la r, que u n a o varias
categorías p o d rán acaso diferir m ucho de las o tras, entonces
cierto n úm ero de pruebas de diferencia de m edias de u n a sola
cola p o d rá re su lta r m ás adecuado. Es posible tam bién, en oca­
siones, a n ticip ar el orden en que quedarán las m edias de las
categorías. Supóngase, p o r ejem plo, que se h u b iera predicho
que las tasas de crim inalidad serían las m ayores en las ciudades
in d u striales y m ínim as en las políticas. E n tal caso pud ieran h a­
berse utilizado dos pru eb as de diferencia de las m edias de una
sola cola, o s e a : u n a de ellas anticipando u n a diferencia en tre las
ciudades in d u striales y las com erciales, y o tra anticipando u n a di­
ferencia e n tre estas últim as y los centros gubernam entales. En
térm inos generales, parece ser que cu an to m ayor conocim iento
tengam os p a ra p red ecir las m agnitudes relativas de las diferen­
cias y sus direcciones, o éstas, tan to m ás pro b ab le re su lta que
las p ru eb as d istin tas de la diferencia de las m edias sean adecua­
das. El análisis de la variancia, en cam bio, parece ser m ás ú til
al nivel de exploración.
F inalm ente, p u ed e observarse la relación e n tre las distribucio­
nes t y F. Si sólo h u b iera hab id o dos tipos de ciudades, podría
tam bién h ab erse hecho u n a p ru e b a de análisis de variancia, com ­
p aran d o luego los resultados con los de u n a p ru e b a t de dife­
rencia de las m edias. En este caso, los grados de lib ertad aso­
ciados al n u m era d o r de F h ab ría n sido 2 — 1, o sea 1. E n tan to
q ue los grados de lib e rta d del denom inador h ab ría n sido N — 2,
los m ism os que p a ra t en la p ru e b a de la diferencia de las m e­
dias. Hay que reco rd ar, tam bién, que cuando suponem os Ox = o2,
los denom inadores tan to de t com o de F com portan estim acio­
nes unificadas de la variancia. R esulta que la distribución t
puede co n siderarse como caso p a rtic u la r de la distrib u ció n F.
S i calculáram os los valores de iz con N — 2 grados d e libertad,
en contraríam os que son exactam ente los m ism os que los de una
F de 1 y N — 2 grados de libertad, com o puede com probarse com ­
p aran d o los cuadros F y t. E n o tro s térm inos, t es la raíz cua­
d rad a de u n a F que tenga u n grad o de lib ertad asociado a su
n u m erad o r. E sto significa, p o r supuesto, que se llegará exacta­
m en te a las m ism as conclusiones en el caso de dos m uestras,
in d ependientem ente de si nos servim os de la p ru e b a de análisis
de variancia o de la de diferencia de las m edias. E n este sen­
tido, el análisis de la variancia es en realid ad u n a extensión de
la p ru eb a de la diferencia de las m edias.
* Com paraciones ortogonales. E n m u ch as ocasiones en q u e son
com paradas m ás de dos categorías re su lta conveniente h ac er u n
cierto nú m ero d e com paraciones específicas previam ente p la­
n eadas, b asadas en u n in terés teórico, y o rien tad as a com probar
los procedim ientos de pru eb a. Supongam os p o r ejem plo que en
u n experim ento aparecen cinco grupos, uno de los cuales es de
co n tro l, en tan to los re sta n te s e stán su jeto s a diferentes tipos
de m anipulación experim ental. Puede o c u rrir que los grupos se­
gundo y tercero cuenten con dirigentes au to ritario s que se h an
visto som etidos a grados de fru stració n , m ediano en el del se­
gundo y elevado en el del tercero. T am bién los grupos cu arto
y quinto pueden h ab erse visto sujetos a grados m oderados y ex­
trem o s de fru stració n , p e ro h an desarro llad o experiencias de
dirección dem ocrática. Podem os desear co m p arar el grupo te sti­
go con cada un o de los cu atro grupos experim entales, p ero a la
vez podem os p ro p o n e m o s co m parar los dos grupos au to ritario s
con los dos dem ocráticos, o los dos grupos som etidos a u n a fru s­
tració n m oderada con los otros dos en los que la fru stració n
e ra extrem ada. ¿Son legítim as todas estas com paraciones, en el
sen tid o de que no nos vayan a b rin d a r inform ación re d u n d an te?
Dicho de o tra m a n e ra : si conocem os el re su ltad o de u n a com ­
p aración, ¿no p o d rá o c u rrir que tal re su ltad o haya de a r ro ja r luz
so b re alguna de las dem ás? N ecesitam os u n sistem a que nos p e r­
m ita d ecid ir si las com paraciones son ortogonales o si son re al­
m en te in d ep en d ientes.4
Podem os h ac er uso de nuevo de la idea de las funciones linea­
les, m ed ian te u n procedim iento que viene a se r u n a am pliación
d irecta de la p ru e b a de la diferencia de m edias. Si deseam os
c o m p arar el g ru p o de co n tro l (grupo I) , con los grupos experi­
m entales, se nos o c u rriría n atu ra lm e n te re s ta r la m edia de las
m edias de los cu a tro grupos experim entales, de la m edia del gru­
p o de control. De m an era análoga, si deseam os co m p arar los
grupos au to ritario s con los dem ocráticos, restaríam o s n a tu ra l­
m en te la m edia de los grupos IV y V (dem ocráticos) d e la de
los grupos II y III. Si dam os la m ism a ponderación a todos los
4 La idea de ortogonalidad se deriva de una interpretación geométrica
de las asociaciones estadísticas, y se refiere a aquellas situaciones en las
que la relación puede ser representada mediante ejes perpendiculares u or­
togonales. De interés para nosotros es que si también suponemos homos­
cedasticidad y normalidad en la distribución de la variable dependiente,
puede demostrarse que la ortogonalidad implica la independencia esta­
dística.
g rupos (con independencia del tam añ o relativo de las m u estras),
ello su p o n d ría c o m p arar las m edias de las dos m edias, o ( ’A )
( X 2 + X s ) — ( 1A ) ( X i + X 5), siendo la hipótesis n u la la de que
( Vi )(|x2 + (i3) ~ ( Vt )(^4 + M-e) = 0D efinam os de m odo m ás general u n a función de tyj p a ra la iésim a com paración que deseam os hacer, com o sigue:
k
. “i-
1k]líc —
2
3=1
Cij\Xj
En donde c is son ponderaciones m uy sim ples, dependientes de
la com paración q u e se lleva a cabo. Si im ponem os la restricción
de que la su m a de las ponderaciones debe s e r igual a cero, es
decir, 2 ci3- = 0, se sim plificará gran d em en te el análisis sin resi
trin g ir de nin g u na m an era las com paraciones a realizar. Así, si
n u e stra p rim e ra com paración se refiere al grupo de control con­
tr a la m edia de los cu a tro grupos re stan tes, podem os to m ar
cu = 1, con los re sta n te s c1} iguales todos a - 54. Si u n a p a rtic u ­
la r com paración d eja sim plem ente fu e ra u n a de las categorías
(p o r ejem plo el g ru p o de co n tro l), h arem o s que el cis p a ra aque­
lla categoría sea igual a cero. De esta m an era tendrem os, en el
caso de las tres com paraciones que estam os considerando:
: control contra los demás
(I vs. II, III, IV y V)
’1>2: autoritarios contra democráticos
(II y III vs. IV y V)
: frustración moderada contra
extrema
(II y IV vs. III y V)
I
II
III
IV
V
1
-V i
-V i
-V i
-V i
0
Va
V2
-y 2
-'/2
0
V2
-y 2
V2
—lh
Si las v arian cias de población o,2 son aproxim adam ente igua­
les, las poblaciones aproxim adam ente norm ales, y todas las
m u estras del m ism o tam año, las com paraciones separadas serán
m u tu am en te independientes (como- asim ism o ortogonales), siem ­
p re que se p roduzca la siguiente relación é n tre los co eficien tes:
k
2 c np i} = 0
i^ i
p a ra to d as las h ^ i
E n p a rtic u la r com enzarem os p o r exam inar el p rim e r p a r de
com paraciones (h ~ 1, i = 2). E n n u e stro caso ten d rem o s:
C11C21 + C12C22 + C13C23 + c14c24 + C15C25
= 1(0) + ( - 'A ) ( ¡A ) + (~>/4) ( a ) + (-V 4 ) ( - V z ) + ( - J4 ) ( - V 2 ) = o
viendo q ue la condición se aplica. Pasam os a continuación a las
com paraciones p rim e ra y te rc e ra y finalm ente a las segunda y
tercera, observando de nuevo que la sum a req u erid a de los p ro ­
ductos es igual a cero. Así:
1(0) + ( - # ) ( # ) + i - ' A X - ' A ) + ( - J 4 ) ( V í ) + ( —V4)(—Vi) = 0
Y
0(0) + ( 1/ 2) ( >/2) + ( ‘/2 ) ( - ‘/2 ) + { - V i ) ( ) + (-'/2 ) ( - '/ 2) = 0
Podem os d em o strar en general que si h ay k categorías, resul­
ta rá n cuando m ás k — 1 com paraciones m u tu am en te ortogona­
les. Asimismo, si los tam añ o s de las m u estras son distintos, re ­
su lta rá n ecesario p o n d erar con los tam añ o s N¡ de la categoría
de m u estra, siendo el m e jo r criterio p á ra lo g rar la o rto g o n alid ad :
S ^ í-i N,
= 0
E n n u e stro ejem plo hem os utilizado solam ente tre s com para­
ciones m u tu am en te ortogonales, en ta n to que k — 1 , o cuatro,
son posibles. E n la m ayoría de los casos no te n d rá p o r su puesto
sentido teó rico el u tiliza r todas las com paraciones ortogonales
p o sibles; sin em bargo, es instru ctiv o d eterm in a r cuál sería la
cu a rta. O bsérvese que ya hem os com parado el grupo de con­
tro l con todos los grupos experim entales, y p o r ello n o es de
e sp e ra r que u n a com paración de dicho grupo de control con
cu alq u iera de los subgrup-os (p o r ejem plo el de los grupos auto­
rita rio s ), re su lte ortogonal con la p rim e ra com paración. Puede
co m p ro b arse esto fácilm ente aplicando el criterio de prueba.
O bsérvese que hem os com parado el grupo II (ju n to al I I I o el
IV ) con el grupo- V (en com binación a su vez con los grupos I I I
y IV). Podríam os así e sp e rar que si los grupos I I y V son p a­
reados c o n tra los I I I y IV, la com paración re su ltan te fuese
o rtogonal con las re sta n te s com paraciones, com o en efecto así
o cu rre. A m enos que de m an era específica se buscase u n a in te r­
acción, tal com paración p a rtic u la r carecería probablem ente de
sen tid o teórico-, ya que re q u eriría p ro m ed ia r las puntuaciones
del g ru p o au to rita rio con fru stracio n es m edias con las del grupo
dem ocrático con elevada frustración.
O bsérvese que al co m p ro b ar la ortogonalidad o independencia
m u tu a e n tre com paraciones no hem os dicho n ad a en relación
con el tam añ o real de la m uestra, excepto en el caso d e las
m u estras tam añ o N¡. E l crite rio de p ru e b a im plica solam ente
las ponderaciones c i} y n o las m edias d e las m u estras o varian­
cias. Las decisiones relacionadas con las com paraciones deben
se r hechas, en efecto, antes de realizar la recogida de datos. Se
puede entonces b u sca r la significación estad ística de cada com ­
paración, com o se indica m ás abajo. E sta p ru e b a incluye la dis­
trib u ció n t de m a n e ra exactam ente análoga a lo que o c u rre con
la p ru e b a de la diferencia de m edias, la que es p o r su puesto la
com paración m ás sim ple posible, en la que clí = l, y c12 = —1 .
El n u m era d o r de t será u n a estim ación de la función lineal %
o b ten id a su stitu y en d o las c o n tra p artes de la población con las
m edias de las m u estras. Así, si hacem os:
% = Ci l Xl + Ci 2 ^ 2 + .. • + cilcX k
tendrem os el n u m era d o r p a ra la ¿-ésima com paración. E n el caso,
p o r ejem plp, d e n u e stra p rim e ra com paración e n tre el grupo de
co n tro l y todos los dem ás, hab ríam o s tenido
% = x t - ( y*)(x2+ x z + x á+ x 5)
ta l y com o el sen tid o com ún lo h a b ría sugerido.
P ara n u e stro denom inador de t deseam os u s a r u n estim ador
resu m id o b asad o e n todas las m u estras, incluso en los casos en
q u e la com paración no ab a rq u e la to talid a d de dichas m u estras.
R ecordando n u e stro resu ltad o p a ra la variancia de u n a com bi­
nación lineal, sabem os que
v ar •$< = c n 2 v a r X x + c i22 v ar X 2 + . . . + cikz v ar X k
Si suponem os n o rm alid ad y variancias iguales a*2 = a2 la expre­
sión se convierte en
a
o2
o2
ri2
s c -,2
varap* = cn 2 — + ci22 — + . . . + cifc2
= o2 2 - g Ni
N2
N jc
i - i Nj
la que, al colocar u n estim ado p o r o2 y obteniendo la raíz cua­
d ra d a positiva, se convierte en el denom inador deseado de t, el
que te n d rá N — k grados d e lib ertad . E sta m ism a expresión
h ab ía sido u sa d a en el denom inador de t en los casos de nues­
tra s com paraciones segunda y terc era , en las que n o fig u ra el
g ru p o d e co n trol. E n el caso de la segunda com paración, p o r
ejem plo, h ab ríam os tenido
o2=
^ í s i2
+
N
+ . ■. +
- 5
N 6 S b2
(d e n tro del grupo estim ad o de variancia)
v
*L
i-1 Nf
, (>/2 ) 2
Nt
(Ü )2
‘ H------ TZ------r ■
+
{ -V i )a , (- y * )*
N.
i
i
i
\
+ ~ Ñ r+ ~ Ñ r+ ~Ñ r)
( V2) ( X2 + X s) - ( Vz ) ( X4 + X s)
y p o r lo ta n to í = --------------------------- ----------------- ;-----o ( J * W l / N 2 + 1/iSTg + 1 / J V 4 + \ / N s
( X 2 + X 8) - ( X 4 + X 5)
oy / l / Nz + l / N ñ + í / N 4 + 1/ÑB
lo que es u n a extensión evidente de la p ru e b a de la diferencia
d e m edias. O bsérvese que el facto r (Vi ) se cancela en el num e­
ra d o r y en el denom inador, lo que re fle ja el hecho de que las
m agnitudes ab so lutas de c(j n o im portan, en ta n to que 2 c i} = 0.
a
i
D ebe re calcarse que el estim ad o r resu m id o o será precisam ente
el b asa d o en la sum a in te rio r de los cuadrados (ta l com o se
calcula en la p ru e b a F ) y en él estarán incluidas todas las ca te­
gorías, en ta n to que el n u m era d o r de t y la expresión b a jo el ra ­
dical en el den o m inador no ab a rca rán todas las categorías.
XVI.3. Análisis bim odal d e la variancia
E n d eterm in ad as circunstancias re su lta posible ex tender el an á­
lisis de la varian cia añadiendo o tras variables de escala nom inal.
S em ejan te p ro ced im iento es posible an te to d o en experim entos
controlados, en los que el investigador p u ed e asignar individuos
a varios grupos al azar, controlando así el n ú m ero de casos de
cad a categoría. E n las situaciones n atu rales, sin em bargo, en
las que n o pu ed e efectu arse sem ejante tip o de control, la exten­
sión que se describe en la p resen te sección será m enos útil.
Algunas de las ideas básicas contenidas en lo que se h a denom i­
nad o análisis de v arian cia en dos form as ay u d arán a com prender
algo del m aterial q u e se p re se n ta en los capítulos xix y xx.
Si es posible in tro d u c ir o tra variable de escala nom inal de tal
m o d o q u e to d as las com binaciones de subcategorías de las dos
escalas n o m inales tengan el m ism o n ú m ero de casos, la exten­
sión del análisis de la v arian cia es m uy sencilla.5 Supóngase que
s Si colocamos el mismo número de casos en cada categoría, y si cons­
truimos un cuadra de contingencia que relacione a las dos escalas nomina­
les, entonces podremos ver que no hay relación entre ellos en la muestra.
Esta falta de relación entre las variables de escala nominal es lo que nos
permite separar las sumas de cuadrados de hileras y columnas sin ambi­
güedad.
las categorías de la segunda escala nom inal estén rep resen tad as
p o r hileras. O btenem os ah o ra cierto nú m ero de subcasillas, con
el m ism o n ú m ero de casos cada una. Con objeto de cum plir di­
cha condición, hem os de lim itam o s, p o r supuesto, a p o n er en
colum na categorías de la m ism a m agnitud. A los datos num é­
ricos del cuadro X V I.1 añadim os la escala nom inal "región”, em ­
p leando sólo las dos regiones N ordeste y Sudeste. Supongam os
que hay el m ism o n ú m ero de ciudades en cada casilla de las seis
en to tal. Si ello n o fu e ra así, h a b ría que re c u rrir a u n m étodo
aproxim ado (véase infra). Los datos num éricos se dan ahora
en el cu ad ro X V I.4, con las sum as y las m edias de las subcategorías in d icad as en cada casilla.
C uadro
XVI.4. Datos para el análisis de variancia en dos form as
Tipo de ciudad
Regiones
Total
N o rd e s te
Industrial
Comercial
Gubernamental
4 .3
5 .9
2.8
7.7
2 X = 20.7
5.1
3 .6
1.8
3.3
2 X = 13.8
3.1
3.8
1.6
1.9
2 X = 10.4
X
S u d e s te
= 5.18
X
= 3.45
12.3
9.1
16.3
10.2
2 X = 4 7 .9
6 .2
4.1
9 .5
11.2
2 X = 3 1 .0
X=
X = 11.98
T o ta l
X =
6.2
X
Xy
= 4 4 .9
)
X x. =
2 .6 0
3.74
11.4
7.1
12.5
2 X = 3 7 .2
7.75
2
2
= 116.1
i
= 9.30
X 2. = 9.68
2 * « = 6 8 .6
2 X i2 = 44.8
2 X i3 = 47.6
2 2 X y = 161.0
i
i
i
i i
X .x =
8.58
X 2 = 5 .6 0
X ,g =
5.95
X.. =
6.71
Si hay el m ism o n ú m ero de casos en cada subcasilla, resu lta
posible frag m en tar las sum as d e cuadrados del in te rio r de las
colum nas, o inexplicadas, en diversos com ponentes. Podem os,
p o r supuesto, efectu ar u n análisis de variancia a través de las
hileras, prescindiendo de las colum nas p o r com pleto. Las sum as
de cuad rad o s al in te rio r de las hileras y e n tre las m ism as se
o b ten d rían en ta l caso exactam ente en la m ism a fo rm a en que
se calcularon an terio rm en te las cifras al in te rio r de las colum nas
y en tre ellas. D esde el punto- de vista m atem ático, re su lta que
si hay el m ism o núm ero de casos en cada subcasilla la sum a
de cuadrados e n tre las hileras p u ed e considerarse com o proce­
d en te p o r com pleto de la sum a de cuadrados d en tro o inexpli-
cada (p o r las colum nas) de las colum nas. Así, pues, la variación
to tal puede dividirse ah o ra en tre s porciones, com o sigue:
SC totales = SC den tro de las colum nas + SC entre-hileras +
+ SC inexplicadas
( XVI .6)
H em os tom ado la variación total, explicando todo lo que po­
díam os p o r m edio de la p rim e ra escala nom inal (tip o de ciudad).
De lo q ue perm an ece inexplicado (la sum a de cuadrados d en tro
de la colum na), cierta porció n puede explicarse m ediante la se­
gunda escala nom inal (reg ió n ). E n cu an to al rem anente, llam ado
a m enudo térm in o de erro r, constituye la p roporción de la v aria­
ción to tal d ejad a sin explicar p o r am bas variables. Tenem os
ah o ra tres apreciaciones de la variancia com ún, en adición a la
estim ación b asa d a en la sum a to tal de los cuadrados, y éstas p u e­
den em p learse p a ra efectu ar dos pru eb as F distintas. E l térm in o
de e rro r p u ed e em plearse en los denom inadores de am bas p ru e ­
bas F, ya que la estim ación b asad a en la sum a de cuadrados
inexplicada será siem p re insesgada e independiente de las o tra s
dos. Los n u m erad ores de las F serán las estim aciones basad as en
las sum as d e cu adrados e n tre colum nas y e n tre hileras. Cada
p ru eb a será u n a p ru e b a de la existencia de u n a relación e n tre la
variable de escala de in terv alo y u n a de las variables d e escala
nom inal, con tro lando la o tra escala nom inal.
Si bien este tip o d e operación de control se exam inará con
m ay o r d etalle en el cap ítu lo xix, es m en este r decir aquí unas p a ­
lab ras al p ropósito, ya que el control sirviéndose de u n análisis
de v arian cia d e dos form as com porta u n principio algo diferente
del q ue se exam inó en conexión con los problem as de contin­
gencia. E l lecto r observará, en efecto, q u e h a sta aquí n u estro
pro ced im ien to de control h a consistido literalm en te en m an te­
n er co n stan te la v ariable de control y exam inar lo que acontece
en el in te rio r de cada categoría de la variable de control. Así,
p o r ejemplo-, hicim os u n a serie de p ru e b as de la /-cu ad rad a, u n a
p a ra cad a u n a de dichas categorías. Aquí, en cam bio, hacem os
una sola p ru e b a F en vez de varias, com o se hizo en el caso de
la p ru e b a de la chi al cu ad rad o resum ida. E n efecto, tom am os
su p resen cia en consideración ajustando valores de la escala de
intervalo, de acu erd o con la categoría de la variable de control.
El le c to r o b servará en el cu ad ro XVI.4, p o r ejem plo, que la
tasa m edia de crim inalidad es de 3.74 p a ra todas las ciudades
del N ordeste, en ta n to que la de las ciudades del S udeste es de
9.68. Supóngase q ue fuéram os a p re te n d e r q u e todas las ciudades
estuvieran en la m ism a región, y realizando u n a ju ste estad ís­
tico de los niveles de crim inalidad agregando a todas las ciuda­
des del N o rd este u n a ca n tid ad fija (e sto es, 2.97) y sustrayendo
la m ism a can tid ad de las ciudades del S udeste, de m odo que
am bas categorías tuvieran la m ism a m edia (o sea la m edia ge­
n eral de 6.71). S em ejante operación de control equivale a plan­
te a r la cuestión hipotética de cuáles serían las tasas de crim ina­
lid ad si to d as ellas estuvieran expuestas a las m ism as influencias
regionales. E n lu g ar de tr a ta r realm en te las regiones separada­
m ente, nos servim os del expediente auxiliar consistente en aju s­
ta r las m arcas d e la ta sa de crim inalidad, to m ando con ello en
consideración la variable de control en cuestión. Lo que p erd e­
m os en rig o r científico lo ganam os en eficiencia del esquem a, ya
que podem os servim os así d e u n a sola p ru e b a que com porta
el n ú m ero to ta l d e los casos.
Al a ju s ta r las tasas de crim inalidad en esta form a, reducim os
en realid ad la variación to tal de las m arcas. E n efecto, su strae­
m os la p o rció n de la variación deb id a a la región. Tom ando las
m arcas ajustadas, podríam os c o m p arar a continuación las esti­
m aciones e n tre las colum nas y d en tro de las m ism as, en la form a
habitual. A fortunadam ente, 110 es necesario, en realidad, obtener
las m arcas a ju sta d a s. Si lo hiciéram os, en efecto, en co n traría­
m os que los re su ltad o s serían idénticos a aquellos hallados sir­
viéndonos del análisis de variancia de dos form as. E n otros té r­
m inos : el tip o de análisis que vam os a d escrib ir equivale a la
operación de a ju s te que acabam os de exam inar. E n efecto, lo
que hacem os es, p rim ero, d e ja r que la variable de control actúe
sobre la v ariab le dependiente, sacando la porción de la variación
to tal explicada p o r la variable de control en cuestión. Tom am os
luego el re m a n en te com o o tra variación "to tal nueva" y d eter­
m inam os cu án to de este re m a n en te p u ed e explicarse p o r la o tra
variable independiente. E ste ‘‘nuevo to ta l" es equivalente a la
variación to tal de las m arcas ajustadas. E n térm in o s generales,
podem os co n tro la r variables adicionales en la m ism a form a. Al
p ra c tic a r aju stes p a ra cada u n a d e las variables d e control, ex­
traem o s to d o aquello de la variación que puede explicarse por
dichas variables. Y exam inam os luego el rem anente, p a ra ver
cu án to pued e explicarse p o r la o tra variable independiente. E n
los capítulos siguientes harem os u n u so considerable de este
m ism o tip o de operación de control.
Interacción. N o estam os todavía prep arad o s p a ra u n ejem plo
num érico, ya q ue m ed ian te la adición de u n a segunda escala n o ­
m inal se in tro d u ce u n a com plicación m ás. S iem pre que haya
p o r lo m enos dos casos en cada subcasilla, debería h acerse una
p ru eb a adicional. E sto constituye u n a p ru e b a de "in teracció n ”,
o del efecto posible debido a las com binaciones peculiares de las
dos variables d e escala nom inal. Con o b jeto de efectu ar la p ru e­
b a del an álisis de variancia en dos form as an terio rm en te des­
critas, es n ecesario suponer la pro p ied ad de aditividad. E nunciada
form alm ente, esta pro p ied ad re q u ie re que las diferencias m edias
de población e n tre colum nas sean las m ism as p a ra cada hilera,
así como, inversam ente, que las diferencias e n tre hileras sean las
m ism as p a ra cada colum na. La aditividad puede ilu strarse m e­
d ian te las siguientes cifras que re p resen ta n m edias hipotéticas
de p o b lació n :
¿i a2 a3
5
10
Bs 25
*1
10
15
30
20
25
40
O bsérvese que las diferencias e n tre la p rim era y la segunda
colum nas son de 5 p a ra cada h ile ra ; e n tre la segunda y la te r­
cera, las diferencias son de 10 p a ra cada hilera. Y asim ism o, las
diferencias e n tre la p rim e ra y la segunda hileras son de 5 todas
ellas, en ta n to que e n tre la segunda y la te rc e ra hileras son to­
d as de 15. Supóngase, sin em bargo, que la m edia de la casilla
cen tral fu e ra 35 en lu g ar de 15. E ntonces la aditividad n o se
verificaría. Pese a que norm alm ente As da m ayores m arcas que
A¡¡, y B 3 m ayores que B 2, o cu rre algo p ecu liar cuando A2 y B 2 se
ponen ju n tas, en cu an to re su lta u n a m edia m uy alta. El proceso
es algo p arecid o al q u e tiene lugar cu an d o se com binan h id ró ­
geno y oxígeno y se produce agua. El re su ltad o n o es lo q u e po­
d ría esp erarse si cada elem ento se exam inara separadam ente.
Hem os en co n trado ya e sta posibilidad de interacción en el caso
de los cu adros de contingencia, cuando vim os que la relación
e n tre dos variables puede diferir de acu erd o con el nivel de una
terc era variable. Ilu strem o s la idea con algunos ejem plos. Su­
póngase que p o r lo re g u la r las ciudades in d u striales tengan tasas
de crim in alid ad m ás altas que los cen tro s políticos, y que las
ciudades del S u deste las tengan m ás altas que las del N ordeste.
Se concibe, en tal caso, que podríam os h a lla r ciudades in d u stria ­
les e n el S u deste que p re se n ta ra n u n a ta sa m edia de crim inali­
d ad inesp erad am ente b aja. Podríam os entonces b u sca r alguna
clase de in teracción tal, en tre la in d u stria y los factores regiona­
les, que p ro d u je ra u n a ta sa b aja. O tro tip o de ejem plo es tal
vez m ás ilu strativ o todavía. Supóngase que se tenga que elegir
e n tre tres tipos de m étodos pedagógicos. Se invita a cu atro m aes­
tro s a q ue em pleen los tre s m étodos. Es posible que en térm i­
nos generales el m aestro A sea m ás com petente que el B. Y en
fo rm a análoga, el p rim e r m étodo p u ed e ser, acaso en conjunto,
su p erio r al segundo. P ero se concibe q u e el m aestro A n o se
ad a p te bien al p rim e r m étodo y tenga resu ltad o s inferiores a los
esperados. Así, hay interacción e n tre el m a e stro y el m étodo.
*
Antes de p a s a r al cálculo de las d istin tas cantidades re su lta rá
in stru ctiv o tra z a r u n m odelo lineal general, que re su lta rá ser
análogo a los m odelos form ulados en relación con el análisis de
la regresión. E n él expresam os u n a variable de escala de in te r­
valos com o función de o tras diversas variables que pu ed en se r
tom adas, bien sea com o escalas de intervalos, o com o atrib u to s.
Supongam os que la p u n tu ació n del individuo k-ésim o en la fila
i-ésima y colum na j-ésim a se re p re se n ta p o r X ijk, acep tan d o que
dicha p u n tu ació n esté com puesta p o r los siguientes in te g ra n te s :
1) u n o “deb id o a ” la m edia general de población, ¡i; 2) o tro debido
a los efectos q u e son consecuencia de ap arecer en u n a d eterm i­
n ad a fila i, a los que denom inarem os efecto de fila, a*; 3) un
efecto sim ilar
debido a en c o n trarse en la colum na / ; 4) u n efec­
to de in teracció n yü debido a la com binación p ecu liar de la fila
z-ésima y la colum na j-é sim a, y 5) u n efecto único, o térm in o de
erro r, z iJk p ro d u c id o p o r facto res n o considerados d e m an era
explícita en la ecuación. É sta re su lta ría a s í :
X ijk — ^ + a » + P í + Y»/ + £i/fc
la que p o r su p u esto se re fiere a los p a rá m e tro s de población que
h an de se r estim ados con base en los datos de la m u estra. Re­
su lta q u e si todos los supuestos requeridos en el caso de u n
análisis de la v arian cia p o r dos m étodos se dan re u n id o s (véase
m ás ad e la n te), podem os o b te n e r estim ad o res n o sesgados de los
p arám etro s de la a n te rio r ecuación, com o sigue:
^=
y¡j = X i j — X i . — X.J + X . .
<Xi=Xi . — X„
(3j= X .j — X ..
= X tj —(ai + ¡3/ + [i)
£¿jfc = X ijk — Xi¡
*
C ada u n a de estas estim aciones tiene u n sen tid o intuitivo,
salvo, ta l vez, la del efecto de in teracción y y. U tilizam os la gran
m edia de la m u e stra X. . p a ra e stim a r ja y las desviaciones en­
tre X.. y las m edias d e fila y colum na, p a ra calcular los efectos
de fila y d e colum na, a { y
respectivam ente. L a desviación de
X ijk en relación con la m ed ia X is de la m u e stra de la subcategoría, re p re se n ta la variación inexplicada en la m u estra, la que
estim a el té rm in o residual com parable zijk. La estim ación del
com ponente d e in teracció n yi¡ p o d rá entonces se r o b tenido p o r
su stracció n . H em os expresado en efecto cada individuo X ijlc en
función de los siguientes co m p o n en te s:
X ijk = X. . + ( X t. - X „ )
+(X.,-X..)
(g ran m ed ia -f (efecto de fila) + (efecto de colum na)
+ ( X l j - X i . ~ X . , + X. . ) + ( X m - X i , )
+ (efecto de in teracció n ) + (té rm in o de e r ro r)
P o r ejem plo, en el caso de la segunda ciudad política en el
N ordeste ten d ríam o s:
1.60 = 6.71 + (3.74 - 6.71) + (5.95 - 6.71)
+ (2.60 - 3.74 - 5.95 + 6.71) + (1.60 - 2.60)
*
El procedim iento básico ta n to en el caso de este m odelo,
com o en fo rm a m ás generalizada, consiste en realizar pru eb as
separadas p a ra cada u n o de los efectos com ponentes a {,
y y i},
evaluando la con tribución de cada u n o d e ellos en relación con
el tam añ o del térm ino de erro r. Como p o r o tra p a rte siem pre es
deseable u tilizar u n m odelo ta n sencillo com o re su lte posible,
com enzarem os observando si tiene sentido la elim inación del
com ponente de interacción y {j. Volvam os ah o ra al procedim ien­
to q ue utilizarem os p a ra el cálculo.
La p ru e b a de la interacción puede efectuarse independiente­
m ente de las dos p ru e b a s descritas an terio rm en te y co m p o rta el
m ism o p rocedim iento básico que ellas. La sum a de cuadrados
inexplicada, o térm in o de erro r, se descom pone m ás todavía,
restán d o le la p o rción q u e puede explicarse p o r la interacción.
E n esta foim a, la su m a to tal de cuadrados se descom pone e n :
SC to tal = SC e n tre colum nas + SC e n tre hileras
+ SC de interacción + SC d e e r ro r
(XVI.7 )
E sto pued e efectuarse tom ando cada com binación de las catego­
rías A y B y tra tá n d o la com o categoría de u n a variable sola com ­
binada. E n o tro s térm inos, tra ta m o s el problem a com o si tu ­
viéram os u n a sola escala nom inal con las categorías, A xB ^ A2B lt
. . . , AkB¡. Es obvio que si sólo h u b iera u n caso en cad a subeasi11a no p o d ría h a b e r variación alguna de subclase. Si n o existe
interacció n en absoluto, deberíam os o b ten er exactam ente el m is­
m o e rro r o btenido adicionando separadam ente los efectos d e las
h ileras y las colum nas [com o en la ecuación (X V I.6)]. P o r o tra
p arte , si se d a u n a interacción significativa, el térm in o de e rro r
será m en o r em pleando este segundo m étodo. Así, p o r ejem plo,
el lecto r d ebería convencerse p o r sí m ism o d e que, si la casilla ij
p ro d u je ra efectos en discrepancia con las dem ás, dioha casilla
será relativ am en te hom ogénea en com paración y a sea con la
colum na / o con la h ile ra i, y la sum a d en tro de cu ad rad o s de
las subclases será m en o r que el resid u o obtenido re sta n d o la
su m a de las sum as de cuadrados e n tre colum nas y e n tre hileras
de la sum a to ta l d e cuadrados.
La diferencia en tre la cantidad de variación explicada sirvién­
dose de esas subcasillas y la can tid ad explicada en el supuesto
de ad itiv id ad p u ed e entonces a trib u irs e a interacción. Así te­
nem os :
SC to ta l = SC e n tre subclases + SC d en tro de las subclases
en donde la su m a de cu adrados e n tre subclases se h a descom ­
p u esto en tre s com ponentes, a s a b e r:
SC e n tre subclases = SC e n tre colum nas + SC e n tre hileras
+ SC de in teracció n
Cátenlos. V olviendo ah o ra u n a vez m ás al p ro b lem a num érico
q ue co m p o rta tipos de ciudades, región y tasas de crim inalidad,
podem os em pezar enum erando los supuestos requeridos.
1. S u p u esto s
N ivel d e m e d ic ió n : Dos escalas nom inales, u n a escala d e in­
terv alo ;
M o d elo : M uestras independientes a le a to ria s;
Todas las poblaciones de las subcasillas, las hileras
y las colum nas son n o rm ales;
Las variancias d e las poblaciones de las subcasillas
son iguales.
H ip ó tesis: 1. Las m edias de las colum nas de la población
son iguales.
2. Las m edias d e las hileras de la población son
iguales.
3. A dicionalidad d e la población (sin in teracció n ).
Tenem os ah o ra tre s hipótesis d istin tas que pu ed en verificarse
in d ep endientem ente. La p ru e b a de in teracció n h a de efectuarse
prim ero , dependiendo las p ru e b as de las dem ás de aquélla. Si la
hipótesis (3) n o se rechaza, el pro ced im ien to u su al consiste en
su p o n er ad itiv idad en el m odelo, poniendo las sum as d e cu ad ra­
dos debidas a in teracción (e n la m u e s tra ) en el térm in o d e e rro r
y sirviéndose d e este térm in o de e r ro r m ayor p a ra la verifica­
ción de las hip ótesis (1) y (2). P ero si la hipótesis de fa lta de
interacció n se rechaza, entonces el pro ced im ien to a em p lear en
las o tra s dos p ru e b a s dependerá del c a rá c te r de los d ato s (véase
in fra ). O bsérvese que, con o b je to de verificar la interacción, he­
m os de su p o n er ah o ra n o rm alid ad e igualdad d e variancias p a ra
cada u n a de las subcasillas. Los casos en las d istin ta s subcasi­
llas h an de seleccionarse ind ep en d ien tem en te y n o pueden apa­
rearse.
2. N ivel de significado. .05.
3. D istribución de m uestreo. F.
4.
Cálculo d e la estadística de la prueba. H em os obtenido ya
las sum as de cuadrados to tal y e n tre colum nas. La sum a de cua­
d rad o s e n tre h ileras se calcula exactam ente del m ism o m odo
q u e la d e e n tre colum nas. Así, p u e s :
44.92
i 16.12
SC e n tre h ileras = ---------- 1-------------- 1 080.042
12
12
= 1 291.268 - 1 080.042 = 211.226
Con o b jeto de o b ten er la sum a de cuadrados d e interacción,
nos servim os de las sum as de cada subclase. La sum a de cu ad ra­
dos e n tre subclases e s:
20.72
47.9a
37.22
SC en tre subclases = -----------1------------ h .. • H-------------- 1 080.042
4
4
4
= 1 341.585 - 1 080.042 = 261.543
O btenem os el térm in o de e rro r em pleado en la verificación d e la
interacció n restan d o la sum a de cu ad rad o s e n tre subclases del
to tal. O sea:
SC del e rro r = 373.538 - 261.543 = 111.995
La can tid ad deb id a efectivam ente a interacción es la su m a de
cuad rad o s e n tre colum nas m enos la su m a de las cantidades debi­
das a las h ileras y las colum nas separadam ente. P o r lo ta n to :
SC de la interacción = 261.543 — (42.303 + 211.226) = 8.014
Los re su ltad o s p u ed e n re su m irse com o en el cu ad ro X V I .5.
Grados de
libertad
Estimación
de la
variancia
373.538
261.543
42.303
211.226
8.014
N - 1 = 23
kl--l= 5
fc - 1 = 2
1-1- 1
( f c - l ) ( 2- l ) = 2
21.152
211.226
4.007
111.995
09
Total
E ntre subclases
E ntre columnas
E ntre hileras
Interacción
E rror ( dentro de las
subclases
Sumas de
cuadrados
l
?!•
II
Cuadro XVI.5. Cálculos para el análisis de variancia, d e dos fo r­
m as con prueba de interacción
6.222
F
0.644
Los grados de lib ertad se d eterm in a n p o r los m edios usuales.
Con Z h ileras y k colum nas h a b rá Z— 1 grados de lib ertad aso­
ciados con la sum a de cuadrados e n tre hileras. P ara o b ten er los
grados de lib e rta d del térm in o de interacción, tom am os el nú­
m ero de subcasillas m enos u n o ( k l — 1 ) y restam os de esta can­
tid ad los grados de lib ertad asociados a las sum as d e cuadrados
e n tre h ileras (Z — 1) y e n tre colum nas ( k — 1). Una regla p ráctica
m ás sencilla consiste en to m a r el producto de los grados de
lib ertad asociados a las sum as d e cuadrados e n tre colum nas y en­
tre hileras. Así, pues, si m ultiplicam os los grados de lib ertad
e n tre colum nas y e n tre hileras obtenem os (fc— 1)(Z— 1) = 2 gra­
dos de lib ertad . É ste es el m ism o resu ltad o que obtendríam os
tom ando los grados d e lib ertad en tre subclases ( = 5) y restan d o
de ellos los grados de lib ertad d e las sum as de cu adrados en tre
hileras y e n tre colum nas ( = 1 + 2). E sto puede expresarse alge­
braicam en te con la siguiente id en tid ad :
(fc Z — 1 )’ — ( & — 1 + Z — l ) = ( f c — 1 ) ( Z — 1 )
Los re sta n te s grados de lib ertad , que deberían se r iguales al n ú ­
m ero to tal de casos m enos 1 grado de lib ertad p a ra cada sub­
clase, pueden luego asociarse al térm in o de erro r.
5. Decisión. La p ru e b a de interacción da u n a F que es m enor
que la unidad. N o tenem os, pues, m otivo p a ra rech azar la hipó­
tesis n u la de que n o se da interacción. E sto significa q u e la pe­
queña can tid ad adicional explicada p o r interacción al in te rio r de
estas m u estra s puede explicarse fácilm ente p o r las fluctuaciones
de la selección. E n este caso propenderíam os probablem ente a
acep tar el sup uesto de aditividad, pese a que nos encontram os
en el extrem o indebido de la p ru e b a y que, en consecuencia, de­
beríam os preo cuparnos en p rim e r térm in o p o r el riesgo de e rro r
de tipo II. Añadim os de paso que si hubiéram os dispuesto de
cuadros, p odríam os h ab e r utilizado u n nivel de significación de .3,
p o r ejem plo, si realm ente hub iéram o s tenido in teré s en conser­
v ar el su p u esto de aditividad. H abiendo decidido que no existe
interacción, podem os ah o ra p o n er la sum a de cuadrados debida
a la in teracción (d e la m u e stra ) ju n to con el térm in o de erro r,
y servirnos de este térm in o de e rro r m ayor com o base p a ra la
estim ación del e rro r de la variancia. Al hacerlo obtenem os el cua­
d ro XVI.6, fin el que el térm in o de e rro r d e 120.009 re p resen ta la
sum a de los térm inos de interacción y de e rro r del cuadro XVI.5.
Del cuadro correspondiente se desprende que p a ra u n a F con
2 y 20 grados de lib ertad necesitam os u n a F de 3.49 o m ayor p a ra
o b ten er significación al nivel de .05. Vemos asim ism o que una
F de 35.204 con 1 y 20 grados de lib e rta d es altam en te significa­
tiva, ya que p a ra o b ten er significación al nivel de .001 se reque­
riría u n a F de sólo 14.82. Así, pues, existe poca duda de que se
Cuadro
XVI.6. Cálculos para el análisis de variancia en dos fo r­
mas, con la interacción añadida dentro del térm ino d e error
Sumas de
cuadrados
Total
E ntre columnas
E ntre hileras
E rror
373.538
42.303
211.226
120.009
Grados Estimación
de
de la
libertad variancia
23
2
1
20
21.152
211.226
6.000
F
Nivel de
significación
3.525
35.204
p < .05
p < .001
d a u n a relación e n tre la región y la ta s a d e crim inalidad. O bsér­
vese que cuando controlam os en relación con la región dejando
que e s ta v áriable explique todo lo que p u ed e acerca de las tasas
d e crim inalidad, y d ejan d o luego que el tip o de ciudad explique
to d o lo que pued e a propósito' del resto , obtenem os u n a relación
significativa e n tre el tip o de la ciudad y las tasas de crim inali­
dad. Se re co rd a rá que la relación sin el co n tro l relativo a la re­
gión no d aba significación.
Cabe o b serv ar q u e si la interacción n o es significativa, gana­
m os casi siem pre m ás de lo que perd em o s al a d ju n ta r la in tera c­
ción con el térm in o de erro r, sirviéndonos de este térm in o de
e rro r com binado en el denom inador d e F. E n efecto, pese a que
la su m a de los cuadrados de e r ro r re su lta rá en esta fo rm a lige­
ra m e n te au m en tada, h a b rá tam bién m ás grados de lib e rta d aso­
ciados al térm in o m ayor del erro r. Y com o q u iera que el térm in o
de interacció n será relativ am en te pequeño, el efecto n e to será
p o r lo re g u lar el de o b ten er u n denom inador de F m ás pequeño.
H a b rá tam bién, p o r supuesto, u n m ay o r nú m ero de grados de
lib e rta d asociados con F y, p o r lo tan to , se re q u erirá p a ra obte­
n e r significación u n valor m ás pequeño d e F.
H em os de p re g u n ta r ah o ra qué h ab ríam o s hecho si la in te ra c ­
ción h u b iera sido significativa. La re sp u e sta a dicha cuestión
n o tiene n ad a d e sencillo, p ero podem os, con todo, fo rm u la r al­
g unas cu an tas sugerencias. El lecto r que se in tere se p o r u n tr a ta ­
m ien to m ás com pleto d eberá co n su ltar u n texto com o el de
Hays [7], K irk [9], o el A nderson y B ancroft [1].
Si la interacció n es significativa, a veces será posible h a lla r u n a
o dos filas o colum nas, o aun unas cuantas subcasillas, que son
las q ue p ro d u cen la interacción. Si hubiésem os utilizado, p o r
ejem plo, cinco regiones, podríam os h a b e r observado que el S ud­
este difiere, de m an era fundam ental, del re sto de las regiones.
De ser así po d ríam os h a b e r excluido del análisis dicha región en
especial, averiguando si h ab ía interacción e n tre las categorías res­
tan tes, au n q u e reconociendo la n atu ra leza ex post facto d e tal
procedim iento. E n o tra s m uchas aplicaciones no será ta n sencillo
localizar las filas, colum nas o casillas aisladas responsables de
la interacción, en cuyo caso nos enfrentam os a u n desafío teórico
cuando deseam os fo rm u lar u n a explicación general razonable del
esquem a logrado. E n realidad, el localizar u n efecto m ayor de
interacción p u ed e re s u lta r se r el hallazgo aislado de m ayor im ­
p o rtan cia en el estudio. A unque la conceptualización de m odelos
m atem áticos en los que se h alla im plicada la interacción escapa
al p ro p ó sito de este libro, d eb erá observarse que cabe fo rm u lar
ciertas altern ativ as relativam ente sim ples a los m odelos aditivos
lineales, tales com o los m odelos m ultiplicativos. (V éase Blalock
[ 2 ]).
Además de c e n tra r la atención en la interacción m ism a, puede
ten erse in terés en d eterm in ar si u n a u o tra de las variables de
la escala n o m inal se relaciona o n o con la escala de intervalo.
¿Cuáles p ru e b as pueden efectu arse de tales relaciones? La cues­
tió n se red u ce a lo siguiente: "¿Q ué estim ación de la variancia
debería em p learse en el denom inador de F, en la estim ación del
e rro r o en la estim ación b asad a en el térm in o de in teracción?”
La resp u esta a esta p re g u n ta parece depender de la naturaleza
de las dos variables de la escala nom inal y, en p artic u la r, de si
las categorías em pleadas re p re se n ta n todas las categorías de la
población o n o son m ás, p o r el co n trario , que u n a m era selección
de categorías. E n los problem as sociales, en los que p o r lo re ­
g u lar no asignam os los individuos a las categorías al azar, suele
d arse con frecu encia el caso de q u e estas categorías rep resen ten
todas las categorías posibles del esquem a de clasificación. Así,
p o r ejem plo, si dividim os todas las ciudades en tre s tipos y no
excluim os n inguna al proceder en esta form a, confiam os incluir
algunas ciudades, p o r lo m enos, de cada tipo. Y en fo rm a análo­
ga, si clasificam os a personas com o varones o m u jeres, o como
p ro testan tes, católicos o judíos, confiam os p o r lo re g u la r hab er
incluido algunos rep resen tan tes de todas (o casi to d as) las cate­
gorías. P o r o tra p arte, n u estra s categorías p o d rían co m p o rtar
ellas m ism as u n a selección de todos los tipos. Así, p o r ejem plo,
p odríam os h a b e r seleccionado a m etodistas, cuáqueros y a tes­
tigos de Jehová com o tres grupos religiosos que re p re se n ta n u n
nú m ero m ucho m ayor de ellos. Tal vez cada u n a de dichas deno­
m inaciones sea rep resen tativ a de cierto tipo d e religión. Exam i­
nem os cad a u n a d e estas situaciones p o r turno.
E n la p rim e ra de ellas, n u estra s categorías de am bas variables
re p resen tan todos o casi todos los tipos posibles. No se da cier­
tam en te e rro r alguno en la selección de las categorías, com o
p o d ría h ab erlo si sólo nos hubiéram os servido a títu lo d e com ­
paración de tre s denom inaciones religiosas. E n la m ayoría de
estos problem as, n u estro in terés se c e n tra rá probablem ente en
el grado d e hom ogeneidad de cada tipo, e n relación con la m ag­
n itu d de las diferencias e n tre los tipos. La segunda variable de
la escala nom inal puede considerarse en p rim e r lugar com o una
variable p e rtu rb a d o ra que necesita controlarse. La interacción
p u ed e acaso co n stitu ir sim plem ente u n resu ltad o secundario
in tere sa n te del análisis. E n este caso será razonable co m p arar
u n a estim ación b asad a en la sum a de cu adrados e n tre con la
apreciación b asad a en la sum a de cuadrados n o explicada. E sta
ú ltim a estim ación es u n a estim ación d en tro d e las subclases y
co m p o rta la variación que perm anece todavía inexplicada p o r la
acción co n ju n ta de la variable independiente m ayor ( digam os el
tip o de la ciu d ad ) y la variable de control. D ejam os que la va­
riab le de control actú e prim ero, y dejam os luego que la variable
in d ependiente m ayor explique lo que p u ed e del resto. C ierta
ca n tid ad adicional es explicada asim ism o p o r la interacción de
las dos variables. Cada u n a de estas sum as d e cuadrados "expli­
cad as" pued e co m pararse con la sum a de cuadrados “no explica­
d a ”, o térm in o de erro r. A continuación tom aríam os esta esti­
m ación del e r ro r com o denom inador en cada u n a d e n u estras
p ru eb as separadas de F. Al verificar en relación con la signifi­
cación de u n a diferencia e n tre colum nas, tom aríam os, p o r lo ta n ­
to, la estim ación de e n tre colum nas dividida p o r el térm in o de
e rro r, y en fo rm a análoga p o r lo q u e se re fiere a las h ileras. E n
n u estro p roblem a num érico, si la in teracción h u b iera sido sig­
nificativa, estas razones de F h a b ría n sido respectivam ente de
21.152/6.222 y 211.226/6.222.
Surgen o tras consideraciones cuando las categorías de u n a u
o tra v ariab le (o de am b as) de la escala nom inal sólo co m portan
u na peq u eñ a selección de las categorías posibles. Si la in tera c­
ción re su lta significativa y es m ayor, p o r lo tan to , que la e sti­
m ación del e rro r, añádase siem pre la cuestión de sab e r si esto
n o se h a b ría pro d ucido de h ab e r sido d istin tas las categorías.
Si tanto la v ariable de fila com o la de colum n a ab arcan u n a
m u estra de categorías, nos referim os a ta l m odelo denom inándo­
lo m odelo de efectos aleatorios, p o r c o n tra ste con el m odelo de
efectos fijos, p a ra el cual ninguna de las variables com prende un
m u estreo de categorías. P ersonalm ente n o h e visto n u n ca u n a
ilu stració n razonable de tal m odelo de efectos aleatorios, aunque
los m odelos m ixto s en los que figuran u n o (o m ás) facto res no
m u estread o s y u n fa c to r m uestreado, son razonablem ente com u­
nes. El m ás h ab itu al de los m odelos com unes en las aplicaciones
a la ciencia social se p re se n ta en los casos en que son p ersonas
(educadores, experim entadores, entrev istad o res, o peradores de
equipo, e tcé tera ) las que figuran com o u n o de los factores. E n
los experim entos en las aulas, p o r ejem plo, puede se r necesario
co n sid erar el "efecto del m a e stro ” e n tre u n cóm puto de tal vez
cinco educadores. E n u n laboratorio p o d rá o c u rrir que el inves­
tig ad o r h aya co n tado con tres experim entadores. A unque in stru i­
das p a ra conducirse de m an era análoga, tales p ersonas in troducen
inevitablem ente en la situación algunos valores idiosincrásicos.
E n u n a investigación puede el an alista n ecesitar se p a ra r los
"efectos del e n tre v ista d o r” d e e n tre las dem ás variables. E n to­
dos estos ejem plos se reconocerá que las perso n as que en ellos
figuran c o n stitu y e n 'u n a fracción m uy reducida del nú m ero po­
tencial en relación con el cual desea h acerse la generalización,
y q u e la in teracción e n tre las p erso n as y el fa c to r de m ayor intérés p u ed e re s u lta r especialm ente p ertu rb ad o ra .
E stas ideas intuitivas pueden se r o b jeto de u n a fundam entación m ás rig u ro sa (véase Hays [7 ], capítulo xnx). B a stará in d icar
aquí el p rocedim iento preferido. Supongam os en p rim e r lugar
que tenem os in terés en co m p ro b a r los efectos del fa c to r no
m uestreado o fijo. Si la interacción h a sido significativa, ello
im plica p o r su puesto que el cálculo de la variancia, basado en
el térm in o de la interacción, debe h a b e r sido m ay o r que la esti­
m ación del " e rro r” (p roduciendo así u n a F > 1.0). Como se da
la circu n stan cia de que el segundo fa cto r h a sido m uestreado,
y que u n segundo m u estreo p o d ría h a b e r pro d u cid o u n a estim a­
ción m uy d iferen te de la interacción, el procedim iento m ás con­
serv ad o r co n sistiría en u tiliza r la interacción estim ada ( la m ayor
de las dos can tid ad es) com o denom inador p a ra la razón de F en
la p ru eb a de la significancia del fa cto r fijo o n o m uestreado.
E n e fe c to : la interacción es considerada com o u n e rro r. E n nues­
tro ejem p lo num érico supongam os que considerásem os la región
com o u n fa c to r m uestreado, ya que hem os seleccionado ta n sólo
dos regiones de e n tre tal vez cinco o seis. Si el efecto de in terac­
ción hu b iese sido significativo y p o r ta n to no incluido en el
térm in o de erro r, habríam os utilizado la razón 21.152/4.007 al
co m p ro b ar la significancia de los efectos de la ciudad en los
niveles de delincuencia.
Si estam os adem ás in teresad o s en p ro b a r los efectos del facto r
m u estread o (p o r ejem p lo : p erso n as o región), deberem os sin
em bargo c o n tin u ar u sando la estim ación del e rro r, de p re fere n ­
cia a la estim ación de la interacción, en el denom inador de F.
La ju stificación in tu itiv a consiste en que el o tro fa c to r no está
siendo m u estreado, y p o r ello n o puede o c u rrir q u e u n e rro r de
m u estreo en dicho fa cto r constituya u n a fu en te de e rro r en nues­
tro cálculo de los efectos del fa c to r m u estread o sobre la varia­
ble dependiente. Así, si la interacción hubiese re su ltad o signifi­
cativa en n u e stro ejem plo, h ab ríam o s utilizado la razón 211.226/
6.222 al co m p ro b a r los efectos de la región sobre los índices de
crim inalidad. (E l hecho de q u e el denom inador, 6.222, es m ayor
q u e el de 4.007 usado en relación con los efectos de tip o ciudad,
refleja el h echo de que la F, u sa d a e n este ejem plo p a ra com pro­
b a r la in teracción, re su ltó se r m en o r que la unidad, en tan to
que u n a interacción significativa h u b iera re q u erid o desde luego
u n a F m ay o r que la un id ad .) P a ra u n a justificación m ás am plia
de este pro cedim iento véase H ays [7].
R esulta necesario a d o p ta r u n a precaución m ás con respecto a
la in terp retació n de interacciones significativas. E n la bibliogra­
fía estad ística se en c u en tran frecuentes referencias a los "efec­
tos principales" de las variables de fila o colum na, m ás los "efectos
de in teracció n ”. R esulta posible in te rp re ta r estos efectos p rin ­
cipales com o los efectos prom edios d e u n a de las variables in­
dependientes so b re el m argen d e la o tra u o tras variables. P ero
si el com ponente de interacción es relativam ente grande, esta
sim ple distinción e n tre efectos principales y efectos de in tera c­
ción re su lta rá difícil de tra d u c ir a valores sustantivos o teóricos,
ya que cuando la interacción es gran d e n o tiene sen tid o teórico
el o scurecer las diferencias reales hab lan d o de los efectos pro m e­
dios de, p o r ejem plo, el tipo de ciudad. Debe, pues, entenderse
que esta distinción e n tre efectos principales y efectos de in tera c­
ción se lim ita al u so estadístico, lo m ism o que o cu rre con la re­
lativa a las sum as, "explicadas” y "n o explicadas”, de cuadrados.
E s fácil a veces caer en la tra m p a d e u tilizar la term inología
d e u n a su stan tiv a y personal disciplina en lu g ar de la term ino­
logía estadística, y creer que hay d istin to s tipos d e "efectos”
q ue cu entan con u n a sim ple c o n tra p a rtid a en la p ro p ia su stan ­
tiva teoría. Tal vez la precaución m ás o p o rtu n a consista e n com ­
p re n d e r que en cuantas ocasiones se en cu en tran interacciones
estadísticas de m agnitud sustancial, ello significa que dos o m ás
variables tienen efecto co n ju n to so b re alguna variable depen­
d ien te; efectos dem asiado com plejos p a ra ser adecuadam ente
descrito s m ediante u n sim ple m odelo aditivo. La presencia de la
interacción estad ística constituye así u n a indicación de q u e las
relaciones son m ás com plejas de lo q u e pudo pensarse, pero
la in teracción p o r sí m ism a n o debe se r tra ta d a com o si fuese
algo a p a rte de los efectos "p rin cip ales” de las variables que están
siendo consideradas.
E xten sió n a tres o m ás escalas nom inales. E n teo ría n a d a hay
q u e nos im pida ex ten d er el análisis d e variancia a variables adi­
cionales. E n la p ráctica, sin em bargo, es p ro b ab le que nos veam os
restrin g id o s p o r el req u isito de núm eros iguales de casos e n cada
subcasilla, a m enos que estem os en condiciones de co n tro lar este
fa c to r p o r vía experim ental. Si añadim os u n a te rc e ra escala
nom inal, podem os dividir la sum a to tal de cuadrados en in terac­
ción e n tre A, en tre B, e n tre C y los térm in o s d e erro r, y podem os
efectu ar cierto n ú m ero de p ru eb as de h ip ó tesis separadas. Ahora,
sin em bargo, ten d rem o s m ás de u n tip o de interacción. E n efecto,
pued e d arse interacción e n tre las variables A y B, A y C, B y C,
así com o e n tre las tre s variables o p eran d o ju n tas. Procedem os
p rim ero a u n a p ru e b a en relación con la interacción d e tre s fac­
to res (A X B X C ). Si ésta no re su lta significativa, podem os
to m arla en el térm in o de e rro r y v erificar las tre s interacciones
de dos factores. P ueden efectu arse p ru e b as de la significancia de
A, B y C. La extensión a c u a tro o m ás escalas nom inales ten d ría
lugar en la m ism a form a. E n el caso d e que el investigador esté
en condiciones de c o n tro la r el n ú m ero de casos de cada catego­
ría m ed ian te asignación al azar, se dispone de m uchos o tro s es­
quem as experim entales, y el lecto r h a rá bien e n co n su ltar u n
tex to de éstos. M uchos de esto s diseños alternativos hacen posi­
ble el logro d e u n a m ayor eficiencia (m ed ian te u n a reducción
del tam añ o de la m u e stra ), al costo de u n a sim plificación de
supuestos acerca de algunos de los térm inos de la interacción.
Si un o está d ispuesto, p o r ejem plo, a su poner que ciertas in terac­
ciones son despreciables, p u ed e "co n fu n d ir" deliberadam ente
estos efecto s principales al tra z a r u n diseño "incom pleto” m ás
eficiente.
*
A nálisis de variancia d e dos fo rm a s con subclases desiguales.
C uando el n ú m ero de casos n o es igual en cada subclase, com o
o c u rrirá p o r lo re g u la r en la investigación sociológica, el análisis
de la v arian cia de dos form as y a n o re su lta ta n sencillo. Si el
n ú m ero de casos es suficientem ente grande, será siem pre posi­
ble, p o r su puesto, co n tro la r en relación con u n a segunda escala
nom inal efectu ando análisis separados en cad a categoría de la
variable de co n trol, com o lo hicim os e n el caso de los problem as
de contingencia. P ero si p a ra em pezar, el n ú m ero d e casos es
relativam ente pequeño, pueden em plearse algunos m étodos ap ro ­
xim ados. Uno d e éstos co m p o rta el em pleo de los logaritm os,
p ero es sencillo p o r lo dem ás (véanse [ 8], pp. 260 a 266).
O tro procedim iento, d escrito p o r W alker y Lev [11], es m u­
cho m ás sencillo desde el p u n to d e v ista conceptual. E ste úl­
tim o m éto d o consiste en tr a ta r las m edias de las distin tas
subcasiJlas com o si co n stitu y eran casos sim ples. P ueden obte­
n erse las sum as de cuadrados y las apreciaciones de variancia
de los térm in o s e n tre h ileras, e n tre colum nas y de interacción,
suponiendo esencialm ente que n o hay m ás que u n caso en cada
su b casilla: la m edia. La su m a de los cuadrados del e rro r se ob­
tien e luego, al igual que en el análisis co rrien te de v arian cia de
dos form as, re sta n d o la sum a de cuadrados de la subclase " e n tre ”
de la su m a de cu adrados total, sirviéndonos p a ra ello del n ú ­
m ero to tal de casos, y n o d e las m edias de cad a subcasilla. La
apreciación del e rro r se obtiene dividiendo e n tre el e r ro r en el
nú m ero de grados de lib ertad , com o antes, y dividiendo entonces
esta ú ltim a cifra e n tre la m edia arm ónica del n ú m ero de casos
en cada subcasilla. E sta ú ltim a operación es n ecesaria p a ra que
la estim ación del erro r, b asad a en el n ú m ero to tal de los casos,
p u ed a co m p ararse con las estim aciones b asadas ún icam en te en
las m edias de las subcasillas tra ta d a s com o casos singulares. Las
p ruebas F p u ed en luego efectu arse en la fo rm a h ab itu al.
Si las subclases contienen u n n ú m ero desproporcionado de ca­
sos, com o o cu rre h ab itu alm en te en la investigación n o experi­
m ental, ta l cosa significa que las v ariables de fila y d e colum na
e sta rá n interrelacionadas. E n efecto, alguna variación que viene
"explicada” p o r la v ariab le de la colum na p u ed e asim ism o se r "ex­
p licad a” p o r la variable de la fila, dándose casos de am bigüedad
acerca de a cuál de las variables h a b rá d e d arse el créd ito p o r
u n a variancia, cu ando ésta es explicable d e dos m aneras. H alla­
rem os esta m ism a d ificu ltad e n relación con el análisis de re g re­
sión m últiple, y, d e m an era im plícita, en el análisis de la co­
variancia.
D espués de estu d ia r ta n to la regresión m últiple com o el an á­
lisis d e la covariancia, exam inarem os brevem ente (e n el cap ítu ­
lo xx), lo que se denom ina "variable sim ulada", utilizable p a ra
m a n e ja r u n g ran n ú m ero de situaciones, en tre ellas aquella en la
qu e-se tien en dos (o m á s) escalas nom inales variables indepen­
dientes e interrelacionadas. V erem os sin em bargo q u e este m uy
am plio pro ced im iento estad ístico n o nos p erm ite su p e ra r las
dificultades teóricas que surgen en aquellos casos en que las va­
riables in dependientes están interrelacionadas. Tales problem as
sólo pueden ser resueltos p o r m edio d e procedim ientos de cálcu­
lo basad o s en ecuaciones sim ultáneas, cuestión que excede los
lím ites de este libro. Debe observarse q u e u n a de las grandes
v en tajas de los diseños experim entales consiste en que éstos
p erm iten la m anipulación de variables independientes, de tal
m an era q ue sus efectos pueden se r separados sin am bigüedad,
lo que hace posible evaluar los efectos principales de cada varia­
ble, siem pre a condición de que la in teracció n no sea dem asia­
do n o tab le.
XVI.4. A lternativas n o param étricas del análisis de variancia
E n el caso en que los supuestos req u erid o s p a ra el análisis de
v arian cia n o se cum plan, se dispone de p ru e b as no p aram étrica s
que pu ed en u tilizarse com o análisis de v arian cia de u n a o de
dos fo rm as. E xam inarem os en p rim e r lu g ar el análisis de u n p ro ­
cedim iento de la v arian cia con categorías de K ruskal-W allis, p a ra
v er a continuación la p ru e b a de F riedm an p a ra m u estras p a re a ­
das, u tilizab le en aquellas ocasiones en que la variable d e fila
co n stituye u n g ru p o de variables p aread a s y en las que hay un
"caso” en cad a fila.
Prueba de K ruskal-W allis. La p ru e b a tra ta d a en esta sección fue
d esarro llad a p o r K ru sk al y W allis y re s u lta in d icad a siem pre que
tengam os cierto n ú m ero de m u estras al azar independientes y
u n nivel de m edición de escala ordinal. La eficacia de su fuerza
es aproxim adam ente, en las m u estras grandes, del 95 p o r ciento.
La p ru e b a es b ásicam en te m uy sencilla y co m porta la com para­
ción de las sum as d e los órdenes d e cada u n a de las categorías
de la variab le de la escala nom inal. Se calcula u n a estad ística H
con o b jeto d e m ed ir el grado en que las distin tas sum as de órde­
nes difieren de aquello que se esp e ra ría b a jo la hipótesis cero.
Si hay m ás de cinco casos en cada clase, la distrib u ció n de selec­
ción de H es ap roxim adam ente la ^-cuadrada.6
Con fines de com paración, ilu strem o s el em pleo de la p ru eb a
d e K ruskal-W allis con los m ism os datos. E n el cu ad ro XVI.7, las
tasas de crim in alidad de los tre s tipos de ciudades se h an orde­
nad o de altas a b a ja s (los órdenes b ajo s indican tasas b a ja s).
Cuadro
Sumas
XVI.7. Datos y cálculos para el análisis de variancia
con rangos de K ruskal-W allis
Ciudad industrial
Ciudad comercial
Cuota
Orden
Cuota
4.3
2.8
5.9
7.7
12.3
16.3
9.1
10.2
10
4
12
16
22
24
17
19
5.1
1.8
3.6
3.3
6.2
9.5
4.1
11.2
Ciudad política
Orden
Cuota
Orden
11
2
7
6
13.5
18
9
20
3.1
1.6
3.8
1.9
6.2
7.1
11.4
12.5
5
1
8
3
13.5
15
21
23
«2 = 86.5
R t = 124
R s = 89.5
1. Supuestos.
N ivel d e m e d ic ió n : escalas o rd in al y nom inal
M odelo: m u estreo al azar independiente
H ip ó te sis : m u estras sacadas d e la m ism a población continua
2. N ivel de significación y región crítica. Tom em os el nivel
del .05.
3. D istribución d e m uestreo. La distribución de m u estreo de
H será ap ro x im adam ente la ^-cuadrada con k — 1 grados de lib er­
tad, en donde k re p resen ta el n ú m ero de categorías em pleadas.
4. Cálculo de la estadística de la prueba. Calculam os H p o r m e­
dio de la fó rm u la
/
12
*
R* \
(-w ñ í t t & h - ) - 3 ( N + 1 )
H = --------------------------------------------------1 - 27y(JV 3 — N )
(X V I.8)
en donde N t y N re p resen ta n respectivam ente el n ú m ero de ca« En caso de tres clases y N muy pequeñas, véase [10], pp. 195-198.
sos de la í-ésima categoría y d e la m u e stra to tal. El denom inador
de la fó rm u la re p resen ta u n a corrección p o r ligaduras, en la que
T *= t í-%
s —t■
siendo
el nú m ero d e observaciones ligadas en relación con un
rango determ inado.
E n este ejem plo p a rtic u la r hay sólo u n p a r de m arcas em p ata­
das. P o r lo ta n t o : T i = 23 — 2 = 6. Tenem os, p u e s :
[ 12/24(25)](124^/8 + 86.5V8 + 89.52/ 8 ) - 3(25)
. H = --------------------------------------------------------------------- = 2.17
1-6/(243-24)
5.
Decisión. R efiriéndonos a la ta b la de la ^-cuadrada, vem os
q u e con 2 grados de lib e rta d necesitam os u n a ^-cuadrada de 5.991
o m ay o r p a ra o b ten er significación al nivel del .05. H abiendo,
pues, obten id o u n a H de 2.17, decidim os no rech azar la hipótesis
n u la a dicho nivel de significación. Vemos, de paso, que llega­
m os a la m ism a conclusión q u e an terio rm en te.
Análisis de F riedm an de dos m étodos con categorías. Los da­
tos o rdinales no p erm iten en ap ariencia m a n e ja r el concepto de
interacción, a n o se r de m a n e ra m uy b u rd a y poco satisfactoria.
S in em bargo, si se e stá d ispuesto a su p o n er que la interacción
carece de im p o rtan cia, y se desea co n tro lar p a ra u n a o m ás va­
riables u tilizando lo que equivale a u n procedim iento de pareado,
puede p ro ced erse com o sigue. Se e m p arejan los individuos (en
este caso las ciu d ades) de acuerdo con el c rite rio que se desee
aplicar. Uno de tales crite rio s puede se r el regional, o tro el ta ­
m año, u n te rc e ro la edad d e las ciudades, etcétera. Se asigna a
continuación u n m iem b ro de cada grupo a u n a situación experi­
m ental, to m an d o com o n ú m ero de “casos” el nú m ero d e grupos
de individuos pareados. E stá bien claro que este procedim iento
re p re se n ta u n a am pliación de las p ru e b as m ed ian te p a re s n o r­
m alizados, y a estu d iadas. E n algunos casos pueden darse obser­
vaciones rep etid as so b re cada individuo; en o tro s puede n o h a ­
b e r re su ltad o posible a p lica r realm ente el azar a la asignación
a los grupos de tra ta m ie n to o experim entales, en cuyo caso nues­
tra s in terp retacio n es d eb erán se r m ucho m ás cautelosas. E n el
caso que estu d iam o s re su lta rá evidentem ente im posible d is tri­
b u ir al azar las ciudades en las categorías in d u strial, com ercial
o política.
C onsiderem os a continuación cada grupo d e individuos p area­
dos com o u n a re sp u e sta independiente. D entro de cada u n o de
los grupos asignam os categorías 1, 2, 3, . . . , k, d e acuerdo con las
pu n tu acio n es de la v ariab le dependiente. H acem os lo m ism o en
cada caso y sum am os las filas, obteniendo u n a sum a de filas T¡
p a ra la colum na /-ésim a. Si la variable experim ental (colum na)
n o tiene efecto alguno, podrem os esp e ra r que las varias T¡ resul­
ten ap ro x im adam ente iguales. E staríam o s en efecto asignando
las filas d en tro de cada sec to r e n fo rm a to talm en te al azar, y no
esp eraríam os que el to tal de puntuaciones de los sectores en
cualquiera de las colum nas resu ltase desusadam ente grande o
pequeño. H a b rá, em pero, de ordinario, diferencias m enores de
m u estras e n tre las T¡, y p o r ello desearem os o b ten er u n a m edida
de las diferencias e n tre las T¡ que cuenten con u n a distribución
conocida de la m uestra.
Si com putam os la estad ística
S =
2
i
(T,-T)*
en la que k es el n ú m ero de categorías y T es la m ed ia d e las T¡,
la distrib u ció n de la m u e stra de S puede ser calculada exacta­
m en te e n el caso de m u estras pequeñas, y aproxim adam ente en
el de m u estras grandes. E n B radley [3 ] y Siegel [10] se dan
cuadros p a ra las distribuciones exactas. C uando k > 4 y N > 10,
en donde N re p re se n ta el nú m ero d e grupos de individuos p area­
dos, podem os u s a r u n a aproxim ación de ji al cuadrado, com o
sigue:
* -
n w
+ í)
~ - m
+ »
k
T' - 3 H i t + »
en la que el grado de lib ertad p a ra ji al cuadrado es k — 1 , y en
donde el lad o de la extrem a derech a re su lta rá m ás conveniente
p a ra fines del cálculo. Suponem os de nuevo u n a distribución
básica co n tin u a de puntuaciones v erdaderas, d e m odo q u e los
em pates re su lten ta n sólo de la crudeza de las m ediciones. Pode­
m os asig n ar a las puntuaciones em patadas las m edias de las fi­
las que h u b ie ra n recibido en caso de no p ro d u cirse em pates o,
m ás conservadoram ente, podem os ro m p er los em pates, m inim i­
zando así el v alor obtenido de ji al cuadrado. P rocedam os ade­
lan te con u n ejem plo.
C ontinuando con la m ism a ilustración, p o r conveniencia de la
com parabilidad, conservam os el su p u esto de que hem os obtenido
p o r lo m enos u n nivel ordinal de m edición p a ra los grados de
delincuencia, y la hipótesis n u la de que las m u estras h an sido
obtenidas de la m ism a población continua. E sta hipótesis equi­
vale, en efecto, al ase rto de que, en el contexto de u n experim en­
to real, la v ariab le experim ental no ten d ría efecto alguno. Supo­
nem os ahora, sin em bargo, que las m u estras e stán agrupadas, en
este caso e n trío s de ciudades, u n a in d u strial, o tra com ercial y
o tra política. H a b rá ocho réplicas, de m an era que k = 3 y N = 8.
A nteriorm ente, al h ac er u n análisis p o r dos m étodos de la va­
riancia, utilizam os sólo dos series, u n a de ellas p a ra el S udeste
y o tra p a ra el N ordeste. Aquí contam os con ocho series, lo que
p erm ite em p arejam ientos individuales donde ello sea posible.
Podem os p o r supuesto asignar arb itra ria m e n te cada ciudad del
S u deste a cu alq u iera d e las cuatro series de m ás abajo, p ero el
h acerlo su p o n d ría u n diseño m enos eficiente que el logrado usan­
do controles m ás refinados en el proceso de pareado. P ara ser
concretos, supongam os que hem os utilizado cu a tro clases de dife­
re n te tam añ o p a ra cada u n a de las dos regiones, de m odo que las
ciudades hayan re su ltad o em parejadas sim ultáneam ente p o r ta ­
m añ o y p o r región. Supongam os que las ciudades han sido dis­
p u estas com o en el cu ad ro XVI.8.
Cuadro X V I.8.
Datos y cálculos para la prueba de F riedm an
Ciudad industrial Ciudad comercial
Ciudad política
Grupo
Tasa
A
B
C
D
E
F
G
H
Ti
4.3
2.8
5.9
7.7
12.3
16.3
9.1
10.2
Rango
2
3
3
3
3
3
2
1
20
Tasa
Rango
Tasa
5.1
1.8
3.6
3.3
6.2
9.5
4.1
11.2
3
2
1
2
1.5(1)
2
1
2
3.1
1.6
3.8
1.9
6.2
7.1
11.4
12.5
14.5(14)
Rango
1
1
2
1
1.5(2)
1
3
3
13.5(14) X = 16
Los rangos no coinciden p o r supuesto con los del cuadro XVI.7,
ya que hem os tra ta d o cad a grupo com o u n a réplica separada,
con los rangos llegando sólo en cada caso h a s ta k = 3. O bsérvese
que hay sólo u n em p ate den tro del g rupo E, habiendo asignado
u n ran g o pro m ed io de 1.5. El procedim iento m ás conservador
h a b ría consistido en asignar rango 1 a la ciudad com ercial y ra n ­
go 2 a la ciu d ad política, ya que p a ra los dem ás grupos T 2 > T 3.
Los resu ltad o s p a ra el procedim iento m ás conservador aparecen
e n tre p arén tesis. Aun cuando estam os m an ejan d o u n nú m ero
m uy red u cid o de casos y de colum nas, utilizarem os, con fines de
ilustración, la aproxim ación de ji al cuadrado. T en em o s:
12
v* = ------------[20* + 14.52 + 13.52] - 3(8) (4) = 3.06
*
8(3)(4)
lo que p a ra d.f. = k — 1 = 2 no re su lta significativo ni aun al nivel
d e .10. Si hubiésem os em pleado1 el m étodo m ás conservador ob­
teniendo T 2 — T s = 14, hab ríam o s logrado u n a ji al cuadrado
d e 3.00.
B radley [3 ] hace n o ta r que la eficacia de fuerza de la pru eb a
d e F ried m an no sólo depende del tam año de la m u estra, sino del
n ú m ero de categorías usado. E n el caso de m u estras grandes la
eficacia d e la p ru e b a en relación con el de la p ru e b a F ( suponien­
do que todos los supuestos de esta ú ltim a estuviesen ju stificad o s),
es ap ro x im ad am ente igual a
De m an era que p a ra k = 2 la eficiencia de u n a m u e stra grande
sería ap ro x im ad am ente de 2 /jt = .64, y p a ra k = 5 re su lta ría apro­
x im adam ente de 5/2jr = .80. B radley observa que a m edida que
k dism inuye, dism inuye tam b ién la v en taja de u s a r categorías a
trav és de las colum nas. E n el caso lím ite en que k = 2, podem os
asig n ar sólo las dos categorías 1 y 2, re su ltan d o e s ta p ru eb a
equivalente a la p ru e b a de signo, ten ien d o p o r su p u esto la m ism a
escasa fu erza eficaz.
Si la v ariable dependiente (en este caso los niveles de la cri­
m in alid ad ), es m ed id a de m an era ta n b u rd a que sólo pueden
asignarse los dos valores de éxito y fracaso, será posible hacer
u so de u n a p ru e b a no p ara m é tric a m uy sim ilar, conocida com o
p ru e b a Q de C ochran. El procedim iento que en ésta se sigue con­
siste en asig n ar unos ( 1 ) y ceros ( 0) a las equis (X ) (ta l vez se­
gún se en cu en tren p o r a rrib a O' p o r ab ajo de la m edia global),
u tilizando u n a d istribución exacta o u n a aproxim ación de ji al
cu adrado, com o se hizo en el caso de la p ru e b a de F riedm an. La
p ru e b a de C ochran es d iscutida p o r Hays [7] y B radley [3], y re ­
su lta tam bién ap ro p iad a p a ra el u so con m u estras pareadas.
XVI.5. M edidas de asociación: correlación intraclase
Las p ru éb as de análisis de la v arian cia sólo nos p erm iten decidir
si existe o n o alguna relación e n tre dos variables. Como ya vi­
m os, es re lativ am en te fácil o b ten er significación estad ística aun
con u n a relación m uy superficial, a condición que se tenga u n
nú m ero su ficientem ente gran d e de casos H abiendo decidido que
sí existe relación, sujetos sin d u d a al riesgo de e rro r de tipo I,
procedem os a continuación a m e d ir la fuerza o grad o de la m is­
m a. Puede o b ten erse alguna indicación acerca de la m agnitud de
la relación, co m parando sim plem ente las m edias de las diversas
categorías. Si estas m edias difieren m ucho, es p ro b a b le que la
relación sea fu e r te ; p ero si las diferencias son pequeñas, en cam ­
bio, podem os e sta r en condiciones de n o atrib u irles m ucha sig­
nificación p ráctica, au n en el caso en que hayam os obtenido signi­
ficación estadística. Sin em bargo, la m era com paración de las
m edias de las categorías puede re su lta r equívoca, a m enos de
o b serv ar tam bién el grado de hom ogeneidad en el in terio r de cada
grupo. P or lo regular, aunque tal vez n o siem pre, n u estro interés
se ce n tra en la m agnitud relativa de las diferencias e n tre las
m edias, en com paración con las diferencias en el in terio r de
las categorías. E n o tro s té rm in o s : deseam os o b ten er u n a m edida
del grad o en que las categorías son hom ogéneas en com paración
con la v ariabilidad to tal en la variable de la escala de intervalo.
Si las categorías son p erfectam ente hom ogéneas, la asociación
en tre las dos variables será com pleta, y sabiendo la categoría a
la que u n individuo pertenece, podem os p re d ecir su m arc a exac­
tam ente.
Se h an d esarro llado varias m edidas b ásicam ente in tercam b ia­
bles de asociación, que se sirven de las sum as de cuadrados total,
" e n tre ” y "d en tro ", o b ien de las apreciaciones de la variancia
basadas en dichas sum as de cuadrados. La razón de correlación
E z, la m ás sim ple ta l vez de dichas m edidas, co m porta to m ar la
razón de la sum a de cuadrados explicada, con respecto a la total.
Así, p u es:
SC explicada
SC “e n tre ”
(X V I.9)
E* = --------- -----------= ------------------SC total
SC total
Según verem os en el próxim o capítulo, la in terpretación de la ra ­
zón de correlación es d irectam en te análoga a la de la correlación
producto-m om ento corriente, salvo p o r su falta de signo, y nos
servirem os de dicha m edida p a ra verificar la no linealidad de la
relación en tre dos escalas de intervalo.
La razón de correlación, sin em bargo, es ligeram ente sesgada.
El lecto r reco rd ará que la desviación e stá n d a r de la m uestra, o
variancia, tiende a su b estim ar la desviación están d a r o variancia
de la población, siendo el grado de sesgo relativam ente im p o rtan ­
te en el caso de m u estras pequeñas. De ahí que. en el denom ina­
d or nos sirviéram os de N — 1, en lugar de N , con o bjeto de ob­
ten er u n a estim ación insesgada. Y en form a análoga, cuando el
núm ero de casos de cada categoría se hace relativam ente peque­
ño, el valor esperado de la variabilidad en el in terio r de cada
m u estra tenderá, en com paración con la desviación están d ar s, a
ser m en or que la de la población. Con o b jeto de corregir en
relación con un sesgo correspondiente en la razón de correla­
ción, podem os ob ten er lo que se designa com o la razón de corre­
lación insesgada, sirviéndonos de los grados de lib ertad adecua­
dos y operando directam ente con las estim aciones de la variancia
y no con las sum as de cuadrados.
La fó rm u la de la razón de correlación insesgada e2 re su lta ser
la siguiente:
=
(XVI.10)
en donde V w y V t figuran en lu g ar de las estim aciones in te rio r y
to tal respectivam ente. Si bien n o hem os ten id o necesidad h asta
el p re sen te d e calcular la estim ación total, su valor p u ed e con
todo o b ten erse fácilm ente dividiendo la sum a d e cu ad rad o s to tal
p o r N — 1. E n el ejem plo n um érico del que nos hem os servido,
los valores de E y e son respectivam ente (véase el cu ad ro XVI.3,
p, 342).
42.303
„
£ = .34
E 2 = ------------= .113
373.538
15.773
e2 = 1 ------------------ = .029
373.538/23
e = .17
O bsérvese q ue el valor de e es m ás pequeño q u e el d e E .
Una m ed id a de asociación algo m ás c o rrien te es la del coefi­
ciente de correlación intraclase. E sta m edida d eriva su nom bre
del hecho d e q u e b ásicam ente co m p o rta u n a correlación de m o­
m en to-producto e n tre todos los p ares posibles d e casos dentro de
las categorías d e la variable de la escala no m in al.7 Al igual
q u e las dem ás m edidas exam inadas en esta sección, el coeficiente
de co rrelación d en tro de las clases, r¿, puede co n sid erarse tam ­
bién com o m ed ida del grado de hom ogeneidad de las clases en
relación con la variabilidad to ta l en la escala de intervalo. Su
fó rm u la es com o sig u e :
r¡ = ____V * ~ V ”-----Vt + ( ñ - í ) V „
(X V I.ll)
en donde V t y V w son las estim aciones e n tre clases ( b — betw een)
y d en tro de las clases (w = w ith in ) respectivam ente, y n re p re­
sen ta u n n ú m ero de casos prom edios en cad a clase. U na fórm ula
altern ativ a p a ra averiguar ri en función de F es la sig u ien te:
i*í
F —1
= F + ( k —1)
Si el n ú m ero de casos en cad a clase es el m ism o, n o existe p ro ­
blem a, p o r supuesto, en c u a n to al v alo r de n. E n el caso d e cla­
7
D e s p u é s d e l e íd o e l c a p í tu lo x v n e l l e c t o r p o d r á e v e n tu a l m e n te c o n s u l­
t a r [5] para d a r s e c u e n t a d e l c a r á c t e r p r e c i s o d e l a r e l a c ió n e n t r e e s t a s d o s
m e d id a s .
ses desiguales, en cam bio, p u ed e em plearse u n a sim ple m edia
aritm ética p a ra o b ten er el valor en cuestión. H aggard [5 ] reco­
m ienda u n a clase algo d istin ta de v alo r pro m ed io que h a b rá que
utilizar siem pre que el n ú m ero de casos varíe considerablem ente
de u n a categoría a o tra. Su fó rm u la p a ra el cálculo de ñ e s :
en donde
re p re se n ta el núm ero de casos de la categoría z-ésima
y k el n ú m ero de categorías. E n n u e stro ejem plo num érico todas
las categorías son de la m ism a m ag n itu d y, p o r consiguiente,
ñ = 8.
Así, pues,
=
2 1 .1 5 2 - 15.773
5.379
21.152 + 7(15.773)
131.563
= .041
P ueden o b servarse algunas propiedades del coeficiente de co rre­
lación in traclase. Si las categorías son to d as ellas p erfectam en te
hom ogéneas, no h a b rá variación d e n tro de las clases (es decir,
Vw = 0)> y el valor de r { será de + 1.0. E n el caso extrem o opues­
to, supóngase, p o r el co n trario , que to d a la variación tien e lugar
d en tro de las clases y q u e las m edias d e las categorías son exac­
tam en te iguales. E n este caso,
desaparecerá, y el lím ite infe­
rio r se rá :
1
-V *
(ñ-l)V w
n —í
Así, pues, el lím ite in ferio r no es — 1.0, excepto en el caso espe­
cial en q ue se tenga u n prom edio de 2 casos en cada clase. N or­
m alm ente, p o r lo tan to , el lím ite in ferio r s e rá m enor que la un i­
dad en v alo r absoluto. De hecho, esto ra ra m e n te nos preocupa, ya
que pocas veces encontram os categorías que sean sustancialm en­
te m enos hom ogéneas d e lo que se esp e ra ría p o r azar. C uando las
apreciaciones "en tre " y " d e n tro ” son exactam ente iguales, o sea
cuando el v alo r de F es igual a la unidad, entonces r< será cero.
Así, pues, Ti = 0, cuando las categorías son exactam ente ta n ho­
m ogéneas com o se e sp e raría p o r azar, si no h u b iera relación al­
guna e n tre las dos variables. P or lo regular, los valores de
se
situ a rá n e n tre 0 y 1.0. P o r desgracia, no parece ex istir in te rp re ­
tación sencilla alguna d e los valores de r, e n tre dichos lím ites.
*
La noción d e correlación in traclase p u ed e generalizarse fácil­
m en te p a ra a b a rc a r el análisis de variancia d e dos form as. En
aquellas situaciones en las que nos serviríam os del térm in o de
e rro r en el d enom inador de F, podem os o b ten er u n a m edida del
grado de correlación e n tre la variable de las colum nas y la escala
de intervalo, con control en relación con la variable d e las hile­
ras, tom ando com o
la estim ación e n tre colum nas y sustituyen­
do V w p o r el térm in o del erro r. Y en form a análoga, podríam os
to m ar la estim ación e n tre hileras com o V it con lo q u e o b ten d ría­
m os u n a m edida del grado de asociación en tre la escala de in­
tervalo y la variable de las hileras, después de re sta d a la variación
debida a la variable de las colum nas. Como verem os en el capí­
tu lo xix, este procedim iento es directam ente análogo a lo que
hacem os al o b ten er correlaciones “parciales” e n tre dos escalas
de intervalo, con control en relación con u n a te rc e ra escala de
intervalo.
G
losario
Razón de correlación
Variación explicada e inexplicada
Homoscedasticidad
Interacción
Correlación intraclase
Comparaciones ortogonales.
E j e r c ic io s
1. Como quiera que la prueba F puede utilizarse para probar la hipó­
tesis nula de que tenemos dos estimaciones independientes de la mis­
ma variancia, podemos servimos de la misma para verificar el supues­
to de que
= <r2 en problemas de diferencia de las medias. Ya que
por lo regular no será posible anticipar cuál valor de s2 será el mayor,
tomamos la razón del mayor al m enor y duplicamos el valor de la
probabilidad dado en el cuadro F. Teniendo presentes estos hechos,
tómense los datos del ejercicio 1, capítulo x i i i , y verifiqúese la hipóte­
sis de que = o2. Respuesta, F = 1.75, no rechazo al nivel .10.
2.
Supóngase que los datos expuestos más abajo representan los in­
gresos de los presidentes de los consejos de administración de diver­
sos tipos de organizaciones locales. Se han seleccionado al objeto al
azar cinco organizaciones de cada tipo, tanto de localidades grandes
como pequeñas, obteniendo en consecuencia números iguales de ca­
sos en cada subclase.
a) Empléese el análisis de variancia en dos formas con objeto de
verificar la existencia de una relación entre el tipo de organiza
ción y los ingresos de los presidentes de consejos de administra­
ción, dejando de lado la extensión de la ciudad. ¿Cuáles son los
valores de E y e? Respuesta, F = 4.97; E = .52; e = .47.
*b) Utilizando el análisis de variancia, de dos tipos ¿qué puede de­
cirse acerca de la relación entre el tipo de organización y el in­
greso, controlando en relación con la extensión de la localidad?
¿Cómo se comparan estos resultados con los de aj? Respuesta,
para la interacción, F = 3.52, rechazo al nivel de .05.
c) C a l c ú l e s e l a r e l a c i ó n i n t r a c l a s e d e l o s a p a r t a d o s a) y *b).
Tamaño
de la
localidad
Tipo de organización
Religioso
$ 13 00 0
G ra n d e
P equeño
Social
Civil
11500
17 300
19 100
16700
$ 1 5 00 0
10600
12 30 0
11400
10 800
$ 2 0 800
18 100
14 600
22300
16 500
15 0 0 0
12 300
13 900
14 300
11700
9 30 0
10400
12 90 0
11000
9100
14 4 0 0
10 80 0
9 700
12300
13 100
3. T r a n s f ó r m e n s e l o s d a t o s d e l e j e r c i c i o 2 r e l a t i v o s a l i n g r e s o e n
r a n g o y , u tiliz a n d o la p r u e b a d e K ru s k a l-W a llis , in v e s tig ú e s e s i e x is te
o n o r e la c ió n e n tr e e l tip o d e o rg a n iz a c ió n y e l in g re s o :
a ) P r e s c i n d i e n d o d e l t a m a ñ o d e l a l o c a l i d a d . R e s p u e s t a , H = 9 .2 ;
r e c h a z o a l n i v e l .05.
b) C o n t r o l a n d o e n r e l a c i ó n c o n e l t a m a ñ o .
4. U t i l i c e l o s d a t o s d e l e j e r c i c i o 2, y s u p o n g a q u e l a s c o m u n i d a d e s
h a n s i d o o r g a n i z a d a s e n tríos d e a c u e r d o c o n s u t a m a ñ o , h a b i e n d o
d ie z d e a q u é llo s . L a s o r g a n iz a c io n e s e n l a h i l e r a s u p e r io r ( c o n in g r e ­
s o s d e $ 13 0 0 0 , $ 1 5 0 0 0 y $ 2 0 8 0 0 ) , r e p r e s e n t a n l a s l o c a l i d a d e s m a y o r e s ;
la s d e la s e g u n d a h ile r a , la s s ig u ie n te s e n ta m a ñ o , y a s í s u c e s iv a m e n te .
U tilíc e s e la p r u e b a d e F r ie d m a n p a r a h a l l a r la r e la c ió n e n tr e tip o d e
o r g a n i z a c i ó n e i n g r e s o s d e l p r e s i d e n t e ( a n i v e l .0 5 ).
*5. E l a n á l i s i s d e v a r i a n c i a p u e d e p r a c t i c a r s e l o m i s m o c o n d a t o s
a g r u p a d o s q u e s in a g r u p a r . C o n o b je to d e r e d u c ir la c o n fu s ió n , lo m á s
s e n c illo s e r á s e r v i r s e d e l a s e c u a c io n e s ( X V I.4 ) y ( X V I.5 ) , s in m o d i ­
fic a r, p e ro re c o rd a n d o , s in e m b a rg o , q u e e n el c a s o d e d a to s a g ru p a ­
d o s tr a ta m o s la s m a r c a s c o m o s i e s tu v ie ra n c o n c e n tr a d a s e n lo s p u n ­
to s m e d io s d e lo s in te r v a lo s . T e n ie n d o e n c u e n t a e s ta s in d ic a c io n e s ,
e f e c t ú e s e u n a n á l i s i s ú n i c o d e v a r i a n c i a c o n l o s d a t o s d e l e j e r c i c i o 2,
c a p ítu lo x m . A títu lo d e c o n tr o l d e lo s c á lc u lo s , ¿ c ó m o s e c o m p a r a n
e n t r e s í lo s v a lo r e s d e F y f?
6. U t i l i z a n d o l o s d a t o s d e l e j e r c i c i o 2 a n t e r i o r :
a ) Ig n o ra n d o el ta m a ñ o d e la lo c a lid a d , b ú s q u e s e la s ig n ific a c ió n d e
b)
c)
la d if e r e n c ia e n tr e e l in g r e s o m e d io d e lo s p r e s id e n te s d e la s o r ­
g a n iz a c io n e s re lig io s a s y la s d e lo s c o rre s p o n d ie n te s a la s o rg a ­
n iz a c io n e s s o c ia le s y c iv ile s c o m b in a d a s .
¿ Q u é c o m p a ra c ió n r e s u lta r ía o rto g o n a l c o n la h e c h a e n a ) ?
S u p ó n g a s e q u e te n e m o s s e is tip o s d e o r g a n iz a c io n e s ( r e lig io s a s
e n lo c a lid a d g r a n d e , r e lig io s a s e n lo c a lid a d p e q u e ñ a , s o c ia l e n
localidad grande, etcétera). ¿Cuántas comparaciones mutuamen­
te ortogonales serían posibles? Hállese un grupo específico del
anterior núm ero de comparaciones que sean m utuam ente ortogo­
nales, comprobando que así es el caso.
B ibliografía
1. Anderson, R. L., y T. A. Bancroft: Statistical Theory in Research,
McGraw-Hill Book Company, Nueva York, 1952, caps. 17 y 18.
2. Blalock, H. M.: "Theory Building and the Statistical Concept of
Interaction”, American Sociological Review, vol. 30, pp. 374-380,
1965.
3. Bradley, J. V.: Distribution-free Statistical Test, Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1968, cap. 5.
4. Dixon, W. J., y F. J. Massey: Jntroduction to Statistical Analysis,
2“ ed., McGraw-Hill Book Company, Nueva York, 1957, cap. 10.
5. Haggard, E. A.: Intraclass Correlation and the Analysis of Varíance, The Dryden Press, Inc., Nueva York, 1958, caps. 1-5.
6. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, cap. 22.
7. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc. Nueva
York, 1963, caps. 11-14.
8. Johnson, P. O.: Statistical Methods in Research, Prentice-Hall,
Inc. Englewood Cliffs, N. J., 1949, caps. 10 y 11.
9. Kirk, R. E.: Experimental Design: Procedures for the Behavioral
Sciences, Brooks/Cole Publishing Company, Belmont, Cal., 1968,
cap. 3.
10. Siegel, S.: Nonparametric Statistics for the Behavioral Sciences,
McGraw-Hill Book Company, Nueva York, 1956, pp. 166-172, 184-193.
11. Walker, H. M., y J. Lev: Statistical Inference, Henry Holt and
Company, Inc., Nueva York, 1953, cap. 14.
E n e l p resen te capítulo y en el siguiente exam inarem os la re la­
ción e n tre dos escalas de intervalo. La extensión a tres o m ás
variables de escala de intervalo se verá en el capítulo xix, al tra ­
ta r de la correlación m ú ltip le y parcial. De m om ento, considera­
m os situaciones en las que tenem os dos m edidas de escala de
in tervalo p o r cada individuo. Así, p o r ejem plo, podem os conocer
el n úm ero de años de enseñanza com pletados y el ingreso anual
de los varones adultos de u n a localidad determ inada. O puede
in tere sa m o s relacionar el p o rc en taje de m ano de o b ra em pleado
en la in d u stria con el crecim iento dem ográfico de u n a población.
E n algunos problem as de esta índole nos interesam os a m enu­
do no sólo en las pru eb as de significación y las m edidas de gra­
dos de relación, sino q u e podem os tam b ién q u erer d esc rib ir la
naturaleza de la relación en tre las dos variables, de m odo que,
conociendo u n a de ellas, podam os an ticip ar la otra. Así, p o r
ejem plo, podem os q u erer p red ecir el ingreso fu tu ro de u n a p e r­
sona sobre la b ase d e su instrucción, o la tasa de crecim iento
de u n a ciudad a p a r tir del p o rc en taje de su m an o de o b ra em ­
pleada en la in d u stria. C uando el in teré s se ce n tra an te to d o en
la ta re a exploradora de e n c o n tra r cuáles variables se relacionan
con u n a variable determ inada, nos interesam os p o r lo regular
p rincip alm en te p o r las m edidas de grados o fuerza de las re la­
ciones, tales com o los coeficientes de correlación. P or o tra p a r­
te, u n a vez halladas las variables significativas, propendem os a
d irig ir n u e s tra atención al análisis d e regresión, en el que in ten ­
tam os p re d ecir el v alor exacto de u n a variable a p a r tir d e la o tra .
Si b ien el lecto r ya está fam iliarizado con las p ruebas de sig­
nificación y las m edidas de asociación, recom iéndase, con todo,
em pezar n u estro exam en estudiando el p ro b lem a de la predicción.
E sto se debe a que la noción de regresión es a la vez a n te rio r
lógicam ente y m ás im p o rtan te teóricam ente q u e la de correlación^
L a razón d e ello se irá viendo m ás clara a m edida que vayam os
avanzando. D espués de h a b e r exam inado el p roblem a de la p re ­
dicción, dirigirem os n u e stra atención a la m edición de la fuerza
d e la relación. E n el capítulo x v m , que d e hecho re p re se n ta la
continuación del p resen te, exam inarem os diversas p ru e b as de
significación, así com o la correlación del orden de lugares, que
pueden em plearse p a ra relacionar dos escalas ordinales.
X V II.1. R egresión lineal y m ínim os cuadrados
E n cierto sentido, el objetivo ú ltim o de to d as las ciencias es el
d e la predicción. E sto n o im plica, p o r supuesto, que sólo secun377
d ariam en te estem os interesados en com prender o su m in istra r
explicaciones causales de p o r qué dos o m ás variables se relacio­
n an com o lo hacen. Tal vez sea m ás acertad o decir que la com ­
pren sió n co nstituye el objetivo final y que, en la m edida en que
la com prensión se va perfeccionando, la predicción se hace cada
vez m ás p recisa. Es posible que si la com prensión fu e ra com­
p leta la pred icción p erfec ta sería tam b ién posible siem pre que
se conociera asim ism o cierta inform ación factu al necesaria. P or
ejem p lo : si u n o conoce las leyes del m ovim iento d e los planetas,
el cam po g rav itato rio d en tro del sistem a solar, y la posición y la
velocidad d e V enus en determ in ad o m om ento, p o d ría p re d ecir
su m ovim iento fu tu ro . Sin em bargo, independientem ente de las
im plicaciones filosóficas de sem eja n te p u n to de v ista determ i­
n ista, lo cierto es que la predicción constituye el objetivo de toda
ciencia.
E n sociología y en o tra s ciencias sociales, los enunciados predictivos se fo rm u lan a m enudo, p o r necesidad, en fo rm a relati­
vam ente b u rd a. P o r lo reg u lar esto se debe a que no hem os al­
canzado el nivel d e m edición de la escala de intervalo. Así, p o r
ejem plo, po d ríam os p re d ecir que cuanto m ás elevada sea la posi­
ción de u n a p erso n a en el grupo, ta n to m ayor será su confor­
m ación a las n o rm as de éste. S em ejante enunciado n o necesita
im plicar causalidad en u n a sola form a, sino que a firm a sim ple­
m en te que la posición y la conform idad se relacionan d e m odo
positivo. E stableciendo u n a analogía con u n a term inología m ate­
m ática q ue n o es estricta m e n te correcta, decim os que la posi­
ción es u n a fu n ció n de la conform idad, o que la conform idad es
u n a función d e la posición, eludiendo la cuestión d e la causali­
dad. Obsérvese, sin embargo-, que hem os dicho m uy poco acerca
de la fo rm a de e sta relación, a p a rte de in d icar que es positiva.
Y a m enos que tengam os u n nivel de m edición de escala de in ter­
valo p a ra am b as variables, re su lta efectivam ente m uy difícil de­
cir m ucho m ás.
Supóngase, sin em bargo, que tenem os dos escalas de intervalo.
Se hace entonces posible d esc rib ir m ás exactam ente de qué
m odo u n a de las variables varía con la o tra. Así, p o r ejem plo
podríam os e s ta r en condiciones de decir que, p o r cada añ o de
in strucción recibida, el ingreso a u m en ta rá en f 1 000. Si esto
fu e ra efectivam ente así, ten d ríam o s en re alid ad u n a relació n m uy
sim ple, o sea u n a relación lineal o en línea recta. Sin em bargo,
la m ayoría d e las relaciones no son ni con m ucho ta n sencillas,
pese a que, según verem os, re su lta a m enudo posible ob ten er
una aproxim ación m uy b u en a de la verd ad era relación suponien­
do linealidad. La fo rm a m ás elegante y sencilla de ex p resar una
relación e n tre dos (o m ás) variables es p o r m edio d e u n a ecua­
ción m atem ática. Así, p o r ejem plo, el lecto r e s ta rá fam iliarizado
con ciertas leyes físicas que enuncian u n a relación e n tre la p re­
sión, el volum en y la te m p e ra tu ra (P V /T = k ), o que indican
u n a relación e n tre la razón de aceleración de u n cuerpo al caer,
la d istan cia re co rrid a y la duración del tiem po en que h a estado
cayendo. Podem os tam bién re p re se n ta r cada u n a de e sta s ecua­
ciones m atem áticas com o alguna clase de curva geom étrica. Afor­
tu n ad am en te, en sociología solem os p o r lo regular o p erar con
ecuaciones m uy sim ples y con las curvas m ás sim ples posibles
(re c ta s).
Cuando añadim os m ás variables, no podem os re p re se n ta r tan
fácilm ente las ecuaciones como figuras geom étricas, ya que nos
salim os de las dim ensiones, de lo cual, sin em bargo, no necesita­
m os p reo cu p am o s p o r el m om ento.
Supóngase que hay u n a variable dependiente Y que h a de p re­
decirse a p a rtir de u n a variable independiente X . E n algunos
p roblem as, X p reced erá obviam ente a Y en el tiem po. P or ejem ­
p lo : p o r lo reg u lar u n a persona com pleta su in stru cció n antes
de o b ten er u n ingreso. E n tales casos, sem ejante m an era de re ­
p re se n ta r las cosas re su lta m uy adecuada, pese a que hem os de
p o n er cuidado en n o im plicar u n a relación necesaria o causal,
o que X es la ú n ica variable que influye sobre el valor de Y. Si
la dirección de la causa es am bigua, o si se piensa que cada va­
riab le es causa d e la otra, necesitarem os, si es que deseam os
s u m in istra r u n a explicación teórica de la relación, u s a r u n m é­
todo de ecuaciones sim ultáneas que escapa a este texto. (V éanse
[1], [2 ] y [ 6]. Si n u e stro objetivo es u n a sim ple estim ación o una
predicción a plazo breve de Y a p a r tir de X , no se p re se n ta rá n
tales am bigüedades, aunque deba señalarse u n a vez m ás que no
hay n ad a en las operaciones estadísticas que nos im pida realizar
operaciones m atem áticas teóricam ente carentes de sentido. E n
éste y en los capítulos sucesivos supondrem os que la variable Y,
seleccionada com o dependiente en sentido m atem ático, es asim is­
m o causalm ente dependiente, de m an era que la in terp re tació n
teó rica puede re su lta r relativam ente directa.
Y a vim os que si X y Y son estadísticam ente independientes,
no podem os p re d ecir Y a p a rtir de X o, m ás exactam ente, el co­
nocim iento de X no m ejo ra en n ad a n u e stra predicción de Y . P re­
sum iblem ente, pues, cuando las variables no son estad ísticam en te
independientes, el conocim iento de X sí nos ayuda a p re d ecir Y .
C uanto m ás fu e rte sea la dependencia, ta n to m ás p recisa será
n u e stra predicción. M ás adelante m edirem os la fuerza de esta
relación p o r m edio de coeficientes de correlación. Nos concen­
tram o s de m o m ento en la cuestión acerca d e cóm o predecim os
Y a p a r tir de X . Así, p o r ejem plo, podem os q u erer e stim a r el
ingreso fu tu ro de u n individuo, sabiendo que h a com pletado tre s
años de escuela secundaria. Sin este conocim iento relativo a la
instrucción, n u e stra m ejo r estim ación (suponiendo q u e n o hay
inflación) sería la del ingreso m edio d e todos los varones adul­
tos. E n cam bio, el hecho de conocer su instrucción debería p e r­
m itirn o s o b ten er u n a predicción m ejor.
La ecuación d e regresión. R epresentém onos el p roblem a de la si­
guiente m an era. Nos im aginam os que p a ra cada valor fijo de la
variable in d ep en d ien te X (in stru cc ió n ) tenem os u n a d istribución
de Y (in g reso s). E n o tro s té rm in o s: p a ra cada nivel educacional
O
V»
CP
C3>
*4
*5
Educación
Fig. X V II.l. F orm a general de la regresión de Y sobre X , o curso
de las m edias de los valores de Y para valores fijo s de X.
h ab rá cierta d istrib u ció n de ingresos en la población. No todas
las perso n as q u e h a n term in ad o la escuela secu n d aría ten d rá n
exactam ente los m ism os ingresos, p o r supuesto, p e ro dichos in­
gresos estarán con todo d istrib u id o s alred ed o r de alguna m edia.
Y h a b rá d istribuciones de ingresos sim ilares p a r a los egresados
d e la escuela p rim aria, los de la universidad, los posgraduados,
etcétera. C ada u n a de estas d istin tas distribuciones d e ingresos
(p a ra X d eterm in ad as) te n d rá u n a m edia, y podem os h a c e r u n a
g ráfica de la posición de dichas m edias sirviéndonos del sistem a
fam iliar de las coordenadas rectangulares. D esignam os el curso
re su ltan te de estas m edias de las Y p a ra X fija s com o ecuación
de regresión de Y a X . S em ejante ecuación de regresión puede
verse ilu stra d a en la fig u ra X V II.l.
E stas ecuaciones de regresión son las "leyes” d e la ciencia. En
algunos casos h ay m uy poca d ispersión alrededor de la ecuación
d e regresión. E n tales casos, pueden h acerse predicciones m uy
precisas, y las desviaciones resp ecto de la ley se consideran a
m enudo com o e rro r de m edición o com o resu ltad o de influen­
cias m enores no controladas. La “ley” puede fo rm u larse así com o
si existiera u n a perfecta relación e n tre F y l E n el caso ideal,
se consid eraría que to d o s los p u n to s caen exactam ente en la
curva, y la relación se a b stra e ría com o u n a función m atem ática
p erfec ta e n la que n o hay m ás que u n a sola Y p a ra cada X . En
las ciencias sociales n o podem os se r ni con m ucho ta n exigentes.
E n efecto, esperam os u n a variabilidad considerable alre d ed o r de
la ecuación de regresión, y preferim os p e n sa r en térm inos de m e­
dias y de variancias d e u n a d istribución de Y p a ra cada X . Sin
em bargo, el p ro cedim iento es en p rincipio el m ism o en todas
las ciencias, p ese a que las leyes de las ciencias sociales no sean
ta n precisas com o las d e la física.
E n la fig u ra X V II.l hem os indicado el ca rác te r general de las
ecuaciones de regresión, q u e co m portan los cursos de las m edias
de los valores d e Y p a ra determ inados valores de X . V am os a
te n e r que p ro c ed er ah o ra a algunos supuestos sim plificadores,
con o b jeto de p o d e r tr a ta r el p ro b lem a estadísticam ente. Si bien
la id ea de regresión es perfectam en te general, la m ayoría de la
la b o r estad ística sólo se h a realizado con los m ás sim ples d e los
m odelos. E n p artic u la r, vam os a su p o n er d e m o m en to : 1) que
la fo rm a de la ecuación d e regresión es lineal, 2) que las d istri­
buciones de los valores de Y p a ra cad a X son norm ales, y 3) que
las v arian cias de las distribuciones d e Y son las m ism as p a ra cada
valo r de X . Podem os ah o ra h ac er u n exam en de estos diversos
su p u esto s un o p o r uno, p re sta n d o la m ay o r atención al p rim ero
d e ellos.
Si la regresión d e Y a X es lineal, o sea u n a relación en línea
recta, podem os e sc rib ir u n a ecuación com o sigue:
Y = a + $X
(X V II.l)
en la q ue a y (3 so n constantes. La ecuación (X V II.l) in d ica que
la relación e n tre X y Y es exacta, p ero en brev e hem os d e in­
tro d u c ir en la ecuación u n térm in o de e rro r. U na fo rm a a lte r­
n ativ a d e escrib ir la ecuación es la siguiente: E ( Y \ X ) = a + f i X ;
en la que E ( Y \ X ) pone de relieve que estam os preocupados con
el v alo r esp erado de Y, el que depende de X. H em os utilizado
le tra s griegas, ya que d e m om ento tra ta m o s de la población total.
E n u n a ecuación de e sta clase, ta n to a com o f? tienen in te rp re ta ­
ciones geom étricas definidas. Si ponem os X igual a cero, vem os
que Y = a. P o r consiguiente, a re p re se n ta el p u n to en donde la
línea de la regresión c o rta el eje de las Y (o sea, allí donde X = 0 ).
La inclinación de la línea de la regresión está d ad a p o r ¡3, ya
q u e esta co n stan te in d ica la m ag n itu d del cam bio de Y p a ra u n a
u n id a d de cam bio e n X. E l hecho de que la relación sea lineal
significa que to d o cam bio de X, digam os en 5 unidades, produce
siem pre el m ism o cam bio en Y (e sto es, 5<3 unidades, indepen­
d ien tem en te de la posición sobre el e je d e X. (véase fig. X V II.2).
E l lecto r h a d e convencerse p o r sí m ism o q u e si (3 = 1 y si las uni­
dades de X y Y están indicadas p o r distancias iguales a lo largo
de los respectivos ejes, la línea de regresión fo rm a rá u n ángulo de
45 grados con el eje de las X. U na (3 m ayor que la u n id ad indica
u na p en d ien te m ás rápida. C uanto m ás ráp id a sea la pendiente,
tan to m ayor es el cam bio de Y p a ra u n cam bio dado de X. Y en
fo rm a análoga, si {3 es m enor que la un id ad pero m ayor que cero,
se re q u e rirá u n cam bio m ayor de X p a ra p ro d u c ir u n cam bio
dado en Y. E n el caso lím ite, en que la línea es horizontal, (3 se
hace cero, y los cam bios de X no producen cam bios de Y. E n
otros térm inos, si (3 = 0, no existe relación lineal e n tre X y Y.
El conocim iento de X no nos ayuda a predecir Y, si se supone
un m odelo lineal.1 Si (3 es negativa, sabem os que se d a u n a rela­
ción negativa e n tre las dos variables, y que m ientras X crece,
Y decrece.
Una línea re c ta puede d eterm in arse siem pre p o r com pleto si
conocem os ya sea dos puntos de la línea o un p u n to y la pen­
diente. P o r lo tan to , no hay m ás que u n a sola línea de ecuación
Y = a + (3A', a condición, p o r supuesto, que se considere a a y |3
como can tid ades fijas (pero generales). Si a y p están dadas,
podem os tra z a r la recta tom ando sim plem ente dos p untos d e la
misma. Sabem os que cuando X = 0, Y = a. P or consiguiente,
el punto (0, a ) se sitúa en la recta. Y así tam bién, cuando Y = 0,
tenem os 0 = a + fSX o X = -a /|3 . E ste punto (-a /{ 3 ,0) es, p o r su­
puesto, el p u n to en donde la línea co rta el eje de las X. Si no
i S e g ú n v e r e m o s m á s a d e la n te , la in d e p e n d e n c ia e s ta d ís tic a a s e g u r a q u e
p se a c e r o , p e r o n o s e s ig u e n e c e s a r i a m e n te d e a h í que s i
es c e ro te n g a ­
m o s in d e p e n d e n c ia .
conviene servirse de dichos dos p untos, pueden d eterm in arse
otro s dos p u n to s cualesquiera p o r el m ism o p ro ced im ien to .2
S u p u esto s acerca de X y el térm ino de perturbación. H asta
ah o ra n o hem os tra ta d o en form a explícita el hecho de que, pues­
to que h a b rá dispersión alred ed o r de la ecuación de regresión,
h ab rem o s de re p re se n ta r el valor real d e Y p a ra cada individuo
m ediante u n a ecuación que contenga u n térm in o de p ertu rb ació n
o d e e rro r que es ú nico p a ra cada individuo. Si suponem os que
Y i y X i se refieren a las puntuaciones correspondientes al i-ésimo
individuo, p o drem os re p re se n ta r la relación (lin eal), com o sigue:
Y i = a + ¡3X¡ + ei
en la que e{ re p resen ta el térm ino de p ertu rb ació n , cuyo com por­
tam ien to necesitam os estu d iar. Podem os concebir este térm ino
com o si contuviera el e rro r de m edición en Y (p e ro n o en X ),
y com o re su lta n te de todas las varias causas de Y que n o h an sido
llevadas a la ecuación de u n a m an era explícita. Si la m ayor p a r­
te de estas causas om itidas tienen individualm en te u n efecto
m enor, y si adem ás están operando casi independientem ente
e n tre ellas, será razonable su p o n er que el valor esperado co rres­
po n d ien te al fa c to r de p ertu rb ació n E (e {) será igual a cero, y
que e¡ e sta rá d istrib u id o en fo rm a aproxim adam ente norm al.
Lo que re su lta m uy im p o rtan te es el hecho d e que el fa c to r de
p ertu rb ació n será estad ísticam en te in d ep en d ien te de X . R esulta
que al u s a r m ínim os cuadrados p a ra e stu d ia r los coeficientes de
regresión a y |3, es necesario suponer q u e E( e ) = 0, y que X t y
no están relacionados. La suposición de norm alidad, m ás la su­
posición de hom oscedasticidad, de que oe2 es co nstante a trav és
de todos los niveles de X será n ecesaria en las pru eb as de signi­
ficancia y p a ra la determ inación de los lím ites de confianza.
El su p u esto fu n d am en tal que subraya él uso del análisis de
regresión es el d e que X sea independiente del fa cto r d e erro r.
E n aplicaciones experim entales nos encontram os con frecuencia
en la posibilidad d e elegir niveles fijos de X ( como, p o r ejem plo,
cuando m antenem os constantes de te m p e ra tu ra a intervalos de
50 g rad o s). E n tales casos, pu esto q u e el nivel de X está b ajo
n u estro co n tro l y se p re su m e q u e no es m anipulado en fo rm a
que v aríe sistem áticam ente con el fa c to r de p ertu rb ació n , será
ra ro p reo cu p arse con este supuesto concreto. Un m om ento de
reflexión nos convencería, sin em bargo, de que en m uchas situ a­
ciones experim entales incluso este su p u esto es inocente, ya que
al m an ip u lar X u n o puede in ad v ertid am en te afectar o tro s facto ­
res q u e se q u ed aron fu e ra d e la ecuación y contenidos p o r lo
tan to en el facto r de pertu rb ació n .
E n la investigación n o experim ental se tom a tan to a las X com o
2
Véase
u n e je m p lo n u m é r i c o e n la p á g i n a 392.
a las Y com o observadas y n o com o m anipuladas, siendo p o r lo
ta n to X y Y variables aleatorias, o lo que se denom ina variables
estocásticas, las que tienen u n a distribución de probabilidad.
E n algunos casos la distrib u ció n de X será aproxim adam ente
norm al, au n q u e esto no es necesario en el caso del análisis de
regresión. Lo que resulta esencial, sin em bargo, es el fo rm u lar
algunos su p u estos acerca de la distribució n c o n ju n ta de X i y el
fa cto r d e p e rtu rb ació n e { . Si tuviéram os a priori razones sólidas
p a ra especificar alguna d istribución p artic u la r, esto resu ltaría
suficiente, p e ro en la p rá ctica se carece siem pre d e ta l inform a­
ción. Con m u ch a frecuencia suponem os que X¡ y e¡ son estadís­
ticam en te independientes, su puesto que re su lta rá justificado si
las causas de Y om itidas son, 1) num erosas, aisladam ente sin
im portancia, y no m uy interrelacionadas, o 2) sin relación con X
en situaciones en las q u e predom inan uno o dos de los factores
om itidos. Si u n o n o está disp u esto a h acer ta l suposición en
algún caso p artic u la r, d eb erá tr a ta r de id en tificar los m ayores
factores p e rtu rb a d o re s que h ayan sido om itidos, introduciéndo­
los explícitam ente en la ecuación corno variables adicionales. En
el capítulo xix exam inarem os la regresión m últiple, en la q u e han
sido incluidos tales factores causales adicionales.
Una de las ventajas de la te o ría estad ística del análisis d e re ­
gresión co n siste en que está lo suficientem ente d esarro llad a com o
p a ra q ue tales supuestos acerca del com portam iento de los facto­
res de p ertu rb ació n resu lten explícitos. R esu ltará bien claro que
lo que hem os dicho acerca del com portam iento de las variables
om itidas se aplica igualm ente bien a todos los procedim ientos que
h asta aquí hem os exam inado. Si se encuentra, p o r ejem plo, u n a
diferencia estad ísticam en te significativa en m edias o proporcio­
nes, y si se desea a trib u ir u n a explicación causal a la variable in­
dependiente (p o r ejem plo, sexo) e n esta relación, h a b rá que supo­
n er tam bién que los factores om itidos no están sistem áticam ente
relacionados con la escala nom inal dicotom izada (p o r ejem plo
sexo). No es posible soslayar supuestos acerca de variables om i­
tid as cam biando sim plem ente el tip o del análisis y confiando
en que así d esaparecerá el problem a.
Ya se in dicó m ás a rrib a que p a ra las p ruebas de significación
hem os de su p o n er que las Y están distrib u id as norm alm ente
alred ed o r de cada valor de X . P ara las X estocásticas conven­
d rá tam b ién su p o n er q u e p a ra cad a valor fijo de Y las X están
asim ism o d istrib u id as norm alm ente. Decimos que la distribución
co n ju n ta de X y Y es u n a d istrib u ció n norm al bivariable, lo que
significa que hay dos variables, cad a u n a de las cuales está dis­
trib u id a alred ed o r de la o tra en fo rm a norm al. S em ejante d istri­
bución n o rm al bivariable tiene u n a ecuación m atem ática definida
y puede re p resen ta rse com o u n a superficie tridim ensional, com o
en la fig u ra XVII.3. La a ltu ra de la superficie en u n punto
dado (X , Y) es pro porcional al núm ero de casos en el m ism o. Así,
pues, se req u iere u n diagram a tridim ensional p a ra re p resen ta r
la d istrib u ció n co n ju n ta e n tre X y Y , del m ism o m odo que nece­
sitábam os dos dim ensiones p a ra re p re se n ta r la distribución de
frecuencia de la X sola. La form a exacta de esta figura, que se
Fig. XVII.3. La d istribución norm al bivariable. (Con autoriza­
ción de A. M. Mood, In tro d u ctio n to th e T heory o f Sta tistics,
McGraw-Hill Book Company, Inc., N ueva York, 1950,
fig. 41, p. 165.)
parece m ucho a u n casco de bom bero, depend erá de cuán cerca­
n am ente estén relacionadas las variables e n tre sí.
Si am bas variables se h a n expresado e n térm inos de unidades
de desviación están d a r, entonces, cu an to m ás relacionadas estén
las variables tan to m ás angosto será el casco. E n el caso extrem o,
en el que Y puede p redecirse exactam ente a p a rtir de X y, p o r
consiguiente, todos los p u n to s están exactam ente en la ecuación
de regresión, las desviaciones están d a r de las Y p ara cada X se­
rían cero, y el casco n o ten d ría grueso alguno. P or o tra p a rte , si
no ex istiera relación alguna en tre X y Y, la b ase del casco sería
m ás ap roxim adam ente circular. C ualquier plano perp en d icu lar al
p lan o X Y co rta ría la superficie en u n a curva norm al. E n ta n to
que u n p lano paralelo al plan o X Y c o rta rá el casco en u n a elipse.
La d istrib u ció n n orm al bivariable posee la propiedad de que la
reg resió n de Y a X sea lineal. P or lo tan to , si tenem os u n a dis­
trib u ció n n o rm al bivariable, sabem os que, si trazam os las m edias
de las Y p a ra cada X, el re su ltad o será u n a recta, No se sigue de
ahí, sin em bargo, que si la regresión es lineal, la distribución
co n ju n ta sea n ecesariam ente norm al bivariable.
E n el caso de las p ru e b as de significancia necesitarem os tam ­
bién su p o n er que las desviaciones está n d a r de las Y p a ra cada X
son las m ism as, independientem ente del v alo r d e X . E ste su­
p u esto se ex am inará en conexión con el te m a d e la correlación,
ya que ésta es esencialm ente u n a m edida de dispersión alrededor
de la lín ea d e regresión. De m om ento b asta, con todo, señalar
que si la d istrib u ció n co n ju n ta es n o rm al bivariable, las desvia-
Fig. XVII.4. Diagrama de dispersión y recta d e m ínim os
cuadrados.
ciones e s tá n d a r de las Y p a r a ca d a X serán de hecho to d as idén­
ticas. E sta p ro p ied a d de v arian cias iguales se designa com o
hom oscedasticidad y es análoga al su p u esto hecho en el análisis
de v arian cia d e que ai = c2 — • • • = <*&•
M ínim os cuadrados lineales. El m odelo de regresión que h e­
m os estad o exam inando es m ás bien sencillo en sus conceptos,
p ero no es p o r desgracia d irec tam en te ú til en su fo rm a teórica.
Es ra ro , en efecto, q u e tengam os suficientes casos p a ra exam inar
la d istrib u ció n d e las Y p a ra valores fijos sucesivos d e X . Con
m ayor frecu en cia encontram os que hay relativam ente pocos ca­
sos en los que las X sean idénticas o aproxim adam ente tales. Si
hacem os u n a gráfica de la d istrib u ció n de los casos alrededor
de los ejes d e las X y las Y e n la fo rm a convencional, en co n tra­
m os p o r lo re g u la r tina d ispersión d e p u n to s com o la que se
indica en la fig u ra XVII.4. Y si hacem os u n a gráfica de la d is­
trib u ció n de los p u n to s en e sta form a, obtenem os lo que se de­
signa com o esquedogram a o diag ram a de dispersión. El estu d ian ­
te h a d e aco stu m b rarse a d ib u ja r u n diagram a d e dispersión
an tes de p ro c ed er al análisis u lterio r. La m era inspección del
diagram a en cuestión, en efecto, puede acaso in d icar que no tiene
o b jeto seguir adelante. Así, p o r ejem plo, si los puntos aparecen
en el diagram a com o si estuvieran d istribuidos al azar, re su lta
claro que no existe relación, o sólo u n a relación m uy débil, en tre
las dos variables.
Una vez fijad as las m arcas en u n diagram a de dispersión, po­
dem os q u erer acercarnos a dichos p u n to s p o r m edio de alguna
clase de cu rva q ue sea la m ás adecuada. U na de las m an eras de
hacerlo es tra z a r u n a curva (en el p re sen te caso una re c ta ) p o r
inspección. Sin em bargo, existen p a ra ello m étodos m ás preci­
sos. Uno de éstos es el m étodo de los m ínim os cuadrados, que
se exam inará en la p re sen te sección. N uestro objetivo es ah o ra
algo d istin to del objetivo del análisis de regresión, en el que
trazábam os el cu rso d e la m edia d e las Y . Aquí, en efecto, que­
rem os apro x im am o s a cierto núm ero d e p untos p o r m edio de
u n a cu rva de m e jo r adaptación.
Con o b jeto de serv im o s de la teo ría de los m ínim os cu ad ra­
dos, hem os d e p o stu la r la fo rm a de la curva a utilizar en la adap­
tación d e los datos. E n el caso del análisis de regresión, la
fo rm a de la cu rva se h allaría p ro p iam en te d eterm in ad a p o r el
curso de las m edias, suponiendo que se dispone de datos re la ti­
vos a la población en tera. Vamos a to m a r u n a vez m ás la curva
m ás sim ple posible, la recta, com o curva d e nu estro s m ínim os
cuadrados. E sto significa que hem os d e a d a p ta r los datos a una
re c ta d e m e jo r aju ste, conform e al crite rio de los m ínim os
cuadrados, obteniendo u n a ecuación de la fo rm a :
Y = a + bX
(X V II.2)
R esu ltará así que la a y la b obtenidas con este m étodo son las
apreciaciones insesgadas m ás eficaces d e los p arám etro s d e la
población, a y p, si la ecuación d e regresión es efectivam ente u n a
re cta y si suponem os : 1) M uestreo al azar, 2 j Que E ( e{) = 0, y
3) Que X{ y
son estadísticam ente independientes.
N u estro criterio d e los m ínim os cuadrados com porta h a lla r la
única re c ta que posee la pro p ied ad de que la sum a de los cua­
d rados de las desviaciones de los valores reales de Y respecto de
dicha re c ta sea m ínim a. Así, p o r ejem plo, si trazam os líneas
verticales d e los p u n to s a la línea de los m ínim os cuadrados"^
y si elevam os al cuadrado dichas distancias y las sum am os, la
sum a re su ltan te será m en o r que la su m a correspondiente de cua­
d rad o s a cu alq u ier o tra re c ta posible (véase la figura X V II.5).
O bsérvese que son las distancias verticales, y no las perpendicu­
lares o las horizontales las que aquí se consideran. S ería posi­
ble m inim izar la sum a de los cuadrados de las distancias p er­
p endiculares (d esignada com o sum a ortogonal de los m ínim os
cu ad rad o s), p e ro las ecuaciones de ello resu ltan tes no son ni
con m u ch o ta n p rácticas. Y si se em plearan las distancias ho­
rizontales, la re c ta de m ínim os cu adrados re su lta n te p o d ría u ti­
lizarse p a ra ap re c ia r la regresión d e X a Y. E l lecto r h a de
convencerse p o r sí m ism o q u e m inim izar la su m a de cuadra­
dos de las d istan cias verticales n o m inim iza necesariam ente
la su m a de cu adrados de las d istancias horizontales. Así, pues,
i g . X V I I . 5 . E cuación de m ín im o s cuadrados, que m in im iza las
sum as de los cuadrados de las distancias verticales y estim a la
regresión de Y sobre X .
F
p odem os o b te n e r v arias líneas de m ínim os cu ad rad o s distin tas.
P ero éstas sólo coincidirán si todos los p u n to s q u ed an exacta­
m en te en u n a sola línea. R esulta asim ism o que, al m inim izar
la su m a d e los cu adrados de las distancias verticales, en c o n tra­
m os de hecho la re c ta q u e posee la p ro p ied a d d e q u e la sum a
de las d istan cias verticales positivas y negativas sea cero y la
desviación e stá n d a r de los p u n to s re sp ecto de aquélla sea m íni­
m a. E ste concepto d e la desviación e stá n d a r de las Y se exam i­
n a rá con m ay o r d etalle m ás adelante.
Con o b jeto d e o b te n e r la línea d e m ínim os cuadrados, pues,
necesitam os calcu lar la a y la & q u e d eterm in an la línea provista
de la p ro p ied a d deseada. E sta clase d e problem as p u ed e resol­
verse fácilm ente p o r m edio del cálculo y conduce a las siguientes
fó rm u las de cálculo d e a y 6.3
3
P a r a lo s e s t u d i a n te s f a m ilia r i z a d o s c o n e l c á lc u lo e l e m e n t a l v a m o s a
d e l i n e a r l a n a t u r a l e z a d e l a d e r iv a c ió n . C o m e n z a r e m o s c o n l a e c u a c ió n
y 4 = a + bXi + e{, e n l a q u e ei e s u n t é r m i n o r e s i d u a l q u e p u e d e s e r u t i ­
l iz a d o p a r a e s t i m a r e l r e s i d u a l t i d e l a e c u a c ió n d e r e g r e s i ó n . D e s e a m o s
m i n i m iz a r l a s u m a d e lo s c u a d r a d o s d e e s to s r e s id u a le s , e s d e c i r : l a c a n ­
t i d a d 2 e i a = 2 ( 3 ^ — 'O—
c o n r e s p e c to a l a s d o s c a n t i d a d e s a y b,
N
N
2 Y i - b 2 Xi
a = — ----------- ÜIÍ-------------------------------------= Y — b X (X V II.3)
N
y
2 (Xí - X K Y í - Y )
i=X
6 = ------ — ----------- -------- 2 (Xt -X y *
i= l
2
t= l
= — --------
(X V II.4)
2 x 42
i= l
en do n d e x i = X i — X y y t = Yt — Y. O bsérvese que en estas ecua­
ciones a y b son las incógnitas, hallándose las o tra s cantidades
d eterm in ad as a p a r tir d e los datos. U na vez que se haya obtenido
b, a p u ed e calcularse fácilm ente a p a r tir d e la p rim e ra de las dos
fórm ulas. Podem os, pues, c e n tra r n u e s tra atención en el cálculo
de b.
N
_
_
E l n u m era d o r d e b co m p o rta la expresión 2 ( X { — X ) ( Y i — Y )
i—i
q u e se designa com o covariación de X y Y. E sta can tid ad es direc­
tam en te análoga a las sum as de cu adrados ta n to de X com o d e Y,
excepto que, en lu g ar d e elevar al cu ad rad o ( X — X ) o ( Y — Y) ,
tom am os el p ro d u cto de estos dos térm in o s. O btenem os en esta
fo rm a u n a m ed ida de cóm o X y Y v aría n ju n ta s, y d e ahí el nom ­
b re de covariación. Si dividim os e sta expresión e n tre N , o b ten e­
m os, p o r analogía, lo que se designa com o covariancia. V erem os
in m ed iatam en te que b p u ed e p o n erse igual a la razón de la co­
v ariancia a la variancia en X.
Si exam inam os m ás d e cerca la covariación de X y Y, vem os
que, a d iferen cia d e u n a sum a de cuadrados, la covariación puede
to m a r valores ta n to positivos com o negativos. Si X y Y se re la­
cionan positivam ente, entonces valores grandes de X se asocia­
rá n p o r lo re g u la r con valores grandes de Y. Así, pues, si X > X,
será p o r lo re g u lar cierto que Y > Y. Y asim ism o, en el caso de
u n a relación positiva, si X < X, ten d rem o s generalm ente Y < Y.
P o r consiguiente, el p ro d u c to de ( X — X ) y ( Y — Y ) será n o rm al­
m en te positivo, y la sum a de estos p ro d u cto s será asim ism o posi­
tiva. Y en fo rm a análoga, si X y Y se relacionan negativam ente,
esp eraríam o s que, si X > X, entonces Y será m en o r q u e Y, y la
su m a d e p ro d u cto s re su lta n te será negativa. Si no existe relación,
entonces ap ro x im adam ente la m ita d d e los p ro d u cto s serán posi­
tivos y la o tra m ita d negativos, ya que X y Y v ariarán indepena l a s q u e a q u í s e t r a t a c o m o d e s c o n o c id a s . T o m a m o s d e r iv a tiv o s p a r c i a le s
c o n r e s p e c to a a y 6 ; l a s h a c e m o s ig u a l a c e r o , y r e s o lv e m o s l a s d o s e c u a ­
c io n e s r e s u l t a n t e s ( a l a s q u e s e d e n o m in a ecuaciones normales ) p a r a a y b.
E s t e m i s m o p r o c e d i m i e n t o e s d e a p lic a c ió n a l c a s o m u l t i v a r i a d o .
dientem ente. E n este caso, b se rá cero, o vecino de cero. P or lo
tan to , cu an to m ayor sea el valor num érico de la relación, inde­
p en d ien tem en te de la dirección, ta n to m ayor será el valor num é­
rico de la covariación. Como h ab rem o s de v er en breve, la co­
variación fig u ra tam bién en el n u m era d o r del coeficiente de
correlación, que es n u e stra m edida del grado de asociación. En
el caso de b, tom am os la covariación y la dividim os e n tre la sum a
de los cuad rados en X , con o b jeto d e o b ten er n u e s tra estim a­
ción de la p en d ien te de la ecuación de regresión.
E s m ás conveniente servirse p a ra la covariación de u n a fórm u­
la que es d irectam en te análoga a la fórm ula de cálculo de la sum a
de los cu ad rad os y puede derivarse en fo rm a sim ilar. Podem os
escrib ir la fó rm u la de cálculo de b com o sig u e :
n z x y
-
o x
x sr)
N 2 X 2 - ( 2 X )2
E n la ecuación (X V II.5), ta n to el n u m era d o r com o el denom ina­
d o r se h a n m ultiplicado p o r N, con o b jeto d e re d o n d ear los erro ­
res debidos a la división y con o b jeto de facilitar el cálculo con
u n a calcu lad o ra.4
Problem a. S upóngase que tenem os los datos del cu ad ro X V II.l,
en donde X re p resen ta el p o rc en taje de negros en las grandes
ciudades del M edio Oeste, y Y indica la diferencia e n tre las m edia­
n as de los ingresos de los blancos y los negros, com o m edida de
d iscrim inación económ ica.6
Cuadro
Porcentaje
de negros
X
2.13
2.52
11.86
2.55
2.87
4.23 •
X V II.l. Datos para u n problem a de correlación
Diferencia
de ingresos
Y
$809
763
612
492
679
635
Porcentaje
de negros
X
Diferencia
de ingresos
Y
4.62
5.19
6.43
6.70
1.53
1.87
10.38
$859
228
897
867
513
335
868
4 En esta y las fórmulas posteriores hemos prescindido de los subíndi­
ces, ya que se opera siempre la suma total de los casos, del cuadro N.
5 Aunque la palabra "negro" puede resultar ofensiva para algunos lecto­
res, resulta necesario mantener esta terminología al referirse a los datos del
censo, como contraste con otros datos hipotéticos o los obtenidos de otras
fuentes.
A p a r tir de los dato s podem os calcu lar cinco sum as que, ju n to
con N , son to d o lo que necesitam os p a ra tr a ta r los p ro b lem as de
regresión y correlación. Todas estas su m as m enos u n a se em ­
p learán en los cálculos d e a y b. Los cálculos pueden resu m irse
com o sigue:
N = 13
2 X = 62.88
2 Z 2 = 432.2768
2 Y = 8 557
2 Y 2 = 6 192 505
H X Y = 43 943.32
Aquí la ú n ica ca n tid a d nueva es 2X Y . Si ponem os estos valores
en las fó rm u las d e a y b, tenem os a h o ra :
W 2 X Y -(2 X )(2 Y )
W2 X 2 - ( 2 X )2
13(43 943.32) -( 6 2 .8 8 )( 8 557) _ 33 199.0
13(432.2768) - (62.88)®
1 665.7 ~ 19-931
2 Y -& 2 X
a = -----------------N
8 557 — (19.931)(62.88)
= ------------:---------1:------- 1 = 561.83
13
P o r lo tanto, la ecuación lineal re su lta n te es :
Y P = a + b X = 561.83 + 19.931X
en donde hem os utilizado Y P p a ra in d ic a r que los valores de Y
se h a n estim ado a p a r tir de u n a ecuación d e m ínim os cuadrados.
Como ya se indicó an terio rm en te, las a y b obtenidas p o r este
m éto d o son las estim aciones insesgadas m ás eficaces d e a y p,
o sea los coeficientes de regresión reales a condición d e que el
fa c to r de p ertu rb ació n e» en la ecuación Y i = a + pXj + gj tenga
u n v alo r esp erad o d e cero n o relacionado con X , y siem pre, p o r
o tra p a rte , de que tengam os u n a m u e stra al azar de la población
q ue estudiam os. P o r consiguiente, la lín ea de m ínim os cu a d ra­
dos será la m e jo r apreciación d e la v erd ad era regresión, si la
ecuación d e reg resión es efectivam ente lineal.
La ecuación de los m ínim os cuadrados posee asim ism o la p ro ­
p ied ad d e p a s a r p o r el p u n to (X ,Y ), que re p re se n ta las m edias
d e X y d e Y. E sto p u ed e verse en la ecuación (X V II.3). Ya que
a = Y — bX
te n e m o s :
Y = a + bX
lo que indica que estos valores de X y Y satisfacen la ecuación.
P o r consiguiente, el p u n to (X , Y ) queda exactam ente sobre la
línea.
E n el p ro b lem a an terio r, si sabem os el valor de X (p o rcen taje
de negros) p a ra cualquier ciudad d ad a del M edio Oeste, n u estra
m ejo r estim ación del valor de Y sería aquel valor de Y que co-
Porciento de nearos
Fig. X V II.6. Diagrama de dispersión y recta de m ín im o s cuadra­
dos para los datos del cuadro X V I I A.
rresp o n d e en la ecuación de los m ínim os cuadrados a la X dada.
Como q u iera que las m arcas d e discrim inación indican diferen­
cias (en d ó lares) entre los ingresos (en m edianas) de los blancos
y los negros, vem os que u n au m ento del 1 p o r ciento de los ne­
gros co rresp o nde a u n a diferencia de $ 19.93 en dichos ingresos.
En la fig u ra X V II.6 se h an trazad o u n diagram a de dispersión
y la ecuación de los m ínim os cuadrados. Con objeto de ilu stra r
el em pleo de sem ejante ecuación d e predicción, si supiéram os
que h ab ía u n 8 p o r ciento de negros en u n a ciudad determ inada,
la diferencia estim ativa del ingreso m ediano sería:
Y p = a + b( 8) = 561.83 + (19.931 ) ( 8) = f 721.28
Vemos en la fig u ra que se h a b ría obtenido aproxim adam ente el
m ism o re su ltad o con la gráfica. Observem os de p aso que, hacien­
do X = 8 y resolviendo en relación con Y, hem os localizado un
segundo p u n to d e la línea, que puede utilizarse a continuación
con o bjeto de tra z a r la línea en el diagram a de dispersión.
XVII.2. Correlación
Supongam os a p a r tir de ah o ra que X es estocástica, y n o so­
m etid a p o r tan to al control del investigador. No sólo deseam os
conocer la fo rm a o la n atu raleza de la relación e n tre X y Y, de
m odo que u n a de las varia­
bles p u ed a p re d ecirse a p ar­
tir de la o tra, sino que es
necesario al p ro p io tiem po
conocer el grado o fuerza de
la relación. E s obvio que si la
relación es m uy débil, no tie­
n e o b jeto tra ta r de p red ecir
Y a p a r tir de X . Los soció­
logos tien en a m en u do in te­
rés an te todo en d escu b rir
cuáles de u n g ran n ú m ero de
variables se relacionan m ás
de cerca con u n a variable
dependiente determ inada. En
los estudios de exploración
de esta clase, el análisis de
S in relación
regresión rev iste im p o rtan cia
secundaria. A m ed ida que
u n a ciencia va m ad u ran d o y
que se d escubren variables
im p o rtan tes, la atención pue­ (*>
de c e n trarse en m étodos de
p redicción exacta. Algunos
estadígrafos son del p arece r
Relación negativa débil
x
que en conjunto se h a p re s­
tado dem asiada atención a
F ig. XVII.7. Diagrama de dispersión
la correlación y casi ningu­ que muestra las diferentes fuerzas y
n a al análisis de regresión. direcciones de las relaciones entre
Que esto sea así o que no lo
X y Y.
sea depende, p o r supuesto,
del estad o del conocim iento en la ciencia considerada.
El coeficiente de correlación r, que vam os a exam inar en esta
sección, fuie in tro d u cid o p o r K arl P earson y se designa a m enudo
com o correlación m om ento-producto, con o b jeto de distinguirla
de o tra s m edidas de asociación. E ste coeficiente m ide la canti­
d ad de dispersión a lre d ed o r de la ecuación lineal de los m ínim os
cuad rad o s. H ay u n coeficiente correspondiente de población rh o
(p ), que m ide la b o n d ad del a ju ste a la verd ad era ecuación de
regresión. O btenem os u n a estim ación r d e dicho p arám etro mi*
diendo las desviaciones r e s p e t o de’ la lín ea calculada p o r m edio
de los m ínim os cuadrados.
Como q u iera q u e la ecuación d e regresión re p re se n ta el curso
d e las m edias de las Y p a ra u n as X dadas, sería tam b ién posible
m ed ir la d isp ersión resp ecto d e esa línea tom ando u n a desviación
e stá n d a r d e la m ism a.6 S in em bargo, los investigadores de la
m ayoría d e los cam pos de aplicación se h an aco stu m b rad o al coe­
ficiente de co rrelació n ; es probable, con todo, que el coeficiente
de correlación se m antenga. Posee la v en taja de se r de fácil in ­
terp retació n , v su re co rrid o va de — 1.0 a 1 .0. hecho que re su lta
atractiv o p a r a la m ayoría de los p rácticos. Según verem os, en
efecto, la relación e n tre el coeficiente de correlación y la des­
viación e stá n d a r respecto de la lín ea d e los m ínim os cuadrados
es m uy sencilla, hecho que p u ed e u tilizarse p a ra p ro p o rcio n ar
u n a in terp re tació n de r.
Se acaba de in d icar que r tiene u n lím ite su p erio r de 1.0. Si
todos los p u n to s se hallan, exactam ente sobre la x e c ta . r será OT
o — LO. según q ue l a relación sea positiva ó negativa. Y si los
p u n to s están disper^ados_^L azaj^.x^firá cero. C uanto m e j o r s ^
el a ju s te /ta n to m ay o r será la m ag n itu d de r. Es lo que se indica
en la fig u ra XVII.7.
O bsérvese que r es u n a m edida d e relación lineal, ya que es una
m ed id a de la b o n d ad de a ju ste d e la línea, d e los m ínim os cua­
drados. El lecto r n o debe caer en el e rro r de su p o n er que si
r = 0 (o srQ = 0 - ) ;n o c is t e relación alguna,. E n efecto, si n o hay
relación, síguese que r será aproxim adam ente cero y h a b rá una
dispersión de p u n to s al azar. Sin em bargo, puede h a b e r u n a rela­
ción p erfec ta m e n te curvilínea y, con todo, se r r cero, indicando
que n o se d a recta alguna que satisfaga los datos. É ste es el caso
en la fig u ra X V II.8, p o r ejem plo. P or lo tan to , si el investigador
en cu en tra u n a correlación d e cero, h a b rá d e p recav erse c o n tra la
deducción de q u e n o existe relación e n tre las variables. P o r lo re­
gular, la inspección del diagram a d e dispersión in d icará si hay
o no relación d e hecho, o si la relación es suficientem ente no li­
neal p a ra p ro d u c ir u n a correlación de cero. E n la m ayoría de
los pro b lem as sociológicos, las relaciones pueden aproxim arse
razonablem ente p o r m edio de re ctas. Sin em bargo, esto no signi­
fica que n o se d eb a e sta r b a sta n te a le rta co n tra excepciones even­
tuales.
H asta el p re sen te no hem os definido todavía el coeficiente de
correlación, p e ro podem os h ac erlo fácilm ente en los térm inos
d e la fó rm u la:
8 La naturaleza exacta de semejante medida se examinará más adelante.
De momento podemos señalar simplemente que representa una extensión del
concepto de la desviación estándar, en la que la media de las Y ya no se
toma como fija, sino que se considera función de X.
V[2(X-X)2][2(y-D2]
VtS^XSy2)
U o ralm en te: el coeficiente de correlación es la razón de la co­
variación a la raíz cu a d rad a del p ro d u c to de la variación de X
y la variación de Y. D ividiendo el n u m era d o r y el denom inador
e n tre N y poniendo esta cantidad com o JV2 b a jo el radical, vem os
r
Fig. X V II.8. Diagrama de dispersión de una relación no lineal
perfecta, en que r = 0.
que r p u ed e tam bién definirse com o la razón d e la covariancia al
p ro d u cto de las desviaciones e stá n d a r d e X y Y. lia covariancia
es la medida, d éla"ygffácigñ conju n ta de X y Y, p ero su m agnitud
depende d e l a can tid ad to ta l de v a ria b ilid a d d é las dos variables.
Como q u iera que el v alo r num érico de la covariancia pu ed e ser
considerablem ente m ayor que la unidad, n o re su lta conveniente
em plearlo d irectam en te com o m edida d e asociación. E n lugar de
ello, estan d árizam os dividiendo e n tre el p ro d u c to d e las dos des­
viaciones están d ar, con lo que obtenem os u n a m edida que varía
e n tre — 1.0 y 1 .0.
Y a vim os que la covariancia será cero siem pre que X y Y no
estén relacionadas. P uede d em o strarse tam b ién fácilm ente que
el lím ite su p erio r de r es la unidad. Tom em os, p o r ejem plo, el
caso en q u e b es positiva y todos los p u n to s se en cu en tran exac­
tam en te so b re la recta. E n ta l caso, p a ra cad a Y podem os escrib ir
Y = a + b X . Y com o q u iera q u e el p u n to ( X , Y ) se en cu en tra tam ­
bién so b re la recta, tenem os Y = a + bX. P or consiguiente, p a ra
todos los p u n to s sobre la re c ta te n e m o s :
Y - Y = ( a + b X ) - ( a + bX) = b (X - X )
De d o n d e:
y
2¡(X - X ) ( Y - Y ) =
- X)*
2 ( y - r ) 2 = b s2 ( X - X )2
La inspección del n u m era d o r y el denom inador d e r in d ica ah o ra
que, en estas condiciones, r = 1.0. Y en fo rm a análoga, puede
d em o strarse q u e si todos los p u n to s se en c u en tran exactam ente
so b re u n a lín ea d e pen d ien te negativa, la r re su lta n te se rá — 1 .0.
Conviene o b serv ar asim ism o la relación e n tre el coeficiente de
correlación y las pendientes de las dos ecuaciones de los m ínim os
cuadrados. Si hacem os que byx sea la pendiente de la ecuación
de m ínim os cu adrados estim ando la regresión de Y sobre X, y
dejam os que bmy indique la p en d ien te de la estim ación de la re ­
gresión de X so b re Y, tenem os, p o r sim etría, q ue:
t _ 2 (X -X )(Y -Y )
®ccy — —
2 ( Y — Y )2
en donde
X = axy + bxyY
Así, pues, r tien e el m ism o n u m era d o r que las dos b. Si éstas son
cero, síguese que r h a de se r tam b ién cero y viceversa.
P ara sum as de cuadrados en X y Y dadas, el valor de byx (o de
b ^ ) será p ro p orcional a r. E sto p arece ría conducir a la conclu­
sión de que la fuerza de la relación sea proporcional a la pendien­
te de la línea de los m ínim os cuadrados. Sin em bargo, esto sólo
será así si el denom inador p erm an ece fijo. Así, pues, b es u n a
función n o sólo de la fuerza de la relación, sino tam b ién de las
desviaciones e s tá n d a r.7 Si h ay b a sta n te variabilidad en X , en re ­
lación con Y, el v alor de b será relativ am en te pequeño, indicando
que se re q u ie re u n gran cam bio de X p a ra p ro d u c ir u n cam bio
m o derado de Y. Como lo verem os después, los valores nu m é­
ricos de las b dependen, p o r consiguiente, de la m ag n itu d de las
unidades de m edida.
El valor de r se h a estan d a rizad o d e m odo que sea h a sta cier­
to pu n to in d ependiente de las m agnitudes relativas d e las desvia­
ciones e s tá n d a r en X y Y. S ería en efecto desdichado que no
fu e ra así, ya que difícilm ente deseam os u n a m ed id a que v aria ra
7 Excepto en los casos en que ello pudiera dar lugar a confusión, seguire­
mos sirviéndonos de b sin subíndice para representar & .
según que escogiéram os com o u n id ad m o n etaria dólares o centa­
vos. Se o b serv ará en las fórm ulas de r y las b que r2 pu ed e ex­
p re sa rse en térm in o s d e estas últim as. Así, pu es:
[S x y ]2
=
(X V IL ?)
E l le c to r h a rá bien en verificar que cuando r es 1.0 (o — 1.0),
b ym= l/b zy, lo que significa que las dos ecuaciones d e m ínim os
cu ad rad o s coinciden. P o r lo regular, a m edida que r se acerca a
cero, el ángulo e n tre las dos líneas se va haciendo cada vez m a­
yor, h a s ta que, r = 0, las líneas se h acen perp endiculares.
F inalm ente, podem os in tro d u c ir u n a fó rm u la de cálculo p a ra
r que co m p o rta las cinco sum as prev iam en te obtenidas en co­
nexión con los cálculos de a y b. La fó rm u la e s :
________
V tW S X 2 - C£X)2][jV2Y2 - (2 Y )2]
(X V II.8)
E l n u m erad o r, p o r supuesto, h a sido ya calculado, lo m ism o que
u n a p a rte del denom inador. Así, pues, la correlación e n tre el
p o rc e n ta je de negros y el índice de discrim inación es:
13(43 943.32) - (62.88)(8 557)
r = —---------------------------- ---------------------------------------------- y[13(432.2768) _ (62.88 )2][ 13(6192 505) - (8 557)2]
33 199
110120
■= .301
Conviene o b servar que se pueden ad icio n ar valores ta n to a X
com o a Y, o su straerlo s, sin afectar el v alo r del coeficiente de
correlación. De fo rm a análoga, r no se v erá afectado p o r u n cam ­
b io de escala en cu alq u iera d e las variables. E sto equivale a
decir, d e hecho, que la correlación e n tre el ingreso y la educación
es la m ism a, ya sea que se m ida el ingreso e n dólares o en cen­
tavos. Sin em bargo, au n q u e el coeficiente de correlación sea
in v arian te en tran sform aciones d e e s ta clase, la ecuación de los
m ínim os cuadrados, e n cam bio, n o lo es. E n efecto, la adición
o su stracció n de valores afecta el v alo r n um érico de a. Y un
cam bio de escala afecta la pen d ien te de la línea. Así, p o r ejem plo,
si cad a X se divide e n tre 10 m an ten ien d o a la Y fija, la b re su lta n ­
te se v e rá m u ltip licad a p o r 10. El lecto r h a rá bien en verificar
q u e estas p ro p ied ad es se m antienen, exam inando las fórm ulas
d e r, a y b. E stos hechos pu ed en u tilizarse con o b jeto de simpli-
ficar los cálculos. Así, p o r ejem plo, si X co m p o rta u n núm ero
m uy g ran d e o u n decim al m uy pequeño, u n cam bio d e escala pue­
de re d u cir el riesgo de e rro res d e cálculo. O bien, si la variable
X consta d e valores tales com o 1 207, 1 409, 1 949 y 1 568, se reco­
m en d ará p ro b ab lem en te su s tra e r 1 000 de cada m arca. Algunas
ru tin as d e cálculo requieren q u e todos los valores sean positivos.
X
(b)
X
Fig. XVII.9. Diagramas de dispersión que m uestran los efectos
posibles de valores extrem os de X .
P or lo tan to , al calcu lar r p u ed e re s u lta r necesario a ñ a d ir a cada
valor u n n ú m ero ligeram ente su p erio r a la m arc a negativa m ayor.
H ay que te n e r presente, e n este pu n to , o tro hecho relativo a la
correlación. Y es que, com o q u iera que esta m ed id a com porta
variancias y covariancias a la vez, se ve sum am ente afectada por
unos pocos valores extrem os de cualq u iera de las dos variables.
P o r o tra p a rte , la m agnitud d e r depende del grado de variabili­
d ad general d e la variable independiente. Es lo que ilu stra la
figura XVII.9. E n la figura XVII.9a, el efecto de u n o o dos valo­
res extrem os p ro d u ce u n a correlación m oderadam ente alta cuan­
do no se d a nin g una en los casos re sta n te s. E n la fig u ra XVII.9&,
tenem os u n a relación lineal m o d erad am en te elevada, excepto en
cu anto al hecho d e que los casos extrem os n o quedan en línea
re cta con los dem ás. E n este ú ltim o caso tenem os probablem en­
te u n ejem plo de relación n o lineal. El diagram a de dispersión
re s u lta rá siem pre ú til p a ra in d icar la n atu ra leza de la situación
en u n p ro b lem a determ inado. Veam os ah o ra lo que pu ed e h a­
cerse cu an d o se p re sen ta u n a u o tra de estas situaciones.
La fig u ra X V II.9a ilu stra el p u n to an terio rm en te señalado de
que la m ag n itu d del coeficiente d e correlación depende del m arY
X
Fig. X V II.10. Diagrama d e dispersión que no m u estra relación
alguna den tro de u n recorrido lim itado de variación de X, pero
con relación positiva sobre el recorrido total.
gen de v ariab ilid ad de am b as variables. Si h u b iera h ab id o u n
n ú m ero m ayor d e casos extrem os, la d istrib u ció n re su lta n te h a ­
b ría p odido se r com o en la fig u ra XVII.10. E n este caso, la co­
rrelació n c o n ju n ta p o d ría se r alta, p e ro en el in te rio r d e cual­
q u ier re co rrid o lim itad o de las X la correlación puede se r vecina
d e cero. E sto in d ica d e hecho que hay insuficiente v ariabilidad de
X en el in te rio r d e dicho re co rrid o lim itad o p a ra c o n tra rre sta r
los efectos de las nu m ero sas variables incontroladas. E n reali­
dad, X e s tá siendo m a n ten id a casi constante. P or consiguiente, si
el diag ram a d e d ispersión re su lta se r sem ejan te al de la figura
XVII.9íz, h a b ría q ue tr a ta r de ex ten d er el re co rrid o de variabili­
d ad de X h allan d o m ás casos extrem os.
Si la extensión del re c o rrid o d e variab ilid ad no re su lta p rá c ti­
cam en te posible, o si el in te ré s del investigador se ce n tra an te
to d o en casos m enos extrem os, será ta l vez m ás razonable p re s­
c in d ir to talm e n te e n el análisis de los casos extrem os. Así, p o r
ejem plo, supongam os que X es el tam añ o d e las ciudades y que
la ciu d ad de N ueva Y ork fig u ra en la m u estra. A m enos que haya
u n g ra n n ú m ero de ciudades de tam año correspondiente, y n o las
hay, p u ed e re s u lta r necesario lim ita r la atención a ciudades de
m enos de 500 000 hab itan tes. E n algunos casos p o d rá parecer
indicado calcu lar r ta n to con los casos extrem os com o sin ellos.
Es obvio que la decisión dependerá de la naturaleza del problem a
y del in terés del sociólogo. El lecto r h a de p ercatarse bien del
hecho de que u n a o dos m arcas extrem as pueden eventualm ente
ejercer u n efecto m uy pro n u n ciad o sobre el tam añ o de r, hecho
que e n alguna fo rm a debe tenerse siem pre en cuenta. De ahí que
el reco rrid o d e v ariabilidad debiera consignarse ju n tam en te con
los coeficientes d e correlación. E sto constituye o tra ilustración
del p u n to im p o rtan te relativo a q u e u n a sim ple m edida de resu­
m en, p o r m uy su p erio r que sea resp ecto de o tras, pu ed e ser a
m enudo d eso rien tadora.
Si los dato s se p re se n ta n com o en la figura XVII.9&, sospecha­
rem os, p o r supuesto, que n o existe linealidad. Aquí tam bién,
pues, h a b ría que obtener, de ser posible, m ás casos extrem os. Si
éstos son sólo u n o o dos, re su lta rá tal vez p referib le excluirlos
del análisis. Las situaciones de esta índole ilu stra n el hecho de
que, al in te rio r d e cierto reco rrid o u n a relación de variación pue­
de se r ap roxim adam ente lineal, resu ltan d o en cambio- inapropiada
si se extiende el m odelo lineal. De ahí, pues, que se im ponga
p ru d en cia en cu an to a generalizar m ás allá de los lím ites d e los
datos. Un en u n ciado p o r el estilo de “den tro los lím ites de
---------y--------- la relación re su lta se r aproxim adam ente lineal”
será m ás apropiado.
Comparación en tre correlaciones y declives. Las observaciones
an terio res acerca d e la sensibilidad d e los coeficientes de corre­
lación an te las diferencias en la can tid ad de variación de X , re ­
lativ a a la disp ersión p ro d u c id a p o r facto res extraños, ap u n ta
u no d e los pro b lem as fundam entales con cualquier m edida del
grado de asociación. N u e stra atención debe e sta r c e n trad a en la
n atu raleza d e la ley que relaciona X y Y , de si la relación es o no
es lineal, y, si lo es, en la m agnitud del declive. Al co m p arar los
resu ltad o s d e dos estudios o de varias subm uestras, debem os re­
conocer que es p erfectam ente posible o b ten er diferencias sustan­
ciales e n tre los coeficientes de correlación, aun cuando se apli­
quen las m ism as leyes (m edidas p o r los declives). E s decir, que
las r pueden d ife rir aunque no- los declives, lo que p u ed e se r debi­
do ú n icam en te a diferencias en la can tid ad d e variación en la
variable in d ependiente X , o a diferencias en la am p litu d con que
h an sido som etidos a control otros factores extraños que p ro d u ­
cen variaciones aleatorias en Y . Como verem os al tr a ta r del análi­
sis de la covariancia, al b u sca r la interacción estam os en efecto
buscando u n a d iferencia en tre declives, y no correlaciones. E n el
capítulo siguiente estudiarem os brevem ente las pru eb as p a ra en­
co n tra r diferencias e n tre correlaciones, pero el lecto r debe e sta r
prevenido acerca del peligro de que tales diferencias, u n a vez
encontradas, p u ed an se r fácilm ente m al in terp re tad as.
Puede ser ú til concebir u n coeficiente de correlación r ^ com o
función de dos tipos variables, con el declive bw y u n facto r sx/ s v
abarcando la razón de las dos desviaciones e stán d a r que se apli­
can a la m u estra o su b m u estra p a rtic u la r que nos ocupa. A sí:
El valor num érico de byx es, p o r supuesto, determ inado no sólo
p o r la ley que une a X con Y , sino tam b ién p o r la elección que
el investigador hace e n tre las unidades de m edida. El facto r
s j s v es tam bién u n a función de tales unidades, las que son por
sup u esto conocidas an tes que los datos de la población o la m ues­
tra. Pero la razón sx/ s y será tam bién única p a ra cada m u estra
(y o J o y p a ra cada población), y se utiliza p a ra ob ten er la m e­
dida estandarizada r ^ . Un coeficiente de correlación tiene la ven­
ta ja de ser estandarizado, independizándolo así de la elección
que se haga de unidades de m edida, p ero lam entablem ente tie­
ne que se r estandarizado en función de algo que re su lta ser una
can tid ad no invariable e n relación con m u estras o poblaciones.
E sta circu n stan cia debe s e r claram ente entendida, debiendo ser
señalados siem pre los declives n o estandarizados, de m odo que
las réplicas no resu lten desorientadoras a este respecto.
Planteando el asu n to en fo rm a algo diferente, podem os recono­
cer que en la inferencia y estim ación estadísticas se da una
je ra rq u ía de m etas científicas. Probam os buscando p rim ero la
significancia, p a ra d ecid ir si se h a en co n trad o u n a relación que
no p u ed a ser fácilm ente explicable p o r m ecanism os casuales.
O bservam os a este resp ecto que el nivel de probabilidad o signi­
ficación es función del grado de relación y del tam añ o de la
m u estra. Si ésta es m uy grande podrem os o b ten er u n pequeño
nivel de p robabilidad, incluso con una relación m uy débil y tal
vez sin im p o rtancia p ráctica. Pero habiendo encontrado al m e­
nos u n a relación m oderadam ente fuerte, se nos plantea de nuevo
u n a ta re a m ás im p o rtan te, a sab e r: la de estim ar la n aturaleza
de tal relación, m edida p o r u n coeficiente d e regresión en el caso
lineal. Cuando las correlaciones son m oderadam ente fuertes, en
lugar de co m p arar estas r directam ente, estim am os los declives,
y los com param os en n u estras pru eb as de interacción. El p ro ­
ceso p u ed e p re sen tarse d iagram áticam ente así:
P
donde la d irección d e las flechas re p re se n ta el “c u rso causal”
(p o r ejem p lo : pro b ab ilid ad es influidas p o r m agnitudes de rela­
ciones y tam añ o s de m u e stra s), lo q u e va frecu e n te m e n te en di­
rección o p u esta a la que siguen los p aso s del proced im ien to em ­
p lead o en u n análisis estadístico. E l diagram a in d ica que p es
u n a función d e dos variables, u n a d e las cuales (e l tam añ o de la
m u e stra ) no es d e in teré s in h eren te, y que la correlación
es
asim ism o u n a fu n ció n de dos facto res, u n o de los cuales { s j s v),
n o es d e in teré s. N u e stro objetivo consiste en llevar el análisis
h acia a rrib a en el diagram a h a s ta la estim ación d e los coeficien­
tes de regresión, en lu g ar de deten ern o s en los niveles d e p ro b a­
bilidad, o fo rm u lan d o declaraciones en relación con los coeficien­
tes de correlación.
R esulta q u e en cu an tas ocasiones se m an eja n m edidas ordina­
les de asociación, tales com o las q u e se v erán en el cap ítu lo si­
guiente, d esap arece la distinción e n tre declives y m edidas de
asociación. E n el caso d e dicotom ías, sin em bargo, p u ed e dem os­
tra rs e que si se sigue la regla d e colocar la variable independien­
te al trav és d e la p a rte a lta del cuadro, y se co m p u tan las p ro ­
porciones (o p o rc en tajes) de m odo que sum en 1.00 (o 100) hacia
abajo, co m p aran d o a continuación de izquierda a derecha, la
d iferen cia de p ro porciones re su ltan te puede se r considerada
com o u n caso especial del declive byx, en ta n to q u e -<j> p asa a ser
u n caso especial de rmy. Si se co m p u tan las pro p o rcio n es en la
o tra dirección, la diferencia de proporciones p asa a s e r u n caso
especial de b ^ , d e m odo que ten d re m o s u n a ju stificació n m ás
p a ra seguir la regla em pírica p rev iam en te sugerida. Pueden ob­
ten erse estos re su ltad o s p o r el sim ple procedim iento de asignar
pu n tu acio n es d e 0 y 1 ta n to a X com o a Y , utilizan d o a continua­
ción las fó rm u las básicas p a ra el cálculo de rxy y byw.
* Cálculos a p a rtir de datos agrupados. Si el n ú m ero de casos es
gran d e o si no' se dispone de u n a calculado ra m oderna, el cálculo
de los coeficientes de correlación p u ed e re s u lta r ex trem adam ente
laborioso. E n tal caso será ta l vez m ás indicado servirse de d a­
tos agrupados, au n a riesgo de in tro d u c ir eventualm ente algunas
im precisiones. E n principio, estos cálculos de dato s agrupados
no son m ás que aplicaciones abreviadas de los procedim ientos
em pleados p a ra o b te n e r la m edia y la desviación están d a r. Tene­
m os ah ora dos variables que h a n d e clasificarse cruzadam ente
com o en el c u a d ro XVII.2. H em os de an tic ip a r u n a m edia p a ra
cad a variable, to m an d o desviaciones graduales de cada u n a de
las m edias y sirviéndonos de facto res de corrección en cada caso.
Además, n ecesitarem os u n térm in o d e p ro d u c to cruzado equiva­
len te a 2x>\ Como que las desviaciones ta n to de X com o de Y
se to m ará n de las m edias adivinadas respectivas, necesitam os
serv im o s de u n fa cto r de corrección a s u s tra e r del térm in o del
p ro d u c to cru zad o apreciado. Podem os m odificar así las fórm ulas
de cálculo de r y b de m odo que se tenga en cu en ta que nos he­
m os servido d e m edias adivinadas en lugar de las correctas.
Se re co rd a rá que u n a de las fórm ulas de s sirviéndose de datos
agrupados era (d e ja n d o de lado los su b ín d ices):
5 = ^ - V ^ 2 / d '2 - ( 2 / d ' ) 2
Como q u iera que tenem os ah o ra dos variables, X y Y , nos servi­
rem os de subíndices con objeto de distin g u ir las frecuencias y
las desviaciones graduales d e X (e sto es, fx y d'x) de las de Y (o
sea, f v y d'v). Al calcular el térm ino del pro d u cto cruzado, nece­
sitam os o b ten er tam bién las frecuencias
d e cada subcasilla.
E stas últim as serán p o r lo regular m ás pequeñas que fa o
Así,
pues, si bien hay 24 casos en la categoría de 40.0 a 49.9 p a ra la
variable X y 30 casos en la categoría de 15.0 a 19.9 de Y, sólo hay
6 casos en la subcasilla correspondiente a am bas categorías. El
lecto r h a de convencerse p o r sí m ism o d e que la fó rm u la de
cálculo de r (ecuación X V II.8) puede m odificarse com o sigue:
N
V
f x y d ’w d ' v
-
a
f
x d ’* ) ( ? f v d ’v )
V
I I
9
VüiVS/A2- (2 ¿ A )»][ ATSMV - ( ^ f y d ’ y r - ]
Y en fo rm a análoga, la fó rm u la de b se convierte e n :
_ N '2fxvd'xd'y - C2fxd'x )('2f1/d'v) iv
N V fwd ' / - ( 2 fxd'x )*
(X V II.10)
en donde i„ e ia re p resen ta n las am plitudes de intervalos de y y
X respectivam ente. El valor d e a p u ed e calcularse ah o ra a p a rtir
de la ecuación:
2 Y -6 2 X
=
y —bX
a — -------------------—
N
en donde X y Y pueden obtenerse sirviéndonos de la fórm ula
usual de los datos agrupados.
Calculemos ah o ra los valores en esos coeficientes en relación
con los datos de 150 d istrito s del S u r consignados en el cuadro
XVII.2. Tom arem os como variable dependiente Y, o sea el p o r­
cen taje de m ujeres de la clase trab a jad o ra, siendo la variable
independiente el p o rcentaje de la población clasificada como
granjas rurales. C onvendrá servirse de u n a fórm ula de cálculo
com o la que se d a en el cuadro XVII.3. E n ésta, los lím ites de
las clases y los p u n to s m edios se indican ho rizo n talm en te en la
p a rte su p e rio r (p a ra Y ) y de a rrib a abajo, a m an o izquierda,
p a ra X . O bsérvese el á re a c e rra d a e n el in te rio r del cuadro. Se
verá q ue h ay tre s n úm eros en cad a subcasilla. E n ca d a casilla, el
n ú m ero de a rrib a re p re se n ta el n ú m ero d e casos d e la subcasilla,
tal com o se d a en el cuadro XVII.2. Los n úm eros re sta n te s de la
C uadro
XV II.2. Datos clasificados cruzados para obtener
correlaciones de datos agrupados
Porcentaje de mujeres de la clase trabajadora, Y
Porcentaje de
granjas rurales,
X
10.014.9
15.019.9
20.024.9
25.029.9
30.034.9
35.039.9
0.0- 9.9
10.0-19.9
20.0-29.9
30.0-39.9
40.0-49.9
50.0-59.9
60.0-69.9
70.0-79.9
80.0-89.9
0
1
2
2
4
3
2
2
1
0
2
5
0
6
10
4
3
0
0
0
1
5
6
9
3
4
1
1
2
2
5
7
6
7
1
0
8
4
3
7
1
2
4
0
0
4
1
3
3
0
0
0
0
0
0
3
0
0
0
0
0
0
0
13
13
16
22
24
30
20
10
2
17
30
29
31
29
11
3
150
Totales
Fuente:
40.0- Totales
44.9
Censo de los Estados Unidos de 1950.
subcasilla se em plean p a ra calcu lar el térm in o del p ro d u c to cru­
zado. La cifra cen tral de cada subcasilla re p re se n ta el p ro d u cto
de las desviaciones graduales d \ d ’v. Así, p o r ejem plo, en la sub­
casilla m ás b a ja de la izquierda (c o rresp o n d ie n te a las categorías
d e 80.0 a 89.9 y d e 10.0 a 14.9), la cifra — 12 es el p ro d u c to de
4 p o r —3. E n o tro s té rm in o s : la categoría de 80.0 a 89.9 se halla 4
desviaciones graduales p o r encim a d e la m edia an ticip ad a de X ,
y la categoría d e 10.0 a 14.9 se e n c u en tra 3 desviaciones graduales
por debajo de la m edia an ticip ad a de Y . F inalm ente, el núm ero
in ferio r en cada subcasilla re p re se n ta el p ro d u c to d e los dos
nú m ero s que tien e a rrib a y pu ed e p o r consiguiente re p resen ­
ta rse sim b ó licam ente com o f^d'^d'y. P o r lo tan to , la sum a de
estas cifras in ferio res de to d as las subcásillas nos d a el térm in o
del p ro d u c to cruzado, sin corrección d e los e rro re s in tro d u ci­
dos sirviéndose de m edias estim adas. E sta su m a se em pleará
en el p rim e r térm in o del n u m e ra d o r de r; es n u m éricam ente
igual a — 200, y se h a d isp u esto e n el ángulo in fe rio r derecho
del cuadro.
Las can tid ad es re sta n te s n ecesitadas en el cálculo d e r y fe pue­
den o b ten erse en la fo rm a usual. Las c u a tro ú ltim as colum nas
C uadro
Limites
de clase
X
0.09.9
10.019.9
20.029.9
30.039.9
40.049.9
50.059.9
60.069.9
70.079.9
80.089.9
U
d'v
h,d'v
u * v y*
Y
XVII.3. Cálculos de la correlación de datos agrupados *
10.0- 15.0- 20.0- 25.0- 30.0- 35.0- 40.014.9 19.9 24.9 29.9 34.9 39.9 44.9
Puntos 12.45 17.45 22.45 27.45
medios
1
0
4.95
0
2
2
1
0
14.95 +9 +6
0
9 12
2
5
2
1
0
24.95 +6 +4 +2
0
12 20
2
5
2
5
0
34.95 +3
+1
0
6
5
7
4
6
6
0
0
0
44.95
0
0
0
0
0
6
3 10
9
0
54.95 - 3 - 2 -1
0
- 9 -20 —9
7
4
3
2
0
64.95 -6 - 4 - 2
0
-12 -16 - 6
4
2
3
1
0
74.95 —9 - 6 - 3
0
-18 -18 -12
1
1
-4
84.95 -12
-12
—4
17 30 29 31
d'X
4
8
-4 - 8
-32 -32
1
3
4
-3 - 6 - 9
-12 - 6 -27
3
3
-2 -4
- 6 -12
3
7
-1 - 2
-7 -6
1
0
0
2
+1
2
4
+2
8
29
11
13 —4 -52
208
13 - 3
-39
117
16 - 2
-32
64
22 -1
-22
22
24
0
0
0
30
1
30
30
20
2
40
80
10
3
30
90
2
4
8
32
-37
643
-3 -2 -1
-51 -60 -29
0
0
1
29
2
22
153
0
29
44
27
29
¿W 2
32.45 37.45 42.45
3 N=
150
3
9 -80
120
h d’w
a y
= --200
402
* Esta forma de cálculo se ha tomado, con ligeras adaptaciones, de [1], cuadro
XIX.4 de la p. 476, con la amable autorización del editor.
del cu ad ro se em plean p a r a o b ten er f ? , d ’x< f x d ' x y f x ( d ' x ) 2 , las su­
m as de las dos últim as de estas cantidades utilizándose d irecta­
m ente en la fórm ula de r. O bsérvese que al calcu lar los valores
n um éricos de estas cu a tro colum nas prescindim os p o r com pleto
de los valores de Y. Así, pues, si dejam os to talm e n te de lado el
área encerrad a, tenem os exactam ente la m ism a clase d e tab la de
la que n o s servim os al calcular la m edia y la desviación están d a r
de datos agrupados. Y en fo rm a análoga, las cu a tro hileras infe­
rio res pu ed en em plearse p a ra o b ten er sum as correspondientes
en relación con la variable Y . T odas las cantidades necesitadas en
las fó rm ulas de r y b pueden po n erse ah o ra en las casillas infe­
riores d e la d erecha d e la ta b la m ayor.
O btenem os ah o ra los valores d e r y b com o sigue:
150(— 200) — ( — 3 7 )(— 80)
- 3 2 960
r = -------------------------------------------------------------- —-------------= —.460
v t 150(643) - ( - 37)»][ 150(402) - ( - 80)*]
71 590
150( — 200) — ( — 37)(— 80) 5.0
-3 2 9 6 0 1
b = -----------------------;------------------------ = —:------------- = — .1733
1 5 0 ( 6 4 3 ) - ( ~ 37)2
10.0
95 081 2
Como q u iera q u e los valores de X y Y son 42.48 y 24.78, respectiva­
m ente, obten em os:
a = Y — b X = 24.78 - ( - ,1733)(42.48) = 32.14
y la ecuación de los m ínim os cu ad rad o s puede escribirse c o m o :
Y P = 32.14 - .1733X
Interpretación del coeficiente de correlación. Con objeto de ob­
ten er u n a in terp retació n de r que tenga sentido cuando r no es
ni cero ni 1 .0, volvam os al concepto d e variabilidad a propósito
de la ecuación de regresión. H em os definido la variancia respec­
to de la m edia de Y com o:
,
2
( 7 - ji,)*
en donde M re p resen ta la m agnitud d e la población (fre n te al
tam año de la m u e stra N ) y donde nos servim os de los subíndices
p a ra recalcar el hecho de que tenem os ah o ra dos variables que
h an de distinguirse. Así, pues, el concepto co rrien te de la varian­
cia co m p o rta desviaciones resp ecto de u n a m edida fija d e ten ­
dencia central, o sea la m edia co n ju n ta. P ero podem os ob ten er
tam b ién la m ed ia de las Y p a ra u n a X fija, y estam os suponien­
do q ue estos valores v arían con X d e m a n e ra que p roduzcan u n a
reg resió n lineal. Podem os generalizar en esta fo rm a el concepto
d e la m edia, ob teniendo u n a especie de m edia condicional de Y
p a ra u n a X dada, que podem os sim bolizar com o iiy\x o com o
E(Y\X).
Si generalizam os el concepto de v arian cia en fo rm a sim ilar,
podem os o b ten er u n a m ed id a d e disp ersió n i-especto de la ecua­
ción d e regresión ta l com o:
_ -------- ------- M
( X V II.ll)
en d o n d e el sím bolo ay \m se em plea p a ra señ a la r el hecho d e que
la m ag n itu d d e la v ariab ilid ad re sp ecto d e la ecuación d e regre­
sión, lo m ism o q u e la m ed ia de Y, depende del valor de X . E n
o tro s térm in o s : p a ra cad a X se d an ta n to u n a m edia d e las Y
com o u n a v arian cia re sp ecto d e d icha m edia. L a ca n tid a d d e dis­
p ersió n alre d ed o r d e la línea n o n ecesita s e r siem pre la m ism a
p a ra cada X , pese a q u e vam os a su p o n er la p ro p ied ad d e hom osced asticid ad o d e variancias iguales.
Tenem os ah o ra dos m ed id as de v ariab ilid ad p a ra Y . La p rim e­
r a m id e la disp ersión alred ed o r del v alor d e Y , la gran m ed ia |x„,
que sería el m e jo r v alo r anticipado d e Y si n o se conociera X .
E n o tro s térm in o s: si se nos p id iera a n tic ip a r Y n o conociendo
X , la m e jo r anticipación sería ix¡, (o Y, si sólo se d isp u siera de los
d ato s de la m u e s tra ). E n cam bio, si conociéram os X , an ticip a­
ríam o s el v alo r co rresp o n d ien te de Y que se sitú a en la ecuación
d e regresión. A m enos que no ex istiera relación e n tre X y Y, el
conocim iento de X nos ay u d ará a p re d e c ir el v alo r de Y. Si la re­
lación fu e ra p erfecta, po d ríam o s p re d ecir Y exactam ente, ya que
todos los p u n to s q u ed arían exactam ente so b re la línea. P o r lo
reg u lar, no estarem os en condiciones d e h ac erlo así, pero, com o
q u iera que estam os suponiendo u n a d istrib u ció n n o rm al de las Y
y u n a desviación e stá n d a r av\x fija, podem os e m itir enunciados
de p ro b ab ilid ad acerca d e los riesgos y de la m agnitud del e rro r.
Y lo q ue es m ás im p o rta n te todavía desde el p u n to de vista de
n u estro s pro p ó sitos, podem os c o m p arar las dos desviaciones es­
tá n d a r (o v arian cias) y o b ten er u n a m ed id a acerca d e en qué
p ro p o rció n se h a m ejo ra d o la anticipación p o r el conocim iento
de X . Al p ro ced er e n esta form a, podem os servirnos de pro ced i­
m ientos con los que estam os ya fam iliarizados a p a r tir del análi­
sis de la variancia.
E n dicho análisis, en efecto, tom am os la variación to ta l o
su m a d e cu ad rad os y descom pusim os d ich a can tid ad en porcio­
nes explicadas e inexplicadas. V am os a serv im o s ah o ra exacta­
m ente del m ism o procedim iento, obteniendo casi a m an era de
2
p ro ducto accesorio los valores de ay \x y r2. Con lo que estarem os
en condiciones de d a r u n a in terp re tació n lógica del coeficiente
d e correlación. P rim ero, podem os expresar las desviaciones de
cada Y resp ecto de Y com o sum a de dos cantidades ( Y — Y p) +
(y „ — Y ) (véase la figura X V II.l 1). La p rim era de estas cantida-
x
Fig. X V II.11. R epresentación geom étrica que m uestra las desvia­
ciones respecto de la m edia Y com o una sum a de desviaciones
respecto de la recta de m ín im o s cuadrados y desviaciones de la
recta de m ínim os cuadrados respecto de la Y.
des re p resen ta la desviación del valor de Y respecto de la línea
de los m ínim os cuadrados e indica la cantidad de e r ro r que se
com ete cuando se em plea Y P p a ra p re d ecir Y . La segunda expre­
sión, en cam bio, indica la desviación de la línea de m ínim os cua­
drados (p a ra u n a X d ad a) respecto de Y . E n la m ayoría de los
casos, esta can tid ad re p re se n ta rá el m o n to en que se reduce el
e rro r al conocer Y P. Si elevam os al cuadrado ahora am bos m iem ­
bros de la ecuación y sum am os luego todos los casos, o b ten em o s:
2(7- y )2= 2 ( y - y,p + 22(Y -
y
,)(
y p
- ? ) + 2 ( y p - yp
A fortunadam ente, el térm ino c e n tral vuelve a desaparecer, y nos
quedam os c o n :
2 ( y - y ) 2=
SC to tal
2( y - y pp + 2(yJ, - y )2 (xvii.12)
= SC inexplicada + SC explicada
La p rim era cantidad de la derecha de la ecuación re p resen ta
la sum a de los cuadrados de las desviaciones de los valores re a­
les de Y respecto de la línea de los m ínim os cuadrados. E sta
can tid ad es inexplicada, ya que indica la m agnitud del e rro r en
la predicción. Y la cantidad re sta n te indica lo que hem os gana­
do al servim os de Y v con preferen cia a Y , pudiendo designarse
com o la sum a de cuadrados explicada. P or explicada n o enten­
dem os, p o r supuesto, u n a explicación causal, sino sim plem ente
u n a asociación e n tre las dos variables. Considerem os ah o ra m ás
de cerca cad a u n a de estas cantidades.
Si tom am os u n a sum a de cuadrados inexplicada y dividim os en­
tre el núm ero to tal de casos, obtenem os la variancia de la m ues­
tra Sy\x respecto de la línea de los m ínim os cuadrados. O sea:
=
(X V II.13)
Si deseam os o b ten er u n a estim ación insesgada de la variancia
de la población <^y \x respecto de la regresión real, hem os d e divi­
d ir n o e n tre N sino e n tre los grados apropiados de lib ertad . E n
este caso hem os perdido 2 grados d e lib e rta d al calcular a y b
com o estim aciones de a y (3. P or consiguiente, si deseam os esti­
m a r Cy|» nos servirem os de:
A2
S Í F - F ,) 2
o*\m = ----- — ~----Ai — 2
/VW TT14-V
(X V II.14)
E n esta form a, la sum a d e cuadrados inexplicada p u ed e con­
v ertirse fácilm ente en u n a estim ación d e la variancia resp ecto
de la ecuación de regresión. El lecto r h a rá bien en convencerse
p o r sí m ism o de que lo que hem os hecho es d irectam en te p a ra ­
lelo a n u estro tra ta m ie n to a n te rio r del análisis de la variancia.
La v ariab ilid ad resp ecto de la ecuación d e m ínim os cu adrados
h a su stitu id o la noción d e variabilidad en el interior d e las ca­
tegorías de X .
Volviendo ah o ra a la sum a de cuadrados explicada 2 ( F P — F ) 2,
podem os m o s tra r fácilm ente que esta can tid ad es equivalente a
r® [S(F — F ) 2], o r 2Ey2. Como quiera que Y p = a + b X y F = a +
bX , te n e m o s:
(Yp- Y ) = b ( X - X )
P o r consiguiente:
2*2
(2 x2)2
( 2 xy)2
7 • ( 2 y2) = r22y2
2x22y2
= r22 ( y - y )2
Hem os dem o strado así que:
•2 —
.
2 (yp- Y )2
2(y — Y ) s
SC explicada
SC to tal
P o r m edio de u n razonam iento sim ilar pudim os h a b e r dem os­
tra d o q ue f 2 re p re se n ta la razón d e la variación explicada en X
a la variación to ta l en X. P or lo tan to , el cu ad rad o del coeficien­
te de correlación p u ed e in te rp re ta rse com o la p ro p o rció n de
variación to tal en u n a de las variables explicada p o r la o tra. La
can tid ad de \ / \ — r2, designada a m enudo com o coeficiente de
alienación, re p re se n ta la raíz c u a d ra d a de la pro p o rció n d e la
sum a to tal de cu ad rad o s que perm an ece sin explicar p o r la varia­
ble independiente.
Cabe o b serv ar que no se d a in terp re tació n d ire c ta y sim ple
alguna de la r m ism a. De hecho, es posible d ejarse d eso rie n ta r
p o r los valores d e r, ya que estos valores serán n u m éricam ente
m ayores que los d e r2 (a m enos que r sea 0 o ± 1 .0 ). Así, p o r
ejem plo, p o d ría p arece r que u n a r d e .5 sea la m ita d de buena
q ue u n a correlación perfecta, en ta n to que vem os que, en este
caso, sólo explicam os u n 25 p o r ciento de la variación. Una co­
rrelación d e .7 indica que algo m enos de la m ita d d e la variación
re su lta explicada. Vemos asim ism o que correlaciones d e .3 o m e­
nores significan que sólo u n a fracción m uy pequeña de la varia­
ción es explicada. E l cu ad ro XVI 1.4 indica las relaciones e n tre
las diversas cantidades.
Como q u iera que 1 — r 2 re p re se n ta la pro p o rció n d e variación
inexplicada, ten em o s:
<i - r2)[2(y - y)2] = 2(y - ypp
P or consiguiente:
2 ( y - y )2
N
2 ( y - y p)»
N
o bien :
(l-r* )V = 4 .
De d o n d e :
= V
1 -
r 2 Sí-
E ste re su ltad o nos p ro p o rcio n a u n a indicación acerca de en qué
m edida podem os re d u c ir la desviación e stá n d a r conociendo X.
C uadro
XVII.4. Relaciones num éricas entre r, r2, 1 — r2 y \ / l — r‘~
r
i®
.90
.80
.70
.60
.50
.40
.30
.20
.10
.81
.64
.49
.36
.25
.16
.09
.04
.01
1 - /-2
V 1 " ’’2
.19
.36
.51
.64
.75
.84
.91
.96
.99
.44
.60
.71
.80
.87
.92
.95
.98
.995
(Véase la ú ltim a colum na del cu ad ro X V II.4.) Si r es cero, las
dos desviaciones e stá n d a r son iguales. E ste hecho es obvio, p o r
supuesto, si nos percatam o s de que la línea de los m ínim os cua­
d rados será en tal caso u n a re cta ho rizo n tal de ecuación Y — Y.
Si r2 es igual a la unidad, s,,], será cero, p o r supuesto, y a que to­
dos los p u ntos q u ed arán exactam ente so b re la recta. Del cua­
d ro XVII.4 se desp ren d e que la m ag n itu d de r h a de se r gran­
de p a ra que obtengam os u n a reducción sustancial de las des­
viaciones están d a r. P a ra u n a r d e .80, la desviación e stá n d a r
resp ecto de la línea de los m ínim os cuadrados es d e .60 d e la
desviación e stán d a r c o rrie n te ; pero, con u n a r de .40, vem os que
no h em os ganado m ucho e n cuanto a a p reciar Y a p a r tir de X ,
Glosario
Distribución normal bivariada
Coeficiente de alienación
Coeficiente de correlación
Covariancia
Intercepción
Ecuación de los mínimos cuadrados
Regresión de Y sobre X
Declive.
E jercicios
1. Los siguientes datos relativos a 29 ciudades de 100 mil o m ás habi­
tantes de regiones fuera del Sur están tomados del estudio de R. C.
.Angelí sobre la integración m oral de las ciudades norteamericanas.
El índice de integración m oral se ha derivado combinando los índi­
ces de tasas de criminalidad con los de la labor de mejoramiento.
La heterogeneidad se midió en térm inos de los números relativos de
los no blancos y los blancos nacidos en el extranjero contenidos en la
población. Y se calculó asimismo, a título de segunda variable inde­
pendiente, un índice de movilidad, que mide los números relativos
de las personas que se establecen o dejan la ciudad.
Ciudad
Indice de
integración
Indice de
heterogeneidad
Indice de
movilidad
Rochester
Syracuse
Worcester
Erie
Milwaukee
Bridgeport
Buffalo
Dayton
Reading
Des Moines
Cleveland
Denver
Peoría
Wichita
Trenton
Grand Rapids
Toledo
San Diego
Baltimore
South Bend
Akron
Detroit
Tacoma
Flint
Spokane
Seattle
Indianapolis
Columbus
Portland (Ore.)
19.0
17.0
16.4
16.2
15.8
15.3
15.2
14.3
14.2
14.1
14.0
13.9
13.8
13.6
13.0
12.8
12.7
12.5
12.0
11.8
11.3
11.1
10.9
9.8
9.6
9.0
8.8
8.0
7.2
20.6
15.6
22.1
14.0
17.4
27.9
22.3
23.7
10.6
12.7
39.7
13.0
10.7
11.9
32.5
15.7
19.2
15.9
45.8
17.9
20.4
38.3
17.8
19.3
12.3
23.9
29.2
27.4
16.4
15.0
202
13.6
14.8
17.6
17.5
14.7
23.8
19.4
31.9
18.6
34.5
35.1
42.7
15.8
24.2
21.6
49.8
12.1
27.4
22.1
19.5
31.2
32.2
38.9
34.2
23.1
25.0
35.8
Angelí, "The Moral Integration of American Cities" ("La in­
tegración moral de las ciudades norteamericanas"), American Journal of
Sociology, vol. 57, 2? parte, p. 17, julio de 1951, con la amable autorización
del autor y el editor. (Copyright 1951 de 1a Universidad de Chicago).
Fuente: R. C.
a) Trácese un diagrama de dispersión que relacione la integración
moral con la heterogeneidad.
b) Calcúlense r, a y b para las mismas variables, y trácese en el dia­
gram a de dispersión la línea de mínimos cuadrados, tomando
la integración m oral como Y. Respuesta, r = — .156; a =13.9;
b = — .049.
c) ¿De cuánto es la desviación estándar respecto de la línea de los
mínimos cuadrados comparada con la desviación estándar res­
pecto de Y?
2. Con objeto de resolver los ejercicios del capítulo xix, se necesi­
tará obtener las correlaciones entre la integración moral y la movili­
dad, así como entre la heterogeneidad y la movilidad. Calcúlense las
dos r. Respuesta, r = — .456; r = — .513.
3. Agrúpense los índices de integración moral y heterogeneidad en
intervalos y calcúlense r, a y b sirviéndose de las fórmulas de datos
agrupados. Compárense los resultados con los datos sin agrupar.
B ibliografía
1. Blalock, H. M.: Causal Inferenees in Nonexperimental Research.
University of North Carolina Press, Chapel Hill, 1964, caps. 2 y 3.
2. Christ, Cari: Econometric Modets and Methods, John Wiley &
Sons, Inc., Nueva York, 1966, Parte III.
3. Croxton, F. E„ y D. J. Cowden: Applied General Statistics, 3- ed.,
Prentice-Hall, Inc.: Englewood Cliffs, N. J. 1967, caps. 19 y 20.
4. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company Inc., Nueva York, 1952, cap. 23.
5. Hays, W. L.: Statistics, Holt, Rinehart and Winston. Inc., Nueva
York, 1963, cap. 15.
6. Johnston, J.: Econometric Methods, McGraw-Hill Book Company,
Nueva York, 1963, Parte II.
7. McCollough, C., y L. Van A tta: Introduction to Descriptive Statistics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, caps. 5-8.
8. Mueller, J. H., K. Schuessler, y H. L. Costner: Statistical Reasoning in Sociology, 2? ed., Houghton Mifflin Company, Boston, 1970,
cap. 1 1 .
9. Wallis, W. A., y H. V. Roberts: Statistics: a New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, cap. 17.
10. Weinberg, G. H., y J. A. Schum aker: Statistics: An intuitive Appro­
ach, Wadsworth Publishing Company, Inc., Belmont, Cal., 1962,
caps. 16-18.
E n el p resen te capítulo proseguim os el exam en de la correlación
y la regresión. Se tra ta rá n p rim e ro algunas pru eb as de signifi­
cación, a continuación de lo cual pasarem os a las relaciones no
lineales, tem a que se exam inará asim ism o brevem ente en el ca­
p ítu lo xix. A continuación estudiarem os los efectos d e los erro ­
res de m edición en las pendientes y las correlaciones. F inalm en­
te, se exam inará el tem a de la correlación grado-orden.
X V III.l. P rueba de significación e intervalos de confianza
Prueba de significación de r y b. Como q uiera que r y los coefi­
cientes d e m ínim os cuadrados a y b sólo describen los datos de
las m u estras, n u e stro interés se c e n tra p o r lo re g u la r en los p a­
rám etro s co rresp ondientes d e las poblaciones, q, a y (3. E n p a r­
ticu lar, desearíam os p ro b a r la hipótesis n ula de que n o hay rela­
ció n (lin eal) alguna en la población, o podem os q u e re r o b ten er
intervalos de confianza p a ra q o p a ra los coeficientes de regre­
sión. E xam inarem os p rim ero la p ru e b a de la hipótesis n u la en
el sen tid o de que n o se d a relación en la población. Según vere­
m os, si podem os su p o n er u n a d istribución n orm al d e Y acerca
d e X y hom oscedasticidad, podem os tam bién servirnos del an á­
lisis de la v arian cia p a ra verificar la h ip ó tesis de que q = (5 = 0.
Sirvám onos del hecho de que, to d a ve/, que r v b (y, p o r con­
siguiente, tam b ién o v (3) tien en los m ism os, n u m eradores, u n a
verificación de la hipótesis d e que q = (Tío es asim ism o de la
h ipótesis p = 0 y viceversa. E n o tros té rm in o s : si n o se d a aso­
ciación lineal en la población, la pen d ien te de la ecuación de
regresión será cero y, p o r tan to , la línea será horizontal". ' R ecor­
d an d o q ue la ecuación de regresión re p resen ta el cam inó de las
m ed ias de las Y p a ra valores fijos de X , vem os in m ediatam ente
q u e siem pre q u e (3 = 0, las m edias d e las Y h an d e se r las m is­
m as p a ra todos los valores de X (véase fig u ra X V III.l). E sto
im plica, p o r su puesto, que la ecuación d e regresión sea realm ente
d e fo rm a lineal. E n p artic u la r, si dividiéram os el e je de las X
en cierto n ú m ero de categorías, en co n traríam o s que las m edias de
las categorías d e la población son exactam ente iguales. Así, pues,
p odem os tra d u c ir la hipótesis d e q u e p = q = 0 en el enunciado
de que las m edias de Y serán iguales p a ra cada u n a de las cate­
gorías de X . Si nos im aginam os u n a población in finita, com o
h ab rá que h acerlo p a ra satisfacer el supuesto de norm alidad,
podem os concebir el eje de las X com o dividido en u n núm ero
indefinido de categorías, cad a u n a d e las cuales tenga m edias
idénticas en Y . E n esta form a, n u e stra hipótesis cero se con414
v ierte en u„i = u,,z = u„3 = . . . . en donde nos servim os del subín­
dice doble p a ra recalcar que son las m edias de las Y las q u e nos
in tere sa n y que tenem os u n nú m ero indefinidam ente grande de
categ o rías X .
El cu rso del razonam iento a n te rio r sugiere obviam ente u n a
ex tensión d e la p ru e b a de análisis de variancia p a ra a b a rc a r un
Fig. X V III.l. R epresentación geom étrica del hecho de que la hipó­
tesis de p = 0 es equivalente a la hipótesis fxx = ¡j,2 = . . . =
n ú m ero indefin idam ente grande de categorías de la v ariab le de
escala nom inal (a h o ra X ) . R ecordem os los supuestos requeridos
e n el análisis de variancia. Además de la h ipótesis n u la y del su­
p u esto de que los casos se h an m u estread o alea to ria e indepen­
d ien tem en te de cada u n a de las categorías, hem os d e suponer
tam b ién poblaciones norm ales y variancias iguales den tro d e cada
categoría. A condición, pues, d e que podam os su p o n er tam bién
m u estreo aleatorio, vem os que to d o s esto s supuestos pueden
cu m p lirse si suponem os que la d istrib u ció n co n ju n ta de X y Y
sea n o rm al bivariable. E l lecto r re c o rd a rá que este ú ltim o su­
p u esto no s asegura sim ultáneam ente u n a ecuación d e regresión
lineal, n o rm alid ad de las Y p a ra cad a v alor fijo de X e iguales
v ariancias p a ra todos los valores d e e s ta variable. De hecho,
pues, los su p u esto s de m u estreo al az ar y de n o rm alid ad biva­
ria b le nos capacitan p a ra servim os del análisis de variancia con
o b je to de v erificar la hipótesis de que q = p = 0, au n cuando no
se re q u ie re la n o rm alid ad de las X en ta n to las e¿ tengan una
d istrib u ció n ap roxim adam ente norm al.
A n terio rm en te encontram os que e ra necesario o b ten er las su­
m as to tales de cuadrados y la de e n tre clases y re sta rlas, con
o b jeto de o b ten er la su m a de cuadrados d en tro . Sin em bargo,
al v erificar la hipótesis d e que q = 0, el proceso se sim plifica con­
siderablem ente. Ya vimos, en efecto, que la proporción de k.
sum a de cu ad rados to tal de la J L£XPHcada..nQr. X nos es dada por
r^T^Y en fo rm a análoga, la p ro p o rción que de ia m o s'm explicada
ñ o r X será 1 — r 2. Como q u iera que la sum a to tal de cuadrados
puede sim bolizarse con 2 y2, las sum as de cuadrados explicada e
inexplicada se convierten en r22 y2 y (1 — r 2)2 y2 respectivam ente.
Los grados de lib ertad asociados a la sum a to tal de cuadrados
son, p o r supuesto, N — 1. Al calcular la sum a inexplicada de cua-
Cuadro
X V III. 1. Prueba de análisis de variancia de la hipótesis
o= 0
Suma de
cuadrados
Grados de
libertad
2 y2
N -l
Total
r't'S.y2
Explicada
Inexplicada
(1
— r2)2 y2
1
N -2
Apreciaciones
de la variancia
F
fV2y2
1
(1 — r2)2 y2
N -2
r2(N - 2)
( 1 - r 2)
drados, to m am os la sum a de las desviaciones al cuadrado res­
pecto de la lín ea de m ínim os cuadrados, y no resp ecto de la gran
m edia de las Y . Pero, con o b jeto de o b ten er la línea de los m í­
nim os cuadrados, hem os de serv im o s de los dos coeficientes a y
b. P o r consiguiente, hem os p erd id o 2 grados de lib ertad , o sea uno
m ás de los que perdim os al to m a r las desviaciones resp ecto del
valor p a rtic u la r de Y. Podem os, pues, asociar N — 2 grados con
la sum a inexplicada de cu adrados y, restando, vem os que hay que
aso ciar u n grado de lib ertad a la sum a de cuadrados explicada.
Los re su ltad o s pueden resu m irse ah o ra com o en el cuadro
X V III.1. La v en taja de in s e rta r sím bolos en lu g ar de núm eros
en tab la está en que vem os inm ediatam ente que la cantidad 2 y2
desaparece cu an d o form am os la razón de las apreciaciones ex­
plicadas a las inexplicadas. E n o tro s térm in o s: la sum a total de
cuadrados se elim ina, y podem os escrib ir u n a fórm ula de F en
térm in o s de las proporciones de las sum as de cuadrados expli­
cada e inexplicada. De este m odo, la fó rm u la de F sólo com porta
las cantidades r2 y 1 — r 2, ju n to con los prados de lib ertad de
Af — 2 y 1. Podem os, p o r consiguiente, servim os de la fórm ula:
F I,Jf_ 2 = - 1r —
^ r2 (iV - 2)
(X V III.l)
sin ten er q ue o cupam os en co n stru ir u n a ta b la de análisis de
variancia, com o fue el caso en el capítulo an terio r. Como los cua­
dros p a ra F sólo ad m iten pru eb as a los niveles de .05, .01 y .001,
puede re su lta r preferib le to m a r la raíz cu a d rad a positiva de
(X V III.l) y u tiliza r la distribución t, con N — 2 grados de li­
b ertad.
Podem os ilu s tra r el em pleo de esta p ru e b a de análisis de va­
riancia p a ra la significancia d e r con los datos del cuadro X V II.l.
Obtuvim os allí u n a correlación d e r = .301 én tre el p o rc en taje
do negros y n u estro índice de discrim inación. Al verificar en
relación con el significado de r hacem os en realid ad la im p o r­
tan te p re g u n ta : "¿Con qué p ro b ab ilid ad ob ten d ríam o s u n a r de
.301 o m ayor (e n valor ab so lu to ) si no h u b iera efectivam ente aso­
ciación lineal alguna en la población?’’ Con o bjeto de efectu ar
In pru eb a F, calculam os sim plem ente r 2 y 1 — r2 y nos servim os
de la ecuación X V III.l. Así, pues, ya que r se b asab a en 13 casos,
leñem os:
(.301)2
.0906
F, = ----------- ------ 11 = ----------1 1 = 1.10
’
[ 1 - (.301)2]
.9094
R efiriéndonos a la tab la F, vem os que p a ra 1 y 11 grados de li­
b erta d neoesitam os u n a F de 4.84 o m ayor p a ra d e sc a rta r al nivel
de .05 suponiendo que la dirección no hubiese sido establecida con
anticipación. D ecidim os, p o r consiguiente, no d e sc a rta r la hipó­
le-ais nula de que q = 0. A parentem ente podríam os h a b e r obteni­
do una r de .301 o m ayor, sim plem ente p o r casualidad, a u n si no
se d iera asociación alguna en la población.
Una vez m ás, es n ecesario in sistir en la diferencia en tre una
prueba de significación y u n a m edida del grado de relación. Si
hubiéram os obtenido u n a r de .301 con u n tam año de m u estra
de 50, hab ríam os tenido :
.0906
^
1 « m 48 = 4-78
0 sea un valor significativo al nivel de .05. En am bos casos hem os
explicado ap ro x im adam ente el 9 p o r ciento de la variación total
de lit m uestra, p e ro en el ú ltim o de ellos tenem os m ás confian/«, iiiinque ligeram ente, de que se d a u n a relación en la población.
íHiérvalos de confianza. S iem pre que p u ed a p resu p o n erse o
ap reciarse ap ro xim adam ente u n a población n orm al bivariable,
m posible c o n s tru ir intervalos de confianza p a ra o y (j, así com o
In línea de regresión. El e rro r está n d a r de r nos está dado p o r la
1 Virulilla.
P o r desgracia, la distribución de m u estreo de r no será p o r lo
reg u lar sim étrica, excepto en el caso especial en que o = 0. En
efecto, la d istribución de selección se distorsiona m ás y m ás a
m edida que el valor absoluto de q se aproxim a a la unidad. Ade­
m ás, observam os que, p a ra p o d er servim os de la fó rm u la an terio r
del e rro r e stá n d a r de r, necesitaríam os conocer o p o d er ap reciar
el valor d e q. E stas dos com plicaciones h acen que sea difícil
o b ten er in tervalos de confianza p a ra 9 en fo rm a abreviada.
Al calcular u n intervalo de confianza resp ecto de r, converti­
m os p rim ero r en u n a nueva estad ística z que tiene u n a d istribu­
ción de m uestreo aproxim adam ente norm al. Ponem os luego un
in terv alo de confianza alred ed o r d e z en la fo rm a habitual. Final­
m ente, u n a vez anotados los lím ites su p erio r e in ferio r de con­
fianza de z, reconvertim os estos valores p articu lares d e z en r,
con lo que obtenem os los lím ites de confianza de esta últim a.
T ransform am os r en z p o r m edio de la fó rm u la:
1 -j-
Y
z = 1.151 log — —
1 —r
en donde z p u ed e to m ar valores d e cero al infinito. Conviene
llam ar la atención del lecto r acerca del hecho de que el valor z
calculado m ed ian te la fó rm u la a n te rio r n o tiene en absoluto
conexión alguna con los valores d e Z que utilizam os con la curva
norm al están d ar. Los valores de z pueden o b ten erse directam en­
te del cu ad ro K , Apéndice 2, en lu g ar de servirse de los logarit­
mos. Los dos p rim ero s dígitos d e r se buscan de a rrib a abajo en
el m argen izquierdo, en ta n to que el terc ero se localiza horizon­
talm en te en la p a rte superior. Los valores de z correspondientes
están dados e n el cuerpo del cuadro. Así, p o r ejem plo, u n a z de
0.3228 co rresp onde a u n a r de .312; u n a z de 1.3892 corresponde
a una r de .883. Al servirnos del cu ad ro K, prescindim os del sig­
no de r, asignando a z el signo correspondiente u n a vez hallado
su valor num érico. O bsérvese que los valores de z sólo son lige­
ram en te m ayores que r cuando \r\ < .40, p ero a m edida que r
crece, z em pieza a to m ar valores m ayores que la unidad.
Podem os servim os ah o ra de la transform ación de z e n u n p ro ­
blem a de in terv alo d e confianza. La distribución de selección
de z es ap roxim ada a la norm al, au n p a ra N pequeñas y desvia­
ciones m oderadas de la n orm alidad bivariada. Su e rro r están d ar
nos está d ad o p o r :
1
(X V IlI.2)
= -----------V ^ -3
Y esto n o sólo p erm ite servirse de la tab la norm al, sino que he-
iiion elim inado adem ás la necesidad d e h a b e r estim ado q, y a que
i<| e rro r están d a r d e z sólo depende d e N . Tom ando com o ejem ­
plo num érico la correlación d e .301 e n tre el p o rc en taje de negros
y In ilIncrim inación, hallam o s que el v alo r co rresp o n d ien te d e z
t*s ilc* 0.3106. Como q u ie ra que no h a b ía m ás que 13 casos, te­
nemos :
a0 = ----- i----- = — = 0.3162
y i3 - 3 v io
Ht ¡póngase que deseam os o b ten er p a r a @ u n intervalo de con­
fluí ia» de l 95 p o r ciento. P rim ero calculam os dicho in terv alo en
térm inos de valores de z. Así, pues, to m aríam o s:
z ± 1.96a* = 0.3106 ± 1.96(0.3162)
= 0.3106 ±0.6198
l'o r consiguiente, el in terv alo de confianza alre d ed o r de z va de
,3092 a + .9304. O bsérvese que p a ra o b ten er el lím ite in ferio r
tuvim os que re s ta r u n n ú m ero m ayor, num éricam ente, q u e 0.3106.
Kslo da u n re su ltad o negativo, lo cual significa a su vez
que el
vitlor de r co rresp o n d ien te a dicho lím ite in ferio r h a de to m arse
tam bién com o negativo. B uscando los valores d e r corresponillente.s a los dos lím ites de confianza d e z, obtenem os los valo­
ren ile — .300 y .731 p a r a los lím ites in fe rio r y su p erio r resp ec­
tivam ente.
O bsérvese que el intervalo n o es to talm e n te sim étrico en re la ­
ción con el v alo r de .301 obten id o p a ra r. E n este caso, el lím ite
su p erio r está algo m ás cerca de r que el lím ite inferior. Si hubit'rnm os h allad o u n a r de .80, el in terv alo re su lta n te h a b ría esIttilo todavía m ás d isto rsio n ad o en la m ism a dirección. Puede
co m prenderse in tu itiv am en te que esto sea así si tenem os p re ­
sente t|uo, siem pre q u e em pezam os a acerc am o s al lím ite su­
p erio r de la unidad, ponem os tam b ién u n a restricció n al lím ite
su p erio r del in tervalo d e confianza. E n e sta form a, re su lta ría
Im posible, p o r ejem plo, o b ten er u n in terv alo de confianza de
,H(> i .16. Si o cu rre que r sea negativa, la dirección de la d isto r­
sión será opuesta, p o r supuesto, a la a n terio r. El in terv alo sola­
m ente llegará a ser sim étrico en relación con r cuando é sta sea
I|ri i¡11 a cero.
Piulemos in te rp re ta r este in terv alo de confianza en la fo rm a
luihlitial. N u estro p ro ced im ien to es tal q u e a la larg a podem os
esp ern r o b ten er intervalos que incluyan el valor (fijo ) de o el
OS p o r ciento de las veces. P odem os tam b ién u tilizar tales in te r­
valos de confianza com o verificaciones im plícitas de hipótesis.
I'n el problem a an terio r, en efecto, y a hem os observado que el
lím ite in ferio r del intervalo es negativo. Y com o q uiera que cero
e stá incluido en el intervalo, sabem os inm ediatam ente que no
descartaríam os la hipótesis n u la de que q = 0. Y si quisiéram os
v erificar algún o tro valor supuesto de q, procederíam os igual.
Si p o r ejem plo hubiéram os anticipado que q = .80, habríam os
d escartad o al nivel de .05, y a que este valor cae fu e ra del lím ite
su p erio r de .731.
S ería conveniente tam bién calcular intervalos de confianza a
p ro p ó sito de o tras m edidas de grados de relación. P or desgracia,
se conoce dem asiado poco acerca de las distribuciones de m ues­
treo de la m ayoría de las m edidas de asociación en m ateria de
problem as de contingencia p a ra p o d er c o n stru ir intervalos de con­
fianza en relación con ellas. H aggard [11] sugiere u n m étodo
p a ra co m p u tar intervalos de confianza acerca de r» o correlación
interclase, y G oodm an y K ruskal [10] discuten la distribución
de m u estras de varias m edidas nom inales y ordinales.
O casionalm ente se q uiere p o d e r p o n er u n intervalo de con­
fianza con referencia a b, o se puede ten er necesidad de encon­
tr a r u n cin tu ró n a cuyo in te rio r pu ed a esperarse que la verdade­
ra ecuación de regresión se encuentre. E n am bos casos podem os
servirnos d e la distribución t en fo rm a relativam ente directa. La
apreciación del e rro r e stán d a r de b está d ad a p o r :
A
A
(X V III.3)
<*!>=
en donde se re co rd a rá q ue:
Con fines de cálculo puede d em o strarse algebraicam ente q u e :
A
/ S (Y t-Y ^-b
<—1
\
'
2 (X* - X ) { Y i - Y )
i=l
(X V III.4)
N -2
Podem os servirnos ahora de los cálculos num éricos obtenidos
ya p ara los datos de discrim inación del cu ad ro X V II.l, con lo
que o b te n e m o s:
560 0 2 4 - 1 9 .9 3 1 ( 2 553.77)
= V 46 284 = 215.1
, 6= _ j m
_ = _2m
V128.131
=1900
11.32
Si deseam os calcular el intervalo de confianza del 99 p o r ciento,
i tu tirrim os d irectam ente a la tab la t y nos servim os de N — 2
ii 11 grudos de lib ertad. O btenem os en esta fo rm a:
b ± (3.106)(19.00) = 19.931 ± 59.014
* Al ap reciar la ecuación de regresión, vem os que n u e stra me|o r « p red ació n singular (d e “p u n to ” ) es la línea de los m ínim os
eimdrudos. Como q u iera que la cantidad que estam os aprecian­
do nliora ya no es u n valor singular, sino u n a línea entera, nuesInv apreciación del intervalo ya tam poco será u n intervalo, sino
miti hunda a am bos lados de la línea de m ínim os cuadrados. De
hurnns a prim eras po d ría esperarse que dicha ban d a consistiera
un dos líneas paralelas a la de los m ínim os cuadrados. S in emlinrgo, sem ejante b an d a im plicaría que conocem os la verdadera
pendiente y que la ú nica fuente de e rro r está en la apreciación
de a. I-Ieinos de re co rd a r que se aprecian ah o ra dos cantidades
(u v |l), y, p o r lo tan to , tenem os dos fuentes de erro r. El lector
luí i le p ercatarse p o r sí m ism o de que to d a vez que la pendiente
puede habese apreciado asim ism o incorrectam ente, cu an to m ás
nos vamos alejando del p u n to (X , Y ), tan to m ayor re su lta la im ­
precisión. La ban d a de confianza ad o p ta la form a general de la
fljpiru XVIII.2.
* Para traz ar esta b an d a de confianza, será necesario calcular
el e rro r están d a r de Y v p a ra varios valores de X . La apreciación
del e rro r están d a r nos está d ad a p o r la fó rm u la:
V
I 1— —----------------(X-X)*
,(X
Y,,VnIII.5)
„v
2 (Xi-X)*
i= i
,en donde el valor p a rtic u la r de X a u tilizar en ( X — X ) 2 puede
ponerse en cu alq u ier lugar del eje de las X. Obsérvese, de paso,
que eunnto m ás lejos X queda de X, ta n to m ayor es el valor num áiieo del e rro r están d ar. Supóngase que deseam os o b ten er el
rm > r e stá n d a r estim ado cuando X = 10.0. Como q uiera que
V 4.837, obtenem os:
o„ - 215.1 J j L +
"
113
N
— 4-837.)2 = 215.1 V-28496 = 114.86
128.131
V
*
S irviéndonos nuevam ente d e la tab la t y d e u n intervalo del
99 p o r ciento resp ecto de Y p calculado para este valor f i j o de X,
o b te n d ría m o s:
Y p ± (3.106)( 114.86) = Y P ± 356.8
U na vez que hayam os obten id o o tro s in terv alo s sem ejantes de
Y p p a ra o tro s valores p artic u la res de X, podem os tra z a r la grá-
Fig. X V III.2. B anda de confianza con respecto de la recta de
m ín im o s cuadrados.
fíca de la b a n d a en tera. In ú til es decir que el procedim iento en
cuestión se h a ría m uy fastid io so si se d eseara o b ten er la banda
e n tera y n o se c o n ta ra con calculadoras.
Probando la diferencia entre dos correlaciones. Como se indicó
antes, tien e h ab itu alm en te m ás sen tid o teórico el c o m p arar dos
o m ás declives q u e el c o m p arar co rrelacio n es; ta l com paración
e n tre declives o cu p ará n u e stra atención en el cap ítu lo xx sobre
análisis d e covariancia. S in em bargo, o cu rre con frecuencia que
se h an o b ten id o v arias correlaciones y se desea estab lecer que u n a
de ellas es significativam ente m ás a lta que las dem ás. M ientras
nos co n ten tam os en d esc rib ir relaciones d en tro d e n u e s tra m ues­
tr a p artic u la r, podem os c o m p a ra r sim plem ente las m agnitudes
relativas d e las dos r y re g is tra r la m agnitud d e la diferencia.
Sin em bargo, si deseam os generalizar a u n a población m ayor,
p lan téase la cuestión d e si la diferencia o b ten id a p u ed a o no de­
b erse acaso al azar. Supóngase, p o r ejem plo, q u e se h a n o bte­
nido u n a r de .50 y o tra de .30. Puede desearse verificar la hipó­
tesis n u la de que las dos correlaciones de las poblaciones son
idénticas, esto es, pt = q2.
Cabe im aginar dos situaciones d istin tas en las que podrían
hacerse verificaciones de esta clase. P rim ero, pueden acaso te­
nerse dos m uestras independientes y desearse co m p arar los gra­
dos de relación e n tre X y Y y d en tro de cada u n a de las m u estras.
Así, p o r ejem plo, la relación e n tre el p o rc en taje de negros y la
discrim inación puede acaso no ser la m ism a en los estados del
S ur que en los del N orte. P odría en este caso establecerse la hipó­
tesis de investigación de que Qxy es m ás a lta en el S u r que e n el
Norte, verificando la hipótesis nula de que las dos correlaciones
son iguales. Un segundo tipo de situación, fácil de confundir con
el prim ero, puede p re sen tarse cuando se dispone de una sota
m uestra. P uede h ab e r en este caso u n a sola variable dependien­
te (p o r ejem plo, la discrim inación) y dos variables independientes
(p o r ejem plo, el p o rc en taje de negros y el p o rcen taje de m ano
de o b ra em pleada en la in d u stria). P uede acaso desearse esta­
blecer que u n a de estas variables independientes está m ás direc­
tam ente relacionada con la variable dependiente que la otra. Si
designam os la segunda variable independiente com o Z, podem os
Icncr in terés e n verificar la hipótesis n u la de que qxv — q¡,v. Vea­
mos p rim eram en te cóm o trata m o s el p rim e r tipo de situación,
p a ra p a sa r luego a la p ru e b a de u n a sola m uestra.
Si las dos correlaciones se basan en m u estras independientes,
podernos co n v ertir cad a u n a de las r e n z y servirnos de la fó rm u ­
la del e rro r está n d a r de la diferencia e n tre las z, que es análoga
a la del e rro r está n d a r d e u n a diferencia e n tre m edias y se p ré­
senla com o sigue:
(X V III.6)
Podem os a continuación ya sea estab lecer u n intervalo de con­
fianza relativo a (zx — z2) o b u sca r el valor d e :
Z=
( Z i — Zb ) - 0
en la tab la norm al. El cero figura en la fó rm u la a n terio r debido
ni hecho de que n u e stra hipótesis n u la ad o p ta la form a oj = p2.
S upóngase que p a ra 17 ciudades del S u r la correlación e n tre el
p o rc en taje de negros y la discrim inación re su lta ser de .567, fre n ­
te1 a la d e .301 de las ciudades del N orte. Así, p u es:
= .301
Z t= 0.3106
ro = .567
za = 0.6431
= V l/ i o + V i 4 =
+ -0714 = .414
P o r lo ta n to :
.3106 - .6431
-.3 3 2 5
Z = ------------------ = -------------= -.8 0 3
.414
.414
y vem os que e sta d iferencia de las r no es significativa al nivel
de .05. Así, pues, pese a que la correlación sea m ayor p o r lo que
se refiere a las ciudades del S ur, esta diferencia p u ed e deberse
sim plem ente al azar.
E n el segundo tipo de situación m encionado, no disponem os
de dos m u estras independientes y n o podem os, p o r consiguiente,
serv im o s de la m ism a fó rm u la del e rro r e stá n d a r de zx — z2- Se
dispone de u n m éto d o p a ra tr a ta r este tipo de problem a, a condi­
ción que sólo tengam os in teré s en generalizar a subpoblaciones
de to d as las m u estras posibles p a ra los que X y Z (las dos varia­
bles in d ep en d ien tes) tienen las m ism as com binaciones d e valo­
res que las de la m u estra p a rtic u la r que hem os obtenido. E n la
m ayoría de los casos prácticos puede p rescin d irse im punem ente
de esta restricció n , a m enos que ex ista alguna razón p a ra supo­
n e r que el m argen de variación es m ucho m ayor en la población
q u e en la m u e stra estudiada, en cuyo caso deberem os de todos
m odos g u ard arn o s de generalizar en u n sen tid o o e n otro.
Si verificam os la hipótesis n u la de que qxv =
form am os
t de la m an era siguiente:
t - (r
*• — \ * x y
_ r }
(W -3 )(l + r„ )
r zy f '
2(1
1xy“
r X !?
2 r x y r x z V zy )
(X V III.7)
Podem os b u sc a r luego el valor de t en el cuadro, sirviéndonos
de N — 3 grados de lib ertad . E n n u e stro ejem plo num érico, su­
póngase que la correlación e n tre X y Z p a ra las ciudades del
N orte re s u lta se r de .172 y que la correlación en tre Y y Z es de
.749. T endríam os en esta fo rm a :
10(1 + .172)
(.301 = .749 ) J ______
y¡ 2[1
711 -— .3012 — .1722 — ,7492 + 2( .301)(.172)(.749) 3
= -1.72.
Como tenem os 10 grados d e lib ertad , vem os que no podem os
d esc artar la hipótesis n ula d e que n o hay d iferencia e n tre las
correlaciones de las poblaciones de cada u n a de las variables in­
dependientes con discrim inación.
XVIII.2. Correlación no lineal y regresión
H asta aquí hem os venido suponiendo que la ecuación d e regre­
sión e ra de fo rm a lineal. E n m uchos problem as sociológicos
prácticos, el m odelo lineal, aunque ta l vez n o exacto, d a con todo
u n a aproxim ación b a sta n te cercana a la form a v erdadera de la
ecuación, de m odo que n o necesitam os ocuparnos de m odelos
altern ativ o s m ás com plicados. E sto es así, en p artic u la r, en re la­
ción con los estudios d e exploración en los que el grado de adap­
tación no es excesivam ente exacto. H ay casos, sin em bargo, en
los que la inspección del diagram a de dispersión p o d rá indicar
claram en te u n a relación no lineal, o en los que n u e stra teoría
h a an ticip ad o u n a relación de esta clase. S iem pre que se dé u n a
relación no lineal sem ejante, el coeficiente m om ento-producto
d a rá obviam ente u n a subestim ación del grado verdadero de re la­
ción, ya que este coeficiente sólo m ide él grado de adaptación
de la m ejo r re c ta singular. Y a vim os que con u n a cu rv a en
fo rm a de U es posible te n e r u n a fu e rte relación con u n a r de ap ro ­
xim adam ente cero, y se advirtió al lecto r que era, p o r lo tanto,
in co rrecto sacar la conclusión de que dos variables son indepen­
dientes sim plem ente p o rq u e r sea cero. Si el diagram a de dis­
persión indica u n a d istrib u ció n de p u n to s m ás o m enos al azar,
podem os co n clu ir que n o existe relación, p ero hem os de e s ta r al
acecho al pro p io tiem po de las relaciones no lineales. É sta es,
p o r supuesto, u n a razón m ás en favor de que el lecto r debe acos­
tu m b ra rse a tra z a r siem pre diagram as de dispersión an tes de
seguir ad elan te con el análisis.
E l tem a general de la correlación y la regresión no lineales es
dem asiado com plejo p a ra p o d e r tra ta rlo adecuadam ente en este
texto. La razón de la com plejidad del análisis n o lineal está en
que, u n a vez que progresem os m ás allá de la ecuación de la recta,
hay n u m ero so s tipos de ecuaciones que re p re se n ta n las d istin tas
fo rm as posibles susceptibles de se r ad o p tad as p o r las relaciones
no lineales. Sólo las m ás sim ples d e estas ecuaciones pueden
tra ta rs e aquí. A fortunadam ente, estas ecuaciones relativam ente
sencillas suelen se r p o r lo re g u lar adecuadas p a ra la solución de
las clases de relaciones que se p lan tean en la investigación socio­
lógica. Un tipo general de función n o lineal puede re p resen ta rse
en térm in o s de polinom ios d e grado enésim o, que tienen ecua­
ciones de la fo rm a :
Y = a + b X + cX* + dX» + . . . + k X n
El exam en de las relaciones n o lineales d e este tipo general lo
d ejarem os h a s ta el próxim o capítulo, o sea h a sta el m om ento de
em p ren d er el estudio de los problem as de regresión m últiple.
E n efecto, u n a vez com prendidos estos problem as de regresión,
dispondrem os de un m étodo relativam ente sim ple p a ra el tra ta ­
m iento de aquellos tipos de relaciones no lineales que se dejan
d escrib ir ad ecuadam ente p o r m edio d e polinom ios.
Algún o tro tipo d e relaciones no lineales relativam ente sencillo
pued e tra ta rs e a m enudo' m ed ian te u n a transform ación de varia­
bles que p e rm ite el em pleo del m odelo lineal fam iliar. E ste p ro ­
ceso pu ed e ilu stra rse con el caso de las funciones logarítm icas
rep resen tad as p o r ecuaciones del tip o :
Y = a + b log X
que p re se n ta n la fo rm a general de la figura X V III.3. E n una
ecuación de este tipo, en efecto, Y es en realid ad u n a función
lineal no de la X m ism a, sino de su logaritm o. E sto sugiere que
si podem os tra n sfo rm a r cada u n a de las m arcas d e X en una
nueva variab le Z = log X , podem os esc rib ir Y com o función lineal
d e Z. Así, p o r ejem plo:
Y — a + b log X = a + bZ
Podem os ca lc u lar ah o ra la correlación e n tre Y y Z (o sea de y
y de log X ) en la fo rm a habitual. Si dam os a conocer la d istrib u ­
ción de las m arcas a los ejes d e las Y y las Z, el re su lta d o h ab rá
d e ser ap roxim adam ente de fo rm a lineal. Si querem os, podem os
co m p arar el grado de relación e n tre Y y Z con el q u e existe en­
tre Y y X . Si rvz es significativam ente m ayor que rX!1, entonces
el m odelo logarítm ico da u n a m e jo r aproxim ación que el m odelo
lineal e n tre X y Y .
Los m odelos logarítm icos del tip o a n te rio r se p re se n ta n a m e­
n u d o en casos en que la variable independiente X asum e u n gran
m argen de valores, p ero en los que, u n a vez alcanzado cierto
valor, los au m entos u lterio res p ro d u cen cada vez m enos efecto
sobre la v ariab le dependiente. La m agnitud de u n a ciudad es una
variable que p re se n ta con frecuencia esta clase de efecto. Es
posible, p o r tan to , que las ciudades d e m ás d e 500 m il h ab itan tes
p resen ten to d as ellas m arcas d e Y m uy parecidas. Pero, si se
incluye en la m u e stra a la ciudad de Nueva York, p o r ejem plo,
el v alo r de X p a ra esta ciudad será tan su p erio r al de las dem ás
ciudades, que el efecto n eto co n sistirá en in clin ar la relación en
fo rm a m uy p arecid a a la d e la fig u ra XVIII.3. E n tal caso podrá
re su lta r p referib le relacionar Y con log X , ya que el hecho de
to m ar el lo g aritm o de la m ag n itu d u rb an a p ro d u c irá el efecto
de a g ru p ar las m arcas extrem adam ente grandes y de dism inuir
el "efecto de c u rv a tu ra ” de estas ciudades m ayores.
E n c ierto n ú m ero de casos el investigador n o te n d rá ta l vez
in teré s e n h allar la fo rm a exacta d e la ecuación de predicción
q u e m e jo r se ad a p te a su s datos. Acaso sólo tra te , p o r ejem plo,
de d em o strar que la relación es de fo rm a n o lineal, o de o b ten er
u n a m ed id a p a ra el grad o de relación, independientem ente de su
form a. Cuando p u e d a efectu arse u n a tran sfo rm ació n sencilla
Fig. X V III.3. E cuación logarítm ica de m ín im o s cuadrados de la
fo rm a Y = a + b log X.
com o la logarítm ica, será indudablem ente ventajoso servirse de
dicho procedim iento. P ero a u n así, el investigador q u e rrá acaso
v erificar si la m ed id a q u e h a o b tenido co nstituye o n o u n a buena
aproxim ación del re su ltad o que h a b ría hallado si se h u b iera
en co n trad o la m e jo r adaptación posible. Con o b jeto d e tr a ta r
los p ro b lem as de e s ta índole, podem os servirnos de los principios
básicos del análisis d e variancia y de algunas de las m edidas de
los grados de asociación desarrolladas en el capítulo sobre aná­
lisis de variancia.
El lecto r re c o rd a rá que p a ra o b ten er la sum a de cu adrados
" d e n tro ” en el análisis d e variancia de u n a fo rm a tom am os la
su m a de las desviaciones al cu ad rad o de cad a u n a de las m edias
de las categorías. Supongam os ah o ra q u e las X se h an subdivid ido en c ierto n ú m ero de categorías y que la sum a de los cua­
d rad o s en Y se analizaban e n la fo rm a habitual. Sabem os que
p a ra to d a categoría d ad a de X la su m a d e los cuadrados alrede­
d o r de la m edia d e la categoría p ro d u c irá u n re su ltad o num érico
in ferio r al de la su m a de los cu ad rad o s alred ed o r de cualquier
o tro n úm ero. Síguese, en p a rtic u la r, que la sum a in te rio r de
cu ad rad o s será m en o r q u e la su m a d e las desviaciones cu a d ra­
d as resp ecto d e aquellos p u n to s d e la línea de m ínim os cim
d rados que caen en los p u n to s m edios de los intervalos (véase
la figura X V III.4).
Si o cu rre que la ecuación sea de fo rm a lineal, podem os esp erar
que Y ,} caerá aproxim adam ente en la línea de los m ínim os cua­
drados, de m odo que cam biará poco que las desviaciones se to­
m en respecto de las m edias de las categorías o resp ecto de la lí-
Fig. XVIII.4. C om paración de las desviaciones respecto de la rec­
ta de m ín im o s cuadrados con las desviaciones respecto de las
m edias d e las categorías.
n ea en cuestión. P or o tra p arte , si la ecuación es realm en te no
lineal, entonces, p a ra algunas, al m enos, de las categorías, la sum a
de los cu ad rad o s referidos a la m edia de la categoría será consi­
derab lem en te m ás pequeña que la d e los cuadrados referidos a
la línea de los m ínim os cuadrados. E n otros té rm in o s : la sum a
in terio r o inexplicada d e cuadrados será m ínim a em pleando las
m edias de las categorías y, p o r consiguiente, la sum a de cu ad ra­
dos en tre categorías, o explicada, s e rá m áxim a. Así, pues, la
proporción de variación explicada p o r las categorías, m edida p o r
la razón de correlación JE2, será m ayor que la p roporción expli­
cada p o r la lín ea de m ínim os cuadrados, a m enos que la verda­
d era relación sea efectivam ente lineal.
Podem os sac ar u tilid ad de este hecho p ractican d o u n a p ru eb a
de no linealidad. Si form am os la can tid ad E 2 — r2, obtenem os la
proporción d e v ariación explicada en el su p u esto de u n a form a
cualquiera de relación n o explicada p o r u n a relación lineal. Es
obvio que p a ra o b ten er E 2 perm itim os que la relación adopte
cualquier fo rm a posible, ya que sólo hem os tom ado desviaciones
respecto de las m edias de las categorías, p rescindiendo de dónde
estas m edias acontezcan encontrarse. N os estam os p reg u n tan d o
fun d am en talm en te en cu án to podem os m e jo ra r n u e stra posi­
bilidad de p red ecir valores de Y no restringiéndonos al m odelo
lineal. Si la m ejo ra es m ayor de lo q u e esperaríam os del azar
Cuadro
XV III.2. Prueba de análisis de variancia para el caso de
no linealidad
Grados Estimacio­
Sumas
nes de la
de
de
cuadrados libertad variancia
Total
Explicada por el mo­
delo lineal
Adicional, explicada
por el modelo no
lineal
Inexplicada
2y2
F
N -l
1
( £ 2 _ r2)2y2
(1 - £ 2)2y2
( £ 2—r2)Sy2
k -2
N -k
k -2
(1 —JB2)2y2
(E 2- r 2)(W -fc)
(1 — E 2) ( k — 2)
N -k
en el supuesto de que la ecuación de regresión sea efectivam ente
lineal, entonces podem os concluir que la relación es no lineal.
La p ru eb a de análisis de variancia que em plearem os p a ra veri­
ficar la no linealidad asum e u n a fo rm a con la que no tard a rem o s
en fam iliarizarnos. H allam os p rim ero la ca n tid a d d e variación
que puede explicarse sirviéndonos del m odelo lineal. A lgebraica­
m ente, e s ta can tid ad p u ed e re p re se n ta rse com o r 22 y 2. De la va­
riación d ejad a sin explicar p o r el m odelo lineal, ( 1 — r 2)S y2,
vemos a continuación qué tan to p u ed a explicarse p o r m edio del
m odelo general. Como q u iera que £ 22 y 2 nos da la sum a de cua­
d rados que puede explicarse p o r Y cuando no pesa sobre la fo r­
m a de la relación restricció n alguna, la can tid ad ( £ 2 — r2)2 y2
re p resen ta el in crem ento explicado debido a la no linealidad. Su­
poniendo que n o haya erro res de redondeo, e s ta ca n tid ad h a b rá
de ser siem pre p ositiva.1 Y como q u iera que la ca n tid ad (1 —
í?2)2 y2 nos da la sum a de cu adrados que n o re su lta explicada ni
siquiera p o r el m odelo m e jo r adaptado, podem os e fectu ar una
p ru eb a F tal com o se indica en el cuadro X V III.2. Como de cos­
tu m b re, el den om inador de F es el térm in o d e e rro r y, com o
i Siempre que N sea pequeña y sólo pueda, por tanto, usarse un corto
número de categorías, resulta poco realista el supuesto de que las puntua­
ciones de X están agrupadas en los puntos medios de cada intervalo. Esto
puede llevar a agrupar los errores, dando un valor a & menor que r2.
q u iera que estam os verificando en relación con desviaciones res­
p ecto de la linealidad, tom am os com o n u m era d o r u n a aprecia­
ción de la v arian cia basada e n ( £ 2 — r2)2 y2, o sea la can tid ad
explicada p o r el m odelo general m ejo r, que no h a sido explicada
todavía p o r el m odelo lineal. Los grados de lib e rta d asociados
al n u m era d o r p u ed en o b ten erse p o r sustracción.
Una vez m ás observam os que la su m a to tal de cu ad rad o s se
elim ina, deján d o nos con la siguiente fó rm u la p a ra F :
( £ 2 — r2) ( N — k)
(XVIIL8)
en donde k re p re se n ta el n ú m ero d e categorías en las que se ha
descom puesto X.
Ilu strem o s la p ru e b a de n o linealidad con los d ato s que se
ag ru p aro n en el cu ad ro XVII.2. Según p u ed e com probarse fá­
cilm ente, las sum as to tal y e n tre categorías d e cu ad rad o s en Y
son com o s ig u e :
SC to ta l = 101 115.38 - 92 132.04 = 8 983.34
SC en tre categorías = 94 792.59 — 92 132.04 = 2 660.55
en donde hem os tra ta d o todas las m areas de Y com o si se encon­
tra ra n en los p u n to s m edios d e sus respectivos intervalos y en
donde nos hem os servido de los procedim ientos p a ra los datos
agrupados (véase sec. VI.4). P o r lo ta n to :
SC e n tre cu ad rad o s
2 660.55
................ = ________ — 2962
£2 — .............
SC to tal
8 983.34
Toda vez que an terio rm en te encontram os u n a r de —.460 supo­
niendo u n a relación lineal, o b te n e m o s:
_ .2 9 6 2 - ( - .4 6 0 ) 2 150 - 9
7,141 “
1 — .2962
9-2
_
.0846 141 _ 11.929
~ .7038
7
4.927 “
M
y vem os que al nivel de .05 podem os d e sc a rta r la hipótesis nula
de u n a relación lineal e n tre el p o rc e n ta je de p erso n as clasifica­
d as com o tra b a ja d o ra s de g ran jas ru rales y el p o rc e n ta je d e m u­
jere s que tra b a ja n en la in d u stria.
Si u n a relación re su lta se r n o lineal e n cuanto a la form a, es
m uy posible que r no sea significativa estadísticam ente, en tan to
q ue E sí lo será. P or supuesto, la significación de E puede com ­
p ro b a rse p o r m edio de u n análisis directo* de variancia, tom ando
la razón de las estim aciones explicada e inexplicada de la va­
riancia. Son, pues, así tres las p ru e b as que pueden efectuarse,
a sab e r: 1) la de la significación de r; 2) la de la significación
de las desviaciones resp ecto de la linealidad (E 2 — r2), y 3) la de
la significación de E .
Si se en cu en tra u n a relación no lineal y se desea u n a estim a­
ción del grado de relación en la población, es preferible servirse
de la razón de correlación insesgada £, exam inada en el capítu­
lo xvi y d ad a p o r la fó rm u la:
t2
y
! ------ ü .
ya que el valor num érico de E es función del nú m ero d e catego­
rías em pleadas y pro b ab lem en te so b restim ará ligeram ente p o r
lo regular la relación e n la población. Si y a se h a calculado E , el
valor de e pu ede tam b ién calcularse a p a r tir de la fó rm u la:
E H N -l)-(k-í)
E2 = — 1
1
-------------------------------------i (X V III.9)
N —k
XVI
11.3. E fectos de los errores de. m edición
.SI hay m ediciones d e e rro r en X o Y , bien sean al azar o sisteinri ticas, puede esp erarse u n a alteración en n u estro s resultados.
l'.Mu se aplica p o r supuesto a todas las p ru e b as y m ediciones que
lin n o s exam inado h a s ta ahora, incluso los procedim ientos no
pm am étricos. E n realidad, u n o de los tipos de erro res d e medit I i'iii m ás com unes en sociología, ciencia p o lítica y la m ayoría de
Ihn restantes ciencias sociales, p arece ría se r consecuencia del uso
i|e dicotom ías m ás bien b u rd as, tales com o alto y bajo o presante
y ausente. No se com prenden bien las consecuencias que se deri­
van d e los errores d e m edición, pero- la m ayor p a rte del tra b a jo
iIntem ático so bre el tem a se h a llevado a cabo en las escalas de
intervalo y en los problem as que im plican análisis de correlación
y regresión. El tem a es p o r desgracia dem asiado técnico p a ra ser
U n t a d o cu el p re sen te texto, p ero re su lta rá conveniente p ro n u n ­
ciar |m r lo m enos algunas p alab ras precau to rias.
SI hay una m edición de e rro r sistem ática, o n o aleatoria, cual­
quier tipo de distorsión re su lta posible, siendo así necesario expilcar cuáles son las fuentes del e rro r no aleatorio y la fo rm a en
•|i te actúan. Si se co m p aran p o r ejem plo las m edias de tres m uesItici, v el e rro r de m edición es tal que coloque las m edias de las
tmienlras segunda y te rc e ra cercanas a la co rresp o n d ien te a la
pilm ei u, no so logrará significación estad ística cuando, con base
en m ediciones m ás exactas, p u ed a rechazarse fácilm ente la hipóIfttiM nula. P¡ero si los e rro res de m edición son estrictam en te al
ii/ h i , resu ltará posible te n e r u n a m ayor clarid ad acerca de los
efectos d e tales erro res. E n general, las m edidas d e asociación
re su ltarán aten u ad as p o r los e rro res aleatorios de m edición en
cu alq u ier variable. P or ejem plo, en el análisis de las situaciones
d e variancia, las m ediciones aleato rias de e rro r en la escala de
intervalos a u m en ta rán las variaciones dentro de las categorías,
p ero no afectarán sistem áticam ente las variaciones e n tre las cate­
gorías, lo que h a rá b a ja r tan to el v alo r de F com o la correlación
in terciases.
E n el caso de dos escalas de intervalo los erro res aleatorios de
m edición en cu alq u ier variable re d u cirán la m agnitud del coefi­
ciente d e correlación. E n algunos textos elem entales d e estadís­
tica se exam inan los procedim ientos correctivos de atenuación,
p ero se hace basándose en supuestos especiales, inapropiados
p ara u so en la investigación sociológica. (V éase [3 ].) E n general,
cuando se cu e n ta con dos o m ás m edidas de cada variable, resu lta
posible o b ten er estim aciones corregidas b a jo grupos variables de
supuestos. (V éanse [ 2 ], [ 6] y [14].)
Si
hay e rro re s aleatorios de m edición en Y p e ro n o en X , po­
dem os co n ceb ir la situación com o u n a contribución q u e alcanza
sólo al fa c to r de e rro r en la ecuación Y t = a + (3Z { + g¡, pudiendo
d em o strarse que n o h a b rá efecto sistem ático en la estim ación bvm
del declive, salvo que el e rro r e stá n d a r en tal estim ación se verá
in crem en tad o debido al aum ento del e rro r en la variancia. Pero
si hay tam b ién e rro r aleatorio de m edición en X —lo que es m uy
posible en to d a investigación re alista—, la estim ación bym del de­
clive se verá asim ism o atenuada. E n el caso de m u estras grandes
puede aplicarse u n a fó rm u la aproxim ada p a ra d eterm in a r el va­
lo r esperado del declive bvo:
2
<V
+ o„a
en la que X ' re p re se n ta el valor m edido de X , tal com o se le re­
p resen ta en la ecuación X ' = X + u, en donde se supone a u com o
un com ponente estricta m e n te aleatorio, con valor esperado igual
a cero, y sin que haya correlación e n tre u y X . La razón de la
atenuación e strib a en que la variancia del valor m edido X ' será
m ayor que la v ariancia verd ad era de X , según la fó rm u la:
<V2 = oa +
Vemos así que la atenuación en la estim ación de u n desnivel
es función d e la variancia del e r ro r de m edición, relativa a la
variancia en X .
E ste hecho tien e consecuencias im p o rtan tes en la p ráctica. Sig­
nifica que en cuantos casos haya e rro r aleatorio de m edición en
una variable independiente, n o podem os c o n ta r con iguales decli­
ves estim ados, incluso en el caso de que los declives verdaderos
10 sean. Si varias poblaciones (o m u e stra s) difieren con resp ecto
11 la can tid ad de variación en X , incluso co n las m ism as varianriiis de e rro r de m edición, las atenuaciones d e los declives d iferi­
rán. Vale la p en a te n e r e sto p re sen te cuando se llevan a cabo
com paraciones de los re su ltad o s de diferen tes estudios. La difi­
cultad señalada se aplica tam b ién a to d as las m edidas de asocia­
ción, y no pu ed e ser considerado com o u n defecto privativo del
análisis de regresión.
XVIII.4. Escalas ordinales: correlación de rangos
Ñus hem os ocupado a h o ra de m edidas d e asociación que pueden
iillllznrse p a ra relacio n ar dos escalas nom inales (<¿>2, xh, e tc é te ra ),
mui escala nom inal y u n a d e intervalo (co rrelació n in trac la se), y¡
iltm escalas d e intervalo ( r ) . Las tre s m ed id as que vam os a exa­
m inar en esta sección, o sean la rs de S p earm an y la tau y la gamiiih d r K endall, pu ed en em p learse p a rp S I a c i o n a r e n tre sí d o s
cut iiliib o rd in ales. A condición que las dos variables pueden aliHciu se, cu alquiera d e estas ú ltim as m edidas puede em plearse
jirtnt llar correlaciones q u e son algo parecid as a las del m om en­
to producto.
I,n* m edidas ordinales exam inadas en e s ta sección re su lta n
m|ii i vellidas cuando la relación e n tre X y Y es la q u e se denom ina
tm w nlónica en a um ento o bien m onotónica en dism inución. La
Itúni ile linealidad es desde luego in ap ro p ia d a en el caso de las
McnlitM ordinales, com o lo es tam bién la id ea de u n a distan cia
milit* vnlores de X (o d e Y ). Podem os, sin em bargo, h a b la r de
i#»tw limes que se en c u en tran en aum ento (o dism inución) cons­
tituir' línn función de au m en to m onotónico es aquella que o bien
«leinprc o p erm anece constante, a m ed id a que X aum enta.
|íii olí un palabras : cuando X aum enta, Y n o dism inuye. U na funtílrtli lliienl constituye u n caso especial d e u n a función m onotóMlt i« i~Ip Huiliento (o dism inución), p e ro tam b ién lo es u n a función
!m#hi lint leu tal com o Y = a + b lo g X . R econocem os dos clases
iIh i «Ilición no lineal, a sa b e r: las q u e son m onotónicas y las
t|M« in» lo No n . El ú ltim o tip o de relación n o lineal te n d rá p o r
*H|Mit'nlu mui o m ás c u rv atu ras o inversiones de dirección, com o
í»|i*ni|tliri( n una paráb o la o ecuación d e te rc e r grado.
I un fn v u e n e ia encontram os proposiciones teóricas de la forHtn ‘Vmtnln m nyor la X , m ayor la Y (o m en o r la Y )". E stas afirMim Ihih 'i quieren d ecir q u e la relación e n tre l y F e s m onotóniM, («< i <i mi especifican en qué form a. Las m edidas ordinales
«propínelas cuando' se tra ta de proposiciones de esta na♦
Hería por supuesto p re ferib le re fin a r n u estra s teorías,
i4t> iiinilu que .se especificase si existe linealidad o alguna clase
p a rtic u la r d e no lin earid ad (p o r ejem plo, lo g arítm ica), pero si la
m edición no h a su p erad o el nivel ordinal, re s u lta rá im posible
d istin g u ir em p íricam en te e n tre altern ativ as lineales o n o lineales.
(V éase [22].)
/LarrB de Spearm an:< El p rin cip io q u e se halla en la base de la
m ed id a d e Spearrffanf es m uy sim ple. C om param os la o rdenación
d e dos gru p o s de m arcas to m an d o las diferencias d e los rangos,
c u ad rán d o las y luego adicionándolas, y tra ta n d o finalm en te dicha
m gdida. d e m odo' que su v alor sea.-fcLQ, siem pre que.Joa..6rdenes
estén p erfec ta m e n te de acuerdo, —1.0 si los órdenes discxgpan
to talm e n te, y cero si no se d a relación alguna. Si sim bolizam os
la d iferen cia e n tre dos lugares cualesquiera com o Dit hallam os el
N
v alo r de 2 D 42 y calculam os r, p o r m edio d e la fó rm u la :
<=i
y
6 2 D*
rs = i ---------íü L .-----N ( N * ~ 1)
( X V III.10)
E sta fó rm u la p a ra r„ se obtiene to m an d o la fó rm u la p a ra una
co rrelació n m om ento-producto y aplicándola a rangos y no a
pu n tu acio n es b ru ta s, pudiendo así in te rp re ta r la m edida de
S p earm an com o la correlación m om ento-producto e n tre los ra n ­
gos d e X y los de Y.
Ilu strém o sla con algunos dato s reunidos p o r el au to r. Los
m iem b ro s d e u n cam p am en to d e tra b a jo fu e ro n ordenados de
su p e rio r a in ferio r desde los p u n to s de vista de la popularidad,
m ed id a p o r las am istades y d e la particip ació n en las discusiones
d e grupo. P a ra am bas variables el orden de clasificación de uno
significa u n a m arc a elevada. Los órdenes em patados se calculan
atrib u y en d o a cad a m arc a em p a ta d a la m edia aritm é tic a de la
p u n tu ació n q ue h a b ría recibido si no h u b iera em pates. Los v alo­
re s d e Di se calculan a continuación, tal com o se indica en el
cu a d ro X V III.3. Si el n ú m ero de em pates es pequeño, com o en
el p re se n te caso, no necesitam os in tro d u c ir m odificación en la
fó rm u la de rs. P ero si el n ú m e ro de em pates es considerable, en­
to n ces p u ed e calcu larse u n fa c to r de corrección (véase [19],
pp. 215-220). O btenem os, p u e s :
6(207.50)
r - i ------i--------- i- = 1 - .305 = .695
16(255)
O bsérvese que si las clasificaciones concuerdan perfectam ente,
x
2 D¡2 será cero, y el v alor d e rs se rá la unidad. Si bien la ins-
l i n t ¡ón directa de la fó rm u la no n o s d a inm ediatam ente los va­
loren de r, p a ra la independencia y la asociación perfectam ente
ueguliva, re su lta que p a ra la asociación negativa p erfec ta el valor
ili'l segundo térm in o será de —2.0 y, p o r lo tanto, r, será —1 .0.
C uaduo
XVIII.3. Cálculo del coeficiente de Spearm an de la
correlación de rango
l't'tsonas
Ana
mu
Jim
iiiuis
Mttrclu
liiiui
Ruth
Dorls
limitara
( ’ynlhiu
lUllo
lio
Nniity
Mnrl
Ni mi
Nmuli
Tolnl
O r d e n de
O r d e n de
popularidad
participación
1
2.5
2.5
4
5
6
7
8
9
10
11.5
11.5
13.5
13.5
15
16
5.5
5.5
1
2
3
9.5
55
13.5
9.5
16
5.5
11.5
8
15
11.5
13.5
4.5
3.0
— 1.5
—2.0
—2.0
3.5
—1.5
5,5
0.5
6.0
—6.0
0.0
—5.5
1.5
—3.5
—2.5
30.25
2.25
12J25
6.25
0.0
207.50
20.25
9.00
2.25
4.00
4.00
12.25
2.25
30.25
0.25
36.00
36.00
0.00
I'hi ii In no asociación, el segundo fa c to r será exactam ente la
IHilttntl
N '• 10, la distribución d e selección de rs es aproxim adam en­
te uní-tiinl, ro n una desviación e stán d a r de l / y / N — 1. P or lo tanto,
♦»! i'Jrniplo que estam o s exam inando, el e rro r e stá n d a r será de
I A / 1 1 Como p ru e b a d e la hipótesis n u la de que n o se d a relaiwt* n i Im población, podem os calcular Z com o sigue:
Z = — r* ° = .695 y /Í 5 = 2.69
í/y w -i
•tilvMniiono* de la tab la n o rm al vem os que la relación es signiflrwllvt* «I nivel tle .0 1.
t a (>iu tfs K nutall. Al calcular la rs de S pearm an nos servim os
rft» lim i iimlindos de las diferencias en los rangos. La ta u de
fcwülrtl!, t'tt t timbio, que tam bién varía e n tre —1.0 y 1 .0, se b asa
•H utm (ípt'tiu lón algo d istin ta. E n efecto, calculam os p rim ero
u n a estad ística S buscando todos los pares posibles de casos y
observando si las puntuaciones están o n o en el m ism o orden.
Así, p o r ejem plo, supongam os que teníam os las siguientes com ­
binaciones de lugares:
A
B
a
b c
1
2
2 3 4
3 1 4
d
Como q u iera que las m arcas d e A se h an d ad o en orden ascen­
dente, podem os calcular S exam inando las clasificaciones d e B
u n a p o r u na. F ijándonos en el p rim e r valor de la h ilera B (indi­
viduo a), vem os que la m arc a d e B está en el orden apropiado
p a ra los p ares ( a ,b ) y (a,d). E n o tro s térm in o s: el individuo a
ocupa u n lu g ar in ferio r a b y d en am bas variables A y B. Por
o tra p arte , la m arca de B discrepa (con respecto a la m arca de
A ) p a ra el p a r (a,c), ya q u e a ocupa u n lugar in ferio r a c en cuan­
to a A, p ero inversam ente en c u a n to a B.
Sirvám onos de +1 cada vez que u n p a r determ in ad o se halla
ord en ad o igualm ente p a ra A y B (lo que se denom ina p a r “con­
co rd an te” ) y d e —1 cada vez que se h alla ordenado al revés (lo
que se denom ina p a r "d isc o rd an te” ). El valor de S se obtiene
sum ando dichos +1 y —1 p a ra todos los pares posibles. P or lo
tanto, 5 es igual al nú m ero d e pares concordantes C, m enos el
nú m ero de p ares discordantes D. P or lo tan to , la contribución
de los p a re s ( a,b), (a,c) y ( a,d ) e s: + 1 - 1 +1 = ( 2 - 1) = 1 . Con
objeto de te n e r en cuenta los dem ás pares, recorrem os la tabla
de izquierda a derecha. Vemos así que la contribución de los p a­
res ( b ,c ) y ( b,d) es de —1 + 1, o sea cero. Finalm ente, la co n tri­
bución del p a r (c,d ) es de + 1 . O bsérvese que de hecho podem os
o b ten er el v alo r to tal de S disponiendo p rim ero A en el orden
ap ropiado y exam inando luego sucesivam ente los lugares de la
h ilera B, co ntando cada vez el núm ero de lugares de la derecha
que están en el orden apro p iad o y sustrayendo los que están en
el orden co n trario. De este m odo, en este sencillo ejem plo ob­
tenem os :
S = C - D = ( 2 - l ) + ( l - l ) + ( l - 0) = 2
Si ah o ra dividim os S e n tre el v alo r m áxim o posible que podría
tener, esto e s : (N - 1) + (N - 2) + . . . + 2 + 1 = N (N — l)/2 , ob­
tenem os u n coeficiente que p u ed e v aria r de —1 a +1. Definimos
así el coeficiente tau 0 (según K endall [16]), adecuado cuando no
hay em pates, com o sigue :2
2 Este coeficiente, derivado de los datos de la muestra, se denomina a
veces t, en tanto que tau se reserva para la contrapartida de la pobla-
T°
S
C —D
V i N i N - 1)
lA N ( N - 1)
(X V III .ll)
IU olí vio que si hay discrepancia perfecta en tre los dos sistem as
tlt» ni lim ación (esto es, si B estuviera ordenado com o 4, 3, 2, 1),
ni valor de S será —ViN^N — 1), y x será —1.0. Y asim ism o, si las
it'i'4 v¡iriubles no tienen relación alguna e n tre sí, las contribucio­
nes a .S positivas y negativas se invalidarán, y x será cero.
( un o b jeto de ilu s tra r el caso de los órdenes em patados, sir­
vámonos nuevam ente del ejem plo del cam pam ento de trab ajo .
iJUpongairios a los individuos en orden horizontal y reemplace*
iiiiih los nom bres p o r letras. N u estra disposición se p re sen ta en
i»i»l¡i turm a:
a
I)
cdef
g
h i
j
k
l
m n
o
p
A I 2.5 2.5 4 5 6 7
8 9 10 11.5 11.5 13.5 13.5 15
II V5 5.5 1 2 3 9.5 5.5 13.5 9.5 16 5.5 11.5 8 15 11.5
16
13.5
llm u m do seguir la regla de que
siem p re que algún
p a r com porit» un em pate, ya sea en la m arc a A o B , su contribución a S será
i »«i o, M irando p rim ero todos los pares que pueden fo rm arse con a,
VíMiion <iuc los pares (a ,b ), ( a,g) y (a.,k) no co n trib u irán con
mullí a S, ya que las m arcas de B p a ra todos dichos individuos
i*f»bin ligadas en 5.5. P o r lo tanto, la contribución de todos los
lienirtN pares será:
<»i,i ) (i/,*0 («,«) (a,f)(a,h ) (a,i) (a,j) (a,l) (a,m) (a,n) (a,o) (a,p)
I
I -1
+1
+1
+1
+1
+1
+1
+1
+1
+1
= 9 —3 = 6
/V ron lin u ación com param os las m arcas de b con cada u n a de
In* m u irás a su derecha. Obsérvese, sin em bargo, que b y c están
IIUihIon con respecto a A. Como quiera, p o r lo tanto, que b y e
piirltr'ffin haberse dado lo m ism o en el o rd en inverso, hem os de
Hllnilmir r! p ar (b,c). Y en fo rm a análoga, los pares (b,g) y (b ,k )
i’Mfin tinados en B y, p o r consiguiente, no h arán contribución
iil|Mmu ¡i N. En e sta form a, p a ra los pares de b, obtenem os una
niinii» de () 2, o sea 7. R ecorriendo la ta b la de izquierda a deret luí obtenem os finalm ente:
c
/> - ( 9 - 3 ) +
( 9 - 2 ) +
( 1 3 - 0 ) +
( 1 2 - 0 ) +
■i ( 6 — 3 ) + ( 8 — 0 ) +
( 2 - 5 ) +
( 5 - 2 ) +
( 1 1 - 0 )
( 0 - 6 )
| (4-0) + (2 - 1 )+
(2-0)+
(0-2)+
(1-0)
60
ilini ■tcuiiiremos, sin embargo, el uso más convencional. La tau de Ken11,111 un ili-lir con Cundirse con las tau0 y tauft de Goodman y Kruskal,
lii-i i|in '.mi nproptadas para datos nominales,
Con o b jeto de corregir en relación con los em pates, hem os de
p ra cticar ah o ra u n a ju ste en el denom ina d o r d e tau. S em ejante
aju ste tiene el efecto de p ro d u c ir u n aum ento del v alo r num érico
de tau , si bien dicho aum ento será ligero, a m enos que el núm e­
r o de em pates sea m uy grande. L a fó rm u la de ta u (la que Kendall designó com o t s ) puede generalizarse com o sigue:
Xh = --------------------------£ -------------------------- (X V III.12)
V '/ 2N(W - 1) - T y /V iN ( N — 1) - 17
en donde T = ,A 2 f i ( f i — 1), siendo t¡ el n ú m ero d e em pates en
cada g rupo d e em pates en A, y U = J4S «í(m í— 1), siendo u¡ el
nú m ero de em pates en cada grupo d e em pates en B . E n el ejem ­
p lo a n te rio r tenem os tre s em pates, de dos cada uno, en la varia­
ble A (p o p u larid a d ). P or lo ta n to :
T = M [2 (l) + 2(1) + 2 (1 )] = 3
Y en fo rm a análoga, hay tre s em pates, de dos cada uno, y una
m arca con c u a tro em pates en la variable B (p articip ació n ). Por
con sig u ien te:
U = 1/ 2[2(1) + 2(1) + 2(1) + 4 (3 )] = 9
De donde:
60
60
60
rh = ------------------------------------ ----------------------= ------- = .526
V [8 (1 5 )-3 ][8 (1 5 )-9 ]
y/(U7)(lll)
114.0
Prueba de significación para tau. K endall [16] h a dem ostrado
que p a ra tam añ o s de m u estras de 10 o m ás, la d istribución de
m uestreo de S b a jo la hipótesis n u la será aproxim adam ente nor­
mal, con m ed ia de cero y variancia d ad a p o r:
o*2 = V is N ( N — 1 )(2 N + 5)
(X V III.1 3 )
H ablando estrictam ente, la fó rm u la an terio r es aplicable sólo
cuando no h ay em pates, p e ro p u ed e se r usad a cuando el núm ero
de éstos es relativam ente pequeño. Si se d a u n gran nú m ero de
em pates, u n fa c to r d e corrección b a sta n te volum inoso h ab rá
de ser aplicado.
P ara p ro b a r la significancia d e ta u con los datos del cam po de
trab ajo , com enzam os p o r c o m p u tar as2 com o sigue:
O bteniendo la ra íz cu a d ra d a te n e m o s:
<r„ = 22.21
valor que p u ed e se r u sad o en el d enom inador de Z al p ro b a r la
hipótesis n u la d e que A y B no e stán relacionados. Así
S- 0
60.0
c3
22.21
: 2.70
y vemos q ue u n v alor d e ta u de .526 es significativo al nivel de .01.
M edidas ordinales para datos agrupados: tauc, gam m a, d yx y
d ,y. Una de las v en tajas de ta u resp ecto d e rs es que aquélla p u e­
do u tilizarse fácilm ente cuando se d a u n n ú m ero gran d e d e em ­
pates. Pese a q ue el cálculo de ru tin a q u e se acab a de d esc rib ir
resu ltaría sum am ente fastidioso en tales casos, podem os sim pli­
ficar m ucho el p rocedim iento cuando am bas categorías se h an
agrupado en categorías algo toscas. Así, p o r ejem plo, p u ed e
haberse colocado a perso n as e n cinco clases sociales, co n sid erán ­
dolas com o em p atadas co n resp ecto a la posición. Si la segunda
variable se h a categorizado en la m ism a form a, podem os serv ir­
nos de u n a fó rm u la de ta u m odificada, aprovechando con ello la
Inform ación d e q u e los d ato s h an sido efectivam ente o rdenados,
y rio sim plem ente p u esto s en categorías.
Podem os calcular S = C — D m ed ian te u n pro ced im ien to que
np d escribe m ás abajo. S irviéndonos de las fó rm u las que se aca­
ban de d ar, en co ntrarem os que el lím ite su p erio r de tauj, sólo
xcrá la u n id ad cuando el n ú m ero de h ilera s y d e colum nas sea el
mismo. Con o b jeto de co rreg ir p a ra el caso en que r¥=c, form amoN la razó n :
c
—l)/m ]
(X V III.14)
ilomle
m = M in (r,c )
Ai|u( seguim os a K endall en el em pleo del sím bolo xc, con o b jeto
ile distin g u ir la ecuación (X V III.14) de las fórm ulas p reced en tes.
Veamos ah o ra cóm o se calc
Descargar