Notas de Cátedra (Inés Rubiano)

Anuncio
UNIVERSIDAD NACIONAL DE FORMOSA
FACULTAD DE RECURSOS NATURALES
FACULTAD DE HUMANIDADES
ESTADÍSTICA Y BIOMETRÍA
NOTAS DE CATEDRA
PROFESORA TITULAR:
ING. INÉS GONZÁLEZ DE RUBIANO
Versión corregida y aumentada en el
AÑO 2008
CONCEPTO DE ESTADÍSTICA Y BIOMETRÍA
Se define la biometría, bioestadística o estadística biológica, como
también se la llama, como “la aplicación de métodos estadísticos a la solución
de problemas biológicos”.
No se puede comprender bien la definición de biometría sin definir
previamente la “estadística”. Como las definiciones que se pueden encontrar son
muchas, nosotros utilizaremos una de éstas que entendemos nos será mas útil para
los fines de la cátedra.
Podemos entonces decir que entendemos por estadística a la “técnica o
método que se utiliza para recopilar, organizar, presentar, analizar e
interpretar información numérica, con la finalidad de extraer conclusiones
útiles que sirvan para tomar decisiones lógicas. Esto a partir de todo el
conjunto o del conocimiento de una parte del mismo”.
Esta definición de estadística nos lleva a hacer dos consideraciones:
1º- éste concepto no se compadece con el que normalmente se tiene en el uso
cotidiano del término. Comúnmente, al hablar de estadística, se quiere hacer
referencia a uno o más números referidos a determinados fenómenos. Así oímos
hablar de las “estadísticas” de lluvia caída durante un determinado período,
importación o exportación de ganado o muebles, sobre analfabetismo, deserción
escolar, problemas de conducta, etc. etc. En todos estos casos, de lo que se está
hablando en realidad, es de los datos estadísticos referidos a cada uno de éstos
temas, o sea magnitudes numéricas asociadas a cada uno de ellos.
De acuerdo a la definición que adoptamos, la estadística es una técnica o un
método que aplicaremos al estudio de los datos estadísticos, que no han a ser
considerados en forma aislada, sino dentro de un contexto que posibilite efectuar
comparaciones y plantear relaciones
2º- otro aspecto que debemos señalar es la distinción entre las dos grandes partes
de la estadística: la descriptiva y la inferencial.
Para la primera el propósito central es mostrar las características de un
determinado fenómeno que ha ocurrido y cuyo comportamiento conocemos,
como por ejemplo las ventas de un determinado establecimiento foresto-industrial o
ganadero en un año determinado, o los alumnos matriculados en determinado nivel
y período de tiempo en la provincia de Formosa.
La estadística inferencial nos permite proyectar los resultados
obtenidos en una muestra a toda la población representada por esa muestra,
pudiendo medir la confianza de la generalización, en términos de probabilidad.
La inferencia nos permite además, formular conjeturas o predicciones acerca
de las características de un fenómeno que se producirá en el futuro, o que
habiéndose presentado en el pasado desconocemos su actual
comportamiento.
Si todas las investigaciones fueran posibles de efectuarse observando o
recogiendo informaciones de todos los elementos que componen una población,
el método estadístico se reduciría fundamentalmente a la Estadística Descriptiva.
Pero en la investigación en general muy rara vez se puede estudiar a todos los
miembros de la población, sea por razones de tiempo, de costo o de simple
imposibilidad física, la mayoría de las investigaciones tiene que limitarse a las
observaciones o experimentación en muestras. De allí que debamos recurrir a la
Estadística Inferencial.
Ya que hemos utilizado los términos de población y muestra, los vamos a
definir diciendo que llamamos:
POBLACIÓN: al conjunto de individuos u objetos en los cuales un
investigador está interesado.
MUESTRA: conjunto de individuos u objetos que componen una parte
representativa de la población.
La población puede ser finita o infinita.
Una población finita es aquella que puede ser físicamente listada.
Una población puede ser definida como los alumnos regulares de la
Universidad Nacional de Formosa y, en ese caso, pueden ser listados e
individualizados todos los elementos que constituyen la población. Pero en la
investigación científica, muchas veces la población es considerada infinita a causa
de la imposibilidad física de listar todos sus elementos. Así, si se considera la
población de eucaliptus de un determinado radio o la población de un cierto insecto
que ataca a los animales, o los alumnos con problemas de adaptación escolar, etc.,
todas son ejemplos de poblaciones infinitas y, por lo tanto hipotéticas.
Luego la población infinita es aquella que en la práctica no puede ser
físicamente listada.
Las medidas que se calculan teniendo en cuenta todos los elementos que
componen una cierta población, se denominan parámetros poblacionales.
Un estadístico muestral, en cambio, es una medida que se calcula teniendo
en cuenta solamente los elementos que integran una muestra determinada.
Insistimos entonces que la muestra es una parte representativa de la población.
El estadístico muestral nos sirve, pues es la única información con la que
contaremos para decir algo acerca de todos los elementos de la población,
utilizando las herramientas que nos brinda la estadística inferencial.
BREVE RESEÑA HISTÓRICA
El origen de la palabra “estadística” tiene que ver con la administración de
los estados, que exigía la recopilación y el análisis de datos relativos a la población
y a la riqueza, para los fines de la guerra y de las finanzas. Con el tiempo fueron
obteniéndose datos para otros usos del gobierno. La teoría de probabilidad fue
desarrollada a pedido de los nobles franceses y tenía que ver con los juegos de
azar.
Las tasas y seguros motivaron que la gente llegara a interesarse en
problemas de censos, longevidad y mortalidad.
Se cree que el primer personaje importante en bioestadística fue Adolphe
Quetelet (1796-1874), astrónomo y matemático belga, que en su trabajo combinaba
los métodos teóricos y prácticos de estadística y los aplicaba a problemas de
biología, medicina y sociología. A Francis Galton (1822-1911), primo de Charles
Darwin, se le denominó padre de la bioestadística y eugenesia, dos materias que
estudió interrelacionadamente. Lo imperfecto de las teorías genéticas de Darwin
estimuló a Galton a intentar resolver los problemas de herencia.
La mayor contribución de Galton a la biología es su aplicación de la
metodología estadística al análisis de la variación biológica, así como el análisis de
variabilidad y su estudio de regresión y correlación en medidas biológicas.
A Weldon se le ha atribuido incidentalmente la creación del término biometría
para el tipo de estudios a que se dedicaba. En éste siglo la figura dominante en
estadística y biometría ha sido Ronald A. Fisher (1890-1962).
En la actualidad la estadística posee un campo amplio, cuyas aplicaciones
conciernen a casi todas las ciencias e incluso a aquellas que parecen alejadas de
los números como son los estudios de humanidades.
ETAPAS DEL MÉTODO ESTADÍSTICO
Cuando definimos estadística, mencionamos las etapas del método
estadístico que son:
•
•
•
•
•
Recopilación
Organización
Presentación
Análisis
Interpretación
Recopilación: consiste en la captación de los datos estadísticos. Puede ser
interna o externa. Es interna cuando se realiza dentro del ente que la va a utilizar.
Por ejemplo los datos de las ventas de un establecimiento se recogen internamente,
son de la propia empresa o establecimiento. Es externa cuando los datos provienen
de afuera del ente, ya sea porque las tomamos de alguna publicación o porque se
captan directamente mediante una encuesta o censo. Como ejemplo tenemos los
datos sobre la población total de nuestro país que la podemos obtener de las
publicaciones censales.
En cuanto a la periodicidad de la recolección puede ser:
Permanente:
Continua: por medio de registros diarios.
Periódica: por ejemplo los censos de población que se realizan cada diez
años, o la encuesta permanente de hogares que se realiza cada tres meses.
No permanente: está referida a estudios especiales, que pueden utilizar las
encuestas o los censos para la obtención de los datos.
Organización: esta etapa comprende dos operaciones importantes que deben
llevarse a cabo una vez finalizada la recopilación. La primera es la corrección de los
datos, que resulta sumamente importante, particularmente en los casos de
encuestas. Consiste en la eliminación de las inconsistencias internas de algunos
datos o el completamiento de otros. Por ejemplo si en una encuesta que estamos
realizando en el año 2000 figura una pregunta sobre el año de nacimiento del
encuestado, y por otro lado figura otra que solicita la edad, habrá que verificar la
coherencia en la respuesta entre ambas. Si no existe esta coherencia habrá que
subsanarla tratando de conseguir el dato cierto o bien deducir la edad correcta
sobre la base de algunos indicios que puedan surgir de otros aspectos de la
información del cuestionario.
Durante la organización también se realiza la clasificación de los datos, que
consiste en establecer cuales son los aspectos relevantes que vamos a tener en
cuenta para la tabulación y presentación. Pueden tener en cuenta aspectos
temporales, (fechas, períodos), aspectos cuantitativos, (ingresos, edad, etc.),
aspectos cualitativos, (nivel de instrucción, nacionalidad, religión, etc.). En realidad
esta tarea se realiza normalmente antes de finalizada la recopilación, porque forma
parte de la programación previa del operativo y de sus objetivos.
Presentación: ya sea para uso propio o para el ajeno, los datos deben presentarse
en forma adecuada.
Pueden utilizarse tres formas: textual, tabular, semi-tabular y gráfica. Estas
formas de presentación no son excluyentes entre sí, pudiendo en una misma
presentación, emplear mas de una de ellas.
En la forma textual se expresan los resultados a través de enunciados o
textos escritos. Entre las ventajas de ésta forma de presentación se puede
mencionar que permite dirigir la atención hacia determinadas cifras haciéndolas
resaltar.
Como desventaja mencionamos que solo se puede utilizar cuando los datos a
representar son pocos, ya que es necesario leer o por lo menos registrar el párrafo
antes de que se pueda comprender el significado de todo el conjunto de cifras.
También resulta difícil aislar inmediatamente las cifras individuales del texto.
La presentación tabular es la que hace uso de cuadros o tablas
estadísticas. Es superior al uso de los textos porque es más breve, puesto que los
encabezados de las columnas y el título de cada renglón eliminan la necesidad de
repetir explicaciones. Además la disposición en filas y columnas de las cifras hace
que el cuadro sea claro y fácil de leer. También facilita las comparaciones.
La presentación semi-tabular es una combinación de las dos anteriores.
La gráfica es otra forma de presentar los datos, no excluyente con respecto
a los cuadros. Entre las ventajas podemos mencionar que es más atractiva y más
sencilla de interpretar. Además son más eficaces para llamar la atención sobre
algún dato que interese particularmente. Dan rápida idea de la situación general.
Como desventaja de ésta presentación podemos mencionar que solo se puede
presentar una cantidad limitada de información y que solo permite presentar valores
aproximados o sea que se pierde precisión con respecto al cuadro.
VARIABLE
Al observar la realidad notamos la enorme cantidad de distinciones sensibles
que podemos establecer en ella. Por ejemplo, la altura, el diámetro, la edad, el sexo,
la conducta, el tamaño, etc.
Definimos como variable a la propiedad con respecto a la cual los objetos de
estudio difieren entre sí de algún modo verificable.
Las variables se clasifican en dos grandes grupos: las categóricas o
cualitativas y las numéricas o cuantitativas.
Las variables categóricas o cualitativas son aquellas que están definidas
por las clases o categorías que las componen.
Por ejemplo los animales pueden clasificarse de acuerdo al color de su
pelaje, las especies forestales en familias, las personas de acuerdo a la profesión,
etc. Las categorías pueden ser naturales como al definir la variable sexo, (macho,
hembra o masculino, femenino) según se trate de animales o personas; o arbitrarias
como la clasificación de alturas, (ya sea de personas, animales o vegetales), en
bajos, medianos o altos.
Las variables categóricas generadas por la forma de presencia-ausencia de
una categoría, se llaman dicotómicas o binarias.
Por ejemplo personas con trabajo o sin trabajo, vegetales comestibles o no
comestibles, árboles ornamentales o no ornamentales, animales con crías o sin
ellas, etc.
Otro tipo de variables son las numéricas o cuantitativas.
Como su nombre lo indica, las variables numéricas son aquellas que se
expresan por medio de un número.
Estas variables se dividen en:
discretas o discontinuas, que se obtienen por conteo y solo toman valores
numéricos fijos, sin posibles valores intermedios. Por ejemplo el número de
animales o personas en un establecimiento podrá ser 1.000, 2.000 o 2.500, pero
nunca 1.000,6; 2.000,5 o 2.500,7.
Continuas, éstas surgen de mediciones efectuadas sobre cada unidad
experimental, y pueden tomar infinitos valores entre dos valores dados, por lo
menos en teoría. Por ejemplo entre las dos medidas de longitud 1,5 y 1,6 cm
podrían medirse infinitas longitudes, siempre que se estuviese dispuesto a hacerlo y
si se dispone de un método suficientemente preciso para obtener tales medidas.
Ejemplos de variables continuas son: longitud, peso, temperatura, etc.
ESCALA O NIVEL DE MEDICIÓN
Las escalas o nivel de medición se diferencian por propiedades de orden y de
distancia. Se las puede clasificar en: nominal, ordinal, intervalar y de razón.
Escala nominal es aquella en la que no se hace ningún supuesto respecto de las
relaciones que existen entre las categorías de la variable. Por ejemplo el sexo de
una persona, es una variable medida en escala nominal, porque no tiene un orden
pre establecido; (de mayor o menor), entre sus categorías: varón, mujer. Otros
ejemplos de variables medidas en escala nominal son: religión, lugar de nacimiento,
color del follaje, color del pelo, etc.
Escala ordinal es aquella que surge de ordenar todas las categorías de la variable,
de acuerdo a algún criterio. Por ejemplo, clasificar las personas de acuerdo al
puesto que ocupan en su lugar de trabajo, como: peón, encargado, administrador,
etc. El nivel socioeconómico puede ordenarse como alto, medio, bajo. En éstos
casos lo único que sabemos es que el nivel de encargado es superior al de peón y
el de administrador superior al de encargado. Que el nivel socioeconómico alto
implica un ingreso mayor que el nivel bajo. No obstante, en ningún caso sabemos
con certeza cuánto “mayor” es una categoría de la variable con respecto a otra pues
no existe una medición de distancia.
Escala intervalar es aquella que tiene la propiedad de asignar una medición de
distancia entre los valores de la variable. Entonces cuando se dice que un objeto es
mayor que otro, se puede especificar cuantas unidades de diferencia hay entre
ambos o por cuantas unidades, un objeto es mayor que el otro. Por ejemplo, con la
medición es posible decir no sólo que Antonio es más alto que Pedro, sino también
se puede decir que Antonio es 10 cm mas alto que Pedro. Una característica de la
escala intervalar es que el punto de origen o punto cero en la escala de medición es
un punto de acuerdo o punto convencional. Otras variables que se pueden medir
con escala intervalar son: temperatura, inteligencia, etc. En todos estos casos es
posible hacer comparaciones de distancia entre mediciones pero no entre sus
magnitudes proporcionales. El punto cero o de origen, es convencional.
Escala de razón: es aquella que presenta todas las propiedades de orden y
distancia de una escala intervalar adicionando el punto “0” o punto de origen que es
natural. Por ejemplo medidas de distancia, ingreso familiar, medidas de superficie,
etc.
En ésta escala de razón, al igual que en una escala intervalar, las unidades
de medida son equidistantes unas de otras con la única diferencia que, en las
escalas de razón, existe un punto cero correctamente definido por lo tanto se
pueden efectuar comparaciones proporcionales.
El tipo de escala de medición que se utiliza al medir una variable condiciona
el tratamiento estadístico que se efectuará a los datos.
MUESTREO
En la vida cotidiana una buena parte de las actitudes y juicios de la gente
dependen y han dependido de la práctica consciente o inconsciente del muestreo.
Desde el ama de casa que después de examinar algunos artículos en una
mueblería, les dice a sus amigas que el mismo es un lugar caro, hasta el periodista
que después de permanecer algunos pocos días en un país extraño escribe un libro
sobre los problemas del país en cuestión, son ejemplos de inferencia por muestreo,
que van desde lo que tiene base científica, hasta lo que tiene sentido común, hasta
lo que puede ser arbitrariamente simplista.
Vemos que la práctica del muestreo antecede a la Estadística en muchos
siglos y constituye un procedimiento familiar y empírico de emitir conclusiones. Que
es válido sacar de un grupo de elementos representativos, conclusiones generales
acerca de todos los elementos de la población.
En resumen, la Inferencia Estadística establece que el muestreo, realizado
bajo ciertas condiciones y sometido a ciertos requisitos, constituye un procedimiento
científico, en muchos casos insustituible, por lo práctico y económico, para proyectar
las conclusiones derivadas de una muestra, a toda la población de la que forma
parte la muestra, dentro de límites pre-establecidos de confianza.
Previa a la aplicación de una técnica de muestreo, habrá que fijar el máximo
error, en exceso o en defecto, que consideramos aceptable en la medición del
atributo investigado en una muestra. O sea el máximo error aceptable del
estadístico, con respecto al parámetro.
Otro criterio que habrá que fijar previamente es el nivel de confianza con el
que se desea trabajar.
Por ejemplo, supongamos que el objeto de la investigación es determinar la
edad promedio de varios miles de trabajadores de cierto sector industrial, para lo
cual queremos utilizar una muestra, cuyo error no exceda del 5%, (en exceso o en
defecto), con un nivel de confianza de 99%. Estas condiciones implican que la edad
promedio que se obtenga de la muestra de trabajadores no debe discrepar en más
de 5% con respecto a la edad promedio que obtendríamos si averiguáramos la edad
individual de cada uno de los trabajadores en cuestión. Y, por otra parte, significa
que la edad promedio obtenido de la muestra, (con el margen de error tolerado) es
la misma que obtendremos del estudio de, cuando menos el 99% de todas las
posibles muestras, iguales en tamaño a la muestra original, que se pueden sacar de
la población.
Ventajas del muestreo: menor costo: menor número de personas dedicadas
a recolectar la información; mayor rapidez en la recolección; mejor preparación del
personal dedicado a la recolección; mejores métodos de control e inspección del
trabajo, entre otras.
El muestreo, es muchas veces el único método para obtener información, por
ejemplo en el caso de poblaciones que se consideran infinitas; o cuando el estudio
implica la destrucción del objeto investigado, como en los casos de tests de
resistencia a la rotura o a la fusión, tests de duración, los que implican consumo de
alimentos o medicamentos, etc.
En ciertas condiciones, el muestreo, aporta resultados más precisos que el
conteo o la medición de toda una población, por ejemplo cuando ésta es muy
grande y difícil de examinar individualmente, por lo cual se vuelve vulnerable a
ocasionar errores aún mayores que los que pueden derivarse del muestreo.
Criterios de utilización del muestreo:
a) no es aplicable cuando se requiere conocer las peculiaridades de cada miembro
de la población.
b) tampoco cuando la variabilidad del atributo que se investiga en la población es
muy grande o su incidencia muy rara.
c) antes de aplicarlo hay que definir claramente la población de la cual se extraerá
la muestra.
d) Clara determinación previa del atributo que deseamos investigar.
e) Indagar y obtener toda información previa de la población que se va investigar.
Realizar una prueba piloto.
Probabilísticas
TIPOS DE MUESTRAS
No probabilísticas
Probabilísticas: cuando cada uno de los miembros de la población, tiene
alguna probabilidad conocida, de ser elegido para formar parte de la muestra. El
riesgo de conclusiones incorrectas puede ser medido en forma de probabilidades.
No probabilísticas: la probabilidad de elección de los miembros de la
muestra no puede ser determinada, por ende, no hay manera de medir el riesgo de
conclusiones erróneas.
Al azar simple
Sistemático
proporcional
Muestreo probabilístico
Estratificado al azar
no proporcional
Por conglomerados
Muestreo no probabilístico
Por conveniencia
Por juicio
Por cuota
Al azar simple:
Se obtiene utilizando algún procedimiento aleatorio que asegure que
cada elemento de la población tenga la misma probabilidad de estar incluido
en la muestra elegida.
Cuando la muestra es pequeña, puede utilizarse para la elección, algún
procedimiento primitivo como los papelitos o procedimientos similares. Sin embargo,
el método más aconsejable, especialmente cuando la población es grande, es
efectuar esta elección por medio de una Tabla de números Aleatorios.
A continuación se transcribe un pequeño fragmento de una
TABLA DE NUMEROS ALEATORIOS (Cambridge)
20 17
74 49
94 70
22 15
93 29
42 28
04 49
49 31
78 15
12 18
23 17
03 04
38 67
69 84
27 30
59 66
10 33
23 42
32 52
30 55
38 61
53 70
29 65
32 54
91 87
02 10
11 54
40 88
15 12
50 57
86 10
48 63
78 71
54 02
58 51
51 55
94 60
37 18
01 37
49 36
92 52
94 49
48 64
38 37
12 53
44 25
57 38
06 57
12 93
96 40
Por ejemplo, supongamos que una empresa, tiene a su servicio 20 camiones
numerados de 1 a 20 y que los números 1 al 3 son de gran tonelaje, los números 4
al 10 de tonelaje medio y los números 11 al 20 son de bajo tonelaje. Supongamos
además, que el kilometraje por litro de combustible de las 20 unidades es la
siguiente:
Alto tonelaje
N°
km/lt
Medio tonelaje
N°
km/lt
Bajo tonelaje
N°
km/lt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
2,6
3,0
2,5
5,6
5,2
5,0
5,7
4,9
5,2
5,5
__
8,1
___
37,1
8,1
7,5
7,6
6,9
7,3
7.7
7,4
7,1
7.5
7.9
___
75,0
Media: 2,7
5,3
7,5
Si utilizando la tabla de números aleatorios, eligiéramos una muestra de 6
camiones, por el método al azar simple y sacamos el promedio de km/lt, el resultado
seria el siguiente:
N°
km/lt
4
12
15
17
18
20
5,6
7,5
7,3
7,4
7,1
7,9
_____
42,8
Media:
7,1 km/lt
Se puede observar claramente que este método no es él más conveniente,
pues la población esta constituida por 3 grupos heterogéneos con respecto a
rendimiento de combustible y, además, de tamaños muy diferentes dentro de la
población. Se puede apreciar que ninguna unidad de alto tonelaje llega a constituir
parte de la muestra aleatoria.
En resumen si la población esta claramente dividida en grupos más o menos
heterogéneos y las proporciones de dichos grupos dentro de la población son
desiguales, el muestreo aleatorio simple no es él más aconsejable.
Muestreo sistemático:
Consiste en elegir los individuos de la muestra a intervalos sistemáticos
del listado, es decir intervalos iguales a partir de un primer caso elegido
según el método de números al azar. Para fijar el intervalo se divide él número
de casos de la población por él número de elementos que se desea en la
muestra.
Por ejemplo N = 20 camiones y queremos una muestra de 5, se tomara:
N/n = 20 / 5 = 4
Es decir, uno de cada 4 individuos de la población, siendo el primer número
entero entre 1 y 4 tomado al azar. Supongamos que sale el 2; el siguiente será el 2
+ 4 = 6; el siguiente 6 + 4 = 10, etc. Este método es más conveniente cuando el
listado es largo. Puede producir deformaciones, si el listado presenta alguna
tendencia, pero esto suele poder corregirse mezclando bien los individuos de la
lista.
Muestreo estratificado:
Cuando la población puede dividirse en estratos homogéneos, con respecto
al atributo que se investiga; el muestreo estratificado da resultados más precisos
que el simple al azar.
El muestreo estratificado consiste en tomar una muestra de cada
estrato, para reunir todas las submuestras en una gran muestra total.
Puede ser proporcional: que implica que cada submuestra es proporcional
al tamaño del estrato del que procede, dentro de la población.
En el no proporcional o por muestras iguales, todas las submuestras son
del mismo tamaño y es el método aconsejable, cuando se desconoce la proporción
de cada estrato de la población
Muestreo por conglomerados
Consiste en dividir la población en grupos llamados conglomerados.
Estos grupos se usan generalmente cuando hay que hacer trabajos que abarcan
una superficie geográfica muy amplia, por ejemplo, estudiar algún aspecto de la
población de un país. Se divide a la población en sectores, llamados conglomerados
que deben ser lo más homogéneos posible.
Además deben ser exhaustivos, es decir donde estén representados todos
los aspectos de la población y mutuamente excluyentes, o sea que cada individuo
de la población pertenezca a uno y tan solo un conglomerado.
Aquí lo que se elige es una muestra de conglomerados. Suele tener mucho
mayor error que la muestra elegida por el método simple al azar.
MUESTRAS NO PROBABILISTICAS
Muestras por conveniencia
Son aquellas compuestas por los miembros más accesibles de una
población, o los que se consideran mas dispuestos a someterse a una encuesta.
Por ejemplo las personas que salen de un supermercado.
Muestreo por juicio
Son aquellas cuyos miembros se eligen entre aquellos que se consideran los
más representativos de una población.
Por ejemplo si queremos averiguar sobre los gustos para preparar comidas a
base de pescados, se elige una población consumidora de este alimento.
Muestreo por cuotas
Es una variante del muestreo estratificado, que lleva implícita una selección
más o menos no probabilística de los miembros de cada submuestra.
ORGANIZACIÓN Y RESUMEN DE DATOS
Un conjunto de datos puede ser trabajado en forma bruta, o sea en el
orden aleatorio en que se han recolectado. Pero cuando el número de
observaciones es muy grande se hace difícil trabajar de ésta manera, por ello es
conveniente resumirlos y clasificarlos de acuerdo con criterios adecuados, de modo
de facilitar su análisis y así sacar conclusiones.
Puede ser en:
a) arreglo ordenado: pone los datos brutos en orden, de la observación menor a la
mayor. Esto facilita la evaluación por parte del investigador. Esta forma de trabajar
es también aconsejable cuando los datos no son demasiado numerosos.
b) En exhibiciones de “tallo y hojas” o “tronco y ramas”. Esta es una técnica
sencilla de gran utilidad para explorar y describir una gran masa de datos, que fue
desarrollada por Tukey.
Supongamos que se han contabilizado la cantidad de personas empleadas
en un grupo de establecimientos agrícola ganadero de una zona geográfica
determinada, y los resultados obtenidos fueron los siguientes:
15
23
95
16
67
60
82
20
30
27
54
19
41
27
44
19
50
17
32
16
80
15
33
6
22
12
29
35
47
90
17
9
57
36
29
44
10
61
8
76
22
11
50
84
37
21
52
43
43
17
16
26
10
43
16
Se comienza colocando en una columna todos los números que conforman
los datos eliminando la última cifra (unidades), y se ordenan de menor a mayor.
A la derecha de cada uno de éstos números se escribe la última cifra
(unidad) de cada dato, que comienza con el número escrito anteriormente.
Posteriormente, se ordenan también de menor a mayor los números de cada fila.
Cabe aclarar que en la columna cada número aparece una sola vez en tanto que en
las filas pueden repetirse de acuerdo a las cantidades que conforman los datos. Por
ejemplo el valor 19 se coloca en la fila del 1 agregando el 9; el 22 en la fila del 2
agregando el 2; etc.
El diagrama de tallo y hojas correspondiente al ejemplo planteado es el
siguiente:
0
1
2
3
4
5
6
7
8
9
6
0
0
0
1
0
0
0
0
5
8
0
1
2
3
0
1
2
2
9
1
2
3
3
2
7
4
2
2
5
3
4
5
3
6
4
7
5 6 6 6 6 7 7 7 9 9
6 7 7 9 9
7
4 7
De ésta manera se ha obtenido una distribución de frecuencias, donde la
frecuencia ahora esta representada por una fila de números en lugar de un
rectángulo.
La interpretación de éste gráfica es la siguiente:
Por ejemplo, tomando la segunda fila puede observarse que hay dos
establecimientos con 10 empleados cada uno; 1 de 11; 1 de 12; 2 de 15; 4 de 16,
etc.
De ésta manera se interpretan las demás filas.
c) En tablas de distribución de frecuencias: éstas asocian cada valor de la
variable, con la cantidad de veces que se observa dicho valor.
TABLAS DE DISTRIBUCION DE FRECUENCIAS
Se puede definir a una distribución de frecuencias como el cuadro o
tabla que presenta en forma ordenada a los distintos valores de una variable y
sus correspondientes frecuencias.
Para variable discreta: se construye una tabla simple. Si una variable
continua es tratada como discreta, también podrá presentarse en éste tipo de tabla.
Para variable continua: se construye una tabla con intervalos de clase. Este
tipo de tabla también puede utilizarse para variable discreta con amplio recorrido.
Mediante un ejemplo veremos la presentación de una tabla simple de
distribución de frecuencias, (variable discreta).
El número de días que no asistieron a trabajar durante un año, un grupo de
40 obreros fue el siguiente, de acuerdo al registro obtenido en el período
considerado:
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
Nº de inasistencias
(xi)
Nº de obrer.
(fi)
Frec.ac.
(Fi)
Frec.rel.%
(f ri)
Frec.rel % acum.
(Fri)
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
0
1
1
2,5
2,5
1
2
3
5,0
7,5
2
4
7
10,0
17,5
3
12
19
30,0
47,5
4
10
29
25,0
72,5
5
7
36
17,5
90,0
6
4
40
10,0
100,0
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
TOTAL
40
-100,0
----
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
En la primer columna (xi) se observan los valores que toma la variable
“número de inasistencias por obrero”, ordenados en forma creciente, cuyo campo de
variabilidad o dominio, para éste caso, es de 0 a 6.
En la columna siguiente (fi), se ha colocado el número de obreros u
observaciones correspondientes a cada valor de la variable, es decir la frecuencia
absoluta que presenta cada valor de la misma. Si sumamos ésta columna
tendremos el total de obreros cuyas inasistencias se estudia.
Decimos entonces que la frecuencia absoluta está dada por el número
de veces que se repite cada valor de la variable.
La suma de las frecuencias absolutas es igual al total de observaciones, que
simbolizamos con N o n, según se trate de una población o una muestra la que está
en estudio. Luego:
 fi = n
En el ejemplo anterior:
1 + 2 + 4 + 12 + 10 + 7 + 4 = 40
La frecuencia absoluta es siempre un número positivo comprendido entre 0 y
n
0  fi  n
Luego en la columna tercera (Fi), sumamos para cada valor dado de la
variable, las frecuencias absolutas de los valores menores o iguales al valor que se
está considerando. Esto se denomina frecuencia acumulada.
O sea: Fi
Por ejemplo, hasta 2 inasistencias se acumularon 7 obreros, o sea 1 obrero
con 0 inasistencia, 2 con 1 inasistencia y 4 con 2 inasistencias.
En la columna cuarta (fri) calculamos el cociente de cada uno de los valores
de la columna segunda (fi) respecto del total de obreros, por cien, o sea: fi  40 x
100. Llamaremos a estos valores frecuencia relativa porcentual.
Es decir: fri = fi . 100
n
La frecuencia relativa porcentual es un número positivo comprendido
entre 0 y 100
0

fri

100
La suma de las frecuencias relativas porcentuales es siempre igual a
100.
 fri  100
Finalmente en la última columna efectuaremos el cociente de (Fi) sobre el
total de observaciones por cien, lo que nos indica el peso relativo porcentual de los
casos acumulados hasta cada uno de los valores de la variable y llamaremos a esta
columna “frecuencias relativas porcentuales acumuladas”.
Las frecuencias relativas porcentuales acumuladas para el último valor
de la variable son siempre igual a 100.
REPRESENTACIÓN GRÁFICA
En general la representación gráfica de una tabla de frecuencias permite
percibir con mayor claridad algunas características de la masa de datos que se
investiga. Por ello, resulta bastante más fácil transmitir conclusiones a personas no
habituadas a la interpretación de distribuciones de frecuencias cuando se utilizan
gráficos estadísticos.
Se utiliza un par de ejes de coordenadas. En el eje de las abscisas se
representará la variable estudiada y en el eje de las ordenadas, las
correspondientes frecuencias (absolutas o relativas). En el caso de una variable
discreta, como la frecuencia corresponde a cada valor de la variable, se puede
representar por un bastón vertical construyéndose de esta forma un “ gráfico de
bastones”.
Podemos decir entonces que el gráfico de bastones es la representación
gráfica de las frecuencias de una variable discreta, mediante un gráfico de
puntos, en un sistema de coordenadas cartesianas ortogonales cuyas
abscisas son los valores de la variable y cuyas ordenadas son las frecuencias
absolutas o relativas.
Para el cuadro del ejemplo anterior, el gráfico sería:
fi 12
11
10
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
inasistencias
Gráfico de bastones
El gráfico de frecuencias acumuladas, o “gráfico de escalones”, es la
representación gráfica de las frecuencias acumuladas (absolutas o relativas),
de una variable discreta mediante segmentos paralelos al eje de abscisas.
Cada segmento se extiende entre dos valores consecutivos de la variable,
siendo las respectivas ordenadas las frecuencias acumuladas correspondientes al
valor de la variable que es abscisa del punto inicial del segmento.
Fi
40
30
20
10
0
1
2
3
4
5
6
gráfico de escalones
7 inasistencias
Como ya dijimos, los mismos tipos de gráficos se utilizan para representar las
frecuencias relativas.
PARA EL CASO CONTINUO
Para el caso de variables continuas será necesario fijar intervalos de clase
para llegar a un resumen efectivo de la información original que se presenta en una
tabla de frecuencias para datos agrupados
Los intervalos de clase o simplemente clases son cada una de las
subdivisiones o intervalos en que se ha dividido el dominio o campo de
variabilidad de una variable.
Para ello en principio habrá que observar el mayor y el menor valor que toma
la variable en estudio y obtener el rango.
El rango se define como la diferencia que existe entre el mayor y el
menor valor observado, que toma la variable en estudio.
Por ejemplo si las remuneraciones por cátedra de un grupo de docentes
fueran las siguientes:
103
093
083
113
119
078
069
113
075
153
132
106
111
128
078
089
101
106
079
110
118
095
131
105
089
081
096
146
068
093
069
137
109
101
098
086
150 149 150 070 128 129 116 087
069 086 103 085 100 109 123 114
106 106 126 132 102 093 097 106
111 141 126 114 114 099 063 079
099 067 087 103 087 116 063 085
095 087 084 097 106 109 140 113
118 106 136 073 086 106 108 105
113 069 107 098 069 064 068 078
El rango sería igual a:
R = 153 - 63 = 90
Este intervalo que contiene a todos los valores registrados puede dividirse,
por ejemplo en 10 intervalos de 10 $ cada uno. Se puede así construir una tabla de
frecuencias donde en lugar de escribir los valores originales de la variable se los
reemplaza por 10 intervalos de amplitud (h) 10, cada uno.
Los valores colocados a la izquierda de cada intervalo de clase se
denominan límite inferior de la clase y lo simbolizamos con L i. Los de la derecha son
los límites superiores de las mismas y el símbolo es Ls.
El límite superior de cada intervalo se obtiene, sumando la amplitud (h)
a cada límite inferior.
Para establecer la frecuencia de cada intervalo se cuentan los valores de la
variable que caen en cada uno de ellos. Por ejemplo, agrupando las
remuneraciones tendremos:
INTERV. DE CLASE
60 - 70
70 - 80
80 - 90
90 - 100
100 - 110
110 - 120
120 - 130
130 – 140
140 – 150
150 - 160
fi
11
9
14
11
22
14
7
5
4
3
La decisión en cuanto a la cantidad de intervalos y a la amplitud de cada uno
de ellos es arbitraria. La única recomendación que debemos hacer aquí es tratar de
que no queden intervalos de clase con frecuencia nula. En general se aconseja que
los intervalos no sean menos de cinco ni más de quince.
Además como el rango total de los intervalos de clase debe incluir a todos los
valores de la variable registrados, se aconseja redondear el rango calculado a un
número entero superior para evitar que el menor o el mayor valor que toma la
variable queden excluidos.
En el ejemplo el rango era igual a 9 y fue redondeado a 10, decidiendo
entonces hacer 10 intervalos de amplitud 10 cada uno. El menor valor de la variable
era 63 y se empezó a construir a los intervalos desde el valor 60.
El valor de la variable que coincida con un límite, por ejemplo 80 podría
ubicarse en el segundo o tercer intervalo de clase. Libremente se puede decidir en
cuál de los dos hacerlo, pero siguiendo siempre el mismo criterio a través de todo el
proceso de agrupamiento. O sea si se decide ubicarlo en el segundo intervalo,
cuando aparezca un valor de 100, se lo ubicará en el cuarto intervalo, si se tiene un
valor de 150, se lo debe ubicar en el noveno intervalo.
A través del agrupamiento de las observaciones en una tabla de distribución
de frecuencias con intervalos de clase se pierde la información correspondiente a
los valores individuales de la variable, ya que se da por supuesto que todas las
observaciones de una clase se encuentran en el punto medio del intervalo.
El punto medio o marca de clase de cada intervalo es el valor de la
variable en el que se da por supuesto que se encuentran todas las
observaciones del mismo. Se lo simboliza con xi.
Se puede hallar sumando el límite inferior y el superior de cada intervalo y
dividiendo por dos.
Por ejemplo el punto medio o marca de clase del primer intervalo, de la tabla
anterior, es:
Xi = 60 + 70 = 65
2
Otra forma de encontrarlo es sumando al límite inferior la mitad de la
amplitud, o sea:
Xi = Li + h / 2
Para el ejemplo sería: 60 + 10/5 = 60 + 5 = 65
Como la mitad de la amplitud es una constante para todos los intervalos de
ésta tabla, se puede obtener el punto medio de cada uno de ellos, sumándole 5 a
cada límite inferior. Así tendremos:
60 + 5 = 65;
70 + 5 = 75;
80 + 5 = 85; etc., etc.
REPRESENTACIÓN GRÁFICA
Existen dos gráficos, llamados histograma, para representar la distribución de
éste tipo de variable:
•
•
para las frecuencias, ya sean absolutas o relativas
para las frecuencias, absolutas acumuladas, o relativas acumuladas
En el eje horizontal se pondrán los distintos intervalos de clase y en el eje
vertical las correspondientes frecuencias (absolutas o absolutas acumuladas).
Cuando, como en éste caso, se estudian variables continuas, las frecuencias
se representan mediante áreas o superficies, pues la escala en la que están
medidas las mismas permiten tomar valores en cualquier punto del eje horizontal del
gráfico.
El mismo nos permite, entre otras cosas, la identificación de valores típicos y
atípicos de una distribución.
Llamamos valor atípico al que se diferencia sustancialmente de los
demás.
Otro gráfico útil es el polígono de frecuencias, que para el caso del
gráfico de frecuencias absolutas, la frecuencia del intervalo se representa por
una ordenada en el punto medio del mismo. Para que quede cerrada la figura, ya
que la superficie dentro del polígono de frecuencias es igual a la del histograma
para la misma distribución, se coloca un punto medio inmediato anterior y otro
inmediato posterior de lo que sería un intervalo anterior y posterior ficticio con
frecuencia cero.
Polígono de frecuencias
fi
25
20
15
10
5
0
Histograma de frecuencias absolutas
En el histograma de frecuencias acumuladas, (gráfica siguiente), éste
polígono se denomina ojiva y es una línea que une los límites superiores de
cada uno de los intervalos de clase. Esta línea empieza en lo que sería el límite
superior de un intervalo inmediato anterior ficticio con frecuencia cero.
La mayor utilidad de éste gráfico consiste en la comparación de la
distribución empírica de los datos, proporcionada por la tabla de frecuencias, con
una distribución estándar denominada distribución normal.
ojiva
Fi
120
100
80
60
40
20
0
Histograma de frecuencias acumuladas
MEDICIÓN DE DATOS
Las distribuciones de frecuencias aportan información preliminar de interés,
acerca de una variable investigada en una población o en una muestra. Sin
embargo, a menudo necesitamos una medida que caracterice o distinga a la
distribución, en los siguientes aspectos:
•
•
•
en cuanto a su posición
en cuanto a su dispersión
en cuanto a su forma
Como ya dijimos, cuando a éstos valores se los obtiene a partir de toda la
población se denominan parámetros y si son calculados con los datos de una
muestra se denominan estadísticos.
a) las medidas de posición: nos indican la “posición”, que ocupa la distribución
sobre el eje de las abscisas. También se las denomina de tendencia central porque
muchas de ellas tienden a ubicarse en el centro de la distribución.
b) las medidas de dispersión: nos reflejan cómo se distribuyen los valores de la
variable a lo largo del eje de las abscisas.
c) Entre las medidas de forma, tenemos:
-
las de asimetría: que indican la deformación horizontal que tiene la
distribución. Una distribución perfectamente simétrica es aquella en la que
las frecuencias equidistantes de la frecuencia máxima son iguales.
-
las de puntiagudez: expresan la altura relativa de la distribución.
MEDIDAS DE POSICIÓN
Se definen varios tipos de medidas de posición o tendencia central, siendo
las más comunes:
Medidas
de
Posición
media aritmética
moda
mediana
cuartiles
deciles
fractilas
percentiles
Medidas
de orden
Cada una tiene ventajas y desventajas, según los datos y el objetivo
perseguido.
El cálculo de las mismas difiere de acuerdo al tipo de variable con que se
trabaja y presenta pequeñas modificaciones según se disponga de datos agrupados
o no.-
LA MEDIA ARITMÉTICA
O simplemente media, o promedio, es el más conocido y quizás el más usado
de los parámetros de posición por las ventajas que ofrece en algunos aspectos. Se
_
denota con x, (léase “x barra”) y para un conjunto N de números x 1 , x 2, x 3, ..., x n
se define por:
_
i=n
X = x1 + x2 + x3 + ... + xn =  Xi
N
i=1 N
i=n
Media aritmética simple:  x i
i=1
N
Es decir la media aritmética simple es la sumatoria de los valores de la
variable xi, (variando i de 1 hasta n), dividido por el total de observaciones.
La igualdad i = 1 indica que los valores (datos) deben ser sumados
empezando por el primero y terminando por el enésimo como nos indica la igualdad
i = n escrita encima del signo.
Por ejemplo: la media aritmética de los números 8, 3, 5, 12 y 10 es:
_
X = 8 + 3 + 5 + 12 + 10 = 7,6
5
Si los números x 1 , x 2 , ...x i se repiten diferente número de veces, o sea
tienen frecuencias diferentes, (simbolizadas por f i), podemos agruparlos en una
tabla simple de distribución de frecuencias.
Es necesario tener en cuenta el diferente peso que los datos tienen en la
distribución y en éste caso deberá aplicarse el concepto de media aritmética
ponderada.
Por ejemplo si tenemos los siguientes valores, correspondientes al número
de animales por corral, o al número de árboles por parcela:
xi
50
70
60
que se repite 3 veces
que se repite 2 veces
que se repite 1 vez
*
50
60
70
Tot.
fi
*
*
*
*
* xi . fi
3
1
2
6
* 150
* 60
* 140
* 350
Los valores 3, 2 y 1 constituyen las respectivas ponderaciones de cada dato
o valor observado. La media aritmética ponderada será:
_
X = 50 x 3 + 70 x 2 + 60 = 58,33  58
6
O sea que en promedio cada parcela tiene 58 árboles, o cada corral en
promedio tiene 58 animales.
Reemplazando los valores numéricos por sus respectivos símbolos:
_
X = X 1. f 1 + X 2. f 2 + X 3. f3
N
_
X =  xi. fi
N
Media aritmética ponderada
Donde N es la frecuencia total (o sea el número total de casos, que en la
tabla de distribución de frecuencias está dado por la sumatoria de las f i ).
En el caso de datos numéricos continuos agrupados en intervalos de clase, el
cálculo de la media aritmética es similar al caso anterior, es decir:
_
X =  Xi fi
N
Ahora bien, qué valor tomará xi en la fórmula de cálculo de la media
aritmética.
Ya hemos expresado que cuando se agrupan datos continuos en intervalos
de clase, se pierde información original.
Luego, para solucionar este problema, xi se calcula como el promedio entre
los extremos de cada intervalo, es decir, xi representa el punto medio, (o marca de
clase), de cada intervalo de clase.
Calculemos la media aritmética en la siguiente tabla de distribución de
frecuencias:
Categoría
fi
50 - 100
2
100 - 150
6
150 - 200
11
200 - 250
5
250 - 300
3
____________________
TOTAL
27
xi
75
125
175
225
275
x i . fi
150
750
1925
1125
825
___
4775
_
X = 4.775 = 176,85
27
Significa que el valor promedio es de 176,85.
Por supuesto que el valor que se obtiene debe estar comprendido entre el
mínimo y el máximo de la serie, en éste caso entre 50 y 300.
Características de la media aritmética:
Como dijimos anteriormente es un valor comprendido entre el mínimo y el
máximo valor de la variable en estudio.
- Posee la misma unidad de medida que la variable considerada.
- En su cálculo intervienen todos los valores de la variable estudiada. Esto
se presenta como una ventaja ya que permite el tratamiento algebraico de
la misma.
- Otra ventaja es que resulta de fácil cálculo e interpretación.
-
-
-
No se la puede calcular cuando los datos están agrupados en una tabla
de distribución de frecuencias con intervalos abiertos, (porque de los
mismos no se puede obtener el punto medio). Obviamente esto es una
desventaja.
Se ve afectada o arrastrada por los valores extremos, lo que la hace poco
significativa cuando éstos existen. Por lo tanto no se aconseja su cálculo
en éstos casos.
PROPIEDADES DE LA MEDIA ARITMÉTICA
1. “La suma de los desvíos de cada valor de la variable con respecto a la
media aritmética es siempre igual a cero”. En símbolos:
_
 ( xi - x ) = 0
En general, entendemos por desvío, a la diferencia entre los valores de la
variable y un valor fijo cualquiera. Cuando ese valor fijo es la media aritmética
tendremos desvíos con respecto a ella.
Por ejemplo:
_
Xi
Xi - X
2
2-5 =-3
3
3-5 =-2
5
5-5 = 0
7
7-5 = 2
8
8-5 = 3
_____________________
25
-5 + 5 = 0
_
X = 25 = 5
5
_
X = 5
Veamos la demostración analítica de ésta importante propiedad:
_
Xi - X
_
X1
(X 1 - X) = d 1
_
X2
(X 2 - X) = d 2
_______
X3
(X 3 - X) = d 3
.
.
.
.
.
.
.
. _
.
Xn
(X n - X) = d n
_
 ( X i - X) =  d i
Xi
_
di = xi - Nx
di = x
i
-
N  xi
N
di =xi - xi
di =0
2.- “La suma de los cuadrados de los desvíos con respecto a la media
aritmética, da un mínimo”.
Es decir que cuando los desvíos son con respecto a la media, la suma de los
cuadrados nos da un valor que será siempre menor que el valor que se obtiene
cuando los desvíos y sus cuadrados se calculan respecto de cualquier otra
constante distinta a la media.
Por ejemplo:
_
xi
xi – x
_
( xi – x )
2
(xi – 1)
(xi – 1)
2
( xi – 4)
( xi – 4)
2
-1
1
1
1
-2
4
3
0
0
2
4
-1
1
4
1
1
2
3
9
14
0
0
5
2
_
x=3
tomando, la constante: 1
constante: 4
Observamos que:
_
 (xi - x) = 2
2
 (xi - 1) = 14
 (xi - 5) = 5
2
2
Por medio de éste ejemplo hemos comprobado, que si hacemos la sumatoria
de los desvíos al cuadrado con respecto a cualquier otro valor, menor o mayor que
la media, ésta será siempre mayor que si lo hacemos con respecto al valor
promedio.
MODO O MODA
Es el valor de la variable que se repite la mayor cantidad de veces, o
sea, al que le corresponde la máxima frecuencia.
En símbolos: Mº
^
x
ó
Si tenemos datos sin agrupar, bastará con identificar cuál es el valor de la
variable que más se repite.
Podremos tener series, con un modo es decir unimodales, con más de un
modo, o sea bimodales, o que no tengan modo, llamadas amodales.
Por ejemplo, para las siguientes series de datos el modo sería:
a) 2
3
5
7
2
Mº = 2
b) 10
14
10
12
10
20
c) 23
24
25
30
45
54
14
45
14
Mº = 10 y 14
Sin Mº
En el caso de pocos datos provenientes de una variable discreta, una vez
agrupados es posible determinar inmediatamente el valor modal. Bastará con
identificar al valor de la variable al que le corresponde la mayor frecuencia.
Ejemplo:
Nº de obreros
Cantidad de establecimientos
10
11
12
13
14
44
84
73
189
32
Mirando la tabla, directamente podemos determinar el modo o valor modal
fijándonos cual es la máxima frecuencia absoluta, (189 en éste caso), y luego a qué
valor de la variable le corresponde, (13, en éste ejemplo). Por lo tanto:
Mº = 13 obreros
Esta medida de tendencia central está indicando que lo mas frecuente es que
los establecimientos observados, tengan 13 obreros.
En una tabla con intervalos de clase el modo se puede obtener gráfica y
analíticamente.
El siguiente es un ejemplo de una distribución de frecuencias referida a la
producción de un grupo de establecimientos, (en kg).
Peso (en kg) punto medio(xi)
50 100 150 200 250 300 TOTAL
100
150
200
250
300
350
75
125
175
225
275
325
fi
1
3
9
30
60
52
155
Fi
1
4
13
43
103
155
En primer término, vamos a determinar el intervalo con mayor frecuencia
absoluta: es 250 – 300. Dicho intervalo se denomina intervalo de clase modal.
Determinación gráfica:
1.- Se confecciona
adyacentes.
el histograma con la barra de mayor frecuencia y las
2.- Se trazan dos diagonales en el interior de la barra del intervalo modal, partiendo
de los vértices de la barra hasta los vértices de las adyacentes.
3.- Se traza luego una línea perpendicular desde la intersección de las dos
diagonales hasta el eje de las x, (escala horizontal). El punto donde se cortan será
el valor de la variable al que le corresponde la máxima frecuencia, o sea el modo.
En el ejemplo:
^
X  289
60
d2
d1

40

20

0 

200
250
289
300
350
Determinación analítica:
Se deriva la fórmula partiendo del dibujo geométrico que resulta de calcular
gráficamente el modo.
Mº = Li + d1 . h
d1 + d2
Donde:
Li = límite inferior del intervalo modal
d1 = fi - f(i – 1) , o sea, diferencia entre la frecuencia absoluta del intervalo
modal, menos la inmediata anterior.
d2 = fi – f(i + 1), o sea, diferencia entre la frecuencia absoluta del intervalo
modal, menos la inmediata posterior
h = amplitud del intervalo modal
MEDIANA
La mediana es un estadístico de localización útil a veces en investigación
biológica.
Se define como el valor de la variable, (en una serie ordenada), que
divide al conjunto de datos en dos subconjuntos con igual número de
elementos.

Se simboliza de la siguiente manera: Med o x
En la siguiente muestra de cinco medidas:
14
15
16
19
23
Med = 16
ya que la tercera observación tiene el mismo número de observaciones a
ambos lados.
Podemos hacer visible la mediana fácilmente si pensamos en una ordenación
de menor a mayor. Por ejemplo una fila de animales o personas, alineadas por sus
estaturas.
El animal o la persona mediana será el/la que tiene igual número de animales
o personas a su derecha y a su izquierda. Su altura será la altura mediana de la
muestra considerada. Esta cantidad se calcula fácilmente en una muestra ordenada
de un número impar de individuos.
Cuando el número es par, la mediana se calcula convencionalmente como el
punto medio entre los valores que ocupan el lugar: n/2 y (n/2) + 1. En una muestra
de cuatro medidas:
20
21
22
26
la mediana será el punto medio entre la segunda y la tercera medida, o sea: 21,5.
También podemos definir a la mediana como aquel valor de la variable que
cumple con la condición de superar a no mas de la mitad de las observaciones y ser
superado por no más de la mitad de las observaciones.
Simbólicamente para calcular la mediana hay que distinguir distintas
situaciones:
a) Cuando la serie es simple y la cantidad de observaciones es un número impar, es
decir, n = número impar. Sea la serie simple:
x = x1, x2 , x 3,
... ... , x n
En éste caso hay que ordenar las observaciones de menor a mayor y luego
localizar la observación central que será aquella que ocupe el lugar
n+1
2
b) Cuando la serie es simple y la cantidad de observaciones es par.
En ese caso hay dos valores centrales: los que ocupan la posición n/2 y (n/2)
+ 1. Como dijimos por convención se adopta el promedio simple de ambos como
única mediana de la serie. O sea:
Med = x(n/2) + x (n/2) + 1
2
c) Serie agrupada, con variable discreta:
El procedimiento de cálculo resulta de practicar el análisis anterior para serie
simple, pero teniendo en cuenta las ponderaciones que ahora aparecen.
Hay que calcular el valor de n/2 y las frecuencias absolutas acumuladas.
Luego se relaciona el valor n/2 con las frecuencias absolutas acumuladas para
encontrar dos de estos valores entre los que esté comprendido el mismo.
Supongamos que ese par de valores sean Fj – 1 y Fj y que satisface que:
Fj – 1 < n/2 < Fj
Ejemplo:
xi
7
8
9
10
11
Total
fi
Fi
32
40
12
10
22
116
32
72
84
94
116
32 < n /2 < 72
Mna = 8
58
n/2 = 58
d) Distribución de variable continua
Ejemplo:
Intervalos
20 - 40
40 - 60
60 - 80
80 -100
100 -120
Total
fi
Fi
2
6
11
6
5
30
2
8
19
25
30
n/2 = 15
Los pasos para obtener el valor mediana, son:
- Agregar la columna de frecuencias acumuladas ( Fi ). Obtener el punto
medio de la distribución mediante la siguiente operación: n/2 = 30/2 = 15
- Ubicar en la columna de Fi ( frecuencias acumuladas), los valores entre los
cuales se encuentra el n/2, (15 para nosotros), o sea entre 8 y 19, quiere decir que
la mediana, en éste caso, se ubicará en una posición mayor que 8 y menor que 19.
Por lo tanto ya sabemos que será un valor entre 60 y 80.- Determinado el intervalo en el cual cae la mediana sabemos que el valor
será; el límite inferior (Li ) de ese intervalo más una cierta cantidad x, o sea:
Med = Li + x
No necesitamos incorporar las 11 observaciones del intervalo 60 – 80, sino
que interpolamos esas frecuencias de la tercera clase, suponiendo que las
frecuencias están distribuidas en ella por igual.
Las observaciones cuyas frecuencias necesitamos incorporar surgen de la
diferencia entre el punto medio del total de observaciones, (n/30), menos la
frecuencia acumulada hasta el intervalo inmediato anterior al de la mediana, o sea:
15 - 8 = 7
Decimos:
11 observaciones -------------- 20 amplitud
7 “
-------------- x = 20 x 7 = 12,73
11
x = 12,73
Mna = Li + x
Mna = 60 + 12,73 = 72,73
Mna = Li + n/2 - (F(i-1)) h
fi
Donde:
Li = límite inferior del intervalo donde cae la mediana
n/2 = total de observaciones dividido 2
Fi-1 = frecuencias acumuladas hasta el intervalo inmediato anterior al de la mediana
fi = frecuencia absoluta del intervalo donde se encuentra la mediana
h= amplitud del intervalo donde cae la mediana
CUARTILES, DECILES Y PERCENTILES
Son también parámetros de posición. El concepto de cada uno de ellos
responde a un razonamiento similar al de la mediana.
En la mediana buscábamos el valor de la variable que separa a la distribución
en dos partes con igual número de elementos. Si nosotros pedimos en cambio, el
valor de la variable que supere a no más de ¼ del total de las observaciones y que
sea superado por no mas de ¾ del total de las observaciones, tendremos el primer
cuartil ( Q1).
Hay tres cuartiles que dividen la distribución en cuatro partes con igual
número de elementos. Por supuesto que el Q2 es la mediana y así se lo designa
generalmente.
El tercer cuartil (Q3), o cuartil superior, es el valor situado de modo que las
tres cuartas partes de los términos son inferiores y la cuarta parte mayores que él.
El mecanismo para calcular los cuartiles es el mismo que utilizamos para el
cálculo de la mediana.
En la última tabla de distribución de frecuencias:
N = 30
para ubicar la categoría donde se encuentra el Q1 hacemos: n/4 = 30/4 = 7,50
El valor 7,50 nos permite determinar que el mencionado cuartil se ubica en el
intervalo 40 - 60. O sea que:
Q1 = Li + xi

Para averiguar el valor de x, efectuamos la interpolación como en la x
La fórmula a utilizar para hallar el valor de Q1 es la siguiente:
Q1 = Li + n/4 - F(i-1) h
fi
Q1 = 40 + 7,50 – 2 . 20
6
Q1 = 40 + 18,33 = 58,33
Este es el valor de la variable que está situado de modo que el 25% de los
datos es menor o igual que el mismo y el 75% restante es igual o lo superan.
Para averiguar el valor del Q3, debemos realizar en primer término el cálculo
de:
3n
4
= 3 . 30 = 22,5
4
Este valor nos permitirá ubicar el intervalo donde se encuentra el Q 3. Para
averiguar el valor exacto, aplicamos la fórmula ya conocida:
Q3 = Li + 3.n/4 - F(i-1) . h
fi
Q3 = 80 + 22,5 - 19 . 20 = 91,67
6
Este, (91,67), es el valor de la variable que está situado de modo que el 75%
de los datos son menores o iguales que él y el 25% restante son iguales o lo
superan.
El tercer cuartil es el tercer punto que vemos en el tramo correspondiente:
75%
25%
_______________________
Q1
Q3
Deciles:
Permiten estudiar a la distribución en tramos de 10%. Si tomamos el total de
observaciones y lo dividimos por 10, nos ubicaremos en el lugar correspondiente al
primer decil, simbolizado por: D1
10% 10% 10%
10%




0
D1
D2
D3
D4

D5

D6

D7

D8

D9
Se tienen 9 puntos sobre el eje de las x. El procedimiento para obtener cada
uno de los deciles, es el mismo que para los cuartiles.
D1 = Li + n/10 – F(i-1) . h
fi
Siguiendo con el ejemplo anterior,
n/10 = 3, este valor, con el cual entro a la columna de F i, me ubica en el intervalo
40 – 60.
D1 = 40 + 3 - 2 . 20 = 43,33
6
Significa que del total de observaciones, el 10% son valores inferiores o
iguales a 43,33 y el 90% restante son iguales o lo superan.
Percentiles:
Permiten el estudio, aún más detallado de la distribución, ya que el análisis
se hace por tramos del 1%.
Para encontrar la ubicación de los percentiles, hacemos el siguiente cálculo:
P1
n/100
P2
2 n/100
P82
82 n/100
Fácilmente se podrá advertir que el P75 = Q3
Por otra parte:
P50 = D5 = Q2 = Mna
A menos que una distribución sea muy extensa, no tiene objeto calcular los
percentiles. En realidad, por lo general, sólo se usan los percentiles 10, 20, 30, etc.,
que son, por supuesto, los deciles 1, 2, 3, etc.
MEDIDAS DE FORMA
De asimetría :

_
x


x


x
asimétrica negativa

_  
x=x=x
simétrica


x


x

_
x
asimétrica positiva
El grado de asimetría de una distribución se conoce como sesgo, es decir
cuanto se aparta de la simetría. Si la curva de frecuencias (polígono de frecuencias
suavizado) tiene a la derecha una cola mas larga que a la izquierda, se dice
sesgada a la derecha o de sesgo positivo. En caso contrario, sesgada a la izquierda
o de sesgo negativo.
Una medida de asimetría está dada por la diferencia: media aritmética –
modo, dividida por el desvío estándar
_
Sesgo = x - modo
s
ó
_
Sesgo = 3( x - mediana)
s
Estos son llamados primer y segundo coeficientes de sesgo de Pearson,
respectivamente.
El signo de este coeficiente nos indicará si el sesgo es positivo o negativo.
Cuando mas lejano este su valor del 0, la distribución se apartará mas de la
simetría.
En una distribución simétrica coinciden la media aritmética, la mediana y el
modo.
Cuando la distribución se vuelve asimétrica, a la media aritmética la afecta,
no solo el hecho de que haya un exceso de frecuencia de un lado, sino también se
ve arrastrada, por los valores atípicos, por lo cual se ubica hacia el extremo donde
se encuentran éstos valores.
La mediana divide a la curva en dos áreas iguales. No se presta para el
tratamiento algebraico que estudiamos para la media aritmética. El valor de la
mediana también cambia en dirección de la asimetría.
El modo se ubica en el valor de la variable al que le corresponde la mayor
frecuencia, (el máximo de la curva). El modo no es una medida útil, a menos que se
base sobre bastantes términos para presentar una concentración bien definida.
De puntiagudez:
Leptocúrtica
mesocúrtica
platicúrtica
Esta deformación tiene que ver con el cambio de la dispersión de los datos
alrededor de un valor central, que en general es la media aritmética.
La curtosis mide cuán puntiaguda es una distribución, en general con
respecto a la normal. Si tiene un pico alto como en la figura de la izquierda, se dice
leptocúrtica, mientras si es aplastada como la de la derecha, se dice platicúrtica. La
distribución normal, (la del centro), no es ni muy puntiaguda, ni muy aplastada, se
llama mesocúrtica.
Una medida de curtosis, llamada coeficiente percentil de curtosis, basada
en cuartiles y percentiles, está dada por:
k = ______Q_______
P90 - P10
Donde:
Q = rango semi – intercuartilico, o sea
Q 3_ - Q 1
2
El valor teórico de curtosis para una distribución normal es de 0,263. Si en
una curva, k es mayor al valor mencionado, la distribución es platicúrtica, si es
menor a 0,263 es leptocúrtica.
MEDIDAS DE DISPERSIÓN
De la característica más importante que describe o resume un grupo de
datos, o sea de su posición, ya hemos hablado. En ésta sección hablaremos de la
segunda característica en orden de importancia, que describe un conjunto de datos:
la dispersión
La dispersión es la cantidad de variación, desperdigamiento o
diseminación de los datos.
Dos o más conjuntos de datos pueden diferir tanto en tendencia central como
en dispersión o, pueden tener las mismas medidas de tendencia central, pero
pueden tener grandes diferencias en términos de dispersión, como se muestra en el
diagrama siguiente:
Mayor concentración de los valores

_
x
Por ejemplo si los pesos correspondientes a tres animales son 169; 170 y
171 kg, su media es 170 kg. Pero si los pesos de los tres animales hubiesen sido
120; 170 y 220 kg, el peso medio también hubiera sido 170 kg.
Para poder determinar si los datos del primer grupo son más parecidos entre
sí que los del segundo, deberíamos tomar un punto de referencia y medir las
diferencias entre cada valor observado y el punto de referencia establecido.
Generalmente, el punto de referencia elegido corresponde a una medida de
posición adecuada.
En general, disponiendo de un punto de referencia podemos juzgar si una
respuesta es extrema o no, a partir de la diferencia entre el punto-respuesta y el
punto de referencia.
Como ya sabemos, cuando el punto-respuesta corresponde al valor
observado de una variable y el punto de referencia a una medida de posición,
tomamos la diferencia como sinónimo de desviación.
Debido a la propiedad de la media aritmética que dice: “La suma de las
desviaciones de cada valor de la variable con respecto a la media aritmética es 0”;
nos damos cuenta que el simple promedio de las desviaciones no nos sirve para
determinar la variabilidad de un conjunto de datos; por ello será necesario recurrir a
otros indicadores que actúen como medidas resúmenes.
Por tanto, al manejar datos numéricos, es insuficiente resumir los datos con
la mera presentación de algunas medidas descriptivas de la tendencia central. Los
datos también se deben caracterizar en términos de su dispersión o variabilidad.
Estos indicadores se conocen con el nombre de medidas de dispersión.
Principales medidas
de dispersión
Medida de dispersión
relativa
Rango o recorrido de la variable ®
Desviación media (MD)
Desviación mediana (D M)
Variancia ( 2 (x) ó S2 (x) ó V (x) )
Desvío estándar ( (x) ó S (x) ó D.S (x) )
Rango o desvío entre percentiles (D.P.)
Rango o desvío semi-intercuartílico (D.S.Q.)
Coeficiente de variación (C.V.)
Rango: se denomina rango de un conjunto de observaciones a la diferencia
entre el mayor y el menor valor de la variable.
R=XM - Xm
Es la más sencilla, pero también suele ser la más imperfecta de las medidas.
Es completamente dependiente de los dos valores extremos que toma la variable.
Es satisfactoria únicamente cuando la muestra es pequeña, prácticamente
menor a 10 observaciones. Es muy utilizada en los estudios de control de procesos
productivos para la confección de gráficos de control, dado que en éstos casos, los
procesos son generalmente evaluados por muestras frecuentes y de reducido
tamaño.
No obstante, si se desea obtener el rango para datos agrupados, las formas
de hacerlo es:
R = marca de clase de la clase más alta - marca de clase de la clase más baja
Ó
R = Ls de la clase más alta - Li de la clase más baja
DESVIACIÓN MEDIA:
Se denomina también desviación promedio, y se la define como la
sumatoria del valor absoluto de las desviaciones de los valores de la variable,
con respecto a la media aritmética. (El valor absoluto de un número es el número
sin signo y se denota con dos barras verticales).
_
MD =  xi - x 
N
Si los datos están agrupados, y cada valor de la variable presenta una
frecuencia fi, la desviación media se obtiene con la siguiente fórmula:
_
MD =  xi - x fi
N
No se usa con mucha frecuencia, porque al usar valores absolutos no es fácil
de manipular algebraicamente.
DESVIACIÓN MEDIANA
En la fórmula anterior se reemplaza a la media aritmética por la mediana,
obteniendo la siguiente:
DMe =  xi - Me 
N
o si los datos están agrupados:
DMe =   x i - M e  f i
N
Las desviaciones son definidas ahora, como diferencias entre las
observaciones y la mediana.
La utilización de la desviación media o de la desviación mediana depende de
la naturaleza de los datos que intervienen en el estudio.
VARIANZA Y DESVÍO ESTÁNDAR
Dos medidas de dispersión que tienen en cuenta cómo se distribuyen todas
las observaciones de los datos, son la varianza y su raíz cuadrada, la desviación
estándar.
Vimos que la manera más adecuada de estudiar la mayor o menor dispersión
de los datos alrededor de un cierto valor de referencia es utilizar la desviación de
cada uno de los valores individuales con respecto al valor de referencia establecido.
Volvemos ahora a considerar las desviaciones con respecto a la media
aritmética de un conjunto de datos.
Mediante un artificio matemático, elevaremos cada desviación al cuadrado.
Obtendremos así, promediando estas desviaciones elevadas al cuadrado, una
nueva medida de dispersión ampliamente conocida y que se denomina varianza,
Si hacemos uso de la propiedad de los mínimos cuadrados de la media,
entonces, como medida de las diferencias promedio al cuadrado en torno a la
media; la varianza debe ser menor que cualquier otra medida de diferencias
promedio al cuadrado en torno a cualquier otro indicador de tendencia central.
La varianza es la suma de las desviaciones con respecto a la media
aritmética elevadas al cuadrado dividida por el número de observaciones.
_
V(x) =  (xi - x )²
N
Un valor de éste parámetro más alto que otro, para una misma variable,
indica mayor dispersión y viceversa.
A ésta fórmula se la denomina fórmula definicional, teórica o general.
Ejemplo: para los tres valores de pesos de animales que hemos considerado
anteriormente, obtendríamos la varianza de la siguiente manera:
_
_
xi
xi - x
(xi - x)²
120
170
220
- 50
0
50
2.500
2.500
5.000
V(x) = 5.000 = 1.666,66 kg²
3
Vemos que al utilizar éste artificio matemático de elevar las desviaciones al
cuadrado, nos ha quedado alterada la unidad de medida.
Para evitar éste inconveniente se emplea como medida de dispersión la raíz
cuadrada de la varianza, la que se conoce con el nombre de desviación estándar
De acuerdo a lo establecido, podemos entonces decir que:
La desviación estándar es la raíz cuadrada positiva de la varianza
D.S. =  V(x)
Más adelante veremos el papel fundamental que juega la desviación estándar
en la estadística.
Obteniendo la varianza con la fórmula dada, exige el cálculo de los desvíos,
que a veces es poco práctico. Hay una forma alternativa que evita éste cálculo y
resulta de aplicar una fórmula que se obtiene desarrollando la fórmula de la
Varianza, como sigue:
_
V(x) =  (x i - x)2
N
_
_
V(x) =  (x i)² - 2 x i x + (x)² 
N
_
_
V(x) =  x i² - 2x i  xi + N (x)²
N
_
_
V(x) =  xi² - 2 x  xi + N x²
N
N
N
_
V(x) =  x i² - x²
N
Ésta fórmula se denomina computacional o de trabajo.
Cuando se tienen datos agrupados en una distribución de frecuencias, la
única diferencia en el cálculo de las medidas de dispersión consiste en ponderar a
cada desviación por su correspondiente frecuencia absoluta.
Las fórmulas serían:
_
V(x) =  (x i - x )2 f i
N
o
_
V(x) =  xi fi - x 2
N
2
Propiedades de la varianza:
a) la varianza de una variable es siempre no negativa, esto surge de la propia
definición
V(x)  0
b) la varianza de una constante es igual a 0
V(a) = 0
Si x = a,
_
su media será: x = a; por lo tanto:
V(a) =  ( a - a)² = 0
N
Gráficamente, no hay variabilidad.
c) la varianza de una variable más o menos una constante es igual a la varianza de
la variable.
V( x  a ) = V(x)
______
V(x-a) =   (xi – a) - ( x - a )²
N
____
x - a =  ( xi – a)
N
_
V(x-a) =   xi – a – x + a²
N
_
V(x-a) =   xi - x²
N
____
x - a =  xi – N a
N
N
____ _
x–a=x–a
V(x - a) = V(x)
d) la varianza de una variable por una constante es igual al cuadrado de la
constante por la varianza de la variable.
V(x.a) = a V(x)
__
x.a =  (x.a)
N
__
V(x.a) =  (xi.a - ax)²
N
__
x.a = axi
N
_
V(x.a) = a  (xi - a x)²
N
__
_
x.a = a. x
2
2
V(x.a) = a 2 V(xi)
e) la varianza de una variable dividida una constante es igual a la varianza de la
variable sobre el cuadrado de la constante.
V(xa) = V(x)
a2
RANGO ENTRE PERCENTIL 10 – 90
Se define por:
RP = P 90 - P 10
En éste caso se trabaja solo con el 80% de los datos.
RANGO SEMI INTERCUARTIL
Esta simple medida considera la extensión en el 50 % medio de los datos y,
por tanto, no sufre ninguna influencia de los valores extremos que podrían ocurrir,
es decir:
RSI = Q 3 - Q 1
2
La desventaja de ésta medida es que solo mide el medio de la distancia entre
el cuartil tres y el cuartil uno.
COEFICIENTE DE VARIACIÓN
La desviación estándar tiene todavía el problema que no permite
comparaciones de la dispersión de dos o más distribuciones, especialmente cuando
las variables de estas distribuciones tienen distintas unidad de medida.
Por ejemplo, para la variable “x” expresada en $ que representa los salarios
de un grupo de obreros, podemos tener un S que es igual a $260 y para una
variable “w” expresada en kilogramos, (kg), que representa la producción de carne
de un determinado establecimiento ganadero, su S es igual a 2.500 Kg. La
comparación directa de ambos desvíos no es posible y no podríamos afirmar que
los salarios tienen menor dispersión que la producción de carne porque posee un
menor S.
Para posibilitar la comparación, se define el Coeficiente de Variación que es
el cociente entre: s . 100
_
x
Por lo tanto:
C.V.
= D.S . 100
_
x
El coeficiente de variación expresa la desviación estándar como un
porcentaje de la media aritmética.
Es una medida de dispersión relativa y, dado que surge como el cociente
entre dos cantidades expresadas en la misma unidad de medida, es independiente
de ella.
Se debe hacer notar aquí que a medida que el coeficiente de variación
disminuye, se observa una mayor homogeneidad de los datos o, lo que es lo mismo,
los datos están más concentrados alrededor del promedio.
En el ejemplo mencionado anteriormente, si el salario medio fuese de $400 y
la producción media fuese 10.000Kg, la distribución de la producción de carne
tendría menor dispersión que la de salarios a pesar de su mayor desvío estándar,
dado que:
C.V ( x ) = 260 $ . 100 = 65%
400 $
C.V.(x) = 2.500 Kg. 100 = 25%
10.000Kg
Siempre se verifica que:
0  C.V.  
Además el coeficiente de variación es útil también al comparar dos o más
conjuntos de datos, (distribuciones), que se miden en las mismas unidades de
medida pero difieren a un grado tal que las comparaciones directas de las
respectivas desviaciones estándar no es muy útil. Por ejemplo: si estuviéramos
comparando la dispersión de los pesos de los animales recién nacidos y la de los
pesos de otro grupo de animales adultos.
Ahora veremos algunos ejemplos a fin de clarificar los pasos a seguir para
obtener éstas que denominamos principales medidas de dispersión y su aplicación
práctica.
Ejemplos:
Los siguientes datos corresponden al número de días en que faltaron al
trabajo 15 personas empleadas en un aserradero, en un determinado período:
1
8
2
2
3
9
2
3
5
2
4
7
9
8
5
a) Obtenga el rango, la desviación mediana y la desviación media
b) Obtenga variancia, desvío estándar y coeficiente de variación
R = XMax - X min
R = 9 – 1 = 8 días
_
_
_
_
Xi fi Fi xi.fi xi - Med xi – Medfi xi - x  xi- xfi (xi-x) (xi- x)²
1
2
3
4
5
6
7
8
9
1 1
4 5
2 7
1 8
2 10
0 10
1 11
2 13
2 15
1
8
6
4
10
0
7
16
18
3
2
1
0
1
2
3
4
5
3
8
2
0
2
0
3
8
10
3,66
2,66
1,66
0,66
0,34
1,34
2,34
3,34
4,34
3,66
10,64
3,32
0,66
0,68
0
2,34
6,68
8,68
_
(xi – x)² fi
-3,66 13,1052
-2,66 6,7852
-1,66 2,4652
-0,66 0,1452
0,34 0,1166
1,34 1,7956
2,34 5,47 56
3,34 11,1556
4.34 18,8356
13,1052
27,1408
4,9304
0,1452
0,2332
0
5,4756
22,2112
37,6712
• 15 -- 70
-36
-36,66
--- 110,9128
-------------------------------------------------------------------------------------------------------------
D.Med. =  xi - Med fi = 36 = 2,4 días
N
15
_
D. M. =  xi - x fi = 36,66 = 2,444 días
N
15
_
V (x) =  (xi - x )² fi =
N
110,9128 = 7,394 días2
15

_
D. S. (x) =   ( xi - x )² fi

N
__________
=  7,394 días2 = 2,72 días
C. V. = D. S. . 100 =
_
X
58,37 %
A un grupo de operarios que participaron de un experimento se les pidió que
realizaran diez actividades diferentes. Más tarde se evaluaron las mismas. El
número de actividades bien realizadas fueron las siguientes:
Nº ACT.
0 - 2
2 - 4
4 - 6
6 - 8
8 - 10
----
fi
Fi
xi
1
2
7
8
2
20
1
3
10
18
20
--
1
3
5
7
9
--
xi. fi
1
6
35
56
18
116
_
(xi - x)
_
(xi - x)²
_
(xi - x)² fi
4,8
-2,8
-0,8
1,2
3,2
--
23,04
7,84
0,64
1,44
10,24
--
23,04
15,68
4,48
11,52
20,48
75,20
_
x = 5,8 actividades
V(x) = 75,20 = 3,76 actividades ²
20
D. S (x) =  3,76 act2 = 1,94 actividades
C. V. = 1,94
5,8
. 100 = 33,43 %
ANÁLISIS DE REGRESIÓN
Hasta ahora hemos estudiado metodologías estadísticas para analizar la
información de una variable, proporcionada por una o más muestras, utilizando las
herramientas que nos brinda la estadística descriptiva.
En la práctica observamos muchas veces que existe una relación entre dos o
más variables. Por ejemplo entre la cantidad de alimento consumido y los litros de
leche producidos, entre el peso de los animales y su edad, la edad de los árboles y
su diámetro, etc.
Ahora nos abocaremos a estudiar que pasa cuando tenemos dos variables y
deseamos efectuar inferencias acerca de los cambios que se producen en una de
ellas cuando cambia la otra.
Para describir la forma de la relación que liga a estas dos variables
utilizaremos los llamados modelos de regresión.
Por ejemplo, supongamos que la variable x, (llamada independiente), define
el precio de la carne, y la variable y, (llamada dependiente), los kilogramos de carne
consumidos en nuestra provincia.
Si descubrimos la relación que liga al precio de la carne con los kilogramos
consumidos en el mercado podremos predecir la cantidad de carne que se venderá
cuando se producen variaciones en los precios del bien.
Asimismo cuando hablemos del grado de la relación que liga a dos variables
también utilizaremos complementariamente el análisis de correlación, a través de
un indicador del grado de intensidad de la relación entre las dos variables que es
independiente de sus respectivas escalas de medición, llamado coeficiente de
correlación lineal entre x e y, o coeficiente de correlación de Pearson.
O sea: el análisis de regresión se utiliza en la predicción. Para el caso de
dos variables se desarrolla un modelo que utiliza la variable independiente x, para
obtener una mejor predicción de la otra variable: la variable dependiente y.
Por ejemplo: cuánta pastura deberá consumir cada animal para obtener
determinado peso; que cantidad de fertilizante se necesitará para obtener
determinado rendimiento; la humedad relativa que habrá que mantener para evitar
el desarrollo de pulgones.
El análisis de correlación, por contraste con el de regresión, se utiliza
para medir la fuerza de la asociación entre las variables. Por ejemplo: peso estatura.
SIGNIFICADO DEL TÉRMINO REGRESIÓN
Por los años 1800 surge el término “regresión” a partir de estudios
realizados por Sir Francis Galton, un experto inglés en estudios de herencia, que fue
uno de los primeros investigadores que estudió relaciones entre variables. El
investigó la relación existente entre la altura de los hijos con respecto a la de sus
padres.
Observó que padres altos tenían hijos cuya altura era mayor a la altura
promedio, pero no eran mas altos que sus padres. De la misma manera, padres
bajos tenían hijos bajos pero no tan bajos como ellos. Las tendencias de las alturas
de los hijos eran más hacia un cierto promedio de la población que hacia las alturas
de sus respectivos padres. Galton expresó que las alturas de los hijos regresaban a
un promedio y de allí surgió el término regresión.
En la actualidad, la palabra regresión se utiliza para definir la naturaleza
de la relación entre dos o más variables. A partir del concepto de que para cada
valor de la variable x se genera una distribución de valores de la variable y, el
modelo de regresión estima una recta promedio que denominaremos recta de
regresión
EL DIAGRAMA DE DISPERSION
Para hallar la ecuación que relacione las variables, el primer paso es recoger
los datos de las variables en consideración, y es conveniente presentarlos en una
forma de más fácil interpretación visual.
Anteriormente, cuando recopilamos información, desarrollamos varias
gráficas, como histogramas, polígonos y ojivas, para la presentación de datos. En
un análisis de regresión (que incluye una variable independiente y una
dependiente), los valores individuales se trazan en una gráfica bidimensional
llamada diagrama de dispersión. Cada valor se traza en sus coordenadas x e y
particulares.
Ejemplos: precio-kilogramos de carne consumidos; pastura-kilogramos de
peso de los animales, edad-altura de las especies forestales, etc.
Examinaremos si hay o no una relación entre dos variables y, si la hay, cómo
se puede prever una mejor predicción de la existencia de la variable, y,
dependiente.
TIPOS DE MODELOS DE REGRESIÓN
La naturaleza de la relación puede adoptar muchas formas, que van desde
funciones matemáticas muy sencillas hasta las muy complicadas. La relación más
simple consiste en una línea recta o relación lineal. En la figura siguiente se muestra
un ejemplo de la relación lineal.

 


 

a
0
El modelo para la línea recta (lineal) se puede representar como:
y = a + bx
donde
a = ordenada al origen, o sea, intercesión real con el eje y, de la población
b
= pendiente real de la población
En este modelo, la pendiente b de la recta representa el cambio unitario en y,
por cambio unitario en x, es decir, representa la cantidad de cambio de y (positivo o
negativo) para un cambio unitario particular en x.
Por otra parte, la intercesión a con el eje y, representa un factor constante
que está incluido en la ecuación. Representa el valor de y cuando x es igual a cero.
El modelo estadístico es sólo una aproximación a la relación exacta entre las dos
variables.
La distribución de los valores x e y en el diagrama de dispersión influye en la
selección del modelo matemático adecuado.
DETERMINACION DE LA ECUACION PARA REGRESION LINEAL
SIMPLE
Una vez confeccionado el diagrama de dispersión y observado que los
puntos tienen una tendencia lineal, trataremos de deducir los parámetros a y b a
partir de los datos estadísticos de ésa distribución de frecuencias conocida.
La técnica que posibilita la obtención de los parámetros para una relación
funcional dada, se denomina:
AJUSTAMIENTO.
En general, las trayectorias lineales responden a la expresión
a + bx, es decir que podemos escribir:
yc = a + bx
y representa a todos y cada uno de los puntos de la recta.
Existen dos métodos para realizar el ajustamieto:
El método libre: en el que, luego de confeccionado el diagrama de
dispersión, el observador analiza el comportamiento de los datos para determinar el
tipo de curva que mejor se ajusta a los mismos. Definido el tipo de curva, si por
ejemplo esta es una recta se eligen dos puntos y se la traza.
El inconveniente es que diferentes observadores tendrán diferentes rectas,
porque es difícil de que coincidan a la hora de elegir la recta que mejor muestre el
comportamiento del conjunto de puntos.
El método de los mínimos cuadrados: es mas preciso, pues permite
obtener la mejor recta de ajuste, o sea la que hace mínima la sumatoria de las
distancias al cuadrado, de cada valor observado y el calculado.
 yo

0
x1
x2


yc
_
y
x3
Entre los valores observados y calculados ( yc e yo ) hay una diferencia o
distancia .
Lo ideal para nosotros sería encontrar una recta que pasara por todos los
puntos de las observaciones, o sea, que dejara diferencias o residuos nulos. Esto
sería posible si las observaciones estuvieran perfectamente alineadas (caso muy
especial). Gráficamente sería:




Normalmente esto no se da y debemos buscar aquella recta que deja los
menores residuos posibles.
Una forma de trabajar sería planteando las distintas rectas con las que
podemos ajustar un diagrama y para cada una de ellas obtener la suma de los
residuos que deja, y escoger la que tiene menor suma. Esto encierra el
inconveniente de que puede haber compensaciones de residuos positivos y
negativos, llevándonos a un resultado equívoco. Para obviarlo podríamos tomar la
suma de los valores absolutos de los residuos y después comparar, pero la
presencia del valor absoluto ocasiona algunas limitaciones algebraicas que
convienen evitar.
La tercera alternativa es trabajar con los cuadrados de los residuos y elegir la
recta que posea menor suma de estos cuadrados. Este método se conoce como de
“mínimos cuadrados” y se basa en hacer:
 di = mínimo; o sea:  (Yo - Yc )² = mínimo
Esto se basa en la segunda propiedad de la media aritmética. La ventaja
es que vamos a obtener una única recta de ajustamiento cualquiera sea el
observador y va minimizar la suma de los cuadrados de los desvíos, siendo por
tanto, la mejor recta de ajuste, porque lleva implícita la idea de minimizar errores.
Este es un método objetivo, no como el anterior que es subjetivo, por depender del
observador.
Para conocer el valor de los parámetros “a” y “b” con lo que conoceríamos la
recta Yc y como x e y son conocidos, (porque son las observaciones).
1.- Multiplico todas las ecuaciones por el coeficiente de a
y 1 = a + b x1
y 2 = a + b x2
y 3 = a + b x3
...
2.- Sumo miembro a miembro
 yi = Na + b  x i
(1)
3.-Multiplico las n ecuaciones por el coeficiente de b
y1 x1 = ax1 + bx21
y2 x2 = ax2 + bx22
y3 x3 = ax3 + bx23
..
..
yn xn = axn + bx 2n
4.-Sumo miembro a miembro
 yi xi = a  xi + b  x 2 i
(2)
5.- Con (1) y (2) formo un sistema de ecuaciones normales, a partir del cual
determinaremos el valor de los parámetros a y b. Para ello multiplicamos todos los
términos de la primera ecuación por:  x i
N
Este es un artificio para lograr el fin sin alterar el valor de la ecuación:
 y  xi = N a  xi + b  xi  xi
N
N
N
 yi  xi = a  xi + b ( xi)2
N
N
(3)
6.- Se resta (3) de (2)
 yi xi
= a  xi + b  xi 2
 yi  xi
N
= a  xi + b ( xi)2
N
-
 yi xi -  yi  xi = b  xi 2 - b ( xi)2
N
N
7.-Sacando común denominador:
N  yi xi -  yi  xi = N b  xi 2 - b ( xi)²
N
N
N  yi xi -  yi  xi = b  N  xi ² - ( xi )² 
8.-Queda determinado el valor de uno de los parámetros de la ecuación que es la
pendiente o coeficiente angular
b = N  yi xi -  yi  xi
N  xi² - ( xi )²
9.- Tomando éste valor b y reemplazando en la primera ecuación del sistema de
ecuaciones normales podemos determinar cuánto vale el segundo parámetro con lo
cual quedaría definida la ordenada al origen.
 y i = N a + b  xi
 yi = N a + N  yi xi -  yi  xi  xi
N  xi ² - ( xi )²
Saco común denominador
yi = Na [ N  xi 2 - ( x i)2 ] + N  yi x i
N  xi 2
- ( x i )2
-  y i ( x i)²
 yi [N xi 2 - ( xi )2 ] = a N2  xi2 - a N ( xi)2 + N  yi xi - yi (xi)² ]
 yi N  xi 2 -  yi ( xi)2 - N  xi yi +  yi ( xi)² = aN [N  xi 2 -  y i xi ]
N (yi  xi 2 -  xi yi ) = a N [ N  x i 2 -
a =
(  y i x i) ]
 yi  xi 2 - x iy i x i
N  xi ² - ( xi )²
Ó
_
a = y
donde
-
_
y =  yi
N
_
b x
_
x
=  xi
N
La ecuación de regresión se puede utilizar para predecir el valor Y para un
valor dado de x.
ERROR ESTÁNDAR DE ESTIMACIÓN
Aunque el método de los mínimos cuadrados da por resultado una línea que
ajusta en los datos con la mínima cantidad de variación, la ecuación de regresión no
es perfecta para las predicciones, sobre todo cuando se toman las muestras de la
población, excepto si todos los datos observados caen en la línea de regresión
predicha. Así como no se puede esperar que todos los valores de los datos estén
ubicados exactamente en su media aritmética, en la misma forma tampoco se
puede esperar que todos los puntos de los datos caigan exactamente en la línea de
regresión.
Por tanto, la línea de regresión sirve sólo para predicción aproximada de un
valor de y, para un valor dado de x. Entonces, se necesita desarrollar un estadístico
que mida la variabilidad en los valores observados de Y y el valor calculado de Y ,
a partir de los valores predichos de Yo e Yc , en la misma forma que se desarrolló
una medida de la variabilidad de cada observación en torno a su media. la medida
de la variabilidad en torno a la línea de regresión se llama el error estándar de la
estimación.
Este error de estimación se obtiene haciendo la raíz cuadrada del promedio
de la suma de los cuadrados de los desvíos, entre cada valor observado y la recta
de estimación.
ANALISIS DE CORRELACION
Cuando la correlación es de tipo lineal, el análisis de correlación se realiza a
través del coeficiente de correlación de Pearson, que se simboliza con la letra r, y
se calcula de la siguiente manera:
r=
N  x y - (x ) ( y)_______________
  N  x 2 - ( x ) 2 N  y2 - ( y ) 2 
El campo de variación del coeficiente de correlación de Pearson es de - 1 a
1, o sea:
-1 r  1
Generalmente se dice que los coeficientes de correlación mayores de 0,7
indican fuerte correlación; de 0,3 a 0,7 correlación moderada y de menos de 0,3
débil o nula correlación. No obstante habrá que tener algunos cuidados ya que el
simple criterio valorativo no es suficiente para juzgar el significado de la correlación,
y menos afirmar que un coeficiente 0,93 indica correlación mas alta que un
coeficiente 0,78; sin que antes se haya indicado, con toda claridad, si el mismo se
obtuvo de una población o de una muestra y la naturaleza de la población y de las
variables correlacionadas.
Un índice de correlación nos indica tres cosas fundamentales:
- la existencia o no de una relación entre las variables estudiadas
- la dirección de esta relación, (si es que existe), positiva o negativa.
- el grado o intensidad de esta relación, (el valor máximo es 1 y el mínimo 0, que es
la no correlación).
Coeficiente de determinación
Es el coeficiente de correlación elevado al cuadrado, ( r2 ), e indica la
proporción de la varianza de y que queda explicada por el conocimiento de x. El
campo de variación de este coeficiente es de:
0  r2  1
r 2 = variación explicada
variación total
El coeficiente de indeterminación es: 1 - r 2 , e indica la proporción de la
varianza de y que no queda explicada por el conocimiento de x.
Gráficamente:
 yo
var. no explicada

var. total
 yc





var. explicada
_
y
TEORÍA DE LA PROBABILIDAD
Si todas las investigaciones se pudieran realizar observando o recogiendo
información de todos los elementos que componen la población, el método
estadístico se reduciría fundamentalmente en lo expuesto en la Estadística
Descriptiva. Pero en la investigación muy rara vez se puede estudiar a todos los
miembros de la población, por lo que se recurre a las muestras, a partir de las
cuales el investigador, haciendo uso de las técnicas que le brinda la estadística
inferencial proyecta los resultados obtenidos, a toda la población, explicitando el
grado de precisión y de confianza que le merecen las mismas.
La inferencia estadística está basada en la teoría matemática de la
probabilidad.
Antes de empezar a hablar de la misma, definiremos los fenómenos
determinísticos y los aleatorios.
Los fenómenos determinísticos son aquellos de un comportamiento
exacto, perfectamente previsible. Por ejemplo si pongo al fuego un recipiente con
agua, cuando este alcance 100º C hervirá; si un ser viviente deja definitivamente de
consumir alimentos, en mayor o menor tiempo, morirá.
Los fenómenos aleatorios, en cambio, son de resultado incierto, pueden
presentarse de una forma u otra, sin que podamos saber de antemano qué forma
final tendrán.
Por ejemplo, si tiramos una moneda no sabemos de antemano, si caerá cara
o cruz; ante la gestación de un ser viviente, éste podrá ser macho o hembra, si nos
hacemos un análisis de sangre, podremos o no tener el número de glóbulos rojos
que se considere normal para la edad y el sexo correspondiente, etc. Solamente
cuando se trata de éste tipo de fenómenos, podremos hablar de probabilidad.
Cuando los designamos con el nombre de aleatorios confirmamos nuestra
incertidumbre acerca de sí el evento ocurrirá o no ocurrirá, en el momento que
efectuamos la observación.
Lo que se propone la teoría de probabilidad es asignar un valor a ésta
incertidumbre, en otros términos cuantificar el azar.
En éste momento se hace necesario definir algunos términos que
utilizaremos al estudiar la teoría de probabilidad.
Un experimento aleatorio es una operación realizada un cierto número
de veces, bajo las mismas condiciones de experimentación.
Un resultado no puede preverse cuando el experimento aleatorio se realiza
una sola vez, pero si se repite un gran número de veces, los resultados responden a
cierta “ley” de comportamiento regular y previsible.
Llamamos evento aleatorio a cada uno de los resultados de un
experimento aleatorio.
Esto nos lleva al concepto de espacio probabilístico que es el conjunto
que contiene todos los resultados posibles de un experimento aleatorio.
Lo simbolizamos con  ó  , (letra griega omega). Para el caso de la
gestación y la moneda, respectivamente, el espacio probabilístico sería:
 =  macho, hembra 
 =  cara, cruz 
La formulación del espacio probabilístico es muy importante, ya que nos
permite situarnos en el problema.
Este espacio probabilístico puede estar compuesto por “eventos simples”,
como en los ejemplos anteriores, es decir que los resultados están dados en su
forma más sencilla. Ahora bien, entre los eventos simples podemos efectuar
combinaciones que dan lugar a eventos compuestos. Por ejemplo, si tenemos dos
bolilleros, con las bolillas 1 y 2 pintadas de blanco, el primero. El segundo bolillero
tiene bolillas rojas, numeradas del 1 al 4. Si extraemos una bolilla de cada uno de
ellos, podemos estar interesados en “todos los pares de bolillas en los que la suma
sea un número par”. Este resultado está compuesto por un conjunto de resultados o
eventos simples, y conforma un evento compuesto.
Si designamos con A el evento compuesto, será:
A =  pares de bolillas cuya suma sea par
y tendremos que el espacio probabilístico de A, sería:
A =  b1 r1, b2 r2 , b1 r3 , b2 r4 
TEORIAS DE PROBABILIDAD
Dijimos que los eventos tienen una probabilidad asociada, o sea una
probabilidad de presentación. Desde muy antiguo se quiso llevar a una forma
medible a ésta probabilidad, fundamentalmente a partir de los estudios de los
matemáticos, orientados a examinar los juegos de azar.
Hay varios enfoques para cuantificar la probabilidad de un evento,
expresados en las siguientes teorías:
Clásica o “a priori”: es la más antigua, se la debemos a Laplace, dice que
la probabilidad (P) de un evento (A), o sea P(A) , es igual al número de casos
favorables a A, dividido por el número total de casos igualmente posibles, es decir,
los casos que son “favorables”, mas los casos que “no son favorables”:
P(A) = casos favorables a “A”
f+nf ( o sea todo el espacio)
Definición a priori, en el sentido de que podemos determinar la probabilidad
de los hechos sin necesidad de investigación empírica alguna.
Por ejemplo si sabemos que un dado tiene 6 caras numeradas del 1 al 6,
 =  1, 2, 3, 4, 5, 6 
y consideramos el evento “A”, como:
A =  presentación del número 3
Así, de 6 resultados posibles, sólo 1 es favorable al 3, por tanto:
P(x=3) = 1/6 = 0,166
El problema de éste enfoque de la probabilidad reside en la exigencia de que
los eventos deben ser igualmente posibles. Así, si la moneda es defectuosa no
habría forma de calcular ésta probabilidad.
Frecuencial o “a posteriori”: es también denominada empírica porque se
determina por la vía experimental y de define como el cociente entre dos
frecuencias:
P (E) = f e
Ft
esta expresión P(E) es la probabilidad del evento E; fe es la frecuencia con que
ocurre el evento E dentro de la población en la que investigamos su ocurrencia;
ft es la frecuencia total, o sea la frecuencia de la ocurrencia, sumada a la frecuencia
de su no-ocurrencia: suma que, naturalmente es igual a la frecuencia de la
población.
Este enfoque a posteriori se debe al ruso Kolmogorof.
Por ejemplo: la probabilidad a priori de obtener un 1 al arrojar un dado es
1/6, pues el dado tiene 6 caras posibles y sólo una lleva escrito un 1.
Para la definición a posteriori tendríamos que arrojar un dado una gran
cantidad de veces. Por ejemplo, si tiramos el dado 60 veces, teóricamente
tendríamos que sacar el 1, 10 veces, pero esto no suele suceder.
Para lograr empíricamente hallar 1, una vez cada seis hay que tirar el dado
muchas veces. ¿Cuántas?. En teoría una cantidad de veces infinita. En matemática
se dice que cuando N tiende a , p es el límite de la probabilidad de una serie de
tiradas.
Por ejemplo, si yo tiro un dado 60 veces es posible que halle no 10, sino 8
veces un 1, entonces la probabilidad de hallar 1 en este caso será 8/60 = 0,133. Si
lo tiro 600 veces tal vez salga 95/600 = 0,158 que es un valor muy cercano a 0,166.
Esto se llama frecuencia relativa.
En la práctica, la diferencia entre la definición a priori y la definición a
posteriori no es vital. El enfoque de Laplace es una definición teórica y el de la
probabilidad como frecuencia relativa es operacional.
Axiomática: dice que la probabilidad de un evento A en el experimento
aleatorio E, es el valor numérico que satisface los 3 axiomas siguientes:
1.- Sí A es un evento, luego:
P(A)  0 para todo A
2.- Si  representa el conjunto de todos los resultados posibles de un experimento
aleatorio, luego:
P() = 1
3.- P (A1 U A2 U ... ) = P (A1) + P (A2) + .....
si A1, A2, .... es una sucesión finita o infinita de eventos incompatibles o mutuamente
excluyentes. El símbolo U implica la unión o suma de eventos.
Eventos mutuamente excluyentes: son aquellos que no pueden
presentarse conjuntamente.
Por ejemplo un determinado animal no puede ser de dos razas diferentes a la
vez, una especie vegetal no puede ser arbusto y gramínea a la vez, una persona no
puede ser delgada y gorda a la vez, etc.
Ejemplo: Un establecimiento tiene 30 empleados, de los cuales, 20 son
varones y 10 son mujeres. Si se considera el experimento de seleccionar un
empleado al azar de éste establecimiento, determine la probabilidad de que:
a) sea elegido un varón
b) sea elegida una mujer
c) sea elegido un varón o una mujer
Estos eventos son mutuamente excluyentes?
Evento imposible: es aquel que no tiene ningún resultado favorable dentro
del conjunto de resultados posibles de un experimento aleatorio.
Se simboliza: P ( ) = 0
_
Evento complemento (A): de un evento A es el evento compuesto por todos los
resultados que no contiene el evento A.
_
Por definición, los eventos A y A son mutuamente excluyentes.
Entonces:
_
_
P(A o A) = P(A) + P(A) = 1
_
Luego, despejando P(A), se tiene:
_
P(A) = 1 – P(A)
Podemos decir que la probabilidad es un número que varía entre 0 y 1 ya
que, considerando las dos situaciones extremas, tenemos:
0
P () = 0
y
≤ P(A) ≤
1
P() = 1
Siendo  el evento imposible y  el evento seguro o cierto.
Eventos no mutuamente excluyentes: son aquellos que tienen
resultados en común.
Supongamos que simbolizamos con A el hecho de ser flaco y con B el hecho
de que ser alto.
Si de un grupo de personas quisiéramos hallar la probabilidad de que al
seleccionar una ésta sea flaca o alta.
P(A o B) = P(A U B) = P(A) + P(B) - P(A  B)
El primer término de la suma representa la probabilidad de ocurrencia del
evento A y el segundo término representa la probabilidad de ocurrencia del evento
B.
Pero cada uno, incluye los resultados de aparición conjunta de ambos
eventos (A y B), o sea que la persona sea flaca y alta a la vez. Por éste motivo, el
tercer término resta una vez la probabilidad de la intersección que, de otro modo,
sería sumada dos veces.
Ley de la multiplicación o probabilidad compuesta: Si A y B son dos
hechos cualesquiera, la probabilidad de obtener ambos A y B es el producto de la
probabilidad de un hecho por la probabilidad condicional de obtener el otro una vez
que se ha obtenido el primero.
P(A y B) = P (A) . P(B/A)
El término “probabilidad condicional” significa que nosotros
reconocemos que la probabilidad de A puede depender de sí B se presenta o
no.
Dos hechos son “independientes” cuando, y solo cuando, la probabilidad
de un hecho A, habiéndose dado otro B, es igual a la probabilidad de A no
habiéndose dado B, es decir sí:
P(A/B) = P (A)
y
P(B/A) = P(B)
Podemos decir que A y B son hechos “independientes”. En este caso la
probabilidad compuesta de A y B sería su producto
P(A y B) = P (A) . P (B)
Ejemplo: Supongamos que la probabilidad de que una pequeña fábrica sea
destruida por un incendio en un período de 12 meses es de 0,005, según cálculos
efectuados por un organismo pertinente. Una compañía de seguros ofrece al
propietario de la fábrica una póliza contra incendio por el término de un año
valuando la misma en 80.000 pesos y cobrándole una prima de 500 pesos. ¿Cuál
es la ganancia esperada de la compañía?.
En primer lugar definimos la variable aleatoria y establecemos los distintos
valores que asume.
La variable aleatoria G = ganancia de la compañía,
puede tomar los valores 500 pesos si la fábrica no sufre un accidente de incendio y
– 79.950 pesos si se quema la fábrica durante el año que cubre la póliza. La función
de probabilidad de G es entonces:
Gi
500
-79.950
Total
P(Gi)
0,995
0,005
1,000
Con esta información podemos calcular la ganancia esperada promedio de la
compañía de seguros:
E(G) = 500 . 0,995 + (-79.950). 0.005 = 97,75 pesos
La compañía de seguros espera ganar 97,75 pesos, en promedio, con
operaciones de este tipo.
Distribuciones de probabilidad
Es muy frecuente que a los distintos eventos de un espacio probabilístico, se
les haga corresponder números pertenecientes al conjunto de los números reales.
Así por ejemplo, si lanzamos dos monedas al mismo tiempo y simbolizándola
con xi , definimos la variable como la aparición de cara. El espacio probabilístico
será:
 = c c , c x , x c , x x
A éste conjunto de resultados posibles, los podemos cuantificar asociándoles
un número, de la siguiente manera:
Resultados del experimento
cc
cx
xc
xx
xi
2
1
1
0
Tenemos aquí una variable aleatoria, que la definimos así:
Una variable aleatoria es aquella cuyos valores surgen asignando
números, a los resultados de un experimento aleatorio.
Como los eventos tienen probabilidad asociada, cada uno de los valores de la
variable aleatoria tendrá, indirectamente, asociada la probabilidad del respectivo
evento, surgiendo así la función de probabilidad. En nuestro caso:
xi
0
1
2
--
Probabilidad
¼
2/4
¼
4/4 = 1
Una función de probabilidad es aquella que surge al asignar
probabilidades a cada uno de los valores de una variable aleatoria.
Las probabilidades correspondientes a todos los valores posibles que toma la
variable aleatoria es siempre igual a 1. Esto se debe a que surge de la
cuantificación de todos los resultados posibles de un experimento aleatorio.
Entonces, podemos afirmar que una de las condiciones que debe cumplir una
función de probabilidad es que la suma de todas las probabilidades debe dar uno. A
esto se le denomina condición de cierre.
Generalmente, cuando consideramos una variable aleatoria y su
correspondiente función de probabilidad, la media aritmética de esta variable se
denomina esperanza matemática.
La esperanza matemática de una variable aleatoria discreta, se calcula
como la suma de cada valor que toma la variable multiplicado por su respectiva
probabilidad.
En símbolos: E (x) =  xi p (xi )
La varianza de una variable aleatoria discreta, se define como la suma de los
desvíos de cada valor que toma la variable aleatoria con respecto a la esperanza
matemática, elevados al cuadrado y multiplicados por su respectiva probabilidad.
En símbolos: V(x) =  xi - Ex2 p(xi)
Para las variables continuas hablamos de función de densidad:

 -  f (x) dx = 1
La presencia de la integral, responde a que, gráficamente, cuando la variable
es continua, la suma de todas las probabilidades equivale a calcular un área que es
la que está debajo de la curva
f(x)
-
+
En éste gráfico el área rayada es igual a 1
Con la función de densidad podemos encontrar las probabilidades pero
utilizando siempre integrales, ya que en el campo continuo dichas probabilidades
están representadas por áreas, (superficies).
El área bajo la curva y entre las rectas x = a y x = b, (área sombreada de la
figura siguiente), da la probabilidad de que x se encuentre entre a y b, lo que se
puede representar por: P(a  X  b).
p(X)
a
b
Además la variable aleatoria x tiene asociada una función de densidad de
probabilidad:
Si recordamos el concepto de función, veremos que dando valores a x
podemos obtener los correspondientes valores de f(x) y representar gráficamente
esta función de densidad de probabilidad en un eje de coordenadas cartesianas.
Por ejemplo
Sí x=0
Sí x=1/2
Sí x=1
Sí x=2
f(x)=1/2 .0 = 0
f(x)=1/2. ½ = ¼
f(x)=. 1 = ½
f(x)=1/2. 2 = 1
Resumimos los resultados obtenidos en la siguiente tabla:
X
0
½
1
2
f(x)
0
¼
½
1
Si la función de densidad de probabilidad consistiera en una curva, que es el
caso más frecuente, se debe apelar al procedimiento matemático llamado
integración. Que sirve para calcular áreas o superficies.
Para variables aleatorias continuas también podemos definir y calcular una
función de distribución que acumula probabilidades. La función de distribución será
simbolizada con F(x)
La función de distribución es siempre creciente, o a lo sumo se mantiene
constante.
Para calcular las probabilidades acumuladas, siempre comenzamos a
calcular las correspondientes superficies desde el menor valor que asume la
variable aleatoria, hasta el valor de X sobre el que queremos calcular la
probabilidad.
Ahora bien si deseamos calcular la probabilidad de que X tome valores
entre un valor genérico a y otro b siendo a < b tenemos:
a
b
Esta probabilidad puede calcularse como la diferencia entre la probabilidad
acumulada hasta el valor b y la probabilidad acumulada hasta el valor a.
Si a la probabilidad acumulada hasta el valor a, la denominamos F(a) y a la
acumulada hasta el valor b, F(b). Entonces podemos escribir:
f(x)
F(a)
a
b
F(b)
xi
MODELOS ESPECIALES DE DISTRIBUCIONES DE
PROBABILIDADES
DISTRIBUCIÓN BINOMIAL
Se llama binomial a la población que ha sido clasificada en forma
dicotómica, exhaustiva y mutuamente excluyente. O sea que es una población en
la que solamente existen dos categorías de eventos. Por consiguiente, todos los
eventos que constituyen la población caen dentro de una de las dos categorías y no
existe evento alguno que no caiga dentro de esta clasificación dual.
Por ejemplo, todos los eventos de la población “crías” caen en la categoría
“machos” o en la categoría “hembras” y la población queda agotada con sólo esas
dos categorías. La población de plantines de un vivero podrá clasificarse en
ejemplares “sanos” o “enfermos”; una persona podrá ser, agresiva o no agresiva;
un alumno podrá aprobar o no aprobar un examen, etc.
En éstos casos de hechos discretos, si llamamos p (denominado éxito), a la
probabilidad de que el hecho ocurra, y q, (denominado fracaso), a la posibilidad de
que un hecho no ocurra, entonces la probabilidad de que un hecho ocurra x veces
en n pruebas está dada por la siguiente fórmula, que se llama Distribución
binomial:
P(x) = Cnx p x q n – x
En ésta expresión, naturalmente, p + q = 1, ya que existe completa
certidumbre de que el hecho ocurrirá o no ocurrirá.
En ésta fórmula los parámetros son: n y p
n = al número de veces que se repite el experimento
p = éxito
q = 1 – p (fracaso)
x puede tomar valores de 0 a n
Esta distribución corresponde a n pruebas independientes, por lo tanto su
probabilidad es constante de prueba a prueba.
La probabilidad de que un hecho ocurra (p) y la probabilidad de que no ocurra
(q) pueden ser iguales, en cuyo caso la distribución será simétrica. Por ejemplo: la
probabilidad de acertar o no acertar la respuesta a una pregunta falso-verdadero. La
probabilidad será 0,50 para cada uno de los eventos.
Si las probabilidades no son iguales, la distribución binomial no es simétrica
sino asimétrica. Por ejemplo la probabilidad de una pieza defectuosa (p) es 0,05, la
de una sin defectos (q) es 0,95.
Para éste último ejemplo si quisiéramos hallar la probabilidad de 0, 1 y 2
defectuosas elegidas al azar sobre 2 piezas ( n = 2). Tendríamos que hacer:
2
0,05 0 0,95 2 = 0,9025
P(x = 0) =
0
2
0,051 0,95 1 = 0,0950
P(x = 1) =
1
2
0,052 0,95 0 = 0,0025
P(x = 2) =
2
Naturalmente, la suma de todos los resultados posibles debe ser igual a 1,0.
Una distribución de probabilidades binomial es una distribución teórica que
puede generarse matemáticamente usando el método del desarrollo binomial. Sin
embargo, en la práctica no es necesario efectuar estos cálculos, ya que se dispone
de Tablas para la Distribución Binomial, (que se encuentran en el Anexo).
Para hallar la probabilidad de encontrar 1 defectuosa sobre 2 piezas, (n = 2;
x = 1), es necesario en primer lugar ubicar el valor de n = 2. Después correr un lugar
hacia la derecha donde se encuentran los valores de x y de allí hacia abajo hasta
encontrar el x = 1. Por último moverse horizontalmente por esa fila hasta el número
que corresponda a la columna de p = 0,05. Como se puede observar, es el 0,0950.
Del mismo modo se procede para encontrar los otros valores de x, ya que se
mantienen los valores de los parámetros p y n.
La distribución binomial, como toda distribución, tiene su media aritmética y
su desviación estándar.
La media aritmética de una distribución de probabilidades se llama
esperanza matemática, cuyo símbolo es E(x), es decir el valor esperado para una
variable aleatoria x.
Se obtiene multiplicando el número de eventos n por la probabilidad de
éxito (p), o sea:
E(x) = n. p
El desvío estándar, se calcula de la siguiente manera:
_______
S=n.p.q
DISTRIBUCIÓN DE POISSON
Cuando en una distribución binomial de probabilidades, n es un número
grande y la probabilidad del evento x es cercana a O; de modo que q = 1 – p, se
aproxima a 1, la distribución tiene un enorme sesgamiento.
En éstos casos de utiliza la distribución de Poisson, denominada también
de los “casos raros”. Fue desarrollada por el matemático francés Poisson, en el
siglo XIX. Es por tanto también, una distribución para variable aleatoria discreta.
En la práctica se la utiliza, por ejemplo en el control de cantidad de ciertas
bacterias, en física para contar la cantidad de partículas emitidas por una sustancia
radioactiva, etc.
La ecuación de ésta distribución, es la siguiente:
p(x) = mx e -m
X!
En la que:
p(x) = probabilidad de que ocurra el evento x
m = media de la distribución, o sea: m = np
e = base de los logaritmos naturales
x! = factorial de x
La solución de los casos en que es aplicable la distribución de Poisson, se
facilita con el uso de las tablas, ( ver Anexo), que indican las probabilidades para
distintos valores de x y de m.
La esperanza y la varianza en una distribución de Poisson son:
E(x) = V(x) = n.p
Supongamos que se han realizado anotaciones sobre la cantidad de
imperfecciones por panel de madera que debían repararse antes de fletarlos al
comprador. La distribución de la cantidad de imperfecciones, (como ralladuras,
superficies sin pulir adecuadamente, etc), se aproximaba a la distribución de
Poisson. Es decir, una cantidad apreciable de paneles no tenían imperfecciones,
algunos tenían una falla, muy pocos tenían dos, y así sucesivamente.
La cantidad media de imperfecciones por panel, se calculó en 0,5. Si
buscamos en la tabla, la probabilidad de ninguna imperfección, ubicando en la
primer columna, x = 0 y el la parte superior  = 0,5, tenemos que el valor es:
0,606531, para:
P(X = 1) = 0,303265
P(x = 2) = 0,075816
P(x = 3) = 0,012636
P(x = 4) = 0,001580
Se ha recibido un pedido de compra por 1.000 paneles. El departamento de
costos debe calcular el costo total de reparar los paneles, antes de comenzar la
tarea. La experiencia anterior indicaba que la reparación de cada imperfección costó
10 centavos.
El número de casos esperados, con:
O imperfecciones es: 1.000 .0,606531  606 paneles
1
“
 303 paneles
2
“
 75 paneles
3
“
 12 paneles
4
“

1 panel
El costo será entonces: 606.0 = 0
75 . 20 centavos = 15,00
1.40cemtavos = 0,40
TOTAL: $ 49,30
303 . 10 centavos = 30,30
12 . 30 centavos = 3,60
DISTRIBUCIÓN NORMAL
A partir de ejemplos de la vida cotidiana veremos como a menudo utilizamos
la palabra normal.
Cuando vemos caminar un animal decimos que está realizando un
movimiento normal, hablamos además de peso normal, diámetro normal, conducta
normal, altura normal, etc.
Cuando utilizamos la palabra normal lo que se quiere decir es que a la
mayoría de los seres, en situaciones similares les pasa lo mismo.
Pero, siempre habrá un porcentaje mínimo de acontecimientos que no
suceden de ésta manera, pero que tienen una baja probabilidad de ocurrencia.
Las distribuciones de frecuencia de muchas variables educacionales,
psicológicas, biológicas, etc., se aproximan mucho a un tipo de curva en forma de
campana que se conoce como curva normal. Los errores de medición también
suelen distribuirse de esta manera. Por todo ello, la curva normal se ha empleado
como modelo matemático para explicar los fenómenos que empíricamente
presentan distribuciones en forma de campana.
Una aplicación muy importante de la distribución normal la veremos en el
área del muestreo. Se ha descubierto que, independientemente de la forma de la
población original, la distribución de las medias de las muestras extraídas de esa
población estará distribuida normalmente. La importancia de éste descubrimiento
será evidente cuando hablemos de muestreo.
La ecuación de la curva normal es una compleja expresión matemática, que
define toda esta familia de curvas, en función de la media y de la desviación
estándar. En esta ecuación intervienen también como magnitudes constantes, el
número pi (), que como sabemos representa la relación de la circunferencia al
diámetro, y cuyo valor aproximado es de 3,1416 y el número e, que representa la
base de los llamados logaritmos naturales o neperianos, cuyo valor aproximado es
2,7183.
Esta función de probabilidad es de la forma:
f(x) =
_ 1
2 
e-½(
x -  )2

Aquí aparece como símbolo de la media la letra griega mu () y como
símbolo de la desviación estándar la letra griega minúscula () sigma
Se trata de una distribución de variable continua. Es la más importante dentro
de la estadística, por la gran cantidad de aplicaciones que posee.
La forma gráfica es la de una campana cuyo eje pasa por el valor  de la
variable ( x = ) que es la media o valor esperado de la variable x.

 

  

área = 1
      
         
_________________________
- 


Características de la distribución normal








Tiene forma campanular, y se la llama también campana de Gauss.
Es una distribución para variable aleatoria continua
Es asintótica, es decir no toca el eje de las x
Se distribuye de -  a + 
El área bajo la curva es igual a uno
Es simétrica
Coinciden el valor de la media aritmética, mediana y modo (  = Mº = Med )
    68,26 % de los datos
  2   95,44 % “ “ “
  3   99,73 % “ “ “
Construir una distribución normal aplicando la fórmula sería una tarea
pesada, a causa de la gran cantidad de cálculos necesarios. Para facilitar la
construcción y uso de la distribución normal se ha elaborado una Tabla de áreas
bajo la Curva Normal, (ver Anexo), ésta ha sido estandarizada a fin de hacerla
aplicable a cualquier problema que incluya una distribución normal.
Cuando la distribución normal se expresa con la variable estandarizada, o
sea cuando la media es igual a 0 y la desviación estándar es igual a 1, la curva
normal toma el nombre de Curva Normal estandarizada o tipificada.
Para utilizar la tabla, varios valores deben transformarse en una medida
estándar, denominada valor z, que se halla mediante la fórmula:
Z x - 

Cálculo de probabilidades como áreas bajo la curva normal
En la Tabla de Areas bajo la Curva Normal, que figura en el Anexo, los
valores de z que figuran allí (desviaciones estándar), aparecen expresados con dos
cifras decimales, desde 0,00 hasta 5,00. A partir de 5,00 desviaciones estándar las
áreas bajo la curva normal se vuelven infinitamente pequeñas y, por tanto, sin
ningún valor práctico.
Las áreas que se dan en la tabla y que corresponden a cada valor de z,
deben leerse como probabilidades entre  = 0 y los valores de z que se leen en el
renglón y bajo la columna adecuada.
Por ejemplo, cuando el valor de z es 1,00. Debemos buscar el valor 1 en la
primera columna y luego avanzar horizontalmente hasta encontrar la columna del
00. Como se observa el valor del área es 0,3413. Esto significa que entre el eje
vertical de la curva normal (  ) y z = 1 desviación estándar está comprendida el
34,13% del área total bajo la curva normal.
Así:
P(0  z  2,5) = 0,4938
P(0  z  0,47) = 0,1808
P(0  z  1,53) = 0,4370
Como se puede advertir es muy fácil encontrar el área bajo la curva normal
entre dos valores cualesquiera de z, por medio de la suma o resta de áreas.
Así por ejemplo, si quisiéramos determinar la probabilidad de que z se
encuentre entre 0,75 y 2,75. Evidentemente el área pedida se obtiene restando del
área comprendida entre    y z = 2,75, el área comprendida entre    y z =
0,75. En símbolos:
P (0  z  2,75) - P (0  z  0,75) = 0,4970 – 0,2734 = 0,2236
Para utilizar la distribución normal como una aproximación de la distribución
binomial, las variables aleatorias z se obtendrán por medio de la siguiente fórmula:
Z = x - n.p
______
 n.p.q
Por ejemplo, si estuviéramos buscando la probabilidad de que la variable
rendimiento de un cultivar, o rendimiento de carne, tome valores menores a un valor
determinado, podría indicar la posibilidad de obtener rendimientos que no justifiquen
el costo de la producción.
Por otra parte si buscáramos la probabilidad de que la variable en estudio
tome valores mayores a un valor determinado y la variable aleatoria fuera la
cantidad de semillas de maleza en el suelo antes de la siembra, el encontrar esta
probabilidad podría indicar si se necesitará o no aplicar herbicida.
OTRAS DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES
ALEATORIAS CONTINUAS
LA DISTRIBUCIÓN CHI CUADRADO
Esta distribución está estrechamente relacionada con la distribución normal.
Supongamos que se tiene una población de N individuos y se quiere estudiar
la altura de los mismos.
La variable aleatoria altura es una variable continua que puede considerarse
distribuida de manera muy similar a la distribución normal. Por lo tanto, si
X = altura de personas de una cierta población
Podemos decir que:
X ~ N (µ, σ )
Esto es, X se distribuye normalmente con media µ y desviación estándar σ.
Se decide seleccionar aleatoriamente un número n de individuos de
esta población.
A cada uno de los individuos seleccionados se les medirá la altura y
obtendremos una seie de observacions que simbolizaremos como:
X1, x2,
x3,
…….. xn
Las observaciones muestrales también seguirán distribuyéndose de acuerdo
a una distribución N(µ, σ). Si la muestra es representativa de la población de origen,
es lógico suponer que las observaciones muestrales también son variables
aleatorias con media µ y desviación estándar σ.
Si transformamos estas variables normales (μ,σ) en variables normales
estandarizadas, restando a cada una de ellas la media μ y dividiéndola por la
desviación estándar σ, tendremos:
z1= x1 – μ, z2 = x2 – μ z3 = x3 - μ, ……..zn = xn - μ
σ
σ
σ
σ
Si ahora elevamos al cuadrado cada una de estas variables normales
estandarizadas y las sumamos, obtendremos:
∑ z2i = (x1 – μ)2 + (x2 – μ)2 + (x3 – μ)2 + ……… + (xn – μ)2 =
σ2
σ2
σ2
σ2
n
∑ z2i = ∑ (xi - μ)2
i=1
σ2
Esta suma de zi2 es lo que denominamos variable chi cuadrado y se
simboliza: ‫א‬2.
Una distribución chi cuadrado se define como la suma de n variables
normales estandarizadas elevadas al cuadrado.
Por la propia definición de una variable chi cuadrado, su campo de variación
es de 0 a ∞, ya que al ser una suma de cuadrados nunca puede tomar valores
negativos.
La representación gráfica de esta distribución es como la que se observa en
la siguiente figura, siendo la curva menos asimétrica a medida que aumenta el
tamaño de la muestra.
Como el valor de la ∑ zi2 o de la variable chi cuadrado cambiará de muestra a
muestra, se deduce que ∑ zi2 es una variable aleatoria.
Supongamos que tenemos una población normal con media igual, μ = 50 y
σ2= 100 y se extrae una muestra con los siguientes datos:
X1 = 50;
x2 = 57;
x3 = 42;
x4 = 63 y
x5 = 32
Si se calcula en dicha muestra la ∑ zi2, esta será:
∑ zi2 = (50-50)2 + (57-50)2 + (42-50)2 + (63-50)2 + (32-50)2
100
100
100
100
100
= 0 + 49 + 64 + 169 + 324 = 606 = 6,06
100
100
Si ahora se extrae una segunda muestra cuyo valores son.
X1 = 55;
x2 = 44;
x3 = 37;
x4 = 40 y
x5 = 52
Con estos valores se vuelve a computar ∑ zi2
∑ zi2 = (55-50)2 + (44-50)2 + (37-50)2 + (40-50)2 + (52-50)2
100
= 25 + 36 + 169 + 100 + 4 = 334 = 3,34
100
100
Si se extraen todas las muestras posibles de dicha población normal, cada
una tendrá su propio valor para la ∑ zi2. La distribución de probabilidad de la
variable ∑ zi2 se denomina distribución chi cuadrado ( ‫א‬2).
El valor que toma la variable ∑zi2 no depende solamente de las
observaciones muestrales sino que depende también del tamaño de la muestra: n.
El tamaño de la muestra, que especifica la cantidad de sumandos
independientes que intervienen en la definición de una variable chi cuadrado se
denomina grados de libertad.
En general, si la muestra tiene tamaño n, se dice que se tiene una variable
chi cuadrado con n grados de libertad y se simboliza como:
‫א‬2n
La esperanza matemática de una variable chi cuadrado, es igual a sus
correspondientes grados de libertad.
Si la variable ‫א‬2 surge de sumar n variables normales estandarizadas
elevadas al cuadrado, sus grados de libertan serán n y:
E( ‫א‬2) = n
La varianza de una variable ‫א‬2 es el doble de sus grados de libertad:
V ( ‫א‬2) = 2 n
LA DISTRIBUCIÓN t de STUDENT
Una variable con distribución t de Student se define como el cociente
entre una variable normal estandarizada y la raíz cuadrada positiva de una
variable ‫א‬2 dividida por sus grados de libertad.
zi
T = ------------------ ----------------------_____________________
√ 1 (z21 + z22 + ….. + z2n)
│n
i = 1,2,…, n
Algunas propiedades de la distribución:

La variable t varía de - ∞ a + ∞, exactamente como una distribución normal.

Al igual que en el caso de una distribución normal estandarizada, la
distribución t de Student es simétrica con respecto al 0.

Una distribución t de Student presenta una mayor dispersión que la
distribución normal por lo cual la correspondiente representación gráfica tiene
la forma de una campana mas achatada. A medida que aumentan los grados
de libertad, o sea el tamaño de la muestra, la distribución t de Student se va
aproximando a la distribución normal.
INFERENCIA ESTADÍSTICA
El procedimiento que generalmente se sigue en cualquier investigación
consiste en obtener resultados a partir de una muestra y luego generalizarlos a la
población objetivo.
Una población cualquiera queda perfectamente especificada por ciertas
medidas denominadas parámetros poblacionales.
Por ejemplo si el ingreso promedio de un peón de campo de la provincia de
Formosa se calcula teniendo en cuenta a todos los peones de campo de la
provincia, este ingreso promedio es un parámetro.
Es evidente que los parámetros poblacionales son generalmente imposibles
de calcular. En la práctica, casi siempre se trabaja con muestras de las que
obtenemos los estadísticos muestrales.
Si se toma una muestra de 100 peones de campo de la provincia de
Formosa, y se les pregunta el ingreso y, en base a ésta información recogida se
calcula un ingreso promedio, este promedio es un estadístico muestral.
Uno de los objetivos principales del análisis estadístico consiste en utilizar
estadísticos (como el promedio de la muestra, la desviación estándar de la muestra
y la proporción de la muestra) que se obtienen con los datos de la muestra para
estimar su verdadero valor en la población, a esto se denomina inferencia
estadística.
Como los estadísticos son variables aleatorias tienen una distribución
asociada, por lo tanto necesitamos conocer y comprender la naturaleza aleatoria de
los estadísticos muestrales, estudiar las propiedades estadísticas de la media y
varianza muestrales y adquirir destrezas en el cálculo de probabilidades asociadas
a estos estadísticos.
Cuando se estudian las propiedades de los estadísticos muestrales se hace
desde un punto de vista teórico, suponiendo poblaciones de tamaño infinito. Si se
quieren observar estas propiedades a través de simulación, partiendo de
poblaciones finitas, entonces se recurre a la técnica de muestreo con reposición,
porque de esa forma se emula una población de tamaño infinito.
DISTRIBUCIONES EN EL MUESTREO
Supongamos que tenemos una población de 4 observaciones con valores:
1.-) 40
2.) 60
3.) 80
4.) 100
la media, μ = 70
Si de esta población con N = 4, queremos sacar muestras, con reemplazo
de tamaño 2, (n =2), hay 16 posibles muestras que se podrían seleccionar
(Nn=42=16), con los siguientes posibles resultados:
Nº de
muestras
Muestra
Valor de la muestra
1
1y1
40, 40
2
1y2
40, 60
3
1y3
40, 80
4
1y4
40 y 100
5
2y1
60 y 40
6
2y2
60 y 60
7
2y3
60 y 80
_
Media de la muestra xi
_
x1 = 40
_
x2 = 50
_
x3 = 60
_
x4 = 70
_
x5 = 50
_
x6 = 60
_
x7 = 70
8
2y4
60 y 100
9
3y1
80 y 40
10
3y2
80 y 60
11
3y3
80 y 80
12
3y4
80 y 100
13
4y1
100 y 40
14
4y2
100 y 60
15
4y3
100 y 80
16
4y4
100 y 100
_
x8 = 80
_
x9 = 60
_
x10 = 70
_
x11 = 80
_
x12 = 90
_
x13 = 70
_
x14 = 80
_
x15 = 90
_
x16 = 100
____________
μx = 70 = μ
Consideremos ahora la tabla de frecuencias para la variable aleatoria media
muestral y observemos que la densidad no es homogénea y que el valor mas
probable es 70 que corresponde a la esperanza de la distribución original.
Variable aleatoria
40
50
60
70
80
90
100
_
P(X = x)
1.1/16
2.1/16
3.1/16
4.1/16
3.1/16
2.1/16
1.1/16
La esperanza de la distribución de las medias muestrales es igual a la
esperanza de la distribución de la variable aleatoria original
μ = 70 = μx
La varianza de la distribución de las medias es igual a la varianza de la
distribución de la variable estudiada, dividida por el tamaño muestral usado, (en este
caso n = 2).
σ2x =
σ2 = 0,625
n
Por otra parte, si el muestreo se hace sin reemplazo, tendremos:
Combinaciones de 4 elementos tomados de a 2; C42 = 6, que serian:
1 y 2, con media igual a 50
1 y 3, con media igual a 60
1 y 4, con media igual a 70
2 y 3, con media igual a 70
2 y 4, con media igual a 80
3 y 4, con media igual a 90
Tenemos así una población de medias muestrales, cuya media de las medias
es también igual a 70. El conocimiento de las probabilidades de todas las medias
posibles de muestras, conforma un modelo que se denomina distribución muestral.
Xi
50
60
70
80
90
Pi
0,166 = 1/6
0,166 = 1/6
0, 333 = 2/6
0,166 = 1/6
0,166 = 1/6
__________
1,000
Cuando el N de la población es grande, (igual a 100), y n mayor a 30, la
distribución muestral se acerca mucho a la normal, y cada vez más, a medida que N
y n aumentan.
DISTRIBUCIÓN DEL MUESTREO DE MEDIAS

Para muestreo con reposición, de población infinita.
μx

=
μ
y
σx = σ
√n
Para mustreo sin reposición, de población finita de tamaño N mayor a n:
_____
μx = μ
y
σx = σ √ N – n
√n N – 1
ERROR ESTÁNDAR DE LA MEDIA
Es una medida de variabilidad entre muestra y muestra.
Es la desviación estándar de la media muestral
Cuando la muestra se realiza con reemplazo:
σx = σ
√n
Mayor tamaño de la muestra, menor desvío estándar
Un establecimiento ganadero tiene 5.000 animales. Los litros de leche obtenidos
tienen una distribución normal con μ = 25.000 y σ = 5.000.
_
Si se seleccionan 100 animales y se calcula el x de leche. Qué se espera?

Determinar la probabilidad de que la muestra de 100 animales tenga media
24.000 y 25.000
_
Z=x -μ
σ
En el muestreo:
_
Z=x - μ
σ
√n
Z = 24.000 - 25.000 = - 2,0
5.000
√100
P (24.000 ≤ z ≤ 25.000 = 0,4772 = 47,72 %
El 47,74 % de todas las muestras posibles, tendrán un promedio entre 24.000 y
25.000.

Determinar el porcentaje de animales con promedio entre 24.000 y 25.000
_
Z = x - μ = - 0,20
σ
P (24.000 ≤ z ≤ 25.000) = 0,0793 = 7,93 %
 Determinar el intervalo que contiene al 95 % de las muestras
_
Z=x–μ
σ
√n
_
X=μ+zσ
√n
_
X = 25.000 + (1,96) 5.000 = 25.980
√ 100
_
X=μ–z σ
√n
_
X = 25.000 – (1,96) 5.000 = 24.020
√100
El 95 % de todas las medias muestrales de tamaño 100 estarían
comprendidas en el intervalo 24.020 – 25.980
DISTRIBUCIÓN
MUESTRAL
RELACIONADA
CON
LA
VARIANZA
Consideremos todas las muestras posibles de n = 2, con reposición, de la
población de cuatro plantas y su número de frutos.
Ahora calculamos la varianza muestral para cada una de ellas.
DISTRIBUCIÓN DEL MUESTREO DE PROPORCIONES
Supongamos que una población es infinita y que la probabilidad de
ocurrencia de un seceso (su éxito) es p, mientras la probabilidad de no
ocurrencia es q = 1 – p. Por ejemplo la población de plantas, en que la
probabilidad del evento “con fruto” es p = ½.
Consideremos todas las muestras posibles de tamaño n de tal población y
para cada una de ellas la proporción de éxitos: p
Obtendremos una distribución del muestreo de proporciones cuya media
μp y cuya desviación estándar σp vienen dadas por:
μp = p
y
_____
________
σp = √ pq/n = √p(1 – p)/n
Para poblaciones grandes la distribución del muestreo está, muy
aproximadamente, normalmente distribuida. Observen que la población está
binomialmente distribuida.
Estas ecuaciones son válidas también para una población finita en la que se
hace muestreo con reposición. Para poblaciones finitas en que se haga
muestreo sin reposición, las ecuaciones son las siguientes:
μ= p
y
___
σ = √ pq
POBLACIONES NO NORMALES
Teorema Central del Límite
Dice que si se sacan repetidamente muestras de tamaño n de una población
normal con media igual a  y variancia a 2, la distribución muestral de las medias
de la muestra será normal con una media igual a  y una variancia 2
n
También podemos enunciar éste teorema de la siguiente manera:
“si se extraen al azar una gran cantidad de muestras de cualquier población
(ya sea normal o asimétrica), las medias de éstas muestras se aproximarán a
una distribución normal de probabilidades. La media de éstas medias
muestrales se aproximará a la media de la población ()
En la realidad no es factible tomar miles de muestras sólo para calcular la
media de la población. El costo y las limitaciones de tiempo obligan por lo general al
investigador a circunscribirse a tomar una muestra de la población.
Sobre la base de esta muestra, él podrá hacer una estimación puntual y dar
los límites de confianza para la media de la población.
Los límites de confianza de la media se fundan en una medida de la
tendencia central y en una medida de dispersión. Ésta última se conoce como el
error estándar de la media.
Por lo tanto, la desviación estándar, que en este caso se llama error estándar
es:
x  p
n
TEORÍA DE LA ESTIMACIÓN
PROCEDIMIENTOS DE ESTIMACIÓN
Los procedimientos de estimación se pueden dividir básicamente en dos
tipos:


Estimación puntual
Estimación por intervalos
Estimación puntual:
La estimación puntual es un proceso mediante el cual se estima un
parámetro en un punto, dando un valor específico como estimación.
Estimación por intervalos:
La estimación por intervalos es un procedimiento mediante el cual se puede
afirmar, con una determinada probabilidad, que el intervalo (a, b) encierra el
verdadero valor del parámetro.
Para realizar una estimación por intervalos se hace la siguiente afirmación:
P (a ≤ ө ≤ b) = 1 – α
Donde a y b son variables aleatorias que dependen de cierto estimador
puntual. El intervalo a, b se llama intervalo de confianza; b – a es una medida de
precisión de la estimación y 1 – α es una medida de confianza con la que
contamos paras efectuar la estimación.
ESTIMACIÓN DEL PARÁMETRO MEDIA POBLACIONAL μ
Estimación puntual
_
La media de la muestra x es una estimación puntual de la media μ de la
población.
Estimación por intervalos
_
Dada una muestra en particular donde se ha calculado x , se puede definir un
intervalo alrededor del estadístico media muestral y establecer una cierta
probabilidad de que μ esté comprendido en dicho intervalo.
El parámetro es un valor constante, desconocido, pero fijo en algún lugar de
la distribución de probabilidad poblacional correspondiente a la variable que se está
estudiando.
En la estimación por intervalos lo que cambian son los extremos del intervalo,
pues su construcción depende de una variable aleatoria, (la media muestral) que
cambia de valor en función de los elementos que fueron seleccionados en la
muestra.
El parámetro es una cantidad desconocida pero fija, el intervalo es aleatorio.
El coeficiente de confianza es un valor fijado por el investigador antes de
comenzar la estimación. Si decide trabajar con una confianza del 95 % para
efectuar la estimación, esto quiere decir que:
“Sobre 100 muestras aleatorias de un cierto tamaño n de una población, si en cada
_
una se calcula la media muestral x y, a partir de ella se construyen 100 intervalos
de confianza para el parámetro que se desea estimar, 95 contendrán el verdadero
valor del parámetro poblacional, mientras que 5 no lo abarcarán”.
Una vez fijado el coeficiente 1 – α, por ejemplo igual a 0,95, podemos buscar
en la tabla de probabilidades correspondientes a la distribución normal los valores
de z1 y z2, que definen un intervalo simjétrico de probabilidad igual a 0,95 alrededor
de μ = 0.
Z2 es un valor de la variable normal estandarizada que acumula una
probabilidad igual a 0,975 y z1 es un valor de la misma variable que acumula una
probabilidad de 0,025.
Si buscamos en la tabla de probabilidades, vemos que
z1 = - 1,96 y
z2 = 1,96, entonces podemos escribir:
_
P (-1,96 ≤ (x - μ) ≤ 1,96) = 0,95
σ ∕ √n
Como estamos tratando de estimar el parámetro μ, despejamos de modo que
quede en el centro del intervalo solo este parámetro.
Obviando los pasos algebraicos previos, tendremos:
_
_
P (x – 1,96 σ ≤ μ ≤ x + 1,96 σ ) = 0,95
√n
√n
Este es el intervalo de confianza para el parámetro μ, cuando trabajamos con
una confianza del 95%.
Si el tamaño de la muestra es suficientemente grande, no hay problema en
seguir utilizando la distribución de probabilidad normal para medir la confianza de la
estimación.
En cambio, si la muestra es chica y no se puede por razones de costo o de
tiempo u otras, aumentar su tamaño, para calcular la confianza de la estimación
utilizaremos la distribución de probabilidad correspondiente a la variable t de
Student.
Intervalos de confianza para las medias de muestras grandes
En la mayoría de las situaciones reales los parámetros, media y desviación
estándar, no se conocen y tenemos que hacer la inferencia para los valores de la
población a partir únicamente de los datos de la muestra.
Para poder estimar la media de la población debemos especificar un intervalo
dentro del cual podamos afirmar, con cierto grado de confianza conocido, que está
la media de la población.
Supongamos que para una muestra de n = 100 casos la media sea de 20.
Como no tenemos la desviación estándar de la población, usamos para estimar, el
error estándar de la distribución muestral. La s de la muestra que es s = 5.
Tenemos
Ahora tenemos todos los datos:  = 20
N = 100
S=5
x = 0,5
Podemos establecer un intervalo de confianza que sea 95% y establecer los
límites de confianza entre los cuales colocamos a la media de la población dado que
sabemos que la distribución muestral de medias es normal. Gráficamente vemos
que se el intervalo es 95%, quedan fuera de ese limite el 2,5 superior y el 2,5
inferior.
Buscamos en la tabla de las áreas 0,500 – 0,025 = 0,475; a este valor
corresponde un z = 1,96.
Podemos ver que la media de la población con una certeza del 95%, estará
entre los límites de la media muestral más o menos z por la variancia de la muestra,
o sea:
 =   1,96
s
n
 =   1,96 . 0,5
 = 20  0,98
O sea que la media estará entre 19,01 y 20,98
Si queremos fijar límites más exactos, por ejemplo el 99%, buscamos en la
tabla 0,500 – 0,005 = 0,495 tenemos una z de 2.58 y la media estará entre:
20 + 1,29 o sea, entre 18,71 y 21,29
Estos valores de z se usan convencionalmente siempre que sea una muestra
grande o sea con un n  30
Estimaciones no sesgadas: se dice que un estadístico muestral no es
sesgado cuando la media de una gran cantidad de valores muestrales obtenidos por
muestreo repetido, se acerca al valor de la población o sea al parámetro.
La media de la muestra es uno de ellos, sin embargo la variancia es sesgada.
Cuando el número de casos de la muestra es chico hay que corregir ese sesgo,
dividiendo por n-1.
Grados de libertad: si n es el tamaño de la muestra, n – 1, es el número de
grados de libertad, es decir la cantidad, de valores de la variable que tenemos
libertad para cambiar.
Por ejemplo, si tenemos 3 valores: 5, 6 y 7. Su media aritmética es 6, los
desvíos de estos valores con respecto a la media son: - 1; 0 y 1. En consecuencia si
se conocen dos cualesquiera de éstos desvíos, el desvío restante está determinado.
O sea que dos desvíos pueden variar independientemente, por ello su grado de
libertad es tan solo 2, (n – 1 = 2)
Distribución de la media de la población para muestras pequeñas
Distribución de la t de Student
Cuando la muestra es pequeña, se utiliza un múltiplo t en vez de z. El
concepto de múltiplo t fue ideado por un estadístico irlandés que escribía con el
seudónimo de “Student”.
El ideó una serie de múltiplos t para cada tamaño de muestra. Esta
distribución se conoce como distribuciones t de Student.
Es una distribución más aplanada que la distribución normal, mas platicúrtica,
y esto depende del tamaño de la muestra; si n es muy pequeña la distribución de t
será muy chata. Como dijimos anteriormente, hay una distribución de t para cada
tamaño de muestra.
Se usa igual que la distribución normal.
ESTIMACIÓN DEL PARÁMETRO POBLACIONAL σ2
Existen situaciones prácticas, generalmente ligadas a la investigación
industrial, en las que interesa estimar el parámetro variancia poblacional.
Por ejemplo si se desea comprar una máquina para empaquetar semillas, se
requiere que la misma mida con la mayor precisión posible.

Estimación puntual
El estimador lógico de σ2 es S2, pero este no es un estimador insesgado.
Para obtener un estimador insesgado de σ2 tenemos que dividir la suma de
los desvios por n – 1 en lugar de n.

Estimación por intervalos
El estadístico es el siguiente:
(n – 1) S2
σ2
~ ‫א‬n-1
El intervalo de confianza para estimar σ2 es el siguiente:
ESTIMACIÓN DEL PARÁMETRO PROPORCIÓN POBLACIONAL p

Estimación puntual
El mejor estimador puntual de P será, intuitivamente, la proporción muestral
p. Esta proporción se obtiene:
p =x
n
Donde la cantidad x significa el número total de éxitos en n pruebas
binomiales y n el total de pruebas.
La proporción muestral p es un estimador insesgado de P y posee varianza
mínima cuando se lo compara con otros estimadores.

Estimación por intervalos
_
De acuerdo al teorema central del límite x tiene distribución aproximadamente
normal cuando n es grande. Como n es una constante se puede pensar que p es
también aproximadamente normal cuando n es grande, y esto es realmente así.
Dado que x es una variable aleatoria, tenemos:
E(x) = nP
V(x) = nPQ
Y como
p =x
n
Cuando n es suficientemente grande podemos decir que p se
distribuye normalmente con media P y varianza PQ
_____
P ~ N (P, √PQ ) )
n
Podemos estandarizar:
Z = (p – P) ~ N(0,1)
_____
√PQ )
n
Haciendo los reemplazos y despejando tenemos:
_____
_____
P (p – Z1 - α∕2 √ p(1-p) ≤ P ≤ p - Zα∕2 √ p(1-p ) = 1 – α
І n
І
n
Ejemplo:
Una empresa dedicada al sondeo de opinión pública realiza una encuesta
para averiguar la intención de voto hacia un candidato A, en una elección futura.
Para ello toma una muestra al azar de 100 posibles votantes, de los cuales
59 opinan que se inclinan por el candidato A.
Para estimar la proporción de simpatizantes del candidato A en la población,
la empresa decide construir un intervalo estableciendo un coeficiente de confianza
del 95 %.
Los datos son:
p = 59 = 0,59
100
q = 0,41
n = 100
De acuerdo al coeficiente de confianza establecido:
Zα∕2 = - 1,96
Z1- α∕2 = 1,96
_________
________
P (0,59 – 1,96. √ 0,59. 0,41 ≤ P ≤ 0,59 + 1,96. √0,59. 0,41 ) = 0,95
100
100
P ( 0,49 ≤ P ≤ 0,69 ) = 0,95
De acuerdo al resultado obtenido, la empresa puede asegurar que la
proporción de simpatizantes del candidato A en la población será un valor
comprendido entre el 49 % y el 69 % con una confianza del 95 %.
DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA LA MEDIA
La determinación del tamaño adecuado de la muestra es un procedimiento
complicado, sujeto a restricciones de presupuesto, tiempo y facilidad de selección.
El investigador por anticipado deberá decir la cantidad de error que estaría
dispuesto a aceptar al estimar el promedio. También tendría que determinar
anticipadamente la seguridad, (confianza), con la que desea trabajar para la
estimación correcta del parámetro poblacional.
Al determinar el tamaño de la muestra para estimar la media, se deben tener
presentes estos requisitos junto con la información relacionada con la desviación
estándar.
Si se conoce σ, la estimación del intervalo de confianza para la media de la
población se obtiene con la ecuación:
X±Z σ
√n
Sabemos que:
_
_
Z=x–μ
por lo tanto: x - μ = Z σ
σx
√n
_
La diferencia entre el estadístico x y el parámetro poblacional μ que se va
estimar, es el error muestral, simbolizado con la letra e. Por lo tanto e, se puede
definir como:
e=Z σ
√n
Al resolver esta ecuación para n, se tiene:
n = Z2 σ2
e2
Por tanto, para determinar el tamaño de la muestra, se deben conocer tres
factores:



El nivel de confianza deseado Z
El error muestral permitido e
La desviación estándar, σ
Por ejemplo si se quiere estimar el ingreso promedio de la población con
aproximación ± $5 del valor real y querría tener un 95 % de confianza en la
estimación correcta de la media real y de acuerdo a estudios realizados el año
anterior, se estima la desviación estándar en $21. Con esta información se puede
determinar el tamaño de la muestra, de la siguiente manera:
n = Z2 σ2 = (1,96)2 (21)2 = 67,8
e2
25
por lo tanto, n = 68
La regla empírica a utilizar para determinar el tamaño de la muestra es
siempre redondear al siguiente entero a fin de sobresatisfacer ligeramente los
criterios deseados.
DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA UNA PROPORCIÓN
Los métodos para determinar el tamaño de la muestra que se utiliza en la
determinación de una proporción real son similares a los empleados en la
estimación de la media.
La estimación del intervalo de confianza en una proporción real p, se obtiene
con:
__________
p ± Z √ ps (1 – ps)
|
n
Z = ps – p
√p q
│ n
por lo tanto:
n = Z2 p q
e2
En la determinación del tamaño de la muestra para estimar una proporción,
se necesitan tres factores:



El nivel de confianza deseado Z
El error muestral permitido e
La proporción real de éxito estimada, p
La proporción real, (verdadera), de éxito en la población p, es la cantidad que
se querría estimar al tomar la muestra. Hay dos caminos disponibles para esto:
-
si la proporción real de éxito se puede estimar en base a los datos o
experiencias pasadas, esta estimación se puede utilizar para.
si no hay datos, se debe ser lo mas conservador posible, al estimar p,
usando el valor de p que hace a la cantidad pq, lo mas grande posible.
Por tanto cuando no se tiene conocimiento o estimación previos de la
proporción p verdadera, se debería usar p = 0,5, como el medio mas
conservador para estimar el tamaño de la muestra.
ESTIMACIÓN Y DETERMINACIÓN DEL TAMAÑO DE MUESTRA PARA
POBLACIONES FINITAS
Cuando se muestrea sin reemplazo en poblaciones finitas, el factor de
corrección de esa población finita, sirve para reducir el error estándar, por un factor
(N – n) / (N – 1).
Al estimar parámetros de una población finita se debe utilizar para el
desarrollo de estimaciones del intervalo de confianza.
Así pues, la estimación del intervalo de confianza para la media se
convertiría:
_
_____
X ± tn-1 S √N – n
√n │N – 1
Y
_____ _____
ps ± Z √ ps q √ N – n
│ n
│N – 1
Al estimar proporciones el error muestral seria:
____ _____
e = Z √ pq √ N – n
│ n │N – 1
Mientras que al estimar medias, el error muestral sería:
_____
e =Zσ√N–n
√n │N – 1
Entonces, el tamaño necesario de la muestra se puede determinar con un
procedimiento en dos etapas, primero se determinaría el tamaño de la muestra
como lo vimos inicialmente, sin tener en cuenta el factor de corrección, (le llamamos
no), y luego le aplicamos el factor de corrección:
n o = Z2 σ 2
e2
n = __no______
no + N – 1
n
FORMULACIÓN Y PRUEBA DE HIPÓTESIS ESTADÍSTICA
INTRODUCCIÓN:
El hombre reconoce cotidianamente situaciones que lo afectan, como la
pérdida de cosechas, enfermedades, las contingencias climáticas, etc. Tomar
acciones para evitar o prevenir estos problemas requiere comprender como
funciona el sistema que los origina. En el proceso de comprensión existe un proceso
de idealización que se llama técnicamente modelación, que tiene por objeto
identificar los elementos que son relevantes y plantear sus relaciones.
Si el sistema es correcto en el sentido que representa bien el sistema bajo
estudio, se tendrá una herramienta valiosa para planificar acciones en el mundo
real.
Para que un modelo sea incorporado al patrimonio de la ciencia tiene antes
que ser validado, es decir mostrar que las predicciones que se deducen de él son
aceptables.
Lo usual es realizar un experimento y observar el comportamiento del
sistema y comparar los resultados obtenidos en estos estudios con los que se
deducen del modelo. Si no hay diferencias significativas entre lo observado y lo
esperado, entonces se dirá que el modelo es correcto para esa situación (o desde
un punto de vista mas estricto: que el modelo es “provisoriamente” aceptable).
El problema es definir que se entiende por diferencia significativa. No es
simple establecer un criterio para decir si las discrepancias entre lo que se observa
y lo que se espera es grande o pequeña.
La idea es entonces: dado un modelo no validado, que se llama hipótesis
científica, se debe seguir algún procedimiento para deducir alguna consecuencia
cuya verificación o no, sirva para establecer la veracidad de la hipótesis científica. Si
la o las consecuencias de la hipótesis científica se pueden visualizar como
propiedades estadísticas de una variable aleatoria, será factible utilizar
herramientas estadísticas para tomar una decisión sobre la veracidad del modelo.
Para ello se debe expresar la hipótesis científica como una hipótesis estadística.
Estas hipótesis consisten en una afirmación sobre uno o más parámetros de la
distribución de la variable aleatoria en cuestión. Por ejemplo indicando que la
esperanza de la distribución μ = 300 kg
Conceptualmente la prueba estadística o prueba de hipótesis es sencilla: se
examina un conjunto de datos muestrales y a partir de ellos se calcula un
estadístico cuya distribución depende de la hipótesis planteada. Sobre la base de la
distribución especificada para el estadístico y de su valor observado en la muestra,
se decide el rechazo o no de la hipótesis estadística.
Por ejemplo supongamos que establecemos la siguiente hipótesis y su
correspondiente deducción con respecto a un aula de la Facultad, que está con las
puertas cerradas:


A: el aula está vacía (hipótesis)
B: no se ve a nadie (deducción)
Si miramos por el ojo de la cerradura y vemos a un alumno sentado en el banco,
podemos sentirnos seguros al decir que la hipótesis es falsa.
Deducción no se cumple --------------→ hipótesis falsa
_
_
B -----------------------→ A
Si miramos por el ojo de la cerradura y no vemos a nadie en el aula, decir
que la hipótesis es verdadera es incorrecto.
Deducción se cumple ------------------→ aceptar la hipótesis es una afirmación
Incorrecta
B -----------------------→ A es una afirmación incierta
El hecho de mirar por el ojo de la cerradura equivale a mirar solo una parte
del aula. Podemos asimilar esta situación con la inferencia estadística por cuanto
debemos tomar una decisión en base a una información limitada, (muestra),
respecto a la totalidad del aula, (población).
Si la evidencia de la muestra lleva a la decisión de rechazar la hipótesis
planteada estaremos mucho mas seguros de nuestra determinación que cuando no
existan evidencias para su rechazo.
HIPÓTESIS NULA Y ALTERNATIVA
La hipótesis estadística es un supuesto que se establece sobre las
características de una distribución poblacional.
La hipótesis nula, (Ho), es un supuesto acerca de uno o más parámetros
de la población que debe ser rechazado o no en base a la evidencia muestral.
Se denomina nula en el sentido que supone que no existe diferencia real
entre el verdadero valor del parámetro de la población de la que hemos obtenido la
muestra y el valor hipotetizado.
Ahora bien, si la evidencia presentada no es contundente, se decidirá no
rechazo de la hipótesis nula. En caso contrario, se rechaza la hipótesis nula.
Si la hipótesis nula es falsa, deberá existir otra hipótesis que sea verdadera.
Esta hipótesis recibe el nombre de hipótesis alternativa.
A la hipótesis alternativa la simbolizaremos: H1.
PASOS DE LA PRUEBA DE HIPÓTESIS
1.
2.
3.
4.
5.
Expresar la hipótesis nula
expresar la hipótesis alternativa.
especificar el nivel de significación, α
determinar el tamaño de la muestra, n
establecer los eventos que conducen al rechazo o no rechazo de la hipótesis
nula mediante la definición de regiones de rechazo y no rechazo
6. realizar el muestreo “ad hoc”, según la planificación realizada previamente,
para obtener las observaciones con las que se realizará la prueba.
7. finalmente calcular el valor del estadístico postulado y determinar si está
dentro o fuera de la región de rechazo. En el primer caso se dice que se
rechaza Ho y en el segundo que no.
Ejemplo:
Se desea probar si una nueva variedad de cierto cultivo logrado por un
proceso de mejoramiento genético supera la base de 20qq/ha
De acuerdo a los pasos enunciados precedentemente se tiene:

planteo de la hipótesis estadística
Ho: μ = μo (20 qq/ha)
H1: μ > μo (20 qq/ha)


para probar la hipótesis se planifica una experiencia consistente en repetir el
cultivo de la nueva variedad en 30 parcelas de ¼ de hectárea cada una, y
registrar sus rendimientos a cosecha
elección del estadístico para la prueba e identificación de su función,(le
llamaremos T.
_
se tomará T(x1, ….,xn) = (x - μo)
√ s2
│n
Este estadístico, cuando μ = μo bajo el supuesto de normalidad para la
variable en estudio, se distribuye como una t(n-1).

Se fija el nivel de significación α, por ejemplo, en 0,05.

Para el establecimiento de las zonas de aceptación y de rechazo, es
necesario establecer el punto crítico (PC). El PC para T es el cuantil 0,95 de
la distribución t con (n-1) grados de libertad y se denota como t(n-1);0,95.
Si de acuerdo a la planificación hay 30 repeticiones, en la tabla t de Student se
obtiene PC = 1,699, por lo tanto la zona de aceptación de Ho (ZA) y la de
rechazo de la Ho (ZR), serán:
ZA = ( - ∞, 1,699) y ZR = (1,699, ∞)

De acuerdo a la planificación, al cabo de la cosecha se obtienen los
siguientes resultados:
_
X = 25 qq/ha

y
s = 4 qq/ha.
Se calcula T y se observa a cuál de los intervalos definidos anteriormente
pertenece. En función de ello se acepta o no la hipótesis, así:
T = 25 - 20 = 6,847
4__
√10
Como T є ZR se concluye que se rechaza la hipótesis nula, por lo tanto la
nueva variedad supera en promedio el rendimiento de 20 qq/ha.
PRUEBA DE HIPÓTESIS PARA UNA PROPORCIÓN
Ejemplo:
El Instituto Pasteur de París y un Laboratorio desarrollaron una vacuna contra
el SIDA. Luego de que los resultados en chimpancés resultaron positivos comenzó
a probarse en seres humanos. Cincuenta voluntarios, hombres y mujeres de 18 a 55
años seleccionados minuciosamente entre mas de 600 candidatos debían ser todos
sero-negativos, y con un alto riesgo de contraer la enfermedad.
Previamente, en los chimpancés inoculados con la vacuna, se obtuvo una
respuesta favorable en un 75% de los casos. Por ello se decidió que la vacuna
podía ser considerada efectiva en seres humanos cuando ella prevenga de la
enfermedad a más del 80 % de los pacientes tratados.
La hipótesis nula, deberá expresarse:
Ho) P ≤ 0,80
donde P es la proporción poblacional
Los 50 voluntarios de la muestra serán inoculados con la vacuna y se les
efectuará un seguimiento de un año luego de lo cual se obtendrán las primeras
conclusiones.
Evidentemente:
H1 > 0,80
El estadístico para efectuar el test T será la proporción muestral p de
personas que quedaron inmunizadas por su acción y las reglas de decisión
determinarán en cuál de las dos regiones se posiciona el valor muestral.
Debemos recordar nuevamente que se está decidiendo algo con respecto al
parámetro poblacional p a partir de la información proporcionada por una muestra.
En realidad, estamos mirando por el ojo de la cerradura y, en consecuencia, el
investigador podrás cometer dos tipos de errores.
Por una parte, podría rechazar la hipótesis nula diciendo que la vacuna es
efectiva cuando en realidad no lo es. Esto muy peligroso en cuanto a la salud de los
pacientes.
Otro error que puede cometer consiste en no rechazar la hipótesis cuando en
realidad es falsa. Estaría diciendo que la vacuna no es efectiva cuando en realidad
lo es.
Se pueden cometer dos tipos de errores: de tipo I y error de tipo II
El error de tipo I es aquel que se comete al rechazar una hipótesis nula
cuando ella es verdadera
La probabilidad de cometer un error de tipo I se simboliza con α, conocida
como p o nivel de significación de un test.
El error de tipo II es aquel que se comete al no rechazar una hipótesis
nula cuando en realidad es falsa
La probabilidad de cometer un error de tipo II se simboliza con ß
Cuando tratamos de reducir la probabilidad de cometer el error Tipo I (α),
aumenta la probabilidad de cometer el error de Tipo II (ß). La única manera que
tiene el investigador de disminuir ambos tipos de errores a la vez consiste en
aumentar el tamaño de la muestra (n).
PRUEBA DE HIPÓTESIS REFERIDA AL PARÁMETRO POBLACIONAL σ2
Un ingeniero asegura que las máquinas enfardadoras que produce, enfardan
con muy poca variabilidad en el peso de los fardos. Dice que la misma es σ2 = 0,2.
Un cliente, quien debe hacer una fuerte inversión, decide poner a prueba la
hipótesis del fabricante, estableciendo las siguientes hipótesis:
Ho ) σ2 ≤ 0,2
H1 ) σ2 > 0,2
Para probar esta hipótesis, selecciona una muestra de 15 días donde registra
el peso. El cálculo de la varianza en su muestra dio S2 = 0,4.
El estadístico utilizado es el siguiente:
(n-1) S2 ~ ‫א‬2 (n-1)
σ2
Se distribuye como chi cuadrado con n-1 grados de libertad.
De acuerdo a la hipótesis estadística establecida, la regla de decisión a
seguir será:
Rechazar Ho si:
‫א‬2 = (n – 1) S2 > ‫א‬2 (n-1) 1-α
σ2o
Si fijamos α = 0,05 el valor ‫א‬20,95; 14 = 23,7
Calculamos ahora el valor del estadístico planeado para efectuar el test:
(n – 1) S2 = 14 . 0,4 = 28
σ2o
0,2
Como podemos observar en el gráfico correspondiente, el estadístico
utilizado como criterio para realizar el test, cae en la zona de rechazo de la hipótesis
nula.
La evidencia muestral parece indicar que el ingeniero estaba equivocado y
que en realidad la enfardadora realiza el trabajo con bastante mas variabilidad de la
que él cree.
ANEXO
I
Tablas Estadísticas
Tabla 1. Áreas bajo la curva de Gauss tipificada entre 0 y z
0.00
0.0 0.0000
0.1 0.0398
0.2 0.0793
0.3 0.1179
0.4 0.1554
0.5 0.1915
0.6 0.2257
0.7 0.2580
0.8 0.2881
0.9 0.3159
1.0 0.3413
1.1 0.3643
1.2 0.3849
1.3 0.4032
1.4 0.4192
1.5 0.4332
1.6 0.4452
1.7 0.4554
1.8 0.4641
1.9 0.4713
2.0 0.4772
2.1 0.4821
2.2 0.4861
2.3 0.4893
2.4 0.4918
2.5 0.4938
2.6 0.4953
2.7 0.4965
2.8 0.4974
2.9 0.4981
3.0 0.4987
0.01
0.0040
0.0438
0.0832
0.1217
0.1591
0.1950
0.2291
0.2611
0.2910
0.3186
0.3438
0.3665
0.3869
0.4049
0.4207
0.4345
0.4463
0.4564
0.4649
0.4719
0.4778
0.4826
0.4864
0.4896
0.4920
0.4940
0.4955
0.4966
0.4975
0.4982
0.4987
0.02
0.0080
0.0478
0.0871
0.1255
0.1628
0.1985
0.2324
0.2642
0.2939
0.3212
0.3461
0.3686
0.3888
0.4066
0.4222
0.4357
0.4474
0.4573
0.4656
0.4726
0.4783
0.4830
0.4868
0.4898
0.4922
0.4941
0.4956
0.4967
0.4976
0.4982
0.4987
0.03
0.0120
0.0517
0.0910
0.1293
0.1664
0.2019
0.2357
0.2673
0.2967
0.3238
0.3485
0.3708
0.3907
0.4082
0.4236
0.4370
0.4484
0.4582
0.4664
0.4732
0.4788
0.4834
0.4871
0.4901
0.4925
0.4943
0.4957
0.4968
0.4977
0.4983
0.4988
0.04
0.0160
0.0557
0.0948
0.1331
0.1700
0.2054
0.2389
0.2704
0.2995
0.3264
0.3508
0.3729
0.3925
0.4099
0.4251
0.4382
0.4495
0.4591
0.4671
0.4738
0.4793
0.4838
0.4875
0.4904
0.4927
0.4945
0.4959
0.4969
0.4977
0.4984
0.4988
0.05
0.0199
0.0596
0.0987
0.1368
0.1736
0.2088
0.2422
0.2734
0.3023
0.3289
0.3531
0.3749
0.3944
0.4115
0.4265
0.4394
0.4505
0.4599
0.4678
0.4744
0.4798
0.4842
0.4878
0.4906
0.4929
0.4946
0.4960
0.4970
0.4978
0.4984
0.4989
0.06
0.0239
0.0636
0.1026
0.1406
0.1772
0.2123
0.2454
0.2764
0.3051
0.3315
0.3554
0.3770
0.3962
0.4131
0.4279
0.4406
0.4515
0.4608
0.4686
0.4750
0.4803
0.4846
0.4881
0.4909
0.4931
0.4948
0.4961
0.4971
0.4979
0.4985
0.4989
0.07
0.0279
0.0675
0.1064
0.1443
0.1808
0.2157
0.2486
0.2794
0.3078
0.3340
0.3577
0.3790
0.3980
0.4147
0.4292
0.4418
0.4525
0.4616
0.4693
0.4756
0.4808
0.4850
0.4884
0.4911
0.4932
0.4949
0.4962
0.4972
0.4979
0.4985
0.4989
0.08
0.0319
0.0714
0.1103
0.1480
0.1844
0.2190
0.2517
0.2823
0.3106
0.3365
0.3599
0.3810
0.3997
0.4162
0.4306
0.4429
0.4535
0.4625
0.4699
0.4761
0.4812
0.4854
0.4887
0.4913
0.4934
0.4951
0.4963
0.4973
0.4980
0.4986
0.4990
0.09
0.0359
0.0753
0.1141
0.1517
0.1879
0.2224
0.2549
0.2852
0.3133
0.3389
0.3621
0.3830
0.4015
0.4177
0.4319
0.4441
0.4545
0.4633
0.4706
0.4767
0.4817
0.4857
0.4890
0.4916
0.4936
0.4952
0.4964
0.4974
0.4981
0.4986
0.4990
TABLA 2: PROBABILIDADES BINOMIALES
p
n k
10
11
20
21
22
30
31
32
33
40
41
42
43
44
50
51
52
53
54
55
60
61
62
63
64
65
66
70
71
72
73
74
75
76
77
80
81
82
83
84
85
86
0.05 0.10
0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
0.9500 0.9000 0.8500 0.8000 0.7500 0.7000 0.6500 0.6000 0.5500 0.5000
0.0500 0.1000 0.1500 0.2000 0.2500 0.3000 0.3500 0.4000 0.4500 0.5000
0.9025 0.8100 0.7225 0.6400 0.5625 0.4900 0.4225 0.3600 0.3025 0.2500
0.0950 0.1800 0.2550 0.3200 0.3750 0.4200 0.4550 0.4800 0.4950 0.5000
0.0025 0.0100 0.0225 0.0400 0.0625 0.0900 0.1225 0.1600 0.2025 0.2500
0.8574 0.7290 0.6141 0.5120 0.4219 0.3430 0.2746 0.2160 0.1664 0.1250
0.1354 0.2430 0.3251 0.3840 0.4219 0.4410 0.4436 0.4320 0.4084 0.3750
0.0071 0.0270 0.0574 0.0960 0.1406 0.1890 0.2389 0.2880 0.3341 0.3750
0.0001 0.0010 0.0034 0.0080 0.0156 0.0270 0.0429 0.0640 0.0911 0.1250
0.8145 0.6561 0.5220 0.4096 0.3164 0.2401 0.1785 0.1296 0.0915 0.0625
0.1715 0.2916 0.3685 0.4096 0.4219 0.4116 0.3845 0.3456 0.2995 0.2500
0.0135 0.0486 0.0975 0.1536 0.2109 0.2646 0.3105 0.3456 0.3675 0.3750
0.0005 0.0036 0.0115 0.0256 0.0469 0.0756 0.1115 0.1536 0.2005 0.2500
0.0000 0.0001 0.0005 0.0016 0.0039 0.0081 0.0150 0.0256 0.0410 0.0625
0.7738 0.5905 0.4437 0.3277 0.2373 0.1681 0.1160 0.0778 0.0503 0.0313
0.2036 0.3281 0.3915 0.4096 0.3955 0.3602 0.3124 0.2592 0.2059 0.1563
0.0214 0.0729 0.1382 0.2048 0.2637 0.3087 0.3364 0.3456 0.3369 0.3125
0.0011 0.0081 0.0244 0.0512 0.0879 0.1323 0.1811 0.2304 0.2757 0.3125
0.0000 0.0005 0.0022 0.0064 0.0146 0.0284 0.0488 0.0768 0.1128 0.1563
0.0000 0.0000 0.0001 0.0003 0.0010 0.0024 0.0053 0.0102 0.0185 0.0313
0.7351 0.5314 0.3771 0.2621 0.1780 0.1176 0.0754 0.0467 0.0277 0.0156
0.2321 0.3543 0.3993 0.3932 0.3560 0.3025 0.2437 0.1866 0.1359 0.0938
0.0305 0.0984 0.1762 0.2458 0.2966 0.3241 0.3280 0.3110 0.2780 0.2344
0.0021 0.0146 0.0415 0.0819 0.1318 0.1852 0.2355 0.2765 0.3032 0.3125
0.0001 0.0012 0.0055 0.0154 0.0330 0.0595 0.0951 0.1382 0.1861 0.2344
0.0000 0.0001 0.0004 0.0015 0.0044 0.0102 0.0205 0.0369 0.0609 0.0938
0.0000 0.0000 0.0000 0.0001 0.0002 0.0007 0.0018 0.0041 0.0083 0.0156
0.6983 0.4783 0.3206 0.2097 0.1335 0.0824 0.0490 0.0280 0.0152 0.0078
0.2573 0.3720 0.3960 0.3670 0.3115 0.2471 0.1848 0.1306 0.0872 0.0547
0.0406 0.1240 0.2097 0.2753 0.3115 0.3177 0.2985 0.2613 0.2140 0.1641
0.0036 0.0230 0.0617 0.1147 0.1730 0.2269 0.2679 0.2903 0.2918 0.2734
0.0002 0.0026 0.0109 0.0287 0.0577 0.0972 0.1442 0.1935 0.2388 0.2734
0.0000 0.0002 0.0012 0.0043 0.0115 0.0250 0.0466 0.0774 0.1172 0.1641
0.0000 0.0000 0.0001 0.0004 0.0013 0.0036 0.0084 0.0172 0.0320 0.0547
0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0006 0.0016 0.0037 0.0078
0.6634 0.4305 0.2725 0.1678 0.1001 0.0576 0.0319 0.0168 0.0084 0.0039
0.2793 0.3826 0.3847 0.3355 0.2670 0.1977 0.1373 0.0896 0.0548 0.0313
0.0515 0.1488 0.2376 0.2936 0.3115 0.2965 0.2587 0.2090 0.1569 0.1094
0.0054 0.0331 0.0839 0.1468 0.2076 0.2541 0.2786 0.2787 0.2568 0.2188
0.0004 0.0046 0.0185 0.0459 0.0865 0.1361 0.1875 0.2322 0.2627 0.2734
0.0000 0.0004 0.0026 0.0092 0.0231 0.0467 0.0808 0.1239 0.1719 0.2188
0.0000 0.0000 0.0002 0.0011 0.0038 0.0100 0.0217 0.0413 0.0703 0.1094
TABLA 2 (CONTINUACIÓN)
p
n k 0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
8 7 0.0000 0.0000 0.0000 0.0001 0.0004 0.0012 0.0033 0.0079 0.0164 0.0313
8 8 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0007 0.0017 0.0039
9 0 0.6302 0.3874 0.2316 0.1342 0.0751 0.0404 0.0207 0.0101 0.0046 0.0020
9 1 0.2985 0.3874 0.3679 0.3020 0.2253 0.1556 0.1004 0.0605 0.0339 0.0176
9 2 0.0629 0.1722 0.2597 0.3020 0.3003 0.2668 0.2162 0.1612 0.1110 0.0703
9 3 0.0077 0.0446 0.1069 0.1762 0.2336 0.2668 0.2716 0.2508 0.2119 0.1641
9 4 0.0006 0.0074 0.0283 0.0661 0.1168 0.1715 0.2194 0.2508 0.2600 0.2461
9 5 0.0000 0.0008 0.0050 0.0165 0.0389 0.0735 0.1181 0.1672 0.2128 0.2461
9 6 0.0000 0.0001 0.0006 0.0028 0.0087 0.0210 0.0424 0.0743 0.1160 0.1641
9 7 0.0000 0.0000 0.0000 0.0003 0.0012 0.0039 0.0098 0.0212 0.0407 0.0703
9 8 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0013 0.0035 0.0083 0.0176
9 9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0008 0.0020
10 0 0.5987 0.3487 0.1969 0.1074 0.0563 0.0282 0.0135 0.0060 0.0025 0.0010
10 1 0.3151 0.3874 0.3474 0.2684 0.1877 0.1211 0.0725 0.0403 0.0207 0.0098
10 2 0.0746 0.1937 0.2759 0.3020 0.2816 0.2335 0.1757 0.1209 0.0763 0.0439
10 3 0.0105 0.0574 0.1298 0.2013 0.2503 0.2668 0.2522 0.2150 0.1665 0.1172
10 4 0.0010 0.0112 0.0401 0.0881 0.1460 0.2001 0.2377 0.2508 0.2384 0.2051
10 5 0.0001 0.0015 0.0085 0.0264 0.0584 0.1029 0.1536 0.2007 0.2340 0.2461
10 6 0.0000 0.0001 0.0012 0.0055 0.0162 0.0368 0.0689 0.1115 0.1596 0.2051
10 7 0.0000 0.0000 0.0001 0.0008 0.0031 0.0090 0.0212 0.0425 0.0746 0.1172
10 8 0.0000 0.0000 0.0000 0.0001 0.0004 0.0014 0.0043 0.0106 0.0229 0.0439
10 9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0016 0.0042 0.0098
10 10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010
11 0 0.5688 0.3138 0.1673 0.0859 0.0422 0.0198 0.0088 0.0036 0.0014 0.0005
11 1 0.3293 0.3835 0.3248 0.2362 0.1549 0.0932 0.0518 0.0266 0.0125 0.0054
11 2 0.0867 0.2131 0.2866 0.2953 0.2581 0.1998 0.1395 0.0887 0.0513 0.0269
11 3 0.0137 0.0710 0.1517 0.2215 0.2581 0.2568 0.2254 0.1774 0.1259 0.0806
11 4 0.0014 0.0158 0.0536 0.1107 0.1721 0.2201 0.2428 0.2365 0.2060 0.1611
11 5 0.0001 0.0025 0.0132 0.0388 0.0803 0.1321 0.1830 0.2207 0.2360 0.2256
11 6 0.0000 0.0003 0.0023 0.0097 0.0268 0.0566 0.0985 0.1471 0.1931 0.2256
11 7 0.0000 0.0000 0.0003 0.0017 0.0064 0.0173 0.0379 0.0701 0.1128 0.1611
11 8 0.0000 0.0000 0.0000 0.0002 0.0011 0.0037 0.0102 0.0234 0.0462 0.0806
11 9 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018 0.0052 0.0126 0.0269
1110 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0007 0.0021 0.0054
11 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0005
12 0 0.5404 0.2824 0.1422 0.0687 0.0317 0.0138 0.0057 0.0022 0.0008 0.0002
12 1 0.3413 0.3766 0.3012 0.2062 0.1267 0.0712 0.0368 0.0174 0.0075 0.0029
12 2 0.0988 0.2301 0.2924 0.2835 0.2323 0.1678 0.1088 0.0639 0.0339 0.0161
12 3 0.0173 0.0852 0.1720 0.2362 0.2581 0.2397 0.1954 0.1419 0.0923 0.0537
12 4 0.0021 0.0213 0.0683 0.1329 0.1936 0.2311 0.2367 0.2128 0.1700 0.1208
TABLA 2 (CONTINUACIÓN)
p
n k 0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
12 5 0.0002 0.0038 0.0193 0.0532 0.1032 0.1585 0.2039 0.2270 0.2225 0.1934
12 6 0.0000 0.0005 0.0040 0.0155 0.0401 0.0792 0.1281 0.1766 0.2124 0.2256
12 7 0.0000 0.0000 0.0006 0.0033 0.0115 0.0291 0.0591 0.1009 0.1489 0.1934
12 8 0.0000 0.0000 0.0001 0.0005 0.0024 0.0078 0.0199 0.0420 0.0762 0.1208
12 9 0.0000 0.0000 0.0000 0.0001 0.0004 0.0015 0.0048 0.0125 0.0277 0.0537
12 10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0008 0.0025 0.0068 0.0161
12 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0029
12 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002
13 0 0.5133 0.2542 0.1209 0.0550 0.0238 0.0097 0.0037 0.0013 0.0004 0.0001
13 1 0.3512 0.3672 0.2774 0.1787 0.1029 0.0540 0.0259 0.0113 0.0045 0.0016
13 2 0.1109 0.2448 0.2937 0.2680 0.2059 0.1388 0.0836 0.0453 0.0220 0.0095
13 3 0.0214 0.0997 0.1900 0.2457 0.2517 0.2181 0.1651 0.1107 0.0660 0.0349
13 4 0.0028 0.0277 0.0838 0.1535 0.2097 0.2337 0.2222 0.1845 0.1350 0.0873
13 5 0.0003 0.0055 0.0266 0.0691 0.1258 0.1803 0.2154 0.2214 0.1989 0.1571
13 6 0.0000 0.0008 0.0063 0.0230 0.0559 0.1030 0.1546 0.1968 0.2169 0.2095
13 7 0.0000 0.0001 0.0011 0.0058 0.0186 0.0442 0.0833 0.1312 0.1775 0.2095
13 8 0.0000 0.0000 0.0001 0.0011 0.0047 0.0142 0.0336 0.0656 0.1089 0.1571
13 9 0.0000 0.0000 0.0000 0.0001 0.0009 0.0034 0.0101 0.0243 0.0495 0.0873
13 10 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0022 0.0065 0.0162 0.0349
13 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0012 0.0036 0.0095
13 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0016
13 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
14 0 0.4877 0.2288 0.1028 0.0440 0.0178 0.0068 0.0024 0.0008 0.0002 0.0001
14 1 0.3593 0.3559 0.2539 0.1539 0.0832 0.0407 0.0181 0.0073 0.0027 0.0009
14 2 0.1229 0.2570 0.2912 0.2501 0.1802 0.1134 0.0634 0.0317 0.0141 0.0056
14 3 0.0259 0.1142 0.2056 0.2501 0.2402 0.1943 0.1366 0.0845 0.0462 0.0222
14 4 0.0037 0.0349 0.0998 0.1720 0.2202 0.2290 0.2022 0.1549 0.1040 0.0611
14 5 0.0004 0.0078 0.0352 0.0860 0.1468 0.1963 0.2178 0.2066 0.1701 0.1222
14 6 0.0000 0.0013 0.0093 0.0322 0.0734 0.1262 0.1759 0.2066 0.2088 0.1833
14 7 0.0000 0.0002 0.0019 0.0092 0.0280 0.0618 0.1082 0.1574 0.1952 0.2095
14 8 0.0000 0.0000 0.0003 0.0020 0.0082 0.0232 0.0510 0.0918 0.1398 0.1833
14 9 0.0000 0.0000 0.0000 0.0003 0.0018 0.0066 0.0183 0.0408 0.0762 0.1222
14 10 0.0000 0.0000 0.0000 0.0000 0.0003 0.0014 0.0049 0.0136 0.0312 0.0611
14 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0010 0.0033 0.0093 0.0222
14 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0019 0.0056
14 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0009
14 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
15 0 0.4633 0.2059 0.0874 0.0352 0.0134 0.0047 0.0016 0.0005 0.0001 0.0000
15 1 0.3658 0.3432 0.2312 0.1319 0.0668 0.0305 0.0126 0.0047 0.0016 0.0005
15 2 0.1348 0.2669 0.2856 0.2309 0.1559 0.0916 0.0476 0.0219 0.0090 0.0032
TABLA 2 (CONTINUACIÓN)
p
n
k 0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
15 3 0.0307 0.1285 0.2184 0.2501 0.2252 0.1700 0.1110 0.0634 0.0318 0.0139
15 4 0.0049 0.0428 0.1156 0.1876 0.2252 0.2186 0.1792 0.1268 0.0780 0.0417
15 5 0.0006 0.0105 0.0449 0.1032 0.1651 0.2061 0.2123 0.1859 0.1404 0.0916
15 6 0.0000 0.0019 0.0132 0.0430 0.0917 0.1472 0.1906 0.2066 0.1914 0.1527
15 7 0.0000 0.0003 0.0030 0.0138 0.0393 0.0811 0.1319 0.1771 0.2013 0.1964
15 8 0.0000 0.0000 0.0005 0.0035 0.0131 0.0348 0.0710 0.1181 0.1647 0.1964
15 9 0.0000 0.0000 0.0001 0.0007 0.0034 0.0116 0.0298 0.0612 0.1048 0.1527
15 10 0.0000 0.0000 0.0000 0.0001 0.0007 0.0030 0.0096 0.0245 0.0515 0.0916
15 11 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0074 0.0191 0.0417
15 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0016 0.0052 0.0139
15 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0032
15 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005
15 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
16 0 0.4401 0.1853 0.0743 0.0281 0.0100 0.0033 0.0010 0.0003 0.0001 0.0000
16 1 0.3706 0.3294 0.2097 0.1126 0.0535 0.0228 0.0087 0.0030 0.0009 0.0002
16 2 0.1463 0.2745 0.2775 0.2111 0.1336 0.0732 0.0353 0.0150 0.0056 0.0018
16 3 0.0359 0.1423 0.2285 0.2463 0.2079 0.1465 0.0888 0.0468 0.0215 0.0085
16 4 0.0061 0.0514 0.1311 0.2001 0.2252 0.2040 0.1553 0.1014 0.0572 0.0278
16 5 0.0008 0.0137 0.0555 0.1201 0.1802 0.2099 0.2008 0.1623 0.1123 0.0667
16 6 0.0001 0.0028 0.0180 0.0550 0.1101 0.1649 0.1982 0.1983 0.1684 0.1222
16 7 0.0000 0.0004 0.0045 0.0197 0.0524 0.1010 0.1524 0.1889 0.1969 0.1746
16 8 0.0000 0.0001 0.0009 0.0055 0.0197 0.0487 0.0923 0.1417 0.1812 0.1964
16 9 0.0000 0.0000 0.0001 0.0012 0.0058 0.0185 0.0442 0.0840 0.1318 0.1746
16 10 0.0000 0.0000 0.0000 0.0002 0.0014 0.0056 0.0167 0.0392 0.0755 0.1222
16 11 0.0000 0.0000 0.0000 0.0000 0.0002 0.0013 0.0049 0.0142 0.0337 0.0667
16 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011 0.0040 0.0115 0.0278
16 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0008 0.0029 0.0085
16 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018
16 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002
16 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
17 0 0.4181 0.1668 0.0631 0.0225 0.0075 0.0023 0.0007 0.0002 0.0000 0.0000
17 1 0.3741 0.3150 0.1893 0.0957 0.0426 0.0169 0.0060 0.0019 0.0005 0.0001
17 2 0.1575 0.2800 0.2673 0.1914 0.1136 0.0581 0.0260 0.0102 0.0035 0.0010
17 3 0.0415 0.1556 0.2359 0.2393 0.1893 0.1245 0.0701 0.0341 0.0144 0.0052
17 4 0.0076 0.0605 0.1457 0.2093 0.2209 0.1868 0.1320 0.0796 0.0411 0.0182
17 5 0.0010 0.0175 0.0668 0.1361 0.1914 0.2081 0.1849 0.1379 0.0875 0.0472
17 6 0.0001 0.0039 0.0236 0.0680 0.1276 0.1784 0.1991 0.1839 0.1432 0.0944
17 7 0.0000 0.0007 0.0065 0.0267 0.0668 0.1201 0.1685 0.1927 0.1841 0.1484
17 8 0.0000 0.0001 0.0014 0.0084 0.0279 0.0644 0.1134 0.1606 0.1883 0.1855
17 9 0.0000 0.0000 0.0003 0.0021 0.0093 0.0276 0.0611 0.1070 0.1540 0.1855
TABLA 2 (CONTINUACIÓN)
n k 0.05
0.10
0.15
p
0.20
0.25
0.30
0.35
0.40
0.45
0.50
17 10 0.0000 0.0000 0.0000 0.0004 0.0025 0.0095 0.0263 0.0571 0.1008 0.1484
17 11 0.0000 0.0000 0.0000 0.0001 0.0005 0.0026 0.0090 0.0242 0.0525 0.0944
17 12 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0081 0.0215 0.0472
17 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0021 0.0068 0.0182
17 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0016 0.0052
17 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010
17 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
17 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
18 0 0.3972 0.1501 0.0536 0.0180 0.0056 0.0016 0.0004 0.0001 0.0000 0.0000
18 1 0.3763 0.3002 0.1704 0.0811 0.0338 0.0126 0.0042 0.0012 0.0003 0.0001
18 2 0.1683 0.2835 0.2556 0.1723 0.0958 0.0458 0.0190 0.0069 0.0022 0.0006
18 3 0.0473 0.1680 0.2406 0.2297 0.1704 0.1046 0.0547 0.0246 0.0095 0.0031
18 4 0.0093 0.0700 0.1592 0.2153 0.2130 0.1681 0.1104 0.0614 0.0291 0.0117
18 5 0.0014 0.0218 0.0787 0.1507 0.1988 0.2017 0.1664 0.1146 0.0666 0.0327
18 6 0.0002 0.0052 0.0301 0.0816 0.1436 0.1873 0.1941 0.1655 0.1181 0.0708
18 7 0.0000 0.0010 0.0091 0.0350 0.0820 0.1376 0.1792 0.1892 0.1657 0.1214
18 8 0.0000 0.0002 0.0022 0.0120 0.0376 0.0811 0.1327 0.1734 0.1864 0.1669
18 9 0.0000 0.0000 0.0004 0.0033 0.0139 0.0386 0.0794 0.1284 0.1694 0.1855
18 10 0.0000 0.0000 0.0001 0.0008 0.0042 0.0149 0.0385 0.0771 0.1248 0.1669
18 11 0.0000 0.0000 0.0000 0.0001 0.0010 0.0046 0.0151 0.0374 0.0742 0.1214
18 12 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0047 0.0145 0.0354 0.0708
18 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0045 0.0134 0.0327
18 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011 0.0039 0.0117
18 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0009 0.0031
18 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006
18 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
18 18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
19 0 0.3774 0.1351 0.0456 0.0144 0.0042 0.0011 0.0003 0.0001 0.0000 0.0000
19 1 0.3774 0.2852 0.1529 0.0685 0.0268 0.0093 0.0029 0.0008 0.0002 0.0000
19 2 0.1787 0.2852 0.2428 0.1540 0.0803 0.0358 0.0138 0.0046 0.0013 0.0003
19 3 0.0533 0.1796 0.2428 0.2182 0.1517 0.0869 0.0422 0.0175 0.0062 0.0018
19 4 0.0112 0.0798 0.1714 0.2182 0.2023 0.1491 0.0909 0.0467 0.0203 0.0074
19 5 0.0018 0.0266 0.0907 0.1636 0.2023 0.1916 0.1468 0.0933 0.0497 0.0222
19 6 0.0002 0.0069 0.0374 0.0955 0.1574 0.1916 0.1844 0.1451 0.0949 0.0518
19 7 0.0000 0.0014 0.0122 0.0443 0.0974 0.1525 0.1844 0.1797 0.1443 0.0961
19 8 0.0000 0.0002 0.0032 0.0166 0.0487 0.0981 0.1489 0.1797 0.1771 0.1442
19 9 0.0000 0.0000 0.0007 0.0051 0.0198 0.0514 0.0980 0.1464 0.1771 0.1762
19 10 0.0000 0.0000 0.0001 0.0013 0.0066 0.0220 0.0528 0.0976 0.1449 0.1762
19 11 0.0000 0.0000 0.0000 0.0003 0.0018 0.0077 0.0233 0.0532 0.0970 0.1442
19 12 0.0000 0.0000 0.0000 0.0000 0.0004 0.0022 0.0083 0.0237 0.0529 0.0961
TABLA 2 (CONTINUACIÓN)
n k 0.05
0.10
0.15
p
0.20
0.25
0.30
0.35
0.40
0.45
0.50
19 13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0024 0.0085 0.0233 0.0518
19 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0082 0.0222
19 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0022 0.0074
19 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018
19 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003
19 18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
19 19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
20 0 0.3585 0.1216 0.0388 0.0115 0.0032 0.0008 0.0002 0.0000 0.0000 0.0000
20 1 0.3774 0.2702 0.1368 0.0576 0.0211 0.0068 0.0020 0.0005 0.0001 0.0000
20 2 0.1887 0.2852 0.2293 0.1369 0.0669 0.0278 0.0100 0.0031 0.0008 0.0002
20 3 0.0596 0.1901 0.2428 0.2054 0.1339 0.0716 0.0323 0.0123 0.0040 0.0011
20 4 0.0133 0.0898 0.1821 0.2182 0.1897 0.1304 0.0738 0.0350 0.0139 0.0046
20 5 0.0022 0.0319 0.1028 0.1746 0.2023 0.1789 0.1272 0.0746 0.0365 0.0148
20 6 0.0003 0.0089 0.0454 0.1091 0.1686 0.1916 0.1712 0.1244 0.0746 0.0370
20 7 0.0000 0.0020 0.0160 0.0545 0.1124 0.1643 0.1844 0.1659 0.1221 0.0739
20 8 0.0000 0.0004 0.0046 0.0222 0.0609 0.1144 0.1614 0.1797 0.1623 0.1201
20 9 0.0000 0.0001 0.0011 0.0074 0.0271 0.0654 0.1158 0.1597 0.1771 0.1602
20 10 0.0000 0.0000 0.0002 0.0020 0.0099 0.0308 0.0686 0.1171 0.1593 0.1762
20 11 0.0000 0.0000 0.0000 0.0005 0.0030 0.0120 0.0336 0.0710 0.1185 0.1602
20 12 0.0000 0.0000 0.0000 0.0001 0.0008 0.0039 0.0136 0.0355 0.0727 0.1201
20 13 0.0000 0.0000 0.0000 0.0000 0.0002 0.0010 0.0045 0.0146 0.0366 0.0739
20 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0049 0.0150 0.0370
20 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0013 0.0049 0.0148
20 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0013 0.0046
20 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011
20 18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002
20 19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
20 20 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
TABLA 3: PROBABILIDADES DE POISSON
_
K 0.005 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0 0.9950 0.9900 0.9802 0.9704 0.9608 0.9512 0.9418 0.9324 0.9231 0.9139
1 0.0050 0.0099 0.0196 0.0291 0.0384 0.0476 0.0565 0.0653 0.0738 0.0823
2 0.0000 0.0000 0.0002 0.0004 0.0008 0.0012 0.0017 0.0023 0.0030 0.0037
3 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001
_
k 0.1 0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066 0.3679
1 0.0905 0.1637 0.2222 0.2681 0.3033 0.3293 0.3476 0.3595 0.3659 0.3679
2 0.0045 0.0164 0.0333 0.0536 0.0758 0.0988 0.1217 0.1438 0.1647 0.1839
3 0.0002 0.0011 0.0033 0.0072 0.0126 0.0198 0.0284 0.0383 0.0494 0.0613
4 0.0000 0.0001 0.0003 0.0007 0.0016 0.0030 0.0050 0.0077 0.0111 0.0153
5 0.0000 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0012 0.0020 0.0031
6 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003 0.0005
7 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
_
k 1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
0 0.3329 0.3012 0.2725 0.2466 0.2231 0.2019 0.1827 0.1653 0.1496 0.1353
1 0.3662 0.3614 0.3543 0.3452 0.3347 0.3230 0.3106 0.2975 0.2842 0.2707
2 0.2014 0.2169 0.2303 0.2417 0.2510 0.2584 0.2640 0.2678 0.2700 0.2707
3 0.0738 0.0867 0.0998 0.1128 0.1255 0.1378 0.1496 0.1607 0.1710 0.1804
4 0.0203 0.0260 0.0324 0.0395 0.0471 0.0551 0.0636 0.0723 0.0812 0.0902
5 0.0045 0.0062 0.0084 0.0111 0.0141 0.0176 0.0216 0.0260 0.0309 0.0361
6 0.0008 0.0012 0.0018 0.0026 0.0035 0.0047 0.0061 0.0078 0.0098 0.0120
7 0.0001 0.0002 0.0003 0.0005 0.0008 0.0011 0.0015 0.0020 0.0027 0.0034
8 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0005 0.0006 0.0009
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002
_
K 2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
0 0.1225 0.1108 0.1003 0.0907 0.0821 0.0743 0.0672 0.0608 0.0550 0.0498
1 0.2572 0.2438 0.2306 0.2177 0.2052 0.1931 0.1815 0.1703 0.1596 0.1494
2 0.2700 0.2681 0.2652 0.2613 0.2565 0.2510 0.2450 0.2384 0.2314 0.2240
3 0.1890 0.1966 0.2033 0.2090 0.2138 0.2176 0.2205 0.2225 0.2237 0.2240
4 0.0992 0.1082 0.1169 0.1254 0.1336 0.1414 0.1488 0.1557 0.1622 0.1680
5 0.0417 0.0476 0.0538 0.0602 0.0668 0.0735 0.0804 0.0872 0.0940 0.1008
6 0.0146 0.0174 0.0206 0.0241 0.0278 0.0319 0.0362 0.0407 0.0455 0.0504
7 0.0044 0.0055 0.0068 0.0083 0.0099 0.0118 0.0139 0.0163 0.0188 0.0216
8 0.0011 0.0015 0.0019 0.0025 0.0031 0.0038 0.0047 0.0057 0.0068 0.0081
9 0.0003 0.0004 0.0005 0.0007 0.0009 0.0011 0.0014 0.0018 0.0022 0.0027
10 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 0.0008
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0002
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
TABLA 3 (CONTINUACION)
K 3.1 3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
4.0
0 0.0450 0.0408 0.0369 0.0334 0.0302 0.0273 0.0247 0.0224 0.0202 0.0183
1 0.1397 0.1304 0.1217 0.1135 0.1057 0.0984 0.0915 0.0850 0.0789 0.0733
2 0.2165 0.2087 0.2008 0.1929 0.1850 0.1771 0.1692 0.1615 0.1539 0.1465
3 0.2237 0.2226 0.2209 0.2186 0.2158 0.2125 0.2087 0.2046 0.2001 0.1954
4 0.1733 0.1781 0.1823 0.1858 0.1888 0.1912 0.1931 0.1944 0.1951 0.1954
5 0.1075 0.1140 0.1203 0.1264 0.1322 0.1377 0.1429 0.1477 0.1522 0.1563
6 0.0555 0.0608 0.0662 0.0716 0.0771 0.0826 0.0881 0.0936 0.0989 0.1042
7 0.0246 0.0278 0.0312 0.0348 0.0385 0.0425 0.0466 0.0508 0.0551 0.0595
8 0.0095 0.0111 0.0129 0.0148 0.0169 0.0191 0.0215 0.0241 0.0269 0.0298
9 0.0033 0.0040 0.0047 0.0056 0.0066 0.0076 0.0089 0.0102 0.0116 0.0132
10 0.0010 0.0013 0.0016 0.0019 0.0023 0.0028 0.0033 0.0039 0.0045 0.0053
11 0.0003 0.0004 0.0005 0.0006 0.0007 0.0009 0.0011 0.0013 0.0016 0.0019
12 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006
13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
_
K 4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
5.0
0 0.0166 0.0150 0.0136 0.0123 0.0111 0.0101 0.0091 0.0082 0.0074 0.0067
1 0.0679 0.0630 0.0583 0.0540 0.0500 0.0462 0.0427 0.0395 0.0365 0.0337
2 0.1393 0.1323 0.1254 0.1188 0.1125 0.1063 0.1005 0.0948 0.0894 0.0842
3 0.1904 0.1852 0.1798 0.1743 0.1687 0.1631 0.1574 0.1517 0.1460 0.1404
4 0.1951 0.1944 0.1933 0.1917 0.1898 0.1875 0.1849 0.1820 0.1789 0.1755
5 0.1600 0.1633 0.1662 0.1687 0.1708 0.1725 0.1738 0.1747 0.1753 0.1755
6 0.1093 0.1143 0.1191 0.1237 0.1281 0.1323 0.1362 0.1398 0.1432 0.1462
7 0.0640 0.0686 0.0732 0.0778 0.0824 0.0869 0.0914 0.0959 0.1002 0.1044
8 0.0328 0.0360 0.0393 0.0428 0.0463 0.0500 0.0537 0.0575 0.0614 0.0653
9 0.0150 0.0168 0.0188 0.0209 0.0232 0.0255 0.0281 0.0307 0.0334 0.0363
10 0.0061 0.0071 0.0081 0.0092 0.0104 0.0118 0.0132 0.0147 0.0164 0.0181
11 0.0023 0.0027 0.0032 0.0037 0.0043 0.0049 0.0056 0.0064 0.0073 0.0082
12 0.0008 0.0009 0.0011 0.0013 0.0016 0.0019 0.0022 0.0026 0.0030 0.0034
13 0.0002 0.0003 0.0004 0.0005 0.0006 0.0007 0.0008 0.0009 0.0011 0.0013
14 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005
15 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002
_
K 5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
6.0
0 0.0061 0.0055 0.0050 0.0045 0.0041 0.0037 0.0033 0.0030 0.0027 0.0025
1 0.0311 0.0287 0.0265 0.0244 0.0225 0.0207 0.0191 0.0176 0.0162 0.0149
2 0.0793 0.0746 0.0701 0.0659 0.0618 0.0580 0.0544 0.0509 0.0477 0.0446
3 0.1348 0.1293 0.1239 0.1185 0.1133 0.1082 0.1033 0.0985 0.0938 0.0892
4 0.1719 0.1681 0.1641 0.1600 0.1558 0.1515 0.1472 0.1428 0.1383 0.1339
5 0.1753 0.1748 0.1740 0.1728 0.1714 0.1697 0.1678 0.1656 0.1632 0.1606
6 0.1490 0.1515 0.1537 0.1555 0.1571 0.1584 0.1594 0.1601 0.1605 0.1606
7 0.1086 0.1125 0.1163 0.1200 0.1234 0.1267 0.1298 0.1326 0.1353 0.1377
TABLA 3 (CONTINUACION)
K
8
9
10
11
12
13
14
15
16
17
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
6.0
0.0692 0.0731 0.0771 0.0810 0.0849 0.0887 0.0925 0.0962 0.0998 0.1033
0.0392 0.0423 0.0454 0.0486 0.0519 0.0552 0.0586 0.0620 0.0654 0.0688
0.0200 0.0220 0.0241 0.0262 0.0285 0.0309 0.0334 0.0359 0.0386 0.0413
0.0093 0.0104 0.0116 0.0129 0.0143 0.0157 0.0173 0.0190 0.0207 0.0225
0.0039 0.0045 0.0051 0.0058 0.0065 0.0073 0.0082 0.0092 0.0102 0.0113
0.0015 0.0018 0.0021 0.0024 0.0028 0.0032 0.0036 0.0041 0.0046 0.0052
0.0006 0.0007 0.0008 0.0009 0.0011 0.0013 0.0015 0.0017 0.0019 0.0022
0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0007 0.0008 0.0009
0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003
0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001
k
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
7.0
0 0.0022 0.0020 0.0018 0.0017 0.0015 0.0014 0.0012 0.0011 0.0010 0.0009
1 0 0137 0.0126 0.0116 0.0106 0.0098 0.0090 0.0082 0.0076 0.0070 0.0064
2 0.0417 0.0390 0.0364 0.0340 0.0318 0.0296 0.0276 0.0258 0.0240 0.0223
3 0.0848 0.0806 0.0765 0.0726 0.0688 0.0652 0.0617 0.0584 0.0552 0.0521
4 0.1294 0.1249 0.1205 0.1162 0.1118 0.1076 0.1034 0.0992 0.0952 0.0912
5 0.1579 0.1549 0.1519 0.1487 0.1454 0.1420 0.1385 0.1349 0.1314 0.1277
6 0.1605 0.1601 0.1595 0.1586 0.1575 0.1562 0.1546 0.1529 0.1511 0.1490
7 0.1399 0.1418 0.1435 0.1450 0.1462 0.1472 0.1480 0.1486 0.1489 0.1490
8 0.1066 0.1099 0.1130 0.1160 0.1188 0.1215 0.1240 0.1263 0.1284 0.1304
9 0.0723 0.0757 0.0791 0.0825 0.0858 0.0891 0.0923 0.0954 0.0985 0.1014
10 0.0441 0.0469 0.0498 0.0528 0.0558 0.0588 0.0618 0.0649 0.0679 0.0710
11 0.0244 0.0265 0.0285 0.0307 0.0330 0.0353 0.0377 0.0401 0.0426 0.0452
12 0.0124 0.0137 0.0150 0.0164 0.0179 0.0194 0.0210 0.0227 0.0245 0.0263
13 0.0058 0.0065 0.0073 0.0081 0.0089 0.0099 0.0108 0.0119 0.0130 0.0142
14 0.0025 0.0029 0.0033 0.0037 0.0041 0.0046 0.0052 0.0058 0.0064 0.0071
15 0.0010 0.0012 0.0014 0.0016 0.0018 0.0020 0.0023 0.0026 0.0029 0.0033
16 0.0004 0.0005 0.0005 0.0006 0.0007 0.0008 0.0010 0.0011 0.0013 0.0014
17 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006
18 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002
19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001
_
k 7.1 7.2
7.3
7.4
7.5
7.6
7.7
7.8
7.9
8.0
0 0.0008 0.0007 0.0007 0.0006 0.0006 0.0005 0.0005 0.0004 0.0004 0.0003
1 0.0059 0.0054 0.0049 0.0045 0.0041 0.0038 0.0035 0.0032 0.0029 0.0027
2 0.0208 0.0194 0.0180 0.0167 0.0156 0.0145 0.0134 0.0125 0.0116 0.0107
3 0.0492 0.0464 0.0438 0.0413 0.0389 0.0366 0.0345 0.0324 0.0305 0.0286
4 0.0874 0.0836 0.0799 0.0764 0.0729 0.0696 0.0663 0.0632 0.0602 0.0573
5 0.1241 0.1204 0.1167 0.1130 0.1094 0.1057 0.1021 0.0986 0.0951 0.0916
6 0.1468 0.1445 0.1420 0.1394 0.1367 0.1339 0.1311 0.1282 0.1252 0.1221
7 0.1489 0.1486 0.1481 0.1474 0.1465 0.1454 0.1442 0.1428 0.1413 0.1396
8 0.1321 0.1337 0.1351 0.1363 0.1373 0.1381 0.1388 0.1392 0.1395 0.1396
k 7.1 7.2
7.3
7.4
7.5
7.6
7.7
7.8
7.9
8.0
9 0.1042 0.1070 0.1096 0.1121 0.1144 0.1167 0.1187 0.1207 0.1224 0.1241
10 0.0740 0.0770 0.0800 0.0829 0.0858 0.0887 0.0914 0.0941 0.0967 0.0993
11 0.0478 0.0504 0.0531 0.0558 0.0585 0.0613 0.0640 0.0667 0.0695 0.0722
12 0.0283 0.0303 0.0323 0.0344 0.0366 0.0388 0.0411 0.0434 0.0457 0.0481
13 0.0154 0.0168 0.0181 0.0196 0.0211 0.0227 0.0243 0.0260 0.0278 0.0296
14 0.0078 0.0086 0.0095 0.0104 0.0113 0.0123 0.0134 0.0145 0.0157 0.0169
15 0.0037 0.0041 0.0046 0.0051 0.0057 0.0062 0.0069 0.0075 0.0083 0.0090
16 0.0016 0.0019 0.0021 0.0024 0.0026 0.0030 0.0033 0.0037 0.0041 0.0045
17 0.0007 0.0008 0.0009 0.0010 0.0012 0.0013 0.0015 0.0017 0.0019 0.0021
18 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006 0.0006 0.0007 0.0008 0.0009
19 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0003 0.0004
20 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002
21 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001
Distribución T de Student
0,39
Densidad
0,29
0,19
0,10
0,00
-5,59
-2,80
0,00
2,80
5,59
Variable
F
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120

0,75
0,8
0,85
0,9
0,95
0,975
0,99
0,995
0,9995
1
0,816
0,765
0,741
0,727
0,718
0,711
0,706
0,703
0,7
0,697
0,695
0,694
0,692
0,691
0,69
0,689
0,688
0,688
0,687
0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,683
0,681
0,679
0,677
0,674
0,25
1,376
1,061
0,978
0,941
0,92
0,906
0,896
0,889
0,883
0,879
0,876
0,873
0,87
0,868
0,866
0,865
0,863
0,862
0,861
0,86
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854
0,851
0,848
0,845
0,842
0,2
1,963
1,386
1,25
1,19
1,156
1,134
1,119
1,108
1,1
1,093
1,088
1,083
1,079
1,076
1,074
1,071
1,069
1,067
1,066
1,064
1,063
1,061
1,06
1,059
1,058
1,058
1,057
1,056
1,055
1,055
1,05
1,045
1,041
1,036
0,15
3,078
1,886
1,638
1,533
1,476
1,44
1,415
1,397
1,383
1,372
1,363
1,356
1,35
1,345
1,341
1,337
1,333
1,33
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,31
1,303
1,296
1,289
1,282
0,1
6,314
2,92
2,353
2,132
2,015
1,943
1,895
1,86
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,74
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,658
1,645
0,05
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,16
2,145
2,131
2,12
2,11
2,101
2,093
2,086
2,08
2,074
2,069
2,064
2,06
2,056
2,052
2,048
2,045
2,042
2,021
2
1,98
1,96
0,025
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,65
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,5
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,39
2,358
2,326
0,01
63,656
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,25
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,75
2,704
2,66
2,617
2,576
0,005
636,578
31,6
12,924
8,61
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,14
4,073
4,015
3,965
3,922
3,883
3,85
3,819
3,792
3,768
3,745
3,725
3,707
3,689
3,674
3,66
3,646
3,551
3,46
3,373
3,29
0,0005
A N E X O
Indicadores
II
INDICADORES DE USO FRECUENTE TASAS, RAZONES Y
PROPORCIONES
Cuando se hace un recuento del número de veces que se presenta un hecho
en una población, como por ejemplo:
30 casos de dengue
10 personas intoxicadas
40 alumnos repitentes
Sabemos, que éstos números obtenidos se denominan “frecuencias
absolutas”.
Algunas veces los valores absolutos son suficientes para el análisis de un
problema determinado, por ejemplo:
1 caso de viruela
1 caso de niño con problemas por sobredosis de droga
Casos como los planteados anteriormente no se esperan que ocurran, (con
frecuencia esperada = 0), por lo tanto, cualquier numero adquiere importancia y
permite el análisis del problema.
Pero, ¿Qué pasaría si se dice que en la Provincia de Formosa en el año
1.997, el total de repitientes del segundo año de la modalidad agropecuaria es igual
a 15?.
¿Es éste un número de repitentes, alto o bajo?.
Para contestar la pregunta se deben hacer comparaciones, por ejemplo, con
otras modalidades.
En el mismo año en la modalidad bachiller los repitentes fueron 620.
Ahora se tiene un punto de referencia, pero, para sacar conclusiones, ¿son
suficientes estas dos cifras absolutas?
Repitentes de 2º año modalidad agropecuaria
Repitentes de 2º año modalidad bachiller
= 15
= 620
Es correcto decir que en el segundo año de la modalidad agropecuaria
repiten menos que en la modalidad bachiller, pues es menor el numero de
repitentes?.
Absolutamente no.
Es necesario el número de alumnos en cada modalidad y relacionar los
repitentes con esa población en ambas modalidades.
Los de matriculado para el segundo año son:
Modalidad agropecuaria = 72
Modalidad bachiller
= 4.041
Si relaciono el número de repitentes y los matriculados para el segundo año,
tendré:
15 / 72
= 0,20833
620 / 4041 = 0,15342
El resultado de estos dos cocientes permitirán comparar la magnitud del
problema del segundo año, en una y otra modalidad. Pero los resultados de estas
divisiones son:
0,20833 y 0,15342
Aunque no se redondea en: 0,208 y 0,153
Estos números son difíciles de manejar para describir
conclusiones, por ello se acostumbra a multiplicarlos por un
que nos permita trabajar con un número entero. Este número
ser 100, 1.000, 10.000 o 100.000 según la magnitud de
numerador y el denominador.
0,208 x 100 = 20,8 %
0,153 x 100 = 15,3 %
el problema y sacar
factor de ampliación
de ampliación puede
la relación entre el
TASA: éste termino se utiliza generalmente para referirse a aquellos cálculos que
implican la probabilidad de ocurrencia de algún evento. Una tasa se expresa de la
forma:
a
------------- k
a + b
Donde:
a = a la frecuencia con la cual se ha presentado un evento durante algún periodo
especificado.
a + b = al numero de personas expuestas al riesgo del evento durante el mismo
periodo.
K = a un factor de ampliación como 10, 100, 1.000, 10.000 o 100.000.
El numerador de una tasa es una parte componente de del denominador.
La tasa se multiplica por el factor de ampliación (K), para evitar resultados
que comprendan números muy pequeños que puedan surgir en cálculo de las
mismas, y facilitar su comprensión. El valor elegido de k depende de la magnitud del
numerador y del denominador.
O sea q la tasa relaciona el número de veces que se presenta, un hecho
cualquiera, en la población de un área determinada, durante un periodo de tiempo
también determinado, y la población correspondiente a esa área estimada a la mitad
del periodo de tiempo.
Lo fundamental en la construcción de una tasa, es relacionar un hecho con
la población expuesta al riesgo de que el hecho ocurra.
Las tasas se pueden clasificar en:
- Generales o brutas
- Especificas
Tasas generales: son aquellas cuyo denominador es total de la población.
Por ejemplo, la tasa de mortalidad que se obtiene de la siguiente manera:
T.M.G. = total de defunciones de un lugar x, en un periodo z . 1000
Población del lugar x en, en el periodo z
Tasas específicas: el denominador contiene un subgrupo de la población.
Por ejemplo tasa de la mortalidad infantil, que se obtiene:
T.M.I. = defunciones de un niño menor de un año, lugar x, periodo z . 1000
Nacidos vivos del lugar x, periodo z
Según el tipo de riesgo que miden. Algunas de las tasas de uso mas frecuente son:
a) las referidas especialmente a la educación:
-
Tasas de repitencia
Tasas de escolarización
Tasas de retención
Tasas de desgranamiento
Tasas de incorporación
b) las referidas a las estadísticas vitales:
-
Tasas de natalidad
Tasas de mortalidad
Tasas de letalidad
Se definen las primeras en la forma siguiente:
Tasas de repitencia: relacionan el número estudiantes que permanecen en el
mismo grado durante mas de un año lectivo, en un establecimiento determinado,
con la misma matricula de ese mismo grado en igual ciclo lectivo y establecimiento
educativo.
Tasas de escolarización: relacionan la población en edad escolar que asiste
efectivamente a un establecimiento escolar, en un año y lugar geográfico
determinado, con la población en edad escolar en edad escolar en el mismo año y
lugar geográfico.
Tasas de retención: relacionan los alumnos pertenecientes a una cohorte que
después de transitar los años de estudios correspondiente al plan, finalizan un nivel
educativo en un establecimiento educativo determinado, con los alumnos
matriculados en el primer año de estudio del mismo plan, en el mismo
establecimiento educativo.
Tasas de desgranamiento: relacionan los alumnos pertenecientes a una cohorte
que no llegan a finalizar el nivel en los años de estudios correspondiente al plan, en
un establecimiento educativo determinado con los alumnos matriculados en el
primer año del estudio del mismo plan, en el mismo establecimiento educativo.
Los alumnos pueden no llegar a completar el ciclo por repitencia, por abandono
temporario o definitivo.
Tasas de incorporación: relacionan el número de matriculados del primer año de
un determinado nivel y establecimiento educativo en un año calendario
determinado, con el número de egresados del último año del año lectivo anterior
correspondiente al mismo establecimiento educativo.
Tasas de mortalidad: relacionan el total de defunciones de un área geográfica
determinada, en un año determinado, con la población de la misma área geográfica
en igual periodo de tiempo.
Por ejemplo la tasa de mortalidad materna, se obtiene:
T.M.M. = muertes por causas maternas . k
Nacidos vivos
Esta tasa, es general o especifica?
Tasa mortalidad por cáncer.
T.M. por cáncer = números de muertes por cáncer . k
Población total
Tasas de morbilidad: relacionan los enfermos de un área geográfica y
tiempos determinados, con la población total de la misma área geográfica en el
mismo tiempo.
Por ejemplo tasa de morbilidad por sarampión:
T.M. sarampión = nº de enfermos de sarampión, área x, periodo z . k
Población del área x, en el periodo z
Las tasas de morbilidad más usuales son las de:
- incidencia: que relacionan los casos nuevos de una determinada
enfermedad en la unidad de tiempo, (generalmente un año), con la población
del mismo lugar y tiempo.
Por ejemplo:
Tasa de incidencia de T.B.C. = casos nuevos de T.B.C. . K
Población total
-
Prevalencia: se obtiene haciendo el total de casos de una determinada
enfermedad en un tiempo determinado, con la población total.
Ejemplo:
T. de prev. De T.B.C. = total de casos de T.B.C. en un periodo determinado. k
Población total
De ataque: se obtiene relacionado el total de casos de un brote localizado,
con la población expuesta al riesgo.
Por ejemplo es posible que se presente un problema, planteado por la aparición
inesperada de casos de una determinada patología, ya sea por una epidemia o un
episodio de breve duración, en toda una comunidad o un sector pequeño de
población como ser, asistentes a una comida, empleados de una fabrica, vecinos de
un barrio.
Por ejemplo:
Nº de intoxicados en una determinada fiesta . k
Asistentes a la fiesta
Tasas de letalidad: relacionan las muertes ocurridas por determinada causa, en un
área geográfica y año determinado, con los enfermos por la misma causa en iguala
área geográfica y periodo de tiempo.
Ejemplo:
Muertes por sida, área x, tiempo z . k
Enfermos de sida, área x tiempo z
Se definen seguidamente un conjunto de tasas de uso frecuente en epidemiología.
Tasas de usos frecuentes en epidemiología
referidas a unidad de tiempo y lugar.
Tasa de
1)AREA
MATERNO
INFANTIL
Nupcialidad
Natalidad
Mortalidad fetal
Numerador
(numero de)
Denominación
(población)
Personas
que se
casan
Población
estimada a
mitad del
periodo
Nacidos
vivos en 1
año
Defunciones
fetales
Temprana
Defunciones
fetales de
menos de 20
semanas de
gestación.
Intermedia
Id. 20-27
semanas de
estación.
Tardía
(o mortinalidad)
Defunciones
fetales de 28
semanas y
más de
gestación.
Población
estimada a
mitad del
periodo
Por
Observaciones
1.000
1.000
Numero de
nacidos vivos
1.000
Id.
1.000
Id.
1.000
Número de
nacidos vivos
1.000
Defunción fetal:
Muerte del producto
de la concepción
que ocurre antes de
su expulsión o
extracción completa
del cuerpo de la
madre,
independientemente
del embarazo.
Tasas de usos frecuentes en epidemiología
referidas a unidad de tiempo y lugar.
Tasa de
Numerador
(numero de)
Denominación
(población)
Por
Mortalidad
perinatal
Suma de:
defunciones
fetales
tardías mas
defunciones
neonatales.
Numero de
nacidos vivos
1.000
Mortalidad
infantil
Muertes
menores de
1 año
Número de
nacidos vivos
1.000
Mortalidad
neonatal
Defunciones
de menos
de 28 días
Número de
nacidos vivos
mortalidad
infantil tardía
Defunciones
de niños de
28 días, 11
meses
Número de
nacidos vivos
1.000
Mortalidad
materna
Muertes
maternas
Número de
nacidos vivos
1.000
1.000
10.000
2)MORTALIDAD
Muertes por
todas las
causas
ocurridas en
1 año
Población
estimada al
centro del
periodo
1.000
Observaciones
Los ingleses usan
como numerador la
suma de la
mortalidad de la
primera semana y
como denominador
el número total de
nacidos (vivos y
muertos).
Tiene valor la
relación porcentual
que la mortalidad
neonatal guarda
con la mortalidad
infantil
Refleja mejor el
peso de los factores
ambientales
Muerte materna:
aquella por causa
de muerte
obstétrica de
embarazo, parto o
puerperio
Tasas de usos frecuentes en epidemiología
referidas a unidad de tiempo y lugar.
Tasa de
Numerador
(numero de)
Denominación
(población)
Mortalidad
especifica por
su edad
Muertes en
grupo de edad
especifico
Mortalidad por
causa
especifica de
su edad
Muertes por una
causa
determinada en
su grupo de
edad especifico
Muertes por
causas
determinadas
Población
estimada en ese
mismo grupo de
edad al centro
del periodo
Población
estimada en ese
mismo grupo de
edad al centro
del periodo
Número de
enfermos por la
misma causa
Letalidad
3)MORBILIDAD
incidencia
Prevalencia
Ataque
Ataque
secundario
Casos nuevos
en la unidad de
tiempo (1 año
habitualmente)
Numero de
casos
existentes en un
periodo o fecha
determinados
Total de casos
secundarios
Numero de
casos
secundarios
Por
Observaciones
1.000
100.000
100
1.000
Población
estimada a
mitad del
periodo
Población
estimada para el
mismo periodo
o fecha
1.000
10.000
100.000
Población
expuesta al
riesgo
(contactos)
Población
expuesta al
riesgo
(contactos)
100
Mide riesgo de morir
entre enfermos. Es
más bien una razón
porcentual entre
muertos y enfermos.
No debe
confundirse con
tasa de mortalidad
100
1.000
10.000
100.000
1.000
100
1.000
Usada en epidemia
o episodios de
breve duración
Usada en epidemias.
El denominador
puede
circunscribirse a
contactos
susceptibles
Descargar