Subido por Alberto Moreno

cap 3 Basic Biostatistics for Geneticists and Epidemiologists.en.es (1)

Anuncio
Traducido del inglés al español - www.onlinedoctranslator.com
CAPÍTULO TRES
Conceptos clave
escala de intervalo, ordinal y nominal
sensibilidad, especificidad, valores
cuantitativa, cualitativa
predictivos medidas de tendencia central:
datos continuos, categóricos o discretos
datos
tabla, distribucion de frecuencia
histograma, gráfico de barras, polígono de frecuencias,
diagrama acumulativo, diagrama de dispersión (diagrama
de dispersión), diagrama de árbol,
árbol de decisión
proporción, porcentaje, tasa
prevalencia, incidencia
riesgo relativo, razón de posibilidades, razón de prevalencia,
riesgo atribuible
significar
mediana
modo
medidas de dispersión (variabilidad):
rango
rango intercuartil
diferencia
variación estándar
coeficiente de variación
asimetría, curtosis
Bioestadística básica para genetistas y epidemiólogos: un enfoque prácticoR. Elston y W. Johnson © 2008
John Wiley & Sons, Ltd. ISBN: 978-0-470-02489-8
Estadísticas descriptivas
SÍMBOLOS Y ABREVIATURAS
Arkansas
CV
gramo2
O
riesgo atribuible
coeficiente de variación cuarto
cumulante; el coeficiente de
curtosis menos 3 (utilizado para
medir el pico)
relación de probabilidades
relaciones públicas
razón
RR
s
s2
de prevalencia
riesgo relativo
desviación estándar de la muestra
(estimación)
varianza muestral (estimación)
¿POR QUÉ NECESITAMOS ESTADÍSTICAS DESCRIPTIVAS?
Dijimos en el Capítulo 1 que una estadística es una estimación de una cantidad numérica desconocida.
Una estadística descriptiva es una estimación que resume un aspecto particular de un conjunto de
observaciones. Las estadísticas descriptivas permiten obtener una visión general rápida, o 'sentir', de un
conjunto de datos sin tener que considerar cada observación o dato de forma individual. (Tenga en
cuenta que la palabra 'dato' es la forma singular de la palabra 'datos'; estrictamente hablando, 'datos' es
un sustantivo plural, aunque, como 'agenda', se usa comúnmente como un sustantivo singular,
especialmente en el habla. )
Al brindar atención médica a un paciente específico, un médico debe considerar:
(1) datos históricos o antecedentes, (2) información de diagnóstico y (3) respuesta al
tratamiento. Estos datos se guardan en un expediente del paciente que el médico revisa de
vez en cuando. Al hablar sobre el paciente con sus colegas, el médico resume el gráfico
describiendo los datos atípicos que contiene, que normalmente representarían solo una
pequeña fracción de los datos disponibles. Para poder distinguir los datos atípicos, el
médico debe saber qué es típico para la población en general. el descriptivo
Bioestadística básica para genetistas y epidemiólogos: un enfoque prácticoR. Elston y W. Johnson © 2008
John Wiley & Sons, Ltd. ISBN: 978-0-470-02489-8
46
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
Las estadísticas que analizamos en este capítulo son herramientas que se utilizan para ayudar a
describir una población. Además, como discutimos en el Capítulo 2, los genetistas y
epidemiólogos realizan estudios en muestras de pacientes y familias y, cuando reportan sus
hallazgos generales, necesitan indicar el tipo de muestra que investigaron. Las estadísticas
descriptivas se utilizan tanto para describir la muestra analizada como para resumir los resultados
de los análisis de forma sucinta. Las tablas y los gráficos también son útiles para transmitir una
descripción general rápida de un conjunto de datos y, de hecho, las tablas y los gráficos se utilizan
a menudo para mostrar estadísticas descriptivas. Por lo tanto, incluimos una breve discusión de
ellos en este capítulo. Primero, sin embargo, consideramos los diferentes tipos de datos que
pueden necesitar ser descritos.
ESCALAS DE MEDIDA
Todos estamos familiarizados con el uso de una regla para medir la longitud. La regla se
divide en intervalos, como centímetros, y esto se llama unescala de intervalo. Una escala de
intervalo es una escala que permite medir todos los valores fraccionarios posibles dentro de
un intervalo. Si medimos la altura de una persona en pulgadas, por ejemplo, no estamos
restringidos a medidas que sean números enteros de pulgadas. La escala permite medidas
como 70,75 o 74,5 pulgadas. Otros ejemplos de escalas de intervalo son la escala Celsius
para medir la temperatura y cualquiera de las otras escalas métricas. En cada uno de estos
ejemplos, el rasgo que se mide es cuantitativo, y nos referimos a un conjunto de medidas
como continuodatos. La altura, el peso, la presión arterial y los niveles de colesterol sérico
son ejemplos de rasgos cuantitativos que comúnmente se miden en escalas de intervalo. El
número de hijos en una familia también es un rasgo cuantitativo, ya que es una cantidad
numérica; sin embargo, no se mide en una escala de intervalo, ni un conjunto de tales
números comprende datos continuos. Solo se permiten números enteros, y tales datos se
llamandiscreto.
A veces clasificamos lo que estamos midiendo solo en categorías amplias. Por
ejemplo, podríamos clasificar a una persona como 'alta', 'mediana' o 'baja', o como
'hipertensa', 'normotensa' o 'hipotensa'. El rasgo es entonces cualitativo, y tales
medidas también dan lugar a discretas, ocategórico, datos que consisten en los
conteos, o números de individuos, en cada categoría. Hay dos tipos de datos
categóricos, según exista o no una secuencia natural en la que podamos ordenar las
categorías. En los ejemplos que acabamos de dar, hay un orden natural: 'mediano' está
entre 'alto' y 'bajo', y 'normotenso' está entre 'hipertenso' e 'hipotenso'. En este caso la
escala de medida se llamaordinal. El número de hijos en una familia también se mide
en una escala ordinal. Si no existe tal orden natural, la escala se llama nominal, y las
categorías tienen solo nombres y no se implica ninguna secuencia. El color del cabello,
por ejemplo (p. ej., 'marrón', 'rubio' o 'rojo'), se observaría en una escala nominal. Por
supuesto, la distinción entre un nominal y un ordinal
ESTADÍSTICAS DESCRIPTIVAS
47
la escala puede decidirse subjetivamente en algunas situaciones. Algunos argumentarían que
cuando clasificamos a los pacientes como 'maníacos', 'normales' o 'deprimidos', esto debería
considerarse una escala nominal, mientras que otros dicen que debería considerarse una escala
ordinal. Lo importante a tener en cuenta es que es posible considerar los datos categóricos desde
estos dos puntos de vista diferentes, con diferentes implicaciones para los tipos de conclusiones
que podríamos sacar de ellos.
MESAS
Los datos y las estadísticas descriptivas a menudo se clasifican y resumen en tablas. La
forma exacta de una mesa dependerá del propósito para el que esté diseñada, así como de
la complejidad del material. No existen reglas estrictas y rápidas para construir tablas, pero
es mejor seguir algunas pautas simples para ser consistente y asegurar que la tabla
mantenga su propósito:
1. La tabla debe ser relativamente simple y fácil de leer.
2. El título, generalmente colocado encima de la tabla, debe ser claro, conciso y
directo; debe indicar lo que se está tabulando.
3. Deben darse las unidades de medida de los datos.
4. Cada fila y columna, según corresponda, debe etiquetarse de manera concisa y clara.
5. Deben mostrarse los totales, si corresponde.
6. Los códigos, abreviaturas y símbolos deben explicarse en una nota al pie.
7. Si los datos no son originales, su fuente debe indicarse en una nota a pie de página.
Las tablas 3.1 y 3.2 son dos tablas muy simples que muestran datos que usaremos, con
fines ilustrativos, más adelante en este capítulo. La tabla 3.1 es el tipo de tabla más simple
posible. En él se proporciona un conjunto de datos 'sin procesar', los valores de triglicéridos
séricos de 30 estudiantes de medicina. Las filas y columnas no tienen un significado especial,
su único propósito es alinear los datos de manera ordenada y compacta. Tenga en cuenta
que, además, los valores se han ordenado de menor a mayor. A este respecto, la tabla es
más útil que si los valores simplemente se hubieran enumerado en
Tabla 3.1Niveles de triglicéridos séricos en ayunas
(mg/dl) de 30 estudiantes de medicina varones
45
61
83
93
123
173
46
67
85
99
124
180
49
72
86
101
129
218
54
78
88
106
151
225
55
80
90
122
165
287
48
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
Cuadro 3.2Distribución de frecuencias del colesterol sérico en ayunas
niveles (mg/dl) de 1000 estudiantes de medicina varones
Nivel de colesterol (mg/dl)
90-100
100–110
110–120
120–130
130–140
140–150
150–160
160–170
170–180
180-190
190–200
200–210
210–220
220–230
230–240
240–250
250–260
260–270
270–280
280–290
Total
Numero de estudiantes
2
8
14
21
22
28
95
102
121
166
119
96
93
35
30
23
15
7
3
1
1000
el orden en que fueron determinados en el laboratorio. Existe otro tipo de tabla en la
que las filas y las columnas no tienen un significado especial y en la que, además, las
entradas nunca están ordenadas. Esta es una tabla de números aleatorios, a la que nos
referimos en el Capítulo 2.
El tipo más simple de estadística descriptiva es un conteo, como el número de
personas con un atributo particular. La tabla 3.2 es un ejemplo muy simple de cómo se
puede mostrar un conjunto de conteos, como una distribución de frecuencia. Cada uno de
los 1000 niveles de colesterol observados se presenta en sólo una de las clases de intervalo,
aunque parece que algunos niveles (por ejemplo, 100 y 110 mg/dl) aparecen en dos clases
consecutivas. Si un valor se encuentra exactamente en el límite entre dos clases, se incluye
en la clase inferior. Esto a veces se aclara definiendo los intervalos con más cuidado (p. ej.,
90,1–100,0, 100,1–110,0,. . .). Las clases de edad a menudo se definen como de 0 a 9 años, de
10 a 19 años, etc. Entonces se entiende que la clase de 10 a 19 años, por ejemplo, contiene a
todos los niños que han pasado los 10 años pero no los 20 años. Tenga en cuenta que en la
Tabla 3.2 se ha perdido parte de la información inherente a los 1000 valores originales de
colesterol, pero para una descripción general rápida y simple de los datos, este tipo de tabla
es mucho más útil que una tabla similar a la Tabla 3.1, que enumera los 1000 valores.
ESTADÍSTICAS DESCRIPTIVAS
49
GRÁFICOS
Las relaciones entre números de varias magnitudes por lo general se pueden ver más rápida
y fácilmente a partir de gráficos que de tablas. Hay muchos tipos de gráficos, pero la idea
básica es proporcionar un esquema que transmita rápidamente al lector las tendencias
generales en los datos. Las siguientes pautas deberían ser útiles en la construcción de
gráficos:
1. El gráfico más simple consistente con su propósito es el más efectivo.
Debe ser claro y preciso.
2. Cada gráfico debe explicarse completamente por sí mismo. Debe estar rotulado
correctamente y sin ambigüedades con título, fuente de datos si corresponde, escalas y
claves o leyendas explicativas.
3. Siempre que sea posible, se debe seleccionar la escala vertical de modo que la línea cero
aparezca en el gráfico.
4. El título suele colocarse debajo del gráfico.
5. El gráfico generalmente avanza de izquierda a derecha y de abajo hacia arriba. Todas las
etiquetas y otros escritos deben colocarse en consecuencia.
Un tipo particular de gráfico, elhistograma, a menudo proporciona una forma conveniente de
representar la forma de la distribución de valores de datos. En las Figuras 3.1 y 3.2 se muestran dos
ejemplos de histogramas, relacionados con los datos de las Tablas 3.1 y 3.2. Los puntos que debe tener
en cuenta sobre los histogramas son los siguientes:
1. Se utilizan para datos medidos en una escala de intervalo.
2. La imagen visual obtenida depende del ancho del intervalo de clase utilizado, que es en gran
medida arbitrario. Se eligió un ancho de 10 mg/dl para la Figura 3.1 y un ancho de 20 mg/dl
para la Figura 3.2. Por lo general, es mejor elegir un ancho que dé como resultado un total de
10 a 20 clases.
3. Si las observaciones dentro de cada intervalo de clase son muy pocas, un histograma da una
mala representación de la distribución de conteos en la población. La Figura 3.2 sugiere una
distribución con varios picos, mientras que lo más probable es que se hubiera encontrado un
solo pico si se hubieran utilizado 1000 valores de triglicéridos para obtener la cifra. Se podrían
haber obtenido más observaciones por intervalo de clase eligiendo un intervalo más amplio,
pero menos de 10 intervalos solo dan una aproximación bruta a una distribución.
Agráfico de barrases muy similar a un histograma pero se usa para datos categóricos.
Puede ilustrar, por ejemplo, la distribución del número de casos de una enfermedad en
diferentes países. Se vería muy similar a las Figuras 3.1 y 3.2, pero debido a que
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
160
150
140
130
Numero de estudiantes
120
110
100
90
80
70
60
50
40
30
20
10
0
100 120 140 160 180
200 220 240 260 280
Nivel de colesterol (mg/dl)
Figura 3.1Histograma de 1000 niveles de colesterol sérico en ayunas (de la Tabla 3.2).
8
7
6
Numero de estudiantes
50
5
4
3
2
1
0
30 50 70 90 110 130 150 170 190 210 230 250 270 290
Nivel de triglicéridos (mg/dl)
Figura 3.2Histograma de 30 niveles de triglicéridos séricos en ayunas (de la Tabla 3.1).
ESTADÍSTICAS DESCRIPTIVAS
51
la escala horizontal no es continua, sería más apropiado dejar espacios entre los
rectángulos verticales o 'barras'. A veces, las barras se dibujan horizontalmente, y la
escala vertical del gráfico indica las diferentes categorías. En cada caso, como también
en el caso de un histograma, la longitud de la barra representa una frecuencia o una
frecuencia relativa, a veces expresada como un porcentaje.
APolígono de frecuenciatambién es básicamente similar a un histograma
y se usa para datos continuos. Se obtiene a partir de un histograma uniendo
los puntos medios de la parte superior de cada 'barra'. Dibujados como
polígonos de frecuencia, los dos histogramas de las Figuras 3.1 y 3.2 se
parecen a las Figuras 3.3 y 3.4. Observe que el polígono se encuentra con el eje
horizontal siempre que haya una frecuencia cero en un intervalo; en particular,
esto ocurre en los dos extremos de la distribución. De nuevo, la escala vertical
puede ser la frecuencia real o la frecuencia relativa, obteniéndose esta última
dividiendo cada frecuencia por el número total de observaciones; hemos
optado por utilizar la frecuencia relativa. Un polígono de frecuencias es un
intento de obtener una mejor aproximación, a partir de una muestra de datos,
a la curva suave que se obtendría de una gran población.
Proporción de estudiantes
0.15
0.10
0.05
0
100 120 140 160 180 200 220 240 260 280
Nivel de colesterol (mg/dl)
Figura 3.3Polígono de frecuencias relativas correspondiente a la Figura 3.1.
un acumulativotramaes una forma alternativa de representar un conjunto de datos
cuantitativos. La escala horizontal (abscisa) es la misma que antes, pero la escala vertical
(ordenada) ahora indica la proporción de las observaciones menores o iguales a un valor
particular. En la Figura 3.5 se presenta un gráfico acumulativo de los datos de la Tabla 3.2.
Vemos en la Tabla 3.2, por ejemplo, que 2 + 8 + 14 + 21 + 22 + 28 + 95 = 190 de los 1000
52
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
Proporción de estudiantes
0.2
0.1
0
30 50 70 90 110 130 150 170 190 210 230 250 270 290
Nivel de triglicéridos (mg/dl)
Figura 3.4Polígono de frecuencias relativas correspondiente a la Figura 3.2.
los estudiantes tienen niveles de colesterol sérico inferiores o iguales a 160 mg/dl, por lo que la
altura del punto por encima de 160 en la Figura 3.5 es 190/1000, o 0,19. De manera similar,
podríamos dibujar un gráfico acumulativo correspondiente al histograma de los 30 valores de
triglicéridos (Figura 3.2), pero una de las grandes ventajas del gráfico acumulativo es que no
requiere agrupar los datos en clases de intervalo, como lo hace un histograma. . En un gráfico
acumulativo se pueden representar todas las observaciones, como se ilustra en la Figura 3.6 para
los datos de la Tabla 3.1. Está claro en esa tabla que 1 de 30 valores es menor o igual a 45, 2 de 30
es menor o igual a 46, 3 de 30 es menor o igual a 49, y así sucesivamente. Entonces podemos
hacer 1/30 de la ordenada en 45, 2/30 de la ordenada en 46, 3/30 de la ordenada en 49, y así
sucesivamente, hasta 30/30=1 como la ordenada en 287. Sin embargo, el propósito de la gráfica
acumulativa es aproximar la curva continua que obtendríamos con un conjunto de números
mucho más grande. Si se incluyeran más observaciones, una de ellas posiblemente podría ser
mayor que cualquiera de los valores de la Tabla 3.1. Por esta razón, se acostumbra hacer que la
ordenada en el punto de datos más grande (287 en este caso) sea algo menor que la unidad. Una
forma conveniente de hacer esto es usar uno más que el número total de observaciones como
divisor. Por lo tanto, las ordenadas de los datos en la tabla 3.1 se representan en la figura 3.6
como 1/31 en 45, 2/31 en 46, 3/31 en 49, hasta 30/31 en 287. Tenga en cuenta que una gráfica
acumulativa da como resultado una cantidad mucho mayor. curva más suave que el histograma
(Fig. 3.2) y que se conserva toda la información de la tabla original.
Son posibles muchos otros tipos de gráficos, pero aquí solo se mencionarán dos más.
El primero, elgráfico de dispersión, o diagrama de dispersión, es una forma efectiva de
ilustrar la relación entre dos medidas. En él cada punto representa un par de valores,
ESTADÍSTICAS DESCRIPTIVAS
1.0
0.9
Proporción acumulada
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
100 120 140 160 180 200 220 240 260 280
Nivel de colesterol (mg/dl)
Figura 3.5Gráfica acumulativa de los datos en la Tabla 3.2.
1.0
0.9
Proporción acumulada
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
30 50 70 90 110 130 150 170 190 210 230 250 270 290
Nivel de triglicéridos (mg/dl)
Figura 3.6Gráfica acumulativa de los datos en la Tabla 3.1.
53
54
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
como los valores de dos medidas diferentes tomadas en la misma persona. Así, en el diagrama de
dispersión representado en la figura 3.7, cada punto representa un nivel de triglicéridos tomado
de la tabla 3.1, junto con el nivel de colesterol correspondiente medido en la misma muestra de
sangre. Podemos ver que hay una ligera tendencia a que una medida
260
Colesterol (mg/100ml)
240
220
200
180
160
140
120
0
20 40 60 80 100 120 140 160 180 200 220 240 260 280 300
Nivel de triglicéridos (mg/dl)
Figura 3.7Gráfica de dispersión de los niveles de colesterol versus triglicéridos de 30 médicos masculinos
estudiantes.
Ataque agudo
La muerte súbita
Supervivencia inmediata
20% a 25%
75% a 80%
Recuperación
10%
Complicaciones tempranas
90%
Muerte
Recuperación
(extraño)
Más infarto
Insuficiencia cardiaca
Muerte
Figura 3.8Diagrama de árbol que indica el resultado del infarto de miocardio. (Fuente: RA
Cawson, AW McCracken y PB Marcus (1982).Mecanismos patológicos y humanos
Enfermedad. St. Louis, MO: Mosby.)
ESTADÍSTICAS DESCRIPTIVAS
55
dependen del otro, un hecho que no habría quedado claro si simplemente hubiésemos
enumerado cada nivel de colesterol junto con el nivel de triglicéridos correspondiente.
El gráfico final que mencionaremos aquí es eldiagrama de árbol. Esto se usa a menudo
para ayudar en la toma de decisiones, en cuyo caso se llamaárbol de decisión. Un diagrama
de árbol muestra en secuencia temporal posibles tipos de acciones o resultados. La Figura
3.8 da un ejemplo muy simple; indica los posibles resultados y sus frecuencias relativas tras
un infarto de miocardio. Este tipo de presentación suele ser mucho más eficaz que una
descripción verbal de la misma información. Los diagramas de árbol también suelen ser
útiles para resolver problemas.
PROPORCIONES Y TARIFAS
Al comparar el número o la frecuencia de los eventos que ocurren en dos grupos,
los números brutos son difíciles de interpretar a menos que cada grupo contenga
el mismo número de personas. A menudo calculamos proporciones o porcentajes
para facilitar tales comparaciones. Así, si el propósito de una medida es
determinar si los habitantes de una comunidad tienen una incidencia más
frecuente de tuberculosis que los de otra, los recuentos simples tienen deficiencias
obvias. La comunidad A puede tener más personas con la enfermedad (casos) que
la comunidad B porque su población es más grande. Para hacer una comparación,
necesitamos saber el número proporcional de casos en cada comunidad. Una vez
más, puede ser necesario especificar el momento en que o durante el cual ocurren
los eventos de interés. Así, si se observaron 500 nuevos casos de tuberculosis en
una ciudad de 2 millones de personas en 2007, decimos que 0.frecuencia alélica en
lugar de frecuencia relativa alélica, o proporción, de modo que las frecuencias
alélicas en un locus siempre suman 1. Estrictamente hablando, esta es una
terminología incorrecta, pero seguiremos esta práctica a lo largo de este libro.
A veces es más conveniente expresar proporciones multiplicadas por algún
número distinto de 100 (que da como resultado un porcentaje). Por lo tanto, los nuevos
casos de tuberculosis en una ciudad para el año 2007 podrían expresarse como 500
casos por 2 millones de personas (la población real de la ciudad), 0,025 por cien (por
ciento), 0,25 por mil o 250 por millón. Vemos que se requieren tres componentes para
expresiones de este tipo:
(i) el número de personas en las que se observa la enfermedad, anomalía
u otra característica (el numerador);
(ii) el número de individuos en la población entre los que se mide la
ocurrencia característica (el denominador);
(iii) un período específico de tiempo durante el cual se observa la enfermedad, anormalidad
o ocurrencia característica.
56
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
El numerador y el denominador deben restringirse de manera similar; si el numerador
representa un recuento de personas que tienen una característica en un grupo
particular de edad, raza y género, entonces el denominador también debe pertenecer a
ese mismo grupo de edad, raza y género. Cuando el denominador se restringe
únicamente a aquellas personas que son capaces de tener o contraer una enfermedad,
a veces se lo denominapoblación en riesgo. Por ejemplo, un hospital puede expresar su
mortalidad materna como el número de muertes maternas por cada mil partos. Las
mujeres que dieron a luz constituyen la población en riesgo de muerte materna. De
manera similar, la letalidad es el número de muertes debido a una enfermedad por
tantos pacientes con la enfermedad; aquí los individuos con la enfermedad constituyen
la población.
Todas esas expresiones son solo conversiones de conteos en proporciones o fracciones de un
grupo, con el fin de resumir datos para que se puedan hacer comparaciones entre grupos. Son
comúnmente llamadostarifas, aunque estrictamente hablando, una tasa es una medida de la rapidez de
cambio de un fenómeno, generalmente por unidad de tiempo. Expresiones como 'tasa de mortalidad
materna' y 'tasa de letalidad' se utilizan a menudo para describir estas proporciones, incluso cuando no
se trata de un concepto de tasa por unidad de tiempo. Una de las principales preocupaciones de la
epidemiología es encontrar y enumerar denominadores apropiados para describir y comparar grupos de
una manera significativa y útil. Otras dos medidas comúnmente vistas pero a menudo confusas de la
frecuencia de la enfermedad utilizadas en epidemiología son la prevalencia y la incidencia.
Elpredominiode una enfermedad es el número de casos (de esa enfermedad) en un
momento dado. La prevalencia generalmente se mide como la relación entre el número de
casos en un momento dado y el número de personas en la población de interés en ese
momento.
Elincidenciade una enfermedad es el número de casos nuevos que ocurren durante un
período de tiempo específico. Para ajustar el tamaño de la población que se observa, la incidencia
generalmente se mide como la relación entre el número de casos nuevos que ocurren durante un
período y el número de personas en el mismo.conjunto de riesgos–el conjunto de personas en
riesgo de desarrollar la enfermedad en cualquier momento del período – bajo el supuesto de que
el riesgo se mantiene constante durante todo el período de interés. Si la población es grande, la
enfermedad es relativamente rara y solo hay pequeños cambios en el conjunto de riesgos debido
a la muerte, la inmigración y la emigración, entonces el número de personas en la población al
comienzo del período proporciona una estimación adecuada del número en el riesgo fijado a lo
largo del período. Por lo tanto, si se observa que el número de casos nuevos de cardiopatía
coronaria que ocurren en una población de 742 000 hombres durante un período de 7 años es de
57 134, la tasa de incidencia se calcularía de la siguiente manera:
I=
57,134
742,000
×1000 = 77.
ESTADÍSTICAS DESCRIPTIVAS
57
La incidencia fue de 77 eventos de enfermedad coronaria por 1000 hombres inicialmente en
riesgo, durante el período de 7 años. Si esto se expresarapor año,sería una tasa real. Por lo tanto,
la tasa de incidencia fue de 11 casos por año por 1000 hombres durante el período de 7 años.
Cuando se estudia un número relativamente pequeño de personas seguidas a lo largo del
tiempo para investigar la incidencia de eventos en diferentes grupos de tratamiento o exposición,
a menudo empleamos el concepto de años-persona en riesgo.Años-persona en riesgose define
como el tiempo total que se sigue a cualquier persona en el estudio hasta que ocurre el evento de
interés, hasta que ocurre la muerte o el retiro del estudio, o hasta que se alcanza el final del
período de estudio. En este contexto, la tasa de incidencia de una enfermedad es la relación entre
el número de nuevos eventos y el número total de años-persona que se siguieron a los individuos
del grupo de riesgo. Lo ilustramos con un ejemplo muy pequeño y sencillo. Suponga que 14
hombres fueron seguidos por hasta 2 años para estimar su incidencia de enfermedad coronaria.
Además, suponga que un hombre desarrolló la enfermedad después de 6 meses (0,5 años) y un
segundo después de 14 meses (1,17 años). Por último, suponga que se siguió a un tercer hombre
solo 18 meses (1,5 años) antes de que se perdiera el seguimiento, momento en el cual se sabía
que no había tenido ningún evento asociado con la enfermedad coronaria. y los 11 hombres
restantes fueron seguidos durante los 2 años completos sin tales eventos. La tasa de incidencia se
calcularía de la siguiente manera:
I=
2
2
=
=0.0795.
0,5 + 1,17 + 1,5 +(11×2)
25.17
Así, la tasa de incidencia se estima en 0,0795 casos por persona por año o,
equivalentemente, 0,0795×1000 = 79,5 casos por 1000 hombres por año.
La Figura 3.9 demuestra la diferencia entre incidencia y prevalencia. Suponga que cada
segmento de línea representa un caso de enfermedad desde el momento del inicio (comienzo del
segmento de línea) hasta que la enfermedad ha seguido su curso (final del segmento de línea).
Además, suponga que 100.000 personas están en riesgo en un día determinado. La incidencia
para el día 1 es de 3 casos por 100.000 personas (3 nuevos segmentos de línea) y para
1
2
Día
3
4
Figura 3.9Seis casos de una enfermedad representados en el tiempo por segmentos de línea.
58
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
el día 3 es 0 casos por 100.000 personas (0 nuevos segmentos de línea). La prevalencia al final del
día 1 es de 4 por 100.000 (existen 3 segmentos de línea), y al final del día 2 es de 6 (existen 6
segmentos de línea). Debería ser obvio que dos enfermedades pueden tener una incidencia
idéntica y, sin embargo, una tendría una prevalencia mucho mayor si su duración (tiempo desde el
inicio hasta que la enfermedad ha seguido su curso) es mucho mayor.
Si la incidencia está en un estado estable, de modo que sea constante durante un período de
tiempo específico de interés, existe una relación útil entre la incidencia y la prevalencia. DejarPAG
ser la prevalencia de una enfermedad en cualquier momento,Ila incidencia yD la duración media
de la enfermedad. Entonces
PAG=I×D,
es decir, la prevalencia es igual a la incidencia multiplicada por la duración media de la enfermedad.
Usaremos esta relación más adelante en este capítulo para mostrar cómo, bajo ciertas condiciones,
podemos obtener estimaciones útiles de medidas relativas de enfermedad a partir de datos que no
están conformados para proporcionar dichas estimaciones directamente.
La incidencia mide la tasa de desarrollo de la enfermedad. Por lo tanto, es una medida del riesgo
de enfermedad y es útil para estudiar las posibles razones (o causas) del desarrollo de la enfermedad. A
menudo estudiamos la incidencia en diferentes grupos de personas y luego tratamos de determinar las
razones por las que puede ser mayor en uno de los grupos. La prevalencia mide la cantidad de
enfermedad en una población en un momento dado. Debido a que la prevalencia es una función de la
duración de una enfermedad, es más útil en la planificación de los servicios de atención de la salud para
esa enfermedad.
En los estudios genéticos, al determinar un modelo genético para la susceptibilidad a una
enfermedad con una edad de inicio variable, es importante tener en cuenta la edad de inicio de
una persona afectada y la edad actual de una persona no afectada en el análisis. Si no estamos
estudiando las causas genéticas para el desarrollo y/o la remisión de la enfermedad, sino
simplemente la susceptibilidad a la enfermedad, debemos considerar la probabilidad acumulada
de que una persona tenga o no la enfermedad a la edad de esa persona. Esta cantidad, a
diferencia de la prevalencia de la población, nunca puede disminuir con la edad.
MEDIDAS RELATIVAS DE FRECUENCIA DE ENFERMEDADES
Se han desarrollado varios métodos para medir la cantidad relativa de nuevas
enfermedades que ocurren en diferentes poblaciones. Por ejemplo, podríamos desear medir
la cantidad de enfermedad que ocurre en un grupo expuesto a alguna condición ambiental,
como fumar cigarrillos, en relación con la de un grupo no expuesto a esa condición.
ESTADÍSTICAS DESCRIPTIVAS
59
condición. Una medida utilizada para este propósito es lariesgo relativo(RR), que se define
como
RR =
tasa de incidencia de la enfermedad en el grupo expuesto
tasa de incidencia de la enfermedad en el grupo no expuesto
.
Si la incidencia de una enfermedad en particular en un grupo expuesto a alguna condición es de
30 por 100 000 por año, en comparación con una incidencia de 10 por 100 000 por año en un
grupo no expuesto a la condición, entonces el riesgo relativo (expuesto versus no expuesto) es
RR =
30 por 100.000 por año
10 por 100.000 por año
=3.
Así, decimos que el riesgo es 3 veces mayor en personas expuestas a la condición. La frase
'expuesto a una condición' se usa en un sentido muy general. Por lo tanto, se puede hablar del
riesgo relativo de espondilitis anquilosante para una persona que posee el antígeno HLA B27, en
comparación con una persona que no posee ese antígeno, aunque, por supuesto, el antígeno se
hereda de uno de los padres y no se adquiere por algún tipo de exposición ambiental (HLA denota
el sistema de antígeno leucocitario humano).
Otra medida relativa de la aparición de enfermedades es larelación de probabilidades(O). Las
probabilidades a favor de un evento en particular se definen como la frecuencia con la que ocurre el
evento dividida por la frecuencia con la que no ocurre. Para una enfermedad con una incidencia de 30
por 100.000 por año, por ejemplo, las probabilidades a favor de la enfermedad son 30/99.970. La razón
de probabilidades se define entonces como
O=
probabilidades a favor de la enfermedad en el grupo expuesto
probabilidades a favor de la enfermedad en el grupo no expuesto
.
Por lo tanto, si las incidencias son 30 por 100 000 y 10 por 100 000 como se indicó anteriormente, la razón de
probabilidades para expuestos versus no expuestos es
O=
30 / 10
=3.00006.
99,970 99,990
Puede ver en este ejemplo que, para las enfermedades raras, la razón de probabilidades se aproxima
mucho al riesgo relativo. Si los datos de incidencia están disponibles, normalmente no hay interés en
calcular una razón de probabilidades. Sin embargo, la característica atractiva de la razón de
probabilidades es que se puede estimar sin conocer realmente las incidencias. Esto se hace a menudo en
los estudios de casos y controles, que se describieron en el Capítulo 2. Supongamos, por ejemplo, que se
encuentra que 252 de 1000 casos de una enfermedad (idealmente, una muestra representativa de una
población objetivo bien definida de casos) tenían exposición previa a una condición particular, mientras
que solo 103 de 1000 controles representativos estaban expuestos de manera similar.
60
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
Estos datos no nos dicen nada sobre la incidencia de la enfermedad entre las personas
expuestas y no expuestas, pero nos permiten calcular la razón de probabilidad, que en este
ejemplo es
252/103
=2.92.
748 893
=3.00 =RR, por lo que incluso si solo estuvieran disponibles los datos de casos y controles,
Tenga en cuenta que OR = 2.92∼
podríamos estimar el riesgo relativo de desarrollar la enfermedad.
Hasta ahora, hemos utilizado datos de personas observadas a lo largo del tiempo para estimar el
riesgo (incidencia) de enfermedad y el riesgo relativo de enfermedad en personas expuestas versus no
expuestas, y datos de una muestra de casos y una segunda muestra de controles para estimar razones
de probabilidad, que, para enfermedades raras, proporcione estimaciones útiles del riesgo relativo.
Ahora consideramos una muestra representativa o sección transversal de la población que no seguimos
a lo largo del tiempo, a partir de la cual no podemos estimar la incidencia; sin embargo, podemos contar
los números que tienen la enfermedad y los que no la tienen, y en cada uno de estos grupos los
números que tienen y no han estado expuestos. A partir de este tipo de datos podemos estimar la
prevalencia de la enfermedad en el grupo expuesto frente a la del grupo no expuesto y calcular una
razón de prevalencia. DejarPAGmidenotan la prevalencia de la enfermedad entre los expuestos yPAGtula
prevalencia entre los no expuestos. Del mismo modo, dejaImi,Itu,DmiyDturepresentan las incidencias
correspondientes y la duración media de la enfermedad. Entonces la razón de prevalencia (RP) es
=
PAGmi
relaciones públicas
PAGtu
=
Imi×Dmi.
Itu×Dtu
Si la duración promedio de la enfermedad es la misma en los grupos expuestos y no expuestos,
entonces
I
Itu
PR =mi= RR.
Por lo tanto, si la igualdad de la duración de la enfermedad entre los expuestos y los no expuestos es
una suposición defendible, la tasa de prevalencia proporciona una estimación útil del riesgo relativo. A
menudo vemos en la literatura que un cociente de posibilidades se calcula a partir de datos de incidencia
cuando un riesgo relativo es más apropiado, y de datos de prevalencia cuando es preferible un cociente
de prevalencia. Esto parece deberse a que el software de computadora de fácil acceso estaba disponible
para calcular las razones de probabilidades que tienen en cuenta las variables concomitantes mucho
antes de que el software correspondiente estuviera disponible para calcular los riesgos relativos y las
razones de prevalencia análogas.
La última medida relativa de la frecuencia de la enfermedad que discutiremos es lariesgo
atribuible(AR), definida como la incidencia de la enfermedad en un grupo expuesto menos
ESTADÍSTICAS DESCRIPTIVAS
61
la incidencia de la enfermedad en un grupo no expuesto. Así, en el ejemplo anterior, el
riesgo atribuible es
AR = 30−10 = 20 por 100 000 por año.
Un exceso de 20 casos por 100.000 por año se puede atribuir a la exposición a la condición
particular. A veces expresamos el riesgo atribuible como un porcentaje de la incidencia de la
enfermedad en el grupo no expuesto. En el ejemplo anterior, tendríamos
AR% =
30 - 10
×100 = 200%.
10
En este caso podríamos decir que existe un 200% de exceso de riesgo de enfermedad en el grupo expuesto.
SENSIBILIDAD, ESPECIFICIDAD Y VALORES PREDICTIVOS
Ahora definimos algunos términos que se usan a menudo para medir la efectividad de un
procedimiento de prueba, como una prueba genética para ayudar a diagnosticar una
enfermedad. Ilustraremos estos términos utilizando la siguiente población hipotética de 10.000
personas clasificadas en función del estado de la enfermedad y su respuesta a la prueba, que
puede ser positiva o negativa con respecto a portar una variante genética específica:
Resultado de la prueba
Estado de la enfermedad
Ausente
Presente
Total
Negativo
Positivo
8820
20
8840
980
180
1160
Total
9800
200
10,000
Note primero que la prevalencia de la enfermedad en la población es 200/10,000, o 2%.
Elsensibilidadde la prueba mide qué tan bien detecta la enfermedad; es la proporción
de los que tienen la enfermedad que dan un resultado positivo. En el ejemplo la sensibilidad
es 180/200 = 0,9.
Elespecificidadde la prueba mide qué tan bien detecta la ausencia de enfermedad; es la
proporción de los que no tienen la enfermedad que dan un resultado negativo. En el
ejemplo, la especificidad es 8820/9800 = 0,9.
Siempre que la sensibilidad y la especificidad sean iguales, representan la proporción
de la población que la prueba clasifica correctamente. Así, en nuestro ejemplo, el 90%
62
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
de la población total está correctamente clasificada por la prueba. Esto no quiere decir, sin
embargo, que el 90% de los que dan positivo tengan la enfermedad. Para saber cómo
interpretar el resultado de una prueba en particular, necesitamos conocer los valores
predictivos de la prueba, que se definen como la proporción de positivos que tienen la
enfermedad y la proporción de negativos que no la tienen. Para nuestro ejemplo, estos
valores son 180/1160=0,155 y 8820/8840=0,998, respectivamente. Especialmente en el caso
de una enfermedad rara, una alta especificidad y alta sensibilidad no son suficientes para
asegurar que una gran proporción de los que dan positivo en la prueba realmente tengan la
enfermedad.
MEDIDAS DE TENDENCIA CENTRAL
Medidas detendencia central, o medidas deubicación, díganos en qué parte de nuestra
escala de medición tiende a centrarse la distribución de un conjunto de valores. Todos los
valores de la tabla 3.1, por ejemplo, se encuentran entre 45 y 287 mg/dl, y necesitamos que
nuestra medida de tendencia central esté entre estos dos valores. Si nuestros valores
hubieran sido en miligramos por litro, por otro lado, deberíamos querer que nuestra medida
de tendencia central fuera 10 veces mayor. Discutiremos tres medidas de tendencia central:
la media, la mediana y la moda. Todos tienen la propiedad (cuando se usan para describir
datos continuos) de que si cada valor en nuestro conjunto de datos se multiplica por un
número constante, entonces la medida de tendencia central se multiplica por el mismo
número. De manera similar, si se agrega una constante a cada valor, entonces la medida de
tendencia central aumenta en la misma cantidad.
Elsignificarde un conjunto de números es la medida de tendencia central más
conocida y no es más que su media numérica. Sabe, por ejemplo, que para calcular la
puntuación media de cuatro notas de prueba, suma las notas y las divide entre 4. Si sus
notas fueran 94, 95, 97 y 98, su puntuación media sería(94 + 95 + 97 + 98)/4 = 384/4 =
96.
Una de las desventajas de la media como estadística de resumen es
que es sensible a valores inusuales. La media de los números 16, 18, 20, 22
y 24 es 20 y, de hecho, 20 en este ejemplo representa el centro de estos
números. La media de los números 1, 2, 3, 4 y 90 también es 20, pero 20
no es una buena representación del centro de estos números debido al
valor inusual. Otra desventaja de la media es que, estrictamente hablando,
debe usarse solo para datos medidos en una escala de intervalo, porque
implícita en su uso está la suposición de que las unidades de la escala
tienen el mismo valor. De hecho, la diferencia entre 50 y 51 mg/dl de
triglicéridos es la misma que la diferencia entre 250 y 251 mg/dl de
triglicéridos (es decir, 1 mg/dl). Debido a esto, es significativo decir que la
media de los 30 valores de la tabla 3.1 es 111,2 mg/dl.
ESTADÍSTICAS DESCRIPTIVAS
63
apropiado sólo si cada uno de los 10 intervalos, 0 a 1, 1 a 2, etc., tuvieran el mismo valor. Sin
embargo, la media es la estadística descriptiva más utilizada porque, como veremos más
adelante, tiene propiedades estadísticas que la hacen muy ventajosa si no se presentan
valores inusuales.
Elsignificado geometricoes otro tipo de media que suele ser útil cuando los datos contienen
algunas observaciones extremas que son considerablemente más grandes que la mayoría de los otros
valores. La media geométrica de un conjunto denortevalores se define como el producto de los norte
valores de datos elevados al exponente 1/norte. Por lo general, se calcula tomando los logaritmos
naturales de cada valor, encontrando la media (aritmética) de estos datos transformados
logarítmicamente y luego transformándolos a la escala original encontrando el exponencial de la media
escalada logarítmica calculada. Para los números 1, 2, 3, 4 y 90, la media geométrica se encuentra de la
siguiente manera:
registro(1)+registro(2)+registro(3)+registro(4)+registro(90)
5
=1.5356,
gramomedia eometrica = exp(1.5356)=4.644.
Al tomar logaritmos, acercamos las observaciones grandes a las otras
observaciones y la media geométrica resultante se acerca a un centro que es
representativo de la mayoría de los datos.
Elmedianaes el valor medio en un conjunto de datos clasificados. Por lo tanto, la mediana de
los números 16, 18, 20, 22 y 24 es 20. La mediana de los números 1, 2, 3, 4 y 90 es 3. En ambos
conjuntos de números, la mediana representa en cierto sentido la centro de los datos, por lo que
la mediana tiene la ventaja de no ser sensible a valores inusuales. Si el conjunto de datos contiene
un número par de valores, entonces la mediana se encuentra entre los dos valores intermedios y,
por lo general, solo tomamos su promedio. Por tanto, la mediana de los datos de la Tabla 3.1 se
encuentra entre 90 y 93 mg/dl, y normalmente diríamos que la mediana es 91,5 mg/dl.
Apercentiles el valor de un rasgo en o por debajo del cual se encuentra el porcentaje
correspondiente de un conjunto de datos. Si su calificación en un examen está en el percentil 90,
entonces el 90% de los que tomaron el examen obtuvieron la misma calificación o una inferior. La
mediana es, por lo tanto, el percentil 50, el punto en o por debajo del cual se encuentra el 50% de
los puntos de datos. La mediana es una medida adecuada de tendencia central para datos
medidos en un intervalo o en una escala ordinal, pero no puede usarse para datos nominales.
Elmodose define como el valor que ocurre con mayor frecuencia en un conjunto de
datos. Por lo tanto, para los datos 18, 19, 21, 21, 22, el valor 21 ocurre dos veces, mientras
que todos los demás valores ocurren solo una vez, por lo que 21 es la moda. En el caso de
datos continuos, la moda está relacionada con el concepto de pico en la distribución de
frecuencias. Si solo hay un pico, se dice que la distribución esunimodal; si hay dos picos, se
dice que esbimodal, etc. Por lo tanto, la distribución representada en la Figura 3.1 es
unimodal, y la moda está claramente entre 180 y 190 mg/dl.
64
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
Una ventaja de la moda es que puede usarse para datos nominales: la categoría modal es
simplemente la categoría que ocurre con mayor frecuencia. Pero a menudo es difícil de usar para
una pequeña muestra de datos continuos. ¿Cuál es, por ejemplo, la moda de los datos de la tabla
3.1? Cada valor ocurre exactamente una vez, entonces, ¿debemos decir que no hay moda? Los
datos se pueden agrupar como en la Figura 3.2, y luego parece que la categoría de 70 a 90 mg/dl
es la más frecuente. Pero con esta agrupación también vemos picos (y, por lo tanto, modas) en
150–190, 210–230 y 270–290 mg/dl. Por esta razón, la moda se utiliza con menos frecuencia como
medida de tendencia central en el caso de datos continuos.
MEDIDAS DE DISPERSIÓN O VARIABILIDAD
Suponga que obtiene una puntuación del 80 % en un examen y el promedio de la clase es
del 87 %. Suponga que también le dicen que las calificaciones oscilaron entre 79% y 95%.
Obviamente, se sentiría mucho mejor si le hubieran dicho que la diferencia era del 71 % al
99 %. El punto aquí es que a menudo no es suficiente conocer la media de un conjunto de
datos; más bien, es de interés conocer la media junto con alguna medida de dispersión o
variabilidad.
Elrangoes el valor mayor menos el valor menor. Proporciona una medida simple
de variabilidad pero es muy sensible a uno o dos valores extremos. El rango de los
datos en la Tabla 3.1 es 287 − 45 = 242 mg/dl, pero sería solo 173 mg/dl si faltaran los
dos valores más grandes.rangos de percentilesson menos sensibles y proporcionan
una medida útil de la dispersión de los datos. Por ejemplo, se puede utilizar el percentil
90 menos el percentil 10 o el percentil 75 menos el percentil 25. Este último se llama el
rango intercuartil. Para los datos de la Tabla 3.1, el rango intercuartílico es 124 − 67 =
57 mg/dl. (Para 30 valores no podemos obtener los percentiles 75 y 25 con precisión,
por lo que tomamos los siguientes percentiles más bajos: 124 es el 22 de 30 valores, o
percentil 73, y 67 es el 7 de 30, o percentil 23). los dos valores más grandes faltaban en
la tabla, el rango intercuartílico sería 123 − 67 = 56 mg/dl, casi lo mismo que para los 30
valores.
Eldiferenciao su raíz cuadrada, laDesviación Estándar, es quizás la medida de
variabilidad más utilizada. La varianza, denotadas2, es básicamente la desviación cuadrática
promedio de la media. Calculamos la varianza de un conjunto de datos de la siguiente
manera:
1. Reste la media de cada valor para obtener una 'desviación' de la media.
2. Eleva al cuadrado cada desviación de la media.
3. Sume los cuadrados de las desviaciones de la media.
4. Divide la suma de cuadrados por uno menos que el número de valores en el conjunto de datos.
ESTADÍSTICAS DESCRIPTIVAS
Así, para los números 18, 19, 20, 21 y 22, encontramos que la media es(18 + 19 + 20 +
21 + 22)/5 = 20, y la varianza se calcula de la siguiente manera:
1. Reste la media de cada valor para obtener una desviación de la media, que
llamaremosd:
d
18 – 20 = –2
19 – 20 = –1
20 – 20 = 0
21 – 20 = +1
22 – 20 = +2
2. Elevar al cuadrado cada desviación,d, para obtener cuadrados de desviaciones,d2:
d
d2
−2
−1
0
+1
+2
4
1
0
1
4
3. Suma los cuadrados de las desviaciones:
4 + 1 + 0 + 1 + 4 = 10.
4. Divide la suma de los cuadrados por uno menos que el número de valores en el conjunto de
datos:
Varianza =s2=
10
10
=
=2.5.
5-1
4
La desviación estándar es solo la raíz cuadrada de la varianza; es decir, en este
ejemplo,
√
Desviación estándar =s=2,5 = 1,6.
Observe que la varianza se expresa en unidades al cuadrado, mientras que la desviación
estándar da resultados en términos de las unidades originales. Si, por ejemplo, el original
sesenta y cinco
66
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
las unidades para los datos anteriores eran años (por ejemplo, años de edad), luegos2serían 2.5
(años)2, ysserían 1,6 años.
Como segundo ejemplo, suponga que los números fueran 1, 2, 3, 4 y 90. Nuevamente,
el promedio es(1 + 2 + 3 + 4 + 90)/5 = 20, pero los datos son bastante diferentes a los del
ejemplo anterior. Aquí,
(1 - 20)2+(2 - 20)2+(3 − 20)2+(4 - 20)2+(90 - 20)2
4
(−19)2+(−18)2+(−17)2+(−16)2+ 702
=
4
6130
=1532.5.
=
4
s2=
√
La desviación estándar ess=1532,5 = 39,15. Por lo tanto, se puede ver que la variance y la desviación estándar son mayores para un conjunto de datos que obviamente es más
variable.
Dos preguntas que puede tener con respecto a la varianza y la desviación estándar son: ¿Por
qué elevamos al cuadrado las desviaciones y por qué dividimos por uno menos que el número de
valores en el conjunto de datos que se está considerando? Mire hacia atrás en el paso 2 y vea qué
sucedería si no elevamos al cuadrado las desviaciones, sino que simplemente sumamos las
desviaciones no cuadradas representadas arriba pord. Debido a la forma en que se define la
media, ¡las desviaciones siempre suman cero! La cuadratura es un dispositivo simple para evitar
que esto suceda. Sin embargo, cuando promediamos las desviaciones al cuadrado, dividimos por
uno menos que el número de valores en el conjunto de datos. La razón de esto es que conduce a
una estimación no sesgada, un concepto que explicaremos más detalladamente en el Capítulo 6.
Por el momento, solo tenga en cuenta que si el conjunto de datos consiste en un número infinito
de valores (lo cual es conceptualmente posible para un conjunto población), no importaría si
restamos o no uno del divisor.
La última medida de dispersión que discutiremos es lacoeficiente de variación.
Esta es la desviación estándar expresada como una proporción o porcentaje de la
media. Es una medida adimensional y, como tal, es un índice descriptivo útil para
comparar la variabilidad relativa en dos conjuntos de valores donde los datos en los
diferentes conjuntos tienen distribuciones bastante diferentes y, por lo tanto,
desviaciones estándar diferentes. Supongamos, por ejemplo, que deseamos comparar
la variabilidad del peso al nacer con la variabilidad del peso adulto. Claramente, en una
escala absoluta, los pesos al nacer deben variar mucho menos que los pesos de los
adultos simplemente porque necesariamente se limitan a ser mucho más pequeños.
Como un ejemplo más extremo, supongamos que deseamos comparar la variabilidad
en los pesos de las hormigas y los elefantes. En tal situación, tiene más sentido
expresar la variabilidad en una escala relativa. De este modo,
ESTADÍSTICAS DESCRIPTIVAS
67
diferencia entre sus coeficientes de variación. Como ejemplo, suponga que la media de un
conjunto de niveles de colesterol es de 219 mg/dl y la desviación estándar es de 14,3 mg/dl. El
coeficiente de variación, como porcentaje, es entonces
CV% =
=
Desviación Estándar
significar
1,43 mg/dl
219 mg/dl
×100
×100
=6.5.
Esto podría entonces compararse con, por ejemplo, el coeficiente de variación de los niveles
de triglicéridos.
MEDIDAS DE FORMA
Hay muchas otras estadísticas descriptivas, algunas de las cuales se mencionarán en
capítulos posteriores de este libro. Concluiremos este capítulo con los nombres de algunas
estadísticas que describen la forma de las distribuciones. (Las fórmulas para calcular estas
estadísticas, así como otras, se presentan en el Apéndice).
significar
modo
mediana
sesgado negativamente
significar
modo
mediana
Simétrico
modo
significar
mediana
Positivamente sesgado
Figura 3.10Ejemplos de sesgo negativo, simétrico y sesgo positivo
distribuciones.
Elcoeficiente de asimetríaes una medida de simetría. Una distribución simétrica tiene un
coeficiente de asimetría que es cero. Como se ilustra en la Figura 3.10, una distribución que tiene
una cola extendida hacia la izquierda tiene un coeficiente de asimetría negativo y se dice que es
sesgado negativamente; uno que tiene una cola extendida hacia la derecha tiene un coeficiente de
asimetría positivo y se dice que essesgado positivamente. Tenga en cuenta que en una
distribución unimodal simétrica, la media, la mediana y la moda son todas iguales. en un
68
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
distribución asimétrica unimodal, la mediana siempre se encuentra entre la media y la
moda. Los valores de triglicéridos séricos en la Tabla 3.1 tienen un coeficiente de asimetría
positivo, como puede verse en el histograma de la Figura 3.2.
Elcoeficiente de curtosismide el pico de una distribución. En el Capítulo 6
discutiremos una distribución muy importante, llamada distribución normal, para la
cual el coeficiente de curtosis es 3. Una distribución con un coeficiente mayor que este
es leptocúrtica ('lepto' significa esbelta), y una con un coeficiente menor que esto es
platykurtic ('platy' significa plano o ancho). La curtosis, o pico, también se mide a
menudo por el 'cuarto cumulante' estandarizado (denotadogramo2), también llamado
exceso de curtosis, que es el coeficiente de curtosis menos 3; en esta escala, la
distribución normal tiene curtosis cero. En la figura 3.11 se ilustran diferentes grados
de curtosis.
Coeficiente
de curtosis:
gramo2:
>3
>0
3
0
<3
<0
<3
<0
Bimodelo
Figura 3.11Ejemplos de distribuciones simétricas con coeficiente de curtosis mayor
de 3(gramo2>0), igual a 3(gramo2=0, como para una distribución normal), y menos de 3(gramo2<0).
RESUMEN
1.Los datos continuos surgen solo de rasgos cuantitativos, mientras que los datos
categóricos o discretos surgen de rasgos cuantitativos o cualitativos. Los datos
continuos se miden en una escala de intervalo, los datos categóricos en una escala
ordinal (que se puede ordenar) o nominal (solo nombre).
2.Las estadísticas descriptivas, las tablas y los gráficos resumen las características esenciales de un
conjunto de datos.
3.Una tabla debe ser fácil de leer. El título debe indicar lo que se tabula, con
las unidades de medida.
4.Los gráficos de barras se utilizan para datos discretos, histogramas y polígonos de frecuencia para
datos continuos. Un gráfico acumulativo tiene la ventaja de que todos los puntos de datos se
pueden representar en él. Un gráfico de dispersión o diagrama de dispersión ilustra la relación
ESTADÍSTICAS DESCRIPTIVAS
69
entre dos medidas. Un diagrama de árbol muestra una secuencia de acciones y/o
resultados.
5.Las proporciones y las tasas permiten comparar cuentas cuando los denominadores se eligen
apropiadamente. El término 'tasa' indica correctamente una medida de la rapidez del cambio,
pero a menudo se usa para indicar una proporción multiplicada por algún número distinto
de 100. La prevalencia es el número o la proporción de casos presentes en un momento
determinado; La incidencia es el número o proporción de casos nuevos que ocurren en un
período específico.
6.El riesgo relativo es la incidencia de enfermedad en un grupo expuesto a una condición
particular, dividida por la incidencia en un grupo no tan expuesto. La razón de posibilidades
es la relación entre las posibilidades a favor de una enfermedad en un grupo expuesto y las
posibilidades en un grupo no expuesto. En el caso de una enfermedad rara, el riesgo relativo
y la razón de posibilidades son casi iguales. El riesgo atribuible es la incidencia de una
enfermedad en un grupo con una condición particular menos la incidencia en un grupo sin la
condición, a menudo expresado como un porcentaje de esta última.
7.La sensibilidad de una prueba es la proporción de personas con la enfermedad que dan
un resultado positivo. La especificidad de una prueba es la proporción de personas sin
la enfermedad que dan un resultado negativo. En el caso de una enfermedad rara, es
muy posible que la prueba tenga un valor predictivo bajo aunque ambos sean altos. Los
valores predictivos se definen como la proporción de positivos que tiene la enfermedad
y la proporción de negativos que no tiene la enfermedad.
8.Tres medidas de tendencia central, o ubicación, son la media (promedio aritmético),
la mediana (percentil 50) y la moda (uno o más valores máximos). Los tres son
iguales en una distribución simétrica unimodal. En una distribución asimétrica
unimodal, la mediana se encuentra entre la media y la moda.
9.Tres medidas de dispersión, o variabilidad, son el rango (valor más grande menos valor
más pequeño), el rango intercuartílico (percentil 75 menos percentil 25) y la desviación
estándar (raíz cuadrada de la varianza). La varianza es básicamente la desviación media
al cuadrado de la media, pero el divisor utilizado para obtener este promedio es uno
menos que el número de valores que se promedian. La varianza se expresa en unidades
al cuadrado, mientras que la desviación estándar se expresa en las unidades originales
de los datos. El coeficiente de variación, que es adimensional, es la desviación estándar
dividida por la media (y multiplicada por 100 si se expresa en porcentaje).
10Una distribución asimétrica puede tener un sesgo positivo (cola a la derecha) o un sesgo
negativo (cola a la izquierda). Una distribución puede ser leptocúrtica (con pico) o platicúrtica
(con la parte superior plana o multimodal).
70
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
OTRAS LECTURAS
Elandt-Johnson, RC. (1975) Definición de tarifas: Algunas observaciones sobre su uso y mal uso.
Revista americana de epidemiología102: 267–271. (Esto brinda definiciones muy precisas de
razones, proporciones y tasas; una comprensión completa de este documento requiere
cierta sofisticación matemática).
Stevens, SS (1946) Sobre la teoría de las escalas de medida.Ciencia103: 677–680. (Este
artículo define con más detalle cuatro categorías jerárquicas de escalas para medidas:
nominal, ordinal, de intervalo y de razón.)
Wainer, H. (1984) Cómo mostrar mal los datos.estadístico estadounidense38: 137–147. (Aunque
apuntado en la dirección equivocada, este es un artículo serio. Ilustra los 12 métodos más
poderosos (la docena sucia) de mal uso de gráficos).
PROBLEMAS
1.Se utiliza una escala nominal para
A. todos los datos categóricos
B. datos discretos con categorías que no siguen una secuencia natural
C. datos continuos que siguen una secuencia natural
D. datos discretos con categorías que siguen una secuencia natural
E. datos cuantitativos
2.Las siguientes son las incidencias anuales promedio por millón de cánceres
testiculares, Nueva Orleans, 1974–1977:
Edad
15–19
20–29
30–39
40–49
50–59
60–69
70+
Blanco
Negro
29.4
13.4
9.5
49.8
0.0
22.2
0.0
0.0
113.6
91.0
75.5
50.2
0.0
38.2
Riesgo relativo
2.2
12.0
1.8
—
2.3
—
—
Con base en estos datos, ¿cuál de los siguientes es cierto para los hombres de Nueva Orleans,
1974–1977?
R. No hay diferencia en el riesgo de desarrollar cáncer testicular entre
negros y blancos.
B. Las probabilidades de desarrollar cáncer testicular son mayores en los negros que en los
blancos.
ESTADÍSTICAS DESCRIPTIVAS
71
C. La diferencia racial en el riesgo de desarrollar cáncer testicular no puede
determinarse a partir de estos datos.
D. El riesgo de desarrollar cáncer testicular es mayor en los blancos que en los negros en
prácticamente todos los grupos de edad.
3.Hacer referencia al diagrama de abajo. Cada línea horizontal en el diagrama
indica el mes de inicio y el mes de finalización de uno de los 24 episodios de la
enfermedad. Suponga una población expuesta de 1000 individuos cada mes.
Ene
Feb
Mar
Abr
Mayo
Jun
Jul
Ago
Sep
Oct
Nov
Dic
(i) La incidencia de esta enfermedad durante abril fue
A. 2 por 1000
B. 3 por 1000
C. 6 por 1000
D. 7 por 1000
E. 9 por 1000
(ii) La prevalencia el 31 de marzo fue
A. 2 por 1000
B. 3 por 1000
C. 6 por 1000
D. 7 por 1000
E. 9 por 1000
4.La incidencia de cierta enfermedad durante 1987 fue de 16 por 100.000
personas. Esto significa que por cada 100.000 personas en la población de
interés, 16 personas
A. tenía la enfermedad el 1 de enero de 1987
B. tenía la enfermedad el 31 de diciembre de 1987
C. desarrolló la enfermedad durante 1987
72
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
D. desarrolló la enfermedad cada mes durante 1987
E. tuvo una enfermedad con una duración de 1 mes o más durante 1987
5.Un gran estudio sobre el cáncer de vejiga y el tabaquismo produjo los
siguientes datos:
Incidencia de cáncer de vejiga (por
100.000 hombres por año)
fumadores de cigarrillos
no fumadores
48.0
25.4
El riesgo relativo de desarrollar cáncer de vejiga para los hombres fumadores de cigarrillos en
comparación con los hombres no fumadores es
A 48,0/25,4 = 1,89
B desconocido
C 48,0 − 25,4 = 22,6
D 48,0
MI.(48,0 − 25,4)/48,0 = 0,47
6.Tanto la especificidad como la sensibilidad de una prueba diagnóstica para una determinada
enfermedad son de 0,99. Todo lo siguiente es necesariamente cierto excepto
A. una persona que da positivo en la prueba tiene un 99% de posibilidades de tener la
enfermedad
B. una persona sin la enfermedad tiene un 99 % de posibilidades de dar negativo en la
prueba
C. una persona tiene un 99% de posibilidades de ser clasificada correctamente por la prueba
D. una persona con la enfermedad tiene un 99% de posibilidades de dar positivo en la
prueba
7.Se informa que la especificidad de una prueba es de 0,80. Esto significa que
A. la prueba da el resultado correcto en el 80% de las personas examinadas
B. la enfermedad está presente en el 80% de las personas que dan positivo
C. la enfermedad está ausente en el 80% de las personas que dan negativo
D. la prueba es positiva en el 80% de las personas analizadas que tienen la
enfermedad
E. la prueba es negativa en el 80% de las personas evaluadas que no tienen la enfermedad
8.La mayoría de los valores en un pequeño conjunto de datos oscilan entre 0 y 35. Sin
embargo, los datos están muy sesgados, con algunos valores tan grandes como 55 a
60. La mejor medida de tendencia central es la
ESTADÍSTICAS DESCRIPTIVAS
73
Un sentido
B mediana
modo C
D. desviación estándar
gama E
9.La media y la desviación estándar proporcionan un resumen útil de un conjunto de
datos. ¿Cual de los siguientes es verdadero?
A. La media es el valor medio (percentil 50) y la desviación estándar es
la diferencia entre los percentiles 90 y 10.
B. La media es el promedio aritmético y la desviación estándar mide la
medida en que las observaciones varían o son diferentes de la
media.
C. La media es la observación que ocurre con mayor frecuencia y la
desviación estándar mide la longitud de una desviación.
D. La media es la mitad de la suma del valor más grande y más pequeño y la
desviación estándar es la diferencia entre las observaciones más grande y más
pequeña.
E. Ninguna de las anteriores.
10Todas las siguientes son medidas de dispersión excepto
A. varianza
B gama
modo C
D. desviación estándar
E. coeficiente de variación
11Se registró la estatura en centímetros de los estudiantes de segundo año
de medicina. Se calculó la varianza de estas alturas. la unidad de medida
para la varianza calculada es
√
A. centímetros
B. centímetros
C. (centímetros)2
D. unidad libre
E. ninguna de las anteriores
12Se encontró que la desviación estándar para los datos del Dr. A era de 10 unidades, mientras que
para los datos del Dr. B se encontró que era de 15 unidades. Esto sugiere que los datos del Dr. A
son
A. mayor en magnitud en promedio
B. sesgado a la derecha
C. menos variable
74
BIOESTADÍSTICA BÁSICA PARA GENÉTICOS Y EPIDEMIÓLOGOS
D imparcial
E unimodal
13Considere los siguientes conjuntos de niveles de colesterol en miligramos por decilitro
(mg/dl):
Juego 1: 200, 210, 190, 220, 195
Juego 2: 210, 170, 180, 235, 240
La desviación estándar del conjunto 1 es
A. el mismo que el del set 2
B. menor que el del conjunto 2
C. mayor que la del conjunto 2
D. igual a la media del conjunto 2
E. indeterminable a partir de estos datos
14El siguiente es un histograma para las frecuencias del pulso de 1000 estudiantes:
200
Numero de estudiantes
175
150
125
100
75
50
25
0
60
sesenta y cinco
70
75
80
85
90
95
100
Pulso en latidos por minuto
¿Cuál de los siguientes está entre 70 y 75 latidos por minuto?
A. El modo de distribución
B. La mediana de la distribución
C. La media de la distribución
D. El rango de la distribución
E. Ninguna de las anteriores
ESTADÍSTICAS DESCRIPTIVAS
relativo acumulativo
frecuencia (%)
15.La siguiente gráfica acumulativa se derivó del pulso de 1000
estudiantes:
100
90
80
70
60
50
40
30
20
10
60
70
80
90
100
Pulso en latidos por minuto
¿Cuál de las siguientes es falsa?
A. El rango de distribución es de 60 a 100 latidos por minuto.
B. El modo de distribución es 100 latidos por minuto.
C. La mediana de la distribución es de 77 latidos por minuto.
D. El 92% de los valores son inferiores a 90 latidos por minuto.
E. El 94% de los valores son superiores a 65 latidos por minuto.
75
Descargar