Tablas y gráficos 2004

Anuncio
Epidemiología
Tablas y Gráficos en Investigación
Pablo César Riquelme M. 2004
TABLAS & GRÁFICOS
La presentación de los datos es fundamental en un trabajo de investigación. A
veces en una tabla está lo principal que se obtuvo en una investigación y ustedes
deben tratar de entenderla, entonces vean como este caballero dice que muchas
veces es el cerebro de un artículo.
“La presentación de los datos en cuadros es a menudo el corazón, o mejor aún,
el cerebro de un artículo científico.”
Peter Morgan.
La presentación de los datos en un trabajo de investigación o en un artículo la
pueden encontrar en tablas y gráficos, como también puede aparecer en el texto
escrito. La mayoría de los investigadores cuando escriben un articulo científico
colocan en el texto lo fundamental y hacen referencia en tablas y gráficos.
Ustedes deben tratar de no ser redundantes, o sea no repetir. Lo que esté en
tablas o gráficos no debiera estar nuevamente representado en el trabajo.
Representación de datos:
 En el texto
 En tablas
 En gráficos
 NUNCA PRESENTAR LOS DATOS EN MÁS DE UNA FORMA.
Las tablas, en primer lugar, son la forma de ordenar los datos en filas y
columnas, eso es una tabla en resumidas cuentas y es la forma de representar de
forma ordenada los resultados de un trabajo para que las personas puedan
entender de mejor forma. Cuando uno hace una investigación epidemiológica o
un estudio de casos controles o una investigación de cualquier ámbito y ve
muchas muestras y muchos pacientes, no tienen para que publicar todo lo que
encontraron en cada uno de los pacientes o en cada una de las muestras que
analizaron, tienen que resumir eso y esa forma de resumir y ordenar las cosas es
presentándola en tablas y en gráficos.
Las tablas estadísticas sirven para presentar en forma ordenada los datos
numéricos obtenidos en algún estudio.
¿Cuándo hacer tablas?
 Las tablas van a presentar los datos que sean más representativos, no
tiene para que representar todo.
 Para mostrar datos que indican cambios importantes.
No hacer tablas cuando....
 Cuando la cosa sea muy fome, vale decir todos los pacientes tienen el
mismo resultado, o sea los datos son idénticos o repetitivos.
 Cuando es más fácil decir una cosa en palabras que hacer una tabla.
1
Epidemiología
Tablas y Gráficos en Investigación
Pablo César Riquelme M. 2004

Si los resultados no son significativos. Uno usa los resúmenes de las
observaciones y los hace es cuando hay diferencias significativas y si no las
hay no es necesario hacer tablas.
La tabla debe tener título y unas rayitas para que la gente entienda mejor, unas
rayas horizontales que permitan definir donde está el encabezado y donde está
separando los totales del contenido principal de la tabla.
En esta tabla debe estar el título y si hay una abreviatura debe ser explicada.
Acá tenemos por ejemplo, la distribución de pacientes con Síndrome de Sjögren
primario y secundario. El INE todo el mundo sabe lo que es, así que esa
abreviatura no tiene para que explicarla.
Al hacer una tabla siga algunas etapas.
Principales etapas en la construcción de una tabla:
1. Van a poner el propósito que tiene una tabla.
2. Debe tener un título, un encabezado. Cuando en un trabajo se usan muchas
tablas deben ir numeradas, en algunas partes le piden que las numere con
números romanos y en otras partes con números arábigos, tiene que seguir las
indicaciones de los editores cuando uno va a publicar un articulo.
Ej.: Tabla 1. Distribución de pacientes...
3. Asigne las escalas de clasificación de las filas y de las columnas, que es lo que
va a colocar. La variable dependiente va a estar en las columnas (eso es una
norma).
4. Coloque los datos obtenidos y complete a veces con porcentajes,
especialmente en las variables que son nominales u ordinales. En caso de
variables intervalares generalmente siempre debe estar el n , el promedio y la
desviación estándar.
Defina el propósito de la tabla.
Eso es determine como va a clasificar las observaciones que va a colocar en una
tabla. Hoy en día con la ayuda de los computadores y los software estadísticos
cuando uno ya tiene los datos ingresados al computador, el software como por
ejemplo el SPCS o el Syntax o el Excel, usted fácilmente puede hacer una tabla
y usted la copia y la pega a su documento en Word pero tiene que tener el
concepto claro. Al ordenar los datos se le hará más fácil elaborar la tabla.
Además una vez que tenga sus datos en la tabla eso simplifica después entender
que análisis estadístico habría que hacer sobre esos datos.
Definir los propósitos de la tabla ayuda a determinar los criterios de clasificación
de las tablas y el sentido en que deben analizarse los datos.
De acuerdo a los propósitos se distinguen:
 Tablas de distribución de frecuencias: el material se clasifica de acuerdo
a un sólo criterio.
 Tablas de asociación: en la cual se desea mostrar la asociación entre dos
o más variables en las unidades de observación.
2
Epidemiología
Tablas y Gráficos en Investigación
Pablo César Riquelme M. 2004
El título.
El título debe decir por lo menos lo que hay adentro de la tabla. Qué es lo que
está presentando adentro de esa tabla. Como se clasificaron los datos.
Generalmente, muchas veces uno no tiene ni que explicar porque se entiende
fácilmente lo que quiere decir esa tabla. (Ej.: Si usted pone hombres, mujeres,
no tiene para que decir “clasifiqué esta tabla de acuerdo al género”, ¿para qué?)
Usted mira y entiende. Donde se registraron los datos y cuando se registraron los
datos , a veces es necesario en la tabla que aparezca en el título cuando esa
tabla se presenta de forma aislada, como por ejemplo en un congreso. (Lo de
donde y cuando eso lo va encontrar en la sección de materiales y métodos,
entonces no siempre es necesario que esté ahí en el título pero si hay una
variación en la recopilación de los datos es bueno que esté ahí, en el título).
El título debe especificar:
 Qué presenta.
 Cómo se clasifican las unidades de observación.
 Dónde fueron registrados los datos.
Casos especiales.
A veces hay casos especiales:
Tablas con pocos datos, títulos muy cortos, a veces hay secuencias de tablas que
están relacionadas una con otra, entonces no hay para qué estar repitiendo todos
los títulos si son la continuación una de otra, lo hay que hacer es ir siguiendo el
orden para entenderlas. Al pie de la tabla es necesario colocar generalmente las
abreviaturas, pueden también poner algo acerca del origen de los datos, el
análisis estadístico que se hizo o la significancia estadística generalmente con
una letra más pequeña y cualquier cosa que deba ser aclarada porque haya
una inconsistencia en los datos dentro de esa tabla, por ejemplo los totales a
veces puede que no coincidan y tiene que explicar porque no lo hacen (Ej.: un
paciente que se retiró del estudio o algún paciente que presenta más de una
característica, entonces puede estar en varias categorías asignadas.)
Asigne las escalas de clasificación a las filas y columnas.
La primera columna generalmente es la definición, por ejemplo si es un estudio
por género, entonces están hombre y mujer definidos en la primera columna. A
estos hombres y mujeres usted les midió la presión sistólica, el valor de la
presión va a estar al lado derecho de cada género. A veces puede que tenga más
de un criterio de clasificación, entonces usted tiene género hombre y mujeres y
dice hombre menores de 20 años y hombres mayores de 20 años, ahí además
subdivide, por lo tanto tiene un mayor número de grupos en la primera columna
y los puede ir subdividiendo. Y eso le va ir complicando las cosas, pero es
necesario hacerlo, algunas veces por el objetivo que puede tener un estudio. Lo
más sencillo es que tenga un solo criterio de clasificación pero también puede
haber más de un criterio para clasificar los datos en esa tabla.
3
Epidemiología
Tablas y Gráficos en Investigación
Pablo César Riquelme M. 2004
Un criterio de clasificación:
 Primera columna.
Más de un criterio de clasificación:
 Escala con mayor número de grupos en la primera columna.
Dos escalas de clasificación, una se refiere a los antecedentes y la otra a las
consecuencias:
 Antecedentes en la columna a la izquierda.
 Consecuencias en la fila superior.
Con más de dos criterios de clasificación comienza a enredarse la tabla, se
dificulta la lectura de esa tabla. Pueden ser útiles a veces como tablas de
referencia como algunas tablas que publica el Instituto Nacional de Estadísticas
(INE) en ellas ve la tabla de población de Chile, está por ejemplo la región,
comuna y dentro de las comunas puede que esté agrupada por hombre y
mujeres, entonces se va subdividiendo, son tablas largas y más complicadas y
también se pueden estar dividiendo las columnas por grupos de edades. Entonces
esa tablas le sirven como tablas de trabajo, para buscar información, pero son
un poco más enredadas.
Tablas de más de dos criterios de clasificación:
 Presentan dificultades de lectura y debieran evitarse como tablas de
presentación en publicaciones.
 Son útiles como tablas de referencia para colocarlas en anexos de
trabajos.
 Sirven como tablas de trabajo para resumir todos los datos y poder
extraer de ellas tablas más sencillas.
Totales marginales.
Al colocar los datos muchas veces es necesario poner los totales. Los totales en
una tabla pueden estar en las filas, en las comunas o ambos y es bueno estar
revisando que coincidan esos totales. Generalmente esos totales se obtienen por
la suma de la horizontal y vertical. Si esos totales no se obtuvieron así, por la
suma y no coincide con los valores reales debe decir porqué.
Porcentajes.
Puede colocar porcentajes de acuerdo al total de la columna o de la fila y
muchas veces en las variables nominales y ordinales es necesario que coloque los
porcentajes porque a la persona le queda como más fácil entender. (Es más fácil
entender 5% que 1 de 20). No use porcentajes cuando tiene muy pocos datos. Por
ejemplo, estudió una enfermedad muy rara y encontró que de 5 pacientes sólo
había 1 mujer, no tiene para qué calcular el porcentaje porque la mayoría de los
humanos pueden darse cuenta que ese 1 de 5 es el 20%, no se usa en tan pocas
observaciones para tal característica.
4
Epidemiología
Tablas y Gráficos en Investigación
Pablo César Riquelme M. 2004
Tablas de contingencia 2 X 2
RESFRÍA
DEPORTE
SI
NO
Total
SI
16
14
30
NO
20
30
50
Total
36
44
80
Pueden poner en las columnas la variable dependiente si se resfrían, aquí
también se evaluó si hacen deporte o no... Cada observación tiene una
característica . A partir de estos datos puede sacar porcentajes, el porcentaje
de la columna es el que interesa.
Cuando tenemos estas tablas de 2 x 2, cada uno de los cuadrados aquí adentro de
la tabla la vamos a llamar CELDA (en inglés cell) y se usa una letra para
denominarla, la a, b, c y d. Entonces la suma de las columnas es sencilla. Estas
tablas pueden utilizarlas en la evaluación de test de diagnóstico, por ejemplo se
hace un test para ver si los pacientes tienen SIDA y puede obtener falsos
positivos (se hace el test y dice que tiene la condición cuando en la realidad no
la tiene) y falsos negativos (el gallo fue a una fiesta anoche y se contagió el SIDA
y va en la mañana a hacerse el examen y le sale negativo aunque se acaba de
contagiar). Entonces cuando tenemos una condición existe la posibilidad de tener
una verdad positiva, una verdad negativa, falsos positivos y falsos positivos.
Lo otro que puede haber que la persona no tenga le enfermedad y lo lógico es
que el test le diga que no tiene la enfermedad lo que sería una verdad negativa.
(Se desprende que la verdad positiva vendría siendo cuando el test le indica que
sí tiene la enfermedad y en realidad sí la padece).
En odontología se utiliza mucho este tipo de tablas para realizar los test de
sensibilidad y especificidad que es basado en estas tablas que se usan en
diagnóstico donde le den falsos negativos o falsos positivos o verdaderos
negativos o verdaderos positivos. La sensibilidad es la proporción de sujetos con
la enfermedad que tiene el test positivo o sea la sensibilidad de un test se
obtiene al dividir los verdaderos positivos por la suma de esa columna a + c. (Hay
que ver la tabla que describe el profesor) Y la especificidad de un test es la
proporción de sujetos sin la enfermedad y que tienen el test negativo o sea la
especificidad de un test es dividir la b, los verdaderos negativos por el total de
esa columna b / b + d.
Por ejemplo si una mamá tiene úlcera en el estómago y se busca si los hijos
tienen el germen, en caso de que no lo tengan, el estudio presentará una
sensibilidad baja y la especificidad va a ser alta por ejemplo si la mamá no tiene
el germen lo mas probable es que los niños tampoco presenten el helicobacter
pilori.
5
Epidemiología
Tablas y Gráficos en Investigación
Pablo César Riquelme M. 2004
Eso de sensibilidad y especificidad se usa mucho en tablas de diagnóstico en la
que uno quiera evaluar la capacidad de un test para detectar las personas que
pueden presentar la infección, o sea que pueden dar positivo o que pueden dar
negativo en un examen determinado y eso se puede dar en cualquier examen que
se aplique en medicina u odontología. Eso es para evaluar si tiene la condición o
no la tiene. Una variable nominal.
En una variable intervalar, en las cuales por ejemplo hemos medido un
promedio, tenemos que presentar los datos así, un título, el grupo femenino, el
masculino, el n, el promedio la desviación estándar. Y generalmente al pie de la
tabla esto se compara con test estadístico que ustedes verán en quinto año.
¿Cómo hacer gráficos de todo esto?
Generalmente a las personas les queda todo mucho más claro cuando ven un
gráfico y estos gráficos pueden ser la parte medular de la presentación o de un
artículo científico. Es una lata cuando uno lee un artículo científico o ve un
trabajo y se encuentra con puros números y tablas, es más entretenido verlos
representados en gráficos porque uno puede apreciar como se relacionan los
datos o cual es la tendencia que existe.
El gráfico es la representación en el plano de datos numéricos, con el fin de
obtener una impresión visual conjunta que facilita la comprensión del material
presentado.
El objetivo de la mayoría de los gráficos es presentar distribuciones de
frecuencia o asociaciones entre dos o más variables investigadas.
Un gráfico es la representación en el plano de datos numéricos y existen muchos
software que permiten hacer estos gráficos. De estos hay distintos tipos. Y deben
tener algunas características. No se hacen al lote. Tiene que aprender a usar el
Excel.








Debe ser sencillo y auto explicativo, ojalá con poca cantidad de
elementos lo suficiente para entender, cómodo a la vista.
Representar fielmente los hechos.
No impresionar con colores extremadamente llamativos ni falsear la
realidad
Ni modificando las escalas
Ni utilizar los gráficos tridimensionales.
Evitar colores que molestan a la vista por ejemplo con color morado sobre
un fondo negro o colores muy chillones.
Cuando hace cajas se rellena con color pero no con rayas y si las ocupa
prefiera las oblicuas (esto lo saben muy bien las mujeres porque si es
chica y se pone un traje de rayas generalmente se ve más chica o una
gorda que usa traje de rayas horizontales se ve más gorda y más baja).
Tiene que hacerlo agradable a la vista.
6
Epidemiología
Tablas y Gráficos en Investigación
Pablo César Riquelme M. 2004




Se recomienda que tenga una proporción de 1 es a 1,5 entre la longitud de
los ejes (sección áurea).
En las barras, las categorías de una misma variable deben ir del mismo
color, no hay que abusar con los colores y la cantidad de categorías.
Debe ser limpio. Generalmente sea cual sea la especialidad que siga no
tiene para que poner una abuelita con una sonrisa a menos que ese grafico
lo vaya a llevar a un jardín infantil (al Jardín infantil Pipiripao, allá lleven
esos gráficos para entusiasmar a los niños) pero si lo va a presentar en una
tesis o congreso no se usa que ponga muelitas con rositas, es absurdo.
El gráfico debe ser limpio, de trazos netos, los títulos con letra clara y
leyendas ubicadas en lugares adecuados.
En resumen sería deseable que un grafico tuviera o permitiese según
Gnanadesikan, hindú:
 Que tenga capacidad descriptiva.
 Que tenga una capacidad de versatilidad.
 Que permita ver la orientación de los datos.
 Que sirva para posibles comparaciones internas.
 Que permita focalizar la atención.
 Que permita autocrítica de posibles presunciones.
 Que permita la adaptabilidad para grandes volúmenes de datos.
Eso es fundamental.
Como hacer un gráfico.
Primero debe ordenar los datos y dependiendo de como vaya a ser el gráfico es
como tendrá que ordenar los datos.
 Defina los objetivos
 Elija el tipo de gráfico
 Y lo construye.
BARRAS SIMPLES
 Presentan la distribución de frecuencias de variables nominales, ordinales
e intervalares discretas.
 Cada categoría se representa por una barra: su largo indica frecuencia,
promedio(en la intervalar), porcentaje de casos u otro.
 Cada barra lleva un título; si es largo (barras transversales), y si es corto
(barras verticales).
 El orden de las barras está dado por su longitud o por la secuencia más
lógica de las categorías (alfabético, por regiones de Chile, etc.)
 Evitar colocar títulos, números o claves, sobre o dentro de las barras.
Rápidamente ve donde hay más y con que frecuencia se da con respecto a las
otras.
7
Epidemiología
Tablas y Gráficos en Investigación
Pablo César Riquelme M. 2004
BARRAS AGRUPADAS
 Muestran la relación de dos o más variables nominales, ordinales e
intervalares discretas.
 Se dibujan grupos de barras que son subdivisiones de una clasificación más
general.
 Las barras de cada grupo deben tener rayados diferentes para cada
subdivisión, con una leyenda.
 Se clasifica primero por la variable con más categorías, a menos que se
pierda claridad en la demostración de los hechos o no se cumpla con el
objetivo real del gráfico.
BARRAS SUBDIVIDIDAS
Una barra que la subdivide para indicar la importancia que tiene una categoría
en cuento a su porcentaje.
 Ilustran la composición proporcional de distintas categorías.
 El largo representa el 100%
 Se indica cuando en algunas categorías el 100 ó 0% de las unidades
pertenece a uno de los subgrupos. (En un gráfico de barras agrupadas, se
presenta el problema de no tener frecuencia para una de las barras).
 Cuando se tienen más de tres subdivisiones por barra se dificulta la
comparación.
SECTORIALES
El gráfico pie o de torta.
 Se utilizan para los mismos casos que los gráficos de barras,
fundamentalmente para variables nominales u ordinales.
 Cada frecuencia o proporción debe ser expresada como porcentaje del
total del gráfico o porción de la torta (360º), determinando el ángulo que
limita el sector que representa la categoría correspondiente, el ángulo
relacionado con el tamaño de ese grupo.
 Cada sector debe ser identificado.
 Colocar el número de observaciones y la frecuencia en porcentaje,
adyacente a cada categoría.
 Ordenado de mayor a menor para facilitar su entendimiento partiendo
idealmente desde las 3.15 siguiendo o en contra de las agujas del reloj.
(En Excel este ordenamiento no se puede hacer.)
HISTOGRAMAS
 Presentan la distribución de frecuencias de variables intervalares
continuas.
 Tenemos un rango de valores que se van a representar por una serie de
rectángulos.
 Consisten en una serie de rectángulos o barras adyacentes, cuyas
superficies representan la frecuencia de cada categoría.
 Cuando los intervalos son iguales, las barras tienen el mismo ancho y su
altura corresponde a la frecuencia observada en el intervalo.
8
Epidemiología
Tablas y Gráficos en Investigación
Pablo César Riquelme M. 2004


Este gráfico le permitirá la obtención de una campana de Gausse para
saber si hay una distribución normal de los valores o no. Puede que se de
un sesgo, o sea que los datos se acumulen en un solo lado del gráfico.
Cuando los intervalos son desiguales, las barras tienen diferente ancho. Se
ajusta al ancho de los intervalos, Histograma Ajustado.
LINEAL
 Le permiten ver la relación entre variables intervalares continuas.
 Tenemos un eje X y un eje Y.
 En el eje X tenemos la variable independiente y en el eje Y la variable
dependiente.
 Y ambos generalmente debieran partir de 0. (Por ejemplo si va a medir la
presión no necesita partir de 0, hay software que tienen esta opción.)
 Tiene que tener pares de observaciones o sea debe tener un valor para el
eje X y un valor para el eje Y.
 El computador se va a encargar de hacerle la línea, si no tiene computador
y lo va a hacer a mano tiene que encontrar la ecuación que define la
relación entre ambas variables.
PLOTS DE DISPERSIÓN
 Gráficos de dispersión y correlación, no se representa sólo una línea sino
que se presentan una serie de valores.
 Tenemos variable dependiente e independiente.
 Pares de observaciones, un valor para el eje X y un valor para el eje Y.
 Los ejes deben tener la misma longitud y cada eje debe estar identificado.
 Los puntos generalmente no se unen, tenemos como una nube de valores
pero en el computador podemos obtener como se relacionan esos valores.
 Cada punto es un individuo y al sumarlos obtenemos una nube.
DE CAJAS O DE BOX PLOTS
Fue inventado en la década del 70’ pero cada vez es más utilizado porque es muy
informativo.
 Se basa en una caja que tiene una línea al medio de ella que representa la
mediana y que sirve para variables intervalares. O sea aquellas variables
donde uno ha podido sacar promedio y desviación estándar.
 Las líneas perpendiculares que van a ver en relación a la caja significa
dispersión de los valores pero para un cierto rango y los valores que están
muy alejados de la distribución normal los marca con un asterisco (*) y los
muy alejados los va a marcar con un cero (0).
 Rápidamente con un grafico sencillo que consiste en una caja y dos bigotes
ve la distribución de las observaciones.
 Bigotes son los palitos al medio de la caja, las patitas, en inglés es
whisker.
9
Epidemiología
Tablas y Gráficos en Investigación
Pablo César Riquelme M. 2004



Si no aparece un círculo o un asterisco quiere decir que tiene una
distribución normal.
Es un gráfico sencillo, limpio, auto explicativo y permite darse cuenta
rápidamente como se distribuye una variable intervalar.
Rápidamente ve la mediana, donde está el 50% de los valores que es el
largo de la caja (determinado por sus bisagras), el 25% de los valores
superiores y el 25% de los valores inferiores con los bigotes.
Muchas veces se ponen varias cajas en un mismo gráfico es para comparar como
es la distribución entre grupos.
 Si las cajas están a muy diferentes alturas probablemente cuando se hagan
los test estadísticos va a encontrar diferencias significativas entre los
grupos.
 Si hay varios individuos que aparecen con un 0 es probable que la
distribución no sea normal
 Y si la mediana no aparece en la mitad de la caja quiere decir que
tampoco hay distribución normal en esos valores.
¿Cómo elegir un gráfico?
Depende de la variable.
 Si es nominal u ordinal puede hacer un gráfico de barras o un sectorial.
 Si es intervalar puede hacer un gráfico de box plots o histograma
Si quiere ver las relaciones.
 Entre variables intervalares puede utilizar los plots de dispersión o el
grafico de líneas.
 Entre variables nominales u ordinales puede utilizar gráficos de barras
pareadas o agrupadas
 Relación de una parte de la información respecto al total: gráficos
sectoriales o barras subdivididas.
 Variación conjunta de dos variables continuas: plots o gráficos lineales.
Elección de un gráfico, según el propósito y el tipo de datos:
ESCALAS
OBJETIVO A REPRESENTAR
DISTRIBUCIÓN
ASOCIACIÓN
Nominal
Ordinal
Discreta
Barras simples
Barras agrupadas
Continua
Histogramas
Polígonos de frecuencia
Cajas
Lineal
Correlación
- It’s the End of the class as we know it. -
10
Descargar