Métodos Bioestadísticos para el desarrollo e

Anuncio
ARTÍCULO DE REVISIÓN
MÉTODOS BIOESTADÍSTICOS PARA EL DESARROLLO E IMPLEMENTACIÓN DEL RIGOR
CIENTÍFICO EN LAS INVESTIGACIONES
Dr. Gerardo Ardila Duarte
PARTE III: MEDIDAS DE TENDENCIA CENTRAL
Y DISPERSIÓN
Un conjunto de datos puede ser descrito rápidamente con un solo número. Si el investigador
en ortodoncia informa que se necesita una fuerza promedio 25 Mega-Pascales para desprender
una resina de un bracket, está indicando un punto
central que representa varias medidas; pero puede explicar esta fuerza hablando de la variabilidad
de las fuerzas que reflejan la tendencia a desviarse
de dicho punto central, para lo cual utiliza medias
de dispersión.
Nota: Las medidas que se toman generalmente
están dadas en Newton’s sin embargo los artículos
traen estas medidas en Mega Pascales; para hacer
la conversión de Newton a Mega Pascal divida los
Newton obtenidos, por el área de la superficie en
cm2 y en estas condiciones podrá comparar sus resultados con otros obtenidos.
Para el desarrollo de ésta parte se estudia:
*
Profesor asociado Fundación Universitaria UniCIEO
Medidas de tendencia central
• Media
• Mediana
• Moda
• Media ponderada
• Media geométrica
Otras medidas
(Medidas de posición)
• Percentil
• Rango
• Rango intercuartilico
• Diagramas Box-plot
Medidas de dispersión
• Varianza
• Desviación estándar
• Error estándar
• Regla empírica de la distribución normal
• Error de medición de Dalberg
• Cartas de control de Calidad
Cubos OLAP
• Coeficiente de sesgo a o asimetría
de Pearson
• Coeficiente de variación
A. Medidas de tendencia Central
DEFINICIÓN: Media Aritmética es la medida de
tendencia central normalmente llamada, media,
promedio o valor esperado.
Media Poblacional: µ
Media Muestral: x
Nota: Existe el teorema central de límite que
dice: entre mayor sea el tamaño de la muestra aleatoria, más cercano se estará a la media de la población.
Artículo de Revisión
83
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
DEFINICIÓN: Mediana ( x ): Es la observación
que queda en la mitad, de los datos después que
han sido ordenados.
Ubicación de la mediana, para una
cantidad impar de datos:
Ubicación de la mediana, para una
cantidad par de datos:
x de los dos datos que quedan ubicados
en el centro.
DEFINICIÓN: Moda (mo): Es la observación
que más se repite, pueden existir varias modas.
Ejemplo: Una Dra. de Rehabilitación Oral desea
calcular los espacios en micrómetros entre el margen del muñón protésico y el margen del borde
protésico en una prótesis fija de tres unidades con
balanceo sin ser seccionada antes y después de ser
tratada con laser. Halle y explique : media, mediana y moda de los espacios en micrómetros entre el
margen del muñón protésico y el margen del borde
protésico en una prótesis fija de tres unidades con
balanceo sin ser seccionada antes de usar láser.
Lado de
la medición
1AE
1AL
1AV
1BE
1BL
1BV
2AE
2AL
2AW
2BE
2BL
2BV
3AE
3AL
3AW
3BE
3BL
3BV
4AE
Prelaser Postlaser
176,2
154,12
68
239
208
32,98
144,01
56,04
110,16
140,01
92
134
114
68,03
78
56,56
80
16
32,98
47,99
16
32
56,04
44,05
4
112,29
48,66
64,5
32,98
32
24
11,31
56
64
14
22,09
8
16,17
Lado de
la medición
Prelaser Postlaser
4AL
4AW
4BE
4BL
4BV
88,36
40
16,12
32
80
18
8
8
6
48
El promedio de mediciones con prelaser:
x = (176,2+154,12+…+80)/24= 94,06µ
La mediana: x
1. Ordenamos los datos:
Prelaser
16
16,12
32
32,98
32,98
40
56,04
56,56
68
68,03
78
80
80
88,36
92
110,16
114
134
140,01
144,01
154,12
176,2
208
239
2 Hay 24 datos, (un número par de datos), la
mediana se ubica en el promedio de los datos
del centro: Los datos ubicados en el centro son
80 y 80, entonces se calcula el promedio de
ambos. x = (80+80)/2=80 µ
Artículo de Revisión
84
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
Ejemplo: Un investigación desarrollada en el
CIEO, para la determinación de marcadores de
reabsorción ósea, calcio en suero y piridinolinas en
orina como predictores precoces de cambios en la
densidad ósea, mostró los siguientes indicadores
de piridinolina (Nm DPD/mM Creatinuria) y calcio (mg/dl) en 20 pacientes mujeres seleccionadas
aleatoriamente con edades entre 48 y 67 años).
La moda: Hay dos modas: 32.98 y 80µ
La Media ponderada:
Donde:
= Media ponderada
= Observación individual
= Peso o ponderación de cada observación.
Cuando se estima la media, se asume que todas
las observaciones tienen la misma importancia. Sin
embargo existen casos en los que se debe dar mayor peso a algunas observaciones. Por ejemplo, si
el grupo investigador pone un peso a los costos
del desarrollo de su trabajo, el valor promedio a
asumir por investigador se estima con:
Tema
Costo
Peso
Costo x
Peso
Reuniones con grupo
10.000 x hora
5%
500
Reuniones con investigador
principal
15.000 x hora
10%
1,500
Viajes
800.000
30%
240,000
Levantamiento Muestra
2.000.000
40%
800,000
Análisis
15.000 x hora
10%
1,500
Tiempo organización
15.000 x hora
5%
750
Costo Total promedio por investigador
1,044,250
Media Geométrica: MG=
Definición: La media geométrica proporciona
una medida precisa de un cambio porcentual promedio de una serie de números.
La media geométrica se halla tomando la raíz nésima del producto de los n - números indicadores.
Con frecuencia se utiliza para calcular la tasa de
crecimiento porcentual promedio de algunas series
dadas a través del tiempo.
Es decir que se espera que el índice de creatinuaria
en una paciente mayor de 47 años sea de 8,84.
B. Medidas de dispersión
Aunque es muy útil ubicar el centro de los datos y
explicarlo, una descripción más completa de ellos
se da cuando se analiza la dispersión alrededor del
punto central y esto es lo que se hace con las medidas de dispersión, indican cuánto se desvían las
observaciones alrededor de su media.
Definición: Las Medidas de dispersión miden que
tanto se dispersan las observaciones alrededor de
su media.
Ejemplo: En una investigación desarrollada durante 2010 por Ortodoncistas del CIEO se buscó
Comparar las medidas Sn-Sd: Sn (Subnasal (Sn):
Punto de unión de la Columnella con el labio
superior)-Sd Supradental (Sd: Según la escuela biométrica se localiza en la intersección del plano medio con la línea que une los bordes superiores de
los incisivos) en la población de hombres y mujeres.
Tres de las medidas encontradas en hombres por 3
de los investigadores fueron:
Investigador 1:
11.9; 12 y 12.1mm
Investigador 2:
10; 12 y 14mm
Investigador 3:
12; 12 y 12mm
Las tres medidas tienen una media de 12mm, pero
podemos afirmar que los conjuntos de datos son
similares? No podemos afirmarlo, de hecho solo
Artículo de Revisión
85
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
observando las medias sin tener en cuenta las demás observaciones habría similitud, pero observando cada conjunto de datos, los investigadores
1 y 2 presentan dispersión alrededor de la media,
especialmente el 2º investigador, mientras el 3º no
muestra dispersión. En este sentido, las medidas de
dispersión son muy útiles e informativas.
Definición: el Rango R o recorrido es la medida
de dispersión más simple, se calcula como la diferencia entre la medida máxima y la mínima. Los
rangos de las medidas de los tres investigadores en
el ejemplo anterior fueron respectivamente: 0.2, 4
y 0 mm respectivamente.
Definición: El promedio de las observaciones respecto a su media, elevadas al cuadrado se llama
la varianza.
Definición: La varianza poblacional σ2 es:
σ2=∑(Xi-µ)2/N
Donde: Xi, son las observaciones, µ, es la media
poblacional, N, es el tamaño de la población.
Definición: La desviación estándar poblacional es
la raíz de la varianza:
σ= √σ2
La desviación estándar se explica como una medida de dispersión que de halla en las mismas unidades que el promedio. Como rara vez es posible acceder a toda la población para calcular la varianza
y desviación estándar, se debe recurrir a calcular
estas medidas sobre muestras, las definiciones son:
Definición: Varianza de la muestra:
Definición: La desviación estándar de la muestra es:
s=√(s 2 )
La razón de utilizar n-1 grados de libertad, es que
la muestra generalmente es menos dispersa que la
población, y por tanto al restar una unidad al cociente se hace mayor para intentar explicar la de la
población.
Definición: El error estandar de la muestra es:
σx=s/√n
Es una medida de dispersión que se utiliza como
mejor ajuste alrededor de la media para explicarla.
Ejemplo: Una investigación llevada a cabo por
Rehabilitadores Orales para estudiar “la correlación entre las calibraciones óseas: clínica preoperatoria, tomográfica e intraoperatoria, utilizando el
tomógrafo de rayo de cono y el software Galileo
como ayudas de diagnóstico en los rebordes edéntulos” para la colocación de implantes dentales
arrojo los siguientes resultados (mm):
La varianza, desviación estándar y el error típico
de las medidas obtenidas en la muestra de los 33
pacientes seleccionados aleatoriamente de la clínica del CIEO para estudiar la Medida Crestal preoperatoria fueron:
Promedio: x = (6+9+…+3+3)/33
= 5,14mm,
La varianza es:
=
Artículo de Revisión
86
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
La desviación es:
s=√(s 2 )
=√
=√4,54
=2,13
Interpretación: Respecto de la longitud promedio
de la medida crestal preoperatoria hay una desviación de 2,13mm.
La varianza no se debe interpretar porque está en
unidades cuadradas.
El error típico σx=s/√n =2,13/√33=0.371
Interpretación: Respecto de la longitud promedio
de la medida crestal preoperatoria hay un error de
0.371mm.
Artículo de Revisión
87
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
c. DISTRIBUCIÓN NORMAL Y REGLA EMPÍRICA
Una distribución normal es un arreglo de datos continuos que produce una curva simétrica en forma de
campana (Una discusión minuciosa de ésta distribución se presenta en capítulos posteriores). Si los datos presentan una distribución normal, la desviación
estándar puede usarse para sacar conclusiones.
Es importante observar que la mitad de las observaciones (área bajo la curva) está por encima de la
media y la otra mitad por debajo. Para ilustrar como
aplicar la desviación estándar se utiliza la regla empírica donde usamos el promedio y la desviación
obtenidos así:
• 68.3% de las medidas están entre el promedio
± una desviación: 5,14mm±2,13mm
Construyendo una tabla dinámica, se obtiene:
Medidas en mm
Cuenta de Crestal
Preoperatoria
1 — 2,5
2
2, 5 — 4
7
4 — 5,5
8
5, 5 — 7
8
7 — 8,5
6
8,5 — 10
2
Total general
33
Graficando la cantidad de medidas en cada clase:
• 95.5% de las medidas están entre el promedio
± dos desviaciones: 5,14mm±1.96x2,13mm
• 99.7% de las medidas están entre el promedio
± tres desviaciones: 5,14mm±2.57x2,13mm
d. GRÁFICAS DE INTERVALO
Aprovechando la regla empírica se pueden trazar
gráficas de intervalo, que permiten comparar la dispersión de las medidas en estudio, y en capítulos
posteriores se utilizaran para hacer comparaciones,
y verificar la existencia de diferencia o no significativa por comparaciones múltiples.
Ejemplo: Del ejemplo anterior, la comparación por
intervalos de confianza del 95% de las medidas, se
grafica de la siguiente forma, donde los datos a utilizar para cada una de las variables, son el máximo
x+1.96σ⁄√n , el mínimo x–1.96σ⁄√n y la desviación
y/o error típico σ⁄√n se muestran en la tabla:
Artículo de Revisión
88
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
En Excel:
• Selecciona la información en este caso es de
las celdas K1:T5.
• Clic en Insertar
• Gráficos
• Cotizaciones y de acá el primero.
Definición: La ubicación de un percentil se define
por: Lp= (n+1)P/100
Donde:
Lp Es el sitio del percentil deseado en una serie
ordenada
n Es el número de observaciones
P Es el percentil deseado
Obteniendo:
Ejemplo: Los resultados corresponden a una investigación de ortondocistas por establecer estándares de medidas entre dientes (Ver tabla siguiente).
La información está ordenada por las medidas inferiores: ∑16-11 Hombres
Determinar los P25, P50, P75, el Rango Intercuatilico
La base de datos esta compuesta por medidas de
24 individuos.
L25 = (24+1)*25/100=6.25
E. OTRAS MEDIDAS DE DISPERSIÓN
Otras medidas de dispersión y/o posición son los
cuartiles, deciles y percentiles.
Un conjunto de datos ordenado tiene 3 cuartiles
que lo dividen en 4 partes iguales, el 1er cuartil
está representado por todas las observaciones que
están por debajo del 25% de las mismas, el segundo es la mediana o 50%, el 3er cuartil por todas las
observaciones por debajo del 75% de las mismas y
encima del cual se encuentra el 25% restante.
Los deciles separan las observaciones en 10 partes
iguales y los percentiles en 100 partes.
Es decir el 25% de las medidas ∑16-11, para hombres está ubicada entre la 6ª y 7ª posición, (como
esta señalado con amarillo en la base de datos que
se anexa a continuación), es decir que: P25 = 18.5
+ (1-0.25)(18.59-18.475) = 18.56125 mm, o 25%
de los pacientes latinos hombres se espera que presenten medidas entre 17.8 mm y 18.56 mm para la
distancia entre los dientes inferiores 16 al 11.
L50=(24+1)*50/100=12,5
Es decir el 50% de las medidas ∑16-11, para hombres está ubicada entre la 12ª y 13ª posición, (como
esta señalado con amarillo en la base de datos que
se anexa a continuación), es decir que: P50= 19.1+
0.5(19.14-19.09)=19.115= 19.115mm, o 50%
de los pacientes latinos hombres se espera que presenten medidas entre 17.8mm y 19.115mm para
la distancia entre los dientes inferiores 16 al 11.
Artículo de Revisión
89
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
L75=(24+1)*75/100=18,75
Es decir el 75% de las medidas ∑16-11, para
hombres está ubicada entre la 18ª y 19ª posición,
(como esta señalado con amarillo en la base de
datos que se anexa a continuación), es decir que:
P75= 20.1+ (1-0.75)(20.335-20.125)=20.1775
mm, o 75% de los pacientes latinos hombres se
espera que presenten medidas entre 17.8 mm y
20.1775 mm para la distancia entre los dientes inferiores 16 al 11.
Rango Intercuartilico = P75 – P25 = 20.2875-6.25
= 22,0375 mm
Es decir que un 50%, de la población masculina presenta medidas de ∑ 16-11 entre 6.25 y
20.2875 mm.
Desarrollando el ejercicio con Excel, observe el
procedimiento:
Artículo de Revisión
90
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
DIAGRAMA DE BOX PLOT
DIAGRAMAS BOX-PLOT
Los diagramas Box-Plot, llamados también de caja
y bigotes o Box and Janquins, se utilizan para comparar, medias, medianas, cuartiles y búsqueda de
puntos atípicos o outliers. En el caso de marcadores de reabsorción ósea se tiene:
1.Complementos
2.StatPlus
3. Single variable charts
4.Boxplot
5. Values in separte columns
6. Data values
7. Use Range references
8. Señala los datos incluyendo el titulo
9.Output
10. As a new chart sheet
11. Escribe el nombre que identifique la hoja (allí
saldrá el gráfico)
Si va a usar a R los pasos gráficos son:
1.
Análisis:
1. 25% (Q1=1er Cuartil, corresponde al 25% de
los datos ordenados)de los pacientes presentan un índice de creatinuaria entre 5 y 7,5
2. 50% (Q2= 2º Cuartil o mediana, corresponde
al 50% de los datos ordenados) de los pacientes
presentan índices de creatinuaria entre 5 y 8,7
3. En promedio un paciente esta presentando un
índice de creatinuaria de 9,16
4. 75% (Q3= 3er cuartil corresponde al 75% de
los datos ordenados) de los pacientes están presentando índices de creatinuaria entre 5 y 9,6
5. Existen 4 datos atípicos (pacientes con muy alto
índice de creatinuria) que se encuentran en el
intervalo de confianza del 99%.
6. Q3-Q1 (Rango intercuartilico); 9,6-7,5=2,1.
La diferencia en creatinuaria entre el 25 y 75%
de los pacientes es de 2,1.
Como se crea un Box-plot?
Si esta instalado Statplus siga los siguientes pasos,
en Excel:
2.
Artículo de Revisión
91
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
Datos-importar dato-desde Excel.
3. Busca la ubicación de su archivo en Excel 972003
4. Gráficas-Diagrama de caja
CUBOS OLAP OnLine Analytical Processing
o procesamiento Analítico En Línea
Ideados por el Sr. Edgard Cood, de una compañía
de software con el objeto de integrar bases de datos, en Excel se pueden generar en forma compleja con tablas dinámicas y macros para relacionar
bases de datos, y/o en forma sencilla, utilizando
varios campos de variables numéricas (cuantitativas) de una sola base de datos, resumiendo toda
la estadística descriptiva de todas estas variables, y
haciendo más fácil su análisis.
En estadística se ha convertido en una potente herramienta para el análisis descriptivo de bases de
datos de variables continuas.
Un ejemplo de aplicación:
Los estudiantes de primer semestre de especialización en odontología seleccionaron muestras aleatorias en su lugar de trabajo de su especialización,
con mínimo dos variables ellos deberían aplicar un
Cubo OLAP y analizar los resultados obtenidos.
Pasos para generar un Cubo OLAP en Excel.
5.
1. Instalación de la Herramienta Análisis de Datos (Office 2007)
1.1 Haga clic en el botón de Microsoft Office y, a
continuación, haga clic en Opciones de Excel.
1.2 Haga clic en Complementos y, en el cuadro Administrar, seleccione Complementos de Excel.
1.3 Haga clic en Ir.
1.4 Active todas las casillas y a continuación, haga
clic en Aceptar.
1.5 Pinche en Si, y esperar a que se instale la herramienta.
Artículo de Revisión
92
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
Para generar el Cubo OLAP
1. Construya la base de datos con las variables
de trabajo
2. Pinche en la ventana de Datos
3. Pinche en el menú de Análisis de Datos
4. Pinche en el reglón de Estadística descriptiva
5. Pinche en el cuadro de rango de entrada y señale la base de datos con sus rótulos (títulos
y/o nombres de variables)
6. Pinche cada casilla cuadrada
7.Aceptar
Gráficamente
Los resultados obtenidos son:
En este punto el investigador cuenta con los resultados de estadística descriptiva, básicos para
proceder a evaluar y analizar el paciente que está
ingresando a la EPS, que problemática está presentando, con el objeto de incentivar programas de
salud, cuidado y cultura de aseo dental. La base de
datos que se levanto trae en este caso dos variables
discretas como son edad, y número de dientes perdidos. Sin embargo los Cubos OLAP son utilizados
en general para variables continuas.
Artículo de Revisión
93
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
El coeficiente de sesgo o asimetría de Pearson
Es una medida de dispersión que determina el sesgo positivo o negativo de los datos, si éste es menor
que cero la mayoría de datos se encuentran por
encima del promedio, en caso contrario se encuentran por debajo del promedio.
Donde: x=promedio y x=mediana. 3 veces el promedio menos la mediana sobre la desviación estandar, si P<0, los datos estan sesgados a la izquierda,
es decir hay una cola larga a este lado, la media se
verá afectada hacia la izquierda y la moda se halla
en el lado derecho, si P>0, sucede lo contrario y los
datos afectan la media de esta forma. La importancia que tiene es precisamente que informa el sesgo
de los datos.
Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una
gran concentración de valores (Leptocúrtica), una
concentración normal (Mesocúrtica) ó una baja
concentración (Platicúrtica) y/o existencia de puntos atípicos siempre que el coeficiente sea mucho
menor que cero.
Una curtosis bastante menor que cero (Leptocúrtica), enseña la presencia de datos atípicos.
El error de medición DAHLBERG
El error de medición de Dahlberg, es una medida
muy utilizada, para comparar operadores y determinar el de menor error en la toma de medidas.
El Coeficiente de Variación
Es una medida relativa de dispersión, determina el
grado de dispersión de un conjunto de datos, relativo a su media. Se utiliza para comparar la dispersión de los datos.
CURTOSIS
Para control debe ejecutarse después de 2 medidas
tomadas, sobre los mismos objetivos y el operador
seleccionado deberá someterse a juicio nuevamente.
Ejemplo: Una investigación de ortodoncia durante 2013 en la Fundación CIEO-UniCIEO llevada a
cabo por los Drs. Usgame y Támara cuyo objetivo fue:
“Determinar la relación del radio anterior y la inclinación anteroposterior de los dientes con y sin forma
de pala”, los Dres. Tuvieron que someterse al juicio
de sus mediciones, el error de medición de Dahlberg
(e), el coeficiente de variación (CV) y su mediciones
de prueba piloto tomados en una fecha determinada
y 15 días después fueron: (Ver figura: Prueba piloto)
Artículo de Revisión
94
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
Figura 1. Prueba piloto
Figura 2. Coeficientes
Observe que el operador 1 está cometiendo un
error de medición menor en una centésima.
Carta de Control de Calidad
Los coeficientes de variación de cada operador
son: (Ver figura: Coeficientes)
Comparar mediciones y operadores pueden ser definidos mediante cartas de control de calidad, para
ello debe:
Observe que se está que los que se está evaluando es la relación del radio anterior y la inclinación
anteroposterior que es el Bolton, y el operador 1
minimiza las variaciones de sus medidas al hacer el
ejercicio por 2ª ocasión.
Determinar el dato máximo y mínimo permisibles al
99% de confianza, usando el intervalo a continuación, donde el máximo corresponde a la expresión
sumada y el mínimo a la expresión restada:
x±3σ
Artículo de Revisión
95
Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones
Se grafican las mediciones fijando máximo y mínimo, si se hallan medidas por fuera hay error en
el operador.
Ejemplo: Para la selección del operador del ejemplo anterior en Bolton se obtiene:
Observe que ambos operadores se encuentran
dentro de los límites esperados, para el cálculo de
estos límites se utiliza el promedio y desviación del
operador que comete menor error.
BIBLIOGRAFIA
1.
Ardila G. Apuntes de Bioestadística aplicada, Fundación
UniCIEO
2. Armitage y Berry, Estadística para la investigación Biomédica (1992) .Ed. DOYMA
3. Stell y Torrie, Bioestadística Principios y procedimientos,
(1998). Ed 4ª. Mc
4. Devore J. Probabilidad y Estadística para ingeniería
y ciencias. (2007), Ed 7ª Thomson.
Ortho Market
Colombia S.A.S.
Sey-Dent
Cornerstone
Instrumental
Productos para ortodoncia
RUBÉN DARIO JORDÁN
Representante Comercial
Cel.: 312 478 0383
PBX: (571) 333 1419 • Fax: (571) 333 1419
E-mail: [email protected] • Bogotá, D.C. - Colombia
Descargar