Subido por Fatima Abanto Escobar

Monografía Bioestadistica

Anuncio
DISTRIBUCIONES DE PROBABILIDADES Y PRUEBAS
ESTADÍSTICAS DE MEDICINA
Definición de distribución
de probabilidades
Es una distribución discreta de probabilidades
para cada valor de la variable aleatoria,
conocida también con el nombre de
Distribución de Bernoulli
Es una lista de las probabilidades de todos los resultados posibles que pudiera resultar si el experimento
se hace; es decir, es la suma de todas las funciones en las que interviene la variable aleatoria “x” bajo
estudio.
Definición de su función de distribución
Dada una variable aleatoria todos son puntos X, su función de distribución, FX(x)
Fx(𝓧) = P(X ≤ 𝓧)
Propiedades:
● Es una función continua por la derecha.
● Es una función monótona no decreciente
CLASIFICACIÓN DE LAS DISTRIBUCIONES DE PROBABILIDAD
Se clasifican en DISCRETAS y CONTINUAS.
Definición De Distribuciones Discretas Se presentan cuando nuestra variable de estudio
es discreta; esto es, solo puede asumir valores enteros, sin decimales.
Tipos De Distribuciones Discretas Algunas distribuciones más usuales son:
1. DISTRIBUCIÓN DE BERNOULLI
2. DISTRIBUCIÓN BINOMIAL
3. DISTRIBUCIÓN GEOMÉTRICA
4. DISTRIBUCIÓN DE POISSON
Definición De Distribuciones Contínuas Se presentan cuando nuestra variable de estudio
es continua; esto es, solo puede asumir valores dentro de un intervalo de valores.
Tipos De Distribuciones Contínuas Algunas distribuciones más usuales son:
1. DISTRIBUCIÓN UNIFORME
2. DISTRIBUCIÓN NORMAL
3. DISTRIBUCIÓN EXPONENCIAL
Distribución Binomial
Una sucesión de n pruebas se dice que es de Bernoulli cuando los experimentos
individuales verifican las siguientes condiciones:
1. Las n pruebas son independientes
2. Cada prueba es de Bernoulli
3. La probabilidad p de éxito es igual en todas las pruebas.
La variable aleatoria definida como “número de éxitos en n pruebas”
La variable puede puede tomar los valores ❴0,1,2,...,k,....n,❵ y su función de
probabilidad es la siguiente:
Donde:
DISTRIBUCIÓN DE
POISSON
DEFINICIÓN: Es una distribución de probabilidad discreta que modeliza la
frecuencia, durante un intervalo de tiempo fijado a partir de la frecuencia
media de dichos eventos
También se le conoce como una distribución binomial , siendo delimitado por un parámetro, el
número esperado de eventos .
FÓRMULA:
LA FUNCIÓN DE LA DENSIDAD DE PROBABILIDAD DE
POISSON SIENDO DEFINIDA EN VALORES ENTEROS DE X
Debe cumplir 3 criterios
DISTRIBUCIÓN
GEOMÉTRICA
DEFINICIÓN: Es un modelo adecuado donde se repiten pruebas hasta lograr
obtener el éxito y llegar donde está el factor deseado.
se le conoce como geometría pascal
Es una teoría de probabilidad . y estadística formado por dos distribuciones de probabilidades
discretas:
si X es igual a 1,2,3--- el número
necesario para obtener el éxito
En una distribución geométrica: podemos
moldear el número de veces que debemos
lanzar al aire para que caiga la moneda y
obtener el primer resultado de cara
si X es igual a 0,2,3…… el número de
fracasos antes del primer éxito
En esta gráfica la
DG: su
probabilidad de
evento es de 0.5
EJEMPLOS ENTRE LA DISTRIBUCIÓN DE POISSON Y LA
GEOMÉTRICA
EJEMPLO A:
-La probabilidad de que haya un accidente en una
compañía de manufactura es de 0.02 por cada día
de trabajo. si se trabaja 300 días al año, ¿cuál es la
probabilidad de tener 3 accidentes?
-
EJEMPLO B:
Un estudio sobre el número de veces que
un jugador necesita para poder efectuar
la salida en el juego del parchís. Hay que
recordar que , en este juego un jugador
no comienza el mismo hasta obtener un
5 al lanzar el dado
Estaríamos ante el caso de una distribución
geométrica de parámetro 1/6.
Distribución normal
Definicion: Modelo teórico capaz de aproximar satisfactoriamente el valor de una
variable aleatoria a una situación ideal.
La distribución normal es la base de otras distribuciones como la distribución t de
Student, distribución ji-cuadrada, distribución F de Fisher y otras distribuciones.
Dada una variable aleatoria X, decimos que la frecuencia de sus observaciones puede
aproximarse satisfactoriamente a una distribución normal tal que:
Donde los parámetros de la distribución son
la media o valor central y la desviación típica:
Fórmula de la
distribución normal
Representación
Función de densidad de probabilidad de una variable aleatoria
que sigue una distribución normal.
Propiedades:
Es una distribución simétrica.
El valor de la media, la
mediana y la moda
coinciden. Matemáticamente,
Media = Mediana = Moda
-
Distribución unimodal: Los
valores que son más
frecuentes o que tienen más
probabilidad de aparecer
están alrededor de la media.
En otras palabras, cuando
nos alejamos de la media, la
probabilidad de aparición de
los valores y su frecuencia
descienden.
¿Qué necesitamos para representar una distribución normal?
➔
➔
➔
➔
Una variable aleatoria.
Calcular la media.
Calcular la desviación típica.
Decidir la función que queremos representar: función de densidad de probabilidad o función
de distribución.
Ejemplo:
Suponemos que queremos saber si
los resultados de un examen
pueden aproximarse
satisfactoriamente a una
distribución normal.
Sabemos que en este examen
participan 476 estudiantes y que
los resultados podrán oscilar entre
0 y 10. Calculamos la media y la
desviación típica a partir de las
observaciones (resultados del
examen).
Entonces, definimos la variable aleatoria X como los resultados
del examen que depende de cada resultado individual.
Matemáticamente:
1. El resultado de cada estudiante se anota en una tabla. De esta forma,
obtendremos una visión global de los resultados y de su frecuencia.
2. Una vez hecha la tabla, representamos los resultados del examen y las
frecuencias. Si el gráfico se parece a la imagen anterior y cumple con las
propiedades, entonces, la variable resultados del examen puede
aproximarse satisfactoriamente a una distribución normal de media 4,8 y
desviación típica de 3,09.
¿Los resultados del examen pueden
aproximarse a una distribución normal?
Razones para considerar que la variable
resultados del examen sigue una
distribución normal:
1.
Distribución simétrica. Es decir, existe
el mismo número de observaciones
tanto a la derecha como a la
izquierda del valor central. También,
que la media, la mediana y la moda
tienen el mismo valor. Media =
Mediana = Moda = 5
2.
Las observaciones con más
frecuencia o probabilidad están
alrededor del valor central. En otras
palabras, las observaciones con
menos frecuencia o probabilidad se
encuentran lejos del valor central.
RESULTADOS:
La distribución normal describe la variable aleatoria mediante una aproximación que
produce errores estándar (las barras encima de cada columna). Estos errores son la
diferencia entre las observaciones reales (resultados) y la función de densidad
(distribución normal).
Distribución T
La distribución t de Student o distribución t es un modelo teórico
utilizado para aproximar el momento de primer orden de una
población normalmente distribuida cuando el tamaño de la muestra
es pequeño y se desconoce la desviación típica.
Fórmula de la distribución t de Student
Dada una variable aleatoria continua
L, decimos que la frecuencia de sus
observaciones
puede
aproximarse
satisfactoriamente a una distribución t
con g grados de libertad tal que:
Representación de la distribución t de Student
Función de densidad de una distribución t
con 3 grados de libertad (df).
Especialidad
¿Por qué es tan
especial la
distribución t?
Aplicación de la t de Student
Pues porque a diferencia de la distribución
normal que depende de la media y la varianza, la
distribución t sólo depende de los grados de
libertad, del inglés, degrees of freedom (df). En
otras palabras, controlando los grados de
libertad, controlamos la distribución.
Cuando:
- Queremos estimar la media de una población
normalmente distribuida a partir de una muestra
pequeña.
- Tamaño de la muestra es inferior a 30 elementos,
es decir, n < 30.
★ A partir de 30 observaciones, la distribución t
se parece mucho a la distribución normal y,
por tanto, utilizaremos la distribución
normal.
- No se conoce la desviación típica o estándar de
una población y tiene que ser estimada a partir de
las observaciones de la muestra.
Ejemplo
Suponemos que tenemos 28 observaciones de una variable aleatoria G que sigue una
distribución t de Student con 27 grados de libertad (df).
Matemáticamente:
Representamos la
frecuencia de cada
observación de la
variable G mediante un
histograma.
Dado que estamos trabajando
con datos reales, siempre
habrá un error de
aproximación entre los datos y
la distribución. En otras
palabras, la media, mediana y
moda no siempre serán cero
(0) o exactamente iguales.
¿La variable aleatoria G puede aproximarse a una distribución t?
Razones para considerar que la variable G sigue una distribución t:
La distribución es simétrica. Es decir, existe el mismo número de observaciones tanto a la
derecha como a la izquierda del valor central. También, que la media y la mediana tienden a
aproximarse al mismo valor. La media es aproximadamente cero, media = 0,016.
Las observaciones con más frecuencia o probabilidad están alrededor del valor central. Las
observaciones con menos frecuencia o probabilidad se encuentran lejos del valor central
Distribución f
La distribución F también se conoce como distribución de
Fisher Snedecor en honor a los estadísticos Ronald Fisher y
George Snedecor. Ambos trabajaron en el desarrollo del análisis
de varianza a principios del siglo XX y así sentaron las bases de
la estadística moderna.
Características de la función f
●
●
●
●
Las distribuciones F incluyen varios
métodos estadísticos.
La distribución F particular que se
utiliza depende del número de grado
de libertad que tiene la muestra. Esta
característica de la distribución F
también está presente en otras
distribuciones, como la distribución
T y la distribución chi-cuadrado.
El valor de la distribución F es nulo,
es decir, cero o positivo. No tiene
valores negativos.
La distribución F posee una leve
inclinación hacia la derecha. Por lo
tanto, se trata de una distribución de
probabilidad que no es simétrica.
Representación de la distribución f
Manejo de la distribución F
Al igual que otras distribuciones continuas de probabilidad
que involucran funciones complicadas, el manejo de la
distribución F se realiza mediante tablas o mediante software.
Las tablas involucran los dos
parámetros o grados de libertad de la
distribución F, la columna indica el
grado de libertad del numerador y la
fila el grado de libertad del
denominador.
Distribución
Ji-Cuadrado
Tipos de prueba de ji cuadrado
La distribución de chi-cuadrada es una distribución continua
que se especifica por los grados de libertad y el parámetro de
no centralidad. La distribución es positivamente asimétrica,
pero la asimetría disminuye al aumentar los grados de libertad.
Representación de la distribución ji -cuadrado
Pruebas paramétricas
❖
❖
❖
❖
❖
❖
❖
Estimación de parámetros de una población en base a una muestra, conociendo su modelo de
distribución.
Mayor cantidad en muestra → más exacta será la estimación
Menor cantidad en muestra → menos exacta será la estimación
Mayor eficacia
Mayor complicación al calcular
Limitaciones para su uso
Tipos:
➢
Prueba del valor Z de la distribución normal
➢
Prueba T de Student
➢
Prueba T de Student-Welch para dos muestras independientes con varianzas no
homogéneas
Prueba del valor Z de la distribución normal
Prueba T DE STUDENT
Prueba T DE STUDENT - WELCH
Pruebas NO paramétricas
❖
❖
❖
❖
❖
Permiten analizar datos en escala nominal u ordinal
Se la puede utilizar estas pruebas aunque se desconozca los parámetros de la población en
estudio.
Utilizada para contrastar con la hipótesis
Se utiliza en datos independientes
Tipos:
➢
Prueba binomial
➢
Prueba de ji2 de Pearson
➢
Prueba de probabilidad exacta de Fischer y Yates
➢
Prueba de McNemar para muestras dependientes
PRUEBA BINOMIAL
PRUEBA DE JI2 DE PEARSON
PRUEBA DE PROBABILIDAD EXACTA DE FISCHER Y YATES
PRUEBA DE NcMEAR PARA MUESTRAS DEPENDIENTES
ANÁLISIS DE VARIANZA
❏
❏
❏
❏
❏
Conocido como ANOVA (Analysis Of Variance)
Es un conjunto de técnicas estadísticas que sirven para
conocer el modo en el que el valor medio de una variable es
afectado por diferentes tipos de clasificaciones de los datos.
Es una técnica estadística utilizada para determinar si las
diferencias que existen entre las medias de 2 o más grupos
son estadísticamente significativas.
Técnica para contrastar hipótesis.
Gracias a este análisis se pueden ajustar por ejemplo las
estimaciones del efecto de un tratamiento según otros
factores como sexo, edad, gravedad, etc.
ANÁLISIS DE regresión lineal
❏
❏
❏
❏
❏
Proceso estadístico que permite analizar la relación existente entre dos
o más variables, siendo una de ellas dependiente a las demás
variables.
Ayuda a comprender cómo las variables independientes afectan
directamente a otra variable que dependa de ellas.
Utilidad: Facilita el cálculo de un valor futuro de una variable, existen
múltiples aplicaciones posibles en el día a día. Es una herramienta muy
práctica.
Ejemplo: Para evaluar el riesgo de accidentes en una zona determinada
de la carretera respecto a su geografía o comprobar la eficacia de un
cambio realizado en un proyecto comercial o académico basándose en
los resultados obtenidos tras introducir un cambio.
Se emplean mayormente en el mundo corporativo, gracias a los
resultados obtenidos, las empresas pueden comprender mejor cuáles
son los elementos que tienen un mayor impacto. De esta manera, las
empresas obtienen información que pueden aplicar rápidamente en
sus organizaciones para mejorar su eficiencia.
VARIABLES EN UN ANÁLISIS DE REGRESIÓN
●
Variables dependientes: Buscamos estudiarlas para comprender cómo se adapta al modificar las variables
independientes.
●
Variables independientes: Son los factores que influyen y afectan directamente a las variables dependientes
bajo estudio.
TIPOS:
Regresión lineal simple:
-
Estudia el efecto de una variable independiente sobre una única variable dependiente de la primera.
Y= B0+B1X+ ε
Valor de
V.I
V.D
Residuo
o error
Regresión lineal Múltiple:
-
Modelo que cuenta con más de una variable independiente. Se aplica cuando hay más de un factor que
afecta a la variable de estudio.
Y = 0 + B1*X1 + B2*X2 + … + Bn*Xn + ε
Donde:
Y = Variable dependiente
B1, B2, Bn= Todas las variables independientes
ε = Residuo o error
Regresión NO LINEAL:
- Existen ocasiones en las que la relación que puede darse entre variables independientes y la variable
dependiente no tenga un desarrollo lineal sino un crecimiento exponencial.
- En este caso este modelo entra en juego y permite que obtengamos una aproximación de los valores de la
variable dependiente en un entorno no lineal. Es un proceso más complejo, puede o no coincidir el número
de parámetros con el de las variables independientes.
Descargar