Estadística aplicada a la ecología

Anuncio
ESTADISTICA APLICADA A LA ECOLOGÍA
La estadística nos ayuda a corroborar hipótesis dando un soporte matemático a observaciones realizadas. La
estadística es la ciencia de la probabilidad y por ello no es correcto realizar afirmaciones categóricas o
negaciones rotundas, sino que estas afirmaciones o rechazos hay que enmarcarlos siempre en un nivel de
significación, que no es más que encuadrarlo dentro de un margen de error que nosotros mismos nos estamos
fijando (generalmente entre el 1−5%).
Lo primero que debe considerarse al realizar un experimento que posteriormente llevará un tratamiento
estadístico es:
• Plantear la hipótesis de trabajo que se quiere demostrar.
• Definir bien las variables a estudiar.
• Cómo recoger y recopilar los datos (TIPOS DE MUESTREO).
• Elección del método estadístico más apropiado para demostrar la hipótesis de trabajo de la mejor
manera posible.
Es conveniente resaltar que el fin de los muestreos es extraer una muestra lo suficientemente representativa de
una población para que las conclusiones muestrales obtenidas puedan extrapolarse a nivel poblacional, de
ahí que sea de suma importancia la minuciosa elección y preparación en la recogida de datos.
• TIPOS DE MUESTREO.
• Estratificado: Las muestras se toman por capas o estratos de condiciones homogéneas (solana,
umbría,...). Es un muestreo muy utilizado en Ecología. Estos muestreos sirven para confirmar algún
tipo de distribución.
• Al azar.
• Contagiosa.
• Regular (Sistemático): Se basa en la obtención al azar de una primera unidad a partir de la cual se
seleccionan las siguientes mediante algún criterio fijo repetido periodicamente (ej.− el transecto, muy
interesante en gradientes).
• Aleatorio simple: Se basa en la toma al azar y de manera independiente de una muestra. Es eficaz
para zonas homogéneas.
• TIPOS DE VARIABLES.
VARIABLES CUANTITATIVAS
Se trata de variables medibles (altura, peso,...).
Pueden tomar valores enteros o con decimales.
TRATAMIENTOS ESTADÍSTICOS
de Pearson: Se denominan test de bondad de
ajuste, y buscan un modelo matemático (teórico)
sobre una distribución real.
VARIABLES CUALITATIVAS
Son variables de cualidad. Los datos que se toman son
el número de individuos que presentan dicha cualidad
(frecuencias de aparición) y por tanto números
enteros.
TRATAMIENTOS ESTADÍSTICOS
de Pearson: En variables cualitativas se usa como
un test de homogeneidad o de independendia. Se trata
de un estudio de proporciones (probabilidades de
encontrar una cualidad).
t de Student: Se trata de un contraste para 1 o 2
muestras. Es un test en el que se comparan las medias
1
muestrales (m1=m2) o bien si la muestra es
representativa o no.
ANOVA (Analisys of variance): En este test se
contrastan más de dos muestras (m1=m2=m3). Se
aplica para estudios en los que se comparan medias.
CORRELACIÓN / Regresión: Se aplican en estudios
en los que se quieren relacionar variables, o bien para
ajustar un comportamiento poblacional a un modelo
matemático con fines predictivos.
• ESTUDIO DE HOMOGENEIDAD (Dependencia o Independencia)
Ejemplo 1: Tomamos una muestra de una determinada especie vegetal en una vaguada que, por su situación,
presenta una ladera en solana y otra en umbría. Los resultados sobre 100 observaciones realizadas aparecen
resumidos en la tabla de frecuencias observadas. ¿Existe alguna preferencia de la especie por alguna de las
dos situaciones?.
Observadas
Presencia (+)
Ausencia (−)
Totales
Umbría (U)
20 (a)
20 (c)
40 (TU)
Solana (S)
10 (b)
50 (d)
60 (TS)
Totales
30 (T+)
70 (T−)
N = 100
El estudio se realiza en base a una variable cualitativa, ya que se está estudiando la cualidad de presencia en
solana o umbría, y la muestra no es más que un recuento de individuos que presentan la variable a estudiar.
Por tanto, lo que se pretende estudiar es si esta especie se distribuye de forma homogenea tanto en umbría
como en solana, o lo que es lo mismo si su presencia es independiente de la ladera de la vaguada en la que
estemos.
Para este tipo de estudios se usa el test de Pearson, aunque no hay que confundir esta aplicación con la
bondad de ajuste que se usa en variables cuantitativas.
• Lo primero que hay que realizar es una tabla de frecuencias esperadas a partir de la tabla de frecuencias
observadas. Esta tabla es necesaria si queremos utilizar la fórmula general del estadístico de Pearson,
aunque no se usa para el test si utilizamos la fórmula simplificada para tablas de contingencia de 2x2 (ver
final de la página). La tabla de frecuencias esperadas nos ayuda a saber como sería la presencia teórica y
ver si existe una gran diferencia con lo observado.
Esperadas
Umbría (U) Solana (S)
Totales
Presencia (+) 12
18
30
Ausencia (−) 28
42
70
Totales
40
60
N = 100
• Plantear las hipótesis de trabajo que queramos corroborar con el estudio.
H0 = homogeneidad o independencia.(dependiendo de los casos).
H1 = dependencia o no homogeneidad.
• Obtener el cal. usando los datos de la tabla de contingencia de las fecuencias observadas mediante la
2
siguiente fórmula (únicamente válida para tablas de contingencia de 2x2
):
• Comparar cal. con teórico para los niveles de significación escogidos, generalmente =0.01 y
=0.05.
• Si cal. < teórico entonces se acepta H0. Esto significa que existe homogeneidad o
independencia para la cualidad estudiada.
teórico
0.05
3.84
0.01
6.63
En este caso concreto cal. > teórico con lo que se rechaza H0 para ambos niveles de significación. Esto
quiere decir que existe una dependencia significativa en la distribución de la especie vegetal entre umbría y
solana.
Ejemplo 2: Se hizo un tratamiento para eliminar la procesionaria en un pinar, y tras este tratamiento se quiere
comprobar cómo de efectivo es dicho tratamiento. Tras un muestreo en el que se anotaron los pinos enfermos
y los sanos dentro de los tratados y de los no tratados se obtuvieron los siguientes resultados:
Observadas
Tratados
No Tratados
Totales
Enfermos
40 (a)
52 (c)
92
Sanos
110 (b)
98 (d)
208
Totales
150
150
N = 300
Esperadas
Tratados
No Tratados
Totales
Enfermos
46
46
92
Sanos
104
104
208
Totales
150
150
N = 300
H0= La respuesta de los pinos ante la enfermedad es independiente al tratamiento.
0.05
teórico
3.84
3
0.01
6.63
En este caso concreto cal. < teórico con lo que se acepta H0 para ambos niveles de significación. Esto
quiere decir que el tratamiento no es significativamente eficaz.
Ejemplo 3: El rendimiento de una cosecha de cereal se considera bueno si es superior a 15 kg por area de
cultivo y malo si no llega a dicha cantidad. Se hacen 20 determinaciones en parcelas donde se ha sembrado
cereales de tipo A y 18 determinaciones en parcelas con cereales tipo B. ¿Son igualmente efectivos para el
cultivo los cereales A y B?.
Observadas
Bueno
Malo
Totales
Cereal A
14 (a)
6 (c)
20
Cereal B
10 (b)
8 (d)
18
Totales
24
14
N = 38
Esperadas
Bueno
Malo
Totales
Cereal A
12.63
7.37
20
Cereal B
11.37
6.63
18
Totales
24
14
N = 38
H0= Los cereales A y B tienen un rendimiento homogeneo.
H1= El rendimiento no es homogeneo.
cal. = 0.85
cal. << teórico para ambos niveles de significación, por lo que podemos aceptar H0 y afirmar que el
rendimiento de ambos cereales es significativamente homogeneo y, por tanto, igual de efectivo.
• CONTRASTE PARA IGUALDAD O DIFERENCIA DE MEDIAS (Datos cuantitativos).
El método más tradicional para comparar dos medias es el Test de la t. Este estadístico sigue la distribución de
la t de Student. El análisis de la varianza (ANOVA) puede emplearse también para analizar las diferencias
entre las medias de dos grupos, sin embargo, es un método más general que permite las comparaciones entre
las medias de más de dos grupos.
• Test de la t.
H0 = =. Las medias poblacionales son iguales.
• Si tcal < tteórico entonces se acepta H0.
Ejemplo 1: Una especie vegetal que aparece en solana y umbría aparenta crecer de manera distinta en ambas
ubicaciones. Para ello tomamos muestras de la altura de dicha planta en centímetros. Los resultados obtenidos
para solana y umbria aparecen en la tabla.
Altura en Solana (cm)
Altura en Umbría (cm)
39
43
36
45
35
42
37
35
40
37
39
38
40
33
38
38
35
41
39
43
• Calcular las medias (m) y las cuasivarianzas (S2) de ambos grupos separados por la variable ambiental.
4
;
;
Umbría: m1= 39.5 s12= 13.65 S12= 15.16
Solana: m2= 37.8 S22= 3.73
• Comprobar que las varianzas poblacionales () son iguales. Esta comprobación se realiza mediante el test
F de Fisher−Snedecor.
H0 = Ê = Ò. Las varianzas poblacionales son iguales.
Si Fobs < Fteórico entonces se acepta H0.
En nuestro caso Fobs = 4.06 < Fteórico (para = 0.01) = 5.06, por lo que se acepta H0 y las varianzas
poblacionales son significativamente iguales.
• Calcular el valor de tcal. En este punto, dependiendo de si las varianzas poblacionales son iguales o no, y
de si el tamaño muestral (n1+n2) es grande (>30) o pequeño, se aplican diferentes fórmulas para realizar el
Test de t.
• (n1+n2)>30
En este caso no es necesario comprobar si Ê = Ò ya que aunque Ê " Ò se utiliza la misma fórmula
como solución aproximada.
• (n1+n2)<30
•Ê=Ò
• Si n1=n2 entonces
• Si n1"n2 entonces
5
siendo n1+n2 −2= grados de libertad.
En este caso el tamaño muestral es <30 , las varianzas poblacionales son iguales y n1=n2 luego:
• Comparar tcal con tteórico para los niveles de significación designados y comprobar si las medias
poblacionales () son iguales (aceptación de H0).
g.l.
tteórico
0.01
2.878
18
0.05
2.101
En este caso tcal =1.24 es menor que tteórico para ambos niveles de significación, por lo que se puede aceptar
H0 y decir que estadísticamente la especie vegetal parece crecer de igual forma en umbría y en solana.
Ejemplo 2: Un laboratorio de antropología física realizó un estudio sobre nutrición sometiendo a estudio dos
dietas diferentes indicadas para el sobrepeso. Así se tomaron datos sobre la reducción de peso en individuos
que siguieron la dieta A, y en individuos que siguieron la dieta B. A partir de los datos obtenidos se pretende
comprobar si ambas dietas son significativamente iguales en su efectividad o no.
DIETA Ind. muestreados (n)
Media de la pérdida de peso
A
B
4.3
3.6
25
25
Varianza muestral
(s2)
1.96
1.21
Cuasivarianza (S2)
2.04
1.26
H0 = A = B . La media en la pérdida de peso en las poblaciones que siguieron las distintas dietas es la
misma.
2. Comprobar que las varianzas poblacionales () son iguales. Esta comprobación se realiza mediante el test
F de Fisher−Snedecor.
H0 = Ê = Ò. Las varianzas poblacionales son iguales.
Si Fobs < Fteórico entonces se acepta H0.
que es menor que Fteórico =2.27, por lo que se cumple que las varianzas poblacionales son
significativamente iguales.
3. Calcular el valor de tcal. En este caso (n1+n2 ) >30.
6
g.l.
tteórico
2.57
0.05
0.01
48
1.64
No se cumple H0 para ambos niveles de significación, por lo que no se puede deducir si la diferencia en las
dietas es significativa o no.
Este tipo de solución suele darse cuando los datos no están bien tomados o son insuficientes. Por tanto lo más
lógico sería repetir las mediciones, y si estas volvieran a salir iguales, entonces habría que aumentar el tamaño
de muestra (generalmente al doble) y volver a tratar los datos estadísticamente.
B. Análisis de la Varianza (ANOVA).
Este test sirve para comparar las medias de más de dos muestras. Se usa para clasificar muestras en función de
una variable cuantitativa (altura, peso, ...).
Para poder realizar este test han de cumplirse varias premisas:
• Las muestras deben ser recogidas al azar y provenir de poblaciones con distribución normal.
• Las varianzas poblacionales han de ser homogéneas (iguales). Esto se comprueba mediante el test de la
Fmáxima que no tiene nada que ver con el estadístico F de Fisher−Snedecor.
H0 =Ñ=Ò=Ó=....=n
Si Fmáx<Fcrítica entonces se cumple H0 para los dados.
El test ANOVA se realiza mediante la F de Fisher−Snedecor, y la hipótesis nula que se contrasta es que las
muestras procedan de la misma población, por lo que las medias poblacionales extraidas de dichas muestras
han de ser iguales.
H0 = = = =...=n
H1 = alguna de las medias poblacionales es distinta.
• Si Fcal < Fteórico entonces se acepta H0 para los niveles de significación () dados.
Ejemplo 1: Se tomaron muestras en tres regiones de la provincia de Guadalajara sobre la altura que
alcanzaban los ejemplares de una especie determinada de Quercus, en zonas abandonadas y no abandonadas
por el pastoreo de cabras y ovejas. Se pretende determinar si el comportamiento es el mismo. Los resultados
del muestreo aparecen reflejados en la tabla siguiente:
Región
I
Ind. muestreados (ni)
104
Altura media en metros (mi)
4.99
Cuasivarianza (S2i)
4.19
7
II
III
102
69
4.63
4.53
5.75
5.15
• Plantear las hipótesis de contraste.
Para este caso concreto serían H0 = Los Quercus de las tres regiones se comportan de igual forma, por lo que
sus medias poblacionales son iguales.
H0 = = =
• Comprobar si las varianzas poblacionales son iguales (homogéneas).
H0 =Ñ=Ò=Ó
Si Fmáx<Fcrítica entonces se cumple H0 para los dados.
(p)
0.05
0.01
Fmáx crítica
6.6
9.9
Como Fmáx= 1.37 < Fmáx crítica para ambos niveles de significación, entonces se acepta la hipótesis nula.
En el caso de que las varianzas poblacionales no fueran iguales, se podría continuar realizando el contraste
ANOVA aunque aclarando que el contraste no va a ser significativo por no cumplirse la segunda premisa.
• Rellenar las tablas resumen con el fín de poder calcular Fcal. En este apartado, dependiendo de cómo se
den los datos en el problema, hay que completar 1 o 2 tablas. Si no se dan las medias ya calculadas hay que
rellenar dos tablas.
GRUPOS
"xi
"xi2
s2i
ni
I
II
III
TOTALES
N
Con los resultados de esta tabla se completa el cuadro siguiente.
Fuente de
variación
Suma de cuadrados
ENTRE GRUPOS
Grados de
libertad
Cuadrado medio Fcal.
nº de grupos − 1
= A / g.l
A
8
nº indTot − nº
grupos
DENTRO GRUPOS
= B / g.l.
B **
(**). Si usamos cuasivarianza muestral (S2) en la fórmula habría que poner (ni − 1).
Siendo:
En el caso concreto de este problema, sí nos dan calculadas las medias, por lo que sólo es necesario rellenar el
Cuadro 2.
Cuadro 2.
Fuente de
variación
ENTRE GRUPOS
DENTRO
GRUPOS
Suma de
cuadrados
275 x 0.039 =
10.776
Grados de
libertad
Cuadrado medio Fcal.
3−1 = 2
= 10.776/2=5.39
A
1403.32
= 1403.32/272=
275−3 = 272
B
= 5.16
• Comparar Fcal con Fteórica y ver si se cumple la hipótesis nula.
(p)
Fteórica
0.05
2.99
0.01
4.60
Fcal < Fteórica por lo que se cumple H0, y las medias poblacionales son significativamente iguales para
ambos niveles de significación.
Ejemplo 2: Se sospecha que las aguas de un lago están contaminadas por los compuestos fosforados
procedentes de una industria. Para tratar de verificar esta sospecha, se midieron los niveles de fósforo en
distintos puntos del lago, obteniéndose los siguientes valores:
Lago 1: 7.1 8.5 6.2 7.3 7.9
Después, se tomaron medidas de los niveles de fósforo en varios puntos de otros tres lagos, que no estaban
contaminados, obteniéndose:
9
Lago 2: 7.2 6.5 5.9 7.8
Lago 3: 5.6 7.1 6.3 6.7 6.5
Lago 4: 7.2 6.6 6.3 7.4
Los valores obtenidos en lago bajo sospecha parecen ser algo superiores a los obtenidos en los otros tres. ¿Es
suficientemente importante esta diferencia como para poder concluir que el nivel de fósforo en el lago 1 es
diferente que el que tienen los demás, y por tanto está contaminado?
GRUPOS
"xi
Lago 1
Lago 2
Lago 3
Lago 4
37
27.4
32.2
27.5
TOTALES
124.1
7.4
6.85
6.44
6.875
"xi2
s2i
ni
276.8
189.74
208.6
189.85
0.60
0.5125
0.2464
0.1969
5
4
5
4
864.99
18
NOTA: En las calculadoras la
se representa como (xn) y la
como (xn−1).
2. Comprobar si las varianzas poblacionales son iguales (homogéneas).
H0 =Ñ=Ò=Ó=Ô
Como Fmáx<Fcrítica entonces se cumple H0 para los dados.
(p)
0.05
0.01
Fmáx crítica
6.6
9.9
Fuente de
variación
Suma de
cuadrados
0.1295x18= 2.332
ENTRE GRUPOS
DENTRO
GRUPOS
Grados de
libertad
Cuadrado medio Fcal.
4−1 = 3
= 0.7773
18−4 = 14
= 0.5050
A
7.0696
B
10
(p)
0.05
0.01
Fteórica
3.344
5.564
Fcal < Fteórica por lo que se cumple H0, y las medias poblacionales son significativamente iguales para los
niveles de significación dados, es decir, no hay suficiente evidencia estadística para concluir que el primer
lago tiene un nivel de contaminación diferente al que tienen el resto.
• CORRELACIÓN / REGRESIÓN.
La correlación, como su propio nombre indica, es una medida del grado de relación (lineal) entre dos
variables.
La regresión es un modelo estadístico que sirve para predecir un comportamiento real de una población
mediante un modelo matemático (ecuación).
Antes de fabricar un modelo matemático, es necesario saber si existe una correlación entre variables, ya que si
son incorreladas no tiene mucho sentido tratar de ajustar su relación mediante una recta o una curva.
Ejemplo 1: Se ha medido la superficie en dm2 ocupada por Poa bulbosa (x) y especies anuales (y) en 5
cuadros de muestreo de 10 dm2 para comprobar si se asocian o no. Los resultados obtenidos aparecen en la
siguiente tabla:
nº Poa bulbosa (x)
nº plantas anuales (y)
9
1
2
7
2
8
1
10
6
4
• Calcular el coeficiente de correlación (r).
Tabla 1. Resumen de valores de ambas variables.
nº de cuadro
1
2
3
4
5
Sumas totales
xi
9
2
2
1
6
20
yi
1
7
8
10
4
30
xy
9
14
16
10
24
73
x2
81
4
4
1
36
126
y2
1
49
64
100
16
230
11
H0 = no hay correlación a nivel poblacional entre las dos variables (variables incorreladas). = 0.
H1 = existe correlación entre las variables ( " 0).
Se acepta H0 si
. (rteórico realmente una tteórica de Student).
rteórica
0.878
0.959
0.05
0.01
Se rechaza H0 y por tanto existe suficiente evidencia estadística de que existe correlación entre variables y
que esta es negativa.
• Ajustar las variables a una regresión. Aunque las regresiones pueden ser lineales (y=Bx+A), logarítmicas,
etc...en este tipo de aplicaciones la regresión a la que se ajustan las variables correlacionadas es una recta.
Se pueden obtener dos rectas diferentes según se tome a la variable x o a la variable y como independiente.
• Recta de y sobre x (y/x):
• Recta de x sobre y (x/y):
En este caso vamos a calcular la recta (y/x) utilizando los datos que aparecen reflejados en la tabla 1:
, y despejando queda:
• Estime el número de plantas anuales que aparecerían si encontráramos 5 individuos de Poa bulbosa.
plantas anuales.
• Estime el número de plantas anuales que aparecerían si encontráramos 2 individuos de Poa bulbosa.
12
¡¡¡OJO!!!, esta pregunta tiene trampa, ya que podemos pensar que la respuesta puede obtenerse del cuadro
de datos que nos dan como enunciado, y no es así. La respuesta ha de hallarse sustituyendo en la recta de
regresión obtenida.
• Calcular la absorción de la varianza. Al error absoluto que se está cometiendo en el muestreo se le
denomina coeficiente de determinación(r2), que no es más que la cantidad de varianza entre los dos
grupos. La absorción de la varianza es el coeficiente de determinación expresado en tanto por ciento (%).
Absorción de la varianza.
• Representar gráficamente si fuera necesario. Sustituyendo valores en las rectas de regresión, pueden
representarse ambas rectas. Si se representan ambas rectas sobre la misma gráfica, se puede tener una idea
visual del grado de correlación entre las variables. Dicho grado viene determinado por el ángulo () que se
forma entre las dos rectas, de modo que cuanto menor sea el ángulo, mayor será la correlación entre
variables.
x
0
1
2
5
6
9.88
10
y
10.08
9.06
8.04
4.98
3.96
0
−0.12
13
• TIPOS DE DISTRIBUCIÓN ESPACIAL.
La distribución espacial de los organismos puede ser estudiada a muchas escalas, desde la escala global o
planetaria, a la local.
Existen tres tipos posibles de patrones de distribución espacial (Pattern):
• Distribución aleatoria. Los organismos se distribuyen al azar, y por tanto, la presencia de un
individuo no aumenta ni disminuye la probabilidad de encontrar otro. Este patrón se ajusta a
distribuciones como Binomial, Poisson y Normal.
• Distribución contagiosa. Los organismos se distribuyen de tal forma que la presencia de un individuo
aumenta la probabilidad de encontrar otro. Este tipo de distribución es la más corriente en la
naturaleza, y puede estar propiciada por diversas causas:
• Morfológicas
• Ambientales
• Infecciosas
• Distribución regular. Los organismos se distribuyen de tal forma que la presencia de un individuo
disminuye la probabilidad de encontrar otro.
Con este tipo de estudio se pretende comprobar la distribución que sigue una determinada población
problema. La distribución puede observarse a diferentes escalas, y en ocasiones el tipo de distribución cambia
dependiendo de la escala escogida. En este tipo de estudios se trabaja con una única variable.
Para comprobar qué tipo de distribución sigue la población sometida a estudio, es necesario calcular el índice
de dispersión (I.D.).
• Lo que realmente se pretende observar con el índice de dispersión es cómo están relacionados los
individuos y cuál es su nivel de concentración.
Además de calcular el I.D. es necesario comprobarlo estadísticamente (estimarlo) mediante una t de Student,
donde:
H0 = No hay evidencia estadística de que la distribución sea tal y como indica el Índice de dispersión.
Se cumple H0 si
• En caso de no existir suficientes evidencias estadísticas para aceptar que la distribución sea contagiosa o
regular, es conveniente comprobar si es aleatoria (aunque el I.D. no lo indicara) y a qué distribución
pertenece (binomial, Poisson, o Normal).
14
• Si la muestra es muy grande o la variable es continua (altura, peso,..) generalmente hay que ajustar a
una distribución Normal.
• Si la muestra es pequeña o la variable es discreta (números enteros), hay que ajustar a una distribución
Binomial, o a una Poisson.
Ejemplo 1: En el cuadro siguiente se ha anotado la cobertura de una especie vegetal muestreada en un
transecto, agrupandose las coberturas en diferentes clases. Comprobar que distribución espacial sigue la citada
especie.
CLASES
(grupos)
Frec. observadas
(oi)
Probabilidades de
clase** (p)
Frec. esperadas
(ei) = p x N
0
1
2
3
8
12
3
3
0.223
0.335
0.251
0.125
5.98
8.71
6.526
3.25
N = 26
** Las probabilidades de clase son valores tomados de las tablas de la distribución escogida. En este caso
están sacados de una distribución de Poisson con = 1.5 y = 0, 1, 2, 3.
Si las (ei) se parecen a las (oi) entonces intuitivamente se cumplirá la distribución de la que se han obtenido
los valores de p.
Para comprobar de forma estadística lo que intuitivamente podemos aventurar observando el cuadro, se usa un
Test de Bondad de Ajuste mediante un estimador que es de Pearson.
H0 = La distribución se ajusta a la distribución esperada.
• Se cumple H0 si cal < teórica para los niveles de significación dados.
Los grados de libertad (g.l.) para las distribuciones de Poisson y Binomial son de k−2, y para una distribución
Normal son k−3, siendo k=nº de grupos.
g.l.
2
0.01
teórico
9.21
0.05
5.99
Como cal < teórico para ambos niveles de significación, se acepta H0, lo que implica que existe
suficiente evidencia estadística para decir que la distribución de la muestra se ajusta a la distribución esperada,
en este caso una distribución de Poisson.
• SISTEMATIZACIÓN (Tipificación de Biocenosis):
15
El término Biocenosis se define como el conjunto de organismos que conviven en una localidad determinada.
La Sistematización o tipificación es el reconocimiento de la mayor o menor coincidencia entre especies
referida a un carácter, o entre caracteres dentro de una especie,...
Se trabaja siempre con variables cualitativas. En este tipo de estudios se parte de un tamaño muestral grande
(N) que va siendo desglosado (simplificado). Aunque esto supone una pérdida de información al disminuir el
detalle, se van a destacar las características más importantes de dicha población.
Existen dos técnicas para realizar este tipo de estudio:
• Clasificación: Se trata de dividir N de forma gerárquica, bien comenzando de mayor a menor
(clasificación divisiva) o bien de menor a mayor (clasificación aglomerativa), en esta última los
individuos observados se van fusionando en grupos progresivamente mayores. El conjunto inicial de
individuos se divide mediante criterios diversos (por ejemplo, presencia o ausencia de un atributo o
grupos de atributos).
• Ordenación: Se trata de poner de manifiesto unas relaciones espaciales continuas entre individuos.
ORDENACIÓN: Método de Bray−Curtis (índice de disimilitud (D)).
D = 1− S
• Valores de D más altos implican una menor similitud (mayor diferencia).
• Valores de D más bajos implican una mayor similitud.
• CLASIFICACIÓN
A.1. CLASIFICACIÓN DIVISIVA.
Ejemplo 1: Clasificación de 4 inventarios, 1, 2, 3, y 4, descritos por 4 especies (A, B, C y D).
grupos
especies
A
B
C
D
1
2
3
4
+
−
−
+
+
−
+
+
+
+
−
+
+
+
−
−
Mediante tablas de contingencia 2x2 de presencia o ausencia entre especies se obtiene una tabla resumen con
los cal para todas las especies:
A
A
+
+
−
"
4
0
4
cal
A
B
C
D
"
A
0
0
0
0
0
16
−
0
"
4
cal = 0
0
0
0
N
B
C
D
0
0
0
4.0
1.3
1.3
1.3
4.0
0.4
1.3
0.4
4.0
6.6
5.7
5.7
El mayor " pertenece a la especie B, y por tanto es a partir de esta especie sobre la que comenzamos la
división (especie discriminante). Se puede separar entonces el inventario en dos grupos, uno con presencia
de B (B+) correspondiente a los grupos 3 y 4, y otro con ausencia de B (B−) correspondiente a los grupos 1 y
2.
Ahora es necesario calcular otras dos series de correspondientes a cada uno de los grupos a partir de las
siguientes tablas.
grupos
grupos
1
especies
A
C
D
+
−
+
2
+
+
+
especies
A
C
D
3
4
+
−
+
+
−
−
Tabla 1. Grupos con ausencia de B. Tabla 2. Grupos con presencia de B.
• A partir de la tabla 1 (B−), para los grupos 1 y 2, sacamos la siguiente especie discriminante:
A
C
+
−
"
cal
A
C
D
"
+
1
17
0
1
A
0
0
0
0
−
1
0
1
C
0
2
0
2
"
2
0
D
0
0
0
0
cal = 0
18
La siguiente especie discriminante para el grupo B− es la especie C.
Con las siguientes especies discriminantes se vuelven a calcular otras dos series de y así sucesivamente
hasta acabar con la clasificación divisiva.
Ausencia de la especie C (C−).
A
gr
1
esp
A
D
+
−
"
cal
+
−
"
1
0
1
0
0
0
1
0
+
−
"
cal
+
−
"
1
0
1
0
0
0
1
0
A
D
"
A
D
0
0
D
"
A
D
0
0
D
+
+
0
0
0
0
0
0
0
0
A/D cal = 0
Presencia de la especie C (C+).
gr
A
2
esp
A
D
A
D
+
+
A/D cal = 0
Al no existir una nueva especie discriminante ya no se puede continuar la clasificación divisiva para la
ausencia o presencia de la especie C.
• A partir de la tabla 2 (B+) para los grupos 3 y 4 sacamos la siguiente especie discriminante:
A
C
+
−
"
cal
A
C
D
19
"
+
0
0
0
A
0
0
0
0
−
2
0
2
C
0
0
0
0
"
2
0
N
D
0
0
20
2
2
cal = 0
La siguiente especie discriminante para el grupo B+ es la especie D.
Presencia de la especie D (D+).
A
gr
3
esp
A
C
+
−
"
cal
+
−
"
0
1
1
0
0
0
0
1
1
+
−
"
cal
+
−
"
0
1
1
0
0
0
0
1
1
A
C
"
A
C
0
0
C
"
A
C
0
0
C
+
−
0
0
0
0
0
0
0
0
A/C cal = 0
Ausencia de la especie D (D−).
gr
A
4
esp
A
C
A
C
+
−
A/C cal = 0
Al no existir una nueva especie discriminante ya no se puede continuar la clasificación divisiva para la
ausencia o presencia de la especie D.
Los resultados de la clasificación divisiva se pueden presentar de forma gráfica (dendrograma) y así hacerse
una idea más clara y más general, ya que si la clasificación es excesivamente larga, puede perderse la visión
global y el propósito del estudio.
DENDROGRAMA DE CLASIFICACIÓN DIVISIVA
I: 1, 2, 3 y 4
(B+)
II1: 3 y 4
(D+)
III11: 3
3
(B−)
II2: 1 y 2
(D−)
III12: 4
4
(C+)
III21: 2
2
(C−)
III22: 1
1
21
A.2. CLASIFICACIÓN AGLOMERATIVA.
Ejemplo 1: Clasificación de 4 inventarios, 1, 2, 3, y 4, descritos por 4 especies (A, B, C y D).
grupos
especies
A
B
C
D
Nj ; Nk
1
2
3
4
+
−
−
+
2
+
−
+
+
3
+
+
−
+
3
+
+
−
−
2
A partir de la tabla anterior se realizan cálculos para obtener los índices de similitud de Jaccard (S) entre
grupos tomados dos a dos (j y k).
Generalmente se expresan como tanto por ciento (%).
S(%)
1
2
3
4
100
66.6
66.6
33.3
1
100
50
25
2
100
66.6
3
100
4
Índices de similitud de Jaccard en %.
Comenzando por los grupos que presentan mayor similitud se comienza a construir un diagrama para ver
gráficamente la clasificación aglomerativa (cuando dos grupos o parcelas se unen, funcionan como un único
grupo para unirse al siguiente). En ocasiones se pueden distinguir dos o más subgrupos, relativamente
distantes, en la clasificación, dependiendo del (S) al que se unan a otros grupos. Cuando ocurre esto se busca
la especie discriminante que, bien por su presencia o ausencia, produce la separación de ambos subgrupos.
La busqueda de la especie discriminante se realiza por una serie de ( una tabla de contingencia para cada
especie con su presencia y ausencia en los dos subgrupos considerados). La especie que posea el mayor es
la discriminante de un grupo frente a otro.
DIAGRAMA DE CLASIFICACIÓN AGLOMERATIVA
S(%)
40
93%
72%
51%
30%
64%
22
60
80
1
5
2
6
3
4
80%
7
• ORDENACIÓN (Ordenación Bray−Curtis).
El algoritmo utilizado es el índice de disimilitud (D).
D = 1− S
• Valores de D más altos implican una menor similitud (mayor diferencia).
• Valores de D más bajos implican una mayor similitud.
• Calcular para cada grupo su índice de disimilitud y colocar los datos en una tabla resumen (partiendo de la
tabla de índices de similitud de Jaccard).
D(%)
1
2
3
4
0
33.3
0
33.3
50
0
66.6
75
33.3
1
2
3
Índices de disimilitud (D) expresados en %.
0
4
• Representar gráficamente en dos ejes los diferentes grupos según los siguientes criterios:
• En un primer eje, que representa el 100% de disimilitud, se colocan en los extremos aquellos grupos
con un valor de D más elevado, esto es los grupos menos parecidos. De forma arbitraria, se van
colocando a derecha e izquierda del centro del eje los dos siguientes grupos con mayor D, y así
sucesivamente de tal forma que los grupos más similares (con menor D) queden colocados más
próximos junto al centro del eje. Para colocarlos de forma más precisa, se toman los dos siguientes
grupos más disimilares y se miran los índices de disimilitud con respecto a los grupos de los
extremos, se suman ambos valores de D y, mediante una regla de tres, se ajusta esa distancia a la que
se consideró como 100% en el eje.
• En el segundo eje, se procede de igual forma que en el primero pero colocando en los extremos las
parcelas más similares (con valores de D bajos).
• El tercer eje, presenta poca absorción de la varianza y es poco informativo, por lo que no es necesario
representarlo.
Eje 5%
2
95% más similares !
Eje 1 83%
5% 8%
! más similares
! menos
78%
similares
menos
similares
!
91%
23
8%
• DIVERSIDAD DE ESPECIES.
Para comparar diferentes comunidades o caracterizarlas, se suele evaluar la riqueza en especies, es decir, el
número de especies de cada comunidad. Este parámetro, sin embargo, no tiene en cuenta el número de
individuos de cada especie. El concepto amplio de diversidad que se emplea en Ecología se refiere a la
combinación de riqueza en especies y sus abundancias relativas.
La estimación de las abundancias relativas para el cálculo de la diversidad puede realizarse empleando
diversas variables (densidad, cobertura, biomasa, ...). En cualquier caso este tipo de estudios debe hacerse a
partir de un muestreo aleatorio, instantáneo y con el mismo tamaño muestral.
Hay varias técnicas para medir la diversidad a partir del conocimiento de la riqueza específica y de las
abundancias relativas:
• Modelos de abundancia de especies.
• Índices de diversidad.
ÍNDICE DE DIVERSIDAD DE Shannon−Wiener.
El índice de diversidad de Shannon−Wiener (H) se expresa en bits. Cuanto mayor sea el valor de H mayor
será la diversidad. Si se comparan varias comunidades, presentará mayor diversidad la que mayor número de
bits posea.
siendo
Ni = número de individuos de la especie i.
N = número total de individuos.
Con frecuencia no es posible operar en la calculadora con log2 por lo que es necesario realizar una
transformación:
Raúl López García
Estadística aplicada a la Ecología
12
11
24
25
Descargar