El modelo matemático de deriva genética de Kimura J. C. Flores Centro de Investigaciones del Hombre en el Desierto (CIHDE), y Departamento de Fı́sica, Universidad de Tarapacá, Casilla 7-D, Arica, Chile. Resumen En este trabajo se presenta un modelo de deriva genética propuesto por M. Kimura. Los valores medios y dispersión de las frecuencias génicas, son explícitamente evaluados para todo instante de tiempo. La fijación o eliminación de un gen, aparece ligada directamente al número de individuos de la población. Es decir, en poblaciones pequeñas se favorece la homogeneidad (eliminación o fijación del gen), mientras que en poblaciones grandes, prevalece la diversidad. El caso de poblaciones con número variable de individuos también es estudiado. En este caso, la eliminación o fijación de un gen depende de la tasa de crecimiento de la población. 75 1 Introdución La deriva genética, se relaciona con las fluctuaciones al azar de las frecuencias genéticas en una población. Estas fluctuaciones son consecuencia directa del encuentro aleatorio de los gametos en el proceso de reproducción sexual (panmixia). Al respecto, usualmente se cree que dichas fluctuaciones estadísticas son más grandes cuando el número de individuos que componen la población es pequeño. Esta suposición está relacionada con procesos aleatorios independientes (independencia estadística). La deriva genética admite un tratamiento matemático, descrito en términos de una distribución de probabilidad. En particular, dicho tratamiento está ligado a las ecuaciones de difusión usualmente estudiadas en física (FokkerPlanck), por ejemplo, la difusión de un líquido en otro. En este caso físico, se trata de difusión espacial. En el caso genético es la posible fijación de un gen que difunde en el potencial genético de una población. Con el propósito de presentar una ecuación de evolución temporal para la frecuencia de un gen en una población (ecuación de Kimura), consideraremos N individuos que se reproducen y portan un par de alelos homólogos A1 y A2 (con N fijo). Sea p la frecuencia del alelo A1 en la población con 0 ≤ p ≤ 1. Entonces, 1 − p corresponde a la frecuencia del alelo A2 . Notemos que la frecuencia p es de naturaleza estadística, puesto que los encuentros entre gametos son asumidos aleatorios. Sea Φ(p, t) la densidad de probabilidad que la frecuencia del alelo A1 tenga el valor p en el instante t, asumiendo que en t = 0 se tiene p = po (fijo). Puesto que Φ(p, t) es una densidad de probabilidad se debe cumplir Φ(p, t) ≥ 0, (1) y la condición de normalización Z 1 Φ(p, t)dp = 1. 0 76 (2) Por otro lado, la probabilidad de que la frecuencia esté comprendida entre los valores p y p + ∆p está dada, como es usual en estos casos, por la integral R p+∆p Φ(x, t)dx. p Establecida la notación de base, en la próxima sección presentaremos el modelo de Kimura para la deriva genética. En la sección 3, evaluaremos los promedios temporales de frecuencias alélicas. En la sección 4, veremos el caso de poblaciones con un número variable de individuos y en la sección 5 discutiremos brevemente la solución estacionaria del modelo. 2 El modelo de Kimura Motoo Kimura propuso en 1955 [1,2] una ecuación de evolución para la distribución de frecuencias Φ(p, t). Dicha ecuación, es de tipo difusivo a derivadas parciales y está dada por la expresión: 1 ∂2 ∂ Φ= (3) {p (1 − p) Φ} , 4N ∂p2 ∂t donde N es el número fijo de individuos de la población. A continuación algunos comentarios respecto de la ecuación anterior: (a) El tiempo t, en (3), se mide en número de generaciones. Es decir, es un parámetro adimensional. (b) La ecuación es de primer orden en el tiempo, entonces su solución requiere una condición inicial. (c) La distribución Φ(p, t) está definida en el intervalo 0≤p≤1. (d) Kimura asume la condición inicial Φ(p, t) = δ(p − po ). Donde δ es la distribución de Dirac. 77 La ecuación (3), admite una solución en forma de una serie infinita de funciones hipergeométricas. Dada la complejidad de dicha solución, en este artículo solo nos limitaremos a dar a conocer su forma general. En efecto, la solución formal de (3) se escribe [1,2] Φ(p, t) = ∞ X Φl (p, t), (4) l=1 donde Φl (p, t) = F (p, l, po )e−l(l+1)t/4N . (5) La función F se relaciona con la denominada función hipergeométrica, en una forma que no será especificada en este artículo. Claramente, la solución (4-5) decae exponencialmente a cero para tiempos largos (t → +∞). Notemos que en la serie (4), la solución que decae más lentamente en el tiempo es aquella con l = 1. De hecho, dicha solución se obtiene explícitamente ensayando Φ1 (p, t) = Ce−t/2N en (3), donde C es una constante (independiente de p) y que corresponde a una distribución plana. Numéricamente se ve que la distribución (4) es independiente de p para tiempos largos [1,2]. Una consideración importante, relacionada con la ecuación (3), es que la solución de Kimura (4-5) no conserva la norma de Φ(p, t) y no se cumple (2). Por tanto, existe corriente de probabilidad y el sistema es abierto (paredes absorbentes). Es decir, una vez eliminado un gen (Φ(p = 0) = 1) éste no reaparece o una vez fijado (Φ(p = 1) = 1) él permanece. 78 3 Valores medios y dispersión En el caso particular de la ecuación de Kimura, se pueden obtener el valor medio hpit y cuadrático hp2 it en forma analítica para todo valor del tiempo t. En efecto, multiplicando (3) por p e integrando por partes, se obtiene la ∂ ecuación ∂t hpi = 0. Por tanto, hpit es constante en el tiempo, es decir, hpit = po . (6) 2 De la misma forma, multiplicando (3) por p e integrando dos veces por partes, se obtiene la ecuación temporal de evolución para el valor cuadrático 1 ∂ medio ∂t (po − hp2 i) cuya solución corresponde a hp2 i = 2N D p2 E t t = po (po − 1)e− 2N + po . (7) Entonces, la dispersión σ 2 (t) = hp2 it − hpi2t de la frecuencia del alelo corresponde a ³ t ´ σ 2 (t) = po (1 − po ) 1 − e− 2N . (8) De acuerdo a lo anterior, se presentan dos casos: (a) pequeñas poblaciones (t À 2N) o (b) grandes poblaciones (t ¿ 2N). Ambos merecen ser considerados explícitamente. (a) En el caso de una población pequeña, el número de individuos N es chico respecto del número de generaciones t, entonces la exponencial en (8) va a cero rápidamente y las fluctuaciones de la frecuencia genética son σ 2 ∼ po (1 − po ) que se pueden considerar apreciables. Por ejemplo, si la frecuencia inicial es po = 0.5, entonces las fluctuaciones estadísticas son del orden de σ ∼ 0, 5. Esto corresponde a una alta probabilidad de fijación o eliminación del alelo. (b) El caso de grandes poblaciones corresponde a la aproximación t ¿ 2N. Es decir, a la expansión a primer orden en la exponencial de (8). 79 ³ ´ t Explícitamente, σ 2 (t) = po (1 − po ) 2N que coresponde a un valor de primer t orden en el parámetro de expansión 2N y pequeño. De esta forma, en el caso de grandes poblaciones las fluctuaciones son pequeñas y no existe homogenización apreciable (eliminación o fijación de un gen). Teniendo en cuenta (a) y (b), t = 2N se interpreta como el tiempo de fijación (o eliminación) del alelo en la población. Finalmente, notemos que la deriva genética hace disminuir el número de heterozigotos. En efecto, asumiendo panmixia, la frecuencia de heterozigotos está dada por 2p(1 − p), entonces el número medio h2p(1 − p)i se calcula directamente usando (6) y (7) correspondiendo a 2po (1 − po ) e−t/2N que decae exponencialmente. El número de heterozigotos decae en beneficio de los homozigotos. Naturalmente, esto está estrechamente relacionado con la fijación o eliminación de un alelo por deriva genética. 4 Número efectivo de individuos Llegados a este punto, una importante pregunta debe ser formulada. En los cálculos hechos, tales como la fluctuaciones o valores medios, se asumió un número de individuos constante en la población. Naturalmente esta suposición está lejos de ser real. En efecto, el crecimiento o disminución del número de individuos de una población es un hecho frecuente y natural [3-6]. Este crecimiento o disminución está relacionado con las variaciones temporales del nicho ecológico asociado a una determinada población o competencia entre especies [3-6]. Para tener en cuenta este hecho, se define la noción de número efectivo de individuos Ne . En la ecuación de Kimura (3), esta noción es bastante natural. En efecto, si el número de individuos es función del 80 tiempo es N(t), entonces la ecuación de Kimura se modifica trivialmente como 4N(t) ∂ ∂2 Φ = 2 (p (1 − p) Φ) . ∂t ∂p (9) Se define el número efectivo Ne (t) como Z t 1 t = dt. Ne (t) 0 N(t) (10) Entonces, con esta definición las fluctuaciones de las frecuencias σ(t) se calculan en la misma forma de la sección anterior y se obtiene: ³ t ´ σ 2 (t) = po (1 − po ) 1 − e− 2Ne . (11) A modo de ejemplo, imaginemos una población en un medio idealizado con recursos ilimitados de territorio y alimento. Entonces, su crecimiento está regulado por la curva exponencial. Es decir N(t) = No eαt , donde α es la tasa de crecimiento y No el número inicial de individuos. Usando (10), el número efectivo se calcula fácilmente como ´ 1 1 ³ = 1 − e−αt . Ne (t) No αt (12) En este caso de población variable, usando (11-12) asintóticamente en el tiempo, las fluctuaciones de la frecuencia estan dadas por ³ 1 ´ σ 2 (t → ∞) = po (1 − po ) 1 − e− 2αNo . (13) Entonces, poblaciones pequeñas con gran tasa de crecimiento (es decir αNo À 1) experimentan pequeñas fluctuaciones ³en la ´frecuencia genética 1 ). Opuestamente, existiendo diversidad genética (σ 2 ∼ po (1 − po ) 2αN o poblaciones pequeñas con pequeña tasa de crecimiento (αNo ¿ 1) tienen fluctuaciones considerables σ 2 ∼ po (1 − po ), existiendo fijación o eliminación del gen (fijación o eliminación de heterozigotos). 81 5 La solución estacionaria En términos generales, las soluciones estacionarias de una ecuación de difusión como (3), son aquellas soluciones que no evolucionan en el tiempo, ∂ es decir ∂t Φ = 0. Al respecto, una solución estacionaria de (3) corresponde a Φ(p, t) = 0 (∀ t) que es una solución trivial y a la cual tiende la solución propuesta por Kimura. Como ya ha sido mencionado anteriormente, dicha solución no satisface la condición de normalización (2). Sin embargo, puesto que la fijación o eliminación de un gen corresponde a un problema con ‘paredes absorbentes’, la no conservación de la probabilidad total no presenta una inconsistencia. En este capítulo, exploraremos la solución estacionaria de (3) que conserva la probabilidad. Esta situación modela el caso donde los genes eliminados pueden reaparecer en la población o eventualmente, los genes fijados pueden dejar de estarlo en el transcurso del tiempo. La solución estacionaria se obtiene notando que (3) se escribe como ∂ ∂ Φ = − J, ∂t ∂p (14) donde la corriente de probabilidad J(p, t) está dada por la definición J(p) = − 1 ∂ (p (1 − p) Φ) . 4N ∂p (15) En este sentido, la ecuación (15) corresponde a una ecuación de continuidad R y la integral Φdp es constante (2) solo si la corriente de probabilidad se anula en los extremos. Es decir, J(p = 0) = J(p = 1) = 0. Por definición, puesto que la solución estacionaria Φs (p) es aquella que no evoluciona en el tiempo, entonces de (14) esto requiere que J(p) sea una constante, que llamaremos Jo . Con esto, integrando una vez (15) tenemos fácilmente la solución buscada: 82 Φs (p) = − (4NJo ) p + C , p (1 − p) (16) C , p (1 − p) (17) donde C es una constante de integración. Asumiendo que el sistema está cerrado, o aislado (conservación de la probabilidad total), entonces Jo = 0 y la distribución se escribe Φs (p) = Mostrando que los puntos p = 0 y p = 1 tienen la mayor probabilidad. 6 Generalización de la ecuación de Kimura: migración y mutación La ecuación de Kimura admite una generalización simple para considerar procesos elementales como migración y mutación. En efecto la migración hace variar la frecuencia p para llevarla a una frecuencia pe , la del flujo migratorio externo. En este sentido, la variación temporal determinista de la frecuencia esta dada por dtd p = m(pe − p), donde m es el coeficiente de migración. De la misma forma, el proceso de mutación A1 → A2 se relaciona con un decrecimiento sostenido de la frecuencia p que se modela mediante la ecuación dtd p = −µp, donde µ es la taza de mutación. Puesto que la ecuación de Kimura es una ecuación del tipo Fokker-Planck, entonces esta puede ser generalizada para contener ambos procesos como ( ) 1 ∂ ∂ ∂ Φ= (p (1 − p) Φ) , − (mpe − (m + µ) p) Φ + 4N ∂p ∂t ∂p que en el caso m = µ = 0 se convierte en la ecuación (3). 83 (18) 7 Epı́logo: la teorı́a neutralista de la evolución El descubrimiento a partir de los años 60 [1,2] de variedades genéticas intensas con ausencia de fijación (polimorfismo) en poblaciones naturales, deja ver un problema mayor. En efecto, dicho polimorfismo involucra la exterminación masiva y sistematica de homozigotos. Respecto de esto, Kimura establece que la selección natural por si sola no es capaz de dar cuenta, por ejemplo, de la dominancia de los heterozigotos en dicho proceso de selección. En este sentido, él sostiene que no es (sólo) la selección natural el mecanismo de evolución, sino la deriva genética complementada con mutaciones. En efecto, la fijación de un gen (establecimiento de homozigotos en el seno de una población) es un evento de larga duración (t ∼ 2N con N À 1). Por lo tanto, se mantiene la variedad genética en un sentido metaestable. El proceso de mutaciones, por ejemplo el cambio A1 ↔ A2 , mantiene la ausencia de fijación complementando la diversidad. Se Agradece al profesor M. Valenzuela (UTA) por la lectura y sugerencias en el manuscrito. References [1] M. Kimura, Proc. Natl. Acad. Sci. (USA). 41, 144 (1955). Solution of a process of random genetic drift with a continous model. [2] M. Kimura, The Neutral Theory of Molecular Evolution, Cambridge University Press, (1983). [3] J. D. Murray, Mathematical Biology, Springer (1989). [4] J. C. Flores, J. Theor.Biol. 191, (1998). [5] J. C. Flores y R. Beltran, J. Phys.A:Math.Gen, 33, 4977 (2000). [6] J. C. Flores y M. Valenzuela, Charlas de Física 16, 17 (1999). 84