Théorie du coalescent

En génétique, la théorie du coalescent, appelée aussi théorie de la coalescence, est un modèle rétrospectif de génétique des populations. Son objectif est de suivre l'évolution de tous les allèles d'un gène donné de tous les individus d'une population, jusqu'à une seule copie ancestrale, appelée ancêtre commun le plus récent. Les relations d'hérédité entre les allèles sont représentées sous la forme d'un arbre similaire à un arbre phylogénétique. Cet arbre est aussi appelé coalescent, et la compréhension des propriétés statistiques du coalescent sous différentes hypothèses forme la base de la théorie du coalescent.

Le coalescent utilise des modèles de dérive génétique, en remontant le temps pour reconstruire la généalogie des ancêtres. Dans le cas le plus simple, la théorie du coalescent suppose qu'il n'y a ni recombinaison, ni sélection naturelle, ni flux de gènes, et que la population n'est pas structurée. Des modèles sont ensuite complétés pour prendre en compte une ou plusieurs des composantes de l'évolution biologique. La théorie mathématique du coalescent a été développée au début des années 1980 par John Kingman.

Théorie

Si l'on considère deux individus, on retrace leurs généalogies en remontant le temps jusqu'à trouver leur ancêtre commun le plus récent, instant où se produit ce qu'on nomme la coalescence.

Temps de coalescence

L'un des objectifs de la théorie du coalescent est de déterminer la durée écoulée depuis la vie de l'ancêtre commun le plus récent.

On utilise alors la théorie des probabilités. La probabilité que deux lignées coalescent lors de la génération immédiatement précédente est qu'ils aient le même parent. Pour une population diploïde dont la taille reste constante et égale à 2N_e copies de chaque locus, il y a 2N_e parents potentiels dans la génération précédente, donc la probabilité que deux allèles aient le même parent est de 1/(2N_e), et réciproquement, la probabilité qu'il n'y ait pas coalescence est de 1 − 1/(2N_e).

On voit donc que la probabilité de coalescence lorsqu'on remonte les générations, suit une loi géométrique : la probabilité que la coalescence arrive à la t-ième génération précédente (c'est-à-dire qu'il n'y ait pas eu de coalescence lors des t-1 premières générations, et qu'elle advienne à la dernière) est de

P_{c}(t)=\left(1-{\frac {1}{2N_{e}}}\right)^{t-1}\left({\frac {1}{2N_{e}}}\right).

Lorsque N_e est suffisamment grand, une bonne approximation de la distribution est donnée par la loi exponentielle

P_{c}(t)={\frac {1}{2N_{e}}}e^{-{\frac {t-1}{2N_{e}}}}.

L'espérance et l'écart-type d'une loi exponentielle sont toutes deux égales au paramètre, ici 2N_e. Par conséquent, le temps moyen de coalescence est de 2N_e, compté en nombre de générations avant le présent.

Variation sans sélection

La théorie de la coalescence est aussi utilisée pour modéliser la variation d'une séquence d'ADN sous l'influence de la seule dérive génétique. Cette quantité de variation, (parfois appelée hétérozygotie) est notée ${\bar {H}}$ . Sa moyenne est calculée comme le ratio de la probabilité qu'une mutation arrive lors d'une génération donnée divisée par la somme des probabilités que l'un des deux événements (mutation ou coalescence) arrive à cette génération. Cette mutation pouvant atteindre l'une ou l'autre des deux lignées, sa probabilité est donc notée $2\mu$ . Ainsi on obtient, en notant $\theta =4N_{e}\mu$ ,

{\bar {H}}={\frac {2\mu }{2\mu +{\frac {1}{2N_{e}}}}};

{\bar {H}}={\frac {4N_{e}\mu }{1+4N_{e}\mu }};

{\bar {H}}={\frac {\theta }{1+\theta }}.

Lorsque $4N_{e}\mu \gg 1$ , la plupart des paires d'allèles ont au moins une différence dans la séquence de leurs nucléotides.

Représentation graphique

Les coalescents peuvent être représentés par des dendrogrammes qui montrent les relations des différentes branches de la population. Le point où deux branches se rencontrent indique une coalescence.

Histoire

La théorie de la coalescence est une extension naturelle de concepts classiques de génétique des populations d'évolution sans sélection, et est une approximation du modèle de Wright Fisher (créé par Sewall Wright et Ronald Fisher) pour des populations de grande taille. Elle a été élaborée indépendamment par plusieurs chercheurs au début des années 1980 ^[1]^,^[2]^,^[3]^,^[4], mais la formulation définitive est attribuée à Kingman. Des contributions majeures ont été effectuées par Peter Donnelly^[5], Robert Griffiths, Richard R Hudson^[6] et Simon Tavaré. Parmi celles-ci figurent les modifications du modèle pour inclure la variation de la taille de la population^[7], la recombinaison et la sélection^[8]^,^[9]. En 1999 Jim Pitman^[10] et Serik Sagitov^[11] ont introduit indépendamment les coalescents avec des collisions multiples de lignées ancestrales. Un peu plus tard la classification complète de processus coalescents échangeables avec fusions multiples a été élaborée par Martin Möhle, Serik Sagitov^[12] et Jason Schweinsberg^[13].

Logiciels

Il existe un grand nombre de logiciels, tant de simulation de jeux de données de processus de coalescence, que d'inférence de paramètres comme les tailles de population ou les taux de migrations. En voici une liste : logiciels en théorie de coalescence (en).

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Coalescent Theory » (voir la liste des auteurs).

↑ Kingman, J.F.C. (1982) On the Genealogy of Large Populations. Journal of Applied Probability 19A:27–43 JSTOR copy
↑ Hudson RR (1983a) Testing the constant-rate neutral allele model with protein sequence data. Evolution 37: 203–207 JSTOR copy
↑ Hudson RR (1983b) Properties of a neutral allele model with intragenic recombination. Theoretical Population Biology 23:183–201.
↑ Tajima, F. (1983) Evolutionary Relationship of DNA Sequences in finite populations. Genetics 105:437–460
↑ Donnelly, P., Tavaré, S. (1995) Coalescents and genealogical structure under neutrality. Annual Review of Genetics 29:401–421
↑ Hudson RR (1991) Gene genealogies and the coalescent process. Oxford Surveys in Evolutionary Biology 7: 1–44
↑ }Slatkin, M. (2001) Simulating genealogies of selected alleles in populations of variable size Genetic Research 145:519–534
↑ Kaplan, N.L., Darden, T., Hudson, R.R. (1988) The coalescent process in models with selection. Genetics 120:819–829
↑ Neuhauser, C., Krone, S.M. (1997) The genealogy of samples in models with selection Genetics 145 519–534
↑ Pitman, J. (1999) Coalescents with multiple collisions The Annals of Probability 27:1870–1902
↑ Sagitov, S. (1999) The general coalescent with asynchronous mergers of ancestral lines Journal of Applied Probability 36:1116–1125
↑ Möhle, M., Sagitov, S. (2001) A classification of coalescent processes for haploid exchangeable population models The Annals of Probability 29:1547–1562
↑ Schweinsberg, J. (2000) Coalescents with simultaneous multiple collisions Electronic Journal of Probability 5:1–50

Autre articles

Arenas, M. and Posada, D. (2007) Recodon: Coalescent simulation of coding DNA sequences with recombination, migration and demography. BMC Bioinformatics 8: 458
Arenas, M. and Posada, D. (2010) Coalescent simulation of intracodon recombination. Genetics 184(2): 429–437
Browning, S.R. (2006) Multilocus association mapping using variable-length markov chains. American Journal of Human Genetics 78:903–913
Degnan, JH and LA Salter. 2005. Gene tree distribtutions under the coalescent process. Evolution 59(1): 24-37. pdf from coaltree.net/
Hellenthal, G., Stephens M. (2006) msHOT: modifying Hudson's ms simulator to incorporate crossover and gene conversion hotspots Bioinformatics AOP
Hudson RR (2002) Generating samples under a Wright–Fisher neutral model. Bioinformatics 18:337–338
Hein, J. , Schierup, M., Wiuf C. (2004) Gene Genealogies, Variation and Evolution: A Primer in Coalescent Theory Oxford University Press (ISBN 978-0198529965)
Kingman, J.F.C. (2000) Origins of the coalescent 1974–1982. Genetics 156:1461–1463
Liang L., Zöllner S., Abecasis G.R. (2007) GENOME: a rapid coalescent-based whole genome simulator. Bioinformatics 23: 1565–1567
Mailund, T., Schierup, M.H., Pedersen, C.N.S., Mechlenborg, P.J.M., Madsen, J.N., Schauser, L. (2005) CoaSim: A Flexible Environment for Simulating Genetic Data under Coalescent Models BMC Bioinformatics 6:252
Morris, A. P., Whittaker, J. C., Balding, D. J. (2002) Fine-scale mapping of disease loci via shattered coalescent modeling of genealogies American Journal of Human Genetics 70:686–707
Harding, Rosalind, M. 1998. New phylogenies: an introductory look at the coalescent. pp. 15–22, in Harvey, P. H., Brown, A. J. L., Smith, J. M., Nee, S. New uses for new phylogenies. Oxford University Press (ISBN 0198549849)
Rosenberg, N.A., Nordborg, M. (2002) Genealogical Trees, Coalescent Theory and the Analysis of Genetic Polymorphisms. Nature Reviews Genetics 3:380–390
Zöllner S. and Pritchard J.K. (2005) Coalescent-Based Association Mapping and Fine Mapping of Complex Trait Loci Genetics 169:1071–1092
Rousset F. and Leblois R. (2007) Likelihood and Approximate Likelihood Analyses of Genetic Structure in a Linear Habitat: Performance and Robustness to Model Mis-Specification Molecular Biology and Evolution 24:2730–2745
Leblois R., Estoup A. and Rousset F. (2009) IBDSim: a computer program to simulate genotypic data under isolation by distance Molecular Ecology Resources 9:107-109

Bibliographie

Hein, J; Schierup, M. H., and Wiuf, C. Gene Genealogies, Variation and Evolution – A Primer in Coalescent Theory. Oxford University Press, 2005. (ISBN 0-19-852996-1).
Nordborg, M. (2001) Introduction to Coalescent Theory
Chapter 7 in Balding, D., Bishop, M., Cannings, C., editors, Handbook of Statistical Genetics. Wiley (ISBN 978-0471860945)
Wakeley J. (2006) An Introduction to Coalescent Theory Roberts & Co (ISBN 0-9747077-5-9)
Rice SH. (2004). Evolutionary Theory: Mathematical and Conceptual Foundations. Sinauer Associates: Sunderland, MA. See esp. ch. 3 for detailed derivations.
Berestycki N. "Recent progress in coalescent theory" 2009 ENSAIOS Matematicos vol.16
Bertoin J. "Random Fragmentation and Coagulation Processes"., 2006. Cambridge Studies in Advanced Mathematics, 102. Cambridge University Press, Cambridge, 2006. (ISBN 978-0-521-86728-3);
Pitman J. "Combinatorial stochastic processes" Springer (2003)

Portail de la biologie cellulaire et moléculaire

[1] Kingman, J.F.C. (1982) On the Genealogy of Large Populations. Journal of Applied Probability 19A:27–43 JSTOR copy

[2] Hudson RR (1983a) Testing the constant-rate neutral allele model with protein sequence data. Evolution 37: 203–207 JSTOR copy

[3] Hudson RR (1983b) Properties of a neutral allele model with intragenic recombination. Theoretical Population Biology 23:183–201.

[4] Tajima, F. (1983) Evolutionary Relationship of DNA Sequences in finite populations. Genetics 105:437–460

[5] Donnelly, P., Tavaré, S. (1995) Coalescents and genealogical structure under neutrality. Annual Review of Genetics 29:401–421

[6] Hudson RR (1991) Gene genealogies and the coalescent process. Oxford Surveys in Evolutionary Biology 7: 1–44

[7] }Slatkin, M. (2001) Simulating genealogies of selected alleles in populations of variable size Genetic Research 145:519–534

[8] Kaplan, N.L., Darden, T., Hudson, R.R. (1988) The coalescent process in models with selection. Genetics 120:819–829

[9] Neuhauser, C., Krone, S.M. (1997) The genealogy of samples in models with selection Genetics 145 519–534

[10] Pitman, J. (1999) Coalescents with multiple collisions The Annals of Probability 27:1870–1902

[11] Sagitov, S. (1999) The general coalescent with asynchronous mergers of ancestral lines Journal of Applied Probability 36:1116–1125

[12] Möhle, M., Sagitov, S. (2001) A classification of coalescent processes for haploid exchangeable population models The Annals of Probability 29:1547–1562

[13] Schweinsberg, J. (2000) Coalescents with simultaneous multiple collisions Electronic Journal of Probability 5:1–50

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]