I.     Introduction - Contexte

 

L'objectif de l'épidémiologie génétique est de comprendre le déterminisme génétique des maladies. Or la plupart des maladies humaines résultent de l'interaction de nombreux facteurs génétiques et environnementaux. L'étude de marqueurs génétiques dans des familles de malades peut d'une part, montrer l'existence de facteurs génétiques d'autre part, aider à élucider leur mécanisme d'action.

Une stratégie est de tester le rôle éventuel de gènes candidats en utilisant des marqueurs situés sur ces gènes (ou extrêmement proches). Un gène candidat est un gène dont la fonction est telle qu'on peut soupçonner son implication dans le processus étiopathologique. Par extension, on définira une "région candidate" comme contenant potentiellement un gène candidat. C'est le cas par exemple de la région HLA pour les maladies en relation avec le système immunitaire. On peut également définir des régions candidates homologues à celles qui sont impliquées chez les animaux. Il est naturel de rechercher si un gène candidat joue un rôle dans le processus pathologique et s'il constitue un facteur de risque pour la maladie, plus précisément s’il existe un risque différentiel correspondant à des variations d’ expression de ce gène. En général, les différentes expressions ne sont pas directement  observables et on peut chercher à disposer sur le gène candidat de marqueurs qui serviront d'indicateurs.

De nombreuses approches s'intéressent à la première étape d'identification, mais, lorsque l'effet d'un gène a été mis en évidence, il devient nécessaire de modéliser et d'évaluer cet effet. Clerget-Darpoux et al. ont développé une méthode répondant à cet objectif, la méthode MASC (1). Cette méthode a déjà été utilisée pour étudier les facteurs de risque HLA dans plusieurs maladies auto-immunes : le diabète insulino-dépendant (2;3), la polyarthrite rhumatoïde (4;5), la maladie cœliaque (6;7) et la sclérose en plaques (8).

Compte tenu de la complexité du déterminisme des maladies humaines il est nécessaire d'enrichir au maximum l'information prise en compte et d'optimiser son utilisation.

Une première partie de mon travail  de thèse consiste à étendre la méthode MASC à la prise en compte de nouvelles informations, et d’affiner ainsi la compréhension du processus pathogénique des maladies.

Une deuxième partie vise à évaluer les risques de développer une maladie coeliaque en utilisant la méthode MASC. La maladie de cœliaque est une maladie auto-immune caractérisée par une intolérance permanente au gluten (prolamines céréalières) qui  ne survient que sur un terrain de susceptibilité génétique. Sa forte association avec des antigènes du système HLA est clairement établie (6;7).

II. Extension de la méthode MASC

 

La méthode MASC (Marker Association Segregation Chi-Square) permet de tester et de modéliser le rôle de gènes candidats dans le déterminisme d’une maladie en utilisant trois informations complémentaires :

·         la ségrégation de la maladie dans les familles,

·         l’association de la maladie et de marqueurs des gènes candidats au niveau de la population,

·         la coségrégation de la maladie et du marqueur dans des familles (la liaison génétique).

L’un des intérêts essentiels de la méthode est de pouvoir estimer les risques de développer une maladie en fonction des informations génétiques dont on dispose. La précision de ces risques se mesure par leurs intervalles de confiance. Il est clair que plus l’information est riche, plus les intervalles de confiance sont réduits. Mon travail sur la méthode MASC s’est donc d’abord attaché au calcul des intervalles de confiance puis à l’intégration de nouvelles informations génétiques.

 

1.   Calcul des intervalles de confiance

Comme les paramètres estimés ne sont pas indépendants entre eux, il n'est pas possible d'utiliser une loi statistique pour prendre en compte l'incertitude liée à l'échantillonnage des données (la taille de l'échantillon et les fréquences alléliques au marqueur). J'ai donc mis en place une procédure de "bootstrap". Celle-ci va répéter un grand nombre de fois les estimations en utilisant à chaque fois un nouvel échantillon de taille identique à celui de départ et pour lequel les fréquences alléliques au marqueur sont préalablement estimées. On peut ainsi déterminer la distribution de chacun des paramètres estimés et donc leur intervalle de confiance à 95%.

Dans chaque réplicat les fréquences alléliques du marqueur sont estimées selon le principe de la méthode AFBAC (Affected Family Based Controls). Les allèles parentaux qui ne sont pas transmis au(x) malade(s), à l’origine de la sélection de sa famille, permettent d'obtenir une estimation non-biaisée des fréquences alléliques au marqueur (9).

 

2.   Ajout d'information

Information sur le génotype des parents

La version antérieure de la méthode MASC supposait inconnu le génotype des parents. Or cette information est parfois disponible surtout pour les maladies qui se manifestent avant l’âge adulte. J’ai modifié la méthode MASC pour laisser la possibilité de prendre en compte cette information et montré que cela pouvait réduire notablement les intervalles de confiance des paramètres estimés.

 

Information sur la ségrégation familiale de la maladie

Selon le mode de recrutement des familles, cette information n'est pas toujours disponible dans l'échantillon étudié, mais elle est parfois disponible grâce à d'autres études. On peut alors l'introduire sous formes de contraintes. En effet, j’ai introduit dans MASC des contraintes exprimant la fréquence de la maladie chez les germains (frères ou sœurs) et les parents d’un malade en fonction des risques à estimer. L’estimation des risques se fait donc par maximisation, mais les valeurs qui peuvent être attribuée aux risques se limitent à celles qui respectent les contraintes introduites. Ici aussi l’information gagnée est mesurée par la réduction des intervalles de confiances.

 

3.   Développements informatiques

J'ai développé le logiciel MASC en intégrant de façon souple les nouvelles extensions. Pour assurer la portabilité du logiciel sur différentes plates-formes (Windows et Unix), j'ai choisi le langage R (Splus) et son environnement. Ce langage a l'avantage d'être répandu dans la communauté internationale des biostatisticiens et en particulier des généticiens épidémiologistes. Il permet une intégration aisée des extensions et laisse la possibilité à des développements futurs. Il utilise un calcul matriciel des probabilités permettant à MASC de modéliser conjointement un grand nombre (théoriquement infini) de facteurs de risque. Pour permettre une large diffusion du logiciel, il sera nécessaire d'adapter le logiciel sous forme de "package" R. Le code source sera alors en libre accès ce qui permettra à chacun de développer ses propres extensions.

 

4.   Etude de données simulées

Pour valider et tester le calcul des intervalles de confiance, j'ai réalisé la modélisation d'un facteur génétique sur des données simulées en participant à un atelier international sur les méthodes d'analyse génétique (GAW 14, Les Pays-Bas, 2004). Ce travail a donné lieu à une publication (10)

J'ai par ailleurs développé une méthode permettant de simuler des données pour un gène candidat dans des échantillons de familles de malades correspondant à des situations très diverses en terme de modèle génétique et de recrutement des familles. Ce logiciel utilise les distributions attendues calculées par MASC et détermine par tirage aléatoire les génotypes des patients index et la répartition du statut (atteint/non atteint) des membres de leur famille. Il détermine aussi la distribution des génotypes des parents et des germains pour chaque index.

Ce logiciel me permet d’une part de valider mes extensions de MASC d’autre part d’évaluer d’autres méthodes de modélisation génétique. C’est ainsi que j’ai  montré qu’une méthode de régression logistique (11) pour détecter l'effet d'un second facteur de risque n'était pas robuste à une mauvaise spécification du premier facteur. Cette étude a donné lieu à une communication au congrès européen de génétique mathématique (EMGM, 2005) et à une communication au congrès de la société internationale de génétique épidémiologique (IGES, 2005). Une publication est en cours d'écriture.

 

III.                     Estimation des risques de développer une maladie coeliaque en fonction des informations HLA

 

La maladie coeliaque est une affection de l'intestin grêle due à une intolérance aux protéines du gluten. L’étude histologique de la muqueuse intestinale permet le diagnostic par la mise en évidence d’une atrophie villositaire totale ou partielle. La physiopathologie exacte qui conduit aux lésions de la muqueuse demeure inconnue mais on pense qu’elle est essentiellement médiée par voie immunitaire. En 1997, l’auto-antigène de la transglutaminase tissulaire a été identifié (12). Il est maintenant prouvé que cet enzyme modifie la gliadine alimentaire reconnue par les lymphocytes CD4+ qui, par la suite, déclenchent une réponse immunitaire destructrice. On peut dépister la maladie coeliaque par la présence d’anticorps anti-gliadine et/ou anti-endomysium. La maladie se manifeste, le plus souvent, par une diarrhée chronique avec malabsorption. La maladie peut aussi survenir sans signe gastro-intestinal, sous forme d'une cassure de la courbe de croissance, d’un retard pubertaire ou d’une anémie ferriprive. Le régime sans gluten constitue la thérapie de base de la maladie. Il est suivi d’une amélioration rapide des symptômes avec disparition des lésions histologiques et des anticorps et il permet de diminuer les risques de complications (cancers de l’oesophage, lymphomes intestinaux).

La prévalence de la maladie est difficile à estimer, en raison des formes cliniques pauci ou asymptomatiques. Dans les pays européens, les estimations varient entre 1 pour 300 et 1 pour 500. La maladie coeliaque est considérée comme une maladie pédiatrique avec une survenue le plus généralement entre six mois et deux ans. Elle peut survenir cependant à tout âge, parfois à l’âge adulte. La fréquence de la maladie chez les apparentés du 1er degré de sujets atteints est de 10 %, et le taux de concordance chez les jumeaux monozygotes est de 70% à 90% comparé à un taux de 10 à 30% chez les jumeaux dizygotes (13). Ces observations montrent que la maladie coeliaque est une maladie multifactorielle qui implique l’intervention de facteurs génétiques et d’environnement.

Les facteurs génétiques sont difficiles à identifier mais l’implication des gènes HLA de classe II est bien connue. La majorité  des patients sont porteurs de l’hétérodimère DQ2 constitué d’une chaîne alpha codée par le gène DQA1*0501, et d’une chaîne béta codée par le gène DQB1*02. La découverte des associations entre la maladie coeliaque et de cet hétérodimère HLA (14) a permis d'ouvrir des voies dans la compréhension du mécanisme immunopathologique.

La France, l’Italie, la Scandinavie et le Royaume Uni - avec un soutien de la communauté européenne (5ème PCRDT)- ont décidé de mettre ensemble leur données et de se définir une stratégie d’analyse commune pour affiner la compréhension de la composante HLA et la comparer entre les différents pays.

Les données mises en commun par les différents pays correspondaient au recrutement de 644 familles dites « trios » (composées d’un malade et de ses deux parents). 144 familles provenaient d'Italie, 128 de France, 146 du Royaume-Uni et 255 de Scandinavie.

Les malades et leurs parents ont été prélevés pour être génotypés pour les gènes DQA et DQB. L’ hétérodimère DQ2 est présent chez 87 % à 93% des malades suivant la population étudiée. Les deux composants de cet hétérodimère peuvent être transmis par le même parent (hérité en cis) ou par chacun des 2 parents (hérité en trans). Les autres malades portent seulement une partie de l’hétérodimère DQ2 ou  un autre hétérodimère DQ8 , codé par DQA1*0301 et DQB1*0302.

Pour chaque pays, nous avons calculé, en utilisant la méthode MASC et la procédure de bootstrap que j’y ai mis en place, les risques génotypiques relatifs et leurs intervalles de confiance. Les individus les plus à risque de développer une maladie coeliaque sont les porteurs de l’hétérodimère DQ2 et parmi eux ceux qui portent l’allèle DQB1*02 en double dose. On observe par ailleurs des risques différents du Nord au Sud pour ceux qui héritent d’un hétérodimère en trans comparés à ceux qui héritent d’un hétérodimère en cis. L’explication la plus vraisemblable est qu’un autre facteur de la région HLA est également impliqué dans la susceptibilité et que ce facteur n’est pas à même fréquence dans les pays du Nord et du Sud. Ce travail a donné lieu à publication dans Tissue Antigens (15) et a une communication au congrès Journée Ouverte Biologie, Informatique et Mathématique (JOBIM 2004).

Nous poursuivons maintenant l’étude des risques de développer une maladie coeliaque avec les partenaires Italiens (collaboration avec l'équipe du Pr. L. Greco: Department of pediatrics, University of Naples "Frederico II"). L’objectif est d’affiner les risques estimés dans l’étude précédente en population Italienne et de les estimer pour un germain d’un malade. Pour ce faire nous disposons en plus de l'échantillon de trio utilisé lors de l'étude Européenne, de l’information HLA de 2 autres échantillons. Un échantillon de 248 familles « multiplex » (recrutées par la présence d’au moins deux germains atteints) et d’une cohorte familiale de 188 malades pour lesquels les parents et les germains ont été suivis sur une période de 3 ans (Janvier 2001 à Décembre 2003).

Chacun des échantillons apporte une information importante pour l'estimation de risque. Dans les familles "multiplex", on peut obtenir l'information de liaison génétique (proportion de germains atteints portant respectivement 2, 1 ou 0 haplotypes HLA identiques à ceux de l'index). Quant à elle, la cohorte familiale donne une information sur la ségrégation du trait chez les familles de malade (proportion de germains et de parents atteints).

Le risque pour un germain d'un malade d'être lui même atteint est estimé dans cet échantillon à 10%. Toutefois ce risque varie de 1 à 30% suivant le génotype HLA du malade et de ses parents. Il est aussi possible de définir avant même la naissance d'un frère ou d'une sœur d'un malade si son risque d'être également atteint est élevé. En fonction de ce risque, on pourra décider ou non de le génotyper à la naissance et d'adapter dans les situations à plus haut risque un suivi médical approprié. Ce travail à donné lieu à un article qui vient d'être soumis à publication à la revue GUT.       

 

IV.                     Justification de la prolongation

Une année de financement me permettrait d'achever et de soutenir mon travail de thèse. Le travail méthodologique est terminé et la publication correspondante est en préparation pour un journal bioinformatique. L'analyse des risques associés aux facteurs HLA dans la maladie de cœliaque a été en partie effectuée: estimation des risques relatifs dans les populations Européennes et estimation des risques pour le germain d'un malade dans la population Italienne (un article publié, un autre qui vient d'être soumis). Pour répondre à la demande de notre partenaire Italien, il me reste à analyser l'ensemble des 3 échantillons de familles Italiennes pour affiner les estimations de risque pour cette population. Le logiciel sous forme de "package" R devrait être opérationnel pour la fin de cette année. Je consacrerai les premiers mois de l'année 2007 à la rédaction de mon travail de thèse de façon à pouvoir soutenir au plus tard en Juin 2007.

 

Bibliographie

 

1.      CLERGET-DARPOUX F, BABRON M-C, PRUM B, et al. New method to test genetic models in HLA associated disease : the Masc method. Ann Hum Genet, 1988, 52 : 247-258.

2.      CLERGET-DARPOUX F, BABRON MC, DESCHAMPS I, HORS J. Complementation and maternal effect in insulin dependent diabetes. Am J Hum Genet, 1991, 49: 42-49.

3.      MARGARITTE-JEANNIN P, CLERGET-DARPOUX F, HORS J, et al. Testing parental imprinting in IDDM by the MASC Method. Am J Hum Genet, 1995, 56:1080-1087.

4.      DIZIER MH, ELIAOU JF, BABRON MC, et al. Investigation of the HLA component involved in rheumatoid arthritis using the MASC method: rejection of the unifying shared epitope hypothesis. Am J Hum Genet, 1993, 53 : 715-721.

5.      GENIN E, BABRON MC, McDERMOTT MF, et al. Modelling the major histocompatibility complex susceptibility to RA using the MASC method. Genet Epidemiol. 1998; 15: 419-430.

6.      CLERGET-DARPOUX F, BOUGUERRA F, KASTALLY R, et al. High risk genotypes for celiac disease. CRAS, 1994, 317: 931-936.

7.      BOUGUERRA F, BABRON MC, ELIAOU JF, et al.. Synergistic effect of two HLA heterodimers in the susceptibility of celiac disease in Tunisia. Genet Epidemiol, 1997, 14:413-422.

8.      CLERGET-DARPOUX F, BABRON MC. HLA-Sclérose en plaques. Inférences génétiques. Dans : "Jumeaux et sclérose en plaques" ALPEROVITCH A, HORS J, LYON-CAEN O (Eds) Paris : John Libbey Eurotext, 1993, pp. 5-10.

9.      THOMSON G. Mapping disease genes : family based association studies. Am. J. Hum. Genet. 1995; 57(2): 487-98.

10.  Bourgey M, Leutenegger AL, Cousin E, et al. Modeling the effect of a genetic factor for a complex trait in a simulated population. BMC Genet. 2005 Dec 30;6 Suppl 1:S87.

11.  Cordell HJ, Clayton DG. A unified stepwise regression procedure for evaluating the relative effects of polymorphisms within a gene using case/control or family data: application to HLA in type 1 diabetes. Am. J. Hum. Genet. 2002 Jan;70(1):124-41.

12.  Greco L., Romino R., Coto I et al. The first large population based twin study of coeliac disease Gut 2002; 50, 0-4

13.  Dieterich W., et al. 1997. Identification of tissue transglutaminase as the autoantigen of celiac disease. Nat Med 3 : 797-801.

14.  SOLLID LM, MARKUSSEN G, EK J et al. Evidence that celiac disease is primarily associated to a particular HLA-DQ Alpha/Beta heterodimere J. Exp. Med 1989 169:345-350.

15.  Margaritte-Jeannin P, Babron MC, Bourgey M, et al. HLA-DQ relative risks for coeliac disease in European populations: a study of the European Genetics Cluster on Coeliac Disease. Tissue Antigens. 2004 Jun;63(6):562-7.

16.  M BOURGEY, G CALCAGNO, N TINTO, D GENNARELLI,  P MARGARITTE-JEANNIN, L GRECO, M-G LIMONGELLI 1, O ESPOSITO, C MARANO, R TRONCONE, A SPAMPANATO, F CLERGET-DARPOUX, L SACCHETTI  Genetic counselling in Celiac Disease (soumis pour publication)