I.
Introduction
- Contexte
L'objectif de
l'épidémiologie
génétique est de comprendre le déterminisme
génétique des maladies. Or la
plupart des maladies humaines résultent de l'interaction de
nombreux facteurs
génétiques et environnementaux. L'étude de
marqueurs génétiques dans des
familles de malades peut d'une part, montrer l'existence de facteurs
génétiques
d'autre part, aider à élucider leur mécanisme
d'action.
Une stratégie est
de tester le rôle
éventuel de gènes candidats en utilisant des marqueurs
situés sur ces gènes (ou
extrêmement proches). Un gène candidat est un gène
dont la fonction est telle
qu'on peut soupçonner son implication dans le processus
étiopathologique. Par
extension, on définira une "région candidate" comme
contenant
potentiellement un gène candidat. C'est le cas par exemple de la
région HLA
pour les maladies en relation avec le système immunitaire. On
peut également
définir des régions candidates homologues à celles
qui sont impliquées chez les
animaux. Il est naturel de rechercher si un gène candidat joue
un rôle dans le
processus pathologique et s'il constitue un facteur de risque pour la
maladie,
plus précisément s’il existe un risque
différentiel correspondant à des
variations d’ expression de ce gène. En général,
les différentes expressions ne
sont pas directement observables et on
peut chercher à disposer sur le gène candidat de
marqueurs qui serviront
d'indicateurs.
De nombreuses approches
s'intéressent
à la première étape d'identification, mais,
lorsque l'effet d'un gène a été mis
en évidence, il devient nécessaire de modéliser et
d'évaluer cet effet.
Clerget-Darpoux et al. ont développé une méthode
répondant à cet objectif, la
méthode MASC (1). Cette
méthode a déjà été utilisée
pour étudier les facteurs de risque HLA dans
plusieurs maladies auto-immunes : le diabète
insulino-dépendant (2;3), la
polyarthrite rhumatoïde (4;5),
la maladie cœliaque (6;7) et la sclérose
en plaques (8).
Compte tenu de la
complexité du
déterminisme des maladies humaines il est nécessaire
d'enrichir au maximum
l'information prise en compte et d'optimiser son utilisation.
Une première partie
de mon
travail de thèse consiste à
étendre la
méthode MASC à la prise en compte de nouvelles
informations, et d’affiner ainsi
la compréhension du processus pathogénique des maladies.
Une deuxième partie
vise à évaluer
les risques de développer une maladie coeliaque en utilisant la
méthode MASC.
La maladie de cœliaque est une maladie auto-immune
caractérisée par une
intolérance permanente au gluten (prolamines
céréalières) qui ne
survient que sur un terrain de
susceptibilité génétique. Sa forte association
avec des antigènes du système HLA
est clairement établie (6;7).
II.
Extension
de la méthode
MASC
La
méthode MASC (Marker Association Segregation Chi-Square) permet
de tester et de
modéliser le rôle de gènes candidats dans le
déterminisme d’une maladie en
utilisant trois informations complémentaires :
·
la
ségrégation de la maladie dans les familles,
·
l’association
de la maladie et de marqueurs des gènes candidats au niveau de
la population,
·
la
coségrégation de la maladie et du marqueur dans des
familles (la liaison
génétique).
L’un des
intérêts essentiels de la
méthode est de pouvoir estimer les risques de développer
une maladie en
fonction des informations génétiques dont on dispose. La
précision de ces
risques se mesure par leurs intervalles de confiance. Il est clair que
plus l’information
est riche, plus les intervalles de confiance sont réduits. Mon
travail sur la
méthode MASC s’est donc d’abord attaché au calcul des
intervalles de confiance
puis à l’intégration de nouvelles informations
génétiques.
1.
Calcul
des intervalles de
confiance
Comme les paramètres estimés ne sont pas
indépendants entre eux, il n'est pas possible d'utiliser une loi
statistique
pour prendre en compte l'incertitude liée à
l'échantillonnage des données (la
taille de l'échantillon et les fréquences
alléliques au marqueur). J'ai donc
mis en place une procédure de "bootstrap". Celle-ci va
répéter un
grand nombre de fois les estimations en utilisant à chaque fois
un nouvel
échantillon de taille identique à celui de départ
et pour lequel les fréquences
alléliques au marqueur sont préalablement
estimées. On peut ainsi déterminer la
distribution de chacun des paramètres estimés et donc
leur intervalle de
confiance à 95%.
Dans chaque réplicat les fréquences
alléliques du
marqueur sont estimées selon le principe de la méthode
AFBAC (Affected Family
Based Controls). Les allèles parentaux qui ne sont pas transmis
au(x)
malade(s), à l’origine de la sélection de sa famille,
permettent d'obtenir une
estimation non-biaisée des fréquences alléliques
au marqueur (9).
2.
Ajout
d'information
Information sur le
génotype des
parents
La
version antérieure de la méthode MASC supposait inconnu
le génotype des
parents. Or cette information est parfois disponible surtout pour les
maladies
qui se manifestent avant l’âge adulte. J’ai modifié la
méthode MASC pour
laisser la possibilité de prendre en compte cette information et
montré que
cela pouvait réduire notablement les intervalles de confiance
des paramètres
estimés.
Information sur la
ségrégation familiale de la maladie
Selon le mode de
recrutement des familles, cette information
n'est pas toujours disponible dans l'échantillon
étudié, mais elle est parfois
disponible grâce à d'autres études. On peut alors
l'introduire sous formes de
contraintes. En effet, j’ai introduit dans MASC des contraintes
exprimant la
fréquence de la maladie chez les germains (frères ou
sœurs) et les parents d’un
malade en fonction des risques à estimer. L’estimation des
risques se fait donc
par maximisation, mais les valeurs qui peuvent être
attribuée aux risques se
limitent à celles qui respectent les contraintes introduites.
Ici aussi l’information
gagnée est mesurée par la réduction des
intervalles de confiances.
3.
Développements
informatiques
J'ai
développé le logiciel MASC en intégrant de
façon souple les nouvelles
extensions. Pour assurer la portabilité du logiciel sur
différentes
plates-formes (Windows et Unix), j'ai choisi le langage R (Splus) et
son
environnement. Ce langage a l'avantage d'être répandu dans
la communauté
internationale des biostatisticiens et en particulier des
généticiens
épidémiologistes. Il permet une intégration
aisée des extensions et laisse la
possibilité à des développements futurs. Il
utilise un calcul matriciel des
probabilités permettant à MASC de modéliser
conjointement un grand nombre
(théoriquement infini) de facteurs de risque. Pour permettre une
large
diffusion du logiciel, il sera nécessaire d'adapter le logiciel
sous forme de
"package" R. Le code source sera alors en libre accès ce qui
permettra à chacun de développer ses propres extensions.
4.
Etude
de données simulées
Pour valider et tester le calcul des intervalles
de confiance, j'ai réalisé la modélisation d'un
facteur génétique sur des
données simulées en participant à un atelier
international sur les méthodes
d'analyse génétique (GAW 14, Les Pays-Bas, 2004). Ce
travail a donné lieu à une
publication (10)
J'ai par
ailleurs développé une méthode permettant de
simuler des données pour un gène
candidat dans des échantillons de familles de malades
correspondant à des
situations très diverses en terme de modèle
génétique et de recrutement des
familles. Ce logiciel utilise les distributions attendues
calculées par MASC et
détermine par tirage aléatoire les génotypes des
patients index et la
répartition du statut (atteint/non atteint) des membres de leur
famille. Il
détermine aussi la distribution des génotypes des parents
et des germains pour
chaque index.
Ce
logiciel me permet d’une part de valider mes extensions de MASC d’autre
part d’évaluer
d’autres méthodes de modélisation
génétique. C’est ainsi que j’ai montré
qu’une méthode de régression
logistique (11) pour détecter l'effet d'un second facteur de
risque n'était pas
robuste à une mauvaise spécification du premier facteur.
Cette étude a donné
lieu à une communication au congrès européen de
génétique mathématique (EMGM,
2005) et à une communication au congrès de la
société internationale de
génétique épidémiologique (IGES, 2005). Une
publication est en cours
d'écriture.
III.
Estimation
des risques de développer une
maladie coeliaque en fonction des informations HLA
La maladie coeliaque est
une
affection de l'intestin grêle due à une intolérance
aux protéines du gluten. L’étude
histologique de la muqueuse intestinale permet le diagnostic par la
mise en
évidence d’une atrophie villositaire totale ou partielle. La
physiopathologie
exacte qui conduit aux lésions de la muqueuse demeure inconnue
mais on pense qu’elle
est essentiellement médiée par voie immunitaire. En 1997,
l’auto-antigène de la
transglutaminase tissulaire a été identifié (12).
Il est maintenant prouvé que
cet enzyme modifie la gliadine alimentaire reconnue par les lymphocytes
CD4+
qui, par la suite, déclenchent une réponse immunitaire
destructrice. On peut
dépister la maladie coeliaque par la présence d’anticorps
anti-gliadine et/ou
anti-endomysium. La maladie se manifeste, le plus souvent, par une
diarrhée
chronique avec malabsorption. La maladie peut aussi survenir sans signe
gastro-intestinal, sous forme d'une cassure de la courbe de croissance,
d’un
retard pubertaire ou d’une anémie ferriprive. Le régime
sans gluten constitue la
thérapie de base de la maladie.
Il est suivi d’une amélioration rapide des symptômes avec
disparition des lésions
histologiques et des anticorps et il permet de diminuer les risques de
complications (cancers de l’oesophage, lymphomes intestinaux).
La prévalence de la
maladie est
difficile à estimer, en raison des formes cliniques pauci ou
asymptomatiques.
Dans les pays européens, les estimations varient entre 1 pour
300 et 1 pour
500. La maladie coeliaque est considérée comme une
maladie pédiatrique avec une
survenue le plus généralement entre six mois et deux ans.
Elle peut survenir
cependant à tout âge, parfois à l’âge adulte.
La fréquence de la maladie chez
les apparentés du 1er degré de sujets atteints est de 10
%, et le taux de
concordance chez les jumeaux monozygotes est de 70% à 90%
comparé à un taux de
10 à 30% chez les jumeaux dizygotes (13). Ces observations
montrent que la
maladie coeliaque est une maladie multifactorielle qui implique
l’intervention
de facteurs génétiques et d’environnement.
Les facteurs
génétiques sont
difficiles à identifier mais l’implication des gènes HLA
de classe II est bien
connue. La majorité des patients
sont
porteurs de l’hétérodimère DQ2 constitué
d’une chaîne alpha codée par le gène
DQA1*0501, et d’une chaîne béta codée par le
gène DQB1*02. La découverte des
associations entre la maladie coeliaque et de cet
hétérodimère HLA (14) a
permis d'ouvrir des voies dans la compréhension du
mécanisme
immunopathologique.
La France, l’Italie, la
Scandinavie
et le Royaume Uni - avec un soutien de la communauté
européenne (5ème
PCRDT)- ont décidé de mettre ensemble leur données
et de se définir une
stratégie d’analyse commune pour affiner la compréhension
de la composante HLA
et la comparer entre les différents pays.
Les données mises
en commun par les
différents pays correspondaient au recrutement de 644
familles dites
« trios » (composées d’un malade et de ses
deux parents). 144
familles provenaient d'Italie, 128 de France, 146 du Royaume-Uni et 255
de
Scandinavie.
Les malades et leurs
parents ont été
prélevés pour être génotypés pour les
gènes DQA et DQB. L’ hétérodimère
DQ2 est présent chez 87 % à 93% des malades suivant la
population étudiée. Les
deux composants de cet hétérodimère peuvent
être transmis par le même parent
(hérité en cis) ou par chacun des 2 parents
(hérité en trans). Les autres
malades portent seulement une partie de
l’hétérodimère DQ2 ou un
autre hétérodimère DQ8 , codé par
DQA1*0301 et DQB1*0302.
Pour chaque pays, nous
avons calculé,
en utilisant la méthode MASC et la procédure de bootstrap
que j’y ai mis en
place, les risques génotypiques relatifs et leurs intervalles de
confiance. Les
individus les plus à risque de développer une maladie
coeliaque sont les
porteurs de l’hétérodimère DQ2 et parmi eux ceux
qui portent l’allèle DQB1*02
en double dose. On observe par ailleurs des risques différents
du Nord au Sud
pour ceux qui héritent d’un hétérodimère en
trans comparés à ceux qui héritent
d’un hétérodimère en cis. L’explication la plus
vraisemblable est qu’un autre
facteur de la région HLA est également impliqué
dans la susceptibilité et que
ce facteur n’est pas à même fréquence dans les pays
du Nord et du Sud. Ce
travail a donné lieu à publication dans Tissue Antigens
(15) et a une
communication au congrès Journée Ouverte Biologie,
Informatique et Mathématique
(JOBIM 2004).
Nous poursuivons
maintenant l’étude
des risques de développer une maladie coeliaque avec les
partenaires Italiens
(collaboration avec l'équipe du Pr. L. Greco: Department of
pediatrics,
University of Naples "Frederico II"). L’objectif est d’affiner les
risques estimés dans l’étude précédente en
population Italienne et de les
estimer pour un germain d’un malade. Pour ce faire nous disposons en
plus de
l'échantillon de trio utilisé lors de l'étude
Européenne, de l’information HLA
de 2 autres échantillons. Un échantillon de 248 familles
« multiplex » (recrutées par la
présence d’au moins deux germains
atteints) et d’une cohorte familiale de 188 malades pour lesquels les
parents
et les germains ont été suivis sur une période de
3 ans (Janvier 2001 à
Décembre 2003).
Chacun des
échantillons apporte une
information importante pour l'estimation de risque. Dans les familles
"multiplex", on peut obtenir l'information de liaison
génétique
(proportion de germains atteints portant respectivement 2, 1 ou 0
haplotypes
HLA identiques à ceux de l'index). Quant à elle, la
cohorte familiale donne une
information sur la ségrégation du trait chez les familles
de malade (proportion
de germains et de parents atteints).
Le risque pour un germain
d'un malade
d'être lui même atteint est estimé dans cet
échantillon à 10%. Toutefois ce
risque varie de 1 à 30% suivant le génotype HLA du malade
et de ses parents. Il
est aussi possible de définir avant même la naissance d'un
frère ou d'une sœur
d'un malade si son risque d'être également atteint est
élevé. En fonction de ce
risque, on pourra décider ou non de le génotyper à
la naissance et d'adapter
dans les situations à plus haut risque un suivi médical
approprié. Ce travail à
donné lieu à un article qui vient d'être soumis
à publication à la revue
GUT.
IV.
Justification
de la prolongation
Une année de
financement me
permettrait d'achever et de soutenir mon travail de thèse. Le
travail
méthodologique est terminé et la publication
correspondante est en préparation
pour un journal bioinformatique. L'analyse des risques associés
aux facteurs
HLA dans la maladie de cœliaque a été en partie
effectuée: estimation des
risques relatifs dans les populations Européennes et estimation
des risques
pour le germain d'un malade dans la population Italienne (un article
publié, un
autre qui vient d'être soumis). Pour répondre à la
demande de notre partenaire
Italien, il me reste à analyser l'ensemble des 3
échantillons de familles
Italiennes pour affiner les estimations de risque pour cette
population. Le
logiciel sous forme de "package" R devrait être
opérationnel pour la
fin de cette année. Je consacrerai les premiers mois de
l'année 2007 à la
rédaction de mon travail de thèse de façon
à pouvoir soutenir au plus tard en
Juin 2007.
Bibliographie
1. CLERGET-DARPOUX F, BABRON M-C, PRUM B, et al. New method to test genetic models in HLA associated disease : the Masc method. Ann Hum Genet, 1988, 52 : 247-258.
2. CLERGET-DARPOUX F, BABRON MC, DESCHAMPS I, HORS J. Complementation and maternal effect in insulin dependent diabetes. Am J Hum Genet, 1991, 49: 42-49.
3. MARGARITTE-JEANNIN P, CLERGET-DARPOUX F, HORS J, et al. Testing parental imprinting in IDDM by the MASC Method. Am J Hum Genet, 1995, 56:1080-1087.
4. DIZIER MH, ELIAOU JF, BABRON MC, et al. Investigation of the HLA component involved in rheumatoid arthritis using the MASC method: rejection of the unifying shared epitope hypothesis. Am J Hum Genet, 1993, 53 : 715-721.
5. GENIN E, BABRON MC, McDERMOTT MF, et al. Modelling the major histocompatibility complex susceptibility to RA using the MASC method. Genet Epidemiol. 1998; 15: 419-430.
6. CLERGET-DARPOUX F, BOUGUERRA F, KASTALLY R, et al. High risk genotypes for celiac disease. CRAS, 1994, 317: 931-936.
7. BOUGUERRA F, BABRON MC, ELIAOU JF, et al.. Synergistic effect of two HLA heterodimers in the susceptibility of celiac disease in Tunisia. Genet Epidemiol, 1997, 14:413-422.
8. CLERGET-DARPOUX F, BABRON MC. HLA-Sclérose en plaques. Inférences génétiques. Dans : "Jumeaux et sclérose en plaques" ALPEROVITCH A, HORS J, LYON-CAEN O (Eds) Paris : John Libbey Eurotext, 1993, pp. 5-10.
9. THOMSON G. Mapping disease genes : family based association studies. Am. J. Hum. Genet. 1995; 57(2): 487-98.
10. Bourgey M, Leutenegger AL, Cousin E, et al. Modeling the effect of a genetic factor for a complex trait in a simulated population. BMC Genet. 2005 Dec 30;6 Suppl 1:S87.
11. Cordell HJ, Clayton DG. A unified stepwise regression procedure for evaluating the relative effects of polymorphisms within a gene using case/control or family data: application to HLA in type 1 diabetes. Am. J. Hum. Genet. 2002 Jan;70(1):124-41.
12. Greco L., Romino R., Coto I et al. The first large population based twin study of coeliac disease Gut 2002; 50, 0-4
13. Dieterich W., et al. 1997. Identification of tissue transglutaminase as the autoantigen of celiac disease. Nat Med 3 : 797-801.
14. SOLLID LM, MARKUSSEN G, EK J et al. Evidence that celiac disease is primarily associated to a particular HLA-DQ Alpha/Beta heterodimere J. Exp. Med 1989 169:345-350.
15. Margaritte-Jeannin P, Babron MC, Bourgey M, et al. HLA-DQ relative risks for coeliac disease in European populations: a study of the European Genetics Cluster on Coeliac Disease. Tissue Antigens. 2004 Jun;63(6):562-7.
16. M BOURGEY, G CALCAGNO, N TINTO, D GENNARELLI, P MARGARITTE-JEANNIN, L GRECO, M-G LIMONGELLI 1, O ESPOSITO, C MARANO, R TRONCONE, A SPAMPANATO, F CLERGET-DARPOUX, L SACCHETTI Genetic counselling in Celiac Disease (soumis pour publication)