Contrôle de la transcription

par Patrick PLA, Université Paris-Saclay

*Du gène aux ARNs et aux protéines. La transcription permet de produire des ARN à partir de séquences spécifiques d’ADN. Seule une partie des ARN, les ARNm, sont ensuite traduits en protéines.

Présentation générale

La transcription démarre par l’ouverture d’une partie de la double hélice d’ADN et son dépliement. Ensuite, un des brins sert de matrice pour la synthèse de l’ARN. Celle-ci s’effectue en présence d’une enzyme spécifique, l’ARN polymérase, qui est ADN-dépendante (mais ne nécessite pas d’amorce contrairement à l’ADN polymérase qui réalise la réplication). L’ARN polymérase catalyse la formation de liaisons phosphodiester en présence de ribonucléotides 5’-triphosphate (ATP, GTP, CTP et UTP). La polymérase progresse sur le brin d’ADN matrice et catalyse la synthèse du transcrit dans la direction 5’ à 3’ en ajoutant des nucléotides à l’extrémité 3’. La séquence du transcrit est complémentaire à celle du brin d’ADN qui lui a servi de matrice. Le brin dit codant de l’ADN est celui qui a la séquence identique à celui de l’ARN (les T étant juste remplacés par des U dans l’ARN) mais ce terme est trompeur car il est complémentaire du brin matrice qui est bien celui qui dirige la synthèse de l’ARN.

Les Métazoaires ont trois ARN polymérases localisées dans le noyau et qui assurent la synthèse des différents ARN. Ces polymérases fonctionnent en association avec des protéines spécifiques, les facteurs de transcription (FT) généraux. L’ARN polymérase I synthétise le pré-ARNr. L’ARN polymérase II transcrit les précurseurs des ARNm, les microARN et la plupart des petits ARN nucléaires et c’est celle qui nous intéressera le plus dans le cadre de cet ouvrage. L’ARN polymérase III produit les ARNt, l’ARNr 5S, une faible fraction des ARN nucléaires et l’ARN 7S impliqué dans la reconnaissance du peptide signal en relation avec la traduction liée au réticulum endoplasmique granuleux. Enfin, il existe une ARN polymérase IV chez les plantes qui synthétise des siARN (petits ARN interférents) qui ont un rôle de protection antiviral et qui sont aussi impliqués dans la méthylation de l’ADN guidée par des ARN (un processus nécessaire pour le contrôle des transposons, la stabilité du génome, le maintien de l’identité cellulaire et la défense contre les génomes exogènes (Zhang et al. 2013)).

La transcription par chacune de ces polymérases implique trois étapes :

  • la reconnaissance de séquences spécifiques sur l’ADN (dans le promoteur ou les enhancers)
  • l’assemblage d’un complexe protéique d’initiation au point de départ de la transcription
  • l’élongation, c’est-à-dire la synthèse de l’ARN qui s’achève par la terminaison.

En allant plus dans le détail, pour qu’un gène soit transcrit à un niveau important, plusieurs éléments doivent être réunis :

  • un ou plusieurs FT associés à leurs cofacteurs doivent être fixés sur des séquences spécifiques d’ADN (ce qui suppose que l’état de la chromatine leur permette d’accéder à ces sites)
  • l’action des FT et co-facteurs activateurs doivent surclasser l’action des FT et co-facteurs répresseurs
  • la machinerie associée à l’ARN polymérase II doit être recrutée
  • l’ARN polymérase II doit se lancer dans la phase d’élongation après une phase d’initiation qui peut marquer une pause après un début de transcription.

L’ADN n’est pas nu dans le noyau mais associé à des protéines (notamment les histones) pour former la chromatine. La chromatine est notamment composée de nucléosomes. L’accès des facteurs de transcription à l’ADN est fortement contrôlé par les nucléosomes.

*Structure d’un nucléosome qui est formé par un octamère d’histones (2x quatre types d’histones (2A, 2B, 3, 4). Source : Pierre Baduel. https://planet-vie.ens.fr/thematiques/developpement/controle-du-developpement/comprendre-le-role-de-la-chromatine-dans-la

*Etapes liées au démarrage de la transcription. D’après http://genesdev.cshlp.org/content/33/15-16/960.long

Dans la majorité des cas, l’ARN polymérase II produit des ARN qui ne sont pas «matures» ou fonctionnels. Ce sont les transcrits primaires, des précurseurs nucléaires des ARN (les pré-ARN). Ils font l’objet d’une maturation, qui comprend diverses réactions comme des coupures, des associations d’exons (épissage) ou des modifications chimiques (édition d’ARN, ajout d’une coiffe en 5′ avec une guanosine méthylée qui joue un rôle important plus tard pour l’initiation de la traduction). Pour voir un exemple d’épissage, comparez la structure de l’ADN génomique de Pax3 et de son ARNm sur cette figure.

Le processus transcriptionnel nécessite généralement une chromatine peu condensée qui permet aux ARN polymérases, sous contrôle des FT, de se lier au site d’initiation de la transcription. Cette euchromatine est observée dans les noyaux des cellules en interphase et représente près de 90 % de la chromatine totale dont 10% seulement se trouve dans un état suffisamment peu condensé pour être transcrit. La condensation ou la décondensation de la chromatine est un des points de contrôle majeur des processus épigénétiques.

L’euchromatine est soumise à des protéines régulatrices nucléaires qui agissent soit globalement sur la structure de la chromatine (par exemple, Polycomb et Trithorax qui assurent respectivement le maintien de la répression et de l’activation des gènes Hox) soit localement sur les régions promotrices pour activer ou réprimer la transcription des gènes. De nombreuses classes de protéines régulatrices ont été identifiées chez les organismes eucaryotes. Elles sont synthétisées par la machinerie traductionnelle cytoplasmique et rentrent dans le noyau parfois de manière contrôlée, ce qui peut être un niveau de régulation de la transcription (pas de transcription possible si le facteur de transcription reste dans le cytoplasme). Ils possèdent des domaines hautement conservés qui correspondent à des séquences de fixation soit avec l’ADN soit avec d’autres protéines régulatrices.

Ces protéines régulatrices agissent principalement par :

– Condensation/Décondensation de l’ADN via la désacétylation/l’acétylation des lysines des histones qui entraîne une augmentation/diminution de l’affinité entre histones et ADN,

– Masquage des sites de fixation sur les promoteurs,

– Recrutement d’autres facteurs et stabilisation des ARN polymérases,

– Méthylation de la cytosine (carbone 5) dans l’ADN grâce à des méthyltransférases spécifiques adressées au noyau, ce qui a comme conséquence de réprimer la transcription.

– Modulation de l’activité kinase du complexe protéique TFIIH phosphorylant le domaine C-terminal de l’ARN polymérase II qui marque la transition entre l’initiation et l’élongation.

Il est important de noter que le promoteur central sert d’échafaudage pour l’assemblage du complexe de pré-initiation (PIC), qui est composé de l’ARN polymérase, des facteurs de transcription basaux (TFIIA, TFIIB, TFIID, TFIIE, TFIIF et TFIIH) et de l’ADN du promoteur. De multiples éléments promoteurs centraux ont été identifiés comme des régions liées par des composants PIC distincts.

C’est TFIID qui initie la formation du PIC. TFIID est composé de la protéine de liaison à la boîte TATA (TBP) et de 13 à 14 facteurs associés au TBP (TAF) (Antonova et al., 2019 ; Patel et al., 2020).

***Structures en cryo-microscopie électronique (cryo-EM) de TFIID et de sa liaison à l’ADN. (a) Reconstruction cryo-EM du TFIID humain lié à l’ADN d’un promoteur avec une boîte TATA (TATA box). (b) Reconstructions cryo-EM de TFIID, avec un contour transparent de TFIID. (c) Modèle atomique de TFIID humain utilisant le même code de couleur de sous-unité. Source : https://www.sciencedirect.com/science/article/pii/S0959440X19301113

Le premier élément promoteur central identifié et peut-être le plus connu est la boîte TATA (caractérisée par Goldberg en 1979), liée par le TBP et découverte à l’origine dans les gènes des histones de la drosophile. La boîte TATA et le TBP sont tous deux conservés des Archébactéries à l’homme (Reeve, 2003). Les promoteurs principaux étaient auparavant classés comme ayant ou n’ayant pas de boîte TATA, mais en fait seule une minorité de promoteurs de métazoaires contiennent une boîte TATA (Gershenzon et Ioshikhes, 2005; Dikstein, 2011). Ainsi, les promoteurs sans TATA nécessitent toujours une liaison au TFIID, vraisemblablement par l’intermédiaire d’autres éléments promoteurs.

L’élément initiateur (Inr), qui englobe le site de départ de la transcription est le motif de promoteur le plus répandu chez la drosophile (FitzGerald et al., 2006). Il est lié par les sous-unités TAF1 et TAF2 de TFIID (Louder et al., 2016).

**Séquences et position par rapport au site de départ de la transcription (TSS) de quelques éléments de fixation du complexe de pré-initiation dans les promoteurs centraux. Source : https://genomebiology.biomedcentral.com/articles/10.1186/gb-2006-7-7-r53

Le motif DPE est le motif en aval du site de départ de la transcription le mieux caractérisé, précisément localisé de + 25 à + 30 nucléotides par rapport à ce site (Kutach et Kadonaga, 2000). Il est reconnu par TFIID. Le motif DPE a été largement impliqué dans le contrôle des réseaux de régulation des gènes du développement (GRN) (Zehavi et al., 2014).

**Importance pour la transcription des séquences DPE chez la drosophile. La distance entre l’Inr et le DPE est strictement maintenue dans une variété de promoteurs centraux de la drosophile. (A) Analyse de transcription in vitro des promoteurs de noyau contenant du DPE. Une série de promoteurs minimaux ont été construits avec les séquences d’ADN indiquées sur la figure. Des versions de type sauvage (Wt) et mutantes DPE (Mut) de ces constructions de promoteurs ont été soumises à une analyse de transcription in vitro. (B) Le positionnement des séquences de type DPE par rapport à l’Inr est important pour la fonction DPE. Dans les promoteurs Mut1, les séquences de type DPE sont mutées en créant un espacement inapproprié par rapport à l’Inr, tandis que dans les promoteurs Mut2, les séquences DPE sont mutées mais en gardant l’espacement approprié par rapport à l’Inr. Les promoteurs ont été soumis à une analyse de transcription et le pourcentage de transcrit par rapport aux séquences normales est précisé. Source : https://journals.asm.org/doi/10.1128/MCB.20.13.4754-4764.2000

Les gènes homéotiques Hox spécifient l’identité des segments le long de l’axe antéro-postérieur de l’embryon en développement chez tous les animaux multicellulaires. Tous les promoteurs des gènes Hox de drosophile n’ont pas de boîte TATA, et la majorité d’entre eux contiennent des motifs DPE fonctionnels (Juven-Gershon et al., 2008). Fushi tarazu (ftz) est un gène pair-rule orchestrant la phase de segmentation du développement embryonnaire de la drosophile, exprimé le long de l’axe antéro-postérieur. Le promoteur de ftz contient une boîte TATA et une séquence DPE mais le facteur de transcription Caudal active préférentiellement la transcription de ftz via la séquence DPE (Juven-Gershon et al., 2008).

*Caudal active principalement la transcription du gène pair-rule ftz via le DPE. Le promoteur central de ftz contient à la fois des motifs DPE et TATA. Les constructions rapportrices contiennent des séquences d’enhancer et de promoteur ftz de -988 à +40 par rapport au site de départ de la transcription +1, et sont identiques à l’exception de la mutation du DPE ou du TATA. Les différentes constructions et un plasmide permettant l’expression de Caudal ont été transfectés dans des cellules S2 de drosophile et l’activité du gène rapporteur a été mesurée. Source : http://genesdev.cshlp.org/content/22/20/2823.full

Le TCT est un motif d’initiation de la transcription polypyrimidique qui est conservé de la drosophile à l’homme, et souvent rencontré pour les gènes codant des protéines ribosomiques et des protéines impliquées dans la régulation traductionnelle (Parry et al., 2010). Cet exemple met en évidence l’importance d’éléments promoteurs de noyau spécifiques pour des systèmes transcriptionnels fonctionnels distincts.


L’ARN polymérase II est formé de douze sous-unités dont la plus grosse est la sous-unité RBP1. Elle contient un domaine C-terminal qui comprend jusqu’à une cinquantaine de répétitions du motif d’acides aminés : Tyr-Ser-Pro-Thr-Ser-Pro-Ser appelé domaine CTD. La phosphorylation des sérines de ces répétitions (notamment par le facteur de transcription général TFIIH) est essentielle au démarrage de la transcription. Le domaine CTD phosphorylé contribue également au recrutement des enzymes qui synthétisent la coiffe 5′ de l’ARNm.

*Deux formes, phosphorylées ou non sur le CTD, de l’ARNpol II. Le complexe formant l’ARNpol II est incubé en présence de TFIIH et en présence ou non d’ATP (qui sert de donneur de phosphate pour la phosphorylation). En présence d’ATP (et de TFIIH), on détecte la forme RNAPIIO qui migre moins loin en western-blot car la queue CTD de la sous-unité RBP1 est très phosphorylée. Sans phosphorylation (en absence d’ATP), on détecte la forme déphosphorylée appellée RNAPIIA. Source : https://www.jbc.org/article/S0021-9258(20)63712-7/fulltext

Après le démarrage de la transcription, il existe une pause proximale de la polymérase, alors que le transcrit fait entre 20 et 60 nucléotides de long. La pause de l’ARN polymérase II a été découverte dans le promoteur de la protéine de choc thermique 70 de la drosophile (hsp70). Le développement et l’application à l’échelle du génome de techniques mesurant directement l’ARN naissant ont révélé que la pause de l’ARN polymérase II est une caractéristique commune des gènes de drosophile et de mammifères (Core et Adelman, 2019 ; Wissink et al., 2019). En général, l’étendue et le moment de la pause sont régulés via le positionnement des nucléosomes (Luse et al., 2020). La pause de l’ARN polymérase II est désormais considérée comme une étape majeure dans la régulation de l’expression des gènes (Gaertner et Zeitlinger, 2014). Par exemple, la pause de l’ARN polymérase II permet une synchronisation de l’expression des gènes qui est cruciale pour le bon développement du mésoderme (Lagha et al., 2013). c-Myc, un facteur de transcription oncogène et qui est aussi important dans la production de cellules pluripotentes (iPS) agit essentiellement en mettant fin à la pause transcriptionnelle (Rahl et al., 2010).

Aspect modulaire du contrôle de la transcription

Les séquences régulatrices contrôlant l’expression d’un seul gène du développement peuvent être très complexes avec des multiples sites de fixation pour des facteurs de transcription différents. Ces séquences régulatrices forment souvent des modules indépendants. Dans le promoteur d’un gène qui est positionné de manière très précise autour du site de début de la transcription, il peut y avoir plusieurs séquences spécifiques reconnues par des facteurs de transcription spécifiques en plus de la boîte TATA ou de la séquence DPE lesquelles sont reconnues par les facteurs de transcription généraux.

*Exemples de domaines de fixation à l’ADN de facteurs de transcription spécifiques.
*Structure du gène, de l’ARNm et de la protéine PAX3, un facteur de transcription spécifique. PB = domaine paired; HD = homéodomaine; PST = région riche en proline, sérine et thréonine. D’après https://en.wikipedia.org/wiki/PAX3#/media/File:PAX3.hg38.fig.new.7.tif
**Structure de deux molécules du facteur de transcription myogénique MyoD accrochées à l’ADN. On voit bien la forme hélice-boucle-hélice. L’hélice qui s’insère dans le sillon de l’ADN est dite basique et elle interagit avec les charges négatives des phosphates des nucléotides. Source : https://en.wikipedia.org/wiki/Myogenesis#
*Homéodomaine (rose fuschia) de la protéine codée par le gène Antennapedia de Drosophila melanogaster lié à un fragment d’ADN. L’homéodomaine est composé de 3 hélices alpha. Il y a interactions de l’hélice de reconnaissance (hélice 3) et de l’extrémité N-terminal avec respectivement le grand sillon (ou sillon majeur) et le petit sillon (ou sillon) mineur de la double hélice d’ADN. Source : https://fr.wikipedia.org/wiki/Bo%C3%AEte_hom%C3%A9otique#/media/Fichier:ADN_et_hom%C3%A9odomaine.png

Plus éloignés du site du début de la transcription, en aval ou en amont du gène, peuvent se trouver des enhancers. Ce sont des séquences d’ADN de quelques centaines de paires de bases de long (en moyenne 500 pb) et ils comprennent des sites de liaison à des facteurs de transcription spécifiques. Le lien entre ces derniers et les facteurs de transcription généraux au promoteur se fait grâce à un gros complexe appelé le Médiateur, composé d’une trentaine de sous-unités.

*Un exemple d’interaction entre le Médiateur, un facteur de transcription GATA sur un enhancer et le complexe des facteurs de transcription généraux avec l’ARN polymérase II. Dans ce cas précis, l’interaction directe entre GATA et les sous-unités Med1 et Med19 du Médiateur (en bleu) a été démontrée. Source : https://www.jbc.org/article/S0021-9258(17)50017-4/fulltext

Sur le même modèle que les enhancers qui activent la transcription, on trouve des silencers qui inhibent la transcription.

*Conséquence de la délétion d’un silencer sur l’expression d’un gène rapporteur. Le gène rapporteur LacZ a été mis sous le contrôle de séquences régulatrices du gène codant L1-CAM, une protéine d’adhérence importante pour la croissance des axones. La construction incorporée dans la lignée transgénique en I est la même que celle en D à l’exception de la délétion d’une séquence d’une trentaine de paires de bases appelée NRSE. Les embryons de souris ont été sacrifiés à E11,5, fixés et colorés dans du X-gal. On observe qu’en absence de NRSE, LacZ est nettement plus exprimé signant la présence d’un silencer. bw = paroi du corps; cg = ganglions crâniens ; cm = mésenchyme céphalique ; de = ectoderme dorsal ; drg = ganglions de la racine dorsale ; sc = chaîne nerveuse sympathique ; t = télencéphale ; tg = ganglion trijumeau.
Barre d’échelle = 1 mm. Source : https://rupress.org/jcb/article-pdf/138/6/1343/1273097/32824.pdf

Contrairement aux promoteurs, les enhancers et les silencers peuvent être déplacés ou inversés sans que cela ne perturbe en général la transcription du gène-cible. Pour les déplacements néanmoins, il faut qu’ils restent dans le même domaine topologique d’association de la chromatine (TAD) que le gène-cible (voir plus loin).

*L’inversion d’un enhancer de Nanog ne perturbe pas le niveau de sa transcription. Un enhancer (rectangle jaune) placé 5kb en amont du site du début de la transcription du gène Nanog (rectangle gris avec marqué exon 1) est inversé en utilisant le système Cre/Lox inductible par le tamoxifène (4OHT) (pour faire cela, les séquences Lox sont insérées en anti-parallèle et non pas parallèle comme d’habitude lorsqu’il s’agit de faire une délétion). On extrait les ARN et on fait une analyse RT-qPCR pour le gène Nanog et d’autres gènes présents dans la même région génomique à partir de cellules sauvages (barres noires), de cellules mutantes mais non traitées au tamoxifène (barres grises) et de cellules mutantes traitées au tamoxifène (barres blanches). On constate que le niveau de transcription est le même pour tous les gènes, notamment Nanog. Source : https://www.jbc.org/article/S0021-9258(20)00185-4/fulltext

L’activité des enhancers et des silencers dépend du contexte et la perturbation de leur action peut entraîner des anomalies du développement et des maladies. Par exemple, on a trouvé chez un patient atteint d’aniridie une mutation ponctuelle dans un enhancer contrôlant l’expression de PAX6 et qui se trouve à 150 kb en aval de la séquence codante de PAX6 qui était normale (Bhatia et al., 2013).

L’indépendance de ces modules permet au hasard des mutations durant l’évolution de produire des « monstres prometteurs » où l’expression d’un gène donné est éliminée d’une région de l’embryon (ou ajoutée dans une région de l’embryon) sans que cela affecte les réseaux génétiques d’autres régions.

La complexité de la régulation de la transcription est sans doute due à la pléiotropie fonctionnelle élevée des gènes du développement, qui nécessitent donc de nombreuses séquences régulatrices pour contrôler leurs patrons d’expression spatio-temporellement complexes, et pour organiser et intégrer des inductions spécifiques du destin cellulaire. Il existe aussi des cas où l’utilisation concomitante de plusieurs enhancers permet une redondance de fonction afin de stabiliser la transcription dans l’espace et le temps, réduisant ainsi le risque d’une diminution de l’expression d’un gène alors que la fonction de la protéine correspondante exige une concentration maximale. Ces redondances participent à la robustesse des réseaux de régulation géniques.

Citons l’exemple du contrôle de la transcription de Sox9 lors de la gonadogénèse mâle. Pendant une brève période de 2 jours au milieu de la gestation, l’expression de Sox9 est activée par SRY dans les gonades de souris mâles. SOX9 oriente ensuite la gonade bi-potentielle vers la différenciation testiculaire, ce qui signifie qu’une activation appropriée de l’expression de Sox9 est essentielle pour éviter un décalage entre le sexe génétique et le sexe morphologique. Le mécanisme contrôlant la transcription de Sox9 semble être très sensible au dosage, car diverses mutations hétérozygotes du locus peuvent provoquer une inversion du sexe (Huang et al., 1999; Kim et al., 2015) . Le gène Sox9 est positionné près d’une extrémité d’un grand domaine topologique d’association (TAD) de 2 Mb (voir plus loin pour comprendre la notion de TAD), qui contient plusieurs enhancers. Chacun de ces enhancers peut amener un gène rapporteur à être exprimé dans les gonades. Cependant, la suppression de chaque enhancer individuellement n’est pas suffisante pour mimer la perte de fonction Sox9, à l’exception notable de la séquence Enh13 (Gonen et al., 2017; Sekido et Lovell-Badge, 2008, Gonen et al., 2018). Cet enhancer Enh13 qui fait 557 pb de long se trouve à 565 kb en amont de Sox9, dans la région «XY SR» connue pour provoquer une inversion du sexe XY lorsqu’il est supprimé (Gonen et al., 2018).

**La suppression de l’enhancer Enh13 contrôlant l’expression de Sox9 conduit à une inversion complète du sexe chez une souris XY.
(A) Schéma de l’emplacement de Enh13 en amont de Sox9. Les flèches turquoise et violettes représentent les sgRNA externes et internes utilisés pour supprimer Enh13 par la technique CRISPR/Cas9. Les flèches noires représentent les amorces PCR utilisées pour génotyper les embryons. (B) Images en fond clair et sections colorées à l’hématoxyline et à l’éosine (H&E) des gonades E13.5 XY Enh13+/+, Enh13+/- et Enh13-/- et XX Enh13+/+. On voit les tubes séminifères en développement dans les gonades qui ont un phénotype mâle (les deux à gauche). (C) Immunomarquage des gonades E13.5 de type sauvage XY, Enh13+/-, Enh13-/- et XX de type sauvage. Les gonades ont été colorées pour le marqueur de cellules de Sertoli (présentes normalement que chez un mâle) SOX9 (vert), le marqueur des cellules de la granulosa (présentes normalement que chez une femelle) FOXL2 (rouge) et le DAPI (bleu). Les gonades à inversion sexuelle ne peuvent être distinguées des gonades WT XX, tandis que la délétion hétérozygote ne semble pas altérer la morphogenèse des testicules. Les barres d’échelle représentent 100 µm. Source : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6034650/

La délétion homozygote d’Enh13 seule réduit la transcription de Sox9 à environ 20% du niveau observé chez une souris XY de génotype sauvage, se rapprochant du niveau trouvé dans les gonades femelles XX, ce qui n’est évidemment pas suffisant pour activer la différenciation des testicules. La sensibilité à la perte d’Enh13 semble dépendre du temps: cet enhancer agit tôt pour activer la transcription de Sox9 tandis que d’autres enhancers moins éloignés de la séquence codante du gène peuvent par la suite compléter l’activité d’Enh13. On trouve des séquences consensus de  SOX9 dans les enhancers de son propre gène, ce qui suggère que l’enhancer Enh13 agit d’abord pour activer la transcription de Sox9, puis la protéine SOX9 se fixe sur Enh13 et sur d’autres enhancers  pour stabiliser la transcription de son propre gène dans une boucle directe de rétroaction positive (Sekido et Lovell-Badge, 2008). Ce cas illustre que les tissus en développement passent parfois par un goulot d’étranglement où un dosage et un timing transcriptionnels précis sont nécessaires pour déclencher l’activation d’un gène qui ensuite se stabilise et se fortifie.

L’attribution d’éléments de régulation, tels que des séquences d’enhancers, à un gène cible particulier a été problématique jusqu’à récemment. Des développements technologiques et conceptuels ont non seulement facilité la détection de séquences d’enhancers mais aussi leur association avec des gènes particuliers, par exemple en testant des marques épigénétiques spécifiques ou l’accessibilité de la chromatine et aussi en examinant les profils d’interaction ADN-ADN. Ce dernier ensemble de techniques a révélé l’existence de domaines topologiques d’association (TAD) (Dixon et al., 2012). Il s’agit de structures de chromatine définies par leur probabilité accrue d’interactions physiques internes. Ainsi, les enhancers ont beaucoup plus de probabilité de participer au contrôle de la transcription de gènes qui se trouvent dans le même TAD qu’eux plutôt qu’en dehors. Des modifications de cette structure topologique de la chromatine peut aboutir à des malformations telles que celles observées dans certaines maladies génétiques (Tena et al., 2021)

**Fonctions des TAD dans la régulation de la transcription. (A) Co-régulation de la transcription de plusieurs gènes d’un même TAD à partir d’un enhancer, (B) Empêchement d’un enhancer d’agir sur la transcription d’un gène en dehors du TAD, (C) Formation de frontières entre des larges domaines de chromatine condensée et des domaines actifs, (D) Arrêt d’une transcription anti-sens. Source : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5371509/

L’identification récente des TAD à l’aide d’approches expérimentales basées sur la capture de la conformation chromosomique a attiré l’attention sur la façon dont l’architecture 3D de l’ADN influence l’expression des gènes. Les TAD sont des régions génomiques relativement petites (environ 1 Mo en moyenne) (Bonev et al., 2017), et sont contrôlées par la protéine à doigt de zinc CTCF et un complexe de cohésine formant un anneau.

**Les frontières entre les TAD sont caractérisés par des séquences de 1 à 2 kb appelées isolateurs (insulators en anglais). Ils ont été découverts en premier chez la drosophile mais ils sont courants chez les eucaryotes. CTCF se fixe sur les isolateurs chez les Mammifères. Chez la drosophile, c’est la protéine Su(Hw) qui joue ce rôle. Lorsqu’il est attaché à un isolateur, Su(Hw) forme une association avec d’autres protéines, telles que CP190 et Mod (mdg4), cette dernière agissant comme une colle moléculaire entre une paire d’isolateurs permettant à l’ADN entre eux de former une boucle et un domaine topologique.

Les TAD sont généralement stables au cours du développement (Rao et al., 2014) et peuvent aider à isoler les régions régulatrices d’interférences en provenance du reste du génome qui pourraient les perturber (Dixon et al., 2016) et en même temps faciliter des contacts enhancers-promoteurs très transitoires en leur sein. L’intérieur d’un TAD devient un espace de chromatine dynamique et sûr où les enhancers peuvent agir sur leurs gènes cibles. A une autre échelle de temps, les TAD sont aussi très conservés au cours de l’évolution.

**Exemple de mutation qui abolit une frontière de TAD créant un TAD plus grand où les enhancers agissant habituellement sur le gène Eph4a arrivent à agir également sur l’expression du gène Ihh, provoquant une polydactylie (Lupiañez et al., 2015). Source : https://www.frontiersin.org/articles/10.3389/fcell.2021.702787/full#B70

Un exemple classique de régulation transcriptionnelle à longue distance mais au sein d’un même TAD implique une séquence régulatrice du gène codant le morphogène Sonic Hedgehog (Shh) (Lettice et al., 2003). L’enhancer de membre ZRS qui permet son expression dans la zone d’activité polarisante (ZPA) (qui est nécessaire à la polarité antéro-postérieure du membre) est positionné dans le gène Lmbr1 situé à 1 Mb en amont du gène cible Shh. La délétion homozygote de cet enhancer inhibe la transcription de Shh dans les bourgeons des membres, démontrant que ZRS est nécessaire pour le dosage et la spécificité tissulaire de la transcription de Shh dans le membre (Sagai et al., 2005). L’expression de Shh n’est alors pas affectée dans d’autres régions de l’embryon, démontrant une fois de plus le contrôle modulaire de l’expression des gènes. Par ailleurs, seules les cellules de la ZPA présentent dans la ZRS l’acétylation sur la lysine 27 de l’histone H3 (H3K27ac) qui est activatrice (VanderMeer et al., 2014), montrant bien que cet enhancer n’est fonctionnel que dans cette région de l’embryon.

Shh et son amplificateur ZRS sont aux extrémités opposées du même TAD, mais la distance de 1 Mb entre eux est considérablement réduite dans l’espace 3D par le repliement de la chromatine (Symmons et al., 2016; Williamson et al., 2016). Si on introduit une mutation qui détruit les frontières du TAD, l’expression de Shh est abolie car le repliement de la chromatine ne se fait pas correctement et ZRS se retrouve trop éloigné du promoteur de Shh. Si, par une nouvelle mutation, on rapproche ZRS du promoteur, alors l’expression est en partie restaurée (voir cette figure).


Contrairement aux exemples discutés ci-dessus, dans lesquels un seul enhancer domine la régulation, certains complexes de régulation fonctionnent par additivité d’enhancers, par lequel chacun de plusieurs enhancers fournit un pourcentage défini de la sortie transcriptionnelle totale produite. Dans ce cas, on s’attendrait à une corrélation entre le nombre d’enhancers supprimés et l’intensité de la baisse de la transcription. Cependant, ces effets peuvent être compliqués par la force variable des enhancers individuels qui interagissent avec un promoteur. Les enhancers faibles peuvent agir de manière additive en raison de leur interaction peu fréquente avec le promoteur cible, mais, paradoxalement, la sortie transcriptionnelle combinée de plusieurs enhancers puissants peut être inférieure à la somme de leurs contributions individuelles en raison de la concurrence et de l’interférence entre les éléments pour le promoteur (Bothma et al., 2015). Dans ce cas, on ne peut pas prédire la contribution d’un enhancer individuel (et donc les conséquences de sa suppression) sans comprendre le mécanisme global à l’œuvre.

Le gène Ihh (Indian hedgehog) qui code une protéine essentielle pour la croissance osseuse dans les membres et le crâne, fournit un bon exemple d’additivité des enhancers. Plusieurs éléments enhancers en amont ont été cartographiés et l’analyse de transgène rapporteur a montré que les activités des enhancers se chevauchent largement dans leurs domaines d’expression, indiquant que chaque enhancer contribue à une partie de l’effet activateur dans ces tissus. En utilisant un ensemble d’allèles de délétion, il a été montré que la quantité de transcription de Ihh est liée au nombre d’enhancers présents, une observation qui est bien corrélée avec une augmentation de la transcription au-dessus des niveaux de type sauvage lorsque les mêmes enhancers sont dupliqués (Will et al., 2017). En conséquence, la quantité de raccourcissement des membres observée évolue proportionnellement à la quantité d’enhancers présents démontrant que l’addition d’activateurs peut produire des phénotypes qui changent avec le dosage.

***Les suppressions progressives d’enhancers révèlent un contrôle additif de l’expression de Indian Hedgehog (Ihh)
(A) Locus de Ihh avec de multiples enhancers en cluster en amont du gène Ihh et qui se trouvent dans les introns du gène voisin Nhej1. Suppressions générées par CRISPR/Cas9 au locus. Le knock-out Ihh-/- est montré à titre de comparaison (signal d’arrêt). La région chromosomique supprimée est représentée par une ligne pointillée. (B) L’hybridation in situ montre l’expression de Ihh lors de la formation des doigts (E13.5). Barre d’échelle = 200 micromètres (C) Colorations squelettiques des membres antérieurs, de l’autopode et du crâne (E17.5). Les mutants présentant des phénotypes anormaux sont indiqués par des astérisques. Les souris Del(2–9) et Del(4–9) entraînent une réduction massive de la taille des membres et une ossification réduite similaire à knock-out Ihh-/-, tandis que les souris Del(4–6) et Del(7–9) n’ont pas montré d’anomalies visibles des membres. Tous les mutants étudiés présentaient des défauts du crâne (ossification retardée), un effet moins important chez les mutants Del(7–9) (tête de flèche). Barres d’échelle = 2000μm (membres antérieurs), 500μm (autopodes) et 1000μm (crânes). (D) Analyse RT-qPCR de l’expression de Ihh dans le membre antérieur E13.5, la plaque de croissance osseuse E17.5 (coude) et le crâne. La suppression de l’intron 3 de Nhej1 englobant les enhancers i2 à i9 a entraîné une perte presque complète de l’expression d’Ihh dans tous les tissus, tandis que des suppressions plus petites réduisent partiellement l’expression. Source : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5617800/

L’expression colinéaire des gènes Hox au cours de la formation des membres fournit un exemple bien étudié d’entrées spatiales et temporelles complexes. Aux locus HoxD et HoxA, une expression appropriée nécessite des arrangements topologiques uniques des séries de gènes et de leurs enhancers à longue portée respectifs (Berlivet et al., 2013).

***Organisation topologique étudiée en Hi-C des gènes HoxA et Evx1 dans le génome des cellules du bourgeon de membre distal de souris. Les gènes sont organisés en trois sous-TAD dans le membre (en haut). L’enrichissement de l’interaction dans les tissus de la tête par rapport au membre (en bas) montre une augmentation significative de l’interaction entre les gènes qui sont exprimés dans le membre distal par rapport à la tête (enrichissement négatif dans la tête donc en fait enrichissement positif dans le membre). Pour comprendre ce genre de diagramme voir https://dridk.me/tad.html Source : https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1004018

De manière inattendue, des éléments du complexe Polycomb PRC2 qui ont pour habitude d’inhiber l’expression des gènes Hox par des modifications épigénétiques (triméthylation de l’histone 3 sur la lysine 27) se sont avérés influencer la structure de la chromatine et ainsi favoriser une configuration topologique permettant une expression adéquats des gènes HoxA (Gentile et al., 2019).

Au locus HoxD, les TAD flanquant le groupe de gènes de la partie 3′ du complexe dirigent l’expression précoce des Hox exprimés dans la région proximale du membre et ceux à côté de la partie 5′ du complexe dirigent l’expression plus tardive des Hox exprimés dans la région distale. Au cours du temps, il y a un changement de la topologie chromatinienne qui permet de passer d’un patron d’expression précoce des gènes du locus HoxD à un patron d’expression tardif (Andrey et al., 2013).


Bien que les régions régulatrices autour des gènes de développement s’étendent fréquemment sur de grands intervalles génomiques pauvres en gènes, ils ne contiennent rarement qu’un seul gène. En conséquence, les enhancers peuvent ignorer les promoteurs de certains gènes – même s’ils sont proximaux – tout en agissant spécifiquement sur d’autres (Spitz et al., 2003). Plusieurs mécanismes peuvent expliquer cela, comme l’incompatibilité entre les types d’enhancer et de promoteur (Zabidi et al., 2015). Il peut y avoir une sensibilité spécifique selon l’état cellulaire, permettant aux enhancers de basculer entre deux gènes cibles très similaires (Sharpe et al., 1998).

Au locus du gène codant le facteur de croissance FGF8, plusieurs gènes sont intercalés entre Fgf8 et ses enhancers, mais les enhancers n’agissent pas sur ces gènes. Dans ce cas, il semble y avoir une exigence structurelle dans la topologie qui définit les promoteurs avec lesquels les enhancers de Fgf8 peuvent interagir. Cependant, lorsque le locus est perturbé par des mutations ou que des parties de celui-ci sont déplacées ailleurs, les enhancers de Fgf8 agissent ectopiquement pour conduire la transcription des gènes non contrôlés habituellement par eux (Marinić et al., 2013). Un mécanisme similaire a été observé au locus Pitx1 durant le développement du bourgeon de membre (Kragesteen et al., 2018).

Enfin, dernier cas de figure étudié ici, l’interaction entre deux facteurs de transcription sur une même séquence régulatrice ou deux séquences très proches. Tous les cas de figure sont possibles : l’un des facteurs peut empêcher l’autre de se fixer ou alors au contraire, la fixation de l’un favorise la fixation et l’activité de l’autre, créant une synergie. Nous allons prendre l’exemple de l’activation de la transcription de MITF (qui code un facteur de transcription essentiel pour le développement des mélanocytes) par Sox10 et Pax3.

*SOX10 agit en synergie avec PAX3 sur le promoteur de MITF. (A) L’expression du gène rapporteur de la luciférase est sous le contrôle du promoteur MITF normal (pMITF) ou muté avec une délétion ponctuelle (pMITFdel1718 et pMITFdel2061) et avec ou sans six sites potentiels de liaison SOX10 supprimés (pMITFdel1718SOX) ou les 2 sites de liaison PAX3 supprimés ainsi que les 6 sites SOX10 (pMITFdel1718 SOX+P1+P2). Ces constructions ont été transfectées dans des cellules HeLa en combinaison avec des vecteurs d’expression contrôles et des vecteurs permettant d’exprimer PAX3 et/ou SOX10 (barres noires, gris clair et gris foncé correspondant aux divers scénarios). Les données de toutes les transfections sont présentées sous forme de facteur d’induction au-dessus des niveaux de base et sont des moyennes ± SE. Source : https://academic.oup.com/hmg/article/9/13/1907/627353

Focus sur les contrôles épigénétiques

Les histones et tout particulièrement leur région N-terminale peuvent être la cible de très nombreuses modifications post-traductionnelles qui influencent la compaction de la chromatine et donc l’accessibilité des facteurs de transcription à leurs séquences cibles.

*Diverses modifications post-traductionnelles des histones qui forment le nucléosome. Source.

Par spectrométrie de masse, on a par exemple découvert plus de 150 combinaisons différentes de modifications post-traductionnelles sur l’histone H3 humaine ! (Garcia et al., 2007).

Par l’action des histone acétylases, les histones formant les nucléosomes sont acétylées sur les fonctions amines des lysines basiques dans les queues « amino-terminales » allongées des histones. Cette acétylation a pour conséquence de supprimer les charges positives des lysines et donc d’empêcher la formation des nucléosomes, permettant ainsi la transcription de l’ADN non compactée. Ce phénomène d’acétylation est réversible grâce à l’action des histone désacétylases (HDAC) qui sont aussi connues par ailleurs pour recruter des ADN méthylases responsables de la méthylation de l’ADN bloquant la transcription.

Chez les eucaryotes, la 5-méthylcytosine (5mC) est présente à certains nucléotides suivis d’une guanosine (séquences CpG). Chez les végétaux, la 5mC peut se trouver aussi au sein de séquences CNG (N étant n’importe quel nucléotide) ou CHH (avec H = A, T ou C). Le taux de méthylation reste très faible chez la drosophile (0,034%), faible chez les mammifères (quelques %; 7,6% chez la souris par exemple) mais atteint 30 % chez les végétaux, ce qui est logique vu l’éventail plus large de leurs cytosines pouvant être méthylées. Pour savoir comment on détecte cet ADN méthylé, suivre ce lien.

L’ajout d’un résidu méthyl sur une cytosine à une position du génome qui n’en avait jamais eu s’appelle la méthylation de novo. Elle est catalysée par Dnmt3a et Dnmt3b. Lors de la réplication, une séquence 5’-CpG-3’ méthylée est reconnue et méthylée par une méthyltransférase particulière, Dnmt1, ce qui lui permet de se perpétuer dans une lignée cellulaire, assurant une mémoire épigénétique. Cette réaction s’appelle la méthylation de maintien. Dans les deux cas, le transfert de méthyle se fait à partir d’une molécule particulière : la S-adénosyl-L-méthionine (SAM).

Dans un gène ou dans ses séquences cis-régulatrices, ces méthylations empêchent la transcription de l’ADN en ARN soit en tant qu’obstacle stérique à la fixation d’un FT soit en favorisant l’action des histones désacétylases, qui, nous l’avons vu, rendent la chromatine moins accessibles aux FT. On a ainsi découvert que le facteur de transcription MeCP2, qui se lie principalement au CpG méthylé (il s’appelle d’ailleurs methyl-CpG-binding protein 2), agit comme un répresseur transcriptionnel en recrutant le complexe histone désacétylase (HDAC) lors de la répression de la transcription dans les ovocytes de Xenopus laevis (Jones et al., 1998, Nan et al., 1998).

Le syndrome de Rett est un trouble neurodéveloppemental progressif sévère chez les femmes, principalement causé par des mutations dans le gène MeCP2 (Amir et al., 1999). Ce syndrome est caractérisée par une période de développement apparemment normal pendant 6 à 18 mois, suivie d’une régression et de l’apparition de diverses anomalies neurologiques, notamment une microcéphalie, une altération de la fonction motrice, des tremblements, des convulsions, des déficits cognitifs, des mouvements stéréotypés de la main et des caractéristiques autistiques. Le profil de méthylation CpG dans l’ADN des patients n’est pas modifié mais comme MeCP2 muté ne peut pas s’y fixer ou s’y fixe mais ne peut pas agir (selon la mutation présente), des gènes sont transcrits alors qu’ils ne devraient pas l’être et cela perturbe le développement post-natal du cerveau.

La méthylation de l’ADN est le principal mécanisme moléculaire de l’empreinte parentale qui concerne une centaine de gènes chez les Mammifères : seul l’un des allèles soit provenant du père ou soit provenant de la mère s’exprime. Dans le syndrome de Prader-Willi, les gènes impliqués (SNRPN et NDN) ne s’expriment habituellement qu’à partir des allèles hérités du père. Les allèles de la mère restent très peu transcrits. Si un individu hérite d’allèles non fonctionnels ou d’une délétion totale de cette région du chromosome 15 du père, les allèles maternels, même produisant des protéines fonctionnelles, ne peuvent compenser. L’empreinte parentale existe aussi chez les végétaux : par exemple le gène FWA est exprimé uniquement à partir de l’allèle maternel dans l’albumen des graines d’Arabidopsis thaliana, et la méthylation est aussi impliquée (Kinoshita et al., 2004).

Les cytosines peuvent être déméthylées par des enzymes TET qui produisent une série de formes oxydées de la 5-méthylcytosine, notamment la 5-formylcytosine. Cette forme de cytosine peut être utilisée comme une marque de déméthylation récente et donc comme un site d’activation (ou de réactivation) de l’expression des gènes (Gao et al., 2020).

Chez les plantes, la méthylation de novo des séquences CG chez les plantes est principalement contrôlée par DRM2 avec en partie la voie de méthylation de l’ADN dirigée par l’ARN et maintenue par l’ADN méthyltransférases 1 (MET1), un homologue de Dnmt1. La méthylation de novo des séquences CHH est réalisée par DRM2, tandis que celle des séquences de type CNG est réalisée par CMT3 (Chan et al. 2005). Des changements importants de méthylation peuvent être causés par certains stress : par exemple, un stress thermique induit une augmentation de l’expression de DRM2 et une hausse de la méthylation dans le génome d’Arabidopsis (Naydenov et al., 2015).

**La voie de méthylation de l’ADN dirigée par ARN. Chez les végétaux, l’ARNpol IV synthétise un ARN à partir de régions d’ADN riches en séquences répétées. Cet ARN est pris en charge par RDR2 qui synthétise un deuxième brin d’ARN complémentaire. Cet ARN double brin est coupé en fragments de 24 nucléotides par DCL3. Un brin de ces petits ARN s’associe à AGO4 et reconnaît un transcrit synthétisé par l’ARNpol V. Cette interaction permet le recrutement de DRM2, une de novo ADN méthyltransférase qui méthyle l’ADN. D’après la thèse de Lauriane Simon, Université Clermont-Ferrand II.

La méthylation peut également concerner les histones, notamment l’histone H3. Certaines méthylations de l’histone H3 facilitent la transcription telles la triméthylation sur la lysine 4 (H3K4me3), d’autres la répriment telles que la triméthylation sur la lysine 9 (H3K9me3).

**Une triple méthylation répressive de la transcription sur la 9ème lysine de l’Histone H3. Les histones méthyltransférases Suv39h1, Suv39h2 et Setdb1 sont les enzymes responsables de cette méthylation. Source : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6759373/

Nous constatons qu’à quelques acides aminés près, une même modification (la triméthylation sur une lysine) a des effets radicalement opposés sur la transcription !

Des enzymes spécifiques assurent les méthylations mais aussi les déméthylations de lysines précises sur les différentes histones. Citons comme enzymes de déméthylations des histones, les protéines contenant un domaine appelé Jumaji C (JmjC). Elles sont impliquées dans de multiples processus développementaux comme notamment le déclenchement de la floraison chez Arabidopsis (Gan et al., 2014).

**Les histones déméthylases Jmj30 et Jmj32 sont nécessaires pour inhiber la floraison lorsqu’il fait chaud. Des plants d’Arabidopsis thaliana sauvages (WT) ou simple ou double mutants perte-de-fonction pour les gènes codant Jmj30 et Jmj32 sont cultivés à 22°C ou à 29°C. Des expériences complémentaires montrent qu’à 29°C, en absence de Jmj30 et de Jmj32, il y a significativement plus de H3K27me3 (marque répressive) dans les séquences régulatrices dans les gènes impliqués dans la répression de la floraison que lorsque l’une des deux histone déméthylases est présente. Ainsi, les gènes impliqués dans la répression de la floraison sont plus exprimés chez les mutants et la floraison a lieu. Source : https://doi.org/10.1038/ncomms6098

Au début du développement embryonnaire, l’épigénome subit des changements massifs. Lors de la fécondation, les génomes des gamètes – spermatozoïdes et ovocytes – doivent être reprogrammés afin d’obtenir la totipotence. Ce processus implique un décompactage des génomes gamétiques hautement condensés et une réinitialisation globale des états de la chromatine pour conférer la plasticité épigénétique nécessaire au développement d’un nouvel organisme. L’établissement de la pluripotence chez les mammifères nécessite l’effacement de la mémoire épigénétique et, en tant que telle, l’hypométhylation globale est une caractéristique déterminante des diverses cellules pluripotentes, y compris les cellules souches embryonnaires naïves (ESC), les cellules germinales primordiales (PGC) et les cellules souches pluripotentes induites (iPSC). La déméthylation au cours du développement précoce des Mammifères est contrôlée par les enzymes TET (Rasmussen et Helin, 2016). L’activité déméthylase de ces enzymes entraine l’expression de la protéine associée à la pluripotence développementale 3 (DPPA3/PGC7/STELLA). DPPA3 se lie alors directement à la protéine UHRF1 et provoque sa libération de la chromatine. UHRF1 se lie normalement à l’ADN hémiméthylé généré pendant la phase S par la réplication semi-conservative et recrute l’ADN-méthyltransférase de maintenance, DNMT1. L’expulsion de UHRF1 de l’ADN hémiméthylé inhibe ainsi la méthylation de maintenance et provoque une déméthylation passive globale (Mulholland et al., 2020).

***Dans les cellules pluripotentes, DDPA3 déplace UHRF1 de l’ADN hémiméthylé. Dans des cellules embryonnaires souches (ES) en phase S, on exprime une forme taguée par la GFP de la protéine UHRF1 et on induit l’expression de DPPA3 à t= – 90 minutes. Une image est prise à partir de t= 0 au microscope à fluorescence toutes les 10 minutes. L’ADN est marqué par le SiR-DNA. Source : https://www.nature.com/articles/s41467-020-19603-1

Par des approches génétiques chez le nématode Caenorhabditis elegans pour examiner comment la répression médiée par les protéines du groupe Polycomb (PcG) peut être héritée, il a été montré que la méthylation répressive des histones (H3K27me3) déposée par le complexe PRC2 des protéines PcG se transmet par les spermatozoïdes et les ovules entre les générations (Gaydos et al., 2014). La transmission de modifications épigénétiques à travers plusieurs générations a été observée chez de nombreuses autres espèces, y compris chez les Mammifères. Ainsi, certaines modifications épigénétiques échappent à la grande remise à plat qui a lieu à la fécondation ou peu après.

LA CARTE MENTALE

EN DIRECT DES LABOS :

QUELQUES EQUIPES DE RECHERCHE FRANCOPHONES QUI TRAVAILLENT SUR LE SUJET :

Epigénomique développementale – IGFL Lyon

Epigénomique des Mammifères – I2BC, Université Paris-Saclay

LIEN VERS LE GLOSSAIRE