Contrôle de la transcription

par Patrick PLA, Université Paris-Saclay

*Du gène aux ARNs et aux protéines. La transcription permet de produire des ARN à partir de séquences spécifiques d’ADN. Seule une partie des ARN, les ARNm, sont ensuite traduits en protéines.

Présentation générale

La transcription désigne la production d’ARN en prenant comme matrice une séquence d’ADN. Les ARN produits peuvent être ensuite traduits en protéines ou non.

Le contrôle de la transcription fait intervenir non seulement des séquences d’ADN régulatrices mais aussi des modifications non codées avec les nucléotides habituels (A, T, C, G) ainsi que l’état de la chromatine, qui désigne le complexe que l’ADN forme avec des protéines, notamment les histones. Cela correspond au contrôle dit épigénétique de la transcription.

La transcription démarre par l’ouverture d’une partie de la double hélice d’ADN et son dépliement. Ensuite, un des brins sert de matrice pour la synthèse de l’ARN. Celle-ci s’effectue en présence d’une enzyme spécifique, l’ARN polymérase, qui est ADN-dépendante (mais ne nécessite pas d’amorce contrairement à l’ADN polymérase qui réalise la réplication). L’ARN polymérase catalyse la formation de liaisons phosphodiester en présence de ribonucléotides 5’-triphosphates (ATP, GTP, CTP et UTP). La polymérase progresse sur le brin d’ADN matrice et catalyse la synthèse du transcrit dans la direction 5’ à 3’ en ajoutant des nucléotides à l’extrémité 3’. La séquence du transcrit est complémentaire à celle du brin d’ADN qui lui a servi de matrice. Le brin dit codant de l’ADN est celui qui a la séquence identique à celui de l’ARN (les T étant juste remplacés par des U dans l’ARN) mais ce terme est trompeur car il est complémentaire du brin matrice qui est bien celui qui dirige la synthèse de l’ARN.

*Sens de la transcription et nomenclature des brins. L’ARN est synthétisé de 5′ en 3′ par l’ARN polymérase qui lit le brin antisens (matrice, en bas) dans le sens anti-parallèle 3′ vers 5′. La séquence d’ARN est complémentaire à la séquence du brin matrice. Le brin codant (en haut) est le brin complémentaire du brin matrice et possède la même séquence que l’ARN transcrit (les T étant juste remplacés par des U dans l’ARN) et possède la même orientation 5′ vers 3′.
La version commentée de cette figure est disponible en vidéo.
Source : https://planet-vie.ens.fr/thematiques/cellules-et-molecules/physiologie-cellulaire/la-transcription-chez-les-eucaryotes

Les Métazoaires ont trois ARN polymérases localisées dans le noyau et qui assurent la synthèse des différents ARN. Ces polymérases fonctionnent en association avec des protéines spécifiques, les facteurs de transcription (FT) généraux. L’ARN polymérase I synthétise le pré-ARNr 45S (qui mature ensuite en ARNr 28S, 18S et 5,8S). L’ARN polymérase II transcrit les précurseurs des ARNm, les microARN et la plupart des petits ARN nucléaires et c’est celle qui nous intéressera le plus dans le cadre de cet ouvrage. L’ARN polymérase III produit les ARNt, l’ARNr 5S, une faible fraction des ARN nucléaires et l’ARN 7S impliqué dans la reconnaissance du peptide signal en relation avec la traduction sur le réticulum endoplasmique granuleux.

**Graphique réalisé lors de la découverte des 3 ARN polymérases chez les Eucaryotes par Robert Roeder. L’expérience réalisée en 1974 consistait en la séparation et identification des trois ARN polymérases eucaryotes par chromatographie sur colonne. Un extrait protéique des noyaux de cellules d’étoiles de mer a été passé à travers une colonne DEAE Sephadex sur laquelle les protéines chargées sont absorbées de manière différentielle. Les protéines adsorbées ont été éluées avec une solution de concentration en NaCl en constante augmentation. Les fractions contenant les protéines éluées ont été testées pour leur capacité à transcrire l’ADN et produire de l’ARN (courbe rouge) en présence des quatre ribonucléosides triphosphates. Les chiffres romains indiquent les fractions actives et ont donné leur nom aux ARN polymérases. Source : https://www.nature.com/articles/224234a0

Enfin, il existe une ARN polymérase IV chez les plantes qui synthétise des siARN (petits ARN interférents) qui ont un rôle de protection antiviral. Une ARN polymérase V (anciennement nommée ARN polymérase IVb) synthétise des siARN qui sont impliqués dans la méthylation de l’ADN guidée par des ARN (un processus nécessaire pour le contrôle des transposons, la stabilité du génome, le maintien de l’identité cellulaire et la défense contre les génomes exogènes (Zhang et al. 2013)).

La transcription par chacune de ces polymérases implique trois étapes :

la reconnaissance de séquences spécifiques sur l’ADN (dans le promoteur ou les enhancers)
l’assemblage d’un complexe protéique d’initiation au point de départ de la transcription
l’élongation, c’est-à-dire la synthèse de l’ARN qui s’achève par la terminaison.

En allant plus dans le détail, pour qu’un gène soit transcrit à un niveau important, plusieurs éléments doivent être réunis :

un ou plusieurs FT associés à leurs cofacteurs doivent être fixés sur des séquences spécifiques d’ADN (ce qui suppose que l’état de la chromatine leur permette d’accéder à ces sites)
l’action des FT et co-facteurs activateurs doivent surclasser l’action des FT et co-facteurs répresseurs
la machinerie associée à l’ARN polymérase II doit être recrutée
l’ARN polymérase II doit se lancer dans la phase d’élongation après une phase d’initiation qui peut marquer une pause après un début de transcription.

L’ADN n’est pas nu dans le noyau mais associé à des protéines (notamment les histones) pour former la chromatine. La chromatine est notamment composée de nucléosomes. L’accès des facteurs de transcription à l’ADN est fortement contrôlé par les nucléosomes.

*Structure d’un nucléosome qui est formé par un octamère d’histones (2x quatre types d’histones (2A, 2B, 3, 4). Source : Pierre Baduel. https://planet-vie.ens.fr/thematiques/developpement/controle-du-developpement/comprendre-le-role-de-la-chromatine-dans-la

**Structure 3D d’un nucléosome déduite de la diffraction aux rayons X. Les protéines de l’octamère d’histone sont dessinées sous forme de ruban avec H2A en jaune, H2B en rouge, H3 en bleu et H4 en vert. L’ADN de 146 pb est dessiné avec un brin en bleu clair et l’autre brin en orange. Notez les longs prolongements N-terminaux des histones qui peuvent s’associer étroitement ou non à l’ADN selon leurs modifications post-traductionnelles (acétylations, méthylations, phosphorylations…). Source : https://www.rcsb.org/structure/1EQZ

Dans des conditions physiologiques, les histones ne forment pas spontanément de nucléosomes. Des protéines appellées chaperons d’histones lient les hétérodimères d’histones et protègent leurs surfaces de liaison à l’ADN pour empêcher l’agrégation et le dépôt anormal d’histones. Ces chaperons facilitent en parallèle l’assemblage des nucléosomes correctements composés au bon endroit. Ils assemblent les nucléosomes de manière progressive, avec le tétramère (H3-H4)₂ qui est déposé en premier sur l’ADN, suivi de l’ajout de deux dimères H2A-H2B (Das et al., 2014). Après leur dépôt, la position et la composition des nucléosomes peuvent être ajustées par des remodeleurs de chromatine dépendants de l’ATP. Ces enzymes utilisent l’hydrolyse de l’ATP pour perturber les interactions ADN-histone, modifiant ainsi la structure de la chromatine en transloquant, en éjectant ou en échangeant des histones (Zhou et al., 2016).

*Etapes liées au démarrage de la transcription. D’après http://genesdev.cshlp.org/content/33/15-16/960.long

Dans la majorité des cas, l’ARN polymérase II produit des ARN qui ne sont pas «matures» ou fonctionnels. Ce sont les transcrits primaires, des précurseurs nucléaires des ARN (les pré-ARN). Ils font l’objet d’une maturation, qui comprend diverses réactions comme des coupures, des associations d’exons (épissage) ou des modifications chimiques (édition d’ARN, ajout d’une coiffe en 5′ avec une guanosine méthylée qui joue un rôle important plus tard pour l’initiation de la traduction). Pour voir un exemple d’épissage, comparez la structure de l’ADN génomique de Pax3 et de son ARNm sur cette figure.

Le processus transcriptionnel nécessite généralement une chromatine peu condensée qui permet aux ARN polymérases, sous contrôle des FT, de se lier au site d’initiation de la transcription. Cette euchromatine est observée dans les noyaux des cellules en interphase et représente près de 90 % de la chromatine totale dont 10% seulement se trouve dans un état suffisamment peu condensé pour être transcrit. La condensation ou la décondensation de la chromatine est un des points de contrôle majeur par les processus épigénétiques.

L’euchromatine est soumise à des protéines régulatrices nucléaires qui agissent soit globalement sur la structure de la chromatine (par exemple, Polycomb et Trithorax qui assurent respectivement le maintien de la répression et de l’activation des gènes Hox) soit localement sur les régions promotrices pour activer ou réprimer la transcription des gènes. De nombreuses classes de protéines régulatrices ont été identifiées chez les organismes eucaryotes. Elles sont synthétisées par la machinerie traductionnelle cytoplasmique et rentrent dans le noyau parfois de manière contrôlée, ce qui peut être un niveau de régulation de la transcription (pas de transcription possible si le facteur de transcription reste dans le cytoplasme). Ils possèdent des domaines hautement conservés qui correspondent à des séquences de fixation soit avec l’ADN soit avec d’autres protéines régulatrices.

Ces protéines régulatrices agissent principalement par :

– Condensation/Décondensation de la chromatine via la désacétylation/l’acétylation des lysines des histones qui entraîne une augmentation/diminution de l’affinité entre histones et ADN,

*L’acétylation ou la désacétylation des lysines des histones (ici les lysines 9 et 14 (K9/14) de l’histone H3) contrôle la condensation de la chromatine et indirectement l’initiation de la transcription. Ces réactions sont contrôlées par des enzymes (histone acétyltransférases et histone désacétylases). Une version commentée de cette figure est disponible en vidéo.
D’après https://www.frontiersin.org/articles/10.3389/fpls.2019.00625/full

– Masquage des sites de fixation sur les promoteurs et les enhancers/silencers,

– Recrutement d’autres facteurs et stabilisation des ARN polymérases,

– Méthylation de la cytosine (carbone 5) dans l’ADN grâce à des méthyltransférases spécifiques adressées au noyau, ce qui a comme conséquence de réprimer la transcription.

– Modulation de l’activité kinase du complexe protéique TFIIH phosphorylant le domaine C-terminal de l’ARN polymérase II qui marque la transition entre l’initiation et l’élongation.

Il est important de noter que le promoteur central sert d’échafaudage pour l’assemblage du complexe de pré-initiation (PIC), qui est composé de l’ARN polymérase, des facteurs de transcription basaux (TFIIA, TFIIB, TFIID, TFIIE, TFIIF et TFIIH) et de l’ADN du promoteur. De multiples éléments promoteurs centraux ont été identifiés comme des régions liées par des composants PIC distincts.

C’est TFIID qui initie la formation du complexe de pré-initiation. TFIID est composé de la protéine de liaison à la boîte TATA (TBP pour TATA-binding protein) et de 13 à 14 facteurs associés au TBP (TAF pour TBP-associated factors) (Antonova et al., 2019 ; Patel et al., 2020).

***Structures en cryo-microscopie électronique (cryo-EM) de TFIID et de sa liaison à l’ADN. (a) Reconstruction cryo-EM du TFIID humain lié à l’ADN d’un promoteur avec une boîte TATA (TATA box). Notez TBP en rouge en haut à gauche liée à la TATA-box. Source : https://www.sciencedirect.com/science/article/pii/S0959440X19301113

Le premier élément promoteur central identifié et le plus connu est la boîte TATA (caractérisée par Goldberg en 1979), liée par le TBP. La boîte TATA et le TBP sont tous deux conservés des Archébactéries à l’Homme (Reeve, 2003).

**Représentation 3D de la protéine TBP (TATA-Binding Protein) liée à l’ADN au niveau de la boîte TATA. La TBP est une sous-unité essentielle du complexe de transcription TFIID, impliquée dans l’initiation de la transcription par l’ARN polymérase II. La protéine TBP, représentée en rubans colorés (extrémité N-terminale en bleu et extrémité C-terminale en vert qui ont des structures presque en mirroir), interagit spécifiquement avec la boîte TATA (séquence riche en A et T), une région promotrice typiquement située en amont du site d’initiation de la transcription. L’ADN est ici représenté en double hélice avec une courbure importante induite par la liaison de la TBP, facilitant le recrutement d’autres facteurs de transcription généraux ainsi que l’ouverture locale de la double hélice nécessaire à l’initiation de la transcription. Les brins d’ADN sont indiqués avec leurs extrémités 5’ et 3’. D’après https://www.nature.com/articles/365520a0

Les promoteurs principaux étaient auparavant classés comme ayant ou n’ayant pas de boîte TATA, mais en fait seule une minorité de promoteurs de métazoaires contiennent une boîte TATA (Gershenzon et Ioshikhes, 2005; Dikstein, 2011). Ainsi, les promoteurs sans TATA nécessitent toujours une liaison au TFIID, vraisemblablement par l’intermédiaire d’autres éléments promoteurs.

L’élément initiateur (Inr), qui englobe le site de départ de la transcription est le motif de promoteur le plus répandu chez la drosophile (FitzGerald et al., 2006). Il est lié par les sous-unités TAF1 et TAF2 de TFIID (Louder et al., 2016).

**Séquences et position par rapport au site de départ de la transcription (TSS) de quelques éléments de fixation du complexe de pré-initiation dans les promoteurs centraux. Source : https://genomebiology.biomedcentral.com/articles/10.1186/gb-2006-7-7-r53

Le motif DPE est le motif en aval du site de départ de la transcription le mieux caractérisé, précisément localisé de + 25 à + 30 nucléotides par rapport à ce site (Kutach et Kadonaga, 2000). Il est reconnu par TFIID. Le motif DPE a été largement impliqué dans le contrôle des réseaux de régulation des gènes du développement (GRN) (Zehavi et al., 2014).

**Importance pour la transcription des séquences DPE chez la drosophile. La distance entre l’Inr et le DPE est strictement maintenue dans une variété de promoteurs centraux de la drosophile. (A) Analyse de transcription in vitro des promoteurs de noyau contenant du DPE. Une série de promoteurs minimaux ont été construits avec les séquences d’ADN indiquées sur la figure. Des versions de type sauvage (Wt) et mutantes DPE (Mut) de ces constructions de promoteurs ont été soumises à une analyse de transcription in vitro. (B) Le positionnement des séquences de type DPE par rapport à l’Inr est important pour la fonction DPE. Dans les promoteurs Mut1, les séquences de type DPE sont mutées en créant un espacement inapproprié par rapport à l’Inr, tandis que dans les promoteurs Mut2, les séquences DPE sont mutées mais en gardant l’espacement approprié par rapport à l’Inr. Les promoteurs ont été soumis à une analyse de transcription et le pourcentage de transcrit par rapport aux séquences normales est précisé. Source : https://journals.asm.org/doi/10.1128/MCB.20.13.4754-4764.2000

Les gènes homéotiques Hox spécifient l’identité des segments le long de l’axe antéro-postérieur de l’embryon en développement chez tous les animaux multicellulaires. Tous les promoteurs des gènes Hox de drosophile n’ont pas de boîte TATA, et la majorité d’entre eux contiennent des motifs DPE fonctionnels (Juven-Gershon et al., 2008). Fushi tarazu (ftz) est un gène pair-rule orchestrant la phase de segmentation du développement embryonnaire de la drosophile, exprimé le long de l’axe antéro-postérieur. Le promoteur de ftz contient une boîte TATA et une séquence DPE mais le facteur de transcription Caudal active préférentiellement la transcription de ftz via la séquence DPE (Juven-Gershon et al., 2008).

*Caudal active principalement la transcription du gène pair-rule ftz via le DPE. Le promoteur central de ftz contient à la fois des motifs DPE et TATA. Les constructions rapportrices contiennent des séquences d’enhancer et de promoteur ftz de -988 à +40 par rapport au site de départ de la transcription +1, et sont identiques à l’exception de la mutation du DPE ou du TATA. Les différentes constructions et un plasmide permettant l’expression de Caudal ont été transfectés dans des cellules S2 de drosophile et l’activité du gène rapporteur a été mesurée. Source : http://genesdev.cshlp.org/content/22/20/2823.full

Le TCT est un motif d’initiation de la transcription polypyrimidique qui est conservé de la drosophile à l’homme, et souvent rencontré pour les gènes codant des protéines ribosomiques et des protéines impliquées dans la régulation traductionnelle (Parry et al., 2010). Cet exemple met en évidence l’importance d’éléments promoteurs de noyau spécifiques pour des systèmes transcriptionnels fonctionnels distincts.

L’ARN polymérase II est formée de douze sous-unités dont la plus grosse est la sous-unité RBP1. Elle contient un domaine C-terminal qui comprend jusqu’à une cinquantaine de répétitions du motif de 7 acides aminés : Tyr-Ser-Pro-Thr-Ser-Pro-Ser appelé domaine CTD. La phosphorylation des sérines de ces répétitions (notamment par le facteur de transcription général TFIIH) est essentielle au démarrage de la transcription. Le domaine CTD phosphorylé contribue également au recrutement des enzymes qui synthétisent la coiffe 5′ de l’ARNm.

*Deux formes, phosphorylées ou non sur le CTD, de l’ARNpol II. Le complexe formant l’ARNpol II est incubé en présence de TFIIH et en présence ou non d’ATP (qui sert de donneur de phosphate pour la phosphorylation). En présence d’ATP (et de TFIIH), on détecte la forme RNAPIIO qui migre moins loin en western-blot car la queue CTD de la sous-unité RBP1 est très phosphorylée. Sans phosphorylation (en absence d’ATP), on détecte la forme déphosphorylée appellée RNAPIIA. Source : https://www.jbc.org/article/S0021-9258(20)63712-7/fulltext

Après le démarrage de la transcription, il existe une pause proximale de la polymérase, alors que le transcrit fait entre 20 et 60 nucléotides de long. La pause de l’ARN polymérase II a été découverte dans le promoteur de la protéine de choc thermique 70 de la drosophile (hsp70). Le développement et l’application à l’échelle du génome de techniques mesurant directement l’ARN naissant ont révélé que la pause de l’ARN polymérase II est une caractéristique commune des gènes des Eucaryotes dits supérieurs (Core et Adelman, 2019 ; Wissink et al., 2019), mais qui n’existe pas chez des organismes comme la levure (et également pas chez les bactéries). En général, l’étendue et le moment de la pause sont régulés via le positionnement des nucléosomes (Luse et al., 2020). La pause de l’ARN polymérase II est désormais considérée comme une étape majeure dans la régulation de l’expression des gènes (Gaertner et Zeitlinger, 2014). Par exemple, la pause de l’ARN polymérase II permet une synchronisation de l’expression des gènes qui est cruciale pour le bon développement du mésoderme (Lagha et al., 2013). c-Myc, un facteur de transcription oncogène et qui est aussi important dans la production de cellules pluripotentes (iPS) agit essentiellement en mettant fin à la pause transcriptionnelle (Rahl et al., 2010). Le mécanisme général de levée de la pause transcriptionnelle implique le facteur P-TEFb, un complexe protéique qui comprend la cycline T1 et CDK9. CDK9 stimule l’avancée de l’ARNpol II en phosphorylant la sérine 2 dans les séquences de 7 acides aminés répétées du domaine C-terminal (CTD) de l’ARNpol II (Ni et al., 2004).

**L’activité de P-TEFb est nécessaire pour phosphoryler le CTD de l’ARNpol II sur la sérine 2 mais pas sur la sérine 5. Des cellules de glande salivaire de larve de drosophile sont incubées ou non en présence de flavopiridol (FP) qui est un inhibiteur de l’activité kinase du facteur P-TEFb et elles subissent un choc thermique pour activer la transcription dépendante du facteur de transcription HSF. On observe les chromosomes polytènes de ces cellules et on réalise des immunomarquages avec des anticorps reconnaissant soit la forme de la CTD phosphorylée sur la sérine 2 (Ser2-P) ou celle phosphorylée sur la sérine 5 (Ser5-P) et avec un anticorps reconnaissant HSF. On observe qu’en présence de FP, il y a nettement moins de marquage avec l’anticorps Ser2-P en comparaison avec les témoins sans FP, contrairement aux marquages avec l’anticorps Ser5-P. Source : https://www.sciencedirect.com/science/article/pii/S1097276503005264

Alternativement, la transcription peut avorter après une pause trop prolongée via l’action d’Integrator, un complexe qui provoque le désassemblage du complexe de transcription et un clivage de l’ARN déjà transcrit (Elrod et al., 2019).

Lorsque la transcription se fait normalement, elle se termine lorsque le complexe CPSF associé à l’ARN polymérase II rencontre une séquence PAS (pour Poly(A) Signal), généralement AAUAAA. L’endonucléase CPSF3 qui fait partie de ce complexe clive alors l’ARN pré-méssager et une queue polyA est ajoutée par PAP1 (ou Papola chez les Mammifères) (Xie et al., 2023). Plusieurs séquences PAS peuvent être présents et des cas de terminaisons et de polyadényations alternatives ont été rapportées (Nourse et al., 2020).

**Terminaisons et de polyadénylations alternatives. Plus de 70 % des gènes hébergent plusieurs séquences-signal de polyadénylation (PAS). Cela aboutit à des isoformes de transcription différant à l’extrémité 3’ de l’ARNm. Une polyadénylation alternative dans le 3′UTR modifie les propriétés de l’ARNm (stabilité, localisation, traduction), et une utilisation d’un PAS dans les introns ou dans la séquence codante (CDS) modifie en plus l’extrémité C-terminale de la protéine codée, ce qui peut entraîner des modifications fonctionnelles. Source : https://www.mdpi.com/2218-273X/10/6/915

Des terminaisons non conformes de la transcription peuvent aboutir à des pathologies. Par exemple, une mutation qui rajoute une séquence PAS dans le gène codant la CyclineD1 aboutit à un ARNm dont la partie 3’UTR est tronqué et ne possède plus le site de fixation d’un microARN (miR-16-1) qui inhibe la traduction de l’ARNm aboutissant à une surexpression de la CyclineD1 et à un cancer (Chen et al., 2008).

Aspect modulaire du contrôle de la transcription

Les séquences régulatrices contrôlant l’expression d’un seul gène du développement peuvent être très complexes avec des multiples sites de fixation pour des facteurs de transcription différents. Ces séquences régulatrices forment souvent des modules indépendants. Dans le promoteur d’un gène qui est positionné de manière très précise autour du site de début de la transcription, il peut y avoir plusieurs séquences spécifiques reconnues par des facteurs de transcription spécifiques en plus de la boîte TATA ou de la séquence DPE lesquelles sont reconnues par les facteurs de transcription généraux.

*Exemples de domaines de fixation à l’ADN de facteurs de transcription spécifiques.

*Structure du gène, de l’ARNm et de la protéine PAX3, un facteur de transcription spécifique. PB = domaine paired; HD = homéodomaine; PST = région riche en proline, sérine et thréonine. Une version commentée de cette figure est disponible en vidéo.
D’après https://en.wikipedia.org/wiki/PAX3#/media/File:PAX3.hg38.fig.new.7.tif

**Structure de deux molécules du facteur de transcription myogénique MyoD accrochées à l’ADN. On voit bien la forme hélice-boucle-hélice. L’hélice qui s’insère dans le sillon de l’ADN est dite basique et elle interagit avec les charges négatives des phosphates des nucléotides. Source : https://en.wikipedia.org/wiki/Myogenesis#

*Homéodomaine (rose fuschia) de la protéine codée par le gène Antennapedia de Drosophila melanogaster lié à un fragment d’ADN. L’homéodomaine est composé de 3 hélices alpha. Il y a interactions de l’hélice de reconnaissance (hélice 3) et de l’extrémité N-terminal avec respectivement le grand sillon (ou sillon majeur) et le petit sillon (ou sillon) mineur de la double hélice d’ADN. Source : https://fr.wikipedia.org/wiki/Bo%C3%AEte_hom%C3%A9otique#/media/Fichier:ADN_et_hom%C3%A9odomaine.png

**Le domaine de liaison à l’ADN du récepteur des œstrogènes humains alpha (ERα) est caractérisé par deux doigts de zinc typiques des récepteurs aux hormones stéroïdes. Quatre cystéines coordonnent chacune de manière tétraédrique deux ions zinc (gris). La boîte proximale (boîte P) responsable de la reconnaissance spécifique de l’ADN est représentée en rouge, la boîte distale (boîte D) qui contrôle la dimérisation du domaine de fixation à l’ADN est représentée en vert. (B) La structure secondaire présente la structure cristalline du domaine de fixation à l’ADN de ERα humain (bleu) lié à l’ADN (noir). Les quatre chaînes latérales d’acides aminés de la boîte P interagissant avec les bases de l’ADN sont représentées en rouge. Ces résidus font partie d’une hélice α responsable de la reconnaissance spécifique de la séquence d’ADN qui est positionnée dans le sillon principal de l’ADN (perpendiculaire au plan de la représentation). On peut voir une deuxième hélice α amphipathique croiser l’hélice de reconnaissance avec les résidus rouges de la boîte P à angle droit (dans le plan de la représentation). Situés entre les deux hélices se trouvent les résidus verts de la boîte D favorisant la dimérisation du domaine de fixation à l’ADN. Source : https://www.researchgate.net/publication/12443523_Steroid_hormone_receptors_An_update

Plus éloignés du site du début de la transcription, en aval ou en amont du gène, peuvent se trouver des enhancers. Ce sont des séquences d’ADN de quelques centaines de paires de bases de long (en moyenne 500 pb) et ils comprennent des sites de liaison à des facteurs de transcription spécifiques. Le lien entre ces derniers et les facteurs de transcription généraux au promoteur se fait grâce à un gros complexe appelé le Médiateur, composé d’une trentaine de sous-unités.

*Un exemple d’interaction entre le Médiateur, un facteur de transcription GATA sur un enhancer et le complexe des facteurs de transcription généraux avec l’ARN polymérase II. Dans ce cas précis, l’interaction directe entre GATA et les sous-unités Med1 et Med19 du Médiateur (en bleu) a été démontrée. Source : https://www.jbc.org/article/S0021-9258(17)50017-4/fulltext

Sur le même modèle que les enhancers qui activent la transcription, on trouve des silencers qui inhibent la transcription.

*Conséquence de la délétion d’un silencer sur l’expression d’un gène rapporteur. Le gène rapporteur LacZ a été mis sous le contrôle de séquences régulatrices du gène codant L1-CAM, une protéine d’adhérence importante pour la croissance des axones. La construction incorporée dans la lignée transgénique en I est la même que celle en D à l’exception de la délétion d’une séquence d’une trentaine de paires de bases appelée NRSE. Les embryons de souris ont été sacrifiés à E11,5, fixés et colorés dans du X-gal. On observe qu’en absence de NRSE, LacZ est nettement plus exprimé signant la présence d’un silencer. bw = paroi du corps; cg = ganglions crâniens ; cm = mésenchyme céphalique ; de = ectoderme dorsal ; drg = ganglions de la racine dorsale ; sc = chaîne nerveuse sympathique ; t = télencéphale ; tg = ganglion trijumeau.
Barre d’échelle = 1 mm. Source : https://rupress.org/jcb/article-pdf/138/6/1343/1273097/32824.pdf

Contrairement aux promoteurs, les enhancers et les silencers peuvent être déplacés ou inversés sans que cela ne perturbe en général la transcription du gène-cible. Quand ils sont déplacés, il faut qu’ils restent dans le même domaine topologique d’association de la chromatine (TAD) que le gène-cible (voir plus loin).

*L’inversion d’un enhancer de Nanog ne perturbe pas le niveau de sa transcription. Un enhancer (rectangle jaune) placé 5kb en amont du site du début de la transcription du gène Nanog (rectangle gris avec marqué exon 1) est inversé en utilisant le système Cre/Lox inductible par le tamoxifène (4OHT) (pour faire cela, les séquences Lox sont insérées en anti-parallèle et non pas parallèle comme d’habitude lorsqu’il s’agit de faire une délétion). On extrait les ARN et on fait une analyse RT-qPCR pour le gène Nanog et d’autres gènes présents dans la même région génomique à partir de cellules sauvages (barres noires), de cellules mutantes mais non traitées au tamoxifène (barres grises) et de cellules mutantes traitées au tamoxifène (barres blanches). On constate que le niveau de transcription est le même pour tous les gènes, notamment Nanog. Une version commentée de cette figure est disponible en vidéo.
Source : https://www.jbc.org/article/S0021-9258(20)00185-4/fulltext

L’activité des enhancers et des silencers dépend du contexte et la perturbation de leur action peut entraîner des anomalies du développement et des maladies. Par exemple, on a trouvé chez un patient atteint d’aniridie une mutation ponctuelle dans un enhancer contrôlant l’expression de PAX6 et qui se trouve à 150 kb en aval de la séquence codante de PAX6 qui était normale (Bhatia et al., 2013). Autre exemple, des mutations dans les silencers sont une des causes probables de la composante génétique de la maladie d’Alzheimer (Huang et al., 2026).

L’indépendance de ces modules permet au hasard des mutations durant l’évolution de produire des « monstres prometteurs » où l’expression d’un gène donné est éliminée d’une région de l’embryon (ou ajoutée dans une région de l’embryon) sans que cela affecte les réseaux génétiques d’autres régions.

La complexité de la régulation de la transcription est sans doute due à la pléiotropie fonctionnelle élevée des gènes du développement, qui nécessitent donc de nombreuses séquences régulatrices pour contrôler leurs patrons d’expression spatio-temporellement complexes, et pour organiser et intégrer des inductions spécifiques du destin cellulaire. Il existe aussi des cas où l’utilisation concomitante de plusieurs enhancers permet une redondance de fonction afin de stabiliser la transcription dans l’espace et le temps, réduisant ainsi le risque d’une diminution de l’expression d’un gène alors que la fonction de la protéine correspondante exige une concentration maximale. Ces redondances participent à la robustesse des réseaux de régulation géniques.

Citons l’exemple du contrôle de la transcription de Sox9 lors de la gonadogénèse mâle. Pendant une brève période de 2 jours au milieu de la gestation, l’expression de Sox9 est activée par SRY dans les gonades de souris mâles. SOX9 oriente ensuite la gonade bi-potentielle vers la différenciation testiculaire, ce qui signifie qu’une activation appropriée de l’expression de Sox9 est essentielle pour éviter un décalage entre le sexe génétique et le sexe morphologique. Le mécanisme contrôlant la transcription de Sox9 semble être très sensible au dosage, car diverses mutations hétérozygotes du locus peuvent provoquer une inversion du sexe (Huang et al., 1999; Kim et al., 2015) . Le gène Sox9 est positionné près d’une extrémité d’un grand domaine topologique d’association (TAD) de 2 Mb (voir plus loin pour comprendre la notion de TAD), qui contient plusieurs enhancers. Chacun de ces enhancers peut amener un gène rapporteur à être exprimé dans les gonades. Cependant, la suppression de chaque enhancer individuellement n’est pas suffisante pour mimer la perte de fonction Sox9, à l’exception notable de la séquence Enh13 (Gonen et al., 2017; Sekido et Lovell-Badge, 2008, Gonen et al., 2018). Cet enhancer Enh13 qui fait 557 pb de long se trouve à 565 kb en amont de Sox9, dans la région «XY SR» connue pour provoquer une inversion du sexe XY lorsqu’il est supprimé (Gonen et al., 2018).

**La suppression de l’enhancer Enh13 contrôlant l’expression de Sox9 conduit à une inversion complète du sexe chez une souris XY.
(A) Schéma de l’emplacement de Enh13 en amont de Sox9. Les flèches turquoise et violettes représentent les sgRNA externes et internes utilisés pour supprimer Enh13 par la technique CRISPR/Cas9. Les flèches noires représentent les amorces PCR utilisées pour génotyper les embryons. (B) Images en fond clair et sections colorées à l’hématoxyline et à l’éosine (H&E) des gonades E13.5 XY Enh13+/+, Enh13+/- et Enh13-/- et XX Enh13+/+. On voit les tubes séminifères en développement dans les gonades qui ont un phénotype mâle (les deux à gauche). (C) Immunomarquage des gonades E13.5 de type sauvage XY, Enh13+/-, Enh13-/- et XX de type sauvage. Les gonades ont été colorées pour le marqueur de cellules de Sertoli (présentes normalement que chez un mâle) SOX9 (vert), le marqueur des cellules de la granulosa (présentes normalement que chez une femelle) FOXL2 (rouge) et le DAPI (bleu). Les gonades à inversion sexuelle ne peuvent être distinguées des gonades WT XX, tandis que la délétion hétérozygote ne semble pas altérer la morphogenèse des testicules. Les barres d’échelle représentent 100 µm. Source : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6034650/

La délétion homozygote d’Enh13 seule réduit la transcription de Sox9 à environ 20% du niveau observé chez une souris XY de génotype sauvage, se rapprochant du niveau trouvé dans les gonades femelles XX, ce qui n’est évidemment pas suffisant pour activer la différenciation des testicules. La sensibilité à la perte d’Enh13 semble dépendre du temps: cet enhancer agit tôt pour activer la transcription de Sox9 tandis que d’autres enhancers moins éloignés de la séquence codante du gène peuvent par la suite compléter l’activité d’Enh13. On trouve des séquences consensus de SOX9 dans les enhancers de son propre gène, ce qui suggère que l’enhancer Enh13 agit d’abord pour activer la transcription de Sox9, puis la protéine SOX9 se fixe sur Enh13 et sur d’autres enhancers pour stabiliser la transcription de son propre gène dans une boucle directe de rétroaction positive (Sekido et Lovell-Badge, 2008). Ce cas illustre que les tissus en développement passent parfois par un goulot d’étranglement où un dosage et un timing transcriptionnels précis sont nécessaires pour déclencher l’activation d’un gène qui ensuite se stabilise et se fortifie.

L’attribution d’éléments de régulation, tels que des séquences d’enhancers, à un gène cible particulier a été problématique jusqu’à récemment. Des développements technologiques et conceptuels ont non seulement facilité la détection de séquences d’enhancers mais aussi leur association avec des gènes particuliers, par exemple en testant des marques épigénétiques spécifiques ou l’accessibilité de la chromatine et aussi en examinant les profils d’interaction ADN-ADN. Ce dernier ensemble de techniques permettant de révéler l’architecture 3D de l’ADN a révélé l’existence de domaines topologiques d’association (TAD) (Dixon et al., 2012).

**Organisation tridimensionnelle de la chromatine à différentes échelles.
Cette figure illustre la structure de la chromatine selon trois niveaux d’organisation dans le noyau des cellules :
1) Échelle nucléaire : La chromatine est organisée en territoires chromosomiques, chacun correspondant à une région spécifique occupée par un chromosome donné. Ces territoires permettent d’éviter l’enchevêtrement entre chromosomes.
2) Échelle du chromosome : À l’intérieur d’un territoire chromosomique, la chromatine adopte des conformations plus ou moins compactées. Les régions ouvertes (euchromatine) sont généralement accessibles à la transcription, tandis que les régions fermées (hétérochromatine) sont plus compactes et moins actives transcriptionnellement.
3) Échelle des domaines topologiques d’association : À cette échelle, la chromatine peut former des structures denses qui permettent un repliement compact tout en restant dynamiques et accessibles. Ces structures favorisent l’interaction entre régions régulatrices et gènes dans des domaines appelés TADs (Topologically Associating Domains). Source : https://pmc.ncbi.nlm.nih.gov/articles/PMC2858594/

Il s’agit de domaines de la chromatine définies par leur probabilité accrue d’interactions physiques internes. Ainsi, les enhancers ont beaucoup plus de probabilité de participer au contrôle de la transcription de gènes qui se trouvent dans le même TAD qu’eux plutôt qu’en dehors. Des modifications de cette structure topologique de la chromatine peut aboutir à des malformations telles que celles observées dans certaines maladies génétiques (Tena et al., 2021)

**Fonctions des TAD dans la régulation de la transcription. (A) Co-régulation de la transcription de plusieurs gènes d’un même TAD à partir d’un enhancer, (B) Empêchement d’un enhancer d’agir sur la transcription d’un gène en dehors du TAD, (C) Formation de frontières entre des larges domaines de chromatine condensée et des domaines actifs, (D) Arrêt d’une transcription anti-sens. Source : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5371509/

Les TAD sont des régions génomiques relativement petites (généralement entre 100 kilobases et 2 mégabases de long) (Bonev et al., 2017), et leurs limites sont contrôlées par la protéine à doigt de zinc CTCF et un complexe de cohésine formant un anneau.

**Les frontières entre les TAD sont caractérisés par des séquences de 1 à 2 kb appelées isolateurs (insulators en anglais). Ils ont été découverts en premier chez la drosophile mais ils sont courants chez les eucaryotes. CTCF se fixe sur les isolateurs chez les Mammifères. Chez la drosophile, c’est la protéine Su(Hw) qui joue ce rôle. Lorsqu’il est attaché à un isolateur, Su(Hw) forme une association avec d’autres protéines, telles que CP190 et Mod (mdg4), cette dernière agissant comme une colle moléculaire entre une paire d’isolateurs permettant à l’ADN entre eux de former une boucle et un domaine topologique.

**Structure de la protéine CTCF. Elle possède un domaine central avec 11 doigts de zinc. Les doigts de zinc 3 à 7 interagissent directement avec l’ADN sur des séquences consensus (voir au-dessus) et les autres doigts de zinc modulent cette interaction. CTCF se fixe sur 40.000 à 80.000 sites dans le génome des Mammifères. Source : https://journals.biologists.com/dev/article/145/6/dev137729/48856/Developing-in-3D-the-role-of-CTCF-in-cell

Les TAD sont généralement stables au cours du développement (Rao et al., 2014) et peuvent aider à isoler les régions régulatrices d’interférences en provenance du reste du génome qui pourraient les perturber (Dixon et al., 2016) et en même temps faciliter des contacts enhancers-promoteurs très transitoires en leur sein. L’intérieur d’un TAD devient un espace de chromatine dynamique et sûr où les enhancers peuvent agir sur leurs gènes cibles. A une autre échelle de temps, les TAD sont aussi très conservés au cours de l’évolution.

**Exemple de mutation qui abolit une frontière de TAD créant un TAD plus grand où les enhancers agissant habituellement sur le gène Eph4a arrivent à agir également sur l’expression du gène Ihh, provoquant une polydactylie (Lupiañez et al., 2015). Une version commentée de cette figure est disponible en vidéo.
Source : https://www.frontiersin.org/articles/10.3389/fcell.2021.702787/full#B70

Un exemple classique de régulation transcriptionnelle à longue distance mais au sein d’un même TAD implique une séquence régulatrice du gène codant le morphogène Sonic Hedgehog (Shh) (Lettice et al., 2003). L’enhancer de membre ZRS qui permet son expression dans la zone d’activité polarisante (ZPA) (qui est nécessaire à la polarité antéro-postérieure du membre) est positionné dans l’intron du gène Lmbr1 situé à 1 Mb en amont du gène cible Shh.

**Analyse Hi-C de la chromatine autour de Shh. Cette carte de contact obtenue par la technique Hi-C montre les interactions 3D de la chromatine autour du gène Shh. Chaque point représente une fréquence d’interaction entre deux loci chromosomiques : plus la couleur est foncée (rouge), plus l’interaction est fréquente. Les « pyramides » foncées mettent en évidence des TADs, c’est-à-dire des régions du génome qui interagissent préférentiellement entre elles. On observe que le gène Shh se trouve dans le même TAD que la séquence ZRS (qui se trouve dans un intron du gène Lmbr1). Source : https://www.youtube.com/watch?v=cupzk_xG3Ps

La délétion homozygote de cet enhancer inhibe la transcription de Shh dans les bourgeons des membres, démontrant que ZRS est nécessaire pour le dosage et la spécificité tissulaire de la transcription de Shh dans le membre (Sagai et al., 2005). L’expression de Shh n’est alors pas affectée dans d’autres régions de l’embryon, démontrant une fois de plus le contrôle modulaire de l’expression des gènes. Par ailleurs, seules les cellules de la ZPA présentent dans la ZRS l’acétylation sur la lysine 27 de l’histone H3 (H3K27ac) qui est activatrice (VanderMeer et al., 2014), montrant bien que cet enhancer n’est fonctionnel que dans cette région de l’embryon.

Shh et son amplificateur ZRS sont aux extrémités opposées du même TAD, mais la distance de 1 Mb entre eux est considérablement réduite dans l’espace 3D par le repliement de la chromatine (Symmons et al., 2016; Williamson et al., 2016). Si on introduit une mutation qui détruit les frontières du TAD, l’expression de Shh est abolie car le repliement de la chromatine ne se fait pas correctement et ZRS se retrouve trop éloigné du promoteur de Shh. Si, par une nouvelle mutation, on rapproche ZRS du promoteur, alors l’expression est en partie restaurée (voir cette figure).

Contrairement aux exemples discutés ci-dessus, dans lesquels un seul enhancer domine la régulation, certains complexes de régulation fonctionnent par additivité d’enhancers, par lequel chacun de plusieurs enhancers fournit un pourcentage défini de la sortie transcriptionnelle totale produite. Dans ce cas, on s’attendrait à une corrélation entre le nombre d’enhancers supprimés et l’intensité de la baisse de la transcription. Cependant, ces effets peuvent être compliqués par la force variable des enhancers individuels qui interagissent avec un promoteur. Les enhancers faibles peuvent agir de manière additive en raison de leur interaction peu fréquente avec le promoteur cible, mais, paradoxalement, la sortie transcriptionnelle combinée de plusieurs enhancers puissants peut être inférieure à la somme de leurs contributions individuelles en raison de la concurrence et de l’interférence entre les éléments pour le promoteur (Bothma et al., 2015). Dans ce cas, on ne peut pas prédire la contribution d’un enhancer individuel (et donc les conséquences de sa suppression) sans comprendre le mécanisme global à l’œuvre.

Le gène Ihh (Indian hedgehog) qui code une protéine essentielle pour la croissance osseuse dans les membres et le crâne, fournit un bon exemple d’additivité des enhancers. Plusieurs éléments enhancers en amont ont été cartographiés et l’analyse de transgène rapporteur a montré que les activités des enhancers se chevauchent largement dans leurs domaines d’expression, indiquant que chaque enhancer contribue à une partie de l’effet activateur dans ces tissus. En utilisant un ensemble d’allèles de délétion, il a été montré que la quantité de transcription de Ihh est liée au nombre d’enhancers présents, une observation qui est bien corrélée avec une augmentation de la transcription au-dessus des niveaux de type sauvage lorsque les mêmes enhancers sont dupliqués (Will et al., 2017). En conséquence, la quantité de raccourcissement des membres observée évolue proportionnellement à la quantité d’enhancers présents démontrant que l’addition d’activateurs peut produire des phénotypes qui changent avec le dosage.

***Les suppressions progressives d’enhancers révèlent un contrôle additif de l’expression de Indian Hedgehog (Ihh)
(A) Locus de Ihh avec de multiples enhancers en cluster en amont du gène Ihh et qui se trouvent dans les introns du gène voisin Nhej1. Suppressions générées par CRISPR/Cas9 au locus. Le knock-out Ihh-/- est montré à titre de comparaison (signal d’arrêt). La région chromosomique supprimée est représentée par une ligne pointillée. (B) L’hybridation in situ montre l’expression de Ihh lors de la formation des doigts (E13.5). Barre d’échelle = 200 µm. (C) Colorations squelettiques des membres antérieurs, de l’autopode et du crâne (E17.5). Les mutants présentant des phénotypes anormaux sont indiqués par des astérisques. Les souris Del(2–9) et Del(4–9) entraînent une réduction massive de la taille des membres et une ossification réduite similaire à knock-out Ihh-/-, tandis que les souris Del(4–6) et Del(7–9) n’ont pas montré d’anomalies visibles des membres. Tous les mutants étudiés présentaient des défauts du crâne (ossification retardée), un effet moins important chez les mutants Del(7–9) (tête de flèche). Barres d’échelle = 2000 μm (membres antérieurs), 500μm (autopodes) et 1000μm (crânes). (D) Analyse RT-qPCR de l’expression de Ihh dans le membre antérieur E13.5, la plaque de croissance osseuse E17.5 (coude) et le crâne. La suppression de l’intron 3 de Nhej1 englobant les enhancers i2 à i9 a entraîné une perte presque complète de l’expression d’Ihh dans tous les tissus, tandis que des suppressions plus petites réduisent partiellement l’expression. Source : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5617800/

L’expression colinéaire des gènes Hox au cours de la formation des membres fournit un exemple bien étudié d’entrées spatiales et temporelles complexes. Aux locus HoxD et HoxA, une expression appropriée nécessite des arrangements topologiques uniques des séries de gènes et de leurs enhancers à longue portée respectifs (Berlivet et al., 2013).

***Organisation topologique étudiée en Hi-C des gènes HoxA et Evx1 dans le génome des cellules du bourgeon de membre distal de souris. Les gènes sont organisés en trois sous-TAD dans le membre (en haut). L’enrichissement de l’interaction dans les tissus de la tête par rapport au membre (en bas) montre une augmentation significative de l’interaction entre les gènes qui sont exprimés dans le membre distal par rapport à la tête (enrichissement négatif dans la tête donc en fait enrichissement positif dans le membre). Pour comprendre ce genre de diagramme voir https://dridk.me/tad.html Source : https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1004018

Au locus HoxD, les TAD flanquant le groupe de gènes de la partie 3′ du complexe dirigent l’expression précoce des Hox exprimés dans la région proximale du membre et ceux à côté de la partie 5′ du complexe dirigent l’expression plus tardive des Hox exprimés dans la région distale. Au cours du temps, il y a un changement de la topologie chromatinienne qui permet de passer d’un patron d’expression précoce des gènes du locus HoxD à un patron d’expression tardif (Andrey et al., 2013).

Bien que les régions régulatrices autour des gènes de développement s’étendent fréquemment sur de grands intervalles génomiques pauvres en gènes, ils ne contiennent rarement qu’un seul gène. En conséquence, les enhancers peuvent ignorer les promoteurs de certains gènes – même s’ils sont proximaux – tout en agissant spécifiquement sur d’autres (Spitz et al., 2003). Plusieurs mécanismes peuvent expliquer cela, comme l’incompatibilité entre les types d’enhancer et de promoteur (Zabidi et al., 2015). Il peut y avoir une sensibilité spécifique selon l’état cellulaire, permettant aux enhancers de basculer entre deux gènes cibles très similaires (Sharpe et al., 1998).

Au locus du gène codant le facteur de croissance FGF8, plusieurs gènes sont intercalés entre Fgf8 et ses enhancers, mais les enhancers n’agissent pas sur ces gènes. Dans ce cas, il semble y avoir une exigence structurelle dans la topologie qui définit les promoteurs avec lesquels les enhancers de Fgf8 peuvent interagir. Cependant, lorsque le locus est perturbé par des mutations ou que des parties de celui-ci sont déplacées ailleurs, les enhancers de Fgf8 agissent ectopiquement pour conduire la transcription des gènes non contrôlés habituellement par eux (Marinić et al., 2013). Un mécanisme similaire a été observé au locus Pitx1 durant le développement du bourgeon de membre (Kragesteen et al., 2018).

Enfin, dernier cas de figure étudié ici, l’interaction entre deux facteurs de transcription sur une même séquence régulatrice ou deux séquences très proches. Tous les cas de figure sont possibles : l’un des facteurs peut empêcher l’autre de se fixer ou alors au contraire, la fixation de l’un favorise la fixation et l’activité de l’autre, créant une synergie. Nous allons prendre l’exemple de l’activation de la transcription de MITF (qui code un facteur de transcription essentiel pour le développement des mélanocytes) par Sox10 et Pax3.

*SOX10 agit en synergie avec PAX3 sur le promoteur de MITF. (A) L’expression du gène rapporteur de la luciférase est sous le contrôle du promoteur MITF normal (pMITF) ou muté avec une délétion ponctuelle (pMITFdel1718 et pMITFdel2061) et avec ou sans six sites potentiels de liaison SOX10 supprimés (pMITFdel1718SOX) ou les 2 sites de liaison PAX3 supprimés ainsi que les 6 sites SOX10 (pMITFdel1718 SOX+P1+P2). Ces constructions ont été transfectées dans des cellules HeLa en combinaison avec des vecteurs d’expression contrôles et des vecteurs permettant d’exprimer PAX3 et/ou SOX10 (barres noires, gris clair et gris foncé correspondant aux divers scénarios). Les données de toutes les transfections sont présentées sous forme de facteur d’induction au-dessus des niveaux de base et sont des moyennes ± SE. Source : https://academic.oup.com/hmg/article/9/13/1907/627353

Focus sur les contrôles épigénétiques

Les modifications épigénétiques de la chromatine permettent aux cellules de répondre à des variations de leur environnement tout en maintenant leur séquence génomique. Elles sont une composante essentielle de la plasticité phénotypique. Ces modifications permettent aussi de produire de multiples types de cellules différenciées à partir d’un même génome.

Les histones et tout particulièrement leur région N-terminale peuvent être la cible de très nombreuses modifications post-traductionnelles qui influencent la compaction de la chromatine et donc l’accessibilité des facteurs de transcription à leurs séquences cibles.

*Diverses modifications post-traductionnelles des histones qui forment le nucléosome. Notez que l’essentiel des modifications se fait sur des lysines (K) mais d’autres acides aminés peuvent être impliqués. Source.

Par spectrométrie de masse, on a par exemple découvert plus de 150 combinaisons différentes de modifications post-traductionnelles sur l’histone H3 humaine ! (Garcia et al., 2007).

*Modifications post-traductionnelles des histones et activation/répression de la transcription des gènes. Les modifications activatrices sont représentées en haut (rose) et les modifications inhibitrices en bas (gris). Leur localisation moyenne par rapport au site de début de la transcription (TSS) est montrée (mais c’est une moyenne avec des larges variations). K suivi du nombre correspond à la position de la lysine affectée; ac = acétylation; me1, me2, me3 = simple, double et triple méthylation. Source : https://www.frontiersin.org/articles/10.3389/fcell.2023.1086573/full

Par l’action des histone acétylases, les histones formant les nucléosomes sont acétylées sur les fonctions amines des lysines basiques dans les queues « amino-terminales » allongées des histones. Cette acétylation a pour conséquence de supprimer les charges positives des lysines et donc d’empêcher la formation des nucléosomes, permettant ainsi la transcription de l’ADN non compactée. Ce phénomène d’acétylation est réversible grâce à l’action des histone désacétylases (HDAC) qui sont aussi connues par ailleurs pour recruter des ADN méthylases responsables de la méthylation de l’ADN bloquant la transcription.

Les groupes acétyle sur les histones sont également reconnus par les protéines qui contiennent des domaines de liaison à l’acétyl-lysine appelés bromodomaines (BRD) (Sanchez et Zhou, 2009). Les protéines BRD ont un large éventail d’activités sur la chromatine, notamment l’ajout d’autres modifications des histones, le remodelage de la chromatine et plus généralement la régulation de la transcription (Filippakopoulos et al., 2012).

En plus des histones, l’ADN peut être directement modifié. Chez les eucaryotes, la cytosine est méthylée en 5-méthylcytosine (5mC), notamment lorsqu’elle est suivie d’une guanosine (séquences CpG). Chez les végétaux, la 5mC peut se trouver aussi au sein de séquences CNG (N étant n’importe quel nucléotide) ou CHH (avec H = A, T ou C). Cette méthylation ne gêne pas l’appariement des bases azotées car elle se trouve en position latérale mais elle peut être reconnue par des protéines spécifiques ou empêcher la fixation d’autres protéines.

Le taux de méthylation reste très faible chez la drosophile (0,034%), faible chez les mammifères (quelques %; 7,6% chez la souris par exemple) mais atteint 30 % chez les végétaux, ce qui est logique vu l’éventail plus large de leurs cytosines pouvant être méthylées. Pour savoir comment on détecte cet ADN méthylé, suivre ce lien. Chez les Mammifères, les sites CpG ne sont pas répartis uniformément dans le génome et une grande partie d’entre eux est concentrée dans les séquences répétées autour des centromères permettant une forte compaction de la chromatine à ce niveau. Néanmoins, des sites CpG « dynamiques » peuvent se trouver ailleurs et contrôler l’expression des gènes loin des centromères.

**Méthylation d’une cytosine dans le site actif d’une ADN méthyltransférase. Le donneur de méthyl est une molécule appellée SAM (S-Adenosyl methionine). SAM est synthétisé à partir de la méthionine et la synthèse de la méthionine nécessite de l’acide folique ou vitamine B9 (la méthionine peut aussi être apportée direcetment par l’alimentation). On trouve cette vitamine dans les noix, les lentilles, les pois chiches, les épinards, les choux, certains fromages… C’est une des voies par laquelle l’alimentation peut influencer les modifications épigénétiques et donc l’expression des gènes. Source : https://en.wikipedia.org/wiki/5-Methylcytosine#/media/File:DNMT_reaction_mechanism.tif

L’ajout d’un résidu méthyl sur une cytosine à une position du génome qui n’en avait jamais eu s’appelle la méthylation de novo. Elle est catalysée par les ADN méthyltransférases DNMT3a et DNMT3b. DNMT3L peut interagir avec ces enzymes et augmenter leur activité enzymatique, mais elle n’a pas d’activité enzymatique propre (Gujar et al., 2019). Lors de la réplication, une séquence 5’-CpG-3’ méthylée sur un brin de l’ADN est reconnue et méthylée sur l’autre brin néoformé par une ADN méthyltransférase particulière, Dnmt1, ce qui lui permet de se perpétuer dans une lignée cellulaire, assurant une mémoire épigénétique. Cette réaction s’appelle la méthylation de maintien.

*Méthylation de novo et méthylation de maintien. Une version commentée de cette figure est disponible en vidéo.
D’après https://www.mdpi.com/2073-4425/10/2/172

Des souris déficientes en DNMT1 meurent à la gastrulation, ce qui démontre le rôle très important de la méthylation de maintien. Elle ne fonctionne pas seule : UHRF1 (ou NP95) est une protéine qui se fixe sur le double brin d’ADN issu de la réplication et reconnait les sites hémiméthylés (méthylés que sur un seul brin) et elle recrute alors DNMT1.

Dans les deux cas (méthylation de novo et méthylation de maintien), le transfert de méthyle se fait à partir d’une molécule particulière : la S-adénosyl-L-méthionine (SAM).

Dans un gène ou dans ses séquences cis-régulatrices, ces méthylations empêchent la transcription de l’ADN en ARN.

*Phénotypes différents de souris hétérozygotes Agouti. Ces souris ont le même génotype Aa pour le gène Agouti mais elles n’ont pas reçu la même nourriture ce qui provoque des changements dans leur méthylation des séquences CpG. La souris rousse à droite exprime fortement Agouti et possède très peu de CpG méthylé dans les séquences régulatrices du gène, tandis que la souris noire à gauche exprime faiblement Agouti et possède un fort taux de méthylation de ces CpG. La souris au milieu présente une situation intermédiaire, avec une méthylation hétérogène selon les cellules. Source : https://www.youtube.com/watch?v=u6B7CP3pRPQ

Les méthylations CpG agissent soit en tant qu’obstacle stérique à la fixation d’un facteur de transcription, soit en favorisant l’action des histones désacétylases, qui, nous l’avons vu, rendent la chromatine moins accessible. On a ainsi découvert que le facteur de transcription MeCP2, qui se lie principalement au CpG méthylé (il s’appelle d’ailleurs methyl-CpG-binding protein 2), agit comme un répresseur transcriptionnel en recrutant le complexe histone désacétylase (HDAC) lors de la répression de la transcription dans les ovocytes de Xenopus laevis (Jones et al., 1998, Nan et al., 1998). Depuis, on a découvert que MeCP2 agit dans beaucoup d’autres types cellulaires.

**Domaines de la protéine MeCP2.
Schéma linéaire de la protéine MeCP2 (isoforme 1, 487 acides aminés) montrant les domaines principaux : domaine N-terminal (aa 1-75), domaine de liaison à l’ADN méthylé (MBD, aa 75-162), domaine de liaison (ID, aa 162-207), domaine de répression transcriptionnelle (TRD, aa 207-310) et domaine C-terminal (aa 310-487). Le MBD se lie spécifiquement aux sites méthyl-CpG ce qui ancre MeCP2 sur la chromatine méthylée, tandis que le TRD recrute des co-répresseurs comme Sin3A et les histones déacétylases HDAC pour réprimer la transcription. Source : https://www.jbc.org/article/S0021-9258(25)02967-9/fulltext

Le syndrome de Rett est un trouble neurodéveloppemental progressif sévère avec des patients en très grande majorité féminins, et qui est principalement causé par des mutations dans le gène MeCP2 (Amir et al., 1999). Ce gène se trouve sur le chromosome X. Les hommes n’ont qu’un seul allèle et si il est muté, c’est généralement létal. Les femmes ont deux allèles et les hétérozygotes peuvent survivre mais avec d’importants symptômes. Le syndrome de Rett est caractérisé par une période de développement apparemment normal pendant 6 à 18 mois, suivie d’une régression et de l’apparition de diverses anomalies neurologiques, notamment une microcéphalie, une altération de la fonction motrice, des tremblements, des convulsions, des déficits cognitifs, des mouvements stéréotypés de la main et des caractéristiques autistiques. Le profil de méthylation CpG dans l’ADN des patients n’est pas modifié mais comme MeCP2 muté ne peut pas s’y fixer ou s’y fixe mais ne peut pas agir (selon la mutation présente), des gènes sont transcrits alors qu’ils ne devraient pas l’être et cela perturbe le développement post-natal du cerveau.

La méthylation de l’ADN est le principal mécanisme moléculaire de l’empreinte parentale qui concerne une centaine de gènes chez les Mammifères : seul l’un des allèles soit provenant du père ou soit provenant de la mère s’exprime. Dans le syndrome de Prader-Willi, les gènes impliqués (SNRPN et NDN) ne s’expriment habituellement qu’à partir des allèles hérités du père. Les allèles de la mère restent très peu transcrits. Si un individu hérite d’allèles non fonctionnels ou d’une délétion totale de cette région du chromosome 15 du père, les allèles maternels, même produisant des protéines fonctionnelles, ne peuvent compenser. L’empreinte parentale existe aussi chez les végétaux : par exemple le gène FWA est exprimé uniquement à partir de l’allèle maternel dans l’albumen des graines d’Arabidopsis thaliana, et la méthylation est aussi impliquée (Kinoshita et al., 2004).

Les cytosines peuvent être déméthylées par des enzymes TET qui produisent une série de formes oxydées de la 5-méthylcytosine, notamment la 5-formylcytosine. Cette forme de cytosine peut être utilisée comme une marque de déméthylation récente et donc comme un site d’activation (ou de réactivation) de l’expression des gènes (Gao et al., 2020). La 5-formylcytosine peut elle-même être encore oxydée en 5-carboxycytosine par les TET. Ce sont alors les enzymes de réparation qui la remplacent par une cytosine normale.

**Méthylation et déméthylation de la cytosine. Source : https://www.frontiersin.org/articles/10.3389/fonc.2021.653222/full

Les enzymes TET sont notamment très actives dans le pronucléus mâle du zygote où a lieu une déméthylation massive du génome paternel (Wossidlo et al., 2011). Dans d’autres cas, signalons que souvent, la déméthylation se fait par absence de maintenance de la méthylation après la réplication. C’est le cas pour le génome maternel après la fécondation qui est moins méthylé que le génome paternel et qui subit une déméthylation passive.

**Changements de niveau de méthylation des CpG dans le génome paternel et maternel après la fécondation. Le génome des spermatozoïdes de souris présente une méthylation sur 80 à 90% de ses sites CpG, soit environ 20 millions de sites méthylés. Après la fécondation, la déméthylation des chromosomes paternels est presque achevée en 6 heures par un processus actif, avant la réplication de l’ADN (ligne bleue). L’ovocyte mature a environ 40% de ses sites CpG qui sont méthylés. La déméthylation des chromosomes maternels se produit en grande partie par le blocage des enzymes de méthylation de maintien et la dilution de l’ADN maternel méthylé pendant la réplication (ligne rouge). La morula (au stade 16 cellules), n’a qu’une petite quantité de méthylation de l’ADN (ligne noire). La méthylation commence à augmenter à 3,5 jours après la fécondation dans le blastocyste et une grande vague de méthylation se produit alors aux jours 4,5 à 5,5 dans l’épiblaste, passant de 12% à 62% de méthylation, atteignant ensuite le niveau maximum après implantation dans l’utérus. Au septième jour après la fécondation, les cellules germinales primordiales (PGC) nouvellement formées dans l’embryon implanté se séparent des cellules somatiques restantes. À ce stade, les PGC ont le même niveau de méthylation que les cellules somatiques. Source : https://en.wikipedia.org/wiki/TET_enzymes#/media/File:Methylation_levels_during_mouse_very_early_embryonic_development.jpg

Chez les plantes, la méthylation de novo des séquences CG chez les plantes est principalement contrôlée par DRM2 avec en partie la voie de méthylation de l’ADN dirigée par l’ARN et maintenue par l’ADN méthyltransférases 1 (MET1), un homologue de Dnmt1. La méthylation de novo des séquences CHH est réalisée par DRM2, tandis que celle des séquences de type CNG est réalisée par CMT3 (Chan et al. 2005). Des changements importants de méthylation peuvent être causés par certains stress : par exemple, un stress thermique induit une augmentation de l’expression de DRM2 et une hausse de la méthylation dans le génome d’Arabidopsis (Naydenov et al., 2015).

**La voie de méthylation de l’ADN dirigée par ARN. Chez les végétaux, l’ARNpol IV synthétise un ARN à partir de régions d’ADN riches en séquences répétées. Cet ARN est pris en charge par RDR2 qui synthétise un deuxième brin d’ARN complémentaire. Cet ARN double brin est coupé en fragments de 24 nucléotides par DCL3. Un brin de ces petits ARN s’associe à AGO4 et reconnaît un transcrit synthétisé par l’ARNpol V. Cette interaction permet le recrutement de DRM2, une de novo ADN méthyltransférase qui méthyle l’ADN. D’après la thèse de Lauriane Simon, Université Clermont-Ferrand II.

La méthylation peut également concerner les histones, notamment l’histone H3. Certaines méthylations de l’histone H3 facilitent la transcription telles la triméthylation sur la lysine 4 (H3K4me3), d’autres la répriment telles que la triméthylation sur la lysine 9 (H3K9me3).

**Une triple méthylation répressive de la transcription sur la 9ème lysine de l’Histone H3. Les histones méthyltransférases Suv39h1, Suv39h2 et Setdb1 sont les enzymes responsables de cette méthylation. Source : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6759373/

Nous constatons qu’à quelques acides aminés près, une même modification (la triméthylation sur une lysine) a des effets radicalement opposés sur la transcription !

Des mutations dans des enzymes permettant de méthyler des lysines des histones peuvent aboutir à des anomalies développementales comme par exemple dans le syndrome de Kabuki caractérisé par un retard mental et des malformations de la face et qui est provoqué par des mutations perte-de-fonction dans le gène codant l’histone-lysine N-méthyl transférase 2D (KMT2D ou MLL2) qui catalyse la méthylation de la lysine 4 de l’histone H3.

Des enzymes spécifiques assurent aussi les déméthylations de lysines précises sur les différentes histones. Citons comme enzymes de déméthylations des histones, les protéines contenant un domaine appelé Jumaji C (JmjC). Elles sont impliquées dans de multiples processus développementaux comme notamment le déclenchement de la floraison chez Arabidopsis (Gan et al., 2014).

**Les histones déméthylases Jmj30 et Jmj32 sont nécessaires pour inhiber la floraison lorsqu’il fait chaud. Des plants d’Arabidopsis thaliana sauvages (WT) ou simple ou double mutants perte-de-fonction pour les gènes codant Jmj30 et Jmj32 sont cultivés à 22°C ou à 29°C. Des expériences complémentaires montrent qu’à 29°C, en absence de Jmj30 et de Jmj32, il y a significativement plus de H3K27me3 (marque répressive) dans les séquences régulatrices dans les gènes impliqués dans la répression de la floraison que lorsque l’une des deux histone déméthylases est présente. Ainsi, les gènes impliqués dans la répression de la floraison sont plus exprimés chez les mutants et la floraison a lieu. Source : https://doi.org/10.1038/ncomms6098

Au début du développement embryonnaire, l’épigénome subit des changements massifs. Lors de la fécondation, les génomes des gamètes – spermatozoïdes et ovocytes – doivent être reprogrammés afin d’obtenir la totipotence. Ce processus implique un décompactage des génomes gamétiques hautement condensés et une réinitialisation globale des états de la chromatine pour conférer la plasticité épigénétique nécessaire au développement d’un nouvel organisme. L’établissement de la pluripotence chez les mammifères nécessite l’effacement de la mémoire épigénétique et, en tant que telle, l’hypométhylation globale est une caractéristique déterminante des diverses cellules pluripotentes, y compris les cellules souches embryonnaires naïves (ESC), les cellules germinales primordiales (PGC) et les cellules souches pluripotentes induites (iPSC). La déméthylation au cours du développement précoce des Mammifères est contrôlée par les enzymes TET (Rasmussen et Helin, 2016). L’activité déméthylase de ces enzymes entraine l’expression de la protéine associée à la pluripotence développementale 3 (DPPA3/PGC7/STELLA). DPPA3 se lie alors directement à la protéine UHRF1 et provoque sa libération de la chromatine. UHRF1 se lie normalement à l’ADN hémiméthylé généré pendant la phase S par la réplication semi-conservative et recrute l’ADN-méthyltransférase de maintenance, DNMT1. L’expulsion de UHRF1 de l’ADN hémiméthylé inhibe ainsi la méthylation de maintenance et provoque une déméthylation passive globale (Mulholland et al., 2020).

***Dans les cellules pluripotentes, DDPA3 déplace UHRF1 de l’ADN hémiméthylé. Dans des cellules embryonnaires souches (ES) en phase S, on exprime une forme taguée par la GFP de la protéine UHRF1 et on induit l’expression de DPPA3 à t= – 90 minutes. Une image est prise à partir de t= 0 au microscope à fluorescence toutes les 10 minutes. L’ADN est marqué par le SiR-DNA. Source : https://www.nature.com/articles/s41467-020-19603-1

Par des approches génétiques chez le nématode Caenorhabditis elegans pour examiner comment la répression médiée par les protéines du groupe Polycomb (PcG) peut être héritée, il a été montré que la méthylation répressive des histones (H3K27me3) déposée par le complexe PRC2 des protéines PcG se transmet par les spermatozoïdes et les ovules entre les générations (Gaydos et al., 2014). La transmission de modifications épigénétiques à travers plusieurs générations a été observée chez de nombreuses autres espèces, y compris chez les Mammifères. Ainsi, certaines modifications épigénétiques échappent à la grande remise à plat qui a lieu à la fécondation ou peu après.

Un cas particulier où la transcription est contrôlée indirectement par les ARNm
Il existe un paradoxe dans l’utilisation des outils génétiques chez les organismes-modèles : les expériences knock-down (où on diminue l’expression d’une protéine par un microARN, un siARN ou un morpholino) sont souvent plus efficaces pour produire un phénotype que les expériences knock-out où on introduit dans le gène une séquence qui code un codon STOP prématuré ou où on délète un ou plusieurs exons. Il a été montré que chez le poisson-zèbre et la souris, les codons STOP prématurés initient un processus connu sous le nom de dégradation de l’ARNm médiée par une mutation non-sens (nonsense-mediated mRNA decay en anglais), qui se produit dans le cytoplasme. Cette dégradation déclenche l’activation du complexe protéique COMPASS, qui entraîne une modification de la machinerie épigénétique qui contrôle la transcription et déclenche l’augmentation de la transcription des gènes présentant une similarité de séquence avec le gène muté non-sens, ce qui aboutit à une compensation fonctionnelle qui peut diminuer voire masquer les effets du knock-out (El-Brolosy et al., 2019).

LA CARTE MENTALE

EXERCICES

Un test type « texte à trou » sur la transcription et son contrôle.

QUIZZ

Q1. Quel est le rôle principal de Dnmt1 dans la méthylation de l’ADN ?
A) Ajouter des groupes méthyle aux cytosines de novo
B) Maintenir les schémas de méthylation après la réplication
C) Méthyler les histones pour activer la transcription
D) Dégrader les séquences CpG

Q2. Quelle est la fonction principale de TFIIH dans le complexe d’initiation ?
A) Il se lie à la boîte TATA et recrute l’ARN polymérase II
B) Il hydrolyse l’ATP pour phosphoryler le domaine C-terminal (CTD) de l’ARN polymérase II
C) Il fait le lien entre les facteurs de transcription spécifique sur les enhancers et l’ARN polymérase II

Q3. Quelle est la séquence consensus généralement reconnue par le facteur TBP ?
A) CAAT-box
B) GC-box
C) TATA-box
D) Séquence de terminaison de la transcription

Q4. Que signifie un TAD (Topologically Associating Domain) ?
A) Une région où l’ADN est compacté en hétérochromatine
B) Un domaine chromatinien favorisant les interactions entre éléments régulateurs et les gènes
C) Une zone où l’ARN polymérase est inactive
D) Une séquence promotrice associée à un enhancer

Q5. Une désacétylation des lysines des histones :
A) Mène généralement à une inhibition de la transcription
B) Mène généralement à une activation de la transcription

Réponses au quizz : Q1.B; Q2.B; Q3.C; Q4.B; Q5.A

VOIR LES EXERCICES SUR LE CONTRÔLE DE LA TRANSCRIPTION

EN DIRECT DES LABOS :

QUELQUES EQUIPES DE RECHERCHE FRANCOPHONES QUI TRAVAILLENT SUR LE SUJET :

Epigénomique développementale – IGFL Lyon

Epigénomique des Mammifères – I2BC, Université Paris-Saclay

Dynamique spatio-temporelle des fonctions génomiques – Institut Curie, Paris

LIEN VERS LE GLOSSAIRE DES TERMES LIES A LA GENETIQUE

LIEN VERS LE GLOSSAIRE