Informatie

Aantal transcriptiefactorgenen in het menselijk genoom


Wat is het aantal transcriptiefactorgenen dat aanwezig is in het menselijk genoom? Verschilt deze waarde in vergelijking met Mus musculus, Drosophila melanogaster, Arabidopsis thaliana, C. elegans en S. cerevisiae? Verandert bovendien de verhouding tussen eukaryoten en prokaryoten?


Ik neem aan dat we het hier hebben over eukaryote sequentiespecifieke transcriptiefactoren (ssTF's) en probeer je eerste en een deel van de tweede vraag te beantwoorden. Een definitief antwoord is er in ieder geval nog niet.

Een schatting van ssTFs-genen bij mensen wordt gegeven in de Nature Reviews Genetics-paper van 2009 door Vaquerizas, JM et al, Een telling van menselijke transcriptiefactoren: functie, expressie en evolutie.

Een fragment uit de samenvatting:

Hier presenteren we een analyse van 1.391 handmatig samengestelde sequentiespecifieke DNA-bindende transcriptiefactoren, hun functies, genomische organisatie en evolutionair behoud.

De cijfers zijn nu wat hoger. Wingender et al. hebben 1.558 menselijke genen geteld in hun TFClass database 2013 NAR paper. In hun NAR-paper uit 2014 namen ze 1.557 orthologen van mensen, 1.147 muizen en 1.105 ratten op.

Een andere manier om naar deze informatie te zoeken, is door het aantal vermeldingen in TF-databases te bekijken, zoals bijvoorbeeld JASPAR. Dit heeft het voordeel dat er ook andere soorten worden opgenomen. De dekking hier hangt echter af van de beschikbaarheid van positiegewichtsmatrices (PWM's) voor de bindingsspecificiteiten. Veel niet-gekarakteriseerde TF's worden mogelijk niet gevonden.


Om uw derde vraag te beantwoorden, namelijk wat het aandeel TF's in de verschillende soorten is, zou een naïeve benadering zijn om het aantal voorspelde TF's te delen door het aantal voorspelde genen in het doelgenoom. Als u bijvoorbeeld de laatste schattingen hierboven neemt met het voorspelde aantal coderende genen uit de Ensembl-database (versie 78), worden deze percentages geretourneerd:

# Mens 100 * 1557 / 20364 = 7,64% # Muis 100 * 1147 / 22606 = 5,07% # Rat 100 * 1105 / 22777 = 4,85%

Dit suggereert dat mensen een iets hoger aandeel TF's hebben dan knaagdieren. Deze verschillen zijn echter niet al te groot en kunnen afhankelijk zijn van de nauwkeurigheid van de verschillende schattingen van TF's en genaantallen. En op zich zijn deze cijfers niet zo interessant.

Een veel interessantere vraag is of TF-families meer of minder zijn uitgebreid in verschillende soorten (dat wil zeggen, of het aantal eiwitten binnen elke familie is toegenomen, ongeacht de verhouding tot het totale aantal genen in het genoom). Ik kon ten minste één paper vinden waarin dit systematisch is gedaan voor verschillende eukaryote soorten, over dieren, planten en schimmels, en gericht op TF's die voorkomen in planten. De belangrijkste conclusie van het artikel is dat sommige TF's-families meer zijn uitgebreid in planten dan in andere organismen. Citaat uit de samenvatting:

Om te onderzoeken of er verschillen bestaan ​​in de expansiepatronen van TF-genfamilies tussen planten en andere eukaryoten, hebben we eerst Arabidopsis (Arabidopsis thaliana) TF's gebruikt om TF-DNA-bindende domeinen te identificeren. Deze DNA-bindende domeinen werden vervolgens gebruikt om verwante sequenties in 25 andere eukaryote genomen te identificeren. Interessant is dat van de 19 families die worden gedeeld tussen dieren en planten, er meer dan 14 groter zijn in planten dan in dieren. Na onderzoek van de afstammingsspecifieke expansie van TF-families in twee planten, acht dieren en twee schimmels, ontdekten we dat TF-families die door deze organismen worden gedeeld een veel dramatischere expansie hebben ondergaan in planten dan in andere eukaryoten. Bovendien is deze verhoogde expansiesnelheid van planten-TF niet alleen te wijten aan hogere duplicatiesnelheden van plantengenomen, maar ook aan een hogere mate van expansie in vergelijking met andere plantengenen.


Transcriptiefactor E2F5

<p>De annotatiescore biedt een heuristische maatstaf voor de annotatie-inhoud van een UniProtKB-item of proteoom. Deze score <strong>kan niet</strong> worden gebruikt als maatstaf voor de nauwkeurigheid van de annotatie, aangezien we de 'juiste annotatie' voor een bepaald eiwit niet kunnen definiëren.<p><a href='/help/annotation_score' target='_top'> Meer. </a></p> - Experimenteel bewijs op eiwitniveau i <p>Dit geeft het type bewijs aan dat het bestaan ​​van het eiwit ondersteunt. Merk op dat het 'eiwitbestaan'-bewijs geen informatie geeft over de nauwkeurigheid of correctheid van de weergegeven sequentie(s).<p><a href='/help/protein_existence' target='_top'>Meer. </a></p>

Selecteer een sectie aan de linkerkant om inhoud te zien.


Abstract

MicroRNA's (miRNA's) zijn kleine RNA-moleculen die betrokken zijn bij de regulatie van genexpressie bij zoogdieren. Samen met andere transcriptieregulatoren moduleren miRNA's de expressie van genen en dragen daardoor mogelijk bij aan weefsel- en soortendiversiteit. Om miRNA's te identificeren die differentieel tot expressie worden gebracht tussen weefsels en/of soorten, en de genen die hierdoor worden gereguleerd, hebben we de expressie van miRNA's en boodschapper-RNA's gekwantificeerd in vijf weefsels van meerdere mensen, chimpansees en resusapen met behulp van high-throughput sequencing. De omvang van deze weefsel- en soortgegevens stelt ons in staat om aan te tonen dat neerwaartse regulatie van doelgenen door miRNA's meer uitgesproken is tussen weefsels dan tussen soorten en dat neerwaartse regulatie meer uitgesproken is voor genen met minder bindingsplaatsen voor tot expressie gebrachte miRNA's. Intrigerend genoeg vinden we dat weefsel- en soortspecifieke miRNA's significant vaker dan verwacht doelwit zijn van transcriptiefactorgenen (TF's). Door hun regulerende effect op transcriptiefactoren kunnen miRNA's daarom een ​​indirecte invloed uitoefenen op een groter deel van de genen dan eerder werd gedacht.


Resultaten

Een uitgebreide catalogus van menselijke GRF's voor het bestuderen van de evolutie van de regelgeving

Om de rollen van GRF's tijdens de menselijke evolutie te onderzoeken, hebben we de meest actuele catalogus van GRF-genen samengesteld door de informatie uit acht onderzoeken te combineren (tabel 1 en aanvullende methoden .pdf, aanvullend materiaal online). In totaal omvat onze catalogus 3.344 genen (aanvullende tabel S1, aanvullend materiaal online).

Samenstelling van 3.344 GRF-genen die in deze studie worden overwogen (zie aanvullend materiaal, aanvullend materiaal online, voor selectiecriteria) en de bronnen waar deze genen eerder werden gecatalogiseerd

Bestaande voorraden Menselijke GRF's . Genen inbegrepen. % Inbegrepen.
Messina et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Huidig ​​werk 3,344 100
Bestaande voorraden Menselijke GRF's . Genen inbegrepen. % Inbegrepen.
Messina et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Huidig ​​werk 3,344 100

Samenstelling van 3.344 GRF-genen die in deze studie worden overwogen (zie aanvullend materiaal, aanvullend materiaal online, voor selectiecriteria) en de bronnen waar deze genen eerder werden gecatalogiseerd

Bestaande voorraden Menselijke GRF's . Genen inbegrepen. % Inbegrepen.
Messina et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Huidig ​​werk 3,344 100
Bestaande voorraden Menselijke GRF's . Genen inbegrepen. % Inbegrepen.
Messina et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Huidig ​​werk 3,344 100

Na de gedetailleerde en samengestelde classificatie van DNA-bindende TF-genen (Wingender et al. 2015), hebben we 1.509 GRF-genen functioneel gegroepeerd in 40 TF-klassen. ZNF-genen zijn verreweg de meest voorkomende klasse (807 genen) die verder worden onderverdeeld in tien subklassen, waarvan de KRAB-ZNF (410 genen) en niet-KRAB C2H2 (280 genen) de meest voorkomende zijn. Ze worden gevolgd door de klassen van Homebox Domain (229 genen) en basis Helix-Loop-Helix (bHLH, 107 genen) (aanvullend fig. S1, aanvullend materiaal online).

GRF-genen zijn oververtegenwoordigd in kandidaat-regio's voor positieve selectie

Om GRF's te identificeren die zich bevinden in genomische regio's die mogelijk onderhevig zijn aan positieve selectie, analyseerden we de genoombrede rangschikkingsscores voor vier verschillende methoden: de multiple-locus composite likelihood ratio (CLR) (Nielsen et al. 2009), cross-populatie CLR (XP -CLR) (Chen et al. 2010), cross-populatie uitgebreide haplotype homozygositeit (XP-EHH) (Sabeti et al. 2007), en FNS (Weir en Cockerham 1984), in drie menselijke populaties (CEU, CHB en YRI). Regio's die met deze methoden de hoogste scores behalen, vertonen variatiepatronen die consistent zijn met genetische differentiatie tussen populaties en vermeende positieve selectie. GRF's zijn verrijkt in de top 5% van de gerangschikte scores met de op vensters gebaseerde methoden CLR en XP-CLR voor de meeste populaties en paarsgewijze vergelijkingen (Fisher's exact test, Bonferroni gecorrigeerd P < 0,01) ( tabel 2). Met de XP-EHH-test vonden we ofwel uitputting ofwel geen verschil in gerangschikte scoreverdeling tussen GRF's en andere genen bij het vergelijken van CEU en CHB versus YRI. Het is mogelijk dat het lagere aantal haplotype-blokken dat kenmerkend is voor sub-Sahara-populaties (Gabriël et al. 2002 International HapMap Consortium et al. 2007) deze waargenomen uitputting kan hebben veroorzaakt. Belangrijk is dat er geen significant verschil was tussen de verdelingen van de recombinatiesnelheden tussen GRF- en niet-GRF-genen (Kolmogorov-Smirnov-test NS = 0.019 P = 0,18) en slechts een zeer kleine, zij het significante, correlatie tussen genlengte en de rangscore (Spearman rangcorrelatie, P < 2.2e-16, ρ = 0,009) op populatieniveau (aanvullende methoden .pdf, aanvullend materiaal online). Dit geeft aan dat verschillen in recombinatiesnelheden en genlengte onze bevindingen waarschijnlijk niet beïnvloedden.

Associatie tussen GRF- en niet-GRF-genen en het significantieniveau voor drie statistieken voor het identificeren van kandidaatregio's voor positieve selectie en het meten van genetische differentiatie (FNS).

Toets . Populaties. Fisher Exact-test (Bonferroni gecorrigeerd) P) . Odds-ratio. Functie .
CLR CEU 3.96E-15 1.207 verrijking
CHB 9.72E-02 1.066 Geen verschil
YRI 2.70E-07 1.132 verrijking
XP-CLR CEU versus CHB 3.96E-04 1.145 verrijking
CEU versus YRI 1.58E-14 1.278 verrijking
CHB versus CEU 3.42E-10 1.235 verrijking
CHB versus YRI 8.64E-08 1.203 verrijking
YRI versus CEU 4.50E-09 1.219 verrijking
YRI versus CHB 1 1.01 Geen verschil
XP-EHH CEU versus CHB 3.96E-15 1.367 verrijking
CEU versus YRI 3.96E-15 0.906 Uitputting
CHB versus CEU 1.73E-03 1.043 Geen verschil
CHB versus YRI 3.96E-15 0.896 Uitputting
YRI versus CEU 1 1.016 Geen verschil
YRI versus CHB 1 0.988 Geen verschil
FNSCEU versus CHB 1.04E-01 0.971 Geen verschil
YRI versus CEU 1.19E-01 1.023 Geen verschil
YRI versus CHB 1 1.013 Geen verschil
Toets . Populaties. Fisher Exact-test (Bonferroni gecorrigeerd) P) . Odds-ratio. Functie .
CLR CEU 3.96E-15 1.207 verrijking
CHB 9.72E-02 1.066 Geen verschil
YRI 2.70E-07 1.132 verrijking
XP-CLR CEU versus CHB 3.96E-04 1.145 verrijking
CEU versus YRI 1.58E-14 1.278 verrijking
CHB versus CEU 3.42E-10 1.235 verrijking
CHB versus YRI 8.64E-08 1.203 verrijking
YRI versus CEU 4.50E-09 1.219 verrijking
YRI versus CHB 1 1.01 Geen verschil
XP-EHH CEU versus CHB 3.96E-15 1.367 verrijking
CEU versus YRI 3.96E-15 0.906 Uitputting
CHB versus CEU 1.73E-03 1.043 Geen verschil
CHB versus YRI 3.96E-15 0.896 Uitputting
YRI versus CEU 1 1.016 Geen verschil
YRI versus CHB 1 0.988 Geen verschil
FNSCEU versus CHB 1.04E-01 0.971 Geen verschil
YRI versus CEU 1.19E-01 1.023 Geen verschil
YRI versus CHB 1 1.013 Geen verschil

Associatie tussen GRF- en niet-GRF-genen en het significantieniveau voor drie statistieken voor het identificeren van kandidaatregio's voor positieve selectie en het meten van genetische differentiatie (FNS).

Toets . Populaties. Fisher Exact-test (Bonferroni gecorrigeerd) P) . Odds-ratio. Functie .
CLR CEU 3.96E-15 1.207 verrijking
CHB 9.72E-02 1.066 Geen verschil
YRI 2.70E-07 1.132 verrijking
XP-CLR CEU versus CHB 3.96E-04 1.145 verrijking
CEU versus YRI 1.58E-14 1.278 verrijking
CHB versus CEU 3.42E-10 1.235 verrijking
CHB versus YRI 8.64E-08 1.203 verrijking
YRI versus CEU 4.50E-09 1.219 verrijking
YRI versus CHB 1 1.01 Geen verschil
XP-EHH CEU versus CHB 3.96E-15 1.367 verrijking
CEU versus YRI 3.96E-15 0.906 Uitputting
CHB versus CEU 1.73E-03 1.043 Geen verschil
CHB versus YRI 3.96E-15 0.896 Uitputting
YRI versus CEU 1 1.016 Geen verschil
YRI versus CHB 1 0.988 Geen verschil
FNSCEU versus CHB 1.04E-01 0.971 Geen verschil
YRI versus CEU 1.19E-01 1.023 Geen verschil
YRI versus CHB 1 1.013 Geen verschil
Toets . Populaties. Fisher Exact-test (Bonferroni gecorrigeerd) P) . Odds-ratio. Functie .
CLR CEU 3.96E-15 1.207 verrijking
CHB 9.72E-02 1.066 Geen verschil
YRI 2.70E-07 1.132 verrijking
XP-CLR CEU versus CHB 3.96E-04 1.145 verrijking
CEU versus YRI 1.58E-14 1.278 verrijking
CHB versus CEU 3.42E-10 1.235 verrijking
CHB versus YRI 8.64E-08 1.203 verrijking
YRI versus CEU 4.50E-09 1.219 verrijking
YRI versus CHB 1 1.01 Geen verschil
XP-EHH CEU versus CHB 3.96E-15 1.367 verrijking
CEU versus YRI 3.96E-15 0.906 Uitputting
CHB versus CEU 1.73E-03 1.043 Geen verschil
CHB versus YRI 3.96E-15 0.896 Uitputting
YRI versus CEU 1 1.016 Geen verschil
YRI versus CHB 1 0.988 Geen verschil
FNSCEU versus CHB 1.04E-01 0.971 Geen verschil
YRI versus CEU 1.19E-01 1.023 Geen verschil
YRI versus CHB 1 1.013 Geen verschil

Vervolgens selecteerden we als kandidaten voor positieve selectie, per populatie, GRF-genen die worden gevonden in de top 5% van de genoombrede rangscoreverdeling in alle drie de selectiedetectiemethoden (CLR, XP-CLR en XP-EHH) . Dit leverde 902 GRF-genen op voor CEU, 759 GRF-genen voor CHB en 1.697 GRF-genen voor YRI (aanvullende tabel S2, aanvullend materiaal online). Vervolgens hebben we de lijsten over populaties doorsneden en ontdekten dat 306 GRF-genen als kandidaten worden gevonden in alle drie de populaties (aanvullend fig. S2, aanvullend materiaal online). Hoewel YRI de meeste populatiespecifieke kandidaten heeft (892 GRF's, 53%), vertonen CEU en CHB een grotere overlap tussen paren vergelijkingen (respectievelijk tussen 74% en 76% van het totale aantal kandidaten).

Vervolgens evalueerden we of een van de 40 GRF-klassen was verrijkt bij de top 5% van de kandidaten met de hoogste rangscores. Hoewel de verrijkte klassen (Fisher's exact test, Bonferroni gecorrigeerd) P < 0,05) verschilde enigszins, afhankelijk van de methode en populatie (fig. 1 en aanvullende tabel S3, aanvullend materiaal online), bleken vijf van de tien grootste GRF-klassen herhaaldelijk oververtegenwoordigd te zijn: KRAB-ZNF's, niet-C2H2, Homeo-domein, High-mobility HMG en Forkhead box TF's (fig. 1).

—Verrijkingsanalyses voor genen van de tien grootste DNA-bindende GRF-klassen in regio's die hoge scores vertonen voor vier methoden voor het detecteren van kandidaatregio's voor positieve selectie en één voor het meten van genetische differentiatie. Deze heatmap toont de resultaten van de Fisher's exact-test na correctie voor meerdere tests door gebruik te maken van de Bonferroni-correctie voor respectievelijk elke populatie- of populatie-overschrijdende vergelijking.

—Verrijkingsanalyses voor genen van de tien grootste DNA-bindende GRF-klassen in regio's die hoge scores vertonen voor vier methoden voor het detecteren van kandidaatregio's voor positieve selectie en één voor het meten van genetische differentiatie. Deze heatmap toont de resultaten van de Fisher's exact-test na correctie voor meerdere tests door gebruik te maken van de Bonferroni-correctie voor respectievelijk elke populatie- of populatie-overschrijdende vergelijking.

In totaal bevatten deze vijf GRF-klassen 180 kandidaten voor positieve selectie. Honderdeenentwintig van deze genen behoren tot de TF-klasse C2H2 (68 niet-KRAB C2H2- en 53 KRAB-ZNF-kandidaten). Ze worden gevolgd door het Homeo-domein met 31, Fork head/winged helix met 19 en High-mobility-HMG-domein met negen kandidaten (aanvullende tabel S4, aanvullend materiaal online). Hoewel grotere klassen meer genen hadden die zich binnen de top 5% van de hoogste scores bevonden, zijn ze ook procentueel oververtegenwoordigd: niet-KRAB C2H2 (24%), KRAB-ZNF (13%), Homeo-domein (13%), Forkhead-box (28%) en HMG met hoge mobiliteit (21%). Van deze 180 GRF zijn slechts 21 genen (12%) ook vermeld in eerdere scans voor selectie ( Sabeti et al. 2007 Pickrell et al. 2009 Metspalu et al. 2011 Grossman et al, 2013 Huber et al. 2016), zes daarvan zijn niet-KRAB C2H2 (ZFAT, ZBTB41, ZNF827, IKZF2, ZNF438, en ZBTB20) en vier KRAB-ZNF (ZNF546, ZNF780A, ZNF780B, en ZNF492) genen (aanvullende tabel S5, aanvullend materiaal online). Als groep zijn deze vijf GRF-klassen van belang voor onder meer processen als embryogenese, ontwikkeling, chromatinemodificatie, DNA-replicatie en -herstel (tabel 3).

Belangrijkste biologische rollen van de vijf herhaaldelijk verrijkte GRF-klassen in de top 5% van vermeende regio's voor positieve selectie

Familie GRF. Voorbeelden van belangrijkste regelgevende rollen.
Vorkkop dozen Celgroei, proliferatie, differentiatie en levensduur embryonale ontwikkeling celmigratie orgaanontwikkeling, T-lymfocytproliferatie (Jonsson en Peng 2005 Tuteja en Kaestner 2007a, 2007b).
C2H2 Vaststelling van de chromosomale architectuur embryonale ontwikkeling, celdifferentiatie en proliferatie, regulatie van de celcyclus en apoptose (Fedotova et al. 2017).
KRAB-ZNF Werving van TRIM28/KAP-1 voor onderdrukking van genexpressie, epigenetische silencing vroege embryonale ontwikkeling onderdrukking van ERV's en transponeerbare elementen totstandbrenging van postzygote reproductieve isolatie (speciatie) (Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2017). De functie van de meeste is nog niet bekend.
Homeo-domein Specificatie van het lichaamsplan tijdens embryogenese, regulatie van axiale patronen, segment- of celidentiteit en proliferatievorming en bepaling van het lot van de cel bij de ontwikkeling van metazoa, cruciaal voor de normale ontwikkeling van temporospatiale ledematen en organen (Banerjee-Basu en Baxevanis 2001).
Hoge mobiliteit HMG Bind tijdelijk aan nucleosomen om de lokale chromatine-architectuur DNA-replicatie te modificeren en architecturale eiwitten van kern- en mitochondriale DNA-signaleringsregulatoren in het cytoplasma en als inflammatoire cytokines te repareren (Wang et al. 1999 Lim et al. 2004 Malarkey en Churchill 2012).
Familie GRF. Voorbeelden van belangrijkste regelgevende rollen.
Vorkkop dozen Celgroei, proliferatie, differentiatie en levensduur embryonale ontwikkeling celmigratie orgaanontwikkeling, T-lymfocytproliferatie (Jonsson en Peng 2005 Tuteja en Kaestner 2007a, 2007b).
C2H2 Vaststelling van de chromosomale architectuur embryonale ontwikkeling, celdifferentiatie en proliferatie, regulatie van de celcyclus en apoptose (Fedotova et al. 2017).
KRAB-ZNF Werving van TRIM28/KAP-1 voor onderdrukking van genexpressie, epigenetische silencing vroege embryonale ontwikkeling onderdrukking van ERV's en transponeerbare elementen totstandbrenging van postzygote reproductieve isolatie (speciatie) (Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2017). De functie van de meeste is nog niet bekend.
Homeo-domein Specificatie van het lichaamsplan tijdens embryogenese, regulatie van axiale patronen, segment- of celidentiteit en proliferatievorming en bepaling van het lot van de cel bij de ontwikkeling van metazoa, cruciaal voor de normale ontwikkeling van temporospatiale ledematen en organen (Banerjee-Basu en Baxevanis 2001).
Hoge mobiliteit HMG Bind tijdelijk aan nucleosomen om de lokale chromatine-architectuur DNA-replicatie te modificeren en architecturale eiwitten van kern- en mitochondriale DNA-signaleringsregulatoren in het cytoplasma en als inflammatoire cytokines te repareren (Wang et al. 1999 Lim et al. 2004 Malarkey en Churchill 2012).

Belangrijkste biologische rollen van de vijf herhaaldelijk verrijkte GRF-klassen in de top 5% van vermeende regio's voor positieve selectie

Familie GRF. Voorbeelden van belangrijkste regelgevende rollen.
Vorkkop dozen Celgroei, proliferatie, differentiatie en levensduur embryonale ontwikkeling celmigratie orgaanontwikkeling, T-lymfocytproliferatie (Jonsson en Peng 2005 Tuteja en Kaestner 2007a, 2007b).
C2H2 Vaststelling van de chromosomale architectuur embryonale ontwikkeling, celdifferentiatie en proliferatie, regulatie van de celcyclus en apoptose (Fedotova et al. 2017).
KRAB-ZNF Werving van TRIM28/KAP-1 voor onderdrukking van genexpressie, epigenetische silencing vroege embryonale ontwikkeling onderdrukking van ERV's en transponeerbare elementen totstandbrenging van postzygote reproductieve isolatie (speciatie) (Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2017). De functie van de meeste is nog niet bekend.
Homeo-domein Specificatie van het lichaamsplan tijdens embryogenese, regulatie van axiale patronen, segment- of celidentiteit en proliferatievorming en bepaling van het lot van de cel bij de ontwikkeling van metazoa, cruciaal voor de normale ontwikkeling van temporospatiale ledematen en organen (Banerjee-Basu en Baxevanis 2001).
Hoge mobiliteit HMG Bind tijdelijk aan nucleosomen om de lokale chromatine-architectuur DNA-replicatie te modificeren en architecturale eiwitten van kern- en mitochondriale DNA-signaleringsregulatoren in het cytoplasma en als inflammatoire cytokines te repareren (Wang et al. 1999 Lim et al. 2004 Malarkey en Churchill 2012).
Familie GRF. Voorbeelden van belangrijkste regelgevende rollen.
Vorkkop dozen Celgroei, proliferatie, differentiatie en levensduur embryonale ontwikkeling celmigratie orgaanontwikkeling, T-lymfocytproliferatie (Jonsson en Peng 2005 Tuteja en Kaestner 2007a, 2007b).
C2H2 Vaststelling van de chromosomale architectuur embryonale ontwikkeling, celdifferentiatie en proliferatie, regulatie van de celcyclus en apoptose (Fedotova et al. 2017).
KRAB-ZNF Werving van TRIM28/KAP-1 voor onderdrukking van genexpressie, epigenetische silencing vroege embryonale ontwikkeling onderdrukking van ERV's en transponeerbare elementen totstandbrenging van postzygote reproductieve isolatie (speciatie) (Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2017). De functie van de meeste is nog niet bekend.
Homeo-domein Specificatie van het lichaamsplan tijdens embryogenese, regulatie van axiale patronen, segment- of celidentiteit en proliferatievorming en bepaling van het lot van de cel bij de ontwikkeling van metazoa, cruciaal voor de normale ontwikkeling van temporospatiale ledematen en organen (Banerjee-Basu en Baxevanis 2001).
Hoge mobiliteit HMG Bind tijdelijk aan nucleosomen om de lokale chromatine-architectuur DNA-replicatie te modificeren en architecturale eiwitten van kern- en mitochondriale DNA-signaleringsregulatoren in het cytoplasma en als inflammatoire cytokines te repareren (Wang et al. 1999 Lim et al. 2004 Malarkey en Churchill 2012).

Hoge niet-synoniem genetische differentiatie binnen KRAB-ZNF-genclusters tussen populaties

Van alle DNA-bindende TF-klassen dragen KRAB-ZNF-genen het hoogste aantal zeer genetisch gedifferentieerde niet-synonieme SNP's die sequenties in eiwitdomeinen beïnvloeden (FNS > 0.15) (aanvullende methoden .pdf, aanvullend fig. S3 en aanvullende tabel S6, aanvullend materiaal online). Een hoofdkenmerk van de KRAB-ZNF-klasse is dat de meeste van zijn leden zich in genomische regio's (genclusters) bevinden die meer dan 150 kb overspannen (Huntley et al. 2006). We analyseerden dus alle belangrijke KRAB-ZNF-genclusters op vermeende adaptieve variatie, waarbij alleen polymorfe plaatsen in CEU-, CHB- en YRI-populaties met een kleine allelfrequentie >0.001 werden beschouwd. Vervolgens hebben we handmatig onderzocht waar in de eiwitten vermoedelijk geselecteerde niet-synonieme veranderingen zich bevinden om mogelijke functionele effecten af ​​te leiden.

Veranderingen in de cysteïne- en histidineresiduen die betrokken zijn bij het vormen van de vingerachtige structuur voor DNA-binding van C2H2- en KRAB-ZNF-eiwitten, in de posities −1, 2, 3 en 6 die direct interageren met specifieke nucleotiden, of in de linkers die de ruimte tussen de vingers, zal naar verwachting de DNA-bindingsspecificiteit van ZNF-eiwitten veranderen (Ryan en Darby 1998 Laity et al. 2000 Wolfe et al. 2000). We vonden 42 niet-synonieme SNP's met hoge tot zeer hoge genetische differentiatie (FNS > 0,15 < 0,95) binnen 11 KRAB-ZNF-clusters in chromosomen 1, 3, 9, 12, 16, 18 en 19. Tweeëndertig van deze 42 SNP's bevinden zich in C2H2-genen (16 KRAB-ZNF en één niet-KRAB- ZNF-genen) (aanvullende tabel S7, aanvullend materiaal online). Binnen deze set van 42 niet-synonieme SNP's veranderen 11 SNP's aminozuurresiduen van ZNF's voor acht KRAB-ZNF-genen (ZNF695, ZKSCAN7, ZNF502, ZNF571, ZNF132, ZNF10, ZNF90, en ZNF568), terwijl zeven andere SNP's de aminozuren van de linkers tussen ZNF's voor vier KRAB-ZNF's beïnvloeden (ZNF668, ZNF646, ZNF844, en ZNF492), en vijf SNP's veranderen de KRAB-domeinen van drie eiwitten (ZNF695, ZKSCAN7, en ZNF48) (aanvullende tabel S7, aanvullend materiaal online). Een sterk gedifferentieerde niet-synonieme SNP wijzigt de aminozuurrest van een van de twee zinkcoördinerende cysteïnen. Omdat deze twee cysteïnen (C2) samen met twee histidinen (H2) tetraëdrisch een zinkion coördineren, wat essentieel is voor het handhaven van de stabiliteit en bolvormige structuur van de ZNF's (Eun 1996 Wolfe et al. 2000), verstoort deze modificatie zeer waarschijnlijk het DNA -bindend vermogen van het zevende ZNF-motief van ZNF492. We identificeerden bovendien zeven SNP's die de aminozuursequentie van zeven C2H2-eiwitten beïnvloeden buiten de bovengenoemde functionele domeinen (ZNF695, ZNF445, ZNF35, ZNF501, ZNF768, ZNF510, en ZNF568). Naast niet-synonieme SNP's die van invloed zijn op KRAB-ZNF-genen, komen negen andere sterk gedifferentieerde niet-synonieme SNP's voor in zeven andere genen die zich binnen de KRAB-ZNF-clusters bevinden, waarvan één, KAT8, is een GRF (aanvullende tabel S7, aanvullend materiaal online).

Samengevat dragen sommige niet-KRAB C2H2- en KRAB-ZNF-genen meer dan één sterk gedifferentieerde niet-synonieme SNP die de sequentie van de eiwitten wijzigt. Op basis van de locaties van deze niet-synonieme SNP's, suggereren we dat ze de interactie van deze ZNF-eiwitten met DNA (veranderingen in de vingers), RNA of met KAP1, een cofactor die interageert met het KRAB-domein en de repressoractiviteit van KRAB- bevordert, beïnvloeden. ZNF-eiwitten.

KRAB-ZNF-genclusters bevatten meerdere loci als kandidaat-selectiedoelen in CEU en CHB

Positieve selectie verandert de allelfrequenties van SNP's in de buurt van het geselecteerde allel, waardoor een meetbaar vertekend patroon van genetische variatie ontstaat. Onze resultaten suggereren dat ten minste 32 van de 85 KRAB-ZNF-genclusters van het menselijk genoom genen dragen met variatiepatronen die consistent zijn met positieve selectie in ten minste een van de drie hier bestudeerde populaties (aanvullende tabel S8, aanvullend materiaal online). Om te beoordelen of de variatiepatronen die we vonden lijken op scenario's van selectieve sweeps, en om te evalueren of de waargenomen scores berekend op basis van de empirische gegevens ongewoon hoog zijn in vergelijking met de verwachtingen onder neutraliteit, hebben we coalescentiesimulaties uitgevoerd met behulp van een nauwkeurig afgestelde (best-fit ) model voor menselijke demografie gegenereerd voor deze drie menselijke populaties (Schaffner et al. 2005) en aanpassen volgens Pybus et al. (2015) (zie Methoden).

Onze resultaten suggereren dat 15 van de 32 hierboven genoemde KRAB-ZNF-clusters ten minste 27 regio's herbergen met variatiepatronen waarvan het onwaarschijnlijk is dat ze onder neutraliteit worden verwacht (P < 0,01) ( tabel 4). Negentien van deze regio's vertonen rangscores die tot de top 1% van de gehele genomische distributie behoren. Met behulp van de H12-test ( Garud et al. 2015) (aanvullende methoden .pdf, aanvullend materiaal online), ontdekten we ook dat 24 van deze 27 regio's een of meer hoogfrequente haplotypes met EHH vertonen (van 50 kb tot 385 kb). De patronen van genetische variatie in deze 27 regio's kunnen het gevolg zijn van positieve selectie (figuur 2, aanvullende figuren S4-S6, aanvullend materiaal online, tabel 4 en aanvullende tabel S9, aanvullend materiaal online).

KRAB-ZNF-clusters die één tot meerdere regio's vertonen die kandidaat zijn voor positieve selectie in drie menselijke populaties (CEU, CHB en YRI)

chromosoom. Begin . Einde . Lengte Haplotype. Bevolking. GRF-genen. Niet-GRF-genen. P .
chr19 9746367 9886927 0.14 CEU ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 CEU ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 CEU CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 CEU ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 CEU ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 CEU NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 CEU ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 CEU ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 CEU ZNF492, ZNF723+NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723+NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 CEU ZNF728 0.001
chr19 23566484 23647327 0.08 CEU ZNF91LINC012240.014
chr19 24159713 24258543 0.1 CEU ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 en 17 PiRNA's0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 CEU ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 CEU ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 CEU ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 CEU ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 CEU ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 CEU ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA (DQ581281)0.001
chr6 28342884 28426378 0.08 CEU ZSCAN12, ZSCAN23 0.003
chr12 1.33E+08 1.34E+08 0.3 CHB ZNF891+N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2.47E+08 2.47E+08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762 SNORA30, STX1B, STX4, VKORC10.001
chromosoom. Begin . Einde . Lengte Haplotype. Bevolking. GRF-genen. Niet-GRF-genen. P .
chr19 9746367 9886927 0.14 CEU ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 CEU ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 CEU CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 CEU ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 CEU ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 CEU NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 CEU ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 CEU ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 CEU ZNF492, ZNF723+NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723+NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 CEU ZNF728 0.001
chr19 23566484 23647327 0.08 CEU ZNF91LINC012240.014
chr19 24159713 24258543 0.1 CEU ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 en 17 PiRNA's0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 CEU ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 CEU ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 CEU ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 CEU ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 CEU ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 CEU ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA (DQ581281)0.001
chr6 28342884 28426378 0.08 CEU ZSCAN12, ZSCAN23 0.003
chr12 1.33E+08 1.34E+08 0.3 CHB ZNF891+N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2.47E+08 2.47E+08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762 SNORA30, STX1B, STX4, VKORC10.001

Opmerking: op basis van de resultaten van onze gesimuleerde gegevens wordt aangenomen dat het onwaarschijnlijk is dat de variatiepatronen onder neutraliteit worden verwacht. Regio's gevonden in twee populaties werden apart gehouden. De significantie werd beoordeeld door een nulmodel te simuleren met behulp van coalescentie (zie Materialen en methoden). Een uitgebreide versie van deze tabel is te vinden in aanvullende tabel S9, Aanvullend materiaal online.

KRAB-ZNF-clusters die één tot meerdere regio's vertonen die kandidaat zijn voor positieve selectie in drie menselijke populaties (CEU, CHB en YRI)

chromosoom. Begin . Einde . Lengte Haplotype. Bevolking. GRF-genen. Niet-GRF-genen. P .
chr19 9746367 9886927 0.14 CEU ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 CEU ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 CEU CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 CEU ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 CEU ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 CEU NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 CEU ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 CEU ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 CEU ZNF492, ZNF723+NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723+NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 CEU ZNF728 0.001
chr19 23566484 23647327 0.08 CEU ZNF91LINC012240.014
chr19 24159713 24258543 0.1 CEU ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 en 17 PiRNA's0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 CEU ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 CEU ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 CEU ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 CEU ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 CEU ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 CEU ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA (DQ581281)0.001
chr6 28342884 28426378 0.08 CEU ZSCAN12, ZSCAN23 0.003
chr12 1.33E+08 1.34E+08 0.3 CHB ZNF891+N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2.47E+08 2.47E+08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762 SNORA30, STX1B, STX4, VKORC10.001
chromosoom. Begin . Einde . Lengte Haplotype. Bevolking. GRF-genen. Niet-GRF-genen. P .
chr19 9746367 9886927 0.14 CEU ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 CEU ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 CEU CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 CEU ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 CEU ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 CEU NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 CEU ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 CEU ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 CEU ZNF492, ZNF723+NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723+NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 CEU ZNF728 0.001
chr19 23566484 23647327 0.08 CEU ZNF91LINC012240.014
chr19 24159713 24258543 0.1 CEU ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 en 17 PiRNA's0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 CEU ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 CEU ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 CEU ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 CEU ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 CEU ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 CEU ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA (DQ581281)0.001
chr6 28342884 28426378 0.08 CEU ZSCAN12, ZSCAN23 0.003
chr12 1.33E+08 1.34E+08 0.3 CHB ZNF891+N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2.47E+08 2.47E+08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762 SNORA30, STX1B, STX4, VKORC10.001

Opmerking: op basis van de resultaten van onze gesimuleerde gegevens wordt aangenomen dat het onwaarschijnlijk is dat de variatiepatronen onder neutraliteit worden verwacht. Regio's gevonden in twee populaties werden apart gehouden. De significantie werd beoordeeld door een nulmodel te simuleren met behulp van coalescentie (zie Materialen en methoden). Een uitgebreide versie van deze tabel is te vinden in aanvullende tabel S9, Aanvullend materiaal online.

-KRAB-ZNF-gencluster op chromosoom 6 van vier Europese populaties (6: 28.04–28.42) met een zeer hoge genetische differentiatie (een), hoge CLR (B) en XP-CLR (C) scores, lange EHH (e, F) en meerdere hoogfrequente haplotypes. Merk op dat de schaal op de ja as verschilt tussen percelen. Alle waarden komen overeen met de ruwe scores die voor elke methode zijn verkregen. In de FNS spoor (een), SNP's over de ononderbroken lijnen die matige (FNS > 0.15, blauwe lijn) en hoog (FNS > 0.25, rode lijn) genetische differentiatie. Grotere stippen geven twee sterk gedifferentieerde SNP's aan, rs1635 (CEU vs. CHB, rood) en rs1997660 (CEU vs. YRI, groen). H12-baanstatistieken (e) toont de H-scores voor: homozygotie van het meest voorkomende haplotype (H1), homozygotie berekend met gebruik van alle, behalve het meest voorkomende haplotype (H2), de verhouding tussen H2/H1 en de combinatie van de meest en op één na meest voorkomende haplotypes ( H12). In H12-baan (F) voor vier populaties met Europese, één met Aziatische en één met Afrikaanse achtergrond. De H12-drempel hebben we genoombreed gedefinieerd (ononderbroken rode lijn, 0,1). De gestippelde verticale lijn geeft de uitbreiding aan van een positief geselecteerd gebied binnen dit KRAB-ZNF-cluster.

-KRAB-ZNF-gencluster op chromosoom 6 van vier Europese populaties (6: 28.04–28.42) met een zeer hoge genetische differentiatie (een), hoge CLR (B) en XP-CLR (C) scores, lange EHH (e, F) en meerdere hoogfrequente haplotypes. Merk op dat de schaal op de ja as verschilt tussen percelen. Alle waarden komen overeen met de ruwe scores die voor elke methode zijn verkregen. In de FNS spoor (een), SNP's over de ononderbroken lijnen die matige (FNS > 0.15, blauwe lijn) en hoog (FNS > 0.25, rode lijn) genetische differentiatie. Grotere stippen geven twee sterk gedifferentieerde SNP's aan, rs1635 (CEU vs. CHB, rood) en rs1997660 (CEU vs. YRI, groen). H12-baanstatistieken (e) toont de H-scores voor: homozygotie van het meest voorkomende haplotype (H1), homozygotie berekend met gebruik van alle, behalve het meest voorkomende haplotype (H2), de verhouding tussen H2/H1 en de combinatie van de meest en op één na meest voorkomende haplotypes ( H12). In H12-baan (F) voor vier populaties met Europese, één met Aziatische en één met Afrikaanse achtergrond. De H12-drempel hebben we genoombreed gedefinieerd (ononderbroken rode lijn, 0,1). De gestippelde verticale lijn geeft de uitbreiding aan van een positief geselecteerd gebied binnen dit KRAB-ZNF-cluster.

Met behulp van een samengestelde uitgebreide catalogus van genen en varianten die verband houden met menselijke ziekten en de gen-ziekte-associaties uit de MEDLINE-database, beide beschikbaar in DisGeNET (Piñero et al. 2017), identificeerden we dat van de 27 regio's met een of meer haplotypes op hoge frequentie, 17 dragen GRF-genen die in verband zijn gebracht met medische aandoeningen zoals spierzwakte, obesitas, hyperparathyreoïdie, degeneratieve polyartritis, hartaandoeningen, azoöspermie, cognitieve handicaps en meerdere soorten kankers, onder andere (aanvullende tabel S9, aanvullend materiaal online ). Erkennend dat de biologische, moleculaire en functionele karakterisering, afgezien van hun vermeende genregulerende functie, van de meeste GRF's en vooral van KRAB-ZNF-eiwitten, nog steeds beginnend is, presenteren en bespreken we hier drie regio's waarvoor functies en medische relevantie zijn beschreven tijdens de laatste twee decennia. We bespreken verder hun vermeende regulerende rollen in de evolutie en aanpassing van mensspecifieke eigenschappen. Uitgebreide informatie voor andere regio's is te vinden in de aanvullende tabel S10, Aanvullend materiaal online, en in de aanvullende figuren. S4-S6, aanvullend materiaal online.

Selectief onderzoek naar een KRAB-ZNF-genencluster in CEU wordt geassocieerd met schizofrenie bij CHB

Een KRAB-ZNF-cluster op chromosoom 6 (28.04–28.42) vertoont meerdere regio's met hoge CLR-, XP-CLR- en XP-EHH-scores in CEU. Het bevat ook varianten die wijzen op een zeer hoge genetische differentiatie (FNS) tussen CEU vergeleken met CHB en YRI (fig. 2). Bovendien vertonen meer dan 100 SNP's zeer hoge FNS (>0.15 < 0.52) bij het vergelijken van CEU met de andere twee populaties (fig. 2, FNS spoor). We ontdekten ook dat het niveau van genetische differentiatie in deze regio ongewoon hoog was in vergelijking met regio's die evolueren onder neutraliteitsscenario's (gesimuleerde gegevens, P < 0,001, aanvullende afb. S7, Aanvullend materiaal online). Genetische variatie binnen dit KRAB-ZNF-gencluster is in verband gebracht met ten minste drie medische aandoeningen bij mensen: hemochromatose (ijzerstapeling, de meest voorkomende genetische aandoening bij Europeanen), CD4:CD8-lymfocytverhoudingen, lage productie van CD8+-effectorgeheugen (TEM) en dubbel negatief (TDN) T-cellen en schizofrenie.

Dit KRAB-ZNF-cluster is samengesteld uit ten minste 16 genomische elementen: 11 GRF-genen (ZSCAN16, ZNF187, ZNF192, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, en NKAPL), drie pseudogenen (ZSCAN12P1, ZNF192P1, en TOB2P1), één tRNA-Ser en één piRNA-DQ581281. Van de 100 sterk gedifferentieerde SNP's komen er slechts drie overeen met niet-synonieme SNP's in coderende regio's van twee genen, namelijk in het eerste exon van NKAPL (rs12000 en rs1635) en in de zevende exon van PGBD1 (rs1997660) ( afb. 2, FNS track, aanvullende tabel S10, aanvullend materiaal online). Interessant is dat het rs1635-genotype bijna gefixeerd is in CEU, waarbij ongeveer 95% van de individuen de variant dragen C|C. Daarentegen wordt dit genotype slechts bij ongeveer 50% van de individuen van CHB en YRI gevonden. In deze populaties is de heterozygote toestand A|C komt vaak voor met respectievelijk 40% en 45% (fig. 3). Allelische varianten in rs1635 en rs12000 zijn in verband gebracht met schizofrenie bij Han-Chinezen (Chen et al. 2014 Wang et al. 2015). In tegenstelling tot rs1635, het genotype G|G voor SNP rs1997660 (PGBD1 gen) wordt gevonden in bijna alle individuen van YRI (95%), terwijl het een lagere frequentie heeft in CHB (36%) en een zeer lage frequentie in CEU (0,8%) (fig. 3). Gezien de duidelijke verschillen in genotypefrequenties voor rs1635 en rs1997660 tussen populaties, suggereren we dat deze twee SNP's betrokken zijn bij lokale aanpassing.

-Drie missense varianten gelokaliseerd in twee genen binnen een KRAB-ZNF-gencluster die mogelijk positieve selectie heeft ondergaan in Europese populaties. Linksboven en midden, allele frequenties van twee niet-synonieme SNP's die zich in bevinden NKAPL gen. Rechtsboven, allele frequenties van een niet-synoniem SNP in PGDB1 gen. Bodem, genotypische frequenties voor CEU, CHB en YRI.

—Drie missense-varianten gelokaliseerd in twee genen binnen een KRAB-ZNF-gencluster die mogelijk een positieve selectie heeft ondergaan in Europese populaties. Linksboven en midden, allele frequenties van twee niet-synonieme SNP's die zich in bevinden NKAPL gen. Rechtsboven, allele frequenties van een niet-synoniem SNP in PGDB1 gen. Bodem, genotypische frequenties voor CEU, CHB en YRI.

Verder onderzoek suggereert dat genen binnen dit KRAB-ZNF-cluster mogelijk recentelijk een selectieve sweep hebben ondergaan in CEU en in vier andere Europese populaties: Fins in Finland, Toscani in Italië en Britten in Engeland en Schotland (fig. 2, H12-spoor). Door H12-statistieken te gebruiken, konden we detecteren dat dit KRAB-ZNF-cluster twee regio's bevat met één overheersend haplotype met een lange EHH op ongeveer vijf kb van elkaar die samen ongeveer 400 kb in CEU beslaan (fig. 2 en aanvullend fig. S3 H en l, aanvullende tabel S10 , aanvullend materiaal online). De lengte van de EHH voor deze Europese populaties varieert van 300 kb in het Italiaans tot 490 kb in het Fins (aanvullend fig. S8, aanvullend materiaal online), wat suggereert dat het zeer waarschijnlijk is dat de omvang, sterkte en tijd van deze selectieve gebeurtenis per land verschilt. Europese bevolkingsgroepen.

Positieve selectie op een mensspecifieke KRAB-ZNF-cluster die betrokken is bij oogontwikkeling

Twee dicht bij elkaar gelegen regio's op chromosoom 19, 7 kb van elkaar verwijderd, die samen ongeveer 340 kb omvatten (chr19: 22.7–23.04), dragen een zeer hoge genetische differentiatie (FNS) en lange EHH in CEU- en CHB-populaties. In vergelijking met de YRI-populatie vertoonden deze regio's ook hoge CLR- en XP-EHH-scores, wat een selectieve sweep suggereert (aanvullend fig. S9, aanvullend materiaal online). Door de verhouding van de H2/H1-statistieken te analyseren, die de neiging heeft toe te nemen naarmate de sweep zachter wordt (Garud et al. 2015), suggereren we dat CEU mogelijk een hardere sweep heeft gehad dan de CHB-populatie (aanvullend fig. S4 EEN, NS en e en aanvullende afb. S9, Aanvullend materiaal online). Het is inderdaad mogelijk om twee goed gedefinieerde haplotypes waar te nemen die een hoge frequentie hebben voor CHB (aanvullend fig. S4 B, e en F, Aanvullend materiaal online). Eén gen binnen deze regio, het mensspecifieke gen ZNF492 (Nowick et al. 2010), werd onlangs gerapporteerd als een positief geselecteerd gen bij negen personen met een Europese achtergrond (Huber et al. 2016).

ZNF492 reguleert de expressie van het retinale pigmentepitheel (RPE) specifieke eiwit (RPE65) (Lu et al. 2006). We ontdekten dat beide genen, ZNF492 en RPE65, vertonen een hogere gemiddelde expressie in het menselijke netvlies in vergelijking met de meeste andere weefsels. ZNF492 komt sterker tot expressie in de RPE tijdens de ontwikkeling dan tijdens de volwassenheid (aanvullend fig. S10, aanvullend materiaal online), wat suggereert dat het een belangrijke rol zou kunnen spelen tijdens de ontwikkeling van RPE. Drie niet-synonieme SNP's zijn te vinden binnen ZNF492. Twee missense SNP's (rs138844698 en rs141989264) hebben betrekking op aminozuurveranderingen die volledig geconserveerd zijn in CEU en CHB (100%), maar niet in YRI (66%). Deze twee varianten veranderen de aminozuurconfiguratie van de linker tussen de eerste en tweede ZNF's van ZNF492, waarvan wordt verwacht dat het de dopconfiguratie van het C-uiteinde (C-cap) van de eerste vinger verandert, de DNA-bindende affiniteit aanpast (Laity et al. 2000 Wolfe et al. 2000), en mogelijk de regulerende eigenschappen ervan beïnvloedt. De derde SNP (rs144581197) verandert een sterk geconserveerd cysteïneresidu (TGT) met een essentiële rol bij de juiste vouwing van de zevende ZNF van ZNF492 in een tyrosine (TAT) (aanvullend fig. S11, aanvullend materiaal online). Hoewel de EEN allel voor rs144581197 komt relatief vaak voor in YRI (∼56%) en andere Afrikaanse populaties (tussen 39% en 57%, van de Afrikaanse populaties van het 1000 genomes-project), het wordt gevonden in <1% van de individuen van CEU en CHB (aanvullend fig. S11 , Aanvullend materiaal online). De EEN allel is ook aanwezig bij individuen uit populaties in regio's met een matige tot hoge UV-index van de zon (WHO 2002): Puerto Ricanen, 8% Colombianen, 7% Iberische Spanjaarden, 4% Peruanen, 3,5% Mexicanen, 2% Toscanen, 2%, wat intrigerend is voor een gen dat tot expressie wordt gebracht in de RPE en andere oogweefsels.

Dit KRAB-ZNF-gebied was het resultaat van meerdere intrachromosomale segmentale duplicaties (Baley et al. 2002) die de oorsprong gaven van ZNF492. Hoewel de sequentieovereenkomst van de hele regio ongeveer 98-99% is tussen moderne en archaïsche mensen (respectievelijk Denisovan en Neandertal), is het slechts ongeveer 89% tussen mens en chimpansee. Daarom is het waarschijnlijk dat de duplicatiegebeurtenissen en de herschikkingen van deze regio plaatsvonden tijdens de evolutie van de homosoort. We hebben bovendien de drie niet-synonieme SNP's van ZNF492 in Denisovan en Neanderthaler. We concluderen dat individuen van archaïsche mensen de varianten dragen die zijn vastgelegd in CEU, CHB. Dit suggereert dat de alternatieve varianten die we voor deze SNP's hebben waargenomen, met name rs144581197, mogelijk het gevolg zijn van de novo-mutaties in YRI en andere Afrikaanse populaties.

Recent onvolledig selectief onderzoek naar een KRAB-ZNF-gencluster op chromosoom 3 kan bijdragen aan de mannelijke vruchtbaarheid

Eén KRAB-ZNF-cluster op chromosoom 3 (44,55–44,74) vertoont lange EHH, hoge scores voor CLR en XP-CLR en hoge genetische differentiatie tussen CHB en de andere twee populaties (fig. 4). De EHH beslaat ongeveer 272 kb in een regio die drie KRAB-ZNF-genen bevat (ZNF167, ZNF197, en ZNF445) en drie C2H2 (ZNF35, ZNF660, en ZNF852). De hiërarchische boostgegevens voor het classificeren van harde sweeps in menselijke populaties (Pybus et al. 2015) gaven aan dat dit KRAB-ZNF-cluster mogelijk een onvolledige en recente selectieve sweep in CHB heeft gehad (fig. 4).

-KRAB-ZNF-gencluster met harde sweep op chromosoom 3 van CHB-populatie (3: 44.55-44.74). Drie methoden voor het detecteren van positieve selectie en FNS voor het meten van genetische differentiatie leverde deze regio zeer hoge scores op (eenNS) in vergelijking met andere regio's genoombreed. Merk op dat de schaal op de ja as verschilt tussen percelen. Alle waarden komen overeen met de ruwe scores die voor elke methode zijn verkregen. FNS (B) en XP-EHH (NS) resultaten wijzen op een zeer hoge genetische differentiatie en een haplotype met EHH dat ongeveer 188 kb omspant (verticale stippellijnen). Dit KRAB-ZNF-cluster bevat acht ZNF-genen. De regio's die stroomopwaarts en stroomafwaarts van dit haplotype van 188 kb flankeren, vertonen ook EHH, wat suggereert dat ze overeenkomen met dezelfde selectieve zwaai (ongeveer 272 kb). Vier sterk gedifferentieerde niet-synonieme SNP's (groen: CHB vs. YRI rood: CEU vs. YRI) in regio's die coderen voor eiwitdomeinen van ZKSCAN7, ZNF35, ZNF501, en ZNF502 functioneel relevant kan zijn. Hiërarchische boostresultaten (e) suggereren dat dit overeenkomt met een onvolledige recente selectieve sweep. Vaste en gestippelde horizontale lijnen geven drempels aan voor: FNS (blauw: FNS > 0,15, rood: FNS >0.25) en het verhogen van significantiedrempels zoals gedefinieerd door Pybus et al (2015) (rood: compleet, oranje: onvolledig, blauw: recent en paars: oud), respectievelijk.

-KRAB-ZNF-gencluster met harde sweep op chromosoom 3 van CHB-populatie (3: 44.55-44.74). Drie methoden voor het detecteren van positieve selectie en FNS voor het meten van genetische differentiatie leverde deze regio zeer hoge scores op (eenNS) in vergelijking met andere regio's genoombreed. Merk op dat de schaal op de ja as verschilt tussen percelen. Alle waarden komen overeen met de ruwe scores die voor elke methode zijn verkregen. FNS (B) en XP-EHH (NS) resultaten wijzen op een zeer hoge genetische differentiatie en een haplotype met EHH dat ongeveer 188 kb omspant (verticale stippellijnen). Dit KRAB-ZNF-cluster bevat acht ZNF-genen. De regio's die stroomopwaarts en stroomafwaarts van dit haplotype van 188 kb flankeren, vertonen ook EHH, wat suggereert dat ze overeenkomen met dezelfde selectieve zwaai (ongeveer 272 kb). Vier sterk gedifferentieerde niet-synonieme SNP's (groen: CHB vs. YRI rood: CEU vs. YRI) in regio's die coderen voor eiwitdomeinen van ZKSCAN7, ZNF35, ZNF501, en ZNF502 functioneel relevant kan zijn. Hiërarchische boostresultaten (e) suggereren dat dit overeenkomt met een onvolledige recente selectieve sweep. Vaste en gestippelde horizontale lijnen geven drempels aan voor: FNS (blauw: FNS > 0,15, rood: FNS >0.25) en het verhogen van significantiedrempels zoals gedefinieerd door Pybus et al (2015) (rood: compleet, oranje: onvolledig, blauw: recent en paars: oud), respectievelijk.

Verder onderzoek onthulde zes niet-synonieme SNP's met een hoge genetische differentiatie tussen populaties. De SNP rs2272044, gelokaliseerd in het tweede exon van het gen ZNF35, vertonen een grote genetische differentiatie (FNS > 0,56 < 0,8) ( afb. 4). Hoewel ongeveer 98% van de individuen van CHB het allel G dragen, is dit alleen aanwezig in 30% van de individuen van CEU en afwezig in YRI (100%). Ondanks het begrip van functionele rollen van ZNF35 gen bij mensen nog steeds schaars is, suggereert de sterk geconserveerde homoloog ervan bij muizen dat het een belangrijke rol zou kunnen spelen bij de mannelijke vruchtbaarheid (Przyborski et al. 1998) door de mechanismen te reguleren die betrokken zijn bij de afgifte van gedifferentieerde spermatogene cellen in het centrale lumen van de tubulus seminiferi in testis van volwassenen (Zhou et al. 2010). het verwijderen van ZNF35 veroorzaakt de voortijdige afgifte van ongedifferentieerde pachytene spermatocyten in het lumen bij subfertiele individuen (Zhou et al. 2010). Zeker, ZNF35 komt sterk tot expressie in pachytene spermatocyten en ronde spermatiden ( Przyborski et al. 1998 Zhou et al. 2010), evenals in testis ( GTEx Consortium et al. 2017), en het eiwit ervan is gevonden in spermatogene cellen ( Zhou et al. 2010).

Twee andere niet-synonieme SNP's die zich in het gen bevinden ZKSCAN7 (rs13081859, rs9835485) suggereren ook een zeer hoge genetische differentiatie (FNS >. 0.23) FNS (fig. 4 en aanvullende tabel S7, aanvullend materiaal online). Deze twee SNP's beïnvloeden de aminozuursequentie van het KRAB-domein en het eerste aminozuur tussen de twee histidines van het eerste ZNF van ZKSCAN7, respectievelijk. Beide varianten kunnen een functionele implicatie hebben in de interacties van ZKSCAN7 met de coregulator KAP1 (TRIM28) en de DNA-bindingsplaatsen.


Aantal transcriptiefactorgenen in het menselijk genoom - Biologie

Single-molecule footprinting (SMF) lost de heterogeniteit van transcriptiefactor (TF)-bezetting in een cellulaire populatie op.

Het detecteren van meerdere TF's op individuele DNA-moleculen kan co-bezetting kwantificeren en afhankelijkheden afleiden.

SMF maakt het mogelijk om te onderzoeken hoe grote verzamelingen genetische varianten TF-binding en transcriptie-activering beïnvloeden.

Toekomstige ontwikkeling van methoden met één molecuul zal integratieve studies mogelijk maken van de meerdere processen die worden gecontroleerd door TF's.

Ongeveer 7% van het menselijk genoom codeert cis-regulerende elementen (CRE's) die functioneren als regulerende schakelaars om de expressie van genen te moduleren. Deze korte genetische sequenties regelen de complexe transcriptionele veranderingen die nodig zijn voor de ontwikkeling van het organisme. Een actuele uitdaging in het veld is om te begrijpen hoe transcriptiefactoren (TF's) deze informatie lezen en vertalen in genexpressiepatronen. Hier bespreek ik hoe de ontwikkeling van single-molecule footprinting (SMF) die de genoombezetting van TF's op de resolutie van individuele DNA-moleculen oplost, bijdraagt ​​​​aan ons vermogen om vast te stellen hoe de regulerende genetische informatie op mechanistisch niveau wordt geïnterpreteerd. Ik bespreek verder hoe toekomstige ontwikkelingen in het ontluikende veld van single-molecule genomics (SMG) ons begrip van genregulatiemechanismen kunnen beïnvloeden.


Genetische schakelaars spelen een grote rol in de menselijke evolutie


Een onderzoek van Cornell biedt verder bewijs dat de afwijking van mensen van chimpansees zo'n 4 miljoen tot 6 miljoen jaar geleden diepgaand werd beïnvloed door mutaties in DNA-sequenties die een rol spelen bij het aan- en uitzetten van genen.

De studie, gepubliceerd op 9 juni in Nature Genetics, levert bewijs voor een 40 jaar oude hypothese dat regulatie van genen een belangrijke rol moet spelen in de evolutie, aangezien er weinig verschil is tussen mensen en chimpansees in de eiwitten die door genen worden geproduceerd. Menselijke en chimpansee-eiwitten zijn inderdaad voor meer dan 99 procent identiek.

De onderzoekers toonden aan dat het aantal evolutionaire aanpassingen aan het deel van de machinerie dat genen reguleert, transcriptiefactorbindingsplaatsen genoemd, ongeveer gelijk kan zijn aan aanpassingen aan de genen zelf.

"Dit is de meest uitgebreide en meest directe analyse tot nu toe van de evolutie van genregulerende sequenties bij mensen", zegt senior auteur Adam Siepel, Cornell universitair hoofddocent biologische statistiek en computationele biologie.

"Het heeft 40 jaar geduurd om een ​​duidelijk beeld te krijgen van wat er in deze reeksen gebeurt, omdat we de gegevens pas zeer recentelijk hebben gehad", zegt Leonardo Arbiza, een postdoctoraal onderzoeker in het laboratorium van Siepel en de hoofdauteur van het artikel.

Minder dan 2 procent van het menselijk genoom - de complete set van genetisch materiaal - bevat genen die coderen voor eiwitten. In cellen spelen deze eiwitten een belangrijke rol bij biologische routes die de gezondheid, het uiterlijk en het gedrag van een organisme beïnvloeden.

Er is veel minder bekend over de resterende 98 procent van het genoom, maar in de jaren zestig erkenden wetenschappers dat een deel van het niet-eiwitcoderende DNA regelt wanneer en waar genen worden in- en uitgeschakeld en hoeveel eiwitten ze produceren. De regulerende machinerie werkt wanneer eiwitten die transcriptiefactoren worden genoemd, binden aan specifieke korte DNA-sequenties die het gen flankeren, transcriptiefactorbindingsplaatsen genaamd, en door dit te doen, worden genen in- en uitgeschakeld.

Onder de bevindingen meldt de studie dat in vergelijking met eiwitcoderende genen, bindingsplaats-DNA bijna drie keer zoveel "zwak schadelijke mutaties" vertoont, dat wil zeggen mutaties die een persoon kunnen verzwakken of vatbaarder maken voor ziekten, maar die over het algemeen niet ernstig. Zwak schadelijke mutaties bestaan ​​in lage frequenties in een populatie en worden uiteindelijk na verloop van tijd uitgeroeid. Deze mutaties zijn verantwoordelijk voor veel erfelijke menselijke ziekten.

Terwijl genen over het algemeen de neiging hebben om verandering te weerstaan, leidt een mutatie af en toe tot een gunstige eigenschap en neemt toe in een populatie, dit wordt positieve selectie genoemd. Daarentegen "vertonen transcriptiefactorbindingsplaatsen aanzienlijke hoeveelheden positieve selectie", zei Arbiza, met bewijs voor aanpassing in bindingsplaatsen die genen reguleren die onder meer bloedcellen, hersenfunctie en immuniteit regelen.

"Het algemene beeld toont meer evolutionaire flexibiliteit in de bindingsplaatsen dan in eiwitcoderende genen", zei Siepel. "Dit heeft belangrijke implicaties voor hoe we denken over menselijke evolutie en ziekte."

Dit is een van de eerste onderzoeken die recente gegevens combineert die bindingsplaatsen voor transcriptiefactoren identificeren, gegevens over menselijke genetische variatie en genoomvergelijkingen tussen mensen en apen. Een nieuwe computationele methode genaamd INSIGHT (Inference of Natural Selection from Interspersed Genomically coHerent elemenTs), ontworpen door Ilan Gronau, een postdoctoraal onderzoeker in het laboratorium van Siepel en een co-auteur van de studie, stelde de wetenschappers in staat om deze verschillende gegevenstypen te integreren en bewijs te vinden van natuurlijke selectie in het regulerende DNA.

"Transcriptiefactorbindingsplaatsen zijn waarschijnlijk de regulerende elementen waar we het meest over weten", zei Arbiza. "Als je de evolutie van genexpressieregulatie wilt begrijpen, is dat een goed startpunt."

INSIGHT kan nu door andere onderzoekers worden gebruikt voor het analyseren van andere korte regulerende DNA-sequenties, zoals micro-RNA's, niet-coderende moleculen die ook een rol spelen bij genregulatie.

De studie werd gefinancierd door de Packard Foundation, Alfred P. Sloan Foundation, National Science Foundation, National Institutes of Health (National Institute of General Medical Sciences) en een beurs van het Cornell Center for Vertebrate Genomics.


<p>Deze sectie bevat alle nuttige informatie over het eiwit, voornamelijk biologische kennis.<p><a href='/help/function_section' target='_top'>Meer. </a></p> Functie i

Transcriptie-activator die DNA samenbindt met DP-eiwitten via de E2-herkenningsplaats, 5'-TTTC[CG]CGC-3', gevonden in het promotorgebied van een aantal genen waarvan de producten betrokken zijn bij de regulatie van de celcyclus of bij DNA-replicatie. Het DRTF1 / E2F-complex functioneert bij de controle van de celcyclusprogressie van g1- naar s-fase. E2F2 bindt specifiek aan RB1 op een celcyclusafhankelijke manier.


Genexpressie wordt gecontroleerd door een aantal kenmerken – regulering van transcriptie en translatie:

In eukaryoten kunnen transcriptie- of doelgenen worden gestimuleerd of geremd wanneer specifieke transcriptionele factoren van het cytoplasma naar de kern gaan. Omdat alleen doelwitgenen worden getranscribeerd, betekent dit dat er specifieke eiwitten worden gemaakt. Elk type lichaamscel heeft verschillende doelcellen, dus ze geven verschillende kenmerken, d.w.z. een zenuwcel is anders dan een rode bloedcel. Transcriptiefactoren kunnen de transcriptiesnelheid veranderen en het proces is als volgt:

  • De transcriptiefactoren komen door diffusie in de kern vanuit het cytoplasma.
  • Wanneer ze zich in de kern bevinden, kunnen ze binden aan de promotorsequentie (de sequentie die het begin is van het doelgen).
  • De transcriptiefactoren verhogen of verlagen de transcriptiesnelheid, afhankelijk van of ze aan de promotorsequentie zijn gebonden.

Sommige transcriptiefactoren worden activatoren genoemd, waar ze de transcriptiesnelheid verhogen. Dit wordt gedaan door de transcriptiefactoren die het RNA-polymerase helpen te binden aan de promotorsequentie om transcriptie te activeren. Anderen worden repressoren genoemd, waar ze de transcriptiesnelheid verlagen. Dit wordt gedaan door de transcriptiefactoren die binden aan de promotorsequentie die voorkomen dat RNA-polymerase bindt. Dit stopt de transcriptie.

Oestrogeen kan de transcriptie van doelgenen initiëren. NB: Soms kan het ervoor zorgen dat een transcriptiefactor een repressor is. Voor het AQA-examen hoeft u dit niet te weten. Een transcriptiefactor kan aan een remmer worden gebonden, waardoor deze niet aan de promotorsequentie kan binden. Oestrogeen bindt zich aan de transcriptiefactor en vormt een oestrogeen-oestrogeenreceptorcomplex en verandert de plaats waar de remmer is verbonden (de zogenaamde DNA-bindingsplaats). Dit betekent dat de remmer wordt losgemaakt waardoor de transcriptiefactor zich aan de promotorsequentie kan hechten. NB: U hoeft de naam van de remmer niet te weten. Ook blijft de DNA-bindingsplaats op de transcriptiefactor veranderd terwijl het oestrogeen eraan gebonden is.

Bij eukaryoten en sommige prokaryoten kan de translatie van het mRNA dat wordt geproduceerd door doelgenen worden geremd door RNA-interferentie die bekend staat als RNAi. Korte RNA-moleculen zoals micro-RNA, bekend als miRNA, en RNA met kleine interferentie, bekend als siRNA, vormen een RNA-geïnduceerd silencing-complex, bekend als RISC, met eiwitten. NB: De kleine RNA-moleculen waarvan bekend is dat ze dubbelstrengs zijn in de revisiehandleidingen of in leerboeken, dit is verwarrend, dus het is beter om het proces te starten als miRNA en siRNA als enkelstrengs. RNA vormt een complex met een eiwit dat een enzym is dat RNA-hydrolase wordt genoemd. miRNA vormt geen complex met RNA-hydrolase maar met een ander eiwit. Deze RNA-moleculen kunnen elk een RISC maken met meer dan één eiwit en de betrokken eiwitten hoeven niet bekend te zijn voor AQA. De complexen hechten zich elk aan hun doel-mRNA-sequentie en voorkomen translatie op verschillende manieren. Dit is hoe het voor elk klein RNA-molecuul wordt gedaan:

  • siRNA/miRNA in planten:
  • De basen op het siRNA hechten zich aan de basen op het mRNA door complementaire basenparing.
  • RNA-hydrolase hydrolyseert de mRNA-streng in fragmenten, waardoor translatie wordt voorkomen omdat de hele polypeptideketen niet wordt gemaakt

NB: Het is niet nodig om te weten dat de fragmenten in het verwerkingslichaam worden afgebroken. Als je dit wilt leren, kan het geen kwaad.

  • miRNA bij zoogdieren:
  • De basen op het miRNA hechten zich aan de basen op het mRNA door complementaire basenparing.
  • Er wordt voorkomen dat ribosomen zich hechten aan de mRNA-streng, waardoor translatie wordt gestopt.

NB: Ook hier is het niet nodig om te weten dat mRNA wordt afgebroken of opgeslagen in het verwerkingslichaam.

Epigenetica omvat erfelijke veranderingen in de genfunctie, zonder veranderingen in de DNA-basesequentie. Deze veranderingen worden veroorzaakt door veranderingen in de omgeving (meer blootstelling aan vervuiling) die transcriptie remmen door:

  • Verhoogde methylering van DNA:Een methylgroep (bekend als een epigenetisch merkteken) hecht zich aan cytosine dat deel moet uitmaken van het nucleotide dat door een fosfodiesterbinding aan guanine is bevestigd. NB: Je bent nu misschien in de war, maar kijk naar het onderstaande diagram van een DNA-streng en merk op aan welke van de cytosine-nucleotiden de methylgroep zich voegt. Merk op dat de nucleotide helemaal rechts van de streng en de derde van links geen methylgroep heeft, omdat ze niet naast een nucleotide met guanine als base staan. De verbinding van de methylgroep moet niet worden verward door zich aan te sluiten op cytosine dat complementair is aan guanine op de andere streng, aangezien dit verkeerd is. Ook de methylgroep – CH3 – verandert niet de basenvolgorde, maar de structuur. Omdat de structuur is veranderd, is het moeilijker geworden voor enzymen om zich aan het DNA te hechten, waardoor de expressie van een gen wordt gestopt. Als het tumorsuppressorgen niet wordt getranscribeerd, kan het kanker veroorzaken.

  • Verlaagd aantal geassocieerde histonen: Een acetylgroep – COCH3 – is een ander epigenetisch kenmerk dat zich hecht aan histon-eiwitten om het chromatine (mengsel van DNA dat rond histon-eiwitten is gewikkeld) minder gecondenseerd te maken, zodat genetische expressie gemakkelijk kan plaatsvinden. Het probleem ontstaat wanneer histondeacetylase de binding tussen het histoneiwit en de acetylgroep verbreekt. Het DNA wordt sterk gecondenseerd waardoor het moeilijk wordt voor enzymen om de genexpressie uit te voeren. NB: Histondeacetylase kan worden afgekort tot HDAC, maar u kunt het beste bij de volledige naam blijven.

Epigenetische veranderingen in het DNA zijn gelukkig omkeerbaar en daarom zijn ze goede doelwitten voor medicijnen om de effecten van epigenetische effecten te stoppen. Deze medicijnen kunnen ofwel de DNA-methylatie stoppen of histondeacetylase remmen, waardoor de acetylgroepen aan het DNA gehecht blijven.


Huidig ​​adres: Max-Planck Instituut voor de Fysica van Complexe Systemen, Nöthnitzer Str. 38, 01187, Dresden, Duitsland

Voorkeuren

Centrum voor niet-coderend RNA in Technologie en Gezondheid, Universiteit van Kopenhagen, Grønnegårdsvej 3, 1870, Frederiksberg C, Denemarken

Nikolai Hecker, Stefan E. Seemann, Asli Silahtaroglu, Walter L. Ruzzo & Jan Gorodkin

Afdeling Veterinaire en Dierwetenschappen, Universiteit van Kopenhagen, Grønnegårdsvej 3, 1870, Frederiksberg C, Denemarken

Nikolai Hecker, Stefan E. Seemann & Jan Gorodkin

Max-Planck Instituut voor Moleculaire Celbiologie en Genetica, Pfotenhauerstr. 108, 01307, Dresden, Duitsland

Afdeling Cellulaire en Moleculaire Geneeskunde, Universiteit van Kopenhagen, Blegdamsvej 3B, 2200, Kopenhagen N, Denemarken

Paul G. Allen School of Computer Science & Engineering, en Department of Genome Sciences, University of Washington, 185 Stevens Way, WA, 98195-2350, Seattle, VS

Fred Hutchinson Cancer Research Center, 1100 Fairview Ave. N., WA, 98109, Seattle, VS

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

Bijdragen

Alle auteurs hebben bijgedragen aan de opzet van het project. N.H. voerde de analyse uit en stelde het volledige manuscript op. WLR en N.H. bedachten de regressiebenadering en de benadering voor de fylogenetische analyse. S.E.S. bijgedragen aan de analyse van secundaire RNA-structuren. ALS. bijgedragen aan de interpretatie van de biologische relevantie van de resultaten. JG het project geschetst en begeleid. Alle auteurs hebben het manuscript kritisch herzien en goedgekeurd.

Corresponderende auteurs


Slotopmerkingen

Het ongekende aantal functionele elementen dat in deze studie is geïdentificeerd, biedt een waardevolle hulpbron voor de wetenschappelijke gemeenschap en verbetert ons begrip van het menselijk genoom aanzienlijk. Onze analyses hebben veel nieuwe aspecten van genexpressie en -regulatie onthuld, evenals de organisatie van dergelijke informatie, zoals geïllustreerd door de begeleidende artikelen (zie http://www.encodeproject.org/ENCODE/pubs.html voor verzamelde ENCODE-publicaties). Er zijn echter nog veel specifieke details, met name over de mechanistische processen die deze elementen genereren en hoe en waar ze functioneren, waarvoor aanvullende experimenten nodig zijn om dit op te helderen.

De grote spreiding van de dekking - van onze hoogste resolutie, meest conservatieve reeks basen die betrokken zijn bij GENCODE-eiwitcoderende gen-exons (2,9%) of specifieke eiwit-DNA-binding (8,5%) tot de breedste, meest algemene reeks markeringen die het genoom dekken ( ongeveer 80%), met veel gradaties daartussen, presenteert een spectrum van elementen met verschillende functionele eigenschappen die door ENCODE zijn ontdekt. Een totaal van 99% van de bekende basen in het genoom bevinden zich binnen 1,7 kb van elk ENCODE-element, terwijl 95% van de basen zich binnen 8 kb van een gebonden transcriptiefactormotief of DNase I-voetafdruk bevinden. Interessant is dat, zelfs als we de meest conservatieve schattingen gebruiken, de fractie basen die waarschijnlijk betrokken is bij directe genregulatie, hoewel onvolledig, significant hoger is dan die wordt toegeschreven aan eiwitcoderende exons (1,2%), wat de mogelijkheid vergroot dat meer informatie in de menselijk genoom kan belangrijk zijn voor genregulatie dan voor biochemische functie. Veel van de regulerende elementen zijn niet beperkt in de evolutie van zoogdieren, wat tot nu toe een van de meest betrouwbare indicaties was van een belangrijke biochemische gebeurtenis voor het organisme. Onze gegevens bieden dus orthologe indicatoren voor het suggereren van mogelijke functionele elementen.

Belangrijk is dat we voor het eerst voldoende statistische kracht hebben om de impact van negatieve selectie op primaat-specifieke elementen te beoordelen, en alle ENCODE-klassen vertonen bewijs van negatieve selectie in deze unieke-naar-primaat-elementen. Bovendien, zelfs met onze meest conservatieve schatting van functionele elementen (8,5% van de vermeende DNA-/eiwitbindingsgebieden) en ervan uitgaande dat we al de helft van de elementen uit onze transcriptiefactor en celtypediversiteit hebben bemonsterd, zou men kunnen schatten dat op een minimum 20% (17% van eiwitbinding en 2,9% eiwitcoderende gen-exons) van het genoom neemt deel aan deze specifieke functies, met het waarschijnlijke cijfer significant hoger.

De brede dekking van ENCODE-annotaties vergroot ons begrip van veelvoorkomende ziekten met een genetische component, zeldzame genetische ziekten en kanker, zoals blijkt uit ons vermogen om anders anonieme associaties te koppelen aan een functioneel element. ENCODE en soortgelijke studies bieden een eerste stap in de richting van de interpretatie van de rest van het genoom - afgezien van eiwitcoderende genen - en versterken daarmee de genetische studies van veelvoorkomende ziekten met toetsbare hypothesen. Dergelijke informatie rechtvaardigt het uitvoeren van sequencing van het hele genoom (in plaats van alleen exoom, 1,2% van het genoom) op zeldzame ziekten en het onderzoeken van somatische varianten in niet-coderende functionele elementen, bijvoorbeeld bij kanker. Bovendien, aangezien GWAS-analyses ziekte doorgaans associëren met SNP's in grote regio's, kan vergelijking met ENCODE niet-coderende functionele elementen helpen bij het opsporen van vermeende causale varianten naast verfijning van de locatie door middel van fine-mapping-technieken 78 . Het combineren van ENCODE-gegevens met allelspecifieke informatie die is afgeleid van individuele genoomsequenties, geeft specifiek inzicht in de impact van een genetische variant. We zijn inderdaad van mening dat een belangrijk doel zou zijn om functionele gegevens zoals die afkomstig van dit project te gebruiken om elke genomische variant toe te wijzen aan de mogelijke impact ervan op menselijke fenotypes.


Bekijk de video: Tahapan dan Mekanisme Transkripsi DNA. Transkripsi DNA, Tahapan Awal Ekspresi Gen (December 2021).