Informatie

Hoe groot is een expressieversterking typisch voor codonoptimalisatie?


Er zijn veel verschillende benaderingen voor codon-optimalisatie, en veel verschillende kwalitatieve redenen om optimalisatie te willen (bijv. Organisme-codon-bias, GC-inhoud, het vermijden van secundaire structuur).

Men kan echter ook optimalisatie willen vermijden om de herbruikbaarheid van een component, de vergelijkbaarheid met eerdere resultaten of de kans op fouten te vergroten.

Ik zou graag willen weten hoeveel ik waarschijnlijk opgeef als ik besluit om niet te optimaliseren. Bijvoorbeeld, in mijn typische werk zal 10% opgeven waarschijnlijk verloren gaan in het lawaai, maar 2x opgeven is de moeite waard om goed over na te denken, en 10x opgeven betekent dat het een must-have is.

Ik weet dat "het ervan afhangt", en er is veel kwalitatieve informatie die er is, maar is er een manier om een ​​goede ruwe schatting te krijgen van de typische expressie-boost van codon-optimalisatie?


Ik denk dat er een probleem is met hoe goed de huidige codon-optimalisatie-algoritmen de eiwitexpressie daadwerkelijk "optimaliseren". Ik ken geen algoritmen die verder gaan dan een heuristisch niveau en dus voor een willekeurig eiwit kan men de expressieversterking die optimalisatie zal bieden niet voorspellen - soms wordt de opbrengst aanzienlijk verminderd. Deze recensie behandelt enkele van de complexiteiten van optimalisatie heel goed https://doi.org/10.1016/j.molcel.2020.09.014.


Vooruitgang in de toegepaste microbiologie

Xiaoyun Su, . Isaac KO Cann, in Vooruitgang in Toegepaste Microbiologie, 2012

8 Optimalisatie van codongebruik

Codonbias bestaat in draadschimmels. Een analyse vanuit een genomisch perspectief onthulde een gemiddeld GC-gehalte van 57% in de nucleaire genen en bevestigde een eerdere bevinding die een vertekening van een cytosinebase op de derde positie in de codons van N. crassa (Radford & Parish, 1997). Een andere analyse van 45 sterk of slecht tot expressie gebrachte genen in A. nidulans gaf aan dat, hoewel het GC-gehalte van het genoom bijna 50% is, het codongebruik sterk vertekend is tot ongeveer 20 "optimale codons". Deze "geoptimaliseerde codons" worden gekenmerkt door hun einde met C of G (Lloyd & Sharp, 1991). In A. awamori en A. niger, werden in totaal 51.434 bp aan codons geanalyseerd. Het optimale codongebruik is gedefinieerd, wat heeft geholpen bij het ontwerpen van een gesynthetiseerd chymosine-gen met A. awamori-voorkeurscodons (Cardoza et al., 2003).

Het codongebruik is nauw verbonden met de rekrutering van transfer-RNA's (tRNA's) naar het ribosoom. Een algemeen principe is dat zeldzame codons (minder dan 15% gebruikt) in opeenvolgende posities of in clusters zullen leiden tot inefficiënte translatie (Kinnaird, Burns, & Fincham, 1991). Optimalisatie van codongebruik is op grote schaal gebruikt bij de productie van heterologe eiwitten in bacteriën (Haas, Park, & Seed, 1996 Kane, 1995), schimmels (Huang et al., 2008 Sinclair & Choy, 2002), planten (Tregoning et al. ., 2003), en zoogdiercellen (Kim, Oh, & Lee, 1997 Massaer et al., 2001) gastheercellen. Overexpressie van tRNA's specifiek voor de zeldzame codons in de gastheercel (zoals de BL21-CodonPlus(DE3)-RIPL van Stratagene Inc.) heeft de neiging om ineffectieve translatie te verlichten, waardoor de expressie van het doelgen wordt verbeterd.

Om de hindernis van codonbias bij het tot expressie brengen van heterologe (of zelfs endogene) genen in filamenteuze schimmels te overwinnen, worden de codons van de heterologe genen vaker geoptimaliseerd volgens het codongebruik van de gastheercel. Door 20 codons van een thermofiele xylanase van de bacterie te veranderen D. thermophilum aan degenen die de voorkeur hebben in T. reesei, werd de xylanase met succes tot expressie gebracht terwijl het oorspronkelijke gen niet tot expressie kon worden gebracht (Te'o et al., 2000). De inheemse aequorine AeqA van de kwal Aequorea victoria kwam slecht tot uitdrukking in N. crassa met een opbrengst van 0,15 μg/g totaal eiwit door de aanwezigheid van 44 zeldzame codons in het gen. Na optimalisatie van de codons steeg de expressie tot 2,26 μg aequorine/g totaal eiwit in N. crassa, 13,4 g aequorine/g totaal eiwit in A. niger en 21,8 g aequorine/g totaal eiwit in A. awamori (Nelson et al., 2004). De luc gen dat codeert voor de vuurvlieg Photinus pyralis luciferase is een hulpmiddel van onschatbare waarde voor moleculaire analyses van biologische processen, zoals het circadiane ritme. Het gen werd echter zeer slecht tot expressie gebracht in N. crassa. Optimalisatie van de codons voor de eerste 21 residuen resulteerde in succesvolle expressie van dit eiwit en vergemakkelijkte het circadiane ritmeonderzoek in N. crassa (Morgan Greene, & Bell-Pedersen, 2003). Een intensievere optimalisatie van de codons ervan verhoogde de expressie van luciferase verder met vier ordes van grootte (Gooch et al., 2008).


Effect van codonoptimalisatie op de productie van recombinant visgroeihormoon in Pichia pastoris

Deze studie is opgezet om de hypothese te testen of de codonoptimalisatie van het visgroeihormoongen (F GH) gebaseerd op P. pastoris voorkeurscodon zal de hoeveelheid uitgescheiden rFGH in kweeksupernatant verbeteren die direct kan worden gebruikt als visvoersupplementen. de geoptimaliseerde F GH coderende volgorde (oFGH) en native sequentie (nFGH) van reuzenbaarsvissen (Epinephelus lanceolatus) werden gekloond in P. pastoris expressievector (pPICZαA) stroomafwaarts van alcoholoxidase gen (AOX1) voor efficiënte inductie van extracellulair rFGH door toevoeging van 1% absolute methanol. De resultaten toonden aan dat recombinant P. pastoris kon produceren

van nFGH in één liter kweeksupernatant. Het totale lichaamsgewicht van de met oFGH gevoerde tijgertandbaarzen nam significant toe op de derde plaats (

) en de vierde week ( ) van een experimentperiode van vier weken vergeleken met degenen die met nFGH werden gevoed. Zowel oFGH als nFGH verhoogden significant het uiteindelijke biomassa- en visoverlevingspercentage. Concluderend, codonoptimalisatie van F GH fragment was nuttig om de hoeveelheid rFGH in het kweeksupernatant van te verhogen P. pastoris die direct kunnen worden gebruikt als aanvulling op het visvoer. Verdere studies zijn nog nodig voor grootschalige productie van rFGH en praktische toepassing in aquacultuurproductie.

1. Inleiding

Visgroeihormoon (FGH), een eiwithormoon met een molecuulgewicht van 22 kDa, wordt geproduceerd door somatotrofe cellen in de hypofysevoorkwab van vissen. Het reguleert de groei en ontwikkeling bij vissen [1, 2]. Door recombinant FGH als supplement in het voer te gebruiken, werd de groeisnelheid van de vissen verhoogd zonder ophoping van FGH in het vissenlichaam [3, 4]. In aquacultuurtoepassingen is de groeisnelheid van vissen verhoogd na gebruik van recombinant FGH uitgedrukt in E coli [5]. De lage capaciteit van het posttranslatieproces in E coli resulteerde in minder actieve recombinante eiwitten en vorming van onoplosbare inclusielichaampjes [6]. Onoplosbare inclusielichamen vereisen meer stappen in het eiwitzuiveringsproces en een gecompliceerde procedure voor het opnieuw vouwen van eiwitten om de biologische functie ervan te herstellen. Het is ook bekend dat E coli is een prokaryoot en zijn intrinsieke kenmerken verschillen van die van eukaryoten, zoals eiwitverwerking, eiwitvouwing en posttranslationele modificaties [7]. Visgroeihormoon is tot expressie gebracht in de gist Saccharomyces cerevisiae [8-10] en de gist Pichia pastoris [11]. de gist P. pastoris expressiesysteem biedt voordelen ten opzichte van S. cerevisiae vanwege zijn hoge productiviteit, efficiënte uitgescheiden expressie en stabiele genetica, is het dus een aantrekkelijke kandidaat geweest voor de productie van vreemde eiwitten [12]. Intracellulaire expressie van FGH in P. pastoris dat als voedingssupplement wordt gebruikt, vertoonde een significante toename van de groeisnelheid op tilapia [13], maar de expressie van recombinant FGH was laag (1-2% van de totale cellulaire eiwitten). interessant, P. pastoris heeft een hogere secretoire capaciteit en een lager expressieniveau van endogene eiwitten dan andere gisten. Recombinante eiwitten omvatten de meerderheid van de totale uitgescheiden eiwitten in het medium [14]. Merk op dat cDNA voor visgroeihormoon in de meeste eerdere onderzoeken werd gebruikt om recombinant FGH te produceren in verschillende expressiesystemen [5, 8-11]. In onze studie hebben we een synthetische F GH gen met voorkeurscodons van P. pastoris om het expressieniveau van recombinant FGH te verhogen. Bovendien kan de productie van extracellulair FGH een zuiveringsproces achterwege laten en de productiekosten in de viskweek verlagen.

2. materialen en methoden

2.1. Cultuur media

Voor klonen, E coli stam TOP10 werd gekweekt in zoutarm LB-medium (LSLB) en LSLB-agar met Zeocin (zoutconcentratie < 90 mM, pH 7,5 voor Zeocin om actief te zijn). Het vaste medium (LSLB-agar) bevat 1% pepton, 0,05% NaCl, 0,5% gistextract en 1,5% agar met 25 μg/ml Zeocin en het vloeibare medium was YPD-bouillon, dat 2% pepton, 1% gistextract, 2% dextrose en 100 mg/L Zeocin bevatte. P. pastoris werd gekweekt op YPDS-agar met 2% agar en 18% sorbitol. Voor expressiedoeleinden bevatten de gebufferde complexe media, BMMY en BMGY, die 2% pepton, 1% gistextract,

biotine, 1,34% giststikstofbase, 0,1 M kaliumfosfaatbuffer (pH 6,0) en 1% glycerol (voor BMGY-groeimedium) of 1% methanol (voor BMMY-inductiemedium) werden gebruikt.

2.2. DNA-bereiding van F GH Fragmenten

Totaal RNA werd geïsoleerd uit de hypofyse van reuzenbaarsvissen (Epinephelus lanceolatus) met behulp van RNA-extractiekit (Invitogen, Nederland). De inheemse F GH (nFGH) gen werd omgekeerd getranscribeerd en geamplificeerd met behulp van reverse transcriptase-kit (Invitrogen, Nederland). De nFGH genfragment werd gekloneerd in pGEM-T-kloneringsvector (Promega, VS) en getransformeerd in E coli stam JM109. DNA-sequencing werd uitgevoerd en de sequentie werd vergeleken met de NCBI-database (//www.ncbi.nlm.nih.gov/) voor verificatie.

De codon-geoptimaliseerde FGH (oFGH) sequentie werd gesynthetiseerd volgens de P. pastoris voorkeurscodons van Invitrogen (//www.invitrogen.com/genesynthesis). Afhankelijk van de informatie van de synthesizer werden de volgende sequentiegebieden vermeden of aangepast: (i) zeer hoog (>80%) of zeer laag (<30%) GC-gehalte, (ii) de cis-werkende sequentiemotieven, zoals interne TATA-boxen, chi-sites en ribosomale toegangssites, en (iii) AT-rijke of GC-rijke sequentie die RNA-instabiliteitsmotieven uitrekt, herhaalsequenties en secundaire RNA-structuren splice donor- en acceptorsites in hogere eukaryoten.

2.3. Constructie van expressievectoren, pPICZαA-nFGH en pPICZαA-oFGH

Constructie van recombinant PICZαA-nFGH en PICZαA-oFGH werd uitgevoerd zoals eerder beschreven [15]. In het kort, de pGEM-T-kloneringsvectoren die bevatten nFGH of oFGH genfragmenten werden verteerd met EcoRI en NietI-restrictie-enzymen en de fragmenten met een molecuulgewicht van ongeveer 600 bp werden gezuiverd met behulp van de QIAquick Gel Extraction-kit (Qiagen, VS). De gezuiverde fragmenten werden afzonderlijk gekloond in a EcoRI- en NietI-verteerd pPICZαEen vector. De recombinante plasmiden, pPICZαEEN-nFGH en pPICZαEEN-oFGH, werden omgevormd tot E coli stam Top10 van voor vermeerdering. Deze recombinante plasmiden werden vervolgens geïsoleerd, gesequenced en gelineariseerd met SacIk restrictie-enzym. Vervolgens gelineariseerde pPICZαEEN-nFGH en pPICZαEEN-oFGH werden geïntroduceerd in P. pastoris, wildtype X-33-stam met EasySelect Pichia Expressie kit (Invitrogen, Nederland).

3. Uitdrukking in P. pastoris

Productie van recombinant FGH in P. pastoris werd uitgevoerd zoals eerder beschreven [15]. In het kort, een enkele kolonie recombinant X-33 die nFGH en oFGH herbergt, werd respectievelijk geïnoculeerd in BMGY-medium en gekweekt bij 30 ° C tot OD600 stond 2-6. Celpellet werd verzameld door centrifugeren en opnieuw gesuspendeerd in BMMY-media (of BGMY-medium voor controlecultuur) bij

. Incubatie werd voortgezet bij 30°C onder schudden bij 220 rpm. Methanol werd toegevoegd aan BMMY-medium tot een eindconcentratie van 0,5% met tussenpozen van 12 uur, terwijl glycerol werd toegevoegd aan het BMGY-medium als vervanging voor methanol. Kweeksupernatanten werden 24, 36, 48, 60 en 72 uur na inductie geoogst en geanalyseerd met natieve SDS-PAGE en SDS-PAGE onder denaturerende en niet-denaturerende omstandigheden zoals eerder beschreven [15]. De recombinante eiwitconcentraties in kweeksupernatant werden bepaald met behulp van visgroeihormoon, FGH ELISA-kit (Cat. nr. E0044f, China, //www.eiaab.com/).

3.1. Bioactiviteitstest

Tijger grouper fingerlings werden willekeurig verdeeld in vier groepen, 20 per groep (controle 1 werd gevoerd met gewoon visvoer controle 2 werd gevoed met gewoon voer gemengd met 5% kweeksupernatant van wildtype P. pastoris behandeling 1 werd gevoerd met gewoon voer gemengd met 5% kweeksupernatant van recombinant P. pastoris het produceren van nFGH behandeling 2 werd gevoed met gewoon voer gemengd met 5% kweeksupernatant van recombinant P. pastoris oFGH produceren). Het gemiddelde lichaamsgewicht van fingerlings was ongeveer 10,5 g en de gemiddelde lichaamslengte was 8,5 cm. Tanks en luchtstenen werden gereinigd, gedesinfecteerd en opnieuw gevuld met nieuw behandeld zoet water. Nieuw behandeld zoet water werd elke 7 dagen vervangen gedurende een experimentperiode van 31 dagen. De voerverdeling vond drie keer per dag plaats: 9.00 uur, 13.00 uur en 18.00 uur. De bemonstering werd om de zeven dagen uitgevoerd. Het supernatant van recombinante gistcultuur werd gemengd met visvoer tot 5% van het totale voergewicht.

4. Resultaten en discussie

Zuiverings- en toedieningsmethoden van recombinant visgroeihormoon (FGH) zijn de belangrijkste zorgen van onpraktisch gebruik in grootschalige aquacultuur. Daarom hebben we deze studie uitgevoerd om de hypothese te testen of de geoptimaliseerde DNA-sequentie van FGH het expressieniveau in significant zal verhogen P. pastoris om te worden gebruikt als supplement voor visvoer. De gehele FGH-coderende sequentie werd geconstrueerd op basis van: P. pastoris voorkeurscodons (oFGH) terwijl de natieve F GH (nFGH) gen werd verkregen door reverse transcriptie van totaal RNA dat werd geëxtraheerd uit de hypofyse van vissen (Figuur 1). De pPICZαEen plasmide bevat Saccharomyces cerevisiaeα-factorsecretie signaalpeptide voor extracellulaire eiwitsecretie. Beide DNA-fragmenten werden gekloond in P. pastoris expressievector (pPICZαA) stroomafwaarts α-factor secretie signaalpeptide en de promotor van alcoholoxidase gen (AOX1) voor efficiënte inductie van extracellulaire FGH-productie door toevoeging van 1% absolute methanol.


Uitlijning van sequenties van natief visgroeihormoon (nFGH) en geoptimaliseerde sequentie op basis van P. pastoris voorkeurscodons.

De resultaten toonden aan dat de expressie van nFGH en oFGH werd gedetecteerd door SDS-PAGE onder denaturerende omstandigheden bij de verwachte grootte van 22 kDa (Figuur 2). Verdere analyse door SDS-PAGE onder denaturerende en niet-denaturerende omstandigheden toonde aan dat beide FGH-vormen (nFGH en oFGH) werden geproduceerd door P. pastoris als monomeren en multimeren (Figuur 3). Na inductie van recombinante gist met methanol werd de gist 72 uur gekweekt en vervolgens werd de productie van FGH gekwantificeerd door FGH ELISA-test met gebruikmaking van standaard FGH als referentie. De resultaten toonden aan dat recombinant P. pastoris was in staat om mg oFGH te produceren vergeleken met mg nFGH in één liter kweeksupernatant (Figuur 4).


Productie van natief FGH (nFGH) en geoptimaliseerd FGH (oFGH) in P. pastoris. De expressievectoren die oFGH en nFGH bevatten, werden afzonderlijk getransformeerd in Pichia pastoris stam X-33 met EasySelect Pichia Expressie kit. Er is een pilot-experiment uitgevoerd om het vermogen van P. pastoris om recombinant FGH te produceren als een extracellulair eiwit. Het SDS-PAGE-resultaat toonde aan dat de recombinante nFGH en oFGH werden geproduceerd door P. pastoris bij een verwachte grootte van 22 kDa. L1 = controle L2 = nFGH L3 = oFGH.


SDS-PAGE-analyse van oFGH onder denaturerende en niet-denaturerende omstandigheden. Recombinant P. pastoris werd gedurende 48 uur gekweekt in BGMY-media en vervolgens overgebracht naar inductiemedia (BMMY) met continue inductie met 1% absolute methanol gedurende elke 12 uur. De supernatantmonsters werden verzameld op 12 (L1), 24 (L2), 36 (L3), 48 (L4), 60 (L5) en 72 uur (L6). Het hoge molecuulgewicht van oFGH-multimeren (ongeveer 70 kDa) werd waargenomen wanneer de monsters werden toegepast voor SDS-PAGE zonder denaturerende omstandigheden (verhitting en reductie door bèta-mercapto-ethanol (L1-L6)). Na toepassing van de denaturerende omstandigheden werden echter alleen monomeermoleculen van oFGH waargenomen bij 22 kDa (L7), terwijl reductie van de monsters met bèta-mercapto-ethanol zonder verwarming leidde tot detectie van zowel oFGH-monomeer (22 kDa) als multimeren (70 kDa) (L8 ).


Productie van recombinant oFGH en nFGH in Pichia pastoris. De gist werd 72 uur gekweekt met inductie elke 12 uur met 1% absolute methanol. De supernatantmonsters werden verzameld na 12, 24, 36, 48, 60 en 72 uur en de recombinante eiwitconcentratie werd gemeten met FGH ELISA. De resultaten toonden aan dat de productie van oFGH significant hoger was (

In dit onderzoek, P. pastoris was efficiënter in het produceren van oFGH in vergelijking met nFGH als uitgescheiden eiwit. Er is aangetoond dat codonoptimalisatie belangrijk is om de translatiesnelheid te verhogen door het directe gebruik van tRNA-pool van de gastheercel [16, 17], wat uiteindelijk zou kunnen leiden tot een verhoging van de hoeveelheid recombinant eiwit [18-20]. Daarom werd een significante toename waargenomen in het lichaamsgewicht van tijgertandbaarzen die werden gevoed met oFGH in de derde en vierde week van de experimentperiode in vergelijking met die gevoed met nFGH (Figuur 5). Deze toename van het lichaamsgewicht was waarschijnlijk te wijten aan de hogere concentratie van oFGH in vergelijking met nFGH in het kweeksupernatant (mg versus mg, resp.). Het belangrijkste resultaat van het hoge gehalte aan oFGH in het kweeksupernatant is het verbeteren van de biologische beschikbaarheid van FGH, dat in wezen de eetlust van vissen stimuleert, evenals de voederconversie [21, 22].


Abstract

De DNA-sequentie die wordt gebruikt om voor een polypeptide te coderen, kan dramatische effecten hebben op de expressie ervan. Gebrek aan direct beschikbare tools heeft tot voor kort zinvol experimenteel onderzoek naar dit fenomeen belemmerd. Vooruitgang in synthetische biologie en de toepassing van moderne technische benaderingen bieden nu de hulpmiddelen voor systematische analyse van de sequentievariabelen die de heterologe expressie van recombinante eiwitten beïnvloeden. We bespreken hier hoe deze nieuwe tools worden toegepast en hoe ze de beperkingen van eerdere benaderingen omzeilen, waarbij we enkele van de verrassende en veelbelovende resultaten benadrukken die voortkomen uit het zich ontwikkelende veld van gen-engineering.

Hoogtepunten

► Traditionele bio-engineering wordt beperkt door het gebrek aan systematische methodologie. ► Studies naar synthetische genexpressie hebben de overtuigingen over genoptimalisatie in twijfel getrokken. ► De huidige technologieën voor gensynthese maken een systematische benadering van bio-engineering mogelijk. ► Experimenten met synthetische genen verfijnen de kennis van gastheervoorkeuren. ► Strenge technische methoden zullen de vooruitgang van synthetische biologie versnellen.


Discussie

Hoewel genexpressie meestal wordt toegeschreven aan de transcriptiesnelheid, hebben de halfwaardetijden van mRNA's een sterke invloed op de algehele mRNA-abundanties tijdens homeostase. Pogingen om de stabiliteit van mRNA te begrijpen, waren voornamelijk gericht op: cis-regulerende elementen voornamelijk binnen de 3'UTR, waarvan bekend is dat een groot aantal stabiliteitsdeterminanten (bijv. MicroRNA's) binden. Recenter werk toont echter aan dat translatie ook een sterke invloed heeft op de mRNA-stabiliteit op een codonafhankelijke manier, wat aangeeft dat het coderende gebied ook sterke regulerende informatie bevat [22,23,24,25]. Hier presenteren we een computermodel om mRNA-stabiliteit van gewervelde dieren te voorspellen op basis van codonsamenstelling (Fig. 1). Ons model ondersteunt het uitgangspunt dat codonsamenstelling de belangrijkste determinant is van mRNA-stabiliteit in zebravissen en Xenopus tijdens vroege embryogenese (Fig. 2). De mate waarin mRNA's worden beïnvloed door microRNA's en RNA-methylatie (m6A) is ook afhankelijk van hun respectievelijke coderende sequenties in zebravissen en Xenopus embryo's, evenals in muizen- en menselijke cellen (Fig. 4). Als zodanig kan de codonsamenstelling de repressieve effecten van andere regulerende routes verdoezelen (figuren 3 en 5). Onlangs hebben verschillende onderzoeken zich gericht op het identificeren van nieuwe cis-regulerende elementen in 3'UTR-regio's die actief zijn tijdens zebravisembryogenese met behulp van reporter-mRNA's die een GFP-coderende sequentie bevatten [43,44,45]. Hoewel deze methoden succesvol zijn geweest in het identificeren van zowel stabiliserende als destabiliserende elementen in de context van een uniforme coderende sequentie, was een boekhouding van deze elementen in endogene transcripten grotendeels onvoldoende om stabiliteitsprofielen te verklaren [43, 44]. Wij zijn van mening dat dit gebrek aan coherentie te wijten kan zijn aan het feit dat er geen rekening wordt gehouden met codonoptimalisatie-effecten, die de transcriptstabiliteit wereldwijd beïnvloeden. Bovendien veronderstellen we dat een dergelijke boekhouding de identificatie mogelijk zal maken van nieuwe regelgevende programma's die aanwezig zijn in de 3'UTR of over het gehele mRNA, die anders zouden kunnen worden verduisterd door de variabiliteit van de codonsamenstelling (figuren 3, 4, 5 en 7).

Model dat aantoont dat de mRNA-stabiliteit afhangt van de regulerende elementen van de codering en de 3'UTR, wat suggereert dat om de mRNA-stabiliteit volledig te begrijpen, de regulerende informatie over de gehele mRNA-sequentie moet worden geïntegreerd, in plaats van alleen te focussen op de 3'UTR of in de coderende volgorde

Onze resultaten suggereren dat miR-430/-427 destabiliserende activiteit kan worden beïnvloed door de coderende sequentie. De doelgerichtheid van miR-430/-427 (zebravis en Xenopus) is sterker in genen met gemiddelde codonoptimaliteit in tegenstelling tot genen die ofwel sterk verrijkt zijn in optimale of niet-optimale codons (Fig. 5). Er kan worden voorgesteld dat verschillende regulerende routes gemeenschappelijke mRNA-degradatiemachines kunnen werven. MRNA's met een zeer hoog gehalte aan niet-optimale codons kunnen bijvoorbeeld al het doelwit zijn voor afbraak met de maximale snelheid. Dienovereenkomstig kunnen andere routes, zoals microRNA's, de mRNA-destabilisatie niet verhogen. Daarom stellen we dat het absoluut noodzakelijk is om rekening te houden met de coderende sequentie wanneer we proberen de regulerende kracht van zowel canonieke als niet-canonieke miRNA-sites [20, 46,47,48] te begrijpen.

Onze gegevens geven ook aan dat miR-430/-427 codon-gemedieerde stabilisatie tijdens vroege embryogenese kan tegenwerken. In het bijzonder vinden we dat onstabiele transcripten verrijkt met optimale (dwz stabiliserende) codons de neiging hebben miR-430/-427-doelplaatsen te hosten, wat suggereert dat miR-430/-427 mogelijk is gerekruteerd voor deze mRNA's om de intrinsieke "stabiliteit" tegen te gaan verleend in cis door de coderende sequentie, misschien om te zorgen voor robuuste afbraak van maternale mRNA's tijdens de MZT (Fig. 6). Vanuit evolutionair oogpunt kunnen we natuurlijk niet uitsluiten dat een verrijking van optimale codons in feite een geëvolueerde tegenmaatregel is als reactie op de repressieve effecten van miR-430 en/of m6A (Fig. 6). Smarca2 is een duidelijk voorbeeld van een maternale mRNA verrijkt met optimale codons en met drie miR-430 doelwitplaatsen die dienen om te destabiliseren tijdens de MZT [42]. In navolging van de ontwikkelingsrol en kritische klaring van: smarca2 tijdens embryogenese [42], zal het interessant zijn om de functie van maternale mRNA's verrijkt in optimale codons die miR-430-doelplaatsen bevatten, te ontleden. Bovendien zou het ook interessant kunnen zijn om maternale mRNA's die zijn verrijkt met niet-optimale codons die eigenlijk stabiel zijn tijdens de MZT, uit te schakelen [49]. Desalniettemin schetsen deze resultaten een complex beeld van hoe verschillende regulerende mechanismen op elkaar inwerken en samen evolueren om de mRNA-stabiliteit nauwkeurig en tijdelijk te moduleren.

Toekomstig werk zal erop gericht zijn te begrijpen hoe de gehele mRNA-sequentie de stabiliteit beïnvloedt en hoe het samenspel tussen codon en cis-regulerende mechanismen beïnvloeden de embryonale ontwikkeling. Studies met mRNA-reporters gericht op verdere karakterisering cis-regulerende mechanismen (bijv. MicroRNA's, RNA-modificaties, RNA-bindende eiwitten) moeten rekening houden met de mate van codonoptimalisatie die aanwezig is in de coderende sequenties van de reporter (bijv. "geoptimaliseerd" versus "gedeoptimaliseerd" GFP). Met betrekking tot dit ontwerp heeft ons lab een web-interfase, iCodon (ideaal codon) [50, 51] ontwikkeld om coderende sequenties te optimaliseren of te de-optimaliseren op basis van synonieme mutaties. Daarom zou iCodon kunnen worden gebruikt om coderende sequenties te optimaliseren (bijv. Covid-19-vaccins), of om reportersequenties zoals GFP te de-optimaliseren om te bestuderen cis-regulerende elementen in de 3'UTR (bijv. microRNA) met behulp van een coderende sequentie met een gemiddelde optimaliteit.

Ons model dat genexpressie voorspelt, neemt eenvoudigweg de codonsamenstelling (Fig. 1) en negeert de intrinsieke eigenschappen van de verdeling van de codons over het coderende gebied. De positie van het codon kan bijvoorbeeld de codon-gemedieerde mRNA-stabiliteit in zowel gist- als zebravisembryo's beïnvloeden (aanvullend bestand 1: Fig. S2a) [23, 30]. Daarom zal het in de toekomst interessant zijn om de grammatica / regels van codon-gemedieerde regulatie te ontdekken, inclusief de relatieve positionering (5′ versus 3′) (aanvullend bestand 1: Fig. S2c) en volgorde van codons. We hebben onlangs aangetoond dat codon-gemedieerde regulatie afhankelijk is van de translatie-initiatiesnelheid [24], die op zijn beurt wordt beïnvloed door sequenties die zich in de 5'- en 3'UTR's bevinden, evenals celomstandigheden (bijv. Virale infectie) [52]. Bovendien kan de vertaling van kleine ORF's in de 5'UTR (uORF) en in de 3'UTR (dORF) ook de vertaling van de hoofd-ORF beïnvloeden [53,54,55]. Daarom zal het in de toekomst interessant zijn om de regulerende rollen van 5'- en 3'UTR's bij het vormgeven van de vertaalefficiëntie verder te karakteriseren in verband met het codonoptimalisatiemechanisme. Bovendien is de beschikbaarheid van tRNA's en geladen aminozuren in verband gebracht met translatie-efficiëntie en mRNA-stabiliteit bij gewervelde dieren [12, 22, 24, 31, 56]. Als zodanig zal het belangrijk zijn om tRNA-profielen te integreren in ons model dat mRNA-stabiliteit voorspelt. Kortom, ons werk belicht de complexe overspraak tussen cis-regulerende routes en coderende sequenties bij het vormgeven van mRNA-stabiliteit, en benadrukt de noodzaak om modellen te ontwikkelen die beide componenten integreren. Dergelijke modellen zullen waardevolle inzichten verschaffen in de vroege embryonale ontwikkeling, evenals de onderliggende oorzaken van gen-misregulatie bij menselijke ziekten identificeren.


Materialen en methodes

Plasmiden en bacteriestammen

E coli BL21 (DE3) en plasmide pET-30a (+) werden gebruikt als de expressiegastheer en de expressievector voor de expressie van recombinante eiwitten. De ontworpen genen (egfp-codon, mApple-codon, egfp-genscript en mApple-genscript) werden gesynthetiseerd door GenScript Corporation (Nanjing, China) en ingevoegd in het plasmide pET-30a(+) met de restrictie-enzymen (Bamhoi en hihidIII).

Genoomgegevensset

De dataset van bacteriële genomen met volledige annotatie werd gedownload van NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria/) op 8 december 2014. Alle geselecteerde ondersoorten worden getoond in Tabel S1.

Fylogenetische analyses

De 346 genomen in Tabel S1 werden gebruikt om de fylogenetische analyses uit te voeren. Die bacteriesoorten hadden ten minste vijf ondersoorten waarvan de sequentie was bepaald, behalve de bacterie Bacteroides fragilis NCTC 9343 die werd geselecteerd als de out-groep 38 . De 16 S-rDNA-sequenties van de geselecteerde ondersoorten werden verzameld uit het Ribosomal Database Project 40 . Alle 16S rDNA-sequenties werden uitgelijnd met Clustalw41. De uitgelijnde 16S-rDNA-sequenties werden geëxporteerd in PHYLIP-formaat voor analyse met behulp van de PHYLIP-set van programma's, versie 3.696 42 . Overeenkomstenmatrices van de 16S-rDNA-sequenties werden geconstrueerd met het F84-nucleotidesubstitutiemodel 43, 44 met gebruikmaking van het Dnadist-programma in PHYLIP. Fylogenetische bomen werden geconstrueerd met de buurman-verbindingsmethode met het Neighbor-programma in PHYLIP. De betrouwbaarheid van de aangrenzende boom werd geschat door middel van bootstrap-analyse met behulp van 1000 replicatiedatasets gegenereerd door het programma Seqboot in PHYLIP. Voor de codongebruiksbomen werden 2000 genen willekeurig geselecteerd uit het doelgenoombestand en de Euclidische afstanden van het codongebruik van de ondersoorten werden berekend om de overeenkomstige overeenkomstmatrices tussen alle verschillende ondersoorten te construeren. De 1000 gelijkenismatrices zijn gemaakt door de willekeurige selectiemethode. Vervolgens las het programma Consense in PHYLIP alle geconstrueerde bomen en genereerde een consensusboom. Bomen zijn getekend en geanalyseerd met het programma Dendroscope, versie 3.0 45 .

Gegevensclustering en visualisatie

Alle gegevens in dit onderzoek zijn geclusterd met behulp van de open-source software Cluster, versie 3.0 46 , en de geclusterde gegevens zijn gevisualiseerd met TreeView, versie 1.1.6r4 47 .

Constructie en evaluatie van het codonvoorspellingsmodel

De E coli genoomdataset (tabel S1) bevat 65 genomen, waarvan er 64 werden geselecteerd om een ​​codonselectie-index (CSI) te creëren, en waarvan er één (E coli K12_MG1655) werd gebruikt om de prestaties van de methode te evalueren. Alle eiwitten die worden gecodeerd door de 64 genomen van E coli werden opgesplitst in venstergroottes van drie, vijf of zeven aminozuren. Dezelfde aminozuurfragmenten van alle genomen werden samengevoegd tot één CSI-vector, die de codongebruiksverdeling van het middelste aminozuur en het gemiddelde codongebruik voor elk aminozuur in het fragment bevatte. het genoom van E coli MG1655 werd gebruikt om de prestaties van het model te trainen en te evalueren. Elk gen in de E coli MG1655 werd opgesplitst in vensters met drie, vijf of zeven codons. Hier werd de grootte van het codonvenster gedefinieerd als: met wie. Elke korte nucleotidesequentie werd ook vertaald als een korte peptide en vervolgens werden alle korte peptiden doorzocht tegen het CSI-bestand met de overeenkomstige codonvenstergrootte. Omdat we de codonselectie van het middelste aminozuur in het peptide wilden voorspellen, moeten het middelste aminozuur van het gematchte peptide en het ingevoerde korte peptide hetzelfde zijn. De overeenkomende score (s) tussen het invoerpeptide en het peptide in het CSI-bestand kon worden berekend met een BLOSUM62-matrix 48 . De verwachte maximale score (m) van het ingevoerde korte peptide is de som van de overeenkomstige diagonale scores in de BLOSUM62-matrix van de aminozuren in het ingevoerde peptide. een afsluiting (C) kan worden gedefinieerd om het juiste peptide in het CSI-bestand te selecteren. Dus als het percentage (p, p = s/m) van de overeenkomende score (s) tot de verwachte maximale score (m) is groter dan cutoff C, zou het overeenkomende peptide in het CSI-bestand worden geselecteerd om de corresponderende invoervector bij te werken. De uiteindelijke invoervector van het korte peptide is het rekenkundige gemiddelde van alle mogelijke gematchte peptiden, en het gewicht van het gematchte peptide is de gematchte score (s). Daarom, als een geschikte cutoff C en raamgrootte met wie werden gedefinieerd, elk codon in het gen behalve de eerste en de laatste met wie codons konden worden weergegeven door één vector en alle vectoren werden verzameld als de invoergegevensset om de codonselectie in te voorspellen E coli. Aangezien twee (methionine en tryptofaan) van de 20 aminozuren worden gecodeerd door slechts één codon, 18 modellen voor elke cutoff C en raamgrootte met wie van de E coli MG1655-genomen werden geconstrueerd om de codonselectie te voorspellen met een willekeurige bosclassificator 49 . Het aantal bomen van de belangrijkste parameter van de classificatie voor willekeurige bossen is 1000. De gemiddelde algehele nauwkeurigheid en de AUC (Area Under the receiver operating karakteristieken Curve) voor elk aminozuurmodel met verschillende parameters werden gebruikt om de prestaties van de methode te evalueren , die werd berekend op basis van een tienvoudige kruisvalidatie. De AUC werd berekend met de verpakking van pROC50.

Eiwitexpressie en -zuivering

De reportergenen (egfp-codon, mApple-codon, egfp-genscript en mApple-genscript) werden gekloond in een pET30a(+)-expressievector en tot overexpressie gebracht in E coli stam BL21(DE3) pLys. Tien enkele kolonies van de getransformeerde E coli met het reportergen werden gedurende de nacht gekweekt in vloeibaar Luria-Bertani-medium dat 50 g/ml kanamycine bevatte bij 30 °C en vervolgens geïnoculeerd in vers auto-inductiemedium (2:100 verdunning) en opnieuw geïncubeerd bij 30 °C onder schudden bij 750 rpm in broedmachine 1000 (Heidolph, Duitsland) 51 . De fluorescentie-intensiteit werd gemeten met tussenpozen van twee uur met behulp van een SpectraMax M2-instrument (Molecular Devices, VS). De excitatie- en emissiegolflengten waren 484 en 507 nm en 568 en 592 nm, voor respectievelijk eGFP en mApple 52 . De getoonde waarden zijn de gemiddelden van tien onafhankelijke experimenten.

Relatieve codonbias

De sterkte van relatieve codonbias (RCBS) werd berekend op basis van de vergelijking in de referenties 53, 54. De eiwitovervloedsgegevens van de E coli is opgehaald uit paxdB 55 .

Methode Beschikbaarheid

Voor niet-commerciële doeleinden kan de code van de software Presyncodon worden gedownload van http://www.mobioinfor.cn/presyncodon.

Beschikbaarheid van data

Alle gegevens die tijdens dit onderzoek zijn gegenereerd of geanalyseerd, zijn opgenomen in dit gepubliceerde artikel (en de bijbehorende aanvullende informatiebestanden).


Conclusies

Hier gebruiken we omgekeerde ecologie om genotype (codonoptimalisatie) te associëren met fenotype (groeisnelheid op galactose) en ecologie (isolatieomgeving) over een hele evolutionaire lijn (ontluikende gisten). Het conceptuele evolutionaire model voor deze associatie (Fig 5) is dat selectie voor verhoogde snelheden van galactosemetabolisme in galactoserijke omgevingen zal resulteren in selectie voor optimalisatie van codongebruik in de GAL genen. Deze selectie zal waarschijnlijk doorgaan totdat het codongebruik niet langer een barrière vormt voor de maximale flux die door deze route wordt toegestaan ​​voor een bepaalde metabole belasting. Daarom weerspiegelt codonoptimalisatie niet alleen een mechanistische maat voor expressie, maar ook een evolutionair signaal voor selectie op verhoogde expressie.

De voorouderlijke soort in omgeving A handhaaft de GALactosemetabolismeroute bij een intermediaire codonoptimalisatie. Bij introductie in omgeving B, die overvloedig galactose bevat, is er een verhoogde vraag naar de GALactosemetabolisme-enzymen om te profiteren van deze energiebron. In deze nieuwe omgeving zijn substituties die de codonoptimalisatie van de GAL genen selectief voordelig zijn. Codonoptimalisatie zal blijven toenemen onder translationele selectie totdat het niet langer een barrière voor expressie is of een optimale flux door de route is bereikt.

Door een bekende metabole route in een divers microbieel subfylum te bestuderen, bieden we een proof of concept voor het nut van codon-optimalisatie als een genomisch kenmerk voor omgekeerde ecologie. Onze ontdekking van optimalisatie in de GAL route in zuivel-geassocieerde Saccharomycetaceae en mens-geassocieerde CUG-Ser1 gisten is consistent met de bekende functionele rollen van de enzymen in de route. Het complete GAL route metaboliseert galactose, een onderdeel van zuivelomgevingen, tot bruikbare energie [127]. De GAL10 gen beïnvloedt fenotypes geassocieerd met menselijke kolonisatie in CUG-Ser1 gisten [88]. Zo ook in de Kluyveromyces soorten gevonden op met zuivel geassocieerde niches die lactose kunnen metaboliseren tot glucose en galactose, is er een hoge optimalisatie in deze route in vergelijking met nauw verwante soorten die niet geassocieerd zijn met zuivel. Interessant is dat onderzoek naar codonoptimalisatie in de genensets van de 4 Kluyveromyces soorten die hier worden bestudeerd, zouden op zijn minst geïdentificeerd zijn K. marxianus als een potentiële zuivel-geassocieerde gist, zelfs bij afwezigheid van enige kennis over de isolatie-omgevingen. Zo kan genoombreed onderzoek van codonoptimalisatie in schimmel- en meer in het algemeen microbiële soorten specifieke hypothesen genereren over metabole ecologie die experimenteel kunnen worden getest. Onze methode kan ook rechtstreeks worden toegepast op eencellige genomen die zijn gegenereerd uit microbiële donkere materie die alleen bekend is uit DNA [128]. Ten slotte hebben we met behulp van een onbevooroordeelde benadering een sterke correlatie vastgesteld tussen optimalisatie in de GAL route en andere routes die betrokken zijn bij metabolische verwerking. Deze nieuwe bevinding suggereert dat codonoptimalisatie ook nuttig kan zijn voor het identificeren van gecoreguleerde of gecorreleerde routes in microbiële, inclusief schimmelsoorten.

Door ons te concentreren op een goed gekarakteriseerde route, zijn we in staat om een ​​specifiek genotype te associëren met zowel een fenotype als ecologie. Hoewel eerdere op codons gebaseerde reverse ecologie-onderzoeken functionele categorieën van genen hebben geïdentificeerd die zijn geassocieerd met omgevingen [39-43], illustreren we dat deze benadering ook nuttig kan zijn op het niveau van individuele genen en routes. Het is belangrijk op te merken dat deze benadering mogelijk niet voor alle genen werkt, vooral niet voor genen met een universeel hoog codongebruik, zoals ribosomale genen en het mannose-metabolismegen. PMI40. Meer in het algemeen suggereren onze resultaten dat codonoptimalisatie een nuttig hulpmiddel kan zijn voor het voorspellen van kandidaatgenen en routes die betrokken zijn bij ecologische aanpassing, die vervolgens experimenteel kunnen worden getest.


Conclusies

Zoals aangetoond, is een proximaal en sterk knelpunt gecorreleerd met een toename in eiwitovervloed. Een proximaal knelpunt kan het aantal vastgelopen ribosomen op een transcript verminderen. Daarom kan het zowel het aantal bezette ribosomen als het aantal vertraagde ribosomen verminderen. Het uitstellen van ribosomen op het mRNA kan hun abortuspercentage verhogen, waardoor de translatie vroegtijdig wordt afgebroken [19], waardoor de eiwitniveaus worden verlaagd. Om ribosomen te laten vastlopen, is een hoge initiatiesnelheid vereist.Dit is gewoonlijk het geval in sterk tot expressie gebrachte genen, in gevallen van heterologe genexpressie, en in synthetische bibliotheken zoals hier besproken waar hoge eiwitniveaus gewenst zijn. Vanwege de beperkingen van de aminozuursequentie voor sommige genen, kan een naïeve benadering, waarbij alleen optimale codons worden gebruikt, resulteren in een onbedoeld distaal knelpunt.

Hoewel de bottleneck-parameters gecorreleerd zijn met eiwitovervloed, zijn ze niet gecorreleerd met fitness. Dit suggereert dat hoewel de bezetting van meer ribosomen ze sekwestreert uit de cel van de cel, het voor de meeste genen in de GFP-bibliotheek geen tekort aan ribosomen veroorzaakt, waardoor de cel andere transcripten kan blijven vertalen. De afname in fitness is gecorreleerd met het toegenomen gebruik van codons UCA en CAU, wat wijst op een tekort aan complementaire tRNA's.

Onze resultaten laten dus zien dat, samen met mRNA-stabiliteit, codonkeuze de translatie-efficiëntie beïnvloedt, en dat naïeve gemiddelde metingen zoals CAI en tAI deze regulerende capaciteit niet vastleggen. De resultaten laten ook zien dat, hoewel codonkeuzes zowel de translatie-efficiëntie als de celfitness beïnvloeden, verschillende aspecten van codonselectie de productiecapaciteit en kosten verschillend beïnvloeden. Een directe conclusie uit onze resultaten heeft betrekking op het populaire gebruik van 'His-tags', ketens van histidine-residuen aan carboxyl-uiteinden van genen in heterologe expressiesystemen [20]. Bij het gebruik van carboxy-terminale His-tags in bacteriële expressiesystemen zou het om twee redenen voordelig zijn om histidine te coderen met CAC in plaats van met CAU: ten eerste omdat CAU negatief lijkt te correleren met fitness en ten tweede om een ​​knelpunt naar de einde van het gen.

Wanneer men probeert het celsysteem te begrijpen, realiseert men zich dat zijn processen op veel verschillende niveaus worden gereguleerd. Zoals in dit artikel wordt getoond, stelden synthetische genbibliotheken ons in staat om een ​​aanzienlijk deel van de genvariabiliteit te controleren en ons te concentreren op de effecten van regio's met minder dan optimale codons (de bottleneck). Identificatie van bottleneck-effecten in synthetische genen completeert Tuller et al.'s [5] bio-informaticawerk dat clustering van laag-efficiënte codons aan het begin van ORF's van natuurlijke genen identificeerde. De resultaten laten verder zien hoe correlatieve conclusies uit observaties van natuurlijke gensequenties kunnen worden aangevuld met synthetische genen, waardoor de sequentiekenmerken die de efficiëntie van translatie bepalen en de kosten ervan kunnen worden gedecodeerd.

Het is onze overtuiging dat door zorgvuldig ontworpen synthetische bibliotheken veel andere regulatieprocessen kunnen worden begrepen, waarmee de eerste stap is gezet om het regulatieproces als geheel te begrijpen.


CODON-OPTIMALISATIE: EEN NUTTiger GENE ONTWIKKELEN OP CODON-NIVEAU

Veel belangrijke bioproducten bestaan ​​uit eiwitten en eiwitten zijn opgebouwd uit aminozuren, gespecificeerd door bepaalde codons in het DNA van een organisme. Dit DNA wordt vervolgens getranscribeerd en vertaald om deze eiwitten te creëren. Omdat meerdere codons kunnen worden gebruikt om een ​​aminozuur te specificeren in E coliis het mogelijk om meerdere coderende sequenties te gebruiken om dezelfde keten van aminozuren te produceren.

De grote vraag

Ook al kunnen genen met verschillende codonvoorkeuren coderen voor hetzelfde eiwit, het is niet noodzakelijk dat ze dat in dezelfde mate doen, of leiden tot expressie van dat eiwit op hetzelfde niveau 1 . De vraag die we stelden is: "Hoe en waarom zijn ze anders?"

Voor biologen kan het antwoord op deze vraag licht werpen op de aard van de vertaling zelf, en de redenen dat sommige codons van nature de voorkeur hebben van het genoom van E coli. Voor ingenieurs zou het kunnen fungeren als een extra controlepunt over lastige genetische systemen en misschien als een efficiëntere productie van bruikbare bioproducten. Voor studenten was het zoeken naar deze antwoorden de zomer van hun leven.

Gedegenereerde codons leiden niet noodzakelijkerwijs tot een even efficiënte expressie van een aminozuur.

Ons doel

Codon-optimalisatie is geen nieuw idee, maar wat ons project speciaal maakt, is dat het verschillende nieuwe criteria voor optimalisatie heeft gebruikt. Door specifieke codons voor een synthetisch gen te kiezen, kunnen we het effect van bepaalde soorten codons op translatie bepalen en uiteindelijk conclusies trekken die zeer nuttig kunnen zijn voor de biotech-gemeenschap.

Om genen te optimaliseren moesten we een aantal criteria vinden. Wat we kozen waren codons die over het algemeen zeldzaam waren in het algehele genoom (zeldzaam-G1), gebruikelijk in het algehele genoom (common-G2), overvloedig aanwezig in regio's van het genoom met bekende snelle translatie-initiatie (fast-G3), overvloedig in regio's van het genoom met een bekende langzame initiatie van translatie (slow-G4), of voorspeld door geavanceerde software met een langzame insertietijd (langzame insertietijd-G5).

Vervolgens kozen we een gen om te optimaliseren en bedachten superfolder GFP, een goed bestudeerd reportergen dat werd beschreven door het Cambridge iGEM-team uit 2008 (deel BBa_I746916). We hebben het gen geoptimaliseerd met behulp van onze vijf criteria en vervolgens plasmiden geassembleerd die alle benodigde onderdelen bevatten om het gen tot expressie te brengen. De "snelle" geoptimaliseerde GFP is als onderdeel ingediend bij het register, aangezien het de enige variant is die we hebben gekarakteriseerd (onderdeel BBa_K1506002).

Om meer te weten te komen over de translationele efficiëntie van onze GFP's, hebben we een gedegenereerde ribosoombindingsplaats (dRBS) ontworpen die vóór alle vijf varianten in ons construct moet worden ingevoegd. Door de expressieplateaus te meten bij hoge translatie-initiatiesnelheden (TIR), kunnen we zien hoe efficiënt onze GFP's worden vertaald. Het verhogen of elimineren van plateaus bij hoge TIR zal een marker zijn van hoe effectief we het gen hebben geoptimaliseerd.

Ons uiteindelijke ontwerp zag er als volgt uit:

Omvat een promotor, RBS, leidersequentie, variantgen en terminator

Onze resultaten

Helaas konden we niet verder gaan dan de kloneringsfase met G4 en voorbij de insertie van dRBS met G1 en G5. Van de twee varianten die we hebben gekarakteriseerd, zijn op dit moment alleen de resultaten voor G2 op sequentie geverifieerd en geanalyseerd.


Toont de aangepaste gemiddelde fluorescentie van de cellen die we hebben gemeten, grafisch weergegeven met de sterkte van de ribosoombindingsplaats in die stam.

De resultaten tonen slechts een vage indicatie dat de expressie van GFP toenam naarmate de TIR toenam. Helaas werden slechts 14 stammen met succes gekarakteriseerd en gesequenced. Door de andere GFP's te karakteriseren, kunnen we het succes van onze optimalisatie bepalen.

Plannen voor de toekomst

Eerst wordt het klonen voltooid. Zodra alle vijf varianten in de ruggengraat aanwezig zijn met de gedegenereerde ribosoombindingsplaats ingevoegd, zullen fluorescentiegegevens worden verzameld. Zodra elke gemeten kolonie is gesequenced, zal de fluorescentie worden weergegeven naast de voorspelde sterkte van de ribosoombindingsplaats. Dit geeft ons een goed idee van de translationele efficiëntie van elke GFP. Door fluorescentiegegevens voor een enkele ribosoombindingsplaats over meerdere GFP's te vergelijken, kunnen we de effecten van onze optimalisatiecriteria bepalen.

1. Subramaniam, Arvind R, Tao Pan en Philippe Cluzel. "Milieustoringen heffen de degeneratie van de genetische code op om eiwitniveaus in bacteriën te reguleren." Proceedings van de National Academy of Sciences van de Verenigde Staten van Amerika 110,6 (2013): 2419-24. Web. 26 mei 2014.

Volledige projectinformatie - voorbij de samenvatting

Codons zijn groepen van drie nucleotiden die een enkel aminozuur specificeren, dat vervolgens tijdens translatie aan een groeiende polypeptideketen wordt toegevoegd. Hoewel elk codon slechts één aminozuur specificeert, worden sommige aminozuren gecodeerd door meerdere codons. Het is aangetoond dat het genoom van E coli vertoont statistische voorkeur voor sommige van deze gedegenereerde codons boven andere, en er wordt verondersteld dat deze codons efficiënter vertalen dan gedegenereerde codons zonder voorkeur. We construeerden synthetische reportergenen volledig uit codons waarvan werd aangenomen dat ze snel of langzaam zijn, en karakteriseerden ze in E coli. Vanaf nu hebben we het niveau van GFP-expressie gekarakteriseerd in G3, de snel coderende sequentie voor superfolder GFP. GFP 2, de gemeenschappelijke coderende sequentie is met succes getransformeerd in het plasmide en er wordt verwacht dat de gegevens voor die variant worden geanalyseerd door de gigantische jamboree. Er zijn nog steeds problemen met het verkrijgen van een dRBS in de G1, rare en G5, de berekende langzame invoegtijd. G4, de langzame codons, is niet met succes in de ruggengraat geïntroduceerd, daarom is vanwege tijdgebrek besloten af ​​te zien van deze variant.


Illustreert het principe van codonredundantie. Het getal in elk gedegenereerd codon verwijst naar het criterium dat ertoe zou leiden dat het wordt gekozen.

Waarom is dit belangrijk?

Voorbeelden van bioproducten die van vitaal belang zijn voor ons leven zijn medicijnen, brandstoffen en zelfs industriële chemicaliën. Codonoptimalisatie is belangrijk omdat het ingenieurs een extra controlepunt geeft over de eiwitsynthese.

Ons onderzoek naar codonoptimalisatie is belangrijk omdat het toekomstige onderzoekers zal helpen om uitgebreidere vertaalmodellen te ontwikkelen. Een beter begrip van vertaling is een voorbeeld van een fundamentele vooruitgang in de biologie die zal leiden tot sneller en efficiënter onderzoek op veel gebieden van de biologie. Als ons onderzoek bijvoorbeeld duidelijk laat zien dat bepaalde gedegenereerde codons de voorkeur hebben omdat ze efficiënter kunnen worden vertaald, kunnen wetenschappers zoeken naar een mechanisme dat deze effecten voorspelt, en zullen ingenieurs worden uitgenodigd om genen opnieuw te ontwerpen om efficiënter te worden vertaald.


Metafoorwaarschuwing: Codonoptimalisatie kan worden gezien als een extra draaiknop die kan worden afgestemd om de output van genetische systemen rationeel te regelen.

Achtergrond

Codonoptimalisatie verwijst naar het idee dat de individuele codons van een gen in een specifiek organisme kunnen worden gewijzigd om het gedrag van dat organisme te veranderen. Dit is gebaseerd op begrip van het centrale dogma van de biologie, dat stelt dat elk organisme eiwitten produceert door eerst genetisch materiaal in de vorm van DNA naar RNA te transcriberen, dat vervolgens wordt "gelezen" door ribosomen die eiwitten produceren op basis van de volgorde van aminozuren in dat RNA. Het lezen van het RNA gebeurt met drie nucleotiden tegelijk, en deze reeksen van drie letters van nucleotiden worden codons genoemd. Codons specificeren aan het ribosoom welk aminozuur moet worden toegevoegd aan een groeiende aminozuurketen.

Er zijn 4 nucleotiden, dus 43 of 64 codons zijn mogelijk. Omdat er slechts 20 aminozuren zijn, is er redundantie in de codons, dat wil zeggen dat sommige aminozuren worden gespecificeerd door meerdere codons. Er is echter geen dubbelzinnigheid, wat betekent dat elk codon slechts één aminozuur specificeert. Codons die coderen voor hetzelfde aminozuur worden gedegenereerde codons genoemd, en hoewel deze gedegenereerde codons coderen voor hetzelfde aminozuur, leiden ze niet noodzakelijk tot dezelfde expressieniveaus van dat aminozuur.


Gedegenereerde codons leiden niet noodzakelijkerwijs tot een even efficiënte expressie van een aminozuur.

Onze doelstellingen

1) Zoek criteria voor het optimaliseren van genen in E coli

Alle coderende sequenties werden zo ontworpen dat er geen verschil zou zijn tussen het aminozuurprofiel van de variant GFP en de originele superfolder GFP. Dit zorgde ervoor dat elk gen leidde tot de expressie van hetzelfde eiwit.

Eerdere onderzoekers hebben door middel van een statistische analyse van het gehele genoom vastgesteld dat sommige gedegenereerde codons vaker voorkomen in eiwitcoderende sequenties en dat sommige minder vaak voorkomen. Deze worden gewone en zeldzame codons genoemd. Het belang hiervan is dat eiwitexpressie in cellen wordt beperkt door ofwel de translatie-initiatiesnelheid (TIR) ​​of de translatieverlengingssnelheid, en er wordt getheoretiseerd dat algemeen voorkomende codons snellere verlengingssnelheden zullen hebben dan gedegenereerde zeldzame codons. De snelheid waarmee de translatie wordt gestart, kan kunstmatig worden gecontroleerd door de sterkte van de ribosoombindingsplaats (RBS) te variëren, die bestaat uit de genetische sequentie die voorafgaat aan de eiwitcoderende sequenties (CDS) van een gen. Dit wordt bereikt door het gebruik van de RBS-calculator, en in eerder onderzoek werd gebruikt om de RBS-sterkte van een gen, GFP mut3b, gestaag te verhogen, waarvan de expressie vervolgens werd gekarakteriseerd. Onverwacht nam het expressieniveau van eiwitten af, zelfs toen de RBS-sterkte (en dus TIR) werd verhoogd. Door de RBS-calculator te gebruiken om de vertaalinitiatiesnelheid te verhogen, kunnen we detecteren wanneer het plateau optreedt, wat de 'maximale vertaalsnelheidscapaciteit' wordt genoemd. Aangezien dit plateau onafhankelijk van TIR optreedt, wordt getheoretiseerd dat het uitsluitend te wijten is aan het feit dat de verlenging van de translatie een snelheidsbeperkende stap wordt. Het ontwerp van de GFP's met alleen veelvoorkomende en zeldzame codons was gebaseerd op de gegevens in deze tabel.

Codonfrequentie


Getal in % kolom toont het percentage van de tijd dat het aminozuur werd gecodeerd met een specifiek codon. Vaker voorkomende codons hebben hogere percentages.

Gewijzigd van Maloy, S., V. Stewart en R. Taylor. 1996. Genetische analyse van pathogene bacteriën. Cold Spring Harbor Laboratory Press, NY.

Om te optimaliseren voor gewone gedegenereerde codons, werd het meest voorkomende codon voor een specifiek aminozuur genomen. Om te optimaliseren voor zeldzame gedegenereerde codons, werd het minst frequente codon genomen. Als bijvoorbeeld een codon in de oorspronkelijke supermap GFP codeerde voor fenylalanine, waren de codons UUU en UUC beschikbaar. De frequenties hiervan zijn overgenomen uit de tabel (UUU-.51, UUC-.59). Voor gewone GFP werd UUU gebruikt wanneer fenylalanine gewenst was, omdat dit de hoogste frequentie had. Voor zeldzame GFP werd UUC gebruikt. Omdat alle codons ofwel gemeenschappelijk bleken te zijn, of zeldzaam voor E coli, hadden de gemeenschappelijke en zeldzame geoptimaliseerde genen nul gemeenschappelijkheid. Tryptofaan is het enige aminozuur dat door één codon wordt gecodeerd, maar het komt niet voor in superfolder GFP.


Het resultaat van algemene/zeldzame optimalisatie is twee coderende sequenties zonder gemeenschappelijkheid.

In een ander recent project worden alle genen (coderende DNA-sequenties) van E. coli verdeeld in vijf groepen op basis van de natuurlijk voorkomende TIR, van laag naar hoog. Vervolgens wordt het codongebruiksprofiel van elke groep genen statistisch geanalyseerd om te bepalen of een codon langzaam of snel is. Een snel codon wordt gedefinieerd als een codon met een hoge correlatie tussen TIR en zijn frequentie. Anders is het een langzaam codon. Er wordt verondersteld dat de groepen van CDS met een hoge TIR meer "snelle" codons zullen bevatten, wat zal leiden tot een hogere translatie-elongatiesnelheid en dus hogere eiwitexpressie, terwijl de langzame regio's meer "trage" codons zullen bevatten, wat leidt tot een lagere expressie. Deze gegevens zijn samengevat in de volgende figuur.

Codonfrequentie in snelle en langzame regio's van het genoom

Snelle codons vertonen een positieve correlatie tussen frequentie en TIR, langzame codons vertonen een negatieve correlatie

Ng, C.Y., Farasat, I., Zomorrodi, A.R., Maranas, C.D. & Salis, H.M. Modelgeleide constructie en optimalisatie van synthetisch metabolisme voor synthese van chemische producten. Synthetische Biologie Engineering Research Center Spring Retreat (2013), Berkeley, CA.

Codons waarvan de frequentie toeneemt met TIR worden gedefinieerd als snelle codons. Degenen met een afnemende frequentie in relatie tot TIR zijn langzame codons en die zonder correlatie worden gedefinieerd als onafhankelijk van TIR. Dit kan in de bovenstaande afbeelding worden bekeken als de helling van de grafieken voor elk codon dat de verhouding en TIR weergeeft. Als de verhouding toeneemt met TIR, is het codon snel en geeft de grafiek een positieve helling weer. Langzame codons vertragen de negatieve helling en TIR-onafhankelijke codons vertonen in wezen geen helling.

Voorbeeld van een snel codon. Merk op dat het codon vaker voorkomt in hogere TIR-regio's van het genoom.

In een ander gerelateerd onderzoeksproject ontwikkelden onderzoekers een programma dat het proces van vertaalverlenging modelleert. Dit programma houdt rekening met de chemische binding van individuele codons aan ribosomen en met tal van andere relevante biologische criteria en kan de tijd voorspellen die een ribosoom nodig heeft om een ​​aminozuur toe te voegen aan een groeiende polypeptideketen. Dit staat bekend als de "insertietijd" voor dat codon. Met behulp van deze software werd een lijst met de invoegtijden voor elk codon samengesteld. Er wordt getheoretiseerd dat codons met langere insertietijden lagere translatie-verlengingssnelheden zullen hebben en dus de expressie van het eiwit van de specifieke CDS die de langzame codons bevat, zullen verlagen. Deze gegevens zijn samengevat in onderstaande tabel.


Er wordt aangenomen dat codons met snellere insertietijden leiden tot hogere eiwitexpressie.

2) Pas deze criteria toe op een reportergen (GFP)

Het is belangrijk om het verschil te begrijpen tussen de criteria voor langzaam, snel, zeldzaam, algemeen en invoegtijden. Veelvoorkomende en zeldzame codons zijn gebaseerd op de frequentie van bepaalde gedegenereerde codons in het gehele E. coli-genoom. De hypothese dat gemeenschappelijke codons zullen leiden tot een hogere expressie van eiwitten is gebaseerd op het idee dat cellen door evolutie zijn geoptimaliseerd om eiwitten die nodig zijn voor hun overleving efficiënt te vertalen. Op basis van deze aanname zullen de meest efficiënte codons vaker in het totale genoom voorkomen. De snelle en langzame codondifferentiatie is gebaseerd op een zeer vergelijkbare analyse. Snelle codons worden gedefinieerd als die met een hoge correlatie tussen frequentie en de hoge TIR-regio's van het genoom, terwijl langzame codons die zijn met een hoge correlatie tussen frequentie en de lage TIR-regio's van het genoom. Dit is een uitbreiding van het onderscheid tussen veelvoorkomend/zeldzaams, maar is specifieker, aangezien bepaalde delen van het genoom met een lage TIR mogelijk kunnen coderen voor eiwitten waar hoge expressie (en dus snelle translatieverlenging) niet nodig is. Door het codongebruiksprofiel van individuele regio's van het genoom met verschillende TIR te analyseren, wordt aangenomen dat de snelle en langzame codons kunnen worden gebruikt om de expressie van een bepaald gen kunstmatig te regelen door middel van codonoptimalisatie. In sommige gevallen wordt hetzelfde codon gebruikt voor meerdere optimalisatieplannen (snel, algemeen, enz.) om een ​​bepaald aminozuur te specificeren. Hierdoor hebben sommige genen overeenkomsten, waarbij hetzelfde codon op dezelfde positie wordt gebruikt.


Het resultaat van algemene/snelle optimalisatie is twee coderende sequenties die vergelijkbaar kunnen zijn, aangezien in sommige gevallen een codon zowel algemeen als snel kan zijn.

Het ontwerp van de langzame invoegtijd was uitsluitend gebaseerd op recent ontworpen software die de biofysische verschijnselen analyseert die ten grondslag liggen aan de verlenging van de vertaling. Het verschil tussen de langzame invoegtijd GFP en de andere is dus dat deze is geoptimaliseerd op basis van de resultaten van biofysische modellering in plaats van codongebruiksprofiel, en dus, bij begrip van de fysica van translatieverlenging versus het begrip dat evolutie organismen optimaliseert voor hoge efficiëntie. De algemene hypothese van dit onderzoek kan nu volledig worden begrepen.

Deze hypothese is dat de maximale translatiesnelheid te wijten is aan het feit dat translatie-verlenging de snelheidsbeperkende stap van eiwitsynthese wordt, en dat het zou kunnen worden gecontroleerd door de translatie-verlengingssnelheid te verhogen, door middel van codon-optimalisatie van de CDS. In wezen wordt verondersteld dat de aanwezigheid van meer algemene of snelle codons de maximale translatiesnelheidscapaciteit verhoogt, terwijl de aanwezigheid van langzamere, zeldzamere of langzamere insertietijdcodons deze zal verlagen.

Om deze hypothese te testen, werden vijf varianten van het Green Fluorescent Protein-gen (GFP) ontworpen en geconstrueerd. De TIR van elke variant GFP werd vervolgens gevarieerd door ribosoombindingsplaatsen (RBS) van verschillende sterkte aan de synthetische genen te hechten. De genen werden vervolgens tot expressie gebracht in E. coli-cellen.


Toont de overeenkomst tussen GFP's. Genen met tegengestelde criteria, zoals langzaam/snel en vaak/zeldzaam, vertonen weinig overeenkomst.

Om de genen te ontwerpen is een aangepast programma gemaakt dat alle gedegenereerde codons in een gen vervangt door de gewenste codons, bijvoorbeeld alle zeldzame codons vervangen door gewone gedegenereerde codons of alle langzame codons door snel gedegenereerde codons. De varianten werden opgestuurd voor constructie in een commercieel laboratorium (Integrated DNA Technologies) en vervolgens ingebracht in virale DNA-vectoren die via bestaande replicatiemachines in de plasmiden van de cellen werden opgenomen. Dit werd bereikt door middel van basisklonering en de expressie van het fluorescerende eiwit werd vervolgens gekarakteriseerd met behulp van flowcytometrie, een kwantitatieve methode voor het meten van fluorescentie. Met behulp van deze gegevens werd de maximale translatiesnelheidscapaciteit van elke variant GFP bepaald en die gegevens werden gebruikt om onderscheid te maken tussen zeldzame, langzame, frequente en snelle codons.

3) Introduceer de synthetische genen die zijn geoptimaliseerd met behulp van onze criteria in: E coli

Ons algemene plan voor het tot expressie brengen van onze variante GFP's in levende cellen was om de genen in een vector te ligeren, de cellen met de vector te transformeren en vervolgens de sequentie te bepalen om de aanwezigheid van onze variantgenen te bevestigen. Hierna hebben we geligeerd in een dRBS, de florescentie van de cellen gemeten en vervolgens opnieuw de sequentie bepaald om te bepalen welke kolonies welke RBS gebruikten.

De onderstaande afbeeldingen tonen het constructieproces dat we hebben gebruikt om een ​​RBS-bibliotheek en variant GFP in plasmide pFTV in te voegen.

Inverse PCR


Door middel van inverse PCR knippen we de bestaande superfolder GFP weg terwijl we de rest van het plasmide versterken. Door "staarten" toe te voegen aan onze primers buiten de annealing-sites waren we in staat om nieuwe restrictie-sites in het plasmide te introduceren.

Inverse PCR-producten

Inverse PCR verwijdert de reeds bestaande coderende sequencing terwijl tegelijkertijd de plasmide-ruggengraat wordt versterkt met de nieuwe restrictieplaatsen.

GFP invoegen

Elke GFP-variant wordt afzonderlijk ingevoegd

Er werd besloten om een ​​leidersequentie te gebruiken om de eerste 60 basenparen van elke GFP te homogeniseren.

Waarom een ​​leiderreeks gebruiken?

Leader Sequence is sterk geoptimaliseerd om ervoor te zorgen dat het niet de snelheidsbeperkende stap in de vertaling wordt. Het zorgt ervoor dat een gelijk bereik van translatie-initiatie wordt bemonsterd voor alle varianten door de eerste 60 basenparen te homogeniseren, wat van invloed kan zijn op TIR.

Onze constructie vóór het inbrengen van de dRBS

De dRBS wordt ingevoegd tussen Sac1 en Pst1


pFTV met een variant GFP. De dRBS wordt ingevoegd tussen de sites Sac1 en Pst1.

De spacer die een plaats had ingenomen voor de dRBS wordt uitgesneden door de enzymen Sac1 en Pst1

dRBS wordt geflankeerd door restrictieplaatsen Sac1 en Pst1 en wordt vervaardigd door twee complementaire oligo's te gloeien die de dRBS bevatten.

De ribosoombindingssite

De gedegenereerde ribosoombindingsplaats (dRBS) is een sequentie die een bibliotheek met ribosoombindingsplaatsen bevat. Met behulp van software die is ontwikkeld door het Salis Lab, hebben we het bereik van translatie-initiatie (TIR) ​​berekend dat voor deze sequentie zou worden verwacht, van 0,5-157.000 au.

De dRBS-sequentie is de locatie waar het ribosoom bindt, en een hogere TIR zorgt ervoor dat meer ribosomen aan het mRNA kunnen binden. Het was essentieel om de prestaties van onze synthetische GFP's over een breed TIR-bereik te meten om te zien of expressie een plateau bereikte bij hoge TIR, wat aangeeft dat de verlenging van de translatie de snelheidsbeperkende stap was, of dat het samen met TIR steeg, wat aangeeft dat de verlenging had voldoende efficiënter zijn gemaakt om een ​​plateau te voorkomen.

De reeks draagt ​​vijf gedegenereerde letters. Vier van deze specificeren een van de twee mogelijke basen, terwijl de andere een van de drie specificeert. Hierdoor zijn er 2*2*2*2*3 = 48 mogelijke sequenties in onze dRBS.

Grafiek met de sequenties in onze bibliotheek en hun berekende TIR

Elk nummer op de x-as komt overeen met een van de reeksen van de in totaal 48. TIR wordt in een grafiek weergegeven op de y-as.

Salis, Howard, Voight, Christopher en Mirsky, Ethan. "Geautomatiseerd ontwerp van synthetische ribosoombindingsplaatsen om eiwitexpressie te regelen." Natuurbiotechnologie 27 (2009): 946 - 950. Web.

De uiteindelijke constructie


Omvat een promotor, RBS, leidersequentie, variantgen en terminator

4) Karakteriseer de GFP's door de fluorescentie van de cellen te meten

We waren in staat om de fluorescentie van de snelle codonvariant van superfolder GFP te karakteriseren.

Deze grafiek toont de absorptie van onze kolonies versus de tijd.


Het is duidelijk dat verschillende soorten de rest overtreffen.

De sterkste stammen hadden niet de hoogste TIR-ribosoombindingsplaatsen.

Onverwacht bevatten de meest productieve stammen niet de sterkste ribosoombindingsplaatsen. Het is mogelijk dat bij zeer hoge TIR de cellen toxiciteit ondervonden of te veel metabole belasting door de productie van GFP. Met verdere karakterisering van de GFP's zal het mogelijk zijn om de expressie van stammen die dezelfde RBS maar verschillende variante GFP's bevatten, te vergelijken. Door deze analyse kunnen we de sterkte van onze optimalisatiecriteria bepalen en hopelijk bijdragen aan het vermogen van toekomstige ingenieurs om hun genetische systemen te optimaliseren.


Materiaal en methoden

Cultuur en differentiatie van menselijke embryonale stamcellen

De menselijke embryonale stamcel (hESC) lijn Hues9 (H9) werd verkregen van het Wicell Research Institute (Madison, WI). hESC's werden gehandhaafd in Essential 8-media (Thermo Fisher Scientific) op hESC-gekwalificeerde Matrigel (Corning) -gecoate platen bij 37 ° C met 5% CO2. Kweken werden om de 4 dagen in klonten gedissocieerd met 0,5 mM EDTA in PBS en de media werden dagelijks vernieuwd. Differentiërende hESC's werden gedurende 5 dagen gekweekt in MEF-geconditioneerde KSR-media plus 1 μM retinoïnezuur in DMSO, terwijl de controle-hESC-populatie werd gehandhaafd in MEF-geconditioneerde KSR-media aangevuld met 4 ng / ml FGF2 of Essential 8-media (Thermo Fisher Scientific ). In de loop van het experiment werden de media dagelijks vervangen. KSR-media bestaat uit 85% KO-DMEM (Thermo Fisher Scientific), 15% KO-serumvervanging (Life Technologies), 1 mM Glutamax (Thermo Fisher Scientific), 0,1 mM 2-mercapto-ethanol (Thermo Fisher Scientific) en 0,1 mM niet -essentiële aminozuren (Thermo Fisher Scientific). In de embryoïde lichaamsexperimenten werden 70% confluente hESC's gedissocieerd in klonten met behulp van 0, 5 mM EDTA in PBS en gezaaid in putplaten met ultralage aanhechting (Corning) met behoud van een verdunningsfactor van 1: 1. hESC's werden de eerste 24 uur gekweekt in Essential 6-media (Thermo Fisher Scientific) plus 10 μM rotsremmer (Y-27632) (Stem Cell Technologies Canada) en gedurende nog eens 4 tot 6 dagen in Essential 6-media (Thermo Fisher Scientific), wanneer monsters werden verzameld voor qPCR- of Western-blot-experimenten.

RNA, qPCR en Western-blot

Totaal RNA werd geëxtraheerd met behulp van TRIZOL (Thermo Fisher Scientific) volgens de instructies van de fabrikant. Reverse transcriptie werd uitgevoerd met behulp van SuperScript III Reverse Transcriptase (Thermo Fisher Scientific) en willekeurige primers (Promega). Kwantitatieve PCR werd uitgevoerd met behulp van TaqMan-sondes (Thermo Fisher Scientific) voor eukaryotisch 18S rRNA (X03205.1), ADAT2 (Hs00699339_m1) CDX2 (Hs01078080_m1), DLX3 (Hs00270938_m1), DLX5 (Hs01573641_mX) , GATA6 (Hs00232018_m1), HOXA1 (Hs00939046_m1), NANOG (Hs02387400_g1), POU5F1 (Hs03005111_g1), PRDM14 (Hs01119056_m1) en TDGF1 (Hs02339497_g1).

Eiwitextracten die werden gebruikt voor western blotting werden bereid in RIPA-buffer (50 mM natriumchloride, 1,0% NP-40, 0,5% natriumdeoxycholaat, 0,1% SDS, 50 mM Tris, pH 8,0). De antilichamen die in de experimenten werden gebruikt, waren anti-HSP90 (sc-13119) 1:5000 en anti-OCT3/4 (sc-5279) 1:1000, zowel van Santa Cruz Biotechnologies als anti-ADAT2 (ab135429) 1:1000 en anti- ADAT3 (ab125514) 1:1000, beide van Abcam. De intensiteit van de Western-blotband werd gemeten met ImageJ.

Immunofluorescentie

Voor immunofluorescentie-experimenten werden hESC's uitgeplaat op met Matrigel beklede dekglaasjes en gekweekt zoals beschreven. Op het gewenste tijdstip werden cellen gewassen in PBS en gedurende 10 minuten gefixeerd in ijskoude 4% PFA. Celpermeabilisatie werd gedurende 5 minuten bij kamertemperatuur uitgevoerd in 0, 01% Triton x-100 in PBS. Dekglaasjes werden gedurende 1 uur bij kamertemperatuur geblokkeerd met behulp van 10% ezelserum in PBS. Anti-ADAT2 (ab135429) 1:100 en anti-ADAT3 (ab125514) 1:100 primaire antilichamen werden overnacht in dezelfde blokkerende oplossing geïncubeerd. Alexa Fluor secundaire antilichamen (Thermo Fisher Scientific) werden gebruikt in een verdunning van 1:500 in blokkerende oplossing. Kernen werden tegengekleurd met behulp van DAPI. Beelden werden verkregen op een Leica SP8 confocale microscoop en verwerkt.

Bereiding van RNA-seq-, Ribo-seq- en tRNA-seq-bibliotheken

Totaal RNA van zelfvernieuwende en gedifferentieerde hESC's (vier biologische replica's per aandoening) werd geëxtraheerd met Trizol volgens de instructies van de fabrikant. Totaal RNA werd behandeld met de RiboZero Magnetic Kit (Epicentre, MRZH11124) om ribosomaal RNA te verwijderen. Bibliotheken voor sequencing werden voorbereid met behulp van de NEB ultra-directionele bibliotheekvoorbereidingskit (NEB).

Ribosoom-beschermd RNA werd geïsoleerd zoals eerder beschreven [61, 74]. In het kort, op de aangegeven tijdstippen, werden H9-cellen (4 replica's) gewassen met PBS en gelyseerd in 20 mM Tris-Cl (pH 7,4), 150 mM NaCl, 5 mM MgCl2, 1 mM dithiothreitol (DTT) (Sigma), 1 % Triton X-100 (Sigma), 25 U ml − 1 Turbo DNase I (Thermo Fisher Scientific), en 100 μg ml −1 cycloheximide (Sigma). Nadat de lysaten tien keer door een 26-G-naald waren geleid, werden ze gedurende 10 minuten bij 13.000 rpm afgedraaid. Digestie met RNaseI (100 U l , Thermo Fisher Scientific) gedurende 45 minuten bij kamertemperatuur werd gebruikt om ribosoom-mRNA-voetafdrukken te produceren. De RNaseI-digestie werd geremd met SuperaseIN (Thermo Fisher Scientific) en lysaten werden gefractioneerd op een 1 M sucrosekussen door ultracentrifugatie bij 45.000 rpm in een 70Ti-rotor gedurende 9 uur bij 4 ° C. De ribosoom-mRNA-voetafdrukken werden verder gezuiverd met behulp van Qiazol-reagens. Voetafdrukken met een lengte van 26-34 nucleotiden werden op grootte geselecteerd op 15% TBE-ureumgel (Thermo Fisher Scientific) en 3'-gedefosforyleerd met T4-polynucleotidekinase (10 U, NEB). Alle monsters werden gemultiplext en gesequenced op het HiSeq2500-platform (Illumina). De NGS-gegevens worden geüpload naar GEO (GSE123611): Bornelöv S, Selmi T, Flad S, Dietmann S, Frye M. Optimalisatie van codongebruik in pluripotente embryonale stamcellen. Gegevenssets. Genexpressie Omnibus.https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE123611(2019).

Voor tRNA-sequencing, differentiatie en zelfvernieuwing werden H9 (vier replica's per conditie) verzameld in TRIZOL (Thermo Fisher Scientific) op dag 5 van differentiatie. Vijftig microgram totaal RNA-monsters werd gedurende 30 minuten bij 37 ° C met DNaseI verteerd (Ambion). De behandelde monsters werden vervolgens onderworpen aan extractie met fenol-chloroform en precipitatie met isopropanol en opnieuw gesuspendeerd in 1 mM EDTA 0,1 M Tris-HCl (pH 9,0). Eén microgram van elk replicaat werd gebruikt om cDNA's te genereren en qPCR uit te voeren om differentiatie te bevestigen. Het resterende monster werd gedurende 30 minuten bij 37 ° C verwarmd om tRNA's te de-aminoacyleren. Vervolgens werden de monsters gedurende 5 minuten bij 80 °C verwarmd en vervolgens geladen op een NovexTM TBE-Urea polyacrylamidegel (Thermo Fisher Scientific). Een gelfragment van 50 tot 100 nucleotiden, volgens de Abnova RNA-marker low easy, werd uit de gel gesneden en opnieuw gesuspendeerd in 400 l van een oplossing van 300 mM NaAc pH 5,5, 1,0 mM EDTA en 0,25% SDS. RNA werd geëxtraheerd door een cyclus van 30 minuten invriezen bij -80 ° C gevolgd door een nacht voorzichtig mengen bij kamertemperatuur in dezelfde buffer en vervolgens werd met ethanol geprecipiteerd. RNA-uiteinden van alle tRNA-fragmenten werden gefosforyleerd door behandeling met 20 U T4-polynucleotidekinase (NEB) aangevuld met ATP (NEB). Na warmte-inactivatie en extractie met fenolchloroform en precipitatie met isopropanol, werden monsters onderworpen aan bibliotheekvoorbereiding met behulp van de Illumina Truseq kleine RNA-kit (Illumina). Monsters werden gemultiplext en gesequenced op het HiSeq4000-platform (Illumina).

Verwerking van RNA-seq-, Ribo-seq-gegevens en tRNA-seq-gegevens

Menselijke RNA-seq- en Ribo-seq-gegevens werden verkregen zoals hierboven beschreven. Muis-RNA-seq- en Ribo-seq-gegevens met toegangsnummers SRR315620-SRR315627 en SRR31591-SRR31600 werden gedownload uit het NCBI short read-archief [49]. Trim_galore! werd gebruikt om kleine RNA-adapters uit de menselijke gegevens te halen (automatisch gedetecteerd onder standaardinstellingen) of polyadenylatiesequenties uit de muisgegevens (met behulp van de parameters "--stringency 1" en "--adapter" met tien "A" gevolgd door meerdere "N"). Bijgesneden leest korter dan 20 nt werden weggegooid. Uitlijning werd gedaan met behulp van Tophat2 (v2.1.0) [75]. De RNA-seq-lezingen werden direct uitgelijnd met het referentiegenoom (hg38 of mm10). Ribo-seq-uitlezingen werden eerst uitgelijnd met een reeks bekende rRNA- en tRNA's (geselecteerd uit de UCSC RepeatMasker-tracks), gevolgd door uitlijning van alle niet-toegewezen uitlezingen met het referentiegenoom. Een index met bekende transcripten (Gencode v23 of Gencode vM9) werd verstrekt voor de genoomuitlijning en nieuwe splitsingsknooppunten waren toegestaan ​​[76, 77]. Multi-mapping leesuitlijningen werden niet gebruikt.

Voor tRNA-seq-gegevensanalyses, Trim in overvloed! met "--paired --stringency 6 -a TGGAATTCTCGG -a2 GATCGTCGGACT" werd gebruikt om kleine RNA-adapters te trimmen en om uitlezingen korter dan 20 nucleotiden te verwijderen. Uitlijning werd gedaan met behulp van vlinderdas [78] met "-n 2 -y -k 1 --nomaqround --allow-contain" om maximaal twee mismatches in de uitlijning mogelijk te maken en om één uitlijning per uitlezing te rapporteren. De uitlezingen werden uitgelijnd met de 430 tRNA's van de zeer betrouwbare set in GtRNAdb [79]. Introns werden verwijderd en de "CCA" -staart werd toegevoegd voordat de vlinderdas-index werd gemaakt.

Gemodificeerde bases werden geïdentificeerd met behulp van samtools mpileup met "-BQ 0 -t AD -vuf" om de basisdekking per posities te rapporteren. Inosine-modificaties werden geïdentificeerd als posities met een A-naar-G-substitutie op positie 33-35. De aanwezigheid van het verwachte anticodon in de referentiesequentie werd gebruikt om te verifiëren dat alleen substituties op het juiste nucleotide werden geteld. We identificeerden 21 Ala, 7 Arg, 8 Ile, 9 Leu, 9 Pro, 8 Ser, 7 Thr en 9 Val-tRNA's met ten minste één in kaart gebrachte uitlezing die de substitutie ondersteunt. Dit zijn dezelfde acht tRNA-isotypen waarvan werd verwacht dat ze zouden worden gemodificeerd. Vervolgens hebben we het algehele wijzigingsniveau per monster geschat als het percentage leesbewerkingen dat de wijziging (A-naar-G-substitutie) over alle 78 gemodificeerde tRNA's ondersteunt.

Meta-genprofiel

DeepTools werden gebruikt om de Ribo-seq-dekking over het hele referentiegenoom te kwantificeren [80]. Elke streng werd afzonderlijk gekwantificeerd en er werd een zwarte lijstbestand met alle rRNA, tRNA, snoRNA, snRNA en miRNA verstrekt. De bin-grootte was ingesteld op 1 en een offset van 12 werd gebruikt om slechts een enkele nucleotide te beschouwen die overeenkomt met de "P" -site die voor elke uitlezing werd voorspeld. Een meta-genprofiel voor alle eiwitcoderende genen werd vervolgens berekend met behulp van computeMatrix met de parameters "scale-regions -b 500 --unscaled5prime 200 --regionBodyLength 1000 --unscaled3prime 200 -a 500" om relatieve coördinaten te definiëren en "--metagene --exonID CDS --transcriptID gene --transcript_id_designator gene_id" om te definiëren de coderende sequentie van elk gen. Ten slotte werd een getrimd gemiddelde gebruikt om de meest extreme waarde op elke positie uit te sluiten.

Differentiële mRNA-niveaus en translatie

Genmodellen werden gedownload van Gencode (v23 voor mens en vM9 voor muis). FeatureCounts werd gebruikt om het aantal reads per gen te kwantificeren, weergegeven door ofwel alle geannoteerde exons (RNA-seq) of alle geannoteerde coderende sequenties (Ribo-seq) [81]. Alleen reads die overeenkomen met de sense-streng van het gen en met een afbeeldingskwaliteit van ten minste 20 werden geteld. Voor het gepaarde RNA-seq werden de extra vlaggen "-B -C" gespecificeerd om chimere uitlezingen en/of leestoewijzing met slechts één uiteinde uit te sluiten. Differentiële mRNA-expressie en translatieanalyses werden gedaan met DESeq2 [82]. De heatmaps zijn gemaakt met behulp van het R-pakket pheatmap (https://CRAN.R-project.org/package=pheatmap), en het aminozuurlogo is gemaakt met behulp van het DiffLogo-pakket [83].

Bepalen van de leesperiodiciteit en de positie van de ribosoom P-site

Ribosoomprofileringsgegevens vertonen een periodiciteit van 3 nt, maar het leeskader van de 5 'leeseinden verschilt tussen verschillende experimenten en zelfs tussen leeslengtes binnen hetzelfde experiment. De menselijke gegevens vertoonden de sterkste periodiciteit voor uitlezingen met een lengte van 27-29 (aanvullend bestand 1: figuur S1E-F), het 5'-uiteinde van die uitlezingen was sterk verrijkt voor de eerste codonpositie en de meest voorkomende startpositie bevond zich 12 posities stroomopwaarts van de TIS. We hebben daarom besloten om onze codonanalyse bij mensen te baseren op deze drie leeslengtes en leespositie 12-14 te extraheren als het P-site-codon.

De muisgegevens toonden verschillende dominerende leesframes voor verschillende leeslengtes (aanvullend bestand 1: figuur S4C). Om het sterkste leeskader voor elke leeslengte te voorspellen, hebben we opnieuw het aantal leesbewerkingen berekend vanaf elke positie rond de TIS (zie Aanvullend bestand 1: Afbeelding S4D voor een voorbeeld). Vervolgens telden we het meest voorkomende leeskader zowel per codon (van codonpositie − 7 tot + 32 ten opzichte van de TIS) als over de hele regio. We hebben de leeslengten uitgesloten waarbij het leeskader dat het meest voorkomt in het hoogste aantal codons, anders was dan het leeskader dat in totaal het meest voorkomt. Verder vereisten we dat het meest voorkomende leeskader ten minste vijf keer overvloediger was dan het op één na meest voorkomende, zowel in termen van het aantal codons als in totaal. Dit resulteerde in het selecteren van leeslengtes 26, 29, 31-36 en 39 voor de muisgegevens. Hiervan werd leeslengte 39 later uitgesloten vanwege het feit dat er aanzienlijk minder metingen waren en een slechte correlatie met de anderen. Aangezien het hoogste aantal uitlezingen 13 of 14 posities stroomopwaarts van de TIS begon (afhankelijk of frame 3 of 2 het meest overvloedig was), hebben we een of twee nucleotiden van de uitlezingen in de daaropvolgende analyse bijgesneden, zodat de P-site nog steeds zou worden gelokaliseerd op leespositie 12-14 vergelijkbaar met de menselijke gegevens.

Extraheren van codontellingen per positie ten opzichte van de A-site

Het bam-bestand voor elk monster met uniek uitgelijnde uitlezingen werd geconverteerd naar bedformaat. Bedtools kruisen elkaar werd gebruikt om reads te selecteren met ten minste 50% overlap met Gencode-geannoteerde coderende sequenties. Vervolgens werd het leesframe van het 5'-uiteinde van elke lezing bepaald met behulp van de frame-informatie in de Gencode-annotatie. Als het frame niet overeenkwam met het verwachte leesframe voor die leeslengte, werd de lees weggegooid.Voor de muisgegevens werden bij aflezingen die beginnen met de derde of tweede positie van een codon, een of twee nucleotiden van de aflezing afgesneden om alle aflezingen in hetzelfde leeskader te plaatsen. Vervolgens werden nucleotideposities 1-27 geëxtraheerd uit elk gelezen als negen codons, genummerd als codonpositie − 5 tot + 3, waarbij 0 overeenkwam met de A-site. Vervolgens telden we het aantal keren dat elk codon per positie was voorgekomen en valideerden we de aanpak door te verifiëren dat het aantal codons berekend met verschillende leeslengtes, maar overeenkomend met dezelfde codonpositie (bijv. de P-site) beter met elkaar correleerden dan met elk ander codon telt. Verder correleerden tellingen van positie − 4 tot − 2 en +1 tot + 3 goed met de genoombrede distributie van codons in de humane en muizentranslatomen, terwijl tellingen van de voorspelde P-site en A-site dat niet deden. We concludeerden daarom dat we codons telden van het juiste frame voor elke opgenomen leeslengte voor zowel mens als muis.

Codonverrijking

Het aantal codonvoorvallen werd afzonderlijk geteld voor elke door ribosoom beschermde codonpositie en omgezet in een fractie van het totale aantal. Genormaliseerde codontellingen werden verkregen door de codonfractie op een specifieke positie te delen door de gemiddelde fractie over alle negen posities. Significante verschillen in genormaliseerde codonverrijking werden berekend met behulp van Student's t test met behulp van de vier biologische replica's per celtoestand. De P waarden werden gecorrigeerd voor meerdere testen met behulp van FDR-correctie. De figuren tonen het signaal over gepoolde replica's.

GO-termanalyse

Codeersequenties werden gedownload van het consensus CDS-project. GO-relaties (go-basic.obo) werden gedownload van het Gene Ontology Project (//www.geneontology.org) en ontleed met behulp van de Perl-module GO::Parser. Relatieve codonfrequenties werden berekend per gen en vervolgens gemiddeld per GO-term. Alleen GO-termen met ten minste 40 genen werden overwogen. De PCA-analyse werd uitgevoerd in R met behulp van de methode hoofdpersoon met behulp van de correlatiematrix.