Informatie

Bevestiging van exon-shuffling in een gen


Ik probeer te bevestigen dat de sequentie van een nieuw gen wordt afgeleid door exon-shuffling tussen verschillende genen. Ik heb de promotorsequentie, gensequentie en mRNA (met gedefinieerde exon/intro-grenzen). Ik heb geprobeerd verschillende database-zoekopdrachten uit te voeren met de reeksen, maar elke zoekopdracht levert een reeks verschillende niet-gerelateerde treffers op. Hoe zou iemand deze informatie gebruiken om de exon-shuffling-hypothese te bevestigen? Alle tips worden op prijs gesteld. Bedankt!


Het is niet duidelijk wat 'meerdere database-zoekopdrachten met de sequenties' zijn. De meest voor de hand liggende oplossing is om je reeks op te blazen, zodat je kunt zien welk deel niet kan worden uitgelijnd en vervolgens de rest te vernietigen. U kunt verschillende implementaties kiezen (megablast of blastn) en spelen met algoritmeparameters omdat het mogelijk niet werkt zoals het is. Maar het werkt zoals het is als je exons afzonderlijk opblaast. Op deze manier kun je oorsprongsgenen identificeren.


Recente onderzoeken naar het genoom van protisten, planten, schimmels en dieren bevestigen dat de toename van de genoomgrootte en het genaantal in verschillende eukaryote lijnen gepaard gaat met een algemene afname van de compactheid van het genoom en een toename van het aantal en de grootte van introns. Het kan dus worden voorspeld dat exon-shuffling steeds belangrijker is geworden met de evolutie van grotere, minder compacte genomen. Om de validiteit van deze voorspelling te testen, hebben we de evolutionaire distributie van modulaire eiwitten geanalyseerd die duidelijk zijn geëvolueerd door intronische recombinatie. De resultaten van deze analyse geven aan dat modulaire multidomein-eiwitten geproduceerd door exon-shuffling beperkt zijn in hun evolutionaire distributie. Hoewel dergelijke eiwitten aanwezig zijn in alle grote groepen metazoa, van sponzen tot chordaten, is er praktisch geen bewijs voor de aanwezigheid van verwante modulaire eiwitten in andere groepen eukaryoten. De biologische betekenis van dit verschil in de samenstelling van de proteomen van dieren, schimmels, planten en protisten wordt het best gewaardeerd wanneer deze modulaire eiwitten worden geclassificeerd met betrekking tot hun biologische functie. De meeste van deze eiwitten kunnen worden ingedeeld in functionele categorieën die onlosmakelijk verbonden zijn met multicellulariteit van dieren, en die van absoluut belang zijn om dieren op een geïntegreerde manier te laten functioneren: bestanddelen van de extracellulaire matrix, proteasen die betrokken zijn bij weefselremodelleringsprocessen, verschillende eiwitten lichaamsvloeistoffen, membraan-geassocieerde eiwitten die cel-cel- en cel-matrix-interacties bemiddelen, membraan-geassocieerde receptoreiwitten die cel-celcommunicatie reguleren, enz. Hoewel sommige basistypen modulaire eiwitten door alle belangrijke groepen van metazoa lijken te worden gedeeld, zijn er ook groepen modulaire eiwitten die beperkt lijken te zijn tot bepaalde evolutionaire lijnen.

Samenvattend suggereren de resultaten dat exon-shuffling een grote betekenis kreeg ten tijde van metazoaire straling. Het is interessant om op te merken dat de opkomst van exon-shuffling samenvalt met een spectaculaire uitbarsting van evolutionaire creativiteit: de oerknal van metazoaire straling. Het lijkt waarschijnlijk dat modulaire eiwitevolutie door exon-shuffling aanzienlijk heeft bijgedragen aan deze versnelde evolutie van metazoa, omdat het de snelle constructie van multidomein extracellulaire en celoppervlakte-eiwitten mogelijk maakte die onmisbaar zijn voor multicellulariteit.


Gestructureerde samenvatting

INVOERING

Hoe nieuwe eiwitarchitecturen evolueren, blijft slecht begrepen. De herschikking van domeinen met reeds bestaande functies in nieuwe samengestelde architecturen door exon-shuffling is een krachtig pad om genen te vormen die coderen voor eiwitten met nieuwe functionaliteiten. Hoewel wordt aangenomen dat exon-shuffling verantwoordelijk is voor de evolutie van veel eiwitstructuren, zijn de bron van nieuwe exons en splitsingsplaatsen, evenals de mechanismen waarmee ze worden geassimileerd, nauwelijks gekarakteriseerd. In dit werk onderzoeken we de bijdrage van DNA-transposons aan de vorming van nieuwe eiwitcoderende genen door exon-shuffling tijdens de evolutie van gewervelde dieren.

RATIONALE

DNA-transposons zijn wijdverbreide mobiele elementen die coderen voor transposase-eiwitten die hun zelfzuchtige replicatie in gastheergenomen bevorderen. Transposasen bevatten typisch DNA-bindende en katalytische nucleasedomeinen, die kunnen worden hergebruikt voor cellulaire functies. Door functionele domeinen in nieuwe genomische contexten in te voegen, kunnen transposase-sequenties gastheer-transposase fusie (HTF) genen genereren door middel van alternatieve splicing. Verschillende genen met cruciale ontwikkelingsfuncties, zoals de Pax transcriptiefactoren, worden verondersteld door dit proces te zijn geboren. Het mechanisme waarmee transposasedomeinen worden gevangen om HTF's te genereren, hoe vaak dit proces voorkomt en de functies van de meeste bekende HTF-genen blijven echter onduidelijk.

RESULTATEN

We hebben vergelijkende genomica gebruikt om alle tetrapod-genomen te onderzoeken met beschikbare genmodellen (596) voor vermeende HTF's. We identificeerden 106 verschillende HTF's afgeleid van 94 onafhankelijke fusiegebeurtenissen in de loop van

300 miljoen jaar evolutie. We ontdekten dat de meeste HTF's evolueerden door de alternatieve splitsing van gastheerdomeinen naar transposase-eiwitten met behulp van splitsingsplaatsen die door het transposon worden geleverd. De transposase-domeinen van alle geanalyseerde HTF's (81) evolueren onder zuiverende selectie, wat suggereert dat ze in stand zijn gehouden voor de functie van het organisme. De domeinsamenstelling van HTF-eiwitten geeft aan dat de meeste bestaan ​​uit transposase-DNA-bindende domeinen die zijn gefuseerd met gastheerdomeinen waarvan wordt voorspeld dat ze functioneren in transcriptionele en/of chromatineregulatie, met name het repressieve Krüppel-associated box (KRAB) domein (betrokken bij

30% van alle HTF's), wat suggereert dat veel HTF's fungeren als transcriptionele regulatoren. Ter ondersteuning van deze hypothese laten we zien dat vier onafhankelijk geëvolueerde KRAB-transposase-fusie-eiwitten genexpressie op een sequentiespecifieke manier onderdrukken in reporter-assays. Bovendien onthulden verlies van functie, redding en regulerende genomics-experimenten in vleermuiscellen dat het vleermuisspecifieke KRABINER-fusie-eiwit honderden verwante transposons genoombreed bindt en een groot netwerk van genen en cis-regulerende elementen controleert.

CONCLUSIE

Onze bevindingen bevestigen dat exon-shuffling een belangrijke evolutionaire kracht is die genetische nieuwigheid genereert. We leveren bewijs dat DNA-transposons exon-shuffling bevorderen door transposasedomeinen in nieuwe genomische contexten in te voegen. Dit proces biedt een plausibel pad voor de opkomst van verschillende oude transcriptiefactoren met belangrijke ontwikkelingsfuncties. Door te illustreren hoe een transcriptiefactor en zijn verspreide bindingsplaatsen gelijktijdig kunnen ontstaan ​​uit een enkele transposonfamilie, versterken onze resultaten de opvatting dat transposons belangrijke spelers zijn in de evolutie van genregulerende netwerken.

(EEN) Model voor hoe transposase-opname plaatsvindt. (B) Overvloed en kenmerken van geïdentificeerde HTF's. (C) Samenvatting van de rol van KRABINER als transcriptiefactor (TF) in vleermuiscellen. TE, transponeerbaar element tpase, transposase DBD's, DNA-bindende domeinen KO, knock-out ChIP-seq, chromatine immunoprecipitatie sequencing PRO-seq, precisie run-on sequencing TRE, getranscribeerd regulerend element.


Referenties

Kapitonov, V.V. & Jurka, J. Rolling-circle transposons in eukaryoten. Proc. nat. Acad. Wetenschap. VS 98, 8714–8719 (2001).

Poulter, R.T., Goodwin, T.J. & Butler, M.I. Gewervelde helentrons en andere roman Helitronen . Gen 313, 201–212 (2003).

Lal, SK, Giroux, MJ, Brendel, V., Vallejos, CE & Hannah, L.C. Het maïsgenoom bevat a helitron invoeging. Plantaardige cel 15, 381–391 (2003).

Fu, H. & Dooner, H.K. Intraspecifieke schending van genetische colineariteit en de implicaties ervan in maïs. Proc. nat. Acad. Wetenschap. VS 99, 9573–9578 (2002).

Song, R. & Messing, J. Genexpressie van een genfamilie in maïs op basis van niet-collineaire haplotypes. Proc. nat. Acad. Wetenschap. VS 100, 9055–9060 (2003).

Brunner, S., Fengler, K., Morgante, M., Tingey, S. & Rafalski, A. Evolutie van niet-homologieën van DNA-sequenties bij inteelt van maïs. Plantaardige cel 17, 343–360 (2005).

Meyers, B.C., Scalabrin, S. & Morgante, M. Complexe genomen in kaart brengen en sequencen: laten we fysiek worden! nat. Rev. Genet. 5, 578–588 (2004).

Gardiner, J. et al. Verankering van 9.371 door maïs tot expressie gebrachte sequentie-gelabelde unigenen aan de bacteriële kunstmatige chromosoom contig-kaart door tweedimensionale overgo-hybridisatie. Planten Fysiol. 134, 1317–1326 (2004).

Bennetzen, JL, Coleman, C., Liu, R., Ma, J. & Ramakrishna, W. Consistente overschatting van het genaantal in complexe plantengenomen. Curr. Opin. Plant Biol. 7, 732–736 (2004).

Palmer, L.E. et al. Maïsgenoomsequencing door methylatiefiltratie. Wetenschap 302, 2115–2117 (2003).

Messing, J. et al. Sequentiesamenstelling en genoomorganisatie van maïs. Proc. Natl Acad. Wetenschap. VS 101, 14349–14354 (2004).

Ramakrishna, W., Emberton, J., Ogden, M., SanMiguel, P. & Bennetzen, JL Structurele analyse van het maïs-rp1-complex onthult talrijke locaties en onverwachte mechanismen van lokale herschikking. Plantaardige cel 14, 3213–3223 (2002).

Craig, NL, Craigie, R., Gellert, M. & Lambowitz, A.M. Mobiel DNA II (American Society of Microbiology Press, Washington, DC, 2002).

Gupta, S., Gallavotti, A., Stryker, GA, Schmidt, R.J. & Lal, SK Een nieuwe klas van Helitron-gerelateerde transponeerbare elementen in maïs bevatten delen van meerdere pseudogenen. Plant Mol. Biol. 57, 115–127 (2005).

Feschotte, C. & Wessler, S.R. Schatten op zolder: rollende cirkeltransposons ontdekt in eukaryote genomen. Proc. nat. Acad. Wetenschap. VS 98, 8923–8924 (2001).

Kynast, R.G. et al. Een complete set van individuele chromosoomtoevoegingen van maïs aan het havergenoom. Planten Fysiol. 125, 1216–1227 (2001).

Okagaki, RJ et al. Maïssequenties in kaart brengen op chromosomen met behulp van haver-maïschromosoomadditiematerialen. Planten Fysiol. 125, 1228–1235 (2001).

Song, R., Llaca, V. & Messing, J. Mozaïekorganisatie van orthologe sequenties in grasgenomen. Genoom onderzoek. 12, 1549–1555 (2002).

Lai, J. et al. Genverlies en beweging in het maïsgenoom. Genoom onderzoek. 14, 1924–1931 (2004).

Swigonova, Z., Bennetzen, JL & Messing, J. Structuur en evolutie van de r / b-chromosomale regio's in rijst, maïs en sorghum. Genetica 169, 891–906 (2005).

Ilic, K., SanMiguel, PJ & Bennetzen, JL Een complexe geschiedenis van herschikking in een ortholoog gebied van het genoom van maïs, sorghum en rijst. Proc. nat. Acad. Wetenschap. VS 100, 12265–12270 (2003).

Hamilton, A.J. & Baulcombe, DC Een soort klein antisense-RNA bij posttranscriptionele genuitschakeling in planten. Wetenschap 286, 950–952 (1999).

van der Krol, A.R., Mur, L.A., Beld, M., Mol, J.N. & Stuitje, A.R. Flavonoïde genen in petunia: toevoeging van een beperkt aantal genkopieën kan leiden tot onderdrukking van genexpressie. Plantaardige cel 2, 291–299 (1990).

Duvick, DN Biotechnologie in de jaren dertig: de ontwikkeling van hybride maïs. nat. Rev. Genet. 2, 69–74 (2001).

Birchler, J.A., Auger, D.L. & Riddle, NC Op zoek naar de moleculaire basis van heterosis. Plantaardige cel 15, 2236–2239 (2003).

Jiang, N., Bao, Z., Zhang, X., Eddy, S.R. & Wessler, S.R. Pack-MULE transponeerbare elementen mediëren gen-evolutie in planten. Natuur 431, 569–573 (2004).

Yu, Z., Wright, S.I. & Bureau, T.E. Mutator-achtige elementen in Arabidopsis thaliana. Structuur, diversiteit en evolutie. Genetica 156, 2019–2031 (2000).

Le, Q.H., Wright, S., Yu, Z. & Bureau, T. Transposon diversiteit in Arabidopsis thaliana . Proc. nat. Acad. Wetenschap. VS 97, 7376–7381 (2000).

Lai, J., Li, Y., Messing, J. & Dooner, H.K. Gen beweging door Helitron transposons draagt ​​bij aan de haplotype variabiliteit van maïs. Proc. nat. Acad. Wetenschap. VS 102, 9068–9073 (2005).

Meyers, BC, Tingey, S.V. & Morgante, M. Overvloed, distributie en transcriptionele activiteit van repetitieve elementen in het maïsgenoom. Genoom onderzoek. 11, 1660–1676 (2001).


De evolutie van Olig-genen en hun rol bij myelinisatie

Een van de speciale kenmerken van gewervelde dieren is hun gemyeliniseerde zenuwstelsel. Door de geleidingssnelheid van axonen te verhogen, zorgt myeline voor een grotere lichaamsgrootte, snelle beweging en een groot en complex brein. In het centrale zenuwstelsel (CZS) zijn oligodendrocyten (OL's) de myeline-vormende cellen. De transcriptiefactoren OLIG1 en OLIG2, hoofdregulatoren van OL-ontwikkeling, speelden vermoedelijk ook een baanbrekende rol tijdens de evolutie van het genetische programma dat leidde tot myelinisatie in het CZS. Op basis van de beschikbare ontogenetische en fylogenetische gegevens proberen we de evolutionaire gebeurtenissen te reconstrueren die hebben geleid tot de opkomst van de Olig-genfamilie en speculeren we over de verbanden tussen Olig-genen, hun specifieke cis-regulerende elementen en myeline-evolutie. Daarnaast rapporteren we een vermeende myeline-basiseiwit (MBP) voorouder in de lancelet Branchiostoma floridae, die compact myeline mist. Het lancelet 'Mbp'-gen mist de OLIG1/2- en SOX10-bindingsplaatsen die kenmerkend zijn voor Mbp-homologen van gewervelde dieren, wat de mogelijkheid verhoogt dat insertie van cis-regulerende elementen betrokken zou kunnen zijn bij de evolutie van het myelinisatieprogramma.


Resultaten

Exon-insertiegebeurtenissen in de montium Stationair P-Neogeen

In een eerdere studie hebben we 12 van 18 . gekloond en geheel of gedeeltelijk gesequenced montiumP-neogenes. Bij zeven soorten (D. bicornuta, D. Davidic, D. jambulina, D. nikananu, D. seguyi, D. serrata, D. tsacasi), de grootte van de P-neogeen komt overeen met de grootte die wordt verwacht van a P-neogeen vergelijkbaar met dat beschreven in D. tsacasi ( figuur 1B) (Noaud et al. 1999). Bij de vijf andere soorten (D. bakoué, D. bocqueti, D. burlai, D. Malagassisch, D. vulkaan), de grootte van de P-neogenes groter is dan verwacht, wat de aanwezigheid van DNA-inserties suggereert. De P-neogenes van D. bocqueti (P-boc) en D. vulkana (P-vul) zijn volledig gesequenced (toegangsnummers AF169142 en AY116625).

Insertie van een nieuw coderend exon stroomafwaarts van Exon 0 van het P-neogeen van Drosophila bocqueti

Een vergelijking van de structuren van de D. tsacasi en D. bocquetiP-neogenes ( fig. 1B en C) laat zien dat een geïmmobiliseerde en interne verwijderde P-element wordt ingevoegd in het intron (0, 1) en scheidt exon 0 en exon 1 in de D. bocquetiP-neogeen. Dit P-sequentie-insertie is 556 bp lang (toegangsnummer AF169142 van nucleotiden 1049 tot 1604). Het wordt geflankeerd door een directe duplicatie van 8 bp die overeenkomt met de duplicatie van de doelplaats, met één mismatch. De 31 bp van de 3′ terminal inverted repeat (TIR) ​​zijn 87% identiek aan de sequentie van de D. melanogasterP-mobiel element TIR. De eerste 13 bp van de 5' TIR ontbreken. Deze interne insertie behoudt een intact open leeskader (ORF) dat overeenkomt met exon 0 van de canonieke P-element. Hierna zal deze invoeging worden genoemd InsPboc en zijn exon, exon 0′. De identiteit tussen exon 0′ en het eerste coderende exon (exon 0) van de P-boc neogene is respectievelijk 54,4% en 43,3% op het nucleotide- en aminozuurniveau. Northern blot-analyse werd uitgevoerd op volwassen poly(A) + RNA met een riboprobe verkregen uit het gesubkloneerde gebied van exons 1 en 2 van de P-tsa neogeen. De probe werd gesynthetiseerd met behulp van T7 RNA-polymerase en gelabeld met [32P]UTP. Zoals weergegeven in figuur 1C, werden een transcript van 2,5 kb en een transcript van 2,1 kb gedetecteerd. Het verschil tussen de grootte van de twee transcripten komt overeen met wat wordt verwacht als er alternatieve splicing optreedt, waarbij ofwel exon 0 aan exon 0' en exon 0' aan exon 1 wordt gekoppeld, of exon 0 aan exon 1. De volledige RNA-verwerking resulteert in twee mRNA's: één inclusief exons –1, 0, 0′, 1 en 2 (2,5 kb) en de tweede inclusief exons –1, 0, 1 en 2 (2,1 kb) ( fig. 1C). Aangezien de voor de Northern-blot gebruikte probe hetzelfde deel van de twee transcripten bestrijkt, is het verschil in intensiteit tussen beide waarschijnlijk het gevolg van kwantitatieve verschillen bij de volwassenen. Deze alternatieve splicing werd bevestigd door RT-PCR. Transcripties werden geëxtraheerd uit volwassenen en het cDNA werd gesynthetiseerd zoals beschreven in Materialen en methodes. De primers die zijn ontworpen voor de cDNA-amplificatie worden getoond in figuur 1C. De sequenties van de geamplificeerde producten bevestigen dat de alternatieve splitsing de donor- en acceptorsplitsingsplaatsen gebruikt die overeenkomen met die in de canonieke P-transponeerbaar element (Laski et al. 1986).

De sequentie van het transcript van 2,1 kb heeft het coderende vermogen voor een eiwit van 574 aminozuren lang. Dit eiwit wordt hierna repressor-like 1 (RL1) genoemd. Het transcript van 2,5 kb zou ook kunnen worden vertaald vanaf de conventionele start van de translatie die aanwezig is in exon 0 of in exon 0′. De translatie die is gestart vanuit exon 0 stopt aan het begin van exon 0′ vanwege de aanwezigheid van een stopcodon (de splitsing tussen exon 0 en exon 0′ behoudt de fase in exon 0′ niet). Daarentegen leidt de translatie geïnitieerd vanaf de conventionele AUG van exon 0′ tot een eiwit van 570 AA, dat hierna repressor-achtig 2-eiwit (RL2) zal worden genoemd.

Een vergelijkbare structuur vinden we in D. burlai. (toegangsnummer AY116626), een broer of zus van de bocqueti complex van soorten (Lemeunier et al. 1986). Bij deze soort is de P-neogeen bevat een insertie van 501 bp, ingevoegd op dezelfde plaats als in D. bocqueti, wat aangeeft dat de primaire invoegingsgebeurtenis plaatsvond in een gemeenschappelijke voorouder van de twee soorten. Deze invoeging, hierna genoemd InsPbur, presenteren TIR's die dezelfde kenmerken hebben als InsPboc, behalve een insertie van 7 bp in de 3 'TIR. Het kan dus niet trans-gemobiliseerd. InsPbur presenteert een ORF met 93 aminozuren die 92,5% identiteit vertonen met exon 0′ of InsPboc De identiteiten tussen exon 0′ for InsPbur en exon 0 van de P-buro neogene zijn respectievelijk 51,5% en 42,2% op het nucleotide- en aminozuurniveau. Bovendien toont de sequentieanalyse het behoud van dezelfde splitsingsplaatsen die experimenteel zijn bepaald in P-boc neogeen. Bijgevolg is de P-bur neogene zou twee eiwitten verschaffen met respectievelijk 96,5% en 95,3% identiteit met de overeenkomstige RL1- en RL2-eiwitten van de P-boc neogeen.

Een ander voorbeeld van exon shuffling: insertie van een nieuwe exon stroomopwaarts van exon 0 van de D. vulkaan P-neogeen

Een vergelijking van de structuur van de D. tsacasiP-neogeen met dat van D. vulkana ( figuur 1B en NS) laat zien dat een interne verwijderde P-element wordt ingevoegd in exon –1 van de D. vulkaanP-neogeen. Deze invoeging, hierna genoemd InsPvul, is 350 bp lang en heeft een intact ORF behouden dat overeenkomt met het hierboven beschreven exon 0′. een skelet P-element 5'-TIR kan nog steeds worden geïdentificeerd in de sequentie stroomopwaarts van dit ORF, maar er is geen significante identiteit met een 3'-TIR detecteerbaar in het stroomafwaartse gebied. De nucleotide vergelijking tussen de InsPvul coderende sequentie en exon 0 van de P-vul neogene vertoont een identiteit van 51,1%. De structurele overeenkomst tussen InsPboc en InsPvul en hun hoge nucleotidesequentie-identiteit (83,9%) maken het mogelijk om de vermeende transcripten van de P-vul neogeen van de splitsingsplaatsen die experimenteel zijn geïdentificeerd voor de P-boc neogene (zie Discussie).

De P-neogenes van D. bakoué en D. Malagassisch gedeeltelijk stroomopwaarts van exon 0 zijn gesequenced, presenteren ze dezelfde insertie als de P-vul neogene, gelokaliseerd op dezelfde doelplaats (gegevens niet getoond). Deze twee soorten behoren tot hetzelfde complex van soorten als D. vulkana (de bakoué complex van soorten, Lemeunier et al. 1986). Dit geeft aan dat deze invoeggebeurtenis plaatsvond in hun gemeenschappelijke voorouder. De toevoegingen van exons in de P-neogenes hierboven beschreven gaan niet gepaard met andere structurele wijzigingen. Het is opmerkelijk dat, zoals weergegeven in figuur 2, de sequentie stroomopwaarts van exon 1 sterk geconserveerd is in vergelijking met het promotorgebied in de P-neogeen van D. tsacasi (Noaud et al. 1999).

Identificatie van de Exon 0′ Master Copy

De nucleotide divergenties tussen de inserties InsPboc of InsPvul en de talrijke P-reeksen geregistreerd in de databanken zijn allemaal groter dan 35%, wat impliceert dat ze niet behoren tot een eerder beschreven P-element subfamilie (Clark en Kidwell 1997 Pinsker et al. 2001). Bovendien kan elk van hen het gevolg zijn van het invoegen van een volledige P-element, gevolgd door grote deleties, waardoor het gebied (inclusief het volledige coderende gebied van het eerste exon) wordt ingevoegd. Vanwege hun identiteit (83,9%) moeten deze inserties afkomstig zijn van een zelfde P-element onderfamilie. Deze resultaten ondersteunen de hypothese dat het genoom van de soort D. bocqueti en D. vulkaan en hun verwante soorten herbergen een actieve P-elementfamilie die aan de oorsprong ligt van exons 0′ geïdentificeerd in verschillende montiumP-neogenes.

Southern blot-experimenten werden uitgevoerd met genomisch DNA van zes soorten die behoren tot de montium subgroep (D. bocqueti, D. burlaï, D. kikkawai, D. nikananu, D. tsacasi, en D. vulkana). DNA-monsters werden verteerd met Pst I endonuclease, en na elektroforese werden de restrictiefragmenten dubbel overgebracht op een nitrocellulosemembraan. Eén filter werd gehybridiseerd met het exon 0′-specifieke fragment geamplificeerd met de primers 1359 en 1632 van de kloon die de P-boc neogene als sjabloon (zie Materialen en methodes). Er zijn een aantal hybridisatiesignalen aanwezig in D. bocqueti, evenals bij andere soorten (fig. 3EEN), waaruit blijkt dat de tussenvoegsels InsPboc en InsPvul behoren tot een herhaalde verspreide P-elementen familie. In een poging om te isoleren P-elementen aan de oorsprong van exon 0′, werd een langeafstands-PCR-amplificatie uitgevoerd op D. bocqueti DNA als een sjabloon met een primer (5'CATAATGGAATAACTATAAGGTGG3') die overeenkomt met de eerste 24 bp van de 3' TIR-sequentie van Insboc. Volledig en verwijderd P-elementen zijn gekloond met de TA-kloneringsmethode (Invitrogen) uit PCR-producten. Sommige zijn op volgorde gezet. De volgorde van een complete P-element (inschrijvingsnummer AY116624), beschreven in figuur 4, heeft de coderingscapaciteit van een autonoom P-element. Dit element heet de K-bok-P-element (Kenia-bocquetiP-element, voor de D. bocqueti stam afkomstig uit Kenia). zes andere K-boc sequenties zijn gedeeltelijk gesequenced. Het verschil tussen beide is minder dan 5%. Ze zijn beschikbaar op aanvraag. De K-boc-P-element is 3300 bp lang en de uiteinden worden gevormd door 31 bp omgekeerde herhalingen. Het verschil in lengte tussen K-boc-P en de canonieke P-element ( afb. 1EEN) resulteert uit twee kenmerken: (1) het intron tussen exon 0 en exon 1 is ongewoon lang in K-boc-P (264 bp in tegenstelling tot slechts ongeveer 50 bp in de andere) P-elementen), en (2) exon 3 wordt onderbroken door een extra intron van 172 bp. echter, de K-boc-P-element deelt een aantal structurele kenmerken met het autonome P-element van andere Drosophila-soorten (D. melanogaster, D. bifasciata, S. pallida). Subterminale omgekeerde herhalingen (SIR's) van 10 bp (posities 33-42 en 3259-3268) en 11 bp met één mismatch (posities 127-137 en 3161-3171) worden gevonden in de 5'- en 3'-niet-coderende regio's. Deze locaties komen overeen met die van SIR's in de P-elementen van de andere soort, wat een functionele equivalentie impliceert. Bovendien, exon 1, zoals de D. melanogaster en Scaptomyza pallidaP-elementen (Simonelig en Anxolabéhère 1991), presenteert omgekeerde herhalingen van 17 bp gescheiden door 29 bp (posities 942-958 en 988-1004). De consensus 5'- en 3'-splitsingsplaatsen van de exons zijn behouden en het extra intron in het exon behoudt de coderende capaciteit van de K-boc-P-element. Het vermeende eiwit is 721 aminozuren lang en heeft een molecuulgewicht van 83 kDa (fig. 4). Het is opmerkelijk dat Cys, His, Arg, Lys en Trp oververtegenwoordigd zijn in de eerste 70 aminozuren van de N-terminale sectie (35,7% vergeleken met 17,5% in de rest van het eiwit). Bovendien is de vermeende metaalbindende plaats van CCHC die aanwezig is in de canonieke P-element (Miller et al. 1995 Lee, Mul en Rio 1996 Miller et al. 1999) kan worden herkend op dezelfde positie in de K-bok-P eiwit. Deze resultaten suggereren dat de kenmerken van DNA-bindende domeinen aanwezig zijn in de N-terminale secties van het vermeende transposase van de K-boc-P-element. Bovendien, in vergelijking met de D. melanogasterP-element, zijn andere functioneel belangrijke secties ook geconserveerd: de drie leucine-rits-motieven worden op dezelfde locaties gevonden als het helix-turn-helix-motief, dat slechts vier mismatches van 19 residuen vertoont (fig. 4).

Het tweede filter van de hierboven beschreven dubbel overgebrachte DNA-monsters werd gehybridiseerd met een PCR-product gesynthetiseerd uit exon 3 dat specifiek is voor het transposase van de gekloonde K-boc-P-element. Zoals weergegeven in figuur 3Bworden een aantal hybridisatiesignalen gedetecteerd in D. bocqueti, D. burlai, D. nikananu, D. tsacasi, en D. vulkana (maar niet in) D. kikkawai), wat wijst op de aanwezigheid van talrijke P-elementen die het exon 3 bevatten dat specifiek is voor de voor transposase coderende sequentie.

Om de relatie tussen de . te definiëren K-boc-P-element en de majeur P-element subfamilies zoals ze eerder zijn gekarakteriseerd in D. ambigu (T-type), D. bifasciata (M-type en O-type), D. helvetica (M-type), D. melanogaster (M-type), en Scaptomyza pallida (M-type) (voor een overzicht, zie Hagemann, Miller en Pinsker 1996), de nucleotide- en aminozuuruitlijning van deze elementen samen met de K-boc-P-element werden uitgevoerd met behulp van het Pileup-programma van het GCG-pakket (Madison, Wis.) en handmatig verbeterd. De paarsgewijze afstanden zijn weergegeven in tabel 2. De K-boc-P-element is erg ver van alle andere P-elementen (>0.45): deze nieuwe volledige lengte P-element behoort tot een tot nu toe onbekende P- onderfamilie. We definiëren deze onderfamilie als het K-type.

Een Neighbor-Joining-analyse uitgevoerd op de vermeende eiwitten hiervan P-sequenties en twee extra P-sequenties van verder weg gelegen soorten, Lucilia Cupina (Calliphoridae) (Perkins en Howells 1992) en Musca domestica (Muscidae) (Lee, Clark en Kidwell 1999), produceert een dendrogram waarin de K-boc-P-elementgroepen met de elementen uit de Drosophilidae (afb. 5). Clark en Kidwell (1997) hebben een uitgebreide fylogenetische analyse uitgevoerd van P-reeks met 40 soorten in de Drosophilidae een gedeeltelijke gebruiken P-sequentie (449 bp van exon 2). Deze analyse leverde een cladogram op waarin 16 clades goed ondersteund worden. Om de positie van de . te bepalen K-boc element ten opzichte van deze P-element subfamilies, werd een Neighbor-Joining-analyse uitgevoerd met behulp van deze gedeeltelijke interne sequentie. Slechts één of twee P-sequenties die representatief zijn voor elke clade, gedefinieerd door het werk van Clark en Kidwell, werden in de analyse opgenomen. In het nieuwe cladogram ( fig. 6) is de K-boc-P-element groepeert niet binnen eerder geïdentificeerde clades, wat bevestigt dat de K-boc-P-element behoort niet tot een van de reeds beschreven subfamilies.

De positie en coderingscapaciteit van exons 0′ suggereren dat de herschikte P-neogenes staan ​​onder selectie op hostniveau. Direct bewijs wordt geleverd door een test voor selectie op sequentieniveau. De paarsgewijze vergelijkingen van de substitutiepercentages tussen de exon 0 van de K-boc volledige lengte P-element en de exon 0′ van de P-neogenes in D. bocqueti, D. burlai, en D. vulkana, worden weergegeven in tabel 3 (er waren onvoldoende sequentiegegevens beschikbaar voor de neogenen van D. Malaga en D. bakoué). Alle significante resultaten (P < 0,05) zijn te wijten aan NSN/NSS < 1 dat wil zeggen, ze toonden bewijs van conservatieve selectie. Deze resultaten zijn in overeenstemming met die van Witherspoon (1999), verkregen met behulp van partiële sequenties van de P-neogenes van D. Davidic, D. tsacasi, en D. kikkawai. Aangezien er zeer weinig veranderingen optreden tussen exon 0′ van RL2bur en exon 0′ van RL2boc, heeft de test minder power dan in de andere vergelijkingen, wat een niet-significante statistiek oplevert.


Kapitonov, V. V. & Jurka, J. Helitrons op een rol: eukaryote transposons met rollende cirkel. Trends Genet. 23, 521–529 (2007).

Thomas, J. & Pritham, E.J. Helitrons, de eukaryote transponeerbare elementen met rollende cirkel. microbiologisch. Spectr. 3, 893–926 (2015).

Dyda, F. et al. Kristalstructuur van het katalytische domein van HIV-1-integrase: gelijkenis met andere polynucleotidyltransferasen. Wetenschap 266, 1981–1986 (1994).

Kapitonov, V. V. & Jurka, J. Rolling-circle transposons in eukaryoten. Proc. Natl Acad. Wetenschap. VS 98, 8714–8719 (2001).

Ilyina, T.V. & Koonin, E.V. Bewaarde sequentiemotieven in de initiator-eiwitten voor rollende cirkel-DNA-replicatie gecodeerd door diverse replicons van eubacteriën, eukaryoten en archaebacteriën. Nucleïnezuren Res. 20, 3279–3285 (1992).

Koonin, E.V. & Ilyina, T.V. Computerondersteunde dissectie van rollende cirkel-DNA-replicatie. Biosystemen 30, 241–268 (1993).

van Mansfeld, A.D., van Teeffelen, H.A., Baas, P.D. & Jansz, H.S. Twee naast elkaar geplaatste tyrosyl-OH-groepen nemen deel aan phi X174 gen A-eiwit gekatalyseerde splitsing en ligatie van DNA. Nucleïnezuren Res. 14, 4229–4238 (1986).

Chandler, M. et al. Het breken en samenvoegen van enkelstrengs DNA: de HUH-endonuclease-superfamilie. nat. Rev. Microbiol.y 11, 525–538 (2013).

del Pilar Garcillan-Barcia, M., Bernales, I., Mendiola, M.V. & de la Cruz, F. Enkelstrengs DNA-tussenproducten in IS91-transpositie met rollende cirkel. Mol. microbiologisch. 39, 494–501 (2001).

Garcillan-Barcia, M. P. & de la Cruz, F. Distributie van IS91-familie-insertiesequenties in bacteriële genomen: evolutionaire implicaties. FEMS Microbiol. Ecol. 42, 303–313 (2002).

Mendiola, M.V., Bernales, I. & de la Cruz, F. Differentiële rollen van de transposon-termini in IS91-transpositie. Proc. Natl Acad. Wetenschap. VS 91, 1922–1926 (1994).

Mendiola, M.V. & de la Cruz, F. IS91-transposase is gerelateerd aan de replicatie-eiwitten van het rollende cirkeltype van de pUB110-familie van plasmiden. Nucleïnezuren Res. 20, 3521 (1992).

Pritham, E. J. & Feschotte, C. Enorme versterking van transposons met rollende cirkel in de lijn van de vleermuis Myotis lucifugus. Proc. Natl Acad. Wetenschap. VS 104, 1895–1900 (2007).

Thomas, J., Phillips, C.D., Baker, R.J. & Pritham, E.J. Rolling-circle transposons katalyseren genomische innovatie in een zoogdierlijn. Genoom Biol. Evol. 6, 2595–2610 (2014).

Thomas, J., Sorourian, M., Ray, D., Baker, R.J. & Pritham, E.J. De beperkte distributie van Helitrons naar vespervleermuizen ondersteunt horizontale overdracht. Gen 474, 52–58 (2011).

Coates, B.S., Hellmich, R.L., Grant, D.M. & Abel, C.A. Mobilisatie van het genoom van Lepidoptera door middel van nieuwe sequentiewinst en eindcreatie door niet-autonome Lep1-helitrons. DNA-onderzoek 19, 11–21 (2012).

Du, C., Fefelova, N., Caronna, J., He, L. & Dooner, H.K. Het polychromatische Helitron-landschap van het maïsgenoom. Proc. Natl Acad. Wetenschap. VS 106, 19916–19921 (2009).

Lal, S.K., Giroux, M.J., Brendel, V., Vallejos, C.E. & Hannah, L.C. Het maïsgenoom bevat een helitron-insertie. Plantaardige cel 15, 381–391 (2003).

Xiong, W., He, L., Lai, J., Dooner, H.K. & Du, C. HelitronScanner onthult een grote over het hoofd geziene cache van Helitron-transposons in veel plantengenomen. Proc. Natl Acad. Wetenschap. VS 111, 10263–10268 (2014).

Morgante, M. et al. Genduplicatie en exon-shuffling door helitron-achtige transposons genereren diversiteit binnen de soort in maïs. nat. Genet. 37, 997–1002 (2005).

Dong, Y. et al. Structurele karakterisering van helitrons en hun stapsgewijze opname van genfragmenten in het maïsgenoom. BMC Genomics 12, 609 (2011).

Toleman, M.A., Bennett, P.M. & Walsh, T.R. ISCR-elementen: nieuwe systemen voor het vastleggen van genen van de 21e eeuw? microbiologisch. Mol. Biol. ds. 70, 296–316 (2006).

Yassine, H. et al. Experimenteel bewijs voor IS1294b-gemedieerde transpositie van het blaCMY-2 cefalosporinase-gen in Enterobacteriaceae. J. Antimicrob. Chemother. 70, 697–700 (2015).

Brunner, S., Pea, G. & Rafalski, A. Oorsprong, genetische organisatie en transcriptie van een familie van niet-autonome helitron-elementen in maïs. Plant J. 43, 799–810 (2005).

Feschotte, C. & Wessler, S. R. Schatten op zolder: transposons met rollende cirkel ontdekt in eukaryote genomen. Proc. Natl Acad. Wetenschap. VS 98, 8923–8924 (2001).

Tempel, S., Nicolas, J., El Amrani, A. & Couee, I. Modelgebaseerde identificatie van Helitrons resulteert in een nieuwe classificatie van hun families in Arabidopsis thaliana. Gen 403, 18–28 (2007).

Mates, L. et al. Moleculaire evolutie van een nieuw hyperactief Doornroosje-transposase maakt robuuste stabiele genoverdracht bij gewervelde dieren mogelijk. nat. Genet. 41, 753–761 (2009).

Bird, L.E., Subramanya, H.S. & Wigley, D.B. Helicases: een verenigend structureel thema? Curr. Opin. structuur Biol. 8, 14–18 (1998).

Han, M.J. et al. Identificatie en evolutie van de helitrons van zijderupsen en hun bijdrage aan transcripten. DNA-onderzoek 20, 471–484 (2013).

Yang, L. & Bennetzen, JL Op structuur gebaseerde ontdekking en beschrijving van plantaardige en dierlijke Helitrons. Proc. Natl Acad. Wetenschap. VS 106, 12832–12837 (2009).

Yang, L. & Bennetzen, J. L. Distributie, diversiteit, evolutie en overleving van Helitrons in het maïsgenoom. Proc. Natl Acad. Wetenschap. VS 106, 19922–19927 (2009).

Harrow, J. et al. GENCODE: de referentie annotatie van het menselijk genoom voor The ENCODE Project. Genoom onderzoek. 22, 1760–1774 (2012).

Andersson, R. et al. Een atlas van actieve versterkers voor menselijke celtypen en weefsels. Natuur 507, 455–461 (2014).

Guelen, L. et al. Domeinorganisatie van menselijke chromosomen onthuld door het in kaart brengen van nucleaire lamina-interacties. Natuur 453, 948–951 (2008).

Carlson, C.M. et al. Transposon-mutagenese van de muiskiemlijn. Genetica 165, 243–256 (2003).

Fischer, S.E., Wienholds, E. & Plasterk, R.H. Gereguleerde transpositie van een vistransposon in de muiskiemlijn. Proc. Natl Acad. Wetenschap. VS 98, 6759–6764 (2001).

Luo, G., Ivics, Z., Izsvak, Z. & Bradley, A. Chromosomale transpositie van een Tc1 / mariner-achtig element in embryonale stamcellen van muizen. Proc. Natl Acad. Wetenschap. VS 95, 10769–10773 (1998).

Tower, J., Karpen, G.H., Craig, N. & Spradling, A.C. Preferentiële transpositie van Drosophila P-elementen naar nabijgelegen chromosomale locaties. Genetica 133, 347–359 (1993).

Ton-Hoang, B. et al. Transpositie van ISHp608, lid van een ongebruikelijke familie van bacteriële insertiesequenties. EMBO J. 24, 3325–3338 (2005).

Ton-Hoang, B. et al. Enkelstrengs DNA-transpositie is gekoppeld aan gastheerreplicatie. Cel 142, 398–408 (2010).

Dayn, A., Malkhosyan, S. & Mirkin, S. M. Transcriptionally driven cruciform formation in vivo. Nucleïnezuren Res. 20, 5991–5997 (1992).

Krasilnikov, A. S., Podtelezhnikov, A., Vologodskii, A. & Mirkin, S. M. Large-scale effects of transcriptional DNA supercoiling in vivo. J. Mol. Biol. 292, 1149–1160 (1999).

Strick, T. R., Allemand, J. F., Bensimon, D. & Croquette, V. Behavior of supercoiled DNA. Biofysica. J. 74, 2016–2028 (1998).

Liu, L. F. & Wang, J. C. Supercoiling of the DNA template during transcription. Proc.Natl Acad. Wetenschap. VS 84, 7024–7027 (1987).

Rahmouni, A. R. & Wells, R. D. Direct evidence for the effect of transcription on local DNA supercoiling in vivo. J. Mol. Biol. 223, 131–144 (1992).

Parsa, J. Y. et al. Negative supercoiling creates single-stranded patches of DNA that are substrates for AID-mediated mutagenesis. PLoS Genet. 8, e1002518 (2012).

Faurez, F., Dory, D., Grasland, B. & Jestin, A. Replication of porcine circoviruses. Virol. J. 6, 60 (2009).

Feschotte, C. Transposable elements and the evolution of regulatory networks. nat. Rev. Genet. 9, 397–405 (2008).

Jiang, N., Bao, Z., Zhang, X., Eddy, S. R. & Wessler, S. R. Pack-MULE transposable elements mediate gene evolution in plants. Natuur 431, 569–573 (2004).

Langmead, B., Trapnell, C., Pop, M. & Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genoom Biol. 10, R25 (2009).

Zuker, M. Mfold web server for nucleic acid folding and hybridization prediction. Nucleïnezuren Res. 31, 3406–3415 (2003).


Resultaten

We analyzed 105 cases of alternative DNA processing identified in the O. trifallax micronuclear genome ( Chen et al. 2014 ). We excluded cases that do not involve new genes, including noncoding chromosomes, multigene chromosomes that share exactly one gene, and chromosomes that only share noncoding regions (see Methods). The remaining 69 cases involve 69 germline loci that encode MDS segments for 153 MAC chromosomes with shared 5′ or 3′ terminal regions, or both ( table 1 ). Figuur 1B shows the distribution of the fraction of shared coding regions relative to the total length of the coding region. This portion ranges from just a few percent to over 90%. There is no strong bias for sharing of 5′ versus 3′ end regions. Most loci contain two genes that share single-copy MDSs. There are six loci that each contain a set of three genes with shared MDSs. Three loci contain four genes that share MDSs, and there exists one locus that gives rise to five such genes.

Summary of Alternative MDS Processing Cases Investigated in this Study

. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229
. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229

Summary of Alternative MDS Processing Cases Investigated in this Study

. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229
. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229

Alternative MDS Processing Creates New Genes

We investigated the emergence of these 69 cases of alternative DNA splicing by examining their orthologs in related species. We sequenced and assembled the macronuclear genomes of six stichotrich ciliates Urostyla sp., Paraurostyla sp., Laurentiella sp., Stylonychia lemnae , Sterkiella histriomuscorum , en Tetmemena sp., whose ribosomal DNA has a closest hit (98%) to Tetmemena pustulata ribosomal DNA (GenBank accession AF508775). We also used the preliminary macronuclear genome assembly of Euplotes crassus , an earlier diverging Spirotrich ciliate, described in Swart et al. (2013) . The assembled stichotrich genomes contain a large percentage of completely assembled somatic chromosomes ( table 2 ). Analyses of CEGs and tRNA complement suggest that our assemblies are complete (see Methods). Aeschlimann et al. (2014) previously reported a Stylonychia lemnae macronuclear genome assembly for a different strain 130c, whose assembly size (50.2 Mb) and total number of contigs (19,851) and two telomere contigs (16,059) are similar to our Stylonychia samenkomst.

Length Statistics of Stichotrich Genome Assemblies

. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918
. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918

Length Statistics of Stichotrich Genome Assemblies

. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918
. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918

For two genes A and B that share MDSs in Oxytricha , we queried the presence of their orthologs in other species and assessed whether their orthologs also share sequences, which would suggest that they are also products of alternative MDS processing. Our query in any species X yielded three possible scenarios ( fig. 2EEN ). First, the presence of both orthologs that shared sequences could suggest the conservation of alternative DNA processing. Second, the presence of only the ortholog of A would suggest the creation of novel gene B via the reuse of a subset of existing segments for gene A after the divergence of species X. Another possibility in this case is that B was created before the divergence of species X but later lost from species X. Third, the absence of either ortholog would suggest that both genes were created after the divergence of species X. If no other species contains either ortholog, this would suggest that both genes were new to the Oxytricha lineage and that an intermediate species with just one gene should exist but was not included in our survey.

The presence of alternative DNA processing is associated with the emergence of new genes. ( EEN ) Inference of the origin of alternative MDS processing based on the presence of orthologs and MDS sharing in other ciliates. ( B ) Mapping of all cases of alternative MDS processing onto a phylogeny generated from 100 bootstrap replicates with PhyML (with the HKY85 substitution model) based on a MAFFT concatenated multiple sequence alignment of 18S and 28S rRNA genes from 8 ciliate species, including 2 Oxytricha trifallax strains. The tree is rooted with Euplotes crassus . All bootstrap values are above 90%. The scale below the phylogeny illustrates branch substitutions per site. Numbers in red at the tree nodes represent the inferred numbers of cases of alternative processing that emerged before the divergence at each node. The numbers in parenthesis indicate corrected values after examining individual phylogenetic trees, which reveal the loss of paralogs in a few cases.

The presence of alternative DNA processing is associated with the emergence of new genes. ( EEN ) Inference of the origin of alternative MDS processing based on the presence of orthologs and MDS sharing in other ciliates. ( B ) Mapping of all cases of alternative MDS processing onto a phylogeny generated from 100 bootstrap replicates with PhyML (with the HKY85 substitution model) based on a MAFFT concatenated multiple sequence alignment of 18S and 28S rRNA genes from 8 ciliate species, including 2 Oxytricha trifallax strains. The tree is rooted with Euplotes crassus . All bootstrap values are above 90%. The scale below the phylogeny illustrates branch substitutions per site. Numbers in red at the tree nodes represent the inferred numbers of cases of alternative processing that emerged before the divergence at each node. The numbers in parenthesis indicate corrected values after examining individual phylogenetic trees, which reveal the loss of paralogs in a few cases.

Because we never observed a case where both orthologs are present but they do not share MDSs, we conclude that the emergence of alternative MDS processing is associated with the creation of new genes (gene B) from an existing gene (gene A), by reuse of some of gene A’s germline precursor segments. We mapped the number of new genes created in each lineage onto a phylogeny ( fig. 2B ). All examples appear to have originated in the stichotrich lineages (i.e., none are conserved in Euplotes ) and a large number (28) appear specific to the Oxytricha lineage and thus probably emerged fairly recently. This is a parsimonious estimate, given the possibility that some genes could have emerged earlier but been lost in some species. Corrections are discussed in the next section. In cases where two orthologs share MDSs, the length of the shared regions is usually conserved relative to that in Oxytricha (all but 4 are similar within 50 bp or 10%, whichever is larger, of the length of the shared gene segments in Oxytricha ).

Most Alternative MDSs Derived from Segmental Duplications

For each group of Oxytricha genes that share MDSs with each other, we compared the unique alternative MDS sequences, that is, the regions (often the 5′ or 3′ ends) that differ from each other in the mature chromosomes, with each other. The majority of these (54 out of 69 cases) are more than 40% similar at the protein level (BLASTP, alignment length >80% of the unique regions and e -value <1e-10 Camacho et al. 2009 ), suggesting that the new, alternative segments arose by duplication of ancestral MDSs. Duplication of partial gene loci most likely occurred, instead of entire genes. It is also possible that duplication of complete gene loci was followed by partial loss of gene regions, resulting in the requirement for sharing of the missing segments (similar to a proposed model for the origin of scrambled genes Gao et al. 2015 ), although careful examination of neighboring MIC sequences did not reveal traces of degenerate or lost duplicate copies of the constitutive MDSs. figuur 3EEN shows the germline MDS–IES map for two paralogous genes with shared MDSs. Their germline precursor loci overlap, with the alternatively spliced MDSs downstream of the shared, constitutive MDSs. figuur 3B shows a translated alignment of the somatic versions of both sequences. The boundaries between segments 6 and 7 in the duplicated, alternative regions are precisely conserved in location between the two genes, including short regions of microhomology at recombination junctions (marked by the overlap between consecutive MDSs). The boundaries between segments 8 and 9 in the pink gene and segments 7 and 8 in the gray gene differ in location by just 1 bp, and the boundaries between segments 9 and 10 in the pink gene and 8 and 9 in the gray gene differ by just 3 bp. This suggests that the germline duplication preserved MDS junctions and then two new IESs were inserted into the pink gene after duplication.

Duplication is the major mechanism for creation of alternative gene segments. ( EEN ) Germline map of a locus with two nonscrambled genes that share five DNA segments at the 5′ end. Arrows represent MDSs and gaps represent IESs. Gray: Contig8.0 pink: Contig22835.0. ( B ) Translated alignment (nucleotide alignment guided by amino acid sequence) of the MAC contigs from Panel A showing paralogy between the duplicated MDSs downstream of MDS 5 (MDS 1–5 are shared) and that the locations of MDS boundaries are conserved between the two paralogs (conserved precisely between MDS 6 and 7 in both pink and gray 1 bp different in location between MDS 8 and 9 in pink and MDS 7 and 8 in gray 3 bp different between MDS 9 and 10 in pink and MDS 8 and 9 in gray). Unique bases or gaps on each sequence are annotated with a vertical black bar, and identical regions are highlighted in light gray. Wide arrows in different colors represent exons (labeled as CDS, yellow), introns (white), start and stop codons, and MDSs. The overlaps between MDSs contain short regions of microhomology at recombination junctions. ( C ) A maximum-likelihood tree, constructed using the alternative MDS regions of two paralogous genes that share MDSs, shows accelerated evolution of gene B after MDS duplication. Gene A: Contig13046.0 gene B: Contig12964.0. The phylogeny, rooted with the Urostyla ortholog, was generated by PhyML with a single substitution rate category and the JTT substitution model, optimized for tree topology and branch length. Numbers at the tree nodes indicate bootstrap values for 100 replicates. The multiple sequence alignment was produced with MAFFT v6.956b (default parameters) and trimmed with trimAl v1.2 with the “-automated1” parameter to remove excess gaps and poorly aligned regions. The scale below the phylogeny illustrates branch substitutions per site.

Duplication is the major mechanism for creation of alternative gene segments. ( EEN ) Germline map of a locus with two nonscrambled genes that share five DNA segments at the 5′ end. Arrows represent MDSs and gaps represent IESs. Gray: Contig8.0 pink: Contig22835.0. ( B ) Translated alignment (nucleotide alignment guided by amino acid sequence) of the MAC contigs from Panel A showing paralogy between the duplicated MDSs downstream of MDS 5 (MDS 1–5 are shared) and that the locations of MDS boundaries are conserved between the two paralogs (conserved precisely between MDS 6 and 7 in both pink and gray 1 bp different in location between MDS 8 and 9 in pink and MDS 7 and 8 in gray 3 bp different between MDS 9 and 10 in pink and MDS 8 and 9 in gray). Unique bases or gaps on each sequence are annotated with a vertical black bar, and identical regions are highlighted in light gray. Wide arrows in different colors represent exons (labeled as CDS, yellow), introns (white), start and stop codons, and MDSs. The overlaps between MDSs contain short regions of microhomology at recombination junctions. ( C ) A maximum-likelihood tree, constructed using the alternative MDS regions of two paralogous genes that share MDSs, shows accelerated evolution of gene B after MDS duplication. Gene A: Contig13046.0 gene B: Contig12964.0. The phylogeny, rooted with the Urostyla ortholog, was generated by PhyML with a single substitution rate category and the JTT substitution model, optimized for tree topology and branch length. Numbers at the tree nodes indicate bootstrap values for 100 replicates. The multiple sequence alignment was produced with MAFFT v6.956b (default parameters) and trimmed with trimAl v1.2 with the “-automated1” parameter to remove excess gaps and poorly aligned regions. The scale below the phylogeny illustrates branch substitutions per site.

Phylogenetic tree reconstruction using just the alternative MDSs permits visualization and inference of the duplication events. figuur 3C shows a phylogeny based on the unique regions of two paralogous genes with shared MDSs. The phylogeny suggests that duplication of the alternative MDS region occurred after the divergence of Paraurostyla , and that gene B evolved faster than gene A post duplication. There are 11 cases where the phylogenetic analysis suggests that the duplication occurred earlier than would be inferred based on ortholog presence and that one copy was lost in some lineages. The numbers in parenthesis in figure 2B show the corrected numbers of inferred origins after examining individual phylogenetic trees.

There are 15 cases where the alternative MDSs show no similarity at the protein level (BLASTP, e-value cutoff 1 e-6), suggesting that they did not arise through duplication. These alternative MDSs could be derived from MIC-limited mobile elements, although their sequences do not correspond to any known transposons in Oxytricha . The lower GC content of some of these segments suggests that they could even be derived from retention of MIC-limited noncoding sequences in the MAC (as demonstrated between strains in Möllenbeck et al. 2006 , and experimentally in Fang et al. 2012 ). For 9 of the 15 cases, no stichotrich species contains just one ortholog (precluding our ability to distinguish ancestral from novel genes) however, we could unambiguously assign the novel gene in the other 6 examples (i.e., gene B in fig. 2EEN ). Among these, the GC content of the alternative regions in five genes (0.261, 0.305, 0.306, 0.310, 0.310) falls below the lower quartile among all genes in the MAC genome (0.313), suggesting that they may have been acquired from MIC-limited noncoding sequences, which typically have a lower GC content (average 0.284) than the MAC genome.

Evolution of Alternative and Constitutive MDSs

We compared the substitution rates between alternative and constitutive MDSs by using amino acid divergence and the ratio of nonsynonymous to synonymous substitution rates (d N /NS S ). Because the divergence levels among the ciliate species are so high that the rate of synonymous substitutions per synonymous site (d S ) is highly saturated, we used the comparison between two O. trifallax laboratory strains, JRB310 and JRB510, to infer the d N /NS S ratio. We sequenced and assembled the macronuclear genome of the O. trifallax strain JRB510 and compared it with the MAC genome of strain JRB310 reported by Swart et al. (2013) . The distance between these strains is suitable for calculating d N /NS S ratios (median dN: 0.0097 median dS: 0.15 median d N /NS S : 0.066). The d N /NS S ratios between JRB310 and JRB510 orthologs only represent evolutionary rates after divergence of the two strains, but not immediately after the formation of new genes. We find that alternative MDSs evolve faster than shared MDSs, with higher amino acid substitution rates ( fig. 4EEN , Wilcoxon signed-rank test, P = 6.21e-09). There is no significant difference between synonymous substitution rates ( fig. 4B , P = 0.173), but the nonsynonymous substitution rates of alternative MDSs are significantly higher ( fig. 4C , P = 3.3e-6), as well as the d N /NS S ratios ( fig. 4NS , P = 3.89e-8). This faster substitution rate is consistent with either stronger functional constraints on the shared regions or, conversely, either weaker selective constraints on the alternative MDSs or greater functional divergence. Shared, constitutive MDSs are intrinsically more constrained because they are translated in more than one gene product, whereas alternative MDSs should have more opportunity to diverge.

Substitution rates for alternative versus shared gene segments. ( EEN ) Amino acid substitution rates of alternative versus constitutive MDSs. ( B ) Synonymous substitution rates (d S ) of alternative versus constitutive MDSs. ( C ) Nonsynonymous substitution rates (d N ) of alternative versus constitutive MDSs. ( NS ) d N /NS S values of alternative versus constitutive MDSs.

Substitution rates for alternative versus shared gene segments. ( EEN ) Amino acid substitution rates of alternative versus constitutive MDSs. ( B ) Synonymous substitution rates (d S ) of alternative versus constitutive MDSs. ( C ) Nonsynonymous substitution rates (d N ) of alternative versus constitutive MDSs. ( NS ) d N /NS S values of alternative versus constitutive MDSs.

Potential Functional Divergence of Genes with Shared MDSs

Newly created genes sometimes undergo functional divergence (neofunctionalization or subfunctionalization) to acquire different cellular roles, especially genes that arise through duplication ( Zhang 2003 Conant and Wolfe 2008 ). Similarly, functional divergence could be possible for genes with alternative MDSs that arise through duplication or other mechanisms. We investigated whether the new genes that emerged from alternative MDS processing have evolved either different domain organization or expression patterns. Protein domain analysis did not identify any novel combinations of protein domains in our data set of 69 cases. Instead, the unique MDSs for each group either do not contain any recognizable protein domains or encode the same protein domains.

Although the DNA copy number for genes with shared MDSs is usually similar to each other (only four show a difference above 3-fold fig. 5EEN ), their overall RNA expression levels differ greatly across all time points during macronuclear development ( Swart et al. 2013 ) (only nine show a difference below 2-fold fig. 5B ), suggesting the possibility of distinct or specialized roles. We also compared the expression profiles for genes with shared MDSs by assessing whether their gene expression levels peak at the same time point. We excluded genes that have total normalized expression levels below ten (i.e., ten normalized RNA-seq reads per kb, represented by the dashed dotted vertical line in fig. 5B ), because low expression may affect the accuracy of the peak analysis. This filter excluded 1 out of 32 cases of genes with shared 5′ DNA regions, 15 out of 31 groups of genes with shared 3′ regions (a higher percentage because RNA-seq is biased toward the 3′ end of a transcript due to poly(A) enrichment during Oligo(dT) priming, but only RNA-seq reads mapping to 5′ ends were scored for these genes), and 2 out of 6 cases of genes that share both 5′ and 3′ regions. For these excluded genes, we verified that their expression is higher than ten normalized RNA-seq reads per kb at other nondevelopmental time points, to exclude the possibility that they are nonfunctional pseudogenes. Among the remaining 31 cases with shared 5′ regions, only 9 show expression peaks at the same time point, and the other 71% have different peaks of expression, consistent with possible functional divergence of the latter cases. Among the remaining 16 cases with shared 3′ regions, only 3 cases have gene expression peaks at the same time point, also suggesting the opportunity for functional divergence among the other 13 cases (81%). Two of the remaining four groups of genes that share both 5′ and 3′ regions have gene expression peaks at the same time point (50%). Figuur 5CE show distinct expression profiles of genes with shared 5′ or 3′ regions, or both, and that passed the expression filter, suggesting that some new genes created by alternative DNA processing may have undergone functional divergence.

Divergent expression profiles of genes that share precursor segments. ( EEN ) DNA copy number of genes that share MDSs. For each group of genes that share MDSs, the lowest copy number is plotted on the x -axis and the highest copy number on the ja -as. The solid, dashed, and dotted lines represent ja = x , ja = 2 x , en ja = 3 x , respectievelijk. ( B ) Total expression level of genes that share MDSs across a developmental time course. Gene expression levels are represented by a number of normalized RNA-seq counts per kb. The three lines ja = x , ja = 2 x , en ja = 3 x are as in Panel A. The dashed dotted vertical line represent the cutoff of total expression level of ten normalized RNA-seq reads per kb. ( C ) Gene expression profiles of 31 groups of genes that share 5′ regions. The developmental time course includes six time points: Vegetative, asexually growing stage (Veg) and 0, 10, 20, 40, 60 h post mixing of compatible mating types (strains JRB310 and JRB510) to initiate conjugation and macronuclear development. ( NS ) Gene expression profiles of 16 groups of genes that share 3′ regions. ( E ) Gene expression profiles of four groups of genes that share both 5′ and 3′ regions.

Divergent expression profiles of genes that share precursor segments. ( EEN ) DNA copy number of genes that share MDSs. For each group of genes that share MDSs, the lowest copy number is plotted on the x -axis and the highest copy number on the ja -as. The solid, dashed, and dotted lines represent ja = x , ja = 2 x , en ja = 3 x , respectievelijk. ( B ) Total expression level of genes that share MDSs across a developmental time course. Gene expression levels are represented by a number of normalized RNA-seq counts per kb. The three lines ja = x , ja = 2 x , en ja = 3 x are as in Panel A. The dashed dotted vertical line represent the cutoff of total expression level of ten normalized RNA-seq reads per kb. ( C ) Gene expression profiles of 31 groups of genes that share 5′ regions. The developmental time course includes six time points: Vegetative, asexually growing stage (Veg) and 0, 10, 20, 40, 60 h post mixing of compatible mating types (strains JRB310 and JRB510) to initiate conjugation and macronuclear development. ( NS ) Gene expression profiles of 16 groups of genes that share 3′ regions. ( E ) Gene expression profiles of four groups of genes that share both 5′ and 3′ regions.


We acknowledge funding of this research project by the Research Council of Norway (RCN) and the University of Hamburg (Hamburg, Germany). We are grateful to Prof. C. Benning (Michigan State University, East Lansing, United States) for providing the expression vector pNoc ox Venus. We also would like to thank Elke Wölken (Department of Aquatic Ecophysiology and Phycology, University of Hamburg) for analyses of immunogold-labeled N. oceanica transformants by transmission electron microscopy.

aa, amino acid ALNS, allantoin synthase ASW, artificial sea water At, Arabidopsis thaliana CaMV, cauliflower mosaic virus DC, decarboxylase DECR, 2,4-dienoyl-CoA reductase DHNS, 1,4-dihydroxy-2-naphthoyl-CoA synthase dpt, days post transformation EMB8, embryogenesis-associated protein 8 EPA, eicosapentaenoic acid EYFP/GFP, enhanced yellow/green fluorescent protein HIT, histidine triad family protein HIUase, 5-hydroxyisourate hydrolase IndA, indigoidine synthase A MDH, malate dehydrogenase MLS, malate synthase Ng, Nannochloropsis gaditana OHCU, 2-oxo-4-hydroxy-4-carboxy-5-ureidoimidazoline PEX, peroxin PfkB, 6-phosphofructokinase PGL3, 6-phosphogluconolactonase 3 PKT, peroxisomal 3-ketoacyl thiolase PTS1/2, peroxisomal targeting signal type 1/2 PUFA, polyunsaturated fatty acid PUKI, pseudouridine kinase PUMY, pseudouridine monophosphate glycosylase TEM, transmission electron microscopy.


Abstract

β-defensins (BD) are the largest family of vertebrate defensins with potent antimicrobial, chemotactic and immune-regulatory activities. Four BD genes (BD1-4) have been cloned previously in rainbow trout but none have been reported in other salmonids. In this study seven BD genes (BD1a-b, 2–4, 5a-b) are characterised in Atlantic salmon and additional BD genes (BD1b and BD5) in rainbow trout. Bioinformatic analysis revealed up to seven BD genes in the genomes of other salmonids that belong to five subfamilies (BD1-5) due to whole genome duplications. BD1-2 and BD4-5 are also present in basal teleosts but only BD1 and/or BD5 are present in advanced teleosts due to loss of one chromosomal locus. BD3 is salmonid specific. Fish BD have a unique three-coding exon structure. Fish BD are highly divergent between subfamilies but conserved within each subfamily. Atlantic salmon BD genes are differentially expressed in tissues, often with low level expression in systemic immune organs (head kidney and spleen) yet with at least one BD gene highly expressed in mucosal tissues, heart, blood and liver. This suggests an important role of these BD genes in innate immunity in mucosa, liver and blood in Atlantic salmon.


Bekijk de video: Exon Shuffling HD Animation (November 2021).