Informatie

Kan een nieuw eiwitdomein de novo ontstaan ​​in de natuur of zijn alle eiwitdomeinen ontstaan ​​uit één enkele voorouder?


Ik weet dat er uitgebreid onderzoek is gedaan naar de taxonomie en evolutie van eiwitdomeinen en dat er veel verbanden zijn en worden gevonden tussen tal van domeinen. Voor zover ik kan zien, nieuwe domeinen komen altijd voort uit reeds bestaande. Ik heb op geen enkel gebied papier gezien dat de ontwikkeling laat zien van een nieuw eiwitdomein uit een willekeurig stuk DNA dat slechts een startcodon muteert en een nieuw eiwit synthetiseert zonder duidelijke functie. Ik weet dat dit is theoretisch mogelijk maar heeft iemand iets gezien? bewijs dat het is gebeurd in enige vorm van leven in een geologische tijdsperiode? OF zijn er andere mechanismen die nieuwe domeinen kunnen genereren uit niet-coderend DNA die ik over het hoofd heb gezien bij het doorzoeken van de tijdschriften?

Mijn gedachte is dat, als de novo eiwitdomeingeneratie niet plaatsvindt, betekent dit dat alle eiwitdomeinen een soort "nageslacht" zijn van een enkel domein dat ontstond aan het begin van het leven zoals we dat kennen (of misschien zelfs de eerste levensvorm op aarde was). Het lijkt mij heel vreemd dat hier nog niet op is gewezen aangezien het een relatief eenvoudige deductie is. Daarom vraag ik ofwel om een ​​referentiedocument dat bewijs toont voor de evolutie van de novo eiwitdomeinen van een willekeurig stukje DNA dat op de een of andere manier in een gen is veranderd of voor een verwijzing naar een paper waarin het idee wordt besproken dat alle eiwitten afkomstig zijn van een gemeenschappelijke voorouder die aan het begin van het leven bestond en zelfs, mogelijk, een enkel domein als oud als het leven zelf?


Ja. Nieuwe eiwitdomeinen kunnen de novo in de natuur ontstaan. Het bewijs is behoorlijk solide, aangezien die nieuwe domeinen alle verwachte mutatiepatronen en statistische eigenschappen vertonen (verwacht voor iets dat evolueert uit DNA dat nog niet codeert voor een domein). Bv: zie de volgende meta-analyse, die ook beschrijft hoe die nieuwe domeinen zich gedragen ten opzichte van oudere, en hoe ze integreren in eiwitten: Toll-Riera et Mar Alba 2013, BMC Evolutionary Biology, "Emergence of new domains in proteines": https://bmcevolbiol.biomedcentral.com/articles/10.1186/1471-2148-13-47

Als je daarnaast geïnteresseerd bent in nieuwe genen, bekijk dan de volgende mini-review: http://www.sciencedirect.com/science/article/pii/S0960982214001547#bib20 .

Als je ook geïnteresseerd bent in in-vitro-evolutie, die direct waarneembaar is binnen de levensduur van individuele mensen, de volgende recensie: http://www.sciencedirect.com/science/article/pii/S0022175904001309


Kan een nieuw eiwitdomein de novo ontstaan ​​in de natuur of zijn alle eiwitdomeinen ontstaan ​​uit één enkele voorouder? - Biologie

Genen zonder gelijkenis tussen soorten (weeskinderen) komen voor in alle genomen waarvan de sequentie is bepaald.

Sommige wezen worden gevestigd in volgende geslachten.

Naarmate weeskinderen ouder worden, hebben ze de neiging om complexer, meer verbonden en functioneler te worden.

Veel wezen functioneren in biotische/abiotische stress en afstammingsspecifieke eigenschappen.

Sommige wezen koppelen metabole reacties aan veranderingen in de omgeving.

Sommige wezen zijn functioneel wanneer ze worden geïntroduceerd in evolutionair verre soorten.

Aanzienlijke minderheden van eiwitcoderende genen van elk eukaryoot en prokaryotisch genoom waarvan de sequentie is bepaald, zijn uniek voor de soort. Deze zogenaamde 'weesgenen' kunnen evolueren de novo uit een niet-coderende sequentie of afgeleid zijn van ouder coderend materiaal. Ze worden vaak geassocieerd met reacties op omgevingsstress en soortspecifieke eigenschappen of regulerende patronen. Echter, moeilijkheden bij het bestuderen van genen waar vergelijkende analyse onmogelijk is, en een voorkeur voor algemeen geconserveerde genen, hebben geleid tot onderwaardering van hun belang. We bespreken hier de identificatie, mogelijke oorsprong, evolutionaire trends en functies van weeskinderen met de nadruk op hun rol in de plantenbiologie. We illustreren verschillende evolutionaire trends met een analyse van: Arabidopsis thaliana en presenteren QQS als een model weesgen.


Resultaten

We hebben een mogelijk geval van evolutie van een nieuw gen en een nieuwe functie geïdentificeerd door in te overdrukken E coli K12. De overlappende genen zijn het gen voor de positieve regulator voor sigma 32 heat shock promoter (htgA) [UniProtKB:P28697] en het gen jaaa [UniProtKB:P75617], waarvan het hypothetische eiwitproduct is geclassificeerd als een niet-geïdentificeerde eiwitfamilie 0174 in de Pfam-database [Pfam:UPF0174] (Figuur 1). De genen zijn gecodeerd in de 123/213 fase (htgA in de (+) streng, en jaaa in de (-) streng), wat betekent dat het derde nucleotide van het (+) codon overlapt met het 3 nucleotide van het (-) codon. De overlap omvat de 591 nucleotiden van de volledige htgA gen.

Overlappende genen in E coli. overlapt jaaa [UniProtKB:P75617] en htgA [UniProtKB:P28697] genen in E coli. Cijfers geven nucleotideresidu aan voor jaaa gen. Het initiatiecodon van hgtA is voorspeld in nucleotide 632 [14], en meer recentelijk in 527 [23]. Een grijs vak geeft de regio aan waar we een verlaging van de evolutiesnelheid van jaaa sequenties met een htgA overlappend gen.

Hoewel NCBI-genannotatietabellen coördinaten bieden voor de positie van genen in genomen, moet voorzichtigheid worden betracht, omdat over-annotatie en sequentiefouten de identificatie van echte genen kunnen misleiden. terwijl er is in vitro experimenteel bewijs voor het bestaan ​​van htgA [14], dit geldt niet voor jaaa. Daarom hebben we gezocht naar indirect bewijs voor het bestaan ​​ervan door te vragen of er: a) jaaa homologen in andere genomen b) domeinfusies van homologen met de jaaa eiwitproduct met andere eiwitdomeinen en c) detecteerbare vooroordelen in de verhouding van synoniem (ps) versus niet-synoniem (pn) vervangingen, d.w.z. afwijkingen van neutraliteit (pspn) tussen jaaa sequenties die de werking van natuurlijke selectie suggereren.

Fylogenetische verdeling van htgA en jaaa genen

Volgens NCBI-genannotatietabellen, htgA is aanwezig in drie E coli en een Shigella flexneri stammen. Verder is op basis van l) sequentieovereenkomst ii) ORF-voorspelling door ORF Finder en iii) verlaagde snelheden van sequentie-evolutie van jaaa reeksen met overlappend htgA genen (zie hieronder), stellen we voor dat homologen htgA zijn ook aanwezig in alle andere E coli en Shigella sp. genomen hier geanalyseerd, opgeteld tot een totaal van negen htgA sequenties (Figuur 2). Anderzijds, jaaa heeft een bredere fylogenetische verspreiding. Dit gen is aanwezig in 16 -proteobacteriën en drie ε-proteobacteriën. jaaa kan worden geïdentificeerd als een zeer uiteenlopende reeks in Nostoc sp PCC7120 een filamenteuze cyanobacteriën en in een fusobacteriën. In tegenstelling tot htgA, die aanwezig is als een enkele kopie, hebben sommige van de hier geanalyseerde genomen paraloge kopieën van jaaa homologen. Er zijn twee genomen met meer dan één kopie van jaaa Helicobacter pylori J99 heeft twee exemplaren, terwijl H. pylori 26695 heeft drie exemplaren. In totaal hebben we 24 homologen gedetecteerd van jaaa. Aangezien er drie paren identieke sequenties zijn op nucleotideniveau (elk paar is gecodeerd op verschillende stammen van dezelfde soort), zijn er slechts 21 UniProtKB-codes (Figuur 2). Uitlijning van meerdere sequenties van jaaa eiwitcoderende genen worden getoond in aanvullend bestand 1. De bredere fylogenetische distributie van jaaa stelt htgA ontstaan ​​door overdrukken in een voorouderlijk exemplaar van bestaande jaaa sequenties (volledige namen van eiwitten worden gegeven in aanvullend bestand 2).

Fylogenetische verdeling van jaaa en htgA overlappende genen. Fylogenetische distributie, open leeskaders van overlappende genen en eiwitdomeinorganisatie van gecodeerde eiwitsequenties volgens de Pfam-database. ORF-structuur: Open leeskader van jaaa sequenties wordt getoond met behulp van links georiënteerde donkergrijze pijlen genoom-geannoteerd htgA reeksen met rechts georiënteerde zwarte pijlen voorspeld htgA genen in deze studie rechts georiënteerde lichtgrijze pijlen niet-coderende open leeskaders rechts georiënteerde gearceerde pijlen. Pfam-domeinen: lichtgrijze vakken aangegeven [Pfam:UPF0174] Pfam-domein aanwezig in jaaa eiwitproducten donkergrijze vakken geven GTPase-domein met onbekende functie aan [Pfam:MMR_HSR1]. In de jaaa gen dat codeert voor [UniProtKB:Q8FLC7] de voorspelde htgA gen is korter vanwege een non-sense mutatie. Volledige namen van eiwitten worden gegeven in aanvullend bestand 3.

We hebben onder virussen geen homologen gedetecteerd met het eiwitproduct van htgA in de niet-redundante database. Naast een kleine gelijkenis van het DnaC-eiwit [UniProtKB:Q9AZV4] van Lactococcus faag bIL286 (41 aminozuuridentiteiten langs 152 residuen en BLAST e-waarde van 1,7) naar de jaaa eiwit product. Dit lijkt een vals positief resultaat te zijn, aangezien de overeenkomst niet werd bevestigd door de Pfam-database. Deze negatieve resultaten suggereren sterk, maar bewijzen niet, dat jaaa en htgA is niet ontstaan ​​in een viraal genoom.

Identificatie van eiwitdomein van jaaa en htgA gecodeerde eiwitten

De jaaa gecodeerde eiwitten komen overeen met het [Pfam:UPF0174]-profiel in de Pfam-database, de enige uitzondering is het hypothetische eiwit alr3689 [UniProtKB:Q8YQX2] van Nostoc sp. PCC 7120 met een marginale HMMER E-waarde van 0,048, bestaande uit 156 aminozuren van de 185 (0,01 wordt als significant beschouwd in Pfam). Echter, een BLAST-zoekopdracht van E. coli yaaW gecodeerde eiwitsequentie [UniProtKB:P75617] naar onze database van eiwitten van complete genomen komt overeen met de cyanobacteriële eiwit alr3689-sequentie met een significante e-waarde van 2e-05 BLAST met een 86 aminozuren lang stuk van het eiwit. Het eiwit alr3689 lijkt een sterk uiteenlopende homoloog te zijn van jaaa met het UPF0174-domein. jaaa is gefuseerd met een GTPase-domein [Pfam:MMR_HSR1] in Shewanella sp. en Campylobacter coli, die een brede fylogenetische distributie maar onbekende functie heeft. jaaa is ook gefuseerd met een fractie van dit domein in de γ-proteobacteriën Idiomarina loihiensis (Figuur 2). Dit GTPase-domein is gefuseerd in andere eiwitten met een domein met onbekende functie: [Pfam:DUF933] gerelateerd aan het ubiquitine en aan een ander GTPase-domein [Pfam:GTP1_OBG] waarvan is aangetoond dat het belangrijk is in het normale celmetabolisme in Schizosaccharomyces pombe [15]. De fusie van sommigen jaaa homologen met een GTPase-domein suggereert dat: jaaa codeert voor een functioneel eiwit. Aan de andere kant is er geen beschikbaar Pfam-domein voor de htgA gen op dat moment.

Fylogenetische analyse

Met uitzondering van de reeks van Nostoc sp. die zich vertakt tussen de proteobacteriën, de fylogenie van jaaa gecodeerde eiwitten komen ongeveer overeen met de canonieke rRNA-gebaseerde boom (Figuur 3).

Fylogenetische analyse van jaaa eiwit gecodeerde sequenties. Minimale evolutie boom van jaaa eiwitcoderende sequenties (aantal in vertakkingen geeft 1000 bootstraps aan). Een grijze verticale balk geeft de tak aan waar htgA overlappende gen hypothetisch ontstaan. Een ster geeft de plaatsing van de wortel aan volgens de methode van de middelpuntwortel. A, B en O geven de groepen sequenties aan die worden gebruikt om de veranderingen in de snelheidsevolutie van . te detecteren jaaa reeksen met en overlapt htgA gen. Knooppunt C is een hypothetische voorouderlijke sequentie. Donkerdere takken geven die sequenties aan die het grotere aantal statistisch significante relatieve snelheidstests hebben wanneer ze als outgroups worden gebruikt. Getallen na de namen van eiwitten geven het volgende aan: aantal statistisch significante vergelijkingen/van het totale aantal vergelijkingen, significantieniveau (aantal aminozuren dat betrokken is bij de relatieve snelheidssmaak). NS staat voor: niet significant.

Synonieme versus niet-synonieme substituties

De relatie tussen synoniem (ps) versus niet-synoniem (pn) substituties tussen alle paren van jaaa sequenties wordt getoond in figuur 4a. Het gestippelde ovaal geeft vergelijkingen aan tussen groep A- en B-sequenties (zoals gedefinieerd in figuur 3). In figuur 4b zijn de waarden van pn en ps worden uitgezet tegen Kimura-afstanden voor elk paar jaaa sequenties. Zoals aangetoond, suggereert de overdaad aan synonieme versus niet-synonieme substituties een zuiverende selectie. Deze overmaat is vooral belangrijk tussen sequenties die behoren tot groep A en groep B (Figuur 4c), wat wijst op een hogere mate van beperking tot niet-synonieme veranderingen opgelegd door htgA Aan jaaa sequenties. Zuiverende selectie is voor iedereen statistisch significant jaaa sequenties (tabel 1).

Synonieme versus niet-synonieme substituties. a) Aandeel van synoniem (pn) versus niet-synoniem (ps) vervangingen voor jaaa sequenties. Het gestippelde ovaal geeft vergelijkingen aan tussen sequenties van groep A en B (y = 0,649x - 0,045 r 2 = 0,578) b) Verdeling van ps (zwarte stippen) en pn (witte stippen) tegen Kimura afstand voor jaaa genen. Pijlen geven vergelijkingen aan tussen sequenties van groep A en B c) Aantal pn versus ps waarden van jaaa sequenties tussen groepen (A, B en O), balken geven standaarddeviatie aan.

Het patroon van synonieme en niet-synonieme substituties tussen htgA sequenties suggereert ook zuiverende selectie (tabel 1). Dit patroon zou echter de weerspiegeling kunnen zijn van de accumulatie van zuiverende mutaties tussen jaaa genen en de 123/213 fase van de overlap. Daarom zijn synonieme en niet-synonieme mutaties in jaaa zal hetzelfde effect hebben als htgA. Dit is een onverwacht patroon voor een nieuwe sequentie, aangezien is aangetoond dat nieuwe genen die ontstaan ​​door overprinten in virussen een overmaat aan niet-synonieme substituties vertonen, wat wijst op de werking van positieve natuurlijke selectie [8].

Lagere evolutie van jaaa reeksen met overlappende htgA genen

Van DNA-sequenties die coderen voor overlappende genen wordt verwacht dat ze met een lagere snelheid evolueren dan die DNA-sequenties die coderen voor slechts één gen [6, 7]. Dienovereenkomstig hebben we de substitutiepercentages geanalyseerd van nauw verwante jaaa genen met en zonder de overlappende htgA met behulp van een niet-parametrische relatieve snelheidstest [16] voor alle combinaties van drie sequenties bestaande uit een out-group (O) sequentie en twee in-group (A en B) sequenties (zie methoden en figuur 3).

In groep jaaa sequenties die de overlap missen (B-sequenties in figuur 3) hebben meer exclusieve mutaties geaccumuleerd (m2-veranderingen in figuur 5) in de eerste 409 nucleotiden dan die in de groep jaaa genen begiftigd met de overlap (A-sequenties in figuur 3 en m1 verandert in figuur 5). Dit suggereert dat htgA oefent een evolutionaire druk uit om jaaa in hun eerste 409 nucleotiden. Daarom hebben we de jaaa uitlijning in twee delen. De eerste bevat nucleotiden 1 tot 408, terwijl de tweede de nucleotiden 409 tot 714 bevat. Vervolgens hebben we de Tajima-test [16] onafhankelijk van elkaar op beide secties toegepast. Zoals te zien is in figuur 6, zijn veel van de verschillen significant bij α = 0,05 voor de eerste 408 nucleotiden, en voor sommige vergelijkingen zelfs op het α = 0,01-niveau. Dit geldt met name voor de genen die coderen voor [UniProtKB: O26107] en [UniProtKB: Q9ZJ24] eiwitsequenties (ze komen ook het beste overeen met A- en B-sequenties). Niet alle vergelijkingen geven echter statistisch significante resultaten. Het is waarschijnlijk dat signaalerosie in sequenties die meer substituties hebben ondergaan, een gedeeltelijke verklaring kan zijn voor het ontbreken van statistisch significante resultaten in sommige relatieve snelheidstests, aangezien er een neiging lijkt te zijn van lagere Chi-kwadraatwaarden in de richting van toenemende genetische afstand (Figuur 6).

Verschillen in tariefsubstitutie tussen jaaa sequenties. Aantal mutaties exclusief groep A-sequenties (m1-mutaties) versus aantal exclusieve mutaties van groep B-sequenties (m2-mutaties) in jaaa genen in vensters van 102 nucleotiden. X-waarden geven de middenpositie van elk venster in E. coli yaaW volgorde. Aaneengesloten vensters overlappen 51 nucleotiden. Dikke lijnen geven het gemiddelde aantal exclusieve mutaties voor m1- en m2-veranderingen aan. Gestippelde lijnen gaven het aantal m1- en m2-veranderingen aan voor reeksen met de meest extreme waarden. Elk punt gaat vergezeld van zijn standaarddeviatie.

statistische analyse. Verdeling van Chi-kwadraatwaarden van relatieve snelheidstests tegen afstand van out-group sequentie (O) tot knooppunt C. Zwarte stippen komen overeen met de eerste 408 nucleotiden van jaaa en kruisen komen overeen met de rest van het gen. De significantieniveaus van 0,005 en 0,001 zijn aangegeven met stippellijnen.


Genomisch landschap van SARS-CoV-2

Om de klinische implicaties van SARS-CoV-2-mutaties te begrijpen en om vaccins en neutraliserende antilichamen tegen het virus te ontwikkelen, moeten we het genomische landschap en het biologische gedrag van de belangrijkste eiwitten van SARS-CoV-2 kennen. Coronavirussen behoren tot de familie Coronaviridae (1, 2). SARS-CoV-2 is een omhuld, enkelstrengs en positief-sense RNA-virus. Het SARS-CoV-2-virion bestaat uit vier belangrijke eiwitten, waaronder spike (S), envelop (E), membraan (M) en nucleocapcid (N). Onder hen speelt het spike-eiwit een sleutelrol bij virale hechting, fusie, binnenkomst en transmissie (3𠄵). Spike-eiwit heeft twee functionele delen die bekend staan ​​​​als S1 en S2. Het S1-domein medieert receptorbinding en het S2 bemiddelt stroomafwaartse membraanfusie. De S1-subeenheid speelt een cruciale rol bij de binding van de virusreceptor en de S2-subeenheid is verantwoordelijk voor de fusie van viruscellen (Figuur 1). SARS-CoV-2 Spike-eiwit bindt aan de ACE2-receptor (3𠄵, 26).

Figuur 1. Genomisch landschap van het SARS-CoV-2-virus. (EEN) Het receptorbindende domein (RBD) in het spike-eiwit is het meest variabele deel van het genoom. Van zes aminozuren is aangetoond dat ze cruciaal zijn voor binding aan ACE2-receptoren. Sleutelresten in het spike-eiwit die contact maken met de ACE2-receptor worden weergegeven met blauwe vakken. (B) Polybasische splitsingsplaats (PRAR) op de kruising van de S1- en S2-subeenheid is een relevant kenmerk van het virale genoom. Dit maakt een effectieve splitsing door furine en andere proteasen mogelijk en speelt een rol bij het bepalen van de virale besmettelijkheid (3).

Er zijn twee relevante genomische kenmerken van SARS-CoV-2 gemeld:

(a) Receptorbindingsdomein (RBD) dat zich in de S1-subeenheid bevindt, heeft specifiek de ACE2-receptoren ingeschakeld. S2-subeenheid bemiddelt de fusie van virale en celmembranen

(b) SARS-CoV-2 bevat een functionele polybasische splitsingsplaats op de S1–S2 kruising (3).

RBD in het spike-eiwit is het meest variabele deel van het coronavirusgenoom. Zes RBD-aminozuren spelen een cruciale rol bij de binding aan ACE2-receptoren en bij het bepalen van het gastheerbereik van SARS-CoV-achtige virussen (Figuur 2). Dit zijn Y442, L472, N479, D480, T487 en Y4911. Van vijf van de zes residuen is aangetoond dat ze verschillen tussen SARS-CoV-2 en SARS-CoV. Zowel structurele studies als biochemische experimenten toonden aan dat SARS-CoV-2 een RBD heeft dat zich met hoge affiniteit aan ACE2 bindt (3, 5, 27).

Figuur 2. Levenscyclus van de Coronavirussen. Coronavirussen deeltjes binden aan de ACE2-receptor. TMPRSS2 bevordert de virale opname en fusie op het cellulaire of endosomale membraan. Na binnenkomst onderwerpt het vrijkomen en verwijderen van het genomische RNA het aan de onmiddellijke vertaling van de twee grote open leesramen, ORF1a en ORF1b. Tijdens de cellulaire levenscyclus brengen en repliceren coronavirussen hun genomische RNA tot expressie en repliceren ze om kopieën van volledige lengte te produceren die worden opgenomen in nieuw geproduceerde virale deeltjes (8).


Ruwe sequentiegegevens en annotaties voor de S. cerevisiae stam S228C-genoom werden op 18 oktober 2009 [85] gedownload van de SGD. De gereconstrueerde evolutionaire geschiedenis tussen S. cerevisiae en een pre-WGD voorouder afgeleid door Gordon et al. [39] werd gedownload van de Yeast Gene Order Browser (YGOB) versie 3 [86, 87]. Voorspelde genfamilies en de overeenkomstige homologe eiwitten werden op 18 oktober 2009 gedownload van de Princeton Protein Orthology Database [40, 41]. De PPOD-database bevat voorspellingen van OrthoMCL [88], MultiParanoid [89] en een op Jaccard-clustering gebaseerde benadering . Voor de classificatie van subtelomere genen die niet zijn opgenomen in YGOB-reconstructie, sequentie-uitlijningen van S. cerevisiae eiwitten met voorspelde orthologen van zeven verwante schimmels werden op 24 november 2009 gedownload van SGD [85].

Gegevens over fysieke interactie zijn geëxtraheerd uit de release van interacties van 26 januari 2009 in de Database of Interacting Proteins (DIP) [57]. Bij het onderzoeken van de robuustheid van onze conclusies hebben we ook rekening gehouden met de fysieke interactienetwerken van Kim en Marcotte [54], die werden geëxtraheerd uit BioGRID [83]. Voor het DIP-netwerk werden eiwitten met meer dan 50 fysieke interacties iteratief gefilterd om experimentele artefacten als gevolg van 'kleverige' eiwitten te verwijderen. De netwerken van Kim en Marcotte [54] zijn gefilterd zoals beschreven in Batada et al. [90] dit produceerde netwerken die gemakkelijk konden worden onderverdeeld in een door de literatuur samengestelde interactieset en een set die werd bepaald door experimentele methoden met hoge doorvoer. De gerapporteerde conclusies gelden voor al deze netwerken (paragraaf S1.2 in aanvullend bestand 1), wat suggereert dat vertekening in de studie van bepaalde soorten interactie niet verantwoordelijk is voor de waargenomen patronen.

We hebben verschillende bronnen van functionele informatie over genen en eiwitten overwogen. Ten eerste werd de essentie van een gen ontleend aan de levensvatbaarheidsgegevens die zijn gerapporteerd in SGD [47, 85]. Dit omvat gegevens van een high-throughput-scherm van knock-outmutanten van bijna alle ORF's in S. cerevisiae [46] en veel kleinschalige studies. We beschouwden een gen als essentieel als het in een van de onderzoeken essentieel bleek te zijn. Kennis van de functie van een eiwit werd ontleend aan de Gene Ontology-database [48] die bij SGD wordt onderhouden. De verrijking voor functies tussen sets eiwitten werd getest met behulp van de GO:TermFinder-tool [61]. De bekende domeinen die in elk eiwit aanwezig zijn, zijn afkomstig van release 24 van Pfam-A [45]. De significantie van waargenomen verschillen in deze eigenschappen tussen groepen eiwitten werd beoordeeld door een Mann-Whitney u toets. Het uitvoeren van een tweerichtings-ANOVA op de groepen leverde ook vergelijkbare resultaten op.

Classificatie van genen naar leeftijd en oorsprongsmechanisme

We hebben een leeftijd (pre-WGD, WGD of post-WGD) en mechanisme van oorsprong (duplicaat of nieuw) toegewezen aan elke niet-dubieuze S. cerevisiae ORF in SGD. We beschrijven eerst het gezinsgebaseerde schema dat in het hoofdgedeelte van het artikel wordt gebruikt, en beschrijven vervolgens kort alternatieve benaderingen die vergelijkbare conclusies opleverden.

Voor elk gen werd een oorsprongsmechanisme toegewezen op basis van de aan- of afwezigheid van een paraloge S. cerevisiae. Genen gevonden in een homologe familie met meer dan één lid in S. cerevisiae zoals gedefinieerd door de Jaccard-clusteringsmethode in PPOD [40] werden geclassificeerd als duplicaat en die zonder andere familieleden in S. cerevisiae werden geclassificeerd als nieuw. De classificatie van genen in leeftijdsgroepen werd enorm vergemakkelijkt door de recente reconstructie van de evolutionaire geschiedenis van S. cerevisiae tot net voor de WGD [39]. Deze reconstructie werd met de hand uitgevoerd en hield rekening met de sequentieovereenkomst en syntenie van alle genen in de in figuur 1 vermelde soorten. Als een gen aanwezig was in de voorspelde pre-WGD-voorouder, werd het toegewezen aan de pre-WGD-groep. Dubbele genenparen gecreëerd door de WGD werden toegewezen aan WGD/duplicaat. Hoewel het een uitdaging is om de schaal van genduplicatie te bepalen [91], hebben genduplicaten die door de WGD worden onderhouden een duidelijke signatuur wanneer hun genomische context in de reconstructie wordt vergeleken. Er zal slechts één kopie aanwezig zijn in de pre-WGD-voorouder, en dit gen zal worden toegewezen aan twee verschillende regio's in S. cerevisiae dat beide syntenie behouden ten opzichte van de voorouder [31, 39]. Homologe families met bekende WGD-paralogen werden samengevoegd. Een gen waarvan de voorouder niet wordt gevonden in de pre-WGD-voorouder werd toegewezen aan post-WGD.

De voorouderlijke reconstructie van de YGOB omvat geen subtelomere regio's van het gistgenoom omdat syntenie in deze zeer soortspecifieke regio's afbreekt. De subtelomeren zijn van groot belang in deze studie omdat ze bijna 300 genen bevatten - vele met een beperkte sequentie-overeenkomst daarbuiten S. cerevisiae. Om onze analyse uit te breiden tot deze genen, hebben we de fylogenetische verdeling van subtelomere genen in de SGD-uitlijningen van orthologen van zeven volledig gesequeneerde soorten overwogen (S. cerevisiae, Saccharomyces paradoxus, Saccharomyces mikatae, Saccharomyces bayanus, Saccharomyces kudriavzevii, Naumovia castellii, Lachancea kluyveri). Deze afstemmingen zijn gebaseerd op de gegevens en analyse van Cliften et al. [92] en Kellis et al. [93] merk op dat ze een andere reeks soorten bevatten dan die gebruikt in de voorouderlijke reconstructie. Genen met een ortholoog in een soort die vóór de WGD divergeerden, werden toegewezen aan pre-WGD. Alle anderen werden toegewezen aan post-WGD. Omdat deze voorspellingen werden verkregen met behulp van een andere strategie dan die in de YGOB, herhaalden we onze analyse met uitsluiting van alle subtelomere genen. Onze algemene conclusies worden gehandhaafd (paragraaf S1.1.3 in aanvullend bestand 1).

Gordon et al. [39] analyseerde 124 genen die sinds de WGD zijn gecreëerd. De extra post-WGD-genen in onze classificatie komen uit twee bronnen. Zoals hierboven beschreven, hebben we bijna 200 subtelomere genen die buiten hun reconstructie waren weggelaten, toegewezen aan de post-WGD-groep. De resterende extra genen zijn opgenomen in de gegevens die zijn gedownload van de Yeast Gene Order Browser, maar zijn niet in aanmerking genomen in Gordon et al. Veel van deze genen werden door SGD niet als dubieus geclassificeerd en hadden fysieke interacties, dus hebben we ze in onze analyse opgenomen. Het op zijn beurt weglaten van elk van deze groepen genen en het opnieuw uitvoeren van onze analyses leverde vergelijkbare resultaten op (paragraaf S1.1.3 in aanvullend bestand 1).

De classificatie van sets van genen in leeftijds- en herkomstgroepen is een uitdagend probleem. We hebben de gevoeligheid van onze conclusies getest voor verschillende inferentiemethoden voor familie- en evolutionaire geschiedenis. In het bijzonder families nemen van MultiParanoid [89] of OrthoMCL [88] (zie Paragraaf 1.1.2 in Aanvullend dossier 1). We hebben ook een oorsprongsclassificatie overwogen op basis van genenbomen en orthologe groepen gedefinieerd door het Synergy-algoritme [25, 42, 94] voor elk gen in S. cerevisiae. Als een gen een voorspelde duplicatie had op enig punt op het pad naar zijn voorouder in zijn genenboom of een homologe orthogroep, werd het toegewezen om anders te dupliceren, het werd toegewezen aan nieuw . Deze benadering en de gezinsgebaseerde methode kwamen overeen met 76% van hun voorspellingen, en onze belangrijkste conclusies werden gehandhaafd met deze definitie van herkomst. Dit ondersteunt onze interpretatie dat, hoewel genverlies en snelle evolutie fouten in individuele classificaties kunnen introduceren, het mechanisme van creatiegroepen verrijkt is voor genen van de relevante oorsprong. Deze resultaten worden gepresenteerd in Sectie S1.1.1 in Aanvullend bestand 1.

De hierboven beschreven classificatiebenaderingen duiden alle genen in een homologe eiwitfamilie aan als duplicaat en proberen niet om een ​​enkel gen te onderscheiden als de voorloper van de familie. We hebben voor deze benadering gekozen, omdat het vaak erg moeilijk is om uit een reeks duplicaten te selecteren welk gen de voorouderlijke kopie is - vooral in het geval van dubbele duplicaten [38]. In feite is er geen garantie dat het oorspronkelijke lid van de familie nog steeds in het genoom aanwezig is. Om het effect van deze keuze op onze resultaten te onderzoeken, hebben we een andere strategie getest waarbij we het oudste gen uit elke homologe familie selecteerden (of willekeurig een van de oudste als er meer dan één bestond) om als stamvader van de familie te dienen. Het oudste gen werd volgens de YGOB gedefinieerd als het gen in de familie met de verst verwijderde ortholoog. Voor subtelomere genen hebben we de SGD-uitlijningen gebruikt, die elk een enkele S. cerevisiae gen, om de meest verre ortholoog te bepalen. Dit gen werd dus toegewezen aan een nieuwe groep. Onze conclusies over deze aangepaste classificatie (Sectie S1.1.3 in Aanvullend dossier 1).

Analyse van eigenschappen van interactienetwerken

De integratie van een eiwit in het fysieke interactienetwerk werd gekwantificeerd door zijn graad (dat wil zeggen, het aantal interacties waaraan het deelneemt) en zijn centrale plaats (dat wil zeggen, de fractie van alle kortste paden tussen paren van andere knooppunten in het netwerk die er doorheen gaan) [95, 96]. Eiwitten zonder interactiegegevens werden niet in aanmerking genomen bij de berekening van netwerkstatistieken.

Het aantal interacties tussen eiwitten in alle paren leeftijds-/afkomstgroepen werd berekend. De significantie van het waargenomen aantal interacties werd gekwantificeerd door het te vergelijken met het aantal interacties tussen dezelfde groepen in 1000 gerandomiseerde netwerken die de graadverdeling binnen groepen behouden, maar de interacties randomiseren. een empirische P-waarde voor een waargenomen aantal interacties werd geschat door de proportie van de willekeurige netwerken waarin minstens evenveel interacties werden waargenomen [97]. Graadbehoudende randomisaties werden uitgevoerd met behulp van een stub-rewiring-algoritme [98]. De effectgrootte van het waargenomen verschil werd gekwantificeerd met behulp van Glass's Δ: het verschil tussen het waargenomen en het gemiddelde aantal interacties in de willekeurige netwerken gedeeld door de standaarddeviatie van het aantal gezien in de willekeurige netwerken.


Invoering

Eiwitten zijn essentiële componenten in elk biologisch organisme, inclusief planten. Elk eiwit kan worden samengesteld uit kleinere eenheden, domeinen genoemd, en een eiwit kan uit een enkele of meerdere domeinen bestaan ​​[1]. Er bestaan ​​verschillende databases voor de opslag van eiwitdomeinen die in biologische organismen worden gevonden [2]. Pfam heeft bijvoorbeeld momenteel 19.179 inzendingen ([3] Pfam v.34.0, uitgebracht in maart 2021). Tijdens de evolutie van het organisme kunnen eiwitdomeinen combineren, maar ook evolueren de novo. Deze de novo domeinen kunnen verder worden gecombineerd met andere de novo of bestaande domeinen om nieuwe eiwitten te creëren [1]. Tijdens de evolutie van planten is gesuggereerd dat er minstens 500 nieuwe eiwitdomeinen zijn ontstaan ​​die uniek zijn voor deze evolutionaire lijn [4]. Een zoektocht naar Arabidopsis thaliana proteomen suggereerden dat 75% van zijn eiwitten domeinen hebben die zijn geregistreerd in Pfam [5]. Dit geeft aan dat er nog steeds een significante hoeveelheid onbekende eiwitdomeinen of domeincombinaties bestaat, zelfs in goed bestudeerde planten, laat staan ​​planten in het algemeen. De combinatie van domeinen is misschien een kosteneffectieve manier voor organismen om nieuwe eiwitten te maken [1], en in EEN. thaliana, heeft ten minste 25% van de eiwitten meerdere domeinen [5].

Integrale membraaneiwitten die ionenfluxen bemiddelen als reactie op mechanische spanningen, waaronder aanraking, wind, waterstroom, osmotische druk, zwaartekracht en door celdeling en celexpansie gegenereerde krachten, worden mechanosensitieve kanalen genoemd. Tot op heden zijn er vijf groepen mechanosensitieve kanalen gevonden in planten [6]. Een daarvan is een groep MID1-COMPLEMENTARY ACTIVITY (MCA)-eiwitten, waarvan is aangetoond dat ze functioneren als Ca2+-permeabele mechanisch gevoelige kanalen [7, 8]. De genen die coderen voor MCA's worden uitsluitend gevonden in het plantenrijk [7, 9], terwijl genen die coderen voor andere groepen mechanosensitieve kanalen worden gevonden in prokaryoten en/of eukaryoten. Daarom zijn MCA's uniek in termen van moleculaire evolutie en is het interessant om te onderzoeken wanneer en waar de MCA genen verschenen tijdens de evolutie van planten.

In EEN. thaliana, twee paraloge MCA genen, AtMCA1 en AtMCA2 geïsoleerd en hun functies tot in detail onderzocht. Het AtMCA1-eiwit is betrokken bij aanrakingsdetectie aan de wortelpunt en een hypo-osmotische shock-geïnduceerde toename van de cytosolische vrije Ca2+-concentratie [7]. Van AtMCA2 werd gemeld dat het deelnam aan de Ca2+-opname bij de wortels [10]. Bovendien reageren AtMCA1 en AtMCA2 op membraanrek om kationstromen te genereren wanneer ze worden uitgedrukt in Xenopus laevis eicellen [8]. Bovendien lijken MCA-kanalen gemeenschappelijke functies te hebben in planten, gebaseerd op studies over Oryza sativa OsMCA1 [11–13], Nicotiana tabacum NtMCA1, NtMCA2 [14], Zea mays CNR13 [15], en Streptocarpus MCA-achtig gen (as Saintpaulia in [16] zie [17]).

MCA's zijn ongeveer 420 aminozuur (aa) residuen lange multidomein eiwitten. Ze behouden het voorlopig bepleite ARPK-domein (Amino-terminaal domein van Rice putative Protein Kinases 1-143 aa) [7], overlappend met het EF-handachtige gebied op het N-terminale gebied (136-180 aa) (InterPro: IPR002048 ), en goed samengesteld PLAC8-domein (Pfam ID: PF04749) in het C-terminale gebied (S1-bijlage). In het midden van de eiwitten bevindt zich een coiled-coil-motief. An approximately 170 aa region at the N-terminus, covering the ARPK and the EF hand-like domains, has Ca 2+ influx activity and is proposed to be a functional domain of MCAs [18]. In this study, we defined the N-terminal region as the MCA functional (MCA func ) domain.

In previous work, an MCA Neighbor-Joining tree was published that included only a limited number of plants, l.e. one moss, one lycophyte, one gymnosperm, and eight angiosperms. The unrooted tree showed that MCA proteins were mostly grouped following the tree of life (e.G. tolweb.org/tree/), except for Picea sitchensis (gymnosperm) and Linum usitatissimum (angiosperm) [9]. However, information from this tree is insufficient to elucidate the evolutionary history of the protein family or their domains. To better understand the origin and evolution of MCA proteins in plants, a more comprehensive study is required. Thus, in the present study, wide-ranging phylogenetic analyses of MCA proteins were carried out on 25 viridiplantae proteomes and full MCA proteins of 55 streptophyte species. Here, for ranks, we followed the definition by Leliaert et al. [19] and NCBI Taxonomy Browser (https://www.ncbi.nlm.nih.gov/guide/taxonomy/), where viridiplantae include green algae (chlorophytes) and streptophytes, streptophytes include charophytes and embryophytes, and embryophytes (also termed as “land plants”) include bryophytes (Hornworts, Liverworts, Mosses), lycophytes, ferns, gymnosperms and angiosperms. Since MCA is a multidomain protein, we focused on the evolution, origin and fate of each domain (MCA func and PLAC8) as well as the full MCA protein. Comprehensive domain searches were carried out against the viridiplantae proteomes that included two chlorophytes and two charophytes. The study represents an example for the evolutionary dynamics of a multidomain protein in plants.


Footnotes

Author contributions: M.W.G., N.L.D., V.A.K., and S.B.C. designed research M.W.G., N.L.D., S.G., V.A.K., and J.E.S. performed research M.W.G. and N.L.D. analyzed data and M.W.G. and S.B.C. wrote the paper.

Reviewers: N.R.C., Liverpool School of Tropical Medicine and C.-H.C.C., University of Illinois at Urbana–Champaign.

The authors declare no competing interest.

Data deposition: The assembled sequences have been deposited in GenBank accession numbers are presented in Dataset S1, column E. Raw reads for BAC clones have been deposited in the National Center for Biotechnology Information (NCBI) database under BioProject ID PRJNA613473.


Authors’ contributions

AK, MM, SD, and RCR planned, performed, and analyzed experiments. AK and RCR prepared the manuscript. All authors read and approved the final manuscript.

Dankbetuigingen

We thank Dr. Robert Angerer for his careful reading and editing of the manuscript and Dr. Federico Hoffman for his assistance with the phylogenetic analysis. Support for this project was provided to RCR by NIH R15HD088272-01 as well as the Office of Research and Development, and Department of Biological Sciences at Mississippi State University.

Concurrerende belangen

The authors declare that they have no competing interests.

Beschikbaarheid van gegevens en materialen

The datasets used and/or analyzed during the current study are available from the corresponding author on reasonable request.

Consent for publication

Ethics approval and consent to participate

Publisher’s Note

Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.


Dankbetuigingen

We are very grateful to our funding agencies, principally the Wellcome Trust and an NSERC Discovery grant to JBD who have made this work possible. We also thank members of our laboratories and colleagues who have contributed unpublished data or insights.

Vrije toegang

Dit artikel wordt gedistribueerd onder de voorwaarden van de Creative Commons Naamsvermelding Niet-commerciële Licentie die niet-commercieel gebruik, distributie en reproductie in elk medium toestaat, op voorwaarde dat de oorspronkelijke auteur(s) en bron worden vermeld.


Bekijk de video: The genetic code (Januari- 2022).