Informatie

Hoe de genoomassemblage wordt gedaan na het tellen van k-mer?


Voor zover ik weet, moeten vóór de assemblage van een genoom alle k-meren van read worden geteld.

  • Maar daarna, hoe wordt de genoomassemblage gedaan?
  • Is er nog iets anders nodig dan k-mer-tellingen?
  • Hoe wordt de standaardwaarde van k bepaald voor een bepaald genoomsamenstel? of is het vast voor alle soorten montage?

Ik wil alleen het basisconcept weten hoe dit daadwerkelijk is gedaan. Uitleg met stroomdiagram of algoritme wordt veel meer op prijs gesteld.

Ik heb een soortgelijke vraag doorgenomen, maar die hebben me niet veel geholpen.


Er zijn meerdere manieren om genoomassemblage te doen. De term die u waarschijnlijk zoekt is "assemblage op basis van De Bruijn-Graph". Als je dit gebruikt, kun je veel meer verschillende uitleg vinden over hoe het wordt gedaan.

Een andere veelgebruikte methode is "Overlap Layout Consensus assembly", die in feite niet gebaseerd is op k-mer-telling.


Team I Genoomassemblagegroep

Bacterial Genomics combineert de disciplines informatica en biologie om verschillende bacteriële genomen en hun evoluties in de tijd te bestuderen. Dit onderzoek kan worden gebruikt voor ziekte-uitbraken om de ziekte te bepalen en de bron van deze uitbraak te lokaliseren. Dankzij nieuwe high-throughput Next Generation Sequencing-technologieën, heeft de daling van de kosten en de gelijktijdige toename in snelheid en betrouwbaarheid van genoomsequencing, gecombineerd met de groei van toegankelijke rekenkracht in de afgelopen decennia, ervoor gezorgd dat bacteriële genomica een voorkeursmethode is voor het karakteriseren van en het bestuderen van uitbraken van ziekten, zoals door voedsel overgedragen ziekteverwekkers.


Abstract

Onze pijplijn voor assemblagevrije koppelingsanalyse (AFLAP) identificeert scheidende markers als k-mers in de onbewerkte waarden zonder een referentie-genoomassemblage te gebruiken voor het aanroepen van varianten en biedt genotypetabellen voor de constructie van onbevooroordeelde genetische kaarten met hoge dichtheid zonder een genoomassemblage. AFLAP is gevalideerd en staat in contrast met een conventionele workflow die gesimuleerde gegevens gebruikt. AFLAP wordt toegepast op volledige genoomsequencing en genotype-by-sequencing-gegevens van F1, F2 en recombinante inteeltpopulaties van twee verschillende plantensoorten, waardoor genetische kaarten worden geproduceerd die overeenkomen met genoomassemblages. De op AFLAP gebaseerde genetische kaart voor Bremia lactucae maakt de productie van een genoomassemblage op chromosoomschaal mogelijk.

Aanvullende informatie

De online versie bevat aanvullend materiaal dat beschikbaar is op 10.1186/s13059-021-02326-x.


Resultaten

Genomische kenmerken van S. proliferum en S. erinaceieuropaei

We hebben de volgorde van de S. proliferum genoom met behulp van meerdere sequentiebibliotheken met insert-lengte (aanvullende tabel 1) en een 653,4-Mb-assemblage van 7388-steigers samengesteld met N50 van 1,2 Mb. De S. erinaceieuropaei genoom werd geassembleerd tot 796 Mb bestaande uit 5723 steigers met N50 van 821 kb. Deze assemblagematen waren 51,9% en 63,2% van de eerder gepubliceerde S. erinaceieuropaei genoom (UK-isolaat) 17 . CEGMA en BUSCO rapporteren het percentage sterk geconserveerde eukaryote genfamilies die aanwezig zijn als volledige of gedeeltelijke genen in assemblages en bijna 100% van de kerngenfamilies wordt verwacht in de meeste eukaryote genomen. BUSCO-analyses toonden aan dat 88,1% en 88,5% van de kerngenfamilies vertegenwoordigd waren in S. proliferum en S. erinaceieuropaei genoomassemblages, respectievelijk hoger dan of vergelijkbaar met andere eerder gepubliceerde lintwormgenomen (tabel 1). CEGMA-volledigheidswaarden voor S. proliferum en S. erinaceieuropaei waren iets lager dan die van BUSCO-analyses. Lage CEGMA-volledigheid werd ook gezien in andere genomen van pseudophyllidea-lintwormen, waaronder: S. erinaceieuropaei VK isolaat, Dibothriocephalus latus, en Schistocephalus solidus (Tabel 1 en aanvullende gegevens 1). Lage CEGMA-volledigheidswaarden van deze twee genoomassemblages kunnen duiden op pseudophyllidean-specifiek verlies of hoge sequentie / structuurdivergentie van de genen die geconserveerd zijn in andere eukaryote taxa. Het percentage gedupliceerde genen in BUSCO-analyses en het gemiddelde aantal CEG's (CEGMA-kerngenen) was 1,2% en 2,8% voor S. proliferum, en 1,3% en 10,5% voor S. erinaceieuropaei, respectievelijk. Om de genoomassemblages te genereren, gebruikten we de Haplomerger-tool 18 om heterozygote haplotypes in te klappen, waardoor de assemblagegroottes werden verminderd van 717,0 tot 653,4 Mb en 968,1 tot 796,0 Mb voor S. proliferum en S. erinaceieuropaei, respectievelijk. K-mer-analyses van Illumina lezen echter korte geschatte haploïde genoomgroottes van 582,9 en 530,1 Mb voor de twee soorten (aanvullende figuur 1a). Deze resultaten geven aan dat de uiteindelijke assemblages ruwweg de haploïde genoomgroottes van deze lintwormen vertegenwoordigen, maar ze bevatten nog steeds enkele heterozygote haplotypes en/of overschatte gap-groottes, vooral in S. erinaceieuropaei. Ploïdieën werden afgeleid uit heterozygote K-mer-paren en waren diploïde voor beide soorten (aanvullende figuur 1b).

De genomen van S. proliferum en S. erinaceieuropaei zijn zeer repetitief, met

53% van de totale assemblagelengte bestaat uit herhalingen in beide genomen (aanvullende figuur 2 en tabel 2). Long-interspersed nucleaire elementen (LINE's) bezetten

30% voor beide S. proliferum en S. erinaceieuropaei. Deze LINE's omvatten voornamelijk de drie typen (Penelope, RTE-BovB en CR1), die ook overvloedig voorkomen in andere pseudophyllidea-genomen (aanvullende figuur 2).

In totaal werden 18.919 genen voorspeld in S. proliferum assemblages, ongeveer 3.000 minder dan voor S. erinaceieuropaei (22.162), wat een vergelijkbaar aantal is als het aantal genen in andere pseudophyllidea-genomen, maar groter dan de cyclophilidea-genomen (tabel 1). In studies van de S. erinaceieuropaei UK-isolaat 17, het gennummer (>39.000) werd waarschijnlijk overschat vanwege fragmentatie en redundantie in de assemblage. Daarnaast voorspelden we

6.000 transposon-eiwitten (bijv. gag-pol-polyproteïnen en reverse transcriptasen) voor de S. proliferum en S. erinaceieuropaei assemblages. We kunnen deze aantallen niet rechtstreeks vergelijken met die van andere cestodegenoomassemblages vanwege verschillen in genvoorspellingsstrategieën, maar die aantallen zijn aanzienlijk hoog in vergelijking met andere cestodegenomen (tabel 1), wat consistent is met de resultaten die S. proliferum en S. erinaceieuropaei genoom zijn zeer repetitief. Verder geeft de aanwezigheid van een groot aantal intacte coderende sequenties voor transposon-eiwitten aan dat die transponeerbare elementen nog steeds actief zijn of tot voor kort actief waren in de cestodegenomen.

Fylogenetische plaatsing van S. proliferum

Fylogenetische relaties van S. proliferum met andere cestode-soorten werden afgeleid uit 205 orthologen met één kopie (figuur 1 en aanvullende tabel 3). Er werd een duidelijke scheiding vastgesteld tussen pseudophyllidea en cyclophilidea clades. In de pseudophyllidea-clade, S. proliferum bezet de basale positie van de Spirometra cluster, waarin twee S. erinaceieuropaei isolaten (Japan en UK isolaten) werden naast elkaar geplaatst.

Fylogenetische relaties van S. proliferum en andere lintwormen werden afgeleid door een maximale likehood-boomanalyse met behulp van 205 orthologe single-copy. Bootstrap-betrouwbaarheidswaarden via 500 replica's werden op elk knooppunt weergegeven. Genen zijn gecategoriseerd in een stapelbalk en de lengte van de stapelbalk is evenredig met het aantal genen.

Fylogenetische boomtopologie op basis van mitogenomes van de 14 cestoden en alle beschikbare mitogenoomgegevens van Spirometra in de GenBank, was vergelijkbaar met dat van het nucleaire genoom (aanvullende figuur 3 en aanvullende tabel 2). Maar in tegenstelling tot de nucleaire genoomboom, S. erinaceieuropaei UK-isolaat bevond zich in een basale positie van de Spirometra cluster, plaatsing S. proliferum in het midden van Spirometra soort, zij het met een lange tak. Deze inconsistenties tussen nucleaire en mitogenoombomen kunnen een weerspiegeling zijn van onzekerheden over de classificatie van soorten in het geslacht Spirometra 19,20 . Bovendien kunnen mitochondriale sequenties slechte gevolgtrekkingen van soortenbomen geven 21 . Cumulatief suggereren deze resultaten dat: S. proliferum heeft een nauwe fylogenetische relatie met Spirometra maar onderscheidt zich duidelijk door genomische kenmerken en geninhoud.

Evolutie van de genfamilie

Eiwitfamilie (Pfam) analyses onthulden zeer vergelijkbare eiwitdomeinverdelingen van S. proliferum en Spirometra genomen (R = 0,99 Fig. 2 en aanvullende gegevens 2), wat de nauwe fylogenetische relatie tussen de twee soorten bevestigt. Slechts enkele domeinen verschilden significant in overvloed tussen de twee soorten. Onder deze, de S. proliferum genoom was ondervertegenwoordigd in zinkvingerfamilies (Zf-C2H2 en Zf-met), reverse transcriptase (RVT_1), galactosyltransferase en alfa/beta-hydrolase (Abhydrolase_6). Oververtegenwoordigde Pfam-domeinen in S. proliferum omvatte een duidelijk type zinkvingerdomein (zf-3CxxC), fibronectine type III (fn3), trypsine, RNA-polymerase III RPC4 (RNA_pol_Rpc4) en een N-terminaal gebied van glycosyltransferasegroep 7 (Glyco_transf_7N).

De grootte van een cirkel staat voor het aantal Pfam-domeinen. Pfam-domeinen die meer zijn verrijkt in S. proliferum dan in S. erinaceieuropaei zijn rood gemarkeerd. die verrijkt in S. erinaceieuropaei in verhouding tot S. proliferum zijn blauw gemarkeerd.

Vervolgens hebben we genfamilie-analyse uitgevoerd met behulp van OrthoFinder 22 met de voorspelde proteomen van S. proliferum, S. erinaceieuropaei, en 12 andere geselecteerde cestodegenomen. Een totaal van 219.816 eiwitten van 14 cestode-soorten werden in 18.738 genfamilies en 26.157 niet-toegewezen eenlingen geplaatst (Fig. 1). De S. proliferum proteoom (18.919 eiwitten) werd gecodeerd door 9119 genfamilies, waaronder 3674 genfamilies (samengesteld uit 5347 eiwitten) werden gedeeld door alle 14 cestoden, en 4304 eiwitten waren specifiek voor de soort of eenlingen. De S. erinaceieuropaei proteoom (22.162 eiwitten) werd geclusterd in 9.655 genfamilies. Hoewel de S. erinaceieuropaei deelde 7639 genfamilies met de andere stam van S. erinaceieuropaei (VK), 30,4% en 39,7% van de totale eiwitten voor elke stam werden niet gedeeld. Een van de redenen hiervoor waren de gefragmenteerde genmodellen in de Britse genomen. Om de evolutie van de genfamilie verder te onderzoeken, hebben we acht genomen van relatief hoge kwaliteit geselecteerd en een computationele analyse van de evolutie van de genfamilie (CAFE) uitgevoerd om de uitbreiding en samentrekking van de genfamilie te schatten. De analyse identificeerde genfamilies met significant hoger dan verwachte winsten en verliezen (Fig. 3 en Aanvullende Tabel 3). Zeventien genfamilies waren significant uitgebreid in de S. proliferum afstamming, en deze omvatten annotaties voor fibronectine, trypsine-tetraspanine-familie, Ras, zinkvinger C2H2-type en kernhiston (aanvullende gegevens 3). Aanzienlijk gecontracteerde genfamilies (14 families) hadden annotaties met betrekking tot signaaltransductie-eiwitten, zoals fosfatasen en kinasen (aanvullende gegevens 4). Fibronectine en zinkvinger C2H2-type waren aanwezig in uitgebreide en gecontracteerde families.

Getallen op elke tak (of afstamming) geven specifieke winsten/verliezen van die tak (of afstamming) aan.

In de S. erinaceieuropaei afstamming werden 35 en 8 genfamilies significant uitgebreid of gecontracteerd (aanvullende gegevens 5 en 6), respectievelijk. Onder hen werd een zeer afstammingsspecifieke expansie gevonden voor 12 families (d.w.z. 6 of meer genen in S. erinaceieuropaei, terwijl één of geen genen in S. proliferum. Die genfamilies coderen meestal voor eiwitten met onbekende functie, maar ze zijn waarschijnlijk uitgebreid na soortvorming van S. proliferum en S. erinaceieuropaei en kunnen specifieke rollen hebben in de S. erinaceieuropaei levenscyclus of parasitisme.

Geconserveerde ontwikkelingspadgenen

Homeobox-transcriptiefactoren zijn betrokken bij het modelleren van lichaamsplannen bij dieren. De homeobox-genaantallen zijn veel kleiner bij parasitaire platwormen dan bij de meeste andere bilaterale ongewervelde dieren, die een geconserveerde set van

100 homeobox-genen. Genoomsequencing van vier cyclophyllide cestoden onthulde dat van de 96 homeobox-genfamilies waarvan wordt gedacht dat ze aan de oorsprong van de bilateria hebben bestaan, er 24 niet aanwezig zijn in cestoden 23 . We hebben homeobox-genen geïdentificeerd en handmatig samengesteld in de S. proliferum en S. erinaceieuropaei en ontdekte dat de twee pseudophyllid-cestoden vergelijkbare homeobox-klasserepertoires hebben als die in cyclophyllid-cestoden, in welke klasse ANTP het meest voorkomt, gevolgd door klassen PRD en TALE Tabel 3). Het totale aantal homeobox-domeinen geïdentificeerd in S. proliferum en S. erinaceieuropaei zijn respectievelijk 64 en 71, die het meest gereduceerd zijn van alle bestudeerde bilaterale dieren, aangezien deze minder waren dan in de cyclophyllids Echinococcus multilocularis en Taenia solium (Tafel 3). De drie homeobox-families Pou/Pou6, ANTP/Bsx en ANTP/Meox waren niet aanwezig in S. proliferum en S. erinaceieuropaei, terwijl de homeobox-familie ANTP/Ro werd gevonden in S. proliferum en S. erinaceieuropaei maar niet binnen E. multilocularis en T. solium (Aanvullende figuur 4).

vergelijkingen tussen S. proliferum en S. erinaceieuropaei toonde aan dat de homeobox-families TALE/Pknox, ANTP/Hox1, ANTP/Msxlx en POU/Pou-like ontbreken in S. proliferum, ondanks dat ze aanwezig zijn in de andere cestoden. Daarentegen werden de homeobox-families ANTP/Dbx en PRD/Alx gevonden in S. proliferum maar niet binnen S. erinaceieuropaei.

Andere geconserveerde genen met een rol in de ontwikkelingstrajecten van platwormen, zoals Hedgehog en Notch, waren grotendeels geconserveerd in S. proliferum en S. erinaceieuropaei. In de Wnt-route, waarvan het complement veel kleiner is dan het voorouderlijke complement bij lintwormen 23 , ontbraken echter nog twee genen (Axin en LEF1/TCF) in S. proliferum en S. erinaceieuropaei (Aanvullende gegevens 7).

Horizontaal overgedragen genen

Om te bepalen of de huidige genomen horizontaal overgedragen genen (HTG's) van andere organismen bevatten, gebruikten we een genoombrede voorspellingsmethode op basis van een lineage-waarschijnlijkheidsindex met behulp van de software Darkhorse2 24 en identificeerden we 19 en 33 vermeende HTG's in S. proliferum en S. erinaceieuropaei, respectievelijk (aanvullende gegevens 8 en 9). Voor deze overdrachten waren alle mogelijke gastheerorganismen bacteriën behalve één Spirometra gen dat grote gelijkenis vertoont met een gen voor het chlorellavirus. Orthologen van de meesten S. proliferum vermeende HTG's werden ook gedetecteerd als horizontaal overgedragen in S. erinaceieuropaei. Bovendien kunnen mogelijke gastheerbacteriën, waaronder Marinifilum breve, Aphanizomenon flos-aquae, Alcanivorax sp., en Vibrio sp., werden gedeeld door de twee cestodensoorten en waren aquatische of mariene bacteriën, wat aangeeft dat deze genen werden verkregen door een gemeenschappelijke voorouder van de twee lintwormen, die een aquatische fase in de levenscyclus hadden.

Handtekeningen van selectie in de S. proliferum afstamming

Positieve selectie is een mechanisme waarmee nieuwe voordelige genetische varianten door een populatie vegen en adaptieve evolutie stimuleren. De rol van positieve selectie in de evolutie van S. proliferum van een niet-levensbedreigende voorouder, voerden we dN/NSS Branch-site-modelanalyses met 755 single-copy orthologe genen van 12 lintwormen (aanvullende gegevens 10) en identificeerden in totaal 35 positief geselecteerde genen in de S. proliferum afstamming (aanvullende tabel 4). Evolutionaire druk werd geïdentificeerd voor sommige genen die essentieel zijn voor cellulaire processen, waaronder genen voor transcriptie/RNA-verwerking/vertaling die coderen voor DNA-gerichte RNA-polymerase II-subeenheid, polypyrimidine-kanaalbindend eiwit, adenylaatkinase, ribosomaal eiwit L21, snu13 NHP2-achtig eiwit, en eukaryote translatie-initiatiefactoren. Andere geïdentificeerde genen waren gerelateerd aan transport (dynein intermediaire keten 2) en mitochondriale processen (Rieske). Genen die betrokken zijn bij stress en immuunreacties, zoals DNAJ/Hsp40, HIKESHI-eiwit, Toll-like receptor en Ig_3/Ig, werden ook positief geselecteerd in de S. proliferum afstamming, samen met het RAS-oncogen Rab-4A.

Omstandigheden waarin veranderingen in de omgeving de selectiedruk die voorheen belangrijk was voor het behoud van een bepaalde eigenschap, elimineert of verzwakt, worden "ontspannen selectie" genoemd 25 . Dergelijke omstandigheden zijn bijvoorbeeld gezichtsvermogen in lichtloze grotten en ziekteverwekkerresistentie na het verdwijnen van ziekteverwekkers. Genen onder ontspannen selectie kunnen worden gedetecteerd met behulp van de verhouding van niet-synonieme tot synonieme substituties en een vergelijking in een fylogenetisch raamwerk 26 . In S. proliferum we probeerden de ontspannen selectie te testen die mogelijk inwerkte op genen die betrokken zijn bij ontwikkeling of geslachtsreproductie onder zijn controversiële aseksuele reproductie. Met behulp van de uitlijningsset die werd gebruikt in de positieve selectietests, hebben we 10 genen gedetecteerd die onder "relaxte selectie" stonden in de S. proliferum afstamming, ten opzichte van de andere lintwormlijnen (aanvullende tabel 5). Deze genen coderen voor eiwitten met vermeende rollen in ontwikkelingsregulatie en celdifferentiatie. In het bijzonder spelen de receptorrotonde (ROBO) en uitgescheiden moleculen van de SLIT-familie samen een belangrijke rol bij het leiden van axonen en een goede morfogenese 27 . Het Rho-GTPase-activerende eiwit wordt ook sterk tot expressie gebracht in sterk gedifferentieerde weefsels en beïnvloedt celdifferentiatie door Rho-GTPase-signalering negatief te reguleren 28 . Delta-achtig eiwit (DLL) is een remmende ligand van de Notch-receptorroute en komt tot expressie tijdens de ontwikkeling van de hersenen 29 . Het is ook bekend dat vasculaire endotheliale groeifactorreceptor de homeostase en herbevolking van stamcellen in planaire soorten reguleert 30 . Daarom geven deze gevallen van ontspannen selectie aan dat bepaalde ontwikkelingsroutes minder belangrijk zijn geworden voor de worm of, verder, mogelijk heeft de worm die routes al lang gebruikt.We identificeerden ook twee genen die coderen voor cadherine (protocadherine) die onderworpen waren aan een ontspannen selectie. Cadhereïne is een transmembraaneiwit dat cel-celadhesie bij dieren medieert en de kenmerken van ontspannen selectie suggereren dat celadhesieprocessen uiteenlopen tussen de wormsoorten.

Differentiële genexpressie betrokken bij aseksuele proliferatie en parasitisme

wij onderhouden S. proliferum via seriële infectie van muizen en ontdekte dat sommige plerocercoïde wormen een sterk vertakkende structuur vertonen, wat vaak werd waargenomen bij zwaar geïnfecteerde muizen. Daarentegen hadden de meeste wormen bij muizen met een lage wormbelasting een onopgesmukte niet-vertakkende morfologie. Om fysiologische kenmerken van die wormen te onderzoeken, vergeleken we de morfologie, levensvatbaarheid en mobiliteit van 81 wormen die variabele vertakkingsniveaus vertoonden met vertakkingsaantallen variërend van 1 tot 79 (aanvullende tabel 6). We berekenden de fractale dimensiewaarde voor elke worm, die de morfologische complexiteit vertegenwoordigt, en ontdekten dat de waarde de wormstatus beter weergeeft dan alleen de vertakkingsnummers te gebruiken. Fractale dimensie vertoont niet alleen een goede correlatie met het aantal takken (R = 0.59, P-waarde = 6e-9) (aanvullende figuur 5a), maar het is ook mogelijk om de onopgesmukte vormen te onderscheiden die lage vertakkingsactiviteit vertegenwoordigen van wormen die onlangs zijn gesplitst van een sterk vertakte worm, die eenvoudige maar relatief slanke vormen vertoont. De levensvatbaarheid van de cellen geëvalueerd met de testen op basis van cellulaire NADH/NADPH-activiteit 31 en extracellulaire lactaatdehydrogenase (LDH)-activiteit 32 vertoonde bijna geen correlatie met de fractale dimensiewaarden (R = −0.01, P-waarde=0,88 en R = 0.08, P-waarde = 0,51, respectievelijk) (aanvullende figuur 5b en S5c). Er werd echter een hogere mobiliteit waargenomen bij de wormen met een hoge complexiteit dan de lage (R = 0.28, P-waarde = 0,04), wat mogelijk resulteert in frequentere fragmentatie van takken (aanvullende figuur 5d). Die wormen met een hoge complexiteit worden dus beschouwd als de belangrijkste bronnen van nieuwe plerocercoïde wormen in de gastheer vanwege hun frequente vertakking en hoge mobiliteit. We noemen deze sterk vertakkende vorm "medusa-vorm" en de onopgesmukte niet-vertakkende vorm "wasabi-vorm" vanwege de gelijkenissen van die structuren met Medusa's hoofd" en wasabi-wortelstokken (Fig. 4a). Verdere histologische waarnemingen onthulden dat de parenchymale holte, die kenmerkend is voor S. proliferum 33 , was meer ontwikkeld in de medusa-vorm en de holtes waren vaak gevuld met inhoud die roze was gekleurd door hematoxyline en eosine (H-E) (aanvullende figuur 6). Daarentegen waren de meeste parenchymale holtes in de wasabi-vorm leeg. Bovendien vonden we in de medusa-vorm loci waar kernen waren geconcentreerd. Kalkhoudende lichamen, aangetoond door von Kossa-kleuring, werden vaker waargenomen in de medusa-vorm dan in de wasabi-vorm. Deze waarnemingen suggereren dat de typische histologische kenmerken van S. proliferum eerder gemeld waren van de medusa-vorm 33 .

een Een schematische illustratie om kenmerken van medusa- en wasabi-vormen van plerocercoid te tonen. B Multidimensionale schaalanalyses (MDS) van RNA-seq-monsters scheiden de twee vormen duidelijk op dimensie 1. Foto's van gebruikte monsters worden rechts getoond. Schaalbalken geven 10 mm aan. C Bland-Altman (MA) plot van de twee-vorm vergelijkingspunten vertegenwoordigen transcripten en log2-voudige veranderingen (medusa/wasabi) uitgezet tegen de gemiddelde overvloed in tellingen per miljoen. Rode stippen geven differentieel tot expressie gebrachte transcripten aan met valse ontdekkingssnelheden (FDR) van <0.05 en fold-changes van >2. NS Heatmap van genfamilies die coderen voor nieuwe uitgescheiden eiwitten. De heatmap toont log2-fragmenten per kilobase per miljoen reads-mapped (FPKM)-waarden voor vijf genfamilies.

We hebben een transcriptoomanalyse uitgevoerd met behulp van negen RNAseq-bibliotheken die zijn gegenereerd uit vijf en vier wormen die typische morfologische kenmerken van respectievelijk medusa- en wasabi-vormen vertonen, om genen te identificeren die betrokken zijn bij de proliferatie van plerocercoïden. Interessant is dat RNA-expressiepatronen van de twee vormen duidelijk werden gescheiden door de eerste dimensie van Multidimensional scaling (MDS) -plot op basis van Spearman-correlaties (figuur 4b en aanvullende tabel 7). EdgeR RNAseq-vergelijkingen identificeerden 357 differentieel tot expressie gebrachte genen (DE-genen) tussen de medusa- en wasabi-vormen (246 opgereguleerd en 111 neerwaarts gereguleerd in medusa-vormen) (figuur 4c). In deze analyses gebruikten we in totaal 23.043 genmodellen die 4124 transposon-eiwitten bevatten en we ontdekten dat veel transposon-eiwitten zoals gag-pol-polyproteïnen en reverse transcriptasen (36 genen) waren opgereguleerd in de medusa-vorm. Afgezien daarvan werd de opgereguleerde set in medusa-vormen gedomineerd door genen die coderen voor peptidasen en peptidaseremmers, zoals tolloïde-achtige eiwitten (19 genen), chymotrypsine-achtige eiwitten (6 genen) en CAP-domein-bevattende eiwitten (12 genen) ( Aanvullende gegevens 11). Deze set DE-genen was verrijkt in de GO-categorieën voor metalloendopeptidase-activiteit en proteolyse (aanvullende tabel 8). Neerwaartse gereguleerde genen codeerden ook voor een verscheidenheid aan peptidasen en peptidaseremmers, waaronder leucylaminopeptidase (vijf genen), chymotrypsine-achtige eiwitten (zeven genen) en kunitz runderpancreatisch trypsineremmerdomeineiwit (drie genen), met een hoge vertegenwoordiging onder de GO-termen metalloexopeptidase , aminopeptidase en mangaanionbinding (aanvullende tabel 8). Peptidasen en peptidaseremmers worden uitgescheiden door vele soorten pathogenen, waaronder bacteriën, schimmels en parasieten, en spelen vaak een cruciale rol bij overleving en virulentie 34,35,36. Andere genen waarvan bekend is dat ze betrokken zijn bij pathogeniteit bij andere pathogenen, werden ook opgereguleerd in de medusa-vorm, waaronder genen die coderen voor multidrug-resistentie-geassocieerde eiwitten 37 en tetraspanines. De laatstgenoemde eiwitten hebben vier transmembraandomeinen en spelen niet alleen een rol in verschillende aspecten van de celbiologie, maar worden ook door verschillende pathogenen gebruikt voor infectie en reguleren de progressie van kanker 38 .

Genen die betrokken zijn bij celgroei en kankerontwikkeling werden ook opgereguleerd in de medusa-vorm, inclusief die coderen voor eiwitten van wnt (WNT-111 en WNT-5) en ras/rab (RAS-0b, RAS-2 en Rasef) routes , transcriptiefactoren/receptoren (SOX1a, fibroblast-groeifactorreceptor) en homeobox-eiwitten (prospero, PAX, orthopedia ALX en ISL2).

In eerdere studies is aangetoond dat uitbreidingen van genfamilies en veranderingen in expressieniveaus in verband zijn gebracht met de evolutie van parasitisme 39,40. Een opregulatie van genen uit uitgebreide genfamilies werd ook gevonden in S. proliferum. Zo werden 12 van de 20 genen geïdentificeerd als opgereguleerd uit een uitgebreide genfamilie die codeert voor CAP-domeinbevattende eiwitten (orthogroep OG0000040). De orthogroep OG0000044 omvat 49 S. proliferum genen die coderen voor Chymotrypsine-achtige (mastine-achtige) eiwitten (aanvullende gegevens 3), en zes hiervan werden opgereguleerd en nog eens zes werden neerwaarts gereguleerd in de medusa-vorm (aanvullende gegevens 11). Genfamilie OG0000044 is Pseudophillidea-specifiek en genfamilie-uitbreidingen werden waargenomen in Dibothriocephalus, Spirometra en S. proliferum hoewel een fylogenetische analyse van deze genen de opgereguleerde of neerwaartse gereguleerde gencluster in de fylogenetische boom niet kon definiëren (aanvullende figuur 7). Fylogenetische analyses van de andere uitgebreide genfamilies die meerdere DE-genen bevatten, geven aan dat sommige van deze orthogroepen geconserveerd zijn over platwormen, terwijl andere specifiek zijn voor de Pseudophillidea-clade van platwormen (aanvullende figuur 7).

Zesendertig opgereguleerde genen vertoonden verschillen in vouwveranderingen >200 (aanvullende gegevens 11), waaronder acht genen die coderen voor tolloïde-achtige eiwitten. Bij zoogdieren vormen tolloïde-achtige eiwitten een kleine groep genaamd BMP-1/TLD-familie met botmorfogenetische eiwitten (BMP), die een fundamentele rol spelen bij morfogenese en extracellulaire matrix (ECM) assemblage via een direct effect op groeifactoren zoals TGF-β en IGF's 41,42. De hoge vouwverandering van de tolloïde-achtige eiwitgenen in de medusa-vorm weerspiegelt daarom waarschijnlijk de hoge vertakkingsactiviteit van de wormen en suggereert een belangrijke rol van deze eiwitten in S. proliferum aseksuele proliferatie. SprJv2_0697700.1 gen dat codeert voor acetylcholinesterase vertoonde ook een zeer hoge vouwverandering (>1000 vouwen). Acetylcholinesterasen spelen een goed gedefinieerde rol bij cholinerge neurotransmissie bij zowel gewervelde dieren als ongewervelde dieren 43 , maar het is ook bekend dat ze worden uitgescheiden door een verscheidenheid aan parasitaire nematoden en er wordt gespeculeerd dat ze werken bij het moduleren van de immuniteit, ontsteking en fysiologie van de gastheer 44,45. De hoge expressie van het gen in de medusa-vorm deed ons de mogelijkheid vermoeden dat het op de een of andere manier een rol speelt bij het parasitisme, hoewel er geen secretiesignaalpeptiden in het eiwit werden geïdentificeerd en er weinig bekend is over uitgescheiden acetylcholinesterasen van cestoden 46 .

Met name 24 van de 36 genen met een hoge vouwverandering waren niet-gekarakteriseerde eiwitten. In totaal hebben de DE-genen 85 van de 246 die werden opgereguleerd in medusa-vormen geen bekende functies. Deze omvatten 17, 10, 3, 2 en 2 genen van respectievelijk de orthogroepen OG0000083, OG0003096, OG0010117, OG0011363 en OG0011373. Deze orthogroepen werden uitgebreid in de S. proliferum afstamming en de meeste DE-genen hadden extreem hoge vouwveranderingen (figuur 4c). Omdat hun producten voornamelijk secretiesignaalpeptiden bevatten (aanvullende gegevens 11), worden ze waarschijnlijk door de parasiet in de gastheer uitgescheiden en spelen ze een belangrijke rol bij parasitisme, afwijkende larvale proliferatie in de gastheer en / of modulatie van gastheerimmuniteit.


Invoering

Echinodermata, een oude stam van ongewervelde zeedieren, omvat 5 bestaande klassen, waaronder Echinoidea (zee-egels), Asteroidea (zeesterren), Holothuroidea (zeekomkommers), Ophiuroidea (slangsterren) en Crinoidea (zeelelies). Samen vormen de phyla Echinodermata, Hemichordata en Chordata de deuterostome clade, gebaseerd op hun nauw gedeelde ontwikkelingskenmerken. Tot op heden 2 complete stekelhuidigen genomen, die van de zee-egel Strongylocentrotus purpuratus en die van de zeester Acanthaster planci, zijn met succes gesequenced [1,2]. Omdat zeekomkommers echter uniek zijn onder stekelhuidigen en veel onderscheidende biologische kenmerken bezitten, bevat hun genoom een ​​onschatbaar inzicht dat de reikwijdte en diepte van moleculair onderzoek in Echinodermata en Deuterostomia kan uitbreiden.

Zeekomkommervolwassenen vertonen een langwerpige vorm die hun pentaradiale symmetrie logenstraft, gecombineerd met zwakke verkalking in de vorm van microscopisch kleine gehoorbeentjes die contrasteren met de vaste verkalkte test van zee-egels. Het verkennen van deze functies kan helpen bij het onderzoeken van de evolutie van mineralisatie in stekelhuidigen, die nog steeds slecht wordt begrepen.

Van nog groter belang is het feit dat zeekomkommers een vermogen vertonen om lichaamsdelen en inwendige organen opnieuw te laten groeien [3], wat veel groter is dan dat van zeesterren en zee-egels, waardoor ze uitstekende regeneratiemodellen zijn. Het gebruik van EEN. japonicus op dit gebied wordt vergemakkelijkt door zijn natuurlijke vermogen om zijn interne organen weg te gooien, ze snel te regenereren en de normale functies binnen enkele weken te herstellen, door middel van een proces dat celmigratie, proliferatie, differentiatie en orgaan-/weefselreconstructie omvat [35]. Ten slotte kunnen zeekomkommers, net als veel stekelhuidigen, extreem lang leven en enigszins immuun zijn voor veroudering [6,7]. Daarom zal kennis van het volledige genoom van een zeekomkommer een uniek kader bieden voor studies die proberen cel- en weefselregeneratie te begrijpen, orgaanfalen te behandelen en de symptomen van veroudering te verlichten.

Zeekomkommers zijn ook wijdverbreid en komen voor van de kust tot aan de afgrond, en kunnen in sommige gebieden tot 80% van de totale biomassa van bentische ongewervelde dieren vertegenwoordigen. Ze zijn het doelwit van belangrijke visserijen en vertegenwoordigen de snelst groeiende aquacultuursector ter wereld [8]. Overbevissing en slecht beheer van deze waardevolle hulpbronnen zijn echter een groeiend probleem [8,9].

De zeekomkommer EEN. japonicus is een van de meest bestudeerde stekelhuidigen, het wordt op grote schaal commercieel gekweekt in de westelijke noordelijke Stille Oceaan en is een van de meest waardevolle zeevruchten ter wereld, vanwege de krachtige voedings- en geneeskrachtige eigenschappen [1012]. Alleen al in China werd in 2015 ongeveer 200.000 ton zeekomkommers geproduceerd met een geschatte waarde van ongeveer 4.000.000.000 Amerikaanse dollars [13]. Het verbeteren van de genomische kennis van deze zeekomkommer kan daarom de zeevruchtenindustrie ten goede komen en tegelijkertijd farmaceutische en biomedische doorbraken opleveren.

Begin 2017 werd een conceptgenoom van EEN. japonicus werd gepubliceerd die slechts ongeveer 80,5% van de geschatte genoomgrootte vertegenwoordigde (0,82 Gb), met een N50-waarde van 10,5 Kb [14]. Deze gegevens vormden een belangrijke bron voor de genomica van zeekomkommers, maar hun onvolledigheid en fragmentatie beperken toepassingen voor onderzoek. Hier presenteren we een hoogwaardig referentiegenoom van EEN. japonicus onderzocht door middel van een multiomics-benadering, wat waardevolle inzichten oplevert in de moleculaire en genomische basis van cruciale evolutionaire eigenschappen in zeekomkommers en deuterostomen. Kennis van het volledige genoom van een holothuroid biedt een bijzonder nuttig kader voor studies die de mechanismen van cel- en weefsel-/orgaanregeneratie proberen te begrijpen.


DISCUSSIE

Gestage vooruitgang in sequencing-technologie en verlaging van de kosten verbeteren ons vermogen om hoogwaardige genomische sequenties te genereren, zelfs in gevallen zoals de goudvis, waar de inspanningen worden bemoeilijkt door een recente WGD. Interesse in de goudvis heeft een lange geschiedenis en goudvissen hebben nog steeds een speciale positie in zowel de wetenschappelijke als de siervisgemeenschappen. We hebben een hoogwaardige geannoteerde assemblage van het goudvisgenoom gegenereerd en openbaar gemaakt. Onze genomische assemblage en genannotaties vormen een belangrijke hulpbron voor deze gemeenschappen, omdat ze zich blijven inspannen om fenotypes aan genotypen te koppelen. Bovendien is het cluster van visgenomen waarvan de sequentie is bepaald, waaronder zebravissen, graskarpers, gewone karpers en goudvissen, mooi gesitueerd in hun evolutionaire relatie om meer inzicht te geven in het proces van rediploïdisatie na een WGD. Genverliespercentages vergelijken tussen die van zebravissen en graskarper en zebravis tot goudvis, graskarper vertoont half zoveel genverliezen als goudvissen, consistent met een hypothese van versneld verlies van genkopie na de WGD. Het is echter waarschijnlijker dat specifieke functionele klassen van genen, zoals transcriptiefactoren, in twee exemplaren worden bewaard. Het is bekend dat niet alleen binaire expressie, maar ook het werkelijke niveau van transcriptiefactorexpressie de uitkomsten van het lot van de cel kan bepalen [bijv.44)], dus een mogelijke verklaring voor de specifieke retentie van transcriptiefactoren is dat een verandering in de dosisbalans voor ontwikkelingsbepalende transcriptiefactoren zou kunnen leiden tot een verstoorde of veranderde ontwikkeling van de larven.

Over het algemeen behielden de behouden duplicaatgenen een algemene expressie die nauw correleert met zebravissen en met elkaar. De versnelde divergentie van de expressie van goudvisgenen begon echter bij de karper WGD, wat ook werd waargenomen bij de gewone karper (37), bij zebravissen na de teleost WGD (42), en in Atlantische zalm en regenboogforel na de zalmachtige-specifieke WGD (15, 45). Doseringscompensatie lijkt een belangrijke oorzaak te zijn van het behoud van dubbele genen van goudvissen na de karper WGD, die een sterke negatieve selectie introduceerde tegen verlies van beide gedupliceerde genen, met name genen die betrokken zijn bij metabole processen en de vorming van eiwitcomplexen (46, 47). Divergentie van genexpressie na karper WGD volgt de gebruikelijke paden van niet-F en neo-F (gedeeltelijk of volledig) en, in mindere mate, sub-F. Die genen onder gedeeltelijk niet-F kunnen volledig inactief worden (specialisatie) en uiteindelijk verloren gaan, zoals in de gewervelde 2R WGD en teleost 3R WGD (48). Goudvis-ohnologs ontsnapten vaker uit niet-F via neo-F in plaats van sub-F, wat ook werd waargenomen bij vergelijkingen tussen muizen en zebravissen (49) en zalm maar niet in X. laevis (50). Neo-F was voorstander van het behoud van GO-termen "kinase" en "G-eiwit-gekoppelde receptor." Het is gemakkelijk voor te stellen hoe genen die direct betrokken zijn bij cel-naar-cel communicatie interessante evolutionaire veranderingen in lichaamsvorm zouden kunnen creëren door te veranderen waar en wanneer het signaalmolecuul tot expressie wordt gebracht. Hoewel sub-F misschien geen dominante uitkomst van goudvisgenen is, tenminste in de korte tijd na de karper WGD, vonden we een paar ohnologen die een voor de hand liggende sub-F adopteerden, bijv. pde4ca en ogn. ogn was ook gesubfunctionaliseerd na de teleost WGD (51), wat suggereert dat er evolutionaire hotspots kunnen zijn voor bepaalde genen om te neo- of subfunctionaliseren.

Verschillende andere kenmerken van de evolutie van de genoomsequentie beïnvloeden hoe genenparen in de loop van de tijd in expressie uiteenlopen. Sleutelfactoren zijn onder meer divergentie van de primaire genoomsequentie door basesubstitutie, winst/verlies van exons en winst/verlies van CNE's, die allemaal de genexpressie op verschillende manieren beïnvloeden. Winst/verlies van exons is de belangrijkste mutatie die gecorreleerd is met niet-F, neo-F en sub-F. Dit proces is er een waarvan is voorgesteld dat het een kritisch evolutionair fenomeen is dat de diversiteit van gewervelde dieren aandrijft, en de goudvis-karper-soortvorming is een nuttig geval om dit evolutionaire proces te onderzoeken.


Hoe assemblages evalueren?

Evaluatie van assemblages is erg belangrijk omdat we moeten beslissen of de resulterende assemblage aan de normen voldoet. Een van de bekende en meest gebruikte tools voor het evalueren van assemblages is: QUAST. Hieronder vindt u enkele criteria die worden gebruikt om assemblages te evalueren.

  • N50: minimale aaneengesloten lengte die nodig is om 50% van de totale lengte van het geheel te dekken.
  • L50: aantal contigs dat langer is dan N50
  • NG50: minimale contiglengte die nodig is om 50% van de lengte van het referentiegenoom te dekken
  • LG50: aantal contigs dat langer is dan NG50
  • NA50: minimale lengte van uitgelijnde blokken die nodig zijn om 50% van de totale lengte van het samenstel te bedekken
  • LA50: aantal contigs dat langer is dan NA50
  • Genoomfractie (%): percentage basen dat overeenkomt met het referentiegenoom

Dit onderzoekswerk werd gefinancierd door het National Basic Research Program (973 Program) in China (nr. 2014CB138705), de National Natural Science Foundation of China (NSFC 31872997), het Earmarked Fund for Modern Agro-industry Technology Research System (nr. CARS -34) en het National Project on Sci-Tec Foundation Resources Survey (2017FY100602).

X.Q.Z., L.H., B.B. en W.J. bedachten en ontwierpen het project en de strategie L.H., G.F., H.Y., W.J., Z.Y., L.X. en pc bijgedragen aan het verzamelen van plantenmonsters, DNA/RNA-voorbereiding, bibliotheekconstructie en sequentiebepaling L.H., H.Y., G.F., X.Q.Z. en Z.Z. werkte aan genoomassemblage en annotatie en vergelijkende en populatie-genoomanalyses G.F., L.H., X.X.Z. en Z.Z. voerde transcriptoom- en genetische analyses uit en identificeerde kandidaatgenen van bloeitijd en L.H., H.Y., G.F., B.B., J.W., A.B., M.L., W.J., G.N., W.X. en X.Q.Z. het manuscript geschreven en herzien.


Genoomassemblage en analyses van de macrofungus Macrocybe gigantea

Macrocybe gigantea (M. gigantea) is een macroschimmelgeslacht dat een groot aantal vrij vlezige, kieuwende paddenstoelen met witte sporen bevat. Deze macroschimmel produceert diverse bioactieve verbindingen, antioxidanten en in water oplosbare polysachariden. De genomische bronnen van deze soort blijven echter onbekend. Hier hebben we het genoom van M. gigantea (41,23 Mb) in 336 steigers met een N50-grootte van 374.455 bp en vergeleken met de genomen van elf andere macroschimmels. Vergelijkend genomics-onderzoek bevestigde dat: M. gigantea behoorde tot de macrocybe geslacht, een op zichzelf staand geslacht dat verschilt van het Tricholoma geslacht. Daarnaast vonden we dat glycosylhydrolase familie 28 (GH28) in M. gigantea gedeelde geconserveerde motieven die significant verschilden van hun tegenhangers in Tricholoma. De genomische bron die door deze studie is ontdekt, zal ons begrip van schimmelbiologie vergroten, met name de verschillen in hun groeisnelheid en energiemetabolisme.

1. Inleiding

Macrocybe gigantea (M. gigantea), die gewoonlijk wordt genoemd Tricholoma giganteum, behoort tot een geslacht van schimmels in de familie van Tricholomataceae. macrocybe schimmels zijn wijd verspreid in tropische gebieden over de hele wereld, en dit geslacht is verwant aan het geslacht Calocybe [1]. Sinds het einde van de vorige eeuw is macrocybe is behandeld onder Tricholoma [2]. Pegler et al. uit elkaar gehaald macrocybe uit van Tricholoma en rangschikte het als een op zichzelf staand geslacht volgens morfologisch en moleculair bewijs. Voorheen waren de meeste onderzoeken van M. gigantea waren gericht op de analyse van antibacteriële activiteiten van bioactieve verbindingen, antioxidanten en in water oplosbare polysachariden [3-6]. Over het algemeen weegt een enkele cluster ongeveer 20 tot 30 kilogram. Het grootste cluster van gigantische cantharellen, dat zeer recent werd gevonden in Pu'er City in de provincie Yunnan in China, weegt ongeveer 150 kilogram.

Door het ontbreken van een referentiegenoom kunnen de meeste macroschimmels niet in het laboratorium worden onderzocht. De snelle ontwikkeling van sequentiemethoden en analytische hulpmiddelen, die op grote schaal worden gebruikt voor de studie van evolutie, pathologie en moleculaire populatiegenetica, heeft echter het genereren, vrijgeven en bijwerken van conceptgegevens bevorderd. Onlangs zijn er verschillende macrofungi-genomen gepubliceerd en zijn er veel grote schimmelgenoomprojecten in uitvoering [7]. Vooral het Human Microbiome Project [8], het microbiële donkere materie-project en het 1000 fungal genomes-project (http://1000.fungalgenomes.org) [9] hebben geleid tot duizenden microbiële genoomassemblages. de weg in de nabije toekomst. In 2018 hebben we tot nu toe ongeveer 90 ontwerpgenoomassemblages van verschillende schimmels gerapporteerd, wat de grootste genomische dataset is voor macrofungi-soorten [7]. Als typische vertegenwoordiger van macrofungi zijn er veel evolutionaire en genetische problemen die moeten worden onderzocht M. gigantea het genoom van deze soort is echter niet gerapporteerd.

In deze studie is het genoom van M. gigantea werd gesequenced, en een vergelijkende genomics-benadering is gebruikt om het te bestuderen. De resultaten laten zien dat anders dan de Tricholoma geslacht, M. gigantea behoort tot de macrocybe geslacht, dat een op zichzelf staand geslacht is. Verder vonden we dat glycosylhydrolase familie 28 (GH28) in M. gigantea gedeelde geconserveerde motieven die significant verschilden van hun tegenhangers in Tricholoma. De genomische gegevens die in deze studie zijn verkregen, kunnen in de toekomst een nuttige bron zijn voor het onderzoek naar deze macrofungi.

2. materialen en methoden

2.1. Sequentiebepaling en assemblage van het contig-niveau genoom

Sequentiebibliotheken werden bereid volgens het standaardprotocol van Pacific Biosciences of California, Inc., en gesequenced op het PacBio RS II-platform met de P6-polymerase/C4-chemie (Pacific Biosciences, VS). Vervolgens werden ongeveer 8,7 Gb sequencinggegevens (twee keer), inclusief 1.135.758 uitlezingen, geproduceerd en de gemiddelde leeslengte is 7.707 bp (tabel 1). We hebben eerst correcties aangebracht op die uitlezingen met behulp van de foutcorrectiemodule die is ingebed in Canu (http://canu.readthedocs.org) met een parameter-gecorrigeerd foutenpercentage van 0,045 als het foutenpercentage van PacBio (15

20%) is hoog. Vervolgens werden de gecorrigeerde PacBio-subreads geïmporteerd om genoomassemblage te doen met Canu [10]. Na afstemming op de gedownloade sequenties van GenBank met

met BWA werden de contigant contigs afgeleid van andere schimmels, bacteriën of menselijk genoom verwijderd.

2.2. Annoteer tandemherhalingen

Genome-wide tandem repeats (TE's) werden geïdentificeerd door gebruik te maken van het programma Tandem Repeats Finder met de standaardinstellingen [11]. Een combinatie van op homologie gebaseerde en de novo benaderingen werden gebruikt om de TE's in de M. gigantea genoom. Op het gebied van op homologie gebaseerde voorspelling, RepeatMaker [12] werd geïmplementeerd om TE's tegen Repbase te identificeren (Release 16.10 http://www.girinst.org/repbase/index.html) op DNA-niveau met de standaardinstellingen. Daarnaast, Herhaal eiwitmasker met de standaardinstellingen werd uitgevoerd om TE's te identificeren via de RMBLAST-zoekopdracht tegen de TE-eiwitdatabase op eiwitniveau. Voor de de novo voorspelling, Herhaal Modeler (http://repeatmasker.org/) [12] en LTR FINDER [13] werden gebruikt om de de novo geëvolueerde herhalingen van het hierboven samengestelde genoom. Identificatie van de S-locus TE's in M. gigantea en A. thaliana werd bereikt door de veelgebruikte CENSOR (http://www.girinst.org/censor/) met de standaardinstellingen.

2.3. Voorspel eiwitcoderende genen

Beiden de novo en op homologie gebaseerde voorspellingsmethoden werden hier gebruikt om eiwitcoderende genen in de te annoteren M. gigantea genoom. Alle coderende sequenties in de genen van Laccaria bicolor Orton, T. matsutake, en Hypsizygus marmoreus werden gevangen genomen door de fytozoom v9.1-programma (http://www.phytozome.net/) en vervolgens geïmporteerd in het op homologie gebaseerde genannotatieproces. Vervolgens, TBLASTN werd uitgevoerd om de eiwitcoderende sequenties van de bovengenoemde soorten in kaart te brengen M. gigantea genoom met de e-5

parameters. Voor elk afzonderlijk eiwit, alle overeenkomende DNA-sequenties in de referentie M. gigantea genoom werden aaneengeschakeld door Zonne na het filteren van de records van lage kwaliteit. Een lang eiwitcoderend gebied werd verpakt door een fragment van 2000 bp te verlengen aan zowel stroomopwaarts als stroomafwaarts van de aaneengeschakelde sequentie. Daarna, GeneWise [14] werd gebruikt om genstructuren één voor één te voorspellen met de "nieuwe" eiwitcoderende regio's. Twee de novo voorspellingsprogramma's, AUGUSTUS [15] en Genemarker, werden achtereenvolgens gebruikt om de eiwitcoderende genen te annoteren. Het eiwitcoderende gen zet in M. gigantea voorspeld door de novo en op homologie gebaseerde methoden werden samengevoegd tot een uitgebreide en niet-redundante referentiegenenlijst met behulp van BewijsModeler [16]. Nogmaals, alle bovenstaande programma's werden uitgevoerd met de standaardinstellingen, tenzij onafhankelijke indicaties werden gegeven.

2.4. Gen Familie Cluster

Alle coderende sequenties in de eiwitcoderende genen in A. ostoyae C18/9, P. eryngii, C. cinerea, C. gibba, L. nuda, T. matsutake 945 v3.0, T. saponaceum, T. sp, T. terreum, T. flavovirens, T. bakamatsutake, en M. gigantea werden gedownload van JGI Genome Portal en National Center for Biotechnology Information (NCBI). Om de genfamilieclusters tussen de bovengenoemde soorten te definiëren en M. gigantea, all-versus-all eiwit zoekopdrachten met BLASTP met de parameter van “

" werden uitgevoerd. Vervolgens werd OrthoMCL (versie 1.4, 17) gebruikt om de hoog scorende segmentparen te verwerken. Het MCL-pakket in OrthoMCL werd vervolgens gebruikt om de laatste paraloge en orthologe genen te graven met de

" parameter. Het resultaat werd samengevat en weergegeven in het Venn-diagramformaat via een webtool met de naam VENY 2.1 (http://bioinfogp.cnb.csic.es/tools/venny/index.html).

2.5. Construeer voorlopige interne getranscribeerde spacer-boom

In onze database werden de sequenties van interne getranscribeerde spacers (ITS) verkregen van GenBank volgens de taxonomische boom van schimmels, de Catalogus van het leven, de Dictionary of Fungi en zijn index. Het ribosomale DNA, met name ITS1-, ITS2- en 5.8S-delen van rDNA, werd verkregen van NCBI en ons assemblageresultaat. Met verwijzing naar de classificatieresultaten van JGI, selecteerden we bijna 300 soorten van de Agaricales te worden uitgelijnd op NCBI en uiteindelijk 2.127 ITS-sequenties verkregen voor voorlopige classificatie van M. gigantea (Figuur 1, aanvullende tabel 3). De ITS-sequentiegegevens werden aanvankelijk uitgelijnd door de release van Molecular Evolutionary Genetics Analysis versie 5 (MEGA v5.05) met de standaardinstellingen [17]. Vervolgens werden de uitgelijnde resultaten handmatig aangepast. Daarnaast zijn ook de Maximum Composite Likelihood-analyses uitgevoerd door MEGA met het General Time Reversible plus het Gamma-distributiesubstitutiemodel, alias GTR+G. Om de statistische ondersteuning van clades te beoordelen, werden 1.000 fast-bootstrap (BS) -replicaties uitgevoerd. Daarnaast zijn er drie soorten Agaricales aangesloten bij drie verschillende families werden geselecteerd als de outgroup taxa. De details zijn te vinden in aanvullende tabel 8.

. De Maximum Composite Likelihood-methode werd gebruikt om de evolutionaire afstanden te berekenen, die de eenheden van het aantal basissubstituties per locatie genereerden. Bij deze analyse waren 2.127 nucleotidesequenties betrokken. Voor elk sequentiepaar werden alle ambigue posities verwijderd.

Vanwege de talrijke inserties en deleties kunnen alle ITS-sequenties die in dit onderzoek worden gebruikt, niet ondubbelzinnig worden uitgelijnd. Om echter een beter en eerder begrip te krijgen van clade-diversiteit binnen Agaricus, werden de ITS-analyses voor deze sequenties uitgevoerd door gebruik te maken van het Maximum Composite Likelihood (ML) -model van verschillende uitlijningsmethoden [17]. Deze voorlopige ML-boom diende als een kaart voor bemonsteringsstrategieën, zowel voor het sequencen van andere genen als voor de divergentietijdanalyse. 342 monsters die soorten vertegenwoordigen uit elk van de erkende secties en hoofdlijnen binnen elke sectie werden vervolgens geselecteerd voor het genereren van ITS-clade-sequentiegegevens. Vervolgens werden de uitlijningen visueel gecontroleerd en gecorrigeerd voor de opvallende verkeerd uitgelijnde posities door MEGA5.05 om de homologie van de primaire sequentie te maximaliseren.

2.6. Aanvullende ITS-analyse met M. gigantea

Onze focus is om erachter te komen welk geslacht M. gigantea hoort bij. Hiertoe hadden we een onafhankelijke analyse van ITS-sequenties uitgevoerd om de "proxy" -specimens te identificeren die ze in de multigene fylogenie kunnen vertegenwoordigen (aanvullende tabel 4). Eerst werden de ITS-sequentiegegevens door MEGA uitgelijnd met de standaardinstellingen, gevolgd door handmatige aanpassingen [17]. Vervolgens werden de maximale waarschijnlijkheidsanalyses uitgevoerd met het GTR+G-substitutiemodel. Om de statistische ondersteuning van clades te beoordelen, hadden we 1.000 fast-bootstrap-replicaties (BS) uitgevoerd onder het General Time Reversible-model. Om de beste DNA-modellen in MEGA5.05 te krijgen, werden de snelheden en patronen gefilterd uit gamma gedistribueerd met invariante sites (G+I) door het programma uit te voeren. De ITS-sequenties zijn ook verkregen van NCBI en ons bovenstaande montageresultaat. Alle 553 ITS behoorden tot bijna 100 soorten. In feite hebben we BLAST op elke soort uitgevoerd via NCBI en vervolgens de beste 10 van de 50 resultaten geselecteerd om de soort te vertegenwoordigen. We selecteerden de ITS-sequenties van alle soorten die te vinden zijn in de Tricholomataceae en gebruikte dezelfde methode voor fylogenetische analyse. 94 soorten uit Tricholoma, 3 soorten uit macrocybe, en P. eryngii en C. cinerea als buitenste groepen werden gebruikt in onze boom (aanvullende tabel 5 en aanvullende figuur 2).

2.7. Construeer een fylogenetische boom en schat de divergentietijd

In totaal werden 157 single-copy orthologe genen van de bovengenoemde soorten geïdentificeerd in de clusteranalyse van de genenfamilie. Deze genen werden vervolgens geïmporteerd om een ​​fylogenetische boom te construeren. Hier werden voor elk gen meerdere sequentie-uitlijningen uitgevoerd door gebruik te maken van de SPIER v.3.7 programma met de standaardinstellingen (http://www.drive5.com/muscle) [18]. Voor elke soort werden viervoudig gedegenereerde plaatsen geëxtraheerd uit elk gen en samengevoegd tot een "supergen". De MrBayes v3.1.2-programma (//mrbayes.sourceforge.net) [18] werd gebruikt om de fylogenetische bomen onder de soorten te reconstrueren.

De MMCTREE programma van de PAML pakket [13] werd hier toegepast om de divergentietijd van A. ostoyae C18/9, P. eryngii, C. cinerea, C. gibba, L. nuda, T. matsutake 945 v3.0, T. saponaceum, Tricholoma_sp_MG77, T. terreum, T. flavovirens, T. bakamatsutake, en M. gigantea. Het HKY85-model en de moleculaire klok met onafhankelijke snelheid werden ingesteld op 4 en 2 voor berekening. Het MCMC-proces in dit programma is 1.000.000 keer uitgevoerd binnen de samples, bij één daarvan werd de frequentie op 2 gezet na een inbranding van 200.000.

2.8. Identificeer genfamilies in Tricholomaceae

We verkregen M. gigantea sequenties van het bovenstaande montageresultaat. Het BLAST-programma met de

parameter werd lokaal uitgevoerd met het Hidden Markov Model (HMM) -profiel in de Pfam-database (//pfam.janelia.org/search/sequence) om de kandidaat-gensequenties vast te leggen. Kandidaat-genen die de bekende geconserveerde domeinen bevatten, werden behouden en hun aanwezigheid werd gecontroleerd in de Pfam, SMART (//smart.embl-heidelberg.de/) en NCBI Conserved Domain (//www.ncbi.nlm. nih.gov/- Structure/cdd/wrpsb.cgi) databases. De A. ostoyae, P. eryngii, C. cinerea, C. gibba, en L. nuda sequenties werden gedownload van het Department of Energy (DOE) in het Joint Genome Institute (JGI) in Amerika (https://jgi.doe.gov), en de Tricholomaceae genoomannotatieresultaten werden gedownload van NCBI.

2.9. Detectie van samentrekking en uitbreiding van genfamilies

CAFE v2.1 werd gebruikt om de evolutie van de grootte van de genfamilie te analyseren volgens het stochastische geboorte- en doodsmodel [13, 19]. Met de divergentietijd en de berekende fylogenie in de hand, CAFE met de parameters “

, and search for lambda” werd gebruikt om de genfamilies te definiëren die de samentrekking en/of expansie in de bovengenoemde soorten hadden ervaren.

2.10. Positief geselecteerde genen detecteren

Om de genen onder positieve selectie te screenen, hebben we respectievelijk de CDS-bibliotheken van C. gibba en A. ostoyae C18/9 naar de CDS-bibliotheek van M. gigantea met het BLASTn-programma. De beste hits werden zorgvuldig gecontroleerd door de Ka/KS-rekenmachine v.2.0 met de standaard parameters [19].

Bovendien werd ook een andere benadering op basis van syntenische vergelijking uitgevoerd om de positief geselecteerde genen in M. gigantea. In het kort werden eiwitsequenties op zichzelf uitgelijnd met behulp van het BLASTp-programma. De vijf uitlijningen bovenaan voor elk gen werden behouden. Vervolgens worden de collineaire blokken met hoge betrouwbaarheid met de waarden kleiner dan e −10 , en de scores van meer dan 300 werden geselecteerd door MCScanX [20]. Voor de gepaarde genen afgeleid van de syntenische uitlijning, hebben we de eiwitsequenties uitgelijnd met behulp van de CLUSTALW programma [21] en gebruikte het resultaat om de uitlijning van de codeervolgorde te begeleiden door: PAL2NAL [21]. In het yn00-programma van het PAML-pakket werden de waarden en berekend met behulp van de Yang-Nielson-methode [13]. Een Python-script kan worden uitgevoerd om een ​​pijplijn te construeren, inclusief alle berekeningen. Het is beschikbaar op http://github.com/tanghaibao/biopipeline/tree/master/synonymous_calculation voor gratis download. Nogmaals, alle bovenstaande programma's werden uitgevoerd met de standaardinstellingen, tenzij onafhankelijke indicaties werden gegeven.

2.11. Genstructuur, geconserveerd motief en promotor Cis-werkend regulerend element ontleden

De op motieven gebaseerde tools voor sequentieanalyse (MEME) suite (http://meme-suite.org/index.html) en TBtools-software [22] werden gebruikt om de geconserveerde motieven te definiëren met de volgende parameters: het aantal herhalingen is willekeurig, de optimale breedte van het motief ligt tussen 6 en 200 residuen, en het maximale aantal patronen is 20.

3. Resultaten

3.1. Genoom Assemblage van M. gigantea

De M. gigantea genoom werd diep gesequenced met de PacBio RSII- en PacBio Sequel-platforms, wat opleverde:

8,75 Gb aan onbewerkte gegevens (213 × dekking), in totaal 1.135.758 metingen (aanvullende tabel 1). Uiteindelijk werden de sequentiegegevens geassembleerd met CANU in 336 steigers (tabel 1). De montagegrootte was 41,23 Mb, wat kleiner was dan die van Tricholoma-matsutake (189 Mb), Tricholoma bakamatsutake (140,67 Mb), en Lepista nuda (44,13 Mb aanvullende tabel 2). De uiteindelijke N50-maat was 374.455 bp en de N90-maat was 38.255 bp.De volledigheid van de genoomassemblage werd geëvalueerd door de Benchmarking Universal Single-Copy Orthologs (BUSCO) -analyse, en het resultaat toonde aan dat 89,6% van de complete BUSCO-schimmelsetgenen (

) en 6,9% van de gefragmenteerde BUSCO-genen kon worden gevonden in de M. gigantea genoom.

In de structurele annotatieprocedure is de genoomgrootte van M. gigantea werd berekend als 41,23 Mb en het aantal geannoteerde genen was 11.722. Het aantal was minder dan het gemiddelde aantal bij de bestelling Agaricales. Bijvoorbeeld, Tricholoma bakamatsutake, Coprinopsis cinerea, en Lepista nuda genomen hadden respectievelijk 14.636, 13.393 en 14.880 voorspelde genen in hun genomen [7, 23, 24].

In de volgende stap werd de OrthoMCL [25]-software gebruikt om de orthologe groepen (OG's) te construeren met de beste eiwitmodellen van Armillaria ostoyae C18/9, Pleurotus eryngii, C. cinerea, Clitocybe gibba, L. nuda, T. matsutake 945 v3.0, Tricholoma saponaceum, Tricholoma sp. MG77, Tricholoma terreum, Tricholoma flavovirens, T. bakamatsutake, en M. gigantea [7] met een schaalbare methode. Elke geconstrueerde OG was een set eiwitten en over ten minste één soort. Bovendien komen alle eiwitten voor in de 11 vermelde genomen die vermeende orthologen vertegenwoordigen. De drempelwaarde voor alles-tegen-alles BLASTP was ingesteld op 10 −8.

Vervolgens werd genannotatie uitgevoerd op basis van het OG-resultaat. Volgens het bio-informatica-initiatief Gene Ontology werden alle 15.788 OG's geïmporteerd als een zaadje voor het functionele annotatieproces [26] (Tabel 1).

3.2. Voorlopige ITS-boom

Om de evolutionaire relatie tussen M. gigantea binnen clades in Agaricomyceten, hebben we buur-joining bootstrapping (NJ) -analyses van de ITS-sequentiegegevens uitgevoerd [27, 28]. We selecteerden eerst 342 taxa uit een totaal van 2.127 Agaricomyceten monsters voor analyses op basis van deze voorlopige NJ-boom, na uitsluiting van de ambigue regio's (Figuur 1). Hierna worden de best scorende ML-bomen met 342 sequenties weergegeven: Agaricomyceten en bootstrap ondersteund door GTR + G-ondersteuning werden getoond in aanvullende figuur 1 en aanvullende tabel 3. In deze boom is het geslacht Tricholoma en macrocybe waren duidelijk verdeeld in twee afzonderlijke takken. De vertegenwoordigers van Tricholoma, T. matsutake, T. bakamatsutake, T. terreum, T. saponaceum, en T. flavovirens werden gegroepeerd, en het geslacht macrocybe en M. gigantea waren ook gegroepeerd. klaarblijkelijk, Tricholoma giganteum stond op de tak met het geslacht macrocybe. In een eerder onderzoek hebben Pegler et al. [1, 2, 29] nam T. giganteum uit Tricholoma en gegroepeerd in macrocybe, en onze fylogenetische boom ondersteunde deze conclusie. Beide L. nuda en T. matsutake behoorde tot het geslacht Tricholoma (http://www.catalogueoflife.org).

Om verder te bepalen of M. gigantea behoorde tot het geslacht Tricholoma of macrocybe, gebruikten we de vorige methode (aanvullende tabel 4) om 553 sequenties uit de . te selecteren Tricholoma geslacht (in totaal 369 soorten, waarvan 94 sequentierecords hadden) en macrocybe genus (in totaal 7 leden, gevonden dat er 3 leden zijn met sequentierecords) in de Catalogus van het Leven (aanvullende tabel 5), terwijl we ook selecteerden C. cinerea, Agaricus parasubrutilescens, en P. eryngii als vertegenwoordigers van een ander geslacht in Tricholomataceae en selecteer A. ostoyae als de outgroup (aanvullende figuur 2). Ten slotte werden 90 sequenties geselecteerd uit de bovenstaande sequentie (Figuur 2 (a), aanvullende tabel 5, 6).

worden gegeven bij de internode bellen (BS). We hebben de maximale waarschijnlijkheidsanalyse (ML) van ITS-sequentiegegevens uitgevoerd door Tamura 3-parametermodel (T92) + Gamma Distributed (G) substitutiemodel in MEGA5.05. De clade met een dikke tak geeft het onderdeel aan waarin we geïnteresseerd zijn. Oranje: Tricholoma licht koraal: macrocybe cyaan: Agaricus khaki: Pleurotus rood: Armillaria. (b) Parameters van geannoteerde M. gigantea genen in vergelijking met die van de A. ostoyae, P. eryngii, C. cinerea, C. gibba, L. nuda, T. matsutake, T. saponaceum, T. sp., T. terreum, T. flavovirens, en T. bakamatsutake. (c) Genfamilieclusteranalyse van M. gigantea, A. ostoyae, C. cinerea, T. matsutake, en T. bakamatsutake. (d) Linkerpaneel: analyse van genfamilie-uitbreiding / contractie van C. cinerea, T. bakamatsutake, T. matsutake, T. flavovirens, T. sp., T. saponaceum, T. terreum, L. nuda, C. gibba, P. eryngii, A. ostoyae, en M. gigantea. Rechterpaneel: de hittekaart rechtsonder illustreert de kopieaantallen van de gencoderende plantencelwandafbrekende enzymen en pathogeniteitsgerelateerde genfamilies in de 12 soorten.

In deze multigene-boom (Figuur 2 (a)) werden drie belangrijke clades gevormd: macrocybe, Tricholoma, en outgroup. De macrocybe en Tricholoma clades waren zuster clades van elkaar, en alle collecties van macrocybe vertoonde een monofyletische relatie. Secties Tricholoma opgesplitst in meerdere clades (oranje blok). Sectie macrocybe (licht koraalblok), dat de soort bevatte M. gigantea, werd niet sterk ondersteund als een monofylie met 1.000 Bootstrap-replicaties, maar de topologische structuur van de classificatie van de belangrijkste soorten werd ondersteund in het artikel van Zhao [28]. Een opvallende uitzondering in deze studie is echter dat sommige soorten van de Tricholoma werden opgesplitst in een ander subgenus (bijv. MF034302.1 Tricholoma sulphurescens, LT0001741 Tricholoma inamoenum, AY462030.1 Tricholoma bufonium). We ontdekten ook dat de soort met de naam Tricholoma giganteum was ook geclusterd op de tak macrocybe, wat consistent is met de resultaten van eerdere geleerden [1]. We kwamen ook tot dezelfde conclusie dat: Tricholoma en macrocybe waren niet dezelfde clade door een fylogenetische boom te construeren met behulp van CDS-sequenties (Figuur 2 (d)) [30].

3.3. Fylogenetische analyse van M. gigantea

De fylogenetische positie van veel soorten in het geslacht Tricholoma blijft zeer omstreden [31, 32]. Omdat de tijdsdivergentie kan worden gediend als een meer objectief en biologisch informatief criterium voor de afbakening van taxonomische rangen [33], hebben we hier een casestudy gepresenteerd waarin dit criterium werd toegepast voor de systematische herziening van een schimmelgeslacht. Als gevolg hiervan werden de taxonomische rangen minimaal verstoord zoals ze in andere studies werden erkend. De onzekerheden en beperkingen van de schatting van de moleculaire divergentietijd waren besproken in Van Tuinen en Torres [34].

Fylogenomische analyse op basis van 1.976 aaneengeschakelde geconserveerde single-copy genen bevestigde de positie van macrocybe in de Tricholomaceae, met Pleurotus, Armillaria, en Coprinopsis als hun outgroup-soort (figuren 2(a) en 2(d)). We schatten de leeftijd van de meest recente gemeenschappelijke voorouder (MRCA) van macrocybe op 125 miljoen jaar (Myr) en de afwijking van clitocybe bij 143.5 Myr in het Vroege Krijt, wat overeenkwam met de tijd waarin de angiospermen zich ontwikkelden [35].

De genoombrede reconstructie van genverlies en duplicatiegeschiedenis in 12 Agaricales soorten herstelden een oorsprong voor de meeste genen, de afstammingsspecifieke verliezen in groepen op geslachtsniveau en in de meeste genfamilies. 6.630 eiwitcoderende genen werden afgeleid voor MRCA van Agaricales en 6.417 voor de MRCA van Tricholomaceae (13 duplicaties, 186 verliezen) (Figuur 2(b) en 2(c)). Verdere uitbreidingen vonden plaats in de 5.546 genen die werden afgeleid voor de MRCA van Tricholoma (60 doublures, 491 verliezen). Verdere vergelijkingen van alle 12 soorten onthulden 1.237 uitgebreide genfamilies in de M. gigantea genoom (Figuur 2 (c)). Opmerkelijk is dat de producten van veel uitgebreide genen, zelfs genfamilies, elementen zijn van de afbrekende enzymen in de plantencelwand (d.w.z. Cellulase Glyco_hydro_61, hydrofobines, carboxylesterase). De gegevens hebben de geannoteerde sequentie van het hele genoom sterk verbeterd M. gigantea.

Vergelijkende analyse van C. cinerea, A. ostoyae, T. matsutake, T. bakamatsutake, en M. gigantea genen gedefinieerd in totaal 17.708 homologe genfamilies, waarvan 4.254 genfamilies werden gedeeld door alle vijf soorten en 476 genfamilies waren M. gigantea specifiek (Figuur 2(c)). Tegelijkertijd ontdekten we dat 129 genen uniek waren voor de twee soorten M. gigantea en A. ostoyae, die enorme vruchtlichamen hebben.

3.4. Classificeer energiemetabolisme-gerelateerde genen in: M. gigantea

De resultaten van Sipos et al. en Peter et al. [36-38] gaven aan dat de pathogeniteitsmechanismen en de evolutie van de unieke verspreiding van Armillaria heeft mogelijk een reeks voorouderlijke genetische hulpmiddelen voor morfogenese, complexe multicellulariteit en houtverval. Daarom vergeleken we de energiemetabolisme-gerelateerde gensamenstelling van M. gigantea soorten naar de andere Tricholoma met diverse levensstijlen. Niet verrassend, M. gigantea houtrot veroorzaken zoals A. ostoyae in de saprotrofe fase van hun levenscyclus, wat tot uiting komt in hun vergelijkbare heterotrofe methode. Het genoom kan coderen voor cellulose-, carboxylesterase- en glycosidehydrolase, wat het potentieel inhoudt om componenten van de plantencelwand af te breken (Figuur 2 (d), aanvullende tabel 7). M. gigantea vertonen meestal vergelijkbare genentellingen als A. ostoyae, maar niet zo duidelijk in Tricholoma. Bovendien worden sommige pectinolytische families tot overexpressie gebracht in M. gigantea en Armillaria. Pectine-afbrekende families bestaan ​​uit koolhydraatesterase 8 (CE8), polysacharidelyase (PL)1, PL3 en PL4, GH28, GH88, en GH78. Het is vermeldenswaard dat in vergelijking met Tricholoma, GH28, PL3, en CE8 zijn aanzienlijk verrijkt in M. gigantea. De pectinolytische families van M. gigantea zijn ongebruikelijk voor houtrotschimmels [39], en ze kunnen het mogelijk maken om snel energie in het hout te winnen om concurrentie met andere micro-organismen te vermijden.

3.5. Identificatie van de Pectinolytische Families in M. gigantea

We concentreerden ons op GH28 (Glyco_hydro_28) uit de pectinolytische families. In totaal zijn 65 kandidaat-genmodellen gerelateerd aan de GH28 familie van Pfam werden aanvankelijk gevangen genomen. Sommigen voorspelden ten onrechte GH28 genmodellen werden handmatig verwijderd (d.w.z. evm. model. tig00000709.146). Tot slot, volgens de aanwezigheid van schijnbaar volledige GH28 domeinen werden in totaal 54 genmodellen verzameld en geannoteerd als: M. gigantea GH28 genen.

De fylogenetische analyse (Figuur 3, aanvullende tabel 9) gaf aan dat de M. gigantea GH28 domeinen kunnen worden onderverdeeld in vier grote clades, namelijk clades I, II, III en IV [40, 41]. Onder deze 10 GH28 eiwitten, 3 behoren tot groep I, 3 tot groep II, 2 tot groep III en 2 tot groep IV. De GH28 leden van de fylogenetische soorten waren nauw geclusterd in dezelfde clades. Neem de clade IV als voorbeeld, deze bevatte de leden van Tricholoma (T. matsutake, T. saponaceum, T. sp., T. terreum, T. flavovirens, T. bakamatsutake), wat aangeeft dat ze mogelijk afkomstig zijn van een enkel voorouderlijk gen of orthologen. Interessant is dat drie eiwitten van M. gigantea werden geclusterd met een reeks van Armillaria GH28 eiwitten (in clade I), wat suggereert dat de verschillende evolutiepatronen van GH28 in M. gigantea en Armillaria kunnen optreden na hun divergentie. We hebben ook de MEME [42]-webserver gebruikt om de geconserveerde motieven te doorzoeken die werden gedeeld met de GH28 eiwitten. Er werden in totaal 10 verschillende geconserveerde motieven gevonden. Zoals geïllustreerd in figuren 3 en 4, bevatten de 16 leden van clade I twee unieke GH28 domeinen (Figuur 4), wat wijst op mogelijke functionele overeenkomsten tussen GH28 eiwitten, zoals alleen het motief 5 en het aangrenzende motief 7 naast elkaar bestonden M. gigantea, Armillaria, en enkele outgroups GH28 eiwitten. De vorige studie zegt dat de GH28 familie speelde een belangrijke rol in de beginfase van de ontwikkeling van vruchtlichamen [43]. De ontwikkeling van verwante vruchtlichamen vereist constante celdeling en celwanddesintegratie en reconstructie. De specifieke motieven kunnen bijdragen aan de functionele divergentie van GH28 genen op een bepaalde manier.

4. Discussie en conclusies

het geslacht M. gigantea geëvolueerd van saprotrofe voorouders in de Agaricales. Door de sequenties in de genomen van M. gigantea, C. cinerea, en A. ostoyae, vonden we een specifiek genprofiel vergelijkbaar met A. ostoyae in M. gigantea. Door de analyse van de genoomsequentie van M. gigantea, we hebben gevonden dat M. gigantea coderen voor een vergelijkbare set PCWDE-genen zoals: A. ostoyae, maar duidelijk anders dan Coprinopsis en Tricholoma.

In eerdere studies hebben Singer et al. [44, 45] scheidde de grote champignons van Tricholoma in een nieuwe sekte. Later, Pegler et al. [1] realiseerde de noodzaak om deze sectie in een nieuw geslacht te splitsen, macrocybe. Ze bevestigden hun hypothese ook door moleculaire analyse met behulp van een grote subeenheid (LSU) van rDNA [29, 44]. In het huidige werk is de duidelijke afstamming van T. giganteum werd opnieuw geëvalueerd met behulp van een eiwitcoderende sequentie op het genoom [44, 46], en onze studies vonden ook dat T. giganteum, M. gigantea, Macrocybe crassa, en M. gigantea zijn heel dicht bij de takken, ze zijn zelfs verdeeld in dezelfde tak, integendeel, de takken bevatten Tricholoma en de takken van macrocybe en M. gigantea behoren tot twee verschillende zustertakken (Figuur 2(d)). Mycologen aarzelen nog om hun collecties op te nemen in macrocybe [47] misschien is dit een goede kans om het te veranderen.

In onze fylogenetische analyse, M. gigantea werd geïdentificeerd als een macrocybe soorten en vertoonden significante verschillen met Tricholoma. Volgens het werk van Moncalvo et al. [44], macrocybe is dichter bij Entoloom dan Tricholoma of Calocybe. Misschien is dit de reden M. gigantea werd altijd toegewezen aan een groep ver van Tricholoma bij eerder onderzoek. De Tricholomataceae zijn een grote familie van paddenstoelen binnen de Agaricales. De familie omvat alle witrode of gele soorten in de Agaricales niet al geclassificeerd als behorend tot, bijvoorbeeld de Amanitaceae, Entolomataceae, Hygrophoraceae, of Pluteaceae. We vonden ook soortgelijke verschijnselen bij het uitvoeren van evolutionaire analyse, namelijk dat altijd een paar leden van de Tricholoma geslacht dat zich zal verzamelen in een andere onafhankelijke clade. Deze studie geeft inzicht in het onderscheid tussen soorten door verschillen tussen genen op het genoom te vergelijken. Het zal het begrip van de biologie van de Macrocybe.

Beschikbaarheid van data

De datasets die de resultaten van dit artikel ondersteunen, zijn beschikbaar in NCBI. De onbewerkte sequencing-uitlezingen zijn beschikbaar op SRR8617733 en de gegevens over de genoomassemblage zijn gedeponeerd bij DDBJ/ENA/GenBank onder de toetreding SJRY00000000. De versie die in dit document wordt beschreven, is versie SJRY01000000.

Belangenverstrengeling

De auteurs verklaren geen belangenverstrengeling.

Bijdragen van auteurs

Y.D., J.W., en J.S. bijgedragen aan de beeldvorming. LK bijgedragen aan de methodiek. ZZ en Y.W is verantwoordelijk voor de software. XD is verantwoordelijk voor de formele analyse. SL bijgedragen aan het onderzoek. YZ bijgedragen aan de middelen. QX bijgedragen aan de datacuratie. LK en Z.Z. schreef het manuscript en is verantwoordelijk voor de oorspronkelijke conceptvoorbereiding. YD het manuscript heeft geschreven, beoordeeld en bewerkt. YD bijgedragen aan het toezicht. YD en LK zijn verantwoordelijk voor de projectadministratie. J.S is verantwoordelijk voor de financieringsacquisitie. Alle auteurs hebben de gepubliceerde versie van het manuscript gelezen en ermee ingestemd.

Dankbetuigingen

We bedanken alle collega's die hebben meegeholpen tijdens het veldwerk of hebben gezorgd voor plantmateriaal. Shufen Wang, Xuhai Zhu, Yunbing Pan, Wenqian Yu, Ling Yang en Xianqin Fan hebben waardevolle hulp geboden bij laboratoriumwerk. We danken ook Zhengyu Zhang, Yun Gao en Yuan Du voor hun hulp bij de analyse van het genoom. Ten slotte zijn we Dr. Chen bijzonder dankbaar voor zijn waardevolle opmerkingen tijdens het schrijfproces. Dit onderzoek werd gefinancierd door Yunnan Provincial Key Programs van het Yunnan Eco-friendly Food International Cooperation Research Center-project, subsidienummer 2019ZG00908, en Jiangsu University, subsidienummer 20JDG47.

Aanvullende materialen

Aanvullend 1. Aanvullend figuur 1. Moleculaire fylogenetische analyse door maximale waarschijnlijkheidsmethode. De fylogenetische boom toont de relaties tussen klassen uit de fylogenetische analyse van Agaricomycetes en verwante phyla berekend op basis van de maximale waarschijnlijkheidsanalyse van ITS-sequentiegegevens. Bootstrap-ondersteuning (BS) wordt gegeven op de internodiën. De verdikte takken duiden op de twee soorten waarin we geïnteresseerd zijn. De boom met de hoogste logwaarschijnlijkheid (-9.152.4805) wordt tentoongesteld. De bijbehorende taxa zijn bij elkaar geclusterd in de bomen, en de percentages zijn dichtbij de takken weergegeven. De initiële boom(men) voor de heuristische zoekactie werden automatisch als volgt verkregen. Wanneer het aantal gemeenschappelijke locaties < 100 of minder dan een vierde van het totale aantal locaties was, werd de maximale spaarzaamheidsmethode gebruikt, anders werd de BIONJ-methode met MCL-afstandsmatrix gebruikt. Een discrete Gamma-verdeling werd gebruikt om de evolutionaire snelheidsverschillen tussen locaties te modelleren (5 categorieën (+G,

)). De boom wordt getekend door een schaal met de taklengtes gemeten in het aantal vervangingen per locatie. Bij deze analyse waren 342 nucleotidesequenties betrokken.

Aanvullend 2. Aanvullend figuur 2. Moleculaire fylogenetische analyse door maximale waarschijnlijkheidsmethode. De maximale waarschijnlijkheidsmethode werd hier gebruikt om de evolutionaire geschiedenis af te leiden op basis van het gegevensspecifieke model.De boom met de hoogste logwaarschijnlijkheid (-9.935.0324) wordt getoond. Naast de takken wordt het percentage bomen weergegeven waarin de bijbehorende taxa geclusterd zijn. De initiële boom(men) voor de heuristische zoekopdracht werden automatisch als volgt verkregen. Wanneer het aantal gemeenschappelijke locaties < 100 of minder dan een vierde van het totale aantal locaties was, werd de maximale spaarzaamheidsmethode gebruikt, anders werd de BIONJ-methode met MCL-afstandsmatrix gebruikt. Een discrete Gamma-verdeling werd gebruikt om evolutionaire snelheidsverschillen tussen locaties te modelleren (5 categorieën (+G, )). Bij deze analyse waren 553 nucleotidesequenties betrokken.

Aanvullend 3. Tabel S1. De bibliotheekinformatie en gegevensstatistieken. Deze tabel is een samenvatting van de bibliotheek, het sequentieplatform en de gegenereerde gegevens.

Aanvullend 4. Tabel S2. De statistieken van de schimmelgenomen die in dit artikel worden gebruikt. WR: houtrot ECM: ectomycorrhiza LD: afvalafscheider WD: houtbederf SN: saprotrofe voeding WR: houtrot ECM: ectomycorrhiza LD: afvalafscheider WD: houtbederf SN: saprotrofe voeding.

Aanvullend 5. Aanvullende tabel 3. Maximale waarschijnlijkheid past van 24 verschillende nucleotidesubstitutiemodellen. Opmerking. Modellen met de laagste BIC-scores (Bayesian Information Criterion) worden geacht het substitutiepatroon het beste te beschrijven. Voor elk model worden ook de AICc-waarde (Akaike Information Criterion, gecorrigeerd), de maximale waarschijnlijkheidswaarde (lnL) en het aantal parameters (inclusief vertakkingslengtes) gepresenteerd [1]. Niet-uniformiteit van evolutionaire snelheden tussen locaties kan worden gemodelleerd door een discrete gammaverdeling (+G) met 5 snelheidscategorieën te gebruiken en door aan te nemen dat een bepaalde fractie van locaties evolutionair onveranderlijk is (+I). Waar van toepassing worden schattingen van de gammavormparameter en/of de geschatte fractie van invariante locaties weergegeven. Aangenomen of geschatte waarden van overgangs-/transversiebias (

) worden ook voor elk model weergegeven. Ze worden gevolgd door nucleotidefrequenties (

) en tarieven van basissubstituties (

) voor elk nucleotidepaar. Relatieve waarden van ogenblikkelijk moeten worden overwogen bij het evalueren ervan. Voor de eenvoud wordt de som van de waarden voor elk model gelijk gemaakt aan 1. Voor het schatten van ML-waarden werd automatisch een boomtopologie berekend. De analyse omvatte 342 nucleotidesequenties. De opgenomen codonposities waren 1e+2e+3e+niet-coderend. Alle posities met een terreindekking van minder dan 95% werden geëlimineerd. Dat wil zeggen dat er op elke positie minder dan 5% hiaten in de uitlijning, ontbrekende gegevens en dubbelzinnige bases waren toegestaan. Er waren in totaal 238 posities in de uiteindelijke dataset. Evolutionaire analyses werden uitgevoerd in MEGA5 [2]. Afkortingen: GTR: Algemene tijd omkeerbaar HKY: Hasegawa-Kishino-Yano TN93: Tamura-Nei T92: Tamura 3-parameter K2: Kimura 2-parameter JC: Jukes-Cantor. (1) Nei M. en Kumar S. (2000). Moleculaire evolutie en fylogenetica. Oxford University Press, New York. (2) Tamura K., Peterson D., Peterson N., Stecher G., Nei M. en Kumar S. (2011). MEGA5: Moleculaire evolutionaire genetica-analyse met behulp van maximale waarschijnlijkheid, evolutionaire afstand en maximale spaarzaamheid. Moleculaire Biologie en Evolutie (In Press). Disclaimer: Hoewel de grootst mogelijke zorg is besteed aan de juistheid van het bijschrift, wordt de tekst van het bijschrift geleverd "zoals deze is" zonder enige garantie van welke aard dan ook. De auteurs raden de gebruiker aan om het onderschrift zorgvuldig te controleren voordat het voor welk doel dan ook wordt gebruikt en eventuele fouten of problemen onmiddellijk aan de auteurs te melden (http://www.megasoftware.net). In geen geval zullen de auteurs en hun werkgevers aansprakelijk zijn voor enige schade, inclusief maar niet beperkt tot speciale schade, gevolgschade of andere schade. De auteurs wijzen specifiek alle andere garanties af, expliciet of impliciet, inclusief maar niet beperkt tot het bepalen van de geschiktheid van deze ondertitelingstekst voor een specifiek doel, gebruik of toepassing.

Aanvullend 6. Aanvullende tabel 4. Maximale waarschijnlijkheidsaanpassingen van 24 verschillende nucleotidesubstitutiemodellen. OPMERKING. Modellen met de laagste BIC-scores (Bayesian Information Criterion) worden geacht het substitutiepatroon het beste te beschrijven. Voor elk model worden ook de AICc-waarde (Akaike Information Criterion, gecorrigeerd), de maximale waarschijnlijkheidswaarde (lnL) en het aantal parameters (inclusief vertakkingslengtes) gepresenteerd [1]. Niet-uniformiteit van evolutionaire snelheden tussen locaties kan worden gemodelleerd door een discrete gammaverdeling (+G) met 5 snelheidscategorieën te gebruiken en door aan te nemen dat een bepaalde fractie van locaties evolutionair onveranderlijk is (+I). Waar van toepassing worden schattingen van de gammavormparameter en/of de geschatte fractie van invariante locaties weergegeven. Aangenomen of geschatte waarden van transitie/transversiebias (R) worden ook voor elk model getoond. Ze worden gevolgd door nucleotidefrequenties ( ) en snelheden van basensubstituties ( ) voor elk nucleotidepaar. Relatieve waarden van ogenblikkelijk moeten worden overwogen bij het evalueren ervan. Voor de eenvoud wordt de som van de waarden voor elk model gelijk gemaakt aan 1. Voor het schatten van ML-waarden werd automatisch een boomtopologie berekend. De analyse omvatte 553 nucleotidesequenties. De opgenomen codonposities waren 1e+2e+3e+niet-coderend. Alle posities met een terreindekking van minder dan 95% werden geëlimineerd. Dat wil zeggen dat er op elke positie minder dan 5% hiaten in de uitlijning, ontbrekende gegevens en dubbelzinnige bases waren toegestaan. Er waren in totaal 374 posities in de uiteindelijke dataset. Evolutionaire analyses werden uitgevoerd in MEGA5 [2]. Afkortingen: GTR: Algemene tijd omkeerbaar HKY: Hasegawa-Kishino-Yano TN93: Tamura-Nei T92: Tamura 3-parameter K2: Kimura 2-parameter JC: Jukes-Cantor. (1) Nei M. en Kumar S. (2000). Moleculaire evolutie en fylogenetica. Oxford University Press, New York. (2) Tamura K., Peterson D., Peterson N., Stecher G., Nei M. en Kumar S. (2011). MEGA5: Moleculaire evolutionaire genetica-analyse met behulp van maximale waarschijnlijkheid, evolutionaire afstand en maximale spaarzaamheid. Moleculaire Biologie en Evolutie (In Press). Disclaimer: Hoewel de grootst mogelijke zorg is besteed aan de juistheid van het bijschrift, wordt de tekst van het bijschrift geleverd "zoals deze is" zonder enige garantie van welke aard dan ook. De auteurs raden de gebruiker aan om het onderschrift zorgvuldig te controleren voordat het voor welk doel dan ook wordt gebruikt en eventuele fouten of problemen onmiddellijk aan de auteurs te melden (http://www.megasoftware.net). In geen geval zullen de auteurs en hun werkgevers aansprakelijk zijn voor enige schade, inclusief maar niet beperkt tot speciale schade, gevolgschade of andere schade. De auteurs wijzen specifiek alle andere garanties af, expliciet of impliciet, inclusief maar niet beperkt tot het bepalen van de geschiktheid van deze ondertitelingstekst voor een specifiek doel, gebruik of toepassing.

Aanvullend 7. Aanvullende tabel 5. Soorten in Tricholoma en Macrocybe uit de Catalogus van het Leven. In deze tabel staan ​​respectievelijk 369 levende soorten die tot Tricholoma behoren en 6 levende soorten die tot Macrocybe behoren.

Aanvullend 8. Aanvullende tabel 6. Maximale waarschijnlijkheidsaanpassingen van 24 verschillende nucleotidesubstitutiemodellen. OPMERKING. Modellen met de laagste BIC-scores (Bayesian Information Criterion) worden geacht het substitutiepatroon het beste te beschrijven. Voor elk model worden ook de AICc-waarde (Akaike Information Criterion, gecorrigeerd), de maximale waarschijnlijkheidswaarde (lnL) en het aantal parameters (inclusief vertakkingslengtes) gepresenteerd [1]. Niet-uniformiteit van evolutionaire snelheden tussen locaties kan worden gemodelleerd door een discrete gammaverdeling (+G) met 5 snelheidscategorieën te gebruiken en door aan te nemen dat een bepaalde fractie van locaties evolutionair onveranderlijk is (+I). Waar van toepassing worden schattingen van de gammavormparameter en/of de geschatte fractie van invariante locaties weergegeven. Aangenomen of geschatte waarden van transitie/transversiebias ( ) worden ook voor elk model getoond. Ze worden gevolgd door nucleotidefrequenties ( ) en snelheden van basensubstituties ( ) voor elk nucleotidepaar. Relatieve waarden van ogenblikkelijk moeten worden overwogen bij het evalueren ervan. Voor de eenvoud wordt de som van de waarden voor elk model gelijk gemaakt aan 1. Voor het schatten van ML-waarden werd automatisch een boomtopologie berekend. De analyse omvatte 90 nucleotidesequenties. De opgenomen codonposities waren 1e+2e+3e+niet-coderend. Alle posities met een terreindekking van minder dan 95% werden geëlimineerd. Dat wil zeggen dat er op elke positie minder dan 5% hiaten in de uitlijning, ontbrekende gegevens en dubbelzinnige bases waren toegestaan. Er waren in totaal 382 posities in de uiteindelijke dataset. Evolutionaire analyses werden uitgevoerd in MEGA5 [2]. Afkortingen: GTR: Algemene tijd omkeerbaar HKY: Hasegawa-Kishino-Yano TN93: Tamura-Nei T92: Tamura 3-parameter K2: Kimura 2-parameter JC: Jukes-Cantor. (1) Nei M. en Kumar S. (2000). Moleculaire evolutie en fylogenetica. Oxford University Press, New York. (2) Tamura K., Peterson D., Peterson N., Stecher G., Nei M. en Kumar S. (2011). MEGA5: Moleculaire evolutionaire genetica-analyse met behulp van maximale waarschijnlijkheid, evolutionaire afstand en maximale spaarzaamheid. Moleculaire Biologie en Evolutie (In Press). Disclaimer: Hoewel de grootst mogelijke zorg is besteed aan de juistheid van het bijschrift, wordt de tekst van het bijschrift geleverd "zoals deze is" zonder enige garantie van welke aard dan ook. De auteurs raden de gebruiker aan om het onderschrift zorgvuldig te controleren voordat het voor welk doel dan ook wordt gebruikt en eventuele fouten of problemen onmiddellijk aan de auteurs te melden (http://www.megasoftware.net). In geen geval zullen de auteurs en hun werkgevers aansprakelijk zijn voor enige schade, inclusief maar niet beperkt tot speciale schade, gevolgschade of andere schade. De auteurs wijzen specifiek alle andere garanties af, expliciet of impliciet, inclusief maar niet beperkt tot het bepalen van de geschiktheid van deze ondertitelingstekst voor een specifiek doel, gebruik of toepassing.

Aanvullend 9. Aanvullende tabel 7. Soorten gebruikt in vergelijkende genomische analyses. Deze tabel bevat vijf hoofdsoorten (chitine, cellulose en hemicellulose, genen die geïmpliceerd zijn in pathogeniteit, lignine, pectine) en andere die worden gebruikt in vergelijkende genomische analyses.

Aanvullend 10. Aanvullende tabel 8. Informatie die is gebruikt voor de oorspronkelijk gescreende soort. Deze tabel bevatte de belangrijkste informatie, waaronder toetreding over GenBank, geslacht en soorten die voor screening werden gebruikt.

Aanvullend 11. Aanvullende tabel 9. Maximale waarschijnlijkheidsaanpassingen van 54 verschillende aminozuursubstitutiemodellen. Opmerking. Modellen met de laagste BIC-scores (Bayesian Information Criterion) worden geacht het substitutiepatroon het beste te beschrijven. Voor elk model worden ook de AICc-waarde (Akaike Information Criterion, gecorrigeerd), de maximale waarschijnlijkheidswaarde (lnL) en het aantal parameters (inclusief vertakkingslengtes) gepresenteerd [1]. Niet-uniformiteit van evolutionaire snelheden tussen locaties kan worden gemodelleerd door een discrete gammaverdeling (+G) met 5 snelheidscategorieën te gebruiken en door aan te nemen dat een bepaalde fractie van locaties evolutionair onveranderlijk is (+I). Waar van toepassing worden schattingen van de gammavormparameter en/of de geschatte fractie van invariante locaties weergegeven. Ze worden gevolgd door aminozuurfrequenties ( ) en snelheden van aminozuursubstituties ( ) voor elk aminozuurpaar. Relatieve waarden van ogenblikkelijk moeten worden overwogen bij het evalueren ervan. Voor de eenvoud wordt de som van de waarden voor elk model gelijk gemaakt aan 1. Voor het schatten van ML-waarden werd een door de gebruiker gespecificeerde topologie gebruikt. De analyse omvatte 54 aminozuursequenties. Alle posities met een terreindekking van minder dan 95% werden geëlimineerd. Dat wil zeggen dat er op elke positie minder dan 5% hiaten in de uitlijning, ontbrekende gegevens en dubbelzinnige bases waren toegestaan. Er waren in totaal 56 posities in de uiteindelijke dataset. Evolutionaire analyses werden uitgevoerd in MEGA5 [2]. Afkortingen: GTR: algemene tijd omkeerbaar JTT: Jones-Taylor-Thornton rtREV: algemeen omgekeerd transcriptase cpREV: algemeen omkeerbaar chloroplast mtREV24: algemeen omkeerbaar mitochondriaal. (1) Nei M. en Kumar S. (2000). Moleculaire evolutie en fylogenetica. Oxford University Press, New York. (2) Tamura K., Peterson D., Peterson N., Stecher G., Nei M. en Kumar S. (2011). MEGA5: Moleculaire evolutionaire genetica-analyse met behulp van maximale waarschijnlijkheid, evolutionaire afstand en maximale spaarzaamheid. Moleculaire Biologie en Evolutie (In Press). Disclaimer: Hoewel de grootst mogelijke zorg is besteed aan de juistheid van het bijschrift, wordt de tekst van het bijschrift geleverd "zoals deze is" zonder enige garantie van welke aard dan ook. De auteurs raden de gebruiker aan om het onderschrift zorgvuldig te controleren voordat het voor welk doel dan ook wordt gebruikt en eventuele fouten of problemen onmiddellijk aan de auteurs te melden (http://www.megasoftware.net). In geen geval zullen de auteurs en hun werkgevers aansprakelijk zijn voor enige schade, inclusief maar niet beperkt tot speciale schade, gevolgschade of andere schade. De auteurs wijzen specifiek alle andere garanties af, expliciet of impliciet, inclusief maar niet beperkt tot het bepalen van de geschiktheid van deze ondertitelingstekst voor een specifiek doel, gebruik of toepassing.

Referenties

  1. D. N. Pegler, D. J. Lodge, en K. K. Nakasone, "Het pantropische geslacht Macrocybegen. november," Mycologia, vol. 90, nee. 3, blz. 494-504, 2018. Bekijk op: Google Scholar
  2. A. Razaq, R. Nawaz en A. N. Khalid, "Een Aziatische eetbare paddenstoel, Macrocybe gigantea: de distributie en op ITS-rDNA gebaseerde fylogenie,” Mycosfeer, vol. 7, nee. 4, pp. 525–530, 2016. Bekijk op: Publisher Site | Google geleerde
  3. S. Khatua en K. Acharya, “Invloed van extractieparameters op fysisch-chemische kenmerken en antioxidantactiviteit van in water oplosbare polysachariden uit Macrocybe gigantea (Massee) Pegler & Lodge,” J Food Sci-technologie, vol. 53, nee. 4, pp. 1878-1888, 2016. Bekijk op: Publisher Site | Google geleerde
  4. A.R. Das, M. Borthakur, A.K. Saha en S.R. Joshi, "Moleculaire karakterisering en antioxidantpotentieel van drie wilde culinaire medicinale paddenstoelen uit Tripura, Noordoost-India," International Journal of medicinale paddestoelen, vol. 19, nee. 1, pp. 55-63, 2017. Bekijk op: Publisher Site | Google geleerde
  5. T. Gaur en P. B. Rao, "Analyse van antibacteriële activiteit en bioactieve verbindingen van de gigantische paddenstoel, Macrocybe gigantea (Agaricomycetes), uit India,” International Journal of medicinale paddestoelen, vol. 19, nee. 12, pp. 1083-1092, 2017. Bekijken op: Uitgeverssite | Google geleerde
  6. S.D.S. Milhorini, F.R. Smiderle, S.M.P. Biscaia, F.R. Rosado, E.S. Trindade en M. Iacomini, "Fucogalactan van de gigantische paddestoel Macrocybe titanen remt de migratie van melanoomcellen,” Koolhydraatpolymeren, vol. 190, pp. 50-56, 2018. Bekijk op: Publisher Site | Google geleerde
  7. H. Li, S. Wu, X. Ma et al., "De genoomsequenties van 90 paddestoelen", Wetenschappelijke rapporten, vol. 8, nee. 1, blz. 9982, 2018. Bekijk op: Uitgeverssite | Google geleerde
  8. O. H. Cisse en J. E. Stajich, "FGMP: beoordeling van de volledigheid van het schimmelgenoom", BMC Bio-informatica, vol. 20, nee. 1, blz. 184, 2019. Bekijk op: Uitgeverssite | Google geleerde
  9. I. V. Grigoriev, R. Nikitin, S. Haridas et al., "MycoCosm-portaal: klaar voor 1000 schimmelgenomen", Onderzoek naar nucleïnezuren, vol. 42, nee. D1, blz. D699–D704, 2013. Bekijk op: Publisher Site | Google geleerde
  10. S. Koren, B.P. Walenz, K. Berlin, J.R. Miller, N.H. Bergman en A.M. Phillippy, "Canu: schaalbare en nauwkeurige langgelezen assemblage via adaptieve k-mer-weging en herhaalde scheiding," Genoomonderzoek, vol. 27, nee. 5, blz. 722–736, 2017. Bekijk op: Google Scholar
  11. G. Benson, "Tandem herhaalt vinder een programma om DNA-sequenties te analyseren," Onderzoek naar nucleïnezuren, vol. 27, nee. 2, blz. 573-580, 1999. Bekijk op: Google Scholar
  12. M. Tarailo-Graovac en N. Chen, "Herhalingsmasker gebruiken om repetitieve elementen in genomische sequenties te identificeren," Huidige protocollen in bio-informatica, vol. 25, nee. 1, 2009. Bekijk op: Uitgeverssite | Google geleerde
  13. Z. Yang, "PAML 4: fylogenetische analyse met maximale waarschijnlijkheid", Moleculaire biologie en evolutie, vol. 24, nee. 8, blz. 1586-1591, 2007. Bekijk op: Publisher Site | Google geleerde
  14. E. Birney en R. Durbin, "GeneWise gebruiken in het Drosophila-annotatie-experiment," Genoomonderzoek, vol. 10, nee. 4, pp. 547-548, 2000. Bekijk op: Publisher Site | Google geleerde
  15. M. Stanke, O. Keller, I. Gunduz, A. Hayes, S. Waack en B. Morgenstern, "AUGUSTUS: ab initio voorspelling van alternatieve transcripties," Nucleïnezuren Res, vol. 34, nee. Web Server-uitgave, pp. W435–W439, 2006. Bekijken op: Google Scholar
  16. A. A. Hoffmann en Y. Willi, "Genetische reacties op veranderingen in het milieu detecteren", Natuur beoordelingen Genetica, vol. 9, nee. 6, pp. 421-432, 2008. Bekijk op: Publisher Site | Google geleerde
  17. K. Tamura, D. Peterson, N. Peterson, G. Stecher, M. Nei en S. Kumar, "MEGA5: moleculaire evolutionaire genetica-analyse met behulp van maximale waarschijnlijkheid, evolutionaire afstand en maximale spaarzaamheidsmethoden," Moleculaire biologie en evolutie, vol. 28, nee. 10, pp. 2731–2739, 2011. Bekijk op: Publisher Site | Google geleerde
  18. J. Geml, D. M. Geiser en D. J. Royse, "Moleculaire evolutie van Agaricus soorten op basis van ITS- en LSU-rDNA-sequenties,” Mycologische vooruitgang, vol. 3, nee. 2, pp. 157-176, 2004. Bekijk op: Publisher Site | Google geleerde
  19. T. De Bie, N. Cristianini, J.P. Demuth en M.W. Hahn, "CAFE: een computationeel hulpmiddel voor de studie van de evolutie van genenfamilies," Bio-informatica, vol. 22, nee. 10, pp. 1269-1271, 2006. Bekijk op: Publisher Site | Google geleerde
  20. Y. Wang, H. Tang, J.D. DeBarry et al., "MCScanX: een toolkit voor detectie en evolutionaire analyse van gensynteny en collineariteit", Onderzoek naar nucleïnezuren, vol. 40, nee. 7, artikel e49, 2012. Bekijk op: Publisher Site | Google geleerde
  21. M.A. Larkin, G. Blackshields, N.P. Brown et al., "Clustal W en Clustal X versie 2.0." Bio-informatica, vol. 23, nee. 21, pp. 2947-2948, 2007. Bekijk op: Publisher Site | Google geleerde
  22. C.-J. Chen, H. Chen, Y.Zhang et al., "TBtools: een integratieve toolkit ontwikkeld voor interactieve analyses van grote biologische gegevens", Moleculaire Plant, vol. 13, nee. 8, pp. 1194–1202, 2020. Bekijk op: Uitgeverssite | Google geleerde
  23. J.E. Stajich, S.K. Wilke, D. Ahren et al., "Inzichten in de evolutie van meercellige schimmels uit de geassembleerde chromosomen van de paddenstoel Coprinopsis cinerea (Coprinus cinereus)", Proceedings van de National Academy of Sciences, vol. 107, nee. 26, blz. 11889–11894, 2010. Bekijk op: Publisher Site | Google geleerde
  24. C. Gostinčar, R. A. Ohm, T. Kogej et al., "Genoomsequencing van vier Aureobasidium pullulans-variëteiten: biotechnologisch potentieel, stresstolerantie en beschrijving van nieuwe soorten," BMC Genomics, vol. 15, nee. 1, blz. 549, 2014. Bekijk op: Uitgeverssite | Google geleerde
  25. L. Li, C. J. Stoeckert Jr. en D. S. Roos, "OrthoMCL: identificatie van orthologe groepen voor eukaryote genomen," Genoomonderzoek, vol. 13, nee. 9, pp. 2178-2189, 2003. Bekijk op: Publisher Site | Google geleerde
  26. Consortium TGO, "Gene-ontologie: hulpmiddel voor de eenwording van biologie", Natuurgenetica, vol. 25, pp. 25-29, 2000. Bekijk op: Google Scholar
  27. R.-L. Zhao, J.-L. Zhou, J. Chen et al., "Naar het standaardiseren van taxonomische rangen met behulp van divergentietijden - een casestudy voor de reconstructie van het taxonomische systeem van Agaricus," Schimmel diversiteit, vol. 78, nee. 1, pp. 239–292, 2016. Bekijk op: Publisher Site | Google geleerde
  28. R.-L. Zhao, G.-J. Li, S. Sánchez-Ramírez et al., "Een fylogenetisch overzicht van zes genen van Basidiomycota en aanverwante phyla met geschatte divergentietijden van hogere taxa en een phyloproteomics-perspectief, " Schimmel diversiteit, vol. 84, nee. 1, pp. 43-74, 2017. Bekijk op: Publisher Site | Google geleerde
  29. V. Hofstetter, H. Clémençon, R. Vilgalys en J.-M. Moncalvo, “Fylogenetische analyses van de _Lyophylleae (Agaricales, Basidiomycota)_ gebaseerd op nucleaire en mitochondriale rDNA-sequenties,” Mycologisch onderzoek, vol. 106, nee. 9, blz. 1043-1059, 2002. Bekijk op: Publisher Site | Google geleerde
  30. R. Knight, A. Vrbanac, B.C. Taylor et al., "Beste praktijken voor het analyseren van microbiomen," Natuurbeoordelingen Microbiologie, vol. 16, nee. 7, blz. 410–422, 2018. Bekijk op: Publisher Site | Google geleerde
  31. Y.-Y. Cui, Q. Cai, L.-P. Tang, J.-W. Liu en Z.L. Yang, "De familie Amanitaceae: moleculaire fylogenie, hogere taxonomie en de soort in China," Schimmel diversiteit, vol. 91, nee. 1, pp. 5-230, 2018. Bekijk op: Publisher Site | Google geleerde
  32. V. Motato-Vásquez, E. Grassi, A. M. Gugliotta en G. L. Robledo, “Evolutionaire relaties van Bresadolia (Basidiomycota, Polyporales) gebaseerd op moleculair en morfologisch bewijs,” Mycologische vooruitgang, vol. 17, nee. 9, pp. 1031-1048, 2018. Bekijk op: Publisher Site | Google geleerde
  33. J.C. Avise en G.C. Johns, "Voorstel voor een gestandaardiseerd tijdschema van biologische classificatie voor bestaande soorten," Proceedings van de National Academy of Sciences, vol. 96, nee. 13, blz. 7358-7363, 1999. Bekijk op: Publisher Site | Google geleerde
  34. M. van Tuinen en C.R. Torres, "Potentieel voor vertekening en lage precisie bij de schatting van de moleculaire divergentietijd van de Canopy of Life: een voorbeeld van families van watervogels," Grenzen in de genetica, vol. 6, blz. 203, 2015. Bekijk op: Uitgeverssite | Google geleerde
  35. C.R. Fitzpatrick, J. Copeland, P.W. Wang, D.S. Guttman, P.M. Kotanen en M.T.J. Johnson, "Assemblage en ecologische functie van het wortelmicrobioom over angiosperm-plantensoorten," Proceedings van de National Academy of Sciences, vol. 115, nee. 6, pp. E1157–E1165, 2018. Bekijk op: Publisher Site | Google geleerde
  36. F. Martin, A. Kohler, C. Murat, C. Veneault-Fourrey en D.S. Hibbett, "De wortels van ectomycorrhiza-symbiose blootleggen", Natuur beoordelingen Microbiologie, vol. 14, nee. 12, blz. 760–773, 2016. Bekijk op: Publisher Site | Google geleerde
  37. M. Peter, A. Kohler, R. A. Ohm et al., "Ectomycorrhiza-ecologie is ingeprent in het genoom van de dominante symbiotische schimmel _Cenococcum geophilum_,” Natuurcommunicatie, vol. 7, nee. 1, blz. 12662, 2016. Bekijk op: Uitgeverssite | Google geleerde
  38. G. Sipos, A.N. Prasanna, M.C. Walter et al., "Genoomuitbreiding en afstammingsspecifieke genetische innovaties in de bospathogene schimmels _Armillaria_,” Natuurecologie en evolutie, vol. 1, nr. 12, blz. 1931-1941, 2017. Bekijk op: Publisher Site | Google geleerde
  39. J. Rytioja, K. Hilden, J. Yuzon, A. Hatakka, R.P. de Vries en M.R. Makela, "Plant-polysaccharide-afbrekende enzymen van Basidiomycetes," Microbiologie en moleculaire biologie beoordelingen, vol. 78, nee. 4, pp. 614-649, 2014. Bekijk op: Publisher Site | Google geleerde
  40. T. Eulgem, P.J. Rushton, S. Robatzek en I.E. Somssich, "De WRKY-superfamilie van planttranscriptiefactoren," Trends in plantenwetenschap, vol. 5, nee. 5, pp. 199-206, 2000. Bekijk op: Publisher Site | Google geleerde
  41. Y. Wang, L. Feng, Y. Zhu, Y. Li, H. Yan en Y. Xiang, "Vergelijkende genomische analyse van de WRKY III-genfamilie in populus, druif, arabidopsis en rijst," Biologie Direct, vol. 10, nee. 1, blz. 48, 2015. Bekijk op: Uitgeverssite | Google geleerde
  42. T.L. Bailey en C. Elkan, "Een mengselmodel aanpassen door verwachtingsmaximalisatie om motieven in biopolymeren te ontdekken," Proc Int Conf Intell Syst Mol Biol, vol. 2, blz. 28-36, 1994. Bekijk op: Google Scholar
  43. K. Krizsán, É. Almási, Z. Merényi et al., Transcriptomische atlas van de ontwikkeling van paddenstoelen benadrukt een onafhankelijke oorsprong van complexe multicellulariteit, BioRxiv, 2018. Bekijk op: Publisher Site
  44. J. M. Moncalvo, R. Vilgalys, S. A. Redhead et al., "Honderd en zeventien clades van euagarics," Moleculaire fylogenetica en evolutie, vol. 23, nee. 3, pp. 357-400, 2002. Bekijk op: Publisher Site | Google geleerde
  45. A. Toth, A. Hausknecht, I. Krisai-Greilhuber, T. Papp, C. Vagvolgyi en L. G. Nagy, "Iteratief verfijnde gidsbomen helpen de uitlijning en fylogenetische gevolgtrekking in de paddenstoelenfamilie Bolbitiaceae te verbeteren," PLoS One, vol. 8, nee. 2, artikel e56143, 2013. Bekijk op: Google Scholar
  46. M. Gardes en T.D. Bruns, "ITS-primers met verbeterde specificiteit voor basidiomyceten - toepassing voor de identificatie van mycorrhiza en roest," Moleculaire ecologie, vol. 2, nee. 2, pp. 113-118, 1993. Bekijk op: Publisher Site | Google geleerde
  47. V. Prakasam, B. Karthikayani, G. Thiribhuvanamala et al., "Tricholoma giganteum - een nieuwe tropische eetbare paddenstoel voor commerciële teelt in India", in Proceedings of the 7th International Conference on Mushroom Biology and Mushroom Products (ICMBMP7), Tamil Nadu, India, 2011. Bekijk op: Google Scholar

Auteursrechten

Copyright © 2021 Ling Kui et al. Dit is een open access-artikel dat wordt gedistribueerd onder de Creative Commons Attribution-licentie, die onbeperkt gebruik, distributie en reproductie in elk medium toestaat, op voorwaarde dat het originele werk correct wordt geciteerd.


5. Kruisvalidatie

Hoewel SPAdes als assembler aanzienlijk werk verricht bij het genereren van kwaliteitsassemblages, wordt het ten zeerste aanbevolen om het resultaat te "cross-valideren" met andere robuuste DBG-assemblers zoals ABySS, SOAPdenovo en Velvet. Een hoge consensus in de verkregen assemblages met betrekking tot assemblagegrootte, dekking en N50-waarde van verschillende assembleurs biedt legitimiteit van het resultaat en het zelfverzekerde gebruik ervan voor verdere stroomafwaartse analyses zoals genvoorspelling en annotatie (laten we dit onderwerp behouden voor de volgende blog!).

In dit artikel hebben we de fundamentele maar cruciale concepten van genoomassemblage behandeld, hoewel de assemblagestappen, afhankelijk van het bestudeerde organisme, tot op zekere hoogte kunnen variëren. De genoemde stappen en concepten zijn niet specifiek voor prokaryotische genoomassemblages en kunnen ook worden gebruikt voor eukaryote genoomassemblages. Vanwege de genomische complexiteit, zoals de grotere genoomgrootte, het hogere percentage herhalingen en een toename in heterozygotie, vormt de eukaryote genoomassemblage echter aanzienlijke uitdagingen. Het verkrijgen van een nauwkeurige montage vereist zorgvuldigheid in de aanpak zoals beschreven in dit artikel. Desalniettemin zijn met de juiste middelen, concepten en validatie hoogwaardige assemblages zeker mogelijk.

Om meer te weten te komen over genoomassemblage uit NGS-gegevens en om toegang te krijgen tot al onze geavanceerde materialen, waaronder 20 trainingsvideo's, presentaties, werkboeken en lidmaatschap van een privégroep, kunt u zich op de wachtlijst van Expert Sequencing plaatsen.

Deepak Kumar is een Genomics Software Application Engineer (Bioinformatics) bij Agilent Technologies. Hij is de oprichter van het Expert Sequencing Program (ExSeq) bij Cheeky Scientist. Het ExSeq-programma biedt een holistisch begrip van het Next Generation Sequencing (NGS)-veld - de ingewikkelde concepten en inzichten in computeranalyses van sequentiële gegevens. Hij heeft diverse professionele ervaring in bio-informatica en computationele biologie en is altijd geïnteresseerd in het formuleren van computationele oplossingen voor biologische problemen.


Bekijk de video: Раздельная вентиляция ванны и туалета. Тихий санузел. (November 2021).