Informatie

Wat is de biologische betekenis van het tellen van k-mer?


Er zijn veel hulpmiddelen ontwikkeld om het aantal k-meren in een gensequentie te berekenen. Jellyfish, Bloom Filter Counter, DSK Kmer Counter, KAnalyze, KMC 2 etc zijn enkele efficiënte software die in het afgelopen decennium is ontwikkeld om k-mers te tellen.

Maar met welk doel worden deze tools gebruikt?

Hoe dienen zij de biologische gemeenschap?


De toepassingen voor het tellen van de k-mer-voorvallen in een reeks zijn: het bouwen van de Bruijn-grafieken [1] voor de novo-assemblage van een zeer groot aantal korte uitlezingen, geproduceerd door sequencing van de volgende generatie, snelle uitlijning van meerdere sequenties [2], en [3 ] herhaaldetectie.

  1. Compeau PE, Pevzner PA, Tesler G: Hoe de Bruijn-grafieken toe te passen op genoomassemblage. Natuur Biotechnologie. 2011, 29 (11): 987-991. 10.1038/nbt.2023

  2. Edgar RC: MUSCLE: uitlijning van meerdere sequenties met hoge nauwkeurigheid en hoge doorvoer. Nucleïnezuren Res. 2004, 32 (5): 1792-1797. 10.1093/nar/gkh340

  3. Kurtz S, Narechania A, Stein J, Ware D: een nieuwe methode om K-mer-frequenties te berekenen en de toepassing ervan om grote repetitieve plantengenomen te annoteren. BMC Genomics. 2008, 9 (1): 517-10.1186/1471-2164-9-517

Voor alle duidelijkheid, hier is de biologische betekenis van elk van deze toepassingen:

  1. Het sequencen van genomen (bacterieel, plantaardig, zoogdier) is de laatste tijd erg goedkoop en gemakkelijk geworden met de volgende generatie sequencing-technologieën. In tegenstelling tot de Sanger-sequencing (de eerste generatie), produceren deze als uitlezing zeer korte sequencing-uitlezingen, die moeten worden samengevoegd tot langere en vervolgens tot hele genomen. Het tellen van de k-meren maakt deel uit van het assemblageproces en dit is het biologische belang ervan.

  2. Om te vergelijken of eiwitten een vergelijkbare functie kunnen hebben, en dus tot dezelfde eiwitfamilie behoren, wordt een meervoudige sequentie-uitlijning uitgevoerd. Dit is een cruciale stap bij het annoteren van nieuwe eiwitsequenties en het bestuderen van hun biologische functies.

  3. Er zijn veel herhalingen in ons genoom, maar ook in planten. Herhaalde sequenties zijn ook betrokken bij neurodegeneratieve ziekten zoals de Huntingtons, dus het is van medicinaal belang om ze te kunnen identificeren.


Wat is de biologische betekenis van het tellen van k-mer? - Biologie

DeepAdd wordt voorgesteld om eiwitfuncties te voorspellen met behulp van een diep convolutief neuraal netwerk (CNN) raamwerk.

DeepAdd maakt gebruik van een Word2Vec-methode voor het definiëren van de set functies om een ​​eiwit weer te geven.

DeepAdd bestaat uit twee CNN-modellen met meerdere convolutieblokken die de gepresenteerde eiwitsequentie toewijzen aan de representatie van vectoren met twee kenmerken. Eén kenmerkweergave is voor het sequentieovereenkomstprofiel per SSP-model. De andere functieweergave is het PPI-netwerk per PPI-model.


Achtergrond

Studies naar variatie in genexpressie hebben de kennis van de etiologie en classificatie van ziekten aanzienlijk verbeterd [1,2,3]. Om te profiteren van genomische gegevens die zijn gegenereerd uit tal van klinische onderzoeken, hebben recente initiatieven high-throughput sequencing (HTS) -experimenten geaggregeerd van meerdere cohorten die genexpressie, RNA-isovormgebruik en genoomvariatie meten. Het Genomic Data Commons-programma regelt bijvoorbeeld de toegang tot meer dan 84.000 gevallen [4]. Ondanks deze inspanningen om gegevens uit meerdere onderzoeken te verzamelen en te leveren, vormt hun computationele analyse en integratie een grote uitdaging. Elk type HTS-gegevens vereist specifieke bio-informatica-pijplijnen die moeten worden geïmplementeerd door een bio-informaticaspecialist. Bovendien vereisen de meeste van deze benaderingen referentiegenomen of transcriptomen en kunnen ze dus niet inherent de diversiteit in niet-referentietranscripten of individuele variaties verklaren [5]. Om de eis van een referentie te verlichten, gebruiken recente methodologieën k-mer representatie vergelijken ze direct de tellingen van nucleotidesequenties van lengte k tussen monsters [6]. Deze k-mer-gebaseerde benaderingen zijn de kern geweest van het veld van metagenomics, waar ze worden gebruikt om unieke k-mers of k-mer handtekeningen om organismen te classificeren [7, 8]. Echter, wanneer vertaald naar het genoom van zoogdieren, k-mer representatie resulteert in a k-mer telmatrix met zoveel kolommen als er steekproeven zijn en zoveel rijen als er zijn k-mers, over het algemeen miljarden. Zulke grote matrices onderzoeken om biologisch relevant te vinden k-mers is onhandelbaar tenzij de analyse zich alleen richt op een zeer kleine subset van de sequentiegegevens [5] of door metaheuristieken te gebruiken die gedeeltelijke oplossingen bieden [9].

Hier presenteren we iMOKA (interactieve multi-objective k-mer-analyse), een nieuwe aanpak en software waarmee niet-specialisten gebruik kunnen maken van k-mers om grote hoeveelheden sequentiegegevens van zoogdieren te onderzoeken. Deze benadering is onafhankelijk van het type sequentiegegevens dat wordt gebruikt, is niet bevooroordeeld in de richting van geannoteerde genetische elementen en kan transcriptniveaus en enkele nucleotidevariaties in één keer analyseren. Belangrijk is dat iMOKA interactief is, het stelt de gebruiker in staat om samples uit verschillende onderzoeken te importeren en samen te voegen en hun verkenning van k-meren naar specifieke genomische elementen van belang, zoals splitsingsgebeurtenissen, mutaties of globale genexpressie. We hebben iMOKA getest op vier klinische datasets: de classificatie van subtypes van borstkanker en de respons op chemotherapie van borst-, eierstokkanker en diffuus grootcellig B-cellymfoom (DLBCL). We ontdekken dat iMOKA functies heeft gevonden die nauwkeuriger zijn dan de klassieke bioinformatica-benaderingen, minder ruimte in beslag nemen, minder geheugen gebruiken, snellere looptijden hebben en op een computercluster of op een laptop kunnen worden uitgevoerd.


Inhoud

Moleculaire biofysica behandelt doorgaans biologische vragen die vergelijkbaar zijn met die in de biochemie en de moleculaire biologie, op zoek naar de fysieke onderbouwing van biomoleculaire verschijnselen. Wetenschappers op dit gebied doen onderzoek gericht op het begrijpen van de interacties tussen de verschillende systemen van een cel, inclusief de interacties tussen DNA, RNA en eiwitbiosynthese, evenals hoe deze interacties worden gereguleerd. Om deze vragen te beantwoorden wordt een grote verscheidenheid aan technieken gebruikt.

Fluorescerende beeldvormingstechnieken, evenals elektronenmicroscopie, röntgenkristallografie, NMR-spectroscopie, atoomkrachtmicroscopie (AFM) en kleine-hoekverstrooiing (SAS), zowel met röntgenstralen als met neutronen (SAXS/SANS), worden vaak gebruikt om structuren te visualiseren van biologische betekenis. Eiwitdynamiek kan worden waargenomen door neutronen-spin-echospectroscopie. Conformationele verandering in structuur kan worden gemeten met behulp van technieken zoals dubbele polarisatie-interferometrie, circulair dichroïsme, SAXS en SANS. Directe manipulatie van moleculen met behulp van een optisch pincet of AFM kan ook worden gebruikt om biologische gebeurtenissen te volgen waar krachten en afstanden op nanoschaal zijn. Moleculaire biofysici beschouwen complexe biologische gebeurtenissen vaak als systemen van op elkaar inwerkende entiteiten die b.v. via statistische mechanica, thermodynamica en chemische kinetiek. Door kennis en experimentele technieken uit een breed scala aan disciplines te putten, zijn biofysici vaak in staat om de structuren en interacties van individuele moleculen of complexen van moleculen direct te observeren, te modelleren of zelfs te manipuleren.

Naast traditionele (d.w.z. moleculaire en cellulaire) biofysische onderwerpen zoals structurele biologie of enzymkinetiek, omvat moderne biofysica een buitengewoon breed scala aan onderzoek, van bio-elektronica tot kwantumbiologie met zowel experimentele als theoretische hulpmiddelen. Het wordt steeds gebruikelijker dat biofysici de modellen en experimentele technieken die zijn afgeleid van de natuurkunde, maar ook van wiskunde en statistiek, toepassen op grotere systemen zoals weefsels, organen, [6] populaties [7] en ecosystemen. Biofysische modellen worden op grote schaal gebruikt bij de studie van elektrische geleiding in afzonderlijke neuronen, evenals bij analyse van neurale circuits in zowel weefsel als hele hersenen.

Medische fysica, een tak van de biofysica, is elke toepassing van de natuurkunde in de geneeskunde of de gezondheidszorg, variërend van radiologie tot microscopie en nanogeneeskunde. Natuurkundige Richard Feynman theoretiseerde bijvoorbeeld over de toekomst van nanogeneeskunde. Hij schreef over het idee van een medisch gebruik voor biologische machines (zie nanomachines). Feynman en Albert Hibbs suggereerden dat bepaalde reparatiemachines ooit zouden kunnen worden verkleind tot het punt dat het mogelijk zou zijn om (zoals Feynman het uitdrukte) "de dokter in te slikken". Het idee werd besproken in Feynman's essay uit 1959 Er is genoeg ruimte aan de onderkant. [8]

Sommige van de eerdere studies in de biofysica werden in de jaren 1840 uitgevoerd door een groep die bekend staat als de Berlijnse school van fysiologen. Onder de leden waren pioniers als Hermann von Helmholtz, Ernst Heinrich Weber, Carl F.W. Ludwig en Johannes Peter Müller. [9] Biofysica zou zelfs kunnen worden gezien als daterend uit de studies van Luigi Galvani.

De populariteit van het veld steeg toen het boek Wat is leven? door Erwin Schrödinger werd gepubliceerd. Sinds 1957 hebben biofysici zich georganiseerd in de Biophysical Society, die nu ongeveer 9.000 leden over de hele wereld heeft. [10]

Sommige auteurs, zoals Robert Rosen, bekritiseren de biofysica omdat de biofysische methode geen rekening houdt met de specificiteit van biologische fenomenen. [11]

Hoewel sommige hogescholen en universiteiten speciale afdelingen voor biofysica hebben, meestal op graduaatniveau, hebben velen geen biofysica-afdelingen op universitair niveau, maar hebben ze groepen in verwante afdelingen zoals biochemie, celbiologie, scheikunde, informatica, techniek, wiskunde, geneeskunde , moleculaire biologie, neurowetenschappen, farmacologie, natuurkunde en fysiologie. Afhankelijk van de sterke punten van een afdeling aan een universiteit zal verschillende nadruk worden gelegd op gebieden van de biofysica. Wat volgt is een lijst met voorbeelden van hoe elke afdeling haar inspanningen toepast op de studie van biofysica. Deze lijst is nauwelijks allesomvattend. Evenmin behoort elk studiegebied exclusief tot een bepaalde afdeling. Elke academische instelling maakt zijn eigen regels en er is veel overlap tussen departementen. [ citaat nodig ]

    en moleculaire biologie - Genregulatie, enkelvoudige eiwitdynamica, bio-energetica, patchklemming, biomechanica, virofysica. – ngstrom-resolutiestructuren van eiwitten, nucleïnezuren, lipiden, koolhydraten en complexen daarvan. en chemie - biomoleculaire structuur, siRNA, nucleïnezuurstructuur, structuur-activiteitsrelaties. – Neurale netwerken, biomoleculaire en drugsdatabases. – simulatie van moleculaire dynamica, moleculaire docking, kwantumchemie – sequentie-uitlijning, structurele uitlijning, voorspelling van eiwitstructuur – grafiek/netwerktheorie, populatiemodellering, dynamische systemen, fylogenetica. – biofysisch onderzoek dat de nadruk legt op geneeskunde. Medische biofysica is een vakgebied dat nauw verwant is aan de fysiologie. Het verklaart verschillende aspecten en systemen van het lichaam vanuit een fysiek en wiskundig perspectief. Voorbeelden zijn vloeistofdynamica van de bloedstroom, gasfysica van de ademhaling, bestraling bij diagnostiek/behandeling en nog veel meer. Biofysica wordt als preklinisch vak onderwezen in veel medische scholen, voornamelijk in Europa. – neurale netwerken experimenteel (brain slicing) en theoretisch (computermodellen), membraanpermittiviteit, gentherapie, tumoren begrijpen. en fysiologie - channelomics, biomoleculaire interacties, celmembranen, polyketiden. – negentropie, stochastische processen, en de ontwikkeling van nieuwe fysische technieken en instrumentatie evenals hun toepassing. – Het vakgebied van de kwantumbiologie past kwantummechanica toe op biologische objecten en problemen. Decoheredisomeren om tijdsafhankelijke basesubstituties op te leveren. Deze studies impliceren toepassingen in quantum computing. en landbouw

Veel biofysische technieken zijn uniek voor dit vakgebied. Onderzoeksinspanningen in de biofysica worden vaak geïnitieerd door wetenschappers die bioloog, scheikundige of fysicus van opleiding waren.


Wat is de biologische betekenis van het tellen van k-mer? - Biologie

Alle door MDPI gepubliceerde artikelen worden direct wereldwijd beschikbaar gesteld onder een open access licentie. Er is geen speciale toestemming nodig om het door MDPI gepubliceerde artikel geheel of gedeeltelijk te hergebruiken, inclusief figuren en tabellen. Voor artikelen die zijn gepubliceerd onder een open access Creative Common CC BY-licentie, mag elk deel van het artikel zonder toestemming worden hergebruikt, op voorwaarde dat het originele artikel duidelijk wordt geciteerd.

Feature Papers vertegenwoordigen het meest geavanceerde onderzoek met een aanzienlijk potentieel voor grote impact in het veld. Feature Papers worden ingediend op individuele uitnodiging of aanbeveling door de wetenschappelijke redacteuren en ondergaan peer review voorafgaand aan publicatie.

De Feature Paper kan ofwel een origineel onderzoeksartikel zijn, een substantiële nieuwe onderzoeksstudie waarbij vaak verschillende technieken of benaderingen betrokken zijn, of een uitgebreid overzichtsdocument met beknopte en nauwkeurige updates over de laatste vooruitgang in het veld dat systematisch de meest opwindende vooruitgang in de wetenschappelijke literatuur. Dit type paper geeft een blik op toekomstige onderzoeksrichtingen of mogelijke toepassingen.

Editor's Choice-artikelen zijn gebaseerd op aanbevelingen van de wetenschappelijke redacteuren van MDPI-tijdschriften van over de hele wereld. Redacteuren selecteren een klein aantal artikelen die recentelijk in het tijdschrift zijn gepubliceerd en waarvan zij denken dat ze bijzonder interessant zijn voor auteurs, of belangrijk zijn op dit gebied. Het doel is om een ​​momentopname te geven van enkele van de meest opwindende werken die in de verschillende onderzoeksgebieden van het tijdschrift zijn gepubliceerd.


Conclusies

Onze studie biedt een nuttig raamwerk voor de interpretatie van k-mer-benaderingen die worden toegepast op cel- of extrachromosomale elementen van het domein Archaea. Voor cellen zijn de globale topologieën gebaseerd op 5-mer-profielen of op fylogenie inconsistent. Op een fijner niveau tonen de resultaten echter de sterke invloed van fylogenetische relaties en van aanpassing aan omgevingsbeperkingen op 5-meersamenstellingen. Deze twee factoren zijn in belangrijke mate van elkaar afhankelijk en het respectieve gewicht van hun bijdrage varieert afhankelijk van de clade. Onze analyse benadrukte de mogelijkheid van differentiële aanpassing aan de omgevingsniche tussen chromosomaal DNA en extrachromosomaal element-DNA. Bovendien hebben we duidelijk verschillende patronen waargenomen, afhankelijk van het type en de grootte van het mobiele element. Voor mobiele elementen heeft co-evolutie met de gastheer een duidelijke invloed op hun 5-meersamenstelling. Het is echter opvallend dat virale en plasmide-families ook een specifieke afdruk behouden in hun 5-meer-profiel. Onze analyse stelde ons ook in staat om twee hostoverdrachtsgebeurtenissen te detecteren, maar uitsluitend recente, wat de snelle aanpassing van korte k-mer-profielen in een fluctuerende omgeving suggereert. Het hier waargenomen verschil in genoomsamenstelling tussen mobiele genetische elementen en hun gastheren suggereert dat het gebruik van op k-mer gebaseerde methoden om mobiele elementen in metagenomische gegevens te analyseren tot valse resultaten kan leiden. Onjuiste hostvoorspelling kan optreden [66], evenals gemiste detectie van geïntegreerde elementen tijdens MAG-reconstructie [67].

Onze resultaten vragen dus om voorzichtigheid bij het gebruik van k-mers voor de identificatie van mobiele elementen in metagenomica-gegevens, voor gastheervoorspelling van mobiele elementen en voor fylogenetische reconstructie, vooral voor voorouderlijke gebeurtenissen.


Referenties

Breitwieser FP, Lu J, Salzberg SL. Een overzicht van methoden en databases voor metagenomische classificatie en assemblage. Korte bio-informatie. 2017. https://doi.org/10.1093/bib/bbx120.

Salter SJ, Cox MJ, Turek EM, Calus ST, Cookson WO, Moffatt MF, Turner P, Parkhill J, Loman NJ, Walker AW. Reagens- en laboratoriumcontaminatie kunnen een kritische invloed hebben op sequentiegebaseerde microbioomanalyses. BMC Biol. 201412:87.

Thoendel M, Jeraldo P, Greenwood-Quaintance KE, Yao J, Chia N, Hanssen AD, Abdel MP, Patel R. Impact van verontreinigend DNA in amplificatiekits voor het hele genoom die worden gebruikt voor metagenomische shotgun-sequencing voor infectiediagnose. J Clin Microbiol. 201755:1789–801.

Salzberg SL, Breitwieser FP, Kumar A, Hao H, Burger P, Rodriguez FJ, Lim M, Quinones-Hinojosa A, Gallia GL, Tornheim JA, et al. Next-generation sequencing bij neuropathologische diagnose van infecties van het zenuwstelsel. Neurol Neuroimmunol Neuroinflamm. 20163:e251.

Brown JR, Bharucha T, Breuer J. Diagnose van encefalitis met behulp van metagenomica: toepassing van sequencing van de volgende generatie voor niet-gediagnosticeerde gevallen. J Inf Secur. 201876:225-40.

Mukherjee S, Huntemann M, Ivanova N, Kyrpides NC, Pati A. Grootschalige besmetting van microbiële isolaatgenomen door Illumina PhiX-controle. Staan Genomic Sci. 201510:18.

Dadi TH, Renard BY, Wieler LH, Semmler T, Reinert K. SLIMM: identificatie op soortniveau van micro-organismen uit metanomen. PeerJ. 20175:e3138.

Quince C, Walker AW, Simpson JT, Loman NJ, Segata N. Shotgun metagenomics, van bemonstering tot analyse. Nat Biotechnologie. 201735:833-44.

Wood DE, Salzberg SL. Kraken: ultrasnelle metagenomische sequentieclassificatie met behulp van exacte uitlijningen. Genoom Biol. 201415:R46.

Flajolet P, Fusy É, Gandouet O, Meunier F. HyperLogLog: de analyse van een bijna optimaal algoritme voor kardinaliteitsschatting. In: AofA: analyse van algoritmen 2007-06-17 Juan les Pins. Frankrijk: Discrete wiskunde en theoretische informatica 2007. p. 137-56.

Heule S, Nunkesser M, Hall A. HyperLogLog in de praktijk: algoritmische engineering van een ultramodern algoritme voor kardinaliteitsschatting. In de werkzaamheden van de 16e Internationale Conferentie over het uitbreiden van databasetechnologie. ACM 2013. p. 683-692.

Ertl O: Nieuwe kardinaliteitsschattingsmethoden voor HyperLogLog-schetsen. arXiv:170607290 2017.

Brister JR, Ako-Adjei D, Bao Y, Blinkova O. NCBI virale genomen bron. Nucleïnezuren Res. 201543:D571–7.

Irber Junior LC, Bruine CT. Efficiënte schatting van de kardinaliteit voor k-meren in grote datasets voor DNA-sequencing. bioRxiv. 2016.

McIntyre ABR, Ounit R, Afshinnekoo E, Prill RJ, Henaff E, Alexander N, Minot SS, Danko D, Foox J, Ahsanuddin S, et al. Uitgebreide benchmarking- en ensemblebenaderingen voor metagenomische classificaties. Genoom Biol. 201718:182.

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basis zoekfunctie voor lokale uitlijning. J Mol Biol. 1990215:403-10.

Huson DH, Auch AF, Qi J, Schuster SC. MEGAN-analyse van metagenomische gegevens. Genoom onderzoek. 200717:377-86.

Buchfink B, Xie C, Huson DH. Snelle en gevoelige eiwituitlijning met DIAMOND. Nat methoden. 201512:59-60.

Sobih A, Tomescu AI, Mäkinen V. MetaFlow: metagenomische profilering op basis van volledige genoomdekkingsanalyse met minimale kostenstromen. In: Onderzoek in Computational Molecular Biology 2016. p. 111–21. Collegenota's in de informatica.

Ounit R, Wanamaker S, Close TJ, Lonardi S. CLARK: snelle en nauwkeurige classificatie van metagenomische en genomische sequenties met behulp van discriminerende k-meren. BMC Genomics. 201516:236.

Ounit R, Lonardi S. Hogere classificatiegevoeligheid van korte metagenomische uitlezingen met CLARK-S. Bio-informatica. 201632:3823-5.

Ames SK, Hysom DA, Gardner SN, Lloyd GS, Gokhale MB, Allen JE. Schaalbare metagenomische taxonomieclassificatie met behulp van een referentiegenoomdatabase. Bio-informatica. 201329:2253-60.

Rosen GL, Reichenberger ER, Rosenfeld AM. NBC: de naïeve Bayes-classificatietool-webserver voor taxonomische classificatie van metagenomische reads. Bio-informatica. 201127:127–9.

Freitas TA, Li PE, Scholz MB, Chain PS. Nauwkeurige op lezen gebaseerde metagenoomkarakterisering met behulp van een hiërarchische reeks unieke handtekeningen. Nucleïnezuren Res. 201543:e69.

Truong DT, Franzosa EA, Tickle TL, Scholz M, Weingart G, Pasolli E, Tett A, Huttenhower C, Segata N. MetaPhlAn2 voor verbeterde metagenomische taxonomische profilering. Nat methoden. 201512:902-3.

Darling AE, Jospin G, Lowe E, FAt M, Bik HM, Eisen JA. PhyloSift: fylogenetische analyse van genomen en metagenomen. PeerJ. 20142:e243.

Simner PJ, Miller S, Carroll KC. Inzicht in de beloften en hindernissen van metagenomische sequencing van de volgende generatie als diagnostisch hulpmiddel voor infectieziekten. Clin Infect Dis. 201866:778–88.

Zhang C, Cleveland K, Schnoll-Sussman F, McClure B, Bigg M, Thakkar P, Schultz N, Shah MA, Betel D. Identificatie van microbioom met een lage abundantie in klinische monsters met behulp van sequencing van het hele genoom. Genoom Biol. 201516:265.

Breitwieser FP, Salzberg SL. Pavian: interactieve analyse van metagenomica-gegevens voor microbiomics en identificatie van pathogenen. BioRxiv. 2016.

Buchfink B, Xie C, Huson DH. Snelle en gevoelige eiwituitlijning met DIAMOND. Nat methoden. 201412:59-60.

Huson DH, Beier S, Flade I, Górska A, El-Hadidi M, Mitra S, Ruscheweyh HJ, Tappu R. MEGAN community-editie-interactieve verkenning en analyse van grootschalige microbioomsequentiegegevens. PLoS Comput Biol. 201612 (6):e1004957.

Xu Y, Chen Y-C, Liu T, Yu CH, Chiang T-Y, Hwang CC. Effecten van GC-bias in sequentiegegevens van de volgende generatie op de novo-genoomassemblage. PLoS Een. 20138(4):e62856.

Breitwieser FP, Baker DN, Salzberg SL. Github-repository van KrakenUniq https://github.com/fbreitwieser/krakenuniq. Geraadpleegd op 18 oktober 2018.

Breitwieser FP, Baker DN, Salzberg SL. Github-repository van KrakenUniq-manuscriptcode. https://github.com/fbreitwieser/krakenuniq-manuscript-code. Geraadpleegd op 18 oktober 2018.

McIntyre ABR, Ounit R, Afshinnekoo E, Prill RJ, Hénaff E, Alexander N, Minot SS, Danko D, Foox J, Ahsanuddin S, et al. IMMSA-datasets gebruikt in McIntyre et al. https://ftp-private.ncbi.nlm.nih.gov/nist-immsa/IMMSA/. Geraadpleegd op 18 oktober 2018.

Salzberg SL, Breitwieser FP, Kumar A, Hao H, Burger P, Rodriguez FJ, Lim M, Quinones-Hinojosa A, Gallia GL, Tornheim JA, et al. Next-generation sequencing bij neuropathologische diagnose van infecties van het zenuwstelsel BioProject https://www.ncbi.nlm.nih.gov/bioproject/PRJNA314149/. Geraadpleegd op 18 oktober 2018.

Breitwieser FP, Baker DN, Salzberg SL. Gegevenssets gegenereerd uit uitlezingen die zijn bemonsterd uit experimenten in SRA gekoppeld aan bacteriële RefSeq-genomen ftp://ftp.ccb.jhu.edu/pub/software/krakenuniq/SraSampledDatasets. Geraadpleegd op 18 oktober 2018.


Waarom Biologische Wetenschappen studeren?

Je krijgt les in lezingen, workshops en tutorials en leert praktische vaardigheden in laboratoriumsessies. Natuurlijk krijg je gedetailleerde vakkennis van toonaangevende onderzoekers, maar je zult ook overdraagbare vaardigheden opdoen op het gebied van tijdbeheer, groepswerk, schrijven en kritisch denken en je zult groeien in vertrouwen in je presentatievaardigheden.

Naast het verwerven van deze vaardigheden, die uw inzetbaarheid zullen vergroten, kunt u tijdens uw studie misschien ook een stage lopen bij een industriële medewerker.

Lees onze vijf redenen om Biologische Wetenschappen te studeren voor meer informatie over waarom je ervoor zou kunnen kiezen om deze cursus te studeren.


Wat is de biologische betekenis van het tellen van k-mer? - Biologie

Vind gecentraliseerde, vertrouwde inhoud en werk samen rond de technologieën die u het meest gebruikt.

Verbind en deel kennis binnen één locatie die gestructureerd en gemakkelijk te doorzoeken is.

Universitair docent, afdeling Computerwetenschappen en Engineering, Shahjalal University of Science and Technology

graag veel plezier. Hou je niet van gezelligheid, houd dan afstand van mij! Omdat het beter is voor ons allebei!

Ik ben echter begin 2017 geslaagd voor mijn bachelor op het gebied van: Computer Wetenschappen en Bouwkunde van Shahjalal Universiteit voor Wetenschap en Technologie, Sylhet, Bangladesh.

Later, eind 2017, werd ik aangesteld als docent op dezelfde afdeling. In het laatste deel van 2019 werd ik gepromoveerd tot Assistent professor.

Ik geniet echt van mijn vak. l hou heel veel van mijn studenten. Om meer over mij te weten, kunt u hier terecht. Voel je vrij om je lijnen te laten vallen op: enam [hyphen] cse [at] sust [dot] edu


Discussies

In dit artikel hebben we Simka geïntroduceerd, een nieuwe methode voor het berekenen van een verzameling ecologische afstanden, gebaseerd op k-mer samenstelling, tussen vele grote metagenomische datasets. Dit werd mogelijk gemaakt dankzij de Multiple k-mer Count-algoritme (MKC), een nieuwe strategie die telt k-mers met state-of-the-art tijd, geheugen en schijfprestaties. De nieuwigheid van deze strategie is dat deze tegelijkertijd telt k-mers uit een willekeurig aantal datasets, en dat het resultaten vertegenwoordigt als een stroom gegevens, waarbij tellingen in elke dataset worden gegeven, k-meer per k-meer.

De afstandsberekening heeft een tijdcomplexiteit in O(W × N 2 ), met W is het aantal dat als onderscheiden wordt beschouwd k-mers en N is het aantal invoermonsters. N is meestal beperkt tot enkele tientallen of honderden en kan niet worden verminderd. Echter, W kan in de honderden miljarden lopen. Het solide filter zorgt al voor een grote snelheidsverbetering zonder de resultaten te beïnvloeden, althans op de tests die zijn uitgevoerd op de HMP-datasets. De HMP-dataset is echter niet representatief voor alle metagenomica-projecten en in sommige gevallen is dit filter misschien niet gewenst, bijvoorbeeld in het geval van monsters met een lage dekking of bij het uitvoeren van kwalitatieve studies waarbij de zeldzame soorten meer impact hebben. Het is trouwens opmerkelijk dat Simka grote datasets kan schalen, zelfs als het vaste filter is uitgeschakeld, zoals weergegeven in het prestatiegedeelte. Interessant is dat, wanneer toegepast op een dataset met lage dekking, namelijk de Global Ocean Sampling (Yooseph et al., 2007), Simka in staat was om de essentiële onderliggende biologische structuur vast te leggen met of zonder de k-meer vaste filter (zie Fig. S6). Een belangrijke nieuwe uitdaging is echter om de impact van toegepaste drempels nauwkeurig te meten, samen met de keuze van: k, afhankelijk van de kenmerken van de invoergegevensset, zoals community-complexiteit en sequencing-inspanning.

Aangezien metagenomische projecten voortdurend groeien, is het belangrijk om de mogelijkheid te bieden om nieuwe sample(s) toe te voegen aan een set waarvoor al afstanden zijn berekend, zonder de hele berekening opnieuw te beginnen. Het is eenvoudig om het MKC-algoritme aan een dergelijke bewerking aan te passen, maar de stap van het samenvoegen en de afstandsberekening moeten opnieuw worden uitgevoerd. Het toevoegen van een nieuw monster wijzigt echter niet eerder berekende afstanden en vereist slechts het berekenen van een enkele lijn van de afstandsmatrix, het kan dus in lineaire tijd worden bereikt.

De motivatie voor het berekenen van een verzameling afstanden in plaats van slechts één is tweeledig: verschillende afstanden leggen verschillende kenmerken van de gegevens vast (Koren et al., 2013 Legendre & De Cáceres, 2013 Pavoine et al., 2011) en alle afstanden berekend door Simka hebben gemeen dat ze additief zijn k-mers en kunnen dus gelijktijdig worden berekend met hetzelfde algoritme. Om het eerste punt te ondersteunen, hebben we gezien dat Mash slecht presteerde bij het beschouwen van HMP-monsters per lichaamslocatie, aangezien deze tool in tegenstelling tot Simka alleen rekening kan houden met aanwezigheids-/afwezigheidsinformatie en niet met relatieve abundanties. In feite zijn verschillen in relatieve abundanties subtielere signalen die vaak de kern vormen van interessante biologische inzichten in vergelijkende genomics-onderzoeken. Zo hebben Boutin et al. (2015) toonden aan dat de structuur tussen verschillende monsters van longziektepatiënten zichtbaar was met de Bray Curtis (kwantitatieve) afstand en afwezig was met de kwalitatieve Jaccard-afstand, wat de rol benadrukt van de abundanties van bepaalde pathogene microben in de ziekte. In andere onderzoeken werd aangetoond dat de reactie van bacteriële gemeenschappen op stress of veranderingen in de omgeving wordt aangedreven door de toename van de overvloed aan enkele zeldzame taxa (Shade et al., 2014 Genitsaris et al., 2015 Coveley, Elshahed & Youssef, 2015 Gomez- Alvarez et al., 2016).

Een opmerkelijk belangrijk punt van ons voorstel is om de bèta-diversiteit te schatten met behulp van k-mers diversiteit alleen. We zijn ons ervan bewust dat dit kan leiden tot vertekende schattingen van de bètadiversiteiten die zijn gedefinieerd op basis van gegevens over de samenstelling van soorten. De vertekening kan twee kanten op: aan de ene kant zullen gedeelde genomische regio's of horizontale overdrachten tussen soorten de k-mer-gebaseerde afstand naar beneden. Aan de andere kant, genoomgrootte heterogeniteit en k-meer samenstellingsvariatie langs een microbe-genoom zal de k-mer-gebaseerde afstand naar boven. Op soortensamenstelling gebaseerde benaderingen zijn echter niet haalbaar voor grote read-sets van complexe ecosystemen (bodem, zeewater) vanwege het gebrek aan goede referenties en/of schaalbeperkingen voor het in kaart brengen. Bovendien heeft ons voorstel het voordeel dat het een de novo benadering, onbevooroordeeld door inconsistentie en onvolledigheid van referentiebanken. Ten slotte laten numerieke experimenten op de HMP-datasets zien dat: k-mer-gebaseerde en taxonomische afstanden zijn goed gecorreleerd (R > 0,8 voor k ≥ 21) en bijgevolg dat Simka dezelfde biologische structuur terugkrijgt als taxonomische studies.

Toch is er ruimte voor verbetering van de Simka-afstanden. Onlangs hebben Břinda, Sykulski & Kucherov (2015) bijvoorbeeld aangetoond dat zaden op afstand de k-mer-gebaseerde metagenomische classificatie verkregen met de populaire tool Kraken (Wood & Salzberg, 2014). Zaden op afstand kunnen worden gezien als niet-aangrenzend k-mers die daarom een ​​bepaald aantal mismatches toestaan ​​bij het vergelijken ervan. Minder streng zijn bij het vergelijken k-mers kunnen leiden tot nauwkeurigere afstanden, vooral voor virale metagenomische fracties die veel gemuteerde sequenties bevatten.


Bekijk de video: Peppes Pasta - Fagotto di pasta met ricotta en parmaham (Januari- 2022).