Informatie

9.4: Aannames voor computationele genidentificatie - biologie


De algemene aannames voor computationele genidentificatie zijn dat exons worden afgebakend door een sequentie AG aan het begin van het exon en een sequentie van GT aan het einde van het exon. (De meeste van deze ideeën zijn te zien in figuur 9.3) Deze aannames zullen worden verwerkt in de meer complexe HMM's die hieronder worden beschreven.


Genidentificatie voor het risico op terugval bij patiënten met stadium I longadenocarcinoom: een gecombineerde methodologie van genexpressieprofilering en computationele gennetwerkanalyse

Risicobeoordeling en behandelingskeuze blijft een uitdaging bij vroege niet-kleincellige longkanker (NSCLC). Het doel van deze studie was om nieuwe genen te identificeren die betrokken zijn bij het risico op vroege terugval (ER) in vergelijking met geen terugval (NR) bij patiënten met gereseceerd longadenocarcinoom (AD) met behulp van een combinatie van high-throughput-technologie en computationele analyse. We identificeerden 18 patiënten (n.13 NR en n.5 ER) met stadium I AD. Bevroren monsters van patiënten in ER, NR en overeenkomstige normale long (NL) werden onderworpen aan Microarray-technologie en kwantitatieve PCR (Q-PCR). Een computeranalyse van het genennetwerk werd uitgevoerd om voorspellende genen te selecteren. Een onafhankelijke set van 79 AD's stadium I-monsters werd gebruikt om geselecteerde genen te valideren met Q-PCR. Uit microarray-analyse selecteerden we 50 genen, met behulp van de vouwveranderingsverhouding van ER versus NR. Ze werden zowel in pool als individueel gevalideerd in patiëntenmonsters (ER en NR) door Q-PCR. Veertien verhoogde en 25 verlaagde genen toonden een overeenstemming tussen twee methoden. Ze werden gebruikt om een ​​computationele gennetwerkanalyse uit te voeren die 4 verhoogde (HOXA10, CLCA2, AKR1B10, FABP3) en 6 verlaagde (SCGB1A1, PGC, TFF1, PSCA, SPRR1B en PRSS1) genen identificeerde. Bovendien hebben we in een onafhankelijke dataset van ADs-monsters aangetoond dat zowel hoge FABP3-expressie als lage SCGB1A1-expressie geassocieerd was met een slechtere ziektevrije overleving (DFS). Onze resultaten geven aan dat het mogelijk is om te definiëren, door middel van genexpressie en computationele analyse , een kenmerkende genprofilering van patiënten met een verhoogd risico op terugval, dat een hulpmiddel kan worden bij de selectie van patiënten voor adjuvante therapie.

trefwoorden: kanker systeembiologie computationele biologie genexpressie profilering gennetwerken longadenocarcinoom.

Belangenconflict verklaring

De auteurs verklaren dat ze geen concurrerende belangen hebben.

Figuren

Afbeelding 1. Microarray-resultaten

Afbeelding 1. Microarray-resultaten

Figuur 2. Validatie-experimenten voor de verhoogde…

Figuur 2. Validatie-experimenten voor de verhoogde en verlaagde geselecteerde genen (oranje ruit), Q-PCR-pool…

Figuur 3. Computationele analyse voor verhoogde en...

Figuur 3. Computationele analyse voor verhoogde en verlaagde genen

Figuur 4. Boxplots en Kaplan-Meier-schattingen…

Figuur 4. Boxplots en Kaplan-Meier-schattingen voor ziektevrije overleving (DFS) voor een onafhankelijke patiënt...


Variantdetectie in exome-sequencingprojecten

Er zijn NGS-methoden ontwikkeld die massaal parallelle DNA-sequencing [4] benutten en grootschalige sequencing-projecten mogelijk maken die toepassingen hebben die variëren van het catalogiseren van genetische diversiteit op populatieniveau [3] tot het identificeren van een ziekteverwekkende variant in een enkel individu, wat zou kunnen leiden tot gerichte therapie [5]. De meeste grootschalige medische sequencing-projecten tot nu toe waren gericht op het eiwitcoderende gebied van het genoom (het 'exoom'). Dit is deels veroorzaakt door de kosten (sequencing van het hele genoom is nog steeds relatief duur voor grote steekproefomvang), biologie (de meeste bekende voorbeelden van ziekteveroorzakende varianten veranderen de eiwitsequentie) en praktische overwegingen (er is momenteel weinig consensus over de interpretatie van niet -coderende genetische variatie).

Er zijn verschillende methoden ontwikkeld om een ​​subset van het genoom voor sequencing te selecteren, maar alleen vaste-fasehybridisatie [6] en vloeistof-fasehybridisatie [7] zijn commercieel toegepast voor het selecteren van het gehele menselijke exoom als doelwit voor sequencing. Na doelverrijking wordt sequencing uitgevoerd met behulp van verschillende NGS-technologieën, waaronder omkeerbare terminatorreacties, sequencing door ligatie, pyrosequencing en realtime sequencing [8]. Deze genereren miljoenen korte sequentiekopieën, of reads, verdeeld over de gedeelten van het referentiegenoom die het doelwit waren. Hoewel er talloze algoritmen zijn ontwikkeld om NGS-uitlezingen af ​​te stemmen op het referentiegenoom (onder andere Bowtie, Short Oligonucleotide Analysis Package (SOAP) en Blat-like Fast Accurate Search Tool (BFAST), [9]), gebruiken de meeste sequencingprojecten Mapping and Assembly met Qualities (MAQ) [10] of de Burroughs-Wheeler Aligner (BWA) [11] vanwege rekenefficiëntie en compatibiliteit met meerdere platforms. De resulterende uitgelijnde sequentie wordt vervolgens geïnspecteerd op posities die variëren van de menselijke referentiesequentie en worden geïdentificeerd als SNP's.

Net als bij afstemmingstools zijn er veel algoritmen ontwikkeld om een ​​hoogwaardige set varianten in NGS-projecten te identificeren. De meeste huidige SNP-ontdekkingstools zijn gebaseerd op de berekening van genotypewaarschijnlijkheid op elke positie [10], gedefinieerd als de waarschijnlijkheid van het observeren van de gegeven sequentiegegevens (basisaanroepen en basiskwaliteitsscores) op die positie, gegeven een reeks onderliggende genotypen. Bayesiaanse posterieure kansen kunnen vervolgens worden berekend voor elk potentieel genotype [12]. Twee populaire tools voor SNP-detectie in NGS-gegevens die gemakkelijk kunnen worden opgenomen in pijplijnen voor gegevensverwerking, zijn SAMtools [13] en de Genome Analysis Toolkit UnifiedGenotyper [14, 15]. Er zijn andere tools ontwikkeld om aspecten van specifieke soorten NGS-technologieën te benutten (bijvoorbeeld het optimaliseren van schattingen van de basiskwaliteit van pyrosequenties) [16-18] of sequentiegegevens met een lage dekking [18, 19].

Door de juiste tool toe te passen kan men een reeks posities in de sequentiegegevens identificeren die verschillen van de referentiesequentie, samen met een indicatie van de kwaliteit van het genotype. Doorgaans worden per exoom 15.000 tot 20.000 varianten ontdekt, waarbij de variatie in dit aantal voortkomt uit verschillende exoomdoeldefinities [20–23] (een doelset met minder genen of exons zou naar verwachting minder totale varianten hebben) en voorouders (individuen van Afrikaanse afkomst hebben meer varianten per exoom dan individuen van Europese afkomst [3], bijvoorbeeld). Daarentegen worden ongeveer 3 miljoen SNP's per genoom ontdekt met behulp van sequencing van het hele genoom [24] vanwege het grotere sequencing-doel (sequencing van het hele genoom richt zich op ongeveer 3 Gb, terwijl het typische exoom-doel ongeveer 33 Mb is). Om de verwerking en het delen van deze grote datasets te vergemakkelijken, is het Variant Call Format (VCF) tekstbestandsformaat [3] in opkomst als het geaccepteerde formaat voor het rapporteren van sequentievariaties van NGS-projecten, en het SAM/BAM-bestandsformaat wordt routinematig gebruikt voor opslaan en delen van onbewerkte NGS-gegevens [13].

Uitdagingen voor het ontdekken van varianten in exome-sequencingprojecten

Omdat zelfs een verandering van een enkel basenpaar kan worden geassocieerd met ziekte, moeten SNP-ontdekkingsalgoritmen op robuuste wijze onderscheid maken tussen echte variatie en sequentiefouten. Deze uitdaging wordt vergroot in exome sequencing-projecten, waarbij het ontdekken van zeldzame varianten vaak het doel is. NGS heeft een inherent hoger foutenpercentage per basis dan Sanger-sequencing [25], maar er wordt algemeen aangenomen dat het deze fouten compenseert met een veel hogere dekking (de meeste NGS-experimenten voor ziekte-associatie genereren een gemiddelde van meer dan 20- tot 30-voudige dekking ). Ondanks deze dekkingsgraad kan het hogere foutenpercentage van NGS echter vals-positieve associaties introduceren als gevallen en controles verschillende dekkingsdiepten hebben [26]. In grootschalige sequencingprojecten die gericht zijn op het ontdekken van zeldzame varianten die verband houden met complexe ziekten, zou differentiële dekking tussen gevallen en controles een van de kwaliteitscontrolestatistieken (van mogelijk veel) moeten zijn, maar een gestandaardiseerde kwaliteitscontrolebenadering van NGS-gegevens is nog niet ontstaan.


Identificatie en functionele analyse van genregulerende sequenties die interageren met colorectale tumoronderdrukkers

Verschillende tumorsuppressors bezitten genregulerende activiteit. Hier beschrijven we hoe promotor- en promotor/enhancer-reporterassays kunnen worden gebruikt om de genregulerende activiteit van een colorectale tumorsuppressoreiwitten van mogelijke doelwitgenen te karakteriseren. In het eerste deel wordt een bioinformatische benadering voorgesteld om relevante genregulerende regio's van potentiële doelwitgenen te identificeren. In het tweede deel wordt gedemonstreerd hoe de functionele test moet worden voorbereid en uitgevoerd. We leggen uit hoe de bioinformatisch geïdentificeerde genregulerende regio's in luciferase-reporterplasmiden kunnen worden gekloneerd door het gebruik van de snelle en efficiënte In-Fusion-kloneringsmethode, en hoe tijdelijke transfecties van Caco-2-darmkankercellen uitvoeren met de geproduceerde luciferasereporterplasmiden met behulp van polyethyleenimine (PEI). Er wordt een plan gepresenteerd waarin wordt beschreven hoe de luciferase-expressietest moet worden opgezet en uitgevoerd. De gepresenteerde luciferase/β-galactosidase (Dual Light)-test is een zeer gevoelige test die kleine veranderingen in de activiteit van de promotor/versterker kan volgen en omvat een interne controle die de transfectie-efficiëntie bewaakt.

trefwoorden: CDX2 Enhancer GPA33 Luciferase Promoter Promotorreportertest Transcriptiefactor Transfectie.


Discussie

Hoewel de sequentie van het menselijk genoom al geruime tijd beschikbaar is, is ons vermogen om de regio's die de genexpressie regelen in kaart te brengen nog beperkt. De situatie lijkt te verbeteren als een functie van kleinere genoomgrootte. Inderdaad, in de Drosophila vroege segmentatienetwerk, CRM's kunnen worden voorspeld op basis van bekende voorbeelden [10, 11]. In de gist Saccharomyces cerevisiae, met een veel kleiner genoom, is het mogelijk om nog een stap verder te gaan en de expressie van genen alleen te voorspellen op basis van stroomopwaartse sequenties [36]. Hier concentreren we ons op de computationele detectie van CRM's in het menselijk genoom, en daarom levert dit werk een bijdrage aan het overbruggen van deze kloof.

ModuleMiner detecteert CRM's door als input een set van mede tot expressie gebrachte genen te nemen, in de veronderstelling dat een subset hiervan mede gereguleerd is, en op zoek naar een terugkerend patroon van (computationeel voorspelde) TFBS. De voordelen van deze aanpak zijn dat er geen bekende voorbeelden voor nodig zijn en dat het een voorspelling van een waarschijnlijke functie voor de gedetecteerde CRM's mogelijk maakt.

ModuleMiner is qua omvang vergelijkbaar met ModuleSearcher [20, 29] en CREME [19]. Het verschilt van deze eerdere benaderingen doordat ModuleMiner de specificiteit voor de gegeven set van mede tot expressie gebrachte genen maximaliseert door een optimalisatie van het hele genoom uit te voeren. ModuleMiner optimaliseert inderdaad de gecombineerde rangschikking van de gegeven genenset in een rangschikking van het volledige genoom. Bovendien maakt deze benadering vergelijking mogelijk tussen TRM's met verschillende parameters (bijvoorbeeld maximale CRM-lengte en aantal PWM's in de TRM). Daarom kan ModuleMiner over deze parameters optimaliseren, en daarom elimineert onze aanpak effectief de noodzaak voor parameters die vereist waren door eerdere benaderingen.

Er zijn andere algoritmen ontwikkeld die tot doel hebben vergelijkbare CRM's te detecteren in een set van gezamenlijk tot expressie gebrachte genen die (in tegenstelling tot de hierboven beschreven benaderingen) geen bibliotheek van PWM's gebruiken [21, 22, 30, 37]. In plaats daarvan, en naast het optimaliseren van de combinatie van motieven, optimaliseren deze algoritmen de motieven zelf. Daarom proberen deze methoden een probleem op te lossen met een aanzienlijk grotere complexiteit, wat resulteert in lagere prestaties, zoals wordt bevestigd door onze vergelijking met benchmarkgegevens. Gezien de extreem slechte prestaties van motiefdetectiemethoden in andere organismen dan gist [38], hebben we ervoor gekozen om motiefoptimalisatie te omzeilen door experimenteel bepaalde PWM's te gebruiken. Merk op dat deze beslissing het zoeken niet noodzakelijkerwijs beperkt tot bekende PWM's, omdat er ook bibliotheken met computationeel voorspelde PWM's beschikbaar zijn (bijvoorbeeld de phylofacts PWM-bibliotheek [39]). Bovendien zijn we van mening dat met de opkomst van de eiwitbindende microarray-technologie [40], PWM's van hoge kwaliteit binnenkort beschikbaar zullen komen voor een groot deel van het menselijke transcriptiefactorrepertoire. Hoewel de momenteel beschikbare bibliotheken van experimentele PWM's een hoge redundantie vertonen en PWM's van lage kwaliteit kunnen bevatten, is onze nieuwe benadering van het clusteren van vergelijkbare TRM's in staat om redundante PWM's te groeperen, en onze validaties tonen aan dat in veel gevallen een combinatie van vijf experimentele PWM's voldoende kan vastleggen informatie van een CRM om acceptabele genoombrede specificiteitsniveaus te verkrijgen.

ModuleMiner voert de voorspelde CRM's en een TRGM uit. Deze TRGM kan worden beschouwd als een zak PWM's (geselecteerd uit TRANSFAC en JASPAR), met een gewicht dat aan elke PWM is gekoppeld. Daarom voorspelt deze TRGM niet alleen de transcriptiefactoren die functioneren in het onderzochte proces, maar maakt het ook een beoordeling mogelijk van het relatieve belang van elk van deze transcriptiefactoren.

TRGM's bevatten geen ruimtelijke relaties tussen TFBS's (behalve de totale grootte van de CRM's en een Booleaanse parameter die aangeeft of verschillende bindingsplaatsen elkaar kunnen overlappen). Hoewel bekend is dat er bepaalde ruimtelijke relaties bestaan ​​tussen transcriptiefactoren die samenwerken (bijvoorbeeld [41, 42]), hebben we geen rapporten gevonden die erop wijzen dat dit eerder regel dan uitzondering is. Daarom redeneerden we dat dergelijke relaties niet hard gecodeerd moesten worden in de TRGM's, maar eerder duidelijk zouden worden door inspectie van de voorspelde CRM's. Bij inspectie van de voorspelde CRM's die hierboven zijn gepresenteerd, kwamen dergelijke ruimtelijke relaties niet naar voren.

Onze methode voor het scoren van een sequentie met behulp van een TRM of TRGM (zie Materialen en methoden hieronder) houdt geen rekening met homotypische clustering van TFBS's (zoals verborgen op Markov-modellen gebaseerde methoden doen [15, 17, 43]). Deze coöperatieve binding van één transcriptiefactor kan echter in ons raamwerk worden gemodelleerd door de constructie van een TRM of TRGM die meerdere instanties van dezelfde PWM bevat. Daarom, als meerdere instanties van een specifieke transcriptiefactor belangrijk zijn voor de regulatie van een set van co-gereguleerde genen, dan wordt dit dienovereenkomstig weergegeven in het optimale model. Wanneer ModuleMiner bijvoorbeeld wordt toegepast op de strak tot co-expressie gebrachte set gladde spiermarkers, komt de transcriptiefactor SRF twee of drie keer voor in elk van de TRM's in de resulterende TRGM, wat een uitgebreide samenwerking suggereert tussen SRF-bindingsplaatsen voor gladde spierspecifieke transcriptie regulatie. Daarentegen komen de SMAD4, SP1 en ATF3 PWM's precies één keer voor in 97,5% van de TRM's (SMAD4 en SP1 komen twee keer voor in respectievelijk 1,5% en 1% van de TRM's).

ModuleMiner houdt op twee manieren rekening met de genomische achtergrondsequentie. Ten eerste wordt een achtergrondmodel van de derde orde gebruikt bij het annoteren van vermeende TFBS'en. Ten tweede selecteert onze optimalisatiestrategie de TRM (of TRGM) die de gegeven genen (sequenties) optimaal scheidt van alle andere genen in het genoom. Daarom corrigeert ons systeem zowel voor lokale sequentie-eigenschappen (door het derde-orde achtergrondmodel) als voor meer globale sequentie-eigenschappen (door te selecteren tegen combinaties van TFBS's die onafhankelijk van de gegeven sequenties voorkomen).

We hebben alle CNS's tot 10 kb 5' van de TSS in onze pijplijn opgenomen. Hoewel deze keuze inherent arbitrair is, wordt ze gemotiveerd door de volgende argumenten. Ten eerste kunnen sequenties 3' van de TSS translatieregulerende signalen bevatten, die we hier niet willen modelleren. Ten tweede kunnen potentiële regulerende sequenties ver stroomopwaarts moeilijk toe te wijzen zijn aan een doelgen. Ten derde is het selecteren van 10 kb 5' van de TSS waardevol gebleken in onze vorige studie [20], en anderen hebben soortgelijke keuzes gemaakt [44]. In een eerdere studie, waarin CRM's op een onbevooroordeelde manier werden voorspeld over het volledige menselijke genoom [8], werd aangetoond dat CRM's sterk uitgeput zijn tussen 10 kb en 30 kb 5' van de TSS.

Het validatieraamwerk dat we gebruiken, dat genoombrede ranking combineert met LOOCV, zou ook nuttig kunnen zijn bij het evalueren of vergelijken van hypothesen met betrekking tot de werkingsprincipes van transcriptieregulatie, en kan in dit opzicht worden beschouwd als vergelijkbaar in reikwijdte met CodeFinder [24]. In dit werk worden twee van dergelijke tests impliciet uitgevoerd: CRM's die een weefselspecifiek expressiepatroon aansturen, worden vergeleken met CRM's die een expressiepatroon voor embryonale ontwikkeling aansturen en door de drie sets vermeende TFBS's te vergelijken (bijvoorbeeld figuren 1, 3j en 4b) het belang van het behoud van bindingsplaatsen wordt geëvalueerd, evenals de impact van een correctie voor verschillen in TSS's tussen mens en muis.

De constructie van een hoogwaardige set van gecoreguleerde genen die betrokken zijn bij een bepaald proces dat wordt bestudeerd, is niet altijd eenvoudig. In dit opzicht is robuustheid tegen ruis in een reeks vermoedelijke mede tot expressie gebrachte genen zeer wenselijk in een algoritme om vergelijkbare CRM's te detecteren. We vonden dat ModuleMiner zeer robuust was voor de kwaliteit van deze input-genenset. In onze experimenten met markergenen voor gladde spieren hebben we inderdaad waargenomen dat ModuleMiner in staat was om het juiste signaal op te pikken, zelfs wanneer slechts 10 van de 50 bepaalde genen echt gecoreguleerd zijn (Figuur 2). Deze eigenschappen van ModuleMiner hebben ons ertoe aangezet om het algoritme toe te passen op genensets die zijn verkregen door het clusteren van microarray-gegevens. In negen van de tien microarray-clusters slaagde ModuleMiner erin om vergelijkbare CRM's te vinden in een subset van de genen. Het is misschien niet verwonderlijk dat ModuleMiner een kritische massa van gecoreguleerde genen nodig heeft om vergelijkbare CRM's te detecteren. Dit minimaal vereiste aantal gecoreguleerde genen is echter voldoende klein om toepassing van het algoritme niet uit te sluiten. Dit wordt zowel geïllustreerd door onze resultaten verkregen op de gladde spiergenen (Figuur 2) als door de succesvolle CRM-detectie in twee sets met kleine hartontwikkelingsgenen (Tabel 3).

Toepassing van ModuleMiner op de markergenen voor gladde spieren resulteerde in CRM's met meerdere bindingsplaatsen voor SRF en met enkele bindingsplaatsen voor SMAD4, SP1 en ATF3. Van zowel SRF als SP1 is aangetoond dat ze een rol spelen bij het reguleren van de specifieke expressie van gladde spieren [27]. Bovendien zijn SMAD's effectoren van de transformerende groeifactor-β-signaleringsroute en is aangetoond dat ze samenwerken met SRF om de differentiatie van gladde spiercellen te regelen [45]. ModuleMiner identificeerde transcriptiefactoren waarvan bekend is dat ze ook een sleutelrol spelen in andere samen tot expressie gebrachte genensets. Voorbeelden zijn GATA-factoren, NFAT's en HAND1 in hartontwikkeling HNF-1 en HNF-4 in leverspecifieke genexpressie PU.1 in lymfocytspecifieke genexpressie en myogenine, SRF, de schildklierhormoonreceptor en MEF2 in hartspecifieke genexpressie .

Het opleggen van trans-factorconservering door motiefconservering tussen menselijke en muissequenties van een CNS verbeterde de prestaties van ModuleMiner op de set van markergenen voor gladde spieren aanzienlijk. Er is ook aangetoond dat een vergelijkbare aanpak de prestaties van CRM-detectie in de Drosophila vroege segmentatie genennetwerk [10].Toen we ModuleMiner toepasten op de microarray-clusters en de genensets voor embryonale ontwikkeling, verhoogde in sommige gevallen deze trans-factorconservering ook de prestaties (microarray-clusters 6, 7 en 9, en de neurale lijstcelgenset), maar in andere gevallen deed het dat wel. niet.

Correctie voor mogelijke verschillen in TSS bij mens en muis door een uitlijningsprocedure in drie stappen (zie materialen en methoden hieronder) resulteerde in verhoogde prestaties voor de meeste microarray-clusters, maar niet voor de ontwikkelingsgensets. Dit duidelijke verschil kan te maken hebben met de verschillende locaties van de gedetecteerde CRM's in deze twee verschillende systemen.

We hebben een significant verschil waargenomen in de locaties van de CRM's waarvan ModuleMiner voorspelde dat ze expressie in volwassen weefsels zouden sturen en de CRM's die ModuleMiner voorspelde dat ze expressie in embryonale ontwikkeling zouden sturen. CRM's die weefselspecifieke expressie aansturen, zijn sterk oververtegenwoordigd binnen 200 basenparen van de TSS. Daarentegen zijn CRM's die expressie in embryonale ontwikkeling aansturen, gelijkmatiger verdeeld in de 10 kb-sequenties die we hebben overwogen, en lijken ze ondervertegenwoordigd te zijn binnen 200 basenparen van de TSS. Deze resultaten suggereren dat transcriptieregulatie van weefselspecifieke expressie voornamelijk wordt uitgeoefend door proximale promoters, terwijl transcriptieregulatie van expressie tijdens embryonale ontwikkeling voornamelijk lijkt te worden uitgeoefend door meer distale enhancers.

ModuleMiner kan worden toegepast op drie conceptueel verschillende taken: voorspelling van transcriptiefactoren die een rol spelen bij het reguleren van een set van co-gereguleerde genen voorspelling van regulerende regio's en voorspellingen van nieuwe doelgenen van een TRGM. Het is belangrijk om te beseffen dat de nauwkeurigheid van voorspellingen verschilt tussen deze taken. Hoewel exacte prestatiestatistieken alleen kunnen worden verkregen door zorgvuldig experimenteel testen van onze voorspellingen, wat buiten het bestek van deze studie valt, kunnen de resultaten die we in dit werk hebben verkregen, worden gebruikt om ruwe schattingen van de voorspellende nauwkeurigheid te geven. Toen we ModuleMiner toepasten op de twee goed bestudeerde benchmarksets, kregen we HNF1, CEBP, HNF3, GATA1, PAX6 en HNF4 voor de leverbenchmarkset en MZF1, PPARγ, SRF, MEF2, de Epstein-Barr-virustranscriptiefactor R, MYF, en MYOD voor de spierbenchmarkset. Als we dit vergelijken met de literatuur [4, 46] en met de PWM-bibliotheken die we gebruiken, krijgen we een gevoeligheid van 70% (7/10 bekende PWM's worden teruggevonden), een specificiteit van 99,6% (630/633 [lever] en 619/ 621 [spier] waarschijnlijk onjuiste PWM's worden afgewezen), en een positief voorspellend vermogen van 62% (8/13 totaal voorspelde PWM's zijn correct). Deze waarden moeten met enig voorbehoud worden beschouwd bij extrapolatie naar andere gevallen, omdat zowel lever als spieren goed bestudeerde systemen zijn waarvoor hoogwaardige PWM's beschikbaar zijn. Desalniettemin kunnen we concluderen dat ModuleMiner vrij nauwkeurig is in het selecteren van PWM's/transcriptiefactoren die een sleutelrol spelen bij het reguleren van de onderzochte genen.

Wat betreft de detectie van regulerende sequenties, kon ModuleMiner 16 van de 24 bekende spier-/leverversterkers detecteren, terwijl er in totaal 24 voorspellingen werden gedaan. Dit vertegenwoordigt een gevoeligheid van 67% en een positief voorspellend vermogen van 67%, hoewel we benadrukken dat deze laatste waarde een onderschatting is omdat sommige van onze voorspellingen nog onbekende versterkers kunnen zijn. Ondanks enkele bedenkingen bij het extrapoleren van deze gegevens, concluderen we dat de voorspellende nauwkeurigheid van ModuleMiner voor de detectie van regulerende regio's (CRM's) in de buurt van een reeks gecoreguleerde genen vrij hoog is.

Met betrekking tot de voorspellende nauwkeurigheid van ModuleMiner voor de detectie van nieuwe doelwitgenen die een TRGM krijgen, kunnen de resultaten van onze LOOCV-procedure enkele schattingen opleveren. Uit de resulterende ROC-curves kan men zien dat voor een gevoeligheid van 50% de specificiteit ongeveer 90% is en voor een gevoeligheid van 80% de specificiteit ongeveer 80%, hoewel de verschillen tussen verschillende genensets groot kunnen zijn. Meestal kunnen echter slechts enkele tientallen nieuwe doelwitgenen worden getest, waardoor de specificiteit mogelijk niet hoog genoeg is om de juiste doelwitten uit het volledige genoom te selecteren. In onze vorige studie [23] hebben we bevestigd dat de voorspellende nauwkeurigheid van nieuwe doelwitgenen vrij laag is, hoewel we hebben aangetoond dat deze detecteerbaar aanwezig is. We merken op dat we in die studie ons vorige ModuleSearcher-algoritme hebben gebruikt, waarvan hier werd aangetoond dat het minder presteert dan ModuleMiner. Bovendien zou ModuleMiner's gebruik van behoud op netwerkniveau tussen mens-muis en rat-hond voorspellingen van nieuwe doelwitgenen de prestaties kunnen verbeteren. Ten slotte zijn de resultaten die we hebben verkregen in de TSS-verdeling van de CRM's die in de buurt van de nieuwe doelgenen zijn voorspeld, consistent met deze prestatievoorspellingen. een aanzienlijke hoeveelheid ruis, maar geeft ook aan dat een signaal zelfs in een scan van het hele genoom kan worden opgepikt.


Geautomatiseerde genidentificatie in grootschalige genomische sequenties

Computationele methoden voor genidentificatie in genomische sequenties hebben typisch twee fasen: herkenning van coderende regio's en genparsing. Hoewel er een aantal effectieve methoden zijn voor het herkennen van coderende gebieden (exons), blijft het ontleden van de herkende exons in de juiste genstructuren voor een groot deel een onopgelost probleem. We hebben een computerprogramma ontwikkeld dat de herkende exons automatisch kan ontleden in genmodellen die het meest consistent zijn met de beschikbare Expressed Sequence Tags (EST's) en een reeks biologische heuristieken, empirisch afgeleid. Het genmodelleringsalgoritme dat in dit programma wordt gebruikt, biedt een algemeen raamwerk voor het toepassen van EST-informatie, zodat de modelleringsnauwkeurigheid verbetert naarmate de hoeveelheid beschikbare EST-informatie toeneemt. Op basis van voorlopige tests op een aantal grote DNA-sequenties, met behulp van de dbEST-database, hebben we waargenomen dat het algoritme (1) nauwkeurig gecompliceerde meerdere genstructuren kan modelleren, inclusief ingebedde genen, (2) verkeerd herkende exons kan identificeren en gemiste exons kan lokaliseren door de initiële exon-herkenningsfase, en (3) nauwkeurigere voorspellingen van de exongrens maken, als de benodigde EST-informatie beschikbaar is. We hebben dit op EST gebaseerde genmodelleringsalgoritme uitgebreid om genen te modelleren op onvoltooide DNA-contigs aan het einde van de shotgun-sequencing. Deze uitgebreide versie kan automatisch de oriëntaties en de relatieve volgorde van de DNA-contigs (met tussenruimten) bepalen met behulp van de beschikbare EST's als referentiemodellen, vóór de genmodelleringsfase.

Sleutelwoorden: voorspelling van meerdere genenstructuren, tot expressie gebrachte sequentietags, sequentievergelijking en analyse, patroonherkenning en dynamisch programmeren.


Beschikbaarheid van data

De volledige dataset is beschikbaar op https://github.com/francescodc87/Modules-explorer samen met een Glimmend-gebaseerde 70-webtoepassing, die gebruikers een eenvoudige grafische interface biedt om de gegevensset met alle gedetecteerde modules te verkennen. Een gedetailleerde documentatie is aanwezig op de github-pagina's. Bovendien is al het aanvullende materiaal dat in het manuscript wordt genoemd ook te vinden op https://github.com/francescodc87/Modules_Detection/tree/master/Supplemetary_Files.


Discussie

Het doel van deze studie is de extractie van relevante kankergen-biomarkers door de innovatieve integratie van meerdere gen-co-expressienetwerken, zoals voorgesteld in de sectie "Bouw van gen-co-expressienetwerken", en de fusie van normale en kankerconditienetwerken, beschreven in de sectie "Netwerkfusie voor genextractie". Om dit te doen, berekenen we de Euclidische afstand en Pearson's correlatieovereenkomst tussen de expressieprofielen van elk paar genen voor de normale en kankergegevenssets van elk beschouwd kankertype. Vervolgens worden de zo gebouwde aangrenzende matrices van de Euclidische afstand en Pearson's correlatie-co-expressienetwerken genormaliseerd en bij elkaar opgeteld om voor elke aandoening een geïntegreerd netwerk te verkrijgen dat alle relevante kenmerken vertegenwoordigt die door de twee maatregelen worden benadrukt. De uiteindelijke kankertype-specifieke netwerken worden verkregen door de twee aandoeningspecifieke netwerken te fuseren met het SNF-algoritme.

IC-genen, geëxtraheerd uit elk gefuseerd netwerk, zijn van groot belang vanuit het perspectief van het kankertype. Ze geven zeer goede classificaties van normale/kankermonsters, zelfs beter dan degene die worden geleverd door kankerbiomarkergenen die zijn geïdentificeerd met de klassieke differentiële expressieanalyse, zoals gerapporteerd in Fig. 3. Vergelijkingen tonen ook aan dat de integratie van meerdere co-expressienetwerken beter presteert dan de enkele -type co-expressie analyse. IC-genen vertonen ook interessante resultaten in termen van overlevingsanalyse: 44 van alle IC-genen zijn significant geassocieerd met de overlevingskans, een relevant hoger aantal dan de 6 differentieel tot expressie gebrachte genen die significant geassocieerd zijn met overleving. Bovendien geeft het multivariate Cox-model met proportionele gevaren van de significante IC-genen voor elk kankertype een betere concordantiestatistiek, d.w.z. een betere pasvorm, dan het model dat is gebouwd door de differentieel tot expressie gebrachte genen als variabelen te gebruiken. Ten slotte bewees de drievoudige op kennis gebaseerde evaluatie dat IC-genen potentieel waardevolle biomarkers voor kanker kunnen zijn, mogelijk bruikbaar voor medicamenteuze behandelingen, significant verrijkt in de belangrijkste paden van de ziekte, en met inbegrip van verschillende genen waarvan bekend is dat ze van belang zijn voor de specifieke kankersoort. type.

IC-genen die mogelijk nieuwe kankerbiomarkers zijn, zijn genen die niet geassocieerd zijn met het kankertype in PubMed en die bruikbaar zijn (d.w.z. er zijn medicijnen die zich daarop kunnen richten). In het bijzonder voor de ziekte van KIRC, MT-CYB, NDUFV3, PARP3, en TOP1MT genproducten zijn gelabeld als bruikbaar in DrugBank en ze kunnen een belangrijke rol spelen bij de regulatie van de MAPK-signaleringsroute en bijgevolg van celproliferatie. Deze genproducten zijn inderdaad allemaal indirect geassocieerd met KRAS of HRAS (twee van de belangrijkste genen die behoren tot de MAPK-signaleringsroute) door middel van een ander eiwit (zoals gerapporteerd in BioGRID - https://thebiogrid.org). Bovendien, hsa-mir-7, hsa-mir-29c, hsa-mir-125a, hsa-mir-296, hsa-mir-361, hsa-mir-424, hsa-mir-495, en hsa-mir-503 zijn interessante miRNA's omdat ze twee van de fundamentele genen van de VEGF-signaleringsroute reguleren. Ook, hsa-mir-23b en hsa-mir-375 reguleren genen in de TCF-β signaalroute, een ander cruciaal pad in KIRC, en hsa-let-7b, hsa-let-7f, en hsa-mir-146b kan targeten PDGFB, wat een bekend oncogen is 24 . PubMed bevat echter geen bewijs van de betrokkenheid van deze genen bij de ziekte van KIRC, dus het zijn volgens onze bevindingen goede kandidaat-biomarkers voor experimenteel onderzoek.

Voor de LIHC-ziekte vonden we 13 bruikbare IC-genen die nog niet voor deze ziekte zijn onderzocht. Onder hen zijn de FGB gen codeert voor de bètacomponent van het fibrinogeen, een glycoproteïne dat celadhesie en verspreiding regelt. Interessant is dat volgens BioGRID de FGB genproduct heeft een directe interactie met de PI3K enzymfamilie, die een belangrijke rol speelt in de overlevingsroute van LIHC-cellen. Bovendien, ABAT, ETFDH, F7, QPRT, en RAMP1 genproducten zijn medicamenteus en ze hebben allemaal indirect een wisselwerking met de PI3K enzymfamilie door middel van een ander eiwit, dus een dieper onderzoek van hun interacties zou belangrijke inzichten kunnen opleveren voor LIHC-ziekte. Er zijn ook IC-miRNA's, die door de literatuur worden verwaarloosd vanwege hun associatie met LIHC-ziekte, die zich richten op de PI3K-enzymfamilie, zoals hsa-mir-10b, hsa-mir-30a, hsa-mir-93, hsa-mir-126, hsa-mir-143, en hsa-mir-375.

Bruikbare PRAD IC-genen, waarvan de betrokkenheid bij de ziekte van PRAD nog niet is geannoteerd, zijn 24. Onder hen zijn ACAA1, GART, PDE9A, RPL3, TUBA1A, en TUBG1 genproducten interageren met verschillende eiwitten waarvan bekend is dat ze betrokken zijn bij de PRAD-route en die vooral belangrijk zijn voor remming van apoptose en tumorgroei. Het zouden dus mogelijke PRAD-biomarkers kunnen zijn. Bovendien zijn er verschillende IC-miRNA's die nog niet zijn onderzocht voor PRAD en die zich richten op cruciale genen die betrokken zijn bij de PRAD-route, en die ook het metabolische proces van de ziekte kunnen beïnvloeden die ze zijn hsa-let-7b, hsa-mir-23b, hsa-mir-26a, hsa-mir-26b, hsa-mir-30a, hsa-mir-101, hsa-mir-193b, en hsa-mir-199a.

Alle genoemde IC-genen lijken kankertype-specifiek te zijn, d.w.z. ze worden op unieke wijze geëxtraheerd uit een enkel kankertype-specifiek netwerk. Onder alle IC-genensets zijn er echter drie veelvoorkomende miRNA's die het vermelden waard zijn vanwege hun kankergerelateerde eigenschappen: hsa-let-7b, hsa-mir-23b en hsa-mir-375.

Al deze bevindingen bewijzen het belang van het gebruik van co-expressienetwerken en de relevantie van de integratie van verschillende gelijksoortigheidsmaatregelen die we hebben ontwikkeld. Ze maken een fijnere identificatie mogelijk van genen (de IC-genen) die, dankzij hun relaties in de gefuseerde co-expressienetwerken die zijn gebouwd, betere classificatieprestaties van normale / kankermonsters bieden dan de DE-genen, die vaker voor deze taak worden gebruikt.

Bovendien is onze pijplijn eenvoudig uit te breiden door bijvoorbeeld te kijken naar mutatiesignaturen. De overeenkomsten tussen mutatiemonsters kunnen worden gecombineerd met de co-expressienetwerken met behulp van de SNF-methode. Op deze manier zouden de gefuseerde netwerken IC-genen kunnen identificeren waarvan de expressieprofielen en mutatiesignaturen ofwel zeer vergelijkbaar of zeer verschillend zijn tussen de normale en kankerconditie.


Inhoud

In empirische (gelijkenis-, homologie- of evidence-based) genvindingssystemen wordt in het doelgenoom gezocht naar sequenties die vergelijkbaar zijn met extrinsiek bewijs in de vorm van de bekende tot expressie gebrachte sequentietags, messenger-RNA (mRNA), eiwitproducten en homologe of orthologe reeksen. Gegeven een mRNA-sequentie is het triviaal om een ​​unieke genomische DNA-sequentie af te leiden waaruit het getranscribeerd moest zijn. Gegeven een eiwitsequentie kan een familie van mogelijke coderende DNA-sequenties worden afgeleid door omgekeerde translatie van de genetische code. Zodra kandidaat-DNA-sequenties zijn bepaald, is het een relatief eenvoudig algoritmisch probleem om efficiënt in een doelgenoom te zoeken naar overeenkomsten, volledig of gedeeltelijk, en exact of onnauwkeurig. Gegeven een sequentie, zoeken lokale uitlijnalgoritmen zoals BLAST, FASTA en Smith-Waterman naar regio's van overeenkomst tussen de doelsequentie en mogelijke kandidaat-overeenkomsten. Overeenkomsten kunnen volledig of gedeeltelijk zijn, en exact of onnauwkeurig. Het succes van deze aanpak wordt beperkt door de inhoud en nauwkeurigheid van de sequentiedatabase.

Een hoge mate van gelijkenis met een bekend boodschapper-RNA of eiwitproduct is een sterk bewijs dat een gebied van een doelgenoom een ​​eiwitcoderend gen is. Om deze benadering systemisch toe te passen, is echter uitgebreide sequencing van mRNA- en eiwitproducten vereist. Dit is niet alleen duur, maar in complexe organismen wordt slechts een subset van alle genen in het genoom van het organisme op een bepaald moment tot expressie gebracht, wat betekent dat extrinsiek bewijs voor veel genen niet gemakkelijk toegankelijk is in een enkele celcultuur. Om extrinsiek bewijs voor de meeste of alle genen in een complex organisme te verzamelen, is dus de studie van vele honderden of duizenden celtypen vereist, wat nog meer problemen oplevert. Sommige menselijke genen komen bijvoorbeeld alleen tot uiting tijdens de ontwikkeling als embryo of foetus, wat om ethische redenen moeilijk te bestuderen is.

Ondanks deze moeilijkheden zijn er uitgebreide transcript- en eiwitsequentiedatabases gegenereerd voor zowel menselijke als andere belangrijke modelorganismen in de biologie, zoals muizen en gist. De RefSeq-database bevat bijvoorbeeld transcript- en eiwitsequenties van veel verschillende soorten, en het Ensembl-systeem brengt dit bewijs uitgebreid in kaart voor menselijke en verschillende andere genomen. Het is echter waarschijnlijk dat deze databases zowel onvolledig zijn als kleine maar significante hoeveelheden foutieve gegevens bevatten.

Nieuwe high-throughput transcriptoomsequencing-technologieën zoals RNA-Seq en ChIP-sequencing openen mogelijkheden voor het opnemen van extra extrinsiek bewijs in genvoorspelling en -validatie, en maken een structureel rijk en nauwkeuriger alternatief mogelijk voor eerdere methoden voor het meten van genexpressie, zoals uitgedrukte sequentietag of DNA-microarray.

Grote uitdagingen bij genvoorspelling zijn het omgaan met sequentiefouten in onbewerkte DNA-gegevens, afhankelijkheid van de kwaliteit van de sequentie-assemblage, het omgaan met korte uitlezingen, frameshift-mutaties, overlappende genen en onvolledige genen.

Bij prokaryoten is het essentieel om horizontale genoverdracht in overweging te nemen bij het zoeken naar gensequentiehomologie. Een andere belangrijke factor die in de huidige gendetectietools te weinig wordt gebruikt, is het bestaan ​​van genclusters - operons (die functionerende eenheden van DNA zijn die een cluster van genen bevatten onder de controle van een enkele promotor) in zowel prokaryoten als eukaryoten. De meeste populaire gendetectoren behandelen elk gen afzonderlijk, onafhankelijk van andere, wat niet biologisch nauwkeurig is.

Ab Initio genvoorspelling is een intrinsieke methode gebaseerd op geninhoud en signaaldetectie. Vanwege de inherente kosten en moeilijkheid bij het verkrijgen van extrinsiek bewijs voor veel genen, is het ook noodzakelijk om toevlucht te nemen tot: ab initio genopsporing, waarbij alleen de genomische DNA-sequentie systematisch wordt doorzocht op bepaalde verklikkers van eiwitcoderende genen. Deze tekens kunnen grofweg worden onderverdeeld in: signalen, specifieke sequenties die wijzen op de aanwezigheid van een gen in de buurt, of inhoud, statistische eigenschappen van de eiwitcoderende sequentie zelf. Ab initio het vinden van genen kan nauwkeuriger worden gekarakteriseerd als gen voorspelling, aangezien extrinsiek bewijs over het algemeen nodig is om definitief vast te stellen dat een vermeend gen functioneel is.

In de genomen van prokaryoten hebben genen specifieke en relatief goed begrepen promotorsequenties (signalen), zoals de Pribnow-box en transcriptiefactorbindingsplaatsen, die gemakkelijk systematisch te identificeren zijn. Ook komt de sequentie die codeert voor een eiwit voor als één aaneengesloten open leesraam (ORF), dat typisch vele honderden of duizenden basenparen lang is. De statistieken van stopcodons zijn zodanig dat zelfs het vinden van een open leesraam van deze lengte een redelijk informatief teken is. (Aangezien 3 van de 64 mogelijke codons in de genetische code stopcodons zijn, zou men ongeveer elke 20-25 codons, of 60-75 basenparen, in een willekeurige volgorde een stopcodon verwachten.) Verder heeft eiwitcoderend DNA bepaalde periodiciteiten en andere statistische eigenschappen die gemakkelijk te detecteren zijn in een reeks van deze lengte. Deze kenmerken maken het vinden van prokaryotische genen relatief eenvoudig, en goed ontworpen systemen kunnen een hoge mate van nauwkeurigheid bereiken.

Ab initio het vinden van genen in eukaryoten, met name complexe organismen zoals mensen, is om verschillende redenen aanzienlijk uitdagender. Ten eerste zijn de promotor en andere regulerende signalen in deze genomen complexer en minder goed begrepen dan in prokaryoten, waardoor ze moeilijker betrouwbaar te herkennen zijn. Twee klassieke voorbeelden van signalen die worden geïdentificeerd door eukaryote genvinders zijn CpG-eilanden en bindingsplaatsen voor een poly(A)-staart.

Ten tweede betekenen splitsingsmechanismen die door eukaryote cellen worden gebruikt, dat een bepaalde eiwitcoderende sequentie in het genoom wordt verdeeld in verschillende delen (exons), gescheiden door niet-coderende sequenties (introns). (Splice-sites zijn zelf een ander signaal dat eukaryote genvinders vaak zijn ontworpen om te identificeren.) Een typisch eiwitcoderend gen bij mensen kan worden verdeeld in een tiental exons, elk minder dan tweehonderd basenparen lang, en sommige zo kort als twintig tot dertig. Het is daarom veel moeilijker om periodiciteiten en andere bekende inhoudseigenschappen van eiwitcoderend DNA in eukaryoten te detecteren.

Geavanceerde genzoekers voor zowel prokaryotische als eukaryote genomen gebruiken doorgaans complexe probabilistische modellen, zoals verborgen Markov-modellen (HMM's) om informatie uit een verscheidenheid aan verschillende signaal- en inhoudsmetingen te combineren. Het GLIMMER-systeem is een veelgebruikte en zeer nauwkeurige genzoeker voor prokaryoten. GeneMark is een andere populaire benadering. eukaryotisch ab initio genzoekers hebben, in vergelijking, slechts beperkt succes behaald. opmerkelijke voorbeelden zijn de GENSCAN- en geneid-programma's. De SNAP-genzoeker is net als Genscan gebaseerd op HMM en probeert zich beter aan te passen aan verschillende organismen door problemen aan te pakken die verband houden met het gebruik van een genzoeker op een genoomsequentie waartegen het niet is getraind. [7] Een paar recente benaderingen zoals mSplicer, [8] CONTRAST, [9] of mGene [10] gebruiken ook machine learning-technieken zoals ondersteuningsvectormachines voor succesvolle genvoorspelling. Ze bouwen een discriminerend model met behulp van verborgen Markov-ondersteuningsvectormachines of voorwaardelijke willekeurige velden om een ​​nauwkeurige scorefunctie voor genvoorspelling te leren.

Ab Initio methoden zijn gebenchmarkt, met sommige bijna 100% gevoeligheid, [3] maar naarmate de gevoeligheid toeneemt, lijdt de nauwkeurigheid als gevolg van verhoogde valse positieven.

Andere signalen Bewerken

Onder de afgeleide signalen die worden gebruikt voor voorspelling zijn statistieken die resulteren uit de sub-sequentiestatistieken zoals k-mer-statistieken, Isochore (genetica) of Compositioneel domein GC-samenstelling/uniformiteit/entropie, sequentie- en framelengte, Intron/Exon/Donor/Acceptor/Promoter en Ribosomale bindingsplaats-vocabulaire, Fractal-dimensie, Fourier-transformatie van een pseudo-getalcodeerd DNA, Z-curveparameters en bepaalde runkenmerken. [11]

Er is gesuggereerd dat andere signalen dan die welke direct detecteerbaar zijn in sequenties genvoorspelling kunnen verbeteren. De rol van secundaire structuur bij de identificatie van regulerende motieven is bijvoorbeeld gerapporteerd. [12] Bovendien is gesuggereerd dat voorspelling van de secundaire structuur van RNA de voorspelling van de splitsingsplaats helpt. [13] [14] [15] [16]

Neurale netwerken Bewerken

Kunstmatige neurale netwerken zijn rekenmodellen die uitblinken in machine learning en patroonherkenning. Neurale netwerken moeten worden getraind met voorbeeldgegevens voordat ze kunnen generaliseren voor experimentele gegevens, en worden getoetst aan benchmarkgegevens. Neurale netwerken zijn in staat om benaderende oplossingen te bedenken voor problemen die algoritmisch moeilijk op te lossen zijn, mits er voldoende trainingsgegevens zijn. Wanneer toegepast op genvoorspelling, kunnen neurale netwerken naast andere worden gebruikt ab initio methoden om biologische kenmerken zoals splitsingsplaatsen te voorspellen of te identificeren. [17] Eén benadering [18] omvat het gebruik van een schuifvenster, dat de sequentiegegevens op een overlappende manier doorloopt. De uitvoer op elke positie is een score op basis van of het netwerk denkt dat het venster een donorsplitsingsplaats of een acceptorsplitsingsplaats bevat. Grotere vensters bieden meer nauwkeurigheid, maar vereisen ook meer rekenkracht. Een neuraal netwerk is een voorbeeld van een signaalsensor omdat het tot doel heeft een functionele plaats in het genoom te identificeren.

Programma's zoals Maker combineren extrinsieke en ab initio benaderingen door eiwit- en EST-gegevens in kaart te brengen in het genoom om te valideren ab initio voorspellingen. Augustus, dat kan worden gebruikt als onderdeel van de Maker-pijplijn, kan ook hints opnemen in de vorm van EST-uitlijningen of eiwitprofielen om de nauwkeurigheid van de genvoorspelling te vergroten.

Aangezien de volledige genomen van veel verschillende soorten worden gesequenced, is een veelbelovende richting in het huidige onderzoek naar het vinden van genen een vergelijkende genomics-benadering.

Dit is gebaseerd op het principe dat de krachten van natuurlijke selectie ervoor zorgen dat genen en andere functionele elementen een mutatie ondergaan in een langzamer tempo dan de rest van het genoom, aangezien mutaties in functionele elementen waarschijnlijker een negatieve invloed hebben op het organisme dan mutaties elders. Genen kunnen dus worden gedetecteerd door de genomen van verwante soorten te vergelijken om deze evolutionaire druk voor instandhouding te detecteren. Deze aanpak werd voor het eerst toegepast op het genoom van muizen en mensen, met programma's als SLAM, SGP en TWINSCAN/N-SCAN en CONTRAST. [19]

Meerdere informanten Bewerken

TWINSCAN onderzocht alleen de syntenie van mens en muis om te zoeken naar orthologe genen. Programma's zoals N-SCAN en CONTRAST maakten het mogelijk om uitlijningen van meerdere organismen op te nemen, of in het geval van N-SCAN, een enkel alternatief organisme van het doelwit. Het gebruik van meerdere informanten kan leiden tot aanzienlijke verbeteringen in nauwkeurigheid. [19]

CONTRAST bestaat uit twee elementen. De eerste is een kleinere classificatie die zowel donor- en acceptorsplitsingsplaatsen als start- en stopcodons identificeert. Het tweede element omvat het bouwen van een volledig model met behulp van machine learning. Door het probleem in tweeën te splitsen, kunnen kleinere gerichte datasets worden gebruikt om de classifiers te trainen, en dat classifier onafhankelijk kan werken en getraind kan worden met kleinere vensters. Het volledige model kan de onafhankelijke classificatie gebruiken en hoeft geen rekentijd of modelcomplexiteit te verspillen aan het opnieuw classificeren van intron-exongrenzen. Het document waarin CONTRAST wordt geïntroduceerd stelt voor om hun methode (en die van TWINSCAN, enz.) te classificeren als de novo genassemblage, met behulp van alternatieve genomen, en het identificeren als onderscheiden van ab initio, die gebruikmaakt van een doelwit 'informant' genomen. [19]

Vergelijkende genvinding kan ook worden gebruikt om hoogwaardige annotaties van het ene genoom naar het andere te projecteren. Bekende voorbeelden zijn Projector, GeneWise, GeneMapper en GeMoMa. Dergelijke technieken spelen nu een centrale rol in de annotatie van alle genomen.

Pseudogenen zijn nauwe verwanten van genen, die een zeer hoge sequentiehomologie delen, maar niet in staat zijn voor hetzelfde eiwitproduct te coderen. Hoewel ze ooit werden gedegradeerd als bijproducten van gensequencing, worden ze steeds meer, naarmate regulerende rollen worden blootgelegd, op zichzelf staande voorspellende doelen. [20] Pseudogeenvoorspelling maakt gebruik van bestaande sequentieovereenkomst en ab initio-methoden, terwijl aanvullende filtering en methoden voor het identificeren van pseudogene-kenmerken worden toegevoegd.

Methoden voor sequentie-overeenkomst kunnen worden aangepast voor voorspelling van pseudogenen met behulp van extra filtering om kandidaat-pseudogenen te vinden. Dit zou gebruik kunnen maken van invaliditeitsdetectie, die op zoek is naar nonsens of frameshift-mutaties die een anders functionele coderende sequentie zouden afkappen of instorten. [21] Bovendien kan het vertalen van DNA naar eiwitsequenties effectiever zijn dan alleen rechte DNA-homologie. [20]

Inhoudssensoren kunnen worden gefilterd op basis van de verschillen in statistische eigenschappen tussen pseudogenen en genen, zoals een verminderd aantal CpG-eilanden in pseudogenen, of de verschillen in G-C-gehalte tussen pseudogenen en hun buren. Signaalsensoren kunnen ook worden aangepast aan pseudogenen, op zoek naar de afwezigheid van introns of polyadeninestaarten. [22]

Metagenomics is de studie van genetisch materiaal dat is teruggewonnen uit de omgeving, wat resulteert in sequentie-informatie uit een pool van organismen. Het voorspellen van genen is nuttig voor vergelijkende metagenomica.

Metagenomics-tools vallen ook in de basiscategorieën van het gebruik van sequentieovereenkomsten (MEGAN4) en ab initio-technieken (GLIMMER-MG).

Glimmer-MG [23] is een uitbreiding op GLIMMER die voornamelijk vertrouwt op een ab initio-aanpak voor het vinden van genen en door gebruik te maken van trainingssets van verwante organismen. De voorspellingsstrategie wordt aangevuld met classificatie en clustering van gendatasets voorafgaand aan het toepassen van ab initio genvoorspellingsmethoden. De gegevens zijn geclusterd per soort. Deze classificatiemethode maakt gebruik van technieken uit metagenomische fylogenetische classificatie. Een voorbeeld van software voor dit doel is Phymm, dat gebruik maakt van geïnterpoleerde markov-modellen, en PhymmBL, dat BLAST integreert in de classificatieroutines.

MEGAN4 [24] maakt gebruik van een benadering van sequentieovereenkomst, waarbij gebruik wordt gemaakt van lokale uitlijning met databases van bekende sequenties, maar probeert ook te classificeren met behulp van aanvullende informatie over functionele rollen, biologische routes en enzymen. Net als bij de voorspelling van genen voor één organisme, worden benaderingen van sequentieovereenkomst beperkt door de grootte van de database.

FragGeneScan en MetaGeneAnnotator zijn populaire programma's voor het voorspellen van genen op basis van het Hidden Markov-model. Deze voorspellers zijn verantwoordelijk voor sequentiefouten, gedeeltelijke genen en werken voor korte uitlezingen.

Een ander snel en nauwkeurig hulpmiddel voor het voorspellen van genen in metanomen is MetaGeneMark. [25] Deze tool wordt door het DOE Joint Genome Institute gebruikt om aantekeningen te maken bij IMG/M, de grootste metagenoomverzameling tot nu toe.


Inhoud

Fylogenetische bomen gegenereerd door computationele fylogenetica kunnen ofwel: geworteld of ongeworteld afhankelijk van de invoergegevens en het gebruikte algoritme. Een geroote boom is een gerichte graaf die expliciet een meest recente gemeenschappelijke voorouder (MRCA) identificeert, [ citaat nodig ] meestal een ingevoerde reeks die niet wordt weergegeven in de invoer. Genetische afstandsmaten kunnen worden gebruikt om een ​​boom te plotten met de invoersequenties als bladknopen en hun afstanden vanaf de wortel evenredig met hun genetische afstand tot de veronderstelde MRCA. Identificatie van een wortel vereist gewoonlijk de opname in de invoergegevens van ten minste één "uitgroep" waarvan bekend is dat deze slechts in de verte gerelateerd is aan de sequenties van belang.

Daarentegen plotten onbewortelde bomen de afstanden en relaties tussen invoerreeksen zonder aannames te maken met betrekking tot hun afkomst. Een niet-gewortelde boom kan altijd worden geproduceerd uit een gewortelde boom, maar een wortel kan meestal niet op een niet-gewortelde boom worden geplaatst zonder aanvullende gegevens over divergentiesnelheden, zoals de aanname van de moleculaire klokhypothese. [3]

De verzameling van alle mogelijke fylogenetische bomen voor een bepaalde groep invoersequenties kan worden opgevat als een discreet gedefinieerde multidimensionale "boomruimte" waardoor zoekpaden kunnen worden getraceerd door optimalisatiealgoritmen. Hoewel het tellen van het totale aantal bomen voor een niet-triviaal aantal invoerreeksen kan worden bemoeilijkt door variaties in de definitie van een boomtopologie, is het altijd waar dat er meer gewortelde dan niet-gewortelde bomen zijn voor een bepaald aantal invoer en keuze van parameters. [4]

Zowel gewortelde als niet-gewortelde fylogenetische bomen kunnen verder worden gegeneraliseerd naar gewortelde of niet-gewortelde fylogenetische netwerken, die het modelleren van evolutionaire verschijnselen zoals hybridisatie of horizontale genoverdracht mogelijk maken.

Morfologische analyse

Het basisprobleem in de morfologische fylogenetica is de assemblage van een matrix die een afbeelding van elk van de taxa vertegenwoordigt die wordt vergeleken met representatieve metingen voor elk van de fenotypische kenmerken die als classificatie worden gebruikt. De soorten fenotypische gegevens die worden gebruikt om deze matrix te construeren, zijn afhankelijk van de taxa die voor individuele soorten worden vergeleken, ze kunnen metingen van gemiddelde lichaamsgrootte, lengtes of afmetingen van bepaalde botten of andere fysieke kenmerken, of zelfs gedragsmanifestaties omvatten. Aangezien niet elk mogelijk fenotypisch kenmerk kan worden gemeten en gecodeerd voor analyse, is de selectie van de te meten kenmerken natuurlijk een belangrijk inherent obstakel voor de methode. De beslissing welke eigenschappen als basis voor de matrix moeten worden gebruikt, vertegenwoordigt noodzakelijkerwijs een hypothese over welke eigenschappen van een soort of hoger taxon evolutionair relevant zijn. [5] Morfologische studies kunnen verward worden door voorbeelden van convergente evolutie van fenotypes. [6] Een grote uitdaging bij het construeren van bruikbare klassen is de grote kans op inter-taxonoverlap in de verdeling van de variatie van het fenotype. Het opnemen van uitgestorven taxa in morfologische analyse is vaak moeilijk vanwege de afwezigheid van of onvolledige fossielen, maar het is aangetoond dat het een significant effect heeft op de bomen die in één onderzoek zijn geproduceerd. Alleen de opname van uitgestorven soorten apen produceerde een morfologisch afgeleide boom die consistent was met die geproduceerd op basis van moleculaire gegevens. [1]

Sommige fenotypische classificaties, met name die welke worden gebruikt bij het analyseren van zeer diverse groepen taxa, zijn discrete en ondubbelzinnige classificaties van organismen als het bezitten of missen van een staart, bijvoorbeeld, is in de meeste gevallen eenvoudig, evenals het tellen van kenmerken zoals ogen of wervels. De meest geschikte weergave van continu variërende fenotypische metingen is echter een controversieel probleem zonder een algemene oplossing. Een veelgebruikte methode is om de metingen die van belang zijn eenvoudigweg in twee of meer klassen te sorteren, waardoor continue waargenomen variatie als discreet classificeerbaar wordt (bijv. botten korter zijn dan de cutoff worden gescoord als leden van een tweede staat). Dit resulteert in een gemakkelijk te manipuleren dataset, maar is bekritiseerd vanwege een slechte rapportage van de basis voor de klassedefinities en voor het opofferen van informatie in vergelijking met methoden die een continue gewogen verdeling van metingen gebruiken. [7]

Omdat morfologische gegevens uiterst arbeidsintensief zijn om te verzamelen, zowel uit literatuurbronnen als uit veldwaarnemingen, is hergebruik van eerder samengestelde datamatrices niet ongebruikelijk, hoewel dit fouten in de oorspronkelijke matrix kan verspreiden in meerdere afgeleide analyses. [8]

Moleculaire analyse Bewerken

Het probleem van karaktercodering is heel anders in moleculaire analyses, aangezien de karakters in biologische sequentiegegevens onmiddellijk en discreet gedefinieerd zijn - verschillende nucleotiden in DNA- of RNA-sequenties en verschillende aminozuren in eiwitsequenties. Het definiëren van homologie kan echter een uitdaging zijn vanwege de inherente problemen van uitlijning van meerdere sequenties. Voor een bepaalde gapped MSA kunnen verschillende gewortelde fylogenetische bomen worden geconstrueerd die variëren in hun interpretaties van welke veranderingen "mutaties" zijn versus voorouderlijke karakters, en welke gebeurtenissen insertiemutaties of deletiemutaties zijn. Bijvoorbeeld, gegeven alleen een paarsgewijze uitlijning met een gap-regio, is het onmogelijk om te bepalen of de ene sequentie een insertiemutatie draagt ​​of de andere een deletie draagt. Het probleem wordt vergroot in MSA's met niet-uitgelijnde en niet-overlappende hiaten. In de praktijk kunnen aanzienlijke regio's van een berekende uitlijning worden verdisconteerd in de fylogenetische boomconstructie om te voorkomen dat gegevens met ruis in de boomberekening worden geïntegreerd.

Afstandsmatrixmethoden voor fylogenetische analyse vertrouwen expliciet op een maat voor "genetische afstand" tussen de sequenties die worden geclassificeerd, en daarom vereisen ze een MSA als invoer. Afstand wordt vaak gedefinieerd als de fractie van mismatches op uitgelijnde posities, waarbij hiaten ofwel worden genegeerd of als mismatches worden geteld. [3] Afstandsmethoden proberen een alles-op-alles-matrix te construeren uit de reeksqueryquery-set die de afstand tussen elk reekspaar beschrijft. Hieruit wordt een fylogenetische boom geconstrueerd die nauw verwante sequenties onder dezelfde inwendige knoop plaatst en waarvan de vertakkingslengten de waargenomen afstanden tussen sequenties nauwkeurig weergeven. Methoden met afstandsmatrix kunnen bomen met of zonder wortels produceren, afhankelijk van het algoritme dat wordt gebruikt om ze te berekenen. Ze worden vaak gebruikt als basis voor progressieve en iteratieve typen meervoudige sequentie-uitlijning. Het belangrijkste nadeel van afstandsmatrixmethoden is hun onvermogen om informatie over lokale regio's met hoge variatie die in meerdere subbomen voorkomen, efficiënt te gebruiken. [4]

UPGMA en WPGMA bewerken

De UPGMA (Ongewogen paargroepsmethode met rekenkundig gemiddelde) en WPGMA (Methode van gewogen paargroep met rekenkundig gemiddelde) methoden produceren gewortelde bomen en vereisen een aanname met constante snelheid - dat wil zeggen, er wordt uitgegaan van een ultrametrische boom waarin de afstanden van de wortel tot elke vertakkingspunt gelijk zijn. [9]

Buren-lidmaatschap Bewerken

Neighbor-joining-methoden passen algemene clusteranalysetechnieken toe op sequentieanalyse met behulp van genetische afstand als clusteringsmaatstaf. De eenvoudige methode voor het verbinden van buren produceert onbewortelde bomen, maar gaat niet uit van een constante evolutiesnelheid (d.w.z. een moleculaire klok) over geslachten heen. [10]

Fitch-Margoliash-methode Bewerken

De Fitch-Margoliash-methode gebruikt een gewogen kleinste-kwadratenmethode voor clustering op basis van genetische afstand. [11] Nauw verwante reeksen krijgen meer gewicht in het boomconstructieproces om te corrigeren voor de toegenomen onnauwkeurigheid bij het meten van afstanden tussen ver verwante reeksen. De afstanden die als invoer voor het algoritme worden gebruikt, moeten worden genormaliseerd om grote artefacten in computerrelaties tussen nauw verwante en ver verwante groepen te voorkomen. De afstanden die met deze methode worden berekend, moeten lineair zijn. Het lineariteitscriterium voor afstanden vereist dat de verwachte waarden van de vertakkingslengten voor twee afzonderlijke takken gelijk moeten zijn aan de verwachte waarde van de som van de twee vertakkingsafstanden - een eigenschap die alleen van toepassing is op biologische sequenties wanneer ze zijn gecorrigeerd voor de mogelijkheid van terugmutaties op individuele locaties. Deze correctie wordt gedaan door het gebruik van een substitutiematrix zoals die is afgeleid van het Jukes-Cantor-model van DNA-evolutie. De afstandscorrectie is in de praktijk alleen nodig wanneer de evolutiesnelheden tussen takken verschillen. [4] Een andere wijziging van het algoritme kan nuttig zijn, vooral in het geval van geconcentreerde afstanden (meld dit bij de concentratie van het meetfenomeen en de vloek van de dimensionaliteit): die wijziging, beschreven in [12] heeft aangetoond dat het de efficiëntie van de algoritme en zijn robuustheid.

Het kleinste-kwadratencriterium dat op deze afstanden wordt toegepast, is nauwkeuriger maar minder efficiënt dan de methoden voor het verbinden van buren. Een extra verbetering die correlaties corrigeert tussen afstanden die voortkomen uit veel nauw verwante reeksen in de dataset, kan ook worden toegepast tegen hogere rekenkosten. Het vinden van de optimale kleinste-kwadratenboom met elke correctiefactor is NP-compleet, [13] dus heuristische zoekmethoden zoals die gebruikt worden in maximale spaarzaamheidsanalyse worden toegepast op het zoeken door de boomruimte.

Outgroups gebruiken Bewerken

Onafhankelijke informatie over de relatie tussen reeksen of groepen kan worden gebruikt om de zoekruimte voor bomen te verkleinen en om onbewortelde bomen te rooten. Standaardgebruik van afstandsmatrixmethoden omvat het opnemen van ten minste één outgroup-reeks waarvan bekend is dat deze slechts in de verte verwant is aan de van belang zijnde reeksen in de queryset. [3] Dit gebruik kan worden gezien als een soort experimentele controle. Als de outgroup op de juiste manier is gekozen, zal deze een veel grotere genetische afstand hebben en dus een langere vertakkingslengte dan elke andere sequentie, en zal deze verschijnen in de buurt van de wortel van een gewortelde boom.Het kiezen van een geschikte outgroup vereist de selectie van een sequentie die matig gerelateerd is aan de sequenties van belang. Een te nauwe relatie verslaat het doel van de outgroup en te ver weg voegt ruis toe aan de analyse. [3] Er moet ook voor worden gezorgd dat situaties worden vermeden waarin de soort waaruit de sequenties zijn genomen in de verte verwant zijn, maar het gen dat door de sequenties wordt gecodeerd, in hoge mate geconserveerd is over de geslachten heen. Horizontale genoverdracht, vooral tussen anders uiteenlopende bacteriën, kan ook het gebruik van outgroup in de war brengen.

Maximale spaarzaamheid (MP) is een methode om de potentiële fylogenetische boom te identificeren die het kleinste totale aantal evolutionaire gebeurtenissen nodig heeft om de waargenomen sequentiegegevens te verklaren. Sommige manieren om bomen te scoren omvatten ook een "kosten" die verband houdt met bepaalde soorten evolutionaire gebeurtenissen en proberen de boom met de laagste totale kosten te lokaliseren. Dit is een nuttige benadering in gevallen waarin niet elk mogelijk type gebeurtenis even waarschijnlijk is - bijvoorbeeld wanneer bekend is dat bepaalde nucleotiden of aminozuren meer veranderlijk zijn dan andere.

De meest naïeve manier om de meest spaarzame boom te identificeren, is eenvoudig opsommen - elke mogelijke boom achtereenvolgens beschouwen en zoeken naar de boom met de laagste score. Dit is echter alleen mogelijk voor een relatief klein aantal sequenties of soorten, omdat bekend is dat het probleem van het identificeren van de meest spaarzame boom NP-moeilijk is [4] en daarom zijn er een aantal heuristische zoekmethoden voor optimalisatie ontwikkeld om een ​​zeer spaarzame boom, zo niet de beste in de set. De meeste van dergelijke methoden omvatten een minimaliseringsmechanisme in de stijl van de afdaling dat werkt op basis van een criterium voor het herschikken van bomen.

Tak en gebonden Edit

Het branch-and-bound-algoritme is een algemene methode die wordt gebruikt om de efficiëntie van zoekopdrachten naar bijna optimale oplossingen van NP-harde problemen te vergroten, die voor het eerst werden toegepast op fylogenetica in de vroege jaren tachtig. [14] Vertakt en gebonden is bijzonder goed geschikt voor fylogenetische boomconstructie omdat het inherent vereist dat een probleem in een boomstructuur wordt verdeeld, omdat het de probleemruimte in kleinere regio's verdeelt. Zoals de naam al aangeeft, vereist het als invoer zowel een vertakkingsregel (in het geval van fylogenetica, de toevoeging van de volgende soort of reeks aan de boom) als een grens (een regel die bepaalde regio's van de zoekruimte uitsluit, waardoor ervan uitgaande dat de optimale oplossing dat gebied niet kan bezetten). Het identificeren van een goede grens is het meest uitdagende aspect van de toepassing van het algoritme op de fylogenetica. Een eenvoudige manier om de grens te definiëren is een maximaal aantal veronderstelde evolutionaire veranderingen dat per boom is toegestaan. Een reeks criteria die bekend staat als de regels van Zharkikh [15] beperken de zoekruimte ernstig door kenmerken te definiëren die worden gedeeld door alle kandidaat "meest spaarzame" bomen. De twee meest elementaire regels vereisen de eliminatie van op één na alle overbodige sequenties (voor gevallen waarin meerdere waarnemingen identieke gegevens hebben opgeleverd) en de eliminatie van kenmerkende locaties waar twee of meer toestanden niet voorkomen in ten minste twee soorten. Onder ideale omstandigheden zouden deze regels en het bijbehorende algoritme een boom volledig definiëren.

Sankoff-Morel-Cedergren-algoritme

Het Sankoff-Morel-Cedergren-algoritme was een van de eerste gepubliceerde methoden om gelijktijdig een MSA en een fylogenetische boom voor nucleotidesequenties te produceren. [16] De methode gebruikt een maximale spaarzaamheidsberekening in combinatie met een scorefunctie die hiaten en mismatches bestraft, waardoor de boom wordt bevoordeeld die een minimaal aantal van dergelijke gebeurtenissen introduceert (een alternatieve opvatting is dat de te prefereren bomen die zijn die de maximale hoeveelheid sequentieovereenkomst die kan worden geïnterpreteerd als homologie, een gezichtspunt dat kan leiden tot verschillende optimale bomen [17]). De geïmputeerde sequenties op de binnenste knooppunten van de boom worden gescoord en opgeteld over alle knooppunten in elke mogelijke boom. De laagst scorende boomsom levert zowel een optimale boom als een optimale MSA op gezien de scorefunctie. Omdat de methode zeer rekenintensief is, is dit een benaderingsmethode waarbij de initiële schattingen voor de inwendige uitlijningen één knooppunt per keer worden verfijnd. Zowel de volledige als de geschatte versie worden in de praktijk berekend door dynamisch programmeren. [4]

MALIGN en POY Bewerken

Meer recente fylogenetische boom/MSA-methoden gebruiken heuristieken om hoog scorende, maar niet noodzakelijk optimale, bomen te isoleren. De MALIGN-methode gebruikt een maximale spaarzaamheidstechniek om een ​​meervoudige uitlijning te berekenen door een cladogramscore te maximaliseren, en de bijbehorende POY gebruikt een iteratieve methode die de optimalisatie van de fylogenetische boom koppelt aan verbeteringen in de overeenkomstige MSA. [18] Het gebruik van deze methoden bij het construeren van evolutionaire hypothesen is echter bekritiseerd als bevooroordeeld vanwege de opzettelijke constructie van bomen die minimale evolutionaire gebeurtenissen weerspiegelen. [19] Dit wordt op zijn beurt weerlegd door de opvatting dat dergelijke methoden moeten worden gezien als heuristische benaderingen om de bomen te vinden die de hoeveelheid sequentieovereenkomst maximaliseren die als homologie kan worden geïnterpreteerd. [17] [20]

De maximale waarschijnlijkheidsmethode maakt gebruik van standaard statistische technieken voor het afleiden van kansverdelingen om kansen toe te kennen aan bepaalde mogelijke fylogenetische bomen. De methode vereist een substitutiemodel om de waarschijnlijkheid van bepaalde mutaties ruwweg te beoordelen, een boom die meer mutaties nodig heeft bij inwendige knooppunten om de waargenomen fylogenie te verklaren, zal worden beoordeeld als een lagere waarschijnlijkheid. Dit is in grote lijnen vergelijkbaar met de maximale spaarzaamheidsmethode, maar maximale waarschijnlijkheid maakt extra statistische flexibiliteit mogelijk door variërende snelheden van evolutie toe te staan ​​over zowel geslachten als locaties. In feite vereist de methode dat evolutie op verschillende locaties en langs verschillende lijnen statistisch onafhankelijk moet zijn. Maximale waarschijnlijkheid is dus zeer geschikt voor de analyse van ver verwante sequenties, maar er wordt aangenomen dat het rekenkundig onhandelbaar is om te berekenen vanwege de NP-hardheid. [21]

Het "pruning"-algoritme, een variant van dynamisch programmeren, wordt vaak gebruikt om de zoekruimte te verkleinen door de waarschijnlijkheid van subbomen efficiënt te berekenen. [4] De methode berekent de waarschijnlijkheid voor elke site op een "lineaire" manier, beginnend bij een knoop waarvan de enige nakomelingen bladeren zijn (dat wil zeggen, de toppen van de boom) en achteruit werkend naar de "onderste" knoop in geneste sets. De bomen die door de methode worden geproduceerd, worden echter alleen geworteld als het substitutiemodel onomkeerbaar is, wat over het algemeen niet geldt voor biologische systemen. De zoektocht naar de boom met maximale waarschijnlijkheid omvat ook een optimalisatiecomponent voor de lengte van de vertakkingen die moeilijk te verbeteren is, aangezien algoritmisch algemene globale optimalisatietools zoals de Newton-Raphson-methode vaak worden gebruikt.

Sommige tools die maximale waarschijnlijkheid gebruiken om fylogenetische bomen af ​​​​te leiden uit variant allelische frequentiegegevens (VAF's), zijn AncesTree en CITUP. [22] [23]

Bayesiaanse gevolgtrekking kan worden gebruikt om fylogenetische bomen te produceren op een manier die nauw verwant is aan de maximale waarschijnlijkheidsmethoden. Bayesiaanse methoden gaan uit van een eerdere waarschijnlijkheidsverdeling van de mogelijke bomen, wat eenvoudigweg de waarschijnlijkheid kan zijn van een enkele boom onder alle mogelijke bomen die uit de gegevens kunnen worden gegenereerd, of een meer geavanceerde schatting kan zijn die is afgeleid van de veronderstelling dat divergentiegebeurtenissen zoals als soortvorming optreden als stochastische processen. De keuze van eerdere distributie is een twistpunt onder gebruikers van Bayesiaanse inferentie-fylogenetische methoden. [4]

Implementaties van Bayesiaanse methoden maken over het algemeen gebruik van Markov-keten Monte Carlo-bemonsteringsalgoritmen, hoewel de keuze van de verplaatsingsset varieert. twee verwante bomen. [25] Het gebruik van Bayesiaanse methoden in de fylogenetica is controversieel, grotendeels als gevolg van onvolledige specificatie van de keuze van de zetset, acceptatiecriterium en eerdere distributie in gepubliceerd werk. [4] Bayesiaanse methoden worden over het algemeen als superieur beschouwd aan op spaarzaamheid gebaseerde methoden, ze kunnen meer vatbaar zijn voor aantrekking op lange vertakkingen dan technieken met maximale waarschijnlijkheid, [26] hoewel ze beter in staat zijn om ontbrekende gegevens op te vangen. [27]

Terwijl waarschijnlijkheidsmethoden de boom vinden die de waarschijnlijkheid van de gegevens maximaliseert, herstelt een Bayesiaanse benadering een boom die de meest waarschijnlijke clades vertegenwoordigt, door te putten uit de posterieure verdeling. Schattingen van de latere waarschijnlijkheid van clades (het meten van hun 'ondersteuning') kunnen echter behoorlijk ver afwijken, vooral in clades die niet overweldigend waarschijnlijk zijn. Als zodanig zijn andere methoden naar voren gebracht om de posterieure waarschijnlijkheid te schatten. [28]

Sommige tools die Bayesiaanse gevolgtrekking gebruiken om fylogenetische bomen af ​​te leiden uit variant allelische frequentiegegevens (VAF's), zijn Canopy, EXACT en PhyloWGS. [29] [30] [31]

Moleculaire fylogenetische methoden zijn gebaseerd op een gedefinieerd substitutiemodel dat codeert voor een hypothese over de relatieve mutatiesnelheden op verschillende plaatsen langs het gen of de aminozuursequenties die worden bestudeerd. Op hun eenvoudigst zijn substitutiemodellen bedoeld om te corrigeren voor verschillen in de snelheden van overgangen en transversies in nucleotidesequenties. Het gebruik van substitutiemodellen is noodzakelijk omdat de genetische afstand tussen twee sequenties slechts korte tijd lineair toeneemt nadat de twee sequenties van elkaar divergeren (alternatief is de afstand pas lineair kort voor de samensmelting). Hoe langer de tijd na divergentie, hoe waarschijnlijker het wordt dat twee mutaties plaatsvinden op dezelfde nucleotideplaats. Eenvoudige genetische afstandsberekeningen zullen dus het aantal mutatiegebeurtenissen die in de evolutionaire geschiedenis hebben plaatsgevonden, onderschatten. De omvang van deze ondertelling neemt toe met toenemende tijd sinds divergentie, wat kan leiden tot het fenomeen van aantrekking van lange takken, of de verkeerde toewijzing van twee ver verwante maar convergerend evoluerende reeksen als nauw verwant. [32] De maximale spaarzaamheidsmethode is bijzonder gevoelig voor dit probleem vanwege het expliciete zoeken naar een boom die een minimum aantal verschillende evolutionaire gebeurtenissen vertegenwoordigt. [4]

Soorten modellen Bewerken

Alle substitutiemodellen kennen een reeks gewichten toe aan elke mogelijke toestandsverandering die in de reeks wordt weergegeven. De meest voorkomende modeltypes zijn impliciet omkeerbaar omdat ze hetzelfde gewicht toekennen aan bijvoorbeeld een G>C-nucleotidemutatie als aan een C>G-mutatie. Het eenvoudigst mogelijke model, het Jukes-Cantor-model, kent een gelijke waarschijnlijkheid toe aan elke mogelijke toestandsverandering voor een gegeven nucleotidebase. De snelheid van verandering tussen twee verschillende nucleotiden zal een derde van de totale substitutiesnelheid zijn. [4] Meer geavanceerde modellen maken onderscheid tussen transities en transversies. Het meest algemeen mogelijke in de tijd omkeerbare model, het GTR-model genaamd, heeft zes mutatiesnelheidsparameters. Een nog algemener model dat bekend staat als het algemene 12-parametermodel doorbreekt de tijdomkeerbaarheid, ten koste van veel extra complexiteit bij het berekenen van genetische afstanden die consistent zijn tussen meerdere geslachten. [4] Een mogelijke variatie op dit thema past de snelheden aan zodat het totale GC-gehalte - een belangrijke maatstaf voor de stabiliteit van de dubbele helix van DNA - in de loop van de tijd varieert. [33]

Modellen kunnen ook zorgen voor de variatie van snelheden met posities in de invoerreeks. Het meest voor de hand liggende voorbeeld van een dergelijke variatie volgt uit de rangschikking van nucleotiden in eiwitcoderende genen in codons met drie basen. Als de locatie van het open leesraam (ORF) bekend is, kunnen de mutatiesnelheden worden aangepast voor de positie van een bepaalde plaats binnen een codon, aangezien bekend is dat wobble-baseparing hogere mutatiesnelheden in het derde nucleotide van een codon mogelijk maakt. gegeven codon zonder de betekenis van het codon in de genetische code te beïnvloeden. [32] Een minder hypothesegestuurd voorbeeld dat niet afhankelijk is van ORF-identificatie, wijst eenvoudigweg aan elke locatie een snelheid toe die willekeurig wordt getrokken uit een vooraf bepaalde verdeling, vaak de gammaverdeling of log-normale verdeling. [4] Ten slotte maakt een meer conservatieve schatting van snelheidsvariaties, bekend als de covarion-methode, autogecorreleerde variaties in tarieven mogelijk, zodat de mutatiesnelheid van een bepaalde locatie wordt gecorreleerd tussen locaties en geslachten. [34]

Het beste model kiezen Bewerken

De selectie van een geschikt model is van cruciaal belang voor de productie van goede fylogenetische analyses, zowel omdat ondergeparametreerde of te restrictieve modellen afwijkend gedrag kunnen veroorzaken wanneer hun onderliggende aannames worden geschonden, als omdat te complexe of te hoge geparametriseerde modellen rekenkundig duur zijn en de parameters mogelijk te groot zijn . [32] De meest gebruikelijke methode voor modelselectie is de waarschijnlijkheidsratio-test (LRT), die een waarschijnlijkheidsschatting oplevert die kan worden geïnterpreteerd als een maatstaf voor de "goedheid van fit" tussen het model en de invoergegevens. [32] Er moet echter voorzichtigheid worden betracht bij het gebruik van deze resultaten, aangezien een complexer model met meer parameters altijd een grotere kans heeft dan een vereenvoudigde versie van hetzelfde model, wat kan leiden tot de naïeve selectie van modellen die te complex zijn . [4] Om deze reden zullen computerprogramma's voor modelselectie het eenvoudigste model kiezen dat niet significant slechter is dan complexere substitutiemodellen. Een belangrijk nadeel van de LRT is de noodzaak om een ​​reeks paarsgewijze vergelijkingen tussen modellen te maken. Het is aangetoond dat de volgorde waarin de modellen worden vergeleken een groot effect heeft op het model dat uiteindelijk wordt gekozen. [35]

Een alternatieve modelselectiemethode is het Akaike-informatiecriterium (AIC), formeel een schatting van de Kullback-Leibler-divergentie tussen het echte model en het model dat wordt getest. Het kan worden geïnterpreteerd als een waarschijnlijkheidsschatting met een correctiefactor om overgeparametriseerde modellen te bestraffen. [32] De AIC wordt berekend op een individueel model in plaats van op een paar, en is dus onafhankelijk van de volgorde waarin modellen worden beoordeeld. Een verwant alternatief, het Bayesiaanse informatiecriterium (BIC), heeft een vergelijkbare basisinterpretatie, maar bestraft complexe modellen zwaarder. [32]

Een uitgebreid stapsgewijze protocol voor het construeren van een fylogenetische boom, inclusief DNA / aminozuur aaneengesloten sequentie-assemblage, meervoudige sequentie-uitlijning, modeltest (testen van de best passende substitutiemodellen) en fylogeniereconstructie met behulp van maximale waarschijnlijkheid en Bayesiaanse inferentie, is beschikbaar op Natuur Protocol [36]

Een niet-traditionele manier om de fylogenetische boom te evalueren, is door deze te vergelijken met het clusterresultaat. Men kan een Multidimensional Scaling-techniek gebruiken, de zogenaamde Interpolative Joining, om dimensionaliteitsreductie te doen om het clusteringresultaat voor de sequenties in 3D te visualiseren en vervolgens de fylogenetische boom op het clusteringresultaat in kaart te brengen. Een betere boom heeft meestal een hogere correlatie met het clusterresultaat. [37]

Zoals bij alle statistische analyses, vereist de schatting van fylogenieën uit karaktergegevens een evaluatie van vertrouwen. Er bestaan ​​een aantal methoden om de hoeveelheid ondersteuning voor een fylogenetische boom te testen, hetzij door de ondersteuning voor elke subboom in de fylogenie te evalueren (nodale ondersteuning) of door te evalueren of de fylogenie significant verschilt van andere mogelijke bomen (alternatieve boomhypothesetests). ).

Nodale ondersteuning Bewerken

De meest gebruikelijke methode voor het beoordelen van boomondersteuning is om de statistische ondersteuning voor elk knooppunt in de boom te evalueren. Meestal wordt een knooppunt met een zeer lage ondersteuning niet als geldig beschouwd in verdere analyse en kan het visueel worden samengevouwen tot een polytomie om aan te geven dat relaties binnen een clade onopgelost zijn.

Consensusboom Bewerken

Bij veel methoden voor het beoordelen van nodale ondersteuning wordt rekening gehouden met meerdere fylogenieën. De consensusboom vat de knooppunten samen die door een reeks bomen worden gedeeld. [38] In een *strikte consensus* worden alleen knooppunten in elke boom getoond, en de rest wordt samengevouwen tot een onopgeloste polytomie. Minder conservatieve methoden, zoals de *meerderheidsregel-consensus*-boom, houden rekening met knooppunten die worden ondersteund door een bepaald percentage bomen in kwestie (zoals ten minste 50%).

In de maximale spaarzaamheidsanalyse kunnen er bijvoorbeeld veel bomen zijn met dezelfde spaarzaamheidsscore. Een strikte consensusboom zou laten zien welke knopen in alle even spaarzame bomen voorkomen en welke knopen verschillen. Consensusbomen worden ook gebruikt om steun te evalueren op fylogenieën die zijn gereconstrueerd met Bayesiaanse gevolgtrekking (zie hieronder).

Bootstrapping en jackknifing Bewerken

In statistieken is de bootstrap een methode om de variabiliteit van gegevens met een onbekende distributie af te leiden met behulp van pseudoreplicaties van de originele gegevens. Bijvoorbeeld, gegeven een set van 100 datapunten, is een pseudoreplicate een dataset van dezelfde grootte (100 punten) die willekeurig is gesampled uit de originele data, met vervanging. Dat wil zeggen, elk origineel gegevenspunt kan meer dan eens in het pseudoreplicate worden weergegeven, of helemaal niet. Statistische ondersteuning houdt in dat wordt beoordeeld of de oorspronkelijke gegevens vergelijkbare eigenschappen hebben als een grote set pseudoreplicaten.

In fylogenetica wordt bootstrapping uitgevoerd met behulp van de kolommen van de karaktermatrix. Elk pseudoreplicate bevat hetzelfde aantal soorten (rijen) en karakters (kolommen) die willekeurig zijn bemonsterd uit de oorspronkelijke matrix, met vervanging. Van elk pseudoreplicate wordt een fylogenie gereconstrueerd, met dezelfde methoden die worden gebruikt om de fylogenie uit de oorspronkelijke gegevens te reconstrueren. Voor elk knooppunt op de fylogenie is de knooppuntondersteuning het percentage pseudoreplicaten dat dat knooppunt bevat. [39]

De statistische nauwkeurigheid van de bootstrap-test is empirisch geëvalueerd met behulp van virale populaties met bekende evolutionaire geschiedenis, [40] en vond dat 70% bootstrap-ondersteuning overeenkomt met een kans van 95% dat de clade bestaat. Dit werd echter getest onder ideale omstandigheden (bijvoorbeeld geen verandering in evolutionaire snelheden, symmetrische fylogenieën). In de praktijk worden waarden boven de 70% over het algemeen ondersteund en overgelaten aan de onderzoeker of lezer om het vertrouwen te beoordelen. Knooppunten met ondersteuning van minder dan 70% worden doorgaans als onopgelost beschouwd.

Jackknifing in de fylogenetica is een vergelijkbare procedure, behalve dat de kolommen van de matrix worden bemonsterd zonder vervanging. Pseudoreplicaten worden gegenereerd door willekeurig subsamplen van de gegevens - een "10% jackknife" zou bijvoorbeeld inhouden dat 10% van de matrix vele malen willekeurig wordt bemonsterd om nodale ondersteuning te evalueren.

Posterior waarschijnlijkheid

Reconstructie van fylogenieën met behulp van Bayesiaanse gevolgtrekking genereert een posterieure verdeling van zeer waarschijnlijke bomen gezien de gegevens en het evolutionaire model, in plaats van een enkele "beste" boom. De bomen in de posterieure verdeling hebben over het algemeen veel verschillende topologieën. Wanneer de invoergegevens variant allelische frequentiegegevens (VAF) zijn, kan de tool EXACT de kansen van bomen exact berekenen, voor kleine, biologisch relevante boomgroottes, door de hele boomruimte uitputtend te doorzoeken. [29]

De meeste Bayesiaanse inferentiemethoden maken gebruik van een Markov-keten Monte Carlo-iteratie, en de eerste stappen van deze keten worden niet beschouwd als betrouwbare reconstructies van de fylogenie. Bomen die vroeg in de keten worden gegenereerd, worden meestal als inbranding weggegooid.De meest gebruikelijke methode voor het evalueren van nodale ondersteuning in een Bayesiaanse fylogenetische analyse is het berekenen van het percentage bomen in de posterieure distributie (na inbranden) die de knoop bevatten.

De statistische ondersteuning voor een knooppunt in Bayesiaanse gevolgtrekking zal naar verwachting de waarschijnlijkheid weerspiegelen dat een clade echt bestaat, gegeven de gegevens en het evolutionaire model. [41] Daarom is de drempel voor het accepteren van een knooppunt als ondersteund over het algemeen hoger dan voor bootstrapping.

Methoden voor het tellen van stappen Bewerken

Bremer support telt het aantal extra stappen dat nodig is om een ​​clade tegen te spreken.

Tekortkomingen Bewerken

Deze maatregelen hebben elk hun zwakke punten. Kleinere of grotere clades hebben bijvoorbeeld de neiging om grotere steunwaarden aan te trekken dan middelgrote clades, simpelweg als gevolg van het aantal taxa erin. [42]

Bootstrap-ondersteuning kan hoge schattingen van knooppuntondersteuning bieden als gevolg van ruis in de gegevens in plaats van het werkelijke bestaan ​​van een clade. [43]

Uiteindelijk is er geen manier om te meten of een bepaalde fylogenetische hypothese juist is of niet, tenzij de ware relaties tussen de onderzochte taxa al bekend zijn (wat kan gebeuren met bacteriën of virussen onder laboratoriumomstandigheden). Het beste resultaat dat een empirische fylogeneticus kan hopen te bereiken, is een boom met takken die goed worden ondersteund door het beschikbare bewijs. Er zijn verschillende mogelijke valkuilen geïdentificeerd:

Homoplasie bewerken

Bepaalde karakters zullen logischerwijs meer convergerend evolueren dan andere, dergelijke karakters zouden minder gewicht moeten krijgen bij de reconstructie van een boom. [44] Gewichten in de vorm van een evolutiemodel kunnen worden afgeleid uit sets van moleculaire gegevens, zodat maximale waarschijnlijkheid of Bayesiaanse methoden kunnen worden gebruikt om ze te analyseren. Voor moleculaire sequenties wordt dit probleem verergerd wanneer de onderzochte taxa aanzienlijk uiteen zijn gaan lopen. Naarmate de tijd sinds de divergentie van twee taxa toeneemt, neemt ook de kans op meerdere substituties op dezelfde plaats of terugmutaties toe, die allemaal leiden tot homoplasieën. Voor morfologische gegevens is helaas de enige objectieve manier om convergentie te bepalen de constructie van een boom - een enigszins circulaire methode. Toch wegen homoplasieuze karakters [ hoe? ] leidt inderdaad tot beter ondersteunde bomen. [44] Verdere verfijning kan worden bereikt door veranderingen in de ene richting hoger te wegen dan veranderingen in een andere, bijvoorbeeld, de aanwezigheid van borstvleugels garandeert bijna plaatsing tussen de pterygote-insecten omdat, hoewel vleugels vaak secundair verloren gaan, er geen bewijs is dat ze hebben meer dan eens gewonnen. [45]

Horizontale genoverdracht Bewerken

Over het algemeen kunnen organismen genen op twee manieren erven: verticale genoverdracht en horizontale genoverdracht. Verticale genoverdracht is de overdracht van genen van ouder naar nageslacht, en horizontale (ook wel laterale) genoverdracht vindt plaats wanneer genen tussen niet-verwante organismen springen, een veel voorkomend fenomeen, vooral bij prokaryoten. Een goed voorbeeld hiervan is de verworven antibioticaresistentie als gevolg van genuitwisseling tussen verschillende bacteriën leidt tot multiresistente bacteriesoorten. Er zijn ook goed gedocumenteerde gevallen van horizontale genoverdracht tussen eukaryoten geweest.

Horizontale genoverdracht heeft de bepaling van fylogenieën van organismen gecompliceerd, en inconsistenties in fylogenie zijn gemeld bij specifieke groepen organismen, afhankelijk van de genen die worden gebruikt om evolutionaire bomen te construeren. De enige manier om te bepalen welke genen verticaal zijn verworven en welke horizontaal, is door er spaarzaam van uit te gaan dat de grootste set genen die samen zijn geërfd verticaal zijn geërfd. Hiervoor moeten een groot aantal genen worden geanalyseerd.

Hybriden, soortvorming, introgressies en onvolledige afstammingssortering

De basisveronderstelling die ten grondslag ligt aan het wiskundige model van de cladistiek is een situatie waarin soorten netjes in tweeën splitsen. Hoewel een dergelijke veronderstelling op grotere schaal kan gelden (behalve horizontale genoverdracht, zie hierboven), is soortvorming vaak veel minder ordelijk. Onderzoek sinds de introductie van de cladistische methode heeft aangetoond dat hybride soortvorming, die ooit als zeldzaam werd beschouwd, in feite heel gewoon is, vooral bij planten. [46] [47] Ook parafyletische soortvorming is gebruikelijk, waardoor de aanname van een vertakkend patroon ongeschikt is, wat leidt tot fylogenetische netwerken in plaats van bomen. [48] ​​[49] Introgressie kan ook genen verplaatsen tussen anders verschillende soorten en soms zelfs geslachten, wat fylogenetische analyse op basis van genen bemoeilijkt. [50] Dit fenomeen kan bijdragen aan "onvolledige afstammingssortering" en wordt beschouwd als een algemeen verschijnsel in een aantal groepen. Bij analyse op soortniveau kan dit worden aangepakt door grotere bemonstering of betere analyse van het hele genoom. [51] Vaak wordt het probleem vermeden door de analyse te beperken tot minder, niet nauw verwante exemplaren.

Taxon bemonstering Bewerken

Door de ontwikkeling van geavanceerde sequentietechnieken in de moleculaire biologie is het mogelijk geworden om grote hoeveelheden gegevens (DNA- of aminozuursequenties) te verzamelen om fylogenetische hypothesen af ​​te leiden. Het is bijvoorbeeld niet zeldzaam om studies te vinden met karaktermatrices op basis van hele mitochondriale genomen (

16.000 nucleotiden, bij veel dieren). Simulaties hebben echter aangetoond dat het belangrijker is om het aantal taxa in de matrix te vergroten dan om het aantal karakters te vergroten, omdat hoe meer taxa er zijn, hoe nauwkeuriger en robuuster de resulterende fylogenetische boom is. [52] [53] Dit kan deels te wijten zijn aan het afbreken van lange takken.

Fylogenetisch signaal Bewerken

Een andere belangrijke factor die de nauwkeurigheid van boomreconstructie beïnvloedt, is of de geanalyseerde gegevens daadwerkelijk een bruikbaar fylogenetisch signaal bevatten, een term die over het algemeen wordt gebruikt om aan te geven of een personage langzaam genoeg evolueert om dezelfde staat te hebben in nauw verwante taxa in plaats van willekeurig te variëren . Tests voor fylogenetische signalen bestaan. [54]

Doorlopende tekens Bewerken

Morfologische karakters die een continuüm bemonsteren, kunnen een fylogenetisch signaal bevatten, maar zijn moeilijk te coderen als discrete karakters. Er zijn verschillende methoden gebruikt, waaronder gap-codering, en er zijn variaties op gap-codering. [55] In de oorspronkelijke vorm van gap coding: [55]

groepsmiddelen voor een teken worden eerst op grootte geordend. De gepoolde standaarddeviatie binnen de groep wordt berekend. en verschillen tussen aangrenzende middelen. worden vergeleken met deze standaarddeviatie. Elk paar aangrenzende gemiddelden wordt als verschillend beschouwd en krijgt verschillende gehele scores. als de gemiddelden worden gescheiden door een "gap" die groter is dan de standaarddeviatie binnen de groep. keer een willekeurige constante.

Als er meer taxa aan de analyse worden toegevoegd, kunnen de verschillen tussen taxa zo klein worden dat alle informatie verloren gaat. Gegeneraliseerde gap-codering omzeilt dat probleem door individuele taxaparen te vergelijken in plaats van één set te beschouwen die alle taxa bevat. [55]

Ontbrekende gegevens Bewerken

Over het algemeen geldt dat hoe meer gegevens beschikbaar zijn bij het construeren van een boom, hoe nauwkeuriger en betrouwbaarder de resulterende boom zal zijn. Ontbrekende gegevens zijn niet schadelijker dan simpelweg minder gegevens hebben, hoewel de impact het grootst is wanneer de meeste ontbrekende gegevens zich in een klein aantal taxa bevinden. Door de ontbrekende gegevens over een klein aantal tekens te concentreren, ontstaat een robuustere boomstructuur. [56]

Omdat bij veel karakters embryologische, zachte of moleculaire karakters betrokken zijn die (in het beste geval) bijna nooit fossiliseren, en de interpretatie van fossielen dubbelzinniger is dan die van levende taxa, hebben uitgestorven taxa bijna altijd meer ontbrekende gegevens dan levende. Ondanks deze beperkingen is het opnemen van fossielen echter van onschatbare waarde, omdat ze informatie kunnen verschaffen in schaarse gebieden van bomen, lange takken afbreken en tussenliggende karaktertoestanden beperken. Fossiele taxa dragen dus evenveel bij aan de resolutie van bomen als moderne taxa. [57] Fossielen kunnen ook de leeftijd van geslachten beperken en zo aantonen hoe consistent een boom is met het stratigrafische record [58] stratocladistics neemt leeftijdsinformatie op in datamatrices voor fylogenetische analyses.