Informatie

Waarden van Miu_max en Ks uit parameterschatting?


Achtergrond

Ik heb dit eenvoudige biomassagroeimodel: $$ mu = mu_{max}cdot left(frac{S}{K_S+S} ight) cdot left(frac{1}{1+S /K_{iS}} ight) cdot left(frac{K_{iP}}{K_{iP}+P} ight) frac{dX}{dt} = mu cdot X frac{dS}{dt} = -1 cdot ( frac{mu}{Y_{XS}} cdot X + mS cdot X) frac{dP}{dt} = a cdot frac{dX}{dt} + b cdot X$$

Probleem

Ik kan het model aanpassen aan experimentele gegevens (zie de figuur), maar de waarden van $mu_{max}$ of $K_S$ zijn vaak vrij onrealistisch. In deze grafiek is de $mu_{max}$ 3,9 en $K_S$ is 10.

Vraag

Aangezien $mu_{max}$ en $K_S$ begrensd zijn in op Monod gebaseerde $mu$-expressies, is het dan mogelijk om echte waarden van beide specifieke parameters te krijgen door middel van parameterschattingstechnieken? Of moet een van deze parameters op een andere manier worden verkregen?


Een eenvoudige methode voor het identificeren van parametercorrelaties in gedeeltelijk waargenomen lineaire dynamische modellen

Het schatten van parameters vormt een van de belangrijkste uitdagingen in de systeembiologie. Dit komt omdat biologische modellen gewoonlijk een groot aantal parameters bevatten waaronder functionele onderlinge verbanden kunnen bestaan, wat leidt tot het probleem van niet-identificeerbaarheid. Hoewel identificeerbaarheidsanalyse uitgebreid is bestudeerd door zowel analytische als numerieke benaderingen, zijn systematische methoden voor het verhelpen van praktisch niet-identificeerbare modellen zelden onderzocht.

Resultaten

We stellen een eenvoudige methode voor om paarsgewijze correlaties en hogere-orde-interrelaties van parameters in gedeeltelijk waargenomen lineaire dynamische modellen te identificeren. Dit wordt gedaan door afleiding van de uitvoergevoeligheidsmatrix en analyse van de lineaire afhankelijkheden van de kolommen. Hierdoor kunnen analytische relaties tussen de identificeerbaarheid van de modelparameters en de beginvoorwaarden evenals de invoerfuncties worden bereikt. In het geval van structurele niet-identificeerbaarheid, kunnen identificeerbare combinaties worden verkregen door de resulterende homogene lineaire vergelijkingen op te lossen. In het geval van praktische niet-identificeerbaarheid kunnen experimentomstandigheden (d.w.z. begintoestand en constante stuursignalen) worden verschaft die nodig zijn om de niet-identificeerbaarheid en unieke parameterschatting te verhelpen. Opgemerkt wordt dat de benadering geen ruisrijke gegevens in aanmerking neemt. Op deze manier kan het praktische niet-identificeerbaarheidsprobleem, dat populair is voor lineaire biologische modellen, worden verholpen. Verschillende lineaire compartimentmodellen, waaronder een insulinereceptordynamicamodel, worden gebruikt om de toepassing van de voorgestelde benadering te illustreren.

Conclusies

Zowel structurele als praktische identificeerbaarheid van gedeeltelijk waargenomen lineaire dynamische modellen kan worden verduidelijkt met de voorgestelde methode. Het resultaat van deze methode biedt belangrijke informatie voor het experimentele ontwerp om de praktische niet-identificeerbaarheid te verhelpen, indien van toepassing. De afleiding van de methode is eenvoudig en dus kan het algoritme gemakkelijk worden geïmplementeerd in een softwarepakket.


Criteria voor convergentie bij gebruik in gemak

Nu we hebben geleerd over convergentie, gaan we eens kijken naar de criteria in het gemakspakket:

De output van een fylogenetische analyse bestaat meestal uit twee soorten parameters:

  • Continue parameters: de evolutionaire modelparameters, de boomlengte, kloksnelheden, enz.
  • Discrete parameters: de fylogenetische boom.

Om de convergentie voor deze parameters te beoordelen, evalueert het Convenience-pakket:

  • De effectieve steekproefomvang (ESS)
  • Vergelijking tussen vensters van dezelfde run
  • Vergelijking tussen verschillende runs.

De vergelijking tussen vensters van dezelfde run werkt door de volledige lengte van de run in 5 vensters (subsets) te verdelen en het derde en vijfde venster te vergelijken. Deze vergelijking wordt gebruikt om de grootte van de inbranding te bepalen. Een voldoende inbranding zal leiden tot vensters die waarden uit dezelfde distributie hebben gesampled. Het vinden van de juiste inbrandgrootte gebeurt automatisch in het Convenience-pakket. Het pakket test inbranding van 0, 10%, 20%, 30%, 40% en 50%. Als de vereiste inbranding hoger is dan 50% van de lengte van de MCMC, raden we aan om de MCMC opnieuw uit te voeren.
In figuur kunnen we een traceerplot voor de boomlengte zien uit het voorbeeld in deze zelfstudie. De trace plot toont de bemonsterde waarden over de iteraties van de MCMC. De gemarkeerde gebieden van de afbeelding tonen het derde en vijfde venster van de run.

Trace plot van de boomlengte voor onze voorbeeldanalyse. De gearceerde gebieden tonen het derde en vijfde venster van de run.

Hoe vergelijken we vensters en runs?

Voor de continue parameters wordt de vergelijking gemaakt met de two-sample Kolmogorov-Smirnov (KS) test, een niet-parametrische statistische test voor gelijkheid van kansverdelingen. Twee steekproeven zijn gelijk als de KS-waarde onder een bepaalde drempel ligt. De KS-waarde (D) wordt berekend:

F(x) en G(x) zijn de empirische verdelingsfuncties voor de steekproeven met grootte m en N, respectievelijk. De twee steekproeven worden getrokken uit verschillende distributies, op niveau $alpha$, wanneer:

De fylogenetische boom wordt geëvalueerd met betrekking tot de bipartities of splitsingen. Daarom worden de vergelijkingen gemaakt met behulp van de frequentie van een bepaalde splitsing tussen intervallen van dezelfde run of tussen verschillende runs.

Twee voorbeeldbomen met punten A, B, C, D en de spleten die bij elke boom te zien zijn.

Drempels

De huidige staat van convergentiebeoordeling in de Bayesiaanse fylogenetica is voornamelijk afhankelijk van visuele hulpmiddelen (bijv. Tracer) en ESS-drempels die geen duidelijke theorie hebben om ze te ondersteunen (Rambaut et al. 2018). De motivatie voor het Convenience-pakket is om een ​​gebruiksvriendelijk kader te bieden met duidelijke drempels voor elk convergentiecriterium.

We leiden een minimumwaarde voor de ESS af op basis van een normale verdeling en de standaardfout van het gemiddelde (SEM). Hoeveel fout in onze schatting van het posterieure gemiddelde moeten we acceptabel vinden? Het is duidelijk dat de gemiddelde schatting voor een verdeling met een grote variantie niet zo nauwkeurig hoeft te zijn als de gemiddelde schatting voor een verdeling met een kleine variantie. Welk percentage is echter acceptabel ten opzichte van de variantie/spreiding van de verdeling? We stellen voor om een ​​SEM te gebruiken die kleiner is dan 1% van het 95%-kansinterval van de verdeling, wat overeenkomt met te zeggen dat de toegestane fout van het gemiddelde vier keer de standaarddeviatie van de verdeling is. (Merk op dat u een andere ESS-waarde kunt afleiden voor elke andere drempel die u wilt.) Uit deze SEM kunnen we de ESS afleiden met:

Een ESS van 625 is daarom de standaardwaarde voor het gemakspakket.

Voor de KS-test is de drempel de kritische waarde voor $alpha$ = 0,01 en de steekproefomvang is de berekende drempel voor de ESS, 625. Met deze waarden is de drempel voor de KS-test $_$ = 0.0921.

Frequenties splitsen

Tot op heden is de meest gebruikte test om convergentie van gesplitste frequenties te beoordelen de gemiddelde standaarddeviatie van gesplitste frequenties (ASDSF) (Nylander et al. 2008). De frequentie van elke splitsing wordt berekend voor twee afzonderlijke MCMC-runs en het verschil tussen de twee schattingen van de splitsingsfrequentie wordt gebruikt. De ASDSF is om twee redenen problematisch: (1) voor grote bomen met veel splitsingen met een posterieure kans van bijna 0,0 of 1,0 zal de ASDSF overweldigen en dus zelfs een enkele splitsing die aanwezig is in alle monsters in run 1 (dus een posterieure kans van 1,0) en is nooit aanwezig in een monster in run 2 (dus een posterieure waarschijnlijkheid van 0,0) wordt mogelijk niet gedetecteerd, en (2) het verwachte verschil in splitsingsfrequentie hangt af van de werkelijke splitsingsfrequentie (zie afbeelding ).

Het verwachte verschil in gesplitste frequenties voor ESS van 100, 200 en 625. De x-as is de werkelijke waarde van de gesplitste frequentie. De y-as is het verwachte verschil in gesplitste frequenties. Het effect van het verhogen van de ESS is de afname van verschillen in frequentie van gesamplede splitsingen.

In plaats van de ASDSF gebruiken we de ESS van elke splitsing. We transformeren elke splitsing in een keten van afwezigheids- en aanwezigheidswaarden als de splitsing aanwezig was in de i-de boom, dan scoren we de i-de waarde van de keten als een 1 en anders 0. Deze opeenvolging van afwezigheids- en aanwezigheidswaarnemingen (0s en 1s) stelt ons in staat om standaardmethoden toe te passen om ESS-waarden te berekenen en dus kunnen we dezelfde ESS-drempel van 625 gebruiken als voor onze continue parameters.

Met de ESS-drempel voor de splitsingen kunnen we het verwachte verschil in splitsingsfrequenties (EDSF) schatten en het 95% kwantiel gebruiken als drempel voor de splitsingsverschillen. Het verwachte verschil ($ [Delta^_

] $) tussen twee steekproeven wordt berekend als het ‘gemiddelde absolute verschil’, met N als de ESS:

[[Delta^_

] = somlimieten_^N somlimieten_^N links(|frac - frac| ijden P_(i|N,p) maal P_(j|N,p) echts)]

Samenvatting

geeft een overzicht van de eerder beschreven convergentiebeoordeling en geïmplementeerd in het pakket Convenience.

Overzicht van de workflow in de convergentiebeoordeling.


PRESENTATIE VAN AnaBioPlus

AnaBioPlus versie 1.0 is ontwikkeld met als doel onderzoekers en studenten te helpen bij de analyse van bioreactoren. Het is een niet-commercieel softwarepakket dat bestaat uit twee programma's: OptimusFerm en SimulaFerm. OptimusFerm is software voor het schatten van kinetische parameters van kinetische modellen voor celgroei, en SimulaFerm is een simulator voor bioprocessen. Het pakket heeft een gebruiksvriendelijke interface, die de gebruiker gemakkelijk toegang geeft tot programmabronnen. AnaBioPlus heeft enkele routines (uitvoerbaar, *.dll) in Fortran ® . De software is ontwikkeld met Microsoft Visual Basic ® en is beschikbaar in een Portugese en Engelse versie.

OptimusFerm versie 1.0 is gratis software voor het schatten van de parameters van kinetische modellen voor celgroei. Het schatten van parameters bestaat uit het vinden van een optimale set parameters die een of meer objectieve functies maximaliseren (of minimaliseren), met of zonder beperkingen. In dit werk is het op te lossen probleem een ​​niet-lineaire optimalisatie, waarbij de objectieve functie (Φ) wordt geminimaliseerd (Vgl. 1). De beperkingen (Vgl. 2) zijn de boven- en ondergrenzen van de te schatten parameters, Bl, die door de gebruiker worden gedefinieerd. De experimentele en berekende concentraties van substraat, biomassa en product zijn genormaliseerd in de objectieve functie (Φ) om overmatige wegingen in de dataset te voorkomen. De experimentele en berekende waarden van elke afhankelijke variabele worden geschaald met behulp van de maximale waarde die voor die variabele is gevonden in de dataset. Wanneer meerdere batchruns worden gebruikt, wordt de maximale waarde van elke variabele gezocht in de dataset van elke batch.

Er kunnen veel benaderingen worden gebruikt voor parameterschatting, variërend van klassieke deterministische methoden, zoals Levenberg-Marquardt (LM), tot nieuwere methoden op basis van ecologisch en biologisch gedrag, zoals evolutionaire algoritmen (EA's). De laatste hebben veel voordelen ten opzichte van conventionele niet-lineaire programmeertechnieken, waaronder geen vereiste voor de gradiënten van de kosten- of beperkingsfuncties, eenvoudige implementatie en minder kans om vast te komen te zitten in een lokaal minimum ( Nelles, 2001 Nelles, O. Niet-lineaire systeemidentificatie: van klassieke benaderingen tot neurale netwerken en fuzzy-modellen. Berlijn, Heidelberg: Springer-Verlag (2001). Lang et al., 2013 Long W., Liang X., Huang Y., Chen Y., Een hybride differentiële evolutie, verbeterde Lagrangiaanse methode voor beperkte numerieke en technische optimalisatie, Computer-Aided Desig, 45, p.1562-1574 (2013). ).

De evolutionaire algoritmeklasse bevat verschillende families van methoden, die verschillende voor- en nadelen hebben. Bij het ontwikkelen van OptimusFerm werd een differentiële evolutie (DE) algoritme gebruikt. Differentiële evolutie is een heuristische methode om mogelijke niet-lineaire en niet-differentieerbare continue ruimtefuncties te minimaliseren. Evolutionaire algoritmen zijn effectief gebleken bij het oplossen van veel technische optimalisatieproblemen en hebben het voordeel dat ze minder gevoelig zijn voor lokale minima. Het DE-algoritme heeft veel nuttige kenmerken, zoals eenvoudige implementatie, vereiste voor slechts een paar controlevariabelen en robuustheid ( Nelles, 2001 Nelles, O. Niet-lineaire systeemidentificatie: van klassieke benaderingen tot neurale netwerken en fuzzy-modellen. Berlijn, Heidelberg: Springer-Verlag (2001). ). Bovendien vereist het DE-algoritme geen parameterinitialisatie, in tegenstelling tot afgeleide methoden (zoals de LM-methode). Als bij afgeleide methoden een initiële set slechte parameterwaarden is ingesteld, kan de methode afwijken. Bovendien kunnen de meeste complexe real-world toepassingen met deze methode worden opgelost ( Storn en prijs, 1997 Storn R., Price K., Differential Evolution - Een eenvoudig en efficiënt adaptief schema voor globale optimalisatie over continue ruimtes, Journal of Global Optimization, 11, p.341-359 (1997). ).

OptimusFerm bevat32 niet-gescheiden en ongestructureerde kinetische modellen van celgroei (μ). Deze modellen zijn onderverdeeld in verschillende categorieën: geen remming, substraatremming, productremming, cellulaire remming en hybride remming. Tabel 1 toont enkele van de modellen die in de software aanwezig zijn.

De Runge-Kutta-methode van de 4e orde wordt gebruikt om de reeks gewone differentiaalvergelijkingen op te lossen die de massabalans voor biomassa, substraat en product beschrijven in de operationele modus van de bioreactor. In de SimulaFerm-software zijn vijf verschillende soorten teelt beschikbaar (batch, fed-batch, continu zonder celrecycling, continu met externe celrecycling en continu met interne celrecycling). Als voorbeeld wordt een set massabalansen voor batchteelt beschreven door vergelijkingen. 12-14.


Discussie en conclusie

We vergeleken en benchmarkden de effecten van het gebruik van verschillende uitlijnings- en kaartstrategieën voor RNA-seq-kwantificering en bespraken de voorbehouden die door verschillende benaderingen worden geïmpliceerd. We hebben vastgesteld dat methoden die traditionele uitlijning van de uitlezingen tegen het transcriptoom uitvoeren, resultaten kunnen opleveren die soms aanzienlijk verschillen van de resultaten die worden geproduceerd door lichtgewicht mapping-methoden. We hebben ook waargenomen dat het uitvoeren van gesplitste uitlijning met het genoom en vervolgens het projecteren van deze uitlijningen op transcriptoom ook uiteenlopende resultaten kan opleveren in vergelijking met rechtstreekse uitlijning met het transcriptoom.

Tegelijkertijd hebben we een nieuwe hybride uitlijningsmethode, SA, voorgesteld en gebenchmarkt, die een efficiënt alternatief biedt voor lichtgewicht kartering die resultaten oplevert die veel dichter in de buurt komen van wat wordt verkregen door traditionele uitlijning uit te voeren. Deze benadering overwint de tekortkomingen van lichtgewicht mapping, zowel in termen van gevoeligheid als specificiteit, omdat het in staat is om geschikte uitlijningen te bepalen wanneer lichtgewicht benaderingen suboptimale mappings of geen mapping opleveren, en het is ook in staat om de optimale uitlijningsloci tussen een set beter te onderscheiden van anderszins vergelijkbare sequenties. Enkele belangrijke verschillen die leiden tot de verbeterde nauwkeurigheid van SA zijn een toename van de mapping-gevoeligheid (dwz er worden meer initiële mapping-loci onderzocht), een uitgebreider en systematischer mechanisme voor het scoren van potentiële mapping-loci (gebruik makend van het match chaining-algoritme van [41] ]), en een daadwerkelijke uitlijningsscorefase die nauwkeurige informatie geeft over de kwaliteit van elke bewaarde toewijzing, waardoor valse toewijzingen kunnen worden gefilterd die niet moeten worden gerapporteerd. Bovendien kan de SA-benadering als invoer een reeks loksequenties gebruiken, waardoor het enkele van de valse transcriptoomtoewijzingen die door Bowtie2 zijn gerapporteerd, kan vermijden, terwijl de uitlezing in werkelijkheid beter overeenkomt met een niet-geannoteerde genomische locus dan met het geannoteerde transcriptoom.

De resultaten van het benchmarken van de verschillende benaderingen op meerdere gesimuleerde en experimentele datasets leiden tot een aantal conclusies. Ten eerste, ondanks het feit dat er grote vooruitgang is geboekt bij het verbeteren van het realisme van gesimuleerde RNA-seq-gegevens, zijn er nog steeds talloze manieren waarop gesimuleerde gegevens de fijne kneepjes en uitdagingen van experimentele gegevens niet kunnen recapituleren. Een daarvan is het feit dat simulaties bijna altijd worden uitgevoerd op precies hetzelfde transcriptoom dat wordt gebruikt voor kwantificering, terwijl in experimentele monsters individuele variatie bestaat tussen het monster dat wordt getest en het transcriptoom dat wordt gebruikt voor kwantificering. Een ander effect dat niet vaak wordt vastgelegd in simulatie, maar veel voorkomt in echte gegevens, is de sequentiëring van uitlezingen van niet-geannoteerde, alternatief gesplitste transcripten, van transcripten met behouden introns, van anderszins niet-geannoteerde genomische loci die sequentie-overeenkomst delen met geannoteerde transcripten, en van contaminatie met het monster die tot op zekere hoogte sequentieovereenkomst kunnen delen met het doeltranscriptoom. Deze effecten, samen met andere die we in dit manuscript niet volledig hebben gekarakteriseerd, maken uitlijning en kwantificering in experimentele monsters veel uitdagender dan in gesimuleerde gegevens. Daarom hebben we vastgesteld dat bij het kwantificeren van een brede steekproef van experimentele datasets, de kwantificeringsresultaten die zijn verkregen met behulp van verschillende mapping- en uitlijningsbenaderingen aanzienlijke variatie kunnen aantonen. Samen suggereren deze resultaten dat kwantificering die puur gebaseerd is op lichtgewicht mapping-benaderingen niet de nauwkeurigheid kan bereiken die kan worden verkregen door dezelfde inferentie-algoritmen bij het gebruik van traditionele uitlijningen en dat deze fouten in kwantificering ook van invloed kunnen zijn op downstream-analyses, zelfs op genniveau (zoals besproken in de sectie "Kwantificeringsverschillen kunnen van invloed zijn op differentiële genexpressie-analyse"). Het suggereert ook dat er praktische ruimte voor verbetering is, zelfs in de meest nauwkeurige bestaande uitlijningsbenaderingen, in ieder geval om de overvloed aan geannoteerde transcripten te kwantificeren.

Hoewel eerder is gemeld [42] dat pseudo-uitlijning met het transcriptoom resulteert in een vergelijkbare kwantificeringsnauwkeurigheid als uitlijning met het genoom, suggereren de analyses die in dit manuscript zijn uitgevoerd dat uitlijning met het transcriptoom, lichtgewicht mapping naar het transcriptoom en uitlijning met het genoom opleveren. kwantificeringsresultaten die soms sterk verschillen. Er zijn een paar redenen waarom de analyses in dit artikel tot een andere conclusie over deze vraag leiden. Ten eerste ligt de focus hier veel meer op experimentele dan op gesimuleerde gegevens. Hoewel we ontdekten dat er verschillen zijn tussen lichtgewicht mapping en uitlijning in simulatie, is de omvang van hun effect op kwantificering over het algemeen veel kleiner dan wordt waargenomen in experimentele gegevens. Ten tweede, hoewel lichtgewicht mapping naar het transcriptoom en uitlijning naar het genoom verschillende kwantificatieresultaten opleveren, hebben we ook traditionele uitlijning met het transcriptoom overwogen, waarbij we verder gaan met de verschillende algemene benaderingen die worden gevolgd bij het uitlijnen van leesbewerkingen voorafgaand aan transcriptkwantificering. Ten slotte, Yi et al. [42] zowel uitlijningen als pseudo-uitlijningen voorverwerken tot tellingen van equivalentieklassen (de telling van fragmenten die compatibel worden geacht met verschillende subsets van transcripten). Vervolgens wordt op basis van deze gereduceerde statistieken een schatting van de overvloed uitgevoerd. Deze transformatie verwerpt factoren die bijdragen aan voorwaardelijke fragmenttoewijzingskansen zoals uitlijningsscores (indien van toepassing), fragmentlengtes, fragmentposities, enz. In de hier gepresenteerde analyse hebben we rekening gehouden met dergelijke voorwaardelijke fragmentwaarschijnlijkheden in de online fase van transcriptkwantificering en opgenomen ze (ongeveer) in de voldoende statistieken via het gebruik van range-factorized equivalentieklassen [43]. Het negeren van dergelijke voorwaardelijke kansen zou mogelijk de werkelijke verschillen in de onderliggende afbeeldingen kunnen verminderen die, afhankelijk van de complexiteit van het kwantificeringsmodel, een effect kunnen hebben op kwantificeringsschattingen. Al deze factoren kunnen de soms aanzienlijke verschillen in kwantificeringsnauwkeurigheid verklaren die stroomafwaarts van verschillende lichtgewicht mapping- en uitlijnprocedures worden waargenomen. Hoewel we ons hebben gericht op kwantificering en differentiële expressie, kunnen de waarnemingen in dit manuscript over de gevoeligheid en nauwkeurigheid van verschillende uitlijningsbenaderingen zich ook uitstrekken tot andere stroomafwaartse analyses, zoals trans-acting expression kwantitatieve trait locus (eQTL) detectie [44].

Gezien alleen de resultaten op gesimuleerde gegevens, zou men de voorkeur kunnen geven aan kwantificering op basis van uitlijning of lichtgewicht mapping van sequencing die rechtstreeks naar het transcriptoom wordt gelezen, in plaats van uitlijning met het genoom gevolgd door projectie naar het transcriptoom. Men zou ook slechts kleine verschillen waarnemen tussen lichtgewicht mapping en uitlijning met het transcriptoom. Onze analyses in experimentele gegevens suggereerden echter dat de toegenomen complexiteit in echte RNA-seq-experimenten leidt tot meer afwijkend gedrag. In zowel de geanalyseerde bulk- als full-length eencellige monsters, leverde SAF de hoogste algehele correlatie met het orakel op, ondanks het feit dat het orakel is afgeleid van een combinatie van de Bowtie2- en STAR-uitlijningsresultaten. Van de methoden die gebaseerd zijn op traditionele uitlijning, leek uitlijning met het genoom (met behulp van STAR en het projecteren van de resulterende uitlijningen naar het transcriptoom) gemiddeld de beste overeenstemming te vertonen met de kwantificeringen die het resultaat waren van orakeluitlijningen. SA leverde een vergelijkbare maar iets betere nauwkeurigheid op dan uitlijning met het transcriptoom met behulp van Bowtie2. Dit is waarschijnlijk gedeeltelijk omdat het verantwoordelijk is voor de sequentie vergelijkbare lokvogels die kunnen leiden tot uitlijning naar alleen het doeltranscriptoom op een dwaalspoor. Het belangrijkste voordeel van SAF is dat het overeenkomt met een referentie-index die zowel de volledig gesplitste transcriptsequenties als het volledige onderliggende genoom (als potentiële loksequentie) bevat. Dit stelt SAF in staat om het type gevoeligheid te verkrijgen dat wordt vertoond door benaderingen zoals Bowtie2 en SA wanneer het lezen echt voortkomt uit het geannoteerde transcriptoom, maar stelt het ook, net als STAR, in staat om te voorkomen dat een read oneigenlijk wordt uitgelijnd met een geannoteerd transcript wanneer het beter is verklaard door een andere genomische locus. In de experimentele gegevens presteerden zowel op uitlijning gebaseerde benaderingen als selectieve uitlijningsmethodologieën beter dan quasi-mapping, hoewel de manier waarop deze methoden verschillen van quasi-mapping en van elkaar, niet identiek was.

Bij het kiezen van een benadering kan de gebruiker die de analyse uitvoert een keuze maken op basis van een tijd-nauwkeurigheidsafweging die hij wenst te maken. Qua snelheid zagen we dat quasi-mapping de snelste benadering is, gevolgd door SA en SAF en vervolgens STAR. Bowtie2 was aanzienlijk langzamer dan alle drie deze benaderingen. In termen van nauwkeurigheid vonden we echter dat SAF de beste resultaten opleverde, gevolgd door uitlijning met het genoom (met daaropvolgende transcriptomische projectie) met behulp van STAR en SA (met behulp van zorgvuldig geselecteerde loksequenties). Bowtie2 presteerde over het algemeen op dezelfde manier als SA, maar zonder het voordeel van loksequenties, leek meer valse mappings toe te laten. Ten slotte vertoonde lichtgewicht mapping van sequencing-lezingen naar het transcriptoom de laagste algehele consistentie met kwantificaties afgeleid van de orakeluitlijningen. De analyses die in dit manuscript zijn uitgevoerd, suggereren dat, met betrekking tot nauwkeurige kwantificering van geannoteerde transcripten, uitlijningsscores een belangrijk onderdeel zijn, maar de verschillende reeds bestaande uitlijningsbenaderingen blinken uit in verschillende gevallen. SA onderneemt stappen om de tekortkomingen van bestaande op afstemming gebaseerde benaderingen aan te pakken zonder grote concessies te doen aan de snelheid. Dit wordt gedaan door delen van het genoom te indexeren waarvan de sequentie vergelijkbaar is met het transcriptoom of, zoals in het geval van SAF, het gehele genoom naast het geannoteerde transcriptoom, waardoor de gevoeligheid van Bowtie2 in transcriptomische uitlijning wordt vertoond, terwijl de valse uitlijning wordt vermeden van reads die niet echt afkomstig zijn van een geannoteerd transcript, zoals STAR. Deze benadering leek de hoogste algehele nauwkeurigheid te bieden, althans voor het kwantificeren van een geannoteerde set transcripties.


Kolmogorov-Smirnov en gerelateerde tests: Gebruik en misbruik

Statistiekcursussen, vooral voor biologen, gaan uit van formules = begrijpen en leren hoe statistiek moet worden gedaan, maar negeren grotendeels wat die procedures veronderstellen en hoe hun resultaten misleiden wanneer die aannames onredelijk zijn. Het resulterende misbruik is, laten we zeggen, voorspelbaar.

Gebruik en misbruik

Deze tests bieden een manier om verdelingen te vergelijken, of het nu gaat om twee steekproefverdelingen of een steekproefverdeling met een theoretische verdeling. De verdelingen worden in hun cumulatieve vorm vergeleken als empirische verdelingsfuncties. De teststatistiek die Kolmogorov en Smirnov ontwikkelden om verdelingen te vergelijken, was simpelweg de maximale verticale afstand tussen de twee functies. Kolmogorov-Smirnov-tests hebben het voordeel dat (a) de verdeling van de statistiek niet afhangt van de cumulatieve verdelingsfunctie die wordt getest en (b) de test exact is. Ze hebben het nadeel dat ze gevoeliger zijn voor afwijkingen nabij het centrum van de verdeling dan aan de staarten.

Zowel de één- als de tweesteekproef Kolmogorov-Smirnov en verwante tests worden veel gebruikt in alle disciplines. Helaas wordt de Kolmogorov-Smirnov-test met één steekproef vaak misbruikt om de normaliteit te testen wanneer de parameters van de normale verdeling geschat op basis van de steekproef in plaats van a priori gespecificeerd. Het resultaat is dat de test veel te conservatief is, en verdelingen die duidelijk niet normaal zijn, worden ten onrechte als zodanig geclassificeerd. Deze praktijk wordt misschien versterkt door een soms onverholen verlangen om normaliteit aan te tonen, zodat latere parametrische tests kunnen worden uitgevoerd. De situatie wordt er niet beter op dat verschillende softwarepakketten onduidelijk zijn over welke test wordt gebruikt. De juiste test om te gebruiken om te testen op normaliteit wanneer de parameters van de normale verdeling worden geschat op basis van de steekproef, is de Lilliefors-test.

Als het gaat om de goedheid van fit voor discrete distributies, kan de test worden aangepast om de juiste P-waarde te geven, en verschillende pakketten bieden software om de goedheid van fit te testen voor de Poisson-distributie en de Zipf-distributie. Er is echter geen Lilliefors-equivalent voor deze verdelingen, dus opnieuw kunnen parameters niet worden geschat op basis van de steekproef. Een tweede groot probleem komt voort uit het testen van discrete variabelen tegen continue distributiefuncties. We geven een bekend voorbeeld waarbij een Kolmogorov-Smirnov-test van de laatste cijfers van P-waarden (een discrete variabele) suggereerde dat ze afweken van de verwachte (continue) uniforme verdeling. De test gaf echter de verkeerde P-waarde omdat de test met veel verbanden veel te liberaal is. Een meer fundamentele fout die we bij alle goodness of fit-tests vinden, is een verkeerde interpretatie van een kleine P-waarde om een ​​'goede fit' aan te geven. In feite betekent het natuurlijk het tegenovergestelde, maar onderzoekers zijn zo doordrongen van de behoefte aan significantie dat ze vergeten dat, met goodness of fit-tests, een significant resultaat een afwijking van de 'nul'-verdeling betekent.

Bij de test met twee steekproeven is de vraag meestal: wat wil je vergelijken? Een Kolmogorov-Smirnov-test vergelijkt de algemene distributies in plaats van specifiek locaties of dispersies. Over het algemeen hebben we geconstateerd dat de test in dit opzicht correct wordt gebruikt. Maar er is hetzelfde probleem als bij de one-sample-test over de interpretatie van niet-significante P-waarden. In sommige gevallen lijken auteurs te denken dat ze de nulhypothese hebben bewezen, en dat twee verdelingen dus 'dezelfde' zijn. Dit lijkt misschien nogal pedant, maar het is belangrijk. De Kolmogorov-Smirnov-test heeft vrij weinig power tegen de nulhypothese bij het vergelijken van distributies, en voor kleine steekproefomvang zouden de twee distributies volledig verschillend moeten zijn voordat deze test een significant verschil laat zien.

Wat de statistici zeggen

Khamis et al. (2000) (1992) stellen een wijziging van de test voor die de power voor kleine tot middelgrote steekproeven verbetert. Harter et al. (1984) laten zien dat je voor en na elke stap van de cumulatieve verdeling rekening kunt houden met verschillen tussen waargenomen en verwachte frequenties door 0,5 van elke waargenomen frequentie af te trekken. Lilliefors (1967) toonde aan dat de Kolmogorov-Smirnov-test met één steekproef te conservatief is als de verwachte frequenties worden berekend met behulp van parameters die uit de steekproef worden geschat - algemeen getabelleerde (en softwarematige) waarden zijn alleen geldig voor een volledig gedefinieerde verdeling. Anderson & Darling (1952) stelden de Anderson-Darling-test voor en Stephens (1974) wijzigde deze voor gebruik wanneer de distributie niet volledig gespecificeerd is.


Waarden van Miu_max en Ks uit parameterschatting? - Biologie

In veel aride en semi-aride landen wordt water een steeds schaarser wordende hulpbron en zijn planners genoodzaakt om alle bronnen van water in overweging te nemen die economisch en effectief kunnen worden gebruikt om verdere ontwikkeling te bevorderen. Tegelijkertijd, nu de bevolking in een hoog tempo groeit, is de behoefte aan verhoogde voedselproductie duidelijk. Het potentieel van irrigatie om zowel de landbouwproductiviteit als de levensstandaard van de armen op het platteland te verhogen, wordt al lang erkend. Geïrrigeerde landbouw beslaat ongeveer 17 procent van 's werelds totale landbouwgrond, maar de productie van dit land omvat ongeveer 34 procent van het wereldtotaal. Dit potentieel is nog meer uitgesproken in droge gebieden, zoals het Nabije Oosten, waar slechts 30 procent van het landbouwareaal wordt geïrrigeerd, maar het produceert ongeveer 75 procent van de totale landbouwproductie. In dezelfde regio wordt meer dan 50 procent van de voedselbehoefte geïmporteerd en de stijging van de vraag naar voedsel is groter dan de stijging van de landbouwproductie.

Wanneer water van goede kwaliteit schaars is, zal water van marginale kwaliteit moeten worden overwogen voor gebruik in de landbouw. Hoewel er geen universele definitie van water van 'marginale kwaliteit' bestaat, kan het voor alle praktische doeleinden worden gedefinieerd als water met bepaalde kenmerken die problemen kunnen veroorzaken wanneer het voor een bepaald doel wordt gebruikt. Zo is brak water een water van marginale kwaliteit voor gebruik in de landbouw vanwege het hoge gehalte aan opgelost zout, en is gemeentelijk afvalwater water van marginale kwaliteit vanwege de bijbehorende gezondheidsrisico's. Vanuit het oogpunt van irrigatie vereist het gebruik van water van 'marginale' kwaliteit complexere beheerspraktijken en strengere controleprocedures dan wanneer water van goede kwaliteit wordt gebruikt. Deze publicatie gaat over het gebruik in de landbouw van stedelijk afvalwater, dat voornamelijk huishoudelijk afvalwater is, maar mogelijk ook een deel van het industriële afvalwater bevat dat op openbare rioleringen wordt geloosd.

Uitbreiding van de stedelijke bevolking en een grotere dekking van de huishoudelijke watervoorziening en riolering leiden tot grotere hoeveelheden gemeentelijk afvalwater. Met de huidige nadruk op milieugezondheid en waterverontreinigingskwesties, is er een toenemend bewustzijn van de noodzaak om dit afvalwater veilig en voordelig te verwijderen. Het gebruik van afvalwater in de landbouw kan een belangrijke overweging zijn wanneer de verwijdering ervan wordt gepland in aride en semi-aride regio's. However it should be realized that the quantity of wastewater available in most countries will account for only a small fraction of the total irrigation water requirements. Nevertheless, wastewater use will result in the conservation of higher quality water and its use for purposes other than irrigation. As the marginal cost of alternative supplies of good quality water will usually be higher in water-short areas, it makes good sense to incorporate agricultural reuse into water resources and land use planning.

Properly planned use of municipal wastewater alleviates surface water pollution problems and not only conserves valuable water resources but also takes advantage of the nutrients contained in sewage to grow crops. The availability of this additional water near population centres will increase the choice of crops which farmers can grow. The nitrogen and phosphorus content of sewage might reduce or eliminate the requirements for commercial fertilizers. It is advantageous to consider effluent reuse at the same time as wastewater collection, treatment and disposal are planned so that sewerage system design can be optimized in terms of effluent transport and treatment methods. The cost of transmission of effluent from inappropriately sited sewage treatment plants to distant agricultural land is usually prohibitive. Additionally, sewage treatment techniques for effluent discharge to surface waters may not always be appropriate for agricultural use of the effluent.

Many countries have included wastewater reuse as an important dimension of water resources planning. In the more arid areas of Australia and the USA wastewater is used in agriculture, releasing high quality water supplies for potable use. Some countries, for example the Hashemite Kingdom of Jordan and the Kingdom of Saudi Arabia, have a national policy to reuse all treated wastewater effluents and have already made considerable progress towards this end. In China, sewage use in agriculture has developed rapidly since 1958 and now over 1.33 million hectares are irrigated with sewage effluent. It is generally accepted that wastewater use in agriculture is justified on agronomic and economic grounds (see Example 1) but care must be taken to minimize adverse health and environmental impacts. The purpose of this document is to provide countries with guidelines for wastewater use in agriculture which will allow the practice to be adopted with complete health and environmental security.

EXAMPLE 1 - AGRONOMIC AND ECONOMIC BENEFITS OF WASTEWATER USE IN IRRIGATION

As an example, a city with a population of 500,000 and water consumption of 200 l/d per person would produce approximately 85,000 m 3 /d (30 Mm³/year) of wastewater, assuming 85% inflow to the public sewerage system. If treated wastewater effluent is used in carefully controlled irrigation at an application rate of 5000 m 3 /ha.year, an area of some 6000 ha could be irrigated. In addition to the economic benefit of the water, the fertilizer value of the effluent is of importance. With typical concentrations of nutrients in treated wastewater effluent from conventional sewage treatment processes as follows:

Nitrogen (N) - 50 mg/l
Phosphorus(P) - 10 mg/l
Potassium (K) - 30 mg/l

and assuming an application rate of 5000 m 3 /ha.year, the fertilizer contribution of the effluent would be:

N - 250 kg/ha. jaar
P - 50 kg/ha. jaar
K - 150 kg/ha. jaar

Thus, all of the nitrogen and much of the phosphorus and potassium normally required for agricultural crop production would be supplied by the effluent. In addition, other valuable micronutrients and the organic matter contained in the effluent will provide additional benefits.

Municipal wastewater is mainly comprised of water (99.9%) together with relatively small concentrations of suspended and dissolved organic and inorganic solids. Among the organic substances present in sewage are carbohydrates, lignin, fats, soaps, synthetic detergents, proteins and their decomposition products, as well as various natural and synthetic organic chemicals from the process industries. Table 1 shows the levels of the major constituents of strong, medium and weak domestic wastewaters. In arid and semi-arid countries, water use is often fairly low and sewage tends to be very strong, as indicated in Table 2 for Amman, Jordan, where water consumption is 90 l/d per person.

Table 1: MAJOR CONSTITUENTS OF TYPICAL DOMESTIC WASTEWATER

1 The amounts of TDS and chloride should be increased by the concentrations of these constituents in the carriage water.

2 BOD 5 is the biochemical oxygen demand at 20°C over 5 days and is a measure of the biodegradable organic matter in the wastewater.

Source: UN Department of Technical Cooperation for Development (1985)

Municipal wastewater also contains a variety of inorganic substances from domestic and industrial sources (see Table 3), including a number of potentially toxic elements such as arsenic, cadmium, chromium, copper, lead, mercury, zinc, etc. Even if toxic materials are not present in concentrations likely to affect humans, they might well be at phytotoxic levels, which would limit their agricultural use. However, from the point of view of health, a very important consideration in agricultural use of wastewater, the contaminants of greatest concern are the pathogenic micro- and macro-organisms.

Pathogenic viruses, bacteria, protozoa and helminths may be present in raw municipal wastewater at the levels indicated in Table 4 and will survive in the environment for long periods, as summarized in Table 5. Pathogenic bacteria will be present in wastewater at much lower levels than the coliform group of bacteria, which are much easier to identify and enumerate (as total coliforms/100ml). Escherichia coli are the most widely adopted indicator of faecal pollution and they can also be isolated and identified fairly simply, with their numbers usually being given in the form of faecal coliforms (FC)/100 ml of wastewater.

Table 2: AVERAGE COMPOSITION OF WASTEWATER IN AMMAN, JORDAN

1 COD is chemical oxygen demand
2 TOC is total organic carbon

Source: Al-Salem (1987)

Table 3: CHEMICAL COMPOSITION OF WASTEWATERS IN ALEXANDRIA AND GIZA, EGYPT

Table 4: POSSIBLE LEVELS OF PATHOGENS IN WASTEWATER

Possible concentration per litre in municipal wastewater 1

? Uncertain
1 Based on 100 lpcd of municipal sewage and 90% inactivation of excreted pathogens
2 Includes polio-, echo- and coxsackieviruses
3 Includes enterotoxigenic, enteroinvasive and enteropathogenic E. coli
4 Anglostoma duedenale and Necator americanus

Source: Feachem et al. (1983)

Table 5 : SURVIVAL OF EXCRETED PATHOGENS (at 20-30°C)

In faeces, nightsoil and sludge

In fresh water and sewage

Entamoeba histolytica cysts

Ascaris lunbricoides eggs

* Figures in brackets show the usual survival time.

Source: Feachem et al. (1983)

Organic chemicals usually exist in municipal wastewaters at very low concentrations and ingestion over prolonged periods would be necessary to produce detrimental effects on human health. This is not likely to occur with agricultural/aquacultural use of wastewater, unless cross-connections with potable supplies occur or agricultural workers are not properly instructed, and can normally be ignored. The principal health hazards associated with the chemical constituents of wastewaters, therefore, arise from the contamination of crops or groundwaters. Hillman (1988) has drawn attention to the particular concern attached to the cumulative poisons, principally heavy metals, and carcinogens, mainly organic chemicals. World Health Organization guidelines for drinking water quality (WHO 1984) include limit values for the organic and toxic substances given in Table 6, based on acceptable daily intakes (ADI). These can be adopted directly for groundwater protection purposes but, in view of the possible accumulation of certain toxic elements in plants (for example, cadmium and selenium) the intake of toxic materials through eating the crops irrigated with contaminated wastewater must be carefully assessed.

Table 6: ORGANIC AND INORGANIC CONSTITUENTS OF DRINKING WATER OF HEALTH SIGNIFICANCE

Heptachlor and heptachlor epoxide

Pathogenic organisms give rise to the greatest health concern in agricultural use of wastewaters, yet few epidemological studies have established definitive adverse health impacts attributable to the practice. Shuval et al. (1985) reported on one of the earliest evidences connecting agricultural wastewater reuse with the occurrence of disease (Figure 1). It would appear that in areas of the world where helminthic diseases caused by Ascaris and Trichuris spp. are endemic in the population and where raw untreated sewage is used to irrigate salad crops and/or vegetables eaten uncooked, transmission of these infections is likely to occur through the consumption of such crops. A study in West Germany (reported by Shuval et al. 1986) provides additional evidence (Figure 2) to support this hypothesis and further evidence was also provided by Shuval et al. (1985 1986) to show that cholera can be tranmitted through the same channel.

Figure 1: Prevalence of Ascaris-positive stool samples in West Jerusalem population during various periods, with and without supply of vegetables and salad crops irrigated with raw wastewater (Gunnerson, Shuval and Arlosoroff 1984)

There is only limited evidence indicating that beef tapeworm (Taenia saginata) can be transmitted to the population consuming the meat of cattle grazing on wastewater irrigated fields or fed crops from such fields. However, there is strong evidence from Melbourne, Australia and from Denmark (reported by Shuval et al. 1985) that cattle grazing on fields freshly irrigated with raw wastewater, or drinking from raw wastewater canals or ponds, can become heavily infected with the disease (cysticerosis).

Indian studies, reported by Shuval et al. (1986), have shown that sewage farm workers exposed to raw wastewater in areas where Ancylostoma (hookworm) and Ascaris (nematode) infections are endemic have significantly excess levels of infection with these two parasites compared with other agricultural workers in similar occupations. Furthermore, the studies indicated that the intensity of the Ascaris infections (the number of worms infesting the intestinal tract of an individual) in the sample of sewage farm workers was very much greater than in the control sample. In the case of the hookworm infections, the severity of the health effects was a function of the worm load of individuals, which was found to be related to the degree of exposure and the length of time of exposure to the hookworm larvae. Sewage farm workers are also liable to become infected with cholera if practising irrigation with raw wastewater derived from an urban area in which a cholera epidemic is in progress (Shuval et al. 1985). Morbidity and serological studies on wastewater irrigation workers or wastewater treatment plant workers occupationally exposed to wastewater directly and to wastewater aerosols have not been able to demonstrate excess prevalence of viral diseases.

Figure 2: Wastewater irrigation of vegetables and Ascaris prevalence in Darmstadt and Berlin, compared with other cities in Germany not practising wastewater irrigation (Gunnerson, Shuval and Arlosoroff 1984)

No strong evidence has been adduced to suggest that population groups residing near wastewater treatment plants or wastewater irrigation sites are at greater risk from pathogens in aerosolized wastewater resulting from aeration processes or sprinkler irrigation. Shuval et al. (1986) suggest that the high levels of inmunity against most viruses endemic in the community essentially block environmental transmission by wastewater irrigation.

Finally, in respect of the health impact of use of wastewater in agriculture, Shuval et al. (1986) rank pathogenic agents in the order of priority shown in Example 2. They pointed out that negative health effects were only detected in association with the use of raw or poorly-settled wastewater, while inconclusive evidence suggested that appropriate wastewater treatment could provide a high level of health protection.

EXAMPLE 2 - RELATIVE HEALTH IMPACT OF PATHOGENIC AGENTS

High Risk
(high incidence of excess infection)

Helminths
( Ancylostoma , Ascaris , Trichuris and Taenia )

Medium Risk
(low incidence of excess infection)

Enteric Bacteria
(Cholera vibrio, Salmonella typhosa, Shigella and possibly others)

Low Risk
(low incidence of excess infection)

The following microbiological parameters are particularly important from the health point of view:

A. Coliforms and Faecal Coliforms. The Coliform group of bacteria comprises mainly species of the genera Citrobacter, Enterobacter, Escherichia and Klebsiella and includes Faecal Coliforms, of which Escherichia coli is the predominant species. Several of the Coliforms are able to grow outside of the intestine, especially in hot climates, hence their enumeration is unsuitable as a parameter for monitoring wastewater reuse systems. The Faecal Coliform test may also include some non-faecal organisms which can grow at 44°C, so the E. coli count is the most satisfactory indicator parameter for wastewater use in agriculture.

B. Faecal Streptococci. This group of organisms includes species mainly associated with animals (Streptococcus bovis and S. equinus), other species with a wider distribution (e.g. S. faecalis and S. faecium, which occur both in man and in other animals) as well as two biotypes (S. faecalis var liquefaciens and an a typical S. faecalis that hydrolyzes starch) which appear to be ubiquitous, occurring in both polluted and non-polluted environments. The enumeration of Faecal Streptococci in effluents is a simple routine procedure but has the following limitations: the possible presence of the non-faecal biotypes as part of the natural microflora on crops may detract from their utility in assessing the bacterial quality of wastewater irrigated crops and the poorer survival of Faecal Streptococci at high than at low temperatures. Further studies are still warranted on the use of Faecal Streptococci as an indicator in tropical conditions and especially to compare survival with that of Salmonellae.

C. Clostridium perfringens. This bacterium is an exclusively faecal spore-forming anaerobe normally used to detect intermittent or previous pollution of water, due to the prolonged survival of its spores. Although this extended survival is usually considered to be a disadvantage for normal purposes, it may prove to be very useful in wastewater reuse studies, as Clostridium perfringens may be found to have survival characteristics similar to those of viruses or even helminth eggs.

The following pathogenic parameters can only be considered if suitable laboratory facilities and suitably trained staff are available:

A. Salmonella spp. Several species of Salmonellae may be present in raw sewage from an urban community in a tropical developing country, including S. typhi (causative agent for typhoid) and many others. It is estimated (Doran et al. 1977) that a count of 7000 Salmonellae /litre is typical in a tropical urban sewage with similar numbers of Shigellae, and perhaps 1000 Vibrio cholera/ litre . Both Shigella spp and V. cholera are more rapidly killed in the environment, so if removal of Salmonellae can be achieved, then the majority of other bacterial pathogens will also have been removed.

B. Enteroviruses. May give rise to severe diseases, such as Poliomyelitis and Meningitis, or to a range of minor illnesses such as respiratory infections. Although there is no strong epidemiological evidence for the spread of these diseases via sewage irrigation systems, there is some risk and it is desirable to know to what extent viruses are removed by existing and new treatment processes, especially under tropical conditions. Virus counts can only be undertaken in a dedicated laboratory, as the cell culture techniques required are very susceptible to bacterial and fungal contamination.

C. Rotaviruses. These viruses are known to cause gastro-intestinal problems and, though usually present in lower numbers than enteroviruses in sewage, they are known to be more persistent, so it is necessary to establish their survival characteristics relative to enteroviruses and relative to the indicator organisms in wastewaters. It has been claimed that the removal of viruses in wastewater treatment occurs in parallel with the removal of suspended solids, as most virus particles are solids-associated. Hence, the measurement of suspended solids in treated effluents should be carried out as a matter of routine.

NS. Intestinal Nematodes. It is known that nematode infections, in particular from the roundworm Ascaris lumbricoides, can be spread by effluent reuse practices. The eggs of A. lumbricoides are fairly large (45-70 m m x 35-50 m m) and several techniques for enumeration of nematodes have been developed (WHO 1989).

The quality of irrigation water is of particular importance in arid zones where extremes of temperature and low relative humidity result in high rates of evaporation, with consequent deposition of salt which tends to accumulate in the soil profile. The physical and mechanical properties of the soil, such as dispersion of particles, stability of aggregates, soil structure and permeability, are very sensitive to the type of exchangeable ions present in irrigation water. Thus, when effluent use is being planned, several factors related to soil properties must be taken into consideration. A thorough treatise on the subject prepared by Ayers and Westcot is contained in the FAO Irrigation and Drainage Paper No 29 Rev. 1 (FAO 1985).

Another aspect of agricultural concern is the effect of dissolved solids (TDS) in the irrigation water on the growth of plants. Dissolved salts increase the osmotic potential of soil water and an increase in osmotic pressure of the soil solution increases the amount of energy which plants must expend to take up water from the soil. As a result, respiration is increased and the growth and yield of most plants decline progressively as osmotic pressure increases. Although most plants respond to salinity as a function of the total osmotic potential of soil water, some plants are susceptible to specific ion toxicity.

Many of the ions which are harmless or even beneficial at relatively low concentrations may become toxic to plants at high concentration, either through direct interference with metabolic processes or through indirect effects on other nutrients, which might be rendered inaccessible. Morishita (1985) has reported that irrigation with nitrogen-enriched polluted water can supply a considerable excess of nutrient nitrogen to growing rice plants and can result in a significant yield loss of rice through lodging, failure to ripen and increased susceptibility to pests and diseases as a result of over-luxuriant growth. He further reported that non-polluted soil, having around 0.4 and 0.5 ppm cadmium, may produce about 0.08 ppm Cd in brown rice, while only a little increase up to 0.82, 1.25 or 2.1 ppm of soil Cd has the potential to produce heavily polluted brown rice with 1.0 ppm Cd.

Important agricultural water quality parameters include a number of specific properties of water that are relevant in relation to the yield and quality crops, maintenance of soil productivity and protection of the environment. These parameters mainly consist of certain physical and chemical characteristics of the water. Table 7 presents a list of some of the important physical and chemical characteristics that are used in the evaluation of agricultural water quality. The primary wastewater quality parameters of importance from an agricultural viewpoint are:


Values of Miu_max and Ks from parameter estimation? - Biologie

SimBench: benchmarking of single cell simulation methods

The SimBench package is designed for benchmarking simulation methods based on two key aspects of accuracy of data properties estimation and ability to retain biological signals.

In detail, SimBench :
i) quantifies the distributional similarities between a simulated scRNA-seq and a real scRNA-seq data using KDE test (Kernel Density Based Global Two-Sample Comparison Test) across 13 gene-wise and cell-wise properties.
ii) measures the similarities of the amount of biological signals in a simulated scRNA-seq and a real scRNA-seq data by measuring the proportion difference of DE, DV, DD, BD and BI genes.

This package has been tested on Linux (Debian 10) and macOS (Big Sur 11.3.1)

You may need to install the following dependencies first:

SimBench can be then installed using devtools

The installation of SimBench itself should take less than 1 minute.

We have provided a 'simulated' data ( sim.rds ) and a 'real' ( real.rds ) scRNA-seq in the github folder to illustrate the usage of our codes. The expected run time for this demo is 2 minutes.

The files are provided in the instextdata folder in this github repo .

Note both the sim and real dataset need to be SingleCellExperiment object, with rownames and colnames. If celltype is provided in the object, then the comparison will be made based on each cell type and then combined using a weighted sum (where the weight is the proportion of the cell type).
if no celltype is provided, then the comparison will be made based on the entire dataset.

The parameter estimation score can be obtained by :

The output contains 3 fields:
stats_overall gives the overall KDE test statistics
stats_celltype gives the KDE test statistics for each cell type
stats_raw gives the raw values used to perform the KDE test (eg, the mean expression of each gene)

We can use the raw value to visualise the simulated dataset and real dataset over 13 parameters.

Maintaining biological signatures

Evaluation of biological signals can be obtained by

The proportion difference can be visualised using barplot.

Part of the codes was inspired and adapted from R package countsimQC and scClassify .

Soneson, C., & Robinson, M. D. (2018). Towards unified quality verification of synthetic count data with countsimQC. Bioinformatics, 34(4), 691-692.).
Lin, Y., Cao, Y., Kim, H. J., Salim, A., Speed, T. P., Lin, D. M., . & Yang, J. Y. H. (2020). scClassify: sample size estimation and multiscale classification of cells using single and multiple reference. Molecular systems biology, 16(6), e9389.

Installation of countsimQC and scClassify is however not required for running SimBench .


12th International Symposium on Process Systems Engineering and 25th European Symposium on Computer Aided Process Engineering

Timothy Van Daele , . Ingmar Nopens , in Computer Aided Chemical Engineering , 2015

3 Results

The Michaelis-Menten equation (see Equation 1 ) will be used to illustrate the different core functionalities of the package by following the stepwise approach of Figure 1 . The following results were achieved by using only 25 lines of code from model definition until OED (ignoring loading of packages and comments), this illustrates the power and accessibility of the package. This limited number of lines gives the user access to advanced functionalities. In the following part only the results and figures of the different steps are shown, the code will be made publicly available prior to the conference. A (local) identifiability analysis was performed by using collinearity analysis, and showed no identifiability problems.

3.1 Model calibration

First the parameters Vmax en KS of the Michaelis-Menten reaction have to be estimated by use of some data. Six data points were generated in silico, using the parameter values of the paper published by Johnson and Goody (2011) . For each of these data points relative noise was added, what means that higher model output values of v can have a higher absolute noise compared to low values of v. This noise was randomly sampled from a normal distribution with mean zero and a standard deviation of 0.05. The six data points were taken at substrate concentrations S of 5, 10, 20, 30, 75 and 100 mM. By using a WSSE with relative weights more weight/certainty was given to low v values. This resulted in the fit shown in Figure 2 . The estimated parameter values were slightly different from the real parameter values (a Vmax value of 0.746 mM/min and a KS value of 17.55 mM). This is due to the normal noise that was added. To assure that the objective function is not prone to local minima, it is considered good practice to repeat a parameter estimation multiple times with different starting points to assure that the same values are always retrieved. If this is not the case, one should use global minimisation methods (e.g. particle swarm optimisation) or verify whether the model is (practical) identifiable.

Figure 2 . The in silico data with noise was used to estimate the parameters Vmax en KS of the Michaelis-Menten model ( Equation 1 ). The minimisation of the objective function yielded a Vmax value of 0.746 mM/min and a KS value of 17.55 mM. These results are slightly different from the real parameter values, because of the normal noise which was added.

3.2 Estimate parameter confidence

After finishing the parameter estimation the confidence levels for the different parameters can be calculated using the FIM. Using the built-in function ‘get_parameter_confidence’, the different parameter and corresponding 95 % confidence intervals are retrieved: Vmax = 0.746 ± 0.094 mM/min en KS = 17.55 ± 4.55 mM and were both considered as reliable based on the Student’s t-test.

Figure 3 . By using optimal experimental design and the D-optimality criterion, the experiments are optimised and the confidence intervals are decreased for both parameters. In the two lower figures, the local parameter relative sensitivity is showed for both Vmax en KS.

3.3 Optimal Experimental Design for parameter estimation

Instead of ignoring available knowledge reported in the paper of Johnson and Goody (2011) , it is possible to take this knowledge into account when designing experiments. The total number of experiments is still equal to six and the only experimental degree of freedom is the sucrose concentration S, which can be varied between 5 and 100 mM. The minimum sucrose concentration was set to 5 mM to assure sufficiently high reaction rates. An extra optimisation constraint was added, i.e. the difference in sucrose concentration between two experiments should be at least 5 mM. This allows to make the design less dependent on the actual parameter values. This optimisation led to lower confidence intervals for both parameters. Voor Vmax the optimised experimental design led to a 95 % confidence interval of only 0.070, a decrease of 25.5 %. Voor KS the 95 % confidence interval decreased to 3.73, which is 18.0 % lower compared the the original experimental setup. This illustrates that OED is a powerful technique which can improve the confidence levels of the models without requiring an additional experimental effort.


Auteurs informatie

Voorkeuren

Research School of Biology, The Australian National University, Canberra, ACT, 0200, Australia

Kalya Subasinghe, Marta Vidal-García, Timothée Bonnet & Janet L. Gardner

CSIRO Land and Water, GPO Box 1700, Canberra, ACT, 2601, Australia

Kalya Subasinghe & Kristen J. Williams

Department of Zoology and Environmental Management, University of Kelaniya, Kelaniya, 11600, Sri Lanka

Centre for Integrative Ecology, School of Life and Environmental Sciences, Deakin University, Burwood, VIC, 3125, Australia

Department of Cell Biology and Anatomy, University of Calgary, Calgary, AB, T2N 4N1, Canada

CSIRO Land and Water, Private Bag 5, Wembley, WA, 6913, Australia

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

Bijdragen

KS and JG conceived the idea KS, JG and MVG developed the methods KS, TB and MRES designed the analyses KS collected and analysed the data and wrote the manuscript all authors read the manuscript and provided feedback.


Bekijk de video: Percentielen. kritieke waarden van een standaardnormaalverdeling - Deel 2 (Januari- 2022).