Informatie

Wat kan ik onderzoeken voor een scriptie over de opslag van DNA-gegevens uit wiskunde?


Ik ben een wiskundig onderzoeker, ik heb net een master over foutcorrectiecodes afgerond. Ik zag onlangs een presentatie over op DNA gebaseerde gegevensopslag waar ik van hield.

Ik wil mijn studie (toegepaste wiskunde) in dit vak voortzetten.

Ik kreeg een PhD-aanbieding en toen ik het onderwerp noemde, was de mogelijke directeur ontvankelijk, maar ook hij is niet goed op de hoogte van het onderwerp, dus hij stelde voor om een ​​onderzoekstraject te bedenken…

Wat is volgens jou een interessant onderzoeksonderwerp (en de gemeenschap waardig) over het opslaan van DNA-gegevens vanuit het perspectief van foutcorrigerende codes?

Bedankt voor de hulp!


50 beste genetische onderzoeksonderwerpen voor academische papers

De studie van genetica vindt plaats op verschillende niveaus van het onderwijssysteem in academische instellingen over de hele wereld. Het is een academische discipline die het mechanisme van erfelijkheid en genen in levende organismen wil verklaren. De studie van genetica werd voor het eerst ontdekt in de jaren 1850 en heeft een behoorlijk lange weg afgelegd, en het speelt zo'n enorme rol in ons dagelijks leven. Daarom moet u, wanneer u een onderzoekspaper over genetica krijgt toegewezen, een onderwerp kiezen dat niet alleen interessant voor u is, maar ook een onderwerp dat u goed begrijpt.


Onderzoek bewaren

Amy Maxmen
1 aug. 2013

© DRAFTER123/ISTOCKPHOTO.COM Als afgestudeerde student aan de afdeling Organische en Evolutionaire Biologie van Harvard in het begin van de jaren 2000, wilde ik al het onderzoek dat in mijn doctoraatsthesis werd gedaan publiekelijk delen om bij te dragen aan de kleine hoeveelheid wetenschappelijke literatuur over de weinig bekende groep mariene geleedpotigen die ik heb bestudeerd, zeespinnen. Nadat ik echter een paar rapporten had gepubliceerd en mijn doctoraat met succes had verdedigd, verdween mijn drive om het laatste hoofdstuk van mijn proefschrift in te dienen bij een tijdschrift vanwege de kosten en tijd die ermee gemoeid waren. Maar in de zeldzame gevallen dat onderzoekers erom vroegen, had ik er spijt van dat het op mijn boekenplank wegkwijnde. Hoewel het hoofdstuk verre van wereldschokkend is, kan het een opstapje zijn voor een andere bioloog.

&ldquoHet is nodig dat wetenschap sneller wordt gecommuniceerd naar andere onderzoekers en het publiek, dus door manuscripten online te zetten op plaatsen zoals de [preprint.

Gelukkig is delen goedkoper en sneller nu online, open-access collecties voor biologie floreren nu onderzoekers de voordelen inzien van het uploaden van ongepubliceerde rapporten van negatieve resultaten, observaties, subsidieaanvragen, protocolnotities, en ja, hun ongepubliceerde scripties op het web voor anderen te bekijken. In januari heb ik eindelijk mijn scriptiehoofdstuk over de metamorfose van de zeespin op verschillende sites geüpload. Binnen 3 weken mailde een zoöloog uit Duitsland me om te vragen hoe ik het moest citeren en of ik die studie nog steeds volgde.

Bovendien kunnen niet-gepubliceerde uploads rechtstreeks bijdragen aan iemands carrière. Dit jaar kondigde de National Science Foundation aan dat subsidierecensenten naast publicaties ook kennis zouden nemen van citeerbare en toegankelijke 'producten'. Omdat online repositories ongepubliceerde rapporten een digitale object-ID, of DOI, verlenen waarnaar in een citaat kan worden verwezen, kunnen deze uploads nu de reputatie van een wetenschapper verbeteren.

Het indienen is meestal gratis en relatief eenvoudig. Hoe leesbaar, bruikbaar en vindbaar het rapport voor anderen is, is echter aan jou. Om te onderzoeken hoe verschillende online repositories werken, heb ik mijn scriptiehoofdstuk als test geüpload en heb ik gesproken met experts die zich om soortgelijke redenen tot het web hebben gewend.

NADENKEN OVER HET UPLOADEN VAN EEN MANUSCRIPT?

Onderzoekers noemen verschillende redenen voor het uploaden van ongepubliceerd materiaal: om feedback te krijgen op een paper voordat het wordt ingediend om anderen te helpen leren waarom een ​​subsidie ​​is geaccepteerd of afgewezen, zodat ze niet dezelfde fouten hoeven te maken om een ​​tijdstempel op hun gegevens of ideeën te plaatsen om observaties te delen en protocollen die nuttig kunnen zijn voor andere wetenschappers en om films en andere gegevens te plaatsen in formaten die de meeste tijdschriften niet aankunnen. Hier zijn een paar tips om het meeste uit je bericht te halen.

Kies je woorden verstandig
Zoekmachines kiezen de titel en samenvatting van geüploade rapporten. Daarom is het belangrijk om na te denken over uw formulering. “Het is schattig om een ​​titel te hebben als ‘Zijn of niet zijn”, zegt natuurkundige Paul Ginsparg, oprichter van de eerste grote preprint-server, arXiv. “Maar aangezien dat niet de essentiële inhoud overbrengt, zal het door je doelgroep worden gemist.” Ginsparg complimenteerde me met de titel die ik had gekozen voor het proefschrifthoofdstuk dat ik naar de arXiv had geüpload, "Sea Spider Development: How the encysting Anoplodactylus eroticus matures from a buoyant nymph to a grounded adult." Hij zegt dat het woorden bevat die een niet-specialist kan Googlen, naast technische termen als 'nimf' en 'encysting' die onderzoekers in het veld zouden kunnen gebruiken om naar het papier te zoeken. Daarnaast raadt Ginsparg onderzoekers aan om bij elke upload voldoende metadata, zoals trefwoorden van algemeen tot specifiek, toe te voegen.

Controleer de licentie
Voordat u op de verzendknop van een bepaalde repository drukt, moet u de licentie-informatie zorgvuldig lezen. Veel repositories bieden nu Creative Commons (CC)-licenties aan. Het meest voorkomende type, "CC BY", stelt iedereen in staat een paper te lezen en te verspreiden, zolang ze de auteur op de juiste manier erkennen. Op deze manier hoeft iedereen die de inhoud op Wikipedia of een andere website wil plaatsen, zich geen zorgen te maken over inbreuk, zolang ze maar naar de auteur verwijzen. Een subcategorie van de Creative Commons-licentie, "CC BY-NC", voegt de clausule toe dat anderen het rapport niet voor commerciële doeleinden mogen verspreiden. Als een auteur van plan is om het rapport ook in te dienen bij een peer-reviewed tijdschrift, is deze optie beter, omdat tijdschriften de neiging hebben om het exclusieve recht te hebben om het artikel voor commerciële doeleinden te verspreiden.

Comprimeer enorme bestanden en voeg onbewerkte gegevens toe
Sommige repositories beweren dat ze een onbeperkte uploadgrootte bieden, maar dat is misschien geen zegen. Als het je lukt om een ​​enorm bestand te uploaden voordat de server een time-out krijgt, kan het rapport ervoor zorgen dat de browser slecht presteert en dat lezers het bestand mogelijk niet kunnen downloaden zonder een snelle verbinding. Om deze reden raadt Ginsparg onderzoekers aan om cijfers te comprimeren tot één pdf, maar ook om een ​​apart bestand te uploaden in een formaat dat de onbewerkte gegevens behoudt.

EEN HOST KIEZEN

arXiv GELANCEERD (1991)
PAUL GINSPARG, ARXIV.ORG Theoretische natuurkundigen plaatsen al meer dan tien jaar ongepubliceerde rapporten op arXiv.org, en de laatste tijd doet een groeiend aantal biologen dat ook. (Zie grafiek op deze pagina.)

De ondertitel voor biologie, "Kwantitatieve biologie", is een losse, met onderwerpen variërend van kanker tot epigenetica.

Aantal geüploade rapporten: Ongeveer 860.000 rapporten uit verschillende wetenschappelijke disciplines

Aantal biologische gerelateerde meldingen: 7.200 geregistreerd onder de categorie kwantitatieve biologie

Kosten: Uploaden is gratis. Vanaf 2001 wordt de website gehost en beheerd door de Cornell University Library in Ithaca, New York.

Inleveren: Iedereen kan een rapport uploaden, op voorwaarde dat je een organisatie of instelling hebt.

doorzoekbaarheid: De lokale arXiv-zoekmachine indexeert de naam van de auteur, trefwoorden en woorden in de titel en het abstract. Het kamt ook door de tekst van een PDF (een voorgesteld en algemeen formaat voor uploads), maar iets minder grondig.

Pro: Reputatie. Met wekelijks 2 miljoen downloads ontdekken Google en andere zoekmachines snel artikelen op arXiv, en de meeste onderzoekers herkennen de website onmiddellijk als een steunpilaar in online publicaties.

tegen: Bruikbaarheid. Er is geen commentaarfunctie, dus als een andere onderzoeker het werk wil bekritiseren, moet ze een e-mail sturen. Ook zijn de meeste kwantitatieve biologie-uploads in PDF-formaat, zoals arXiv suggereert. Als zodanig kunnen onderzoekers geen gegevens bijwerken in een rapport dat is gecomprimeerd.


FIGDEEL (GELANCEERD 2011)
Het gebruik van figshare nam een ​​hoge vlucht nadat Nature de site als alternatief aanraadde toen ze stopten met het accepteren van inzendingen voor Nature Precedings, een online preprint-tijdschrift (figshare is een zusterbedrijf van Nature Publishing Group). De inhoud van Figshare omvat aanvullende gegevens die verband houden met gepubliceerde artikelen, evenals niet-gepubliceerde gegevenssets en rapporten, conferentiepresentaties en meer.

Aantal uploads: Honderdduizenden, maar veel zijn aanvullende gegevens die verband houden met peer-reviewed manuscripten

Aantal geregistreerde gebruikers: Duizenden actieve gebruikers, voornamelijk in de biowetenschappen

Kosten: Over het algemeen gratis. De site is van plan zichzelf in stand te houden door samen te werken met uitgevers, zoals F1000Research en PLOS, die betalen voor figshare-services om te helpen met visuele inhoud die die tijdschriften niet gemakkelijk kunnen verwerken.

Inleveren: Elke upload is gratis en beperkt tot 250 MB, en gebruikers kunnen zoveel projecten uploaden als ze willen, zolang de uploads openbaar zijn. Privacy, of gedeeltelijke privacy met een handvol geselecteerde medewerkers, is ook een optie, maar het beperkt onderzoekers tot 1 GB in totaal. Als er vraag is naar onbeperkte ruimte, zegt oprichter Mark Hahnel dat hij tegen een kleine vergoeding premium accounts kan opzetten.

Pro: Bruikbaarheid. Figshare heeft een intuïtieve gebruikersinterface. Bovendien heeft Hahnel speciale aandacht besteed aan de manier waarop videogegevens en andere niet-traditionele formaten worden weergegeven vanwege zijn frustratie dat hij zijn eigen video's van celdynamiek niet gemakkelijk kon delen. Ten slotte moedigt figshare feedback aan door het net zo eenvoudig te maken om opmerkingen onder het manuscript achter te laten als op YouTube of een discussieforum.

tegen: Jeugd. Als een relatief recente site voor wetenschappelijke gegevens, preprints en gepubliceerde artikelen, moet figshare zijn blijvende kracht nog bewijzen.


ResearchGate (GELANCEERD 2008)
VERZAMELEN OP ALLE NIVEAUS: Mijn afstudeerwerk was gericht op de evolutie van geleedpotigen, waarbij ik zeespinnen als model gebruikte. Sommige van de zeespinnen werden verzameld op rotsen langs de Pacifische kust van Japan. Het confocale microscoopbeeld (insert) toont het zenuwstelsel van een juveniele zeespin, getagd met een fluorescerende marker en kleurgecodeerd om diepte aan te geven. Mijn doel bij het uploaden van het laatste hoofdstuk van mijn proefschrift was om meer van mijn gegevens met andere wetenschappers te delen. MET DANK AAN AMY MAXMEN KATSUMI MIYAZAK ResearchGate richt zich meer op het academische netwerk van een onderzoeker dan op de andere sites. Het creëert dit netwerk in eerste instantie door een gebruiker te vragen om co-auteurs uit te nodigen, en het lokaliseert deze automatisch door het gepubliceerde onderzoek van de gebruiker te scannen. Wanneer mensen in uw netwerk ongepubliceerde rapporten uploaden, verschijnt er een melding op uw startpagina (tenzij de auteurs om privacy hebben gevraagd). De meeste inhoud die momenteel op ResearchGate staat, bestaat uit gepubliceerd peer-reviewed materiaal en wetenschapsgerelateerde forumberichten, maar medeoprichter Ijad Madisch breidde de database in december 2012 uit met niet-peer-reviewed berichten. Madisch maakte de verandering gedeeltelijk omdat "80 procent van de experimenten die ik probeerde niet werkten, en ik heb die negatieve resultaten nooit gedeeld", zegt hij. "Ik was er zeker van dat iemand anders dezelfde fouten had gemaakt, en ik wilde ze kunnen vinden."

Aantal biologiegerelateerde berichten: Meer dan 100.000 niet-peer-reviewed uploads, waaronder veel datasets

Aantal geregistreerde gebruikers: Half juli hebben bijna 630.000 biologen zich aangemeld voor ResearchGate.

Inleveren: Gebruikers melden zich aan met een e-mail die is gekoppeld aan een academische instelling.

doorzoekbaarheid: Omdat ResearchGate soepel een grote verzameling gepubliceerd onderzoek verzamelt, levert een zoekopdracht naar het onderwerp 'zeespin' bijvoorbeeld een bibliotheek met informatie op, zowel gepubliceerde als niet-gepubliceerde informatie.

Kosten: Uploaden is gratis. Bedrijven en instellingen kunnen tegen betaling vacatures op de site plaatsen.

Pro: Bruikbaarheid. Gebruikers krijgen een score op basis van het aantal publicaties in peer-reviewed tijdschriften en de impactfactor van de tijdschriften, evenals een “RG”-score op basis van hun deelname aan de site. Deze score zou kunnen worden ingediend als onderdeel van een subsidieaanvraag, hoewel de waarde van de impact nog moet worden afgewacht. Feedback is ook sociaal. Lezers kunnen vragen over een rapport posten op een forum dat alle gebruikers te zien krijgen.

tegen: Netwerken. Sommige onderzoekers houden er misschien niet van om hun vraag over een rapport publiekelijk met een forum te delen, en kunnen worden uitgeschakeld door verzoeken van ResearchGate om collega's uit te nodigen, of door de Facebook-achtige startpagina met een lopende stroom van updates van andere wetenschappers.

INSTITUTIONELE REPOSITORIES (ONLINE BEGIN BEGIN 1990)

GEGEVENS OPSLAAN: Tijdens mijn onderzoek heb ik een groot aantal microscoopbeelden, DNA-sequenties en andere gegevens verzameld. MET DANK AAN AMY MAXMEN De meeste universiteiten moedigen hun onderzoekers aan om dissertaties en gepubliceerde manuscripten in hun repositories in te dienen. De digitale repository genaamd DASH (Digital Access to Scholarship at Harvard) van mijn alma mater, Harvard University, staat ook het indienen van ongepubliceerde rapporten toe, maar Stuart Shieber, de oprichter en voormalig directeur van Harvard's Office for Scholarly Communications, zegt dat onderzoekers zelden gebruik maken van het voor deze functie. Mijn beoordeling van deze repositories is gebaseerd op DASH, maar de mogelijkheden van verschillende instellingen variëren.

Aantal meldingen op DASH: 12.309. De meeste zijn gepubliceerde rapporten uit een breed scala aan vakgebieden. Een extra 625 proefschriften zijn geüpload van de Hogeschool voor de Kunsten en Wetenschappen.

Doorzoekbaarheid: mensen die rapporten over digitale institutionele repositories over de hele wereld willen vinden, kunnen ernaar zoeken op base-search.net/.

Pro: Reputatie. Omdat lidmaatschap een universitaire affiliatie vereist, kunnen lezers er zeker van zijn dat het onderzoek afkomstig is van een gekwalificeerde bron. Terwijl nieuwere platforms in de loop van de tijd terrein kunnen verliezen, zullen platforms die worden gehost door een universiteit waarschijnlijk de tand des tijds doorstaan, zelfs als ze onderbenut blijven.

tegen: Bruikbaarheid. Omdat inzendingen handmatig worden gecontroleerd, verscheen mijn hoofdstuk pas vijf weken nadat ik het medio januari had geüpload, online. Lezers kunnen ook geen opmerkingen achterlaten of op een knop klikken om een ​​bericht naar de auteur te sturen. Ten slotte voelde het systeem minder flexibel en minder intuïtief aan dan andere online repositories die hier worden genoemd.


Vereiste voor geavanceerde biologie

Ten minste achttien eenheden in goedgekeurde geavanceerde biologiecursussen (met het nummer 300 of hoger) zijn vereist. Vakken die kunnen worden meegeteld voor deze 18 eenheden, worden vermeld na Biol 2960 en Biol 2970 in de sectie 'Cursussen voor Biologie-Major Credit'. Ten minste één cursus in elk van de drie verspreidingsgebieden (A-C) en een geavanceerde laboratoriumcursus moet elk van deze cursussen worden gevolgd voor de vereiste 18 geavanceerde biologie-eenheden. Maximaal 6 eenheden Bio 500 kunnen worden meegeteld voor de 18 geavanceerde biologie-eenheden.

Drie gebieden van biologie vereist (aanbod najaar 2020 vetgedrukt):

  • Gebied A: Plantenbiologie en genetische manipulatie (Biol 3041) Menselijke genetica (Biol 324) Celbiologie (Biol 334) Eukaryotische genomen (Biol 3371) Microbiologie (Biol 349) Immunologie (Biol 424) Infectieziekten: geschiedenis, pathologie en preventie (Biol 4492) Algemene biochemie (Biol 451) Algemene biochemie I (Biol 4810) Algemene biochemie II (Biol 4820)
  • Gebied B: Endocrinologie (Biol 3151) Principes in de menselijke fysiologie (Biol 328) Principes van het zenuwstelsel (Biol 3411) Inleiding tot neuro-ethologie (Biol 3421) Genen, hersenen en gedrag (Biol 3422) Hoe planten werken: fysiologie, groei en metabolisme (Biol 4023) Biologische klokken (Biol 4030) Ontwikkelingsbiologie (Biol 4071) Principes van menselijke anatomie en ontwikkeling (Biol 4580)
  • Gebied C: Woody Plants of Missouri (Biol 3220) Darwin en evolutionaire controverses (Biol 347)Evolutie (Biol 3501) Dierlijk gedrag (Biol 370) Inleiding tot ecologie (Biol 381) Populatiegenetica en micro-evolutie (Biol 4181) Macro-evolutie (Biol 4182) Moleculaire evolutie (Biol 4183) Gemeenschapsecologie (Biol 419) Ziekte-ecologie (Biol 4195) Gedragsecologie (Biol 472)

Voorbij de fouten komen

Maar zoals alle methoden voor gegevensopslag heeft DNA ook enkele tekortkomingen. De belangrijkste hindernis vooraf zijn de kosten. Hawkins zegt dat de huidige methoden vergelijkbaar zijn met de kosten voor een Apple Hard Disk 20 in 1980. Destijds kostte ongeveer 20 megabyte aan opslagruimte en de hoeveelheid data die je nodig had om een ​​video van 15 minuten te downloaden voor ongeveer $ 1.500.

Daarnaast is DNA ook foutgevoelig. Denk aan de vier nucleotidebasen waaruit de DNA-ladder bestaat. Gemiddeld introduceert DNA ongeveer één fout per 100 tot 1.000 nucleotiden. Deze kunnen drie vormen aannemen: vervangingen, invoegingen en verwijderingen.

Bij een substitutiemutatie kan een enkele letter in een reeks nucleotiden worden verwisseld voor een andere. In de onderstaande afbeelding is cytosine vervangen door thymine. De strengen DNA blijven even lang. Bij een insertie of deletie krijgt het DNA echter een extra nucleotidebase, of verwijdert het er een. Maar in tegenstelling tot fouten in computercode, blijft er geen ruimte over waar een verwijderde base ooit heeft geleefd, wat snel problematisch kan worden als je de gegevens gaat decoderen die in het DNA zijn opgeslagen.

Hawkins vergelijkt dit graag met Engelse woorden: "Een schrapping van de letter 'L' verandert 'wereld' in 'woord'. Bovendien verandert het invoegen van een 'S' het in 'zwaard'. Het correct lezen van 'wereld' van 'zwaard' is niet alleen moeilijk omdat zwaard nog steeds een geldig Engels woord is, maar ook omdat alle letters verschoven zijn."

Andere vormen van DNA-opslag kwamen voorbij deze replicatiefouten door de code voor de gegevens 10 tot 15 keer te herhalen, maar dat is een enorme verspilling van ruimte. In de nieuwe methode die wordt beschreven in de onderzoekspaper van het team, bouwen ze de gegevens echter in een roostervorm in het DNA in, waarbij elk stukje gegevens het volgende versterkt, zodat het maar één keer hoeft te worden gelezen.

Ze ontwikkelden ook een algoritme dat invoeg-, verwijderings- en vervangingsfouten in één keer oplost, waardoor op DNA gebaseerde digitale gegevensopslag veel efficiënter wordt. Daarom kon het team "The Wizard of Oz" zo gemakkelijk op DNA-strengen passen zonder de combinatie van A-, C-, T- en G-basen vele malen te repliceren.


BIOL191 HM - Biologie Colloquium (tweemaal genomen)

Instructeur: Personeel

Aangeboden: Herfst en lente

Beschrijving: Mondelinge presentaties en discussies over geselecteerde onderwerpen inclusief recente ontwikkelingen. Deelnemers zijn onder meer biologie majors, docenten en gastsprekers. Vereist voor junior en senior biologie majors. Voor afdelingsseminaries/colloquia kunnen maximaal 2,0 studiepunten worden verdiend.

Vereisten: Alleen HMC Biologie (inclusief gezamenlijke majors).

MATH198 HM - Undergraduate Mathematics Forum (bij voorkeur gevolgd in het eerste jaar)

Instructeurs: Castro, Jacobsen, Orrison, Weinburd, Zinn-Brooks H, Zinn-Brooks L

Aangeboden: Herfst en lente

Beschrijving: Het doel van deze cursus is het verbeteren van het vermogen van studenten om wiskunde te communiceren, zowel naar een algemeen als technisch publiek. Studenten presenteren materiaal over toegewezen onderwerpen en laten hun presentaties evalueren door studenten en docenten. Dit formaat stelt studenten tegelijkertijd bloot aan een breed scala aan onderwerpen uit de moderne en klassieke wiskunde. Vereist voor alle majors aanbevolen voor alle gezamenlijke CS-math majors en mathematische biologie majors, meestal in het eerste jaar.

MCBI199 HM - Joint Colloquium for the Mathematical and Computational Biology Major

Instructeur: Personeel

Aangeboden: Herfst en lente

Beschrijving: Studenten die zich hebben ingeschreven voor een gezamenlijk colloquium moeten gedurende het semester een vast aantal colloquiumgesprekken bijwonen op elk gebied dat verband houdt met hun interesses. De gesprekken kunnen plaatsvinden bij leden van The Claremont Colleges of een nabijgelegen universiteit en kunnen betrekking hebben op een breed scala van gebieden, waaronder biologie, wiskunde, informatica en andere wetenschappelijke en technische disciplines, waaronder bio-engineering, cognitieve wetenschappen, neurowetenschappen, biofysica en taalkunde. Studenten die deelnemen aan het gezamenlijke colloquium moeten een korte samenvatting indienen van elke lezing die ze bijwonen. Voor afdelingsseminaries/colloquia kunnen maximaal 2,0 studiepunten worden verdiend.


DNA: de ultieme harde schijf

Als het gaat om het opslaan van informatie, zijn harde schijven niet geschikt voor DNA. Onze genetische code verpakt miljarden gigabytes in een enkele gram. Een enkele milligram van het molecuul zou de volledige tekst van elk boek in de Library of Congress kunnen coderen en er is voldoende ruimte over. Dit alles is grotendeels theoretisch geweest - tot nu toe. In een nieuwe studie hebben onderzoekers een heel leerboek over genetica opgeslagen in minder dan een picogram DNA - een biljoenste van een gram - een vooruitgang die een revolutie teweeg zou kunnen brengen in ons vermogen om gegevens op te slaan.

Een paar teams hebben geprobeerd gegevens in de genomen van levende cellen te schrijven. Maar de aanpak heeft een aantal nadelen. Ten eerste gaan cellen dood - geen goede manier om je scriptie kwijt te raken. Ze repliceren ook en introduceren in de loop van de tijd nieuwe mutaties die de gegevens kunnen veranderen.

Om deze problemen te omzeilen, creëerde een team onder leiding van George Church, een synthetisch bioloog aan de Harvard Medical School in Boston, een systeem voor het archiveren van DNA-informatie dat helemaal geen cellen gebruikt. In plaats daarvan plaatst een inkjetprinter korte fragmenten van chemisch gesynthetiseerd DNA op het oppervlak van een kleine glaschip. Om een ​​digitaal bestand te coderen, verdelen onderzoekers het in kleine blokken gegevens en zetten deze gegevens niet om in de enen en nullen van typische digitale opslagmedia, maar eerder in DNA's vierletterige alfabet van As, Cs, Gs en Ts. Elk DNA-fragment bevat ook een digitale "barcode" die de locatie in het originele bestand vastlegt. Voor het lezen van de gegevens zijn een DNA-sequencer en een computer nodig om alle fragmenten op volgorde weer in elkaar te zetten en ze weer in digitaal formaat om te zetten. De computer corrigeert ook voor fouten. Elk gegevensblok wordt duizenden keren gerepliceerd, zodat een toevallige storing kan worden geïdentificeerd en verholpen door deze te vergelijken met de andere kopieën.

Om het systeem in actie te demonstreren, gebruikte het team de DNA-chips om een ​​geneticaboek te coderen, mede-auteur van Church. Het werkte. Nadat het boek in DNA was omgezet en weer in digitale vorm was vertaald, had het systeem van het team een ​​ruw foutenpercentage van slechts twee fouten per miljoen bits, wat neerkwam op een paar typefouten van één letter. Dat is vergelijkbaar met dvd's en veel beter dan magnetische harde schijven. En vanwege hun kleine formaat zijn DNA-chips nu het opslagmedium met de hoogste bekende informatiedichtheid, rapporteren de onderzoekers vandaag online in Wetenschap.

Vervang uw flashdrive echter nog niet door genetisch materiaal. De kosten van de DNA-sequencer en andere instrumenten "maken dit momenteel onpraktisch voor algemeen gebruik", zegt Daniel Gibson, een synthetisch bioloog aan het J. Craig Venter Institute in Rockville, Maryland, "maar het veld gaat snel en de technologie zal binnenkort goedkoper, sneller en kleiner zijn." Gibson leidde het team dat het eerste volledig synthetische genoom creëerde, dat een "watermerk" van extra gegevens bevatte die in het DNA waren gecodeerd. De onderzoekers gebruikten een drieletterig codeersysteem dat minder efficiënt is dan dat van het kerkteam, maar dat ingebouwde beveiligingen heeft om te voorkomen dat levende cellen het DNA in eiwitten omzetten. "Als DNA voor dit doel wordt gebruikt, en buiten een laboratoriumomgeving, dan zou je een DNA-sequentie willen gebruiken die het minst waarschijnlijk in de omgeving tot expressie wordt gebracht", zegt hij. Kerk is het daar niet mee eens. Tenzij iemand opzettelijk zijn systeem voor het archiveren van DNA-gegevens "ondermijnt", ziet hij weinig gevaar.


Abstract

Synthetisch DNA is snel in opkomst als een duurzaam platform voor informatieopslag met hoge dichtheid. Een grote uitdaging voor op DNA gebaseerde strategieën voor het coderen van informatie is het hoge foutenpercentage dat optreedt tijdens de DNA-synthese en -sequencing. Hier beschrijven we de HEDGES (Hash Encoded, Decoded by Greedy Exhaustive Search) foutcorrigerende code die alle drie de basistypen DNA-fouten herstelt: invoegingen, deleties en vervangingen. HEDGES zet ook onopgeloste of samengestelde fouten om in vervangingen en herstelt de synchronisatie voor correctie via een standaard Reed-Solomon-buitencode die over strengen is verweven. Bovendien kan HEDGES een brede klasse van door de gebruiker gedefinieerde sequentiebeperkingen bevatten, zoals het vermijden van overmatige herhalingen of een te hoog of te laag windowed guanine-cytosine (GC) -gehalte. We testen onze code zowel via in silico-simulaties als met gesynthetiseerd DNA. Op basis van de gemeten prestaties ontwikkelen we een statistisch model dat toepasbaar is op veel grotere datasets. Voorspelde prestaties wijzen op de mogelijkheid van foutloos herstel van gegevens op petabyte- en exabyteschaal van DNA dat is afgebroken met maar liefst 10% fouten. Aangezien de kosten van DNA-synthese en sequentiebepaling blijven dalen, verwachten we dat HEDGES toepassingen zal vinden in grootschalige foutloze informatiecodering.

DNA is een ideaal opslagmedium op moleculaire schaal voor digitale informatie (1 ⇓ ⇓ ⇓ ⇓ ⇓ –7). Een willekeurig digitaal bericht kan worden gecodeerd als een DNA-sequentie en chemisch worden gesynthetiseerd als een pool van oligonucleotidestrengen. Deze strengen kunnen worden opgeslagen, gedupliceerd of getransporteerd door ruimte en tijd. DNA-sequencing kan dan worden gebruikt om het digitale bericht te achterhalen, hopelijk precies. Vooruitgang in de kosten en schaal van DNA-synthese en sequencing maken op DNA gebaseerde informatieopslag in toenemende mate economisch haalbaar. Terwijl synthese tegenwoordig kost

Discussie

HEDGES is ontworpen om flexibel te zijn met betrekking tot DNA-strenglengtes, DNA-sequencing- en synthesetechnologieën, keuzes van buitenste code en interleaving-details. Het belangrijkste kenmerk van HEDGES is dat het altijd ofwel 1) de "perfecte" synchronisatie van de individuele DNA-streng waarop het is aangebracht herstelt (dat wil zeggen, invoeg- en deletiefouten volledig elimineert), ofwel 2) signalen geeft dat het niet in staat is om dit te doen. dus door een decodeerfout. Hier betekent "perfect" dat onze gerapporteerde bit- en byte-foutpercentages, die klein genoeg zijn om volledig te worden gecorrigeerd door een standaard buitencode zoals RS, al zijn inclusief eventuele resterende gevallen van missynchronisatie.

In de haalbare (groene) gebieden van Fig. 2 treden HEDGES-decodeerfouten ongeveer elke 1 0 4 tot 1 0 5 nucleotiden (onderste cellen) op. Er zijn twee strategieën mogelijk: 1) We kunnen deze strengen behouden en markeren als wist de bits na het faalpunt, of 2) we kunnen in plaats daarvan een andere streng uit de pool gebruiken met dezelfde streng-ID, waardoor de vereiste voor sequencingdiepte wordt vergroot door een klein bedrag. De prestatiewaarden getoond in Fig. 2 gebruiken strategie 1 die in Tabel 2 gebruiken strategie 2. Belangrijk is dat HEDGES beperkingen op de gecodeerde DNA-strengen toestaat, zoals het verminderen van homopolymeerruns en het handhaven van een uitgebalanceerd GC-gehalte. SI-bijlageFig. S3 toont, in vergelijking met Fig. 2, dat dergelijke beperkingen weinig nadelige gevolgen hebben voor zowel de codesnelheid als het foutcorrectieniveau. We laten dus zien dat beide levensvatbare strategieën zijn voor foutcorrectie.

We hebben zowel in silico- als in vitro-experimenten uitgevoerd om HEDGES te valideren voor verschillende foutenpercentages. Dergelijke statistische analyses van zeldzame gebeurtenissen, gebaseerd op zowel experimentele gegevens als simulaties, zouden een verplicht onderdeel moeten zijn van alle toekomstige voorstellen voor de opslag van DNA-gegevens. HEDGES-prestaties op echt DNA met waargenomen totale fouten van ∼ 1% en ∼ 3% (tabellen 1 en 2) waren vergelijkbaar met computersimulatie bij dezelfde totale DNA-foutpercentages en met het statistische model dat we bouwden met behulp van eenvoudige willekeurige Poisson-fouten (Fig. 2). In beide gevallen toont HEDGES de haalbaarheid aan van grootschalig foutloos herstel met codesnelheden tot 0,6 (1,2 bits per nucleotide) voor ∼ 1% DNA-fouten en 0,5 (1 bit per nucleotide) voor ∼ 3% DNA-fouten. Foutloze opslag op exabyteschaal is mogelijk bij DNA-foutpercentages van 7 tot 10% met een codesnelheid van 0,25 (0,5 bits per nucleotide). HEDGES maakt dus de weg vrij voor robuuste foutcorrectie in grootschalige maar foutgevoelige gepoolde synthese van grote DNA-bibliotheken.

.001 per nucleotide, voorspellen sommige waarnemers een afname van ordes van grootte (8). Een DNA-streng die de vier natuurlijke nucleotiden bevat, kan maximaal 2 bits per DNA-teken coderen. Met deze maximale coderate (gedefinieerd als rate r = 1.0 ) is geen foutcorrectie mogelijk, omdat er geen redundantie in het bericht zit. Zowel DNA-synthese als sequencing introduceren echter fouten in de onderliggende DNA-pools, waardoor efficiënte foutcorrigerende codes (ECC's) nodig zijn om de onderliggende informatie te extraheren. Een ECC verlaagt de codesnelheid, maar is nodig om te beschermen tegen fouten wanneer een bericht wordt gecodeerd als DNA-tekens en later bij het decoderen van DNA-tekens terug naar berichtbits.

Een ECC moet de drie soorten fouten corrigeren die verband houden met DNA: substituties van de ene base door een andere, evenals onechte inserties of deleties van nucleotiden in de DNA-streng (indels). Indels vertegenwoordigen meer dan 50% van de waargenomen DNA-fouten (Fig. 1EEN). De meeste DNA-coderingsschema's gebruiken echter ECC's die alleen substituties kunnen corrigeren, een standaardtaak in de codeertheorie (9 ⇓ ⇓ –12). De coderingstheorie-literatuur vermeldt slechts enkele ECC's die corrigeren voor deleties, en er zijn geen gevestigde methoden voor alle drie deleties, inserties en vervangingen (13, 14). Eerdere implementaties van DNA-opslag corrigeren voor indels door sequentiëring tot grote diepte, gevolgd door meervoudige uitlijning en consensus-base-oproep (Fig. 1B) (1, 3, 6). Deze aanpak vertegenwoordigt een inefficiënte "herhaling" ECC. Bovendien corrigeren herhalings-ECC's alleen fouten die verband houden met DNA-sequencing. Het corrigeren van synthesefouten met behulp van deze benadering vereist ook het bundelen van meerdere synthesereacties, wat de meest kostbare en tijdrovende stap is in op DNA gebaseerde informatieopslag (2). Ten slotte schalen afstemming en consensusdecodering niet veel verder dan kleine proof-of-principle-experimenten. Samengevat hebben ECC's die een herhaling van hoge diepte in het opgeslagen DNA vereisen, zeer lage codesnelheden omdat er een groot aantal opgeslagen nucleotiden nodig is per hersteld berichtbit.

(EEN) Verdeling van insertie- en deletiefouten (indels) in een typische DNA-opslagpijplijn (Tabel 1) ins, insertion del, deletion sub, substitutie. (B) (Links) Bestaande op DNA gebaseerde coderingsmethoden vereisen redundantie op sequentieniveau, strenguitlijning en consensusoproep om indelfouten te verminderen. (Rechts) HEDGES corrigeert indel- en substitutiefouten uit een enkele lezing. (C) Overzicht van de interleaved coderingspijplijn die in dit artikel wordt gebruikt. (NS) HEDGES-coderingsalgoritme in het eenvoudigste geval: code met halve snelheid, geen sequentiebeperkingen. Het HEDGES-coderingsalgoritme is een variant van de automatische sleutel in platte tekst, maar met redundantie omdat (in het geval van een code met halve snelheid bijvoorbeeld) 1 bit invoer 2 bits uitvoer genereert. Het hashen van elke bitwaarde met zijn streng-ID, bitindex en een paar eerdere bits "vergiftigt" slechte decoderingshypothesen, waardoor correctie van indels mogelijk is. (E) Een voorbeeld van HEDGES-codering, codering van bit 9 van de getoonde datastreng (rode doos). Als in NS, halve tariefcode, geen volgordebeperkingen. (F) Het HEDGES-decoderingsalgoritme is een hebzuchtige zoektocht op een groeiende boom van hypothesen. Elke hypothese raadt tegelijkertijd één of meer berichtbits v i, zijn bitpositie-index i, en zijn corresponderende DNA-tekenpositie-index k. Een “hebzuchtparameter” P ok (zie SI-bijlage, aanvullende tekst) beperkt exponentiële boomgroei: de meeste voortgebrachte knooppunten worden nooit opnieuw bezocht. (G) Illustratie van een vereenvoudigde HEDGES-decodering. Het voorbeeld van een bitstrengbericht wordt gecodeerd en vervolgens gesequenced met een invoegfout. Blue squares give decoding action order: 1, Initialize Start node 2 to 5, explore best hypothesis at each step and 6, traceback and output the best hypothesis message. DNA image credit: freepik.com.

Here, we describe an algorithm to achieve high code rates with a minimum requirement for redundancy in the stored DNA. We adapt the coding theory approach of constructing an “inner” code (so termed because it is closest to the physical channel, the DNA) to correct most indel and substitution errors. The inner code translates between a string of < A , C , G , T >and an intermediate binary string of < 0,1 >, with no added or dropped bits even in the presence of indels in the DNA string. An efficient “outer” code corrects residual errors with extremely high probability. Our inner code, termed HEDGES (Hash Encoded, Decoded by Greedy Exhaustive Search), is optimized for real-world DNA-based information storage: 1) It finds and corrects indels, or converts them to substitutions (which it also usually corrects). 2) It admits varying code rates, with correspondingly greater tolerance of DNA errors at lower code rates. 3) It is adaptable to the experimental constraints on DNA synthesis, for example, balanced GC content and the avoidance of homopolymer runs. 4) It has, effectively, zero strand ordering errors, removing a source of large bursts of errors. Although this paper’s main contribution is an efficient indel-correcting code, we also develop a specific implementation of the outer Reed–Solomon (RS) code for DNA-based storage. The RS code is applied “diagonally” across multiple DNA strands (Fig. 1C) to more evenly distribute synthesis and sequencing errors, which improves error correction performance (15). We test our strategy (both in silico and in vitro) with degraded DNA oligonucleotide pools. Based on these experiments, we use computer simulations to demonstrate that this coding strategy enables error-free exabyte ( 1 0 18 )-scale DNA storage.


What can I research for thesis on DNA data storage from math? - Biologie

a Laboratory of Chemical Biology and State Key Laboratory of Rare Earth Resources Utilization, Changchun Institute of Applied Chemistry, Chinese Academy of Science, Changchun, Jilin 130022, P. R. China
E-mailadres: [email protected], [email protected]

b University of Chinese Academy of Sciences, Beijing 100039, P. R. China

c University of Science and Technology of China, Hefei, Anhui 230029, P. R. China

Abstract

DNA metallization has witnessed tremendous growth and development, from the initial simple synthesis aimed at manufacturing conductive metal nanowires to the current fabrication of various nanostructures for applications in areas as diverse as nanolithography, energy conversion and storage, catalysis, sensing, and biomedical engineering. To this, our aim here was to present a comprehensive review to summarize the research activities on DNA metallization that have appeared since the concept was first proposed in 1998. We start with a brief presentation of the basic knowledge of DNA and its unique advantages in the template-directed growth of metal nanomaterials, followed by providing a systematic summary of the various synthetic methods developed to date to deposit metals on DNA scaffolds. Then, the leverage of DNAs with different sequences, conformations, and structures for tuning the synthesis of feature-rich metal nanostructures is discussed. Afterwards, the discussion is divided around the applications of these metal nanomaterials in the fields mentioned above, wherein the key role DNA metallization plays in enabling high performance is emphasized. Finally, the current status and some future prospects and challenges in this field are summarized. As such, this review would be of great interest to promote the further development of DNA metallization by attracting researchers from various communities, including chemistry, biology, physiology, material science, and nanotechnology as well as other disciplines.


Supplementary Information 1

This file contains Supplementary Tables 1-4, Supplementary Figures 1-9, Supplementary Methods and Data, a Supplementary Discussion and Supplementary references. This file was replaced on 14 February 2013 to correct the DNA sequence in Supplementary Figure 8, which was misaligned. (PDF 2027 kb)

Supplementary Information 2

This file contains the full formal specification of the digital information encoding scheme. (PDF 244 kb)

Supplementary Information 3

This file contains FastQC QC report on Illumina HiSeq 2000 sequencing run. (PDF 411 kb)

Supplementary Data 1

This zipped file contains the five original files encoded and decoded in this study, namely wssnt10.txt (ASCII text file containing text of all 154 Shakespeare sonnets), watsoncrick.pdf (PDF of Watson & Crick’s (1953) paper describing the structure of DNA), MLK_excerpt_VBR_45-85.mp3 (MP3 file containing a 26 s excerpt from Martin Luther King's 1963 "I Have A Dream" speech), EBI.jp2 (JPEG 2000 format medium resolution colour photograph of the European Bioinformatics Institute) and View_huff3.cd.new (ASCII text file defining the Huffman code used to convert bytes of encoded files to base 3). (ZIP 646 kb)

Supplementary Data 2

This file contains the GATK ErrorRatePerCycle report on Illumina HiSeq 2000 sequencing run. (TXT 6 kb)


Bekijk de video: Impact Talks #1: Simone van Neerven Chanel, Vueling Airlines, former KLM Airlines - Innovation (Januari- 2022).