Informatie

DNA-sequencing probleem


Laat ik eerst beginnen met het schetsen van het probleem:

Uw laboratorium heeft een techniek ontwikkeld om DNA-replicatie in een celextract te onderzoeken. Aan het cellulaire eiwitextract voeg je nucleotiden toe, een kleine hoeveelheid radioactief gelabeld 32P-dGTP om de visualisatie van het gesynthetiseerde DNA te vergemakkelijken, en een lineair dubbelstrengs DNA-molecuul van 4000 basenparen dat een replicatieoorsprong in het midden bevat. Nadat u de reactie 30 minuten bij 30°C hebt laten verlopen, kookt u het mengsel om de eiwitten en de DNA-strengen te denatureren, scheidt u de componenten op een acrylamidegel en detecteert u de radioactief gelabelde DNA-producten. Deze volledige reactie wordt getoond in baan 2 op de gel in de onderstaande figuur.

Probleem A:

U voert de test voor het eerst alleen uit zonder dat er iemand anders in het laboratorium is. Het buisje met het label "nucleotidemengsel" heeft slechts genoeg voor een enkele reactie, maar je vindt een buisje met een label met de tekst "dATP, dTTP, dGTP, dCTP" en je gebruikt dit in een tweede reactie. Je ziet dat de eerste reactie eruitziet als baan 2 en de tweede reactie eruitziet als baan 3. Waarom werd er geen DNA gesynthetiseerd in de tweede reactie?

Mijn antwoord:

Omdat deoxyribosetrifosfaten geen -OH-groep hebben om te hechten. Je kunt er in wezen niet mee bouwen.

Probleem B:

Uw laboratoriumpartner heeft onlangs een mutante stam geïsoleerd die zijn DNA normaal kan repliceren bij 30°C, maar geen DNA-replicatie vertoont bij 40°C. Hij noemt de mutant tsr1, voor temperatuurgevoelige replicatie. De wildtype stam repliceert efficiënt bij beide temperaturen. Je gelooft dat je de biochemische test van celextracten kunt gebruiken om te identificeren welke genen defect zijn in de mutant. Je kweekt wildtype cellen en tsr1-cellen bij 40°C, maakt de extracten, incubeert de DNA-replicatiereactie bij 40°C en detecteert de producten op een gel. Je observeert het patroon in banen 4 en 5. Je bent zo enthousiast over de resultaten dat je naar je labpartner rent en hem vertelt dat je weet welk enzym defect is. Hij is opgetogen over uw resultaten, maar zegt dat er drie verschillende enzymen zijn die uw resultaten kunnen verklaren. Wat zijn ze?

Ik ben 100% verloren op deze.

Ik begrijp uit de figuur dat het wildtype op 40 graden 4000 nucleotiden heeft, dus het wordt niet afgesneden. De mutant, trs1 wordt afgesneden in twee plakjes van 2000 en een van deze plakjes is afgesneden in plakjes van 500? Begrijp ik dit goed? Ik begrijp ook niet waarom de 500-lijn zo dik is in vergelijking met de anderen?

Ik voel me hier in ieder geval erg verward over. Ik heb geleerd over Sanger-sequencing en het is 100% logisch met ddXTP toegevoegd aan de mix om de lengte van elke reeks te bekijken en daarom de reeks te kunnen lezen, maar ik weet niet eens zeker of dat hier gebeurt.


Ook al heb je - of het probleem niet opgehelderd, ik neem in mijn antwoord aan dat je met het eukaryote systeem werkt, ook al is het principe van de replicatie hetzelfde.

dNTP's hebben wel een OH-groep op hun 3e koolstofatoom (kijk bijvoorbeeld op deze wiki-pagina voor dCTP), dus ik denk niet dat dat hier het probleem is. Ik vermoed dat de eerste buis de radio bevat met het label GTP en de tweede niet, dus zelfs het DNA is er, je kunt het niet zien - hoewel de vraag specifiek werd gesteld waarom DNA niet werd gesynthetiseerd, vind ik het een lastige vraag om je te verwarren.

Voor het tweede probleem moeten we een beetje in het replicatieproces graven:

In de replicatievork worden de twee strengen verschillend gesynthetiseerd. De zogenaamde leidende streng wordt continu gemaakt, zonder onderbrekingen, maar de andere streng - de zogenaamde achterblijvende streng wordt gesynthetiseerd door kleine fragmenten te ligeren - ook wel Okazaki-fragmenten genoemd. Deze kleine fragmenten hebben hun eigen RNA-primers nodig die moeten worden verwijderd nadat de synthese is voltooid. Omdat de oorsprong van replicatie in het midden ligt en replicatie in beide richtingen kan verlopen, kun je op een lineair fragment zoals het jouwe twee fragmenten van 2000 bp krijgen van de twee leidende strengen. Zou het een circulair DNA zijn, dan zou je nog steeds fragmenten van 4 kbp kunnen krijgen, aangezien de replicatie rond de DNA-cirkel zou kunnen gaan. De kleinere fragmenten van 500 bp die vrij overvloedig aanwezig zijn in de tsr1-laan, zijn de fragmenten die niet kunnen worden geligeerd. Dat gezegd hebbende, moet ik toegeven dat Okazaki-fragmenten van 500 bp atypisch zouden zijn voor eukaryoten (gewoonlijk is dat rond de 100-200 bp). Dus de enzymen die hiervoor verantwoordelijk zijn, kunnen zijn:

DNA-ligase - degene die verantwoordelijk is voor het afbinden (samenvoegen) van de fragmenten van de achterblijvende streng. Polymerase delta (Pol δ): dat is verantwoordelijk voor de synthese van de achterblijvende streng en het verwijderen van de primer - in dit geval kan de functie voor het verwijderen van de primer defect zijn, waardoor de primers op het DNA blijven en er geen volledige synthese en ligatie kan plaatsvinden. Het laatste eiwit, hoewel het niet echt een enzym is, is het DNA-klemcomplex (PCNA). Dit complex stabiliseert het polymerase tot DNA, maar bij het bereiken van een eerder fragment zou het polymerase moeten dissociëren. Maar als de klem disfunctioneel is, dan blijft de polymerase aan het uiteinde van het fragment vastzitten, dus er kan geen primerverwijdering en ligatie plaatsvinden.

Als je meer info nodig hebt, lees dan deze wiki-pagina.


DNA-sequentiefouten

Hallo biologie-redditors, ik ben de laatste tijd geïnteresseerd in DNA-sequencing en vond deze (relatief) goedkope DNA-sequencer, maar na wat graven ontdekte ik dat het slechts een nauwkeurigheidspercentage van 75% heeft, dus waarom zou iemand, zelfs een amateurwetenschapper het gebruiken als je de uitkomst niet kunt vertrouwen?

Opeenvolging keer op keer. Zolang de fouten willekeurig zijn, minimaliseert u hun uiteindelijke impact door herhaling.

Dit type sequencer is inderdaad controversieel geweest om de reden die je geeft, maar lijkt nu goed te werken. Het is eenvoudig, draagbaar en kosteneffectief.

Bedankt! Maar hoe kom je aan je definitieve dna-sequentie? Als ik bijvoorbeeld 10 tests van hetzelfde dna zou doen, zou ik wat software kunnen schrijven om cytosine/guanine/adenine/thymine te vergelijken met de positie in de streng en degene te gebruiken die het meest prominent is in alle 10 sequenties. Maar aangezien alle geteste strengen hoogstwaarschijnlijk niet dezelfde lengte zullen hebben vanwege fouten, zou deze methode niet echt werken. Om het even welke ideeën op hoe te om dat te bevestigen? En ik zal!

Andere interessante vragen zijn voor 'wat' en 'waar' het kan worden gebruikt. Omdat de basisnauwkeurigheid zo laag is, zal het waarschijnlijk niet worden gebruikt om menselijke genetische variatie te bestuderen, maar onthoud dat de metingen vrij lang zijn, dus je kunt waarschijnlijk een goede dekking krijgen voor kleinere genomen, zoals bacteriën en virussen. Bovendien kunnen draagbare apparaten worden gebruikt in ruimtes zonder directe verbinding met een laboratorium. Het is bijvoorbeeld gebruikt om ebola-monsters ter plaatse in West-Afrika te analyseren (meer toepassingen in doi: 10.1186/s13059-016-1103-0). P.S. Ik ben op geen enkele manier gerelateerd aan het bedrijf of artikel.


Gids voor het oplossen van problemen met DNA-sequencing

Geautomatiseerde DNA-sequencing is een van de meest voorkomende en normaal gesproken meest robuuste technieken die worden uitgevoerd in moleculair biologische laboratoria. Helaas werkt het niet altijd en als het niet werkt, kan het heel moeilijk zijn om erachter te komen wat er is misgegaan. Gelukkig hebben de meeste mislukte (of suboptimale) resultaten van DNA-sequencing slechts een beperkt aantal oorzaken. Om te helpen bij het oplossen van problemen met de DNA-sequencing, hebben we een reeks handleidingen gemaakt voor het identificeren van de meest voorkomende oorzaken. Deze handleidingen bevatten ook tips voor het oplossen van elk probleemtype, samen met meer algemene tips voor het verbeteren van de kwaliteit van de DNA-sequencing.

Als u opmerkingen of vragen heeft over deze handleidingen, neem dan contact op met ons ondersteuningsteam via: omdat we graag uw suggesties horen.

Hoe de oorzaken van fouten in de DNA-sequencing te identificeren?

Het identificeren van de oorzaak van een slecht DNA-sequencingresultaat kan vaak erg moeilijk zijn, omdat een bepaald sequencingprobleem veel verschillende oorzaken kan hebben, of het resultaat kan zijn van meerdere op elkaar inwerkende factoren. Vaak is de enige manier om de echte oorzaak van een bepaald probleem te achterhalen, het uitvoeren van een eliminatieproces.

Dit proces kan aanzienlijk worden vereenvoudigd door zowel de onbewerkte als de bewerkte gegevenschromatogrammen van de sequencing-sporen visueel te onderzoeken. In de volgende gids hebben we gedetailleerde informatie gegeven over de meest voorkomende sequencing-problemen, samen met suggesties over de meest waarschijnlijke oorzaken. De oorzaken zijn gerangschikt van meest voorkomend naar minst voorkomend. We hebben ook oplossingen (indien bekend) opgenomen voor het oplossen van elk type sequentieprobleem.

Een alternatief voor handmatige inspectie (die erg arbeidsintensief wordt als u meer dan een paar sporen uitvoert) is het gebruik van een geautomatiseerd sporenanalysesysteem zoals ons QualTrace III DNA-sequencing QC-software. QualTrace III scant automatisch de sporen voor veel verschillende sequencing-problemen, en omdat het werkt door de onbewerkte gegevens te analyseren, kan het met elke basecaller worden gebruikt.

Om te zien hoe: QualTrace III kan helpen bij het oplossen van problemen met DNA-sequencing die we hebben gemaakt gratis, online versie van QualTrace III waar u uw eigen sporen kunt uploaden en hebben QualTrace III analyseer ze op eventuele problemen.

De meest voorkomende problemen met geautomatiseerde DNA-sequencing

De volgende handleidingen geven voorbeelden van de belangrijkste oorzaken van Sanger DNA-sequencing-problemen, beschrijven hoe ze kunnen worden geïdentificeerd en hoe de onderliggende problemen kunnen worden opgelost.


Lezing 2: Biologische achtergrond, sequencing van de eerste en tweede generatie

Geschreven door Claire Margolis en herzien door het cursuspersoneel

Onderwerpen

In deze lezing bespreken we hoe het sequencingproces werkt voor bepaalde reguliere technologieën. We introduceren eerst wat biologische achtergrond. Vervolgens introduceren en bespreken we twee belangrijke sequencing-technologieën: Sanger (sequencing-technologie van de eerste generatie) en Illumina (sequencing-technologie van de tweede generatie).

Basisprincipes van DNA

De mens genoom is de volledige DNA-sequentie van een menselijk individu. Menselijk DNA komt in 23 paren chromosomen en elk paar bevat één chromosoom geërfd van de moeder en één geërfd van de vader, wat in totaal 46 chromosomen oplevert. 22 van de paren zijn autosomale chromosomen en het laatste paar zijn de geslachtschromosomen. Elke cel in een organisme bevat exact dezelfde genomische gegevens die in de celkern leven. Bij mensen is het genoom 3 miljard basenparen (bp) lang. Verschillende soorten hebben genomen van zeer verschillende groottes. Bacteriële genomen zijn een paar miljoen bp, de meeste virale genomen zijn 10.000 bp en bepaalde planten hebben genomen die honderden miljard bp lang zijn. Er zijn twee soorten cellen: prokaryotisch (geen kern en gevonden in organismen zoals bacteriën) en eukaryotisch (bevat een kern en gevonden in hogere organismen zoals mensen). Hoewel het begrijpen van het menselijk genoom belangrijk is, zijn de technieken van deze klasse breed toepasbaar op andere organismen.

Bij mensen zijn genomen ongeveer 99,8% vergelijkbaar. Van de 3 miljard basenparen variëren individuele genomen op 3-4 miljoen basenparen. Deze variaties worden vastgelegd in Single Nucleotide Polymorphisms (SNP's), hoewel er enkele grote variaties zijn die structurele varianten (SV's) worden genoemd. Verschillen in de individuele genomen ontstaan ​​om twee redenen:

  1. Willekeurige mutaties, die optreden tijdens de evolutie omdat natuurlijke selectie bepaalde fenotypes bevoordeelt. Deze ontstaan ​​voornamelijk door "fouten" tijdens het DNA-replicatieproces tijdens celdeling. De meeste van deze mutaties zijn schadelijk, wat leidt tot fenotypische veranderingen die schadelijk zijn en resulteren in de dood van de cel. Af en toe begunstigt natuurlijke selectie bepaalde mutaties, en deze blijven in de populatie behouden.
  2. Recombinatie, die optreedt tijdens reproductie in hoge organismen zoals zoogdieren. Tijdens recombinatie is het genetische materiaal dat door de ouderorganismen aan hun kind wordt doorgegeven, een mengsel van genetisch materiaal van de ouders.

DNA-structuur

DNA bestaat uit een suikerfosfaatruggengraat en vier nucleotidebasen: Adenine (A), Cytosine (C), Guanine (G) en Thymine (T). DNA is dubbelstrengs en gestructureerd in een dubbele helix-formatie met paren nucleotiden als "sporten" van de helix (vandaar de term "basenpaar"). Adenine bindt altijd chemisch met Thymine en Cytosine bindt altijd met Guanine. Met andere woorden, A is complementair naar T, en op dezelfde manier is C complementair aan G. De A-T- en C-G-paren staan ​​​​bekend als complementaire paren. De structuur van DNA is hieronder weergegeven.

Een DNA-sequentie wordt conventioneel geschreven in de richting van het 5'-uiteinde (kop) naar het 3'-uiteinde (staart). Wanneer we een DNA-streng schrijven, schrijven we alleen de letters die de basen van een van de strengen vertegenwoordigen. De andere streng, dat is de omgekeerd complement van de eerste streng, kan worden afgeleid omdat we de complementaire paren kennen. Om het omgekeerde complement te krijgen, keren we de volgorde van de nucleotiden in de originele string om en vullen we vervolgens de nucleotiden aan (d.w.z. verwisselen A met T en C met G). De onderstaande figuur toont een voorbeeld van een DNA-fragment en zijn omgekeerde complementstreng.

DNA-replicatie

DNA ligt aan de basis van celreplicatie. Wanneer een cel celdeling ondergaat, ook wel bekend als mitose, wordt het DNA in zijn kern gerepliceerd en via een reeks stappen die in de onderstaande afbeelding worden getoond, levert één oudercel twee identieke dochtercellen op.

Tijdens mitose zijn verschillende biomoleculen betrokken en we geven hier een sterk vereenvoudigde uitleg van het mitotische proces. In de figuur beginnen we met twee chromosomen: rood en blauw. Eerst wordt het DNA gerepliceerd, wat resulteert in de meer bekende X-vormige chromosomen. Door een complexe cascade van biomoleculaire signalen en herstructurering binnen de cel, worden de (nu gerepliceerde) chromosomen in het midden van de cel opgesteld. Voor elk chromosoom worden de helften uit elkaar getrokken en elk van de twee dochtercellen krijgt een kopie van het originele chromosoom. Dit resulteert in twee dochtercellen die genetisch identiek zijn aan de oorspronkelijke oudercel. Voor ons is DNA-duplicatie het belangrijkste onderdeel van dit diagram. Dit is het natuurlijke proces dat we gebruiken om sequentiebepaling uit te voeren.

Tijdens DNA-replicatie worden de twee DNA-strengen eerst uitgepakt, wat resulteert in twee enkele strengen die elk fungeren als een sjabloon voor replicatie. Een korte RNA-primer wordt vervolgens bevestigd aan een specifieke plaats op het DNA. De basen in de primer zijn complementair aan de basen op de plaats. Een enzym faciliteert (of 'katalyseert') een chemische reactie, en DNA-polymerase is het enzym dat de complementaire koppeling van nieuwe nucleotiden aan het matrijs-DNA katalyseert en de gebonden primer verlengt. De nucleotiden die DNA-polymerase gebruikt om een ​​streng te verlengen, worden genoemd: dNTP's (deoxynucleotide trifosfaten). Biochemisch verschillen ze enigszins van de nucleotiden op een manier die het gemakkelijker maakt om ermee te werken tijdens DNA-replicatie. De dNTP's die overeenkomen met A, C, G en T zijn respectievelijk dATP, dCTP, dGTP en dTTP. De DNA-replicatie wordt hieronder geïllustreerd.

Sanger-sequencing

De eerste techniek die werd gebruikt om uit DNA te lezen, was een proces genaamd Sanger-sequencing, dat is gebaseerd op het idee van sequentiëring door synthese. Fred Sanger won zijn tweede Nobelprijs voor de uitvinding van Sanger-sequencing in 1977. Sanger-sequencing was de belangrijkste technologie die werd gebruikt om genomische gegevens te sequencen tot het midden van de jaren 2000, toen de technologie werd vervangen door sequencing-technologieën van de tweede generatie. De twee sequencing-technieken zijn verwant omdat ze allebei de sequencing door synthesetechniek gebruiken, maar de sequencing van de tweede generatie parallelliseert Sanger-sequencing enorm, wat resulteert in een winst van ongeveer 6 ordes van grootte in termen van kosten en snelheid.

We kijken naar sequencing vanuit een computationeel oogpunt en we moeten de technologie een beetje begrijpen om te motiveren wat we doen. Hieronder proberen we de volgende 3 vragen te beantwoorden.

  1. Hoe krijgen we 6 ordes van grootte verbetering tussen Sanger-sequencing en sequencing van de tweede generatie?
  2. Hoe worden fouten geïntroduceerd? Alle metingen hebben fouten en de redenen waarom deze fouten bestaan, zijn afhankelijk van de technologie.
  3. Waarom is de leeslengte beperkt? Een van de grootste rekenkundige uitdagingen van sequencing is dat hoewel de van belang zijnde sequentie erg lang is (> 1M bp), de gegevens die we krijgen erg kort zijn (

Sequentie door synthese

Sequentiebepaling door synthese maakt gebruik van het feit dat DNA-strengen, die normaal in de vorm van een dubbele helix zijn, uit elkaar worden gesplitst voor mitose en elke streng wordt gekopieerd. Sanger bedacht een slimme manier om het sequencing-probleem om te zetten in een probleem van het meten van massa.

We hebben hierboven vermeld dat DNA-polymerase van nature dNTP's gebruikt om een ​​nieuwe streng te synthetiseren. Het syntheseproces verloopt zeer snel, waardoor het moeilijk is om tijdens de synthese enige vorm van meting uit te voeren. Sanger overwon dit probleem door een manier te bedenken om de synthese te beëindigen met behulp van een aangepaste versie van dNTP's genaamd ddNTP's (dideoxynucleotide trifosfaten). DNA-polymerase kan net als bij dNTP's een ddNTP aan de sequentie hechten, maar het kan niets aan de ddNTP hechten. Met andere woorden, de aanhechting van een ddNTP stopt de replicatie van het DNA-molecuul.

We zullen ddNTP's die overeenkomen met A, C, G en T aanduiden als A*, C*, G* en T*. Door een kleine hoeveelheid van één type ddNTP in het experiment te introduceren (bijv. T*), blijven we over als de reacties eindigen: 1. kleine percentages strengen die T*s bevatten op locaties die overeenkomen met A's in de template, en 2 een groot deel van de strengen die alleen normale dNTP's bevatten. Deze procedure staat bekend als de ketenbeëindigingsmethode:. We beschrijven nu de sequentieprocedure van Sanger:

We repliceren eerst de sequentie met behulp van een techniek genaamd polymerasekettingreactie (PCR), die ook gebruik maakt van DNA-replicatie om de hoeveelheid DNA exponentieel te vergroten. Voor onze doeleinden nemen we aan dat we na het uitvoeren van PCR-cycli een maal de oorspronkelijke hoeveelheid van het molecuul verkrijgen. PCR verhoogt de hoeveelheid biologisch materiaal drastisch.

We breken de twee strengen uit elkaar door het monster op te warmen. Een van de enkele strengen zal worden gebruikt als de sjabloon streng of de streng waaraan nieuwe basen worden bevestigd.

We voegen een sjabloonstreng van DNA toe aan een reageerbuis samen met vrij zwevende dNTP's en een paar gemodificeerde ddNTP's (1% van de nucleotiden). Alle ddNTP's zijn van hetzelfde type. We voegen ook een toe inleiding of een korte reeks die hecht aan het begin van de betreffende streng en het hele replicatieproces start.

We filteren sequenties die eindigen op ddNTP's uit met behulp van een techniek die gelelektroforese wordt genoemd. Deze methode maakt gebruik van het feit dat het DNA-molecuul een lading heeft. Door het DNA-monster in een gel te doen en een elektrisch veld over de gel te induceren, kunnen we strengen van verschillende massa scheiden (grotere strengen bewegen langzamer).

We meten de massa van geïsoleerde strengen. Dit kan worden gedaan door nucleotiden radioactief te labelen en het niveau of de radioactiviteit te meten of door fluorescerende tags aan de nucleotiden toe te voegen en de sterkte van het uitgestraalde licht te meten (d.w.z. een foto maken).

De onderstaande afbeelding illustreert een eenvoudig voorbeeld van het proces van Sanger-sequencing.

We combineren deze om de reeks te krijgen

EEN C G t
30.0 48.2 56.7 86.3
61.3 99.3
74.4

Het samenvoegen van deze 4 gesorteerde lijsten geeft ons de onderliggende volgorde. In het voorbeeld krijgen we

30,0 - A
48.2 - C
56,7 - G
61.3 - A
74,4 - A
86,3 - T
99,3 - C

geeft ons de volgorde om te zijn ACGAATC.

Beperkingen van Sanger-sequencing

Sanger-sequencing werkt voor sequenties met een lengte van minder dan ongeveer 700 bp. Deze leesbeperking komt voort uit het feit dat naarmate de lengte van een reeks toeneemt, het onderscheid tussen de massa van een lengtereeks en de massa van een lengtereeks steeds moeilijker wordt. Om dit te zien, moet u er rekening mee houden dat een tolerantie van 0,1% in de meting het onmogelijk zou maken om een ​​reeks met lengte 1000 te onderscheiden van een reeks met lengte 1001, zelfs als alle basen hetzelfde molecuulgewicht zouden hebben. Dergelijke fouten bij het meten van massa zijn ook een reden voor fouten in Sanger-sequencing, hoewel het foutenpercentage rond de 0,001% ligt.

Bovendien is Sanger-sequencing traag (lage doorvoer) omdat het massametingsproces tijdrovend is. Dankzij Sanger-sequencing konden wetenschappers ongeveer 3000 basen per week sequensen. Een van de belangrijkste redenen dat de procedure traag is, is omdat de massa van veel moleculen moet worden gemeten, een kostbaar proces. De apparatuur die wordt gebruikt voor Sanger-sequencing wordt hieronder weergegeven:

Illumina-sequencing

Sequencing van de tweede generatie, ontwikkeld door Illumina, brengt een paar wijzigingen aan in het hierboven getoonde Sanger-proces. De sequentiëringsprocedure parallelliseert het proces ook enorm, waardoor de doorvoer drastisch wordt verhoogd en de prijs wordt verlaagd.

Illumina bereikt parallellisatie door meerdere synthese-experimenten tegelijk uit te voeren. Elk van de vele sjabloonstrengen is verankerd op een chip en alleen ddNTP's met fluorescerende tags zijn beschikbaar tijdens de syntheseprocedure (geen dNTP's). Elk type ddNTP is zodanig getagd dat het een andere golflengte of kleur uitzendt. Omdat ddNTP's de synthese stoppen, wordt de synthese van nieuwe strengen gesynchroniseerd. Alle nieuwe strengen zijn aan het einde van elke synthesecyclus even lang, waarna een foto van de chip wordt gemaakt. Deze foto's worden vervolgens geanalyseerd door "base caller" -software om de complementaire nucleotiden te identificeren (of te "callen"). De basisoproep zal in de volgende lezing in meer detail worden besproken. Om de ketenbeëindiging te negeren, gebruikt Illumina-sequencing: omkeerbare beëindiging. Het sequencingproces introduceert een enzym dat een ddNTP in een normaal dNTP kan veranderen nadat het is gebonden, waardoor de synthesereacties kunnen doorgaan in plaats van permanent te worden stopgezet.

Om te garanderen dat er voldoende licht wordt uitgestraald zodat ddNTP-signalen detecteerbaar zijn, wordt elk van de matrijsstrengen gekloond, wat resulteert in clusters van dezelfde streng die tegelijk worden gesynthetiseerd. Vanwege de omkeerbare beëindiging maakt Illumina-sequencing het meten van massa's overbodig. In tegenstelling tot de gelelektroforeseprocedure die hierboven is vereist voor Sanger-sequencing, toont de onderstaande afbeelding een glasplaatje dat wordt gebruikt tijdens Illumina-sequencing. Illumina-sequencing kan miljarden templatestrengen tegelijk sequencen, wat de doorvoer aanzienlijk verhoogt.

Fouten in Illumina-sequencing ontstaan ​​als gevolg van tijdstappen waarbij geen ddNTP aan een bepaalde sequentie is gekoppeld en daarom wordt dezelfde base twee keer gelezen. Bovendien bestaan ​​dNTP's nog steeds in oplossing, en daarom kan af en toe een dNTP in plaats van een ddNTP worden gehecht aan een streng die wordt gesynthetiseerd. Het DNA-polymerase gaat dan door met de synthese totdat het een ander ddNTP toevoegt. Om deze reden kan de foto, hoewel alle strengen binnen elke cluster identiek zijn, ruis bevatten.

De Sanger-sequencing-figuur is te danken aan Claire Margolis. Het DNA-replicatiecijfer is ontleend aan Alberts B, Johnson A, Lewis J, et al, Moleculaire Biologie van de Cel. 4e editie. De rest komt uit de aantekeningen van Ben Langmead.


17.3 Sequencing van het hele genoom

In deze sectie onderzoek je de volgende vragen:

Aansluiting voor AP ® Cursussen

De informatie in de sectie valt niet onder het bereik van AP®. U kunt echter informatie in de sectie bestuderen als facultatief of illustratief materiaal.

Ondersteuning voor docenten

Met oudere technieken is de identificatie van pathogene bacteriën een tijdrovend proces dat dagen of weken kan duren. Voorheen kon de identificatie van de tuberculosebacterie tot zes weken duren. De ontwikkeling van DNA-microarrays heeft klinische laboratoria in staat gesteld die tijd tot uren te verkorten, met een betere specificiteit van de identificatie. Dit heeft artsen voorzien van de informatie die ze nodig hebben om patiënten snel de meest effectieve antibioticatherapie te geven, betere zorg te bieden en te voorkomen dat het infectieuze agens zich naar meer gastheren verspreidt.

Hoewel er de afgelopen jaren aanzienlijke vooruitgang is geboekt in de medische wetenschappen, worden artsen nog steeds in de war gebracht door sommige ziekten en gebruiken ze sequentiebepaling van het hele genoom om het probleem tot op de bodem uit te zoeken. Whole-genome sequencing is een proces dat de DNA-sequentie van een volledig genoom bepaalt. Whole-genome sequencing is een brute-force benadering voor het oplossen van problemen wanneer er een genetische basis is in de kern van een ziekte. Verschillende laboratoria bieden nu diensten aan om volledige genomen te sequensen, analyseren en interpreteren.

Whole-exome sequencing is een goedkoper alternatief voor sequencing van het hele genoom. Bij exome-sequencing worden alleen de coderende, exon-producerende gebieden van het DNA gesequenced. In 2010 werd 'whole-exome' sequencing gebruikt om een ​​jongetje te redden wiens darmen meerdere mysterieuze abcessen hadden. Het kind had verschillende colonoperaties zonder verlichting. Ten slotte werd sequencing van het hele exoom uitgevoerd, wat een defect aan het licht bracht in een route die apoptose (geprogrammeerde celdood) regelt. Een beenmergtransplantatie werd gebruikt om deze genetische aandoening te overwinnen, wat leidde tot een remedie voor de jongen. Hij was de eerste persoon die met succes werd behandeld op basis van een diagnose die werd gesteld met sequentiëring van het hele exoom.

De Science Practice Challenge-vragen bevatten aanvullende testvragen met betrekking tot het materiaal in deze sectie die u zullen helpen bij de voorbereiding op het AP-examen. Deze vragen hebben betrekking op de volgende normen:
[APLO 2.23][APLO 3.5][APLO 3.20][APLO 3.21]

Strategieën die worden gebruikt bij het rangschikken van projecten

De basis sequencing-techniek die in alle moderne sequencing-projecten wordt gebruikt, is de ketenbeëindigingsmethode (ook bekend als de dideoxy-methode), die in de jaren zeventig door Fred Sanger werd ontwikkeld. De ketenbeëindigingsmethode omvat DNA-replicatie van een enkelstrengs sjabloon met het gebruik van een primer en een regulier deoxynucleotide (dNTP), dat een monomeer of een enkele eenheid van DNA is. De primer en dNTP worden gemengd met een kleine hoeveelheid fluorescent gelabelde dideoxynucleotiden (ddNTP's). De ddNTP's zijn monomeren die een hydroxylgroep (–OH) missen op de plaats waar een ander nucleotide gewoonlijk aanhecht om een ​​keten te vormen (Figuur 17.12). Elke ddNTP is gelabeld met een andere kleur fluorofoor. Elke keer dat een ddNTP wordt opgenomen in de groeiende complementaire streng, beëindigt het het proces van DNA-replicatie, wat resulteert in meerdere korte strengen van gerepliceerd DNA die elk op een ander punt tijdens de replicatie worden beëindigd. Wanneer het reactiemengsel wordt verwerkt door gelelektroforese nadat het is gescheiden in enkele strengen, vormen de meerdere nieuw gerepliceerde DNA-strengen een ladder vanwege de verschillende groottes. Omdat de ddNTP's fluorescerend zijn gelabeld, weerspiegelt elke band op de gel de grootte van de DNA-streng en de ddNTP die de reactie beëindigde. De verschillende kleuren van de fluorofoor-gelabelde ddNTP's helpen bij het identificeren van de ddNTP die op die positie is opgenomen. Het lezen van de gel op basis van de kleur van elke band op de ladder levert de volgorde van de sjabloonstreng op (Figuur 17.13).

Vroege strategieën: shotgun-sequencing en pair-wise end-sequencing

Bij de shotgun-sequencingmethode worden verschillende kopieën van een DNA-fragment willekeurig in veel kleinere stukjes gesneden (een beetje zoals wat er gebeurt met een ronde shotcartridge wanneer deze wordt afgevuurd vanuit een shotgun). Alle segmenten worden vervolgens gesequenced met behulp van de chain-sequencing-methode. Vervolgens worden met behulp van een computer de fragmenten geanalyseerd om te zien waar hun sequenties elkaar overlappen. Door overlappende sequenties aan het einde van elk fragment op elkaar af te stemmen, kan de volledige DNA-sequentie worden hervormd. Een grotere reeks die is samengesteld uit overlappende kortere reeksen wordt een contig genoemd. Bedenk bij wijze van analogie dat iemand vier exemplaren heeft van een landschapsfoto die je nog nooit eerder hebt gezien en niets weet over hoe deze eruit zou moeten zien. De persoon verscheurt vervolgens elke foto met zijn handen, zodat er stukjes van verschillende grootte van elke kopie aanwezig zijn. De persoon mengt vervolgens alle stukjes door elkaar en vraagt ​​je om de foto te reconstrueren. In een van de kleinere stukken zie je een berg. In een groter stuk zie je dat dezelfde berg achter een meer ligt. Een derde fragment toont alleen het meer, maar het onthult dat er een hut aan de oever van het meer is. Daarom, als je naar de overlappende informatie in deze drie fragmenten kijkt, weet je dat de afbeelding een berg achter een meer bevat met een hut aan de kust. Dit is het principe achter het reconstrueren van volledige DNA-sequenties met behulp van shotgun-sequencing.

Oorspronkelijk analyseerde shotgun-sequencing slechts één uiteinde van elk fragment op overlappingen. Dit was voldoende voor het sequencen van kleine genomen. De wens om grotere genomen, zoals die van een mens, te sequencen, leidde echter tot de ontwikkeling van double-barrel shotgun-sequencing, meer formeel bekend als pairwise-end sequencing. Bij pairwise-end sequencing worden beide uiteinden van elk fragment geanalyseerd op overlap. Pairwise-end sequencing is daarom omslachtiger dan shotgun sequencing, maar het is gemakkelijker om de sequentie te reconstrueren omdat er meer informatie beschikbaar is.

Sequencing van de volgende generatie

Sinds 2005 vallen geautomatiseerde sequencing-technieken die door laboratoria worden gebruikt onder de paraplu van next-generation sequencing, een groep geautomatiseerde technieken die worden gebruikt voor snelle DNA-sequencing. Deze geautomatiseerde, goedkope sequencers kunnen in één dag sequenties van honderdduizenden of miljoenen korte fragmenten (25 tot 500 basenparen) genereren. Deze sequencers gebruiken geavanceerde software om het omslachtige proces van het ordenen van alle fragmenten te doorstaan.

Evolutie verbinding

Sequenties vergelijken

Een sequentie-uitlijning is een rangschikking van eiwitten, DNA of RNA die wordt gebruikt om regio's van overeenkomst tussen celtypen of soorten te identificeren, wat kan wijzen op behoud van functie of structuren. Sequentie-uitlijningen kunnen worden gebruikt om fylogenetische bomen te construeren. De volgende website gebruikt een softwareprogramma genaamd BLAST (basic local alignment search tool).

Klik onder 'Basic Blast' op 'Nucleotide Blast'. Voer de volgende reeks in het grote vak "queryreeks" in: ATTGCTTCGATTGCA. Zoek onder het vak het veld "Soort" en typ "mens" of "Homo sapiens". Klik vervolgens op "BLAST" om de ingevoerde sequentie te vergelijken met bekende sequenties van het menselijk genoom. Het resultaat is dat deze sequentie op meer dan honderd plaatsen in het menselijk genoom voorkomt. Scroll naar beneden onder de afbeelding met de horizontale balken en je ziet een korte beschrijving van elk van de overeenkomende hits. Kies een van de hits bovenaan de lijst en klik op "Graphics". Dit brengt je naar een pagina die laat zien waar de sequentie zich binnen het gehele menselijke genoom bevindt. U kunt de schuifregelaar die eruitziet als een groene vlag heen en weer bewegen om de sequenties direct rond het geselecteerde gen te bekijken. U kunt dan terugkeren naar de door u geselecteerde reeks door op de knop "ATG" te klikken.

  1. Het bacteriële eiwit zal meer lijken op het menselijke eiwit dan het gisteiwit.
  2. Het bacteriële eiwit zal meer op het gisteiwit lijken dan op het menselijke eiwit.
  3. Het gisteiwit zal meer op het menselijke eiwit lijken dan op het bacteriële eiwit.
  4. Het bacteriële en gisteiwit zullen een vergelijkbare sequentie delen, maar het menselijke eiwit zal met geen van beide verwant zijn.

Gebruik van volledige genoomsequenties van modelorganismen

Het eerste genoom waarvan de sequentie volledig werd bepaald, was van een bacterieel virus, de bacteriofaag fx174 (5368 basenparen). Dit werd bereikt door Fred Sanger met behulp van shotgun-sequencing. Verschillende andere organellen en virale genomen werden later gesequenced. Het eerste organisme waarvan het genoom werd gesequenced, was de bacterie Haemophilus influenzae dit werd bereikt door Craig Venter in de jaren tachtig. Ongeveer 74 verschillende laboratoria werkten samen aan de sequentiebepaling van het genoom van de gist Saccharomyces cerevisiae, which began in 1989 and was completed in 1996, because it was 60 times bigger than any other genome that had been sequenced. By 1997, the genome sequences of two important model organisms were available: the bacterium Escherichia coli K12 and the yeast Saccharomyces cerevisiae. Genomes of other model organisms, such as the mouse Mus musculus, the fruit fly Drosophila melanogaster, the nematode Caenorhabditis. elegans, and humans Homo sapiens are now known. A lot of basic research is performed in model organisms because the information can be applied to genetically similar organisms. A model organism is a species that is studied as a model to understand the biological processes in other species represented by the model organism. Having entire genomes sequenced helps with the research efforts in these model organisms. The process of attaching biological information to gene sequences is called genome annotation . Annotation of gene sequences helps with basic experiments in molecular biology, such as designing PCR primers and RNA targets.

Link naar leren

Click through each step of genome sequencing at this site.

Review the Sanger sequencing method as pictured. Make a case for how deep sequencing offers an improvement on Sanger sequencing.

  1. Deep sequencing allows for much faster sequencing of short DNA strands as compared to Sanger sequencing, which reads only short sequences of DNA at a slow rate, and it avoids Sanger's issues with chain termination and separation.
  2. Sequence coverage is higher in Sanger sequencing as compared to deep sequencing.
  3. Sanger sequencing is suitable when there is only one nucleotide difference between chains, whereas deep sequencing is suitable when there is more than one nucleotide difference between chains.
  4. Sanger sequencing reads and sequences a genome multiple times, whereas deep sequencing accurately reads sequences the whole genome in a single time.

Uses of Genome Sequences

DNA microarrays are methods used to detect gene expression by analyzing an array of DNA fragments that are fixed to a glass slide or a silicon chip to identify active genes and identify sequences. Almost one million genotypic abnormalities can be discovered using microarrays, whereas whole-genome sequencing can provide information about all six billion base pairs in the human genome. Although the study of medical applications of genome sequencing is interesting, this discipline tends to dwell on abnormal gene function. Knowledge of the entire genome will allow future onset diseases and other genetic disorders to be discovered early, which will allow for more informed decisions to be made about lifestyle, medication, and having children. Genomics is still in its infancy, although someday it may become routine to use whole-genome sequencing to screen every newborn to detect genetic abnormalities.

In addition to disease and medicine, genomics can contribute to the development of novel enzymes that convert biomass to biofuel, which results in higher crop and fuel production, and lower cost to the consumer. This knowledge should allow better methods of control over the microbes that are used in the production of biofuels. Genomics could also improve the methods used to monitor the impact of pollutants on ecosystems and help clean up environmental contaminants. Genomics has allowed for the development of agrochemicals and pharmaceuticals that could benefit medical science and agriculture.

It sounds great to have all the knowledge we can get from whole-genome sequencing however, humans have a responsibility to use this knowledge wisely. Otherwise, it could be easy to misuse the power of such knowledge, leading to discrimination based on a person's genetics, human genetic engineering, and other ethical concerns. This information could also lead to legal issues regarding health and privacy.


The Human Genome Project

De Human Genome Project was an international research program involving over 1000 scientists. It was a publically funded project that began in the late 1980s, aiming to map and understand all the genes in the human genome. This can be carried out by determining the order (also called the volgorde) of all of the 3.2 billion nucleotides in the genome and characterizing the features of the DNA, specifically by figuring out which sequences code for protein-coding genes. The initial aim was to finish this project within 15 years. The first draft of 90% of the sequence was published in the journal Nature in 2001, the full sequence was published in 2004.

At the time, this was a hugely ambitious project. It was extremely costly (around $13 billion!), and at the time the technology was slow, meaning sequencing the first genome took about 13 years. There was also a lot of controversy surrounding the project, as it was wondered whether the cost of the project would outweigh the benefits. However, the success of the Human Genome Project is clear today. The information it provided and the innovation it sparked has greatly enhanced the way scientists work.

The Human Genome Project determined there are just over 20,000 human protein-coding genes. Interestingly, this is much less than the original estimate of 100,000 protein-coding genes based on the3 number of genes and the size of the genome in bacteria and worms. This differences reflects how complex the regulation of these genes has to be, in order to produce such an advanced organism.


De procedure

The DNA to be sequenced is prepared as a single strand.

  • a mixture of all four normaal (deoxy) nucleotides in ample quantities
    • dATP
    • dGTP
    • dCTP
    • dTTP
    • ddATP
    • ddGTP
    • ddCTP
    • ddTTP

    Because all four normal nucleotides are present, chain elongation proceeds normally until, by chance, DNA polymerase inserts a dideoxy nucleotide (shown as colored letters) instead of the normal deoxynucleotide (shown as vertical lines). If the ratio of normal nucleotide to the dideoxy versions is high enough, some DNA strands will succeed in adding several hundred nucleotides before insertion of the dideoxy version halts the process.

    At the end of the incubation period, the fragments are separated by length from longest to shortest. The resolution is so good that a difference of one nucleotide is enough to separate that strand from the next shorter and next longer strand. Each of the four dideoxynucleotides fluoresces a different color when illuminated by a laser beam and an automatic scanner provides a printout of the sequence.

    Here is a representative example of a DNA sequence (455 nucleotides of the lysU gen van E coli) which was generated by an automated sequencing device.
    (The image is courtesy of Pharmacia Biotech Inc., Piscataway, NJ.)


    DNA Sequencing: Changing the Landscape of Science and Biology

    Health Center researchers are at the forefront of new discoveries about the smallest molecules that have a major impact on human health.

    Health Center researchers are at the forefront of new discoveries about the smallest molecules that have a major impact on human health. (Shutterstock Photo)

    UConn researchers are at the forefront of new discoveries and understanding about the smallest molecules in the body that can have a momentous impact on human health.

    Brenton Graveley, professor of genetics and developmental biology. (Lanny Nagler for UConn Health Center)

    Brenton Graveley, professor of genetics and developmental biology at UConn Health Center and UConn’s Institute for System Genomics, and coauthor of a recent review article in Moleculaire cel with fellow UConn postdoctoral researcher Alex Plocik, explains how government-funded research consortia are using advances in DNA sequencing technology to unlock the mysteries surrounding diseases and disorders. By sharing this DNA sequence information with other researchers, new discoveries can be made even faster. Graveley is a lead investigator in one such government-funded research consortium, the ENCODE project.

    Sequencing involves mapping out the order of molecules within DNA, which is the blueprint or building blocks of life because it contains all of the genetic instructions needed to build and maintain an organism. “DNA sequencing has changed the whole landscape of science and biology,” Graveley says. “It’s exploding exponentially, and there’s no end in sight.”

    Understanding each individual’s DNA sequence allows doctors to develop treatments and cures specifically targeted to that person’s needs. “That’s the promise of personalized medicine,” he explains. “People may come in with totally unknown symptoms, and by sequencing their DNA we could use this information to treat them on an individual basis.”

    Today’s computer technology has made interpreting sequence data possible. In 2003, the complete human genome was sequenced through the U.S. government’s Human Genome Project, taking 13 years and costing about $3 billion. The project identified all of the more than 20,000 genes in human DNA and determined the sequences of the three billion chemical base pairs that comprise it.

    Health Center researchers are at the forefront of new discoveries about the smallest molecules that have a major impact on human health. (Shutterstock Photo)

    Today, this same sequencing can be done by a stand-alone laboratory in one day for several thousand dollars. “This research provides an opportunity for doctors to do testing on people with a certain disorder to study the genes which, when mutated, caused that disease,” he says. “It’s a game-changer.”

    The 1997 sci-fi film Gattaca imagined a world where people put their finger on a sensor and their entire DNA was analyzed on the spot. “The technology is in development right now to allow that to happen,” Graveley explains. “The science fiction that was dreamed up in a movie is essentially coming to be.”

    Earlier this year, the University of Connecticut and the State of Connecticut introduced Next Generation Connecticut, a plan to expand research, education and innovation in the science, technology, engineering and math (STEM) studies at UConn. Designed to put UConn at the forefront of technology and research, the program is expected to benefit the entire state by creating new jobs, innovations and start-up companies.

    “There is a large consortium of researchers who are generating rich data – so rich that we can’t analyze all aspects of it,” Graveley says. “What this means is that researchers can download and analyze data to make new discoveries about how biology works, without having to do any experiments. One of the goals of Next Generation Connecticut is to create these jobs and train people to have the knowledge to analyze data in ways that haven’t been done before.”

    UConn researchers are joining forces with genomics medicine experts at Jackson Laboratory, which is building a $1.1 billion research facility on the Health Center’s Farmington campus, to make further discoveries in the area of human genomics and to advance the computational tools for interpreting the data coming from this type of research. To accelerate research in this interdisciplinary field, UConn has brought together nine of its schools/colleges and the Jackson Laboratory to create the Institute for Systems Genomics.

    Graveley and Plocik teamed with other experts on a second review article recently published in the journal Cel that covers a related topic involving techniques to splice RNA, which acts as a messenger to carry out instructions from DNA. It serves as another example of the wealth of genetics research and expertise at UConn.

    DNA sequencing can’t be done for every person quite yet, because the process is still expensive and because doctors need to be trained on how to use the information that sequencing provides, since the science is new to them, too. And there is still a large amount of information in DNA that researchers still don’t understand. But this is rapidly changing.

    “Sequencing technology will eventually apply to everyone,” Graveley says. “Somewhere down the road, maybe in 10 years or even longer, every person born will have their genome sequenced and have it be a permanent part of their medical record. This information can be used to figure out what’s wrong if they become sick and how they can be treated. This is an exciting time.”


    The Basics of Recombinant DNA


    So What Is rDNA?
    That's a very good question! rDNA stands for recombinant DNA. Voordat
    we get to the "r" part, we need to understand DNA. Those of you with
    a background in biology probably know about DNA, but a lot of ChemE's haven't
    seen DNA since high school biology. DNA is the keeper of the all the information
    needed to recreate an organism. All DNA is made up of a base consisting
    of sugar, phosphate and one nitrogen base. There are four nitrogen bases,
    adenine (A), thymine (T), guanine (G) en cytosine (C). The nitrogen
    bases are found in pairs, with A & T and G & C paired together. The sequence

    of the nitrogen bases can be arranged in an infinite ways, and their structure is known as

    the famous "double helix" which is shown in the image below. The sugar used in

    DNA is deoxyribose. The four nitrogen bases are the same for all organisms. De

    sequence and number of bases is what creates diversity. DNA does not

    actually make the organism, it only makes proteins. The DNA is transcribed

    into mRNA and mRNA is translated into protein, and the protein then forms the

    organisme. By changing the DNA sequence, the way in which the protein is

    formed changes. This leads to either a different protein, or an inactive protein.

    Now that we know what DNA is, this is where the recombinant comes in.
    Recombinant DNA is the general name for taking a piece of one DNA, and
    and combining it with another strand of DNA. Thus, the name recombinant!
    Recombinant DNA is also sometimes referred to as "chimera." By combining two or
    more different strands of DNA, scientists are able to create a new strand of DNA.
    The most common recombinant process involves combining the DNA of two
    different organisms.

    How is Recombinant DNA made?
    There are three different methods by which Recombinant DNA is made. Zij zijn
    Transformation, Phage Introduction, and Non-Bacterial Transformation. Elk
    are described separately below.

    Transformation
    The first step in transformation is to select a piece of DNA to be inserted
    into a vector. The second step is to cut that piece of DNA with a restriction
    enzyme and then ligate the DNA insert into the vector with DNA Ligase. The insert contains a selectable
    marker which allows for identification of recombinant molecules. An antibiotic
    marker is often used so a host cell without a vector dies when exposed to a certain
    antibiotic, and the host with the vector will live because it is resistant.

    The vector is inserted into a host cell, in a process called transformation. Een
    example of a possible host cell is E. Coli. The host cells must be specially
    prepared to take up the foreign DNA.

    Selectable markers can be for antibiotic resistance, color changes, or any other
    characteristic which can distinguish transformed hosts from untransformed hosts.
    Different vectors have different properties to make them suitable to different
    toepassingen. Some properties can include symmetrical cloning sites, size, and
    high copy number.

    Non-Bacterial Transformation
    This is a process very similar to Transformation, which was described above. De
    only difference between the two is non-bacterial does not use bacteria such as E. Coli
    for the host.

    In microinjection, the DNA is injected directly into the nucleus of the cell being
    transformed. In biolistics, the host cells are bombarded with high velocity
    microprojectiles, such as particles of gold or tungsten that have been coated
    with DNA.

    Phage Introduction
    Phage introduction is the process of transfection, which is equivalent to transformation,
    except a phage is used instead of bacteria. In vitro packagings of a vector is used.
    This uses lambda or MI3 phages to produce phage plaques which contain recombinants.
    The recombinants that are created can be identified by differences in the
    recombinants and non-recombinants using various selection methods.


    How does rDNA work?
    Recombinant DNA works when the host cell expresses protein from the recombinant genes.

    A significant amount of recombinant protein will not be produced by the host unless expression
    factors are added. Protein expression depends upon the gene being surrounded by
    a collection of signals which provide instructions for the transcription and translation
    of the gene by the cell. These signals include the promoter, the ribosome binding
    site, and the terminator. Expression vectors, in which the foreign DNA is inserted,
    contain these signals. Signals are species specific. In the case of E. Coli, these

    signals must be E. Coli signals as E. Coli is unlikely to understand the signals of

    human promoters and terminators.

    Problems are encountered if the gene contains introns or contains signals which act
    as terminators to a bacterial host. This results in premature termination, and the recombinant
    protein may not be processed correctly, be folded correctly, or may even be degraded.

    Production of recombinant proteins in eukaryotic systems generally takes place in
    yeast and filamentous fungi. The use of animal cells is difficult due to the fact
    that many need a solid support surface, unlike bacteria, and have complex growth
    needs. However, some proteins are too complex to be produced in bacterium,

    so eukaryotic cells must be used.


    Why is rDNA important?
    Recombinant DNA has been gaining in importance over the last few years, and
    recombinant DNA will only become more important in the 21st century as genetic

    diseases become more prevelant and agricultural area is reduced. Below are

    some of the areas where Recombinant DNA will have an impact.

    • Better Crops (drought & heat resistance)
    • Recombinant Vaccines (ie. Hepatitis B)
    • Prevention and cure of sickle cell anemia
    • Prevention and cure of cystic fibrosis
    • Production of clotting factors
    • Production of insulin
    • Production of recombinant pharmaceuticals
    • Plants that produce their own insecticides
    • Germ line and somatic gene therapy


    What does the future hold?
    Now that we've figured out the basics behind what Recombinant DNA are, it's
    time to look at how Recombinant DNA will impact the future. Which industries
    and fields will be shaped by rDNA? How will rDNA effect the health and
    lifestyles of RPI students in the next generation? Click over to our
    rDNA Impact Statement to find out the answer!

    Pop Quiz Time!
    To help you determine how well you know Recombinant DNA, we
    have generously decided to provide you with a basic quiz that even a
    senior ChemE should be able to do. Be sure and look over the additional
    information provided below, because these questions could be tricky! Alle
    the information needed to answer the questions can be found on this page,
    or the associated pages. When you're ready, click below.

    Extra informatie
    The information presented above is only an introduction to the wonders of
    Recombinant DNA. In order to fulfill your desire for knowledge, Matt and
    Beth have scoured the web for the best websites with in-depth knowledge
    concerning rDNA. You will find the links below and a brief
    description of what the page describes. Genieten van!

    Recognition Sequences for frequently used restriction endonucleases.

    Information about human proteins that have been synthesized from eukaryotic and bacteria genes.

    Information about gene addition projects that have been done with plants.

    Information about gene subtraction projects that have been done with plants.

    Basic information about what DNA is

    EEN SHOCKWAVE application illustrating DNA replication

    A video that illustrates protein synthesis

    Information about how gene splicing differs from conventional agriculture

    Information about the merits of agricultural gene splicing

    Information about treating genetic diseases in the womb

    A Question and Answer about gene therapy

    The Recombinant DNA chapter of an online textbook

    A Recombinant DNA problem set and tutorial

    The NIH Guidelines for research involving Recombinant DNA

    An online textbook covering the protocols for Recombinant DNA

    A clearinghouse of links concerning Clinical Trials

    Information about gene therapy for human patients

    Recombinant DNA and the synthesis of human insulin

    A repository of information concerning Medical Biotechnology

    Created by Matthew Kuure-Kinsey and Beth McCooey for Biochemical Engineering Fall 2000


    Research advances emerging DNA sequencing technology

    In this illustration, a single-stranded DNA molecule moves through a nanopore. The nanopore is about 2 nanometers (nm) in diameter. By comparison, a strand of human hair is 80,000 to 100,000 nm wide. A water shell (blue) surrounds the DNA strand. Credit: University of Texas at Dallas

    Nanopore technology shows promise for making it possible to develop small, portable, inexpensive devices that can sequence DNA in real time. One of the challenges, however, has been to make the technology more accurate.

    Researchers at The University of Texas at Dallas have moved closer toward this goal by developing a nanopore sequencing platform that, for the first time, can detect the presence of nucleobases, the building blocks of DNA and RNA. The study was published online and is featured on the back cover of the April print edition of the journal Electrophoresis.

    "By enabling us to detect the presence of nucleobases, our platform can help improve the sensitivity of nanopore sequencing," said Dr. Moon Kim, professor of materials science and engineering and the Louis Beecherl Jr. Distinguished Professor in the Erik Jonsson School of Engineering and Computer Science.

    Currently, most DNA sequencing is done through a process that involves preparing samples in the lab with fluorescent dye and using lasers to determine the sequence of the four nucleobases, the fundamental units of the genetic code: adenine (A), cytosine (C), guanine (G) and thymine (T). Each nucleobase emits a different wavelength when illuminated, allowing scientists to determine the sequence.

    In nanopore sequencing, a DNA sample is uncoiled, and the hairlike strand is fed through a tiny hole, or nanopore, typically in a fabricated membrane. As it moves through the nanopore, the DNA strand disturbs the electrical current flowing through the membrane. The current responds differently based on the characteristics of a DNA molecule, such as its size and shape.

    "The electrical signal changes as the DNA moves through the nanopore," Kim said. "We can read the characteristics of the DNA by monitoring the signal."

    One of the challenges in advancing nanopore sequencing has been the difficulty of controlling the speed of the DNA strand as it moves through the nanopore. The UT Dallas team's research focused on addressing that by fabricating an atomically thin solid-state—or nonbiological—membrane coated with titanium dioxide, water and an ionic liquid to slow the speed of the molecules through the membrane. The water was added to the liquid solution to amplify the electrical signals, making them easier to read.

    The next step for researchers will be to advance the platform to identity each nucleobase more quickly. Kim said the platform also opens possibilities for sequencing other biomolecules.

    "The ultimate goal is to have a hand-held DNA sequencing device that is fast, accurate and can be used anywhere," Kim said. "This would reduce the cost of DNA sequencing and make it more accessible."