Informatie

Hoe worden de foutenpercentages van DNA-polymerase gemeten?


Het is algemeen bekend dat de eerste DNA-polymerase, Taq, is behoorlijk foutgevoelig. Nieuwere generatie commerciële enzymen die ofwel zijn geïsoleerd uit verschillende thermofiele soorten of zijn verbeterd door recombinatie zijn minder foutgevoelig. Hoe worden deze foutenpercentages vergeleken? Als dit bijvoorbeeld wordt gedaan door Sanger-sequencing, zal het gemiddelde signaal domineren bij het lezen van de uitvoer en is het dus zeer onwaarschijnlijk dat fouten door deze methode worden opgepikt.


Volgens hun website New England Biolabs gebruik een versie van de aanpak die is ontwikkeld door Wayne Barnes, zoals beschreven in:

Kermekchiev, M.B., Tzekov, A en Barnes, W.M. (2003) Nucl. Zuren Res. 31, 6139-6147

Dit is in feite een test voor de mutatiesnelheid in een PCR-geamplificeerde lacZ (β-galactosidase) gen, getest door transformatie E coli, uitplaten op het chromogene β-galactosidase-substraat Xgal, en vervolgens witte kolonies scoren als gemuteerde genen. Ook volgens NEB gebruiken Agilent Technologies een vergelijkbare mutatietest, maar gebaseerd op de lacI (lac-repressor) gen.


Een nieuwe familie van DNA-polymerasen repliceert organelgenomen in een brede verspreiding van taxa die planten en protozoën omvat. Het maken van foutgevoelige mutatorversies van gamma-DNA-polymerasen heeft een revolutie teweeggebracht in ons begrip van mitochondriale genomen van dieren, maar vergelijkbare vooruitgang is niet geboekt voor de organel-DNA-polymerasen die aanwezig zijn in mitochondriën en chloroplasten van planten. We hebben de betrouwbaarheid van foutgevoelige DNA-polymerasen van tabaksorganellen getest met behulp van een nieuwe positieve selectiemethode waarbij replicatie van de faag lambda betrokken is. cI repressorgen. In tegenstelling tot gamma-DNA-polymerasen resulteerde ablatie van de 3'-5'-exonucleasefunctie in een bescheiden 5-8-voudige toename van het foutenpercentage. Door exonucleasedeficiëntie te combineren met een substitutie van het polymerisatiedomein, verhoogde het organel-DNA-polymerase-foutpercentage met 140-voudig ten opzichte van het wildtype-enzym. Dit hoge foutenpercentage steekt gunstig af bij het foutenpercentage van mutatorversies van dierlijke gamma-DNA-polymerasen. De foutgevoelige organel-DNA-polymerase introduceerde mutaties op meerdere locaties, variërend van twee tot zeven locaties in de helft van de mutant cI genen bestudeerd. Substituties van enkele basen overheersten, waaronder frequente A:A (sjabloon: dNMP) misparen. Hoog foutenpercentage en semi-dominantie voor het wildtype-enzym in vitro maken de foutgevoelige organel-DNA-polymerase geschikt voor het verhogen van mutatiesnelheden in chloroplasten en mitochondriën.

Eukaryotische cellen bevatten essentiële multi-copy organelgenomen in chloroplasten en mitochondriën. Stabiel onderhoud van deze extra-nucleaire genomen is vereist voor het goed functioneren van mitochondriën en chloroplasten. Mutanten die voortkomen uit mutaties in organelgenomen hebben een waardevolle bron opgeleverd om de rol van organelgenen te bestuderen (1, 2). Bij dieren en schimmels zijn foutgevoelige versies van gamma-DNA-polymerase gebruikt om mutatiesnelheden in mitochondriën te verhogen om ons begrip van mitochondriale genomen te vergroten (3-5). Het gebruik van foutgevoelige mutator-DNA-polymerasen heeft geleid tot nieuwe ontdekkingen over de replicatiemechanismen en selectieve krachten die inwerken op mitochondriale genomen van dieren, en de impact van verhoogde mutatiesnelheden op de biologie van organismen, waaronder veroudering (6-10). Ter vergelijking: onze kennis van deze fundamentele processen in de organellen van planten is beperkt. De evolutionaire mutatiesnelheden van het genoom van plantenorganellen zijn veel lager dan die waargenomen in nucleaire genen van planten (2, 11, 12). Om ons begrip van het genoom van plantenorganellen te vergroten door de mutatiesnelheid met mutator-DNA-polymerasen te verhogen, is de constructie en karakterisering van foutgevoelige versies van DNA-polymerasen van plantenorganel vereist.

Plantenorganellen bevatten een nieuwe familie van DNA-polymerasen, genaamd Plant Organellaire DNA-polymerasen (POP's) (13). De naam POP dekt nu DNA-polymerasen van planten- en protistenorganellen om de wijdverbreide verspreiding van POP's in een breed scala aan algen en protozoa weer te geven (13-15). POP's en gamma-DNA-polymerasen zijn verre verwante leden van de DNA-polymerase A-familie (14). Net als andere DNA-polymerasen bevatten POP's 5'-3'-DNA-polymerisatie en 3'-5'-exonuclease (proof-reading) domeinen in een enkel polypeptide (13, 16, 17). POP's worden beschouwd als de enige enzymen die verantwoordelijk zijn voor de replicatie van de mitochondriale en chloroplastgenomen in planten. Het zijn zeer processieve enzymen (17-19) met een nieuwe combinatie van activiteiten, waaronder strengverplaatsing (18, 19), translesiesynthese (19), microhomologie-gemedieerde-end-joining (20) en 5′-deoxyribosefosfaatverwijdering (18 , 21).

Plant POP's worden tot expressie gebracht vanuit nucleaire genen en gericht op organellen (16, 17, 22). Onze fylogenetische analyse van POP's (Figuur 1, Aanvullende Figuur S1) onthulde twee patronen van POP-distributie in angiospermen. Tweezaadlobbige families zoals de Solanaceae bevatten een enkel POP-gen in diploïde (2N) soorten zoals Solanum lycopersicum, Nicotiana tomentosiformis en Petunia hybrida. De tweede groep planten bevat twee uiteenlopende POP-genen waarvan de producten 70-76% aminozuuridentiteit delen in taxonomisch ver verwijderde tweezaadlobbige en eenzaadlobbige families geïllustreerd door de Brassicaceae en Poaceae families (Figuur 1, Aanvullende Figuur S1). De genduplicaties die aanleiding geven tot deze POP-paralogen in de Brassicaceae en Poaceae vond plaats na hun afwijking van een gemeenschappelijke voorouder. Plant POP's van Nicotiana tabacum (Solanaceae) en Arabidopsis thaliana (Brassicaceae) bleken dubbel gericht te zijn op beide organellen (17, 22, 23). Enkele gen-knockouts van POP-genen zijn levensvatbaar in A. thaliana ( 24) maar niet in Zea mays (Poaceae), waarbij chloroplast-DNA maar niet mitochondriaal DNA werd gereduceerd tot lage dodelijke hoeveelheden (25, 26). Dit verschil duidt op redundantie van POP-genen in A. thaliana maar niet binnen Zea mays. Ondanks deze redundantie zijn er verschillen gevonden tussen de twee A. thaliana POP's (AtPolA en AtPolB), met betrekking tot hun enzymatische eigenschappen (27), rollen in DNA-replicatie versus reparatie (24, 27, 28), interacties met andere eiwitten (29) en relatief belang in mitochondriën versus chloroplasten (30).

Naburige consensusboom van aangegeven POP-sequenties. Bootstrap-waarden (1000 replica's) waren 100% tenzij anders aangegeven. Sequenties werden opgehaald uit GenBank: Arabidopsis thaliana (PolA AEE32595 PolB AEE76393), Brassica rapa (PolA XP_009144938 PolB XP_009145617), Nicotiana tomentosiformis (XP_009610361), Oryza sativa (1. BAT04060 2. XP_015636766), Physcomitrella patens (PNR49997), Solanum lycopersicum (XP_004244135), Zea mays (1. XP_020401293 w2 AQK46502). Petunia axillaris (Peaxi162Scf00450g00842.1) was van het SOL Genomics Network. P. patens werd gebruikt als de outgroup. Aangegeven zijn taxa die een enkele POP of twee uiteenlopende POP-paralogen bevatten. Sterretjes (*) geven duplicatiegebeurtenissen aan die verantwoordelijk zijn voor POP-paralogen. Schaalbalk: aminozuursubstituties per site.

Naburige consensusboom van aangegeven POP-sequenties. Bootstrap-waarden (1000 replica's) waren 100% tenzij anders aangegeven. Sequenties werden opgehaald uit GenBank: Arabidopsis thaliana (PolA AEE32595 PolB AEE76393), Brassica rapa (PolA XP_009144938 PolB XP_009145617), Nicotiana tomentosiformis (XP_009610361), Oryza sativa (1. BAT04060 2. XP_015636766), Physcomitrella patens (PNR49997), Solanum lycopersicum (XP_004244135), Zea mays (1. XP_020401293 w2 AQK46502). Petunia axillaris (Peaxi162Scf00450g00842.1) was van het SOL Genomics Network. P. patens werd gebruikt als de outgroup. Aangegeven zijn taxa die een enkele POP of twee uiteenlopende POP-paralogen bevatten. Sterretjes (*) geven duplicatiegebeurtenissen aan die verantwoordelijk zijn voor POP-paralogen. Schaalbalk: aminozuursubstituties per site.

Om een ​​foutgevoelige mutator-POP te ontwikkelen, hebben we ervoor gekozen om een ​​enzym uit de Solanaceae. gebruik van een Solanaceous POP heeft het voordeel dat het het enige enzym is dat verantwoordelijk is voor de DNA-polymerase-gerelateerde replicatie/reparatie-activiteiten in plantorganellen. We kozen voor een POP van Nicotiana tabacum (tabak), het leidende model voor transgeen onderzoek naar het genoom van organellen (31, 32). N. tabacum is allotetraploïde (4N) als gevolg van een relatief recente fusie tussen diploïde (2N) N. tomentosiformis en N. sylvestris ouders (33, 34). Om de impact van aminozuursubstituties op de replicatiegetrouwheid van DNA-polymerasen te evalueren, hebben we een nieuwe mutatiescreeningtest ontwikkeld op basis van het positieve selectieschema beschreven door Nilsson et al. (1983) (35). In de test een enkelstrengs stuk van de bacteriofaag lambda cI gen dat codeert voor het CI-repressoreiwit wordt gerepliceerd door een DNA-polymerase in vitro vóór transformatie van het plasmide in E coli. Replicatiefouten die resulteren in functieverlies voorkomen dat CI-repressor bindt aan zijn doelsequentie stroomopwaarts van het tetracyclineresistentiegen. Deze benadering leidt tot tetracycline-resistente kolonies die plasmiden bevatten met mutaties in de cI gen dat kan worden gesequenced en vergeleken met de grote dataset van eerder in kaart gebrachte verlies-van-functie-mutaties in de cI gen (36-39). Bij hoge platingsdichtheden heeft positieve selectie het voordeel dat het gemakkelijk is om resistente mutante kolonies te identificeren in vergelijking met koloniescreeningsmethoden op basis van kleur (40-42). Hier hebben we de test gebruikt om een ​​zeer foutgevoelige te construeren en te karakteriseren N. tabacum POP geschikt voor het verhogen van mutatiesnelheden in organellen.


Vergelijking van foutenpercentage tijdens polymerasekettingreactie door DNA-polymerase.

Met het snelle tempo van ontwikkelingen in op systeembiologie gebaseerd onderzoek, bijvoorbeeld genomics, proteomics en metabolomics, komen grootschaligere biologische ontdekkingsprojecten steeds vaker voor. Anders gezegd, de reikwijdte van veel projecten is veranderd van de studie van een/enkele doelen naar de studie van honderden, duizenden of meer. Een voorbeeld van onderzoek dat is getransformeerd door ontwikkelingen in de systeembiologie is het klonen van tot expressie gebrachte open leesramen (ORF's) van cDNA-substraten. Het traditionele pad voor ORF-klonering is meestal begonnen met experimentele observaties die de identificatie van een of meerdere genen die van belang zijn voor een bepaald pad, aandrijven. Het klonen van doelwit(ten) resulteerde dan doorgaans in verdere verfijning van de details van de route en vaak de identificatie van nieuwe doelwitten voor klonen. Met de creatie en voortdurende verfijning van databases van genomische sequenties, vindt klonen nu vaak op veel grotere schaal plaats. Doorbraken in microarraytechnologie en DNA-sequencing hebben geleid tot een enorme toename van het aantal ORF's dat aanwezig is in biologische databases. Bovendien gaan biologische waarnemingen niet langer noodzakelijkerwijs vooraf aan de identificatie van doelen, die nu vaak voor een groot deel wordt aangedreven door op bio-informatica gebaseerde voorspellingen en analyses. Voorbeelden van grootschalige kloneringsinspanningen zijn onder meer structurele genomica-projecten om systematisch eiwitstructuren te bepalen [1], pathogeen ORF-klonen om ziekte en therapeutische mechanismen te begrijpen [2], en de creatie van het volledige menselijke ORFeome dat verdere ontwikkelingen in de fundamentele en toegepaste biomedische wetenschappen zal betekenen [3].

DNA-polymerasen die worden gebruikt om doelen te amplificeren tijdens PCR-klonering zijn high-fidelity-enzymen met foutfrequenties die typisch in het bereik van [10.sup.-6] mutaties/bp geamplificeerd [4]. Het minimaliseren van PCR-gegenereerde fouten is vooral belangrijk voor grootschalige kloneringsprojecten omdat, gegeven een voldoende grote pool van doel-DNA-sequenties, zelfs high-fidelity-enzymen klonen met mutaties zullen produceren. Er zijn verschillende methoden om de betrouwbaarheid van een DNA-polymerase te testen. Foutfrequenties voor PCR-enzymen worden echter bijna altijd getest met behulp van één (of enkele) gedefinieerde DNA-targets die een beperkt deel van de DNA-sequentieruimte bemonsteren. Vroege studies met behulp van de relatief low-fidelity Taq DNA-polymerase waren gebaseerd op de sequentiebepaling van gekloonde PCR-producten (bijv. [5, 6]). Directe sequentiebepaling van klonen was destijds een praktische benadering vanwege de lage betrouwbaarheid van het polymerase, dat wil zeggen dat de meeste klonen waarvan de sequentie werd bepaald, ten minste één mutatie zouden bevatten.

Met de introductie van high-fidelity polymerasen werden nieuwe screeningsmethoden ontwikkeld om snel grote aantallen PCR-producten te onderzoeken op de aanwezigheid van mutaties. Deze testen waren gebaseerd op een voorwaartse mutatie-getrouwheidstest ontwikkeld door Kunkel en collega's, die een spleetvullende reactie met een DNA-polymerase op een lacZ-matrijssequentie gebruikte, gevolgd door ligatie en transformatie in E. coli. Colorimetrische screening op basis van een functioneel lacZ-gen maakte snelle identificatie van mutaties mogelijk, die vervolgens werden gesequenced om de aard van de DNA-verandering te bepalen [7]. Een vergelijkbare benadering werd gebruikt om PCR-producten te screenen op mutaties, door een lacZ-fragment te kloneren dat door PCR is geamplificeerd, in tegenstelling tot het eenvoudig opvullen van openingen door DNA-polymerasen. Deze methode, waarbij soms een ander reportergen wordt gebruikt, is gebruikt om een ​​verscheidenheid aan high-fidelity PCR-enzymen te screenen en om de PCR-reactieomstandigheden te optimaliseren om mutaties te minimaliseren [4, 8]. Ten slotte zijn methoden ontwikkeld die gebaseerd zijn op het testen van PCR-mutaties op basis van verschillende chemische eigenschappen (d.w.z. smelttemperatuur) van reactieproducten met mismatches ten opzichte van perfecte duplexen en toegepast op een verscheidenheid aan enzymsystemen [9,10]. Hoewel gerapporteerde getrouwheidswaarden verschillen tussen onderzoeksgroepen en testmethoden, is er een algemene consensus dat een relatief low-fidelity-enzym zoals Taq een getrouwheidswaarde heeft in het [10.sup.-5] bereik en hogere-getrouwheidsenzymen waarden hebben die in het [10.sup.-6] bereik (meestal gerapporteerd als mutaties per bp per template verdubbeling).

Een compromis dat betrokken is bij het gebruik van screeningsmethoden zoals hierboven beschreven, is dat in het algemeen slechts één DNA-sequentie wordt ondervraagd tijdens de test. Bovendien beperken beperkingen die in de assays zijn ingebouwd de mogelijke mutaties die kunnen worden gedetecteerd verder. De test op basis van screening van lacZ-genamplificatieproducten maakt bijvoorbeeld gebruik van een enkel doelwit van 1,9 kb, waarvan slechts 349 basen een kleurverandering zullen produceren wanneer ze worden gemuteerd [11]. Evenzo is het testen van mutaties op basis van differentiële duplex-smeltprofielen beperkt tot unieke doelsequenties die kort genoeg zijn, meestal in het bereik van 100-300 bp, en thermische smeltprofielen hebben die resolutie van enkele mismatches mogelijk maken [9,10].

Omdat bekend is dat polymerasefouten sterk afhankelijk zijn van de DNA-sequentiecontext (besproken in [12]), zou men idealiter een groot aantal DNA-sequenties gebruiken bij het meten van de enzymgetrouwheid. Dit wordt vooral relevant in de context van grootschalige kloneringsprojecten, waarbij honderden of duizenden doelen betrokken zijn en dus een bijna oneindige DNA-sequentieruimte bevatten. Hiertoe hebben we een onderzoek ontworpen en uitgevoerd dat de enzymgetrouwheid meet door directe sequencing van gekloonde PCR-producten. Dalende kosten voor DNA-sequencing hebben deze methode van getrouwheidsbepaling praktisch gemaakt, zelfs voor enzymen die weinig fouten maken. Onze doelen zijn om getrouwheidswaarden die zijn afgeleid van directe kloonsequencing te vergelijken met die afgeleid van op screening gebaseerde methoden, en om deze resultaten te evalueren in de context van het kiezen van een enzym voor een kloonproject met hoge doorvoer.

Om foutenpercentages te bepalen en mutatiespectra te observeren voor een verscheidenheid aan DNA-polymerasen die worden gebruikt bij PCR-klonering, hebben we de klonen direct gesequenced die zijn geproduceerd uit 94 verschillende plasmide-templates. Deze plasmiden, elk met een unieke doel-DNA-sequentie, zijn een subset van een grotere groep glycosyltransferaseklonen die we hebben bereid uit Arabidopsis thaliana-cDNA (manuscript in voorbereiding). De 94 plasmiden hebben inserts met een grootte variërend van 360 bp tot 3,1 kb (mediaan 1,4 kb) en een GC-inhoud variërend van 35% tot 52% (mediaan 44%). Een samenvatting van de 6 DNA-polymerasen die in deze studie zijn gebruikt, wordt weergegeven in Tabel 1. We hebben Taq-polymerase in onze studie opgenomen vanwege de uitgebreide hoeveelheid literatuur die bestaat over de betrouwbaarheidseigenschappen van dit enzym. De andere enzymen die erin zitten, worden allemaal typisch geclassificeerd als "high fidelity" en zijn daarom potentiële kandidaten voor grootschalige kloneringsprojecten. En hoewel vergelijking van getrouwheidswaarden moeilijk is vanwege verschillen in test- en kwantificeringsmethoden tussen verschillende onderzoeken, lijkt een algemene rangschikking van de hier bestudeerde enzymen (laagste naar hoogste) Taq < AccuPrime-Taq < KOD = Pfu te zijn

Onze kloneringspijplijn maakt gebruik van recombinatie invoeging van gezuiverde PCR-producten in een plasmidevector met behulp van het Gateway-kloneringssysteem, een methode die veel wordt gebruikt voor kloneringsonderzoeken met hoge doorvoer (beoordeeld in [17]). Omdat onze invoerplasmide-DNA-templates werden bereid met behulp van het Gateway-systeem, worden de doelgenen van belang allemaal geflankeerd door att-recombinatiesequenties. Dit maakte het gebruik van gemeenschappelijke primers voor alle PCR-reacties mogelijk, waardoor de noodzaak voor doelspecifieke optimalisaties werd geëlimineerd. Gezuiverd plasmide-DNA werd gebruikt als matrijs voor PCR en in alle gevallen werden door de leverancier aanbevolen buffers gebruikt. We gebruikten kleine hoeveelheden plasmide-template (25 pg/rxn), om het aantal verdubbelingen in de PCR-reactie te maximaliseren, en er werd rekening gehouden met de grootte van de insert ten opzichte van de totale plasmidegrootte om de hoeveelheid targetfragment te bepalen die aanwezig is in het sjabloon. Het PCR-protocol gebruikte 30 amplificatiecycli, met een verlengingstijd van 2 minuten/cyclus voor doelen [minder dan of gelijk aan] 2 kb (82 van 94 doelen) en 4 minuten/cyclus voor doelen >2 kb (12 van 94 doelen). Figuur 1 toont gelafbeeldingen voor een representatieve set PCR-reacties voor elk enzym. In alle gevallen werd een enkele grote productgroep waargenomen die migreerde naar de verwachte grootte. De efficiëntie van de amplificatie werd gemeten door kwantificering van het PCR-product met behulp van een dsDNA-specifieke kleurstof en het berekenen van de vouw-amplificatie op basis van een bekende hoeveelheid ingevoerde DNA-template. De vouw-amplificatie wordt gebruikt om het aantal sjabloonverdubbelingen te bepalen die tijdens PCR hebben plaatsgevonden. Zoals vermeld in Tabel 2, waren de efficiëntiewaarden van de amplificatie redelijk uniform voor alle monsters in een plaat. We observeren vergelijkbare amplificatie-efficiënties tussen verschillende enzymen, met de uitzondering dat we routinematig minder sjabloonverdubbelingen observeerden in reacties met Pfu-polymerase. We hebben thermocycling-protocollen constant gehouden voor alle enzymen, en het is dus mogelijk dat sommige parameters niet optimaal waren voor amplificatie door Pfu.

Na amplificatie werden PCR-producten gezuiverd door precipitatie met PEG/Mg[Cl.sub.2], waarvan bekend is dat het DNA selectief fractioneert op basis van grootte [18], om korte producten <300 bp in grootte te verwijderen. Deze precipitatiestap kan worden uitgevoerd in plaatformaat met 96 putjes, wat een vereiste is wanneer het aantal monsters groot wordt. We hebben dit protocol aangenomen voor routinematig gebruik en hebben een hogere efficiëntie waargenomen voor het inbrengen van DNA van de juiste grootte in de vector in vergelijking met zuivering met behulp van op kit gebaseerde PCR-zuiveringen, die doorgaans grootte-afsnijdingen hebben van

100 bp (gegevens niet getoond). In het geval dat off-target PCR-producten van >300 bp aanwezig zijn, wordt gelextractie gebruikt om het gewenste product te isoleren. Gezuiverde PCR-producten werden geïncubeerd met vector-DNA en BP Clonase II en getransformeerd in competente cellen. Drie kolonies per plaat werden opgepikt en gekweekt in platen met 96 putjes, en kweken werden gescreend op insertie van de juiste grootte door kolonie-PCR. Insertie-efficiëntiewaarden voor BP Clonase II, uitgedrukt als het gemiddelde aantal klonen met een insert op/bij de verwachte grootte (van de 3 kolonies die per transformatie werden gescreend), waren typisch 80-90% (gegevens niet getoond). Voor elk doelwit werden een of meer klonen voor elk doelwit met een insert van de juiste grootte (indien verkregen) gekweekt en gebruikt voor DNA-sequencing.

Voor methodevalidatie gebruikten we Taq DNA-polymerase, een familie A DNA-polymerase en het enzym dat werd gebruikt in de vroegste PCR-experimenten [6]. Als een vroeg werkpaard in de PCR-technologie is Taq-polymerase uitgebreid bestudeerd voor de bepaling van de getrouwheid. Taq DNA-polymerase mist een 3' [pijl naar rechts] 5'-exonuclease-activiteit en is dus niet in staat om verkeerd opgenomen nucleotiden te corrigeren die optreden tijdens DNA-synthese. Er zijn verschillende assays gebruikt om de getrouwheid van Taq te bepalen en, afhankelijk van de gebruikte methode, variëren de foutpercentagewaarden (uitgedrukt als mutaties per basenpaar per templateduplicatie) voor Taq-polymerase van

1 x [10.sup.-5] (bijv. [4,19]) tot 2 x [10.sup.-4] (bijv. [7,20]). Verder is het mutatiespectrum van Taq-polymerase gekarakteriseerd, waarbij A x T [rechterpijl] G x C-overgangen overheersen vanwege de neiging van het enzym om binnenkomend dCTP verkeerd op te nemen met een template-thyminenucleotide [6, 9, 21].

Door directe sequentiebepaling van klonen van twee onafhankelijke PCR-experimenten met Taq-polymerase, hebben we 99 unieke mutaties waargenomen van > 100 kbp van de doel-DNA-sequentie. Het type en het aantal individuele mutaties staan ​​vermeld in Tabel 3. Gezien de amplificatie-efficiëntie van elke PCR-reactie, is het foutenpercentage (gemiddelde van 2 experimenten) voor Taq-polymerase 4,3 x [10.sup.-5] [+ of -] 1,8 mutaties/bp per sjabloonduplicatie. Deze waarde komt uitstekend overeen met andere gepubliceerde waarden voor dit enzym, en de relatief hoge variantie suggereert dat berekende foutwaarden die tot 2-voudig verschillen, waarschijnlijk niet significant zijn ten opzichte van de experimentele ruis. De meerderheid van de mutaties (67 van 99) zijn A x T [pijl naar rechts] G x C-overgangen, die het gevolg kunnen zijn van ofwel inkomende dCTP-mispairing met template A of inkomende dGTP-mispairing met template T. Overgangen van de G x C [rechts arrow] A x T-type, als gevolg van ofwel inkomende TTP-mispairing met template G of inkomende dATP-mispairing met template C, zijn de op één na meest voorkomende mutatie (28 van 99). Er waren 3 transversiemutaties, met 1 A x T [pijl naar rechts] T x A en 2 A x T [pijl naar rechts] C x G veranderingen. Over het algemeen komt het spectrum van de basesubstitutiemutaties goed overeen met eerdere waarnemingen over Taq-polymerase die in de literatuur zijn gerapporteerd [7]. Er werd slechts één insertie- of deletiemutatie (indel) waargenomen in onze dataset, een enkele T-deletie in een [T.sub.3]-sjabloonsequentie. Van Taq-polymerase is gemeld dat het indel-mutaties produceert met een significante frequentie, tot wel ongeveer 25% van de totale mutaties, die allemaal voorkomen in homopolymere runs [7]. Aangezien onze doelpool 1481 exemplaren van homopolymeerruns van ten minste 4 bp bevat, vermoeden we dat andere verschillen tussen de eerdere testomstandigheden en die hier gebruikt de discrepantie verklaren. Specifiek werden de eerdere experimenten uitgevoerd met verhoogd magnesium (10 mM versus 1,5 mM hier gebruikt) en verhoogde dNTP-niveaus (1 mM versus 0,2 mM hier gebruikt). Zowel verhoogde magnesium- als dNTP-spiegels bleken vervolgens frameshift-mutaties (indel) te verhogen, bij voorkeur ten opzichte van base-substitutie-mutaties [21].

Een belangrijke controle voor deze experimenten is nodig door de methode die wordt gebruikt om een ​​sjabloon voor DNA-sequencing te genereren. Voor grootschalige kloneringsprojecten is DNA-sequencing met behulp van celcultuur voordelig vanwege de besparing in tijd en middelen ten opzichte van het zuiveren van plasmide-DNA. Sequentiebepaling met behulp van celcultuur vereist echter een PCR of een andere amplificatiestap, en deze stap zou in principe een bron van "extra mutatie" kunnen zijn. Om dit direct aan te pakken, hebben we de sequentie bepaald van miniprep-DNA bereid uit een subset van klonen geproduceerd met Taq-polymerase. Elk van de veertien mutaties die in de subset werden gedetecteerd met behulp van celkweek als bron voor sequencing-template, werd ook waargenomen bij sequencing van plasmide-DNA-template (gegevens niet getoond). We concluderen dat onze methode een vals-positief percentage van <7% (1/14) heeft en acceptabel is voor het testen van PCR-geïnduceerde mutaties. Verder concluderen we, op basis van onze resultaten met Taq-polymerase, dat onze methode voor de bepaling van de getrouwheid resultaten geeft die uitstekend overeenkomen met andere onderzoeken en dus een nauwkeurige maatstaf is voor de nauwkeurigheid van polymerase.

Onze resultaten geven aan dat 3 van de enzymen die in de studie zijn opgenomen, Pfu-polymerase, Phusion Hot Start en Pwo-polymerase, foutenpercentages hebben die aanzienlijk lager zijn dan de andere. Dit komt overeen met eerdere bevindingen die PCR-amplificatie met zeer hoge betrouwbaarheid voor deze enzymen aantonen. Interessant is dat de foutfrequentiewaarden voor deze drie enzymen extreem veel op elkaar lijken, ongeveer 2-3 x [10.sup.-6] mutaties/bp/sjabloonverdubbeling. De kleine verschillen in foutfrequentiewaarde zijn waarschijnlijk niet significant, aangezien het kleine aantal mutaties wordt geproduceerd door deze high-fidelity-polymerasen naast de experimentele variabiliteit die hierboven is besproken voor de resultaten met Taq. Gezien de kosten van klonen en sequencing en eindige onderzoeksbudgetten, genereert mutatiedetectie door DNA-sequencing van klonen een relatief kleine dataset van mutaties wanneer de enzymgetrouwheid hoog is. Dit is een nadeel van onze test, en ondanks het feit dat de kosten van DNA-sequencing blijven dalen, is het screenen van bacteriën nog steeds een veel economischere methode om een ​​groot aantal klonen te ondervragen. Voor alle mutante klonen geproduceerd door Pfu, Phusion Hot Start en Pwo-polymerasen, werden monsters opnieuw gesequenced om monsterverwerking of DNA-sequencing als een bron van fouten uit te sluiten. In alle gevallen was de oorspronkelijke mutatie aanwezig, wat bevestigt dat de PCR-reactie de meest waarschijnlijke bron van de mutatie is. Vanuit het oogpunt van gebruik in een grootschalig kloneringsproject zou elk van deze enzymen acceptabel zijn, beoordeeld op de criteria van het minimaliseren van het foutenpercentage. Er moet natuurlijk rekening worden gehouden met andere factoren, zoals amplificatie-efficiëntie, mutatiespectra, prestaties met sjablonen met een hoog GC-gehalte en kosten, om er maar een paar te noemen. Wat de mutatiespectra betreft, produceerden de 3 high-fidelity-polymerasen allemaal voornamelijk (>75%) overgangsmutaties, zonder significante template-bias. Met Phusion-enzym hebben we 15% (2/13) indel-mutaties waargenomen, die problematisch zijn voor kloneringstoepassingen waarbij het leeskader voor translatie moet worden gehandhaafd. Beide indel-mutaties traden op in herhalingsgebieden, waarbij de ene een A-insertie in een A-matrijssequentie was en de andere een (TCT)-deletie binnen een (TCT)5-matrijssequentie. Dit resultaat was onverwacht in het licht van de hoge verwerkbaarheid van Phusion-polymerase in vergelijking met andere veelgebruikte PCR-enzymen (website van de leverancier). Omdat meerdere onderzoeken hebben aangetoond dat verhoogde polymerase-procesiviteit de frequentie van slippage-mutaties vermindert die resulteren in indel-mutaties 22, 23], verwachtten we dat Phusion de minste van deze klasse fouten zou produceren. Er moet echter worden opgemerkt dat deze conclusie is gebaseerd op een kleine steekproefomvang en dat een groter aantal mutaties ter bevestiging moet worden geanalyseerd.

Het was interessant voor ons dat geen van de hier geteste enzymen een lager foutenpercentage bleek te hebben

2x [10.sup.-6]. Andere studies in de literatuur hebben sub-[10.sup.-6] foutfrequenties gerapporteerd voor PCR-enzymen, 6,5 x [10.sup.-7] [10] voor Pfu-polymerase bepaald door differentiële duplex [T.sub.m] meting en 4,2 x [10.sup.-7] voor Phusion, met behulp van HF-buffer getest met een methode genaamd BEAMING [16]. Voor het onderzoek naar Phusion-getrouwheid heeft de PCR een andere buffer gebruikt dan hier gebruikt, wat volgens de leverancier wel resulteert in een 23-voudig lager foutenpercentage. Bovendien maakt die studie gebruik van de BEAMING-methode, een uiterst gevoelig flowcytometrisch protocol dat grote aantallen kralen die PCR-producten bevatten screent op de aanwezigheid van nucleotidevariaties. In dat onderzoek werd echter slechts één specifieke mutatie, een G x C [pijl naar rechts] A x T-mutatie op een enkele positie, ondervraagd. Dus, hoewel de test extreem gevoelig is voor detectie van gedefinieerde mutaties, hoeven resultaten die zijn verkregen met de BEAMING-methode voor mutatiefrequentie op een enkele positie niet noodzakelijkerwijs de getrouwheidseigenschappen van een enzym voor veel grotere sequentieruimten weer te geven. Voor het onderzoek naar het Pfu-foutenpercentage zijn verschillende fundamentele methodologische verschillen aanwezig: in het eerdere onderzoek werd de PCR uitgevoerd onder "bijna anaërobe" omstandigheden met aanzienlijk kortere cyclustijden, de doelgrootte was beperkt tot 93 bp en mutatiedetectie was gebaseerd op een fysiochemische methode: scheiding en isolatie van PCR-producten die mismatches bevatten door capillaire elektroforese [10]. En hoewel deze methode met succes is gebruikt bij de detectie van zeldzame mutaties in mitochondriale DNA-monsters van normale en kankerweefsels [24], kan de vereiste dat een mutatie resulteert in een molecuul met een veranderd smeltprofiel, het aantal mutaties dat kan gedetecteerd worden. Een grote discrepantie tussen onze resultaten en die uit dit eerdere rapport over Pfu-getrouwheid, die mogelijk verband houdt met de verschillende mutatiedetectiemethodologieën, is te zien in de resultaten van de mutatiespectra in Tabel 3. We observeerden

90% (8 van 9) overgangsmutaties, met een lichte bias voor G x C [pijl naar rechts] A x T-veranderingen. Daarentegen resulteerde de studie met capillaire elektroforese voor detectie in voornamelijk (3/5) transversiemutaties, met een enkele A x T [pijl naar rechts] G x C-overgang en een enkele 1bp deletiemutatie. Transversiemutaties vereisen dat het polymerase ofwel een purine x purine of een pyrimidine x pyrimidine-mismatch synthetiseert, die beide significant worden afgekeurd ten opzichte van de verschillende purine x pyrimidine-mismatches in familie B-polymerasen, waaronder Pfu-polymerase [25, 26]. Omdat de soorten mutaties die we waarnemen consistent zijn met eerder gerapporteerde mutatiespectra voor andere familie B-polymerasen, zijn we van mening dat onze methode polymerasefouten op een bias-vrije manier heeft gedetecteerd.

De andere twee enzymen die in onze studie zijn opgenomen, KOD-polymerase en AccuPrime-Taq High Fidelity, hebben getrouwheidswaarden die tussen Taq-polymerase en de hogere getrouwheidsenzymen liggen. Het foutenpercentage dat werd waargenomen voor KOD-polymerase was slechts

4-voudig lager dan die van Taq-polymerase en

2,5 maal hoger dan voor Pfu-polymerase. Het eerste rapport over de getrouwheid van KOD-polymerase, een familie B/pola-achtige polymerase van Thermococcus kodakaraensis KOD1, rapporteerde een foutenpercentage dat iets lager was dan dat van Pfu-polymerase en

4-voudig lager dan voor Taq-polymerase [13]. Die studie maakte gebruik van een forward-mutatietest (geen PCR), bracht getrouwheid eenvoudig tot uitdrukking als de verhouding van witte kolonies tot blauw zonder rekening te houden met de efficiëntie van PCR-amplificatie, en gebruikte experimentele omstandigheden ([Mg.sup.2+]-concentratie) die significant verschillen van typische PCR-omstandigheden. Een daaropvolgende studie die getrouwheid meet onder PCR-omstandigheden, met een ander reportergen maar nog steeds een eenvoudige verhouding van mutante tot wildtype kolonies, rapporteerde foutpercentages

50x lager dan die met Taq en marginaal lager dan die voor Pfu-polymerase [14]. In geen van die studies was er een rapport van de moleculaire veranderingen die leidden tot mutante kolonies. Het grote verschil tussen deze twee resultaten, die afkomstig zijn van dezelfde onderzoeksgroep, dient om de moeilijkheden te benadrukken bij het maken van vergelijkingen tussen onderzoeken met significante methodologische verschillen. In de huidige studie vinden we dat het mutatiespectrum voor KOD-polymerase vergelijkbaar is met de andere B-familie-polymerasen (Pfu, Pwo en Phusion) die hier zijn getest. Zoals weergegeven in Tabel 3, overheersen overgangen (14 van 16 mutaties), met een lichte bias (64%) voor A x T [pijl naar rechts] G x C-mutaties.

For the PCR performed with AccuPrime-Taq High Fidelity system, we observed a 3-fold improvement in fidelity relative to Taq polymerase. According to the vendor, AccuPrime-Taq High Fidelity is an enzyme blend that contains Taq polymerase, a processivity-enhancing protein, and a higher fidelity proofreading polymerase from Pyrococcus species GB-D. The lower error rate seen with AccuPrime-Taq most likely arises from the GB-D polymerase editing mistakes introduced by Taq polymerase as opposed to enhanced processivity since increased processivity has been shown to have no significant effect on base substitution errors [22, 27]. The mutation spectrum of the blend is almost identical to that seen with Taq polymerase alone, with transitions predominant and a significant bias for A x T [right arrow] G x C changes (71% for AccuPrime-Taq versus 73% for Taq). However, it should be noted that a study on the mutation spectra of GB-D DNA polymerase (commercially available as Deep Vent) found A x T [right arrow] G x C transitions to be the predominant mutation [28]. Detailed analysis on the contribution of each enzyme to the overall mutation spectrum is also precluded by the proprietary enzyme formulation used by the vendor.

In summary, we have used direct DNA sequencing of cloned PCR products to assay polymerase fidelity and evaluate other aspects of enzyme suitability for large-scale cloning projects. Based on minimizing PCR errors, Pfu polymerase, Pwo polymerase, and Phusion all produce acceptably low levels of mutations. Phusion was observed to produce more indel mutations than Pfu or Pwo polymerases, although the total number of mutations was limited. This type of mutation is particularly problematic for ORF cloning projects and should be taken into account in the process of enzyme selection. Aside from fidelity considerations, amplification efficiency values were significantly higher for Phusion and Pwo compared to Pfu, although further optimization of the PCR reaction for Pfu would likely improve efficiency values. Likewise, for cloning projects where targets are either very long or very highly GC-rich fidelity may be of lesser importance relative to the ability to amplify "difficult" target DNA. And finally, since the application space for PCR technology is huge, with cloning representing only a small fraction, enzymes other than those studied here need to be compared and evaluated based on project-specific needs and challenges.

3.1. PCR Reactions. All enzymes and reaction buffers were from commercial sources: Fermentas (Taq polymerase), Invitrogen/Life Technologies (AccuPrime-Taq), EMD Chemicals/Novagen (KOD Hot Start), Agilent (cloned Pfu polymerase), Finnzymes (Phusion Hot Start), and Roche (Pwo polymerase). PCR reactions were carried out in a final volume of 50 [micro]L using buffer conditions and enzyme amounts recommended by the vendor. For reactions with Phusion, the GC buffer was used. In all cases, reactions included 0.2 mM each dNTP (Fermentas) and 0.2 mM each primer (IDT) with the sequences (57 to 37) GGGGACAAGTTTGTACAAAAAAGCAGGCTTCACC for the forward primer and GGGGACCACTTTGTACAAGAAAGCTGGGTC for the reverse primer. Template for PCR reactions was miniprep plasmid DNA, with each plasmid template containing a unique target sequence of known sequence and size, ranging from 0.3 to 3 kb. The target insert was cloned in between the att sites of a pDONR vector, allowing the use of a common primer set for all plasmids. Each PCR reaction contained 0.025 ng plasmid DNA, quantitated using the PicoGreen DNA quantitation reagent (Invitrogen/Life Technologies), and thus the amount of input target (i) was calculated as i = 0.025 ng x (size of target / (size of target + size of plasmid)). The thermocycling protocol for all reactions with target length [less than or equal to] 2kb was 5 minutes, 95[degrees]C, then 30 cycles of 15 seconds, 95[degrees]C [right arrow] 30 seconds, 55[degrees]C [right arrow] 2 minutes, 72[degrees]C, and finally 7 minutes at 72[degrees]C. For the targets >2kb in size, the 2-minute extension step was extended to 4 minutes. For analysis of PCR products by gel, 2 [micro]L of each PCR reaction was run on a 2% agarose eGel (Invitrogen/Life Technologies) run according to vendor recommendations.

3.2. Quantitation of PCR Reactions. Efficiency of PCR amplification was determined by measuring the amount of product using a modified PicoGreen dsDNA quantitation assay. This method was facilitated by optimizing the PCR reaction to produce a single product band (Figure 1). Using a Biomek FXP (Beckman) automated liquid handing system, 5 [micro]L of each PCR reaction was diluted 50-fold in TE buffer (pH 8) into a new 96-well plate. From this plate, 5 [micro]L from each well was mixed with 195 [micro]L of PicoGreen solution, a 500-fold dilution of dye in TE (pH 8). Fluorescence measurements were taken with a Paradigm (Beckman) plate reader. Background fluorescence was determined from a PCR reaction that contained no template DNA. Following background subtraction, DNA concentration was determined by comparing fluorescence readings to those obtained with a standard curve using DNA of known concentration supplied with the dye. Extent of target amplification (e) is calculated as e = (ng DNA after PCR) / (ng of target DNA input), and the number of template doublings during PCR (d) can be calculated as e = [2.sup.d].

3.3. Cloning of PCR Products. PCR reactions were purified in 96-well plate format by the addition of PEG 8000 and Mg[Cl.sub.2] to final concentrations of 10% and 10 mM, respectively, directly to each well of the PCR plate using a multichannel pipettor. The plate was spun at 4000 rpm for 60 minutes at room temperature, and the supernatant was discarded. Pellets were washed two times with cold isopropanol, air-dried, and resuspended in 25 [micro]L TE (pH 8). This protocol resulted in excellent yields (50-75%) of PCR products, with no products <300 bp, as judged by gel electrophoresis. Purified PCR products were cloned into a pDONR223 vector (a generous gift of Drs. Dominic Esposito and Jim Hartley, NCI, Frederick, MD) using BP Clonase II (Invitrogen/Life Technologies). Clonase reactions were assembled using a multichannel pipettor in 96-well PCR plates in a 5 [micro]L volume and contained 75 ng pDONR223,1 [micro] purified PCR product (typically 50-150 ng DNA), and 1 [micro]L BP Clonase II. Sealed plates were incubated at least 16 hours at 25[degrees] C, and 1 [micro]L of each reaction was immediately (no proteinase K treatment) used to transform either 25 [micro]L or 50 [micro]L of competent TOP10 cells (Invitrogen/Life Technologies). Following heat shock and recovery, following addition of 250 [micro]L of SOC media, 100 [micro]L of cells was plated on LB plates containing 50mg/mL spectinomycin. Equivalent numbers of colonies were observed in transformations using 25 [micro]L or 50 [micro]L of frozen competent cells, and control BP reactions lacking BP Clonase II or PCR product resulted in no transformants.

3.4. Screening of Transformants. Three colonies from each transformation plate were picked and cultured in 96-well plates (Costar 3788) sealed with gas-permeable membrane, with each colony incubated in 150 mL of LB media with 50 mg/mL spectinomycin and 10% glycerol. After overnight incubation at 37[degrees]C (no shaking), 1 [micro]L of each culture was used to screen by colony PCR for the presence of insert with expected size. Colony PCR reactions (25 mL) used the same primers used for cloning at a final concentration of 0.1 mM each, with 30 amplification cycles as described above, with GoTaq polymerase (Promega). Reactions were analyzed by agarose gel electrophoresis, and the presence of a band at or near the expected size was scored as a "hit." The number of hits (0-3) for each target was determined, and an average number of hits per target for each plate were determined and used as a measure of Clonase reaction efficiency.

3.5. Clone Sequencing. In cases where Clonase efficiency values were >66%, average of at least 2 hits out of 3 colonies screened, the entire liquid culture plate was replicated with a 96-pin replicator onto an agar plate with the same dimensions as a 96-well plate. The plate was immediately submitted to an outside vendor (Quintarabio, Berkeley, CA), and after growth overnight sequencing was performed on amplified DNA from each clone. If Clonase efficiency values were <66% (Taq and Pfu polymerase reactions), a rearray step was added, using a Qpix2 colony picking robot (Genetix) to maximize the number of clones with correct-size insert on one plate. For comparing sequencing results using cells versus miniprep DNA, one plate of colonies picked from a Taq cloning reaction was replicated into a 96-well deep well plate with 800 mL media per well and grown overnight with shaking at 300 rpm. Cells were pelleted, and DNA was prepared using a Qiaprep 96 Turbo Miniprep Kit (Qiagen). Eluted DNA was submitted directly for sequencing.

The authors declare that there is no conflict of interests regarding the publication of this paper.

This work was part of the DOE Joint BioEnergy Institute (http://www.jbei.org) supported by the U.S. Department of Energy, Office of Science, Office of Biological and Environmental Research, through Contract DE-AC02-05CH11231 between Lawrence Berkeley National Laboratory and the U.S. Department of Energy. The authors would like to thank Drs. Dominic Esposito and Jim Hartley (NCI, Frederick, MD) for the gift of pDONR223 DNA, Huu M. Tran (JBEI/Sandia National Laboratories) for assistance with the laboratory automation, Drs. Richard Shan and Sue Zhao (Quintara Biosciences, Berkeley, CA) for DNA sequencing and analysis, and Dr. Nathan J. Hillson for critical reading of the paper.

[1] B. G. Fox, C. Goulding, M. G. Malkowski, L. Stewart, and A. Deacon, "Structural genomics: from genes to structures with valuable materials and many questions in between," Nature Methods, vol. 5, nee. 2, pp. 129-132, 2008.

[2] A. Rolfs, W. R. Montor, S. Y. Sang et al., "Production and sequence validation of a complete full length ORF collection for the pathogenic bacterium Vibrio cholerae," Proceedings of the National Academy of Sciences of the United States of America, vol. 105, nee. 11, pp. 4364-4369, 2008.

[3] G. Temple, P. Lamesch, S. Milstein et al., "From genome to proteome: developing expression clone resources for the human genome," Human Molecular Genetics, vol. 15, nee. 1, pp. R31-R43, 2006.

[4] J. Cline, J. C. Braman, and H. H. Hogrefe, "PCR fidelity of Pfu DNA polymerase and other thermostable DNA polymerases," Nucleic Acids Research, vol. 24, no. 18, pp. 3546-3551, 1996.

[5] A. M. Dunning, P Talmud, and S. E. Humphries, "Errors in the polymerase chain reaction," Nucleic Acids Research, vol. 16, nee. 21, p. 10393, 1988.

[6] R. K. Saiki, D. H. Gelfand, S. Stoffel et al., "Primer-directed enzymatic amplification of DNA with a thermostable DNA polymerase," Science, vol. 239, no. 4839, pp. 487-491,1988.

[7] K. R. Tindall and T. A. Kunkel, "Fidelity of DNA synthesis by the Thermus aquaticus DNA polymerase," Biochemistry, vol. 27, nee. 16, pp. 6008-6013, 1988.

[8] J. M. Flaman, T. Frebourg, V. Moreau et al., "A rapid PCR-fidelity assay," Nucleic Acids Research, vol. 22, nee. 15, pp. 3259-3260, 1994.

[9] P. Keohavong and W. G. Thilly, "Fidelity of DNA polymerases in DNA amplification," Proceedings of the National Academy of Sciences of the United States of America, vol. 86, no. 23, pp. 92539257,1989.

[10] P. Andre, A. Kim, K. Khrapko, and W. G. Thilly, "Fidelity and mutational spectrum of Pfu DNA polymerase on a human mitochondrial DNA sequence," Genome Research, vol. 7, nee. 8, pp. 843-852,1997.

[11] G. S. Provost, P. L. Kretz, R. T. Hamner et al., "Transgenic systems for in vivo mutations analysis," Mutation Research-Fundamental and Molecular Mechanisms of Mutagenesis, vol. 288, no. 1, pp. 133-149, 1993.

[12] T. A. Kunkel and K. Bebenek, "DNA replication fidelity," Annual Review of Biochemistry, vol. 69, pp. 497-529, 2000.

[13] M. Takagi, M. Nishioka, H. Kakihara et al., "Characterization of DNA polymerase from Pyrococcus sp. strain KOD1 and its application to PCR," Applied and Environmental Microbiology, vol. 63, no. 11, pp. 4504-4510,1997

[14] M. Kitabayashi, Y. Nishiya, M. Esaka, M. Itakura, and T. Imanaka, "Gene cloning and polymerase chain reaction with proliferating cell nuclear antigen from Thermococcus kodakaraensis KOD1," Bioscience, Biotechnology and Biochemistry, vol. 66, no. 10, pp. 2194-2200, 2002.

[15] K. S. Lundberg, D. D. Shoemaker, M. W. W. Adams, J. M. Short, J. A. Sorge, and E. J. Mathur, "High-fidelity amplification using a thermostable DNA polymerase isolated from Pyrococcus furiosus," Gene, vol. 108, no. 1, pp. 1-6,1991.

[16] M. Li, F Diehl, D. Dressman, B. Vogelstein, and K. W. Kinzler, "BEAMing up for detection and quantification of rare sequence variants," Nature Methods, vol. 3, nee. 2, pp. 95-97, 2006.

[17] G. Marsischky and J. LaBaer, "Many paths to many clones: a comparative look at high-throughput cloning methods," Genome Research, vol. 14, nee. 10, pp. 2020-2028, 2004.

[18] J. T. Lis, "Fractionation of DNA fragments by polyethylene glycol induced precipitation," Methods in Enzymology, vol. 65, nee. 1, pp. 347-353, 1980.

[19] J. J. Choi, J. Song, H. N. Ki et al., "Unique substrate spectrum and PCR application of Nanoarchaeum equitans family B DNA polymerase," Applied and Environmental Microbiology, vol. 74, no. 21, pp. 6563-6569, 2008.

[20] L. L. Ling, P. Keohavong, C. Dias, and W. G. Thilly, "Optimization of the polymerase chain reaction with regard to fidelity: modified T7, Taq, and vent DNA polymerases," PCR Methods and Applications, vol. 1, no. 1, pp. 63-69,1991.

[21] K. A. Eckert and T. A. Kunkel, "High fidelity DNA synthesis by the Thermus aquaticus DNA polymerase," Nucleic Acids Research, vol. 18, nee. 13, pp. 3739-3744,1990.

[22] J. F. Davidson, R. Fox, D. D. Harris, S. Lyons-Abbott, and L. A. Loeb, "Insertion of the T3 DNA polymerase thioredoxin binding domain enhances the processivity and fidelity of Taq DNA polymerase," Nucleic Acids Research, vol. 31, nee. 16, pp. 4702-4709, 2003.

[23] E. Viguera, D. Canceill, and S. D. Ehrlich, "Replication slippage involves DNA polymerase pausing and dissociation," The EMBO Journal, vol. 20, nee. 10, pp. 2587-2595, 2001.

[24] K. Khrapko, H. Coller, P. Andre et al., "Mutational spectrometry without phenotypic selection: human mitochondrial DNA," Nucleic Acids Research, vol. 25, nee. 4, pp. 685-693,1997.

[25] A. Niimi, S. Limsirichaikul, S. Yoshida et al., "Palm mutants in DNA polymerases [alpha] and [eta] Alter DNA replication fidelity and translesion activity," Molecular and Cellular Biology, vol. 24, no. 7, pp. 2734-2746, 2004.

[26] E. M. Kennedy, C. Hergott, S. Dewhurst, and B. Kim, "The mechanistic architecture of thermostable Pyrococcus furiosus family B DNA polymerase motif A and its interaction with the dNTP substrate," Biochemistry, vol. 48, no. 47, pp. 11161-11168, 2009.

[27] T. A. Kunkel, S. S. Patel, and K. A. Johnson, "Error-prone replication of repeated DNA sequences by T7 DNA polymerase in the absence of its processivity subunit," Proceedings of the National Academy of Sciences of the United States of America, vol. 91, nee. 15, pp. 6830-6834,1994.

[28] H. Huang and P. Keohavong, "Fidelity and predominant mutations produced by deep vent wild-type and exonuclease-deficient DNA polymerases during in vitro DNA amplification," DNA and Cell Biology, vol. 15, nee. 7, pp. 589-594,1996.

Peter McInerney, (1,2) Paul Adams, (1,3) Masood Z. Hadi (1,3,4)

(1) Joint BioEnergy Institute, Emeryville, CA, USA

(2) Sandia National Laboratories, Livermore, CA, USA

(3) Physical Biosciences Division, Lawrence Berkeley National Laboratories, Berkeley, CA 94720, USA

(4) Synthetic Biology Program, Space BioSciences Division, NASA AMES Research Center, Mail Stop 239-15, Moffett Field, CA 94035, USA


Introduction to the Structure, Properties, and Reactions of DNA

Richard R. Sinden , in DNA Structure and Function , 1994

4. Transcription and Gene Regulation

RNA-polymerase is the enzyme complex that makes an RNA chain from a double-stranded (or single-stranded) DNA template. RNA polymerase in E coli is composed of 2 α subunits, 1 β subunit containing the catalytic activity, 1 β’ subunit that has DNA binding activity, and a δ subunit. RNA is synthesized with the same 5′ and 3′ polarity as DNA, in which nucleotides are added onto the 3′ OH end of the chain. In E coli there is one RNA polymerase molecule that synthesizes all types of RNA. The types of RNA are mRNA, which is translated into proteins rRNA, which is a structural component of ribosomes and tRNA, which brings amino acids to the ribosome to be incorporated into protein. How is the E coli RNA polymerase regulated so the appropriate levels of the three types of RNA messages are made? Escherichia coli has multiple sigma factors that provide the specificity to RNA polymerase to encode rRNA, tRNA, or various types of mRNA.

In eukaryotes, in addition to mRNA, tRNA, and rRNA, there are “guide RNAs” used for post-translational editing of mRNA, RNA for incorporation into ribonucleoproteins involved in splicing eukaryotic mRNAs, and RNA for incorporation into certain transcription factors. In eukaryotes specialized RNA polymerases synthesize these various RNA molecules. RNA polymerase I synthesizes large ribosomal RNA, RNA polymerase II synthesizes messenger RNA, and RNA polymerase IIi synthesizes the 5S small ribosomal RNA and tRNAs. These polymerases, like the E coli enzyme, are large multisubunit proteins. All eukaryotic polymerases have two subunits (L and L′) that have similarity with the E coli β and β′ subunits. In addition, there are many other subunits associated with these proteins, some of which are specific for the polymerase.


What is Taq Polymerase?

Taq polymerase (Taq DNA polymerase) is an enzyme used for synthesizing DNA in vitro by PCR technique. It is produced by the thermophilic bacterium called Thermus aquaticus that lives in hot springs and thermal vents. Taq polymerase is a thermostable enzyme which does not degrade at high temperatures. Taq polymerase was purified for the first time and published in Chien et al. in 1976. PCR technique is performed with the aid of Taq polymerase due to its capacity to tolerate high temperature and temperature fluctuations during the PCR. Taq polymerase catalyzes the DNA synthesis when there are primers, nucleotides and the single-stranded template DNA. The enzyme consists of a single polypeptide with a molecular weight of approximately 94 kDa. Taq polymerase shows its optimum activity at 80 °C and at 7 – 8 pH range with the presence of Magnesium ions. It has both polymerase and exonuclease activity. The enzyme is composed of a single polypeptide chain and the gene for Taq polymerase contains high G and C content (67.9%).

Thermostable Taq polymerase allows performing PCR at high temperatures which increase the specificity of primers and reduction of producing unwanted PCR products (primer dimers). Taq polymerase also eliminates the need for adding new enzymes to the PCR reaction after each and every PCR reaction cycle due to its ability to withstand high temperatures. Discovery of Taq polymerase enabled the PCR to perform in a single closed tube in a relatively simple machine. Due to these properties of Taq polymerase, PCR becomes a popular routinely performed laboratory technique in many molecular biology analysis concerning DNA analysis.

Taq polymerase is widely used in molecular biological techniques, and there is a need for large-scale Taq polymerase production. Therefore, using the recombinant DNA technology and gene cloning, the gene that encoded the Taq DNA polymerase had been cloned and expressed in Escherichia coli. This has greatly facilitated the production recombinant Taq polymerase and reduced the price of this enzyme for adequate use.

Figure 1: Taq Polymerase


A critical survey on the kinetic assays of DNA polymerase fidelity from a new theoretical perspective

The high fidelity of DNA polymerase is critical for the faithful replication of genomic DNA. Several approaches were proposed to quantify the fidelity of DNA polymerase. Direct measurements of the error frequency of the replication products definitely give the true fidelity but turn out very hard to implement. Two biochemical kinetic approaches, the steady-state assay and the transient-state assay, were then suggested and widely adopted. In these assays, the error frequency is indirectly estimated by using the steady-state or the transient-state kinetic theory combined with the measured kinetic rates. However, whether these indirectly estimated fidelities are equivalent to the true fidelity has never been clarified theoretically, and in particular there are different strategies to quantify the proofreading efficiency of DNAP but often lead to inconsistent results. The reason for all these confusions is that it’s mathematically challenging to formulate a rigorous and general theory of the true fidelity. Recently we have succeeded to establish such a theoretical framework. In this paper, we develop this theory to make a comprehensive examination on the theoretical foundation of the kinetic assays and the relation between fidelities obtained by different methods. We conclude that while the steady-state assay and the transient-state assay can always measure the true fidelity of exonuclease-deficient DNA polymerases, they only do so for exonuclease-efficient DNA polymerases conditionally (the proper way to use these assays to quantify the proofreading efficiency is also suggested). We thus propose a new kinetic approach, the single-molecule assay, which indirectly but precisely characterizes the true fidelity of either exonuclease-deficient or exonuclease-efficient DNA polymerases.


What is the error rate of DNA replication?

I have wondered about this for a long time, and can't find a good reference on the internet. Wikipedia says near perfect, and the cited references are books I don't have access to. Every other open access source Google turns up is similarly vague (probably because I don't know the right search terms).

In electronic digital systems, it is common to talk about the bit error rate of a communication channel or storage system (storage being a special case of communication). BER is typically defined as the number of 'incorrect' bits divided by the total number of bits transferred.

DNA is also a digital communication system, so I assume that a similar concept exists in biology. Does it? What is the BER of DNA replication?

Related bonus question: How much of the ɽNA damage' due to chemicals and radiation is in-situ damage on DNA copies, and how much happens at replication time?

The DNA replication error rate varies depending on the organism and exactly how you define replication. There is one enzyme called a polymerase that does the initial replication and often a second enzyme an exonuclease that does proofreading, a kind of error correction, for the polymerase. You can also get a third process, mismatch repair, that will further reduce the error rate.

The variation can go all the way from an error rate of 10 -3 (with just a polymerase) down to 10 -10 with all three processes.

Try a search at Bionumbers for DNA error rate. That will list all the numbers and primary sources.

Thanks, that's just what I was looking for.

Can you recommend a good beginner's reference to these three processes and how they work? For example, is that 'proofreading' actual error correction or just error detection?

Another interesting point here, as a more functional than numerical readout of replication fidelity, is that mutations in genes encoding DNA replication and DNA repair factors predispose people (and mice) to many cancers. Replication fidelity is so tightly controlled that we can almost take it for granted, until something stops functioning properly and things get out of control in a hurry!

This is called the mutation rate.

It does vary from place to place in the genome (mostly because non-junk DNA sequences tend to have some degree of ɾrror-checking'.) However, on average, for humans, it seems to be around 2.5×10 -8 per base pair per generation. So basically, a single base pair has a 2.5X10 -8 chance of being replicated incorrectly in a single generation of that cell lineage.

That's much higher than I would have guessed. At those numbers, a 3x10^9 base pair genome would expect about 12 errors per generation. Does that number include the effect of the error checking?

Can you recommend a good place to read about these error checking mechanisms? My questions include:

Are they just error checking (wrong, try again) or error correction (the error is here, now we fix it)?

How do these mechanisms compare, in terms of efficiency, to modern error correction codes?

How close could the DNA replication channel come to the Shannon limit? To what extent is that even a meaningful question?

As you may have guessed, I find biology endlessly fascinating despite my almost total ignorance.

Nou ja en nee. The error rate of replication is higher than the mutation rate, because errors can be repaired post-replication by DNA repair pathways, especially via DNA mismatch repair.

We have a pretty good idea about the error rates of DNA polymerase as well as the various DNA repair processes that act to keep replication errors to a minimum.

The error rate for the high-fidelity DNA polymerases that take care of most DNA replication ranges from 10 -2 to 10 -6, and these enzymes additionally have proofreading functions that bring their error rate to 10 -7. DNA mismatch repair proteins function on top of that to keep the overall DNA replication error rate to better than 10 -9. McCulloch and Kunkel review this in 2008, if you have access. I will look around later for some sources that are accessible to all.

As far as your bonus question, most DNA damage either occurs during or is exacerbated by DNA replication. UV irradiation and chemicals that cause DNA adducts cause direct damage, but this damage also causes more replication-associated damage because it impedes normal progression of the replication machinery and can lead to double-stranded breaks, which are the most deadly lesion for a cell. In addition to exogenous chemicals and radiation, sources within the cell like reactive oxygen species create DNA damage on a daily basis, and this may very well exceed the amount of damage incurred from outside sources. Luckily for us, cells have evolved DNA damage checkpoints and many DNA repair pathways (such as base excision repair, nucleotide excision repair, mismatch repair, homologous recombination, and nonhomologous end joining) that fend off this DNA damage and help to maintain genome integrity.


Sandwalk

This is the second in a series of posts on human mutation rates and their implication(s). The first one was .
What Is a Mutation?

There are basically three ways to estimate the mutation rate in the human lineage. I refer to them as the Biochemical Method, de Phylogenetic Method, en de Direct Method.

The biochemical method relies on the well-known fact that the vast majority of mutations are due to errors in DNA replication. Since we know a great deal about the replication complex and the biochemistry of the reactions, we can calculate a mutation rate per DNA replication based on this knowledge. The details are explained in a previous post [Mutation Rates]. I'll give a brief summary here.

The overall error rate of DNA polymerase in the replisome is 10 -8 errors per base pair. Repair enzymes fix 99% of these lesions for an overall error rate of 10 -10 per bp. That means one mutation in every 10 billion base pairs that are replicated.

-definition
-mutation types
-mutation rates
-phylogeny
-controversies
The human haploid genome is 3.2 × 10 9 bp. [How Big Is the Human Genome?] [How Much of Our Genome Is Sequenced? ]. That means that on average there are 0.32 mutations introduced every time the genome is replicated. In the male, there are approximately 400 cell divisions between zygote and the production of a sperm cell. 1 This gives a total of about 128 new mutations in every sperm cell. In the female, there are about 30 cell divisions between zygote and the production of egg cells. That's about 10 new mutations in every egg cell.

Adding these together gives us about 138 new mutations in every zygote. Let's round this down to 130. Thus the estimate from the Biochemical Method is ..

1. This depends on the age of the man when he has children. The value used here is approximately the average for a 30 year old man.


[email protected]

Genome integrity is necessary to prevent mutations and disease. During eukaryotic DNA replication, DNA polymerases ε (Polε) and δ (Polδ) synthesize the leading and lagging strand, respectively. Polε and Polδ also have exonuclease activity that acts in series with post-replicative mismatch repair (MMR) to remove replication errors. Defects in proofreading and MMR lead to an increase in mutations and cause cancer in humans. This dissertation focuses on several unresolved issues involving the relationship between Polε and Polδ in replication error avoidance. First, despite an abundance of data supporting the one-strand-one-polymerase replication fork model, defects in the fidelity of Polε have a much weaker impact on mutagenesis than analogous Polδ defects. It has been proposed, but not directly tested, that Polδ contributes more to mutation avoidance because it proofreads mismatches created by Polε in addition to its own errors. In this work, we sought to explicitly test this idea. Second, the most common cancer-associated Polε variant, P286R, has recently been discovered to possess unusual and puzzling properties. Despite the location in the exonuclease domain, it produces a mutator effect far exceeding the effect of Polε exonuclease deficiency. The purified yeast analog, Polε-P301R, has increased DNA polymerase activity, which is thought to underlie its high mutagenicity, but the exact mechanism remains unclear. We aimed to investigate the impact of the P301R substitution on the function of Polε as the leading strand polymerase, and the removal of Polε errors by error correction mechanisms in vivo.

To test the hypothesis that Polδ proofreads errors made by Polε, we measured mutation rates in yeast strains harboring a nucleotide selectivity defect in one polymerase and a proofreading defect in the other. We show that Polδ can proofread errors made by Polε, but Polε cannot proofread errors made by Polδ. To investigate the role of Polε-P301R at the replication fork, we measured the accumulation of strand-specific replication errors across a well-defined replicon in yeast. We found that, despite exceptional polymerase activity, Polε-P301R is a dedicated leading strand polymerase. We further show that both Polδ proofreading and MMR remove errors incorporated by Polε-P301R and are required for viability of Polε-P301R cells. In summary, by demonstrating Polδ-dependent extrinsic proofreading, we resolved the discrepancy between the one-strand-one-polymerase model and the stronger impact of Polδ defects on genome stability. Using the hyperactive Polε-P301R, we further demonstrate the unexpected ease of polymerase exchange in vivo and its critical role in preventing catastrophic accumulation of errors on the leading strand. Our results also explain the apparent incompatibility of Polε variants and MMR defects in cancers.


Author response

1) Possible alternative explanations for the observationsA main issue with this manuscript is that alternative explanations could also make sense. The author has to show that his explanations are the only or at least most plausible ones. Figure 2b is central to the proposed method. It shows an elevated rate of errors at the uracil in the 5' splice site of the canonical GU-AG introns selected by the author. The explanation given is that Pol II errors in the U lead to intron retention. Why then is the error rate of the guanine not similarly elevated? One would then also expect to see elevated error rates for the conserved AG motif of the 3' splice site and in the well conserved branch point motif. The analysis of these motifs should confirm the interpretation by the author. Because this data is not shown, does that mean no elevated signal has been observed? How can this be explained in the light of the author's interpretation of Pol II errors at splicing motifs leading to retained introns? Since the only position with elevated error rate seems to be the U at the 5' SS, an alternative explanation (probably not the only possible one) could be that some factor strongly binds to the uracil in such a way that the reverse transcription in the RNA-seq protocol causes the uracil to be misread. Note that U->C mutations are also observed in PAR-CLIP and are known to originate during reverse transcription of the RNA.

I agree that is was strange that only mutations at the U were enriched in reads spanning intron-exon junctions. Using a newer dataset with a far lower overall mismatch frequency, I find that both the G and U in the 5’ site, and the A in the 3’ site, have higher observed mismatch rates in exon-intron spanning reads (Figure 2B and Figure 2–figure supplement 1).

2) Choice of null modelFigure 2b shows familielid error rates on the y-axis. The error rates observed around 5' splice sites are normalized by the error rates seen for the same dinucleotides, GT, at other places in the transcriptome. The 4-fold elevated error rate therefore depends on the null model. It would be important to compute the relative error rate at the uracil with more refined trimer null models to see if the 4-fold increase holds up. Two versions, one with the mutated nucleotide at the first position and another model with the mutated nucleotide at the last of the three trimer positions, should be used. The latter version could model sequence-dependent effects during reverse transcription. For each trimer in the transcriptome one can compute the error rate at the first and third nucleotide. Then, the total mutations for each position around the 5' splice site (and the 3' splice site and branch point) are divided by expected numbers of mutations, which is simply the sum of error rates for each of the trimer contexts for the position.

Figure 2–figure supplement 1 shows the 3mer error rates for each base in each 3mer. Using this new experiment with higher quality RNA-seq data, only highly elevated error rates are on both the C and G in CG dinucleotides. This suggests that the elevated error rates at the donor and acceptor sites are biological signal and not technical error.

3) Effects of Rpb9The author demonstrates that expression of Rpb9 negatively correlates with error rates in human cell lines, suggesting that the differential expression of Rpb9 affects RNA polymerase fidelity in vivo. The level of mRNA expression does not necessarily correlate with protein level and, more importantly, the author should normalize the expression of Rpb9 with another subunit of Pol II (e.g. Rpb3) in each cell line used for the analysis (Figure 2c).

I agree that RNA levels do not necessarily determine protein levels. This is a common caveat with interpreting RNA-seq results. In addition, RNA polymerase complex assembly is highly regulated knowing the cellular concentration of a specific subunit doesn’t tell you about its phosphorylation status nor how much of that subunit is incorporated into polymerase. I have added text regarding this to the Discussion.

The normalization by the expression of other subunits is a good idea. I have added a figure (Figure 2–figure supplement 2) showing that RPB9 expression negatively correlates with RNA-seq mismatch rates when normalized by either RPB3 or by the median expression of all subunits.

An alternative explanation for Figure 2c and Figure 3b would be that changing Rpb9 and TFIIS concentration from its finely regulated value impairs elongation, which in turn can influence splicing rates and splicing efficiency. (See e.g., Lacadie et al., In vivo commitment to yeast cotranscriptional splicing is sensitive to transcription elongation mutants, Genes Dev. 2006.) Can such alternative explanations be excluded?

I cannot think of a good experiment to determine if the difference in splicing due to RBP9 and DST1 underexpression (Figure 3b) are due to a change in elongation rates, error rates, or both. I believe that the new data showing elevated mismatch frequencies at both 5’ and 3’ splice sites lends further support to RNA polymerase errors being responsible for at least some of the difference in splicing.

Further, in Figure 3b the author shows that intron retention is higher under conditions of low Rpb9/Dst1 induction. Is the low induction of Rpb9 or Dst1 affecting the same introns? Does the author find a higher error rate in GT 5´ donor site in the mRNAs that show intron retention?

Unfortunately, because the error rates are lower than the coverage at any one position, the error rate at any particular exon is dominated by sampling bias. We are in the process of developing combining single-molecule unique IDs with targeted sequencing to ask this very question, but cannot do so using standard RNA-sequencing data.4) Possible bias resulting from conservationTo measure the error rates at splicing junctions, the author counts errors at each position relative to 5´ donor sites, using reads spanning intron-exon junctions centered on GT donor sites. As a result, the errors at the T nucleotide are more enriched compared to other positions. It is not clear if the analysis is performed measuring the average GT error rate comparing all the reads at intron-exon junctions or single mRNAs (Figure 2a, 2b). If the analysis is made using all genes, since GT at intron-exon is a conserved sequence and the flanking regions are not, this could lead to a bias. This must be clarified.

The error rates at exon-intron junctions (Figure 2b) are compared to error rates within exons (Figure 2–figure supplement 1). I agree that this was not clear, and have clarified it in the Materials and methods section.5) Suggestions for additional controlsA positive control would be to analyse RNA-seq data of an organism with a mutated polymerase known to have an elevated mutation rate and to show that this mutation rate leads to higher relative error rates at conserved splicing motifs.

I don’t have reason to believe that an RNA polymerase fidelity mutant will have a larger increase in error rates at conserved splicing motifs relative to the increase at other positions. In the mutants, the increase in error rates at splice junctions should be the same as at other similar sequences context. The greater error rate at splice junctions is because these errors can result in intron retention.

A negative control would be to analyse RNA-seq data of a mutant organism with a known transcription elongation defect and to show that the elongation defect does not affect the putative Pol II error rate in a similar way as Rbp9 and TFIIs overexpression. If possible we encourage the author to conduct these controls.

This was a very nice suggestion. I’ve done it (Figure 3–figure supplement 1).

To determine if defects in elongation result in increased RNA-seq mismatch frequencies, I analyzed RNA-seq data from spt4 and elc1 strains, which as shown in Lacadie et al., do not have fidelity defects. I see no difference in RNA-seq mismatch frequencies, suggesting that perturbations that affect elongation would not results in an increase in RNA-seq mismatches.6) Repetitive readsIn paragraph four the alignment quality filter procedure is explained. However it is not mentioned how repetitive reads (or potentially repetitive reads in e.g. unknown duplications of genes) are handled and might affect the result. This must be clarified.

Reads that map to multiple locations in the genome are discarded. I’ve clarified this in the text.7) Possible bias from coverageNot counting identical mismatches occurring twice or more at the same position (paragraph four) is problematic, because:– This needs to be adjusted by depth-of-coverage at each position. Positions with high coverage are much more likely to have the same 'real' RNApol error twice, than positions with low coverage. (This seems to be so obvious that we might have overlooked the explanation of the normalization procedure)– RNA polymerase errors seem to be biased to e.g. C->T (see Figure 3c), making it quite a bit more likely to see exactly the same RNApol error twice at a position for C->T/G->A.In general the uncertainty of RNApol error estimates at low coverage positions (i.e. lowly expressed genes) should be much worse than for high coverage (highly expressed genes). Is this addressed in the algorithm? (Maybe this problem has been discussed but missed by reviewers.) If not it needs some clarification, how different depth-of-coverage and mutation bias is considered when estimating the errors or removing mismatches of the same type.

I have added a supplementary figure showing both (1) this filtering does not affect the results, and (2) the statistical reasoning for this filter (Figure 1–figure supplement 2). Briefly, the error rate of RNA polymerase is on the order of 10 -5 , while 90% of positions have a coverage of <10 2 . Therefore, while many positions in the genome exhibit multiple identical errors the likelihood of observing multiple identical errors is very low.


Bekijk de video: DNA Polymerase vs RNA Polymerase (Januari- 2022).