Informatie

Hoe genen te identificeren?


Jij en ik zijn verschillend op DNA-niveau. Mijn oogkleur-gen is anders dan de jouwe. Dus mijn DNA is anders dan het jouwe. Hoe kan een wetenschapper een bepaald gen in een chromosoom (en zijn functie) identificeren als chromosomen verschillend zijn? Hoe kunnen we praten over "het" menselijke DNA als niemand hetzelfde deelt (behalve tweelingen)? Alsjeblieft, dit is een praktische vraag over hoe wetenschappers genen identificeren, niet een filosofische (een vraag die me elke keer stoort als ik lees over ontdekkingen in de genetica)


Allereerst: we verschillen niet heel erg op genetisch niveau - de identiteit ligt ergens rond de 99,6 tot 99,9%. Zie hier voor details. Als dit niet zo zou zijn, zouden dingen als bloedtransfusies of orgaantransplantaties niet werken.

Om genen te identificeren zijn er verschillende routes. "Vroeger" (wat betekent vóór de mogelijkheid van massale high-throughput-sequencing of DNA-microarrays), werden genen meestal ontdekt wanneer ze verband hielden met een ziekte die een merkbaar fenotype had. Onderzoekers probeerden vervolgens te achterhalen welk eiwit of pad werd aangetast en gingen van daaruit terug om het genetische gebied te identificeren. Deze manier van ontdekken was relatief traag. Een voorbeeld van een dergelijke identificatie is de identificatie van het Mitf-gen dat belangrijk is voor de ontwikkeling van pigmentatie.

Als je DNA sequencet (het maakt hier niet uit of dit volledige genomen zijn of slechts delen ervan) kun je genen identificeren op basis van homologie met reeds bekende genen. Je kunt ook de aanwezigheid van genen in een bepaalde sequentie voorspellen op basis van regulerende sequenties in de regio vóór het gen (de promotor). Deze sequenties zijn bekend en ook sterk geconserveerd, dus dit geeft een goede schatting. Voorspelde genen moeten meestal experimenteel worden geverifieerd.

Wat tegenwoordig wordt gedaan, zijn de zogenaamde "genoombrede associatiestudies". Hier neem je een groot cohort van mensen die allemaal één fenotype delen (bijvoorbeeld blauwe oogkleur). Vervolgens neem je een tweede groep mensen die dit fenotype niet vertonen en analyseer je hun genomen (meestal door sequencing of SNP-genotypering). Vervolgens vergelijk je de twee groepen om de verschillen te vinden. Idealiter kun je dan min of meer direct een oorzakelijke mutatie identificeren die verantwoordelijk is voor het fenotypische verschil tussen de twee onderzoeksgroepen. Dit moet meestal ook verder worden geverifieerd.


Fenotype-sequencing: het identificeren van de genen die een fenotype veroorzaken, rechtstreeks uit gepoolde sequencing van onafhankelijke mutanten

Affiliations Institute for Genomics and Proteomics, University of California Los Angeles, Los Angeles, Californië, Verenigde Staten van Amerika, Department of Chemical Engineering, University of California Los Angeles, Los Angeles, Californië, Verenigde Staten van Amerika

Affiliation Department of Human Genetics, University of California Los Angeles, Los Angeles, Californië, Verenigde Staten van Amerika

Affiliations Institute for Genomics and Proteomics, University of California Los Angeles, Los Angeles, Californië, Verenigde Staten van Amerika, Department of Chemical Engineering, University of California Los Angeles, Los Angeles, Californië, Verenigde Staten van Amerika

Affiliations Institute for Genomics and Proteomics, University of California Los Angeles, Los Angeles, Californië, Verenigde Staten van Amerika, Department of Chemistry and Biochemistry, University of California Los Angeles, Los Angeles, Californië, Verenigde Staten van Amerika, Department of Computer Science, Universiteit van Californië Los Angeles, Los Angeles, Californië, Verenigde Staten van Amerika, Molecular Biology Institute, Universiteit van Californië Los Angeles, Los Angeles, Californië, Verenigde Staten van Amerika


Heterogeniteitsanalyse door middel van clustering

Clustercellen op basis van correlatie van expressiewaarden ..

Laten we de knooppunten kleuren op basis van het celtype.

Gebruik de top 100 meest variabele genen uit de winsorized matrix:

Ook kunnen we gewogen afstandsmaatregelen gebruiken om de bijdrage van de technische ruis te verminderen. Raadpleeg de SCDE-zelfstudie voor meer informatie. Opmerking: het onderstaande blok past op foutmodellen voor alle 90+ cellen, dus het duurt even.

De bovenstaande berekening kost wat tijd, dus laten we gewoon een vooraf berekende afstand gebruiken:


Materialen en methodes

Microarray-gegevens

Van GEO 1 hebben we een CRC-gerelateerde microarray-dataset gedownload – <"type":"entrez-geo","attrs":<"text":"GSE8671","term_id":"8671">> GSE8671, die het transcriptoom van 32 prospectief verzamelde adenomen vergeleek met die van het normale slijmvlies van dezelfde individuen (Sabates-Bellver et al., 2007). We hadden dus 32 CRC-monsters en 32 normale monsters. We gebruikten maximale expressiewaarden voor dezelfde eiwitten die zijn toegewezen aan verschillende probe-ID's. We gebruikten Affy-pakket in BioConductor voor Quantile-normalisatie. Voor achtergrondcorrectie hebben we de ingebouwde MicroArray Suite (MAS5) gebruikt. We gebruikten Limma in BioConductor voor differentiële analyse.

Genensets

Gensets werden verkregen van MSigDB 2 en GeneSigDB 3 . MSigDB heeft bijna 6769 genensets en is onderverdeeld in vijf grote collecties, waarvan �” samengestelde genensets zijn die zijn verzameld uit verschillende bronnen, zoals online paddatabases, publicaties in PubMed en kennis van domeinexperts. We zochten in die collectie met trefwoord 𠇌olon” en kregen 73 genensets. GeneSigDB is een handmatig samengestelde database met handtekeningen van genexpressie en deelt een minimale overlap tussen MSigDB C2-categorie van ongeveer 8%. Het biedt de gestandaardiseerde genenlijst voor verschillende zoekcriteria. Zoeken als 𠇌olon” leverde 36 genensets op.

Analyse van genensetverrijking

Hoewel er veel variaties zijn op de GSEA-methode, beschrijven we de versie van het algoritme ontwikkeld door Subramanian en collega's (Subramanian et al., 2005), die we de standaardimplementatie van de methode noemden, omdat het de meest gebruikte vorm van de GSEA-methode. Stel dat een microarray-dataset wordt verkregen uit twee verschillende fenotypes, fenotype 1 en fenotype 2 (bijvoorbeeld controle versus experimenteel). Deze microarray-gegevensset heeft expressiewaarden voor de genen in de monsters en elke rij is geïdentificeerd door unieke probe-identificatie. Beschouw ook een bepaalde genenset S, meestal afgeleid van een algemene biologische categorie. Het doel van de GSEA-methode is om te zien of de genenset S differentiële expressie tussen de twee fenotypen vertoont.

Ten eerste berekent de GSEA-methode een associatiescore voor elk gen die het verschil meet tussen de expressie van dat gen in de twee fenotypen met behulp van een geschikte metriek. De associatiescore kan bijvoorbeeld worden berekend voor elk gen met een onafhankelijke twee-steekproef t-statistiek tussen fenotype 1 en fenotype 2 of het verschil tussen signaal-ruisverhoudingen (gemiddelde gedeeld door variantie) in elk fenotype. Dan plaatst het alle N genen betrokken in een lijst L = <G1, G2, …, GN> en sorteert de lijst op de associatiescore van elk gen Rl van meest positief naar meest negatief. Genen die bovenaan de lijst verschijnen, worden meer uitgedrukt in fenotype 1 en genen die onderaan de lijst verschijnen, worden meer uitgedrukt in fenotype 2. Vervolgens loopt GSEA door de genenlijst en berekent een lopende som. Elke keer dat het een gen in de genenset raakt S, het verhoogt de som en elke keer dat het een gen raakt dat niet in de genenset S ligt, verlaagt het de som. De mate waarin de som wordt verhoogd of verlaagd, wordt gewogen en genormaliseerd, zodat de totale som na het doorlopen van alle genen 0 is. Laat de ES de maximale afwijking zijn van de lopende som van 0. Meer specifiek, voor een weegparameter P, gebruikelijk P =𠂑, laat

Om de significantie van de ES te bepalen, creëert de GSEA-methode een aantal permutaties en herberekent de ES voor elke permutatie. Permutaties van de fenotypes in de originele microarray-gegevens hebben de voorkeur boven permutaties van de genen in de genenlijst, omdat hierdoor de structuur tussen genen behouden blijft. De ES’s van de permutaties genereren een nulverdeling en een nominale P-waarde wordt gegeven door het aantal permutaties met een grotere ES dan de oorspronkelijke gegevens. deze nominale P-waarde wordt vervolgens gebruikt om te helpen identificeren of deze genenset is geassocieerd met het verschil tussen de genexpressieniveaus in de monsters van de twee fenotypen.

GSEA software en analyse set-up

The Broad Institute biedt een eenvoudig te gebruiken standalone Java-implementatie van de GSEA-methode op hun website 4 . Alle genensets met meer dan 500 genen of minder dan 15 genen werden automatisch uitgesloten, volgens de standaardinstellingen. Het verschil tussen signaal-ruisverhoudingen werd gebruikt als associatiescore. Het aantal fenotype-permutaties dat betrokken is bij de nominale P-waardeberekening was 1000. Voor elke analyse rapporteren we het aantal genensets met FDR 㰥%. Samen met deze genensets met FDR 㰥%, rapporteren we het aantal genensets waarvan de nominale P-waarden zijn ρ% of 5%. Er is enige overlap tussen de drie lijsten met genensets, maar FDR 㰥% noch nominaal P-waarden υ% zijn noodzakelijkerwijs deelverzamelingen van elkaar. Natuurlijk is de verzameling genensets met nominale P-waarden ρ% is een subset van die met nominaal P-waarden υ%. Het verstrekken van resultaten op basis van alle drie de criteria voegt robuustheid aan de bevindingen toe, aangezien elk zijn eigen verdienste heeft.

Gen/eiwit netwerkmodellering

Om de rekentijd en het genereren van informatie te optimaliseren, hebben we een gecombineerde netwerkconstructiestrategie gebruikt, gebaseerd op de verrijkte genen van zowel MSigDB als GeneSigDB.

Eerst hebben we de verrijkte MSigDB-genen van GSE8671 in HAPPI 5 verbonden met CS (CI> =𠂐.75, d.w.z. zowel vier- als vijfsterrenbeoordeling) voor hoogwaardige interacties, om een ​​PPI-netwerk te verkrijgen. De lokale topologische eigenschap (bijv. knooppuntgraad, clustercoëfficiënt, tussen centraalheid, buurtconnectiviteit enz. (Wu en Chen, 2009) voor elk knooppunt werd berekend op basis van dit netwerk. Vervolgens werden genen met absolute vouwverandering |FC| 's x0003e =𠂑.5, is gelijk aan Logboek2(FC) > =𠂐.585, werden behouden.

Ten tweede hebben we de verrijkte GeneSigDB-genen van <"type":"entrez-geo","attrs":<"text":"GSE8671","term_id":"8671">> GSE8671 in HAPPI (zie tekst voetnoot 5 ) met CS (CI> =𠂐.75, d.w.z. zowel vier- als vijfsterrenbeoordeling) voor hoogwaardige interacties, om een ​​ander PPI-netwerk te verkrijgen. Op dezelfde manier werd de lokale topologische eigenschap voor elk knooppunt berekend op basis van dit netwerk. Dan zijn genen met absolute vouwverandering |FC| > =𠂑.5, gelijk aan Log 2(FC) > =𠂐.585, werden behouden.

Ten slotte hebben we deze twee netwerken gecombineerd om een ​​knoopgewogen edge-scored CRC-specifiek PPI-netwerkmodel te bouwen met behulp van Cytoscape (Shannon et al., 2003), waarbij de knoopkleur de vouwverandering voor elk gen voorstelt, de knoopgrootte de lokale topologische eigenschap voor elk gen/eiwit, randkleur en randbreedte die CS voor elke eiwitinteractie vertegenwoordigen.


Top 5 screeningstrategieën van genbibliotheken

Dit artikel werpt licht op de top vijf screeningstrategieën van genbibliotheken.

De top vijf screeningstrategieën zijn: (1) Screening door DNA-hybridisatie (2) Screening door koloniehybridisatie (3) Screening door PCR (4) Screening door immunologische test en (5) Screening door eiwitfunctie.

1. Screening door DNA-hybridisatie:

De doelsequentie in een DNA kan worden bepaald met een DNA-probe (Fig. 9.5). Om te beginnen wordt het dubbelstrengs DNA van belang omgezet in enkele strengen door hitte of alkali (denaturatie). De twee DNA-strengen worden uit elkaar gehouden door te binden aan een vaste matrix zoals nitrocellulose of nylonmembraan.

Nu worden de enkele strengen van de DNA-probe (100-1.000 bp) gelabeld met radio-isotoop toegevoegd. Hybridisatie (d.w.z. basenparing) vindt plaats tussen de complementaire nucleotidesequenties van het doelwit-DNA en de probe. Voor een stabiele basenparing moet ten minste 80% van de basen in de twee strengen (doel-DNA en de probe) overeenkomen. Het gehybridiseerde DNA kan worden gedetecteerd door autoradiografie.

DNA-sondes:

De DNA-probes die voor screeningdoeleinden worden gebruikt, kunnen op vele manieren worden gesynthetiseerd.

Willekeurige primermethode::

Met deze techniek kunnen met radio-isotoop gemerkte DNA-primers worden geproduceerd (Fig. 9.6). Het dubbelstrengs DNA dat de sequentie bevat die nodig is om als probe te dienen, wordt gedenatureerd. Een mengsel van synthetische oligonucleotiden, met alle mogelijke combinaties van basen (A, G, C en T), met een lengte van elk 6 nucleotiden, dienen als primers. Sommige van deze primers met complementaire sequenties zullen hybridiseren met het matrijs-DNA. Dit optreden is geheel toevallig en de kans is redelijk goed.

Door toevoeging van vier deoxyribonucleotiden (waarvan één radioactief gelabeld is) en in aanwezigheid van het enzym DNA-polymerase van E. coli (Klenow-fragment), worden de primers verlengd op het template-DNA. Omdat een radioactief label wordt gebruikt, worden de nieuw gesynthetiseerde DNA-fragmenten op geschikte plaatsen gelabeld, en dit zijn de DNA-probes. Een aantal gelabelde DNA-probes kan worden geproduceerd uit een niet-gelabeld matrijs-DNA.

Niet-isotopische DNA-sondes:

Voor de productie van niet-isotopische DNA-probes wordt een van de vier deoxynucleotiden (gebruikt voor primerverlenging zoals hierboven beschreven) gelabeld met een label (bijv. biotine). Het label van de DNA-probes kan worden gedetecteerd door middel van chemische en enzymatische reacties.

2. Screening door koloniehybridisatie:

De DNA-sequentie in de getransformeerde kolonies kan worden gedetecteerd door hybridisatie met radioactieve DNA-probes (soms kunnen ook gelabelde RNA-probes worden gebruikt). Koloniehybridisatietechniek wordt door sommige auteurs ook wel replicaplating genoemd. De in Fig. 9.7 afgebeelde techniek wordt kort beschreven.

De getransformeerde cellen worden als kolonies op een moederplaat gekweekt. Monsters van elke kolonie worden overgebracht naar een vaste matrix zoals nitrocellulose of nylonmembraan. De overdracht wordt zorgvuldig uitgevoerd om het patroon van de kolonies op de moederplaat te behouden. Het nitrocellulosepapier bevat dus een fotokopiepatroon van de moederplaatkolonies. De koloniecellen worden gelyseerd en gedeproteïneerd.

Het DNA is gedenatureerd en onomkeerbaar gebonden aan de matrix. Nu wordt een radioactief gemerkte DNA-probe toegevoegd die hybridiseert met het complementaire doelwit-DNA. De niet-gehybridiseerde probe-moleculen worden weggewassen. De kolonie met gehybridiseerde sonde kan worden geïdentificeerd op autoradiografie. De cellen van deze kolonie (van de moederplaat) kunnen worden geïsoleerd en gekweekt.

Vele malen worden meerdere kolonies gedetecteerd bij hybridisatie door een DNA-probe. Dit komt door overlappende sequenties. Om te identificeren welke kolonie de volledige sequentie van het doelgen heeft, zullen gegevens die zijn waargenomen uit de restrictie-endonuclease-analyse nuttig zijn.

Wijzigingen van koloniehybridisatietechniek:

In de afgelopen jaren zijn verschillende verbeteringen aangebracht in de koloniehybridisatietechniek, zoals hierboven beschreven. Bij de plaque-lifttechniek wordt nitrocellulosepapier direct op het bovenoppervlak van de master-agarplaat aangebracht en maakt het direct contact. Op deze manier kunnen plaques worden opgetild en kunnen meerdere identieke DNA-afdrukken van één plaat worden gemaakt. Deze techniek verhoogt de betrouwbaarheid. Meer recentelijk wordt het screenen van DNA-bibliotheken uitgevoerd met geautomatiseerde technieken.

3. Screening door PCR:

Polymerasekettingreactie (PCR) is zo goed als hybridisatietechniek voor het screenen van DNA-bibliotheken. Maar er moet voldoende informatie (over de frankeersequenties van doel-DNA) beschikbaar zijn om primers voor deze methode te bereiden. De kolonies worden in meerwandige platen gehouden, elk putje wordt gescreend met PCR en de positieve putjes worden geïdentificeerd.

4. Screening door immunologische test:

Immunologische technieken kunnen worden gebruikt voor de detectie van een eiwit of een polypeptide, gesynthetiseerd door een gen (via transcriptie gevolgd door translatie). De toegepaste procedure voor immunologische test- en hybridisatietechniek (reeds beschreven) is redelijk vergelijkbaar. De screeningsprocedure door middel van een immunologische test wordt weergegeven in Fig. 9.8 en wordt hieronder kort beschreven.

De cellen worden gekweekt als kolonies op moederplaten die worden overgebracht naar een vaste matrix (d.w.z. nitrocellulose). De kolonies worden vervolgens onderworpen aan lysis en de vrijgekomen eiwitten worden aan de matrix gebonden. Deze eiwitten worden vervolgens behandeld met een primair antilichaam dat specifiek bindt aan het eiwit (werkt als een antigeen), dat wordt gecodeerd door het doel-DNA. Na het verwijderen van het ongebonden antilichaam door wassen, wordt een tweede antilichaam toegevoegd dat specifiek aan het eerste antilichaam bindt.

Opnieuw worden de ongebonden antilichamen verwijderd door te wassen. Het tweede antilichaam draagt ​​een enzymlabel (bijvoorbeeld paardenrood peroxidase of alkalische fosfatase) dat eraan is gebonden. Het detectieproces is zo ontworpen dat als een kleurloos substraat wordt ingewerkt door dit enzym, een gekleurd product wordt gevormd. De kolonies die een positief resultaat geven (d.w.z. gekleurde vlekken) worden geïdentificeerd. De cellen van een specifieke kolonie kunnen worden gesubkweekt vanaf de moederplaat.

5. Screening op eiwitfunctie:

Als het doelwit-DNA van de genenbibliotheek in staat is een eiwit (in het bijzonder een enzym) te synthetiseren dat normaal niet door de gastheercel wordt geproduceerd, kan de eiwitactiviteit worden gebruikt voor screening. Er wordt een specifiek substraat gebruikt en het gebruik ervan door een kolonie cellen wijst op de aanwezigheid van een enzym dat op het substraat inwerkt. Met deze techniek kunnen bijvoorbeeld de genen die coderen voor de enzymen a-amylase en β-glucosidase worden geïdentificeerd.


Inhoud

Weesgenen werden voor het eerst ontdekt toen het gistgenoom-sequencing-project in 1996 begon. [2] Weesgenen waren goed voor naar schatting 26% van het gistgenoom, maar men geloofde dat deze genen konden worden geclassificeerd met homologen wanneer meer genomen werden gesequenced. [3] In die tijd werd genduplicatie beschouwd als het enige serieuze model van genevolutie [2] [4] [10] en er waren maar weinig genoomsequenties ter vergelijking, dus een gebrek aan detecteerbare homologen werd hoogstwaarschijnlijk veroorzaakt door een gebrek aan sequentiegegevens en niet vanwege een echt gebrek aan homologie. [3] Weesgenen bleven echter bestaan ​​naarmate de hoeveelheid gesequenced genomen groeide, [3] [11] wat uiteindelijk leidde tot de conclusie dat weesgenen alomtegenwoordig zijn voor alle genomen. [2] Schattingen van het percentage genen dat wees is, varieert enorm tussen soorten en tussen studies is 10-30% een vaak genoemd cijfer. [3]

De studie van weesgenen ontstond grotendeels na de eeuwwisseling. In 2003, een studie van Caenorhabditis briggsae en verwante soorten vergeleken meer dan 2000 genen. [3] Ze stelden voor dat deze genen te snel moeten evolueren om te worden gedetecteerd en dat ze bijgevolg plaatsen zijn van zeer snelle evolutie. [3] In 2005 onderzocht Wilson 122 bacteriesoorten om te proberen te onderzoeken of het grote aantal weesgenen in veel soorten legitiem was. [11] Uit de studie bleek dat het legitiem was en een rol speelde bij bacteriële aanpassing. De definitie van taxonomisch beperkte genen werd in de literatuur geïntroduceerd om weesgenen minder 'mysterieus' te laten lijken. [11]

In 2008 bleek een gisteiwit met gevestigde functionaliteit, BSC4, de novo te zijn geëvolueerd uit niet-coderende sequenties waarvan de homologie nog steeds detecteerbaar was in zustersoorten. [12]

In 2009 werd een weesgen ontdekt dat een intern biologisch netwerk reguleert: het weesgen, QQS, van Arabidopsis thaliana wijzigt de plantensamenstelling. [13] Het QQS-weeseiwit interageert met een geconserveerde transcriptiefactor, deze gegevens verklaren de veranderingen in de samenstelling (verhoogd eiwit) die worden geïnduceerd wanneer QQS wordt gemanipuleerd in diverse soorten. [14] In 2011 werd een uitgebreide genoombrede studie uitgevoerd naar de omvang en evolutionaire oorsprong van weesgenen in planten in de modelplant Arabidopsis thaliana " [15]

Genen kunnen voorlopig als wees worden geclassificeerd als er geen orthologe eiwitten kunnen worden gevonden in nabijgelegen soorten. [7]

Een methode die wordt gebruikt om de nucleotide- of eiwitsequentie-overeenkomst te schatten die indicatief is voor homologie (d.w.z. overeenkomst vanwege een gemeenschappelijke oorsprong) is de Basic Local Alignment Search Tool (BLAST). Met BLAST kunnen querysequenties snel worden doorzocht in grote sequentiedatabases. [16] [17] Simulaties suggereren dat BLAST onder bepaalde omstandigheden geschikt is om verre verwanten van een gen op te sporen. [18] Genen die kort zijn en snel evolueren, kunnen echter gemakkelijk over het hoofd worden gezien door BLAST. [19]

De systematische detectie van homologie om weesgenen te annoteren wordt fylostratigrafie genoemd. [20] Fylostratigrafie genereert een fylogenetische boom waarin de homologie wordt berekend tussen alle genen van een focale soort en de genen van andere soorten. De vroegste gemeenschappelijke voorouder van een gen bepaalt de leeftijd, of phylostratum, van het gen. De term "wees" wordt soms alleen gebruikt voor het jongste phylostratum dat slechts een enkele soort bevat, maar wanneer het breed wordt geïnterpreteerd als een taxonomisch beperkt gen, kan het verwijzen naar alles behalve het oudste phylostratum, waarbij het gen verweesd is binnen een grotere clade.

Weesgenen komen voort uit meerdere bronnen, voornamelijk door de novo originatie, duplicatie en snelle divergentie, en horizontale genoverdracht. [2]

De Novo Origination Edit

Nieuwe weesgenen ontstaan ​​continu de novo uit niet-coderende sequenties. [21] Deze nieuwe genen kunnen voldoende gunstig zijn om door selectie naar fixatie te worden geveegd. Of, waarschijnlijker, zullen ze weer verdwijnen naar de niet-genetische achtergrond. Deze laatste optie wordt ondersteund door onderzoek in Drosophila waaruit blijkt dat jonge genen meer kans hebben om uit te sterven. [22]

Van de novo-genen werd ooit gedacht dat het bijna onmogelijk was vanwege de complexe en potentieel fragiele complexiteit van het creëren en onderhouden van functionele polypeptiden, [10] maar onderzoek van de afgelopen 10 jaar heeft meerdere voorbeelden van de novo-genen gevonden, waarvan sommige worden geassocieerd met belangrijke biologische processen, met name de functie van de testikels bij dieren. De novo genen werden ook gevonden in schimmels en planten. [12] [23] [24] [5] [25] [26] [27] [28]

Voor jonge weesgenen is het soms mogelijk om homologe niet-coderende DNA-sequenties te vinden in zustertaxa, wat algemeen wordt aanvaard als sterk bewijs van de novo-oorsprong. De bijdrage van de novo originatie aan taxonomisch beperkte genen van oudere oorsprong, met name in relatie tot de traditionele genduplicatietheorie van genevolutie, blijft echter omstreden. [29] [30]

Duplicatie en divergentie bewerken

Het duplicatie- en divergentiemodel voor weesgenen houdt in dat een nieuw gen wordt gecreëerd uit een duplicatie- of divergentiegebeurtenis en een periode van snelle evolutie ondergaat waarin alle detecteerbare gelijkenis met het oorspronkelijk gedupliceerde gen verloren gaat. [2] Hoewel deze verklaring consistent is met de huidige inzichten over duplicatiemechanismen, [2] is het aantal mutaties dat nodig is om detecteerbare gelijkenis te verliezen groot genoeg om een ​​zeldzame gebeurtenis te zijn, [2] [18] en het evolutionaire mechanisme waarmee een genduplicaat zou kunnen worden gesekwestreerd en zo snel divergeren, blijft onduidelijk. [2] [31]

Horizontale genoverdracht bewerken

Een andere verklaring voor hoe weesgenen ontstaan, is via een duplicatiemechanisme dat horizontale genoverdracht wordt genoemd, waarbij het oorspronkelijke gedupliceerde gen afkomstig is van een afzonderlijke, onbekende afstamming. [2] Deze verklaring voor de oorsprong van weesgenen is vooral relevant in bacteriën en archaea, waar horizontale genoverdracht gebruikelijk is.

Wezengenen zijn meestal erg kort (

6 keer korter dan volwassen genen), en sommige zijn zwak tot expressie gebracht, weefselspecifiek en eenvoudiger in codongebruik en aminozuursamenstelling. [32] Weesgenen hebben de neiging om meer intrinsiek ongeordende eiwitten te coderen, [33] [34] [35] hoewel er enige structuur is gevonden in een van de best gekarakteriseerde weesgenen. [36] Van de tienduizenden enzymen van het primaire of gespecialiseerde metabolisme die tot nu toe zijn gekarakteriseerd, zijn er geen wees, of zelfs van beperkte afkomst, blijkbaar vereist katalyse honderden miljoenen jaren van evolutie. [32]

Hoewel de prevalentie van weesgenen is vastgesteld, wordt nog steeds gedebatteerd over de evolutionaire rol van wezen, en het daaruit voortvloeiende belang. Een theorie is dat veel wezen geen evolutionaire rol hebben. genomen bevatten niet-functionele open leesframes (ORF's) die valse polypeptideproducten creëren die niet door selectie worden behouden, wat betekent dat het onwaarschijnlijk is dat ze tussen soorten worden bewaard en waarschijnlijk als weesgenen worden gedetecteerd. [3] Verschillende andere onderzoeken hebben echter aangetoond dat ten minste enkele weeskinderen functioneel belangrijk zijn en de opkomst van nieuwe fenotypes kunnen helpen verklaren. [2] [3] [11] [13] [14] [15]


Een gen in een cel introduceren

Een gen, dat waarschijnlijk is geïsoleerd in de vorm van een cDNA, kan met behulp van een vector in een cel worden ingebracht. Een vector is een drager waarmee vreemd DNA van de ene cel naar de andere wordt overgebracht.

Enkele voorbeelden van vectoren omvatten gemodificeerde virussen en plasmiden.

Virussen als vectoren

Virussen zijn uitstekende vectoren, omdat ze door lange perioden van evolutie het vermogen hebben gekregen om vernietiging door het menselijke immuunsysteem te voorkomen, en het vermogen hebben om hun eigen genetisch materiaal in specifieke cellen te krijgen. Zoals we hebben onderzocht in de paragraaf waarin virussen worden beschreven, bestaat een virale infectie uit vreemd (viraal) genetisch materiaal dat de cel binnenkomt en de nucleïnezuur- en eiwitmakende machinerie van de cel gebruikt om zijn eigen DNA, RNA en eiwitten te produceren. Om een ​​virus als vector te gebruiken, worden de schadelijke delen van zijn DNA vervangen door het gewenste cDNA dat in de cel moet worden ingebracht. Vervolgens laten we het virus onze gastheercel infecteren en als alles goed gaat, komt het cDNA de cel binnen en wordt het gebruikt om het gewenste eiwit te maken.

Sommige virussen kunnen hun eigen DNA produceren en dit opnemen in het genoom van de gastheercel. Deze op RNA gebaseerde retrovirussen zijn de meest voorkomende virale vectoren die worden gebruikt in gentherapie, waarbij genen met therapeutische waarde worden ingevoegd in de retrovirussen die deze bij infectie in het genoom van de ontvangende cel opnemen.

Opgemerkt moet worden dat virussen die als vectoren moeten worden gebruikt, "replicatiedefectief" zijn. Met andere woorden, de schadelijke delen van het virale genoom die dienen om meer virale deeltjes te produceren, zijn verwijderd en vervangen door een sequentie die codeert voor het betreffende eiwit.

Plasmiden als vectoren

De manier waarop het humane insuline-cDNA in bacteriële cellen wordt ingebracht, is door het gebruik van een plasmide. Een plasmide is gewoon een lus van DNA die genen bevat die gemakkelijk in en uit bacteriële cellen kunnen diffunderen. Hoewel plasmiden van nature in bepaalde bacteriën voorkomen, zijn de plasmiden die worden gebruikt om een ​​vreemd gen in een cel in te brengen en tot expressie te brengen zodanig veranderd dat de sequenties die ze bevatten sterk verschillen van de natuurlijk voorkomende plasmiden waarop ze zijn gebaseerd .

Om te beginnen bevat het plasmide verschillende gespecialiseerde korte sequenties genaamd restrictie sites. Enzymen genaamd restrictie endonucleasen herken deze plaatsen en knip het plasmide-DNA. Bijvoorbeeld, een restrictie-enzym genaamd EcoR1 herkent de sequentie GAATTC en snijdt tussen de G en de eerste A. Merk op dat de complementaire sequentie CTTAAG is, wat GAATTC omgekeerd is! Dus het enzym knipt beide strengen van het plasmide als volgt:

Merk op dat snijden met behulp van EcoR1 genereert twee "plakkerige uiteinden" die enkelstrengs strengen van nucleotiden zijn die zullen binden aan een complementaire reeks enkelstrengs "kleverige uiteinden". Het belangrijkste is dat het plasmide zo is ontworpen dat deze specifieke restrictiesequentie slechts één keer aanwezig is, wat betekent dat EcoR1 zal het dubbelstrengs plasmide op slechts één locatie knippen.

Het cDNA (dat het gen voor humane insuline bevat) dat in het plasmide moet worden ingevoegd, wordt gewijzigd afhankelijk van het restrictie-enzym dat werd gebruikt om het plasmide te knippen. In overeenstemming met ons Eco R1-voorbeeld zouden de volgende "kleverige uiteinden" nodig zijn aan elk uiteinde van het cDNA:

Nu incuberen we de gewijzigde cDNA-sequentie in een oplossing met een plasmide dat is geknipt met behulp van de EcoR1 enzym en met een enzym dat DNA-stukken aan elkaar vastmaakt (genaamd DNA-ligase). Dit resulteert in een gesloten circulair plasmide dat het cDNA en dus het humane insulinegen bevat.

Het plasmide wordt vervolgens geïncubeerd met bacteriële cellen (in het geval van het insulineproces zijn de gebruikte bacteriën een soort genaamd E coli) onder specifieke omstandigheden die de absorptie van het plasmide door de bacteriële cel bevorderen.

In theorie zal het plasmide dat het gen voor humane insuline bevat alle bacteriële cellen binnendringen en al deze cellen zullen het eiwit transcriberen en humane insuline produceren, die vervolgens kan worden geoogst en gebruikt om diabetespatiënten te behandelen.

Helaas zullen niet alle bacteriecellen het plasmide daadwerkelijk absorberen. In de meeste gevallen zullen relatief weinig van hen het zelfs absorberen. Hoe kunnen biotechnologen alleen die bacteriecellen selecteren die het plasmide hebben opgenomen?

Het antwoord ligt in de bacteriecultuuromstandigheden en in een andere speciale modificatie die is ingebouwd in genetisch gemanipuleerde plasmiden. De bacteriën worden, nadat ze zijn geïncubeerd in aanwezigheid van het plasmide (en sommigen hebben het geabsorbeerd), gekweekt in een medium dat een antibioticum bevat, zoals ampicilline. Ampicilline zal doden E coli bacteriën, tenzij ze op de een of andere manier worden beschermd. Het plasmide dat de bacteriën hebben opgenomen, bevat ook een gen dat resistentie verleent tegen ampicilline. Daarom zullen alleen die bacteriën die het plasmide hebben geabsorbeerd resistent zijn tegen het antibioticum en zullen overleven. Omdat het plasmide ook het gen voor humane insuline bevat, hebben we alleen die bacteriën toegestaan ​​die insuline kunnen produceren om te overleven en zich te vermenigvuldigen.


Homeotisch gen

Onze redacteuren zullen beoordelen wat je hebt ingediend en bepalen of het artikel moet worden herzien.

Homeotisch gen, elk van een groep genen die het patroon van lichaamsvorming tijdens de vroege embryonale ontwikkeling van organismen regelen. Deze genen coderen voor eiwitten die transcriptiefactoren worden genoemd en die cellen aansturen om verschillende delen van het lichaam te vormen. Een homeotisch eiwit kan het ene gen activeren, maar het andere onderdrukken, waardoor effecten ontstaan ​​die complementair en noodzakelijk zijn voor de geordende ontwikkeling van een organisme.

Homeotische genen bevatten een DNA-sequentie die bekend staat als een homeobox, die codeert voor een segment van 60 aminozuren binnen het homeotische transcriptiefactor-eiwit. Als er een mutatie optreedt in de homeobox van een van de homeotische genen, zal een organisme zich niet correct ontwikkelen. Bijvoorbeeld bij fruitvliegjes ( Drosophila), resulteert mutatie van een bepaald homeotisch gen in veranderde transcriptie, wat leidt tot de groei van benen op het hoofd in plaats van antenne. Dit staat bekend als de antennepedia-mutatie.

De rol van homeotische genen in de embryonale ontwikkeling werd opgehelderd door de Amerikaanse genetici Edward B. Lewis en Eric F. Wieschaus en de Duitse geneticus Christiane Nüsslein-Volhard. Deze onderzoekers voerden hun experimenten uit in Drosophila en deelden in 1995 de Nobelprijs voor Fysiologie of Geneeskunde voor hun ontdekkingen. Homeotische genen homoloog aan die van Drosophila werden later gevonden in een breed scala van organismen, waaronder schimmels, planten en gewervelde dieren. Bij gewervelde dieren worden deze genen gewoonlijk aangeduid als: HOX genen. Mensen bezitten ongeveer 39 HOX genen, die zijn onderverdeeld in vier verschillende clusters, A, B, C en D, die zich op verschillende chromosomen bevinden.

Dit artikel is voor het laatst herzien en bijgewerkt door Kara Rogers, Senior Editor.


De eerste stap in genexpressie is de transcriptie van DNA in RNA. Een molecuul enkelstrengs DNA dat complementair is aan een boodschapper-RNA-molecuul (mRNA) zal eraan binden door middel van Watson-Crick-basenparing. Als het DNA radioactief is, zal het de cellen identificeren die die boodschap maken.

Dit autoradiogram (met dank aan Philip Ingham) toont regio's in het Drosophila-embryo die zijn gelabeld door radioactief DNA dat complementair is aan de sequentie van het mRNA voor het homeobox-gen fushi-tarazu (ftz). Het onthult 7 banden die het blastoderm omringen. Deze vertegenwoordigen regio's die worden afgewisseld met de 7 banden gevormd door de even overgeslagen (vooravond) gen (onderste afbeelding).


Genexpressie en transcriptoomanalyse

Met transcriptoomanalyse-experimenten kunnen onderzoekers transcriptionele activiteit (coderend en niet-coderend) karakteriseren, zich concentreren op een subset van relevante doelgenen en transcripten, of duizenden genen tegelijk profileren om een ​​globaal beeld van de celfunctie te creëren. Genexpressieanalyse-onderzoeken kunnen een momentopname bieden van actief tot expressie gebrachte genen en transcripten onder verschillende omstandigheden.

Next-generation sequencing (NGS)-mogelijkheden hebben de reikwijdte van transcriptomics verschoven van de ondervraging van een paar genen tegelijk naar de profilering van genoombrede genexpressieniveaus in een enkel experiment. Ontdek hoe op NGS gebaseerde RNA-sequencing (RNA-Seq) zich verhoudt tot andere veelgebruikte methoden voor genexpressie en transcriptprofilering, genexpressie-microarrays en qRT-PCR. Leer hoe u genexpressie kunt analyseren en nieuwe transcripten kunt identificeren met behulp van RNA-Seq.

Voordelen van genexpressieprofilering met RNA-Seq

Ontdek de voordelen van NGS voor analyse van genexpressie, genregulatie en methylering.


Een praktische kijk op fine-mapping en genprioritering in het post-genoombrede associatietijdperk

In de afgelopen 15 jaar hebben genoombrede associatiestudies (GWAS's) de systematische identificatie mogelijk gemaakt van genetische loci die verband houden met eigenschappen en ziekten. Vanwege problemen met de resolutie en methodologische beperkingen, blijven de echte causale varianten en genen die verband houden met eigenschappen echter moeilijk te identificeren. In dit post-GWAS-tijdperk zijn veel biologische en computationele fine-mapping-benaderingen nu gericht op het oplossen van deze problemen. Hier bespreken we benaderingen voor fine-mapping en genprioritering die, indien gecombineerd, het begrip van de onderliggende mechanismen van complexe eigenschappen en ziekten zullen verbeteren. Het nauwkeurig in kaart brengen van genetische varianten is steeds geavanceerder geworden: aanvankelijk overlapten varianten eenvoudig met functionele elementen, maar nu kan de impact van varianten op regulerende activiteit en directe variant-gen 3D-interacties worden geïdentificeerd. Bovendien hebben genmanipulatie door CRISPR/Cas9, de identificatie van loci van kwantitatieve kenmerken van expressie en het gebruik van co-expressienetwerken ons begrip van de genen en routes die door GWAS-loci worden beïnvloed, vergroot. Ondanks deze vooruitgang vormen beperkingen, waaronder het ontbreken van celtype- en ziektespecifieke gegevens en de steeds toenemende complexiteit van polygene modellen van eigenschappen, echter serieuze uitdagingen. De combinatie van fine-mapping en genprioritering door statistische, functionele en populatiegebaseerde strategieën zal inderdaad nodig zijn om echt te begrijpen hoe GWAS-loci bijdragen aan complexe eigenschappen en ziekten.

1. Inleiding

De meeste, zo niet alle, fenotypische eigenschappen en ziekten hebben een genetische component die hun ontwikkeling, vatbaarheid of kenmerken beïnvloedt. Welke genetische regio's (loci) zijn gekoppeld aan fenotypische eigenschappen, is grotendeels bepaald door genoombrede associatiestudies (GWAS's) (figuur 1een). GWAS's vergelijken en associëren miljoenen relatief veel voorkomende genetische varianten, meestal single-nucleotide polymorphisms (SNP's), tussen een basispopulatie (gezonde) en een populatie met een kenmerk van belang zoals type 1 diabetes [1], coeliakie [2] of lengte [3]. De eigenschap-geassocieerde genetische loci verkregen door GWAS's worden gemarkeerd door specifieke varianten die marker- of topvarianten worden genoemd. Elke marker-variant duidt een haplotype aan dat veel nabijgelegen varianten bevat die zich in een hoog koppelingsonevenwicht (LD) bevinden, wat aangeeft dat ze het meest waarschijnlijk samen worden overgeërfd [4] (figuur 1B). Sinds 2002 zijn er meer dan 4000 GWAS's gepubliceerd [5], wat bijna 150.000 associaties van markervarianten heeft opgeleverd voor honderden eigenschappen [6]. Ondanks de grote aanvankelijke belofte van de methode, hebben GWAS's echter geen onmiddellijk inzicht gegeven in de onderliggende biologische mechanismen van elk kenmerk vanwege twee belangrijke complicerende factoren.

Figuur 1. Overzicht van de huidige post-GWAS-workflow. (een) Eerst moet de juiste context worden geïdentificeerd voor de eigenschap die wordt bestudeerd. (B) Vervolgens kunnen causale varianten nauwkeurig in kaart worden gebracht om de fundamentele mechanismen van transcriptie beter te begrijpen. Hier is de causale variant (ster) niet het sterkste GWAS-signaal, maar eerder een variant in sterke LD met het topeffect in een actief versterkergebied. (C) Om inzicht te krijgen in de biologische processen die tot het fenotype leiden, kunnen genen worden geprioriteerd en causale netwerken geconstrueerd. GWAS-varianten komen over het algemeen veel voor in de populatie en hebben kleinere effectgroottes (blauw). De genen die ze beïnvloeden, hebben dus waarschijnlijk ook een klein effect op het fenotype (perifere genen). De genen waarop veel perifere genen samenkomen (kerngenen) hebben over het algemeen sterkere effecten (rood) op het fenotype. Als zodanig is de kans groter dat de varianten die de kerngenen beïnvloeden, varianten van de ziekte van Mendel zijn.

Ten eerste kunnen GWAS's het markervariante signaal niet onderscheiden van dat van de andere varianten met een hoge LD. Meer dan 95% van de varianten in hoge LD (R 2 > 0.8) bevinden zich buiten genen in het niet-coderende DNA [7] en kunnen tot 500 kb van elkaar verwijderd zijn [8]. Bijgevolg zou elk van hen de werkelijke causale variant kunnen zijn (figuur 1B).

Ten tweede kunnen de effecten van niet-coderende causale varianten zeer celtype-, context- en ziektespecifiek zijn [9]. Niet-coderend DNA bevat regulerende regio's - versterkers en promotors - die transcriptiefactor (TF) eiwitten kunnen binden en genexpressie kunnen reguleren [10]. Welke versterkers en promotors worden gebruikt, hangt af van de celtype-specifieke abundantie van ongeveer 1600 menselijke TF's en hun epigenetisch gereguleerde toegankelijkheid tot een bepaald regulerend gebied [11]. Varianten kunnen de binding van elk van deze TF's verstoren, wat resulteert in veranderde versterker- of promotoractiviteit. Dit beïnvloedt op zijn beurt genexpressie [12] en cellulaire routes [13]. Het celtype en de weefsel- of ziektespecifieke micro-omgeving hebben dus een grote invloed op welke varianten, TF's, genen en routes een rol spelen (figuur 1). Deze complexiteit maakt het moeilijk om te begrijpen hoe GWAS-loci bijdragen aan hun bijbehorende eigenschappen en hebben de interpretatie en toepassing van GWAS-resultaten aanzienlijk belemmerd. Om dit aan te pakken, zijn er in het post-GWAS-tijdperk veel verschillende benaderingen voor fine-mapping ontwikkeld met als doel de belangrijke varianten en genen te identificeren en hun biologische impact op ziekten en eigenschappen te interpreteren [14-17].

Belangrijk om op te merken is dat om de complexiteit van de fine-mapping te verminderen, de meeste benaderingen ervan uitgaan dat slechts één enkele variant per locus bijdraagt ​​aan een eigenschap. Dit is echter geen goede weerspiegeling van de werkelijkheid, aangezien meerdere varianten binnen een enkele GWAS-locus een effect kunnen hebben op de expressie van een enkel gen. This can occur in one of two ways: either the effect of the variants adds up in a linear way (additive effect) or an interaction between two or more variants is required to affect gene expression (epistatic effect) [18,19]. Thus, multiple variants may play a role in a single locus, either within a single cell-type or in a context- and cell-type-specific manner [18]. This further complicates performing and interpreting fine-mapping and gene prioritization approaches. For simplicity, throughout this review, we continue to address variants that affect gene regulation and pathways in association with a GWAS trait in any way as causal, even though a collective of smaller contributing effects acting in unison per locus may be necessary to elicit a functional effect on a GWAS trait.

Here, we assess fine-mapping and gene prioritization approaches that have been used to translate GWAS loci to a functional understanding of the associated trait, while taking cell-type- and disease-specific context into account. Specifically, we review the genetics of lower effect size common variants identified through GWASs rather than high effect-size Mendelian disease variants (figure 1C). Moreover, we discuss the impact of the recent paradigm shift towards polygenic models and how these can be used to aid in the identification of gene networks that highlight core disease genes (figure 1C).

2. Fine-mapping from the variant perspective

Fine-mapping variants in GWAS loci require an understanding of the underlying mechanism by which a variant can contribute to a trait. Overcoming LD and identifying the context-specific variants that are causal to a trait is imperative for understanding disease mechanisms and confidently identifying which downstream genes and pathways are affected. Many functional and computational (high-throughput) fine-mapping methods have been developed and applied for this purpose. Below we review several fine-mapping methods according to their increasing ability to describe the complex role of variants in GWAS traits and diseases.

2.1. Identifying overlap with functional elements

The most straightforward fine-mapping approach is to overlap GWAS variants in high LD with functional elements such as promoters and enhancers (figure 2een). Currently, the best resource for functional elements has been compiled by the NIH Roadmap Epigenomics Mapping Consortium [20] (electronic supplementary material, table S1), which used ChIP-seq (electronic supplementary material, table S2) to measure histone marks to determine the location of functional elements in 127 different cell and tissue types [20,21]. Fine-mapping of GWAS variants from 21 autoimmune diseases using the NIH Roadmap and similar data estimated that approximately 60% of candidate causal variants map to immune cell enhancers, and another approximately 8% to promoters [12]. This was also reflected in the tissue-specific enrichment of type 1 diabetes susceptibility variants in lymphoid gene enhancers [22]. Moreover, candidate causal variants were enriched in enhancers defined by the histone mark H3K27ac in specific subsets of CD4+ T cells, CD8+ T cells and B cells [12]. This was also the case in another study in monocytes, neutrophils and CD4+ T cells [23]. Other studies have also identified tissue-specific enrichments of disease-associated variants via overlap with functional elements, showing that this approach can help specify which variants play a role in certain cell types [23,24].

Figure 2. An illustrative depiction of a GWAS locus showing example mechanisms by which variant effects on enhancer activity and gene expression can be detected. (een) Many trait-associated variants are shown with varying LD strength (scatterplot) when compared with the GWAS-identified marker variant (in black). In this example, the causal variant is located in an allele-dependent active enhancer (C-allele, caQTL) as shown by the open chromatin regions of the same locus (peak-density plot below the variant). The variant affects the TF binding site of the green TF with a strong binding preference for the C-allele, as shown by the enhancer activity in the ‘transcription factor binding affinity’ box. In addition, using 3D interactions (grey arches connecting the gene, promoter and enhancer), physical contact with the nearby ‘Gene X’ indicates the enhancer affects the gene's expression. (B) To highlight cell-type-specific effects, the influence of the causal variant is depicted in three cell types with varying TF availability. The mRNA expression of ‘gene X’ is stronger for the CC-genotype compared with the GG-genotype because of the increased TF binding affinity to the green TF (as shown in een). This mRNA expression remains low but stable for the GG-genotype in all three cell types regardless of the TF availability but decreases for the CC-genotype in cell types with reduced TF availability, which reduces cooperative TF binding.

Other ways of detecting regulatory regions that can be used to fine-map GWAS variants are either based on DNA accessibility, such as ATAC-seq [25] and DNase-seq [26] (electronic supplementary material, table S2), or identify the inherent transcriptional activity of enhancers and promoters [27,28], such as GRO-seq [29], PRO-seq [30] and CAGE [31] (electronic supplementary material, table S2). Collective public databases using these techniques—like the NIH Roadmap consortium [20], ENCODE [32], FANTOM5 [33] and the IHEC consortium [34]—are indispensable context-specific resources (electronic supplementary material, table S1). However, it appears to be more difficult than originally anticipated to specify the exact location of regulatory regions since all these methods show different sensitivities and accuracies in the mapping of active regulatory regions [35]. Moreover, overlap of a variant with an active regulatory region may not result in functional disruption of these elements, and thus does not definitively point to causality. This uncertainty limits the accuracy of fine-mapping through overlap with functional elements and still leaves us with a multitude of candidate causal variants.

2.2. Inferring allele-specific variant effects

In high-throughput methods such as ATAC-seq, the sequencing reads containing a variant can be separated based on its allele. The allele-specific abundance of sequencing reads can then directly inform us about the functionality of this variant on the open chromatin region. Variants that cause allelic imbalance in regulatory regions are called chromatin accessibility quantitative trait loci (caQTLs figure 2een) [25,36]. Many caQTLs were identified in primary CD4+ T-cell ATAC-seq peaks, and these showed a strong enrichment in candidate causal autoimmune variants [36]. Similarly, the existence of variants or histone-QTLs that affect regulatory regions by altering enhancer-associated H3K27ac or H3K4me1 histone peaks also implies that these variants have an effect on cell-type-specific enhancer activity [23]. Due to their functional effect on DNA accessibility and epigenetic marks, these variants are more likely to be causal variants for GWAS traits.

Another mechanism by which non-coding GWAS variants can have an allelic effect on gene expression is alternative splicing of genes. GWAS-associated variants have the potential to induce cell-type-specific alternative splicing (sQTL) or could affect trans-acting splicing regulation genes [37,38]. This was shown in a genome-wide approach where 622 exons with intronic sQTLs were identified. One hundred and ten of these exons harboured variants in LD with GWAS marker variants [37]. In a more specific example, the multiple sclerosis-associated PRKCA gene is seemingly affected by an intronic sQTL that increases the expression of a gene isoform more prone to nonsense-mediated decay, thereby reducing the likely protective PRKCA mRNA levels post-transcriptionally [39]. However, sQTLs appear to also act through more complex mechanisms such as indirectly through caQTLs [40], or by inducing alternative upstream transcription start sites [41]. These and many other examples [38] suggest that sQTLs may be an important but complex mechanism by which GWAS-associated variants affect a trait.

2.3. Identifying variants that disrupt underlying TF binding sites

Further prioritization of variants in regulatory regions that show allelic imbalances can be done by computational or functional analysis of the underlying TF binding sites (TFBS) or motifs. Regulatory regions consist of both very strict and more degenerate DNA motifs [42] to which TFs can bind in order to initiate local transcription (e.g. enhancer RNAs) and regulate nearby or distant genes [10,27]. Variants can change the TFBS, altering the binding affinity of the TF and changing the activity of a regulatory region (figure 2een) [18,43,44]. The specificity and location of potential TFBSs have been collected for many cell types in large databases such as JASPAR [45], FANTOM5 [33] and ENCODE [32] (electronic supplementary material, table S1), mostly using ChIP-seq and HT-SELEX [46] (electronic supplementary material, table S2).

An enrichment of TFBS disruption by putatively causal variants has been identified for 44 families of TFs [18]. For TFs like AP-1 and the ETS TF-family, regulatory regions containing these disrupted TFBSs also show effects on chromatin accessibility, indicating that the effect of variants on TF binding affinity leads to caQTLs [18]. Similarly, upon identification of nearly 9000 DNase-seq locations affected by allelic imbalances, it was found that the alleles associated with more accessible chromatin were also highly associated with increased TF binding [43]. In a more specific case, TFBS disruption analyses and in vitro confirmation by ChIP-seq led to the identification of rs17293632 as a likely causal SNP that increases Crohn's disease risk by disrupting an AP-1 TFBS [12]. Interestingly, this effect on AP-1 TFBSs was stimulation-specific: H3K27ac peaks with affected AP-1 TFBSs were enriched in stimulated CD4+ T cells compared with non-stimulated cells [12]. This highlights the importance of context-specificity and the need for tissue- and disease-relevant stimulations in experimental set-ups (figure 2B) [12,47]. Finally, in a study of leukaemia patients, a small DNA insertion resulting in a TFBS for MYB created an enhancer near TAL1, which led to activation of this oncogene and the onset of leukaemia [48]. Thus, decreased or increased affinity of TFs due to genetic variants or small DNA changes can have far-reaching effects.

Currently, only 10–20% of the potentially causal non-coding GWAS variants defined by allelic imbalances within a regulatory region can be shown to disrupt a known TFBS [12]. Therefore, the actual causal variants may potentially act through a different mechanism, or our understanding of TF binding may still be insufficient [49]. One complicating factor here is the potential cooperative binding of more than one TF at an overlapping TFBS. Detection of these cooperative binding motifs is currently being improved by both biological methods (such as SELEX-seq [50]) and computational methods, such as No Read Left Behind (NRLB) [44]) (electronic supplementary material, table S3). A striking example of context-specific cooperative binding of TFs is illustrated by an increased TFBS enrichment of p300, RBPJ and NF-kB in risk loci of GWAS traits as a consequence of the presence of Epstein–Barr virus (EBV) EBNA2 protein [51]. In this study, ChIP-seq data from EBV-transformed B-cell lines were used, together with the RELI algorithm (electronic supplementary material, table S3), to systematically estimate the enrichment of variants in TFBS [51]. In six out of the seven autoimmune disorders tested, RELI identified that 130 out of 1953 candidate causal variants [12] overlapped with EBNA2 binding sites in B-cell lines identified by ChIP-seq [51]. Interestingly, many autoimmune diseases, including coeliac disease and multiple sclerosis [52,53], are thought to be partially triggered by viral infections, suggesting that variants may only be causal when viral factors are also present. Moreover, TF motifs can be highly degenerate, and a small change in TF binding affinity can induce a subtle dosage effect on the activity of a regulatory region [44]. While this effect may be subtle, downstream genes could be affected sufficiently [44] to induce or affect a trait. Thus, a better understanding of how TF binding affinity to DNA motifs is mediated is necessary to comprehend how variants affect the functionality of a regulatory region.

2.4. Fine-mapping by detection of regulatory region activity

A more immediate fine-mapping approach is to directly measure the effect a variant can have on the strength of a regulatory region. Active promoters and enhancers have transcription start sites (TSSs), and the activity of an enhancer or promoter is directly correlated with the active transcription from these TSSs [27]. However, some promoter RNAs, and most enhancer RNAs, are very short-lived, making them difficult to detect with most RNA sequencing methods [10,27]. CAGE (electronic supplementary material, table S2) does allow for the identification of exact TSS locations, as well as expression levels of genes, by sequencing 5′-capped transcripts regardless of their stability [30]. CAGE has identified promoter and enhancer effects, and showed that 52% of the effects observed in promoter regions were in secondary CAGE peaks, highlighting that genes can have multiple active promoters depending on the genotype [54]. CAGE QTLs have been observed for loci associated with systemic lupus erythematous (SLE) and inflammatory bowel disorder [54], supporting their relevance in immune disease.

Reporter-plasmid assays can also be applied to directly measure the effects of variants on enhancer or promoter TSS activity by moving variant-containing DNA fragments from their natural environment to a plasmid and transfecting these into a cell type of interest. The most traditional reporter-plasmid assay, the luciferase assay (electronic supplementary material, table S2), was used to confirm a functional effect of rs1421085, which is associated with obesity risk, by showing that the risk-allele induces an increase in enhancer activity [55]. However, high-throughput reporter assay methods with high resolution are required to fine-map all potentially causal variants within entire GWAS loci based on regulatory region activity.

One such method, the massively parallel reporter assay (MPRA electronic supplementary material, table S2), can test over 30 000 candidate variants by synthetically creating 180 bp DNA fragments containing both alleles of a variant with a unique barcode and integrating these into GFP-reporter plasmids that are subsequently transfected into different cell lines [56]. An MPRA was used to identify the expression of 12% (3432) of the 30 000 candidate DNA fragments in three cell lines, with 842 showing allelic imbalances caused by SNPs. Indeed, 53 of these SNPs had previously been associated with GWAS traits [56]. Similar high-throughput fine-mapping methods that use patient-derived DNA instead of synthetically generated DNA sequences are STARR-seq [57] and SuRE [58] (electronic supplementary material, table S2). Using a whole-genome approach, the SuRE method managed to screen 5.9 million SNPs in the K562 red blood cell line, identifying over 30 000 SNPs that affect regulatory regions and allowing for in-depth fine-mapping of SNPs for 36 blood-cell-related GWAS traits [59]. Follow-up research on these reporter assays has identified a causal SNP (rs9283753) in ankylosing spondylitis [56] and another (rs4572196) in potentially up to 11 red blood cell traits [59]. Despite the obvious advantages of high-throughput fine-mapping screens, a major drawback is that these methods are usually applied in cancer or EBV-transformed cell lines. These cell lines can be significantly different from trait-specific tissue-derived cell types [60] and have often accumulated many somatic mutations as a consequence of years of culturing [61]. Thus, the wrong variants may be identified as causal because the relevant cell-type and context-specific effects have not been considered [62].

2.5. From causal variant to gene using the 3D interactome

When a causal variant has been identified, the gene expression effects of that variant can be directly assessed by mapping the necessary physical interaction of the regulatory region it affects with its target genes (figure 2een) [63,64]. For example, H3K27ac regions containing autoimmune-disease-prioritized variants were linked to the TSS of genes using HiChIP (electronic supplementary material, table S2) and shown to contain cell-type-specific interactions between the TSS of the IL2 gene and rs7664452 in Th17 cells and between rs2300604 and target gene BATF in memory T cells [63]. Interestingly, for 684 autoimmune-disease-associated variants assessed with HiChIP, 2597 gene–variant interactions were identified, indicating that autoimmune disease variants can regulate a multitude of genes. Moreover, only 14% (367) of these gene–variant interactions were with the gene closest to the variant [63]. Another example of a long-range interaction of a causal variant is that of the previously mentioned rs1421085, which is associated with obesity risk and located in an intron of FTO. TFBS disruption analyses have shown that rs1421085 disrupts the ARID5B TF binding motif and affects the activity of an enhancer that regulates IRX3 en IRX5, genes located 1.2 Mb upstream, instead of the initially expected co-localized FTO gene itself [55,65]. Thus, fine-mapping and interaction analysis has identified additional causal genes in this obesity-associated risk locus.

Hi-C (electronic supplementary material, table S2) is another high-throughput method for identifying specific promoter and enhancer gene interactions [19,66–68]. For example, Hi-C was used to prioritize four rheumatoid arthritis genes by overlapping promoter–gene interactions of various primary immune cells with rheumatoid arthritis GWAS variants [19]. Another study analysed Hi-C datasets of 14 primary human tissues and showed that frequently interacting regions (FIREs) are enriched for disease-associated GWAS variants [68]. However, the resolution limitations of Hi-C and other interaction data make it difficult to precisely pin-point the causal variant within a regulatory region [63,64,68]. In addition, cell-type and environmental effects influence regulatory region interactions with genes, as shown by the fact that 38.8% of FIREs were identified in only one tissue or cell type [68]. Thus, multiple strategies as described here and collected in databases such as the EnhancerAtlas2.0 [69] (electronic supplementary material, table S1) should be combined to confidently fine-map causal variants and link them to genes that play a role in GWAS traits.

3. Gene prioritization using GWAS traits

Traditional fine-mapping approaches focus on identifying the causal variants that affect a trait of interest. While very important, knowing which variants are causal does not identify the downstream effects of the variant on the trait. One way to gain such insights is by identifying the genes that are affected by each GWAS locus. Moreover, if the causal genes affected by a locus are known, this can reduce the credible set of potentially causal variants. Recent efforts in systems biology have focused on identifying such causal genes and their downstream effects.

3.1. Gene prioritization using expression quantitative trait loci

A more comprehensive approach to identifying the genes affected by a GWAS locus is through the use of quantitative trait loci (QTL figure 3een). While caQTLs are often indicative of a causal variant or regulatory region, a specific subset of QTLs called expression QTLs (eQTL) can be used to identify the genes affected by a GWAS locus [70–72]. The simplest way to perform gene prioritization using eQTL analysis is simply to overlap the marker variant of a GWAS locus with the top eQTL variant. An example of this is an SLE risk variant that is also a cis-eQTL for the TF IKF1. The eQTL on IKF1 affected the transcription of 10 genes in trans that are all regulated by IKF1 [70], highlighting this gene as a likely candidate causal gene for SLE. Additionally, these types of effects can be context-specific, as was shown for a cis-eQTL on TLR1 after stimulation of peripheral blood mononuclear cells (PBMCs) with Escherichia coli [73]. Dit cis-eQTL was also a strong trans regulator of the E coli-induced response network, regulating another 105 genes [73], showing that an eQTL can strongly influence the immune response to pathogens.

Figure 3. Aspects of fine-mapping genes from GWAS loci. (een) Using eQTLs (dark blue) and CRISPRi/a-based assays, GWAS loci can be linked to genes when using the correct context. (B) Not every relationship between genetics and expression can be described additively. Epistatic effects (dark red) describe a relationship where two (or more) mutations are needed to arrive at the phenotype. (C) Using co-expression, regulatory relationships between genes can be quantified, but the specific role of genetics in these relationships is unknown. (NS) Using PGSs, the joint effects of GWAS loci can be assessed, sacrificing resolution to obtain higher-level insights into the pathways affected by the genetics associated with a phenotype. (e) When assessed at single-cell resolution, the total network can be deconstructed into the cell-type relevant components. Affected cells can subsequently display an altered interaction with other cells within a tissue or individual, leading to a changed tissue- or individual-wide outcome for a phenotype.

However, the top eQTL variant might not always be the same as, or in LD with, the top GWAS marker variant due to noise in the eQTL data [74] or to multiple causal effects on a gene or disease in a locus [75]. As a result, many statistical frameworks have been created to give more accurate estimates of overlap or causality between a GWAS locus and a QTL locus, including FUMA [76], COLOC [77] and Mendelian randomization (MR electronic supplementary material, table S3). The latter is commonly used to estimate causality between GWAS and QTL profiles [78–84] and has been successfully applied to identify genes causally linked with complex traits [3,79–81]. For example, MR studies were able to identify a causal role for SORT1 on cholesterol levels [79,81], a role which has been experimentally validated [85]. Still, MR can be challenging as multiple variants in LD can affect the same gene (linkage), and several genes can be affected by the same causal variants (pleiotropy) [70,73,86]. More recent work on MR has focused on more accurately controlling for pleiotropy and linkage [79,81,82,84]. Independent variant selection for MR is currently done by either LD-based clumping or some form of stepwise regression using tools like GCTA's COJO [75] (electronic supplementary material, table S3), which only select for independence and not causality. Accurate fine-mapping can potentially help these efforts by improving the independent variant selection for MR since fine-mapping can reveal the true causal variants independent of linkage.

Recently, it has been suggested that approximately 70% of the heritability in mRNA expression is due to trans-eQTLs [87,88], which highlights the importance of trans-eQTL relationships. Terwijl trans-eQTLs have the potential to further our understanding of complex traits, the multiple testing burden is very large due to the large number of comparisons that have to be made when doing genome-wide trans-eQTL mapping (in the worst case, millions of variants times approx. 60 000 genes) [70,72]. Therefore, many eQTL studies opt to only map cis-eQTL effects genome-wide, as this dramatically reduces the number of comparisons that have to be made [70–72,74]. Another approach is to limit the number of comparisons by only mapping trans effects for a predefined subset of variants or genes [70,72,73,86]. However, since a full trans-eQTL mapping dataset is rarely available, overlap between trans-acting genes and GWAS loci will be missed.

An additional challenge with QTL-based gene prioritization approaches lies in the context-specificity of the QTL data used, as different tissues, cell types, time points and stimulation conditions can induce many different expression patterns and different interactions with the variants in a GWAS locus [23,73,89–92]. Consequently, the QTL information that is available might not be informative for the trait under study. This is especially challenging when studying traits that are present in a tissue other than blood, as is the case for neurological disorders [93,94], because sufficiently powerful cell-type- or context-specific QTL studies are usually not available. However, with the advent of single-cell RNA sequencing (scRNAseq) and the increasing availability of large-scale datasets for tissues other than blood, some of these challenges are being overcome [70,72,90,91]. scRNAseq (electronic supplementary material, table S2) allows for high-throughput eQTL analysis in individual cell types instead of a bulk population, as shown for PBMCs [90]. This allows for an increase in resolution and can help to assess only the trait-relevant cell types [91], as shown for eQTLs on TSPAN13 en ZNF414, which were only present in CD4+ T cells and not in bulk or other specifically assessed cell types [90]. Consortia that are amassing single-cell data at a large scale in many different tissues—like the Human Cell Atlas [95], Single-cell eQTLgen [96] and the LifeTime consortium [97] (electronic supplementary material, table S1)—will facilitate the use of single-cell sequencing data for traits where bulk RNA-seq obtained from blood is not informative.

3.2. Identifying downstream effects of GWAS loci using other QTLs

Beyond gene-expression-based eQTL, a plethora of other QTL types exist that affect the abundance of proteins (pQTL) [98,99], metabolites (mQTL) [100], DNA methylation (meQTL) [101], microbiota (miQTL) [102] and cells (cell-count or ccQTL) [103,104]. Naturally, these can all be overlapped with GWAS loci to obtain insights into their pathology. Bijvoorbeeld de ex vivo cytokine response to stimulation has been shown to have strong genetic regulators [99]. Interestingly, all the associated effects found were trans (i.e. not in proximity to the cytokine genes), suggesting that the release of cytokines is controlled by genes in the receptor's pathways rather than being directly controlled by the mRNA levels of the cytokine. Moreover, context-specificity is important, as QTLs affecting cytokines from T cells were found to be enriched in autoimmune GWAS loci, whereas QTLs affecting cytokines from monocytes were more enriched in infectious-disease-associated loci [99]. Thus, the effects of genetics on traits should not only be studied at the level of gene expression, but also at levels more directly related to a phenotype.

3.3. Functional approaches to mapping genetic effects on expression

While eQTL analysis provides invaluable insights into the genes that affect a trait or disease, context- and cell-type-specific biases in the expression data and LD structure in GWAS loci cause potential errors in gene prioritization. With the recent introduction of CRISPR/Cas9-based screens [105] (electronic supplementary material, table S2), it is now possible to functionally validate eQTL effects in a high-throughput manner independent of LD structure and in a cell-type relevant to the trait of interest.

CRISPR-based assays use guide RNAs to bind specific regions of the genome and either activate (CRISPRa) or interfere (CRISPRi) with the transcription of genes or enhancers [106]. Recent advances in both scRNAseq and CRISPRi/a have facilitated methodologies that evaluate enhancer effects on genes in single cells [107]. For example, a recent effort evaluated the effects of 5920 candidate enhancers on gene expression using CRISPRi [107]. Strikingly, 664 showed a significant effect on gene expression in K562 cells. Thus, CRISPRi-based assays are capable of identifying enhancer–gene pairs in a high-throughput manner. However, as only approximately 10% of candidate enhancers were actually found to affect gene expression, identifying which enhancers are active based on already available data might not always be straightforward, even for a very well-characterized cell line such as K562 [20,32,34,58,59].

In addition to mapping active enhancer gene pairs, CRISPRi/a-based assays can be used to identify epistatic interactions between genes and to generate gene networks based on changes in co-expression in perturbed versus non-perturbed cells (figure 3B). Genes that are strongly co-expressed are likely to be regulated by a shared mechanism [86]. Therefore, identifying such genes can help reveal the gene network that leads to a disease-associated trait [94,108,109]. Indeed, a CRISPRi screen that targeted 12 TFs, chromatin modifying factors and non-coding RNAs was able to identify epistatic effects in cells perturbed by two guide RNAs [110]. In these cells, chromatin accessibility remained relatively stable in loci associated with autoimmune disease in cells with one perturbed TF. However, significant changes were observed when evaluating the chromatin accessibility for the same loci in cells also perturbed for NFKB1. This again highlights the importance of taking the entire context of a trait into account when fine-mapping or interpreting the role of a GWAS locus.

A major drawback of the majority of CRISPRi/a screens is that they are very laborious and therefore usually performed in easily manipulated, but also highly modified, cancer cell lines [61]. Fortunately, recent studies have shown that CRISPRi screens can be applied to primary T cells [111,112]. This, while challenging, needs to be extended to other tissues and model systems. These studies will greatly assist variant, regulatory region and gene fine-mapping efforts because they directly identify the active enhancer–gene pairs and the downstream gene network affected in specific cell types. In addition, future work could focus on performing CRISPRi/a screens in patient-derived cells that contain relevant risk genotypes to fully reach variant-level resolution.

3.4. Mapping gene–gene regulatory interactions using population data

Co-expression can also be modelled based on inter-individual variation in expression, which can be used to prioritize disease genes and make inferences about the downstream consequences of diseases (figure 3C) [94,108,109,113]. For example, DEPICT (electronic supplementary material, table S3) integrates gene co-regulation with GWAS data to provide likely causal genes and pathways relevant for the trait [113]. Moreover, the GADO tool (electronic supplementary material, table S3) correctly identified causal genes in 41% of a cohort of 83 patients with varying Mendelian disorders, and prioritized several novel causal candidate genes by combining trait-specific gene sets with a co-expression network [109]. Finally, eMAGMA (electronic supplementary material, table S3) used co-expression together with tissue-specific eQTLs in brain regions to prioritize 99 candidate causal genes for major depressive disorder [94]. These co-expression modules were enriched in brain regions but not in whole-blood, highlighting the tissue-specific nature of the co-expression networks [94].

Population-based co-expression networks describe the relationships between genes through both genetics and environment. Consequently, based on the co-expression alone, it is not possible to separate which part of the co-expression is due to genetics. Therefore, these networks have limited use for fine-mapping causal variants and are mainly used to identify genes and pathways affected by GWAS loci after gene prioritizations have been made. In addition, co-expression networks are not directed [108]. Genetic information of the individuals used to generate the co-expression network would solve this issue, as the genetic and environmental components could be separated and directionality could be added into the network [108], although this is not a trivial task. Fine-mapping would be of great value in modelling the genetic component of the network by facilitating the selection of true causal variants.

3.5. Fine-mapping under the omnigenic model

As discussed throughout this review, it is becoming increasingly clear that complex traits are highly polygenic and that many variants can deregulate cis- en trans-acting factors in a variety of ways (figure 2een). In the light of this, Boyle et al. [87] proposed an omnigenic model for complex traits in which each gene that is expressed in the cell will have an effect on the trait or disease in some way (figure 1C) [87,88]. For example, height is so polygenic that most 100 kb genomic windows seem to contribute to explaining its variance. Given that the effect sizes of the individual variant are getting so small, it raises the question: what does the causality of the individual variant mean in a complex trait [87,88,114]? If the omnigenic model is true, it presents a major challenge for fine-mapping GWAS loci, particularly for the interpretation of the downstream consequences as the complexity of genetic effects on traits will only increase. In addition, current functional assays may not be suited to model the small and subtle variant effects and gene–gene or gene–environment interactions observed in population studies using millions of individuals.

Instead, the complete GWAS signal from all loci associated with a trait can be used to estimate a polygenic score (PGS) that describes an individual's genetic predisposition for the given trait. In its most basic form, a PGS constitutes the linear combination of all independent risk genotypes weighted by the GWAS effect size, but many more sophisticated methods exist (figure 3NS) [115–117]. The PGS for a trait can be associated with the expression level of genes (and proteins) in a population [72,118]. If there are strong correlations, GWAS loci together, as represented by the PGS, are jointly influencing these genes. These genes probably represent core genes in a disease-associated co-expression network. Although PGSs have issues when it comes to broad applicability across populations [119], they can be a useful abstraction layer to make sense of a polygenic trait.

Given we are becoming aware of the likely polygenic and even omnigenic nature of traits, fine-mapping the individual GWAS locus seems like an impossible task. However, with current approaches the stronger, and arguably more important, genetic effects associated with traits and diseases can be elucidated [70,72,73]. Moreover, by using abstraction layers such as PGS, inferences can be made about the joint consequences of these effects [72]. Indeed, the genes and pathways associated with stronger or joint genetic effects are more likely candidates for drug interventions [120] (electronic supplementary material, table S1). Although we might never fully comprehend all the tiny effects and interactions underlying a trait, we will probably see an increase in clever ways to arrive at the interpretable biological mechanisms behind traits.

4. Future perspectives

We have reviewed recent high-throughput GWAS fine-mapping approaches that can identify variants and genes causal for a trait or disease. The complexity and uncertainty present in aspects of these approaches illustrates that a single approach does not suffice to grasp the full cause and effect of candidate variants and genes. In addition, while large datasets, mostly in blood, have identified many potentially causal variants and genes associated with traits, these candidates need to be refined and validated using tissue- and cell-type-specific resources in combination with trait-specific environmental factors to recapitulate the true biological state of each trait as closely as possible. An additional challenge lies in translating these disease genes into clinical practice, as prioritized genes might not be existing, nor practical, drug targets.

Ondanks deze uitdagingen zijn we van mening dat het combineren van het gebruik van van de patiënt afgeleid materiaal, met methoden die regulerende regio's en hun stroomafwaartse genen vinden, de identificatie van geneesmiddeldoelen voor complexe ziekten zal helpen. Bovendien kan deze kennis worden gebruikt om voorspellingsmodellen te genereren die helpen bij de snelle en niet-invasieve identificatie van eigenschapspecifieke varianten en genen in de algemene populatie. Dit zal de basis vormen voor ons begrip van complexe eigenschappen, de ontwikkeling van geneesmiddelen helpen en in de nabije toekomst precisiegeneeskunde op maat mogelijk maken.


Bekijk de video: Paano mag luto ng Kilawin. Pork kilawin with Sayote. Kilawing baboy atay with Sayote (December 2021).