Informatie

17.1: Motiefweergave en informatie-inhoud - Biologie


In plaats van een profielmatrix kunnen we Motieven ook weergeven met behulp van informatietheorie. We kunnen de specifieke hoeveelheid informatie in een bepaald bericht berekenen met de vergelijking: − log p.

Shannon Entropy is een maatstaf voor de verwachte hoeveelheid informatie in een bericht. Met andere woorden, het is de informatie in een bericht van elke gebeurtenis die mogelijk zou kunnen plaatsvinden, gewogen door de waarschijnlijkheid van elke gebeurtenis. De Shannon-entropie wordt gegeven door de vergelijking:

[ H(X)=-sum_{i} p_{i} log _{2} p_{i} geennummer ]

Entropie is maximaal wanneer alle gebeurtenissen een gelijke kans hebben om zich voor te doen. Dit komt omdat Entropy ons de verwachte hoeveelheid informatie vertelt die we zullen leren. Als elk zelfs maar dezelfde kans heeft om te voorkomen, weten we zo weinig mogelijk over de gebeurtenis, dus de verwachte hoeveelheid informatie die we zullen leren is gemaximaliseerd. Een coinflip heeft bijvoorbeeld alleen maximale entropie als de munt eerlijk is. Als de munt niet eerlijk is, weten we meer over de gebeurtenis van de coinflip en zal de verwachte boodschap van de uitkomst van de coinflip minder informatie bevatten.

We kunnen een motief modelleren door hoeveel informatie we van elke positie hebben na het toepassen van Gibs Sampling of EM. In de volgende afbeelding vertegenwoordigt de hoogte van elke letter het aantal stukjes informatie dat we over die basis hebben geleerd. Hogere stapels komen overeen met meer zekerheid over wat de basis is op die positie van het motief, terwijl lagere stapels overeenkomen met een hogere mate van onzekerheid. Met vier codons om uit te kiezen, is de Shannon-entropie van elke positie 2 bits. Een andere manier om naar deze figuur te kijken is dat de hoogte van een letter evenredig is met de frequentie van de basis op die positie.

Er is een afstandsmetriek voor kansverdelingen die bekend staat als de Kullback-Leibler-afstand. Dit stelt ons in staat om de divergentie van de motiefverdeling te vergelijken met een echte verdeling. De K-L afstand wordt gegeven door

[ D_{KL}left(P_{ ext {motief}} mid P_{ ext {background}} ight)=Sigma_{A, T, G, C} P_{ ext {motief}} (i) log underset{P ext {achtergrond}(i)}{P_{ ext {motief}}(i)} geennummer ]

In Plasmodium is er een lager G-C-gehalte. Als we uitgaan van een G-C-gehalte van 20%, dan krijgen we de volgende voorstelling voor het bovenstaande motief. C- en G-basen zijn veel ongebruikelijker, dus hun prevalentie is hoogst ongebruikelijk. Merk op dat we in deze weergave de K-L-afstand hebben gebruikt, zodat het mogelijk is dat de stapel hoger is dan 2.

Bibliografie

  1. [1] Timothy L. Bailey. Een mengselmodel passen door verwachtingsmaximalisatie om motieven in biopolymeren te ontdekken. In Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology, pagina's 28-36. AAAI-pers, 1994.
  2. [2] C E Lawrence en A A Reilly. Een verwachtingsmaximalisatie (em) algoritme voor de identificatie en karakterisering van gemeenschappelijke locaties in niet-uitgelijnde biopolymeersequenties. Eiwitten, 7(1):41-51, 1990.

Retrozymen zijn een unieke familie van niet-autonome retrotransposons met hamerkopriboenzymen die zich in planten voortplanten via circulaire RNA's

Katalytische RNA's, of ribozymen, worden beschouwd als fossielen van een prebiotische RNA-wereld die in het genoom van moderne organismen zijn achtergebleven. De eenvoudigste ribozymen zijn de kleine zelfsplitsende RNA's, zoals het hamerkopribozym, die historisch werden beschouwd als biologische eigenaardigheden die beperkt waren tot sommige RNA-pathogenen. Recente gegevens geven echter aan dat kleine zelfsplitsende ribozymen wijdverbreid zijn in genomen, hoewel hun functies nog onbekend zijn.

Resultaten

We onthullen dat hamerkopribozymsequenties in plantengenomen deel uitmaken van een nieuwe familie van kleine niet-autonome retrotransposons met hamerkopriboenzymen, verwezen naar Als retrozymen. Deze elementen bevatten twee lange terminale herhalingen van ongeveer 350 bp, elk met een hamerkopribozym dat een variabel gebied van 600-1000 bp begrenst zonder codeercapaciteit. Retrozymen worden actief getranscribeerd, wat leidt tot heterogene lineaire en circulaire RNA's die zich differentieel ophopen, afhankelijk van het weefsel- of ontwikkelingsstadium van de plant. Genomische en transcriptomische retrozymsequenties zijn zeer heterogeen en delen bijna geen sequentiehomologie tussen soorten, behalve het hamerkopribozymmotief en twee kleine geconserveerde domeinen die typisch zijn voor Ty3-zigeuner retrotransposons met lange terminale herhaling. Bovendien hebben we de aanwezigheid van RNA's van beide retrozympolariteiten gedetecteerd, wat wijst op gebeurtenissen van onafhankelijke RNA-RNA-rolling-circle-replicatie en -evolutie, vergelijkbaar met die van infectieuze circulaire RNA's zoals viroïden en virale satelliet-RNA's.

Conclusies

Ons werk onthult dat circulaire RNA's met hamerkopribozymen vaak voorkomende moleculen zijn in plant- en, hoogstwaarschijnlijk, metazoantranscriptomen, wat de alomtegenwoordigheid van deze genomische ribozymen verklaart en een mogelijke bron suggereert voor de opkomst van circulaire RNA-plantpathogenen.


Toegangsopties

Krijg volledige toegang tot tijdschriften voor 1 jaar

Alle prijzen zijn NET prijzen.
De btw wordt later bij het afrekenen toegevoegd.
De belastingberekening wordt definitief tijdens het afrekenen.

Krijg beperkte of volledige toegang tot artikelen op ReadCube.

Alle prijzen zijn NET prijzen.


Resultaten en discussie

Kinaseremmers met verschillende bindingsmodi

Type I-, I½- en II-kinaseremmers werden geëxtraheerd uit röntgenstructuren van kinase-remmercomplexen in de KLIFS-database [6, 7], een gespecialiseerde opslagplaats voor kinasestructuren en bijbehorende activiteitsgegevens, zoals beschreven in de sectie "Methoden" . De samenstelling van de gegevensset van de kinaseremmer wordt vermeld in Tabel 1.

Studie ontwerp

We hebben geprobeerd om verschillende moleculaire en interactierepresentaties voor machine learning te vergelijken met behulp van verschillende modelleringsstrategieën. Voor dit doel werden kinaseremmers met verschillende bindingsmodi geclassificeerd. Dit onderzoek was geïnspireerd op eerdere bevindingen dat dergelijke remmers met hoge nauwkeurigheid konden worden voorspeld op basis van de chemische structuur met behulp van standaard machine learning-benaderingen zoals random forest (RF) [18]. Deze waarnemingen en de beschikbaarheid van grote aantallen kinaseremmers met experimenteel bepaalde bindingsmodi vormden een solide basis voor een vergelijkend onderzoek, inclusief actieve leerstrategieën om de informatie-inhoud van structurele en interactierepresentaties op relatieve schaal te beoordelen.

Eerst werden conventionele RF-modellen afgeleid met behulp van 90% van de beschikbare remmers en toegepast om de testset te classificeren die de resterende 10% van de remmers bevat. Bovendien werd een actieve leerstrategie geïmplementeerd, die iteratief informatieve trainingsinstanties selecteert om trainingsgegevens tot een vereist minimum te beperken. Daarom onthult actief leren, indien succesvol, informatie die essentieel is voor voorspellende modellering. Actief leren maakte gebruik van een RF-model met meerdere klassen, beginnend met een overeenkomstige gegevenssplitsing voor iteratieve steekproefselectie en voorspelling van klassenlabels, zoals geïllustreerd in Fig. 1. Trainingsinstanties werden geselecteerd op basis van informatie-entropie uit de samengestelde pool, die aanvankelijk overeenkwam met 90% van de dataset. Het met geselecteerde instanties getrainde model werd vervolgens gebruikt om de testset te voorspellen (10%). Meer details en berekeningsprotocollen vindt u in de sectie Methoden.

Actieve leerstrategie. Trainingsinstanties worden willekeurig geselecteerd (eerste iteratie) of op basis van een entropiecriterium (volgende iteraties) na het voorspellen van poolverbindingen. Voor prestatie-evaluatie wordt vervolgens het multi-class RF-model gebruikt om de externe testset te voorspellen

Willekeurige bosvoorspellingen

Voorspellingen van de bindingsmodus werden geprobeerd met fundamenteel verschillende representaties, waaronder IFP's en op moleculaire grafieken gebaseerde vingerafdrukken (zie het gedeelte 'Methoden' voor details). IFP's omvatten een 85-bits versie die rekening houdt met de aanwezigheid of afwezigheid van ligand-interacties met 85 residuposities die het bindingsplaatsgebied in kinasen vormen (IFP_85), en een verder uitgebreide 595-bits versie die onderscheid maakt tussen zeven verschillende soorten interacties voor remmers en elk residupositie (85 × 7 IFP_595). De 85 residuen vertegenwoordigen het volledige actieve plaatsgebied in kinasen gedefinieerd op basis van vele röntgenstructuren [6, 7]. Anderen hebben eerder kleinere subsets van deze residuen gebruikt die gericht waren op de ATP-plaats, waarvan werd voorspeld dat ze belangrijk zouden zijn voor het verlenen van kinaseselectiviteit [20, 21]. In onze analyse werd echter de uitgebreide weergave van het bindingsplaatsgebied gebruikt omdat verschillende remmerbindingsmodi werden voorspeld. Als een weergave van chemische structuren werden de gevouwen (1024-bits) en ongevouwen (variabel formaat functieset) versie van de uitgebreide connectiviteitsvingerafdruk met bindingsdiameter 4 (ECFP4) gegenereerd voor elke remmer (respectievelijk ECFP4_folded en ECFP4_unfolded genoemd). ECFP4 is een topologische vingerafdruk die gelaagde atoomomgevingen codeert.

Voor classificatie werden RF-modellen met meerdere klassen afgeleid om onderscheid te maken tussen type I-, I½- en II-remmers. Figuur 2 rapporteert de Matthew's correlatiecoëfficiënt (MCC) en gebalanceerde nauwkeurigheid (BA) waarden voor RF-modellen die zijn getraind met zowel IFP's, ECFP4 en gecombineerde representaties over 20 onafhankelijke onderzoeken. Over het algemeen leverden RF-modellen op basis van ECFP4 nauwkeurige voorspellingen op, in overeenstemming met onze eerdere waarnemingen. Dit was het geval voor de gevouwen en ongevouwen ECFP4-versie, met mediane BA- en MCC-waarden hoger dan respectievelijk 0,70 en 0,65. De toepassing van IFP's verhoogde echter de nauwkeurigheid van de globale voorspelling. IFP_85 leverde mediane BA- en MCC-waarden op van respectievelijk 0,85 en 0,76. Bovendien produceerde IFP_595 met verder verfijnde interactie-informatie vergelijkbare BA maar verder verhoogde MCC-waarden, met een mediane MCC van 0,81. In vergelijking met IFP's bleven de modelprestaties in wezen constant wanneer IFP- en ECFP4-representaties werden gecombineerd (d.w.z. wanneer vingerafdrukken van verschillende ontwerpen werden aaneengeschakeld). Er werden slechts zeer kleine veranderingen waargenomen die niet significant waren. Vandaar dat IFP-bijdragen voornamelijk de voorspellingsnauwkeurigheid bepaalden en de kleine fluctuaties of reducties waren waarschijnlijk te wijten aan ECFP4-functieruis in gecombineerde representaties.

Voorspellende prestaties van willekeurige bosmodellen op testsets. MCC- en BA-waardeverdelingen worden gerapporteerd voor RF-modellen met verschillende weergaven

Als controle werden permutatietests uitgevoerd (zie de sectie Methoden) om te bevestigen dat RF-modellen inderdaad remmertype-specifieke patronen detecteerden. Figuur 3 toont de resultaten van permutatietests, d.w.z. de verdeling van MCC-waarden voor 1000 RF-modellen die zijn getraind op gegevens met gerandomiseerde (geschudde) klasselabels met verschillende representaties. De resultaten laten zien dat controlemodellen slechts zeer weinig voorspellend vermogen hadden. Geen van de controlemodellen benaderde de nauwkeurigheidsniveaus van modellen met niet-gepermuteerde labels, wat de significantie van de resultaten ondersteunde.

Permutatie testen. Voor voorspellingen op testsets worden MCC-waardeverdelingen getoond voor RF-modellen die zijn getraind met gerandomiseerde klasselabels met verschillende representaties. De verticale stippellijn geeft MCC = 0 aan en de ononderbroken gekleurde lijnen markeren de modelprestaties voor dezelfde individuele proef

Figuur 4 rapporteert de prestaties per klasse voor verschillende soorten kinaseremmer met RF-modellen met basisversies van vingerafdrukken. Type II-remmers werden het meest nauwkeurig voorspeld, vooral met behulp van interactie-informatie, met een mediane MCC van 0,95. Bovendien was de voorspellingsnauwkeurigheid hoger voor type I-remmers dan voor type I½-remmers, wat mediane MCC-waarden van 0,67 (IFP_85) en 0,63 (EFCP_folded) opleverde. Remmers met bindingsmodi die bindingskenmerken van type I- en II-remmers combineren, waren dus het meest uitdagend om te voorspellen, zoals je zou verwachten. De nauwkeuriger voorspellingen van type II-remmers in vergelijking met type I-remmers waren waarschijnlijk te wijten aan de aanwezigheid van unieke waterstofbindende groepen die aanwezig zijn in veel type II-remmers die hen onderscheiden van type I-remmers [22, 23]. Deze handtekeninggroepen of substructuren en hun interacties worden verklaard door respectievelijk atoomomgeving / fragmentvingerafdrukken en IFP's.

Prestaties per klas. MCC-waardeverdelingen worden afzonderlijk weergegeven voor testsetvoorspellingen van respectievelijk type I (blauw), I½ (oranje) en II (groen) kinaseremmers, met RF-modellen die respectievelijk IFP_85 en ECFP4_folded gebruiken

Ongecontroleerd leren voor visualisatie

De niet-gesuperviseerde machine learning-methode t-distributed stochastische buurinbedding (t-SNE) werd toegepast voor verdere vergelijking van representaties en datavisualisatie. Met behulp van deze niet-lineaire dimensiereductiebenadering werd een tweedimensionale (2D) inbedding geconstrueerd uit een multidimensionale kenmerkruimte op basis van Tanimoto-afstanden om lokale overeenkomsten te behouden (zie het gedeelte "Methoden"). Figuur 5 toont t-SNE-visualisaties voor IFP_85 en ECFP4_folded functieruimten die alle kinaseremmers bevatten. De 2D t-SNE-representaties onthullen een veel duidelijkere clustering van remmers per type voor IFP_85 dan ECFP4_folded, die IFP's verder prioriteit gaven voor modellering. De t-SNE-kaart voor IFP_85 scheidde bijvoorbeeld duidelijk de meerderheid van type II-remmers van die met andere bindingsmodi. Bovendien ontstond een afzonderlijk cluster van type I-remmers van een groep fosfatidylinositolkinasen (p110a, p110d, p110g, PIK3C3, PI4KA en PI4KB) en serine/threonine-eiwitkinase mTOR. Deze kinasen verschillen structureel van vele andere in het menselijke kinoom, wat ook wordt weerspiegeld door verschillende interacties met co-gekristalliseerde remmers die werden verklaard door IFP's. In beide kaarten waren type I½-remmers echter vaak co-gelokaliseerd met type I-remmers, wat ook illustreerde waarom type I½-remmers over het algemeen het moeilijkst te voorspellen waren.

Visualisatie van functieruimten. Scatterplots tonen 2D T-SNE-representaties van de IFP_85 (links) en ECFP4_folded (rechts) vingerafdrukruimten op basis van Tanimoto-afstanden. Remmers (stippen) hebben een kleurcode volgens bindingsmodi: type I (blauw), I½ (oranje) en II (groen)

Actief leren

Om de informatie-inhoud van structurele en interactierepresentaties verder te vergelijken, werd een actieve leerstrategie toegepast die multi-class RF-modellering en entropie-gebaseerde selectie van trainingsinstanties combineert. RF-modellen werden iteratief gebouwd met steeds meer trainingsinstanties voor de voorspelling van een externe testset en de resterende samengestelde pool. Terwijl testsetvoorspellingen de schatting van de modelprestaties mogelijk maken, bepalen voorspellingen van de samengestelde pool de keuze van instanties voor toevoeging aan de trainingsset. Aanvankelijk werden slechts drie verbindingen willekeurig geselecteerd uit de pool voor het trainen van het eerste RF-model (één van elk type remmer). Bij daaropvolgende iteraties werden 10 verbindingen uit de pool gekozen en toegevoegd om het model opnieuw te trainen. Verbindingen uit de pool met de hoogste onzekerheid in hun voorspellingen, gekwantificeerd als informatie-entropie, werden geselecteerd. Het concept van informatie-entropie kan worden toegepast op de voorspelde kansen van drie mogelijke toestanden: type I, I½ en II. Daarom kan entropie ook worden geïnterpreteerd als de verwachte hoeveelheid informatie die een instantie aan het model zou toevoegen. Het model werd iteratief verfijnd en getest om de nauwkeurigheid van de voorspelling te optimaliseren.

Er werden drie onafhankelijke onderzoeken uitgevoerd met tweevoudige externe kruisvalidatie van actief leren. Figuur 6 toont gemiddelde MCC-waarden bij toenemend aantal trainingsmonsters met verschillende representaties. Als controle werd op entropie gebaseerd actief leren vergeleken met willekeurige steekproefselectie uit de samengestelde pool. In Fig. 6a zijn MCC-waarden gerapporteerd voor de volledige samengestelde pool en trainingsset. Aangezien samengestelde instanties iteratief aan de trainingsset zijn toegevoegd, voorspelt het model bij elke interactie meer instanties uit de trainingsset en minder uit de samengestelde pool. Aan het einde van deze procedure werden RF-modellen gebouwd om de volledige trainingsset (d.w.z. 90% van de totale dataset) te voorspellen. Deze modellen vertoonden een bijna perfecte nauwkeurigheid. De resultaten voor voorspellingen van samengestelde pools met behulp van verschillende representaties worden getoond in Fig. 6a. Op entropie gebaseerde selectie leverde eerdere optimalisatie van MCC-prestaties op in vergelijking met willekeurige selectie. Afbeelding 6b geeft MCC-waarden weer voor het classificeren van de externe testset. Tijdens gebruik

500 trainingsinstanties, voorspellingsprestaties bereikten een plateau met MCC-waarden

0,8 en bleef constant voor een verder toenemend aantal trainingsmonsters, uiteindelijk inclusief alle poolcompounds (

1800). De nauwkeurigheid van de voorspelling was hoger voor IFP's dan voor ECFP4. Voor IFP's was er een beperkte vroege verbetering in MCC-prestaties voor op entropie gebaseerde over willekeurige selectie. Voor ECFP4 daarentegen bood de selectie van actieve leerentropie van trainingsinstanties een aanzienlijk voordeel. Alles bij elkaar genomen onthullen de resultaten in Fig. 6 dat IFP's informatierijke representaties zijn met een hoge redundantie. Een hoog niveau van interactie-redundantie vastgelegd door IFP's werd aangegeven door vroege verzadiging van voorspellingsprestaties met slechts een beperkt aantal trainingsinstanties, zelfs als deze willekeurig werden geselecteerd. Daarom leverden kleine trainingssets al voldoende IFP-informatie op om onderscheid te maken tussen verschillende soorten kinaseremmers. Verder werd hoge redundantie aangegeven door de observatie dat IFP_595 slechts een kleine verbetering in voorspellingsnauwkeurigheid opleverde in vergelijking met de basis IFP_85-versie zonder verdere gespecificeerde interacties. Zowel ECFP4_unfolded als ECFP4_folded hadden een lagere informatie-inhoud dan IFP's, maar een hogere dimensionaliteit. Voor voorspellingen van samengestelde pools met ECFP4 waren veel meer trainingsvoorbeelden nodig dan voor IFP's voor succesvolle modelbouw. Interessant is dat voor testsetvoorspellingen de selectie van trainingsinstanties op basis van entropie ook resulteerde in een vroege optimalisatie van de voorspellingsprestaties, zij het op een lager niveau dan IFP's. ECFP4-voorspellingen met op entropie gebaseerde selectie bereikten een plateau bij MCC-waarden

Actieve leerprestaties. De MCC-waarden voor een samengesteld zwembad en B testsetvoorspellingen worden gerapporteerd voor verschillende representaties met behulp van op entropie gebaseerde (links) en willekeurige (rechts) selectie van trainingssteekproeven. In B, gearceerde gebieden van elke curve geven standaarddeviaties van verschillende voorspellingsproeven aan

Afbeelding 7 bewaakt het verschil tussen MCC-waarden voor op entropie gebaseerde en willekeurige selectie en een toenemend aantal trainingsinstanties. Voor elke vingerafdruk wordt een prestatieverschilpiek waargenomen. Voor ECFP4_folded kwam het grootste verschil overeen met 0,28 MCC-eenheden en trad op voor

140 voorbeelden. Daarentegen was voor ECFP4_unfolded het grootste verschil 0,4 MCC-eenheden voor

120 trainingsvoorbeelden. Voor IFP's was het maximale MCC-verschil:

0.2 voor kleine aantallen trainingsinstanties, waaronder:

60 verbindingen (IFP_595). Deze bevindingen bevestigden dat selectie op basis van entropie informatieve trainingsinstanties opleverde, vooral voor vingerafdrukken van atoomomgevingen. Voor de informatierijke IFP's leidde zelfs willekeurige selectie tot vroege verhogingen van de voorspellende prestaties, wat resulteerde in een klein piekverschil tussen op entropie gebaseerde en willekeurige selectie voor een klein aantal trainingsinstanties.

Op entropie gebaseerde versus willekeurige selectie. Voor variërende trainingssetgroottes wordt het MCC-waardeverschil tussen op entropie gebaseerde en willekeurige selectie gerapporteerd voor testsetvoorspellingen met verschillende representaties. Gearceerde gebieden van elke curve geven standaarddeviaties aan van verschilberekeningen tussen overeenkomstige voorspellingen

Hoewel IFP's meer informatie vastleggen over verbindingsmodi van verbindingen dan vingerafdrukken van atoomomgevingen, levert het voorspellen van bindingsmodi voor kinaseremmer op basis van de chemische structuur ook algemene nauwkeurige voorspellingen op en blijft het aantrekkelijk voor praktische toepassingen. Dit is het geval omdat röntgenstructuren nodig zijn om IFP's te genereren voor het voorspellen van nieuwe verbindingsmodi voor verbindingen. Zodra echter een structuur met een nieuwe remmer is verkregen, kan de bindingsmodus direct worden bepaald, zonder dat interacties moeten worden vertaald naar een IFP voor machine learning. Daarentegen, als een op samengestelde structuur gebaseerd model eenmaal is getraind en gevalideerd, kan het gemakkelijk worden gebruikt om bindingsmodi van nieuwe remmers te voorspellen.

De resultaten in Fig. 8 geven aan dat in de orde van 500 experimenteel bepaalde structuren van remmerbindingsmodi nodig waren om de nauwkeurigheid van voorspellingen te maximaliseren met behulp van zowel de gevouwen als ongevouwen ECFP4-versies. Voor deze ECFP4-gebaseerde voorspellingen was entropie-gebaseerde instantieselectie essentieel voor effectief actief leren. De resultaten onthullen veelbelovende voorspellingen van bindingsmodi van testremmers op basis van entropie-geleide selectie van trainingsmonsters, met een nauwkeurigheid van bijna 80% voor

500 trainingscompounds. De voorspellingsprestaties bleven in wezen constant voor grote aantallen trainingsinstanties. Daarom is het aantal momenteel beschikbare kinaseremmers met experimenteel bepaalde bindingsmodi veruit groter dan (ongeveer 4-voudig) het aantal informatieve trainingsinstanties dat nodig is voor een algehele nauwkeurige voorspelling van meerdere klassen van remmerbindingsmodi op basis van de chemische structuur.

Actief leren op basis van chemische structuur. De prestaties van de testset MCC (paars) en BA (blauw) worden getoond voor een toenemend aantal trainingsinstanties, met entropiegebaseerde (ononderbroken lijn) en willekeurige (stippellijn) selectie van verbindingen uit de pool. Gearceerde gebieden van elke curve geven standaarddeviaties van verschillende voorspellingsproeven aan

Functie-analyse

Het belang van individuele IFP- en ECFP4-kenmerken voor de voorspelling van kinaseremmerbindingsmodi werd ook beoordeeld (zie de sectie Methoden). Voor elke actieve leerstap werd een RF-model met meerdere klassen gebouwd en de belangrijkheidswaarden voor de functie geschat. Figuur 9 toont de verandering in het belang van functies over verschillende actieve leeriteraties, d.w.z. verschillende aantallen trainingssets.

Functiebelanganalyse. Belang waarden voor een ECFP4 en B 85-bits IFP-functies worden gerapporteerd voor verschillende aantallen trainingssetsamples (d.w.z. actieve leeriteraties). In een en B, worden alleen kenmerken getoond met een mediaan belang van respectievelijk minimaal 20% en 10% van het maximum. De belangrijkheidswaarden hebben een kleurcode zoals aangegeven. In een, worden de vijf kenmerken met de grootste mediaanwaarden over alle iteraties weergegeven in de bijlage onderaan

De mediane belangrijkheidswaarde van elk kenmerk werd berekend over alle iteraties. In Fig. 9 worden kenmerken met een mediane belangrijkheidswaarde van ten minste 20% en 10% van het maximum getoond voor respectievelijk ECFP4 en IFP. Over het algemeen kregen zeer vergelijkbare functiesets consequent prioriteit bij het opnieuw trainen van de classificatiemodellen. Zoals aangegeven door de waargenomen modelprestaties, waren grote trainingssets niet vereist om de bindingsmodi van kinaseremmer nauwkeurig te voorspellen. Het RF-algoritme detecteerde echter al vroeg discriminerende kenmerkpatronen. Uit de analyse bleek dat de belangrijke kenmerken die met 90% van de gegevens werden gedetecteerd, sterk leken op de kenmerken die werden geprioriteerd bij kleinere trainingssets.

Waarden voor het belang van functies werden ook beoordeeld voor RF-modellen die zijn gebouwd met aaneengeschakelde vingerafdrukken, die zowel atoomomgevingen als IFP-functies omvatten. In dit geval waren de kenmerken die het meest relevant waren voor de voorspellingen dezelfde IFP-kenmerken als eerder waargenomen. Deze bevindingen onthulden dus dat de opname van ECFP4-functies in wezen geprioriteerde IFP-functies behield, wat zeer vergelijkbare resultaten opleverde.


Datasoftwarepakketten nodig bij het analyseren van kwalitatieve data?

Kwalitatieve datasoftwarepakketten zijn geen vereiste voor het uitvoeren van kwalitatieve analyses, maar er is een reeks programma's beschikbaar die: helpen de kwalitatieve onderzoeker. Softwareprogramma's variëren in ontwerp en toepassing, maar kunnen worden onderverdeeld in tekstretrievers, code- en ophaalpakketten en theoriebouwers.6 NVivo en NUD*IST worden veel gebruikt omdat ze geavanceerde code- en ophaalfuncties en modelleermogelijkheden hebben, die het proces van het beheren van grote datasets en het ophalen van gegevens. Herhalingen binnen gegevens kunnen worden gekwantificeerd en memo's en hyperlinks kunnen aan gegevens worden gekoppeld. Analytische processen kunnen in kaart worden gebracht en gevolgd en koppelingen tussen gegevens kunnen worden gevisualiseerd, wat leidt tot theorieontwikkeling.6 Nadelen van het gebruik van softwarepakketten met kwalitatieve gegevens zijn de complexiteit van de software en sommige programma's zijn niet compatibel met het standaard tekstformaat. Uitgebreide codering en categorisering kan ertoe leiden dat gegevens onhandelbaar worden en onderzoekers kunnen ontdekken dat het visualiseren van gegevens op het scherm de conceptualisering van de gegevens in de weg staat.


Moleculaire interactiekaarten

Een Molecular Interaction Map (MIM) is een diagramconventie die in staat is tot ondubbelzinnige weergave van netwerken die multi-eiwitcomplexen, eiwitmodificaties en enzymen bevatten die substraten zijn van andere enzymen. Deze grafische weergave maakt het mogelijk om alle vele interacties te zien waarbij een bepaald molecuul betrokken kan zijn, en het kan concurrerende interacties uitbeelden, die gebruikelijk zijn in bioregulerende netwerken. Om de koppeling met databases te vergemakkelijken, wordt elke moleculaire soort slechts één keer in een diagram weergegeven. Een formele beschrijving van de MIM-notatie is te vinden in Kohn et al., Molecular Biology of the cell 17, 1-13 2006. De bijgewerkte formele specificatie voor software-implementatie is te vinden in Luna et al., BMC Bioinformatics 2011, 12: 167.

Klik hier voor een beknopt overzicht van de MIM-symbolen.

Huidige diagram-editors die deze symbolen implementeren, zijn Pathvisio en MIMTool.

MIM-diagrammen: Interactieve elektronische moleculaire interactiekaarten (eMIM's) stellen de gebruiker in staat om door het moleculaire interactienetwerk te navigeren en te linken naar moleculaire databases, referenties en annotaties die relevante informatie bevatten.

Moleculaire soorten kunnen op de kaart worden gelokaliseerd door middel van geïndexeerde rastercoördinaten en op eMIM's via interactieve links. Elke interactie wordt verwezen naar een annotatielijst waar relevante informatie en referenties te vinden zijn.

MIM-software: Er zijn verschillende lopende softwareprojecten om het maken en bewerken van MIM-diagrammen en gerelateerde metadata te vereenvoudigen. Sommige van de geleverde softwarecomponenten stellen ontwikkelaars in staat om de ontwikkeling van MIM-ondersteuning te versnellen, interoperabele tools mogelijk te maken en een manier te bieden om de gegevens in MIM-diagrammen te ontginnen voor ander gebruik.

    - AKT-regulatie door fosforylerings-/defosforyleringsreacties. - cellulaire respons op DNA dubbelstrengs breuken (DSB). - cellulaire respons op DNA dubbelstrengs breuken (DSB). - heuristische MIM van signalering van EGF-receptoren. - chromatine-assemblage tijdens replicatie. - transcriptionele activatie als reactie op lage zuurstofniveaus. - regulerende reactie op DNA-schade. - netwerkmodel - celcyclusregulatie van de vroege stadia van DNA-synthese. - senescentieregulatie door celcycluscontrolepunten en de epitheliale-mesonchymale overgang. - verbinden van DNA-schade en stofwisseling.
  • diagrammen:
  • MIM-documentatie
      - Documentatie over het lezen en begrijpen van MIM-diagrammen. Opmerking: gebruikers van eMIM's verwijzen naar deze beschrijving. - Een XML-schema voor het machineleesbare formaat voor MIM-diagrammen ter ondersteuning van de visuele lay-out van MIM-diagrammen. Voorbeeld datasets.
    • - Een op Java gebaseerde API die MIMML-elementen aan Java-objecten bindt en JavaBeans-achtige methoden biedt, zoals "getFoo()" en "setFoo()", waardoor een mechanisme wordt geboden voor het ontleden, maken en manipuleren van MIMML-documenten. Aanvullende documentatie wordt hier verstrekt. - Pathvisio-plug-in die de mogelijkheid toevoegt om alle MIM-glyphs te tekenen en diagramelementen te annoteren met opmerkingen, literatuurverwijzingen en links naar externe database-uitvoer naar PDF, PNG, GPML en MIMML. Beschikbaar voor Windows, OS X en Linux met platformonafhankelijke Java. - MIM-tekenprogramma dat SBML-, MIMML- en PDF-bestanden uitvoert. Het beschikt over een nieuwe semi-automatische orthogonale tekenengine om buigingen en crossovers bij tekeninteracties te minimaliseren. Beschikbaar voor Windows en Linux. - Voor gebruik met PathVisio-MIM helpt deze plug-in bij het maken van routediagrammen door te zorgen voor correct gebruik van de MIM-notatie en daardoor de ambiguïteit te verminderen wanneer diagrammen worden gedeeld door biologen.

    Systeembiologie Grafische notatie:

    De MIM-notatie was de basis voor de ontwikkeling van de entiteit-relatiecomponent (SBGN-ER) van de Systems Biology Graphical Notations (SBGN). SBGN is een internationale inspanning om diagrammen te standaardiseren die biochemische en cellulaire processen weergeven die in de systeembiologie zijn bestudeerd, inclusief verschillende notaties die voor verschillende doeleinden zijn ontworpen.

    Een geanimeerde beschrijving van de stappen die leiden tot src-activering door EGFR is beschikbaar (pdf).

    Deze website is een ontwikkeling van de Genomics and Pharmacology Facility, Developmental Therapeutics Branch (DTB), Center for Cancer Research (CCR), National Cancer Institute (NCI).


    Invoering

    De stroom van genetische informatie wordt beschouwd als een van de vijf overkoepelende kernconcepten in de bachelorbiologie (AAAS, 2011). Meiose is een onderwerp dat duidelijk in de categorie van informatiestroom valt, omdat het verklaart hoe informatie die in DNA is gecodeerd van de ene generatie op de andere overgaat. Het proces van meiose is een belangrijk onderdeel van het curriculum, omdat het studenten helpt belangrijke concepten in genetica en evolutie te begrijpen. Veel onderzoek naar het begrip van meiose door leerlingen heeft zich gericht op het identificeren en beschrijven van de verschillende misvattingen (of alternatieve opvattingen) van leerlingen (Kindfield, 1994 Lewis et al., 2000 Wright & Newman, 2011 Newman et al., 2012 Ozcan et al., 2012 Smith & Knight, 2012 Kalas et al., 2013). Hoewel dit onderzoek uiterst belangrijk is om het bewustzijn te vergroten van de verschillende problemen waarmee studenten waarschijnlijk te maken zullen krijgen bij het leren over meiose, helpt het docenten niet om te begrijpen waarom deze moeilijkheden blijven bestaan. Om deze leemte in de literatuur aan te pakken, is veel van ons werk gewijd aan het onderzoeken van welke aspecten van het conceptuele begrip van meiose voor studenten ontbreken. We hebben eerder vastgesteld dat leerlingen en experts aspecten van meiose heel anders conceptualiseren en dat alleen experts een moleculair niveau van begrip toevoegen aan hun beschrijvingen van het proces (Newman et al., 2012 Wright et al., 2017).

    We stellen dat een van de redenen voor de moeilijkheden van leerlingen om meiose te begrijpen, de ongelooflijke complexiteit van het DNA zelf is. Genetische informatie wordt op zowel concrete als abstracte manieren in DNA gecodeerd, waardoor DNA een moeilijk te conceptualiseren molecuul is. Plus, DNA is a molecule that is incredibly small (the helix cannot be observed directly, even with a microscope) while also being incredibly large (containing thousands or millions of subunits). While genetic information is encoded in DNA, not all parts of a DNA molecule are used at the same time, by the same cell type, or even for the same purpose. All of this complexity is difficult for a novice to grasp and integrate into a cohesive mental model. The DNA Triangle framework integrates three different scales at which DNA can be considered: chromosomal (C), molecular (M), and informational (I) (Wright et al., 2017). The C level describes the structure of chromosomes (with and without sister chromatids), identification of chromosomes by banding pattern and centromere location, representations of chromatin packing, and counting chromosomes. The I level describes how DNA encodes genetic information, such as genes or alleles, protein-coding regions, or regulatory information. Finally, the M level describes the chemistry and nucleotide sequence of DNA. In previous work (Wright et al., 2017), the DNA Triangle framework was applied to meiosis and used to understand how experts described the concepts of ploidy (how many sets of genetic information are contained in the cell), homology, and the mechanism of homologous pairing (renamed “segregation” in this article). Biology experts explained the concept of homology by linking the I and M levels, the concept of ploidy using both the C and I levels, and how proper segregation was achieved with the C and M levels (Figure 1). Students, on the other hand, focused mainly on the C level and did not, for any of the topics, bring in M-level knowledge.

    The DNA Triangle framework applied to meiosis. The concept of how proper Segregation is achieved links the Molecular and Chromosomal levels the concept of Homology links the Informational and Molecular levels and the concept of Ploidy links the Informational and Chromosomal levels. Figure modified from Wright et al. (2017).

    The DNA Triangle framework applied to meiosis. The concept of how proper Segregation is achieved links the Molecular and Chromosomal levels the concept of Homology links the Informational and Molecular levels and the concept of Ploidy links the Informational and Chromosomal levels. Figure modified from Wright et al. (2017).

    We then used the framework to analyze text passages from college-level introductory and mid/upper-level textbooks to better understand where students' ideas about meiosis may originate or grow from (Wright et al., 2017). While not a perfect resource, textbooks are frequently used in college science courses because they contain extensive information about the particular subject and are one medium in which scientific knowledge is transferred into teachable knowledge. The results revealed that (1) many important concepts about meiosis were missing from college-level textbooks and (2) many of the concepts were not consistently presented to students at the appropriate level of DNA, according to the framework (Wright et al., 2017). For example, homologous chromosomes in introductory books were almost always described at the chromosomal level (e.g., chromosomes with the same size and shape) but not at the molecular level (e.g., containing nearly the same sequence of DNA nucleotides). Mid- and upper-level textbooks were more likely to use molecular-level language (i.e., sequence of nucleotides, sequence of bases, base-pairing based on complementary sequences) to describe concepts of homologous chromosomes and homologous pairing introductory-level textbooks were nearly devoid of molecular-level language. This analysis partially answers the “why” and “where” questions related to students' difficulties with meiosis. Most college-level textbooks fail to describe important concepts consistently and do not help students “see” the molecular level when describing molecular-based concepts that are important for meiosis.

    As experts are well aware, biology is not solely communicated through written or spoken words. Thus, an analysis of textbook passages alone does not give the complete picture of how meiosis is presented to learners. The discipline of biology is highly dependent on visual representations (graphs, illustrations, diagrams, etc.) that are used to communicate important ideas and processes. Visual representations are abundant in most college-level biology textbooks and, thus, should be investigated for the messages they are conveying to students. For example, a prior study showed that one commonly used introductory biology textbook contained 1214 figures (Wright et al., 2018). Many textbook figures are intended to help the learner visualize structures and processes that are not directly observable and are designed to help highlight important aspects about a process or phenomenon. Quillin and Thomas (2015) argue that teaching biology, which covers a vast expanse of time scales (chemical reactions to evolutionary change) and of size scales (atoms to ecosystems), would not be possible without the use of visual representations. Visual representations also provide learners a tool for developing scientific reasoning skills, because they give learners something to reason about (Anderson et al., 2013).

    Since figures in biology textbooks are meant to help teach students (novices) biology content, we examined chapters from several commonly used textbooks for evidence that they provide the necessary information to complete the DNA Triangle for student learners. In other words, do textbook figures make up for the gaps in written descriptions of meiosis-related concepts? We analyzed meiosis-related diagrams and illustrations from 18 different textbooks (nine introductory-level and nine mid/upper-level), resulting in a total of 112 figures. Whereas our previous study (Wright et al., 2017) examined textbook passages for descriptions of ploidy, homology, and the mechanism of homologous pairing (segregation), in the present study we examined textbook figures for illustrations of the same concepts. First, we determined whether meiosis-related textbook figures made important concepts about ploidy, homology, and segregation explicit to learners. Then we used the DNA Triangle framework to determine the extent to which the figures presented information at the three levels (M, C, and/or I).


    17.1: Motif Representation and Information Content - Biology

    Differential network analysis and protein-protein interaction study reveals active protein modules in glucocorticoid resistance for infant acute lymphoblastic leukemia, Z Mousavian, A Nowzari-Dalini, Y Rahmatallah, A Masoudi-Nejad, Molecular Medicine 25 (1), 36

    Active repurposing of drug candidates for melanoma based on GWAS, PheWAS and a wide range of omics data. A Khosravi, B Jayaram, B Goliaei, A Masoudi-Nejad, Molecular Medicine 25 (1), 30

    ‎FeatureSelect: a software for feature selection based on machine learning approaches, Y Masoudi-Sobhanzadeh, H Motieghader, A Masoudi-Nejad, BMC bioinformatics 20 (1), 170

    Network-based expression analyses and experimental validations revealed high co-expression between Yap1 and stem cell markers compared to differentiated cells, F Dehghanian, Z Hojati, F Esmaeili, A Masoudi-Nejad, Genomics 111 (4), 831-839

    GPS: Identification of disease genes by rank aggregation of multi-genomic scoring schemes, A Meshkin, A Shakery, A Masoudi-Nejad, Genomics 111 (4), 612-618

    Genome-wide DNA methylation profiling in ectopic and eutopic of endometrial tissues, N Barjaste, M Shahhoseini, P Afsharian, A Sharifi-Zarchi, . , Journal of assisted reproduction and genetics, 1-10

    Trader as a new optimization algorithm predicts drug-target interactions efficiently, Y Masoudi-Sobhanzadeh, Y Omidi, M Amanlou, A Masoudi-Nejad, Scientific Reports 9 (1), 9348

    Drug databases and their contributions to drug repurposing, Y Masoudi-Sobhanzadeh, Y Omidi, M Amanlou, A Masoudi-Nejad, Genomics

    Detection of novel biomarkers for early detection of Non-Muscle-Invasive Bladder Cancer using Competing Endogenous RNA network analysis, M Kouhsar, SA Jamalkandi, A Moeini, A Masoudi-Nejad, Scientific reports 9 (1), 8434

    DrugR+: A comprehensive relational database for drug repurposing, combination therapy, and replacement therapy, Y Masoudi-Sobhanzadeh, Y Omidi, M Amanlou, A Masoudi-Nejad, Computers in biology and medicine 109, 254-262

    Systematic analysis of genes and diseases using PheWAS-associated networks, A Khosravi, M Kouhsar, B Goliaei, B Jayaram, A Masoudi-Nejad, Computers in biology and medicine 109, 311-321

    Novel putative drugs and key initiating genes for neurodegenerative disease determined using network‐based genetic integrative analysis, Z Mortezaei, JB Cazier, AA Mehrabi, C Cheng, A Masoudi‐Nejad, Journal of cellular biochemistry 120 (4), 5459-5471

    CatbNet: A Multi Network Analyzer for Comparing and Analyzing the Topology of Biological Networks, E Pournoor, N Elmi, A Masoudi-Nejad, Current genomics 20 (1), 69-75

    LncRNA and mRNA integration network reconstruction reveals novel key regulators in esophageal squamous-cell carcinoma, S Alaei, B Sadeghi, A Najafi, A Masoudi-Nejad, Genomics 111 (1), 76-89

    Block alignment: New representation and comparison method to study evolution of genomes, MNA Lanjanian H, Nowzari A, Hosseinkhan N, Masoudi-Nejad A, Genomics, https://www.ncbi.nlm.nih.gov/pubmed/3044

    Cattle infection response network and its functional modules, H Beiki, A Pakdel, AN Javaremi, A Masoudi-Nejad, JM Reecy, BMC immunology 19 (1), 2

    ‎Reconstruction of the genome-scale co-expression network for the Hippo signaling pathway in colorectal cancer, F Dehghanian, Z Hojati, N Hosseinkhan, Z Mousavian, A Masoudi-Nejad, Computers in biology and medicine 99, 76-84

    SCAN-Toolbox: Structural COBRA Add-oN (SCAN) for Analysing Large Metabolic Networks, Y Asgari, Z Zabihinpour, A Masoudi-Nejad, Current Bioinformatics 13 (1), 100-107

    Comparison of gene co-expression networks in Pseudomonas aeruginosa and Staphylococcus aureus reveals conservation in some aspects of virulence, N Hosseinkhan, Z Mousavian, A Masoudi-Nejad, Gene 639, 1-10

    Link prediction potentials for biological networks, S Sulaimany, M Khansari, A Masoudi-Nejad, International Journal of Data Mining and Bioinformatics 20 (2), 161-184

    The importance of α-CT and Salt bridges in the Formation of Insulin and its Receptor Complex by Computational Simulation, M Dehghan-Shasaltaneh, H Lanjanian, GH Riazi, A Masoudi-Nejad, Iranian journal of pharmaceutical research: IJPR 17 (1), 63

    Sequence-based 5-mers highly correlated to epigenetic modifications in genes interactions, D Salimi, A Moeini, A Masoudi-Nejad, Genes & genomics 40 (12), 1363-1371

    Task modulates functional connectivity networks in free viewing behavior, H Seidkhani, AR Nikolaev, RN Meghanathan, H Pezeshk, . NeuroImage 159, 289-301

    Biogeography, distribution and conservation status of maples (Acer L.) in Iran, M Mohtashamian, F Attar, K Kavousi, A Masoudi-Nejad, Trees 31 (5), 1583-1598

    Inhibitory effects of lactic acid bacteria isolated from traditional fermented foods against aflatoxigenic Aspergillus spp., M Ebrahimi, M Khomeiri, A Masoudi-Nejad, A Sadeghi, B Sadeghi, . Comparative Clinical Pathology 26 (5), 1083-1092

    Candidate novel long noncoding RNAs, MicroRNAs and putative drugs for Parkinson's disease using a robust and efficient genome-wide association study, Z Mortezaei, H Lanjanian, A Masoudi-Nejad, Genomics 109 (3-4), 158-164

    Systems biology study of transcriptional and post-transcriptional co-regulatory network sheds light on key regulators involved in important biological processes in Citrus sinensis, E Khodadadi, AA Mehrabi, A Najafi, S Rastad, A Masoudi-Nejad, Physiology and molecular biology of plants 23 (2), 331-342

    Micromorphological studies of leaf epidermal features in populations of maples (Acer L.) from Iran, M Mohtashamian, F Attar, K Kavousi, A Masoudi-Nejad, Phytotaxa 299 (1), 36-54

    Expectation propagation for large scale Bayesian inference of non-linear molecular networks from perturbation data, Z Narimani, H Beigy, A Ahmad, A Masoudi-Nejad, H Fröhlich, PloS one 12 (2), e0171240

    Network-based expression analysis reveals key genes related to glucocorticoid resistance in infant acute lymphoblastic leukemia, Z Mousavian, A Nowzari-Dalini, RW Stam, Y Rahmatallah, . Cellular Oncology 40 (1), 33-45

    A hybrid gene selection algorithm for microarray cancer classification using genetic algorithm and learning automata, H Motieghader, A Najafi, B Sadeghi, A Masoudi-Nejad, Informatics in Medicine Unlocked 9, 246-254

    mRNA–miRNA bipartite network reconstruction to predict prognostic module biomarkers in colorectal cancer stage differentiation, H Motieghader, M Kouhsar, A Najafi, B Sadeghi, A Masoudi-Nejad, Molecular BioSystems 13 (10), 2168-2180

    Sequential and mixed genetic algorithm and learning automata (SGALA, MGALA) for feature selection in QSAR, H MotieGhader, S Gharaghani, Y Masoudi-Sobhanzadeh, . Iranian journal of pharmaceutical research: IJPR 16 (2), 533

    Predicting brain network changes in Alzheimer's disease with link prediction algorithms, S Sulaimany, M Khansari, P Zarrineh, M Daianu, N Jahanshad, . Molecular BioSystems 13 (4), 725-735


    Intelligence without representation



    Deze site maakt gebruik van cookies en Google Analytics (zie onze algemene voorwaarden voor details over de privacy-implicaties).

    Het gebruik van deze site is onderworpen aan algemene voorwaarden.
    Alle rechten voorbehouden door The PhilPapers Foundation

    Page generated Wed Jun 30 19:54:29 2021 on philpapers-web-b76fb567b-jxzfk Debug information

    cache stats: hit=21660, miss=20875, save=
    autohandler : 287 ms
    called component : 271 ms
    entry : 270 ms
    entry_basics: 91 ms
    entry-header : 77 ms
    menu : 74 ms
    similar_entries : 58 ms
    citations-citations : 55 ms
    entry_stats: 27 ms
    entry-links : 10 ms
    retrieve cache object : 8 ms
    entry-cats : 8 ms
    ingangszijde : 6 ms
    prepCit : 5 ms
    entry_stats_query : 3 ms
    citations-references : 2 ms
    writeLog : 2 ms
    get_entry : 2 ms
    entry_chapters : 2 ms
    init renderer: 0 ms
    instelling: 0 ms
    autorisatie: 0 ms
    stat_db : 0 ms
    invoerknoppen : 0 ms


    Meet the Escape Artists of X-Chromosome Inactivation

    While an escape from the zoo sounds newsworthy on its own, the addition of X-chromosome inactivation (XCI) makes it irresistible for our news crew. An exciting new epigenetic effort has captured the exceptional XCI escape artists across eutherian mammals.

    XCI is a dosage compensation mechanism in females that results in the inactivation of one of the two X chromosomes in females. Interestingly, not every gene gets inactivated, and the proportion of genes that escape varies between species. Despite being known for their calico cat mascot, the XCI experts in the lab of Carolyn Brown (University of British Columbia, Canada) have taken a trip to the zoo to expose exceptions between species.

    In this research, they leveraged several publicly available datasets. First, whole-genome sequencing and RNA-seq were used to find the ratio of inactive X (Xi) to active X (Xa) expression (Xi/Xa) for X-linked genes in humans and mice. Next, the excited examiners established a DNAm threshold for calling XCI status of X-linked genes with CpG islands for 12 species based on whole-genome bisulfite sequencing (WGBS) (humans, chimps, mice, cows, sheep, goats, and pigs), reduced representation bisulfite sequencing (RRBS) (horses) and 450k arrays (humans, chimps, bonobos, gorillas, orangutans, and dogs). Here are the extraordinary details:

    • In most species, 80-90% of X-linked genes are subject to XCI
      • Mice are an exception: they have the highest proportion of XCI genes (95%)
      • 4 genes (RPS4X, CDK16, EIF1AX, en GEMIN8) show primate-specific XCI escape
      • XCI escape for one gene, KDM5C, is specific to Artiodactyla (cows, sheep, goats, and pigs)
      • Increased LTR repeats (humans, chimps, horses)
      • Decreased LINE repeats (chimps, mice, sheep, horses)
      • Decreased DNA repeats (mice, cows, sheep)

      First author Bradley Balaton shares, “These differences follow evolutionary lines and genes escape X-chromosome inactivation when the Y chromosome homologues are conserved, and then are subject to inactivation when the Y homologue no longer exists. This opens an evolutionary aspect of the control of how genes that escape X-chromosome inactivation are regulated, and we do see some common features associated with X-chromosome inactivation status conserved across species. We also hope that our X-chromosome inactivation calls across species will be useful to researchers working with these other mammalian species.”


      MATERIALEN EN METHODES

      Plant materials and growth conditions

      De Arabidopsis thaliana ecotype Columbia-0 (Col-0) was used as WT in this study. The T-DNA insertion mutants of SALK_025449 and WiscDsLoxHs122_02H for MYB106 were ordered from the Arabidopsis Biological Resource Center (ABRC). Homozygous mutants were screened by PCR and transcriptional levels were determined by RT-PCR. Primers used are listed in Table S1. Arabidopsis seeds were surface-sterilized and germinated on half-strength Murashige and Skoog (MS) plates (half-strength MS salts, 0.8% agar, 1% sucrose, pH 5.7). Then the 7-d-old seedlings were transferred to pots and grown in a growth chamber at 22°C (16 h light/8 h dark, 200 µmol m −2 s −1 ). Under short-day conditions, plants were grown in a growth chamber at 22°C (8 h light/16 h dark, 100 µmol m −2 s −1 ). Tobacco (N. benthamiana) plants were cultivated in a growth chamber at 22°C under long-day conditions (16 h light/8 h dark).

      Construction of transgenic over-expression lines

      To generate Pro35S:MYB106-GFP over-expression lines, the coding region of MYB106 was amplified using the primers shown in Table S1 for subsequent cloning into pYJGFP ( Niu et al., 2020 ). After confirmation by sequencing, the Pro35S:MYB106-GFP construct was transformed into myb106 mutant background lines through Agrobacterium-mediated floral dip, followed by selection of transgenic lines on 1/2 MS media containing hygromycin B and subsequent verification by western blot analysis.

      Measurement of flowering time

      The number of rosette leaves when the first flower becomes visible was used as indicator of flowering time. Also, the days after germination when the first flower bud comes out were also quantified for the measurement of flowering time ( Smyth et al., 1990 ).

      RNA-seq and data analysis

      Total RNA was extracted from 6-week-old flower tissues of WT and myb106-1 mutants by using ISOLATE II RNA Plant Kit (Catalog No. BIO-52077 Bioline, UK). The RNA was quantified and qualified by Qubit 3.0 (Catalog No. 2321610866 Thermo Fisher Scientific, USA). The RNA-seq was conducted by GENEWIZ Company (USA) with three biological replicates. RNA-seq libraries were constructed by Illumina TruSeq RNA Sample Pre Kit following the manufacturer's protocols. High-throughput sequencing was then performed by using Illumina HiSeq 2000 platform. Qualified reads were mapped to the Columbia genome using Hisat2 v.2.0.1 with default parameters ( Kim et al., 2015 ). Gene expression calculation was performed with Cuffdiff v2.2.1, which calculates FPKM ( Acevedo et al., 2016 ). Using the NGS data, genes were sorted based on log2 ratio of myb106-1/WT. Furthermore, candidate genes were clustered based on the expression profiles and related pathways. Finally, a specific regulatory model of MYB106 with up- and down-regulated targets has been generated. KEGG (http://en.wikipedia.org/wiki/KEGG) was used to analyze gene pathways.

      Quantitative real-time PCR analysis

      Total RNA was extracted from 6-week-old flower tissues. Complementary DNA was synthesized from 1 µg total RNA using iScript™ genomic DNA Clear complementary DNA (cDNA) Synthesis Kit (BIO-RAD), cDNA was then used as the template for reverse-transcription polymerase chain reaction (RT-PCR) and quantitative real-time PCR (qRT-PCR). Quantitative RT-PCR reactions were performed using SYBR Green dye (Catalog No. 4368577 Thermo Fisher Scientific) according to the manufacturer's instructions in a Bio-Rad CFX96 Real-Time PCR System (Catalog No. 1855195 Bio-Rad, USA). ACTIN2 of Arabidopsis was adopted as internal control to normalize the expression levels of the target genes. Primers used are listed in Table S1.

      Dual luciferase reporter assay

      Downstream candidate genes′ promoter sequences were identified from TAIR website and primers were designed to clone 1–2 kb upstream sequences (including the 5′ untranslated regions) of start codon (ATG). Then, promoters of candidate genes were inserted into the upstream of firefly LUC gene of pGreenII0800-LUC vector, which is used as reporter plasmid. REN under the CaMV35S promoter was used as endogenous control ( Hellens et al., 2005 ). The pYJGFP-MYB106 (35Spro: MYB106) was used as an effector plasmid, with pYJGFP (35Spro: GFP) as control plasmid. Thirty-d-old tobacco leaves were infiltrated with Agrobacterium tumefaciens (GV3101) containing both the effector plasmid and reporter plasmid. Three leaf discs of 1 cm in diameter were collected at 2 and 3 dpi and frozen in liquid nitrogen. A dual-LUC reporter assay kit (Catalog No. E1910 Promega, USA) was used to measure LUC and REN activities. The binding ability of pYJGFP-MYB106 to different promoter sequences was reported as ratio of LUC to REN.

      Protein expression and EMSA

      The coding region of the MYB106 gene was cloned into vector of pGEX-4T-1 (Amersham Biosciences, http://www.gelifesciences.com.cn). Recombinant plasmid with glutathione S-transferases (GST) tag was transformed into the Rosetta (DE3) strain of Escherichia coli and then induced by 2.5 mmol/L isopropyl-β- d -thiogalactoside (IPTG) at 25°C for 4 h. Cell pellets were collected and lysed by sonication in phosphate-buffered saline. GST-tagged proteins were purified with GST-bind resin (Catalog No. 70541 Novagen, Germany) according to manufacturer's instruction. Electrophoretic mobility shift assays were performed using 1 μg of purified proteins by a Light Shift Chemiluminescent EMSA kit (Catalog No. 20148 Thermo Fisher Scientific). GST-MYB106 protein was incubated with biotin-labeled probes, with unlabeled probes, and mutated probes were used as competitors. GST protein was used as negative control. After that, protein–DNA complexes were separated by native polyacrylamide gel, transferred onto nylon membrane (RPN203B GE, USA) and detected by a chemiluminescence method. The oligonucleotide sequences of biotin-labeled probes and unlabeled probes were synthesized from INTEGRATED DNA TECHNOLOGIES (IDT), which are listed in Table S1.

      Chromatin immunoprecipitation qPCR assay

      Chromatin immunoprecipitation assay was carried out according to the protocols described in ChIP-seq kit (Catalog No. 01010152 Diagenode, Belgium). Briefly, 3-week-old seedlings of myb106-2 and 35S:MYB106-GFP/myb106-2 were collected (1 g, fresh weight) and cross-linked for 15 min under vacuum in crosslink buffer containing 1% formaldehyde and stopped by adding 100 mmol/L glycine for another 5 min. After washing twice with distilled water, the samples were used for chromatin DNA isolation, sonication and then immunoprecipitation was performed with GFP antibodies at 4°C overnight with gentle rotation. The immunoprecipitated complexes were then precipitated with DiaMag protein A-coated magnetic beads. Finally, the precipitated DNA was eluted, de-crosslinked and isolated using IPure Kit v2, then analyzed by qPCR analysis. Specific ChIP-qPCR primers were designed to amplify promoter sequences of FT (Table S1). The sonicated chromatin DNA without precipitation served as an input control and the ChIP results were presented as a percentage of input DNA, while ACTIN2 was used as a negative control.

      Yeast-two-hybrid assay

      The coding regions of MYB106 and six BTB/POZ genes (BPM1-6) were cloned into the pGADT7 and pGBKT7 vectors (Catalog No. 630442 Clontech, USA) respectively. After that, recombinant plasmids were co-transformed into the yeast strain AH109 according to the Yeast Protocols Handbook (Clontech). Transformants were selected on Synthetic Drop-out (SD) medium lacking Trp and Leu (SD −Trp −Leu), whereas the selection of interactions was conducted on SD medium lacking His, Trp, and Leu (SD −His −Trp −Leu) containing 5 mmol/L 3-amino-1,2,4-triazole (Catalog No. 61-82-5 Sigma, USA) and −SD−Leu−Trp−His−Ade medium. Yeast plates were incubated for up to 5 d at 30°C before being photographed.

      Bimolecular fluorescence complementation assay

      The coding regions of MYB106 en BPMs were subcloned into 35S-SPYCE(M) and 35S-SPYNE(R)173 vectors, respectively. The resulting plasmids were introduced into Agrobacterium tumefaciens strain GV3101 cells, which were co-infiltrated together with the P19 strain into true leaves of 4-week-old N. benthamiana. Yellow fluorescent protein fluorescence was observed 3 d after infiltration using a confocal microscope (SP8 Leica, Germany) (Niu et al., 2016 ).

      Co-immunoprecipitation

      Protein extraction and Co-IP were conducted following the established protocols ( Miao and Jiang, 2007 ). Maxi-preparation plasmids of BPM1, BPM2, BPM4, and MYB106 were transformed into Arabidopsis protoplasts derived from 5-d-old Plant System Biology Dark-type culture suspension cultured cells. Protoplasts were then incubated in 26 °C for transient protein expression about 10-14 h before harvest by 250 mmol/L NaCl. After that, the transformed protoplasts were re-suspended by ice-cold 1× IP buffer (25 mmol/L HEPES, 150 mmol/L NaCl, 2 mmol/L ethylenediaminetetraacetic acid (EDTA), 1 mmol/L MgCl2, 0.8% TritonX-100, 2 mmol/L dithiobis (succinimidyl propionate), 1× Complete Protease Inhibitor Cocktail, pH 7.4) and further lysed by syringe with needles on ice. Cell lysates were then filtered through a 0.45 µm hydrophilic Durapore membrane syringe filters were used before the incubation with GFP-Trap magnetic beads for 2 h at 4°C. After incubation, the beads were washed by wash buffer (25 mmol/L HEPES, 150 mmol/L NaCl, 2 mmol/L EDTA, 1 mmol/L MgCl2, 0.8% TritonX-100, 1× Complete Protease Inhibitor Cocktail, pH 7.4) for three times and eluted by boiling in sodium dodecyl sulfate (SDS) sample buffer. Samples were then separated by SDS-PAGE (polyacrylamide gel electrophoresis) and analyzed by immunoblot.

      Protein stability assay

      For protein stability assay of MYB106, plasmids of MYB106-HA and GFP-HA (hemagglutinin) were transiently transformed into leaf protoplasts of WT and cul3 hyp , with the treatment of proteasome inhibitor MG132 for 6 h (50 μmol/L Sigma-Aldrich) or dimethylsulfoxide as control. Then the total protein was extracted using lysis buffer (50 mmol/L of Tris-HCl at pH 7.4, 150 mmol/L of NaCl, 0.5 mmol/L of EDTA, 1% (v/v) Triton X-100, 5% (v/v) glycerol, and 1× Complete Protease Inhibitor Cocktail). The protein of MYB106 was detected with HA antibodies by western blot.