Hoewel het menselijk genoom in 2000 grotendeels in kaart werd gebracht, valt er nog genoeg te ontdekken. Door wetenschappers ontwikkelde software kan daarbij helpen. De software is inmiddels meer dan 60 miljoen keer gebruikt en dus een groot succes!
Om te begrijpen wat de grote waarde van de door wetenschappers ontwikkelde software is, moeten we bij het begin beginnen. Hoe zit het ook alweer met ons genoom, DNA en genen?
Blauwdruk
Ons DNA bevat de volledige genetische blauwdruk van onze erfelijke eigenschappen, deze verzameling wordt het genoom genoemd. Hoewel DNA een heel bekend begrip is, hebben we toch relatief kort pas inzicht hierin. In 2000 produceerde het Humane Genoom Project in de VS een eerste versie van ons genoom.
De opbouw van ons genoom
Het hele genoom bestaat uit twee sets chromosomen, van iedere ouder één. Ons DNA bevat vier z.g. basen: adenine, thymine, guanine en cytosine. Voor de eenvoud worden deze basen gecodeerd weergeven in lange reeksen van hun vier beginletters: A, T, C en G. (zie de afbeelding hiernaast). Dit is slechts een klein stukje van het DNA. De chromosomen van een set bevatten ongeveer 3,2 miljard basen. Een typisch stuk, een ‘sequentie’, met een gen is vele malen langer. Het aantal genen van de mens dat de erfelijke eigenschappen bepaalt, wordt geschat op ongeveer 20.000. Deze genen worden overgeschreven in RNA, een andere code met vier letters, die vertaald kan worden in de eiwitten van ons lichaam. Hoewel we het vaak hebben over het gebruik van DNA bij opsporingsmethoden of om vast te stellen wie iemand is, weten we er nog niet zo heel veel over de betekenis van alle stukken. Wel zijn we nu in staat om de basevolgorde van ons hele genoom te ontrafelen en te analyseren.
De verantwoordelijkheid van een gen
Het Humane Genoom Project heeft de speurtocht om te snappen welk stuk DNA of welk gen waarvoor verantwoordelijk is versneld. In sommige gevallen is het relatief eenvoudig om te snappen welk stukje DNA waarvoor verantwoordelijk is. Bij het syndroom van Down (trisomie 21) weten we bijvoorbeeld dat er een derde kopie van het chromosoom 21 aanwezig is. In veel gevallen echter is de relatie tussen aandoening of ziekte en DNA afhankelijk van meerdere stukken van ons DNA. Het uitzoeken hiervan is één van de grootste puzzels van onze generatie en kan alleen maar worden uitgevoerd met behulp van computers.
Verschillen
Ieder mens is anders, omdat ieders DNA verschillend is. Dit veroorzaakt verschillen in uiterlijk, maar ook in aanleg voor bepaalde ziekten of aandoeningen. Er zijn verschillende soorten (kleine) variaties in het DNA (zie de afbeelding hiernaast). Deze variaties kunnen de oorzaak zijn dat iemand juist wel of juist niet een bepaalde ziekte of aandoening krijgt. Onderzoekers willen variaties graag in kaart brengen om hun relatie met ziekte of gezondheid vast te stellen. Als iedereen een variant beschrijft op dezelfde manier is er minder kans op verwarring, wordt eenduidigheid verkregen in (wetenschappelijke) publicaties en kan efficiënter onderzoek worden gedaan. De standaard naamgeving van de Human Genome Variation Society (HGVS) helpt hierbij met een notatie die alleen de afwijkingen ten opzichte van de referentiesequentie beschrijft. Tot nu toe werd dit alleen per gen gedaan, maar in principe kan dit ook per genoom. Als bijkomend voordeel werkt dit ook als een compressiemechanisme. In plaats van alle letters op te slaan, kan worden volstaan met alleen het beschrijven van de afwijkingen waardoor minder opslagruimte nodig is.
3,2 miljard letters
De uitdaging daarbij is om snel de 3,2 miljard letters te scannen op zoek naar bekende en onbekende DNA-varianten. Hierbij wordt een referentiesequentie vergeleken met een deel van het DNA waarbij wordt gezocht naar allerlei varianten (zie de afbeelding hieronder). Dit vereist zeer veel rekenwerk waarbij wordt gezocht naar de grootste stuk DNA dat in beide sequenties voorkomt.
Wat is de uitdaging? De uitdaging zit hem in het feit dat er wordt gezocht wordt naar sequenties die sterk lijken op de referentie sequentie maar met verschillen die soms heel klein zijn, bijvoorbeeld één letter verschil (een zogenaamde Single Nucleotide Polymorphism of SNP). Ook andere varianten, zoals verwijderde letters of gespiegelde letters, zorgen dat het vergelijken van sequenties complex en tijdrovend wordt. Een nieuw gevonden variant kan vervolgens met zijn standaard HGVS-naam in een database worden opgeslagen. Bij gebruik van geoptimaliseerde algoritmes kan zo een complete beschrijving van een volledig menselijk genoom in ongeveer vier uur worden gegenereerd.
COMMIT
En zo komen we dan uit bij de software die door onderzoeker binnen het COMMIT-project e-Biobanking is ontwikkeld. De software heet de Variant Description Extractor en is onderdeel van de Mutalyzer suite. De Mutalyzer website en API zijn op dit moment al meer dan 60 miljoen keer gebruikt, een groot succes!
De reden voor dit succes is dat Mutalyzer een complexe variantbeschrijving kan controleren, verbeteren en converteren van genoom- naar gen-specifieke namen. De varianten worden met hun naastgelegen (flankerende) sequentie getoond en hun voorspelde effect na vertaling in eiwit wordt systematisch beschreven. Veel tijdschriften en databases verplichten het gebruik van HGVS-naamgeving en raden aan deze tool te gebruiken ter standaardisatie van variantnamen. Met de Variant Description Extractor kan de gebruiker nu makkelijk zelf een complexe beschrijving maken op basis van de waargenomen sequentie. Mutalyzer geldt ook als ijkpunt voor ontwikkelaars van commerciële DNA-analysesoftwarepakketten.
Het COMMIT-programma is een privaat-publieke samenwerking op het gebied van ICT-onderzoek. Het programma telt vijftien verschillende projecten, waaronder dus dit project dat erop gericht is om ons DNA te ontcijferen. Eerder verschenen op Scientias.nl ook al artikelen over andere COMMIT-projecten. Bijvoorbeeld over het spel Superhelden Eiland, ontwikkeld om kinderen aan te moedigen met hun hele lichaam te leren. Of TaSST, een apparaat dat aanrakingen op afstand mogelijk maakt.