Introduktion till bioinformatik

av Bengt Persson

Människans genom

Man har nu lyckats bestämma hela människans arvsmassa – hela genomet. Detta vårt DNA är en jättemolekyl som består av socker, fosfat och bas. Baserna är 4 olika som betecknas A, C, G eller T efter begynnelsebokstaven i deras kemiska namn. Ordningen av dessa baser utgör vår arvsmassa, våra gener, som i sin tur styr hur våra proteiner ser ut. Människans genom består av 3 miljarder baspar. Det man nu har bestämt är ordningen av alla dessa baser i DNA. 

DNA kodar för proteiner som är en annan sorts jättemolekyl uppbyggd av aminosyror. Det finns normalt 20 st olika aminosyror. Ett protein kan bestå av från knappt 10 till uppemot 30 000 aminosyror. Vanligen är antalet mellan 100 och 500. Kombinationsmöjligheterna är närmast oändliga: ett protein med 300 aminosyror har 30020=3,49 x 1049 vilket utskrivet blir 34 900000 000000 000000 000000 000000 000000 000000 000000 olika kombinationer.

I människan finns ca 100 000 olika proteiner. Dessa varierar något från individ till individ. Många sjukdomar beror på rubbningar i gener eller proteiner. Vissa sjukdomar har sin orsak i blott en gen eller ett protein. Dessa kan förhoppningsvis i framtiden behandlas med specifika läkemedel eller genterapi. Andra sjukdomar beror av kombinationer av flera olika gener/proteiner. Många gånger spelar också miljöfaktorer in. Sådana samband är naturligtvis svårare att finna men även här kommer kunskap om gener och proteiner att vara av avgörande betydelse i framtiden.

Bioinformatik

Bioinformatik som ligger i gränslandet mellan datavetenskap–matematik–statistik och molekylärbiologi–cellbiologi–medicin syftar till att hjälpa till att förstå och tolka den information som finns i arvsmassan och i proteinerna. Av störst intresse är naturligtvis människans arvsmassa och människans proteiner. Vi skall dock inte glömma att andra organismer som kanske är mindre komplicerade, t.ex. bakterier, jästsvampar, maskar och insekter, kan vara mycket viktiga för att hjälpa oss förstå hur livets processer fungerar. Många grundläggande principer är desamma hos dessa enklare oganismer och hos människa. Sålunda fungerar de som modeller för oss.

Metod för att bestämma det humana genomet

För att sekvensbestämma ett helt genom, dvs bestämma ordningen av baserna A, C, G och T i hela arvsmassan, använder man en teknik som kallas ”shotgun sequencing”, dvs kulsprute­sekvensning. Eftersom man inte tekniskt kan analysera mer än cirka 500 baser i följd och hela det mänskliga genomet är cirka 3 000 000 000 baser, får man analysera en bit i taget och sedan lägga pussel. Detta pussel består av minst 3 000 000 000 / 500 = 6 millioner bitar (!) För att få ihop det använder man stora och snabba datorer som utnyttjar fiffiga matematiska algoritmer. Matematiken används här för att lösa biologiska och medicinska frågeställningar.

Gener

När man lyckats lägga detta enorma pussel (detta arbeter pågår just nu i Celeras laboratorier i USA), kommer nästa uppgift. Det är att veta vilka bitar av arvsmassan som utgör gener, vilket i allmänhet innebär att de kodar för proteiner. Här använder man ånyo datorer. Denna gång för att leta efter mönster i gensekvensen som man vet finns i början respektive slutet av ett kodande område. De mönster som finns i människans DNA är komplicerade och alla detaljer är inte kända ännu. Hos bakterier är mönstren mindre komplicerade. Bakterier har också avsevärt mindre mängd arvsmassa än människa. Därför vet man redan nu en hel del om vissa bakteriers sammanlagda arvmassa – kunskap som kommer att visa sig värdefull när informationen i det mänskliga genomet skall tolkas.

Förutsägelser av proteiners funktion

Matematiska metoder kan användas för att förutsäga proteiners funktion. Ordningen av aminosyrorna (sekvensen) styr proteinets egenskaper. Genom att studera dessa sekvensmönster kan många egenskaper förutsägas. På så sätt kan man förutsäga om ett protein finns i cellens hölje (cellmembranen) eller i cellens innandöme (cytoplasman). Ytterligare strukturella egenskaper kan också förutsägas.

Bland de matematiska och statistiska metoder som används kan nämnas neurala nätverk (neural networks) och dolda Markov-modeller (HMM, hidden Markov models). Båda metoderna görs i form av dataprogram. 

I det neurala nätverket har man sökt efterlikna nervsystemets uppbyggnad i hjärnan. I hjärnan har varje nervcell ett stort antal förbindelser med andra nervceller. Signaler mellan dessa påverkar hur nervcellen reagerar. På motsvarande sätt har man i dataprogrammet byggt upp ett antal ”celler” som påverkas både av inmatade data och kringliggande ”celler”. Beroende på hur de ”reagerar” på dessa data erhålles olika förutsägelser. 

Molekylmodellering

När proteinet bildats, veckar sig proteinkedjan till en tredimensionell struktur. Hur denna struktur ser ut styrs av ordningen av aminosyrorna i proteinet. Vi kan studera dessa tredimensionella strukturer med olika fysikaliska metoder (röntgenkristallografi och NMR, kärnmagnetisk resonans). Från dessa analysresultat kan man matematiskt beräkna hur proteinstrukturen ser ut. Denna kan visas på papper eller bildskärm. Med molekylgrafiska datorprogram kan man vända och vrida på strukturen på bildskärmen och därvid studera den i detalj. Man kan även färglägga olika delar av strukturen för att göra bilderna tydligare. Man kan också mäta avstånd och göra andra beräkningar.

Varje proteinstruktur är unik och den styrs som sagt av aminosyrornas ordning. Att beräkna denna process är alltjämt en av de stora olösta gåtorna i proteinvetenskapen. Vad man med dagens teknik emellertid kan göra är att beräkna den tredimensionella strukturen för besläktade proteiner. Detta kallas homologimodellering. Man använder då den kända tredimensionella strukturen som mall för ett besläktat protein. Först läggs det besläktade proteinet in i denna grundstuktur. Därefter optimeras det så att inga atomer i modellen krockar med varandra. Dessa beräkningar baserade på matematiska och fysiska principer körs i snabba datorer så att resultatet kan erhållas inom loppet av timmar till dagar.

Molekylmodelleringsteknik används idag också för att testa om en liten molekyl kan binda till ett protein (som ju är en stor molekyl). Detta är användbart för studera proteiners naturliga funktioner. Det är också en viktig metod för att uppfinna nya läkemedel. I datorn kan snabbt många olika varianter testas. De mest intressanta testas därefter i kemiska experiment i laboratoriet för att undersöka om resultaten stämmer och samtidigt erhålla ytterligare information.

Bilden gjord av Erik Nordling

Bioinformatik på högskolan/universitet

Eftersom bioinformatik sålunda är interdisciplinärt behöver en bioinformatiker kunna både biologi/medicin och data/matematik. Ett vanlig väg att gå är därför att först universitetsutbilda sig i någon av dessa grundutbildningar för att sedan bygga på med ytterligare kunskaper i samband med en forskarutbildning i bioinformatik. 

Utbildning på grundutbildningsnivå i bioinformatik finns vid Linköpings Universitet, Högskolan i Skövde och Uppsala Universitet. I Stockholm och Göteborg finns påbyggnadskurser till olika grundutbildningar. Bioinformatik ingår också i biomedicinare­utbildningen vid Karolinska Institutet. 

Bengt Persson 28.10.2003