Introduktion till bioinformatik
av Bengt Persson
Människans genom
Man har nu lyckats
bestämma hela människans arvsmassa – hela genomet. Detta vårt DNA är en
jättemolekyl som består av socker, fosfat och bas. Baserna är 4 olika som betecknas
A, C, G eller T efter begynnelsebokstaven i deras kemiska namn. Ordningen av
dessa baser utgör vår arvsmassa, våra gener, som i sin tur styr hur våra proteiner
ser ut. Människans genom består av 3 miljarder baspar. Det man nu har bestämt
är ordningen av alla dessa baser i DNA.
DNA kodar för
proteiner som är en annan sorts jättemolekyl uppbyggd av aminosyror. Det finns
normalt 20 st olika aminosyror. Ett protein kan bestå av från knappt 10 till
uppemot 30 000 aminosyror. Vanligen är antalet mellan 100 och 500. Kombinationsmöjligheterna
är närmast oändliga: ett protein med 300 aminosyror har 30020=3,49
x 1049 vilket utskrivet blir 34 900000 000000 000000 000000 000000
000000 000000 000000 olika kombinationer.
I människan finns
ca 100 000 olika proteiner. Dessa varierar något från individ till individ.
Många sjukdomar beror på rubbningar i gener eller proteiner. Vissa sjukdomar
har sin orsak i blott en gen eller ett protein. Dessa kan förhoppningsvis i
framtiden behandlas med specifika läkemedel eller genterapi. Andra sjukdomar
beror av kombinationer av flera olika gener/proteiner. Många gånger spelar också
miljöfaktorer in. Sådana samband är naturligtvis svårare att finna men även
här kommer kunskap om gener och proteiner att vara av avgörande betydelse i
framtiden.
Bioinformatik
Bioinformatik
som ligger i gränslandet mellan datavetenskap–matematik–statistik
och molekylärbiologi–cellbiologi–medicin syftar till att hjälpa
till att förstå och tolka den information som finns i arvsmassan och i proteinerna.
Av störst intresse är naturligtvis människans arvsmassa och människans proteiner.
Vi skall dock inte glömma att andra organismer som kanske är mindre komplicerade,
t.ex. bakterier, jästsvampar, maskar och insekter, kan vara mycket viktiga för
att hjälpa oss förstå hur livets processer fungerar. Många grundläggande principer
är desamma hos dessa enklare oganismer och hos människa. Sålunda fungerar de
som modeller för oss.
Metod för att bestämma det humana
genomet
För att sekvensbestämma
ett helt genom, dvs bestämma ordningen av baserna A, C, G och T i hela arvsmassan,
använder man en teknik som kallas ”shotgun sequencing”, dvs kulsprutesekvensning.
Eftersom man inte tekniskt kan analysera mer än cirka 500 baser i följd och
hela det mänskliga genomet är cirka 3 000 000 000 baser, får man analysera en
bit i taget och sedan lägga pussel. Detta pussel består av minst 3 000 000 000
/ 500 = 6 millioner bitar (!) För att få ihop det använder man stora och snabba
datorer som utnyttjar fiffiga matematiska algoritmer. Matematiken används här
för att lösa biologiska och medicinska frågeställningar.

Gener
När man lyckats
lägga detta enorma pussel (detta arbeter pågår just nu i Celeras laboratorier
i USA), kommer nästa uppgift. Det är att veta vilka bitar av arvsmassan som
utgör gener, vilket i allmänhet innebär att de kodar för proteiner. Här använder
man ånyo datorer. Denna gång för att leta efter mönster i gensekvensen som man
vet finns i början respektive slutet av ett kodande område. De mönster som finns
i människans DNA är komplicerade och alla detaljer är inte kända ännu. Hos bakterier
är mönstren mindre komplicerade. Bakterier har också avsevärt mindre mängd arvsmassa
än människa. Därför vet man redan nu en hel del om vissa bakteriers sammanlagda
arvmassa – kunskap som kommer att visa sig värdefull när informationen
i det mänskliga genomet skall tolkas.
Förutsägelser av proteiners funktion
Matematiska metoder
kan användas för att förutsäga proteiners funktion. Ordningen av aminosyrorna
(sekvensen) styr proteinets egenskaper. Genom att studera dessa sekvensmönster
kan många egenskaper förutsägas. På så sätt kan man förutsäga om ett protein
finns i cellens hölje (cellmembranen) eller i cellens innandöme (cytoplasman).
Ytterligare strukturella egenskaper kan också förutsägas.
Bland de matematiska
och statistiska metoder som används kan nämnas neurala nätverk (neural networks)
och dolda Markov-modeller (HMM, hidden Markov models). Båda metoderna görs i
form av dataprogram.
I det neurala
nätverket har man sökt efterlikna nervsystemets uppbyggnad i hjärnan. I hjärnan
har varje nervcell ett stort antal förbindelser med andra nervceller. Signaler
mellan dessa påverkar hur nervcellen reagerar. På motsvarande sätt har man i
dataprogrammet byggt upp ett antal ”celler” som påverkas både av
inmatade data och kringliggande ”celler”. Beroende på hur de ”reagerar”
på dessa data erhålles olika förutsägelser.

Molekylmodellering
När proteinet
bildats, veckar sig proteinkedjan till en tredimensionell struktur. Hur denna
struktur ser ut styrs av ordningen av aminosyrorna i proteinet. Vi kan studera
dessa tredimensionella strukturer med olika fysikaliska metoder (röntgenkristallografi
och NMR, kärnmagnetisk resonans). Från dessa analysresultat kan man matematiskt
beräkna hur proteinstrukturen ser ut. Denna kan visas på papper eller bildskärm.
Med molekylgrafiska datorprogram kan man vända och vrida på strukturen på bildskärmen
och därvid studera den i detalj. Man kan även färglägga olika delar av strukturen
för att göra bilderna tydligare. Man kan också mäta avstånd och göra andra beräkningar.
Varje proteinstruktur
är unik och den styrs som sagt av aminosyrornas ordning. Att beräkna denna process
är alltjämt en av de stora olösta gåtorna i proteinvetenskapen. Vad man med
dagens teknik emellertid kan göra är att beräkna den tredimensionella strukturen
för besläktade proteiner. Detta kallas homologimodellering. Man använder då
den kända tredimensionella strukturen som mall för ett besläktat protein. Först
läggs det besläktade proteinet in i denna grundstuktur. Därefter optimeras det
så att inga atomer i modellen krockar med varandra. Dessa beräkningar baserade
på matematiska och fysiska principer körs i snabba datorer så att resultatet
kan erhållas inom loppet av timmar till dagar.
Molekylmodelleringsteknik
används idag också för att testa om en liten molekyl kan binda till ett protein
(som ju är en stor molekyl). Detta är användbart för studera proteiners naturliga
funktioner. Det är också en viktig metod för att uppfinna nya läkemedel. I datorn
kan snabbt många olika varianter testas. De mest intressanta testas därefter
i kemiska experiment i laboratoriet för att undersöka om resultaten stämmer
och samtidigt erhålla ytterligare information.

Bilden gjord av Erik Nordling
Bioinformatik på högskolan/universitet
Eftersom bioinformatik
sålunda är interdisciplinärt behöver en bioinformatiker kunna både biologi/medicin
och data/matematik. Ett vanlig väg att gå är därför att först universitetsutbilda
sig i någon av dessa grundutbildningar för att sedan bygga på med ytterligare
kunskaper i samband med en forskarutbildning i bioinformatik.
Utbildning
på grundutbildningsnivå i bioinformatik finns vid Linköpings
Universitet, Högskolan i Skövde och Uppsala Universitet. I Stockholm och Göteborg
finns påbyggnadskurser till olika grundutbildningar. Bioinformatik ingår också
i biomedicinareutbildningen vid Karolinska Institutet.
Bengt Persson
28.10.2003