250-szer a Föld körül: hatalmas genetikai adatbázis Oracle 10g-alapokon

forrás Prim Online, 2006. január 24. 11:26
A Wellcome Trust Sanger intézet "World Trace Archive" nevű, DNS-szekvenciákat nyilvántartó adatbázisának mérete nemrégiben elérte az egymilliárd rekordot. Az Oracle adatbázis-technológiájára alapuló Trace Archive a világ tudományos közössége által felkutatott és közreadott összes génszekvencia gyűjteménye, amely tartalmazza a Sanger génkutató intézet saját, hatalmas mennyiségű kutatási eredményeit.
Az archívumban tárolt adatok mennyiségének érzékeltetésére képzeljük el azt, hogy ha egyetlen szövegsorban lennének leírva, az 250-szer körbeérné a Földet. A4-es papírlapokra kinyomtatva a lapok kötege két és félszer magasabb lenne, mint a Mount Everest. Az archívum 22 terabájt nagyságú, és mérete minden hónapban megduplázódik - ez valószínűleg Európa, vagy talán a világ legnagyobb tudományos adatbázisa.

Ez a milliárdos rekordmennyiség minden más ismert adattárnál nagyobb. Összehasonlításképp: a British Library 13 millió tételt tartalmaz, az amerikai kongresszusi könyvtár 115 milliót, míg a Trace Archive egymilliárd különálló információs egységet tárol.

Az egyes genetikai adatrekordok átlagosan 864 karakter hosszúságúak. A tudósok a génszekvenciák között kereshetnek, és egymáshoz illeszthetik azokat a különböző élőlények (egerek, halak, legyek, baktériumok és persze az ember) teljes géntérképének összeállításához. Az adatok a világ bármely pontjáról korlátozás nélkül hozzáférhetők a génkutatók és szakemberek számára, akik egy adott betegség vagy gén tanulmányozása során könnyen letölthetik az adott területhez kapcsolódó már feltárt genetikai információt. Az egészség és a betegségek biológiai hátterét tanulmányozó tudományos és kereskedelmi szervezetek orvosbiológus kutatói aktívan használják ezeket az adatokat.

Martin Widlake, a Wellcome Trust Sanger intézet adatbázis-szolgáltatásokért felelős igazgatója ezt mondta: "22 ezer gigabájtos méretével a Trace Archive a világ tíz legnagyobb UNIX-adatbázisa között van. Ez nem rossz teljesítmény egy 850 dolgozót foglalkoztató kutatási szervezettől, amely Cambridge határában található. "Az adathalmaz növekedésével egyre nagyobb problémát jelent az adatok elérése" - folytatta Martin Widlake. "Az egész adatbázisból egy adott génszekvenciát előkeresni olyan, mintha egyetlen mondatot keresnénk a British Library anyagában, ami meglehetősen munkaigényes feladat. A Sanger intézet csapata mindamellett olyan új módszereken dolgozik, amelyek könnyebbé teszik az adatok keresését és elérését."

Ezt a hatalmas mennyiségű adatot egy Oracle Database 10g adatbázis kezeli. A feldolgozott adatokat négy HP ES45 szerverből álló fürt tölti fel az adatbázisba. A Winter Corporation 2005-ös, adatbázisokról készült felmérése szerint (amely a világ legnagyobb adatbázisait sorolja fel) a Trace Archive az ötödik helyezést éri el olyan óriások mögött, mint az AT&T, a Yahoo és egyéb globális vállalatok. A Winter listáján az Oracle-adatbázisok a legtöbb kategóriában az első helyen állnak. Így például Oracle-alapokon működik a világ legnagyobb kereskedelmi adatbázisa, a világ legnagyobb tudományos adatbázisa és a legnagyobb Linux alapú adatbázis is.

Nyomozás a DNS után

A DNS-szekvenciák meghatározásánál a genetikai kód minden egyes "betűjét" (bázisát) fluoreszkáló anyaggal jelölik meg. A szekvenciát robotok olvassák ki, amelyek az egyes bázisokat a vörös, zöld, sárga vagy kék fluoreszcens fény mérési értékének csúcsaként érzékelik. A bázisoknak ez a leképezése a "nyom".

Egy-egy ilyen nyers adatfájl nagyjából 200 KB méretű. A nyomot a robot szoftvere értelmezi, és hozzárendeli a megfelelő betűket (szaknyelven: "behívja" a bázisokat). A szekvenciát így kereshető karaktersorozattá alakítja. A közel egybillió karakterben történő kereséshez (egymilliárd rekord átlagosan 864 bázisról, továbbá néhány korábbi verziójú régebbi rekord) egyre gyorsabb programokra van szükség.

  • A Wellcome Trust Sanger intézetet 1992-ben alapították az ember és az egér génállományának feltérképezésére irányuló brit projekt központjaként. Az intézet az emberi génszekvenciák megközelítőleg egyharmadának, illetve az egerek esetében egyötödének feltérképezéséért felelős. A Wellcome Trust Sanger intézet székhelye a Cambridge megyei Hinxtonban található, az Egyesült Királyságban.
Kulcsszavak: tudomány Oracle

Színes ROVAT TOVÁBBI HÍREI

Flipperakadémiát indít jövőre a világhírű budapesti kiállítás

A részben egy 80-as évekbeli játékteremben játszódó Stranger Things című tévésorozat óriási sikere, a budapesti Flippermúzeum világhíre, vagy éppen a retró játékgépek árai egyaránt jól tükrözik az egykor népszerű automaták iránt újjáéledő általános nosztalgiát, rajongást. A flipperek világa azonban mára nemcsak a kiállításokról, vagy magángyűjteményekről szól: hosszú évek óta például komoly, országos és nemzetközi pontozásos versenysorozatokat is rendeznek ezeken a villogó, zenélő, csilingelő masinákon. 

2024. december 12. 18:02

Már most nézőrekordot állított fel a Hogyan tudnék élni nélküled?

Még messze a december 12-ei premier, de az érdeklődés folyamatosan nő az év lejobban várt magyar filmjének ígérkező Hogyan tudnék élni nélküled? iránt. A Demjén Ferenc slágereire felfűzött zenés romantikus vígjáték első előzetese egy hónap alatt elérte az 1 millió megtekintést, ami azért kiemelkedő, mert ezt eddig idén sem hazai, sem külföldi film nem tudta utána csinálni. Sőt erre az eredményre az elmúlt évtizedben egyetlen magyar film sem volt képes. 

2024. szeptember 4. 13:20

Utazási konferencia az Angyalok városában

A dinamizmust tükrözte az idei utazási világkiállítás, az IPW2024, és ezt sugározza a helyszín is: Los Angeles, Kalifornia.
 

2024. május 17. 18:51

Egy új tévé színt visz a mindennapokba

Ma már nemcsak azért vásárolunk televíziót, mert a sugárzott műsorokat szeretnénk nézni, hanem mert a forradalmian új készülékek számtalan lenyűgöző funkcióval lettek ellátva. Hozzájárulnak ahhoz, hogy magasabb szintre emeljük a tévézés élményét.

2024. április 28. 22:16

A múlt feltárása, a jövő segítségével!

Kevés izgalmasabb terület létezik a régészetnél. Vajon mi rejtőzik a régi idők, épületek falai mögött? Felfedezések, meglepetések sokasága, amire nem igazán lehet felkészülni. Egy ilyen terepmunkát azonban nem lehet csak úgy, ásóval elvégezni, és még Indiana Jonesnak is óriási segítség egy-egy digitális, innovatív, 21. századi eszköz!

2024. április 15. 18:46

Kövess minket a Facebookon!

Cikkgyűjtő

További fontos híreink

Az ázsiai autóipar lehagyta digitalizációban Európát

2024. december 21. 10:22

Új platform köti össze a vállalkozókat és partnereiket

2024. december 16. 13:25

CES 2025 előzetes: Elon Musk Amerikája, avagy a világ Musk-ja

2024. december 9. 16:46

Újabb részvételi rekordot döntött az e-Hód

2024. december 9. 11:32