250-szer a Föld körül: hatalmas genetikai adatbázis Oracle 10g-alapokon

forrás Prim Online, 2006. január 24. 11:26
A Wellcome Trust Sanger intézet "World Trace Archive" nevű, DNS-szekvenciákat nyilvántartó adatbázisának mérete nemrégiben elérte az egymilliárd rekordot. Az Oracle adatbázis-technológiájára alapuló Trace Archive a világ tudományos közössége által felkutatott és közreadott összes génszekvencia gyűjteménye, amely tartalmazza a Sanger génkutató intézet saját, hatalmas mennyiségű kutatási eredményeit.
Az archívumban tárolt adatok mennyiségének érzékeltetésére képzeljük el azt, hogy ha egyetlen szövegsorban lennének leírva, az 250-szer körbeérné a Földet. A4-es papírlapokra kinyomtatva a lapok kötege két és félszer magasabb lenne, mint a Mount Everest. Az archívum 22 terabájt nagyságú, és mérete minden hónapban megduplázódik - ez valószínűleg Európa, vagy talán a világ legnagyobb tudományos adatbázisa.

Ez a milliárdos rekordmennyiség minden más ismert adattárnál nagyobb. Összehasonlításképp: a British Library 13 millió tételt tartalmaz, az amerikai kongresszusi könyvtár 115 milliót, míg a Trace Archive egymilliárd különálló információs egységet tárol.

Az egyes genetikai adatrekordok átlagosan 864 karakter hosszúságúak. A tudósok a génszekvenciák között kereshetnek, és egymáshoz illeszthetik azokat a különböző élőlények (egerek, halak, legyek, baktériumok és persze az ember) teljes géntérképének összeállításához. Az adatok a világ bármely pontjáról korlátozás nélkül hozzáférhetők a génkutatók és szakemberek számára, akik egy adott betegség vagy gén tanulmányozása során könnyen letölthetik az adott területhez kapcsolódó már feltárt genetikai információt. Az egészség és a betegségek biológiai hátterét tanulmányozó tudományos és kereskedelmi szervezetek orvosbiológus kutatói aktívan használják ezeket az adatokat.

Martin Widlake, a Wellcome Trust Sanger intézet adatbázis-szolgáltatásokért felelős igazgatója ezt mondta: "22 ezer gigabájtos méretével a Trace Archive a világ tíz legnagyobb UNIX-adatbázisa között van. Ez nem rossz teljesítmény egy 850 dolgozót foglalkoztató kutatási szervezettől, amely Cambridge határában található. "Az adathalmaz növekedésével egyre nagyobb problémát jelent az adatok elérése" - folytatta Martin Widlake. "Az egész adatbázisból egy adott génszekvenciát előkeresni olyan, mintha egyetlen mondatot keresnénk a British Library anyagában, ami meglehetősen munkaigényes feladat. A Sanger intézet csapata mindamellett olyan új módszereken dolgozik, amelyek könnyebbé teszik az adatok keresését és elérését."

Ezt a hatalmas mennyiségű adatot egy Oracle Database 10g adatbázis kezeli. A feldolgozott adatokat négy HP ES45 szerverből álló fürt tölti fel az adatbázisba. A Winter Corporation 2005-ös, adatbázisokról készült felmérése szerint (amely a világ legnagyobb adatbázisait sorolja fel) a Trace Archive az ötödik helyezést éri el olyan óriások mögött, mint az AT&T, a Yahoo és egyéb globális vállalatok. A Winter listáján az Oracle-adatbázisok a legtöbb kategóriában az első helyen állnak. Így például Oracle-alapokon működik a világ legnagyobb kereskedelmi adatbázisa, a világ legnagyobb tudományos adatbázisa és a legnagyobb Linux alapú adatbázis is.

Nyomozás a DNS után

A DNS-szekvenciák meghatározásánál a genetikai kód minden egyes "betűjét" (bázisát) fluoreszkáló anyaggal jelölik meg. A szekvenciát robotok olvassák ki, amelyek az egyes bázisokat a vörös, zöld, sárga vagy kék fluoreszcens fény mérési értékének csúcsaként érzékelik. A bázisoknak ez a leképezése a "nyom".

Egy-egy ilyen nyers adatfájl nagyjából 200 KB méretű. A nyomot a robot szoftvere értelmezi, és hozzárendeli a megfelelő betűket (szaknyelven: "behívja" a bázisokat). A szekvenciát így kereshető karaktersorozattá alakítja. A közel egybillió karakterben történő kereséshez (egymilliárd rekord átlagosan 864 bázisról, továbbá néhány korábbi verziójú régebbi rekord) egyre gyorsabb programokra van szükség.

  • A Wellcome Trust Sanger intézetet 1992-ben alapították az ember és az egér génállományának feltérképezésére irányuló brit projekt központjaként. Az intézet az emberi génszekvenciák megközelítőleg egyharmadának, illetve az egerek esetében egyötödének feltérképezéséért felelős. A Wellcome Trust Sanger intézet székhelye a Cambridge megyei Hinxtonban található, az Egyesült Királyságban.
Kulcsszavak: tudomány Oracle

Színes ROVAT TOVÁBBI HÍREI

Már most nézőrekordot állított fel a Hogyan tudnék élni nélküled?

Még messze a december 12-ei premier, de az érdeklődés folyamatosan nő az év lejobban várt magyar filmjének ígérkező Hogyan tudnék élni nélküled? iránt. A Demjén Ferenc slágereire felfűzött zenés romantikus vígjáték első előzetese egy hónap alatt elérte az 1 millió megtekintést, ami azért kiemelkedő, mert ezt eddig idén sem hazai, sem külföldi film nem tudta utána csinálni. Sőt erre az eredményre az elmúlt évtizedben egyetlen magyar film sem volt képes. 

2024. szeptember 4. 13:20

Utazási konferencia az Angyalok városában

A dinamizmust tükrözte az idei utazási világkiállítás, az IPW2024, és ezt sugározza a helyszín is: Los Angeles, Kalifornia.
 

2024. május 17. 18:51

Egy új tévé színt visz a mindennapokba

Ma már nemcsak azért vásárolunk televíziót, mert a sugárzott műsorokat szeretnénk nézni, hanem mert a forradalmian új készülékek számtalan lenyűgöző funkcióval lettek ellátva. Hozzájárulnak ahhoz, hogy magasabb szintre emeljük a tévézés élményét.

2024. április 28. 22:16

A múlt feltárása, a jövő segítségével!

Kevés izgalmasabb terület létezik a régészetnél. Vajon mi rejtőzik a régi idők, épületek falai mögött? Felfedezések, meglepetések sokasága, amire nem igazán lehet felkészülni. Egy ilyen terepmunkát azonban nem lehet csak úgy, ásóval elvégezni, és még Indiana Jonesnak is óriási segítség egy-egy digitális, innovatív, 21. századi eszköz!

2024. április 15. 18:46

Megéri-e az elektromos autózás?

Az elektromos autók használata ugyan már nem új keletű dolog, mégis még mindig nagyon megosztó témának számít. Vannak megrögzött ellenzői és szinte már vallásos áhitattal tisztelői is ennek a közlekedési eszköznek, de az igazság vélhetően valahol a kettő között lesz. Nagyban múlik ugyanis sok dolog azon is, hogy milyen felhasználói szokásaid vannak a mindennapokban. A következő cikkben azonban összegyűjtöttük az elektromos autózás néhány pozitívumát.

2023. június 19. 09:31

Kövess minket a Facebookon!

Cikkgyűjtő

További fontos híreink

Gépek is rajthoz állnak a most induló Országos IT Megmérettetésen

2024. október 28. 18:06

Megnyitott a Vatera Galéria, a válogatott műtárgyak új platformja

2024. október 22. 15:25

Egy év alatt 45 milliárd forintot loptak el tőlünk a digitális bűnözők

2024. október 15. 16:51

Idén már ezernél is több résztvevőt várnak a Service Design Day-re

2024. október 7. 09:59