250-szer a Föld körül: hatalmas genetikai adatbázis Oracle 10g-alapokon

forrás Prim Online, 2006. január 24. 11:26
A Wellcome Trust Sanger intézet "World Trace Archive" nevű, DNS-szekvenciákat nyilvántartó adatbázisának mérete nemrégiben elérte az egymilliárd rekordot. Az Oracle adatbázis-technológiájára alapuló Trace Archive a világ tudományos közössége által felkutatott és közreadott összes génszekvencia gyűjteménye, amely tartalmazza a Sanger génkutató intézet saját, hatalmas mennyiségű kutatási eredményeit.
Az archívumban tárolt adatok mennyiségének érzékeltetésére képzeljük el azt, hogy ha egyetlen szövegsorban lennének leírva, az 250-szer körbeérné a Földet. A4-es papírlapokra kinyomtatva a lapok kötege két és félszer magasabb lenne, mint a Mount Everest. Az archívum 22 terabájt nagyságú, és mérete minden hónapban megduplázódik - ez valószínűleg Európa, vagy talán a világ legnagyobb tudományos adatbázisa.

Ez a milliárdos rekordmennyiség minden más ismert adattárnál nagyobb. Összehasonlításképp: a British Library 13 millió tételt tartalmaz, az amerikai kongresszusi könyvtár 115 milliót, míg a Trace Archive egymilliárd különálló információs egységet tárol.

Az egyes genetikai adatrekordok átlagosan 864 karakter hosszúságúak. A tudósok a génszekvenciák között kereshetnek, és egymáshoz illeszthetik azokat a különböző élőlények (egerek, halak, legyek, baktériumok és persze az ember) teljes géntérképének összeállításához. Az adatok a világ bármely pontjáról korlátozás nélkül hozzáférhetők a génkutatók és szakemberek számára, akik egy adott betegség vagy gén tanulmányozása során könnyen letölthetik az adott területhez kapcsolódó már feltárt genetikai információt. Az egészség és a betegségek biológiai hátterét tanulmányozó tudományos és kereskedelmi szervezetek orvosbiológus kutatói aktívan használják ezeket az adatokat.

Martin Widlake, a Wellcome Trust Sanger intézet adatbázis-szolgáltatásokért felelős igazgatója ezt mondta: "22 ezer gigabájtos méretével a Trace Archive a világ tíz legnagyobb UNIX-adatbázisa között van. Ez nem rossz teljesítmény egy 850 dolgozót foglalkoztató kutatási szervezettől, amely Cambridge határában található. "Az adathalmaz növekedésével egyre nagyobb problémát jelent az adatok elérése" - folytatta Martin Widlake. "Az egész adatbázisból egy adott génszekvenciát előkeresni olyan, mintha egyetlen mondatot keresnénk a British Library anyagában, ami meglehetősen munkaigényes feladat. A Sanger intézet csapata mindamellett olyan új módszereken dolgozik, amelyek könnyebbé teszik az adatok keresését és elérését."

Ezt a hatalmas mennyiségű adatot egy Oracle Database 10g adatbázis kezeli. A feldolgozott adatokat négy HP ES45 szerverből álló fürt tölti fel az adatbázisba. A Winter Corporation 2005-ös, adatbázisokról készült felmérése szerint (amely a világ legnagyobb adatbázisait sorolja fel) a Trace Archive az ötödik helyezést éri el olyan óriások mögött, mint az AT&T, a Yahoo és egyéb globális vállalatok. A Winter listáján az Oracle-adatbázisok a legtöbb kategóriában az első helyen állnak. Így például Oracle-alapokon működik a világ legnagyobb kereskedelmi adatbázisa, a világ legnagyobb tudományos adatbázisa és a legnagyobb Linux alapú adatbázis is.

Nyomozás a DNS után

A DNS-szekvenciák meghatározásánál a genetikai kód minden egyes "betűjét" (bázisát) fluoreszkáló anyaggal jelölik meg. A szekvenciát robotok olvassák ki, amelyek az egyes bázisokat a vörös, zöld, sárga vagy kék fluoreszcens fény mérési értékének csúcsaként érzékelik. A bázisoknak ez a leképezése a "nyom".

Egy-egy ilyen nyers adatfájl nagyjából 200 KB méretű. A nyomot a robot szoftvere értelmezi, és hozzárendeli a megfelelő betűket (szaknyelven: "behívja" a bázisokat). A szekvenciát így kereshető karaktersorozattá alakítja. A közel egybillió karakterben történő kereséshez (egymilliárd rekord átlagosan 864 bázisról, továbbá néhány korábbi verziójú régebbi rekord) egyre gyorsabb programokra van szükség.

  • A Wellcome Trust Sanger intézetet 1992-ben alapították az ember és az egér génállományának feltérképezésére irányuló brit projekt központjaként. Az intézet az emberi génszekvenciák megközelítőleg egyharmadának, illetve az egerek esetében egyötödének feltérképezéséért felelős. A Wellcome Trust Sanger intézet székhelye a Cambridge megyei Hinxtonban található, az Egyesült Királyságban.
Kulcsszavak: tudomány Oracle

Színes ROVAT TOVÁBBI HÍREI

Egy új tévé színt visz a mindennapokba

Ma már nemcsak azért vásárolunk televíziót, mert a sugárzott műsorokat szeretnénk nézni, hanem mert a forradalmian új készülékek számtalan lenyűgöző funkcióval lettek ellátva. Hozzájárulnak ahhoz, hogy magasabb szintre emeljük a tévézés élményét.

2024. április 28. 22:16

A múlt feltárása, a jövő segítségével!

Kevés izgalmasabb terület létezik a régészetnél. Vajon mi rejtőzik a régi idők, épületek falai mögött? Felfedezések, meglepetések sokasága, amire nem igazán lehet felkészülni. Egy ilyen terepmunkát azonban nem lehet csak úgy, ásóval elvégezni, és még Indiana Jonesnak is óriási segítség egy-egy digitális, innovatív, 21. századi eszköz!

2024. április 15. 18:46

Megéri-e az elektromos autózás?

Az elektromos autók használata ugyan már nem új keletű dolog, mégis még mindig nagyon megosztó témának számít. Vannak megrögzött ellenzői és szinte már vallásos áhitattal tisztelői is ennek a közlekedési eszköznek, de az igazság vélhetően valahol a kettő között lesz. Nagyban múlik ugyanis sok dolog azon is, hogy milyen felhasználói szokásaid vannak a mindennapokban. A következő cikkben azonban összegyűjtöttük az elektromos autózás néhány pozitívumát.

2023. június 19. 09:31

Mire jók a chatbotok?

Éjjel-nappal elérhető chates ügyfélszolgálatot fenntartani igen költséges. A legtöbb weboldal számára nem is érné meg. Van azonban egy módszer, amivel jelentősen lehet növelni a felhasználói élményt, mégpedig chatbot használatával.

2023. június 16. 10:27

Hogyan válassz szoftverfejlesztő céget 5 lépésben?

Ha jelentős tőkét, erőforrásokat és időt fektetsz be egy szoftverfejlesztési projektbe, akkor egyáltalán nem mindegy, hogy milyen cégnek szervezed ki az adott feladatot.

2023. április 24. 09:12

Kövess minket a Facebookon!

Cikkgyűjtő

További fontos híreink

Megvannak 2024 legvonzóbb hazai munkaadói

2024. április 29. 11:38

Ingyenes digitális platform segít a tanároknak és diákoknak az érettségire való felkészülésben

2024. április 20. 11:36

Itt a világ első, Swarovski kristályba ágyazott autós kijelzője

2024. április 10. 14:55

A csevegőprogramokat vizsgálta az NMHH

2024. április 2. 13:14