Olvasási idő: 2 perc
A vállalati adattárházak vezetői egyre nagyobb felelősséget visznek a vállukon. Ahogy a cégek folyamatai egyre inkább adatfüggőek, úgy lesz egyre kritikusabb az adattárházak rendelkezésre állása, adatminősége. Sok szakmai vezető jobban függ a reggeli riporttól, mint a reggeli kávéjától…
Nem kérdés, hogy az adattárház vezetőnek ebben a helyzetben két lábon kell a földön állnia, és nagyon kell vigyáznia, hogy az adattárház is szilárd talajon maradjon.
Másrészt viszont tengernyi adat önti el a cégeket, és ennek a feldolgozására mára már nagyvállalati környezetben is működőképes technológiák alakultak ki. Míg a relációs adatbázisokra épülő adattárházakban a „rend” az elsődleges szempont, a NOSQL adattavakba („Data Lake”) minden rendezetlenül betölthető, ráadásul töredék áron vagy ingyenesen elérhető infrastruktúrával.
Érdemes ezekre a „vizes” területekre is elmerészkednie az adattárház vezetőknek, hiszen az új technológiák sok helyen javukra válhatnak:
- Tárhely: az adattárházak drága tárhelyének nagy részén olyan adatok ülnek, amit soha nem kérdeznek le. A logok, régi adatok (archívumok) áttehetők az adattavakba. Sőt, a relációs adatbázisba beerőszakolt strukturálatlan (pl. szöveges) tartalmaktól is meg lehet szabadulni. További lehetőség, hogy a sok helyet foglaló forrásadatok is megőrizhetők eredeti formájukban is, így ha később mégis kell belőlük valami, akkor ez az igény kiszolgálható.
- Számítási kapacitás: a bonyolultabb SQL lekérdezések vagy akár adatbányászati modellek futtatása nem terhelné többé az adattárházat, így a kritikus riportok biztosabban elkészülnek, és az önkiszolgáló BI lekérdezések is gyorsabbak lennének. Ráadásul azok a felhasználói igények is kiszolgálhatók, amelyeket azért nem engedtek eddig az adattárházban futtatni, mert féltek, hogy a nagy terhelés akadályozza a kritikus folyamatokat.
- Realtime és strukturálatlan adatok: a felhasználók egyre jobban igénylik ezeknek az adatoknak a felhasználását is. Ha erre nem kínálunk valamilyen megoldást, akkor – sok konfliktussal együtt – az adattárházakba fognak beszivárogni és veszélyeztetni annak alapstruktúráját.
Mindezekből akkor lehet kihozni a legtöbbet, ha az adattárház maga nyit az új világ felé és tervezi meg az együttműködést a NOSQL rendszerelemekkel. Jobb erre felkészülni, minthogy váratlanul érjenek bennünket ezek a hatások, és akkor időhiányban, nyomás alatt kell cselekedni.
Jelenleg még komoly kihívások vannak az RDBMS-NOSQL (föld és víz) együttműködés gyakorlati megvalósításában. Például az ETL és áttöltő eljárások közös vezérlésében, az egységes metaadat kezelésben vagy a jogosultságok felügyeletében. Ezek mindegyikére található azonban kisebb vagy nagyobb cégek által szállított vagy éppen open source megoldás.
Most érdemes elkezdeni gondolkodni, hogy hogyan kössük össze a vizet a szárazfölddel. A víz biztosan emelkedni fog, az adattárház alapját pedig mindenképp szeretnénk szárazon tartani.
A Hiflylabs üzleti értéket nyer ki az adatokból. A csapat magja jó 15 éve dolgozik ezen, ma már több mint 50 lelkes munkatárssal együtt.