Adat-Frankenstein: Adatminőségi rémtörténetek

Olvasási idő: 2 perc

Slide8

A történet szereplője kitalált alak, bárminemű egyezés a valósággal NEM a véletlen műve.

A bejegyzésemhez egy baráti sörözés adta az ihletet, ahol szóba került, mekkora szívás tud lenni az a bizonyos data munging (lánykori nevén adat-előkészítés).  A kialakult beszélgetésben egymásra licitálva dobtuk be a korábban látott, vadabbnál vadabb adatminőségi szörnyűségeket, jókat röhögve a projektek során sokszor hajtépést okozó eseteken. A beszélgetés során eljutottunk egy pontra, amikor a lelki szemeink előtt kirajzolódott maga az Adat-Frankenstein. Íme a szörnyszülött fontosabb ismertető jegyei, hogy felismerd, ha esetleg összefutnál vele:

  • Az adattábláinkat több darabban kapjuk, tipikusan éves, rosszabb esetben havi extraktumokban.
  • Nincs fejlécünk, vagy a fejléc 50 soronként be van ágyazva
  • Az egyes extraktumok oszlopszámai különböznek.
  • Az értékkészlet alapján látszik, hogy az oszlopok sorrendje nem stimmel.
  • A delimiter szerepel bizonyos szabad szöveges mezőkben, ezért importálásnál eltolódik a tartalom.
  • Az általunk azonos adattípusnak gondolt oszlopok formátumai (pl. dátum, vagy pénzösszeg) jelentősen eltérnek.
  • Kritikus adattartalmú mezők (pl. azonosítók) vége le van vágva.
  • Valamilyen jó szándékú kapcsolás következtében duplikálódtak a rekordok.
  • A szabad szöveges mezőkben általunk sosem látott karakterek jelennek meg.
  • A szöveg jelölő aposztrofok egyike hiányzik.

Felmerül a kérdés: Mi a teendő, ha ilyen szörnyszülöttel találkozol? Több alternatíva kínálkozik:

  1. Menekülj! – Ez jut eszünkbe először, de egy bátor adatos nem retten meg a kihívástól
  2. Küldd vissza a feladónak! – Próbálj olyan állományt kérni, ami legalább formailag elfogadható. Ha lehetőség van rá, akkor kérj inkább adatbázis dump állományt, vagy próbálj az adatot kinyerő kollégához közel kerülni, hátha egy-két kellemetlenségtől megkímélheted magad.
  3. Küzdj meg vele! – A végén úgyis fel kell tűrni az ingujjat, és nekiesni. Nem könnyű, de a sokadik ilyen után már kész scriptjeid, bevett módszereid lesznek a szörny hatástalanításához. Miközben harcolsz, elkezded megismerni, és már agyalhatsz is, hogy milyen mutatókat, kimutatásokat fogsz majd készíteni a domesztikált Frankenstein segítségével.
  4. Vigyázz, ne told túl! – Az ember hajlamos elsüllyedni egy ilyen feladatban, de tartsuk mindig szem előtt a célt, és ne foglalkozzunk például üzletileg felesleges adatmezők rendbe rakásával.

U.I. Elgondolkoztunk azon, hogy létrehozunk egy ilyen adathalmazt mesterségesen, de rájöttünk, hogy ez igen komplex feladat. Hiába, azokat a rendszereket is sokáig fejlesztették, amik kitermelik ezeket az adat-szörnyeket.

A Hiflylabs üzleti értéket nyer ki az adatokból. A csapat magja jó 15 éve dolgozik ezen, ma már több mint 50 lelkes munkatárssal együtt.

About Biró Szabolcs

Szoftverfejlesztő és szociológus vagyok. Ez a két terület távolinak tűnik egymástól, de egy ponton biztosan találkoznak, ez pedig az adatelemzés. Az egyetem óta eltelt több mint 10 évet az adatok világában töltöttem, főleg fejlett analitikai feladatokon (leánykori nevén adatbányászat). Jelenleg a Hiflylabsnél a kb. 10 fős fejlett analitikai csapatot vezetem. Azon dolgozunk legalább 6 különböző szektorban, hogy a vállalatok adataiból a lehető legtöbb értéket hozzuk ki, legyen az egy egyszeri feltáró elemzés vagy egy összetett prediktív analitikai motor. Menedzsment feladatok mellett projekt menedzserként vagy vezető tanácsadóként veszek részt a munkában.

2 thoughts on “Adat-Frankenstein: Adatminőségi rémtörténetek

  1. kovlac

    :) evil.csv, timestamp mezővel, ami az elején és a végén rendezettséget mutat, de valójában nincs sorbarendezve.

    Reply

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöljük.