Adat-Frankenstein: Adatminőségi rémtörténetek

8 - data_frankenstein_500x600

A történet szereplője kitalált alak, bárminemű egyezés a valósággal NEM a véletlen műve.

A bejegyzésemhez egy baráti sörözés adta az ihletet, ahol szóba került, mekkora szívás tud lenni az a bizonyos data munging (lánykori nevén adat-előkészítés).  A kialakult beszélgetésben egymásra licitálva dobtuk be a korábban látott, vadabbnál vadabb adatminőségi szörnyűségeket, jókat röhögve a projektek során sokszor hajtépést okozó eseteken. A beszélgetés során eljutottunk egy pontra, amikor a lelki szemeink előtt kirajzolódott maga az Adat-Frankenstein. Íme a szörnyszülött fontosabb ismertető jegyei, hogy felismerd, ha esetleg összefutnál vele:

  • Az adattábláinkat több darabban kapjuk, tipikusan éves, rosszabb esetben havi extraktumokban.
  • Nincs fejlécünk, vagy a fejléc 50 soronként be van ágyazva
  • Az egyes extraktumok oszlopszámai különböznek.
  • Az értékkészlet alapján látszik, hogy az oszlopok sorrendje nem stimmel.
  • A delimiter szerepel bizonyos szabad szöveges mezőkben, ezért importálásnál eltolódik a tartalom.
  • Az általunk azonos adattípusnak gondolt oszlopok formátumai (pl. dátum, vagy pénzösszeg) jelentősen eltérnek.
  • Kritikus adattartalmú mezők (pl. azonosítók) vége le van vágva.
  • Valamilyen jó szándékú kapcsolás következtében duplikálódtak a rekordok.
  • A szabad szöveges mezőkben általunk sosem látott karakterek jelennek meg.
  • A szöveg jelölő aposztrofok egyike hiányzik.

Felmerül a kérdés: Mi a teendő, ha ilyen szörnyszülöttel találkozol? Több alternatíva kínálkozik:

  1. Menekülj! – Ez jut eszünkbe először, de egy bátor adatos nem retten meg a kihívástól
  2. Küldd vissza a feladónak! – Próbálj olyan állományt kérni, ami legalább formailag elfogadható. Ha lehetőség van rá, akkor kérj inkább adatbázis dump állományt, vagy próbálj az adatot kinyerő kollégához közel kerülni, hátha egy-két kellemetlenségtől megkímélheted magad.
  3. Küzdj meg vele! – A végén úgyis fel kell tűrni az ingujjat, és nekiesni. Nem könnyű, de a sokadik ilyen után már kész scriptjeid, bevett módszereid lesznek a szörny hatástalanításához. Miközben harcolsz, elkezded megismerni, és már agyalhatsz is, hogy milyen mutatókat, kimutatásokat fogsz majd készíteni a domesztikált Frankenstein segítségével.
  4. Vigyázz, ne told túl! – Az ember hajlamos elsüllyedni egy ilyen feladatban, de tartsuk mindig szem előtt a célt, és ne foglalkozzunk például üzletileg felesleges adatmezők rendbe rakásával.

U.I. Elgondolkoztunk azon, hogy létrehozunk egy ilyen adathalmazt mesterségesen, de rájöttünk, hogy ez igen komplex feladat. Hiába, azokat a rendszereket is sokáig fejlesztették, amik kitermelik ezeket az adat-szörnyeket.

A Hiflylabs üzleti értéket nyer ki az adatokból. A csapat magja jó 15 éve dolgozik ezen, ma már több mint 50 lelkes munkatárssal együtt.

About Biró Szabolcs

Szoftverfejlesztő és szociológus vagyok. Ez a két terület távolinak tűnik egymástól, de egy pont biztosan van, ahol találkoznak, ez pedig az adatelemzés. Az egyetem óta több mint 7 éves tapasztalatot szereztem az adatok világában. Jelenleg a Hiflylabsnél dolgozom, változatos feladatokat végzek: data science, projektvezetés, kezdő kollégák mentorálása, innovációs projektek irányítása, sales aktivitások támogatása. Számokban: ► 20+ prediktív modellt építettem az elmúlt 7 év során. ► Az elmúlt 2 évben 10+ különböző méretű projekttért voltam felelős 1000+ szakértői nappal. ► Eddig több mint 20 mentoráltam volt.

2 thoughts on “Adat-Frankenstein: Adatminőségi rémtörténetek

  1. kovlac

    :) evil.csv, timestamp mezővel, ami az elején és a végén rendezettséget mutat, de valójában nincs sorbarendezve.

    Reply

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöljük.