Olvasási idő: 2 perc
A történet szereplője kitalált alak, bárminemű egyezés a valósággal NEM a véletlen műve.
A bejegyzésemhez egy baráti sörözés adta az ihletet, ahol szóba került, mekkora szívás tud lenni az a bizonyos data munging (lánykori nevén adat-előkészítés). A kialakult beszélgetésben egymásra licitálva dobtuk be a korábban látott, vadabbnál vadabb adatminőségi szörnyűségeket, jókat röhögve a projektek során sokszor hajtépést okozó eseteken. A beszélgetés során eljutottunk egy pontra, amikor a lelki szemeink előtt kirajzolódott maga az Adat-Frankenstein. Íme a szörnyszülött fontosabb ismertető jegyei, hogy felismerd, ha esetleg összefutnál vele:
- Az adattábláinkat több darabban kapjuk, tipikusan éves, rosszabb esetben havi extraktumokban.
- Nincs fejlécünk, vagy a fejléc 50 soronként be van ágyazva
- Az egyes extraktumok oszlopszámai különböznek.
- Az értékkészlet alapján látszik, hogy az oszlopok sorrendje nem stimmel.
- A delimiter szerepel bizonyos szabad szöveges mezőkben, ezért importálásnál eltolódik a tartalom.
- Az általunk azonos adattípusnak gondolt oszlopok formátumai (pl. dátum, vagy pénzösszeg) jelentősen eltérnek.
- Kritikus adattartalmú mezők (pl. azonosítók) vége le van vágva.
- Valamilyen jó szándékú kapcsolás következtében duplikálódtak a rekordok.
- A szabad szöveges mezőkben általunk sosem látott karakterek jelennek meg.
- A szöveg jelölő aposztrofok egyike hiányzik.
Felmerül a kérdés: Mi a teendő, ha ilyen szörnyszülöttel találkozol? Több alternatíva kínálkozik:
- Menekülj! – Ez jut eszünkbe először, de egy bátor adatos nem retten meg a kihívástól
- Küldd vissza a feladónak! – Próbálj olyan állományt kérni, ami legalább formailag elfogadható. Ha lehetőség van rá, akkor kérj inkább adatbázis dump állományt, vagy próbálj az adatot kinyerő kollégához közel kerülni, hátha egy-két kellemetlenségtől megkímélheted magad.
- Küzdj meg vele! – A végén úgyis fel kell tűrni az ingujjat, és nekiesni. Nem könnyű, de a sokadik ilyen után már kész scriptjeid, bevett módszereid lesznek a szörny hatástalanításához. Miközben harcolsz, elkezded megismerni, és már agyalhatsz is, hogy milyen mutatókat, kimutatásokat fogsz majd készíteni a domesztikált Frankenstein segítségével.
- Vigyázz, ne told túl! – Az ember hajlamos elsüllyedni egy ilyen feladatban, de tartsuk mindig szem előtt a célt, és ne foglalkozzunk például üzletileg felesleges adatmezők rendbe rakásával.
U.I. Elgondolkoztunk azon, hogy létrehozunk egy ilyen adathalmazt mesterségesen, de rájöttünk, hogy ez igen komplex feladat. Hiába, azokat a rendszereket is sokáig fejlesztették, amik kitermelik ezeket az adat-szörnyeket.
A Hiflylabs üzleti értéket nyer ki az adatokból. A csapat magja jó 15 éve dolgozik ezen, ma már több mint 50 lelkes munkatárssal együtt.
+1: email szövegtörzsbe copyzott adattábla – priceless!
evil.csv, timestamp mezővel, ami az elején és a végén rendezettséget mutat, de valójában nincs sorbarendezve.