Olvasási idő: 2 perc
A gyakorlati adatelemző munkában az az általános tapasztalat, hogy az előrejelzéseket sokkal inkább lehet újabb szempontok bevonásával javítani, mint az alkalmazott modell típusát igazítgatva. Ezt szokták néha úgy leegyszerűsíteni, hogy „több adatból jobb előrejelzést lehet csinálni”. A „több adat” alatt nem gigabájtokat kell értenünk, hanem olyan újabb megközelítéseket, amelyek segítségével mélyrehatóbban leírhatjuk mondjuk az ügyfelek viselkedését. Például ha a várható vásárlásokat nem csak a múltbeli eladási adattokból akarjuk előre jelezni, hanem ehhez hozzátesszük az ügyfélszolgálati rendszer adatait is. Ez az adatgazdagítás. Az adatgazdagítás azonban fáradságos munka.
Egyrészt el kell felejteni azt a szabályt, hogy „az adatelemző feladata a rendelkezésére álló adatból a legjobb előrejelzést kihozni”. Ehelyett azon kell elgondolkozni, hogy milyen adattal lehetne további elemzési szempontokhoz jutni.
Másrészt pedig újabb jelentős energiákat kell tenni az adatelőkészítésbe. Hiszen ha valamilyen értékes adat könnyen felhasználható lenne, akkor valószínűleg már rendelkezésre állna. Tehát vigyáznunk kell, hogy milyen adatforrásokat szemelünk ki. Sok munka mehet el az adatforrás megszerzésével, és főleg azzal, hogy hozzáillesszük a meglévő adatainkhoz, majd alkalmassá tegyük az elemzésre.
Adatgazdagítás kapcsán egyre gyakrabban kézenfekvő megoldásnak tűnik, hogy szerezzünk be az „adatokat az internetről”. Miért fordul valaki ehhez a megoldáshoz? Meglepő, de a céges belső adatok egy részéhez néha sokkal nehézkesebb a hozzáférés (másik szervezeti egységet kell megkérni, igénydefiníciót írni, jogász beleegyezését megszerezni, stb.) A professzionális adatszolgáltatóktól való adatvásárlás pedig sokszor nem lehetséges az ára, a beszerzési folyamat nehézsége vagy egyszerűen amiatt, hogy nem lehet olyan adatot kapni, amire szükségünk volna.
A könnyen beszerezhető publikus adatok világa viszont maga a Vadnyugat. Külön posztot érdemel, hogy milyen kihívásokkal kell számolni, ha ezt a megoldást választjuk.
Egy köztes utat találnék járhatónak. Megítélésem szerint az adatgazdagítás leghasznosabb formája az lenne, ha a különböző cégek a saját adataikat osztanák meg egymással. Ez egyáltalán nem lehetetlen, és jogilag is kivitelezhető, persze az adatvédelmi jogszabályok betartásával. A dolog kulcsa, hogy a megosztott adatok soha nem ügyfél szintűek, hanem mikroszegmensekre vonatkoznak, az ún. hármas szabály betartásával (ld Statisztikai törvény, 19.paragrafus). A mikroszegmensek területi, geodemográfiai (korcsoport, nem, végzettség stb.), jövedelmi, társadalmi státusz vagy hasonló kategorizálás alapján kerülnek kialakításra.
Egy közszolgáltató megoszthatja például az átlagos számlaértéket, egy telekommunikációs cég a mobiladat használat mértékét vagy egy bank a kártyás költések arányát. Ezért az adatért pedig pénzt kérhet partnereitől. Találkoztam ilyen jellegű megállapodással már a magyar piacon is, de egyelőre csal kísérleti jelleggel.
Milyen adatokat osztanátok meg szívesen másokkal? Cserébe milyen adatokért fizetnétek, ami a saját elemzői munkátokat hatékonyabbá tenné?
A Hiflylabs üzleti értéket nyer ki az adatokból. A csapat magja jó 15 éve dolgozik ezen, ma már több mint 50 lelkes munkatárssal együtt.