Szövegbányászati alapfogások a The Office sorozat példáján II.

Olvasási idő: 5 perc

A blogposzt előző részében a sorozat szereplőinek szókincseit tártuk fel, most pedig az egymáshoz való viszonyukra, illetve a hasonló szókincseket használó szereplők megtalálására fókuszálunk.

A szövegbányászatnak egyik legkiemelkedőbb altudománya a szentiment-elemzés, mellyel szövegrészekről könnyen eldönthető, hogy pozitív, neutrális vagy negatív tartalmúak. Ennek meghatározására sokféle megközelítés létezik: 

(1) szavankénti kategorizálás pozitív / negatív, vagy emóció – mint düh, öröm, bizalom, stb… – csoportokba,
(2) szavankénti skálázás, ahol a mínusz értékek a negatívot, a plusz előjelek a pozitívat jelentik, illetve
(3) szövegrészekre (mondatokra, bekezdésekre) futtatott, -1 és +1 közötti értékek kinyerése, ahol a -1 a legnegatívabbat a +1 a legpozitívabbat jelöli. 

A következőkben többféle módszerrel is vizsgálódni fogunk, de a lényeg azonos: döntsük el szereplőkről, hogy általánosságban, illetve egymás között pozitívak (kedvesek, barátságosak) vagy negatívok (sértők, gorombák, barátságtalanok).  

Szereplők szentimentumai általánosságban

Ezzel a módszerrel csupán a szereplők által leggyakrabban használt, valamiféle szentimentumot hordozó szavak listáját látjuk. Már itt is kimutatható, hogy egyesek a legnegatívabb szavaikat közel azonos gyakorisággal használják, mint a legpozitívabbakat. Ez az első számú utalás a személy általános viselkedésére.

Ennél azonban van egy alkalmasabb módszer, mellyel a szavakhoz -3 és +3 közötti szentimentum értékeket rendelünk, majd súlyozzuk őket az előfordulásukkal. Ezzel, a második módszerrel (AFINN), szereplőnként megkapjuk a legtöbb pozitív-negatív hozzátett szavakat.

Itt már jobban látszik, hogy Angela, Darryl és Dwight adják a legtöbb negatív érzelmet a szóhasználatuk által. Leggyakrabban használt – szentimentum értékkel bíró – szavaik fele ugyanis negatív tartalmú. Ez sokkal közelebb hoz minket a valósághoz, itt már látjuk, hogy pl. Pam, Jim, Michael szóhasználatuk során, sokkal inkább sugallnak pozitivitást, mint negativitást. Ez alapján általánosságban látható, kik tartoznak az ’inkább kedvesebbek’ közé, s kik alkotják az ’esetlegesen barátságtalanabbak’ listáját. 

Az egyéni – saját szóhasználatból eredő – általános szentimentumok mellett az egymáshoz való viszonyt, egymással való kommunikáció jellegét is lehet értékelni a szentiment-elemzés eszköztárával. Ehhez érdemes elővenni a kapcsolati hálót, mint vizualizációs eszközt, melyen a nyilak iránya és színei mutatják, ki hogy viszonyul a többiekhez.  Sajnos az interaktív hálózatot nem tudjuk beilleszteni a hosszú HTML kódok miatt, de létrehoztunk egy GIF-et, így olvasóink láthatják, amit létrehoztunk.

ezgif-6-47a4653e93f2

Az ábráról például kiderül, hogy mindenki kedvesen fordul Darrylhez, Jim mindenkihez kedves, hiszen az összes őt elhagyó nyíl zöld, míg Dwight például negatívabb tartalmú szavakat használ, mikor Jimhez fordul. Leginkább talán Angelát és Oscart hagyja el a legtöbb piros nyíl, miszerint ők a többiekkel kevésbé kedvesek.  

A legerősebb – leginkább pozitív és negatív – kapcsolatokat külön érdemes megfigyelni. Ekkor azokat a nyilakat hagyjuk az ábrán, amelyek értéke szélsőségesnek tekinthető, azaz az adott személy által átlagosan használt szentiment-szinttől jelentősen eltér.

Ezzel bizonyítható, hogy Jim és Pam kapcsolata a legpozitívabb a sorozatban, míg Angela és kollégái között kölcsönösen barátságtalan a hangvétel. Előbb láttuk, hogy Oscart és Angelát hagyta el a legtöbb piros nyíl, most pedig – az átlagosnál jelentősebb kapcsolatok esetében is – Oscar és Angela között oda-vissza piros nyilat látunk, így míg a Jim és Pam duóról elmondható, hogy a kölcsönösen legkedvesebbek, az Angela-Oscar munkatársi viszony a kölcsönösen legbarátságtalanabb, a teljes sorozatot vizsgálva. 

Jim és Dwight kapcsolatának alakulása

Idő függvényében vizsgálódva szépen kirajzolódik Jim és Dwight kapcsolatának dinamikája. Megfigyelhetjük ahogy riválisból barátokkká válnak.

Kétfajta módszerrel (szavakon és sorokon futtatott szentimentumokkal) is megnéztük és igen hasonló eredményeket tapasztaltunk: Dwight mindig is negatívabb volt Jimhez, mint Jim hozzá, az utolsó évadban viszont sokat fejlődött Dwight és kölcsönösen kedvesen zárták a sorozatot. Megerősítő, hogy a két módszer kimenetelei hasonlók, így az időbeli szentimentum-elemzést sikeresnek tekinthetjük.

Betekintés a szövegek témaköreinek, szókincseinek klaszterezésébe

A szövegelemzésnek szintén egy, talán kevésbé ismert, de kiemelkedőbb területe az úgy nevezett ’topic analysis’ vagy ’topic modeling’, mely algoritmusok segítségével a szöveget szókincsének megfelelően próbálják klaszterezni, azonos kontextusban használt, egymással összefüggésben álló szócsoportokra bontani. Ennek a leggyakoribb felhasználói területe cikkek témaköreinek kinyerése, például egy gazdaságpolitikai cikken belül a pénzügyi és társadalmi fogalmak, szavak különválasztása. 

Ebben az esetben egy másik felhasználási formáját választottam, megpróbáltam megtalálni a „hasonlóan beszélő embereket”. Ehhez 12 klasztert kellett létrehoznom, ugyanis 12 ember sorait elemeztem, és az algoritmus segítségével megnézhettük, mindenkinek saját, egyedi szókincse van-e, vagy vannak hasonlóféleképpen kommunikáló szereplők.

A diagramról elmondható például, hogy Oscar és Angela ugyanabba a klaszterbe kerültek, azaz szókincsük hasonló, ami azzal is magyarázható, hogy mindketten könyvelők. Az is érdekes, hogy Jim és Pam külön-külön klasztereket is kaptak, azaz van egyéni ’szótáruk’, azonban van egy közös témájuk (8. számú), mely mindkettőjük esetében, alacsony százalékban ugyan, de előfordul – ez lehet a kettejük közös, irodán kívüli élete (gyerekek, családok, beszélgetések).

A The Office sorozat szövegbányászati blogunknak második részében a szereplők egyéni általános, illetve egymással való szentimentumaik elemzésére fókuszáltam, valamint röviden kipróbáltam egy szövegtéma klaszterező módszert is, mellyel megtaláltam a közel azonosan felszólaló, hasonló dolgokról beszélő, hasonló szavakat használó személyeket. 

A technikai részletek iránt érdeklődők az eredeti, angol szöveget a Towards Data Science oldalán olvashatják.

Blogvizuál

Szerző:
Rábay Kristóf – Data Scientist

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöljük.