InfoCov: Mi smo o koroni konstantno pisali jednako

Programski ciklus imena “OK knjižnica, OK zajednica” u kojem OK simbolizira pojam “otporne knjižnice” posvećen je osnaživanju zajednice i pojedinca u kontekstu izazova suvremenosti i budućnosti na najrazličitijim područjima života – psihološkom zdravlju, urbanističkom razvoju, tehnološkim revolucijama… Sadržaji programa usmjereni su prema novome, progresivnom i budućnosti s ciljem učenja, inspiriranja i usmjeravanja prema konkretnim akcijama. Podršku projektu “Otporna knjižnica za kvalitetniju zajednicu” koji je dio obilježavanja 2021. kao Godine čitanja pružilo je Ministarstvo kulture i medija Republike Hrvatske i Veleposlanstvo SAD-a u Zagrebu kroz program American Cornera.

Nakon što smo prošli kroz istraživanja iz rukava, zgodnih asocijacija i ružnih konstatacija, došlo je vrijeme za ozbiljnija istraživanja o utjecaju pandemije na naše društvo. Jedno od njih, Višeslojni okvir za karakterizaciju širenja informacija putem društvenih medija tijekom krize COVID-19 (ili kraće: InfoCov), imali smo prilike poslušati u sklopu projekta OK knjižnica, OK zajednica. Započeto prošle godine u srpnju, istraživanje se okrenulo razmatranju obrazaca širenja informacija u vrijeme pandemije COVID-19, dok si je za cilj postavilo definiranje višeslojnog okvira koji obuhvaća različite aspekte širenja informacije i objedinjuje različite pristupe za analizu velikih količina podataka kao što su duboko učenje i metode analiza društvenih mreža. Prema onome što smo imali prilike vidjeti na predstavljanju u Ogranku Trsat, čini se kako se istraživački tim polako bliži ostvarenju svojega cilja

A što smo točno imali prilike čuti? U ime istraživačkog tima su se na predstavljanju redom pojavili glavna istraživačica Ana Meštrović, istraživač Slobodan Beliga te konzultantica Mihaela Matešić. Prva je riječ uzela izvanredna profesorica s Odsjeka za informatiku, Ana Meštrović, koja je ocrtala obrise samoga projekta:

“Fokusirali smo se na analizu online komunikacije medije s obzirom na naše interese. Naš fokus je bio kako algoritmi s područja analize prirodnog jezika i umjetne inteligencije mogu pomoći u analizi svih tih tekstova i poruka koje se objavljuju online. Inače, taj projekt traje dosta kratko s obzirom na to kako smo u tome tek godinu i par mjeseci, ali je trebalo brzo reagirati zbog pandemije. Ti projekti se obično daju na rok od četiri do pet godina, ali ovo je bio specifičan slučaj jer su objavili kratki natječaj.“

Odabrana tema sa sobom je donijela skup problema koje je trebalo prvo razriješiti ako se htjelo doći do validnih znanstvenih rezultata:

“To su ogromne količine tekstove. Kada radite s tekstovima, morate znati što je strojno prepoznatljivo te trenirati nove jezične modele koji će razumjeti novu terminologiju. Ta rasprava na društvenim mrežama vodi se kroz sve teme (medicina, ekonomija, politika, sport itd.). Pandemija je zastupljena u svim područjima života, a tako i u svim online portalima koje smo pratili. Znali smo da se pojavila velika količina informacija od kojih je veliki broj točan; puno je bilo dezinformacija i neprovjerenih informacija. To je veliki izazov.
U analizi prirodnog jezika već imamo provjerene tehnike i metode za promatranje ključnih riječi, pojmova i entiteta koji se pojavljuju u tekstovima. To možemo pratiti kroz vrijeme. Osim toga, omogućava se dobra klasifikacija tekstova. Mi smo se ponajviše fokusirali na analizu sentimenta, a to je klasifikacija poruka u tri klase: pozitivni, negativni i neutralni stavovi. Naravno, prvo morate naučiti algoritam, ali nakon toga on može silnu količinu poruka označiti; tako dobivamo pregled situacije i stavova.“

OSNOVNE INFORMACIJE O PROJEKTU

Glavni istraživač: Izv. prof. dr. sc. Ana Meštrović

Članovi projektnog tima: izv. prof. dr. sc. Ana Meštrović, prof. dr. sc. Sanda Martinčić-Ipšić, dr. sc. Slobodan Beliga, doktorand Karlo Babić, doktorand Milan Petrović, izv. prof. dr. sc. Mihaela Matešić, izv. prof. dr. sc. Zoran Levnajić i Marko Pranjić

Institucija ugovaratelj/matična institucija: Sveučilište u Rijeci, Odjel za informatiku

Naziv projekta: Višeslojni okvir za karakterizaciju širenja informacija putem društvenih medija tijekom krize COVID-19

Ključne riječi projekta: širenje informacija, društveni mediji, analiza društvenih mreža, višeslojna mreža, analiza prirodnog jezika, duboko učenje

Kako bi napisana ideja profunkcionirala, trebalo je sagraditi korpus podataka. I kada kažemo sagraditi, uistinu mislimo sagraditi:

“Reprezentacija tekstova s portala ili Twittera uči se iz velikih količina tekstova. Uči se kontekst i taj se pojam (*ili na kraju cijela poruka) reprezentira kao jedan numerički vektor veličine 500 do 1000 tih značajki. To je vektor niske dimenzionalnosti s obzirom na to kako smo prije radili s ogromnim vektorima. Na tome se dalje uče klasifikatori, a da bi se mogli naučiti, moramo imati ogroman korpus podataka koji su već anotirani (*koje su poruke pozitivne, negativne ili neutralne.) Na temelju toga se može učiti dalje. Na jezičnom modelu radili smo gotovo godinu dana. Postoje jezični modeli koji za engleski rade jako dobro, ali za jezike koji su slabije zastupljeni postoje oni koji nisu samo za hrvatski, već primjerice za hrv-slo-eng. To smo dodatno utrenirali, a u zadnjoj fazi smo još dodatno trenirali za klasifikaciju sentimenta.
Morali smo prikupiti ogromne količine podataka pa su tu tekstovi s online portala, korisnički komentari s portala (*sve je anonimno), preko milijun objava s Twittera (*poslije filtriranja 106.216). Samo na tvitovima pisanima na hrvatskom jeziku smo radili anotaciju. Deset tisuća tvitova trebalo je ručno odrediti ako su pozitivni, negativni ili neutralno. Još smo prikupljali s Reddita, foruma, YouTubea itd. U principu je to veliki korpus i veliki posao.“

Tijekom cijelog tog procesa trebalo je odgovoriti i na sljedeće pitanje – kako definiramo sentiment te koliko sentimenata imamo? Odgovore na ta pitanja ponudila je izvanredna profesorica s Odsjeka za kroatistiku, Mihaela Matešić:

“Analiza sentimenta dolazi od engleskog termina sentimental analysis koji podrazumijeva dubinsko pretraživanje mišljenja (*opinion mining). Dubinsko pretraživanje mišljenja došlo je iz reklamne industrije. Prve analize sentimenta provođene su kako bi se upoznali stavovi klijenata o pojedinim proizvodima ili kretanjima u društvu. Prema tome se određivalo što će se pustiti u ponudu, kako će se pristupiti klijentu, kako će im se ugoditi. U znanosti se ta potreba iskoristila za posve druge stvari. Računalna obrada prirodnog jezika ima analitički pristup te ona služi da se obradi velika količina podataka i da se dođe do zaključaka o stavovima pojedinca te da mi steknemo uvid u to što društvo misli o nečemu, kakve stavove ima i kakav je osjećaj prisutan u društvu.
Kada govorimo o društvu, ono što smo mi analizirali je samo segment. To nije cijelo društvo. To se nije ni moglo u ovako kratkom projektu ali analizirali smo jedan veliki, dinamični dio društva, a to je život na društvenim mrežama i komunikaciju na njima. To ne obuhvaća sve stanovnike ove zemlje, ali daje uvid u ono što se događa kod onih članova koji žive na njima i informiraju se po njima. Već odavno novine, radio i TV nisu izvori informacija za jedan mlađi dio društva ili onaj koji je općenito aktivan na društvenim te koji ne mora biti mlađi. Cilj analize sentimenta jest identificiranje kakvo je mišljenje i kakva je emocija procijenjena da se može pridružiti određenom istupu u javnosti. U našem slučaju, upisu na društvenoj mreži.
Metodologija je različita, ali počiva na suprotnostima pozitivan-negativan-neutralan, na toj jednoj trijadi u okviru koje promatramo je li neka poruka više išla u smjeru podržavanja, suprotstavljanja ili je bila neutralna čime autor nije iskazao nikakav stav prema temi. Naravno, možete se pitati ako su dovoljna tri stupnja. Neki drugi su primjenjivali višestupanjski pristup pa su imali peterostupanjsku procjenu gdje se radi o tome da je neki stav pozitivan, ali ovaj drugi koji je isto pozitivan nije izrazito pozitivan pa ga se označava manje pozitivnim, ali ne i negativnim ili neutralnim. O toj ljestvici mogli bismo raspravljati unedogled i imati 50 stupnjeva. Međutim, i kod ranijih i kod nas se pokazalo da je trostupanjski (pristup) dovoljno dobar.“

I dok teorija uvijek lijepo zvuči, uvijek su nam draži primjeri koje donosimo u nastavku:

Pozitivna

Zagreb je korona free grad. To je izvrsna vijest.

Ili

94 dana borbe protiv koronavirusa je bilo ispunjeno izazovima, uspjehom i solidarnosti. Jedino zajedno smo uspjeli doći do ovakvog grafa i samo dva novooboljela u protekla šest dana.

Negativna

Virus šire neodgovorni pojedinci koji se ne drže izolacije, a u bolničkom sustavu nisu. Virus liječnici koji su zatajili boravak na skijanju u inozemstvu.

Ili

Ovako pokvarena vlast razmišlja: koronavirus nije opasan, većina će se oporaviti, starčad je ionako za krepat, gdje su sad novinari i sve one udruge za zaštitu i promicanje ovog i onog i zašto ne viču za kaznenu prijavu protiv namjerno nesposobnog ministra i vladajućih.

Neutralna

Svjetska zdravstvena organizacija (WHO) razgovore o pandemiji nastavlja sutra.

Ili

U Hrvatskoj u posljednja 24 sata zabilježeno je novih 50 zaraženih koronavirusom. Ukupno je 1650 oboljelih, a preminule su dvije zaražene osobe.

Uz same primjere, profesorica Matešić povezala je uz dvije napomene koje tjeraju na razmišljanje:

“Pozitivnih objava bilo je najmanje jer je kod ljudi bilo najmanje potrebe za upisivanjem nečega na društvene mreže što bi bilo poticajno; jedva oko 5% posto. Negativne i neutralne podijelile su se pola/pola; možda je malo više bilo neutralnih. Anotatori su potvrdili da nisu bili svjesni koliko ima negativnih upisa na društvenim mrežama.
Primijetili smo kako u našem društvu postoji, kada je riječ o negativnim upisima, jedna društvena pojava humorističnog pristupa negativnosti; ismijavanja sarkastičnih upisa. Društvo smo koje negativnost dominantno komentira kroz šalu. Ovakvih izrazitih napada koje smo izdvojili ima, ali unutar toga je znatan broj onih koji bacaju na šalu. To je i dalje negativan komentar i kritika postojeće situacije i ljudi.

S obzirom na to kako je riječ o tekućem projektu, znanstveni trojac nije mogao previše govoriti o rezultatima. No, Ana Meštrović i Slobodan Beliga ukazali su na najvažnije narative i zaključke do kojih su uspjeli doći (zasad). Glavna istraživačica je na temelju analize poruka s Twittera došla do zaključka kako je kroz prvi val bilo bitno vezati sentiment uz same događaje; do Uskrsa je vladao pozitivan sentiment, a onda je stvar brzim korakom počela korodirati sve do kraja vala i početka ljeta kada je sentiment počeo uzlijetati samo da bi se nenadano zabio u parlamentarne izbore. Kako je korpus rastao, tako je počela rasti spoznaja kako se istraživački tim našao pred nesagledivom količinom negativnog sentimenta zbog kojeg je u jednom trenutku odlučio gledati isključivo negativno – nije negativno. Stvar je jednostavno – gotovo 50% tvitova bilo je negativno okarakterizirano.

S druge strane, istraživanje portala krenulo je drugim rukavcima te je dalo nove poglede na infodemiju koju smo imali prilike gledati ravno u oči zadnjih nekoliko mjeseci. Ipak, za Slobodana Beligu i tim nije riječ o jednoznačnom, antagonističnom pojmu:

Sama infodemija je nova riječ i novi pojam koji uvijek kad ga čujemo asociramo kao negativnu pojavu. To je prenatrpanost informacijama. Zadatak koji smo si postavili je uvidjeti koliko je ona negativna ili nije. Koristili smo poznate i definirane pristupe znanosti.

No, što su točno tražili?

Sličnost između pojedina dva mjeseca u smislu ako se u siječnju pisalo isto kao u veljači ili u ožujku. Primjerice, gledate li siječanj i veljaču, vidjet ćete da se pisalo o jako različitim temama jer u Hrvatskoj koronavirusa tada još nije bilo. Ako se sjećate, 5.veljače smo imali prvi slučaj zaraze u Zagrebu. Od veljače nadalje, sve je više i više sličnosti u temama. Zanimljiv je trokut od petog do desetog mjeseca. To su ljetni mjeseci kada nam je val stagnirao te su se konstantno vrtjele iste teme.
Fokusirali smo se i na usporedbu prvog i drugog epidemijskog vala. Zanimalo nas je o kojim temama pišemo u prvom, a o kojima u drugom. O higijeni i simptomima se najviše pisalo u prvom valu. O medikamentima i lijekovima pisalo se na samom početku prvog vala jer smo se tada pitali ako nam mogu pomoću protiv nove bolesti. U drugom valu pak o cjepivu; u prvom valu ga nismo imali pa nismo ni pisali toliko o njemu. O pojmovima vezanima za sam život i zaštitu (npr. postotak zaraženost, pozitivni, testiranje) podjednako se govorilo u prvom i drugom valu. Izjave i imena osoba u medijima bile su više u drugom valu; o tome se može raspravljati, ali sigurno točna informacija je da je drugi val duže trajao te da je bilo više zaraženih. To je sigurno jedan razlog zašto je bilo više istupa.
Fokusirali smo se i na osobe; koje su se to osobe najviše spominju (npr. znanstvenici, političari, epidemiolozi). U kojim se to gradovima i županijama najviše raspravljalo ili o kojima se najviše pisalo. Dosta nas je poremetio i potres; isto tako nas je zanimalo koja je to treća kategorija kao primjerice događaji kojih je bilo jako malo zbog lockdowna.

Njihovi rezultati dovode nas do hladnog zaključka drugog dijela istraživanja:

“Pokazalo se da smo mi o koroni konstantno pisali jednako. Nije tu bilo neke razlike između prvog i drugog vala, čak ni u periodu kada je korona stagnirala. Mi smo bili u infodemiji, konstantno smo bili natrpani informacijama, porukama.“

Važnost ispisanog zaključka, a time i cijelog istraživanja, dodatno je podcrtala Mihaela Matešić:

“Infodemija koja se pojavljuje s pandemijom je zasigurno veliki izazov. Ona je veliki izazov u svakodnevnom životu, onima koji se svakodnevno nastoje oduprijeti pandemiji, onima koji se bore protiv nje u zdravstvenom sustavu, i onima koji žive s njom; posebice mi u velikim sustavima kao što su npr. visoko obrazovanje. Infodemija je pojava koju ne treba nužno promatrati kao pozitivnu ili negativnu. Treba evidentirati da ona postoji, da smo zatrpani informacijama, i to informacijama koje su različitog ranga i vrijednosti. Tu smo dali naš prilog. Obradom velike količine tekstove u kojoj su pomogle metode NLP-a i AI-a. U interpretaciji rezultata primijenili smo interdisciplinarnepristupe i cijelo istraživanje je te interdisciplinarne naravi.
Unutar ove pandemije imamo situaciju da se znanost prerano pita, vuče za rukav. Onda se može dogoditi djelomična, privremena informacija koja vrlo često u javnom prostoru izgubi pridjev privremena i postane vijest. Stoga oprezno sa znanstvenim informacijama jer one moraju biti relevantne i samo takve želimo davati.“

A projektni tim InfoCov-a raduje se što će u bližoj budućnosti imati prilike podijeliti svoja istraživanja široj javnosti preko njihovih službenih stranica koje možete pronaći ovdje. U planu je aplikacija pomoću koje će niz rezultata biti lakše kontekstualizirati i vizualizirati, a držimo fige da njihov tekući projekt dobije i zasluženo produženje kako bi se pozabavili fenomen fake news te drugim društvenim aspektima koje su u zadnjih godinu dana imali samo prilike ovlaš dotaknuti.

InfoCov: Mi smo o koroni konstantno pisali jednako

Napisao: David Čarapina