Širenje informacija o COVID-19 na Twitteru
- Eksplorativna analiza tekstova na hrvatskom jeziku tematski vezanih uz COVID-19
- Klasifikacija sentimenta za tweetove na hrvatskom jeziku tematski vezanih uz COVID-19
Eksplorativna analiza tekstova vezanih uz COVID-19
Za zadani skup podataka Cro-CoV-Texts koji sadrži tekstove vezane uz COVID-19 za prvih 6 mjeseci pandemije provesti eksplorativnu analizu tekstova u nekoliko koraka:
a. Odrediti sve bigrame koji se pojavljuju u tekstovima i zapisati ih u datoteku sortirano po frekvencijama
b. Odrediti top 50 najfrekventnijih riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s frekvencijom
c. Koristeći TF-IDF shemu, odrediti top 50 najrelevantnijih (ključnih) riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s TF-IDF mjerom
d. Odrediti ukupne frekvenicje zadanih pojmova vezanih uz COVID-19 (dobiva se zadana lista riječi)*
e. Odrediti frekvencije nekoliko COVID-19 pojmova i grafički prikazati njihovu zastupljenost po mjesecima (koronavirus, covid-19, pandemija, stožer, mjere, maske – voditi računa o tome da je koprus lematiziran, pa pretragu prilagoditi tome)
f. Napraviti pregled sličnosti tekstova po mjesecima primjenom Jaccard indexa sličnosti (Jaccard similarity index): mjeri se sličnost između najfrekventnijih 50 pojmova za svaka dva mjeseca – rezultate vizualitirati kao “heat map”
- lista riječi: koronavirus, covid-19, wuhan, hubei, pandemija, epidemija, karantena, samoizolacija, respirator, strože mjere, ostanimo doma, budimo odgovorni, lockdown, stožer, stožer civilne zaštite, cjepivo, propusnice, zaraženi, aerosol, maske
Klasifikacija sentimenta
Za zadani skup podataka Senti-Cro-CoV-Tweets od oko 10.000 anotiranih objava na Twitteru vezanih uz COVID-19 implementirati algoritme koji omogućavaju automatsko određivanje polarnosti sentimenta u smislu: negativan, neutralan pozitivan.
- Treniranje modela za klasifikaciju sentimenta Tweetova
a. Trenirati model za klasifikaciju sentimenta – 3 klase (pozitivna, negativna, neutralna).
b. Trenirati model za klasifikaciju sentimenta – 2 klase (negativni sentiment i nenegativni sentiment – dobije se tako da se spoje pozitivna i neutralna klasa; u tom slučaju skup podataka s kojim se raspolaže je balansiran).
Uputa: odabrati i evaluirati jedan ili više modela za klasifikaciju i na kraju predati jedan trenirani model koji daje najbolje rezultate za a. dio zadatka i jedan trenirani model koji daje najbolje rezultate za b. dio zadatka. Preporuka je da se evaluacija modela provodi primjenom standardnih mjera, preciznosti, odziva i F1 budući će se na taj način provjeravati i rangirati dobivena rješenja.
Projekt na https://codeforcroatia.org/t/open-data-day-hrvatska-2022/890.
Ako želite uključiti se u ovaj izazov, javite se odgovorom na post.