Eksplorativna analiza i klasifikacija sentimenata teweetova o COVID-19i

Širenje informacija o COVID-19 na Twitteru

  1. Eksplorativna analiza tekstova na hrvatskom jeziku tematski vezanih uz COVID-19
  2. Klasifikacija sentimenta za tweetove na hrvatskom jeziku tematski vezanih uz COVID-19

Eksplorativna analiza tekstova vezanih uz COVID-19

Za zadani skup podataka Cro-CoV-Texts koji sadrži tekstove vezane uz COVID-19 za prvih 6 mjeseci pandemije provesti eksplorativnu analizu tekstova u nekoliko koraka:
a. Odrediti sve bigrame koji se pojavljuju u tekstovima i zapisati ih u datoteku sortirano po frekvencijama
b. Odrediti top 50 najfrekventnijih riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s frekvencijom
c. Koristeći TF-IDF shemu, odrediti top 50 najrelevantnijih (ključnih) riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s TF-IDF mjerom
d. Odrediti ukupne frekvenicje zadanih pojmova vezanih uz COVID-19 (dobiva se zadana lista riječi)*
e. Odrediti frekvencije nekoliko COVID-19 pojmova i grafički prikazati njihovu zastupljenost po mjesecima (koronavirus, covid-19, pandemija, stožer, mjere, maske – voditi računa o tome da je koprus lematiziran, pa pretragu prilagoditi tome)
f. Napraviti pregled sličnosti tekstova po mjesecima primjenom Jaccard indexa sličnosti (Jaccard similarity index): mjeri se sličnost između najfrekventnijih 50 pojmova za svaka dva mjeseca – rezultate vizualitirati kao “heat map”

  • lista riječi: koronavirus, covid-19, wuhan, hubei, pandemija, epidemija, karantena, samoizolacija, respirator, strože mjere, ostanimo doma, budimo odgovorni, lockdown, stožer, stožer civilne zaštite, cjepivo, propusnice, zaraženi, aerosol, maske

Klasifikacija sentimenta

Za zadani skup podataka Senti-Cro-CoV-Tweets od oko 10.000 anotiranih objava na Twitteru vezanih uz COVID-19 implementirati algoritme koji omogućavaju automatsko određivanje polarnosti sentimenta u smislu: negativan, neutralan pozitivan.

  1. Treniranje modela za klasifikaciju sentimenta Tweetova
    a. Trenirati model za klasifikaciju sentimenta – 3 klase (pozitivna, negativna, neutralna).

b. Trenirati model za klasifikaciju sentimenta – 2 klase (negativni sentiment i nenegativni sentiment – dobije se tako da se spoje pozitivna i neutralna klasa; u tom slučaju skup podataka s kojim se raspolaže je balansiran).

Uputa: odabrati i evaluirati jedan ili više modela za klasifikaciju i na kraju predati jedan trenirani model koji daje najbolje rezultate za a. dio zadatka i jedan trenirani model koji daje najbolje rezultate za b. dio zadatka. Preporuka je da se evaluacija modela provodi primjenom standardnih mjera, preciznosti, odziva i F1 budući će se na taj način provjeravati i rangirati dobivena rješenja.

Projekt na https://codeforcroatia.org/t/open-data-day-hrvatska-2022/890.

Ako želite uključiti se u ovaj izazov, javite se odgovorom na post.

Eksplorativna analiza tekstova vezanih uz COVID-19

Klasifikacija sentimenta

1 Like

Pozdrav, ja bih se probao poigrati sa eksplorativnom analizom tekstova…

2 Likes

Prezentacija 6.3.2022.

2 Likes

This topic was automatically closed 60 days after the last reply. New replies are no longer allowed.