Eksplorativna analiza i klasifikacija sentimenata teweetova o COVID-19i

Melisa · Februar 28, 2022, 3:24pm

Širenje informacija o COVID-19 na Twitteru

Eksplorativna analiza tekstova na hrvatskom jeziku tematski vezanih uz COVID-19

Klasifikacija sentimenta za tweetove na hrvatskom jeziku tematski vezanih uz COVID-19

Eksplorativna analiza tekstova vezanih uz COVID-19

Za zadani skup podataka Cro-CoV-Texts koji sadrži tekstove vezane uz COVID-19 za prvih 6 mjeseci pandemije provesti eksplorativnu analizu tekstova u nekoliko koraka:
a. Odrediti sve bigrame koji se pojavljuju u tekstovima i zapisati ih u datoteku sortirano po frekvencijama
b. Odrediti top 50 najfrekventnijih riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s frekvencijom
c. Koristeći TF-IDF shemu, odrediti top 50 najrelevantnijih (ključnih) riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s TF-IDF mjerom
d. Odrediti ukupne frekvenicje zadanih pojmova vezanih uz COVID-19 (dobiva se zadana lista riječi)*
e. Odrediti frekvencije nekoliko COVID-19 pojmova i grafički prikazati njihovu zastupljenost po mjesecima (koronavirus, covid-19, pandemija, stožer, mjere, maske – voditi računa o tome da je koprus lematiziran, pa pretragu prilagoditi tome)
f. Napraviti pregled sličnosti tekstova po mjesecima primjenom Jaccard indexa sličnosti (Jaccard similarity index): mjeri se sličnost između najfrekventnijih 50 pojmova za svaka dva mjeseca – rezultate vizualitirati kao “heat map”

lista riječi: koronavirus, covid-19, wuhan, hubei, pandemija, epidemija, karantena, samoizolacija, respirator, strože mjere, ostanimo doma, budimo odgovorni, lockdown, stožer, stožer civilne zaštite, cjepivo, propusnice, zaraženi, aerosol, maske

Klasifikacija sentimenta

Za zadani skup podataka Senti-Cro-CoV-Tweets od oko 10.000 anotiranih objava na Twitteru vezanih uz COVID-19 implementirati algoritme koji omogućavaju automatsko određivanje polarnosti sentimenta u smislu: negativan, neutralan pozitivan.

Treniranje modela za klasifikaciju sentimenta Tweetova
a. Trenirati model za klasifikaciju sentimenta – 3 klase (pozitivna, negativna, neutralna).

b. Trenirati model za klasifikaciju sentimenta – 2 klase (negativni sentiment i nenegativni sentiment – dobije se tako da se spoje pozitivna i neutralna klasa; u tom slučaju skup podataka s kojim se raspolaže je balansiran).

Uputa: odabrati i evaluirati jedan ili više modela za klasifikaciju i na kraju predati jedan trenirani model koji daje najbolje rezultate za a. dio zadatka i jedan trenirani model koji daje najbolje rezultate za b. dio zadatka. Preporuka je da se evaluacija modela provodi primjenom standardnih mjera, preciznosti, odziva i F1 budući će se na taj način provjeravati i rangirati dobivena rješenja.

Projekt na https://codeforcroatia.org/t/open-data-day-hrvatska-2022/890.

Ako želite uključiti se u ovaj izazov, javite se odgovorom na post.

Milan_Petrovic · Mart 5, 2022, 9:36am

Eksplorativna analiza tekstova vezanih uz COVID-19

Klasifikacija sentimenta

github.com

InfoCoV/InfoCoV/blob/main/hackatondataset_twittersentiment.csv

sentiment,text
1,"2 user Vaša osobna svjedočanstva su jednako vrijedna kao moja. Znanstveno istraživanje socijalne distance je sasvim O.K, ja ga ne osporavam. Ali VI ste pričali o INTOLERANCIJI - u tu priču se već upliću puno složeniji konstrukti u rangu antisemitizma i islamofobije o čemu NEMA GOVORA."
1,"3 user Jasno vam je da moderna država ne može funkcionirati na sentimentu i istim principima kao hajdučka družina, ili bar ne može dugo vremena?"
1,user Ne samo da može pokazati smjer u kojem naš brod plovi nego može i (de)mobilizirati birače.. Jedna strana dobije ove izbore većim brojem glasova i na idućim hrvaticus vulgaris ostane doma uz misao ma dobit ćemo i bez mene. Dođu rezultati i onda krene kukanje po društvenim mrežama
1,"3 user SDPovke su u odnosu na HDZovke šluškinjina prica. Stranka koja se hvali kao moderna, građanska... daj se saberite jer sramotite pravu građansku Hrvatsku"
1,"4 user Ništa bolje i kod nas, prvo požar u staračkom domu u kojem je umrlo šest osoba, a koji se dogodio 11.01 oko 5 sati ujutro i trostruko ubojstvo u Splitu, istog jučerašnjeg datuma, u popodnevnim satima. Strašno. url"
1,Kujundžić kod Europske komisije urgirao da se dobiveni projekt za Srebrnjak preusmjeri u nepostojeću bolnicu - 2 url
0,TrimeX je tekući koncentrat nove generacije s višestrukim djelovanjem: :backhand_index_pointing_right:smanjuje apetit :backhand_index_pointing_right:detoksicira jetru i probavni sustav :backhand_index_pointing_right:ubrzava metabolizam :backhand_index_pointing_right:pospješuje termogenezu (izgaranje masnoća). Više na linku:... url
2,Malo je reći da se moderna pita od jabuka pojela. #chefslife
1,"Živim u pamuku, obiteljska liječnica j laboratoriji su mi na 5 minuta hoda, bolnica sa specijalistima i hitna na 10 min autom, stoga ne mogu ni zamisliti kako je ljudima na otocima ili u dolini Neretve kojima treba... url"
2,"(2/3) Gradimo postaju granične policije - radi sigurnosti i zaštite od ilegalnih migracija. Otvorili smo dnevnu bolnicu u Zagvozdu: liječnici su došli k vama, ne morate više u Split. Ukinuli smo tunelarinu za „Sv. Iliju"", još moramo dovršiti braniteljske stanove. url"
0,Belzona 5871 termalna izolacija za zaštitu od opeklina i korozije pod izolacijom - url
1,"ovaj virus je toliko uporan, toliko brutalan, toliko dosadan i toliko ne možeš da ga se otarasiš, da ću ga od sad zvati aleksandar vučić"
1,user Sve to imam i ja i susid ispod tvrdi otkad sam renovirala stan i maknila nulu (estrih iz 75e) kako sam uništila zvučnu izolaciju :thinking_face: Pitanje: Susid frustriran jer mu fali sexa ili je stvarno old school građevina bila bolja?
1,"HSS nisu uspjeli uništiti više od stoljeća, neće ni sada. No pasaran! Ovi napadi ne mogu trajati više od tjedan dana samo zbog jednog neumjesnog tweeta. U isto vrijeme, o 6 IZGORJELIH OSOBA u improviziranom staračkom domu više NITKO NE PIŠE. #politikahr url"
1,"2 user Bit ćemo prvog veljače na Jelačić placu, na prosvjedu. I nastaviti dekonstrukciju ovog zla."
3,"user Ali mogao bi virus te ideje, da ""radnicima ne treba godišnji odmor"", zaraziti naše poslodavce."
1,"user Ne smunjan da meće sagradit, al će to bit zgrada di će ljudi doć umrit jer nemaju dovoljno doktora za borit se sa viruson. Informacije koje dolaze iz Kine drugin putovima javljaju da je situacija puno lošija od službenih informacija koje dobivamo."
1,"Kada vidite kako u Kini jedu mačke, pse, šišmiše, štakore i ŽIVE MIŠEVE, prestane vas čuditi to što je tamo i rasadnik najopasnijih virusa. #coronavirus url"
1,"Školstvo nam sasvim sigurno nikada nije niti valjalo, kada doktor medicine treba instrukcije za popunjavanje obrasca. Nešto tu jako ne valja"

This file has been truncated. show original

Matej · Mart 5, 2022, 10:03am

Pozdrav, ja bih se probao poigrati sa eksplorativnom analizom tekstova…

Matej · Mart 7, 2022, 8:10am

Prezentacija 6.3.2022.

system · Maj 6, 2022, 8:10am

This topic was automatically closed 60 days after the last reply. New replies are no longer allowed.