Stage

Maintaining

README

„Nacionalni informacijski sustav knjižnica Republike Hrvatske - NISKA” je projekt Srca i Nacionalne i sveučilišne knjižnice (NSK)

Uvod

Detaljan opis projekta. Koja je trenutna situacija? Zašto se radi ovaj projekt? Kome će pomoći? I koji je očekivani ishod projekta.

Mjerenje hrvatskoga prostora weba

Što smo naučili o hrvatskom webu u proteklih 15 godina?

Početkom 2002. godine stručni je tim Srca u sastavu Miroslav Milinović, Hrvoje Stipetić, Dubravko Penezić, Nebojša Topolščak i Dražen Gemić započeo s pripremama za prvo mjerenje hrvatskoga prostora weba. Poticaj za ovaj projekt došao je kroz suradnju Srca i Nacionalne i sveučilišne knjižnice (NSK) na projektu „Nacionalni informacijski sustav knjižnica Republike Hrvatske - NISKA”. U okviru II. faze ovoga projekta i zadatka pod nazivom „Izgradnja nacionalne digitalne knjižnice“ prepoznata je potreba za prikupljanjem informacija o veličini i sadržaju hrvatskoga web-prostora. Prikupljeni podaci predstavljali bi neophodni temelj za svaku daljnju, složeniju analizu mrežno dostupne elektroničke građe u hrvatskom prostoru weba.

U siječnju 2002. godine NSK i Srce sklopili su ugovor kojim se priprema i provedba prvoga mjerenja hrvatskog weba povjerava Srcu. Od samog je početka bilo jasno da ovo mjerenje neće biti lagan zadatak. Složenost i dinamičnost informacijskoga prostora weba predstavljala je i tada, prije 15 godina, izazov. Web su već tada uspoređivali sa santom leda kojoj je vidljivi, površinski i jednostavno dohvatljivi dio (engl.surfaceweb) bitno manji od nevidljivog, teško dostupnoga dijela (engl. invisible, deep web). Pokušali smo stoga što bolje odrediti koji ćemo vidljivi dio „sante leda“ mjeriti i u kojem vremenskom periodu, pazeći da nam se tijekom mjerenja osunčana strana ne otopi (sadržaji s weba ne nestanu) dok na drugoj strani pada snijeg (nastaju nove web-stranice). Odlučili smo kako će mjerenjem biti obuhvaćeni resursi dostupni HTTP odnosno HTTPS protokolom s poslužitelja u .hr vršnoj internetskoj domeni. Time je precizno definiran mjereni informacijski prostor.

Mjerenjem se prije svega željelo ustanoviti:

  • veličinu prostora weba,
  • korištene formate datoteka prema MIME standardu,
  • omjer teksta, slike, audio i video zapisa,
  • obim i sadržaj meta podataka.

Nakon temeljitih priprema mjerenje smo pokrenuli 29. ožujka 2002. godine i trajalo je sve do 7. svibnja. U hodu smo rješavali probleme, prije svega inventivne, ali i nestandardne načine korištenja weba i pratećih tehnologija, na koje bi naš sustav, sakupljač nazvan MWP naletio. Izmjereni uzorak obuhvatio je 6.564 web-poslužitelja, a s uspjehom je obrađeno 4.667.920 resursa (objekata dostupnih webom). Veličina uzorka procijenjena je na preko 300 GB podataka na javno dostupnim web-stranicama u .hr vršnoj internetskoj domeni. Glede tipova i formata podataka najveći broj resursa, čak 67 %, otpadao je na HTML koji je obimom zauzimao tek 15 %, uz prosječnu veličinu od 14 KB. Na slikovne formate otpadalo je 23 % resursa po broju, odnosno samo 6 % po veličini. Dobiveni rezultati odgovarali su našim očekivanjima, ali i rezultatima sličnih istraživanja provedenih u svijetu. Dobiveni rezultati vezani za tipove resursa potvrdili su tezu o relativno malom broju različitih formata koji se koriste na webu.

Nakon prvog, nastavili smo unapređivati i provoditi mjerenja sve do 2008. godine kada smo u proljeće dovršili posljednje mjerenje weba, čiji su rezultati predstavljeni pod oznakom projekta MWP6. Izmjereni uzorak obuhvatio je tada 249.581 web-poslužitelj. Najveći broj resursa u izmjerenom uzorku, više od 60 %, otpadao je i dalje na HTML koji je, što se obima tiče, zauzimao nešto manje od 28 %, uz prosječnu veličinu od približno 33 KB. Na slikovne formate otpadalo je gotovo 30 % resursa po broju odnosno 10 % po veličini.

Znanje skupljeno provođenjem mjerenja weba omogućilo je timu Srca da, ponovno u suradnji s NSK, pokrene i ostvari projekt Hrvatskog arhiva weba. Hrvatski arhiv weba zbirka je sadržaja preuzetih s weba. Njegova je svrha preuzimanje i trajno čuvanje publikacija s interneta kao dijela hrvatske kulturne baštine.

HAW je jedinstven arhiv u Hrvatskoj i svijetu. Nema drugog servisa koji bi jednakim obuhvatom, sustavno arhivirao sadržaje s hrvatskog weba i nudio im pristup. Temelji se na programskoj podršci koju je pod nazivom DAMP razvilo Srce. HAW je u produkciji od 2004. godine. Od 2011. u okviru HAW-a se, pomoću programske podrške Heritrix, provode redovita godišnja harvestiranja, odnosno prikupljanja javno dostupnih sadržaja s hrvatskog web-prostora. Harvestiraju se aktivna web-sjedišta na nacionalnoj internetskoj domeni .hr u pravilu krajem kalendarske godine.

Zanimljivo je usporediti rezultate upravo završenoga harvestiranja za 2016. godinu s prvim mjerenjem hrvatskoga weba. Harvestiranjem za 2016. godinu uspješno je preuzeto 77 milijuna resursa s weba, ukupne veličine 7.0 TB. Najzastupljenije vrste sadržaja jesu tekst u HTML formatu (51.3 %) i slike u JPEG formatu (33.8 %). Hrvatski je prostor weba narastao, postao složeniji, dinamičniji i interaktivniji, ali neka zapažanja o površinskom webu, po svemu sudeći, aktualna su i nakon 15 godina.

Autor teksta: mr.sc. Miroslav Milinović, pomoćnik ravnatelja za informacijsku i posredničku infrastrukturu

Izvor: Srce novosti

Šesto harvestiranje hrvatskoga weba - 2016. godina

Hrvatski web ima 7 TB

Srce je u suradnji s Nacionalnom i sveučilišnom knjižnicom u Zagrebu provelo šesto harvestiranje hrvatskoga weba

Harvestiranje je provedeno u vremenu od 25. prosinca 2016. do 2. siječnja 2017. Prikupljeni su i arhivirani javno dostupni sadržaji svih web-sjedišta na vršnoj .hr domeni, uključujući .from.hr i .com.hr. Javno dostupni sadržaji web-sjedišta odnose se na sadržaje dostupne putem protokola HTTP i HTTPS. Ukupno je prikupljeno i arhivirano u WARC (engl. Web ARChive) formatu više od 77 milijuna resursa (datoteka) ukupne veličine 7 TB.

WARC je format koji omogućava pohranu više digitalnih resursa u jednu agregiranu arhivsku datoteku zajedno s dodatnim pripadajućim podacima, poput zaglavlja HTTP upita i odgovora s čime se trajno sprema ne samo resurs s weba nego i cijela komunikacija između sustava za arhiviranje i web poslužitelja. Kao ishodište harvestiranja korišten je popis od 96.671 aktivne domene koji je krajem studenoga 2016. Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavio Registar .hr domena. U tom se popisu domena prvi put nalaze i domene s hrvatskim dijakritičkim znakovima kao i domene s jednim alfanumeričkim znakom. Primjeri takvih domena su šktigrići.hr i 1.hr.

Harvestiranje je provedeno na računalnoj opremi Srca pomoću open source alata Heritrix dorađenoga u Srcu. Heritrix je open source web crawler čija je primarna svrha kvalitetno pobiranje i čuvanje digitalnih sadržaja s weba, a njegov je razvoj započet 2003. godine na inicijativu neprofitne organizacije Internet Archive (IA) te se na njega oslanja većina nacionalnih knjižnica koje arhiviraju web-sjedišta. Heritrix, tj.robot s kojim smo provodili harvestiranje .hr domene predstavljao se kao (UA, user agent): Mozilla/5.0 (compatible; heritrix/1.14.4; +http://haw.nsk.hr/faq).

U prikupljenim resursima očekivano su najzastupljeniji standardni web-sadržaji poput HTML-a (51 %), slika (40 %), JavaScript datoteka (2 %) i CSS (1 %), pri čemu su najpopularniji slikovni formati JPEG (4,5 %), PNG (1,5 %) i GIF (1,5 %). Dokumenti objavljeni na .hr domeni uglavnom su u PDF (1 %) i MS Word (0,1 %) formatu. Ako usporedimo rezultate prvoga harvestiranja .hr domene provedenoga 2011. godine u kojem je uspješno dohvaćeno i arhivirano 56.693.382 resursa i šestoga harvestiranja u kojem se ta brojka popela na 77.754.600 resursa, možemo zaključiti da je u nešto više od 5 godina hrvatski web narastao za 37 posto, tj. da godišnje raste za nešto više od 7 posto.

Autor teksta: Draženko Celjak, voditelj Službe za podatkovne usluge i kolaboracijske alate

Izvor: Srce novosti

Kako možeš pridonijeti

Kako se netko može uključiti u projekt, koje vještine i znanja su potrebna.

Resursi

Linkovi gdje se može pronaći sve potrebno za projekt.

Hrvatskog arhiva weba

Registar .hr domena

Heritrix

Harvestiranje hrvatskoga weba - obavijest za nakladnike i webmastere

HAW tražilica

Srce novosti, broj 67, veljača 2017 (PDF)

O alatima

Opiši ako se koriste neki dodatni alati.

Harvestiranje nacionalne domene .hr

Hrvatski arhiv weba jednom godišnje harvestira (pobire) javno dostupne sadržaje s hrvatskog web-prostora i sprema ih na svoj poslužitelj. Harvestiraju se aktivna web-sjedišta na nacionalnoj internetskoj domeni .hr. Harvestiranje se provodi na računalnoj opremi Srca pomoću open source alata Heritrix dorađenoga u Srcu.

  • Prvo harvestiranje provedeno je od 18. srpnja do 18. kolovoza 2011. godine, a prikupljeno je više od 56 milijuna datoteka ukupne veličine od preko 3,1 TB.
  • Drugo harvestiranje provedeno je od 19.12.2012. do 01.01.2013., a prikupljeno je više od 60 milijuna datoteka ukupne veličine 4.1 TB.
  • Treće harvestiranje provedeno je od 18. do 31.12.2013., a prikupljeno je više od 69 milijuna datoteka ukupne veličine 4.6 TB.
  • Četvrto harvestiranje domene provedeno je u razdoblju od 24. prosinca 2014. do 6. siječnja 2015., a prikupljeno je više od 79 milijuna datoteka ukupne veličine 5.7 TB.
  • Peto harvestiranje domene provedeno je u razdoblju od 24. prosinca do 31. prosinca 2015., a prikupljeno je više od 74 milijuna datoteka ukupne veličine 6.1 TB.

Arhivska kopija nije uvijek jednaka originalu jer poberivost nekog web sjedišta izravno ovisi o načinu na koji se rabe pojedine tehnologije prilikom izrade sjedišta. Za pregled arhiviranog sadržaja u tražilicu unesite točan URL i na kalendaru odaberite željeni datum arhiviranog primjerka.

Trenutno postoje dvije aktualne verzije Heritrixa:

  • 1.14.4 (2010-05-10) i
  • 3.0.0 (2009-12-05) te release candidate verzija 3.1.0 (srpanj 2011.).

Heritrix je napisan u Java programskom jeziku i izvršava se unutar Jetty HTTP servera i Java kontejnera koji dolazi uključen u Heritrix programski paket.

Licence i zahvale

Licence. Zahvale uključenim ljudima na projektu.

Project Activity

Želite ‘iskopati’ neku stranicu iz prošlosti? Posjetite Hrvatski arhiv weba

Obavljajući posao koji im je u rasporedu zadataka jednom godišnje, Nacionalna i sveučilišna knjižnica i Srce nedavno su predstavili rezultate svojeg petog harvestiranja. Riječ je o postupku kojim se probiru internetske adrese za pretragu unosom njihovog punog URL-a i za dobivanje prikaza u određenoj točki u vremenu, a spada u dio posla kojim NSK predstavlja hrvatski ‘web’. Što sve možemo doznati kada pretražujemo?

Read the full article on www.netokracija.com…Published