Faza

Maintaining

Opis projekta

„Nacionalni informacijski sustav knjižnica Republike Hrvatske - NISKA” je projekt Srca i Nacionalne i sveučilišne knjižnice (NSK)

Uvod

Detaljan opis projekta. Koja je trenutna situacija? Zašto se radi ovaj projekt? Kome će pomoći? I koji je očekivani ishod projekta.

Mjerenje hrvatskoga prostora weba

Što smo naučili o hrvatskom webu u proteklih 15 godina?

Početkom 2002. godine stručni je tim Srca u sastavu Miroslav Milinović, Hrvoje Stipetić, Dubravko Penezić, Nebojša Topolščak i Dražen Gemić započeo s pripremama za prvo mjerenje hrvatskoga prostora weba. Poticaj za ovaj projekt došao je kroz suradnju Srca i Nacionalne i sveučilišne knjižnice (NSK) na projektu „Nacionalni informacijski sustav knjižnica Republike Hrvatske - NISKA”. U okviru II. faze ovoga projekta i zadatka pod nazivom „Izgradnja nacionalne digitalne knjižnice“ prepoznata je potreba za prikupljanjem informacija o veličini i sadržaju hrvatskoga web-prostora. Prikupljeni podaci predstavljali bi neophodni temelj za svaku daljnju, složeniju analizu mrežno dostupne elektroničke građe u hrvatskom prostoru weba.

U siječnju 2002. godine NSK i Srce sklopili su ugovor kojim se priprema i provedba prvoga mjerenja hrvatskog weba povjerava Srcu. Od samog je početka bilo jasno da ovo mjerenje neće biti lagan zadatak. Složenost i dinamičnost informacijskoga prostora weba predstavljala je i tada, prije 15 godina, izazov. Web su već tada uspoređivali sa santom leda kojoj je vidljivi, površinski i jednostavno dohvatljivi dio (engl.surfaceweb) bitno manji od nevidljivog, teško dostupnoga dijela (engl. invisible, deep web). Pokušali smo stoga što bolje odrediti koji ćemo vidljivi dio „sante leda“ mjeriti i u kojem vremenskom periodu, pazeći da nam se tijekom mjerenja osunčana strana ne otopi (sadržaji s weba ne nestanu) dok na drugoj strani pada snijeg (nastaju nove web-stranice). Odlučili smo kako će mjerenjem biti obuhvaćeni resursi dostupni HTTP odnosno HTTPS protokolom s poslužitelja u .hr vršnoj internetskoj domeni. Time je precizno definiran mjereni informacijski prostor.

Mjerenjem se prije svega željelo ustanoviti:

  • veličinu prostora weba,
  • korištene formate datoteka prema MIME standardu,
  • omjer teksta, slike, audio i video zapisa,
  • obim i sadržaj meta podataka.

Nakon temeljitih priprema mjerenje smo pokrenuli 29. ožujka 2002. godine i trajalo je sve do 7. svibnja. U hodu smo rješavali probleme, prije svega inventivne, ali i nestandardne načine korištenja weba i pratećih tehnologija, na koje bi naš sustav, sakupljač nazvan MWP naletio. Izmjereni uzorak obuhvatio je 6.564 web-poslužitelja, a s uspjehom je obrađeno 4.667.920 resursa (objekata dostupnih webom). Veličina uzorka procijenjena je na preko 300 GB podataka na javno dostupnim web-stranicama u .hr vršnoj internetskoj domeni. Glede tipova i formata podataka najveći broj resursa, čak 67 %, otpadao je na HTML koji je obimom zauzimao tek 15 %, uz prosječnu veličinu od 14 KB. Na slikovne formate otpadalo je 23 % resursa po broju, odnosno samo 6 % po veličini. Dobiveni rezultati odgovarali su našim očekivanjima, ali i rezultatima sličnih istraživanja provedenih u svijetu. Dobiveni rezultati vezani za tipove resursa potvrdili su tezu o relativno malom broju različitih formata koji se koriste na webu.

Nakon prvog, nastavili smo unapređivati i provoditi mjerenja sve do 2008. godine kada smo u proljeće dovršili posljednje mjerenje weba, čiji su rezultati predstavljeni pod oznakom projekta MWP6. Izmjereni uzorak obuhvatio je tada 249.581 web-poslužitelj. Najveći broj resursa u izmjerenom uzorku, više od 60 %, otpadao je i dalje na HTML koji je, što se obima tiče, zauzimao nešto manje od 28 %, uz prosječnu veličinu od približno 33 KB. Na slikovne formate otpadalo je gotovo 30 % resursa po broju odnosno 10 % po veličini.

Znanje skupljeno provođenjem mjerenja weba omogućilo je timu Srca da, ponovno u suradnji s NSK, pokrene i ostvari projekt Hrvatskog arhiva weba. Hrvatski arhiv weba zbirka je sadržaja preuzetih s weba. Njegova je svrha preuzimanje i trajno čuvanje publikacija s interneta kao dijela hrvatske kulturne baštine.

HAW je jedinstven arhiv u Hrvatskoj i svijetu. Nema drugog servisa koji bi jednakim obuhvatom, sustavno arhivirao sadržaje s hrvatskog weba i nudio im pristup. Temelji se na programskoj podršci koju je pod nazivom DAMP razvilo Srce. HAW je u produkciji od 2004. godine. Od 2011. u okviru HAW-a se, pomoću programske podrške Heritrix, provode redovita godišnja harvestiranja, odnosno prikupljanja javno dostupnih sadržaja s hrvatskog web-prostora. Harvestiraju se aktivna web-sjedišta na nacionalnoj internetskoj domeni .hr u pravilu krajem kalendarske godine.

Zanimljivo je usporediti rezultate upravo završenoga harvestiranja za 2016. godinu s prvim mjerenjem hrvatskoga weba. Harvestiranjem za 2016. godinu uspješno je preuzeto 77 milijuna resursa s weba, ukupne veličine 7.0 TB. Najzastupljenije vrste sadržaja jesu tekst u HTML formatu (51.3 %) i slike u JPEG formatu (33.8 %). Hrvatski je prostor weba narastao, postao složeniji, dinamičniji i interaktivniji, ali neka zapažanja o površinskom webu, po svemu sudeći, aktualna su i nakon 15 godina.

Autor teksta: mr.sc. Miroslav Milinović, pomoćnik ravnatelja za informacijsku i posredničku infrastrukturu

Izvor: Srce novosti

Šesto harvestiranje hrvatskoga weba - 2016. godina

Hrvatski web ima 7 TB

Srce je u suradnji s Nacionalnom i sveučilišnom knjižnicom u Zagrebu provelo šesto harvestiranje hrvatskoga weba

Harvestiranje je provedeno u vremenu od 25. prosinca 2016. do 2. siječnja 2017. Prikupljeni su i arhivirani javno dostupni sadržaji svih web-sjedišta na vršnoj .hr domeni, uključujući .from.hr i .com.hr. Javno dostupni sadržaji web-sjedišta odnose se na sadržaje dostupne putem protokola HTTP i HTTPS. Ukupno je prikupljeno i arhivirano u WARC (engl. Web ARChive) formatu više od 77 milijuna resursa (datoteka) ukupne veličine 7 TB.

WARC je format koji omogućava pohranu više digitalnih resursa u jednu agregiranu arhivsku datoteku zajedno s dodatnim pripadajućim podacima, poput zaglavlja HTTP upita i odgovora s čime se trajno sprema ne samo resurs s weba nego i cijela komunikacija između sustava za arhiviranje i web poslužitelja. Kao ishodište harvestiranja korišten je popis od 96.671 aktivne domene koji je krajem studenoga 2016. Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavio Registar .hr domena. U tom se popisu domena prvi put nalaze i domene s hrvatskim dijakritičkim znakovima kao i domene s jednim alfanumeričkim znakom. Primjeri takvih domena su šktigrići.hr i 1.hr.

Harvestiranje je provedeno na računalnoj opremi Srca pomoću open source alata Heritrix dorađenoga u Srcu. Heritrix je open source web crawler čija je primarna svrha kvalitetno pobiranje i čuvanje digitalnih sadržaja s weba, a njegov je razvoj započet 2003. godine na inicijativu neprofitne organizacije Internet Archive (IA) te se na njega oslanja većina nacionalnih knjižnica koje arhiviraju web-sjedišta. Heritrix, tj.robot s kojim smo provodili harvestiranje .hr domene predstavljao se kao (UA, user agent): Mozilla/5.0 (compatible; heritrix/1.14.4; +http://haw.nsk.hr/faq).

U prikupljenim resursima očekivano su najzastupljeniji standardni web-sadržaji poput HTML-a (51 %), slika (40 %), JavaScript datoteka (2 %) i CSS (1 %), pri čemu su najpopularniji slikovni formati JPEG (4,5 %), PNG (1,5 %) i GIF (1,5 %). Dokumenti objavljeni na .hr domeni uglavnom su u PDF (1 %) i MS Word (0,1 %) formatu. Ako usporedimo rezultate prvoga harvestiranja .hr domene provedenoga 2011. godine u kojem je uspješno dohvaćeno i arhivirano 56.693.382 resursa i šestoga harvestiranja u kojem se ta brojka popela na 77.754.600 resursa, možemo zaključiti da je u nešto više od 5 godina hrvatski web narastao za 37 posto, tj. da godišnje raste za nešto više od 7 posto.

Autor teksta: Draženko Celjak, voditelj Službe za podatkovne usluge i kolaboracijske alate

Izvor: Srce novosti

Kako možeš pridonijeti

Kako se netko može uključiti u projekt, koje vještine i znanja su potrebna.

Resursi

Linkovi gdje se može pronaći sve potrebno za projekt.

Hrvatskog arhiva weba

Registar .hr domena

Heritrix

Harvestiranje hrvatskoga weba - obavijest za nakladnike i webmastere

HAW tražilica

Srce novosti, broj 67, veljača 2017 (PDF)

O alatima

Opiši ako se koriste neki dodatni alati.

Harvestiranje nacionalne domene .hr

Hrvatski arhiv weba jednom godišnje harvestira (pobire) javno dostupne sadržaje s hrvatskog web-prostora i sprema ih na svoj poslužitelj. Harvestiraju se aktivna web-sjedišta na nacionalnoj internetskoj domeni .hr. Harvestiranje se provodi na računalnoj opremi Srca pomoću open source alata Heritrix dorađenoga u Srcu.

  • Prvo harvestiranje provedeno je od 18. srpnja do 18. kolovoza 2011. godine, a prikupljeno je više od 56 milijuna datoteka ukupne veličine od preko 3,1 TB.
  • Drugo harvestiranje provedeno je od 19.12.2012. do 01.01.2013., a prikupljeno je više od 60 milijuna datoteka ukupne veličine 4.1 TB.
  • Treće harvestiranje provedeno je od 18. do 31.12.2013., a prikupljeno je više od 69 milijuna datoteka ukupne veličine 4.6 TB.
  • Četvrto harvestiranje domene provedeno je u razdoblju od 24. prosinca 2014. do 6. siječnja 2015., a prikupljeno je više od 79 milijuna datoteka ukupne veličine 5.7 TB.
  • Peto harvestiranje domene provedeno je u razdoblju od 24. prosinca do 31. prosinca 2015., a prikupljeno je više od 74 milijuna datoteka ukupne veličine 6.1 TB.

Arhivska kopija nije uvijek jednaka originalu jer poberivost nekog web sjedišta izravno ovisi o načinu na koji se rabe pojedine tehnologije prilikom izrade sjedišta. Za pregled arhiviranog sadržaja u tražilicu unesite točan URL i na kalendaru odaberite željeni datum arhiviranog primjerka.

Trenutno postoje dvije aktualne verzije Heritrixa:

  • 1.14.4 (2010-05-10) i
  • 3.0.0 (2009-12-05) te release candidate verzija 3.1.0 (srpanj 2011.).

Heritrix je napisan u Java programskom jeziku i izvršava se unutar Jetty HTTP servera i Java kontejnera koji dolazi uključen u Heritrix programski paket.

Licence i zahvale

Licence. Zahvale uključenim ljudima na projektu.

Slični alati

Internet Archive is a non-profit library of millions of free books, movies, software, music, websites, and more.

Aktivnost na projektu

Želite ‘iskopati’ neku stranicu iz prošlosti? Posjetite Hrvatski arhiv weba

Obavljajući posao koji im je u rasporedu zadataka jednom godišnje, Nacionalna i sveučilišna knjižnica i Srce nedavno su predstavili rezultate svojeg petog harvestiranja. Riječ je o postupku kojim se probiru internetske adrese za pretragu unosom njihovog punog URL-a i za dobivanje prikaza u određenoj točki u vremenu, a spada u dio posla kojim NSK predstavlja hrvatski ‘web’. Što sve možemo doznati kada pretražujemo?

Pročitaj cijeli članak na www.netokracija.com…Objavljeno