Skrejpanje bagatelne nabave

Naletio sam na ovaj projekt Open Australia Foundation PlanningAlerts gdje za svaki grad skrejpaju podatke s njihove stranice i ovo njihovo onda obavjestava ljude o promjenama (code repo).

Vidi popis gradova (ne pokrivaju jos sve) ali imaju za svaki grad (Bankstown) grafikon o prikupljenim podacima i link na morp.io skrejper (morp.io).

Znaci svaki grad ima svoj mali skrejper na morp.io a ova stranica koristi API na morph.io za prikupljanje podataka.

To bi bila dobra ideja za bagatelne nabave posto svaki grad ima drugaciju strukturu weba, pa ce trebati drugacije strukturirati skrejper.

Trenutno svako tijelo javne vlasti objavljuje na svojim stranicama registar oglasa bagatelne nabave.

Projektna ideja:

Kreirati otvoreni, lako pretra┼żivi centralni registar oglasa bagatelne nabave.

To je to sto mi se svidja - distribuirano je na vise skrejpera a sve je ujedinjeno na jednoj stranici.

Na CodeAcross i OpenDataDay hackathonu ekipa je vec pocela raditi na ovom projektu:
CodeForCroatia/Bagatela

Filip i @stjepan sto mislite o ovome?

Ima li jos zainteresiranih za pomoc na projektu?

Jutro ljudi! Ja sam malo bio sa┼żvakan nekim radionicama i rokovima pro┼íle sedmice, pa sam se tek danas uspio oporaviti.

Kako je @miroslav rekao, problem sa bagatelnim nabavkama je taj da svako predstavlja druge podatke u razli─Źitim oblicima. @stjepan je imao ideju da za po─Źetak poku┼íamo da napi┼íemo scraper koji je ispoljen na┼íim sistemskim korisnicima na na─Źin da oni mogu unositi bagatelne stranice i pravila po kojima bi scraper povla─Źio podatke sa njih.

Trenutno, imamo neke zami┼íljene unose koje ─Źitamo iz sources.json. Ono sta je jo┼í ostalo da se uradi je da sada korisnici mogu interaktivno te podatke unositi preko Web su─Źelja, da scraper njih mo┼że ─Źitati dinami─Źki, te da ih mo┼że skladi┼ítiti nazad u bazu podataka sa kojom ─çe biti integrirana Web aplikacija koja javnosti onda nudi jedinstvenu destinaciju preko koje se mogu informisati o nabavkama. Detalje o specifikacijama mo┼żete pro─Źitati na issue tracker-u repozitorija ili na waffle.io.

Ja se nadam da ─çu u toku ove sedmice pripremiti sa svojom lokalnom Python grupom malu pri─Źu o Scrapy-u, scraper koji se koristi u aplikaciji i popraviti dokumentaciju za projekata. Od idu─çe sedmice ─çu se pridru┼żiti da integri┼íemo Web aplikaciju i bazu podataka i svi su dobrodo┼íli da participiraju.

Kad imamo inicijalnu verziju koja zadozadovoljava Stjepanove zahtjeve, trebali bi po─Źeti ubacivati jo┼í bagatelnih stranica i iterativno unaprije─Ĺivati aplikaciju tako da mo┼żemo ┼íto vi┼íe podataka da prikupimo, pa mo┼żemo vidjeti kakve su nam idu─çe velike ideje za projekat.

1 Like

Super je na jednom mjestu osigurati katalog linkova na kojima se nalaze bagatelne nabave (sources.json).
Hocemo li moci znati da je li link valjan? Ima li u planu mehanzam validiranja linkova? Ako se nekada u buducnosti promjeni link, bilo bi dobro dobiti obavijest o tome.

Hoce li biti moguce dinamicki prilagoditi Scrapy za razlicite stranice i razlicito strukturirane podatke? Moguce je da svaki link/stranica nekog tijela javne vlasti ima razlicito strukturiranu stranicu bagatelne javne nabave. Mozda neki cak objavljuju cijeli popis u PDF-u. Mozda netko zna postoji li neka regulativa oko nacina objave?