Skrejpanje bagatelne nabave

Naletio sam na ovaj projekt Open Australia Foundation PlanningAlerts gdje za svaki grad skrejpaju podatke s njihove stranice i ovo njihovo onda obavjestava ljude o promjenama (code repo).

Vidi popis gradova (ne pokrivaju jos sve) ali imaju za svaki grad (Bankstown) grafikon o prikupljenim podacima i link na morp.io skrejper (morp.io).

Znaci svaki grad ima svoj mali skrejper na morp.io a ova stranica koristi API na morph.io za prikupljanje podataka.

To bi bila dobra ideja za bagatelne nabave posto svaki grad ima drugaciju strukturu weba, pa ce trebati drugacije strukturirati skrejper.

Trenutno svako tijelo javne vlasti objavljuje na svojim stranicama registar oglasa bagatelne nabave.

Projektna ideja:

Kreirati otvoreni, lako pretraživi centralni registar oglasa bagatelne nabave.

To je to sto mi se svidja - distribuirano je na vise skrejpera a sve je ujedinjeno na jednoj stranici.

Na CodeAcross i OpenDataDay hackathonu ekipa je vec pocela raditi na ovom projektu:
CodeForCroatia/Bagatela

Filip i @stjepan sto mislite o ovome?

Ima li jos zainteresiranih za pomoc na projektu?

Jutro ljudi! Ja sam malo bio sažvakan nekim radionicama i rokovima prošle sedmice, pa sam se tek danas uspio oporaviti.

Kako je @miroslav rekao, problem sa bagatelnim nabavkama je taj da svako predstavlja druge podatke u različitim oblicima. @stjepan je imao ideju da za početak pokušamo da napišemo scraper koji je ispoljen našim sistemskim korisnicima na način da oni mogu unositi bagatelne stranice i pravila po kojima bi scraper povlačio podatke sa njih.

Trenutno, imamo neke zamišljene unose koje čitamo iz sources.json. Ono sta je još ostalo da se uradi je da sada korisnici mogu interaktivno te podatke unositi preko Web sučelja, da scraper njih može čitati dinamički, te da ih može skladištiti nazad u bazu podataka sa kojom će biti integrirana Web aplikacija koja javnosti onda nudi jedinstvenu destinaciju preko koje se mogu informisati o nabavkama. Detalje o specifikacijama možete pročitati na issue tracker-u repozitorija ili na waffle.io.

Ja se nadam da ću u toku ove sedmice pripremiti sa svojom lokalnom Python grupom malu priču o Scrapy-u, scraper koji se koristi u aplikaciji i popraviti dokumentaciju za projekata. Od iduće sedmice ću se pridružiti da integrišemo Web aplikaciju i bazu podataka i svi su dobrodošli da participiraju.

Kad imamo inicijalnu verziju koja zadozadovoljava Stjepanove zahtjeve, trebali bi početi ubacivati još bagatelnih stranica i iterativno unaprijeđivati aplikaciju tako da možemo što više podataka da prikupimo, pa možemo vidjeti kakve su nam iduće velike ideje za projekat.

1 Like

Super je na jednom mjestu osigurati katalog linkova na kojima se nalaze bagatelne nabave (sources.json).
Hocemo li moci znati da je li link valjan? Ima li u planu mehanzam validiranja linkova? Ako se nekada u buducnosti promjeni link, bilo bi dobro dobiti obavijest o tome.

Hoce li biti moguce dinamicki prilagoditi Scrapy za razlicite stranice i razlicito strukturirane podatke? Moguce je da svaki link/stranica nekog tijela javne vlasti ima razlicito strukturiranu stranicu bagatelne javne nabave. Mozda neki cak objavljuju cijeli popis u PDF-u. Mozda netko zna postoji li neka regulativa oko nacina objave?