logo-final-cisto copy 2
Search
Close this search box.

Zdenko Lanović

PROMIŠLJANJA INŽENJERA PROMETA

Puno podataka, kilavi model?

PROMET: 2
MATEMATIKA: 1
RAČUNARSTVO: 0

Konkretan primjer koji pokazuje kada puno kvalitetnih podataka ne znači i vjerodostojan prometni model.

U današnje vrijeme prikupiti puno raznorodnih podataka i nije više neki problem, problem je prikupiti kvalitetne podatke. Masa podataka se obično unese u neki tablični kalkulator ili neku statističku aplikaciju i dobije se rezultat koji se predstavlja kao (apsolutna) istina ili konačni zaključak o nekoj pojavi i/ili procesu. Lijepo je imati puno podataka iz relevantnih (službenih) izvora, jer oni jamče vjerodostojnost rezultata i zaključaka pa se izbjegava neželjeni ishod tipa garbage in – garbage out.

Poglavito se danas stremi multivarijantnim analizama ili višestrukim regresijama, kako se najčešće nazivaju postupci kojima se za opisuje funkcionalna sveza više pokazatelja (nezavisnih veličina) s nekom veličinom koja ovisi o njihovim promjenama (zavisna veličina). Još kada su te sveze linearne, nitko sretniji, jer je statistički aparat puno jednostavniji za provjeru i potvrdu povezanosti promatranih veličina.

Da puno kvalitetnih, relevantnih i točnih podataka ne znači automatski i vjerodostojan model kojim, zbog svoje kompleksnosti i brojnosti različitih veličina, želimo zadiviti naručitelja (investitora), najbolje je pokazati jednim stvarnim primjerom. Za Grad Zaprešić radio sam istraživanje pa je bilo potrebno napraviti neke usporedbe te izgraditi prognostički prometni model kako bi se procijenili neki scenariji u bliskoj budućnosti. Ovdje prikazujem podatke dostupne na Internetu od mjerodavnih institucija:

  • proračun Grada Zaprešića (na gradskim službenim web stranicama, www.zapresic.hr),
  • broj stanovnika Zaprešića (popis stanovništva i procjene po godinama od Državnog zavoda za statistiku, www.dzs.hr),
  • broj turista koji posjete Zaprešić (na gradskim službenim web stranicama),
  • bruto domaći proizvod Zagrebačke županije (Državni zavod za statistiku),
  • broj putnika u vlakovima u Zaprešiću (HŽPP na web stranicama ima godišnja izvješća u pdf formatu, www.hzpp.hr),
  • brojanje cestovnog prometa u Zaprešiću (Hrvatske ceste d.o.o. obavljaju brojanja prometa u Hrvatskoj, dostupno na njihovim web stranicama, www.hrvatske-ceste.hr).

Ako se pretpostavi izgradnja modela zasnovanog na zavisnoj veličini cestovnog prometa, preostalih pet podataka upućuju na jedan lijepi kompleksan model. Ima svega: demografije, gospodarstva Grada i Županije, turizma i konkurentnog javnog prijevoza. Budući se radi o profesionalnom dokumentu čiji vlasnik je Grad Zaprešić, ne smijem prikazati cjeloviti model. Izdvojio sam što je dostupno svima putem Interneta u jednom zanimljivom periodu. Analizirat će se razdoblje recesije u Hrvatskoj, između 2010. i 2016. godine. Službeno je recesija trajala od 2009. do 2015 godine (pet godina i tri kvartala). Moći ćemo zaključivati o nekim trendovima u Zaprešiću u doba recesije.

U zoni utjecaja smješteno je brojilo prometa oznake 1925 Zaprešić istok gdje tvrtka Hrvatske ceste već dugi niz godina obavlja povremeno automatsko brojanje prometa. Kada bi sve navedene podatke mogao dovesti u funkcionalnu svezu s prometom na ovom brojilu dobio bi vjerodostojan prometni model. Da smo sada u 2015. ili 2016. godini vjerodostojan prometni model predmnijevao bi dobar prognostički alat pa bi se (u ono vrijeme) mogli hvaliti investitoru o svojem “znanju i uloženim velikim naporima”.

Podatci su prikazani u tablici. Još jednom napominjem da su ovo javni podatci, dostupni na Internetu. Na dnu svakog stupca je prikazan trend svakog pokazatelja.

Jasan je pozitivan trend broja stanovnika. Blizina Zagreba, relativno dobra željeznička i autobusna sveza ZET-a (što jamči dobre tarife javnog prijevoza), jeftinije nekretnine i puno ugodnije (mirnije) mjesto za život – sve su to atributi zbog kojih Zaprešić, za razliku od drugih gradova i mjesta u Hrvatskoj, iz godine u godinu bilježi porast broja stanovnika. Jednostavno i razumno se mogu objasniti i druge veličine, ako se prisjetimo situacije desetak godina ranije.

Prometna potražnja na brojilu prometa 1925 definira se kao zavisna veličina i želja je izraziti kao funkciju ostalih veličina. Neke padaju, kao i promet na brojilu, neke rastu, a neke osciliraju. Želja je u model uključiti čim više veličina jer će se (možda) lakše moći objasniti neki trendovi i/ili procesi.

Izgradnja svakog regresijskog modela počiva na sljedećim koracima:

  • izabrati željene veličine (zavisne i nezavisnu) i prikupiti podatke,
  • ispitati svezu između zavisne i svake nezavisne veličine,
  • ispitati sveze između nezavisnih veličina,
  • iskoristiti neredundantne nezavisne veličine za izgradnju različitih varijanti modela,
  • izabrati najbolji model.

Prvi korak je napravljen i prikazan u gornjoj tablici. Drugi korak je lako napraviti pomoću MS Excel (ili nekog drugog tabličnog kalkulatora ili statističkog paketa) jer se brzo napravi dijagram ovisnosti veličina (scater plot ili raspršeni dijagram) i izračuna postojanje linearne zavisnosti između njih (trend line ili crta trenda). U ovom slučaju za tri veličine ne postoji linearna zavisnost ili je slaba pa te veličine nisu kandidati za regresijske model:

  • proračun Grada Zaprešića
  • broj putnika u vlakovima u Zaprešiću,
  • broj putnika u vlaku na stajalištu Savska.

Gradski proračun i broj putnika na željezničkom stajalištu Savska nisu i nikakvoj linearnoj svezi, a vrlo je mali (nezadovoljavajući) koeficijent determinacije sa ukupnim brojem putnika vlakom.

Već smo na prvom koraku naišli “na minu”. Ne možemo proračun Grada (lokalni pokazatelj blagostanja) povezati s motornim prometom te dva podataka za putovanje vlakom. Česte predrasude : manje novaca – manje putovanja automobilom i manje automobila – više putovanja vlakom, ovdje ne možemo upariti u statističku istinu.

Bolja sreća je s preostale četiri veličine:

  • broj stanovnika Zaprešića,
  • broj turista koji posjete Zaprešić
  • BDP Zagrebačke županije,
  • broj putnika vlakom na stajalištu Kolodvor Zaprešić.

Već ovakvi jednostavni modeli s jednom nezavisnom veličinom upućuju na određene zaključke.

Prvi model, koji opisuje relaciju s brojem stanovnika, upućuje na zaključak da svaki novi građanin Zaprešića smanjuje PGDP na brojilu prometa Zaprešić istok za 3,47 voz/dan. Model broja stanovnika ili je apsolutno istinit ili istinit u trenutku nastajanja podataka – doba recesije u Hrvatskoj između 2009. i 2015. godine. Ako je apsolutno istinit, govori o ekološkoj svijesti stanovnika Zaprešića. Ako je posljedica recesijskih vremena, onda se može pretpostaviti povratak privatnim automobilima izlaskom iz recesije. Podatci poslije 2016. godine govore da se više može govoriti prvome, jer je promet nakon 2016. godine padao, a u 2019. (prije Covid-19) bio je 6 % manji od 2016. godine. U 2020. godini zbog Covid-19 i potresa promet je bio 12 % manji od 2016. godine.

Drugi model kaže da svaki novi turist u Zaprešiću smanjuje dnevni promet na brojilu Zaprešić istok za 0,9 voz/dan. Da li taj podatak imam ikakvu snagu u prometnom modelu, kako ga objasniti, više turista u Zaprešić dolazi autobusima ili vlakom?

Treći model kaže da svako povećanje BDP-a Zagrebačke županije za dvije kune smanjuje PGDP na brojilu Zaprešić istok za 0,002 voz/dan, odnosno na svakih 1.000 kn povećanja BDP-a Županije smanjuje se PGDP za 1 voz/dan. Pitanje je realnosti takvog modela, jer povećanje standarda obično znači povećanje kupovine automobila. U recesijskim vremenima možemo ga protumačiti da ljudi štede dok se ne izađe iz recesije. Vjerojatno taj model u konjunkturnim razdobljima nije realan.

Četvrti model kaže da svaki novi putnik na Kolodvoru Zaprešić smanjuje PGDP za 0,1 voz/dan, odnosno novih 10 putnika na Kolodvoru Zaprešić znači jedno vozilo manje dnevno na brojilu prometa Zaprešić istok.

Ovo relacije vrijedile su za recesijsko razdoblje pa modeli možda više govore o prilagodbi građana tadašnjoj situaciji nego o njihovim osobnim preferencijama.

Na redu je treći korak : ispitivanje sveze između nezavisnih veličina. Dok se odnosu nezavisne i zavisne veličine tražio visok stupanj linearne zavisnosti, ovdje je obrnut slučaj. Potreban je izostanak jake linearne sveze između nezavisnih veličina. Zašto?. Objasnit će se u četvrtom koraku.

Analizirano je svih šest odnosa i baš svaki ima jaku ili barem čvrstu linearnu svezu.

Na redu je četvrti korak kojeg se u ovom slučaju može preskočiti jer nema nezavisnih veličina, koje su u linearnoj svezi sa zavisnom veličinom, a da su međusobno linearno nezavisne. Uz linearnu zavisnost nezavisnih veličina veže se pojam multikolinearnosti. Multikolineranost podrazumijeva u regresijskom modelu dobru korelaciju između nezavisnih veličina i zbog toga dolazi do pogrešnih (iskrivljenih) ili nerealnih veličina (doprinosa) pojedinih nezavisnih veličina u objašnjenju trenda zavisne veličine. Statističari i danas dvoje o pouzdanim metodama i postupcima za određivanje utjecaja multikolinernosti pa je preporuka ispitati statističku značajnost multiregresijskog modela da se vidi kako i koja veličina moguće negativno utječe na cijeli model. Uglavnom, u inženjerskoj praksi koja se bavi stvarnim veličinama (prostor, vrijeme, populacija) pojava multikolinearnosti znači loš regresijski model.

Na redu je posljednji, peti, korak za izbor najboljeg modela koji će kvalitetno opisivati uzroka promjena prometne potražnje na brojilu prometa 1925 Zaprešić istok u razdoblju 2010. – 2016. godine.

Budući je ovaj tekst informativnog karaktera, analizirat će se dva multivarijantna modela kao ilustracija utjecaja multikolinearnosti. Prvo se analizira model s dvije veličine: stanovništvo i putnici na željezničkom Kolodvoru. Bio bi to jako dobar model kada bi se broj motornih vozila mogao dovesti u svezu s brojem stanovnika i odnosom individualnog motornog i željezničkog prometa. Već znamo da je stanovništvo u promatranom periodu raslo, kao i broj putnika na Kolodvoru Zaprešić. Primjenom regresijskog modula u MS Excel dobiva se rezultat.

Model ima oblik:

PGDP = -3,13*stanovništvo-0,01*putnici + 106.060,03

PGDP će padati ako broj stanovnika raste, kao i broj putnika na željeznici. To je u korelaciji sa stvarnim trendovima, jedino logično i moguće. Dolazimo do prvog problema. Koliko je ovaj model realan? Ako fiksiramo veličinu broja putnika onda za svakog novog stanovnika PGDP pada za 3,13 voz/dan. Moguće. Ako fiksiramo broj stanovnika, onda za svakog putnika pada PGDP za 0,01 voz/dan; treba novih 100 putnika da se PGDP smanji za 1 voz/dan. To više nije tako realan scenarij; moguće je, ali nije vjerojatno da od 100 novih putnika njih samo jedan ili dva posjeduju osobni automobil.

Drugi problem je puno ozbiljniji. Koeficijent determinacije (R Square) je jako dobar i govori o dobroj međusobnoj svezi nezavisnih i zavisne veličine. Međutim, prilagođeni koeficijent determinacije (Adjusted R Squ) prema broju podataka nezavisnih veličina (Observations) je puno manji i zbog činjenice višeregresijskog modela taj pokazatelj je pravi pokazatelj jakosti linearna sveze. Činjenica, i taj pokazatelj je i dalje vrlo visok.

Budući su koeficijenti determinacije dobri, prihvatljiva je i standardna greška (Standard Error) koja iznosi 888,53 voz/dan, odnosno oko 4 % PGDP. Dobra je i F-značajnost (Significance F); vrlo je mala, što upućuje da je cijeli model u redu.

Sada dolazimo do ključnih pokazatelja, a to je p-vrijednost (P-value) za svaku nezavisnu veličinu. Ono što je F-značajnost za cijeli model to je p-vrijednost za pojedinu nezavisnu veličinu. Laički rečeno, p-vrijednost pokazuje kolika je vjerojatnost da je pojedina veličina u modelu pogrešna ili nevjerodostojna. Budući da je za obje veličine p-vrijednost puno veća od 0,05, niti jedna veličina se ne može prihvatiti, kao niti cijeli model. P-vrijednosti upućuju da se model ne može koristiti niti za interpolacije, a kamoli za ekstrapolacije (planiranje prometa).

Ovaj primjer je jako dobra ilustracija, što znači primijeniti multikoleracijske veličine u višeregresijskom modelu. Zanemarujući osnovne inženjerske (zdravorazumske) i matematičke postulate lako je doći do pogrešnog zaključka. Jako je zločesto (i vrlo žalosno) kada se “sakrije” cijela statistika i prikažu samo dobre vrijednosti koeficijenata determinacije.

Kao drugi primjer višeregresijskog modela pokazuje se model sa sve četiri relevantne veličine. Model je nerealan. U korelaciji je koliko-toliko sa stanovništvom (za svakog novog stanovnika PGDP pada za 6,2 voz/dan), a ostale su veličine pozitivne i beznačajne. Koeficijenti determinacije su dobri. Glavni pokazatelji značajnosti cijelog modela i pojedine veličine su neprihvatljive – statistički irelevantne: F-značajnost za cijeli model veća je od 0,05, kao i p-vrijednosti za svaku veličinu.

Ako se vratimo u realnost i statističku značajnost, ostaje izabrati najbolji jednoregresijski model. Rezultati su sljedeći.

Najbolji rezultat pokazuje model sa veličinom broja turista, ali puno ne zaostaje niti model sa stanovništvom. U praksi bi se primijenio model sa stanovništvom.

Za kraj, jedna i jedina (matematički dokazana) istina o gradu Zaprešiću u recesijskom razdoblju:

  • ljudi su se doseljavali (i doseljavaju se) jer je povoljnije i bolja kvaliteta života, a sveze sa Zagrebom su dobre s prihvatljivim tarifama javnog prijevoza,
  • iskorištavali su se i (očito) razvijali turistički potencijali (priroda, konjički sport, izvrsni golf teren, biciklizam, Jelačićevi dvori, …),
  • Zaprešić je treći grad po veličini i najgušće naseljeno područje u Zagrebačkoj županiji u kojoj se, bez obzira na recesiju, stalno povećavao BDP,
  • broj korisnika željeznice na Željezničkom kolodvoru u Zaprešiću je rastao u recesijskom razdoblju.

Ove rezultate sam protumačio na sljedeći način: ljudi su iskoristili maksimalno prednosti prostora i prometne ponude u ne tako dobrim vremenima. To je karakteristika dobrih i pametnih ljudi.

Ovdje ima i drugih zanimljivih rezultata, iako se radi o jednoregresijskim modelima. Primjerice, zanimljiva je multikoleracija stanovništva i broja putnika na željezničkom Kolodvoru. Dobra informacija operaterima javnog prijevoza, naravno – u ono vrijeme. Kako pokazuje graf “stanovništvo – vlak Kolodvor” svako novi stanovnik Zaprešića povećava broja putovanja vlakom za 25,08. Radi se o jakoj linearnoj svezi s koeficijentom determinacije od 0,85.

S današnje točke gledišta ovdje prikazani rezultati predstavljaju dobro polazište za građenje nove prometne priče o Zaprešiću. Ne može se samo nastaviti zbog neočekivanih i neželjenih objektivnih razloga od proljeća 2020. godine: Covid-19 i potres.

Posljednjih godina nije se ulagalo u željezničku infrastrukturu, ali je u cestovnu. Puštena je u promet nova cestovna južna obilaznica Zaprešića: 5. prosinca 2019. godine prva faza druge poddionice, a druga faza 3. svibnja ove godine. Zanemarit ćemo 2020. godinu i vidjeti što se zbivalo 2019. godine. Pad broja putnika u željezničkom prometu na zaprešićkom Kolodvoru je očekivan; odnosu na 2016. godinu za 4,6 %. Zanimljivo da je u 2019. godini pad prometa na brojilu 1925 Zaprešić istok bio i veći, manji PGDP u odnosu na 2016. godinu za 6 %. U 2020. godini pad je još veći – 6,9 % prema 2019., ali to je očekivano zbog nove južne obilaznice i ružnih događaja s početka godine koji su uvjetovali puno manje putovanja i rad od kuće. Na brojilu prometa 1925 u 2020. godini bilo je 12,4 % manje prometa u odnosu na 2014. godinu.

Zanimljivo da promet na ovom brojilu konstantno pada od 2010. godine. Jedno objašnjenje je puštanje u funkciju istočne obilaznice Zaprešića od studenog 2009. godine. Zato se zanemaruje 2010. godina kao godina prilagodbe, a trend zadnjih 10 godina od 2011. do 2020. godine pokazuje konstantan godišnji pad PGDP za 481 voz/dan. Koeficijent determinacije je 0,89, standardna greška 2,9%, a p-vrijednost 0,00005. Radi se o relevantnom modelu što potvrđuje i linearni regresijski pravac na slici koja pokazuje PGDP na brojilu prometa 1925.

Proračun Grada Zaprešića za 2020. godinu bio je 16 % veći u odnosu na 2016. godinu pa svo ovo smanjenje prometa (javnog i motornog) možda govori i o sve većoj samodostatnosti Zaprešića u odnosu na Zagreb; manja potreba za dnevnim radnim migracijama.

Za kraj priče o Zaprešiću, kada se stave još neki podatci i rastegne razdoblje analize prije i poslije recesijskog razdoblja, dobiva se prihvatljiv višeregresijski model u kojem su, od ovdje predstavljenih veličina, svoje učešće našli gradski proračun i stanovništvo.

Odgovor na pitanje iz naslova ove teme je jednostavan. Iz puno podataka se može stvoriti (ne)namjerno i/ili (ne)savjesno kilavi (loš, nevjerodostojan, nestabilan) višeregresijski model, ali i jako dobar model ako priroda (korelacija, multikorelacija) dostupnih veličina to omogućuje. Ako ne, ostaju jednostavni (linearni) jednoregresijski modeli koji (ako su statistički signifikantni) otkrivaju i objašnjavaju jako, jako puno.