Što sve (ne) možemo kada imamo na raspolaganju cijelu populaciju podataka ili reprezentativni uzorak.
Prije sedam mjeseci pokazao sam što (ne) možemo kada imamo (pre)malo podataka i kada nam na raspolaganju stoji koji podatak više. Teško se prisiliti napisati treći (i završni) dio kada imamo sve podatke ili reprezentativni uzorak. Nije baš izazovno, a postoji (velika) bojazan da će tema biti nekompletna, da ću izostaviti nešto važno.
Ciklus treba završiti pa će ova tema dati (barem) naznake mogućnosti kada nam je na raspolaganju cijela populacija ili, barem, reprezentativni uzorak. Kada nas je investitor ili sreća podarila takvim podatcima, onda nastupaju „slatke brige“ – što sve pokazati i istražiti, ali i one prave – može se nešto (jako važno) previdjeti.
Ne može se predložiti neki opći pristup, ali ako nam prometna potražnja podliježe normalnoj razdiobi, onda je najbolje vezati se uz z-vrijednost pa ću se tome na kraju posebno posvetiti. O normalnoj razdiobi već sam ranije pisao. U ovoj temi ću opisati slučaj s podatcima cijele godine pa će i pristup biti drugačiji.
Kao podloga poslužit će mi brojanja prometa tvrtke Hrvatske ceste d.o.o. iz 2018. godine s jednog automatskog brojila prometa. Od 8.760 sati u godini raspoloživi su podatci za 8.471 sat. Nedostaje 289 sati ili 12 dana i jedan sat, ili 3,3 % podataka. Kada imamo gotovo 97 % podataka nekog mjerenja? Rijetko. Ipak, tih 8.471 podatak ne udovoljava normalnoj razdiobi.

Razvrstavanje po klasama od 50 vozila pokazuje tipičnu „cestovnu priču“; puno intervala s jako malo vozila (noćni sati), a preostali dio upućuje na normalnu razdiobu. Koliko se dobro podatci uklapaju u normalnu distribuciju najbolje je vidjeti Q-Q dijagramom (kvantil-kvantil; usporedba teoretske i stvarne razdiobe); što je i kako se kreira možete naći ovdje. Za sve podatke dijagram pokazuje znatno neslaganje podataka kod niskih vrijednosti, a shodno tome dolazi i do neusklađenosti kod najviših vrijednosti. U dijagramu je ucrtan i 95 % interval pouzdanosti pa je vidljivo da u svim segmentima (najniže, srednje i najviše vrijednosti) izmjerene vrijednosti ne podliježu normalnoj razdiobi.

Krije li se ovdje grupa podataka koji podliježu normalnoj razdiobi? Ako promatramo prometnu potražnju svih dana u godini u vremenu 6:00 do 20:00 sati, možemo prihvatiti hipotezu normalne razdiobe.
Možemo li izostaviti tih 10 sati svakog dana u godini? Ukupno je u godini prošlo 4.417.042 vozila, a 718.668 u vremenu 20:00 – 6:00; ili 16,3 %. U 42 % vremena dana prođe 16,3 % prometa. U tih 42 % vremena samo je šest sati (0,2 % vremena) s prometom većim od 1.000 voz/h i to u oba smjera. Ako govorimo o prometnoj potražnji možemo napraviti restrikciju i pokazati karakteristike dionice ceste (područja utjecaja brojila) za dnevni period. U tom slučaju podatci podliježu normalnoj razdiobi. Teoretski hi-kvadrat je 36,42 dok je izračunati 35,3. U statistici nema „za dlaku“ pa možemo prihvatiti, odnosno ne možemo odbaciti hipotezu o normalnoj razdiobi.

Normalnost potvrđuje i Q-Q dijagram. Nekoliko vršnih sati i djelomično najmanja prometna opterećenja odstupaju od teoretskih kvantila. Dijagram pokazuje veća odstupanja kod minimalnih vrijednosti, dok se kod maksimalnih vrijednosti samo (zanemariva) dva podatka ne uklapaju u normalnu razdiobu. Za razinu ovog bloga sasvim dovoljno. U stvarnom projektu trebalo bi ispitati gdje se pojavljuju ove minimalne vrijednosti koje narušavaju normalnost razdiobe pa bi promatrali još uži interval od ovoga od 6:00 do 20:00 sati, kojeg ćemo nadalje analizirati.

Normalnost se potvrđuje i kutijastim dijagramom (box plot). Samo je osam donjih (0,16 % svih podataka) te devet gornjih (0,18 %) stršećih vrijednosti. Prvi i treći kvartil se nalaze između 620 i 911 voz/h, odnosno 50 % dnevnog prometa od 6:00 do 20:00 sati nalazi se u tim granicama. Gornjih 25 % sati ne prelazi 1.346 voz/h, uz devet izuzetaka – stršećih vrijednosti.

Što s time? Možemo toliko toga, i priviše. Pokazat ću par jednostavnih izračuna. Ako imamo uvjet 200-tog sata u godini – najviše 200 sati u godini mogu biti uvjeti neodrživog prometa, onda moramo pronaći taj podatak. Ako 200 sati u godini može biti „kolaps“ onda u 8.560 sati u godini (97,7 % vremena) moramo imati dobre uvjete protočnosti, a to je kod kumulativne vjerojatnosti 8.560/8.760 = 0,977. Imamo sve podatke po možemo putem percentila izračunati poziciju podataka. U Excelu je to funkcija =PERCENTILE.INC i ona nam za naše podatke kaže da je to 1.199 voz/h. Budući smo ustanovili normalnu razdiobu s parametrima srednje vrijednosti 763 voz/h i standardne devijacije 218 voz/h, možemo putem Excel funkcije =NORM.INV isto izračunati željeni podatak: 1.197 voz/h. Inženjerski gledano, morali smo u 2018. godini imati prometnu prometnu infrastrukturu za kvalitetno posluživanje 1.200 voz/h. Ako znamo trend prometa, onda znamo i koliko smo imali pričuve propusne moći prije (ako smo imali), koliko imamo i koliko će još narednog vremena biti (ne)moguće posluživati promet prije aplikacije primjerenog prometnog rješenja (infrastruktura, ograničenje/restrikcija, organizacija, (de)stimulacija određenih sudionika, …).
Ako imamo cjelovite podatke za više godina pa zašto se onda patiti sa statistikom? Razloga ima puno, navest ću neke:
- poopćavanje stvarnih podataka:
– analiza podataka uzorka vrijedi samo za taj uzorak,
– utvrđena statistička distribucija daje model (u ovom slučaju kontinuirani) koji se koristi i za slučajeve izvan izmjerenih vrijednosti, - smanjenje varijabilnosti:
– stvarni podatci podložni su slučajnostima koje je teško objasniti ili je potrebno određeno vrijeme za istraživanje,
– statističkom distribucijom odmah se opisuje i objašnjava svako ponašanje, - jednostavnije računanje:
– empirijske podatke potrebno je stalno prebrojavati i(li) pozicionirati,
– poznate jednadžbe statističke distribucije nam odmah daju odgovor, - primjenjivost:
– stvarni podatci vrijede samo za mjesto prikupljanja,
– model statističke distribucije je primjenjiv na svim drugom lokacijama i situacijama na kojima promet podliježe toj statističkoj razdiobi; koristimo prethodno stečeno znanje i iskustvo, - usporedba:
– stvarni podatci se mogu (ograničeno) uspoređivati jedino u apsolutnim brojevima,
– podatci iz poznatih statističkih distribucija mogu se uspoređivati i po mjestu i po vremenu (sat, mjesec, godina) za daljnje statističke analize i testiranja različitih (prometnih) scenarija.
Podatci nam opisuju stvarnost (realnost) pa se itekako vrijedi pomučiti. Nama, inženjerima, je puno lakše kada se iz jednog lokalnog problema možemo pomaknuti na razinu opće generalizacije, a opet u fokusu imamo lokalni problem. U ovoj temi sam pokazao kako možemo koristiti Poissonovu razdiobu u konkretnom, naoko jednostavnom, problemu gdje su uključeni pokazatelji i kvalitete i sigurnosti prometa, a sve je to još uobličeno u investicijsku (financijsku) problematiku.
Vratimo se blagodatima normalne razdiobe. Spomenut ću samo jednu, kako sam uvodno naglasio, a to su z-vrijednosti. To je statistička mjera koja pokazuje koliko je standardnih devijacija udaljena određena vrijednost od srednje vrijednosti. Na Internetu možete, bukvalno, naći stotine stranica koje kvalitetno i smisleno objašnjavaju pojam i primjenu. Inženjerima prometa je osobito omiljena jer pruža puno brzih i jasnih zaključaka. U analizi kutijastog dijagrama smo već otkrili mnoge zanimljive stvari – neke granice (ne)prihvatljive prometne potražnje, ali korištenjem normalne razdiobe i z-vrijednosti možemo si potpuno “otvoriti oči“.
Kada mi netko kaže, kao što imamo u primjeru ove teme, da je prosjek prometne potražnje 763 voz/h uz standardnu devijaciju 218 voz/h, odmah ću odgovoriti da po kriteriju 200-tog sata prometni objekt mora imati propusnu moć od 1.191 voz/h, odnosno 1.200 voz/h. Zašto? Slika daje odgovor.

Unutar 1,96 standardne devijacije nalazi se 95 % podataka. S lijeve strane se nalazi 2,5 % podataka, i to su najmanja vršna opterećenja, a s desne strane je izvan područja ostalo 2,5 % vršnih sati, a to je 219 sati u godini. Često koristimo 1,96 standardnih devijacija kod procjene rezultata nekog testa; za određivanje 95 % intervala pouzdanosti. Ovu vrijednost možemo koristiti copy-paste za procjenu prometa do kojeg ne želimo imati neodržive prometne situacije. Ako smo u gradskim uvjetima i znamo da u godini imamo oko 250 radnih dana, koji su inače prometno najopterećeniji, onda nam ova mjera pokazuje kakav prometni objekt moramo osmisliti da imamo najviše jedan sat radnim danom neodrživu prometnu situaciju.
Suprotno pitanje je, a zašto ne bi imali dobru situaciju tijekom cijele godine? Odgovor daje slika da je potrebno osmisliti objekt propusne moći veće od tri standardne devijacije (obuhvaćeno 99,9 % podataka) od prosječne vrijednosti; u ovom slučaju 1.417 voz/h ili objekt s 19 % više propusne moći u odnosu na propusnu moć kriterija 200-tog sata. Takva pitanja prometne i financijske opravdanosti se ispituju u studijama (pred)izvodljivosti u kojima naručitelj definira kriteriji. Prije puno godina to su bili kriteriji 30-og, 50-og i 80-og sata. Baš ni ja nisam toliko star, ali se kao student sjećam kriterija 100-tog i 150-og sata, dok je danas u mnogim razvijenim zemljama prevladavajući kriterij 200-tog sata. Nitko nije toliko bogat, niti želi poticati automobilski promet.
Uglavnom, čim čujem srednja vrijednost ili prosjek i standardna devijacija, odmah u glavi množim dvije standardne devijacije (teško mi je množiti s 1,96) i dodajem prosjek, jer je to definitivno veličina (broj) koja predstavlja granicu/prekretnicu/kritičnu točku diskusije, bez obzira govorimo li o automobilima ili drugim prometalima, pješacima/biciklistima, koferima na aerodromu, manipulaciji kontejnerima na terminalu ili paletama ili skladištu, … .
Zašto je u ovom konkretnom primjeru opravdano primijeniti kriterij 200-tog sata pokazuje dijagram kumulativnog satnog protoka gdje se točka promjene prometne potražnje iz vršnog u linearno padajući nalazi koliko-toliko oko 200-tog vršnog godišnjeg sata. Stvarni vršni 200-ti sat u godini je 1.137 voz/h, a normalnom razdiobom došli smo do procjene 1.191 voz/, što je razlika nemalih 5 %. Tih 5 % posljedica je statističke slučajnosti – razlike između pojedinačne stvarne vrijednosti i statistički organizirane i grupirane vrijednosti. Radi se o prihvatljivoj inženjerskoj grešci (toleranciji) koja ide u korist propusne moći. Na kraju, statistika nam je dala procjenu unutar intervala greške od 5 %, dok bi procjene „iz rukava“ bile – zamislite i sami.

Možemo i okrenuti priču. Poznat nam je karakter prometne potražnje, recimo ovdje opisani, a naručitelj nam govori da godišnje ima problema dva sata ujutro i dva sata poslijepodne tijekom radnih dana. Godišnje postoji problem s oko 1.000 vršnih sati. Ne smijemo zaboraviti i lijevi dio krivulje (1000 najmanje opterećenih sati) pa tražimo skup s ukupno 77 % podataka. Slika pokazuje da 80 % podataka obuhvaća 1,28 standardnih devijacija pa, ako to znamo, možemo „k’o iz topa“ izbaciti vrijednost od 1.042 voz/h (= 763 + 1,28*218), odnosno odmah možemo reći da problematični prometni objekt (točka) nema veću propusnu moć od 1.050 voz/h. Malo znanja statistike i ponešto iskustva može inženjeru/ki dati „dobre adute“ prilikom razgovora s potencijalnim investitorom.
Isplati li se analizirati prometnu potražnju posebno u ljetnim mjesecima, ili posebnim dijelovima godine (festivali, uskrsni i božićni blagdani, …) ? Je li potražnja bitno drugačija od ostalog dijela godine? Ovisi o vlasniku prometne infrastrukture i njegovim stavovima glede željene kvalitete i obveza s motrišta sigurnosti prometa.
Ako imamo sve populacijske podatke i reprezentativan skup podataka naći ćemo neki statistički model. Čak i slučaju nepostojanja neke statističke razdiobe, uvijek možemo pronaći neku zakonitost. Ako ne postoji baš ništa u što bi mogli “spakirati” cjelovite podatke ili njihov reprezentativni uzorak, onda imamo osobni problem neshvaćanja podataka, što se liječi učenjem, ili skup podataka ne možemo zvati cjelovitim i(li) reprezentantom prometnog procesa/problema.





