logo-final-cisto copy 2
Search
Close this search box.

Zdenko Lanović

PROMIŠLJANJA INŽENJERA PROMETA

Limun i limunada (1/3)

PROMET: 1
MATEMATIKA: 2
RAČUNARSTVO: 0

Kako napraviti (barem) pristojnu (pr)ocjenu kada imamo (pre)malo podataka.

Iako smo danas (bukvalno) preplavljeni podatcima, često iz (ne)objektivnih razloga ne dobijemo cijeli skup (populaciju), dobar uzorak ili sve (potrebne) pokazatelje. Kroz tri teme opisat ću što sve (ne) možemo s različitom paletom podataka.

Bez obzira na (ne)kompletnost podataka, nameće se sljedeće pitanje. Što će nam sve ovo, kada u prometu imamo jako puno podataka i zakon velikih brojeva nam govori da će pokazatelji prometnog procesa težiti prema srednjoj vrijednosti, a središnji granični teorem nas upućuje da veliki broj podataka poprima normalnu razdiobu?
Prvi dio odgovora je da se može dogoditi deficit podataka. U nastavku ću pokazati da ponekad (ili često) nisu dostupni svi javni podatci potrebni za stvaranje vjerodostojnog statističkog zaključka.
Drugi dio odgovora odnosi se na prirodu nekih statističkih znanja. Zakon velikih brojeva upućuje na ukupnost procesa, a nas interesira moguće neki specifični moment (pojavnost) u procesu. Osim toga, ne podliježu sve pojave u prometu normalnoj razdiobi. Ako imamo podatke brojanja prometa za svih 8.760 sati u jednoj godini središnji granični teorem upućuje na normalnu razdiobu, ali nije tako. Satna opterećenja na razini godine su „jako zločesta“ jer postoji puno (noćnih) sati s jako malim prometom. Ako možemo napraviti (opravdanu) restrikciju ulaznih podataka onda možemo računati s normalnom razdiobom.

U ovoj temi krenut ću od početka, od jednog ili dva podatka i što sve s njima (ne) možemo korištenjem dvije nejednakosti: Markovljeve i Čebiševljeve. Pogledao sam svoje bilježnice i knjige s Fakulteta i Magisterija i nisam ih pronašao. Šteta! U prometnom inženjerstvu su jako korisne, vidjet ćete.

Svakako pročitajte stručni članak osječkih profesora Dragane Jankov Maširević i Nere Keglević pod nazivom Čebiševljeva i Markovljeva nejednakost u teoriji vjerojatnosti; jasno obrazložena teorija i životni primjeri su idealno inženjersko štivo.

Prva je Markovljeva nejednakost. Vrlo (pre)često kao podatak dobijemo jedan broj s definicijom/ obrazloženjem da se radi o nekom reprezentantu – prosječnoj vrijednosti neke pojave u prometu: prosječna brzina, prosječno vrijeme putovanja, prosječan razmak/interval slijeđenja, prosječan …, i što sad? Primjerice prosječno vrijeme putovanja na nekoj dionici javnog prijevoza je 15 minuta. Koliko je zabilježeno minimalno, a koliko maksimalno vrijeme putovanja, koliko te vrijednosti odstupaju od prosječne (poznate) vrijednosti – kolika je standardna devijacija kako bi znali je li prosječna vrijednost od 15 minuta zaista dobro opisuje (reprezentira) vrijeme putovanja. Možemo li samo s jednim brojem dobiti neku bolje procjenu?
Ruski matematičar Andrej Andrejevič Markov (1856.–1922.) dao nam je pozitivan odgovor. Puno je poznatiji po opisu stohastičkog procesa u kojem buduće stanje ovisi samo o trenutnom stanju i neovisno je o svakom prijašnjem stanju. ; taj niz stanja se naziva Markovljev lanac, a u ovoj temi opisao sam jedan primjer korištenja u prometu.

Markovljeva nejednakost daje nam gornju granicu vjerojatnosti da vrijednost slučajne veličine bude veća ili jednaka od nekog pozitivnog broja – prijeđe zadani prag. Naglasak je na gornju granicu, odnosno nejednakost možemo primijeniti jedino u tom slučaju.

     \small $$ P(X \geq a) \leq \frac{\mathbb{E}[X]}{a}  $$ \\

Internet najčešće spominje primjere vremena putovanja. Prosječno putujemo 40 minuta i kolika je vjerojatnost da ćemo putovati 60 minuta? Gospodin Markov je dokazao da je vjerojatnost ne veća od 66,7 %:

     \small \[ P(X \geq 60) \leq \frac{40}{60} = 0,667.  \] \\

Korištenje ću pokazati na konkretnom primjeru. Svi (iz područja cestovnog prometa) koristimo brojanja prometa tvrtke Hrvatske ceste d.o.o.. Uzet ću podatke s dva brojila prometa. Jedno je automatsko brojilo prometa 1947 Bestovje zapadno od Zagreba, a drugo je automatsko brojilo 6601 Zaton, sjeverozapadno od Dubrovnika.

U 2023. godini na brojilu prometa 1947 Bestovje dostupna su dva opća podatka:

  • PGDP = 8.916 voz/dan; prosječni godišnji dnevni promet (PGDP),
  • PLDP = 6.477 voz/dan; prosječni ljetni dnevni promet (PLDP; srpanj i kolovoz).

Promet na razini godine je veći od ljetnog prometa. Cesta je lokalni vezni koridor zapadnog područja prema Zagrebu, nije ljetni turistički pravac i zato je puno manje vozila ljeti kada su godišnji odmori.
U ovom slučaju moramo biti posebno oprezni jer podatak o PGDP nije vjerodostojan pokazatelj što se zbiva u van ljetnom periodu. Koliko zaista prosječno vozila ima tijekom godine kada nisu uračunati ljetni mjeseci? Veličina PGDP nam to ne pokazuje. Iz veličina PGDP i PLDP možemo dobiti veličinu van ljetnog prometa, dnevni prosjek za 10 mjeseci bez srpnja i kolovoza, nazovimo je van ljetni prosječni dnevni promet (VPDP) i ta vrijednost je VPDP = 9.415 voz/dan.

Što možemo s Markovljevom vjerojatnosti? Ostali raspoloživi podatci pokazuju da je maksimalni dnevni promet iznosio oko 14.000 voz/dan. Markovljeva nejednakost može uputiti na određene zaključke. Vjerojatnost da ćemo doseći maksimalan dnevni promet je:

     \small \[ P(X_{VPDP} \geq 14.000) \leq \frac{VPDP}{14.000} = \frac{9.415}{14.000}=0,673  \]

ili da ćemo tijekom godine zasigurno doseći maksimalan promet. Zašto nam uopće treba nejednakost kojom smo izračunali da je iza prosječnog dana vjerojatnost pojave maksimalnog dana u godini 67,3 %? Markovljeva nejednakost nije precizna, ponekad čak ni blizu, ali jasno pokazuje u kojem smjeru proces/pojava ide i što (ne) možemo očekivati. Nije idealno, ali svakako puno bolje i vjerodostojnije nego davati (nabacivati) paušalne procjene. Po ljeti možemo očekivati manju vjerojatnost da se pojavi količina prometa jednaka dnevnom godišnjem maksimumu iz 2023. godine:

     \small \[ P(X_{PLDP} \geq 14.000) \leq \frac{PLDP}{14.000} = \frac{6.477}{14.000}=0,463  \]

Možda ćemo imati neke promjene zbog kojih će se propusna moć smanjiti i procjena je da bi kod dnevnog prometa većeg od 10.500 voz/dan došlo do većih poremećaja. Vjerojatnost da se to dogodi u van ljetnim mjesecima i po ljeti je:

     \small \[ P(X_{VPDP} \geq 10.500) \leq \frac{VPDP}{10.500} = \frac{9.415}{10.500}=0,897  \] \[  P(X_{PLDP} \geq 10.500) \leq \frac{PLDP}{10.500} = \frac{6.477}{10.500}=0,617  \]

pa je jasno da moramo pripremiti adekvatne mjere privremene regulacije prometa i zacrtane promjene izvesti tijekom ljetnih mjeseci.

Možemo i okrenuti priču. Za koju količinu prometa tijekom ljeta postoji vjerojatnost 50 % ili manja za porast od prosječne vrijednosti ljetnog prometa?

     \small \[ P(X_{PLDP} \geq a) \leq \frac{PLDP}{a} \Rightarrow a=\frac{6.477}{0,500}=12.954  \]

Odgovor je da postoji najaviše 50 % vjerojatnosti da će promet tijekom ljeta porasti s prosječnog ljetnog prometa (PLDP) na 12.950 voz/dan.

Brojilo 6601 Zaton se nalazi sjeverozapadno od Dubrovnika i ljetni mjeseci su najvažniji (i najkritičniji) dio godine, što pokazuju i podatci za 2023. godinu:

  • PGDP = 10.221,
  • PLDP = 17.394.

Budući da se maksimalni promet tijekom ljetnih mjeseci procjenjuje na oko 21.000 voz/dan, vjerojatnost dosizanja tog praga je:

     \small \[ P(X_{PLDP} \geq 21.000) \leq \frac{PLDP}{21.000} = \frac{17.934}{21.000}=0,828.  \]

Ako nešto moramo raditi na dionici i procjena propusne moći za održiv promet je oko 15.000 voz/dan, onda možemo procijeniti vjerojatnost da nećemo preći taj prag. Van ljetni promet je puno niži, VPDP = 8.760 pa možemo izračunati vjerojatnost da nećemo preći 15.000 voz/dan:

     \small $$ P(X_{VPDP} < 15.000) \geq 1-P(X_{VPDP} \geq 15.000)= $$ $$ =1-\frac{8.760}{15.000} =1-0,584=0,416  $$

što ukazuje da u van ljetnom periodu možemo obaviti radove. Ipak, moramo pripremiti dobro rješenje privremene regulacije prometa jer se nalazimo u području kockarskih uvjeta bacanja novčića (fifty-fifty) i vjerojatne su neodržive prometne situacije.

Glede vremena putovanja, idemo napraviti jedan životniji (ozbiljniji) primjer od uvodnoga. Prosječno vrijeme putovanja autobusa do željezničke stanice na nekoj dionici je 23 minute, a prihvatljiva maksimalna vrijednost je 28 minuta, jer vlak polazi nakon 30 minuta i putnicima su potrebne dvije minute za transfer s autobusa na vlak. Vjerojatnost kašnjenja na vlak nije veća od:

     \small \[ P(X \geq 28) \leq \frac{23}{28} = 0,821  \]

što pokazuje da pet minuta varijabilnog vremenskog prozora moguće i nije dostatna pričuva, posebice ako postoji puno stvarnih i(li) potencijalnih frikcijskih elemenata po pitanju održanja vremena putovanja autobusa.

Markovljeva nejednakost, koliko god izgledala banalna, nije „bez vraga“, što je pokazalo i ovih par primjera. Na postulatima teorije vjerojatnosti možemo približno pretpostaviti (ocijeniti) neke procese, puno pouzdanije od ikakvih „stručnih procjena“ zasnovanih na argumentima strahopoštovanja i(li) argumentima pozivanja na tradiciju, o čemu sam pisao u ovoj temi.

Za korak unaprijed moramo se vratiti povijesni korak unatrag do profesora koji je učio Andreja Andrejeviča Markova. Radi se o isto velikom ruskom matematičaru Pafnutij Ljvovič Čebišovu (1821. – 1894.). Iz nekog razloga hrvatska stručna literatura dominantno piše „Čebišev“ pa ću se i ja prikloniti tom (ne)pismenom naslijeđu.
Ako uz matematičko očekivanje (srednju vrijednost) poznajemo i varijancu onda možemo puno preciznije odrediti odstupanja slučajne veličine od srednje vrijednosti. Inženjeri vole jednostavnije stvari pa se nejednakost lako transformira u procjenu odstupanja slučajne veličina za određeni broj standardnih devijacija. Čebiševljeva nejednakost glasi:

     \small \[ P(|X-\mu| \geq \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}  \] \[ (\varepsilon = k\sigma, k > 1) ) \Rightarrow P(|X-\mu|\geq k \sigma) \leq \frac{1}{k#2} \] \[ P(|X-\mu| < k \sigma) > 1 - \frac{1}{k^2} \]

Nejednakost nije definirana u slučaju kada je apsolutna vrijednost razlike slučajne veličine i matematičkog očekivanja (srednje vrijednosti) manja od jedne standardne devijacije.

Za brojilo prometa 1947 Bestovje poznati su još neki podatci (satne razdiobe tijekom godine) pa se (vrlo) grubo može izračunati (procijeniti) standardna devijacija od 1.434 voz/dan. Glede dosizanja maksimalnog prometa, odnosno uvjeta gdje će se promet iz VPDP = 9.415 povećati na 14.000 ili za 3,2 standardne devijacije:

     \small \[ P(|14.000 - VPDP| \geq 3,2 \cdot 1.434) \leq \frac{1}{3,2^2}=0,098  \]

Markovljeva nejednakost je govorila o vjerojatnosti od 67,3 %, a ovdje smo uz dodatni parametar (standardna devijacija) još više snizili prag vjerojatnosti na malih 9,8 %. Dani s najvećim prometnim opterećenjem u godini se „ne događaju svaki dan“ pa je shodno tome i vjerojatnost pala na primjerenu razinu.
Za Bestovje smo još računali vjerojatnosti kada je bolje napraviti neke radove zbog pada propusne moći

     \small \[ P(|10.500 - VPDP| \geq 0,76 \cdot 1.434) \Rightarrow k < 1  \] \[  P(|10.500 - PLDP| \geq 2,81 \cdot 1.434) \leq \frac{1}{2,81^2}=0,127  \]

Ne možemo izračunati za van ljetni period jer je apsolutna vrijednost razlike između slučajne veličine i matematičkog očekivanja manja od jedne standardne devijacije. U ljetnim uvjetima nejednakost pokazuje malu vjerojatnost da bi dosegli neželjenu razinu prometa; Markovljeva nejednakost je dala procjenu 61,7 %. Čebiševljeva nejednakost s pragom vjerojatnosti od 12,7 % potvrđuje opravdanost izvedbe radova ljeti.

Čebiševljeva nejednakost se može izreći i na drugi način. Za bilo koji skup podataka (uzorak ili populaciju) sa srednjom vrijednosti μ i neku veličinu k > 1, najmanje p% podataka leži unutar vrijednosti [μ – kσ, μ + kσ] gdje je

     \small \[ P(X \in (\mu - k\sigma, \mu + k\sigma )) =   \] \[ = P(|X-\mu| < k \sigma) \geq 1 - \frac{1}{k^2}=p, \; k=\frac{|X - \mu|}{\sigma}.  \]

Inženjeri najčešće koriste Čebiševljevu nejednakost upravo na taj način. Ako u primjeru javnog prijevoza (autobus i vlak) pretpostavimo standardnu devijaciju 2 minute, dobivamo:

     \small \[ P(|28 - 23| < 2,5 \cdot 2) \geq 1 - \frac{1}{2,5^2}=0,84   \]

vjerojatnost da se 84 % svih putovanja vjerojatno događa u intervalu [18, 28] minuta. Iznad 28 minuta, ako govorimo o simetričnoj distribuciji, vjerojatno se događa 8 % svih putovanja. Godina ima oko 250 radnih dana pa možemo računati da će godišnje 20 radnih dana putnici u autobusu kasne na vlak (posao). Ako želimo to svesti na manje od 10 dana, onda nam Čebiševljeva nejednakost govori da trebamo uzeti raspon od četiri standardne devijacije jer će nam tada kašnjenje vjerojatno biti oko 3 % svih putovanja, što je 7 – 8 radnih dana u godini. Četiri standardne devijacije upućuju na 8 minuta iznad srednje vrijednosti pa ili autobus mora krenuti 33 minute ranije, ili vlak treba imati vremensku pričuvu od 3 – 4 minute za kasniji polazak. Razvijeni sustavi integriranog prijevoza putnika imaju osigurane vremenske prozore i za čekanje vlaka na autobus u kašnjenju.

Markovljeva i Čebiševljeva nejednakost vrijede za sve distribucije pa njihovo korištenje (primjena) predstavlja spas kada treba brzo (i vjerodostojno) procijeniti neku pojavu u prometu.

U ovoj temi je limun bio povelik, jedan i(ili) dva pokazatelja, ali ipak smo složili pristojnu limunadu, moguće malo (pre)kiselu, ali nismo ostali žedni, koliko-toliko okrijepili smo druge i sebe. Opisane nejednakosti nam pružaju mogućnost (udobnost) da neke opće zaključke ne „izvlačimo iz rukava“, ne zazivamo tradiciju i svoje (pre)bogato „iskustvo“, već da uz pomoć dosega teorije vjerojatnosti utvrdimo u kojem smjeru se kreće neka pojava koju analiziramo. Ako ništa drugo, barem znamo jesmo li na pravoj/krivoj strani smjera rješenja. A to je, za početak, već jako puno.