logo-final-cisto copy 2
Search
Close this search box.

Zdenko Lanović

PROMIŠLJANJA INŽENJERA PROMETA

Od nesigurnih rezultata do pouzdanog dokaza

PROMET: 1
MATEMATIKA: 2
RAČUNARSTVO: 0

Kako kvantitetu (dvojbenih) rezultata pretvoriti u pouzdan zaključak.

Nedavno sam kupio knjigu Kita Yatesa: Matematika života i smrti. Prije mnogo godina upoznao sam tragičnu sudbinu Sally Clark (najčešće se koristi kao primjer zlouporabe matematike) i od tada pomalo opsesivno tražim primjere (ne)dobronamjerne (zlo)uporabe matematike u stvarnom životu pa sam knjigu kupio „pod normalno“. Na temu me ponukao jedan kontraintuitivni matematički primjer iz knjige.

U životu velika većina nas zastupa stajalište da ako imamo dva dokaza ili testa koji su sami po sebi granični (sumnjivi), njihovim spajanjem povećavamo količinu sumnje pa time ne možemo doći do pouzdanog zaključka. Knjiga pokazuje da matematička logika i teorija vjerojatnosti otkrivaju suprotnu (kontraintuitivnu) istinu: dva testa s dvojbenim rezultatima mogu dati pouzdan odgovor (zaključak). Kada analiziramo neki problem koristeći više neovisnih izvora informacija, čak i ako je svaki izvor nesavršen, njihova sinergija omogućuje nam da prepoznamo podatke koje nas vode nepobitnom zaključku.

Zašto griješimo? Naš mozak često tretira nepouzdanost kao binarnu kategoriju i zato naša intuicija funkcionira po načelu “lanac je jak onoliko koliko je jaka njegova najslabija karika“. Ako dodamo još jednu “slabu kariku“ mislimo da samo produžujemo slabi lanac. Međutim, u svijetu vjerojatnosti dokazi ne funkcioniraju kao karike u lancu, već kao slojevi prozirnog papira. Svaki sloj sam po sebi može biti previše tanak da bi stvorio jasnu sliku, ali kada složimo nekoliko takvih slojeva jedan na drugi obrisi postaju jasni i nesporni. Statistički gledano, spajanje nekoliko istraživanja, koja sama po sebi nisu odlučujuća, često omogućuje izvlačenje statistički značajnih i vrlo čvrstih zaključaka.

Za uvod ću copy-paste primjer iz knjige. Želimo utvrditi je li kocka poštena (pojava svakog broja ima vjerojatnost 1/6) ili je namještena (weighted) tako da šestica pada u čak 50% slučajeva. Prije početka pretpostavljamo da su oba scenarija jednako vjerojatna. Započinjemo s prvim testom i bacamo kocku 60 puta. Kod poštene kocke očekivali bismo prosječno 10 šestica, dok bismo kod namještene očekivali 30 šestica. Nakon 60 bacanja dobili smo 21 šesticu. Rezultat je negdje „u sredini“, ali je ipak 20 puta vjerojatnije da je takav ishod došao od namještene kocke. Vjerojatnost da je kocka namještena je 96%. Visok postotak, ali još uvijek ima prostora za sumnju. Provedemo i drugi test s dodatnih 60 bacanja i dobijemo 20 šestica. Ako drugi test promatramo izolirano, on je manje uvjerljiv od prvog – vjerojatnost pristranosti je 82%. Mogući zaključak: prvi put visoka vjerojatnost, drugi puta puno manje pa zbog nekonzistentnih rezultata nemamo odluku o poštenoj/pristranoj kocki. Ako smo oba bacanja proveli u istim uvjetima, a jesmo, matematika kaže da se podaci mogu (i moraju) kombinirati. Kada spojimo oba testa, dobivamo ukupno 120 bacanja s 41 šesticom. Za poštenu kocku očekivani broj šestica u 120 bacanja je 20, a mi smo dobili 41 – više nego dvostruko. Vjerojatnost da će poštena kockica dati 41 šesticu u 120 bacanja je ekstremno mala, a rezultat kombiniranog testa pokazuje da je vjerojatnost da je kocka namještena sada veća od 99%.

Ono što je mnogima (uključujući i mene) neshvatljivo (kontraintuitivno) da je drugi test, koji je sam po sebi bio manje uvjerljiv, zapravo pojačao ukupni dokaz. Spajanje dva manje uvjerljiva istraživanja rezultiralo je ishodom koji je daleko uvjerljiviji od svakog pojedinačnog testa. Tko ne vjeruje, najlakše će se uvjeriti kupnjom knjige ili pretraživanjem Interneta u potrazi za istim/sličnim primjerom. Najbrže i najjeftinije, malo koncentracije i korištenja binomne razdiobe.

Matematika nam potvrđuje da se ne moramo bojati kvantitete graničnih (sumnjivih) dokaza, jer njihovim objedinjavanjem eliminiramo „šumove“. Svaki neovisni test koji daje rezultat usmjeren u istom pravcu, bez obzira na to koliko bio nesiguran, dodaje novi sloj informacija. Kumulativni efekt neovisnih opažanja najmoćniji je alat koji imamo za borbu protiv neizvjesnosti, pretvarajući “sumnjive” parcijalne dokaze u objektivnu i provjerljivu stvarnost.

Za primjer iz prometnog inženjerstva uzet ću parkirni sustav:

  • područje s 300 parkirnih mjesta
  • uveli smo tarifni sustav kojim želimo imati na raspolaganju u svakom trenutku najmanje 5 % parkirnih kapaciteta;
  • svaki vozač u bilo koje doba dana trebao bi imati ponudu od barem 15 slobodnih mjesta,

i trebamo provjeriti je li novi tarifni sustav opravdao očekivanja – nudi li se prosječno 15 slobodnih parkirnih mjesta?

Prati se parkiranje svakog radnog dana od 6:00 do 21:00 sat. Imamo 16 mjerenja u danu i koeficijent varijacije manji od 0,15. Za ocjenu postoji li statistički značajna razlika između izmjerene srednje vrijednosti slobodnih mjesta i zadane norma koristim t-test. T-test je prikladan za mali uzorak (n < 30) s niskim koeficijentom varijacije (CV < 0,20) jer niska varijabilnost osigurava približnu normalnost distribucije, zadovoljavajući ključnu pretpostavku testa prema središnjem (centralnom) graničnom teoremu. T-test je robustan čak i za male uzorke kada su podaci homogeni, nudeći veću statističku snagu i preciznu procjenu aritmetičke sredine. Zato je u prometnom inženjerstvu t-test prihvatljiv za ovakve slučajeve zbog jednostavnosti implementacije u Excelu i jasne interpretacije rezultata. Budući je ovo blog, a sama tema motivacijska/ilustracijska, (ne)argumentirano ću, temeljem prethodnog obrazloženja, koristiti t-test, bez dubljeg obrazloženja zašto ne koristim Wilcoxonov signed-rank test (testira medijan umjesto srednje vrijednosti) ili z-test (za n > 30 normalno distribuirane), ili neki treći. Naravno, koristim jednosmjeran test jer:

  • analiziram (ne)uspjeh tarifnog sustava za premali broj slobodnih mjesta,
  • povećavam osjetljivost testa na jednom kraju distribucije (premali broj slobodnih mjesta),
  • jednosmjerni test ima nižu kritičnu granicu – stroža kontrola.

Provode se mjerenja jedan mjesec. Mjesec ima prosječno 21 radni dan i rezultati su prikazani u tablici (crveno su sati s manje od 15 slobodnih mjesta)

Iz tablice možemo zaključiti da je svaki radni dan postignut cilj. Vrijednost t-testa je negativna pa se gleda je li ispunjen uvjet da je apsolutna praktična t-vrijednost je manja od apsolutne kritične (teoretske) t-vrijednosti, pri razini signifikantnosti 0,95 (5 % vjerojatnosti za grešku tipa I – pogrešno odbijanje istinite nulte hipoteze). Standardna devijacija je mala i koeficijenti varijacije nisu veći od 15 %; jedino 2. dan ima 18 %. Ispunjeni su uvjeti u kojima je opravdano koristiti t-test. Iako je prosječan broj slobodnih mjesta manji od 15, nije dovoljno da ga pojedinačni dnevni test kazni. Možemo prihvatiti nultu hipotezu: prosječan broj slobodnih mjesta u tarifnom sustavu nije statistički značajno manji od propisanog broja.

Budući se radi o radnim danima, (pod)jednakim uvjetima možemo gledati svih 336 promatranja kao jedan skup i tom slučaju t-test pokazuje drugo rješenje. Praktična t-vrijednost (t-vrijed = -7,911) je manja od teoretske (t_krit = -1,649) i ne može se prihvatiti nulta hipoteza. Budući je razlika između ove dvije vrijednosti gotovo pet puta, radi se o statistički značajnoj razlici i nepobitno možemo ustvrditi da novi tarifni sustav nije ispunio željeni cilj. Tablica pokazuje jako male dnevne razlike između praktičnih i teoretskih vrijednosti. Rezultati su rubni, granični („nategnuti“), ali se na razini svakog dana ne može odbaciti nulta hipoteza. Cijeli niz tih rubnih rezultata nisu se pretočili u ukupnu potvrdu, nego obrnuto – u nepobitan dokaz neispunjenja zadanog cilja.

I što sad? Pragmatičan odgovor je vrlo jednostavan. Novi cilj je barem 14 parkirnih mjesta i u tom slučaju dnevni i ukupni t-test ukazuju na prihvaćanje nulte hipoteze. Za održanje prvotnog cilja od 15 slobodnih mjesta morat će se još malo zaoštriti tarifna politika (opće poskupljenje usluge ili ukidanje nekih opcija povlaštenih parkirnih karata), uz primjernu alternativu (npr. poboljšanje javnog prijevoza).

Može se prigovoriti da nisu svi radni dani jednaki. Ponegdje je velika razlika petkom naspram ostalih dana. Provjerit ćemo tri ista radna dana u tjednu: 1. 8. i 15.. Rezultat je isti; ako se zajedno promatraju jednaki dani u tjednu zajedno imamo čvrsti argument o neprihvaćanju nulte hipoteze.

U ovom primjeru poklopile su se dvije istine: matematička i narodna. Matematika (statistika) nam kaže da možemo (i moramo) slobodno proširiti skup uzoraka, a narodna istina nam govori kroz poslovicu: više očiju bolje vidi.

Je li ovo cjepidlačenje? Možda se može i tako nazvati. Do trenutka kada investitor (odgovorna osoba za financiranje) dovede svog stručnjaka ili Vam predstavi ovakav (ili sličan) izračun. Nakon toga „cjepidlačenja“ dobivate (opravdanu) ocjenu površnog stručnjaka (inženjera) koji nije predstavio cjelovite rezultate istraživanja i analize projekta. Je li gubitak vjerodostojnosti, autoriteta i statusa na tržištu vrijedan sitnog dodatnog napora napraviti posao (izračun) do kraja, procijenite sami.